sábado, 12 de marzo de 2011

Bases de datos NoSQL, una consecuencia más que una evolución

Desde hace ya unos años, las bases de datos NoSQL se han convertido en una realidad y una herramienta imprescindible para abordar ciertos tipos de problemáticas.

El que sea un modelo utilizado por muchas de las empresas de más éxito en Internet como Google, Twitter, Facebook, LinkedIn, Amazon, etc., le ha dado un aura de moda y algunas empresas se plantean su uso dejándose llevar por la novedad más que por la necesidad.

Tal está siendo el éxito que está teniendo este movimiento, que algunos se apresuran a augurar el fin de las bases de datos relacionales; posiblemente sea el mismo colectivo que pronosticó el inminente fin del Cobol hace 15 años.

El nacimiento
El término NoSQL (  Not only SQL) fue acuñado a finales de los 90 para referirse a las bases de datos distribuidas Open Source no relacionales.

Aunque no es el único ni quizá el más importante, el más conocido y llamativo es que para acceder a los datos, no se utiliza SQL sino que cada una de ellas aporta un API propietario para acceder a los datos, aunque algunas de ellas implementan un lenguaje próximo al SQL.

Con la explosión de Internet, sobre todo la web, en los 90, los requerimientos para gestionar grandes volúmenes de información, se multiplican de forma exponencial, ahora los usuarios de un sistema se miden en millones, el almacenamiento se mide en petabytes, etc. Los sistemas tradicionales no son operativos en este contexto, el concepto “distribuido” cobra un nuevo sentido.

Aunque si somos estrictos, dado que las bases de datos NoSQL serían Open Source, deberíamos excluir las comerciales, pero llevan en el mercado ya varios años soluciones “parecidas”, con diferentes grados de éxito, como podrían ser Lotus-IBM Domino, Tamino de Software AG, etc., pero digo parecidas porque, entre otras cosas, no son soluciones válidas para un modelo en Internet a gran escala.

El teorema CAP
El teorema de Brewer o CAP, dice que dado un sistema distribuido, no es posible asegurar las siguientes premisas de forma simultánea, sino solamente dos de ellas:
-          Consistencia (Consistency): Todos los nodos ven los mismos datos al mismo tiempo.
-          Disponibilidad (Availability): El fallo de uno o más nodos, no impide a los demás seguir funcionando.
-          Tolerancia al particionamiento (Partition Tolerance): El sistema continúa funcionando a pesar de pérdidas en los mensajes.

En el caso de los RDBMS, se le da más importancia a la [C] Consistencia y a la [A] Disponibilidad, que a la [P]Tolerancia al Particionamiento, mientras que en las B.D. NoSQL se da más importancia a la [P]Tolerancia al Particionamiento y en algunas ocasiones a la [A]Disponibilidad.

En este contexto, aparece el concepto BASE (Basically Available, Soft-state, Eventually consistent), como contraposición al modelo tradicional  ACID (Atomicity, Consistency, Isolation y Durability). Ahora las prioridades son otras.

Tipos de bases de datos NoSQL
Una clasificación de estas bases de datos, podría ser:
-          Clave-Valor, como por ejemplo: Dynamo (Amazon), Redis, MemcacheBD, Riak, Tokyo Cabinet o Voldemort (LinkedIn)
-          Orientadas a documentos, como por ejemplo: MongoDB o CouchDB
-          Orientadas a columnas, como por ejemplo: BigTable (Google), HBase (Hadoop), Cassandra (Facebook, Twitter) o Hypertable
-          En grafo, como por ejemplo: InfoGrid o Neo4j
-          Orientadas a objetos, como por ejemplo: db4o, Objectivity/DB o Versant

Muchas de estas bases de datos son variaciones o combinaciones de otras anteriores, dando mayor importancia a una u otra característica para obtener una solución más efectiva del problema que pretenden resolver. Un ejemplo claro de esto es Cassandra, desarrollada inicialmente por Facebook en 2008 y que la describen como un modelo de datos BigTable corriendo sobre una infraestructura de tipo Dynamo.

¿Hacia donde vamos?
Como ya decía al principio, este movimiento no implica el fin del modelo relacional ni mucho menos, de hecho, el uso de los RDBMS, sigue siendo la opción idónea para abordar muchos de los modelos de negocio.

Con la evolución y la expansión del Cloud Computing, sobre todo en su vertiente SaaS, muchos de los sistemas que soporten el negocio de las empresas en la nube, requerirán del uso de estas bases de datos NoSQL.

Los sistemas OLTP seguirán decantándose por los modelos relacionales, mientras que los OLAP, se decantarán en muchos casos por las NoSQL. Seguramente, el modelo que triunfará, será un modelo mixto.

Cuando tenemos que procesar diariamente miles de millones de peticiones, tenemos que tener en cuenta, que no todos los RDBMS son capaces de soportarlo, que el almacenamiento cobra una especial relevancia, que el escalado horizontal no siempre está disponible y que el escalado vertical de los sistemas, tiene un límite, además de un coste elevado.

Por lo general, las implementaciones de los sistemas basados en bases de datos NoSQL, permiten el uso de “Commodity Hardware” (hardware simple y barato) y un escalado horizontal prácticamente sin límites.

No hay comentarios: