BD
Resumen Base de datos
Volver al Hub de materias

NoSQL y Procesamiento
Pipeline ETL

Nuevos paradigmas frente a la masividad de datos web. Análisis del enfoque "Not Only SQL" y los ciclos de limpieza de datos para la generación de valor comercial.

1. El Paradigma NoSQL

SCHEMA-LESS

Las bases de datos NoSQL (acrónimo de Not Only SQL) surgen ante la necesidad de manejar información no estructurada generada masivamente en la web, donde el modelo relacional tradicional resulta inapropiado.

VENTAJAS CLAVE
  • Escalabilidad: Capacidad nativa de aumentar el poder de procesamiento horizontalmente ante volúmenes masivos de datos.
  • Flexibilidad (Schema-less): Al no existir un esquema rígido predefinido, se pueden moldear y agregar nuevos atributos sin afectar los registros ya establecidos.
DESVENTAJA PRINCIPAL

Falta de Estandarización: A diferencia de las bases de datos relacionales (que comparten el estándar SQL), el ecosistema NoSQL carece de un lenguaje uniforme, lo que dificulta la migración de un motor a otro.

2. Taxonomía de Motores NoSQL

CLASIFICACIÓN

Clave-Valor

Redis, Dynamo, Cassandra
La estructura de datos más básica. Cassandra, desarrollada originalmente por Facebook, destaca en esta categoría por su escalabilidad lineal y tolerancia a fallos en datos de misión crítica sin comprometer el rendimiento.

Documentales

MongoDB, Couchbase
Basadas en documentos (generalmente JSON). Permiten almacenar registros con cualquier estructura interna, ofreciendo modelos de indexación avanzados y enorme flexibilidad para desarrollo web.

Grafos

Neo4j, OrientDB
Diseñadas específicamente para descubrir conexiones lógicas en grandes volúmenes de datos. Optimizan las consultas relacionales altamente interconectadas que arruinarían el rendimiento de una BD tradicional.

3. Procesamiento de Datos: El Ciclo ETL

PIPELINE INTERACTIVO

El procesamiento de datos busca transformar registros crudos en información significativa (Data a Valor). La metodología estándar de la industria se divide en tres fases críticas. Presiona sobre cada fase para auditar su funcionamiento:

Herramienta de Examen: AWK

AWK es una potente herramienta de línea de comandos Unix esencial para la fase de extracción y transformación. Se basa en un paradigma de patrón-acción, permitiendo extraer, filtrar y manipular grandes volúmenes de texto estructurado de manera automatizada.