Captura, transformación y almacenamiento Big Data

Captura

La procedencia de grandes volumenes de datos (big data) se puede categorizar en:

  • Generados por las personas: Correos electrónicos, mensajería instantánea, redes sociales, encuestas, marketing electrónico, Web, sistema ERP, Hojas de cálculo,…
  • Transacciones de datos: Facturación, llamadas, transacciones bancarias,…
  • Máquina a máquina: Sensores, GPS,…
  • Biométrica: Secuenciación de ADN,…

 

Transformación

El proceso transformación se encarga de extraer los datos en bruto de los datos mencionados en la captura, aplicarles una serie de transformaciones de limpieza y estructuración de la información y finalmente cargarlos la base de datos, a todo este proceso se le conoce con el nombre de proceso ETL (Extract Transform Load)

Principales herramientas ETL:

  • Pentaho Data Integration (Spoon): se trata de una herramienta muy versátil de código abierto y fácil de usar. Ver ejemplos de uso de Data integration
  • Talend Open Studio: herramienta open source.
  • DataStage
  • Integration Services (SSIS)
  • Informatica Powercenter

 

Almacenamiento

Los sistemas de almacenamiento en big data son mucho más flexible, concurrente y permiten manipular volúmenes de datos de manera eficiente, por ello se decanta por tecnologías NoSQL.

Tipos de almacenamiento NoSQL

  • Clave-Valor y Columnas: Alto rendimiento y escalabilidad. Ideales para datos no estructurados.
  • Documento: Proporcionan flexibilidad. Ideales para datos semiestructurados.
  • Grafo: Alto rendimiento en consultas de relaciones de proximidad entre datos, y no para ejecutar consultas globales. Ideales para datos muy interrelacionados.

Los datos almacenados en sistemas big data deben de estar distribuidos y los cálculos sobre los datos deben de realizarse minimizando las operaciones de red, una solución muy extendida es Hadoop Distributed File System HD-FS, es un sistema de archivos distribuido, escalable y portátil para el framework de cálculo distribuido Hadoop.