Big Data

Definición

El termino big data o datos masivos hacer referencia a un volumen de datos que superaba las capacidades del software habitualmente usado para ser capturar, administrar y procesar datos.

Como la capacidad de computo es cada vez más elevada y la cifra a partir de la que se considera un conjunto de datos como big data va en aumento, en 2012 ya se fijaba la frontera en 12 terabytes.

Big data engloba los procesos de captura, transformación, almacenamiento y procesamiento de grandes cantidades de datos, estas herramientas puede trabajar con los tres tipos de datos existentes (estructurados, no estructurados y semiestructurados).

Captura

La procedencia de grandes volumenes de datos (big data) se puede categorizar en:

  • Generados por las personas: Correos electrónicos, mensajería instantánea, redes sociales, encuestas, marketing electrónico, Web, sistema ERP, Hojas de cálculo,…
  • Transacciones de datos: Facturación, llamadas, transacciones bancarias,…
  • Máquina a máquina: Sensores, GPS,…
  • Biométrica: Secuenciación de ADN,…

Transformación

El proceso transformación se encarga de extraer los datos en bruto de los datos mencionados en la captura, aplicarles una serie de transformaciones de limpieza y estructuración de la información y finalmente cargarlos la base de datos, a todo este proceso se le conoce con el nombre de proceso ETL (Extract Transform Load)

Principales herramientas ETL:

  • Pentaho Data Integration (Spoon): se trata de una herramienta muy versátil de código abierto y fácil de usar. Ver ejemplos de uso de Data integration
  • Talend Open Studio: herramienta open source.
  • DataStage
  • Integration Services (SSIS)
  • Informatica Powercenter

Almacenamiento

Los sistemas de almacenamiento en big data son mucho más flexible, concurrente y permiten manipular volúmenes de datos de manera eficiente, por ello se decanta por tecnologías NoSQL.

Tipos de almacenamiento NoSQL

  • Clave-Valor y Columnas: Alto rendimiento y escalabilidad. Ideales para datos no estructurados.
  • Documento: Proporcionan flexibilidad. Ideales para datos semiestructurados.
  • Grafo: Alto rendimiento en consultas de relaciones de proximidad entre datos, y no para ejecutar consultas globales. Ideales para datos muy interrelacionados.

Los datos almacenados en sistemas big data deben de estar distribuidos y los cálculos sobre los datos deben de realizarse minimizando las operaciones de red, una solución muy extendida es Hadoop Distributed File System HD-FS, es un sistema de archivos distribuido, escalable y portátil para el framework de cálculo distribuido Hadoop.

Arquitectura

arquitectura big data

Herramientas

Autor: Diego Calvo