Big data – Sistemas de almacenamiento de datos masivo

Los principales sistemas de almacenamiento de datos para ecosistemas Big Data son:

  • HDFS: sistema de almacenamiento por excelencia de Hadoop.
  • Apache HBase: sistema de gestión de bases de datos orientado a columnas que se ejecuta sobre el HDFS y se suele utilizar para distribuir conjuntos de datos.
  • S3: sistema de almacenamiento de Amazon, homologo a HDFS.
  • Kudo: gestor de almacenamiento de bases de datos orientado a columnas para Cloudera.
  • ElasticSearch: servidor de búsqueda open-source en tiempo real que proporciona almacenamiento indexado y distribuido
  • Casandra: base de datos No-Sql orientada a columnas.
  • MongoDB: base de datos No-Sql orientada a documentos.
  • MariaDB: base de datos No-Sql orientada a columnas.

 

Las consultas sobre HDFS son complejas y engorrosas de escribir, por ellos existe aplicaciones de más alto nivel que proporcionan una capa de abstracción para facilitar la comunicación, estas son:

  • Apache Hive: infraestructura de almacenamiento de datos distribuida que se construye sobre Hadoop para proporcionar agrupación, consulta, y análisis de datos. Convierte las sentencias SQL o Pig en un trabajo de MapReduce.
  • Apache Impala: alternavita a hive utilizada por Cloudera. Motor de consultas SQL para el procesamiento masivo en paralelo (MPP) de los datos almacenados en un clúster Hadoop.
  • Apache Pig: lenguaje de alto nivel para realizar codificación MapReduce. Convierte una descripción de alto nivel de cómo deben ser procesados los datos en “Jobs” de MapReduce, sin necesidad de tener que escribir largas cadenas de jobs cada vez, mejorando la productividad de los desarrolladores.

 

El almacenamiento en HDFS se puede llevar a cabo utilizando diferentes formatos (Textfile, Sequence File, Parquet, Avro o ORC) y diferentes tipos de compresión (snappy, gzip, deflate, bzip2 o zlib)

Otros artículos que pueden ser de interés:

Autor: Diego Calvo