Herramientas de ingesta de datos – Big data

Las herramientas de ingesta de datos para ecosistemas Big Data se clasifican en los siguientes bloques:Herramientas de ingesta

  • Apache Nifi: herramienta ETL que se encarga de cargar datos de diferentes fuentes, los pasa por un flujo de procesos para su tratamiento, y los vuelca en otra fuente.
  • Apache Sqoop: transferencia bidireccional de datos entre Hadoop y una bases de datos SQL (datos estructurados)
  • Apache Flume: sistema de ingesta de datos semiestructurados o no estructurados en streaming sobre HDFS o HBase.

 

Por otro lado existen sistemas de mensajería con funciones propias de ingesta, tales como:Herramientas de mensajería

  • Apache Kafka: sistema de intermediación de mensajes basado en el modelo publicador/suscriptor.
  • RabbitMQ: sistema colas de mensajes (MQ) que actúa de middleware entre productores y consumidores.
  • Amazon Kinesis: homólogo de Kafka para la infraestructura Amazon Web Services.
  • Microsoft Azure Event Hubs: homólogo de Kafka para la infraestructura Microsoft Azure.
  • Google Pub/Sub: homólogo de Kafka para la infraestructura Google Cloud.

 

Comparativa de Kafka, Flume y RabbitMQ

Otros artículos que pueden ser de interés:

Autor: Diego Calvo