Herramientas de ingesta de datos – Big data

por | Jul 5, 2018 | Big data | 1 Comentario

Las herramientas de ingesta de datos para ecosistemas Big Data se clasifican en los siguientes bloques:Herramientas de ingesta

  • Apache Nifi: herramienta ETL que se encarga de cargar datos de diferentes fuentes, los pasa por un flujo de procesos para su tratamiento, y los vuelca en otra fuente.
  • Apache Sqoop: transferencia bidireccional de datos entre Hadoop y una bases de datos SQL (datos estructurados)
  • Apache Flume: sistema de ingesta de datos semiestructurados o no estructurados en streaming sobre HDFS o HBase.

 

Por otro lado existen sistemas de mensajería con funciones propias de ingesta, tales como:Herramientas de mensajería

  • Apache Kafka: sistema de intermediación de mensajes basado en el modelo publicador/suscriptor.
  • RabbitMQ: sistema colas de mensajes (MQ) que actúa de middleware entre productores y consumidores.
  • Amazon Kinesis: homólogo de Kafka para la infraestructura Amazon Web Services.
  • Microsoft Azure Event Hubs: homólogo de Kafka para la infraestructura Microsoft Azure.
  • Google Pub/Sub: homólogo de Kafka para la infraestructura Google Cloud.

 

Comparativa de Kafka, Flume y RabbitMQ

1 Comentario

  1. Samantha Mesa

    Buenas tardes, he revisado algunas de sus publicaciones, estoy desarrollando mi tema de tesis sobre herramientas de ingestión de datos con archivos xml quisiera un poco de ayuda, estoy probando la herramienta Kafka, ya la instalé e hice las pruebas de funcionamiento, pero no se como hacer para que la herramienta kafka recolecte este archivo y lo pase a hadoop

    Responder

Enviar un comentario

Tu dirección de correo electrónico no será publicada.