Apache Sqoop Ejemplos

Prerequisitos Los prerequisitos para estos ejemplos son los mismos que para el anterior post de Sqoop. En estos ejemplos se crea una base de datos «mibbdd» y una tabla con valores introducidos «mitabla» y otra tabla vacía «mitabla2».   Ejemplo de Carga de datos de MySQL a HDFS (compresión: snappy y formato avro) $ sqoop import…

Read More »

Apache Sqoop

Definición de Sqoop Apache Sqoop es una herramienta de línea de comandos desarrollada para transferir grandes volúmenes de datos de bases de datos relacionarles a Hadoop, de ahí su nombre que viene de la fusión de SQL y Hadoop. Concretamente transforma datos relacionarles en Hive o HBase en una dirección y en la otra de…

Read More »

Apache Solr

Definición de Solr Apache Solr es un motor de búsqueda implementado en Java, basado en Lucene, con una API REST (XML/HTTP) y otra JSON. Solr tiene como objetivo mejorar las búsquedas y la navegabilidad de los sitios web de elevado volumen de tráfico. Este motor de búsqueda Solr es altamentente escalable y tolerante a fallos. Proporcionando indexación…

Read More »

Spark Streaming (procesamiento por lotes y tiempo real)

Definición de Spark Streaming Apache Spark Streaming es una extensión de la API core de Spark, que da respuesta al procesamiento de datos en tiempo real de forma escalable, con alto rendimiento y tolerancia a fallos. Spark Sreaming fue desarrollado por la Universidad de California en Berkeley, actualmente Databrinks la que se encarga de dar…

Read More »

Apache Flink (procesamiento por lotes y tiempo real)

Definición de Flink Apache Flink es un motor nativo de procesamiento de flujos de datos de baja latencia, que proporciona capacidades de distribución de datos comunicación y tolerancia a fallos. Flink fue desarrollado en Java y Scala por la Universidad Técnica de Berlin y actualmente es la start-up Data Artisans la que se encarga de…

Read More »

Storm

Definición de Storm Apache Storm es un sistema de computación distribuida en tiempo real de baja latencia y de alta disponibilidad basado en la arquitectura maestro-esclavo. Storm es ideal para trabajar con datos que necesitan ser analizados en tiempo real donde la latencia es una variable a tener muy en consideración, ejemplo de ello serían…

Read More »

Apache Flume

Definición de Flume Apache Flume es un servicio distribuido que mueve de forma fiable y eficiente grandes cantidades de datos, especialmente logs. Ideal para aplicaciones de analíticas en línea en entornos Hadoop. Flume tiene una arquitectura sencilla y flexible basada en flujos de datos en streaming, que permite construir flujos de múltiples por donde viajan los…

Read More »

Zookeeper

Definición de Zookeeper Zookeeper proporciona un servicio para la coordinación de procesos distribuidos altamente confiable, con el fin de dar solución a problemas de coordinación para grandes sistemas distribuidos. Servicios proporcionados por Zookeeper: Compartir configuraciones comunes. Administrar la pertenencia o no al clúster. Ayuda en las elecciones. Compartir locks del sistema. Nota: se recomienda que…

Read More »

Apache Kafka

Definición de Kafka Apache Kafka es un sistema de intermediación de mensajes basado en el modelo publicador/suscriptor. Se considera un sistema persistente, escalable, replicado y tolerante a fallos. A estas características se añade la velocidad de lecturas y escrituras que lo convierten en una herramienta excelente para comunicaciones en tiempo real (streaming). Proporciona multitud de…

Read More »

Apache Nifi

Definición de Nifi Apache NiFi es una plataforma integrada de procesamiento y logística de datos en tiempo real, para automatizar el movimiento de datos entre diferentes sistemas de forma rápida, fácil y segura. Apache Hifi es una herramienta ETL que se encarga de cargar datos de diferentes fuentes, los pasa por un flujo de procesos…

Read More »