Configurar clúster Hadoop (+ herramientas Big Data)

Instalar y configurar un clúster Hadoop Pseudo-Distribuido (un solo nodo) Instalar la máquina Virtual Java. Instalar Hadoop. Configurar las variables de entorno. Configurar SSH Modificar ficheros de configuración Crear directorio de datos, donde almacenar HDFS Iniciar servicio de HDFS Configurar Yarn Arrancar servicios Yarn   Instalar y configurar de HBase Descargar HBase Configurar variables de…

Read More »

Ejemplo de productor consumidor en Kafka (Hortonworks), modificando ficheros de configuración

Prerequisitos Tener instalado Hortonworks (Virtual Box) para Spark Visionar el ejemplo de Hola Mundo.   Configurar ficheros productora/consumidor kafka Copiar ficheros de configuración para pruebas Desde la linea de comandos acceder la carpeta donde se guardan los ficheros de configuracion cd /usr/hdp/current/kafka-broker/conf ls connect-console-sink.properties    kafka_client_jaas.conf                            connect-console-source.properties  kafka-env.sh                                      connect-distributed.properties     log4j.properties                                  connect-file-sink.properties       producer.properties                              …

Read More »

Hola mundo en Kafka y Hortonworks

Prerequisitos Tener instalado Hortonworks (Virtual Box) para Spark   Arrancar kafka Antes de empezar evidentemente es necesario tener arrancada la máquina virtual de Hortonworks Acceder a Ambari Acceder al servicio de Kafka Arrancar el servicio mediante el botón de start de arriba a la derecha   Acceder por SSH a la consola Hortonworks Se puede…

Read More »

Comparativa Kafka, Flume y RabbitMQ

Apache Kafka Apache Flume RabbitMQ Definición Apache Kafka es un bus de mensajes optimizado para los flujos de datos de alta entrada y la repetición Apache Flume es un servicio distribuido que mueve de forma fiable y eficiente grandes cantidades de datos, especialmente logs RabbitMQ es un sistema de colas de mensajes MQ que permite…

Read More »

Apache Kafka

Definición de Kafka Apache Kafka es un sistema de intermediación de mensajes basado en el modelo publicador/suscriptor. Se considera un sistema persistente, escalable, replicado y tolerante a fallos. A estas características se añade la velocidad de lecturas y escrituras que lo convierten en una herramienta excelente para comunicaciones en tiempo real (streaming). Proporciona multitud de…

Read More »