Configurar clúster Hadoop (+ herramientas Big Data)

Instalar y configurar un clúster Hadoop Pseudo-Distribuido (un solo nodo) Instalar la máquina Virtual Java. Instalar Hadoop. Configurar las variables de entorno. Configurar SSH Modificar ficheros de configuración Crear directorio de datos, donde almacenar HDFS Iniciar servicio de HDFS Configurar Yarn Arrancar servicios Yarn   Instalar y configurar de HBase Descargar HBase Configurar variables de…

Autor: Diego Calvo

Read More »

Formatos de ficheros Big Data

Formato: Textfile El formato Textfile es el formato de almacenamiento más simple de todos y es el predeterminado para tablas en sistemas Hadoop. No es más que texto plano donde los campos se almacenan separados por un delimitador y cada registro es separado por una línea. Dentro de este formato dependiendo de la estructura de…

Autor: Diego Calvo

Read More »

Big data – Herramientas de gestión del cluster

Gestores de aplicaciones y recursos big data Hadoop Map-Reduce es un gestor de recursos distribuidos y procesamiento de datos. Proporciona una infraestructura de programación que proporciona algoritmos para realizar los cálculos distribuidos. YARN es un sistema operativo de datos y gestor de recursos distribuido. Evolución de Map-Reduce. Puede ejecutarse en Linux y Windows. Standalone es…

Autor: Diego Calvo

Read More »

Big data – Herramientas de búsqueda de datos masivos

  ElasticSearch: es un servidor de búsqueda de datos masivos open-source en tiempo real que proporciona almacenamiento indexado y distribuido basado en Lucene. Proporciona toda la potencia de búsqueda de Lucene para búsquedas de texto completo, pero simplifica las consultas a través de su a interfaz web RestFul.     Apache Solr es un motor…

Autor: Diego Calvo

Read More »

Big data – Herramientas de seguridad, machine learning, etiquetado, …

Herramientas de seguridad Apache Ranger es un marco para habilitar, monitorear y administrar seguridad de datos integral en toda la plataforma Hadoop. Apache Sentry es un sistema para aplicar la autorización basada en funciones de granularidad fina a datos y metadatos almacenados en un clúster de Hadoop. Knox es una aplicación Gateway para interactuar con…

Autor: Diego Calvo

Read More »

Big data – Sistemas de almacenamiento de datos masivo

Los principales sistemas de almacenamiento de datos para ecosistemas Big Data son: HDFS: sistema de almacenamiento por excelencia de Hadoop. Apache HBase: sistema de gestión de bases de datos orientado a columnas que se ejecuta sobre el HDFS y se suele utilizar para distribuir conjuntos de datos. S3: sistema de almacenamiento de Amazon, homologo a…

Autor: Diego Calvo

Read More »

Herramientas de ingesta de datos – Big data

Las herramientas de ingesta de datos para ecosistemas Big Data se clasifican en los siguientes bloques: Apache Nifi: herramienta ETL que se encarga de cargar datos de diferentes fuentes, los pasa por un flujo de procesos para su tratamiento, y los vuelca en otra fuente. Apache Sqoop: transferencia bidireccional de datos entre Hadoop y una…

Autor: Diego Calvo

Read More »

Big data – Herramientas de visualización de datos

Las herramientas de visualización de datos para ecosistemas Big Data se clasifican en los siguientes bloques:   Notebooks Jupyter Zeppelin Librerías gráficas Google Chart D3.js Plotty Herramientas de análisis gráfico Kibana Shiny Grabana Loggy Herramientas propietarias Splunk Tableau QLink Google Cloud Platform Power BI Autor: Diego Calvo

Autor: Diego Calvo

Read More »

Sistemas de mensajería – Big data

Los sistemas de mensajería proporcionan un canal de comunicación entre aplicaciones del ecosistema big data, esto sistemas suele implementar sistemas de colas, tales como: Apache Kafka: sistema de itermediación de mensajes basado en el modelo publicador/subcriptor. RabbitMQ: sistema colas de mensajes (MQ) que actua de middleware entre productores y consumidores. Amazon Kinesis: homlogo de Kafka…

Autor: Diego Calvo

Read More »

Big data – Frameworks de procesamiento de datos

Los frameworks de procesamiento de datos ecosistemas Big Data se clasifican en los siguientes bloques:   Batch – procesamiento por lotes Hadoop Map-reduce: motor de procesamiento batch o por lotes. Streaming – procesamiento en tiempo real Apache Storm Apache Samza IBM InfoSphere Apache S4 (Yahoo) Apache Tez Hibrid- procesamiento híbrido Apache Spark Streaming: motor de…

Autor: Diego Calvo

Read More »