Apache YARN

Definición de Yarn (Yet Another Resource Negociator) Yarn es un sistema operativo de datos y gestor de recursos distribuido, conocido también como Hadoop 2 ya que es la evolución de Hadoop Map-Reduce. Los cambios más significativos de Hadoop 2 sobre Hadoop 1 es que se incluye la tecnología HILO, esta tecnología proporciona una asignación de…

Autor: Diego Calvo

Read More »

Kerberos

Definición de Kerberos Kerberos es un protocolo de autenticación que permite a dos ordenadores demostrar su identidad mutuamente de forma segura. Implementado sobre una arquitectura cliente servidor y trabaja sobre la base de tiques que  sirven para demostrar la identidad de los usuarios. La autenticación entre dos ordenadores se lleva a cabo utilizando a un tercero…

Autor: Diego Calvo

Read More »

Apache Sqoop

Definición de Sqoop Apache Sqoop es una herramienta de línea de comandos desarrollada para transferir grandes volúmenes de datos de bases de datos relacionarles a Hadoop, de ahí su nombre que viene de la fusión de SQL y Hadoop. Concretamente transforma datos relacionarles en Hive o HBase en una dirección y en la otra de…

Autor: Diego Calvo

Read More »

Apache Solr

Definición de Solr Apache Solr es un motor de búsqueda implementado en Java, basado en Lucene, con una API REST (XML/HTTP) y otra JSON. Solr tiene como objetivo mejorar las búsquedas y la navegabilidad de los sitios web de elevado volumen de tráfico. Este motor de búsqueda Solr es altamentente escalable y tolerante a fallos. Proporcionando indexación…

Autor: Diego Calvo

Read More »

Spark Streaming (procesamiento por lotes y tiempo real)

Definición de Spark Streaming Apache Spark Streaming es una extensión de la API core de Spark, que da respuesta al procesamiento de datos en tiempo real de forma escalable, con alto rendimiento y tolerancia a fallos. Spark Sreaming fue desarrollado por la Universidad de California en Berkeley, actualmente Databrinks la que se encarga de dar…

Autor: Diego Calvo

Read More »

Apache Flink (procesamiento por lotes y tiempo real)

Definición de Flink Apache Flink es un motor nativo de procesamiento de flujos de datos de baja latencia, que proporciona capacidades de distribución de datos comunicación y tolerancia a fallos. Flink fue desarrollado en Java y Scala por la Universidad Técnica de Berlin y actualmente es la start-up Data Artisans la que se encarga de…

Autor: Diego Calvo

Read More »

Storm

Definición de Storm Apache Storm es un sistema de computación distribuida en tiempo real de baja latencia y de alta disponibilidad basado en la arquitectura maestro-esclavo. Storm es ideal para trabajar con datos que necesitan ser analizados en tiempo real donde la latencia es una variable a tener muy en consideración, ejemplo de ello serían…

Autor: Diego Calvo

Read More »

RabbitMQ

Definición de RabbitMQ RabbitMQ es un sistema de colas de mensajes MQ que permite comunicarse a multitud de actores entre ellos de forma rápida, segura, asíncrona y fiable. RabbitMQ actúa como middleware entre productores y consumidores de mensajes.   Características Garantiza la entrega y orden de los mensajes que se consumen, respetando el orden de llegada…

Autor: Diego Calvo

Read More »

Apache Flume

Definición de Flume Apache Flume es un servicio distribuido que mueve de forma fiable y eficiente grandes cantidades de datos, especialmente logs. Ideal para aplicaciones de analíticas en línea en entornos Hadoop. Flume tiene una arquitectura sencilla y flexible basada en flujos de datos en streaming, que permite construir flujos de múltiples por donde viajan los…

Autor: Diego Calvo

Read More »

Splunk

Definición de Splunk Splunk​​​ es una plataforma web especializada en buscar, monitorizar y analizar grandes volumenes de datos generados por las máquinas (logs) Splunk esta orientada al análisis big data en tiempo real que escala a nivel horizontal y nos premite: Identificar patrones Realizar medidas Diagnosticar problemas Business Intelligence   Autor: Diego Calvo

Autor: Diego Calvo

Read More »