Diego Calvo, Autor en Diego Calvo

Apache Sqoop

por Diego Calvo | Jul 6, 2018 | Big data, Hadoop

Definición de Sqoop Apache Sqoop es una herramienta de línea de comandos desarrollada para transferir grandes volúmenes de datos de bases de datos relacionarles a Hadoop, de ahí su nombre que viene de la fusión de SQL y Hadoop. Concretamente transforma datos...

Apache Solr

por Diego Calvo | Jul 6, 2018 | Big data, Hadoop

Definición de Solr Apache Solr es un motor de búsqueda implementado en Java, basado en Lucene, con una API REST (XML/HTTP) y otra JSON. Solr tiene como objetivo mejorar las búsquedas y la navegabilidad de los sitios web de elevado volumen de tráfico. Este motor de...

Big data – Herramientas de gestión del cluster

por Diego Calvo | Jul 5, 2018 | Big data

Gestores de aplicaciones y recursos big data Hadoop Map-Reduce es un gestor de recursos distribuidos y procesamiento de datos. Proporciona una infraestructura de programación que proporciona algoritmos para realizar los cálculos distribuidos. YARN es un sistema...

Big data – Herramientas de búsqueda de datos masivos

por Diego Calvo | Jul 5, 2018 | Big data, Hadoop

ElasticSearch: es un servidor de búsqueda de datos masivos open-source en tiempo real que proporciona almacenamiento indexado y distribuido basado en Lucene. Proporciona toda la potencia de búsqueda de Lucene para búsquedas de texto completo, pero simplifica...

Spark Streaming (procesamiento por lotes y tiempo real)

por Diego Calvo | Jul 5, 2018 | Big data, Hadoop

Definición de Spark Streaming Apache Spark Streaming es una extensión de la API core de Spark, que da respuesta al procesamiento de datos en tiempo real de forma escalable, con alto rendimiento y tolerancia a fallos. Spark Sreaming fue desarrollado por la Universidad...