Formatos de ficheros Big Data

Formato: Textfile El formato Textfile es el formato de almacenamiento más simple de todos y es el predeterminado para tablas en sistemas Hadoop. No es más que texto plano donde los campos se almacenan separados por un delimitador y cada registro es separado por una...

Leer y escribir RDDs en Scala

Leer RDDs Ejemplo de lectura de RDDs en Scala val rdd2 = sc.textFile(«hdfs:///mitabla_hdfs/») rdd2.collect() res: Array[String] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)   Escribir RDDs Ejemplo de escritura de RDDs en Scala val rdd =...

Apache Sqoop

Definición de Sqoop Apache Sqoop es una herramienta de línea de comandos desarrollada para transferir grandes volúmenes de datos de bases de datos relacionarles a Hadoop, de ahí su nombre que viene de la fusión de SQL y Hadoop. Concretamente transforma datos...

Apache Solr

Definición de Solr Apache Solr es un motor de búsqueda implementado en Java, basado en Lucene, con una API REST (XML/HTTP) y otra JSON. Solr tiene como objetivo mejorar las búsquedas y la navegabilidad de los sitios web de elevado volumen de tráfico. Este motor de...

Big data – Herramientas de gestión del cluster

Gestores de aplicaciones y recursos big data Hadoop Map-Reduce es un gestor de recursos distribuidos y procesamiento de datos. Proporciona una infraestructura de programación que proporciona algoritmos para realizar los cálculos distribuidos. YARN es un sistema...