Leer Json en Scala

Leer Json de cadena de texto Ejemplo simple de lectura de Json a partir de una cadena de texto val events = sc.parallelize( «»» [{«accion»:»create»,»tiempo»:»2018-08-07T00:01:17Z»}, {«accion»:»create»,»tiempo»:»2018-08-07T00:01:17Z»}] «»» :: Nil) val df = sqlContext.read.json(events) df.printSchema() df.show() root |– accion: string (nullable = true) |– tiempo: string (nullable = true) +——+——————–+ |accion| tiempo| +——+——————–+ |create|2018-08-07T00:01:17Z| |create|2018-08-07T00:01:17Z| +——+——————–+…

Read More »

Conectar con Scala al HDFS de Hadoop

Escribir datos en HDFS Ejemplo de como escribir datos RDD en un HDFS de Hadoop. // Borrar el fichero si es que existe import scala.sys.process._ «hdfs dfs -rm -r /pruebas» ! // Grabar un RDD en HDFS val rdd = sc.parallelize(List(     (0, 60),     (0, 56),     (0, 54),     (0, 62),     (0,…

Read More »

HDFS – Formato, compresión y descompresion en Scala

Muestra una serie de ejemplos de compresión y descompresión de archivos en diferentes formatos tanto de representación como de compresión. Comprimir archivos Json val rdd = sc.parallelize( Array(1, 2, 3, 4, 5) ) // Definir RDD val df = rdd.toDF() // Transformar a df df.write.mode(«overwrite»).format(«json»).save(«hdfs:///formats/file_no_compression_json») df.write.mode(«overwrite»).format(«json»).option(«compression», «gzip»).save(«hdfs:///formats/file_with_gzip_json») df.write.mode(«overwrite»).format(«json»).option(«compression», «snappy»).save(«hdfs:///formats/file_with_snappy_json») Comprimir archivos Parquet val rdd =…

Read More »

Apache Sqoop

Definición de Sqoop Apache Sqoop es una herramienta de línea de comandos desarrollada para transferir grandes volúmenes de datos de bases de datos relacionarles a Hadoop, de ahí su nombre que viene de la fusión de SQL y Hadoop. Concretamente transforma datos relacionarles en Hive o HBase en una dirección y en la otra de…

Read More »

HDFS – Sistema de archivos distribuidos Hadoop

Definición de HDFS HDFS (Hadoop Distributed File System) es el sistema de almacenamiento de archivos principal de Hadoop. Trabaja bien con grandes volúmenes de datos, reduce la E/S, gran escalabilidad y disponibilidad y tolerancia a fallos debido a la replicación de datos. El sistema de archivos Hadoop suele utilizar como sistema de gestión de bases de…

Read More »