hdfs Archivos - Diego Calvo

Leer Json en Scala

por Diego Calvo | Ago 27, 2018 | Big data, Scala, Spark

Leer Json de cadena de texto Ejemplo simple de lectura de Json a partir de una cadena de texto val events = sc.parallelize( «»» [{«accion»:»create»,»tiempo»:»2018-08-07T00:01:17Z»}, {«accion»:»create»,»tiempo»:»2018-08-07T00:01:17Z»}] «»» :: Nil) val df =...

Conectar con Scala al HDFS de Hadoop

por Diego Calvo | Ago 10, 2018 | Big data, Hadoop, Spark

Escribir datos en HDFS Ejemplo de como escribir datos RDD en un HDFS de Hadoop. // Borrar el fichero si es que existe import scala.sys.process._ «hdfs dfs -rm -r /pruebas» ! // Grabar un RDD en HDFS val rdd = sc.parallelize(List( (0, 60), (0, 56), (0, 54),...

HDFS – Formato, compresión y descompresion en Scala

por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark

Muestra una serie de ejemplos de compresión y descompresión de archivos en diferentes formatos tanto de representación como de compresión. Comprimir archivos Json val rdd = sc.parallelize( Array(1, 2, 3, 4, 5) ) // Definir RDD val df = rdd.toDF() // Transformar a df...

Apache Sqoop

por Diego Calvo | Jul 6, 2018 | Big data, Hadoop

Definición de Sqoop Apache Sqoop es una herramienta de línea de comandos desarrollada para transferir grandes volúmenes de datos de bases de datos relacionarles a Hadoop, de ahí su nombre que viene de la fusión de SQL y Hadoop. Concretamente transforma datos...

HDFS – Sistema de archivos distribuidos Hadoop

por Diego Calvo | Jun 20, 2018 | Big data, Hadoop

Definición de HDFS HDFS (Hadoop Distributed File System) es el sistema de almacenamiento de archivos principal de Hadoop. Trabaja bien con grandes volúmenes de datos, reduce la E/S, gran escalabilidad y disponibilidad y tolerancia a fallos debido a la replicación de...

Leer Json en Scala

Conectar con Scala al HDFS de Hadoop

HDFS – Formato, compresión y descompresion en Scala

Apache Sqoop

HDFS – Sistema de archivos distribuidos Hadoop

Mi filosofía

Contacto

Aviso legal