Diego Calvo, Autor en Diego Calvo

Estructuras de datos en Scala

por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark

RDD (Resilient Distributed Dataset) Datos no estructurados, ejemplo: binarios, text streaming. Utiliza acciones y transformaciones de bajo nivel No soporta serialización Encoders. No de un esquema ni formato de columna. Proporciona serguridad de tipo en tiempo de...

Listas en Scala

por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark

Crear listas Ejemplos donde se definen las listas a utilizar en el resto de los apartados del post val list1 = 1::2::3::4::5::Nil val list2 = List(1,2,3,4,5) val list3 = List.range(1,6) val list4 = List.range(1,6,2) val list5 = List.fill(5)(1) val list6 =...

HDFS – Formato, compresión y descompresion en Scala

por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark

Muestra una serie de ejemplos de compresión y descompresión de archivos en diferentes formatos tanto de representación como de compresión. Comprimir archivos Json val rdd = sc.parallelize( Array(1, 2, 3, 4, 5) ) // Definir RDD val df = rdd.toDF() // Transformar a df...

Formatos de ficheros Big Data

por Diego Calvo | Jul 19, 2018 | Big data

Formato: Textfile El formato Textfile es el formato de almacenamiento más simple de todos y es el predeterminado para tablas en sistemas Hadoop. No es más que texto plano donde los campos se almacenan separados por un delimitador y cada registro es separado por una...

Leer y escribir RDDs en Scala

por Diego Calvo | Jul 13, 2018 | Big data, Scala, Spark

Leer RDDs Ejemplo de lectura de RDDs en Scala val rdd2 = sc.textFile(«hdfs:///mitabla_hdfs/») rdd2.collect() res: Array[String] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) Escribir RDDs Ejemplo de escritura de RDDs en Scala val rdd =...