rdd Archivos - Diego Calvo

Conectar con Scala al HDFS de Hadoop

por Diego Calvo | Ago 10, 2018 | Big data, Hadoop, Spark

Escribir datos en HDFS Ejemplo de como escribir datos RDD en un HDFS de Hadoop. // Borrar el fichero si es que existe import scala.sys.process._ «hdfs dfs -rm -r /pruebas» ! // Grabar un RDD en HDFS val rdd = sc.parallelize(List( (0, 60), (0, 56), (0, 54),...

Leer y escribir RDDs en Scala

por Diego Calvo | Jul 13, 2018 | Big data, Scala, Spark

Leer RDDs Ejemplo de lectura de RDDs en Scala val rdd2 = sc.textFile(«hdfs:///mitabla_hdfs/») rdd2.collect() res: Array[String] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) Escribir RDDs Ejemplo de escritura de RDDs en Scala val rdd =...

Definición de RDD

por Diego Calvo | Jun 27, 2018 | Spark

Definición de RDD RDD (Resilient Distributed Datasets o Conjuntos distribuidos y flexibles de datos), representa una colección inmutable y particionada de elementos sobre los que se puede operar de forma paralela. Un RDD se puede crear o bien paralelizando una...

Tutorial de Scala (ejemplos simples)

por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark

Scala es un lenguaje funcional, orientado a objetos y multiplataforma que corre actualmente sobre la Maquina Virtual de Java. Por otro lado destacar la gran ventaja de integrar sin problemas bibliotecas desarrolladas en otros lenguajes de programación. Una vez...

Ejemplos – Contar elementos de un RDD en Scala

por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark

Ejemplo: contar elementos – count() Cuenta el número de elementos de un RDD. val rdd = sc.parallelize(1 to 4) rdd.count res: Long = 4 Ejemplo: contar elementos por clave – ContarcountByKey() Cuanta en número de elementos de un RDD agrupados por...