por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Ejemplo: contar elementos – count() Cuenta el número de elementos de un RDD. val rdd = sc.parallelize(1 to 4) rdd.count res: Long = 4 Ejemplo: contar elementos por clave – ContarcountByKey() Cuanta en número de elementos de un RDD agrupados por... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Ejemplo: mostrar elementos de RDD – collect() Convierte un RDD en un array para que pueda ser mostrado por pantalla var rdd = sc.parallelize(1 to 10, 2) rdd.collect() res: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Ejemplo: reducir elementos de un RDD – reduce (función) Agregar los elementos del conjunto de datos segun la función indicada por parámetro. Esta función debe ser conmutativa y asociativa para que se pueda calcular correctamente en paralelo. val rdd =... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Guardar elementos de RDDs: SaveAsTextFile (ruta) Escribe los elementos del conjunto de datos como un archivo de texto (o conjunto de archivos) en un directorio determinado en el sistema de archivos local, HDFS o cualquier otro sistema de archivos compatible con... por Diego Calvo | Jun 25, 2018 | Big data, Scala, Spark
Ordenar elementos por clave – sortByKey() Nos devuelve un RDD ordenado por clave // Ejemplo ascendente val rdd = sc.parallelize(List((«tren», 1), («avion», 2), («barco», 4), («barco», 3))) rdd.sortByKey(true).collect() res: Array[(String, Int)] =...