Reducir elementos de un RDD en Scala

Ejemplo: reducir elementos de un RDD – reduce (función) Agregar los elementos del conjunto de datos segun la función indicada por parámetro. Esta función debe ser conmutativa y asociativa para que se pueda calcular correctamente en paralelo. val rdd =...

Guardar elementos de RDDs en Scala

Guardar elementos de RDDs: SaveAsTextFile (ruta) Escribe los elementos del conjunto de datos como un archivo de texto (o conjunto de archivos) en un directorio determinado en el sistema de archivos local, HDFS o cualquier otro sistema de archivos compatible con...

Seleccionar partes de un RDD en Scala

count() Nos devuelve la cantidad de elementos en el conjunto de datos. var rdd =  sc.parallelize(1 to 100, 3) rdd.count() res: Long = 100   first() Nos devuelve el primer elemento del conjunto de datos. Similar a take(1). var rdd =  sc.parallelize(1 to 100, 3)...

Reparticionar RDDs en Scala

Tuberias de particiones RDDs – spipe() Toma los datos RDD de cada una de las particiones y los envía a través de stdin a una linea de comandos val rdd = sc.parallelize(1 to 10, 2) rdd.pipe(«head -n 2»).collect() res: Array[String] = Array(1, 2, 6, 7)  ...