Guardar elementos de RDDs en Scala

Guardar elementos de RDDs: SaveAsTextFile (ruta)scala_logo

Escribe los elementos del conjunto de datos como un archivo de texto (o conjunto de archivos) en un directorio determinado en el sistema de archivos local, HDFS o cualquier otro sistema de archivos compatible con Hadoop.

Spark llama String en cada elemento para convertirlo en una línea de texto en el archivo.

val rdd = sc.parallelize(List(1,1,2,2,2,3,3,3,3), 2)
rdd.saveAsTextFile("nombre_rdd")

 

Guardar elementos de RDDs: SaveAsSequenceFile (ruta)

Escribe los elementos del conjunto de datos como Hadoop SequenceFile en una ruta determinada en el sistema de archivos local, HDFS o cualquier otro sistema de archivos compatible con Hadoop. Esto está disponible en los RDD de los pares clave-valor que implementan la interfaz de escritura de Hadoop.

Está disponible en tipos que son implícitamente convertibles en Writable.

Spark incluye conversiones para tipos básicos como Int, Double, String, etc.

val rdd = sc.parallelize(List((1, "tren"), (1, "avion"), (2, "coche"), (2, "moto")), 2)
rdd.saveAsSequenceFile("nombre_rdd")

 

Guardar elementos de RDDs: saveAsObjectFile (ruta)

Escribe los elementos del conjunto de datos en un formato simple utilizando la serialización de Java, que luego se puede cargar utilizando SparkContext.objectFile().

val rdd = sc.parallelize(List((1, "tren"), (1, "avion"), (2, "coche"), (2, "moto")), 2)
rdd.saveAsObjectFile("nombre_rdd3")