Guardar elementos de RDDs en Scala

por | Jun 25, 2018 | Big data, Scala, Spark | 0 Comentarios

Guardar elementos de RDDs: SaveAsTextFile (ruta)scala_logo

Escribe los elementos del conjunto de datos como un archivo de texto (o conjunto de archivos) en un directorio determinado en el sistema de archivos local, HDFS o cualquier otro sistema de archivos compatible con Hadoop.

Spark llama String en cada elemento para convertirlo en una línea de texto en el archivo.

val rdd = sc.parallelize(List(1,1,2,2,2,3,3,3,3), 2)
rdd.saveAsTextFile("nombre_rdd")

 

Guardar elementos de RDDs: SaveAsSequenceFile (ruta)

Escribe los elementos del conjunto de datos como Hadoop SequenceFile en una ruta determinada en el sistema de archivos local, HDFS o cualquier otro sistema de archivos compatible con Hadoop. Esto está disponible en los RDD de los pares clave-valor que implementan la interfaz de escritura de Hadoop.

Está disponible en tipos que son implícitamente convertibles en Writable.

Spark incluye conversiones para tipos básicos como Int, Double, String, etc.

val rdd = sc.parallelize(List((1, "tren"), (1, "avion"), (2, "coche"), (2, "moto")), 2)
rdd.saveAsSequenceFile("nombre_rdd")

 

Guardar elementos de RDDs: saveAsObjectFile (ruta)

Escribe los elementos del conjunto de datos en un formato simple utilizando la serialización de Java, que luego se puede cargar utilizando SparkContext.objectFile().

val rdd = sc.parallelize(List((1, "tren"), (1, "avion"), (2, "coche"), (2, "moto")), 2)
rdd.saveAsObjectFile("nombre_rdd3")

 

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *