Dataset en Scala

Crear Datasetsscala_logo

RDD simple a Dataset

Ejemplo de creación de un dataset a partir de un RDD

val rdd = sc.parallelize(List(1,2,3,4,5))
val ds = spark.createDataset(rdd)
ds.show()
 +-----+
 |value|
 +-----+
 |  1  |
 |  2  |
 |  3  |
 |  4  |
 |  5  |
 +-----+

 

Clases a Dataset

Ejemplo de creación de un dataset a partir de una instancia de una clase que contiene datos.

import spark.implicits._

case class Persona(nombre: String, apellido: String, edad: Integer, salario: Integer)

val persona1 = Persona("Paco","Garcia",24,24000)
val persona2 = Persona("Juan","Garcia",26,27000)
val persona3 = Persona("Lola","Martin",29,31000)
val persona4 = Persona("Sara","Garcia",35,34000)

val data = Seq(persona1,persona2,persona3,persona4)

val ds = spark.createDataset(data)
ds.show()
 +------+--------+----+-------+
 |nombre|apellido|edad|salario|
 +------+--------+----+-------+
 |  Paco|  Garcia|  24|  24000|
 |  Juan|  Garcia|  26|  27000|
 |  Lola|  Martin|  29|  31000|
 |  Sara|  Garcia|  35|  34000|
 +------+--------+----+-------+

 

Transformar RDD a Dataset

Ejemplo de como pasar de un rdd a dataset de forma simple

val rdd = sc.parallelize(Seq(("Paco","Garcia",24,24000),("Juan","Garcia",26,27000),("Lola","Martin",29,31000),("Sara","Garcia",35,34000)))
val ds = rdd.toDS()
display(ds)
visualizar dataset

visualizar dataset

Otros artículos que pueden ser de interés:

Autor: Diego Calvo