Seleccionar partes de un RDD en Scala

count()

Nos devuelve la cantidad de elementos en el conjunto de datos.

var rdd =  sc.parallelize(1 to 100, 3)
rdd.count()
res: Long = 100

 

first()

Nos devuelve el primer elemento del conjunto de datos. Similar a take(1).

var rdd =  sc.parallelize(1 to 100, 3)
rdd.first()
res: Int = 1

 

max()

Nos devuelve el elemento mayor del RDD

var rdd =  sc.parallelize(1 to 100, 3)
rdd.max()
res: Int = 100

Nota: también existen las funciones min, mean, variance, stdev, …

 

take(num)

Nos devuelve un array con los primeros n elementos del conjunto de datos.

var rdd =  sc.parallelize(1 to 100, 3)
rdd.take(5)
res: Array[Int] = Array(1, 2, 3, 4, 5)

 

takeSample (con_remplazamiento, num, [semilla])

Nos devuelve un array con una muestra aleatoria de n elementos del conjunto de datos, con o sin reemplazo, opcionalmente especificando previamente. También se le puede indicar la semilla de generador de números aleatorios.

var rdd =  sc.parallelize(1 to 100, 3)
rdd.takeSample(false,5, 1234)
res: Array[Int] = Array(36, 35, 83, 49, 15)

 

takeOrdered (n, [orden])

Nos devuelve los n primeros elementos del RDD utilizando su orden natural o un comparador personalizado.

var rdd =  sc.parallelize(1 to 100, 3)
rdd.takeOrdered(5)
res: Array[Int] = Array(1, 2, 3, 4, 5)

Otros artículos que pueden ser de interés:

Autor: Diego Calvo