Filtrar RDDs en Scala

Filtrar RDD – filter()scala_logo

Nos devuelve un RDD después de aplicar una función de filtro sobre el RDD original
val rdd1 = sc.parallelize(List("pescado azul", "cielo azul", "pescado blanco", "carne roja"))
val rdd2 = rdd1.filter(_.contains("azul"))
rdd2.collect
res: Array[String] = Array(pescado azul, cielo azul)

 

Elementos distintos de RDD – distinct()

Nos devuelve un RDD con los elementos distintos

val rdd = sc.parallelize(List("avion", "avion", "tren", "tren", "tren", "barco"), 2)
rdd.distinct.collect()
res: Array[String] = Array(avion, tren, barco)

Otros artículos que pueden ser de interés:

Autor: Diego Calvo