Filtrar RDD – filter()
Nos devuelve un RDD después de aplicar una función de filtro sobre el RDD original
val rdd1 = sc.parallelize(List("pescado azul", "cielo azul", "pescado blanco", "carne roja"))
val rdd2 = rdd1.filter(_.contains("azul"))
rdd2.collectres: Array[String] = Array(pescado azul, cielo azul)
Elementos distintos de RDD – distinct()
Nos devuelve un RDD con los elementos distintos
val rdd = sc.parallelize(List("avion", "avion", "tren", "tren", "tren", "barco"), 2)
rdd.distinct.collect()
res: Array[String] = Array(avion, tren, barco)





0 comentarios