Filtrado de RDD en Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark | 1 Comentario

Filtrado de datos numérico

rdd_num = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4])
rdd_num = rdd.filter(lambda x : x < 3)
print (rdd_num.collect())

[1, 1, 1, 1, 2, 2, 2]

Filtrado de datos en textos

rdd_text = sc.parallelize(['Delete entry lines', '', '', '', '','No more'])
rdd_aux = rdd_text.filter(lambda x : x != '')
print (rdd_aux.collect())

['Delete entry lines', 'No more']

1 Comentario

Abraham el 2 octubre, 2020 a las 6:22 am
Muy buenas, y si en un rdd alfa-numerico quisieramos filtrar solo los campos numericos??
Gracias
Responder

Enviar un comentario Cancelar la respuesta

Diego Calvo Data Scientist