Operaciones con conjuntos de RDDs Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark | 0 Comentarios

Unión de conjuntos

group1 = sc.parallelize(['A','B','C','D']) 
group2 = sc.parallelize(['C','D','E','F']) 
rdd_aux = group1.union(group2) 
print (rdd_aux.collect())

['A', 'B', 'C', 'D', 'C', 'D', 'E', 'F']

Intersección de conjuntos

rdd_aux = group1.intersection(group2)
rdd_aux.collect()

['C', 'D']

0 comentarios

Enviar un comentario Cancelar la respuesta

Diego Calvo Data Scientist