Creación de RDD de Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark | 0 Comentarios

Creación a partir de colecciones Python

lista = ['uno','dos','dos','tres','cuatro']
listardd = sc.parallelize(lista)
listardd = sc.parallelize(lista,4) # Incluir el número de cluster en lo que dividir el RDD
print(listardd.collect()) # Visualizar la colección RDD

['uno', 'dos', 'dos', 'tres', 'cuatro']

Creación a partir de diccionarios

dicRDD = sc.parallelize([("autor","Fernando de Rojas"), ("titulo","La celestina"),("anio",1499)]) # Importantes los corchetes []
print(dicRDD.collect()) # Visualizar la colección RDD

[('autor', 'Fernando de Rojas'), ('titulo', 'La celestina'), ('anio', 1499)]

Creación a partir de diccionarios 2

a = sc.parallelize(['a','b','c','a'])
b = sc.parallelize([1,2,3,4])
rdd_kv = a.zip(b)
print rdd_kv.collect()

[('a', 1), ('b', 2), ('c', 3), ('a', 4)]

0 comentarios

Enviar un comentario Cancelar la respuesta

Diego Calvo Data Scientist