Creación de RDD de Apache Spark en Python

Creación a partir de colecciones Python

lista = ['uno','dos','dos','tres','cuatro']
listardd = sc.parallelize(lista)
listardd = sc.parallelize(lista,4) # Incluir el número de cluster en lo que dividir el RDD
print(listardd.collect()) # Visualizar la colección RDD

['uno', 'dos', 'dos', 'tres', 'cuatro']

Creación a partir de diccionarios

dicRDD = sc.parallelize([("autor","Fernando de Rojas"), ("titulo","La celestina"),("anio",1499)]) # Importantes los corchetes []
print(dicRDD.collect()) # Visualizar la colección RDD

[('autor', 'Fernando de Rojas'), ('titulo', 'La celestina'), ('anio', 1499)]

Creación a partir de diccionarios 2

a = sc.parallelize(['a','b','c','a'])
b = sc.parallelize([1,2,3,4])
rdd_kv = a.zip(b)
print rdd_kv.collect()
[('a', 1), ('b', 2), ('c', 3), ('a', 4)]

Otros artículos que pueden ser de interés:

Autor: Diego Calvo