Ordenar RDDs Apache Spark en Python

Ordenar los 5 primeros elementos del RDD

print (rdd.takeOrdered(5))
[1, 1, 1, 1, 2]

Ordenar inversamente los 5 primeros elementos del RDD

print(rdd.takeOrdered(5, lambda x: -x))
[4, 3, 3, 2, 2]

Ordena todo el RDD y devuelve otro RDD

rdd_aux = rdd.sortBy(lambda x: x)
print(rdd_aux.collect()
[1, 1, 1, 1, 2, 2, 2, 3, 3, 4]

Ordena inversamente todo el RDD y devuelve otro RDD

rdd_aux = rdd.sortBy(lambda x:-x)
print(rdd_aux.collect())
[4, 3, 3, 2, 2, 2, 1, 1, 1, 1]

Otros artículos que pueden ser de interés:

Autor: Diego Calvo