Ordenar RDDs Apache Spark en Python

Ordenar los 5 primeros elementos del RDD print (rdd.takeOrdered(5)) [1, 1, 1, 1, 2] Ordenar inversamente los 5 primeros elementos del RDD print(rdd.takeOrdered(5, lambda x: -x)) [4, 3, 3, 2, 2] Ordena todo el RDD y devuelve otro RDD rdd_aux = rdd.sortBy(lambda x: x)...

Muestreo de datos Apache Spark en Python

Selecionar una muestra de 5 elementos con repeticion «True» print rdd.takeSample(True, 5) [4, 1, 3, 2, 2] Selecionar datos con repetición con un tamaño de muestra de el doble print (rdd.sample(True, 2).collect()) [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3,...