Muestreo de datos Apache Spark en Python

Selecionar una muestra de 5 elementos con repeticion “True”

print rdd.takeSample(True, 5)
[4, 1, 3, 2, 2]

Selecionar datos con repetición con un tamaño de muestra de el doble

print (rdd.sample(True, 2).collect())
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 4]

Otros artículos que pueden ser de interés:

Autor: Diego Calvo