Muestreo de datos Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark | 0 Comentarios

Selecionar una muestra de 5 elementos con repeticion «True»

print rdd.takeSample(True, 5)

[4, 1, 3, 2, 2]

Selecionar datos con repetición con un tamaño de muestra de el doble

print (rdd.sample(True, 2).collect())

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 4]

0 comentarios

Enviar un comentario Cancelar la respuesta

Diego Calvo Data Scientist