Muestreo de datos Apache Spark en Python

por | Nov 23, 2017 | Python, Spark | 0 Comentarios

Selecionar una muestra de 5 elementos con repeticion «True»

print rdd.takeSample(True, 5)
[4, 1, 3, 2, 2]

Selecionar datos con repetición con un tamaño de muestra de el doble

print (rdd.sample(True, 2).collect())
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 4]

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *