Muestreo de datos Apache Spark en Python

Selecionar una muestra de 5 elementos con repeticion «True» print rdd.takeSample(True, 5) [4, 1, 3, 2, 2] Selecionar datos con repetición con un tamaño de muestra de el doble print (rdd.sample(True, 2).collect()) [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3,...

Función Apache Spark en Python

Ejemplo de función en Spark Python Muestra un ejemplo de función map con spark. def my_func(iterator): yield sum(iterator)   list = range(1,10) parallel = sc.parallelize(list, 5) parallel.mapPartitions(my_func).collect() [1, 5, 9, 13,...

Filtrado de RDD en Apache Spark en Python

Filtrado de datos numérico rdd_num = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) rdd_num = rdd.filter(lambda x : x < 3) print (rdd_num.collect()) [1, 1, 1, 1, 2, 2, 2] Filtrado de datos en textos rdd_text = sc.parallelize([‘Delete entry lines’, », »,...