Función Apache Spark en Python

Ejemplo de función en Spark Python Muestra un ejemplo de función map con spark. def my_func(iterator): yield sum(iterator)   list = range(1,10) parallel = sc.parallelize(list, 5) parallel.mapPartitions(my_func).collect() [1, 5, 9, 13,...

Filtrado de RDD en Apache Spark en Python

Filtrado de datos numérico rdd_num = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) rdd_num = rdd.filter(lambda x : x < 3) print (rdd_num.collect()) [1, 1, 1, 1, 2, 2, 2] Filtrado de datos en textos rdd_text = sc.parallelize([‘Delete entry lines’, », »,...