Python Archivos - Página 5 de 8

Muestreo de datos Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Selecionar una muestra de 5 elementos con repeticion «True» print rdd.takeSample(True, 5) [4, 1, 3, 2, 2] Selecionar datos con repetición con un tamaño de muestra de el doble print (rdd.sample(True, 2).collect()) [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3,...

Función Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Ejemplo de función en Spark Python Muestra un ejemplo de función map con spark. def my_func(iterator): yield sum(iterator) list = range(1,10) parallel = sc.parallelize(list, 5) parallel.mapPartitions(my_func).collect() [1, 5, 9, 13,...

Operaciones Map/Reduce con RDDs Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Crear un RDD que multiplique por 2 sus valores y sumar los resultados from operator import add rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) rdd2 = rdd.map(lambda x: x*2) tSum = rdd2.reduce(lambda x,y: x+y) print (tSum) 40 Crear un diccionario con elementos...

Operaciones con conjuntos de RDDs Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Unión de conjuntos group1 = sc.parallelize([‘A’,’B’,’C’,’D’]) group2 = sc.parallelize([‘C’,’D’,’E’,’F’]) rdd_aux = group1.union(group2) print (rdd_aux.collect())...

Filtrado de RDD en Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Filtrado de datos numérico rdd_num = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) rdd_num = rdd.filter(lambda x : x < 3) print (rdd_num.collect()) [1, 1, 1, 1, 2, 2, 2] Filtrado de datos en textos rdd_text = sc.parallelize([‘Delete entry lines’, », »,...

Operaciones con diccionarios en Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Visualizar un diccionario a = sc.parallelize([‘a’,’b’,’c’,’a’]) b = sc.parallelize([1,2,3,4]) rdd_kv = a.zip(b) print (rdd_kv.collect()) [(‘a’, 1), (‘b’, 2), (‘c’, 3),...