Operaciones con una lista Apache Spark en Python

Visualizar una lista de RDD

rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4])
print (rdd.collect())
[1, 1, 1, 1, 2, 2, 2, 3, 3, 4]

Número de elementos del RDD

print (rdd.count())
10

Primer elemento

print (rdd.first())
1

Diccionario con la frecuencia de cada elemento

print (rdd.countByValue())
defaultdict(<type 'int'>, {1: 4, 2: 3, 3: 2, 4: 1})

Seleccionar los 4 primeros elementos

print (rdd.take(4))
[1, 1, 1, 1]

Calcular la media

print (rdd.mean())
2.0

Calcular la varianza

print (rdd.variance())
1.0

Calcular la desviación típica

print (rdd.stdev())
1.0

Otros artículos que pueden ser de interés:

Autor: Diego Calvo