Visualizar una lista de RDD
rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4])
print (rdd.collect())
[1, 1, 1, 1, 2, 2, 2, 3, 3, 4]
Número de elementos del RDD
print (rdd.count())
10
Primer elemento
print (rdd.first())
1
Diccionario con la frecuencia de cada elemento
print (rdd.countByValue())
defaultdict(<type 'int'>, {1: 4, 2: 3, 3: 2, 4: 1})
Seleccionar los 4 primeros elementos
print (rdd.take(4))
[1, 1, 1, 1]
Calcular la media
print (rdd.mean())
2.0
Calcular la varianza
print (rdd.variance())
1.0
Calcular la desviación típica
print (rdd.stdev())
1.0
0 comentarios