Operaciones con una lista Apache Spark en Python

Visualizar una lista de RDD

rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4])
print (rdd.collect())

[1, 1, 1, 1, 2, 2, 2, 3, 3, 4]

print (rdd.count())

print (rdd.first())

print (rdd.countByValue())

defaultdict(<type 'int'>, {1: 4, 2: 3, 3: 2, 4: 1})

print (rdd.take(4))

[1, 1, 1, 1]

print (rdd.mean())

2.0

print (rdd.variance())

1.0

print (rdd.stdev())

1.0