por Diego Calvo | Nov 23, 2017 | Python, Spark
Visualizar una lista de RDD rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) print (rdd.collect()) [1, 1, 1, 1, 2, 2, 2, 3, 3, 4] Número de elementos del RDD print (rdd.count()) 10 Primer elemento print (rdd.first()) 1 Diccionario con la frecuencia de cada... por Diego Calvo | Nov 23, 2017 | Python, Spark
Lectura de ficheros externos en RDD rdd_file = sc.textFile(«/home/file.txt») Escritura de RDD en un directorio rdd_file.saveAsTextFile(«/dbfs/FileStore/tables/RDD_dir») por Diego Calvo | Nov 23, 2017 | Python, Spark
Creación a partir de colecciones Python lista = [‘uno’,’dos’,’dos’,’tres’,’cuatro’] listardd = sc.parallelize(lista) listardd = sc.parallelize(lista,4) # Incluir el número de cluster en lo que dividir el RDD... por Diego Calvo | Nov 23, 2017 | Python, Spark
Prerequisitos Java 6 o superior Interprete de Python 2.6 o superior Instalación Instalar es muy sencillo basta con descargarse la última versión de Spark y descomprimirla wget http://apache.rediris.es/spark/spark-1.5-0/spark-1.5.0-bin-hadoop2.6.tgz tar -xf... por Diego Calvo | Nov 23, 2017 | Big data
Frameworks Batch Apache Hadoop Frameworks Stream Apache Storm Apache Samza Apache Kafka Apache Flink Frameworks híbrido Apache Spark Apache Flink