Diego Calvo, Autor en Diego Calvo

Operaciones con una lista Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Visualizar una lista de RDD rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) print (rdd.collect()) [1, 1, 1, 1, 2, 2, 2, 3, 3, 4] Número de elementos del RDD print (rdd.count()) 10 Primer elemento print (rdd.first()) 1 Diccionario con la frecuencia de cada...

Lectura y escritura de ficheros Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Lectura de ficheros externos en RDD rdd_file = sc.textFile(«/home/file.txt») Escritura de RDD en un directorio rdd_file.saveAsTextFile(«/dbfs/FileStore/tables/RDD_dir»)

Creación de RDD de Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Creación a partir de colecciones Python lista = [‘uno’,’dos’,’dos’,’tres’,’cuatro’] listardd = sc.parallelize(lista) listardd = sc.parallelize(lista,4) # Incluir el número de cluster en lo que dividir el RDD...

Instalación y librerías Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark

Prerequisitos Java 6 o superior Interprete de Python 2.6 o superior Instalación Instalar es muy sencillo basta con descargarse la última versión de Spark y descomprimirla wget http://apache.rediris.es/spark/spark-1.5-0/spark-1.5.0-bin-hadoop2.6.tgz tar -xf...