Operaciones con una lista Apache Spark en Python

Visualizar una lista de RDD rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) print (rdd.collect()) [1, 1, 1, 1, 2, 2, 2, 3, 3, 4] Número de elementos del RDD print (rdd.count()) 10 Primer elemento print (rdd.first()) 1 Diccionario con la frecuencia de cada...

Creación de RDD de Apache Spark en Python

Creación a partir de colecciones Python lista = [‘uno’,’dos’,’dos’,’tres’,’cuatro’] listardd = sc.parallelize(lista) listardd = sc.parallelize(lista,4) # Incluir el número de cluster en lo que dividir el RDD...

Instalación y librerías Apache Spark en Python

Prerequisitos Java 6 o superior Interprete de Python 2.6 o superior Instalación Instalar es muy sencillo basta con descargarse la última versión de Spark y descomprimirla wget http://apache.rediris.es/spark/spark-1.5-0/spark-1.5.0-bin-hadoop2.6.tgz tar -xf...

Tutorial de Python Spark

Preparación del entorno de desarrollo Entorno Python Instalación del entorno de desarrollo: instalar Anaconda y PyCharm CE Otros entornos recomendados: Eclipse, Spyder (incluido en anaconda y Aton) Configurar y cambiar el entorno virtual Importar paquetes: pip install...

Listas en Python

Declaración de lista lista = list() lista = [] lista = [1, 2, 3, 4] lista = [1, 2, ‘Hola’, [3, 4]] Visualizar los elementos de una lista print(lista[0]) # 1 for i in range(len(lista)): print(lista[i]) # 1 # 2 # Hola # [3, 4] Añadir elementos a una lista...