Creación de RDD de Apache Spark en Python

Creación a partir de colecciones Python lista = [‘uno’,’dos’,’dos’,’tres’,’cuatro’] listardd = sc.parallelize(lista) listardd = sc.parallelize(lista,4) # Incluir el número de cluster en lo que dividir el RDD print(listardd.collect()) # Visualizar la colección RDD [‘uno’, ‘dos’, ‘dos’, ‘tres’, ‘cuatro’] Creación a partir de diccionarios dicRDD = sc.parallelize([(«autor»,»Fernando de Rojas»), («titulo»,»La celestina»),(«anio»,1499)]) # Importantes los corchetes []…

Read More »

Instalación y librerías Apache Spark en Python

Prerequisitos Java 6 o superior Interprete de Python 2.6 o superior Instalación Instalar es muy sencillo basta con descargarse la última versión de Spark y descomprimirla wget http://apache.rediris.es/spark/spark-1.5-0/spark-1.5.0-bin-hadoop2.6.tgz tar -xf spark-1.5.0-bin-hadoop2.6.tgz Ejecución mediante interprete Para ejecutarla se puede hacer mediante el interprete pyspark o cargando un fichero.py ./spark-1.5.0-bin-hadoop2.6/bin/pyspark from pyspark import SparkConf, SparkContext sc = SparkContext()…

Read More »

Tutorial de Python Spark

Preparación del entorno de desarrollo Entorno Python Instalación del entorno de desarrollo: instalar Anaconda y PyCharm CE Otros entornos recomendados: Eclipse, Spyder (incluido en anaconda y Aton) Configurar y cambiar el entorno virtual Importar paquetes: pip install & import Crear un directorio si no existe: os.start(…) os.mkdir(…) Entorno virtual para Python -m venv nombre_entorno Entorno…

Read More »