Instalación y librerías Apache Spark en Python

PrerequisitosSpark logo

  • Java 6 o superior
  • Interprete de Python 2.6 o superior

Instalación

Instalar es muy sencillo basta con descargarse la última versión de Spark y descomprimirla

wget http://apache.rediris.es/spark/spark-1.5-0/spark-1.5.0-bin-hadoop2.6.tgz 
tar -xf spark-1.5.0-bin-hadoop2.6.tgz

Ejecución mediante interprete

Para ejecutarla se puede hacer mediante el interprete pyspark o cargando un fichero.py

./spark-1.5.0-bin-hadoop2.6/bin/pyspark

from pyspark import SparkConf, SparkContext 
sc = SparkContext()

Ejecución directa

./spark-1.5.0-bin-hadoop2.6/bin/spark-submit fichero.py

Uso sin instalación

Se recomienda usar los servicios cloud de databricks, para ello nos daremos de alta de forma gratuita en su plataforma como usuarios de la versión “Community Edition”.

Para su utilización se debe:

  1. Subir o crear un fichero interpretable
  2. Asignar un clúster para su ejecución, para ello pulsar sobre icono “detached” y creando un nuevo clúster. Se recomienda usar una version de Spark baja para asegurarnos la compatibilidad.

Librerías habituales

#! /bin/python
from pyspark import SparkConf, SparkContext
sc = SparkContext()

Otros artículos que pueden ser de interés:

Autor: Diego Calvo