Instalación y librerías Apache Spark en Python

por Diego Calvo | Nov 23, 2017 | Python, Spark | 0 Comentarios

Prerequisitos

Java 6 o superior
Interprete de Python 2.6 o superior

Instalación

Instalar es muy sencillo basta con descargarse la última versión de Spark y descomprimirla

wget http://apache.rediris.es/spark/spark-1.5-0/spark-1.5.0-bin-hadoop2.6.tgz 
tar -xf spark-1.5.0-bin-hadoop2.6.tgz

Ejecución mediante interprete

Para ejecutarla se puede hacer mediante el interprete pyspark o cargando un fichero.py

./spark-1.5.0-bin-hadoop2.6/bin/pyspark

from pyspark import SparkConf, SparkContext 
sc = SparkContext()

Ejecución directa

./spark-1.5.0-bin-hadoop2.6/bin/spark-submit fichero.py

Uso sin instalación

Se recomienda usar los servicios cloud de databricks, para ello nos daremos de alta de forma gratuita en su plataforma como usuarios de la versión “Community Edition”.

Para su utilización se debe:

Subir o crear un fichero interpretable
Asignar un clúster para su ejecución, para ello pulsar sobre icono “detached” y creando un nuevo clúster. Se recomienda usar una version de Spark baja para asegurarnos la compatibilidad.

Librerías habituales

#! /bin/python
from pyspark import SparkConf, SparkContext
sc = SparkContext()

Instalación y librerías Apache Spark en Python

Prerequisitos

Instalación

Ejecución mediante interprete

Ejecución directa

Uso sin instalación

Librerías habituales

0 comentarios

Enviar un comentario Cancelar la respuesta

Mi filosofía

Contacto

Aviso legal

Instalación y librerías Apache Spark en Python

Prerequisitos<img decoding="async" class=" wp-image-3728 alignright" src="https://www.diegocalvo.es/wp-content/uploads/2018/06/spark.png" alt="Spark logo" width="141" height="75" />

Instalación

Ejecución mediante interprete

Ejecución directa

Uso sin instalación

Librerías habituales

0 comentarios

Enviar un comentario Cancelar la respuesta

Prerequisitos