Tutorial de Python Spark

Preparación del entorno de desarrollo

Entorno Python

  1. Instalación del entorno de desarrollo: instalar Anaconda y PyCharm CE
  2. Otros entornos recomendados: Eclipse, Spyder (incluido en anaconda y Aton)
  3. Configurar y cambiar el entorno virtuallogo python
  4. Importar paquetes: pip install & import
  5. Crear un directorio si no existe: os.start(…) os.mkdir(…)
  6. Entorno virtual para Python -m venv nombre_entorno

Entorno Spark Python

 

Conceptos básicos

  1. Funciones
  2. Funciones con Spark
  3. Bucles: for, while
  4. Incluir argumentosargparse. Ejemplo: copiar.py fichero_origen.txt fichero_destino.txt
  5. Fechas

 

Carga y lectura de ficheros

 

Estructuras de datos

DATAFRAMES (simples)

  • DataFrames: import pandas as pd     datos = pd.DataFrame(columns=(‘datos1’, ‘datos2’))

MATRICES (simples)

  • Matrices: import numpy as np datos = np.array([[1,2,3],[4,5,6]])

LISTAS (simples)

  • Listas: list(), [1,2,3], append(), extend(), remove(), count(), index(), set()

RDD (Spark)

Creación de RDD

Almacenamiento de RDD

Operaciones con RDD

 

Procesamiento de datos

Procesamiento de datos por lotes (batch)

Procesamiento en tiempo real (streaming)

 

Tuberías (Pipelines)

 

Machine Learning

Aprendizaje supervisado

Aprendizaje no supervisado

 

Ejecución distribuida en Spark

 

Otros

Otros artículos que pueden ser de interés:

Autor: Diego Calvo