Tutorial de Python Spark

por Diego Calvo | Nov 7, 2017 | Big data, Python, Spark | 7 Comentarios

Preparación del entorno de desarrollo

Entorno Python

Instalación del entorno de desarrollo: instalar Anaconda y PyCharm CE
Otros entornos recomendados: Eclipse, Spyder (incluido en anaconda y Aton)
Configurar y cambiar el entorno virtual
Importar paquetes: pip install & import
Crear un directorio si no existe: os.start(…) os.mkdir(…)
Entorno virtual para Python -m venv nombre_entorno

Entorno Spark Python

Conceptos básicos

Funciones
Funciones con Spark
Bucles: for, while
Incluir argumentos: argparse. Ejemplo: copiar.py fichero_origen.txt fichero_destino.txt
Fechas

Carga y lectura de ficheros

Estructuras de datos

DATAFRAMES (simples)

DataFrames: import pandas as pd datos = pd.DataFrame(columns=(‘datos1’, ‘datos2’))

MATRICES (simples)

Matrices: import numpy as np datos = np.array([[1,2,3],[4,5,6]])

LISTAS (simples)

Listas: list(), [1,2,3], append(), extend(), remove(), count(), index(), set()

RDD (Spark)

Creación de RDD

Almacenamiento de RDD

Escritura de RDD en fichero

Operaciones con RDD

Procesamiento de datos

Procesamiento de datos por lotes (batch)

Procesamiento en tiempo real (streaming)

Tuberías (Pipelines)

Machine Learning

Aprendizaje supervisado

Aprendizaje no supervisado

K-Means – Spark

Ejecución distribuida en Spark

Ejemplo hola mundo

Otros

7 Comentarios

Francisco el 28 agosto, 2019 a las 11:00 am
Como puedo llevar este curso y cual es el costo
Responder
Diego Calvo el 29 agosto, 2019 a las 3:19 am
Buenas Francisco, en los últimos meses me han preguntado varias personas por privado lo mismo.
Por ello he decidido lanzar un curso especializado donde profundizar en todos estos conceptos. Estoy trabajando duramente en ello.
En las próximas semanas te facilitaré más información
Responder
Francisco Mota el 19 noviembre, 2019 a las 1:33 am
Espero más infomación para este curso. Saludos…
Responder
Diego Calvo el 26 noviembre, 2019 a las 1:42 pm
Disculpa Francisco pero se nos está retrasando el lanzamiento
Responder
Andrés el 24 abril, 2021 a las 8:45 pm
Hola, Diego. ¿Dónde lo podría contactar para tutorías por horas?
Responder
- Diego Calvo el 3 mayo, 2021 a las 10:01 am
  Gracias por tu interés, pero por el momento no me puedo comprometer a dar tutorias.
  Responder
pablo el 12 septiembre, 2024 a las 7:27 pm
Que genial esta web, que no muera nunca!
Responder

Tutorial de Python Spark

Preparación del entorno de desarrollo

Entorno Python

Entorno Spark Python

Conceptos básicos

Carga y lectura de ficheros

Estructuras de datos

DATAFRAMES (simples)

MATRICES (simples)

LISTAS (simples)

RDD (Spark)

Creación de RDD

Almacenamiento de RDD

Operaciones con RDD

Procesamiento de datos

Procesamiento de datos por lotes (batch)

Procesamiento en tiempo real (streaming)

Tuberías (Pipelines)

Machine Learning

Aprendizaje supervisado

Aprendizaje no supervisado

Ejecución distribuida en Spark

Otros

7 Comentarios

Enviar un comentario Cancelar la respuesta

Mi filosofía

Contacto

Aviso legal