Tutorial de Python Spark

por | Nov 7, 2017 | Big data, Python, Spark | 6 Comentarios

Preparación del entorno de desarrollo

Entorno Python

  1. Instalación del entorno de desarrollo: instalar Anaconda y PyCharm CE
  2. Otros entornos recomendados: Eclipse, Spyder (incluido en anaconda y Aton)
  3. Configurar y cambiar el entorno virtuallogo python
  4. Importar paquetes: pip install & import
  5. Crear un directorio si no existe: os.start(…) os.mkdir(…)
  6. Entorno virtual para Python -m venv nombre_entorno

Entorno Spark Python

 

Conceptos básicos

  1. Funciones
  2. Funciones con Spark
  3. Bucles: for, while
  4. Incluir argumentosargparse. Ejemplo: copiar.py fichero_origen.txt fichero_destino.txt
  5. Fechas

 

Carga y lectura de ficheros

 

Estructuras de datos

DATAFRAMES (simples)

  • DataFrames: import pandas as pd     datos = pd.DataFrame(columns=(‘datos1’, ‘datos2’))

MATRICES (simples)

  • Matrices: import numpy as np datos = np.array([[1,2,3],[4,5,6]])

LISTAS (simples)

  • Listas: list(), [1,2,3], append(), extend(), remove(), count(), index(), set()

RDD (Spark)

Creación de RDD

Almacenamiento de RDD

Operaciones con RDD

 

Procesamiento de datos

Procesamiento de datos por lotes (batch)

Procesamiento en tiempo real (streaming)

 

Tuberías (Pipelines)

 

Machine Learning

Aprendizaje supervisado

Aprendizaje no supervisado

 

Ejecución distribuida en Spark

 

Otros

6 Comentarios

  1. Francisco

    Como puedo llevar este curso y cual es el costo

    Responder
  2. Diego Calvo

    Buenas Francisco, en los últimos meses me han preguntado varias personas por privado lo mismo.
    Por ello he decidido lanzar un curso especializado donde profundizar en todos estos conceptos. Estoy trabajando duramente en ello.
    En las próximas semanas te facilitaré más información

    Responder
  3. Francisco Mota

    Espero más infomación para este curso. Saludos…

    Responder
  4. Diego Calvo

    Disculpa Francisco pero se nos está retrasando el lanzamiento

    Responder
  5. Andrés

    Hola, Diego. ¿Dónde lo podría contactar para tutorías por horas?

    Responder
    • Diego Calvo

      Gracias por tu interés, pero por el momento no me puedo comprometer a dar tutorias.

      Responder

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *