Pandas. Analisis y Modelado

Introducción a Pandas Pandas es un API para el análisis de datos orientados en columnas. Es perfecto para analizar y manipular datos y muchos frameworks de ML soportan estructuras de datos pandas como entradas. En este post vamos a mencionar conceptos basicos y contretos, ya que una buena introduccion al Panda API ocuparía varias pagina….

Read More »

Leer y escribir en formato parquet en Python

Generar datos a utilizar para leer y escribir en formato Parquet Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, («label», «data»)) df.show() +—–+—-+ |label|data| +—–+—-+ | 4| 0| | 7| 0| | 1| 1| | 3| 8| | 3| 5| +—–+—-+…

Read More »

Leer y escribir JSON en Python

Generar datos a utilizar para leer y escribir JSON Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, («label», «data»)) df.show() +—–+—-+ |label|data| +—–+—-+ | 4| 0| | 7| 0| | 1| 1| | 3| 8| | 3| 5| +—–+—-+   Escribir…

Read More »

Fechas en Python

Crear fecha a partir de un String import pandas as pd startdate = «10/10/2018» my_date = pd.to_datetime(startdate) print(my_date.strftime(«%Y-%m-%d»)) 2018-10-10 Crear fecha actual import datetime my_date = datetime.datetime.now() print(my_date.strftime(«%Y-%m-%d»)) 2018-10-10 Incrementar días enddate = my_date + pd.DateOffset(days=5) print(enddate.strftime(«%Y-%m-%d»)) 2018-10-15 Reducir días enddate = my_date – pd.DateOffset(days=5) print(enddate.strftime(«%Y-%m-%d»)) 2018-10-05 Pasar fecha a numérico: Unit timestampo print(«Unix Timestamp:…

Read More »

Análisis de Regresión lineal en Python Spark

Ejemplo de Regresión lineal simple en Python Spark Se muestra un ejemplo de regresión lineal simple sobre un conjunto de datos que se genera de forma aleatoria. Entra regresión se ejecuta sobre una sesión de Spark utilizando la librería propia de Spark para machine learning. # -*- coding: utf-8 -*- «»» Spark Regression «»» from…

Read More »

Análisis de Regresión lineal en Python

Ejemplo de Regresión lineal simple en Python Se muestra un ejemplo de regresión lineal simple sobre un conjunto de datos que se genera de forma aleatoria. from sklearn.datasets.samples_generator import make_blobs from sklearn.linear_model import LinearRegression from time import time # Generación de un dataset de 2 dimensiones X e Y X, Y = make_blobs(n_samples=1000, centers=2, n_features=2,…

Read More »

Análisis de Regresión logística en Python

Ejemplo de Regresión logística en Python Se muestra un ejemplo de regresión logística sobre un conjunto de datos que se genera de forma aleatoria. # Definir las librerías a importar from sklearn.datasets.samples_generator import make_blobs from sklearn.linear_model import LogisticRegression from time import time # Generación de un dataset de 2 dimensiones X e Y X, Y…

Read More »

Ejecución distribuida Spark para Python

Ejemplo «Hola mundo» Definir el script en Python a ejecutar Código del fichero hola_mundo.py from pyspark.sql import SparkSession spark = SparkSession.builder.appName(«Hola_Mundo»).getOrCreate() print(«Hola mundo») spark.stop() Nota: Al ser un lenguaje interpretado no es necesario compilarlo para su ejecución.   Ejecución distribuida del script Para ejecutar de forma distribuida el script en python detro de un entorno…

Read More »

Ejemplo de Test Unitarios en Python

Definición Los test unitarios son pruebas que tiene que pasar el código para poder verificar su correcto funcionamiento. Se trata de un método para determinar si un módulo o un conjunto de módulos de código funciona correctamente. Ejemplo de fichero a evaluar (programa.py) #!/usr/bin/env python # -*- coding: utf-8 -*- def sum(a, b): return a…

Read More »