Leer y escribir en formato parquet en Python

Generar datos a utilizar para leer y escribir en formato Parquet Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, (“label”, “data”)) df.show() +—–+—-+ |label|data| +—–+—-+ | 4| 0| | 7| 0| | 1| 1| | 3| 8| | 3| 5| +—–+—-+…

Autor: Diego Calvo

Read More »

Leer y escribir JSON en Python

Generar datos a utilizar para leer y escribir JSON Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, (“label”, “data”)) df.show() +—–+—-+ |label|data| +—–+—-+ | 4| 0| | 7| 0| | 1| 1| | 3| 8| | 3| 5| +—–+—-+   Escribir…

Autor: Diego Calvo

Read More »

Fechas en Python

Crear fecha a partir de un String import pandas as pd startdate = “10/10/2018” my_date = pd.to_datetime(startdate) print(my_date.strftime(“%Y-%m-%d”)) 2018-10-10 Crear fecha actual import datetime my_date = datetime.datetime.now() print(my_date.strftime(“%Y-%m-%d”)) 2018-10-10 Incrementar días enddate = my_date + pd.DateOffset(days=5) print(enddate.strftime(“%Y-%m-%d”)) 2018-10-15 Reducir días enddate = my_date – pd.DateOffset(days=5) print(enddate.strftime(“%Y-%m-%d”)) 2018-10-05 Pasar fecha a numérico: Unit timestampo print(“Unix Timestamp:…

Autor: Diego Calvo

Read More »

Análisis de Regresión lineal en Python Spark

Ejemplo de Regresión lineal simple en Python Spark Se muestra un ejemplo de regresión lineal simple sobre un conjunto de datos que se genera de forma aleatoria. Entra regresión se ejecuta sobre una sesión de Spark utilizando la librería propia de Spark para machine learning. # -*- coding: utf-8 -*- “”” Spark Regression “”” from…

Autor: Diego Calvo

Read More »

Análisis de Regresión lineal en Python

Ejemplo de Regresión lineal simple en Python Se muestra un ejemplo de regresión lineal simple sobre un conjunto de datos que se genera de forma aleatoria. from sklearn.datasets.samples_generator import make_blobs from sklearn.linear_model import LinearRegression from time import time # Generación de un dataset de 2 dimensiones X e Y X, Y = make_blobs(n_samples=1000, centers=2, n_features=2,…

Autor: Diego Calvo

Read More »

Análisis de Regresión logística en Python

Ejemplo de Regresión logística en Python Se muestra un ejemplo de regresión logística sobre un conjunto de datos que se genera de forma aleatoria. # Definir las librerías a importar from sklearn.datasets.samples_generator import make_blobs from sklearn.linear_model import LogisticRegression from time import time # Generación de un dataset de 2 dimensiones X e Y X, Y…

Autor: Diego Calvo

Read More »

Ejecución distribuida Spark para Python

Ejemplo “Hola mundo” Definir el script en Python a ejecutar Código del fichero hola_mundo.py from pyspark.sql import SparkSession spark = SparkSession.builder.appName(“Hola_Mundo”).getOrCreate() print(“Hola mundo”) spark.stop() Nota: Al ser un lenguaje interpretado no es necesario compilarlo para su ejecución.   Ejecución distribuida del script Para ejecutar de forma distribuida el script en python detro de un entorno…

Autor: Diego Calvo

Read More »

Ejemplo de Test Unitarios en Python

Definición Los test unitarios son pruebas que tiene que pasar el código para poder verificar su correcto funcionamiento. Se trata de un método para determinar si un módulo o un conjunto de módulos de código funciona correctamente. Ejemplo de fichero a evaluar (programa.py) #!/usr/bin/env python # -*- coding: utf-8 -*- def sum(a, b): return a…

Autor: Diego Calvo

Read More »

Entorno virtual en Python

Definir entorno virtual desde linea de comandos > python -m venv entornovirtual_desarrollo Activar en entorno > ..\entornovirtual_desarrollo\Scripts\activate.bat (Para Windows) > ..\entornovirtual_desarrollo\bin\activate.bat (Para Linux) Desactivar el entorno (entornovirtual_desarrollo) > desactivate   Autor: Diego Calvo

Autor: Diego Calvo

Read More »

Matrices en Python

Declarar una Matriz import numpy as np matrix_aux = [[1,2,3], [4,5,6]] m = np.array(matrix_aux) l = np.zeros((3, 3)) print(l) [[ 0.  0.  0.]  [ 0.  0.  0.]  [ 0.  0.  0.]] l = np.ones([3,3]) print(l) [[ 1.  1.  1.]  [ 1.  1.  1.]  [ 1.  1.  1.]] l = np.diag([1,1,1]) print(l) [[1 0 0]  [0…

Autor: Diego Calvo

Read More »