por Diego Calvo | Jul 19, 2018 | Big data
Formato: Textfile El formato Textfile es el formato de almacenamiento más simple de todos y es el predeterminado para tablas en sistemas Hadoop. No es más que texto plano donde los campos se almacenan separados por un delimitador y cada registro es separado por una... por Diego Calvo | Jul 4, 2018 | Big data, Hadoop
Prerequisitos Tener instalado Hortonworks (Virtual Box) para Spark Visionar el ejemplo de Hola Mundo. Configurar ficheros productora/consumidor kafka Copiar ficheros de configuración para pruebas Desde la linea de comandos acceder la carpeta donde se guardan... por Diego Calvo | May 22, 2018 | R
Leer ficheros de gran tamaño puede acarrear dolores de cabeza si nos centramos en la velocidad de lectura. Para resolver este problema se muestra a continuación una comparativa de los tiempo empleado en leer el fichero «database.csv» de tamaño: 14,5Mb con 53.641 filas... por Diego Calvo | May 20, 2018 | R
Generar ficheros de logs con el paquete «logging» Ejemplo fue uso de «logging» #install.packages(«logging») library(logging) logReset() # Resetea otros logs existentes #basicConfig(level=’FINEST’) addHandler(writeToFile, file=»testing.log»,... por Diego Calvo | Jul 15, 2017 | Python
Lectura de ficheros .csv import os os.chdir(‘/Users/diego/Documents/test/facta_example/’) print (os.getcwd()) import pandas as pd file_csv = pd.read_csv(‘list_groups.csv’, delimiter=»;») file_csv file_csv.describe() cell = file_csv.loc[1,...