por Diego Calvo | Oct 10, 2018 | Big data, Python
Generar datos a utilizar para leer y escribir en formato Parquet Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, («label»,... por Diego Calvo | Jul 19, 2018 | Big data
Formato: Textfile El formato Textfile es el formato de almacenamiento más simple de todos y es el predeterminado para tablas en sistemas Hadoop. No es más que texto plano donde los campos se almacenan separados por un delimitador y cada registro es separado por una...