Leer y escribir en formato parquet en Python

Generar datos a utilizar para leer y escribir en formato Parquet Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, («label»,...

Formatos de ficheros Big Data

Formato: Textfile El formato Textfile es el formato de almacenamiento más simple de todos y es el predeterminado para tablas en sistemas Hadoop. No es más que texto plano donde los campos se almacenan separados por un delimitador y cada registro es separado por una...