Leer y escribir en formato parquet en Python

Generar datos a utilizar para leer y escribir en formato Parquet Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, («label»,...

Leer y escribir JSON en Python

Generar datos a utilizar para leer y escribir JSON Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, («label», «data»)) df.show()...

Leer Json en Scala

Leer Json de cadena de texto Ejemplo simple de lectura de Json a partir de una cadena de texto val events = sc.parallelize( «»» [{«accion»:»create»,»tiempo»:»2018-08-07T00:01:17Z»}, {«accion»:»create»,»tiempo»:»2018-08-07T00:01:17Z»}] «»» :: Nil) val df =...

Conectar con Scala al HDFS de Hadoop

Escribir datos en HDFS Ejemplo de como escribir datos RDD en un HDFS de Hadoop. // Borrar el fichero si es que existe import scala.sys.process._ «hdfs dfs -rm -r /pruebas» ! // Grabar un RDD en HDFS val rdd = sc.parallelize(List(     (0, 60),     (0, 56),     (0, 54),...

Leer y escribir dataframes comprimidos en R

Comprimir dataframe y escribir en un fichero Formato gz write.csv2(df, gzfile(«nombre_fichero.csv.gz»), row.names = FALSE) Formato zip write.csv2(df, gzfile(«nombre_fichero.csv.zip»), row.names = FALSE) Descomprimir dataframe leido de un fichero Formato gz df_new =...