escribir Archivos - Diego Calvo

Escribir en Elastic remoto con Scala y seguridad Searchguard

por Diego Calvo | Oct 31, 2018 | Big data, Scala

Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Tener un Elastic con Searchguard instalado Incluir en el fichero pon la paquetería propia de Elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20...

Escribir dataframe en Elastic con Scala

por Diego Calvo | Oct 28, 2018 | Big data, Spark

Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Incluir en el fichero pon la paquetería propia de Elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20 –> <dependency>...

Leer y escribir en formato parquet en Python

por Diego Calvo | Oct 10, 2018 | Big data, Python

Generar datos a utilizar para leer y escribir en formato Parquet Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, («label»,...

Leer y escribir JSON en Python

por Diego Calvo | Oct 9, 2018 | Big data, Python

Generar datos a utilizar para leer y escribir JSON Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, («label», «data»)) df.show()...

Conectar con Scala al HDFS de Hadoop

por Diego Calvo | Ago 10, 2018 | Big data, Hadoop, Spark

Escribir datos en HDFS Ejemplo de como escribir datos RDD en un HDFS de Hadoop. // Borrar el fichero si es que existe import scala.sys.process._ «hdfs dfs -rm -r /pruebas» ! // Grabar un RDD en HDFS val rdd = sc.parallelize(List( (0, 60), (0, 56), (0, 54),...