Escribir en Elastic remoto con Scala y seguridad Searchguard

Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Tener un Elastic con Searchguard instalado Incluir en el fichero pon la paquetería propia de Elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20 –> <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-20_2.11</artifactId> <version>6.4.2</version> </dependency>   Ejemplo de como escribir un dataframe transformado a Mapa en un Elastic 5.2.0 local en Scala 2.1.1. package com.scala import…

Read More »

Escribir dataframe en Elastic con Scala

Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Incluir en el fichero pon la paquetería propia de Elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20 –> <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-20_2.11</artifactId> <version>6.4.2</version> </dependency>   Ejemplo de como escribir un dataframe transformado a Mapa en un Elastic 6.4.2 local en Scala 2.1.1. package com.scala import org.apache.spark.sql.SparkSession import org.apache.spark.{SparkConf, SparkContext} import org.elasticsearch.spark._…

Read More »

Leer y escribir en formato parquet en Python

Generar datos a utilizar para leer y escribir en formato Parquet Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, («label», «data»)) df.show() +—–+—-+ |label|data| +—–+—-+ | 4| 0| | 7| 0| | 1| 1| | 3| 8| | 3| 5| +—–+—-+…

Read More »

Leer y escribir JSON en Python

Generar datos a utilizar para leer y escribir JSON Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, («label», «data»)) df.show() +—–+—-+ |label|data| +—–+—-+ | 4| 0| | 7| 0| | 1| 1| | 3| 8| | 3| 5| +—–+—-+   Escribir…

Read More »

Conectar con Scala al HDFS de Hadoop

Escribir datos en HDFS Ejemplo de como escribir datos RDD en un HDFS de Hadoop. // Borrar el fichero si es que existe import scala.sys.process._ «hdfs dfs -rm -r /pruebas» ! // Grabar un RDD en HDFS val rdd = sc.parallelize(List(     (0, 60),     (0, 56),     (0, 54),     (0, 62),     (0,…

Read More »

Leer y escribir dataframes comprimidos en R

Comprimir y escribir dataframe Formato gz write.csv2(df, gzfile(«nombre_fichero.csv.gz»), row.names = FALSE) Formato zip write.csv2(df, gzfile(«nombre_fichero.csv.zip»), row.names = FALSE)   Descomprimir y cargar dataframe Formato gz df_new = read.csv2(«nombre_fichero.csv.gz») Formato zip df_new = read.csv2(«nombre_fichero.csv.zip»)

Read More »

Leer y escribir de ficheros en Python

Lectura de ficheros .csv import os os.chdir(‘/Users/diego/Documents/test/facta_example/’) print (os.getcwd()) import pandas as pd file_csv = pd.read_csv(‘list_groups.csv’, delimiter=»;») file_csv file_csv.describe() cell = file_csv.loc[1, [‘family’]].values[0] cell Escritura de ficheros .csv data.to_csv(‘nombre_fichero.csv’) Lectura de ficheros .fna ( formato fasta) import os; os.chdir(‘/Users/diego/Documents/test/facta_example/’) print (os.getcwd()) for record in SeqIO.parse(«fichero2.fna», «fasta»):     print(record.seq) for record in SeqIO.parse(«fichero2.fna», «fasta»):     print(record.description)…

Read More »

Leer y escribir datos de ficheros externos en R

Leer fichero csv Carga de datos de forma genérica, donde debes especificar, si los datos tienen cabecera, que separador los delimita y la codificación de datos a utilizar. Para caracteres europeos usar latin1 datos <- read.table(datos, «temp/datos.csv», header=TRUE, sep=»,», fileEncoding = «latin1») Cargar datos CSV, estos datos sabemos a priori que el separador es la…

Read More »