dataframe Archivos - Diego Calvo

Unir dataframes en R

por Diego Calvo | May 11, 2020 | R

La unión de dataframes se hace aplicando la teoría de conjuntos. En la imagen se muestra de forma visual que subconjunto de datos tenemos en cada caso. Teoría de conjuntos Cargar datos del dataframe # Conjunto de datos 1 id1 <- c (1:6) valor1 <-...

Escribir dataframe en Elastic con Scala

por Diego Calvo | Oct 28, 2018 | Big data, Spark

Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Incluir en el fichero pon la paquetería propia de Elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20 –> <dependency>...

Añadir columna en Dataframe en Scala

por Diego Calvo | Ago 30, 2018 | Big data, Scala, Spark

Añadir columna de unos Se suele añadir una coñumna de unos para en posteriores operaciones de reduce realizar recuentos por agrupación. val df = Seq( («id1», 1), («id1», 2), («id1», 3), («id1», 4), («id2», 1), («id2», 2), («id2», 3), («id3», 1), («id3», 2)...

Filtrar DataFrame en Scala

por Diego Calvo | Ago 27, 2018 | Big data, Scala, Spark

Filtrar de datos con like Ejemplo que realiza un filtrado para seleccionar las personas que su apellido contiene «Garc» y cuya edad es menor de 30. val df = sc.parallelize(Seq( («Paco»,»Garcia»,24,24000,»2018-08-06 00:00:00″),...

Conectar con Scala al HDFS de Hadoop

por Diego Calvo | Ago 10, 2018 | Big data, Hadoop, Spark

Escribir datos en HDFS Ejemplo de como escribir datos RDD en un HDFS de Hadoop. // Borrar el fichero si es que existe import scala.sys.process._ «hdfs dfs -rm -r /pruebas» ! // Grabar un RDD en HDFS val rdd = sc.parallelize(List( (0, 60), (0, 56), (0, 54),...