Funciones estadísticas de dataframes en Scala

Ejemplo de funciones estadiscias: media Muestra un ejemplo de como realizar la media sobre un conjunto de datos val df = Seq(   («Paco»,»Garcia»,24,24000),   («Juan»,»Garcia»,26,27000),   («Lola»,»Martin»,29,31000),   («Sara»,»Martin»,32,32000),   («Sara»,»Garcia»,35,34000) ).toDF(«nombre», «apellido»,»edad»,»salario») df   .select(avg(«edad»))   .show() +———+ |avg(edad)| +———+ | 29.2| +———+ Ejemplo de funciones estadiscias: suma Muestra un ejemplo de como…

Read More »

Cálculos sobre ventana temporal en Dataframe Scala

Cálculo de media móvil en Dataframe Scala Calcula la media móvil a partir de una ventana temporal de 3 periodos import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.functions._ val df = sc.parallelize(    List((«Sensor1», «2016-05-01», 50.00),         («Sensor1», «2016-05-03», 45.00),         («Sensor1», «2016-05-04», 55.00),         («Sensor2», «2016-05-01», 25.00),         («Sensor2», «2016-05-04», 29.00),         («Sensor2», «2016-05-06», 27.00))     ).toDF(«sensor», «fecha»,…

Read More »

Calcular la media móvil en Listas Scala

Calcular la media móvil simple (3 periodos) Calcula la media móvil a partir de una ventana temporal de 3 periodos import org.apache.spark.mllib.rdd.RDDFunctions._ val a = List(1,5,6,7,9,10,12,14) val b = sc.parallelize(a)   .sliding(3)   .map(curSlice => (curSlice.sum / curSlice.size)) b.collect() res a: List[Int] = List(1, 5, 6, 7, 9, 10, 12, 14) res b: Array[Int] =…

Read More »

Estadísticos básicos

Posición Central Media datos <- c(1,2,3,4,5,6,7,7,7,8,9,10) mean(datos) summary(datos) datos<-matrix(rnorm(100,50),ncol=1,byrow=F) apply(datos, 2, mean) Mediana median(datos) summary(datos)   Moda modad <- function(x) as.numeric(names(which.max(table(x)))) modad(datos)   No central Minimo / Maximo / Percentiles min(datos) max(datos) quantile(datos) quantile(x, c(.35, .60, .98)) # procentajes concretos summary(datos) Dispersión Varianza var(datos) Desviación típica sd(datos) Rango o recorrido intercuartílico IQR(datos) Distribución o forma…

Read More »