Ejemplo de funciones estadiscias: media
Muestra un ejemplo de como realizar la media sobre un conjunto de datos
val df = Seq( ("Paco","Garcia",24,24000), ("Juan","Garcia",26,27000), ("Lola","Martin",29,31000), ("Sara","Martin",32,32000), ("Sara","Garcia",35,34000) ).toDF("nombre", "apellido","edad","salario") df .select(avg("edad")) .show()
+---------+ |avg(edad)| +---------+ | 29.2| +---------+
Ejemplo de funciones estadiscias: suma
Muestra un ejemplo de como realizar la suma sobre un conjunto de datos
df .select(sum("edad")) .show()
+---------+ |sum(edad)| +---------+ | 146| +---------+
Ejemplo de funciones estadiscias: mínimo
Muestra un ejemplo de identificar el valor mínimo sobre un conjunto de datos
df .select(min("edad")) .show()
+---------+ |min(edad)| +---------+ | 24| +---------+
Ejemplo de funciones estadiscias: máximo
Muestra un ejemplo de identificar el valor máximo sobre un conjunto de datos
df .select(max("edad")) .show()
+---------+ |max(edad)| +---------+ | 35| +---------+
Ejemplo de funciones estadisticas combinadas: agrupamiento
Muestra un ejemplo que calcula la media y el valor maximo de subconjunto de datos agrupados por apellidos
df .groupBy(df.col("apellido")) .agg(avg("edad"), max("salario")) .show()
+--------+------------------+------------+ |apellido| avg(edad)|max(salario)| +--------+------------------+------------+ | Martin| 30.5| 32000| | Garcia|28.333333333333332| 34000| +--------+------------------+------------+
Ejemplo de funciones estadiscias: correlación
Muestra un ejemplo que calcula la correlación sobre un conjunto de datos
df.stat.corr("edad", "salario")
res: Double = 0.9682166881272039
Ejemplo de funciones estadiscias: covarianza
Muestra un ejemplo que calcula la coviarianza sobre un conjunto de datos
df.stat.cov("edad", "salario")
res: Double = 17350.0
0 comentarios