Agrupar elementos de un dataframe en Scala

Ejemplo: Agrupar datos de forma simple Ejemplo donde se agrupa la tabla personas por apellido df.groupBy(«apellido»).count().show() +——–+—–+ |apellido|count| +——–+—–+ | Martin| 1| | Garcia| 3| +——–+—–+ Ejemplo: Agrupar datos combinado con filtro Ejemplo donde se agrupa la tabla personas por apellido y se selecciona los que tenga más de 2 apariciones. df.groupBy(«apellido»).count().filter(«count > 2»).show() +——–+—–+…

Read More »

Ordenar dataframe en Scala

Ejemplo: Ordenar datos simple Ejemplo donde se ordena la tabla personas por nombre df.sort(desc(«nombre»)).show() df.sort($»nombre».desc).show() df.orderBy($»nombre».desc).show() +——+——–+—-+——-+ |nombre|apellido|edad|salario| +——+——–+—-+——-+ | Sara| Garcia| 35| 34000| | Paco| Garcia| 24| 24000| | Lola| Martin| 29| 31000| | Juan| Garcia| 26| 27000| +——+——–+—-+——-+   Ejemplo: Ordenar datos por varios criterios Ejemplo donde se ordena la tabla personas por…

Read More »

Kerberos

Definición de Kerberos Kerberos es un protocolo de autenticación que permite a dos ordenadores demostrar su identidad mutuamente de forma segura. Implementado sobre una arquitectura cliente servidor y trabaja sobre la base de tiques que  sirven para demostrar la identidad de los usuarios. La autenticación entre dos ordenadores se lleva a cabo utilizando a un tercero…

Read More »

Generar un keytab de autenticación Kerberos en un cluster hadoop

Acceder al cluster por SSH ssh nombre_usuario@nombre_cluster_servidor   Autenticación en el Shell kinit nombre_usuario@REINO.COM Si la autenticación es exitosa, recibiremos un Ticket-Granting Ticket (TGT) del KDC. Esto significa que nos hemos autenticado con el servidor, pero aún no hemos recibido permiso para acceder a ningún servicio.   Examinar caché de tickets para verificar que hemos…

Read More »

Funciones estadísticas de dataframes en Scala

Ejemplo de funciones estadiscias: media Muestra un ejemplo de como realizar la media sobre un conjunto de datos val df = Seq(   («Paco»,»Garcia»,24,24000),   («Juan»,»Garcia»,26,27000),   («Lola»,»Martin»,29,31000),   («Sara»,»Martin»,32,32000),   («Sara»,»Garcia»,35,34000) ).toDF(«nombre», «apellido»,»edad»,»salario») df   .select(avg(«edad»))   .show() +———+ |avg(edad)| +———+ | 29.2| +———+ Ejemplo de funciones estadiscias: suma Muestra un ejemplo de como…

Read More »

Mostar datos de dataframes en Scala

Mostar datos de tabla Muestra los datos del dataframe val df = Seq(   («Paco»,»Garcia»,24,24000),   («Juan»,»Garcia»,26,27000),   («Lola»,»Martin»,29,31000),   («Sara»,»Garcia»,35,34000) ).toDF(«nombre», «apellido»,»edad»,»salario») df.show() +——+——–+—-+——-+ |nombre|apellido|edad|salario| +——+——–+—-+——-+ | Paco| Garcia| 24| 24000| | Juan| Garcia| 26| 27000| | Lola| Martin| 29| 31000| | Sara| Garcia| 35| 34000| +——+——–+—-+——-+ Mostrar resumen de datos Muestra una tabla…

Read More »

Unir tablas con SQL Spark en Scala

Ejemplo: Unir tablas Unir tablas que tenga el identificador comun val df = Seq(   (1,»Paco»,»Garcia»,24,24000),   (2,»Juan»,»Garcia»,26,27000),   (3,»Lola»,»Martin»,29,31000),   (4,»Sara»,»Garcia»,35,34000) ).toDF(«id»,»nombre», «apellido»,»edad»,»salario») df.createOrReplaceTempView(«personas») val df = Seq(   (1,»Rojo»,»Pasta»),   (2,»Amarillo»,»Pizza»),   (3,»Azul»,»Patatas»),   (5,»Rojo»,»Pizza»),   (6,»Negro»,»Pulpo») ).toDF(«id», «color»,»comida») df.createOrReplaceTempView(«gustos») spark     .sql(     «»»select p.*, g.*       |from personas p       |inner…

Read More »

Ordenar elementos con SQL Spark en Scala

Ejemplo: Ordenar elementos Ordena personas por nombre. val df = Seq(   («Paco»,»Garcia»,24,24000),   («Juan»,»Garcia»,26,27000),   («Lola»,»Martin»,29,31000),   («Sara»,»Garcia»,35,34000) ).toDF(«nombre», «apellido»,»edad»,»salario») df.createOrReplaceTempView(«personas») spark     .sql(      «»»select         | nombre, apellido         | from personas         | order by nombre     «»».stripMargin)     .show +——+——–+ |nombre|apellido| +——+——–+ | Juan| Garcia| | Lola| Martin| | Paco|…

Read More »

Agrupar elementos con SQL Spark en Scala

Ejemplo: Agrupar elementos Contar el número de personas que comparten el mismo apellido. val df = Seq(   («Paco»,»Garcia»,24,24000),   («Juan»,»Garcia»,26,27000),   («Lola»,»Martin»,29,31000),   («Sara»,»Garcia»,35,34000) ).toDF(«nombre», «apellido»,»edad»,»salario») df.createOrReplaceTempView(«personas») spark     .sql(      «»»select         | apellido, count(*) as num_iguales         | from personas         | group by apellido     «»».stripMargin)     .show +——–+———–+ |apellido|num_iguales| +——–+———–+…

Read More »

Mi primera aplicacion Apache Spark en Scala con Maven en Intelligent Idea

Este post tiene como objetivo ayudar al lector a crear una simple aplicación Spark. Para ello, es necesario configurar bien una serie de herramientas informáticas que faciliten el desarrollo, las pruebas y el empaquetado. Prerequisitos En esta sección se van a definir las herramientas que se necesitan para iniciar el desarrollo. Para comenzar es necesario…

Read More »