Ejecución distribuida Spark para Python

Ejemplo «Hola mundo» Definir el script en Python a ejecutar Código del fichero hola_mundo.py from pyspark.sql import SparkSession spark = SparkSession.builder.appName(«Hola_Mundo»).getOrCreate() print(«Hola mundo») spark.stop() Nota: Al ser un lenguaje interpretado no...

Apache YARN

Definición de Yarn (Yet Another Resource Negociator) Yarn es un sistema operativo de datos y gestor de recursos distribuido, conocido también como Hadoop 2 ya que es la evolución de Hadoop Map-Reduce. Los cambios más significativos de Hadoop 2 sobre Hadoop 1 es que se...

Unir dataframes en Scala

Ejemplo: Unir tablas Unir tablas que tenga el identificador comun val df_personas = Seq(   (1,»Paco»,»Garcia»,24,24000),   (2,»Juan»,»Garcia»,26,27000),   (3,»Lola»,»Martin»,29,31000),   (4,»Sara»,»Garcia»,35,34000) ).toDF(«id»,»nombre», «apellido»,»edad»,»salario»)...

Ordenar dataframe en Scala

Ejemplo: Ordenar datos simple Ejemplo donde se ordena la tabla personas por nombre df.sort(desc(«nombre»)).show() df.sort($»nombre».desc).show() df.orderBy($»nombre».desc).show() +——+——–+—-+——-+...