spark Archivos - Diego Calvo

Modelo de predicción con Spark

por Eros Merino | Jul 6, 2020 | Big data, R, Spark

Spark es un motor ultrarrápido para el almacenamiento, procesamiento y análisis de grandes volúmenes de datos.Es de código abierto y se encuentra gestionado por la Apache Software Foundation. Apache Spark está especialmente diseñado para su implementación en Big data...

Ejecución distribuida Spark para Python

por Diego Calvo | Sep 13, 2018 | Big data, Python, Spark

Ejemplo «Hola mundo» Definir el script en Python a ejecutar Código del fichero hola_mundo.py from pyspark.sql import SparkSession spark = SparkSession.builder.appName(«Hola_Mundo»).getOrCreate() print(«Hola mundo») spark.stop() Nota: Al ser un lenguaje interpretado no...

Procesar datos en tiempo real (streaming) en Scala

por Diego Calvo | Sep 6, 2018 | Big data, Scala, Spark

Prerequisitos Limpiar todos los hdfs generados, utilizando la linea de comandos hdfs dfs -rm -r /streaming hdfs dfs -mkdir /streaming hdfs dfs -ls /streaming Generar datos usados para iniciar el análisis Se genera una serie de datos en formato json que se almacenan en...

Agrupar elementos de un dataframe en Scala

por Diego Calvo | Sep 5, 2018 | Big data, Scala, Spark

Ejemplo: Agrupar datos de forma simple Ejemplo donde se agrupa la tabla personas por apellido df.groupBy(«apellido»).count().show() +——–+—–+ |apellido|count| +——–+—–+ | Martin| 1| | Garcia| 3|...

Ordenar dataframe en Scala

por Diego Calvo | Sep 5, 2018 | Big data, Scala, Spark

Ejemplo: Ordenar datos simple Ejemplo donde se ordena la tabla personas por nombre df.sort(desc(«nombre»)).show() df.sort($»nombre».desc).show() df.orderBy($»nombre».desc).show() +——+——–+—-+——-+...