por Eros Merino | Jul 6, 2020 | Big data, R, Spark
Spark es un motor ultrarrápido para el almacenamiento, procesamiento y análisis de grandes volúmenes de datos.Es de código abierto y se encuentra gestionado por la Apache Software Foundation. Apache Spark está especialmente diseñado para su implementación en Big data... por Diego Calvo | Sep 13, 2018 | Big data, Python, Spark
Ejemplo «Hola mundo» Definir el script en Python a ejecutar Código del fichero hola_mundo.py from pyspark.sql import SparkSession spark = SparkSession.builder.appName(«Hola_Mundo»).getOrCreate() print(«Hola mundo») spark.stop() Nota: Al ser un lenguaje interpretado no... por Diego Calvo | Sep 6, 2018 | Big data, Scala, Spark
Prerequisitos Limpiar todos los hdfs generados, utilizando la linea de comandos hdfs dfs -rm -r /streaming hdfs dfs -mkdir /streaming hdfs dfs -ls /streaming Generar datos usados para iniciar el análisis Se genera una serie de datos en formato json que se almacenan en... por Diego Calvo | Sep 5, 2018 | Big data, Scala, Spark
Ejemplo: Agrupar datos de forma simple Ejemplo donde se agrupa la tabla personas por apellido df.groupBy(«apellido»).count().show() +——–+—–+ |apellido|count| +——–+—–+ | Martin| 1| | Garcia| 3|... por Diego Calvo | Sep 5, 2018 | Big data, Scala, Spark
Ejemplo: Ordenar datos simple Ejemplo donde se ordena la tabla personas por nombre df.sort(desc(«nombre»)).show() df.sort($»nombre».desc).show() df.orderBy($»nombre».desc).show() +——+——–+—-+——-+...