Diego Calvo, Autor en Diego Calvo

Filtrar posts por autor mediante url en WordPress

por Diego Calvo | Sep 13, 2018 | Trucos

Este post es parte del código que he utilizado para incluir los posts que han escrito cada uno de mis colaboradores, para ello realizo un filtrado por autor mediante la siguiente url: Filtra posts por autor diegocalvo inicio Filtra posts por autor fernandocampos...

Ejecución distribuida Spark para Python

por Diego Calvo | Sep 13, 2018 | Big data, Python, Spark

Ejemplo «Hola mundo» Definir el script en Python a ejecutar Código del fichero hola_mundo.py from pyspark.sql import SparkSession spark = SparkSession.builder.appName(«Hola_Mundo»).getOrCreate() print(«Hola mundo») spark.stop() Nota: Al ser un lenguaje interpretado no...

Apache YARN

por Diego Calvo | Sep 12, 2018 | Big data

Definición de Yarn (Yet Another Resource Negociator) Yarn es un sistema operativo de datos y gestor de recursos distribuido, conocido también como Hadoop 2 ya que es la evolución de Hadoop Map-Reduce. Los cambios más significativos de Hadoop 2 sobre Hadoop 1 es que se...

Procesar datos en tiempo real (streaming) en Scala

por Diego Calvo | Sep 6, 2018 | Big data, Scala, Spark

Prerequisitos Limpiar todos los hdfs generados, utilizando la linea de comandos hdfs dfs -rm -r /streaming hdfs dfs -mkdir /streaming hdfs dfs -ls /streaming Generar datos usados para iniciar el análisis Se genera una serie de datos en formato json que se almacenan en...

Unir dataframes en Scala

por Diego Calvo | Sep 5, 2018 | Big data, Scala, Spark

Ejemplo: Unir tablas Unir tablas que tenga el identificador comun val df_personas = Seq( (1,»Paco»,»Garcia»,24,24000), (2,»Juan»,»Garcia»,26,27000), (3,»Lola»,»Martin»,29,31000), (4,»Sara»,»Garcia»,35,34000) ).toDF(«id»,»nombre», «apellido»,»edad»,»salario»)...