por Diego Calvo | Sep 13, 2018 | Trucos
Este post es parte del código que he utilizado para incluir los posts que han escrito cada uno de mis colaboradores, para ello realizo un filtrado por autor mediante la siguiente url: Filtra posts por autor diegocalvo inicio Filtra posts por autor fernandocampos... por Diego Calvo | Sep 13, 2018 | Big data, Python, Spark
Ejemplo «Hola mundo» Definir el script en Python a ejecutar Código del fichero hola_mundo.py from pyspark.sql import SparkSession spark = SparkSession.builder.appName(«Hola_Mundo»).getOrCreate() print(«Hola mundo») spark.stop() Nota: Al ser un lenguaje interpretado no... por Diego Calvo | Sep 12, 2018 | Big data
Definición de Yarn (Yet Another Resource Negociator) Yarn es un sistema operativo de datos y gestor de recursos distribuido, conocido también como Hadoop 2 ya que es la evolución de Hadoop Map-Reduce. Los cambios más significativos de Hadoop 2 sobre Hadoop 1 es que se... por Diego Calvo | Sep 6, 2018 | Big data, Scala, Spark
Prerequisitos Limpiar todos los hdfs generados, utilizando la linea de comandos hdfs dfs -rm -r /streaming hdfs dfs -mkdir /streaming hdfs dfs -ls /streaming Generar datos usados para iniciar el análisis Se genera una serie de datos en formato json que se almacenan en... por Diego Calvo | Sep 5, 2018 | Big data, Scala, Spark
Ejemplo: Unir tablas Unir tablas que tenga el identificador comun val df_personas = Seq( (1,»Paco»,»Garcia»,24,24000), (2,»Juan»,»Garcia»,26,27000), (3,»Lola»,»Martin»,29,31000), (4,»Sara»,»Garcia»,35,34000) ).toDF(«id»,»nombre», «apellido»,»edad»,»salario»)...