Cambiar el password de Ambari en Hortonworks

Cambiar el password de forma simple Para cambiar el password de forma simple en hortonworks, basta con: Acceder por SSH Acceder por ssh a la máquina, por defecto las credenciales son: (usuario: root, clave: hadoop) Para ello se puede usar WinSCP, Firecilla, Putty, …   Usar la sentencia de para cambiar el password ambari-admin-password-reset Autor:…

Autor: Diego Calvo

Read More »

Leer y escribir en formato parquet en Python

Generar datos a utilizar para leer y escribir en formato Parquet Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, (“label”, “data”)) df.show() +—–+—-+ |label|data| +—–+—-+ | 4| 0| | 7| 0| | 1| 1| | 3| 8| | 3| 5| +—–+—-+…

Autor: Diego Calvo

Read More »

Leer y escribir JSON en Python

Generar datos a utilizar para leer y escribir JSON Ejemplo de datos aleatorios para utilizar en los siguientes apartados data = [] for x in range(5): data.append((random.randint(0,9), random.randint(0,9))) df = spark.createDataFrame(data, (“label”, “data”)) df.show() +—–+—-+ |label|data| +—–+—-+ | 4| 0| | 7| 0| | 1| 1| | 3| 8| | 3| 5| +—–+—-+   Escribir…

Autor: Diego Calvo

Read More »

Como crear un SparkSession con Scala 2.11 y Maven3

En este post vamos a mostrar la manera de invocar un SparkSession para escribir un fichero en disco mediante hfds. Para ello toma como punto de partida el post Mi primera Apache Spark con Scala con Maven en Intelligent Idea. En el paquete com.fer.cam se crea una Objeto denominado Main y se añade las siguientes…

Read More »

Análisis de Regresión lineal en Python Spark

Ejemplo de Regresión lineal simple en Python Spark Se muestra un ejemplo de regresión lineal simple sobre un conjunto de datos que se genera de forma aleatoria. Entra regresión se ejecuta sobre una sesión de Spark utilizando la librería propia de Spark para machine learning. # -*- coding: utf-8 -*- “”” Spark Regression “”” from…

Autor: Diego Calvo

Read More »

Ejecución distribuida de Spark Scala en IntelliJ Idea mediante SBT

Ejemplo en Scala Spark de multiplicar por dos un vector En este ejemplo se muestran los pasos a seguir para crear un proyecto spark en Scala y ejecutarlo como un trabajo en el sistema distribuido Crear proyecto Entrar en el entorno de desarrollo IntelliJ Idea y crear un nuevo proyecto Scala de tipo SBT Configurar…

Autor: Diego Calvo

Read More »

Ejecución distribuida Spark para Python

Ejemplo “Hola mundo” Definir el script en Python a ejecutar Código del fichero hola_mundo.py from pyspark.sql import SparkSession spark = SparkSession.builder.appName(“Hola_Mundo”).getOrCreate() print(“Hola mundo”) spark.stop() Nota: Al ser un lenguaje interpretado no es necesario compilarlo para su ejecución.   Ejecución distribuida del script Para ejecutar de forma distribuida el script en python detro de un entorno…

Autor: Diego Calvo

Read More »

Apache YARN

Definición de Yarn (Yet Another Resource Negociator) Yarn es un sistema operativo de datos y gestor de recursos distribuido, conocido también como Hadoop 2 ya que es la evolución de Hadoop Map-Reduce. Los cambios más significativos de Hadoop 2 sobre Hadoop 1 es que se incluye la tecnología HILO, esta tecnología proporciona una asignación de…

Autor: Diego Calvo

Read More »

Procesar datos en tiempo real (streaming) en Scala

Prerequisitos Limpiar todos los hdfs generados, utilizando la linea de comandos hdfs dfs -rm -r /streaming hdfs dfs -mkdir /streaming hdfs dfs -ls /streaming Generar datos usados para iniciar el análisis Se genera una serie de datos en formato json que se almacenan en un fichero hdfs. val events = sc.parallelize( “””  [{“accion”:”Abrir”, “tiempo”:”2018-08-01T00:01:17Z”},  …

Autor: Diego Calvo

Read More »

Unir dataframes en Scala

Ejemplo: Unir tablas Unir tablas que tenga el identificador comun val df_personas = Seq(   (1,”Paco”,”Garcia”,24,24000),   (2,”Juan”,”Garcia”,26,27000),   (3,”Lola”,”Martin”,29,31000),   (4,”Sara”,”Garcia”,35,34000) ).toDF(“id”,”nombre”, “apellido”,”edad”,”salario”) val df_gustos = Seq(   (1,”Rojo”,”Pasta”),   (2,”Amarillo”,”Pizza”),   (3,”Azul”,”Patatas”),   (5,”Rojo”,”Pizza”),   (6,”Negro”,”Pulpo”) ).toDF(“id”, “color”,”comida”) df_personas     .join(df_gustos, “id”)     .select(“nombre”, “edad”, “color”, “comida”)     .show() +——+—-+——–+——-+ |nombre|edad| color| comida|…

Autor: Diego Calvo

Read More »