Instalar y Configurar Apache Kafka

Prerequisitos Tener instalado Java 8.   Descargar e instalar Apache Kakfa Descargar la última version de Apache Kafka o bien usar cd /home/haddop/Descargas wget http://apache.rediris.es/kafka/2.0.0/kafka_2.11-2.0.0.tgz Nota: Si prefieres trabajar con Docker y tener más de un broker, clona este repositorio y sigue las instrucciones para tener un nodo de Zookeeper y varios de Kafka. NO…

Read More »

Instalar y Configurar HBase

Prerequisitos Tener instalado Java8.   Descargar HBase Buscar la última versión de HBase compatible con el sistema que tengas o bien usar wget cd /home/hadoop/Descargas wget http://apache.uvigo.es/hbase/2.1.1/hbase-2.1.1-bin.tar.gz Descomprimir el fichero descargado tar xvf apache-hbase-2.1.1-bin.tar.gz Mover la carpeta generada al directorio donde tenemos los programas de hadoop “/opt” (usando root) su – mv /home/hadoop/Descargas/hbase-2.1.1 /opt/hbase  …

Read More »

Configurar clúster Hadoop (+ herramientas Big Data)

Instalar y configurar un clúster Hadoop Pseudo-Distribuido (un solo nodo) Instalar la máquina Virtual Java. Instalar Hadoop. Configurar las variables de entorno. Configurar SSH Modificar ficheros de configuración Crear directorio de datos, donde almacenar HDFS Iniciar servicio de HDFS Configurar Yarn Arrancar servicios Yarn   Instalar y configurar de HBase Descargar HBase Configurar variables de…

Autor: Diego Calvo

Read More »

Configurar clúster Hadoop. Instalación Pseudo-Distribuida (un solo nodo)

Descargar entorno de trabajo Descargar la última versión de la máquina virtual CentOS (se utilizó la 6.7) y ejecutarla con virtualBox. Iniciar la máquina virtual con el usuario hadoop (sino existe crearlo) useradd hadoop passwd hadoop   Instalación de máquina Virtual Java Descargar la máquina virtual de java Abrir un terminal con usuario root: su…

Autor: Diego Calvo

Read More »

Instalar y configurar de HIVE en Hadoop

Prerequisitos Tener instalado y configurado Hadoop.   Descargar Hive Buscar la última versión de Hive compatible con el sistema que tengas o bien usar wget cd /home/hadoop/Descargas wget http://apache.rediris.es/hive/hive-2.3.4/apache-hive-2.3.4-bin.tar.gz Descomprimir el fichero descargado tar xvf apache-hive-2.3.4-bin.tar.gz Mover la carpeta generada a el directorio donde tenemos los programas de hadoop “/opt” (usando root) su – mv…

Autor: Diego Calvo

Read More »

Regresión Lineal sobre segmentos de datos en Scala

Ejemplo de regresión lineal sobre segmentos de datos Realiza diferentes regresiones de datos tomando como grupo para segmentar la clave formado por el identificador y el tipo import org.apache.spark.ml.Pipeline import org.apache.spark.ml.feature.VectorAssembler import org.apache.spark.ml.regression.{LinearRegression, LinearRegressionModel} import org.apache.spark.sql.functions._ import org.apache.spark.sql.types.{IntegerType, StructField, StructType, StringType} import org.apache.spark.sql.{DataFrame, Row, SparkSession} import org.apache.spark.{SparkConf, SparkContext} object App{ def lineal_regresion (df: DataFrame) =…

Autor: Diego Calvo

Read More »

Escribir en Elastic remoto con Scala y seguridad Searchguard

Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Tener un Elastic con Searchguard instalado Incluir en el fichero pon la paquetería propia de Elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20 –> <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-20_2.11</artifactId> <version>6.4.2</version> </dependency>   Ejemplo de como escribir un dataframe transformado a Mapa en un Elastic 5.2.0 local en Scala 2.1.1. package com.scala import…

Autor: Diego Calvo

Read More »

Escribir dataframe en Elastic con Scala

Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Incluir en el fichero pon la paquetería propia de Elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20 –> <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-20_2.11</artifactId> <version>6.4.2</version> </dependency>   Ejemplo de como escribir un dataframe transformado a Mapa en un Elastic 6.4.2 local en Scala 2.1.1. package com.scala import org.apache.spark.sql.SparkSession import org.apache.spark.{SparkConf, SparkContext} import org.elasticsearch.spark._…

Autor: Diego Calvo

Read More »

Escribir datos en Elastic con Scala

Prerequisitos Tener configurado la paquetería de Spark para IntelliJ IDEA Incluir en el fichero pon la paquetería propia de elastic: <!– https://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-spark-20 –> <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch-spark-20_2.11</artifactId> <version>6.4.2</version> </dependency>   Ejemplo de como escribir en un Elastic 6.4.2 local en Scala 2.1.1. package com.scala import org.apache.spark.{SparkConf, SparkContext} import org.elasticsearch.spark._ object App { def main(args : Array[String])…

Autor: Diego Calvo

Read More »

Cambiar el password de Ambari en Hortonworks

Cambiar el password de forma simple Para cambiar el password de forma simple en hortonworks, basta con: Acceder por SSH Acceder por ssh a la máquina, por defecto las credenciales son: (usuario: root, clave: hadoop) Para ello se puede usar WinSCP, Firecilla, Putty, …   Usar la sentencia de para cambiar el password ambari-admin-password-reset Autor:…

Autor: Diego Calvo

Read More »