Instalar y Configurar Apache Kafka

Prerequisitos Tener instalado Java 8.   Descargar e instalar Apache Kakfa Descargar la última version de Apache Kafka o bien usar cd /home/haddop/Descargas wget http://apache.rediris.es/kafka/2.0.0/kafka_2.11-2.0.0.tgz Nota: Si prefieres trabajar con Docker y tener más de un broker, clona este repositorio y sigue las instrucciones para tener un nodo de Zookeeper y varios de Kafka. NO…

Read More »

Instalar y Configurar HBase

Prerequisitos Tener instalado Java8.   Descargar HBase Buscar la última versión de HBase compatible con el sistema que tengas o bien usar wget cd /home/hadoop/Descargas wget http://apache.uvigo.es/hbase/2.1.1/hbase-2.1.1-bin.tar.gz Descomprimir el fichero descargado tar xvf apache-hbase-2.1.1-bin.tar.gz Mover la carpeta generada al directorio donde tenemos los programas de hadoop «/opt» (usando root) su – mv /home/hadoop/Descargas/hbase-2.1.1 /opt/hbase  …

Read More »

Configurar clúster Hadoop (+ herramientas Big Data)

Instalar y configurar un clúster Hadoop Pseudo-Distribuido (un solo nodo) Instalar la máquina Virtual Java. Instalar Hadoop. Configurar las variables de entorno. Configurar SSH Modificar ficheros de configuración Crear directorio de datos, donde almacenar HDFS Iniciar servicio de HDFS Configurar Yarn Arrancar servicios Yarn   Instalar y configurar de HBase Descargar HBase Configurar variables de…

Read More »

Configurar clúster Hadoop. Instalación Pseudo-Distribuida (un solo nodo)

Descargar entorno de trabajo Descargar la última versión de la máquina virtual CentOS (se utilizó la 6.7) y ejecutarla con virtualBox. Iniciar la máquina virtual con el usuario hadoop (sino existe crearlo) useradd hadoop passwd hadoop   Instalación de máquina Virtual Java Descargar la máquina virtual de java Abrir un terminal con usuario root: su…

Read More »

Instalar y configurar de HIVE en Hadoop

Prerequisitos Tener instalado y configurado Hadoop.   Descargar Hive Buscar la última versión de Hive compatible con el sistema que tengas o bien usar wget cd /home/hadoop/Descargas wget http://apache.rediris.es/hive/hive-2.3.4/apache-hive-2.3.4-bin.tar.gz Descomprimir el fichero descargado tar xvf apache-hive-2.3.4-bin.tar.gz Mover la carpeta generada a el directorio donde tenemos los programas de hadoop «/opt» (usando root) su – mv…

Read More »

Como crear un SparkSession con Scala 2.11 y Maven3

En este post vamos a mostrar la manera de invocar un SparkSession para escribir un fichero en disco mediante hfds. Para ello toma como punto de partida el post Mi primera Apache Spark con Scala con Maven en Intelligent Idea. En el paquete com.fer.cam se crea una Objeto denominado Main y se añade las siguientes…

Read More »

Kerberos

Definición de Kerberos Kerberos es un protocolo de autenticación que permite a dos ordenadores demostrar su identidad mutuamente de forma segura. Implementado sobre una arquitectura cliente servidor y trabaja sobre la base de tiques que  sirven para demostrar la identidad de los usuarios. La autenticación entre dos ordenadores se lleva a cabo utilizando a un tercero…

Read More »

Generar un keytab de autenticación Kerberos en un cluster hadoop

Acceder al cluster por SSH ssh nombre_usuario@nombre_cluster_servidor   Autenticación en el Shell kinit nombre_usuario@REINO.COM Si la autenticación es exitosa, recibiremos un Ticket-Granting Ticket (TGT) del KDC. Esto significa que nos hemos autenticado con el servidor, pero aún no hemos recibido permiso para acceder a ningún servicio.   Examinar caché de tickets para verificar que hemos…

Read More »

Apache Sqoop Ejemplos

Prerequisitos Los prerequisitos para estos ejemplos son los mismos que para el anterior post de Sqoop. En estos ejemplos se crea una base de datos «mibbdd» y una tabla con valores introducidos «mitabla» y otra tabla vacía «mitabla2».   Ejemplo de Carga de datos de MySQL a HDFS (compresión: snappy y formato avro) $ sqoop import…

Read More »

Conectar con Scala al HDFS de Hadoop

Escribir datos en HDFS Ejemplo de como escribir datos RDD en un HDFS de Hadoop. // Borrar el fichero si es que existe import scala.sys.process._ «hdfs dfs -rm -r /pruebas» ! // Grabar un RDD en HDFS val rdd = sc.parallelize(List(     (0, 60),     (0, 56),     (0, 54),     (0, 62),     (0,…

Read More »