Configurar clúster Hadoop (+ herramientas Big Data)

Instalar y configurar un clúster Hadoop Pseudo-Distribuido (un solo nodo) Instalar la máquina Virtual Java. Instalar Hadoop. Configurar las variables de entorno. Configurar SSH Modificar ficheros de configuración Crear directorio de datos, donde almacenar HDFS Iniciar servicio de HDFS Configurar Yarn Arrancar servicios Yarn   Instalar y configurar de HBase Descargar HBase Configurar variables de…

Autor: Diego Calvo

Read More »

Instalar y configurar de HIVE en Hadoop

Prerequisitos Tener instalado y configurado Hadoop.   Descargar Hive Buscar la última versión de Hive compatible con el sistema que tengas o bien usar wget cd /home/hadoop/Descargas wget http://apache.rediris.es/hive/hive-2.3.4/apache-hive-2.3.4-bin.tar.gz Descomprimir el fichero descargado tar xvf apache-hive-2.3.4-bin.tar.gz Mover la carpeta generada a el directorio donde tenemos los programas de hadoop “/opt” (usando root) su – mv…

Autor: Diego Calvo

Read More »

Apache YARN

Definición de Yarn (Yet Another Resource Negociator) Yarn es un sistema operativo de datos y gestor de recursos distribuido, conocido también como Hadoop 2 ya que es la evolución de Hadoop Map-Reduce. Los cambios más significativos de Hadoop 2 sobre Hadoop 1 es que se incluye la tecnología HILO, esta tecnología proporciona una asignación de…

Autor: Diego Calvo

Read More »

Kerberos

Definición de Kerberos Kerberos es un protocolo de autenticación que permite a dos ordenadores demostrar su identidad mutuamente de forma segura. Implementado sobre una arquitectura cliente servidor y trabaja sobre la base de tiques que  sirven para demostrar la identidad de los usuarios. La autenticación entre dos ordenadores se lleva a cabo utilizando a un tercero…

Autor: Diego Calvo

Read More »

Generar un keytab de autenticación Kerberos en un cluster hadoop

Acceder al cluster por SSH ssh nombre_usuario@nombre_cluster_servidor   Autenticación en el Shell kinit nombre_usuario@REINO.COM Si la autenticación es exitosa, recibiremos un Ticket-Granting Ticket (TGT) del KDC. Esto significa que nos hemos autenticado con el servidor, pero aún no hemos recibido permiso para acceder a ningún servicio.   Examinar caché de tickets para verificar que hemos…

Autor: Diego Calvo

Read More »

Apache Sqoop Ejemplos

Prerequisitos Los prerequisitos para estos ejemplos son los mismos que para el anterior post de Sqoop. En estos ejemplos se crea una base de datos “mibbdd” y una tabla con valores introducidos “mitabla” y otra tabla vacía “mitabla2”.   Ejemplo de Carga de datos de MySQL a HDFS (compresión: snappy y formato avro) $ sqoop import…

Autor: Diego Calvo

Read More »

Apache Sqoop

Definición de Sqoop Apache Sqoop es una herramienta de línea de comandos desarrollada para transferir grandes volúmenes de datos de bases de datos relacionarles a Hadoop, de ahí su nombre que viene de la fusión de SQL y Hadoop. Concretamente transforma datos relacionarles en Hive o HBase en una dirección y en la otra de…

Autor: Diego Calvo

Read More »

Evolución temporal Big Data

2003 – Google File System 2004 – MapReduce: Procesamiento simplificado de grandes clusters. 2005 – Doug Cutting comienza a desarrollar Hadoop 2006 – Yahoo comienza a trabajar en Hadoop 2008 – Hadoop sale a producción 2009 – Yahoo crea Apache Pig 2009 – Facebook crea Apache Hive 2010 – Yahoo crea Apache S4 2010 – Cloudera…

Autor: Diego Calvo

Read More »

Apache Hbase

Definición de HBase HBase es un sistema de gestión de bases de datos orientado a columnas que se ejecuta sobre el HDFS y se suele utilizar para distribuir conjuntos de datos. HBase no admite un lenguaje de consulta estructurado como SQL, a diferencia de los gestores de bases de datos relacionales. El sistema proporciona una…

Autor: Diego Calvo

Read More »

Zookeeper

Definición de Zookeeper Zookeeper proporciona un servicio para la coordinación de procesos distribuidos altamente confiable, con el fin de dar solución a problemas de coordinación para grandes sistemas distribuidos. Servicios proporcionados por Zookeeper: Compartir configuraciones comunes. Administrar la pertenencia o no al clúster. Ayuda en las elecciones. Compartir locks del sistema. Nota: se recomienda que…

Autor: Diego Calvo

Read More »