Configurar clúster Hadoop (+ herramientas Big Data)

Instalar y configurar un clúster Hadoop Pseudo-Distribuido (un solo nodo) Instalar la máquina Virtual Java. Instalar Hadoop. Configurar las variables de entorno. Configurar SSH Modificar ficheros de configuración Crear directorio de datos, donde almacenar HDFS Iniciar servicio de HDFS Configurar Yarn Arrancar servicios Yarn   Instalar y configurar de HBase Descargar HBase Configurar variables de…

Read More »

Instalar y configurar de HIVE en Hadoop

Prerequisitos Tener instalado y configurado Hadoop.   Descargar Hive Buscar la última versión de Hive compatible con el sistema que tengas o bien usar wget cd /home/hadoop/Descargas wget http://apache.rediris.es/hive/hive-2.3.4/apache-hive-2.3.4-bin.tar.gz Descomprimir el fichero descargado tar xvf apache-hive-2.3.4-bin.tar.gz Mover la carpeta generada a el directorio donde tenemos los programas de hadoop «/opt» (usando root) su – mv…

Read More »

Apache Sqoop

Definición de Sqoop Apache Sqoop es una herramienta de línea de comandos desarrollada para transferir grandes volúmenes de datos de bases de datos relacionarles a Hadoop, de ahí su nombre que viene de la fusión de SQL y Hadoop. Concretamente transforma datos relacionarles en Hive o HBase en una dirección y en la otra de…

Read More »

Apache HIVE

Definición de Hive Apache Hive es una herramienta de de almacenamiento de datos que facilita la lectura, escritura y almacenamiento de grandes volúmenes de datos sobre sistemas HDFS o Amazon S3. Fue creado por Facebook y desarrollado por empresas como Netflix o Finra. El lenguaje utilizado para consultas es HiveQL, que proporciona un lenguaje basado…

Read More »