Configurar clúster Hadoop (+ herramientas Big Data)

Instalar y configurar un clúster Hadoop Pseudo-Distribuido (un solo nodo) Instalar la máquina Virtual Java. Instalar Hadoop. Configurar las variables de entorno. Configurar SSH Modificar ficheros de configuración Crear directorio de datos, donde almacenar HDFS Iniciar servicio de HDFS Configurar Yarn Arrancar servicios Yarn   Instalar y configurar de HBase Descargar HBase Configurar variables de…

Read More »

Generar un keytab de autenticación Kerberos en un cluster hadoop

Acceder al cluster por SSH ssh nombre_usuario@nombre_cluster_servidor   Autenticación en el Shell kinit nombre_usuario@REINO.COM Si la autenticación es exitosa, recibiremos un Ticket-Granting Ticket (TGT) del KDC. Esto significa que nos hemos autenticado con el servidor, pero aún no hemos recibido permiso para acceder a ningún servicio.   Examinar caché de tickets para verificar que hemos…

Read More »

Big data – Herramientas de gestión del cluster

Gestores de aplicaciones y recursos big data Hadoop Map-Reduce es un gestor de recursos distribuidos y procesamiento de datos. Proporciona una infraestructura de programación que proporciona algoritmos para realizar los cálculos distribuidos. YARN es un sistema operativo de datos y gestor de recursos distribuido. Evolución de Map-Reduce. Puede ejecutarse en Linux y Windows. Standalone es…

Read More »

Cluster Jerárquicos: Métricas

Listado de metricas Determinan la manera de calcular la distancia entre pares de observaciones, las más conocidas son: Distancia euclidiana. Distancia euclidiana al cuadrado. Distancia Manhattan. Distancia máxima. Distancia Mahalanobis. Similitud coseno. Distancia de Hamming. Distancia de Levenshtein.

Read More »

Cluster Jerárquicos: Estrategia aglomerativa vs divisiva

Los métodos jerárquicos tratan de crear grupos de elementos homogéneos entre sí y heterogéneos entre grupos, para conseguirlo principalmente se puede hacer mediante estrategia aglomerativa o divisiva. Estrategia Aglomerativa Las estrategias aglomerativas parten de un conjunto de elementos individuales y van juntando los elementos que más se parezcan hasta quedarse con un número de clusters…

Read More »

Cluster Jerárquicos: Criterios de enlace

Los criterios de enlace especifican la disimilitud de conjuntos como una función de las distancias dos a dos entre observaciones de los conjuntos, las más utilizadas se detallan a continuación: Agrupamiento de máximo o enlace completo Calcula todas las diferencias de pares entre los elementos del clúster 1 y los elementos del clúster 2, y…

Read More »

Cluster No Jerárquico (Partitioning Cluster) en R

Definición Los métodos no jerárquicos categorizan los elementos según un número de cluster dado. Necesitan que el número de particiones esté fijado a priori.   Herramientas de cluster no jerárquicos en R Cálculo del número óptimo de clusters en R Package NbClust implementa 30 indices para evaluar la estructura de los clusters y ayudar a…

Read More »

Cluster Jerárquico (Hierarchical Cluster) en R

Definición El cluster jerárquico o agrupamiento jerárquico es un método de análisis de grupos puntuales, que busca construir una jerarquía de grupos en entre los elementos analizados. Este método trata de crear grupos de elementos homogéneos entre sí y heterogéneos entre grupos, para conseguirlo principalmente se puede hacer mediante estrategia aglomerativa o divisiva. El agrupamiento…

Read More »

Clúster Jerárquicos y No Jerárquicos

Definición de análisis clúster El Análisis clúster es una técnica de análisis exploratorio utilizada para resolver problemas de clasificación. Se encuadra en los métodos de aprendizaje no supervisado. Su objetivo es ordenar objetos (definidos por un conjunto de variables) en grupos de forma que los miembros del grupo sean lo más homogéneos posibles y los…

Read More »

Análisis Cluster No Jerárquico k-means en R

Uso: Clasificador de clases por clustering o agrupamiento, no supervisado. Descripción: El objetivo es segmentar un conjunto de datos en grupos homogéneos, disjuntos entre sí, es decir, ningún elemento formará parte de dos grupos distintos, por lo que, serán heterogéneos entre sí. Para ello, el algoritmo utiliza el Criterio de la Inercia, que indica que…

Read More »