por Diego Calvo | Nov 29, 2018 | Big data, Hadoop
Instalar y configurar un clúster Hadoop Pseudo-Distribuido (un solo nodo) Instalar la máquina Virtual Java. Instalar Hadoop. Configurar las variables de entorno. Configurar SSH Modificar ficheros de configuración Crear directorio de datos, donde almacenar HDFS Iniciar... por Diego Calvo | Sep 4, 2018 | Big data, Hadoop
Acceder al cluster por SSH ssh nombre_usuario@nombre_cluster_servidor Autenticación en el Shell kinit nombre_usuario@REINO.COM Si la autenticación es exitosa, recibiremos un Ticket-Granting Ticket (TGT) del KDC. Esto significa que nos hemos autenticado con el... por Diego Calvo | Jul 5, 2018 | Big data
Gestores de aplicaciones y recursos big data Hadoop Map-Reduce es un gestor de recursos distribuidos y procesamiento de datos. Proporciona una infraestructura de programación que proporciona algoritmos para realizar los cálculos distribuidos. YARN es un sistema... por Diego Calvo | May 10, 2018 | Aprendizaje automático
Listado de metricas Determinan la manera de calcular la distancia entre pares de observaciones, las más conocidas son: Distancia euclidiana. Distancia euclidiana al cuadrado. Distancia Manhattan. Distancia máxima. Distancia Mahalanobis. Similitud coseno. Distancia de... por Diego Calvo | Mar 17, 2018 | Aprendizaje automático
Los métodos jerárquicos tratan de crear grupos de elementos homogéneos entre sí y heterogéneos entre grupos, para conseguirlo principalmente se puede hacer mediante estrategia aglomerativa o divisiva. Estrategia Aglomerativa Las estrategias aglomerativas parten de un...