big data Archivos - Diego Calvo

Configurar clúster Hadoop (+ herramientas Big Data)

por Diego Calvo | Nov 29, 2018 | Big data, Hadoop

Instalar y configurar un clúster Hadoop Pseudo-Distribuido (un solo nodo) Instalar la máquina Virtual Java. Instalar Hadoop. Configurar las variables de entorno. Configurar SSH Modificar ficheros de configuración Crear directorio de datos, donde almacenar HDFS Iniciar...

Formatos de ficheros Big Data

por Diego Calvo | Jul 19, 2018 | Big data

Formato: Textfile El formato Textfile es el formato de almacenamiento más simple de todos y es el predeterminado para tablas en sistemas Hadoop. No es más que texto plano donde los campos se almacenan separados por un delimitador y cada registro es separado por una...

Big data – Herramientas de gestión del cluster

por Diego Calvo | Jul 5, 2018 | Big data

Gestores de aplicaciones y recursos big data Hadoop Map-Reduce es un gestor de recursos distribuidos y procesamiento de datos. Proporciona una infraestructura de programación que proporciona algoritmos para realizar los cálculos distribuidos. YARN es un sistema...

Big data – Herramientas de búsqueda de datos masivos

por Diego Calvo | Jul 5, 2018 | Big data, Hadoop

ElasticSearch: es un servidor de búsqueda de datos masivos open-source en tiempo real que proporciona almacenamiento indexado y distribuido basado en Lucene. Proporciona toda la potencia de búsqueda de Lucene para búsquedas de texto completo, pero simplifica...

Big data – Herramientas de seguridad, machine learning, etiquetado, …

por Diego Calvo | Jul 5, 2018 | Big data, Hadoop

Herramientas de seguridad Apache Ranger es un marco para habilitar, monitorear y administrar seguridad de datos integral en toda la plataforma Hadoop. Apache Sentry es un sistema para aplicar la autorización basada en funciones de granularidad fina a datos y metadatos...