Big data – Herramientas de gestión del cluster

Gestores de aplicaciones y recursos big data

  • Hadoop Map-Reduce es un gestor de recursos distribuidos y procesamiento de datos. Proporciona una infraestructura de programación que proporciona algoritmos para realizar los cálculos distribuidos.
  • YARN es un sistema operativo de datos y gestor de recursos distribuido. Evolución de Map-Reduce. Puede ejecutarse en Linux y Windows.
  • Standalone es un sistema operativo de datos y gestor de recursos distribuido. Puede ejecutarse en Linux, Mac y Windows. 
  • Mesos es un sistema operativo de datos y gestor de recursos distribuido. Puede ejecutarse en Linux y Mac. 

 

Interfaz de acceso al cluster big data

  • Apache Ambari es la interfaz de acceso al cluster para HortonWorks IBM, Azure y Pivotal.
  • Ganglia es la interfaz de acceso al cluster para las plataformas de Amazon, IBM y Pivotal.
  • Nagios es la interfaz de acceso al cluster para IBM y Pivotal.
  • Cloudera Manager es la interfaz de acceso al cluster para Cloudera.
  • Apache Hue: proporciona una interfaz gráfica de navegador para realizar su trabajo Hive de forma sencilla.

 

Gestión del cluster big data

  • Zookeeper: gestiona la sincronización para el clúster.
  • Whirr es el suministro de Cloud para Hadoop, puede arrancar un clúster en unos cuantos minutos con un archivo de configuración muy simple.

 

Flujos de trabajo big data

  • Oozie es un gestor de de fujos de trabajo que permite definir cuando ejecutar los tabajos MapReduce, de forma programada o cuando haya disponibles nuevos datos.
  • Cascading: crear y ejecutar flujos de trabajo de procesamiento de datos en clústeres Hadoop usando cualquier lenguaje basado en JVM (la máquina virtual de Java). De nuevo, el objetivo es quitar la complejidad de trabajar con MapReduce y sus trabajos. Es muy empleado en entornos complejos como la bioinformática, algoritmos de Machine Learning, análisis predictivo, Web Mining y herramientas ETL.

Autor: Diego Calvo