Big data – Herramientas de seguridad, machine learning, etiquetado, …

Herramientas de seguridad

  • Apache Ranger es un marco para habilitar, monitorear y administrar seguridad de datos integral en toda la plataforma Hadoop.
  • Apache Sentry es un sistema para aplicar la autorización basada en funciones de granularidad fina a datos y metadatos almacenados en un clúster de Hadoop.
  • Knox es una aplicación Gateway para interactuar con las API REST y las IU de Apache Hadoop.
  • Kerberos es un protocolo de autenticación que permite a dos ordenadores demostrar su identidad mutuamente de forma segura.

 

Herramientas de machine learning

  • Apache Mahout es un marco distribuido de álgebra lineal y Scala DSL matemáticamente expresivo, diseñado implementen rápidamente algoritmos.
  • Spark MLlib es una librería de machine learning, que contiene la API original construido sobre los RDD.
  • SparkML es una librería de machine learning, que proporciona un API de nivel superior construido sobre DataFrames.
  • FlinkML es una librería de machine learning para Flink.

 

Herramientas de etiquetado de datos

  • Apache Falcon
  • Apache Atlas

 

Herramientas de procesado de Logs

  • LogStash: herramienta open-source para la administración de logs, que permite cargar, transformar, filtrar y guardar los logs sobre los que realizar búsquedas.
  • Apache Chukwa 
  • Fluentd: herramienta propietaria para la gestión de logs.

 

Herramientas de serialización

  • Protobuf
  • Avro

 

Otras Herramientas

  • Fuse
  • NFS
  • WebHDFS

Otros artículos que pueden ser de interés:

Autor: Diego Calvo