Arquitectura Spark

Spark context SparkContext (sc) es la puerta de entrada a las funcionalidades de Spark   Cluster Manager Cluster Manager o gestor de cluster se encarga de asignar recursos en el sistema. Spark soporta tres tipos de gestores de clusters: Standalone: Viene incluido con Spark, es un gestor muy sencillo. Apache Mesos: es un gestor de…

Autor: Diego Calvo

Read More »

Apache Spark

Definición Apache Spark es un sistema de computación distribuida de software libre, que permite procesar grandes conjuntos de datos sobre un conjunto de máquinas de forma simultánea, proporcionando escalabilidad horizontal y la tolerancia a fallos. Para cumplir con estas características Spark proporciona un modelo de desarrollo de programas que permite ejecutar código de forma distribuida…

Autor: Diego Calvo

Read More »

HDFS – Sistema de archivos Hadoop

Es el sistema de almacenamiento de archivos básico de Hadoop Características Trabaja bien con grandes volúmenes de datos, reduce la E/S, gran escalabilidad y disponibilidad y tolerancia a fallos debido a la replicación de datos. Los elementos más importantes del HDFS son: NameNode: Sólo existe uno en el clúster. Se encarga de: Regular el acceso a…

Autor: Diego Calvo

Read More »

Componentes de Apache Spark

Componentes   Spark Core Spark core es en núcleo donde se apoya toda la arquitectura, proporciona: Distribución de tareas Programación Operaciones de entrada/salida Mediante interfaces de programación Java, Python, Scala y R centradas en la abstración de RDDs. Establece un modelo funcional que permite realizar invocan operaciones en paralelo como map, filter o reduce sobre un RDD, para…

Autor: Diego Calvo

Read More »

Instalar Hortonworks (Virtual Box) para Spark con Python

Descarga Hortonworks Data Platform (HDP) Sandbox Virtualbox Instalación Instalar primeramente Virtual box y una vez instalado ir a la máquina virtual de hortonworks y ejecutarla, con ello aparecerá una instanciación de esta máquina en virtual box. Configurar las características de la máquina, comentar que mínimamente necesita 8Gb de RAM. Configuración Hortonworks Una vez la máquina…

Autor: Diego Calvo

Read More »

Big Data

Definición El termino big data o datos masivos hacer referencia a un volumen de datos que superaba las capacidades del software habitualmente usado para ser capturar, administrar y procesar datos. Como la capacidad de computo es cada vez más elevada y la cifra a partir de la que se considera un conjunto de datos como big data…

Autor: Diego Calvo

Read More »

Tipos de datos: estructurados, semiestructurados y no estructurados

Datos estructurados (Structured Data) Los datos estructurados tienen perfectamente definido la longitud, el formato y el tamaño de sus datos. Se almacenan en formato tabla hojas de cálculo o en bases de datos relacionales.   Datos no estructurados (Unstructured Data) Los datos no estructurados se caracterizan por no tener un formato específico. Se almacenan en múltiples…

Autor: Diego Calvo

Read More »

Arquitectura Lambda (combinación de procesamiento batch y stream)

Antes de centrarnos en la arquitectura Lambda es conveniente especificar los dos tipos de procesamiento de datos que la componen: El procesamiento de datos en modo batch, es aquel que nos permite procesar volúmenes de datos en tiempos espaciados, por ejemplo cada 10 minutos, 1 hora o diario. Para ello el sistema dispone de lotes o batch…

Autor: Diego Calvo

Read More »