HDFS – Sistema de archivos distribuidos Hadoop

Definición de HDFS HDFS (Hadoop Distributed File System) es el sistema de almacenamiento de archivos principal de Hadoop. Trabaja bien con grandes volúmenes de datos, reduce la E/S, gran escalabilidad y disponibilidad y tolerancia a fallos debido a la replicación de datos. El sistema de archivos Hadoop suele utilizar como sistema de gestión de bases de…

Autor: Diego Calvo

Read More »

Componentes de Apache Spark

Componentes   Spark Core Spark core es en núcleo donde se apoya toda la arquitectura, proporciona: Distribución de tareas Programación Operaciones de entrada/salida Mediante interfaces de programación Java, Python, Scala y R centradas en la abstración de RDDs. Establece un modelo funcional que permite realizar invocan operaciones en paralelo como map, filter o reduce sobre un RDD, para…

Autor: Diego Calvo

Read More »

PCA Análisis de componentes principales para compresión de imágenes

PCA Análisis de componentes principales para compresión de imágenes monocromo # Modificar el directorio raiz utilizado setwd(“/Ruta de trabajo”) # Separar la imagen en su tres componentes RGB aplicando sobre cada uno el PCA y quedandonos con un solo color imagen <- readJPEG(‘imagen-original.jpg’) color1 <- imagen[,,1] #Comprobar la imagen writeJPEG(color1, paste(‘imagen-blanco-negro.jpg’, sep = ”)) #…

Autor: Diego Calvo

Read More »

ACP – Análisis de Componentes Principales en R

Uso: Determina la relación entre variables y explicarlas a través de factores. Variables: Métricas. Descripción: Técnica estadística de síntesis de la información, o reducción de la dimensiones. Es decir, para un conjunto de datos con multitud de variables, su objetivo es el de reducir a un menor número de factores perdiendo la menor cantidad de…

Autor: Diego Calvo

Read More »