HDFS – Sistema de archivos distribuidos Hadoop

Definición de HDFS HDFS (Hadoop Distributed File System) es el sistema de almacenamiento de archivos principal de Hadoop. Trabaja bien con grandes volúmenes de datos, reduce la E/S, gran escalabilidad y disponibilidad y tolerancia a fallos debido a la replicación de datos. El sistema de archivos Hadoop suele utilizar como sistema de gestión de bases de…

Read More »

Componentes de Apache Spark

Componentes   Spark Core Spark core es en núcleo donde se apoya toda la arquitectura, proporciona: Distribución de tareas Programación Operaciones de entrada/salida Mediante interfaces de programación Java, Python, Scala y R centradas en la abstración de RDDs. Establece un modelo funcional que permite realizar invocan operaciones en paralelo como map, filter o reduce sobre un RDD, para…

Read More »

PCA Análisis de componentes principales para compresión de imágenes

PCA Análisis de componentes principales para compresión de imágenes monocromo # Modificar el directorio raiz utilizado setwd(«/Ruta de trabajo») # Separar la imagen en su tres componentes RGB aplicando sobre cada uno el PCA y quedandonos con un solo color imagen <- readJPEG(‘imagen-original.jpg’) color1 <- imagen[,,1] #Comprobar la imagen writeJPEG(color1, paste(‘imagen-blanco-negro.jpg’, sep = »)) #…

Read More »

ACP – Análisis de Componentes Principales en R

Uso: Determina la relación entre variables explicarlas a través de factores. Variables: Métricas. Descripción: Técnica estadística de síntesis de la información, o reducción de las dimensiones. Es decir, para un conjunto de datos con multitud de variables, su objetivo es el de reducir a un menor número de factores perdiendo la menor cantidad de información…

Read More »