Big Data

Definición El termino big data o datos masivos hacer referencia a un volumen de datos que superaba las capacidades del software habitualmente usado para ser capturar, administrar y procesar datos. Como la capacidad de computo es cada vez más elevada y la cifra a partir de la que se considera un conjunto de datos como big data…

Autor: Diego Calvo

Read More »

Tipos de datos: estructurados, semiestructurados y no estructurados

Datos estructurados (Structured Data) Los datos estructurados tienen perfectamente definido la longitud, el formato y el tamaño de sus datos. Se almacenan en formato tabla hojas de cálculo o en bases de datos relacionales. Datos no estructurados (Unstructured Data) Los datos no estructurados se caracterizan por no tener un formato específico. Se almacenan en múltiples formatos…

Autor: Diego Calvo

Read More »

Arquitectura Lambda (combinación de procesamiento batch y stream)

Antes de centrarnos en la arquitectura Lambda es conveniente especificar los dos tipos de procesamiento de datos que la componen: El procesamiento de datos en modo batch, es aquel que nos permite procesar volúmenes de datos en tiempos espaciados, por ejemplo cada 10 minutos, 1 hora o diario. Para ello el sistema dispone de lotes o batch…

Autor: Diego Calvo

Read More »

Apache Spark con Python (Big Data)

Instalación Instalación de Apacke Spark Uso de Apache Spack online: databricks community edition Librerias habituales Creación de RDD RDD a partir de colecciones de datos RDD a partir de diccionarios RDD a partir de la lectura de ficheros Almacenamiento de RDD Esctritura de RDD en fichero Operaciones con RDD Operaciones básicas con una lista RDD…

Autor: Diego Calvo

Read More »

Minería de datos

La minería de datos busca descubrir patrones en grandes volúmenes de datos, de tal manera que los patrones obtenidos permitan extraer conocimiento comprensible por el ser humano. La minería de datos consta de las siguientes fases: Selección del conjunto de datos: Variables dependientes: variables a predecir. Variables independientes: variables a partir de las que predecir….

Autor: Diego Calvo

Read More »

HIVE – Convierte sentencias SQL en un trabajo de MapReduce

Comandos para manipular ficheros en HDFS Estos comandos se ejecutan desde la línea de comando, y antes de poder utilizarlos es necesario arrancar el servicio de Hadoop: $ hadoop/sbin/start-dfs.sh Resetear el HDFS para eliminar referencias pasadas. $ hadoop namenode -format Copiar fichero local en la estructura de datos HDFS: $ hadoop fs -put /ruta-local/ficheroLocal.txt /ruta-hdfs/ficheroHDFS.txt…

Autor: Diego Calvo

Read More »

Hadoop

Definición de Hadoop: Apache Hadoop: sistema distribuido que permite realizar procesamiento de grandes volúmenes de datos a través de clúster, fácil de escalar y usa un modelo muy simple de programación basado en una arquitectura Master-Slave.   Componentes principales: HDFS (Hadoop Distributed File System): Almacenamiento de archivos. Características: trabaja bien con grandes volúmenes de datos, reduce…

Autor: Diego Calvo

Read More »