Big Data

Definición de Big Data El termino big data o datos masivos hacer referencia a un volumen de datos que superaba las capacidades del software habitualmente usado para ver capturar, administrar y procesar datos. Como la capacidad de computo es cada vez más elevada y la cifra a partir de la que se considera un conjunto de datos…

Read More »

Tipos de datos: estructurados, semiestructurados y no estructurados

Datos estructurados (Structured Data) Los datos estructurados tienen perfectamente definido la longitud, el formato y el tamaño de sus datos. Se almacenan en formato tabla, hojas de cálculo o en bases de datos relacionales.   Datos no estructurados (Unstructured Data) Los datos no estructurados se caracterizan por no tener un formato específico. Se almacenan en múltiples…

Read More »

Arquitectura Lambda (combinación de procesamiento batch y stream)

Antes de centrarnos en la arquitectura Lambda es conveniente especificar los dos tipos de procesamiento de datos que la componen: El procesamiento de datos en modo batch, es aquel que nos permite procesar volúmenes de datos en tiempos espaciados, por ejemplo cada 10 minutos, 1 hora o diario. Para ello el sistema dispone de lotes o batch…

Read More »

Tutorial de Python Spark

Preparación del entorno de desarrollo Entorno Python Instalación del entorno de desarrollo: instalar Anaconda y PyCharm CE Otros entornos recomendados: Eclipse, Spyder (incluido en anaconda y Aton) Configurar y cambiar el entorno virtual Importar paquetes: pip install & import Crear un directorio si no existe: os.start(…) os.mkdir(…) Entorno virtual para Python -m venv nombre_entorno Entorno…

Read More »

Aprendizaje Supervisado y No supervisado

Definición de Machine Learning El aprendizaje automático o machine learning se encuadra como una disciplina de la inteligencia artificial. El principal objetivo que busca es crear sistemas que sean capaces de aprender automáticamente, es decir que sean capaces de encontrar patrones complejos en grandes conjuntos de datos por si solos. Los algoritmos de machine learning…

Read More »

Minería de datos

La minería de datos busca descubrir patrones en grandes volúmenes de datos, de tal manera que los patrones obtenidos permitan extraer conocimiento comprensible por el ser humano. La minería de datos consta de las siguientes fases: Selección del conjunto de datos: Variables dependientes: variables a predecir. Variables independientes: variables a partir de las que predecir….

Read More »

Apache HIVE

Definición de Hive Apache Hive es una herramienta de de almacenamiento de datos que facilita la lectura, escritura y almacenamiento de grandes volúmenes de datos sobre sistemas HDFS o Amazon S3. Fue creado por Facebook y desarrollado por empresas como Netflix o Finra. El lenguaje utilizado para consultas es HiveQL, que proporciona un lenguaje basado…

Read More »

Apache Hadoop

Definición de Hadoop: Apache Hadoop es un sistema distribuido que permite realizar procesamiento de grandes volúmenes de datos a través de clúster, fácil de escalar. A grandes rasgos se puede decir que Hadoop está compuesto por dos partes: Se ocupa del almacenamiento de datos de distintos tipos (HDFS) Realiza las tareas de procesamiento de los datos de…

Read More »