Nifi ejemplos

Ejemplos de NIFI Grabar en ficheros datos generados aleatoreamente. Transformar un fichero CSV en uno JSON.   Grabar en ficheros datos generados aleatoreamente Genera secuencias de datos y las almacena en ficheros de una carpeta definida. Prerequisitos Tener instalada la Máquina Virtual HortonWorks DataFlow Definición de carpeta de salida Se debe crear un directorio con…

Autor: Diego Calvo

Read More »

Estructuras de datos en Scala

RDD (Resilient Distributed Dataset) Datos no estructurados, ejemplo: binarios, text streaming. Utiliza acciones y transformaciones de bajo nivel No soporta serialización Encoders. No de un esquema ni formato de columna.   DataSets – Sets Datos estructurados (entradas RDBMS) o semi-estructurados (son, csv) API con un tipado fuerte de datos. Mayor rendimiento que RDDs y menor que…

Autor: Diego Calvo

Read More »

HDFS – Formato, compresión y descompresion

Compresión de archivos Parquet val rdd = sc.parallelize( Array(1, 2, 3, 4, 5) ) // Definir RDD val df = rdd.toDF() //Transformar a df df.write.mode(“overwrite”).format(“parquet”).mode(“overwrite”).save(“hdfs:///formats/file_no_compression_parquet”) df.write.mode(“overwrite”).format(“parquet”).option(“compression”, “gzip”).mode(“overwrite”).save(“hdfs:///formats/file_with_gzip_parquet”) df.write.mode(“overwrite”).format(“parquet”).option(“compression”, “snappy”).mode(“overwrite”).save(“hdfs:///formats/file_with_snappy_parquet”) Compresión de archivos ORC val rdd = sc.parallelize( Array(1, 2, 3, 4, 5) ) // Definir RDD val df = rdd.toDF() //Transformar a df df.write.mode(“overwrite”).format(“orc”).option(“compression”, “none”).mode(“overwrite”).save(“hdfs:///formats/file_no_compression_orc”)…

Autor: Diego Calvo

Read More »

Formatos de ficheros Big Data

Formato: Textfile El formato Textfile es el formato de almacenamiento más simple de todos y es el predeterminado para tablas en sistemas Hadoop. No es más que texto plano donde los campos se almacenan separados por un delimitador y cada registro es separado por una línea. Dentro de este formato dependiendo de la estructura de…

Autor: Diego Calvo

Read More »

Apache Sqoop

Definición de Sqoop Apache Sqoop es una herramienta de línea de comando desarrollada para transferir grandes volúmenes de datos de bases de datos relacionarles a Hadoop, de ahí su nombre que viene de la fusión de SQL y Hadoop. Concretamente transforma datos relacionarles en Hive o HBase en una dirección y en la otra de…

Autor: Diego Calvo

Read More »

Apache Solr

Definición de Solr Apache Solr es un motor de búsqueda implementado en Java, basado en Lucene, con una API REST (XML/HTTP) y otra JSON. Solr tiene como objetivo mejorar las búsquedas y la navegabilidad de los sitios web de elevado volumen de tráfico. Este motor de búsqueda Solr es altamentente escalable y tolerante a fallos. Proporcionando indexación…

Autor: Diego Calvo

Read More »

Big data – Herramientas de gestión del cluster

Gestores de aplicaciones y recursos big data Hadoop Map-Reduce es un gestor de recursos distribuidos y procesamiento de datos. Proporciona una infraestructura de programación que proporciona algoritmos para realizar los cálculos distribuidos. YARN es un sistema operativo de datos y gestor de recursos distribuido. Evolución de Map-Reduce. Puede ejecutarse en Linux y Windows. Standalone es…

Autor: Diego Calvo

Read More »

Big data – Herramientas de búsqueda de datos masivos

  ElasticSearch: es un servidor de búsqueda de datos masivos open-source en tiempo real que proporciona almacenamiento indexado y distribuido basado en Lucene. Proporciona toda la potencia de búsqueda de Lucene para búsquedas de texto completo, pero simplifica las consultas a través de su a interfaz web RestFul.     Apache Solr es un motor…

Autor: Diego Calvo

Read More »

Spark Streaming (procesamiento por lotes y tiempo real)

Definición de Spark Streaming Apache Spark Streaming es una extensión de la API core de Spark, que da respuesta al procesamiento de datos en tiempo real de forma escalable, con alto rendimiento y tolerancia a fallos. Spark Sreaming fue desarrollado por la Universidad de California en Berkeley, actualmente Databrinks la que se encarga de dar…

Autor: Diego Calvo

Read More »

Apache Flink (procesamiento por lotes y tiempo real)

Definición de Flink Apache Flink es un motor nativo de procesamiento de flujos de datos de baja latencia, que proporciona capacidades de distribución de datos comunicación y tolerancia a fallos. Flink fue desarrollado en Java y Scala por la Universidad Técnica de Berlin y actualmente es la start-up Data Artisans la que se encarga de…

Autor: Diego Calvo

Read More »