Procesar datos en tiempo real (streaming) en Scala

Prerequisitos Limpiar todos los hdfs generados, utilizando la linea de comandos hdfs dfs -rm -r /streaming hdfs dfs -mkdir /streaming hdfs dfs -ls /streaming Generar datos usados para iniciar el análisis Se genera una serie de datos en formato json que se almacenan en un fichero hdfs. val events = sc.parallelize( «»»  [{«accion»:»Abrir», «tiempo»:»2018-08-01T00:01:17Z»},  …

Read More »

Spark Streaming (procesamiento por lotes y tiempo real)

Definición de Spark Streaming Apache Spark Streaming es una extensión de la API core de Spark, que da respuesta al procesamiento de datos en tiempo real de forma escalable, con alto rendimiento y tolerancia a fallos. Spark Sreaming fue desarrollado por la Universidad de California en Berkeley, actualmente Databrinks la que se encarga de dar…

Read More »

Big data – Frameworks de procesamiento de datos

Los frameworks de procesamiento de datos ecosistemas Big Data se clasifican en los siguientes bloques:   Batch – procesamiento por lotes Hadoop Map-reduce: motor de procesamiento batch o por lotes. Streaming – procesamiento en tiempo real Apache Storm Apache Samza IBM InfoSphere Apache S4 (Yahoo) Apache Tez Hibrid- procesamiento híbrido Apache Spark Streaming: motor de…

Read More »