Procesar datos en tiempo real (streaming) en Scala

Prerequisitos Limpiar todos los hdfs generados, utilizando la linea de comandos hdfs dfs -rm -r /streaming hdfs dfs -mkdir /streaming hdfs dfs -ls /streaming Generar datos usados para iniciar el análisis Se genera una serie de datos en formato json que se almacenan en un fichero hdfs. val events = sc.parallelize( «»»  [{«accion»:»Abrir», «tiempo»:»2018-08-01T00:01:17Z»},  …

Read More »

Procesamiento en tiempo real (streaming) Apache Spark en Python

Datos json usados para el análisis %fs head /databricks-datasets/structured-streaming/events/file-0.json {“time”:1469501107,”action”:”Open”} {“time”:1469501147,”action”:”Open”} {“time”:1469501202,”action”:”Open”} {“time”:1469501219,”action”:”Open”} {“time”:1469501225,”action”:”Open”} {“time”:1469501234,”action”:”Open”} Fuente: www.batabricks.com   Definir DataFrame especifico de Spark # El DataFrame propio de Spark «pyspark» acelera el procesamiento de los datos from pyspark.sql.types import * from pyspark.sql.functions import * # Definir la ruta de donde extraer los ficheros pathText =…

Read More »