tiempo real Archivos - Diego Calvo

Procesar datos en tiempo real (streaming) en Scala

por Diego Calvo | Sep 6, 2018 | Big data, Scala, Spark

Prerequisitos Limpiar todos los hdfs generados, utilizando la linea de comandos hdfs dfs -rm -r /streaming hdfs dfs -mkdir /streaming hdfs dfs -ls /streaming Generar datos usados para iniciar el análisis Se genera una serie de datos en formato json que se almacenan en...

Procesamiento en tiempo real (streaming) Apache Spark en Python

por Diego Calvo | Nov 24, 2017 | Python, Spark

Datos json usados para el análisis %fs head /databricks-datasets/structured-streaming/events/file-0.json {“time”:1469501107,”action”:”Open”} {“time”:1469501147,”action”:”Open”} {“time”:1469501202,”action”:”Open”} {“time”:1469501219,”action”:”Open”}...

Procesar datos en tiempo real (streaming) en Scala

Procesamiento en tiempo real (streaming) Apache Spark en Python

Mi filosofía

Contacto

Aviso legal