por Diego Calvo | Sep 6, 2018 | Big data, Scala, Spark
Prerequisitos Limpiar todos los hdfs generados, utilizando la linea de comandos hdfs dfs -rm -r /streaming hdfs dfs -mkdir /streaming hdfs dfs -ls /streaming Generar datos usados para iniciar el análisis Se genera una serie de datos en formato json que se almacenan en... por Diego Calvo | Nov 24, 2017 | Python, Spark
Datos json usados para el análisis %fs head /databricks-datasets/structured-streaming/events/file-0.json {“time”:1469501107,”action”:”Open”} {“time”:1469501147,”action”:”Open”} {“time”:1469501202,”action”:”Open”} {“time”:1469501219,”action”:”Open”}...