por Eros Merino | Jul 28, 2020 | Python, Web scraping
Introducción: En este artículo se va a desarrollar un script en Python con el cual podremos obtener datos de una pagina web y enviárnoslo directamente al whatsapp. Explicación del entorno a analizar: En el caso de este proyecto, vamos a trabajar con FIFA, en concreto... por Diego Calvo | Nov 23, 2018 | Big data, Scala
Ejemplo de regresión lineal sobre segmentos de datos Realiza diferentes regresiones de datos tomando como grupo para segmentar la clave formado por el identificador y el tipo import org.apache.spark.ml.Pipeline import org.apache.spark.ml.feature.VectorAssembler import... por Diego Calvo | Sep 6, 2018 | Big data, Scala, Spark
Prerequisitos Limpiar todos los hdfs generados, utilizando la linea de comandos hdfs dfs -rm -r /streaming hdfs dfs -mkdir /streaming hdfs dfs -ls /streaming Generar datos usados para iniciar el análisis Se genera una serie de datos en formato json que se almacenan en... por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark
RDD (Resilient Distributed Dataset) Datos no estructurados, ejemplo: binarios, text streaming. Utiliza acciones y transformaciones de bajo nivel No soporta serialización Encoders. No de un esquema ni formato de columna. Proporciona serguridad de tipo en tiempo de... por Diego Calvo | Jul 5, 2018 | Big data, Hadoop
ElasticSearch: es un servidor de búsqueda de datos masivos open-source en tiempo real que proporciona almacenamiento indexado y distribuido basado en Lucene. Proporciona toda la potencia de búsqueda de Lucene para búsquedas de texto completo, pero simplifica...