datos Archivos - Diego Calvo

Análisis de mercado con Python mediante Web scraping

por Eros Merino | Jul 28, 2020 | Python, Web scraping

Introducción: En este artículo se va a desarrollar un script en Python con el cual podremos obtener datos de una pagina web y enviárnoslo directamente al whatsapp. Explicación del entorno a analizar: En el caso de este proyecto, vamos a trabajar con FIFA, en concreto...

Regresión Lineal sobre segmentos de datos en Scala

por Diego Calvo | Nov 23, 2018 | Big data, Scala

Ejemplo de regresión lineal sobre segmentos de datos Realiza diferentes regresiones de datos tomando como grupo para segmentar la clave formado por el identificador y el tipo import org.apache.spark.ml.Pipeline import org.apache.spark.ml.feature.VectorAssembler import...

Procesar datos en tiempo real (streaming) en Scala

por Diego Calvo | Sep 6, 2018 | Big data, Scala, Spark

Prerequisitos Limpiar todos los hdfs generados, utilizando la linea de comandos hdfs dfs -rm -r /streaming hdfs dfs -mkdir /streaming hdfs dfs -ls /streaming Generar datos usados para iniciar el análisis Se genera una serie de datos en formato json que se almacenan en...

Estructuras de datos en Scala

por Diego Calvo | Jul 20, 2018 | Big data, Scala, Spark

RDD (Resilient Distributed Dataset) Datos no estructurados, ejemplo: binarios, text streaming. Utiliza acciones y transformaciones de bajo nivel No soporta serialización Encoders. No de un esquema ni formato de columna. Proporciona serguridad de tipo en tiempo de...

Big data – Herramientas de búsqueda de datos masivos

por Diego Calvo | Jul 5, 2018 | Big data, Hadoop

ElasticSearch: es un servidor de búsqueda de datos masivos open-source en tiempo real que proporciona almacenamiento indexado y distribuido basado en Lucene. Proporciona toda la potencia de búsqueda de Lucene para búsquedas de texto completo, pero simplifica...