Diego Calvo, Autor en Diego Calvo

Comparativa de Scala, Java, Python y R en Apache Spark

por Diego Calvo | Jun 20, 2018 | Big data

Métricas Scala Java Python R Tipo Compilado Compilado Interpretado Interpretado Basado en JVM Si Si No No Farragoso (-) (+) (-) (-) Longitud del código (-) (+) (-) (-) Productividad (+) (-) (+) (+) Escalabilidad (+) (+) (-)...

Arquitectura Spark

por Diego Calvo | Jun 20, 2018 | Big data, Spark

Spark context SparkContext es el contexto básico de Spark, desde donde se crean el resto de variables. En la shell de Spark viene directamente instancia en la variable «sc», aunque en otros entornos hay que instanciarlo explícitamente. Problema que solo se puede...

Apache Spark

por Diego Calvo | Jun 20, 2018 | Big data, Spark

Definición de Spark Apache Spark es un sistema de computación distribuida de software libre, que permite procesar grandes conjuntos de datos sobre un conjunto de máquinas de forma simultánea, proporcionando escalabilidad horizontal y la tolerancia a fallos. Para...

Ejemplo simple MapReduce

por Diego Calvo | Jun 20, 2018 | Big data

Map: Función que transforma un conjunto de datos a un número de pares clave/valor o key/value. Reduce: Función combina los valores (con la misma clave) en un mismo resultado.

HDFS – Sistema de archivos distribuidos Hadoop

por Diego Calvo | Jun 20, 2018 | Big data, Hadoop

Definición de HDFS HDFS (Hadoop Distributed File System) es el sistema de almacenamiento de archivos principal de Hadoop. Trabaja bien con grandes volúmenes de datos, reduce la E/S, gran escalabilidad y disponibilidad y tolerancia a fallos debido a la replicación de...