spark Archivos - Página 4 de 6

Evolución temporal Big Data

por Diego Calvo | Jun 29, 2018 | Big data

2003 – Google File System 2004 – MapReduce: Procesamiento simplificado de grandes clusters. 2005 – Doug Cutting comienza a desarrollar Hadoop 2006 – Yahoo comienza a trabajar en Hadoop 2008 – Hadoop sale a producción 2009 – Yahoo...

Optimizar Spark

por Diego Calvo | Jun 20, 2018 | Big data, Spark

Broadcast Hash Join Si se quiere unir una tabla grande con una pequeña, lo más eficiente es enviar la tabla pequeña por broadcast a la memoria de los Worker, así evitaremos que la grande ser esté enviando constantemente por red cada vez que se la necesita. Si se...

Comparativa de Scala, Java, Python y R en Apache Spark

por Diego Calvo | Jun 20, 2018 | Big data

Métricas Scala Java Python R Tipo Compilado Compilado Interpretado Interpretado Basado en JVM Si Si No No Farragoso (-) (+) (-) (-) Longitud del código (-) (+) (-) (-) Productividad (+) (-) (+) (+) Escalabilidad (+) (+) (-)...

Arquitectura Spark

por Diego Calvo | Jun 20, 2018 | Big data, Spark

Spark context SparkContext es el contexto básico de Spark, desde donde se crean el resto de variables. En la shell de Spark viene directamente instancia en la variable «sc», aunque en otros entornos hay que instanciarlo explícitamente. Problema que solo se puede...

Apache Spark

por Diego Calvo | Jun 20, 2018 | Big data, Spark

Definición de Spark Apache Spark es un sistema de computación distribuida de software libre, que permite procesar grandes conjuntos de datos sobre un conjunto de máquinas de forma simultánea, proporcionando escalabilidad horizontal y la tolerancia a fallos. Para...