Componentes de Apache Spark

Componentes   Spark Core Spark core es en núcleo donde se apoya toda la arquitectura, proporciona: Distribución de tareas Programación Operaciones de entrada/salida Mediante interfaces de programación Java, Python, Scala y R centradas en la abstración de RDDs....

Instalar Hortonworks (Virtual Box) para Spark

Descarga Hortonworks Data Platform (HDP) Sandbox Virtualbox Instalación Instalar primeramente Virtual box y una vez instalado ir a la máquina virtual de hortonworks y ejecutarla, con ello aparecerá una instalación de esta máquina en virtual box. Configurar las...

Leer CSV en Databricks en Spark

Cargar CSV en Databricks Databricks Community Edition proporciona una interfaz gráfica para la carga de archivos. Este interfaz se acceder en DataBase > Create New Table. Una vez dentro se deben de indicar los campos: Upload to DBF: nombre del fichero a cargar....