por Diego Calvo | Nov 23, 2017 | Python, Spark
Visualizar una lista de RDD rdd = sc.parallelize([1, 1, 1, 1, 2, 2, 2, 3, 3, 4]) print (rdd.collect()) [1, 1, 1, 1, 2, 2, 2, 3, 3, 4] Número de elementos del RDD print (rdd.count()) 10 Primer elemento print (rdd.first()) 1 Diccionario con la frecuencia de cada... por Diego Calvo | Nov 23, 2017 | Python, Spark
Lectura de ficheros externos en RDD rdd_file = sc.textFile(«/home/file.txt») Escritura de RDD en un directorio rdd_file.saveAsTextFile(«/dbfs/FileStore/tables/RDD_dir») por Diego Calvo | Nov 23, 2017 | Python, Spark
Creación a partir de colecciones Python lista = [‘uno’,’dos’,’dos’,’tres’,’cuatro’] listardd = sc.parallelize(lista) listardd = sc.parallelize(lista,4) # Incluir el número de cluster en lo que dividir el RDD... por Diego Calvo | Nov 23, 2017 | Python, Spark
Prerequisitos Java 6 o superior Interprete de Python 2.6 o superior Instalación Instalar es muy sencillo basta con descargarse la última versión de Spark y descomprimirla wget http://apache.rediris.es/spark/spark-1.5-0/spark-1.5.0-bin-hadoop2.6.tgz tar -xf... por Diego Calvo | Nov 7, 2017 | Big data, Python, Spark
Preparación del entorno de desarrollo Entorno Python Instalación del entorno de desarrollo: instalar Anaconda y PyCharm CE Otros entornos recomendados: Eclipse, Spyder (incluido en anaconda y Aton) Configurar y cambiar el entorno virtual Importar paquetes: pip install... por Diego Calvo | Jul 25, 2017 | Python
Declaración de lista lista = list() lista = [] lista = [1, 2, 3, 4] lista = [1, 2, ‘Hola’, [3, 4]] Visualizar los elementos de una lista print(lista[0]) # 1 for i in range(len(lista)): print(lista[i]) # 1 # 2 # Hola # [3, 4] Añadir elementos a una lista...