Análisis clúster no Jerárquico K-means en Spark Python

from pyspark.ml import Pipeline from pyspark.ml.feature import VectorAssembler # Definir el ‘df’ Spark a utilizar df = spark.createDataFrame([     (‘line_1’, 100, 10, 1),     (‘line_2’, 200, 20, 2),     (‘line_3’, 300, 30, 2),     (‘line_4’, 300, 30, 3),     (‘line_5’, 200, 20, 1),     (‘line_6’, 100, 10, 1) ],  («label», «x1», «x2», «x3»)) # Definir…

Read More »

Arbol de Decisión en Apache Spark con Python

Cargar datos # Cargar un dataframe df = sqlContext.read.format(«com.databricks.spark.csv»).options(delimiter=’\t’,header=’true’,inferschema=’true’).load(«/databricks-datasets/power-plant/data») display(df) AT V AP RH PE 14.96 41.76 1024.07 73.17 463.26 25.18 62.96 1020.04 59.08 444.37 5.11 39.4 1012.16 92.14 488.56 20.86 57.32 1010.24 76.64 446.48   Generar conjunto de entrenamiento y test #Definir una semilla seed = 1800009193L # Generar un grupo de entrenamiento y…

Read More »