from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler
# Definir el 'df' Spark a utilizar
df = spark.createDataFrame([
('line_1', 1, 1, 1),
('line_2', 2, 2, 1),
('line_3', 3, 3, 1),
('line_3', 4, 2, 1),
('line_3', 5, 1, 1),
], ("label", "x1", "x2", "x3"))
# Definir un ensamblador de las columnas 'x1', 'x2' y 'x3' que toma como salida 'aux_features'
assembler = VectorAssembler(inputCols=["x1", "x2","x3"], outputCol="aux_features")
# Definir el método que estandariza la entrada 'aux_features', mostrando la salida en 'features'
standarization = StandardScaler(inputCol="aux_features", outputCol="features", withStd=True, withMean=True)
# Crear la tuberia
pipelineResult = Pipeline()
# Definir las etapas de las que está compuesta la tuberia
pipelineResult.setStages([assembler, standarization])
# Modelo de ajuste de la tuberia con los datos 'df' de entrada
modelResult = pipelineResult.fit(df)
#Realiza la transformación de los datos utilizando el modelo
result_df = modelResult.transform(df)
# Muestra los resultados
display(result_df)
0 comentarios