Árboles de decisión en minería de datos

Los árboles de decisión utilizados en minería de datos se pueden clasificar en:

  • Árboles de regresión: el resultado que predicen se puede considerar un número real. Ejemplo: precio de una casa, o duración de una pieza.
  • Árboles de clasificación el resultado que predicen es la clase a la que pertenecen los datos. Ejemplo: sexo, tipo de planta.

Aprendizaje basado en árboles de decisión es la construcción de un árbol de decisión a partir de tuplas de entrenamiento, cada una etiquetada con su correspondiente clase. Un árbol de decisión es similar a una estructura de diagrama de flujo, donde cada nodo interno (no hoja) denota una prueba en un atributo, cada rama representa el resultado de una prueba, y cada hoja (o terminal) nodo tiene una etiqueta de clase. El nodo superior en un árbol es el nodo raíz.

Hay muchos algoritmos específicos de árbol de decisiones. Entre los más destacados están:

  • ID3 (Iterative Dichotomiser 3)
  • C4.5 (Sucesor de ID3)
  • ACR (Árboles de Clasificación y Regresión)
  • CHAID (Detector automático de Chi-cuadrado de interacción). Realiza divisiones de múltiples niveles al calcular los árboles de clasificación.
  • MARS: Extiende los árboles de decisión para manejar mejor datos numéricos.
  • Árboles de Inferencia Condicional. Enfoque que utiliza pruebas no paramétricas como criterios de división, corregidos para múltiples pruebas para evitar el sobreajuste. Este enfoque se traduce en la selección de un predictor imparcial y no requiere poda.

Algunas técnicas, a menudo llamados métodos conjuntoshíbridos, construyen más de un árbol de decisión:

  • Bagging, un método de conjunto, construye múltiples árboles de decisión haciendo repetidamente remuestreo de los datos de entrenamiento con sustitución, y votando los árboles para hallar una predicción de consenso.
  • Un clasificador Random Forest utiliza una serie de árboles de decisión, con el fin de mejorar la tasa de clasificación.
  • Los Árboles Impulsados se pueden utilizar para problemas de regresión y de clasificación.
  • Rotation Forest En el que cada árbol de decisión es entrenado aplicando primero análisis de componentes principales (ACP) en un subconjunto aleatorio de las características de entrada.

Otros artículos que pueden ser de interés:

Autor: Diego Calvo