Minería de datos

La minería de datos busca descubrir patrones en grandes volúmenes de datos, de tal manera que los patrones obtenidos permitan extraer conocimiento comprensible por el ser humano.

La minería de datos consta de las siguientes fases:

  1. Selección del conjunto de datos:
    • Variables dependientes: variables a predecir.
    • Variables independientes: variables a partir de las que predecir.
  2. Análisis de las propiedades de los datos, mediante el uso de:
    • Histogramas.
    • Diagramas de dispersión.
    • Presencia de valores atípicos.
    • Detección de valores nulos.
  3. Transformación del conjunto de datos: se realiza un preprocesado de los datos para adaptarlos a las técnicas a utilizar.
  4. Búsqueda y aplicación de la técnica de minería de datos, se construye el modelo predictivo de clasificación o segmentación, a partir de la utilización de alguna de las siguientes técnicas:
    • Regresión lineal: técnica más utilizada por ser rápida y eficaz, solo sirve para predecir una variable dependiente.
    • Modelos estadísticos: ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.
    • Agrupamiento o Clustering: técnica de agrupación en grupos a partir de criterios habitualmente de distancia. Ejemplos:
      • Algoritmo K-means.
      • Algoritmo K-medoids.
    • Árboles de decisión: técnica utilizada en la inteligencia artificial y el análisis predictivo, dada una base de datos se construyen diagramas de construcciones lógicas. Ejemplos:
      • Algoritmo ID3.
      • Algoritmo C4.5.
    • Reglas de asociación: técnica que busca descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.
    • Redes neuronales: sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Ejemplos:
      • El perceptrón.
      • El perceptrón multicapa.
      • Los mapas auto-organizados o redes de Kohonen.
  5. Extracción de conocimiento: se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables.
  6. Interpretación y evaluación de datos: comprobar que las conclusiones extraídas son válidas y suficientemente satisfactorias.

 

Otros artículos que pueden ser de interés:

Autor: Diego Calvo