Class Imbalance Problem

Héctor Fabio Cadavid Rengifo

Aprendizaje de Máquina 

Maestría en Ingeniería de Sistemas y Computación

Universidad Nacional de Colombia 

El problema del imbalance de clases se presenta en dominios donde una clase (una familia, una categoría, etc) es representada por un gran número de ejemplos mientras que otra por sólo unos pocos. Este es un problema importante para el aprendizaje de máquina, pues la experimentación indica que la tasa de error de predicción de modelos entrenados  con datos no balanceados es 2 ó 3 veces mayor para las clases minoritarias.

 

 

  • Presentación [ pdf ] [ppt]
  • Artículos principales
    • [Japkowicz2000] Japkowicz, N. (2000), The Class Imbalance Problem: Significance and Strategies, in Proceedings of the 2000 International Conference on Artificial Intelligence (IC-AI'2000) , pp. 111-117.  [pdf]
    • [Xu-Ying2006] Xu-Ying Liu, Jianxin Wu, Zhi-Hua Zhou, "Exploratory Under-Sampling for Class-Imbalance Learning," icdm, pp. 965-969,  Sixth International Conference on Data Mining (ICDM'06),  2006. 
    • [Nickerson2001] Nickerson, A., Japkowicz, N. and Milios, E., (2001), Using Unsupervised Learning to Guide Resampling in Imbalanced Data Sets , in Proceedings of the Eighth International Workshop on Artificial Intelligence and Statistics. [pdf]
    • [Hao2006] Learning from Categorical and Numerical Imbalanced Data.  Master thesis. School of Knowledge Science,. Japan Advanced Institute of Science and Technologyy. [pdf]
  • Enlaces interesantes

 

  • Resultados de experimentación con estrategias de muestreo estratificado (resampling, downsizing) con los datos de iris para el entrenamiento de una red neuronal [ExperimentoImbalance.xls]
  • Herramienta construida: Perceptrón multicapa adaptado para balancear sus clases haciendo sobremuestreo de la clase minoritaria. [MLP.zip]