Noticias‎ > ‎

Publicado artículo en conferencia MLDM'14 en San Petersburgo

posted Sep 9, 2014, 6:41 AM by Orestes Manzanilla
En conjunto con el Prof. Ubaldo García Palomares y el Prof. Jesús Espinal Kohler, elaboramos un trabajo titulado: "Minimizing Cluster Errors in LP-Based Nonlinear Classification".  El mismo puede encontrarse online buscando el "proceeding": Machine Learning and Data Mining in Pattern Recognition (pp. 163-174). Springer International Publishing.

A continuación les transcribo el resúmen:

Recent work has focused on techniques to construct a learning machine able to classify, at any given accuracy, all members of two mutually exclusive classes. Good numerical results have been reported; however, there remain some concerns regarding prediction ability when dealing with large data bases. This paper introduces clustering, which decreases the number of variables in the linear programming models that need be solved at each iteration. Preliminary results provide better prediction accuracy, while keeping the good characteristics of the previous classification scheme: a piecewise (non)linear surface that discriminates individuals from two classes with an a priori classification accuracy is built and at each iteration, a new piece of the surface is obtained by solving a linear programming (LP) model. The technique proposed in this work reduces the number of LP variables by linking one error variable to each cluster, instead of linking one error variable to each individual in the population. Preliminary numerical results are reported on real datasets from the Irvine repository of machine learning databases

En este trabajo, resumiendo un poco, proponemos varias ideas nuevas:
  1. Una estrategia para abordar el problema de clasificación, mediante un esquema ya propuesto en otro artículo que se basa en Programación Lineal y Programación Lineal Entera, con un número sustancialmente menor de variables en los modelos de optimización. En nuestro primer trabajo en este tipo de estrategias, teníamos una variable de error por cada punto a clasificar en una iteración. En esta propuesta, hacemos que puntos que sean "similares" (geométricamente cercanos entre sí) compartan la misma variable de error, de forma que mientras alguno de estos puntos similares entre sí esté mal clasificado, el error, que será común a todos ellos, tendrá un valor distinto de "0".
  2. La forma en que se agrupan estos puntos de características "similares" es mediante un pre-procesamiento de "clustering" (conglomerados). El método de conglomerados que utilizamos, es uno propuesto por nosotros, basado en uno pre-existente, que resulta computacionalmente muy sencillo, al estar  basado también en Programación Lineal, asumiendo el problema como un problema de "asignación".
Los resultados, en cuanto a precisión, resultaron competitivos. La técnica constituye una oportunidad de abordar bases de datos grandes (que excedan las capacidades del motor de Programación Lineal), o para obtener mejoras en los niveles de precisión. Asimismo, permite el aprovechar bases de datos en las que hay un agrupamiento natural entre los elementos (ya existiendo previamente un motivo para considerar que ciertos grupos de elementos son similares).

Comments