Plan 2011-2012

Problema a resolver: cómo mejorar la detección de alcance utilizando conocimiento experto en un dominio.
Aplicación: reconocimiento del alcance en una oración de una cue (por ejemplo, una cue de negación o hedging). Otros: alcance de una opinión o un evento.

Método propuesto:

1. Convertir el problema a un problema de clasificación secuencial. Por ejemplo: tengo las hedge cues en una oración y quiero determinar su alcance. Genero una instancia de entrenamiento por cada hedge cue, con su alcance identificado en un formato BIO. Luego el problema es la clasificación de cada token en B,I,O para identificar los alcances.
2. Consolidar las características principales para el aprendizaje en cuestión, convirtiéndolas en features para el aprendiazje. Ejemplo: información léxica (POS), sintáctica (padre en el árbol de análisis sintáctico) o  semántica (pertenencia a listas de palabras).
3. Aplicar un algoritmo de clasificación secuencial supervisada en parte del corpus de entrenamiento y evaluar en un corpus held-out. 
4. Obtener, agrupar y ordenar los errores a partir de características similares.
5. Considerar el grupo más común de errores y aplicar conocimiento experto en el dominio para obtener un clasificador determinista que, a partir de las features existentes y otras que eventualmente puedan identificarse, clasifique correctamente las instancias del grupo.
6. Obtener las nuevas features para todas las instancias de entrenamiento y evaluación.
7. Aplicar el clasificador a todas las instancias y usar el resultado como un nuevo atributo para el aprendizaje.
8. Repetir desde el paso 3 hasta que no puedan identificarse nuevos grupos relevantes de errores.
9. Evaluar los resultados en un corpus de evaluación.

Aspectos de implementación: al ser un proceso incremental, deberían minimizarse los costos de generar la información: el uso de bases de datos relacionales en lugar de texto plano puede ser muy beneficioso en términos de performance.

Esquema de la tesis:

1. Introducción: planteo del problema. Ejemplos sobre los que se va a trabajar: hedging, negación, identificación de eventos, identificación de elementos de opiniones. Planteo de la aproximación: utilizar conocimiento experto para mejorar los resultados de un análisis supervisado.
2. Background, motivación. Métodos de clasificación secuencial: caracterización, principales aproximaciones. Estado del arte. Estado del arte para los problemas de ejemplo.
3. Propuesta de metodología. Descripción, problemas, soluciones. Aplicación a los 4 casos.
4. Caso de estudio: detección de alcance de hedge cues. Fuentes de información, consolidación en una estructura. Aplicación de la metodología para mejorar el reconocimiento. Implementación: uso de base de datos relacionales.
5. Resultados obtenidos para el caso de estudio. Medidas de performance. Resultados para la detección de opiniones, el trabajo de Aiala. Comparación con el estado del arte. Aplicación: caracterización en términos de hedging de relaciones en el campo de la biología molecular.
6. Conclusiones: análisis de resultados sobre un corpus de evaluación. Análisis crítico de la aproximación. Posibles mejoras y trabajo futuro. Posible extensión a otros problemas y dominios.

Comentarios:

- La idea es poner énfasis en la parte metodológica, y en particular en buscar una forma de procesar sistemáticamente los errores en cada
- Por un tiempo voy a abandonar el tema programación, concentrándome más en el método. La idea es recién a comienzos del año que viene volver a probar y obtener resultados. iteración del proceso. Hay que trabajar más en los conceptos involucrados en la metodología, viendo si pueden enmarcarse en cosas que ya se hayan visto (revisar la bibliografía, buscando formas de incorporar conocimiento experto, por ejemplo viendo el tema active learning o en metaalgoritmos de aprendizaje (boosting, por ejemplo) que a partir de
- Ver la posibilidad de generalizar el problema de encontrar un scope, un alcance para unclasificadores débiles construyen otros mejores). operador lingüístico identificado. Distintos casos en la lengua: hedging, modalidad, polaridad, discurso reproducido, contextos "creadores de mundos" (creo, pienso, imagino, etc.). Distintos casos desde el punto de vista de la estructura: operador previo, operador infijo, operador posterior. Relación con la sintaxis: el scope coincide o no con un constituyente (maximal, intermedio).

Plan de trabajo:
1/9 - 5/10 [35 días]: capítulo 1
6/10 - 15/11 [40 días]: capítulo 2
16/11 - 15/12 [30 días]: capítulo 3
16/12 - 15/2 [60 días]: capítulo 4
16/2 - 30/3 [45 días]: implementación del caso de estudio.
1/4 - 30/4 [30 días]: capítulo 5
1/5 - 30/4 [15 días]: Implementación de la aplicación a la caracterización de relaciones
1/5 - 1/6 [30 días]: Capítulo 6 - Finalización del documento de tesis