Trabajo hasta el momento a) Estudio de métodos y técnicas de Aprendizaje automático supervisado, aplicados al procesamiento de lenguaje natural: - Modelos de ngramas - Hidden Markov Models y Modelos de Entropía Máxima para POS Tagging - Algoritmos para clasificación - Algoritmos de AA para extracción de entidades con nombre (HMM, CRF) - Métodos basados en kernels (Perceptron, SVM). Kernels para clasificación, parsing b) Estudio del estado del arte en extracción de relaciones - Caracterización del problema de la extracción de relaciones - Utilización de métodos basados en kernels para extracción de relaciones - Kernels sobre árboles de análisis superficial, strings, y árboles de dependencias - Implementación de algoritmos basados en el perceptron c) Relevamiento de corpus anotados de biología molecular - Bioinfer - Genia event - Bioscope (modalidad en biomedicina) d) Estudio de algunos principios y herramientas para visualización de información Plan de trabajo - La idea es concentrarse en el tema de especulación y la negación en textos de biología molecular y aplicar las técnicas y métodos estudiados para lograr clasificar y visualizar estas características. "Epistemic modality: expresses the speaker's degree of commitment to the truth of the proposition. Our use will be wider, encompasing event factuality as well. We will understand event modality as the feature indicatng the factuality status of a particular event" (Sauri) Plan 2010 Enero 2010 - Abril 2010: utilizar kernels para clasificar modalidad de las oraciones, utilizando el corpus Bioscope. Los kernels estarían basado en palabras claves y similitud de parsing de dependencias, y las pruebas se harían utilizando el algoritmo Voted Perceptron, y eventualmente SVM. La idea es ver si con esos resultados puede presentarse un artículo para el workshop "Negation and Speculation in Natural Language Processing" (Link) Mayo 2010 - Agosto 2010: estudiar cómo combinar corpus anotados con especulaciones y/o modalidad (Bioscope, Genia Event, Bioinfer, TimeBank) sobre diferentes dominios, para mejorar la clasificación. Extender la extracción de relaciones para clasificar su modalidad. Evaluar resultados. Setiembre 2010 - Marzo 2011: Estudiar la visualización del corpus anotado con relaciones y modalidad. Detectar los atributos más relevantes desde un punto de vista perceptual, e implementar visualizaciones que faciliten el análisis visual del corpus sobre el que se está trabajando. Mayo 2010 - Setiembre 2010: Redacción de los capítulos 1,2, 3 de la tesis. Octubre 2010 - Diciembre 2010 : Redacción del capítulo 4 de la tesis Plan 2011 Enero 2011- Abril 2011: redacción de capítulo 5 Mayo 2011: redacción de capítulo 6 Esquema tentativo de la tesis: 1. Introducción: Bioinformática, BioNLP and Modality. Descripción general del área, con las diferentes líneas de trabajo, y principales métodos. El estudio de la modalidad dentro del BioNLP 2. Aprendizaje automático supervisado para BioNLP. Estado del arte en procesamiento de lenguaje natural en el área de la biología molecular. Métodos basados en kernels. Métodos basados en profiles. Principales corpus 3. Modalidad: caracterización, aspectos, problemas. Una ontología para modalidad en el dominio de la biología molecular. 4. Learning Modality: cómo aprender modalidad utilizando aprendizaje automático. Técnicas aplicadas, resultados obtenidos 5. Visualizing Modality: importancia de la visualización para obtener información sobre especulación y permitir el análisis exploratorio. Características más relevantes. Implementaciones 6. Conclusiones |