[25/05/2012] Versión 4: - Sección 4.1 con la descripción del corpus Bioscope - Sección 4.2 con la descripción de cómo lo enriquecimos - Mejoras al capítulo 1 [19/05/2012] Subí la versión 3 de la tesis. Incluye una tabla de contenido (incluyendo una breve descripción de cada punto). Para el próximo viernes voy a trabajar principalmente en el capítulo 4. [15/05/2012] Dina, Jean-Luc: acabo de enviar la versión camera-ready del paper (si hay alguna modificación menor, tengo tiempo hasta mañana a las 0GMT para corregirlas, pero no sé si podré en el día incorporar cambios). Creo que quedó bastante bien, y mucho mejor que la versión original. Ahora pretendo (luego de un día de descanso), retomar con la escritura de la tesis. Para este próximo viernes espero tener una propuesta de estructura más fina (si es posible con un cronograma), y algo más escrito sobre cómo se implementó la metodología (capítulo 4). Mi idea es los viernes subir una versión actualizada de la tesis para que puedan seguirlo (incluyendo un resumen de agregados y un plan para la semana siguiente). [12/04/2012] Ayer entregué a la conferencia el artículo, incluyendo todo lo planificado. Puse especial énfasis en la forma de incorporar reglas (a las que llamé knowledge rules) al aprendizaje. Sigo con lo planificado, lo primero que quiero hacer es revisar los resultados un poco, hay algunos números (sobre todo calculados en el corpus de evaluación) que no terminan de convencerme. Para esto voy a revisar completamente los mejores clasificadores hasta el momento, y voy a seguir trabajando sobre ellos. También tengo para escribir el capítulo 3, al que pretendía terminar antes del 25 de abril. [25/03/2012] Escribí el capítulo de Introducción. Después de eso, me puse a escribir el paper para la conferencia Extra-propositional aspects of meaning in computational linguistics (ACL 2012) (extendieron el deadline). Eso implicó bastante programación, para poder obtener resultados completos. Ya lo tengo casi pronto, tengo que obtener resultados para todo el corpus. Si puedo, voy además a medir el resultado de mi mejor modelo en el corpus de evaluación del Shared Task CoNLL del 2010, para poder compararme. Después de terminar con el artículo, voy a trabajar en el capítulo 3 (la propuesta), me gustaría terminarlo antes del 25 de abril.[23/02/2012] Estuve escribiendo el capítulo de Introducción. Por ahora, estoy metiendo conocimiento, sin cuidar demasiado el orden (aunque tengo una estructura más o menos definida). Hoy transcribí lo escrito ayer (como introducción, y algunas cosas de background) y me dediqué a enumerar ejemplos de hedging, en el corpus Bioscope. Incluí los hedges léxicos, y me queda lo que Hyland llama strategic hedges. Luego tengo que acercarme al problema en sí. Para eso, tendría primero que describir el corpus Bioscope (antes hablar de cómo encarar computacionalmente el problema de la detección de hedges, y también el del alcance). Describir un poco el corpus, para pasar luego a cómo se caracteriza el problema y la casúistica que podría darse (donde repetiría los ejemplos, pero esta vez ya como problema computacional). Después debería describir cómo ver el problema como uno de clasificación secuencial, y comentar las dos aproximaciones principales: por reglas y por aprendizaje supervisado. Aquí me planteo la pregunta: ya que puedo obtener muy buenos resultados de base usando aprendizaje automático, por qué tienen que ser alternativas (Morante lo propone)? Y si incorporo todo lo estudiado a mi problema y veo si lo puedo mejorar? No es exactamente lo mismo, pero podría servir. También analizar los errores cometidos... por qué no concentrar el conocimiento experto en aquellas cosas que mi algoritmo hasta el momento no puede resolver. [22/02/2012] http://www.phys.unsw.edu.au/~jw/thesis.html What is the topic and why is it important? State the problem(s) as simply as you can. Remember that you have been working on this project for a few years, so you will be very close to it. Try to step back mentally and take a broader view of the problem. How does it fit into the broader world of your discipline? Especially in the introduction, do not overestimate the reader's familiarity with your topic. You are writing for researchers in the general area, but not all of them need be specialists in your particular topic. It may help to imagine such a person---think of some researcher whom you might have met at a conference for your subject, but who was working in a different area. S/he is intelligent, has the same general background, but knows little of the literature or tricks that apply to your particular topic. The introduction should be interesting. If you bore the reader here, then you are unlikely to revive his/her interest in the materials and methods section. For the first paragraph or two, tradition permits prose that is less dry than the scientific norm. If want to wax lyrical about your topic, here is the place to do it. Try to make the reader want to read the heavy bundle that has arrived uninvited on his/her desk. Go to the library and read several thesis introductions. Did any make you want to read on? Which ones were boring? This section might go through several drafts to make it read well and logically, while keeping it short. For this section, I think that it is a good idea to ask someone who is not a specialist to read it and to comment. Is it an adequate introduction? Is it easy to follow? There is an argument for writing this section---or least making a major revision of it---towards the end of the thesis writing. Your introduction should tell where the thesis is going, and this may become clearer during the writing. [10/01/2011] Cronograma Capítulo 1: Introducción. Enero. Deadline: 10/2 Capítulo 2: Aspectos lingüísticos, estado del arte. Febrero. Deadline: 1/3 Capítulo 3: Metodología propuesta. Marzo. Deadline: 1/4 Capítulo 4: Arquitectura e Implementación. Marzo- Abril. Deadline: 15/4 Capítulo 5: Aprendizaje, resultados. Abril. Deadline: 1/5 Capítulo 6: Síntesis, conclusiones. Mayo. Deadline: 1/6 Implementación: Febrero - Abril. Deadline: 15/4 Artículo para la conferencia Extra-propositional aspects of meaning in computational linguistics (ACL 2012). Deadline: March 18, 2012 [20/09/2011] Tengo seleccionados dos artículos en principio, para ver el tema modalidad: Modality and Language In Encyclopedia of Philosophy – Second Edition (2006) by Kail von Fintel edited by Donald M. Borchert Remarks on operators and modalities Foundations of Language, Vol. 9 (1972), pp. 209-241. by María-Luisa Rivero [19/09/2011] Arranco a escribir. En principio, voy a concentrarme en operadores modales en el lenguaje natural. [09/09/2011] Puse un plan 2011-2012 para aprobar por Dina y Jean-Luc [14/04/2011] Dina, Jean-Luc: he estado trabajando en aprender alcance de las HC, estoy documentando toda la solución, y al mismo tiempo la voy programando. Por algún problema personal no he podido dedicar todo el tiempo que desearía, pero igual estoy avanzando. Estuve contactándome con Roser Morante de la Universidad de Antwerp, para ver el tema del reconocimiento de alcance, y me vino muy bien, ya incorporé el tema del entrenamiento, me queda redondear la parte de la evaluación y luego empezar a probar con diferentes atributos, a partir de los errores cometidos. He intentado escribir un poco del resto, pero todavía son apuntes. [18/03/2011] Dina, Jean Luc: A pesar de no venir avanzando tan rápido como quería (con el bebé recién nacido tengo menos tiempo, sobre todo en las noches), he hecho algunos progresos. He obtenidos dos avances principales: - Incorporé un manejador de base de datos (SQLite), en lugar de procesar los textos directamente. Esto me permite no tener que volver a generar todos los atributos cada vez que agrego un atributo de entrenamiento (lo cual va a suceder muy seguido, ya que cada regla que escriba generará un atributo nuevo). Si bien es solamente un tema de implementación, tuve que resolverlo porque el tiempo de generar los archivos de entrenamiento (levantar la estructura del árbol sintáctico con anotaciones y generar los atributos), me llevaba más tiempo que la propia clasificación. Eso ya lo tengo resuelto, y sigo trabajando en armar los escenarios para las diferentes pruebas. - Estuve pensando (y creo que es un aporte) en la forma de incorporar conocimiento en forma de reglas. En lugar de analizar el corpus en cualquier orden, corriendo el riesgo de escribir reglas inútiles (porque el propio clasificador basado en aprendizaje automático aprendió la relación a partir de los datos de entrenamiento), lo que voy a hacer es entrenar sobre parte del corpus de entrenamiento (un 80%), y evaluar sobre el 20% restante, analizando los errores que comete. De ese modo, las reglas que escriba apuntarán a subsanar los errrores del aprendizaje. Esto (por supuesto) no puede hacerse evaluando en el corpus de de evaluación, porque se sobreajustaría, pero haciendo cross-validation en el de entrenamiento, supongo que debería mejorar. Mi principal fracaso hasta el momento es que sigo sin escribir :( saludos guillermo [11/02/2011] Dina, Jean-Luc: esta semana estuve trabajando en los escenarios, para automatizar completamente el proceso de generación de atributos/entrenamiento/evaluación de resultados. Logré completar el ciclo para un caso base, utilizando como herramienta de aprendizaje yamcha (basada en SVM), y con los atributos lemma/POS/chunk (sin utilizar información sintáctica ni introducir reglas todavía, y tomando la configuración por defecto para el algoritmo). Haciendo el aprendizaje de las hedge cues, obtuve una medida-F de 0.83, que es un resultado muy razonable como línea base (en el shared task de CoNLL, sobre un corpus parecido, el mejor resultado fue 0.86). Para la semana próxima voy a incorporar los CRF como algoritmos de aprendizaje, e incorporar alguna regla para ver si los resultados mejoran (es mi hipótesis, espero que funcione). Me gustaría también empezar a escribir el capítulo con lo que voy a hacer, espero tener tiempo. [7/02/2011] Hola, Dina y Jean-Luc. Vuelto de las vacaciones, les cuento lo que he podido avanzar en esta semana: estuve preparando una charla sobre SVM para el seminario de aprendizaje para PLN que estamos llevando adelante en el grupo. Parte de la charla es preparar algunos ejemplos, y para eso estoy usando yamcha (una herramienta para utilizar SVM en anotación secuencial, de forma similar a lo que se hace con CRF), y quiero aplicarlo sobre el corpus Bioscope sobre el que he estado trabajando, para aprender a identificar marcadores de hedging. La semana próxima quiero terminar con eso y comenzar a armar los escenarios sobre los que voy a probar. [31/01/2011] Plan para esta semana: terminar la clase de SVM, armar escenarios para probar y programar la primera prueba completa. [14/01/2011] Dina, Jean-Luc: he estado trabajando de acuerdo a lo planificado (en los tiempos en que Alejandro me ha permitido). Aunque no he podido escribir, estuve probando las herramientas de aprendizaje automático que voy a utilizar (los primeros resultados son promisorios), y armando lo que voy a hacer. Ya puedo generar fácilmente los archivos de entrenamiento/testeo de acuerdo a los diferentes criterios y evaluar los resultados. Lo que voy a hacer ahora es armar en detalle las pruebas que voy a hacer, que incluyen tomar como atributos resultados de reglas y también ver cómo puede mejorar el aprendizaje si utilizo self-training. Ahora me estoy yendo dos semanas de vacaciones (creo que me va a venir muy bien), espero ahí poder separarme de la computadora y escribir en papel. Por un lado quiero elaborar el documento de qué hacer, y por otro escribir un capítulo sobre hedging y modalidad, como habíamos quedado. [24/12/2010] (Reunión con Dina y J-L) - Presenté el avance de su trabajo, y un plan de tesis, que fue ajustado en el transcurso de la reunión. - El trabajo va a seguir según lo establecido (reconocimiento del alcance del hedging utilizando como atributos los resultados de la aplicación de reglas), con algunos agregados: el estudio en la literatura del comportamiento de los marcadores de modalidad en textos científicos (en inglés), y el estudio de la posiblidad de utilizar técnicas de aprendizaje semisupervisado para mejorar el reconocimiento de la modalidad. - Voy a incluir como parte del trabajo un estado del arte en el tema (basado principalmente en los proceedings del último Shared Task de las CoNNL, además de literatura anterior). - Como corolario, una vez finalizado el sistema, voy a probarlo para detectar modalidad de relaciones extraídas (para esto, la idea es utilizar Bioinfer y calificar cada relación existente, analizando la oración que la incluye). - En cuanto a la organización, voy a empezar por escribir un capítulo donde se detalle la propuesta de solución, para luego empezar a probarla. En paralelo, voy a buscar familiarizarme con las herramientas de aprendizaje. Cronograma: Tarea 1: Especificar la solución, incluyendo cómo utilizar aprendizaje supervisado/semisupervisado e incorporar reglas. 22 diciembre - 20 de enero Tarea 2: Escribir reglas para detección de modalidad. 22 diciembre - 10 de febrero Tarea 3: Ejecutar procesos y obtener resultados. 20 de enero - 15 de marzo Tarea 4: Documentación 5 de febrero - Junio. [29/11/2010] - Hice un plan de trabajo y lo estuvimos viendo con Dina. Agregamos estudiar un poco más la modalidad, para ver de eventualmene enriquecer el corpus Bioscope. Por ahora, voy a ir leyendo una tesis sobre modalidad, y el libro "Mood and Modality" de Palmer. - Sigo implementando el sistema, como para que quede como herramienta de clasificación donde aplicar lo que vaya estudiando. [15/11/2010] - Presenté dos trabajos en el workshop de PLN realizado en conjunto sobre IBERAMIA: un poster sobre cómo enriquecer el Corpus Bioscope con información sobre otras fuentes, y un survey sobre kernels. - Tengo que hacer un plan de trabajo sobre la tesis, de aquí a junio. - Los estudiantes que hicieron el ambiente sobre extracción de relaciones están por entregar su documentación. Los avances no fueron mucho en el tema kernels en sí, pero construyeron un ambiente interesante. [01/10/2010] - Finalizada la estadía en Paris, tengo un documento con la arquitectura del trabajo. Voy a seguir trabajando en el tema, tengo que hacer un plan con fechas, incluyendo la escritura de la tesis. - Aceptaron los artículos en el workshop de Iberamia (01/11), uno en la conferencia y otro en la student session - Jean-Luc me recordó que lo subiera a HAL-SHS luego de publicado - Cuando vuelva voy a hablar con Dina de cómo ampliar las cues y otras sugerencias [21/09/2010] Reuni'on con Jean-Luc en Modyco. ========= Avance ========= Coment'e a Jean-Luc el avance de mi trabajo, y la idea para continuar. A partir de la estructura basada en el 'arbol sint'actico de las oraciones del corpus Bioscope (aumentado con anotaciones de POS, chunking, NER hechas con el Genia Tagger), he comenz'ado a escribir reglas que permitan detectar si una palabra es una marca de hedging, y cu'al es su alcance. Los atributos que generan las reglas no son el resultado definitivo, sino que la idea es utilizarlos como features para el aprendizaje. Es decir que despu'es de aplicadas las reglas, nos quedar'ia un atributo por cada una de ellas (lo que permite, por ejemplo, que dos reglas asignen categor'ias distintas a un mismo token). Los atributos generados por las reglas, junto con las features usuales (POS, chunk, etc), ser'ian utilizados por un clasificador secuencial (probablemente un CRF) para ver si se puede generalizar sus resultados, o levantar errores. La idea es comparar precision/recall en el corpus de testeo, antes y despu'es de utilizar el clasificador secuencial. Finalmente la idea es comparar los resultados obtenidos con los del Shared Task, en el dominio biol'ogico (la detecci'on del alcance sigue siendo un tema abierto despu'es del task, el mejor resultado tuvo un F-score de 57.3, principalmente porque es dif'icil distinguir de los usos como marca de hedging de algunas palabras ambiguas, como "or" o "can"). Ese ser'ia el alcance propuesto del trabajo. ======================================= Plan de tesis ======================================= Respecto a la tesis, modifiqu'e un poco su contenido a partir de los comentarios anteriores y de lo que hablamos con J-L. Estar'ia quedando as'i: 1. Introducci'on. NLP y el dominio de la biolog'ia molecular. Utilidad. M'etodos basados en reglas "versus" aprendizaje autom'atico. Etc. 2. El problema. Cu'al es el problema a resolver. Qu'e es exactamente lo que voy a hacer (y lo que no voy a hacer) y por qu'e es dif'icil. Presentar un estado de situaci'on y cual es la aproximaci'on para resolverlo. Esencialmente, qu'e es lo que pienso hacer en el trabajo. 3. Modality y Hedging. Introducci'on. Hedging. Hedge detection and scoping methods: estado del arte. El shared task 2010 de CoNLL. Representaci'on. Clasificadores secuenciales para detectar hedging. Otras aproximaciones 4. Detecting hedge cues and scoping. Introduction. Information sources. Hedge detection and scoping rules. An'alisis de las caracter'isticas generales de las reglas obtenidas. Using rule results as features for sequential classifiers. 5. Implementation and Results. 6. Conclusiones y trabajo futuro. ======================================= Plan de trabajo para la estad'ia ======================================= a) Escribir la mayor cantidad de reglas posibles b) Escribir el cap'itulo 2, tratando de especificar bien el alcance del trabajo. [05/09/2010] Estoy escribiendo reglas para detectar si una palabra del texto es un trigger de hedging o está bajo el alcance de uno. Para esto, utilizo la informaicón de los árboles de análisis sintáctico. Una vez obtenidas estas reglas, la idea es ver si puedo utilizar los valores deducidos como atributos para un proceso de aprendizaje automático. En Paris pienso trabajar principalmente en escribir reglas y, si es posible, medir sus resultados. Los primeros ensayos son bastante promisorios. [30/07/2010] Retomo el trabajo. Antes de seguir con lo planificado, voy a estudiar cómo incorporar la información de Genia Event (teniendo en cuenta la parte de Bioscope que está basada en Genia). Para esto, primero tengo que ajustar a la nueva versión de Bioscope (que tiene los ids de Medline). Quiero empezar a planificar también el esquema de la tesis, para trabajar cuando vaya a Paris. [18/07/2010] Presenté en al workshop sobre NLP en Iberamia dos artículos (uno sobre kernels y otro sobre enriquecer el corpus). [25/06/2010] Jean-Luc: ui au vue de tes explications tu as largement de quoi écrire un chapitre. Au delà des problèmes techniques d'intégration d'outils divers essaye de bien dégager tes choix en terme de représentation des données traitées (structure de traits, structure arborescente) et les connaissances appliquées (codées "en dur" ou bien déclarées) Regarde si ta chaine de traitement pourrait être paramétrée de telle manière qu'elle puisse être utiliser pour d'autres applications sur d'autres types de fichiers. Voy a trabajar en eso, y ver de presentarlo en Iberamia. Con los datos no avancé más, porque estuve preparando intropln. [18/06/2010] Finalmente, y con algunas horas más de programación que las que esperaba por temas de tokenización, utf-8, y cosas por el estilo, finalmente tengo creada la estructura completa con el corpus bioscope, anotado con los tags de genia y con los árboles de parsing del parser de stanford. Pueden visualizar la estructura para algunos documentos de ejemplo en http://www.fing.edu.uy/inco/grupos/pln/bioscope_devel/abstracts_devel.xml Allí se muestra la oración con las cues de incertidumbre marcadas y su alcance. Pinchando en "Tree" puede verse el árbol de parsing de la oración, con las marcas de Genia y Bioscope agregadas. Pinchando en "Atributos" se ve la tabla de atributos por palabra, en formato estándar, incluyendo marcadores de scope de bioscope. Finalizada esta etapa, paso a construir reglas para detectar cues y su scope, y evaluar su rendimiento sobre el corpus de testeo. [01/06/2010] He estado trabajando sobre el corpus bioscope. Si recuerdan, la idea era comenzar a buscar patrones para identificar hedging. Pero me he desviado un poco del objetivo, porque primero quiero llegar a tener una sola estructura donde consolidar tres fuentes de información: el corpus Bioscope (con sus marcas de especulación y su alcance), el POS-tagging realizado por Genia (que incluye además un chunk parsing e identificación de entidades como proteínas y genes), y el análisis sintáctico del parser de Stanford. Sobre esa estructura única, la idea es poder construir patrones (pensados como funciones que serán evaluadas sobre las estructuras correspondientes a cada oración) y evaluarlos inmediatamente para ver su precision/recall. Una vez obtenidos esos patrones (creo que cumplida esa etapa ya podría escribir algo), buscaríamos generalizarlos utilizando técnicas de aprendizaje automático, para mejorar los resultados. Por el momento, lo que he hecho es lo siguiente: - Levantar la información del corpus Bioscope - Taggear las oraciones con el Tagger de Genia - Utilizar la información de tagging de Genia e incorporarla al parser de Stanford, permitiendo (al tener tags más precisos) un mejor análisis sintáctico por tener POS-tags más precisos. - Incorporar a la estructura los atributos del tagger de Genia (lemma, chunk, entidades) Esos resultados pueden verlos en Ahí tienen cada oración, con los indicadores de especulación y negación, así como su alcance. En el link "Tree" está un dibujo con la estructura generada hasta el momento. Los siguientes pasos son: 1 - Incorporar a la estructura como atributos la información de Bioscope (marcas de hedging, alcance) 2 - Generar los conjuntos de entrenamiento y test 3 - Construir un conjunto de reglas para identificar especulación, y evaluarlas en el corpus de entrenamiento 4 - Comenzar a ver cómo utilizar la información anterior para hacer aprendizaje. En esta semana voy a trabajar sobre la tareas 1 y 2, y la semana que viene espero comenzar la etapa 3. [12/05/2010] Estuve trabajando en un proceso para estudiar la relación modalidad-postagging-parsing en el corpus bioscope: se obtienetener una página donde aparezca el corpus con las marcas, y links al pos-tagging de Genia, y una imagen de cómo queda el árbol sintáctico armado por el de stanford. Eso lo tengo casi pronto, es un proceso que hice con python/nltk, el tagger de genia y el parser de stanford. En lo inmediato: estudiar los casos que aparecen, para luego detectar los principales atributos/kernels para aprender modalidad. No pude llegar a una conferencia sobre el tema, voy a intentar ahora una en Valencia. [02/02/2009] (Comentario de Dina) habíamos hablado también de considerar algunos de los "modalizadores" de Delphine, estaban bastante bien. Dejé disponible un lugar para ver ejemplos de Bioscope, donde se marca el alcance. [01/02/2009]
Ideas para la primera etapa del trabajo: estudiar el alcance de los marcadores de incertidumbre o negación en Bioscope. Una primera idea es ver cómo se vincula el alcance semántico con el árbol de compontes resultante del análisis sintáctico. Hay una idea de que la vinculación sería mayor con el árbol de constituyentes que con el de dependencias. La idea es estudiar los casos, y determinar reglas de alcance a partir de la información sintáctica, y eventualmente aprender. Una vez resuelto esto, se avanzaría a adscribir la modalidad epistemológica a las relaciones extraídas del corpus GENIA. [19/01/2009] Nos reunimos con Dina y Jean-Luc. Quedó el plan de trabajo para 2010-2011. Link Terminé la presentación de kernels, manejo presentarla en las JIIO 2010 [30/10/2009] Estoy más que nada trabajando en preparar una charla sobre clasificación de
relaciones utilizando métodos basados en kernels (voted perceptron, svm). Me
ha llevado más tiempo de lo previsto, porque he intentado atacar cada punto en detalle, y he comenzado ya a avanzar en programar algunos algoritmos para clasificar. Supongo que tengo para algunas semanas más de trabajo en eso. El resultado sería una charla (que fácilmente podría extenderse a un curso corto, tal vez para el año que viene), sobre: a) clasificadores lineales b) kernels c) aplicación a problemas den procesamiento de lenguaje natural, en particular a la clasificación de relaciones d) aplicación a un corpus específico de biología molecular (bioinfer). El grupo de proyecto de grado que está estudiando el tema de la extracción de relaciones conmigo no ha avanzado demasiado en implementación, pero tienen algunas buenas ideas, de ahí puede surgir algo. Con respecto a la anotación del corpus miRNA, no he avanzado nada. Por un lado, me he concentrado en el tema anterior, por otro, aún no he recibido de Florence la ontología miRNA definitiva, que sería la utilizada para anotar.... esa parte del tema, la verdad es que no me está entusiasmando demasiado, prefiero trabajar en la parte de clasificación y visualización. [21/09/2009] Finalmente, el artículo sobre extracción de relaciones lo mandé al STIL 2009, pero no fue aceptado. Estoy pensando en publicarlo como reporte técnico del InCo. Estuve en el ESSLLI 2009, en Bordeaux. Vine con algunas ideas interesantes sobre visualización que me gustaría ampliar. Estuve en el STIL 2009, presentando un artículo sobre Lavinia. Basado en lo visto hasta el momento, presenté un plan de trabajo a Dina y Jean-Luc. Jean-Luc me sugirió hablar con Delphine y Florence, me he puesto en contacto con ellas para obtener la ontología Microbio y de temporalidad. Dina sugirió contratar dos personas para anotar el corpus, le pasé la idea a Álvaro Pena, a quien en principio le pareció razonable. Por otra parte, me propuso dar una charla al grupo sobre extracción de relaciones, la estoy preparando. El grupo de proyecto de grado de extracción de relaciones está avanzando en probar algunos algoritmos con SVMs y kernels sobre corpus de biología molecular. Estuve leyendo sobre visualización, y sobre técnicas de inferencia estadística en general. [10/02/2009] Voy a intentar publicar un artículo de estado del arte sobre machine learning y extracción de relaciones en el BSB (Brazilian Symposium on Bioinformatics) 2009. El deadline es el 20 de marzo. Dina aprobó el plan para los siguientes meses, y me sugirió estudiar el tema de una ontología para extracción de evidencia experimental, basada en lo que hizo Gabriela Romero en su proyecto de grado. Voy a proponer dos proyectos de grado, uno para probar extracción de relaciones con ML, y otro para construir ontologías y un ambiente de anotación para la gente del Pasteur, en los temas miRNA's y evidencia experimental. Diego Garat cotutelaría ambos, y en el segundo, además, participaría gente del Pasteur. Compré el libro de Shawne Taylor y Cristianni sobre SVMs. [23/12/2008] Respecto a lo ya hecho
Dina me sugirió hacer un estado del arte con lo visto hasta el momento (como para intentar resumir lo aprendido, y fijarlo), y Jean-Luc consideraba que podía hacer un artículo con eso. Son también los siguientes pasos. Jean-Luc me sugirió ir pensando en escribir un capítulo para la tesis, con las aproximaciones en Machine Learning. Le pedí ideas a Jean-Luc sobre la estructura para la tesis, una propuesta fue:
Nos pusimos en contacto con Rodrigo Goulart, que trabaja con Vera, y que piensa hacer cosas sobre extracción de relaciones. Justamente cuando había definido lo anterior, surgió este evento de extracción de Eventos en el BioNLP'09 (http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/SharedTask), que es exactamente lo que quiero hacer, así que lo voy a seguir de cerca, incluyendo el material que liberen. El plan de trabajo, en base a lo fijado, sería el siguiente:
Tengo intenciones, en el segundo semestre, de hacer el curso de pattern recognition, veremos cómo se adecúa al cronograma en ese momento. [25/09/2008] Seguimos definiendo con Álvaro y Hugo Naya la anotación del corpus. Álvaro va a trabajar con Jean-Luc e Inés Jilani en Paris en octubre, la idea es definir una ontología para anotar interacción entre mRNAs y genes para luego anotar un corpus, con el objetivo de definir reglas de relación. El martes próximo me va a hacer una presentación básica del tema mRNA. Mientras tanto, ya decidí trabajar sobre UIMA y bioNLP, estoy construyendo un ambiente sobre eso, la idea es trabajar todo en ese entorno. Tengo para leer algunas cosas de extracción de relaciones en el domio biomédico. Sigo sin terminar el trabajo de Métodos de Monte Carlo, estoy esperando a reunirme con Héctor porque estoy un poco trancado [12/09/2008] Con gente del Pasteur (Álvaro Pena) vamos a intentar armar un corpus anotado con asociación entre mRNA y genes, con la idea de trabajar sobre él. Estuvimos viendo herramientas para anotar, vamos a intentar con Protegé y un plugin que se llama Knowtator. Estoy leyendo artículos sobre extracción de relaciones en el dominio biomédico. [06/07/2008] Tuve
reunión con Dina, previo a presentar el plan de trabajo y el informe de
actividades para el primer año. La idea es entrar cuanto antes en el
dominio (hasta ahora he estado leyendo mucho, pero todavía no empecé a
armar el corpus y demás), para ver qué me encuentro. Dina sugirió como
comienzo el artículo de I.Jilani sobre anotación funcional de genes a
partir de la literatura, sobre todo para ver qué corpus utilizó. Otra posiblidad que me gustaría explorar es el corpus de las Biocreative 2004, sobre todo por sus tasks de protein-protein interaction. Inés Jilani viene en noviembre, la idea es que trabaje con ella para adaptar sus herramientas a UIMA, y de paso ver sus enfoques para reconocer relaciones. Quedamos con Dina en volver a reunirnos a comienzos
de Agosto, porque Julio voy a dedicarlo a armar un artículo para el
curso de Métodos de Monte Carlo (es lo que me queda para aprobarlo), y
para terminar de prepara el curso de Métodos de Aprendizaje Automático. [20/05/2008] Hoja de ruta
[08/05/2008] En este período, estuve principalmente dedicado a tres actividades:
Con Diego Garat y Raúl Garreta vamos a volver a dictar el curso de Aprendizaje Automático en el segundo semestre, a distancia. Pienso tomar en diciembre el curso que va a dictar Brian Roark en el InCo. El proyecto de grado que propuse no se concretó, no hubo alumnos interesados. Confirmé mi inclusión en el proyecto Microbio, tuvimos una reunión con Javier, Juanjo y la gente del Instituto Pasteur que podría ayudarme a definir más precisamente a qué problema va a apuntar mi tesis. Nos hablaron de otro proyecto en el que están, y que podría estar relacionado, voy a hablar con Lorena Etcheverry para obtener detalles. No parece factible (por motivos laborales y familiares) que pueda ir a París en el próximo semestre (de todos modos, no hay previsto viaje por Ecos). Voy a intentar concentrarme en ese período en:
Para fin de año espero tener esto concretado, para el año próximo dedicarme a resolver el problema que se plantee. [11/03/2008] Me inscribí para el curso de Métodos de Monte Carlo. Para fin de marzo espero tener escrito el capítulo sobre filtrado semántico. Luego
voy a ver cómo seguir, si por el lado del estudio del problema, o por
la búsqueda de la plataforma para trabajar, o los mecanismos para
aprendizaje. [06/03/2008] Informe sobre Microbio y mi doctorado, enviado a Dina y Jean-Luc: Por lo que se estuvo definiendo en el primer meeting del proyecto
Microbio, algunas decisiones pueden ser de mucha utilidad para mi
doctorado, e inversamente, el doctorado puede aportar a microbio. [02/03/2008] El artículo sobre Lavinia fue presentado el 11 de febrero, por supuesto todavía no sabemos si fue aceptado. Hice la presentación en el kickoff de Microbio, presenté Lavinia (en la página de documentos hay un link a la presentación) y las posibles ventajas de usar UIMA/Lavinia como plataforma para el proyecto. En el mismo encuentro de Microbio, se estuvieron definiendo los temas para el proyecto. Tengo que enviar un informe a Dina y J-L sobre cómo considero que afecta a mi doctorado (en lo que tiene que ver con definición de corpus, ajuste de tareas a realizar, etc). Tenía pensado preparar el artículo sobre plataformas de software para mediados de febrero, pero no he podido. Estuve leyendo bastnate, voy a terminar de leer y para fin de marzo espero tener la primer versión del artículo, para enviarle a Javier y J-L.. Este es el siguiente paso en lo inmediato. Voy a presentar un proyecto de grado que pretende, por un lado, ver el estado del arte en NER y reconocimiento de relaciones en el dominio biológico, y por el otro agregar una representación en Lavinia de relaciones entre etiquetas, hoy no la tiene. [26/12/2007] Planificación para los próximos meses:
[07/12/2007] Tuvimos reunión con Dina y Jean-Luc. Conté un poco lo que había estado estudiando de métodos de relational learning. Quedamos en que, para junio del 2008, intentaré tener más definido exactamente cuál será el problema a resolver y qué métodos de relational learning utilizar (enfocados principalmente a la extracción de entidades con nombre y también de relaciones entre las entidades), viendo cuáles son más aplicables, y si hay herramientas informáticas que hagan viable su utilización. Dina me sugirió intentar armar una pequeña serie de charlas donde muestre lo estudiado, como para transmitirlo y tener bases para discutir. Planifiqué una ida a Paris para el segundo semestre (setiembre u octubre). Si puedo. Fui a las charlas que dio Carbonell, en particular al taller de machine learning. Muy interesante. Dina, me pasó luego unos links a gente que trabaja en extracción de información en CM. Los revisaré. Por ahora, los métodos que estoy estudiando son los MEMM (Maximum Entropy Markov Models), para luego pasar a los Conditional Random Fields. De herramientas sigo haciendo poco, y es probable que en los próximos dos meses tampoco pueda hacer mucho. Estuve
en una reunión de pre-lanzamiento del proyecto Microbio, con Jean-Luc,
Juanjo, Hugo Naya y Martín Graña (del Pasteur), luego tuvimos una
reunión en el Pasteur, donde nos estuvieron mostrando situaciones donde
el investigador se enfrenta a las grandes bases de datos biológicas, y
los posibles problemas a resolver. Se planificó además el encuentro de
Febrero de lanzamiento del proyecto. Ahí tengo que hacer una
presentación sobre Lavinia.En este marco, Hugo me pasó el capítulo de
un libro, voy a mirarlo, porque probablemente por ahí venga el tema a
resolver, seguramente ligado al proyecto Microbio. [27/11/2007] No he podido avanzar demasiado en el tema herramientas porque no he tenido tiempo. En cambio, pude leer bastante sobre CRFs, lo que pienso utilizar para probar para hacer relational learning. Gabriela Romero me pasó un corpus sobre evidencia experimental que me puede venir muy bien para mis pruebas de extracción El viernes próximo hay una reunión previa al lanzamiento del proyecto Microbio con la gente del Pasteur, y me reúno por la tarde con mis tutores. [13/11/2007] He estado leyendo bastante sobre plataformas y machine learning. Por ahora estoy tratando de definir el ambiente dedesarrollo, y la cosa estaría orientada hacia: - python como lenguaje de desarrollo - nltk como biblioteca de pln - weka y mallet como bibliotecas de machine learning (utilizando jython para hacer el link entre python y java). Estuve trabajando en un "manual de instalación". Me propongo resolver esto en un mes. Luego definiré el corpus sobre el que pienso trabajar. Respecto al enfoque de la tesis, estoy pensando más en concentrarme en la extracción de la información (podría ser de evidencia experimental), que en el trabajo con ontologías, que parece interesarme menos. [30/10/2007] [http://www.fing.edu.uy/~gmonce/doctorado/doctorado.html] [http://www.modyco.fr/?labmemberinfo=moncecchi] a) los diferentes formatos para representación de texto y resultados de análisis b) las diferentes estrategias para encadenar componentes c) las diferentes formas de visualizar los resultados del análisis. Eso en principio. [04/10/2007] [24/09/2007] Estoy terminando de hacer un par de documentos. Uno es de artículos relevantes, y otro de [21/09/2007] [19/09/2007] biblio.bib - Entradas bibtex de los artículos que leo o que pueden ser interesantes /papers - Directorio con los papers en biblio.bib El nombre del archivo es la referencia bibtex papers.tex - Entradas para observaciones de los artículos leídos (podría ser un latex, no?). Bien.
Se va organizando. Encontré varias cosas. Decido pasar todo a un
documento latex, con secciones, para armar bien el esquema de estudio.
Armé el documento en latex. Uno de artículos y otro de cdonferencias y
eso. Hay mucha cosa, sigo leyendo. [18/09/2007] [17/09/2007] - Como primer paso, buscaremos identificar: 1) Bibliografía más relevante 2) Equipos de trabajo más importante -
Contactos: Natalia Gribar, del LIPO, está trabajando sobre el tema
bioinformatics. Jean-Luc va a intentar tener una reunión con ella
Martín Graña, está haciendo un doctorado. Javier va a intentar fijar
reunión con el para ver cómo podría incorporarse mi tesis a MICROBIO
Hugo Naya, trabaja en el pasteur, y es el representante del Pasteur en
Microbio Institut Nacional de la santé et de la recherche médicale
[INSERM]. Es el principal centro de investigación francés en
biomedicina. - de alguna forma, intentaremos incluir en el proyecto MICROBIO mi trabajo, o parte del mismo - la
[12/09/2007] - Un resumen del estado del arte en la identificación de genes y proteínas en textos biomédicos (un área donde hay trabajo realizado). - Estudio de procesos y experimentos, cómo aparecen en textos, con ejemplos concretos que muestren la dificultad del problema. -
Una justificación del interés del trabajo - Antecedentes en el área,
ontologías existentes. - Posibles aproximaciones al tema (métodos
estadísticos, pistas morfológicas, etc). Estoy haciendo una guía de lectura, que va a ser un latex. Ahora estoy en eso. |
