gmonce_doc

log



[30/10/2009]
Estoy más que nada trabajando en preparar una charla sobre clasificación de
relaciones utilizando métodos basados en kernels (voted perceptron, svm). Me
ha llevado más tiempo de lo previsto, porque he intentado atacar cada punto
en detalle, y he comenzado ya a avanzar en programar algunos algoritmos para
clasificar. Supongo que tengo para algunas semanas más de trabajo en eso. El
resultado sería una charla (que fácilmente podría extenderse a un curso
corto, tal vez para el año que viene), sobre: a) clasificadores lineales b)
kernels c) aplicación a problemas den procesamiento de lenguaje natural, en
particular a la clasificación de relaciones d) aplicación a un corpus
específico de biología molecular (bioinfer).

El grupo de proyecto de grado que está estudiando el tema de la extracción
de relaciones conmigo no ha avanzado demasiado en implementación, pero
tienen algunas buenas ideas, de ahí puede surgir algo.

Con respecto a la anotación del corpus miRNA, no he avanzado nada. Por un
lado, me he concentrado en el tema anterior, por otro, aún no he recibido de
Florence la ontología miRNA definitiva, que sería la utilizada para
anotar.... esa parte del tema, la verdad es que no me está entusiasmando
demasiado, prefiero trabajar en la parte de clasificación y visualización.

[21/09/2009]

Finalmente, el artículo sobre extracción de relaciones lo mandé al STIL 2009, pero no fue aceptado. Estoy pensando en publicarlo como reporte técnico del InCo.

Estuve en el ESSLLI 2009, en Bordeaux. Vine con algunas ideas interesantes sobre visualización que me gustaría ampliar. 

Estuve en el STIL 2009, presentando un artículo sobre Lavinia. 

Basado en lo visto hasta el momento, presenté un plan de trabajo a Dina y Jean-Luc.

Jean-Luc me sugirió hablar con Delphine y Florence, me he puesto en contacto con ellas para obtener la ontología Microbio y de temporalidad. 

Dina sugirió contratar dos personas para anotar el corpus, le pasé la idea a Álvaro Pena, a quien en principio le pareció razonable. Por otra parte, me propuso dar una charla al grupo sobre extracción de relaciones, la estoy preparando.

El grupo de proyecto de grado de extracción de relaciones está avanzando en probar algunos algoritmos con SVMs y kernels sobre corpus de biología molecular.

Estuve leyendo sobre visualización, y sobre técnicas de inferencia estadística en general.

[10/02/2009]

Voy a intentar publicar un artículo de estado del arte  sobre machine learning y extracción de relaciones en el BSB (Brazilian Symposium on Bioinformatics) 2009. El deadline es el 20 de marzo. Dina aprobó el plan para los siguientes meses, y me sugirió estudiar el tema de una ontología para extracción de evidencia experimental, basada en lo que hizo Gabriela Romero en su proyecto de grado. 

Voy a proponer dos proyectos de grado, uno para probar extracción de relaciones con ML, y otro para construir ontologías y un ambiente de anotación para la gente del Pasteur, en los temas miRNA's y evidencia experimental. Diego Garat cotutelaría ambos, y en el segundo, además, participaría gente del Pasteur.

Compré el libro de Shawne Taylor y Cristianni sobre SVMs.

[23/12/2008]

Respecto a lo ya hecho

  • cumplí con el curso de Brian Roark (estuvo muy bueno), y estuve hablando con el propio Brian sobre mis ideas para el doctorado, me sugirió ver el tema Semantic Role Labeling, que considera que es similar a lo  que estoy haciendo.
  • no terminé el curso de métodos de monte carlo, y, a esta altura, con el cronograma que tengo por delante, lo veo difícil (me queda solamente hacer un trabajo para ganar los créditos). Tal vez en febrero.
  • terminé con el curso de Machine Learning, me sirvió bastante para fijar conocimientos. Estoy leyendo más material al respecto (Bishop, algunos cursos sobre log-linear models, etc).
Seguí trabajando según el cronograma. A esta altura, ya he tomado algunas decisiones, y la idea es empezar a trabajar en aplicar algunas de las ideas en un corpus:
  • Pienso utilizar como corpus Bioinfer (http://mars.cs.utu.fi/BioInfer/) y eventualmente Genia Event (http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/home/wiki.cgi?page=Event+Annotation), aunque me gusta más el primero, porque tiene interfaces en Python, así que voy a empezar probando por ahí.
  • Respecto a la tarea, me voy a concentrar en reconocer relaciones (eventos, en la terminología de Genia). Esto es, voy a tomar como dato las entidades con nombre. Sobre eso, pienso aplicar diferentes técnicas de aprendizaje automático (kernels, otras), según lo que se viene haciendo hasta al momento.
  • Jean-Luc me sugirió incorporar en ese tema el análisis de modalidad, según el trabajo que han hecho Delphine Battistelli, por ejemplo.
  • Posteriormente, la idea es incorporar ese conocimiento al corpus que se está construyendo (Alvaro Pena) sobre miRNAs, para poder probar las técnicas, reentrenando en el nuevo corpus.
Tuve reuniones con Dina y Jean-Luc para planificar el trabajo a futuro (donde más o menos se acordó lo mencionado antes). Jean-Luc me sugirió hacer un plan de trabajo con los temas. Pienso hacerlo en enero.
Dina me sugirió hacer un estado del arte con lo visto hasta el momento (como para intentar resumir lo aprendido, y fijarlo), y Jean-Luc consideraba que podía hacer un artículo con eso. Son también los siguientes pasos.

Jean-Luc me sugirió ir pensando en escribir un capítulo para la tesis, con las aproximaciones en Machine Learning.

Le pedí ideas a Jean-Luc sobre la estructura para la tesis, una propuesta fue:

  • Una parte de conceptualización
  • Una parte de estado del árte (métodos, equipos trabajando)
  • Un aporte, ya fuera operacional o metodológico (en este sentido, me sugirió ir tomando una decisión sobre una aproximación preferida).
Me sugirió la tesis de Florence Amardeith como orientación.

Nos pusimos en contacto con Rodrigo Goulart, que trabaja con Vera, y que piensa hacer cosas sobre extracción de relaciones.

Justamente cuando había definido lo anterior, surgió este evento de extracción de Eventos en el BioNLP'09 (http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/SharedTask), que es exactamente lo que quiero hacer, así que lo voy a seguir de cerca, incluyendo el material que liberen.

El plan de trabajo, en base a lo fijado, sería el siguiente:

  • Enero/Febrero 2009 - Elaborar un estado del arte en lo que he leído sobre extracción de relaciones en el dominio de la biología molecular (aproximaciones, herramientas, etc).
  • Marzo 2009 - Estudiar el capítulo de Delphine en el libro sobre filtrado semántico, para ver cómo incorporar el tema de la modalidad. Leer la tesis
  • Marzo 2009 -   Estudiar el corpus Bioinfer y el corpus Genia. Armar un ambiente donde se pueda fácilmente visualizar la información de ambos.
  • Abril/Junio 2009 -   Implementar algunas técnicas sencillas de aprendizaje automático de relaciones sobre los corpus antes mencionados, e implementar mecanismos para evaluación
  • Julio 2009 - Hacer un artículo con las pruebas realizadas, con estudio comparativo. Intentar escribir el capítulo sobre machine learning para la tesis, y ver si corresponde incorporar a la tesis el trabajo sobre las pruebas realizadas
Jean-Luc me sugirió ir a Paris este año, voy a ver si puedo. También me comentó que Vera ofreció financiación si quiero ir a Porto Alegre.

Tengo intenciones, en el segundo semestre, de hacer el curso de pattern recognition, veremos cómo se adecúa al cronograma en ese momento.

[25/09/2008]

Seguimos definiendo con Álvaro y Hugo Naya la anotación del corpus. Álvaro va a trabajar con Jean-Luc e Inés Jilani en Paris en octubre, la idea es definir una ontología para anotar interacción entre mRNAs y genes para luego anotar un corpus, con el objetivo de definir reglas de relación. El martes próximo me va a hacer una presentación básica del tema mRNA.

Mientras tanto, ya decidí trabajar sobre UIMA y bioNLP, estoy construyendo un ambiente sobre eso, la idea es trabajar todo en ese entorno. 

Tengo para leer algunas cosas de extracción de relaciones en el domio biomédico.

Sigo sin terminar el trabajo de Métodos de Monte Carlo, estoy esperando a reunirme con Héctor porque estoy un poco trancado

[12/09/2008]

Con gente del Pasteur (Álvaro Pena) vamos a intentar armar un corpus anotado con asociación entre mRNA y genes, con la idea de trabajar sobre él. Estuvimos viendo herramientas para anotar, vamos a intentar con Protegé y un plugin que se llama Knowtator.

Estoy leyendo artículos sobre extracción de relaciones en el dominio biomédico.

[06/07/2008]

Tuve reunión con Dina, previo a presentar el plan de trabajo y el informe de actividades para el primer año. La idea es entrar cuanto antes en el dominio (hasta ahora he estado leyendo mucho, pero todavía no empecé a armar el corpus y demás), para ver qué me encuentro. Dina sugirió como comienzo el artículo de I.Jilani sobre anotación funcional de genes a partir de la literatura, sobre todo para ver qué corpus utilizó.

Otra posiblidad que me gustaría explorar es el corpus de las Biocreative 2004, sobre todo por sus tasks de protein-protein interaction.

Inés Jilani viene en noviembre, la idea es que trabaje con ella para adaptar sus herramientas a UIMA, y de paso ver sus enfoques para reconocer relaciones.

Quedamos con Dina en volver a reunirnos a comienzos de Agosto, porque Julio voy a dedicarlo a armar un artículo para el curso de Métodos de Monte Carlo (es lo que me queda para aprobarlo), y para terminar de prepara el curso de Métodos de Aprendizaje Automático.

[20/05/2008]

Hoja de ruta



 

[08/05/2008]

En este período, estuve principalmente dedicado a tres actividades:

  • Escribir el capítulo sobre filtrado semántico (ya se lo envié a Jean-Luc y a Javier, quienes lo están traduciendo y agregando y modificando cosas). Jean-Luc me sugirió que podría ser un capítulo de la tesis.
  • Tomando el curso Métodos de Monte-Carlo. El curso me ha resultado muy interesante, sobre todo porque está muy relacionado con la estadística y la teoría de probabilidades, disciplinas que probablemente utilice intensivamente en el doctorado. Adicionalmente, estuve aprendiendo python, que es el lenguaje de programación que pienso utilizar para las implementaciones (me resulta _mucho_ mejor que Java, para el tipo de cosas que quiero hacer).
  • Estudiando fundamentos de Machine Learning. Esto me ha llevado bastante más tiempo de lo que pensaba en principio, pero creo que es totalmente necesario para la etapa siguiente. Primero leí los libros "Data Mining" (el de weka) y el libro Machine Learning (de Tom Mitchell), y ahora estoy con el libro "Pattern Recognition and Machine Learning" de Bishop", en particular me interesa por su enfoque riguroso en lo estadístico, y porque habla de los Graphical Models, algo que se usa bastante ahora (los Conditional Random Fields son un caso), y que no es muy fácil de entender si no se parte del conocimiento base. En cuanto tenga tiempo, voy a publicar comentarios de cada uno de los capítulos relevantes de los libros (con el de weka ya lo hice).

Con Diego Garat y Raúl Garreta vamos a volver a dictar el curso de Aprendizaje Automático en el segundo semestre, a distancia. 

Pienso tomar en diciembre el curso que va a dictar Brian Roark en el InCo. 

El proyecto de grado que propuse no se concretó, no hubo alumnos interesados. 

Confirmé mi inclusión en el proyecto Microbio, tuvimos una reunión con Javier, Juanjo y la gente del Instituto Pasteur que podría ayudarme a definir más precisamente a qué problema va a apuntar mi tesis. Nos hablaron de otro proyecto en el que están, y que podría estar relacionado, voy a hablar con Lorena Etcheverry para  obtener detalles.

No parece factible (por motivos laborales y familiares) que pueda ir a París en el próximo semestre (de todos modos, no hay previsto viaje por Ecos). Voy a intentar concentrarme en ese período en:

  •  Fijar los fundamentos de machine learning
  • Estudiar técnicas de extracción de relaciones
  • Definir un ambiente para desarrollar las soluciones 
  • Fijar el problema a resolver.

Para fin de año  espero tener esto concretado, para el año próximo dedicarme a resolver el problema que se plantee.

[11/03/2008]

Me inscribí para el curso de Métodos de Monte Carlo. 

Para fin de marzo espero tener escrito el capítulo sobre filtrado semántico.

Luego voy a ver cómo seguir, si por el lado del estudio del problema, o por la búsqueda de la plataforma para trabajar, o los mecanismos para aprendizaje.

[06/03/2008]

Informe sobre Microbio y mi doctorado, enviado a Dina y Jean-Luc:

Por lo que se estuvo definiendo en el primer meeting del proyecto Microbio, algunas decisiones pueden ser de mucha utilidad para mi doctorado, e inversamente, el doctorado puede aportar a microbio.

Por ejemplo, respecto al dominio del problema, se va a centrar en identificar relaciones sobre textos en el dominio de la biología molecular, con el objetivo de mejorar ontologías existentes. Si bien hay una primer etapa de estudio, todo parece indicar que se va a utilizar el corpus GENIA, en particular la anotación de eventos, y la GENIA ontology, basada en la GO ontology, como ontologías a poblar/mejorar.

Dentro de esto, creo que mi trabajo en el doctorado podría apuntar a identificar relaciones (aquellas presentes en el corpus GENIA), por medio de técnicas de aprendizaje automático. Creo que el reconocimiento de entidades con nombre podría tomarlo como dato (fue lo que se hizo en Microbio), y concentrarme en identificar las relaciones. Hasta ahora, las técnicas de machine learning que he estudiado apuntaban más a NER (utilizando generalmente relational learning), tendría que apuntar más al reconocimiento de relaciones.

Desde el punto de vista de la planificación, seguiría más o menos como hasta ahora, pretendo leer y comenzar a probar sistemas para machine learning, y aplicarlos a esto. En marzo voy a estar prácticamente todo el tiempo dedicado al capítulo del libro de Filtrado semántico, pero después comienzo las técnicas de ML aplicadas al problema.

Quiero proponer un proyecto de grado que modifique Lavinia para representar relaciones entre términos, como los que se necesitaría para esto (pero buscando una solución general, como para poder visualizar anáforas, por ejemplo), además de estudiar e implementar algún módulo que haga NER, sobre herramientas como ABNER o BANNER.

[02/03/2008]

El artículo sobre Lavinia fue presentado el 11 de febrero, por supuesto todavía no sabemos si fue aceptado. Hice la presentación en el kickoff de Microbio, presenté Lavinia (en la página de documentos hay un link a la presentación) y las posibles ventajas de usar UIMA/Lavinia como plataforma para el proyecto. 

En el mismo encuentro de Microbio, se estuvieron definiendo los temas para el proyecto. Tengo que enviar un informe a Dina y J-L sobre cómo considero que afecta a mi doctorado (en lo que tiene que ver con definición de corpus, ajuste de tareas a realizar, etc). 

Tenía pensado preparar el artículo sobre plataformas de software para mediados de febrero, pero no he podido. Estuve leyendo bastnate, voy a terminar de leer y para fin de marzo espero tener la primer versión del artículo, para enviarle a Javier y J-L.. Este es el siguiente paso en lo inmediato.

Voy a presentar un proyecto de grado que  pretende, por un lado, ver el estado del arte en NER y reconocimiento de relaciones en el dominio biológico, y por el otro agregar una representación en Lavinia de relaciones entre etiquetas, hoy no la tiene. 

[26/12/2007]

Planificación para los próximos meses:

  • Enero - del 1 al 15: preparar un artículo para el SPECIAL ISSUE OF « TRAITEMENT AUTOMATIQUE DES LANGUES » (TAL) JOURNAL, sobre Lavinia (coordinar con Diego y Cecilia).
  • Enero - Mediados de febrero: Leer una serie de artículos que seleccioné sobre plataformas de software, y hacer el artículo para el libro de filtrado semántico
  • Febrero 15/26 - Preparar la presentación de Lavinia para el lanzamiento de Microbio en Córdoba
  • Marzo - Junio: preparar artículo y presentación sobre modelos de relational learning en general: HMM, Modelos de entropía máxima, modelos discriminativos versus modelos generativos, etc.
  • Marzo - Junio: estudiar el dominio (arrancando por búsqueda de relaciones en el dominio de la biología) . Ver el corpus sobre el que trabajar. Definir bien el problema a resolver

[07/12/2007]

Tuvimos reunión con Dina y Jean-Luc. Conté un poco lo que había estado estudiando de métodos de relational learning. Quedamos en que, para junio del 2008, intentaré tener más definido exactamente cuál será el problema a resolver y qué métodos de relational learning utilizar (enfocados principalmente a la extracción de entidades con nombre y también de relaciones entre las entidades), viendo cuáles son más aplicables, y si hay herramientas informáticas que hagan viable su utilización. Dina me sugirió intentar armar una pequeña serie de charlas donde muestre lo estudiado, como para transmitirlo y tener bases para discutir.

Planifiqué una ida a Paris para el segundo semestre (setiembre u octubre). Si puedo.

Fui a las charlas que dio Carbonell, en particular al taller de machine learning. Muy interesante. Dina, me pasó luego unos links a gente que trabaja en extracción de información en CM. Los revisaré.

Por ahora, los métodos que estoy estudiando son los MEMM (Maximum Entropy Markov Models), para luego pasar a los Conditional Random Fields.

De herramientas sigo haciendo poco, y es probable que en los próximos dos meses tampoco pueda hacer mucho.

Estuve en una reunión de pre-lanzamiento del proyecto Microbio, con Jean-Luc, Juanjo, Hugo Naya y Martín Graña (del Pasteur), luego tuvimos una reunión en el Pasteur, donde nos estuvieron mostrando situaciones donde el investigador se enfrenta a las grandes bases de datos biológicas, y los posibles problemas a resolver. Se planificó además el encuentro de Febrero de lanzamiento del proyecto. Ahí tengo que hacer una presentación sobre Lavinia.En este marco, Hugo me pasó el capítulo de un libro, voy a mirarlo, porque probablemente por ahí venga el tema a resolver, seguramente ligado al proyecto Microbio.

[27/11/2007]

No he podido avanzar demasiado en el tema herramientas porque no he tenido tiempo. En cambio, pude leer bastante sobre CRFs, lo que pienso utilizar para probar para hacer relational learning. Gabriela Romero me pasó un corpus sobre evidencia experimental que me puede venir muy bien para mis pruebas de extracción

El viernes próximo hay una reunión previa al lanzamiento del proyecto Microbio con la gente del Pasteur, y me reúno por la tarde con mis tutores. 

[13/11/2007]

He estado leyendo bastante sobre plataformas y machine learning. Por ahora estoy tratando de definir el ambiente dedesarrollo, y la cosa estaría orientada hacia:

- python como lenguaje de desarrollo

- nltk como biblioteca de pln

- weka y mallet como bibliotecas de machine learning (utilizando jython para hacer el link entre python y java).

Estuve trabajando en un "manual de instalación". Me propongo resolver esto en un mes. Luego definiré el corpus sobre el que pienso trabajar. Respecto al enfoque de la tesis, estoy pensando más en concentrarme en la extracción de la información (podría ser de evidencia experimental), que en el trabajo con ontologías, que parece interesarme menos.

[30/10/2007]

Desde que regresé de Paris, he estado leyendo artículos sobre extracción de información en dominio biomédico (artículos de Inés Jilani que me pasaron en Paris VI y un trabajo de Natalia Grabar sobre la Gene Ontology. También he estado leyendo fundamentos sobre modelos estadísticos para procesamiento de lenguaje natural (HMM, modelos de entropía máxima, etc), la mayoría de ellos a partir del libro de Jurafsky, y del libro "Data Mining" de la herramienta Weka, así como algunos papers bastante nuevos sobre Conditional Random Fields o MEMMs. También logré instalar la plataforma Alvin (que me había recomendado Thierry Hamon), pero aun no he podido probarla (está instalado en barradas, en la facultad). Quiero asimismo armar un ambiente de desarrollo con Weka (lo instalé en cosita y en mi notebook), para dejarlo pronto.

Puse arriba el sitio web del doctorado, para tratar de tener absolutamente todo en línea.

[http://www.fing.edu.uy/~gmonce/doctorado/doctorado.html]

También está el sitio de modyco pronto.

[http://www.modyco.fr/?labmemberinfo=moncecchi]

Respecto al libro, estuve leyendo el estado del arte del proyecto de Cecilia Techera, donde había un resumen de
herramientas. También quiero instalar NLTK (de la Universidad de Manitoba), un software en phyton para NLP que parece muy interesante, y fácil de usar. La idea del capítulo va a ser trabajar sobre

a) los diferentes formatos para representación de texto y resultados de análisis

b) las diferentes estrategias para encadenar componentes

c) las diferentes formas de visualizar los resultados del análisis. Eso en principio.

Me dijo Dina que la gente de los proyectos de grado de Identificación de relaciones causales y de entidades con nombre estaba en una etapa de prototipado. Me voy a poner en contacto con ellos para ver lo que han hecho, y si piensan integrar estrategias de análisis estadístico.

[04/10/2007]

Quedó pronto el plan. Ya entregué la inscripción. Estoy leyendo una introducción a la anotación funcional de genes con la Gene Ontology, de natalia Grabar, con quien vamos a tener una reunión el viernes próximo (antes de irme). Voy a instalar weka, para generar un ambiente de trabajo en java, como para basarme.

[24/09/2007]

Estuve reunido con Minel y javier. Voy a terminar los temas de la inscripción. Tengo que hacer una carta de motivación y un plan de trabajo de 4-5 páginas para la inscripción. Mienl me pasó unos vínculos, y me va a pasar el correo de un francés de Paris VI que trabaja en los temas de aprendizaje automático. La idea es usar weka. También hablamos de integrar al proyecto Microbio el trabajo, por lo que probablemente tenga que contactarme con Laura Alonso. Quedamos de reunirnos el próximo viernes para ver el plan de trabajo. En ese plan van a aparecer decisiones tales como si voy a dedicarme a desarrollar una plataforma, o voy a trabajar sobre weka directamente. También quiere que para marzo esté definido el corpus y qué voy a hacer.

Al margen, me propuso escribir un capítulo de un libro sobre filtrado semántico, sobre plataformas de desarrollo. En particular GATE, una de la universidad de Manitoba, UIMA y LinguaStream, para finalizar intentando extraer qué debe tener una plataforma para filtrado semántico.

[24/09/2007]

Estoy terminando de hacer un par de documentos. Uno es de artículos relevantes, y otro de
conferencias, grupos y workshops. Ahora estoy viendo unos documentos que mandó Helene sobre taggers y parsers para el dominio, y veo si allí aparece algún grupo nuevo de investigación. Mañana tengo reunión con Minel.

[21/09/2007]

Estoy ajustando los temas administrativos. Hice tesis en inglés, tengo que imprimirla. Ahora voy a intentar escribir un resumen para presentar en el fichero de tesis. Tengo algunos temas que me quedan por entrar: el tema de las ontologías. Ayer me puse en contacto con Lorena Etcheverry, me dijo que tenía documentos interesantes que le habían pasado, conoce el tema que quiero resolver y lo considera relevante.

[19/09/2007]

Decido hacer un esquema de documentos donde meter los apuntes.

log.txt - Este log. Se registran los avances, el camino recorrido.

biblio.bib - Entradas bibtex de los artículos que leo o que pueden ser interesantes

/papers - Directorio con los papers en biblio.bib El nombre del archivo es la referencia bibtex

papers.tex - Entradas para observaciones de los artículos leídos (podría ser un latex, no?).

Bien. Se va organizando. Encontré varias cosas. Decido pasar todo a un documento latex, con secciones, para armar bien el esquema de estudio. Armé el documento en latex. Uno de artículos y otro de cdonferencias y eso. Hay mucha cosa, sigo leyendo.

[18/09/2007]

Empiezo por identificar grupos de trabajo. Voy a apuntar principalmente a bioinformática + pln, en particular extracción de información. Como el tema de la bioinformática es muy amplio, intento concentrarme en el procesamiento de lenguaje natural aplicado a la bioinformática. En particular, a la extracción de información, que sería el principal motivo de la tesis. Estuve revisando una lista de papers y seleccionando cosas. También buscando conferencias.

[17/09/2007]

Tuve una reunión con Jean-Luc en Paris X. Quedamos en lo siguiente

- Desde el punto de vista administrativo, ir cuanto antes a presentar los papeles para inscribirme. Estoy lo voy a revisar con Javier.

- Como plan de trabajo para la estadía, la idea es elaborar un documento con lo siguiente:

- Estudiar el área en general, buscando la bibliografía y los proyectos más relevantes, intentando ver lo que se ha hecho y hasta dónde se ha llegado, para luego intentar definir dónde encajaría mi trabajo, al menos al comienzo del trabajo. Intentar obtener una primera aproximación a lo que se podría hacer en un trabajo de doctorado de tres años, que no se haya hecho antes.

- Como primer paso, buscaremos identificar: 1) Bibliografía más relevante 2) Equipos de trabajo más importante
3) Principales conferencias, reuniones, coloquios sobre el tema

- Contactos: Natalia Gribar, del LIPO, está trabajando sobre el tema bioinformatics. Jean-Luc va a intentar tener una reunión con ella Martín Graña, está haciendo un doctorado. Javier va a intentar fijar reunión con el para ver cómo podría incorporarse mi tesis a MICROBIO Hugo Naya, trabaja en el pasteur, y es el representante del Pasteur en Microbio Institut Nacional de la santé et de la recherche médicale [INSERM]. Es el principal centro de investigación francés en biomedicina.

Fijamos reunión para el martes 25. La idea es llegar ahí con una idea del área, principal biblio, idea para trabajar, etc.

Otras: - si necesito utilizar la BNF (Bibliothèque nationale de France) tengo que pedir a Jean-Luc un papel que diga que soy investigador, etc.

- de alguna forma, intentaremos incluir en el proyecto MICROBIO mi trabajo, o parte del mismo - la
semana que viene Minel me da el cheque de la financiación ECOS.


[12/09/2007]

Tuve reunión con Dina para ver el viaje. Este es el correo resumen de la idea para trabajar en parís.

Hola: les mando un resumen de lo que sería la idea inicial para la tesis, según lo que hablamos con Dina en la última reunión. La idea sería trabajar en París sobre esta idea, para lograr elaborar un primer documento que presentaría en el momento de la inscripción en Paris X.

Título tentativo de la tesis: Extracción de Entidades con Nombre en Biomedicina

En el campo de la biomedicina, existen varias herramientas y recursos para la identificación de genes y proteínas (taggers especializados, corpus etiquetados como el corpus GENIA...), en textos biomédicos. Sería interesante considerar también otros elementos, tales como nombres de procesos o de experimentos. Esta tarea estaría a mitad de camino entre lo que sería la extracción de entidades con nombre (donde se intenta clasificar elementos en categorías predefinidas) y la identificación de terminología general dentro de un lenguaje especializado. Para esto podrían utilizarse diccionaios especializados o pistas morfológicas. Sin embargo, parece además ser pertinente contar con una conceptualización (como, por ejemplo, una ontología) predefinida, que facilite la tarea de clasificación.

El trabajo apuntaría a definir los métdos para construir esta conceptualización, y su aplicación al problema de la
extracción de información sobre procesos o experimentos, instanciándolo en uno o más procesos concretos (como la búsqueda de evidencia experimental.

El documento a presentar consistitiría en:

- Una descripción del área biomédica que enmarcará el trabajo

- Un resumen del estado del arte en la identificación de genes y proteínas en textos biomédicos (un área donde hay trabajo realizado). - Estudio de procesos y experimentos, cómo aparecen en textos, con ejemplos concretos que muestren la dificultad del problema.

- Una justificación del interés del trabajo - Antecedentes en el área, ontologías existentes. - Posibles aproximaciones al tema (métodos estadísticos, pistas morfológicas, etc).

[30/08/2007]

Retomo el tema. En el intervalo pude solamente leer un poco del libro "Begging perl for bioinformatics", que está más pensado para enseñar a biólogos, pero que da una idea computacional del tema. Por otra parte, me reunión con estudiantes de proyecto de grado que están en el tema y me pasaron algunos links. Ahora estoy revisando la wikipedia para ver los fundamentos biológicos del tema.

[03/08/2007]

El 1/8 tuve reunión con Dina. El objetivo es presentar un trabajo de 5-6 páginas en lo que sería el resumen de la teiss. La primera aproximación es hacer extracción de nombres de documentos de bio*, y también relaciones. Después habrá que ajustar más. Como no tengo mucha idea del tema, Dina me pasó un libro que parece es una buena introducción a la informática.

Además, me voy a poner en contacto con los estudiantes de los proyectos de grado de Dina, para apoyarlos y meterme en tema. Ya me mandaron documentación la que he empezado a leer. Vamos a reunirnos para definir un tagger a utilizar

Dina me pasó un par de softwares para probar, uno de ellos es Genia, y el otro el parser de Charniak. Ayer estuve mirando un poco, pero sin entrar en detalle.

Estoy haciendo una guía de lectura, que va a ser un latex. Ahora estoy en eso.