Estoy más que nada trabajando en preparar una charla sobre clasificación de
relaciones utilizando métodos basados en kernels (voted perceptron, svm). Me
ha llevado más tiempo de lo previsto, porque he intentado atacar cada punto
en detalle, y he comenzado ya a avanzar en programar algunos algoritmos para
clasificar. Supongo que tengo para algunas semanas más de trabajo en eso. El
resultado sería una charla (que fácilmente podría extenderse a un curso
corto, tal vez para el año que viene), sobre: a) clasificadores lineales b)
kernels c) aplicación a problemas den procesamiento de lenguaje natural, en
particular a la clasificación de relaciones d) aplicación a un corpus
específico de biología molecular (bioinfer).
El grupo de proyecto de grado que está estudiando el tema de la extracción
de relaciones conmigo no ha avanzado demasiado en implementación, pero
tienen algunas buenas ideas, de ahí puede surgir algo.
Con respecto a la anotación del corpus miRNA, no he avanzado nada. Por un
lado, me he concentrado en el tema anterior, por otro, aún no he recibido de
Florence la ontología miRNA definitiva, que sería la utilizada para
anotar.... esa parte del tema, la verdad es que no me está entusiasmando
demasiado, prefiero trabajar en la parte de clasificación y visualización.
[21/09/2009]
Finalmente, el artículo sobre extracción de relaciones lo mandé al STIL 2009, pero no fue aceptado. Estoy pensando en publicarlo como reporte técnico del InCo.
Estuve en el ESSLLI 2009, en Bordeaux. Vine con algunas ideas interesantes sobre visualización que me gustaría ampliar.
Estuve en el STIL 2009, presentando un artículo sobre Lavinia.
Basado en lo visto hasta el momento, presenté un plan de trabajo a Dina y Jean-Luc.
Jean-Luc me sugirió hablar con Delphine y Florence, me he puesto en contacto con ellas para obtener la ontología Microbio y de temporalidad.
Dina sugirió contratar dos personas para anotar el corpus, le pasé la idea a Álvaro Pena, a quien en principio le pareció razonable. Por otra parte, me propuso dar una charla al grupo sobre extracción de relaciones, la estoy preparando.
El grupo de proyecto de grado de extracción de relaciones está avanzando en probar algunos algoritmos con SVMs y kernels sobre corpus de biología molecular.
Estuve leyendo sobre visualización, y sobre técnicas de inferencia estadística en general.
[10/02/2009]
Voy a intentar publicar un artículo de estado del arte sobre machine learning y extracción de relaciones en el BSB (Brazilian Symposium on Bioinformatics) 2009. El deadline es el 20 de marzo. Dina aprobó el plan para los siguientes meses, y me sugirió estudiar el tema de una ontología para extracción de evidencia experimental, basada en lo que hizo Gabriela Romero en su proyecto de grado.
Voy a proponer dos proyectos de grado, uno para probar extracción de relaciones con ML, y otro para construir ontologías y un ambiente de anotación para la gente del Pasteur, en los temas miRNA's y evidencia experimental. Diego Garat cotutelaría ambos, y en el segundo, además, participaría gente del Pasteur.
Compré el libro de Shawne Taylor y Cristianni sobre SVMs.
[23/12/2008]
Respecto a lo ya hecho
- cumplí con el curso de Brian Roark (estuvo muy bueno), y estuve
hablando con el propio Brian sobre mis ideas para el doctorado, me
sugirió ver el tema Semantic Role Labeling, que considera que es
similar a lo que estoy haciendo.
- no terminé el curso de métodos de monte carlo, y, a esta altura,
con el cronograma que tengo por delante, lo veo difícil (me queda
solamente hacer un trabajo para ganar los créditos). Tal vez en febrero.
- terminé con el curso de Machine Learning, me sirvió bastante para
fijar conocimientos. Estoy leyendo más material al respecto (Bishop,
algunos cursos sobre log-linear models, etc).
Seguí trabajando según el cronograma. A esta altura, ya he tomado algunas decisiones, y la idea es empezar a trabajar en aplicar algunas de las ideas en un corpus:
- Pienso utilizar como corpus Bioinfer (http://mars.cs.utu.fi/BioInfer/) y eventualmente Genia Event (http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/home/wiki.cgi?page=Event+Annotation), aunque me gusta más el primero, porque tiene interfaces en Python, así que voy a empezar probando por ahí.
- Respecto a la tarea, me voy a concentrar en reconocer relaciones (eventos, en la terminología de Genia). Esto es, voy a tomar como dato las entidades con nombre. Sobre eso, pienso aplicar diferentes técnicas de aprendizaje automático (kernels, otras), según lo que se viene haciendo hasta al momento.
- Jean-Luc me sugirió incorporar en ese tema el análisis de modalidad, según el trabajo que han hecho Delphine Battistelli, por ejemplo.
- Posteriormente, la idea es incorporar ese conocimiento al corpus que se está construyendo (Alvaro Pena) sobre miRNAs, para poder probar las técnicas, reentrenando en el nuevo corpus.
Tuve reuniones con Dina y Jean-Luc para planificar el trabajo a futuro (donde más o menos se acordó lo mencionado antes). Jean-Luc me sugirió hacer un plan de trabajo con los temas. Pienso hacerlo en enero.
Dina me sugirió hacer un estado del arte con lo visto hasta el momento (como para intentar resumir lo aprendido, y fijarlo), y Jean-Luc consideraba que podía hacer un artículo con eso. Son también los siguientes pasos.
Jean-Luc me sugirió ir pensando en escribir un capítulo para la tesis, con las aproximaciones en Machine Learning.
Le pedí ideas a Jean-Luc sobre la estructura para la tesis, una propuesta fue:
- Una parte de conceptualización
- Una parte de estado del árte (métodos, equipos trabajando)
- Un aporte, ya fuera operacional o metodológico (en este sentido, me sugirió ir tomando una decisión sobre una aproximación preferida).
Me sugirió la tesis de Florence Amardeith como orientación.
Nos pusimos en contacto con Rodrigo Goulart, que trabaja con Vera, y que piensa hacer cosas sobre extracción de relaciones.
Justamente cuando había definido lo anterior, surgió este evento de extracción de Eventos en el BioNLP'09 (
http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/SharedTask), que es exactamente lo que quiero hacer, así que lo voy a seguir de cerca, incluyendo el material que liberen.
El plan de trabajo, en base a lo fijado, sería el siguiente:
- Enero/Febrero 2009 - Elaborar un estado del arte en lo que he leído sobre extracción de relaciones en el dominio de la biología molecular (aproximaciones, herramientas, etc).
- Marzo 2009 - Estudiar el corpus Bioinfer y el corpus Genia. Armar un ambiente donde se pueda fácilmente visualizar la información de ambos.
- Abril/Junio 2009 - Implementar algunas técnicas sencillas de aprendizaje automático de relaciones sobre los corpus antes mencionados, e implementar mecanismos para evaluación
- Julio 2009 - Hacer un artículo con las pruebas realizadas, con estudio comparativo. Intentar escribir el capítulo sobre machine learning para la tesis, y ver si corresponde incorporar a la tesis el trabajo sobre las pruebas realizadas
Jean-Luc me sugirió ir a Paris este año, voy a ver si puedo. También me comentó que Vera ofreció financiación si quiero ir a Porto Alegre.
Tengo intenciones, en el segundo semestre, de hacer el curso de pattern recognition, veremos cómo se adecúa al cronograma en ese momento.
[25/09/2008]
Seguimos definiendo con Álvaro y Hugo Naya
la anotación del corpus. Álvaro va a trabajar con Jean-Luc e Inés
Jilani en Paris en octubre, la idea es definir una ontología para
anotar interacción entre mRNAs y genes para luego anotar un corpus, con
el objetivo de definir reglas de relación. El martes próximo me va a
hacer una presentación básica del tema mRNA.
Mientras
tanto, ya decidí trabajar sobre UIMA y bioNLP, estoy construyendo un
ambiente sobre eso, la idea es trabajar todo en ese entorno.
Tengo para leer algunas cosas de extracción de relaciones en el domio biomédico.
Sigo sin terminar el trabajo de Métodos de Monte Carlo, estoy esperando a reunirme con Héctor porque estoy un poco trancado
[12/09/2008]
Con
gente del Pasteur (Álvaro Pena) vamos a intentar armar un corpus
anotado con asociación entre mRNA y genes, con la idea de trabajar
sobre él. Estuvimos viendo herramientas para anotar, vamos a intentar
con Protegé y un plugin que se llama Knowtator.
Estoy leyendo artículos sobre extracción de relaciones en el dominio biomédico.
[06/07/2008]
Tuve
reunión con Dina, previo a presentar el plan de trabajo y el informe de
actividades para el primer año. La idea es entrar cuanto antes en el
dominio (hasta ahora he estado leyendo mucho, pero todavía no empecé a
armar el corpus y demás), para ver qué me encuentro. Dina sugirió como
comienzo el artículo de I.Jilani sobre anotación funcional de genes a
partir de la literatura, sobre todo para ver qué corpus utilizó.
Otra
posiblidad que me gustaría explorar es el corpus de las Biocreative
2004, sobre todo por sus tasks de protein-protein interaction.
Inés
Jilani viene en noviembre, la idea es que trabaje con ella para adaptar
sus herramientas a UIMA, y de paso ver sus enfoques para reconocer
relaciones.
Quedamos con Dina en volver a reunirnos a comienzos
de Agosto, porque Julio voy a dedicarlo a armar un artículo para el
curso de Métodos de Monte Carlo (es lo que me queda para aprobarlo), y
para terminar de prepara el curso de Métodos de Aprendizaje Automático.
[20/05/2008]
Hoja de ruta
[08/05/2008]
En este período, estuve principalmente dedicado a tres actividades:
- Escribir
el capítulo sobre filtrado semántico (ya se lo envié a Jean-Luc y a
Javier, quienes lo están traduciendo y agregando y modificando cosas).
Jean-Luc me sugirió que podría ser un capítulo de la tesis.
- Tomando
el curso Métodos de Monte-Carlo. El curso me ha resultado muy
interesante, sobre todo porque está muy relacionado con la estadística
y la teoría de probabilidades, disciplinas que probablemente utilice
intensivamente en el doctorado. Adicionalmente, estuve aprendiendo
python, que es el lenguaje de programación que pienso utilizar para las
implementaciones (me resulta _mucho_ mejor que Java, para el tipo de
cosas que quiero hacer).
- Estudiando fundamentos de Machine
Learning. Esto me ha llevado bastante más tiempo de lo que pensaba en
principio, pero creo que es totalmente necesario para la etapa
siguiente. Primero leí los libros "Data Mining" (el de weka) y el libro
Machine Learning (de Tom Mitchell), y ahora estoy con el libro "Pattern
Recognition and Machine Learning" de Bishop", en particular me interesa
por su enfoque riguroso en lo estadístico, y porque habla de los
Graphical Models, algo que se usa bastante ahora (los Conditional
Random Fields son un caso), y que no es muy fácil de entender si no se
parte del conocimiento base. En cuanto tenga tiempo, voy a publicar
comentarios de cada uno de los capítulos relevantes de los libros (con
el de weka ya lo hice).
Con Diego Garat y Raúl Garreta vamos a volver a dictar el curso de Aprendizaje Automático en el segundo semestre, a distancia.
Pienso tomar en diciembre el curso que va a dictar Brian Roark en el InCo.
El proyecto de grado que propuse no se concretó, no hubo alumnos interesados.
Confirmé
mi inclusión en el proyecto Microbio, tuvimos una reunión con Javier,
Juanjo y la gente del Instituto Pasteur que podría ayudarme a definir
más precisamente a qué problema va a apuntar mi tesis. Nos hablaron de
otro proyecto en el que están, y que podría estar relacionado, voy a
hablar con Lorena Etcheverry para obtener detalles.
No parece
factible (por motivos laborales y familiares) que pueda ir a París en
el próximo semestre (de todos modos, no hay previsto viaje por Ecos).
Voy a intentar concentrarme en ese período en:
- Fijar los fundamentos de machine learning
- Estudiar técnicas de extracción de relaciones
- Definir un ambiente para desarrollar las soluciones
- Fijar el problema a resolver.
Para fin de año espero tener esto concretado, para el año próximo dedicarme a resolver el problema que se plantee.
[11/03/2008]
Me inscribí para el curso de Métodos de Monte Carlo.
Para fin de marzo espero tener escrito el capítulo sobre filtrado semántico.
Luego
voy a ver cómo seguir, si por el lado del estudio del problema, o por
la búsqueda de la plataforma para trabajar, o los mecanismos para
aprendizaje.
[06/03/2008]
Informe sobre Microbio y mi doctorado, enviado a Dina y Jean-Luc:
Por lo que se estuvo definiendo en el primer meeting del proyecto
Microbio, algunas decisiones pueden ser de mucha utilidad para mi
doctorado, e inversamente, el doctorado puede aportar a microbio.
Por
ejemplo, respecto al dominio del problema, se va a centrar en
identificar relaciones sobre textos en el dominio de la biología
molecular, con el objetivo de mejorar ontologías existentes. Si bien
hay una primer etapa de estudio, todo parece indicar que se va a
utilizar el corpus GENIA, en particular la anotación de eventos, y la GENIA ontology, basada en la GO ontology, como ontologías a poblar/mejorar.
Dentro de esto, creo que mi trabajo en el doctorado podría apuntar
a identificar relaciones (aquellas presentes en el corpus GENIA), por
medio de técnicas de aprendizaje automático. Creo que el reconocimiento
de entidades con nombre podría tomarlo como dato (fue lo que se hizo en
Microbio), y concentrarme en identificar las relaciones. Hasta ahora,
las técnicas de machine learning que he estudiado apuntaban más a NER
(utilizando generalmente relational learning), tendría que apuntar más
al reconocimiento de relaciones.
Desde el punto de vista de la planificación, seguiría más o menos
como hasta ahora, pretendo leer y comenzar a probar sistemas para
machine learning, y aplicarlos a esto. En marzo voy a estar
prácticamente todo el tiempo dedicado al capítulo del libro de Filtrado
semántico, pero después comienzo las técnicas de ML aplicadas al
problema.
Quiero proponer un proyecto de grado que modifique Lavinia para
representar relaciones entre términos, como los que se necesitaría para
esto (pero buscando una solución general, como para poder visualizar
anáforas, por ejemplo), además de estudiar e implementar algún módulo
que haga NER, sobre herramientas como ABNER o BANNER.
[02/03/2008]
El
artículo sobre Lavinia fue presentado el 11 de febrero, por supuesto
todavía no sabemos si fue aceptado. Hice la presentación en el kickoff
de Microbio, presenté Lavinia (en la página de documentos hay un link a
la presentación) y las posibles ventajas de usar UIMA/Lavinia como
plataforma para el proyecto.
En el mismo encuentro de Microbio,
se estuvieron definiendo los temas para el proyecto. Tengo que enviar
un informe a Dina y J-L sobre cómo considero que afecta a mi doctorado
(en lo que tiene que ver con definición de corpus, ajuste de tareas a
realizar, etc).
Tenía pensado preparar el artículo sobre
plataformas de software para mediados de febrero, pero no he podido.
Estuve leyendo bastnate, voy a terminar de leer y para fin de marzo
espero tener la primer versión del artículo, para enviarle a Javier y
J-L.. Este es el siguiente paso en lo inmediato.
Voy a presentar
un proyecto de grado que pretende, por un lado, ver el estado del arte
en NER y reconocimiento de relaciones en el dominio biológico, y por el
otro agregar una representación en Lavinia de relaciones entre
etiquetas, hoy no la tiene.
[26/12/2007]
Planificación para los próximos meses:
- Enero
- del 1 al 15: preparar un artículo para el SPECIAL ISSUE OF «
TRAITEMENT AUTOMATIQUE DES LANGUES » (TAL) JOURNAL, sobre Lavinia
(coordinar con Diego y Cecilia).
- Enero - Mediados de febrero:
Leer una serie de artículos que seleccioné sobre plataformas de
software, y hacer el artículo para el libro de filtrado semántico
- Febrero 15/26 - Preparar la presentación de Lavinia para el lanzamiento de Microbio en Córdoba
- Marzo
- Junio: preparar artículo y presentación sobre modelos de relational
learning en general: HMM, Modelos de entropía máxima, modelos
discriminativos versus modelos generativos, etc.
- Marzo - Junio:
estudiar el dominio (arrancando por búsqueda de relaciones en el
dominio de la biología) . Ver el corpus sobre el que trabajar. Definir
bien el problema a resolver
[07/12/2007]
Tuvimos
reunión con Dina y Jean-Luc. Conté un poco lo que había estado
estudiando de métodos de relational learning. Quedamos en que, para
junio del 2008, intentaré tener más definido exactamente cuál será el
problema a resolver y qué métodos de relational learning utilizar
(enfocados principalmente a la extracción de entidades con nombre y
también de relaciones entre las entidades), viendo cuáles son más
aplicables, y si hay herramientas informáticas que hagan viable su
utilización. Dina me sugirió intentar armar una pequeña serie de
charlas donde muestre lo estudiado, como para transmitirlo y tener
bases para discutir.
Planifiqué una ida a Paris para el segundo semestre (setiembre u octubre). Si puedo.
Fui
a las charlas que dio Carbonell, en particular al taller de machine
learning. Muy interesante. Dina, me pasó luego unos links a gente que
trabaja en extracción de información en CM. Los revisaré.
Por
ahora, los métodos que estoy estudiando son los MEMM (Maximum Entropy
Markov Models), para luego pasar a los Conditional Random Fields.
De herramientas sigo haciendo poco, y es probable que en los próximos dos meses tampoco pueda hacer mucho.
Estuve
en una reunión de pre-lanzamiento del proyecto Microbio, con Jean-Luc,
Juanjo, Hugo Naya y Martín Graña (del Pasteur), luego tuvimos una
reunión en el Pasteur, donde nos estuvieron mostrando situaciones donde
el investigador se enfrenta a las grandes bases de datos biológicas, y
los posibles problemas a resolver. Se planificó además el encuentro de
Febrero de lanzamiento del proyecto. Ahí tengo que hacer una
presentación sobre Lavinia.En este marco, Hugo me pasó el capítulo de
un libro, voy a mirarlo, porque probablemente por ahí venga el tema a
resolver, seguramente ligado al proyecto Microbio.
[27/11/2007]
No
he podido avanzar demasiado en el tema herramientas porque no he tenido
tiempo. En cambio, pude leer bastante sobre CRFs, lo que pienso
utilizar para probar para hacer relational learning. Gabriela Romero me
pasó un corpus sobre evidencia experimental que me puede venir muy bien
para mis pruebas de extracción
El viernes próximo hay una reunión
previa al lanzamiento del proyecto Microbio con la gente del Pasteur, y
me reúno por la tarde con mis tutores.
[13/11/2007]
He
estado leyendo bastante sobre plataformas y machine learning. Por ahora
estoy tratando de definir el ambiente dedesarrollo, y la cosa estaría
orientada hacia:
- python como lenguaje de desarrollo
- nltk como biblioteca de pln
- weka y mallet como bibliotecas de machine learning (utilizando jython para hacer el link entre python y java).
Estuve
trabajando en un "manual de instalación". Me propongo resolver esto en
un mes. Luego definiré el corpus sobre el que pienso trabajar. Respecto
al enfoque de la tesis, estoy pensando más en concentrarme en la
extracción de la información (podría ser de evidencia experimental),
que en el trabajo con ontologías, que parece interesarme menos.
[30/10/2007]
Desde
que regresé de Paris, he estado leyendo artículos sobre extracción de
información en dominio biomédico (artículos de Inés Jilani que me
pasaron en Paris VI y un trabajo de Natalia Grabar sobre la Gene
Ontology. También he estado leyendo fundamentos sobre modelos
estadísticos para procesamiento de lenguaje natural (HMM, modelos de
entropía máxima, etc), la mayoría de ellos a partir del libro de
Jurafsky, y del libro "Data Mining" de la herramienta Weka, así como
algunos papers bastante nuevos sobre Conditional Random Fields o MEMMs.
También logré instalar la plataforma Alvin (que me había recomendado
Thierry Hamon), pero aun no he podido probarla (está instalado en
barradas, en la facultad). Quiero asimismo armar un ambiente de
desarrollo con Weka (lo instalé en cosita y en mi notebook), para
dejarlo pronto.
Puse arriba el sitio web del doctorado, para tratar de tener absolutamente todo en línea.
[http://www.fing.edu.uy/~gmonce/doctorado/doctorado.html]
También está el sitio de modyco pronto.
[http://www.modyco.fr/?labmemberinfo=moncecchi]
Respecto al libro, estuve leyendo el estado del arte del proyecto de Cecilia Techera, donde había un resumen de
herramientas.
También quiero instalar NLTK (de la Universidad de Manitoba), un
software en phyton para NLP que parece muy interesante, y fácil de
usar. La idea del capítulo va a ser trabajar sobre
a) los diferentes formatos para representación de texto y resultados de análisis
b) las diferentes estrategias para encadenar componentes
c) las diferentes formas de visualizar los resultados del análisis. Eso en principio.
Me
dijo Dina que la gente de los proyectos de grado de Identificación de
relaciones causales y de entidades con nombre estaba en una etapa de
prototipado. Me voy a poner en contacto con ellos para ver lo que han
hecho, y si piensan integrar estrategias de análisis estadístico.
[04/10/2007]
Quedó
pronto el plan. Ya entregué la inscripción. Estoy leyendo una
introducción a la anotación funcional de genes con la Gene Ontology, de
natalia Grabar, con quien vamos a tener una reunión el viernes próximo
(antes de irme). Voy a instalar weka, para generar un ambiente de
trabajo en java, como para basarme.
[24/09/2007]
Estuve
reunido con Minel y javier. Voy a terminar los temas de la inscripción.
Tengo que hacer una carta de motivación y un plan de trabajo de 4-5
páginas para la inscripción. Mienl me pasó unos vínculos, y me va a
pasar el correo de un francés de Paris VI que trabaja en los temas de
aprendizaje automático. La idea es usar weka. También hablamos de
integrar al proyecto Microbio el trabajo, por lo que probablemente
tenga que contactarme con Laura Alonso. Quedamos de reunirnos el
próximo viernes para ver el plan de trabajo. En ese plan van a aparecer
decisiones tales como si voy a dedicarme a desarrollar una plataforma,
o voy a trabajar sobre weka directamente. También quiere que para marzo
esté definido el corpus y qué voy a hacer.
Al margen, me propuso
escribir un capítulo de un libro sobre filtrado semántico, sobre
plataformas de desarrollo. En particular GATE, una de la universidad de
Manitoba, UIMA y LinguaStream, para finalizar intentando extraer qué
debe tener una plataforma para filtrado semántico.
[24/09/2007]
Estoy terminando de hacer un par de documentos. Uno es de artículos relevantes, y otro de
conferencias,
grupos y workshops. Ahora estoy viendo unos documentos que mandó Helene
sobre taggers y parsers para el dominio, y veo si allí aparece algún
grupo nuevo de investigación. Mañana tengo reunión con Minel.
[21/09/2007]
Estoy
ajustando los temas administrativos. Hice tesis en inglés, tengo que
imprimirla. Ahora voy a intentar escribir un resumen para presentar en
el fichero de tesis. Tengo algunos temas que me quedan por entrar: el
tema de las ontologías. Ayer me puse en contacto con Lorena Etcheverry,
me dijo que tenía documentos interesantes que le habían pasado, conoce
el tema que quiero resolver y lo considera relevante.
[19/09/2007]
Decido hacer un esquema de documentos donde meter los apuntes.
log.txt - Este log. Se registran los avances, el camino recorrido.
biblio.bib - Entradas bibtex de los artículos que leo o que pueden ser interesantes
/papers - Directorio con los papers en biblio.bib El nombre del archivo es la referencia bibtex
papers.tex - Entradas para observaciones de los artículos leídos (podría ser un latex, no?).
Bien.
Se va organizando. Encontré varias cosas. Decido pasar todo a un
documento latex, con secciones, para armar bien el esquema de estudio.
Armé el documento en latex. Uno de artículos y otro de cdonferencias y
eso. Hay mucha cosa, sigo leyendo.
[18/09/2007]
Empiezo
por identificar grupos de trabajo. Voy a apuntar principalmente a
bioinformática + pln, en particular extracción de información. Como el
tema de la bioinformática es muy amplio, intento concentrarme en el
procesamiento de lenguaje natural aplicado a la bioinformática. En
particular, a la extracción de información, que sería el principal
motivo de la tesis. Estuve revisando una lista de papers y
seleccionando cosas. También buscando conferencias.
[17/09/2007]
Tuve una reunión con Jean-Luc en Paris X. Quedamos en lo siguiente
-
Desde el punto de vista administrativo, ir cuanto antes a presentar los
papeles para inscribirme. Estoy lo voy a revisar con Javier.
- Como plan de trabajo para la estadía, la idea es elaborar un documento con lo siguiente:
-
Estudiar el área en general, buscando la bibliografía y los proyectos
más relevantes, intentando ver lo que se ha hecho y hasta dónde se ha
llegado, para luego intentar definir dónde encajaría mi trabajo, al
menos al comienzo del trabajo. Intentar obtener una primera
aproximación a lo que se podría hacer en un trabajo de doctorado de
tres años, que no se haya hecho antes.
- Como primer paso, buscaremos identificar: 1) Bibliografía más relevante 2) Equipos de trabajo más importante
3) Principales conferencias, reuniones, coloquios sobre el tema
-
Contactos: Natalia Gribar, del LIPO, está trabajando sobre el tema
bioinformatics. Jean-Luc va a intentar tener una reunión con ella
Martín Graña, está haciendo un doctorado. Javier va a intentar fijar
reunión con el para ver cómo podría incorporarse mi tesis a MICROBIO
Hugo Naya, trabaja en el pasteur, y es el representante del Pasteur en
Microbio Institut Nacional de la santé et de la recherche médicale
[INSERM]. Es el principal centro de investigación francés en
biomedicina.
Fijamos reunión para el martes 25. La idea es llegar ahí con una idea del área, principal biblio, idea para trabajar, etc.
Otras:
- si necesito utilizar la BNF (Bibliothèque nationale de France) tengo
que pedir a Jean-Luc un papel que diga que soy investigador, etc.
- de alguna forma, intentaremos incluir en el proyecto MICROBIO mi trabajo, o parte del mismo - la
semana que viene Minel me da el cheque de la financiación ECOS.
[12/09/2007]
Tuve reunión con Dina para ver el viaje. Este es el correo resumen de la idea para trabajar en parís.
Hola:
les mando un resumen de lo que sería la idea inicial para la tesis,
según lo que hablamos con Dina en la última reunión. La idea sería
trabajar en París sobre esta idea, para lograr elaborar un primer
documento que presentaría en el momento de la inscripción en Paris X.
Título tentativo de la tesis: Extracción de Entidades con Nombre en Biomedicina
En
el campo de la biomedicina, existen varias herramientas y recursos para
la identificación de genes y proteínas (taggers especializados, corpus
etiquetados como el corpus GENIA...), en textos biomédicos. Sería
interesante considerar también otros elementos, tales como nombres de
procesos o de experimentos. Esta tarea estaría a mitad de camino entre
lo que sería la extracción de entidades con nombre (donde se intenta
clasificar elementos en categorías predefinidas) y la identificación de
terminología general dentro de un lenguaje especializado. Para esto
podrían utilizarse diccionaios especializados o pistas morfológicas.
Sin embargo, parece además ser pertinente contar con una
conceptualización (como, por ejemplo, una ontología) predefinida, que
facilite la tarea de clasificación.
El trabajo apuntaría a definir los métdos para construir esta conceptualización, y su aplicación al problema de la
extracción
de información sobre procesos o experimentos, instanciándolo en uno o
más procesos concretos (como la búsqueda de evidencia experimental.
El documento a presentar consistitiría en:
- Una descripción del área biomédica que enmarcará el trabajo
-
Un resumen del estado del arte en la identificación de genes y
proteínas en textos biomédicos (un área donde hay trabajo realizado). -
Estudio de procesos y experimentos, cómo aparecen en textos, con
ejemplos concretos que muestren la dificultad del problema.
-
Una justificación del interés del trabajo - Antecedentes en el área,
ontologías existentes. - Posibles aproximaciones al tema (métodos
estadísticos, pistas morfológicas, etc).
[30/08/2007]
Retomo
el tema. En el intervalo pude solamente leer un poco del libro "Begging
perl for bioinformatics", que está más pensado para enseñar a biólogos,
pero que da una idea computacional del tema. Por otra parte, me reunión
con estudiantes de proyecto de grado que están en el tema y me pasaron
algunos links. Ahora estoy revisando la wikipedia para ver los
fundamentos biológicos del tema.
[03/08/2007]
El
1/8 tuve reunión con Dina. El objetivo es presentar un trabajo de 5-6
páginas en lo que sería el resumen de la teiss. La primera aproximación
es hacer extracción de nombres de documentos de bio*, y también
relaciones. Después habrá que ajustar más. Como no tengo mucha idea del
tema, Dina me pasó un libro que parece es una buena introducción a la
informática.
Además, me voy a poner en contacto con los
estudiantes de los proyectos de grado de Dina, para apoyarlos y meterme
en tema. Ya me mandaron documentación la que he empezado a leer. Vamos
a reunirnos para definir un tagger a utilizar
Dina me pasó un
par de softwares para probar, uno de ellos es Genia, y el otro el
parser de Charniak. Ayer estuve mirando un poco, pero sin entrar en
detalle.
Estoy haciendo una guía de lectura, que va a ser un latex. Ahora estoy en eso.