Accueil

EDyLex (Enrichissement Dynamique de Lexiques) est un projet ANR financé par le programme STIC CONTINT 2009 (projet ANR-09-CORD-008), porté par Benoît Sagot, de l'UMR-I Alpage (INRIA Paris-Rocquencourt et Université Paris 7). Les autres partenaires sont le LIF (Université de la Méditerrannée), le LIMSI (CNRS), les PME Syllabs et Vocapia Research, et l'Agence France-Presse. Le projet a démarré officiellement le 1er novembre 2009, mais le démarrage effectif ("T0 technique") a eu lieu au 1er janvier 2010, pour une durée de 3 ans.

La problématique centrale d'EDyLex est l'acquisition dynamique de nouvelles entrées dans des lexiques existants utilisés au sein de chaînes d'analyse syntaxique et sémantique complètes : comment détecter et qualifier un mot inconnu ou une entité nommée nouvelle dans un texte ? Comment lui attribuer une phonétique, une catégorie, des propriétés syntaxiques, une place dans un réseau sémantique ? Diverses techniques complémentaires seront explorées et croisées (approches probabilistes et symboliques, sur corpus et par règles…). Leur application aux contenus de l'AFP offre un contexte représentatif des problématiques de l'incomplétude et de la création lexicales : indexation, création et maintenance de référentiels (noms de lieux, de personnes, thèmes d'actualité), indispensables pour organiser un flux important d'informations (5000 dépêches/jr).