WP

WP1 Qualification des inconnus – Typologie et Sélection d’une méthode

Responsable : Alpage

Participants : AFP

Tâches :

    • définition d’un inconnu par rapport à une ressource lexicale existante
    • limites de la consultation du dictionnaire :
        • création sur un mot connu : Orange™
        • les termes et entités combinant des mots connus (Jean Sarkozy, cornet à piston) ou des mots dont certains sont connus (application CMS)
        • les fautes se ramenant à un mot connu : ballade
        • les inconnus à l’accent près, à la majuscule près, au tiret près
    • génération des échantillons sur le corpus Passage
    • classification des inconnus de l’échantillon (liste catégorisée des termes + typologie)
        • problème de tokenisation
        • faute de frappe (frape)
        • entités nommées (alquaeda)
        • sigles (CMS, C.M.S., CV, CVs)
        • néologismes (raffarinade, pitch, pitcher)
        • mots préfixés et mots valises (re-penser, aller/retour)
    • création d’une base tampon servant de base d’apprentissage (les inconnus connus avec leur contexte ?)
    • variantes et relations : pitch et pitcher, plug-in, plugin, plugin, telecharger, télécharger.

Livrables :

    • typologie (rapport)
    • système d’identification et de classification automatique des inconnus (= entrée des WP 2 à 4), avec publications associées
    • corpus annoté avec les inconnus typés

WP2 ML pour l’extension de lexiques morphologiques et syntaxiques

Responsable : LIF

Participants : Alpage

Tâches :

    • Acquisition automatique d’entrées lexicales morphologiques simples : regrouper télécharge, téléchargent et télécharger sous une même entrée, celle du verbe « du premier groupe » télécharger
        • acquisition automatique endogène
        • prise en compte d’informations contextuelles (étiquetage en parties du discours, par exemple)
    • Extraction de terminologie
    • Acquisition automatique d’informations syntaxiques pour les nouvelles entrées (p.ex. cadres de sous-catégorisation)
        • Indices endogènes (les verbes en –ifier sont souvent transitifs)
        • Indices collocationnels
        • Indices syntaxiques (exploitation de résultats d’analyse syntaxique automatique où le mot inconnu a été traité de façon adaptée mais sous-spécifiée)
    • Détection de nouveaux emplois syntaxiques et d’erreurs dans les ressources syntaxiques existantes
        • Détection de cadres de sous-catégorisation manquants (halluciner verbe intransitif vs. j’ai été halluciné par ça)
        • Proposition automatique de corrections au lexique

Livrables :

    • Plateforme complète pour l’acquisition et la complétion automatiques d’entrées morphologiques et syntaxiques à partir de corpus nouveaux ou dynamiques (la sortie de cette plateforme est une des entrées du WP5 mais est également utilisée dans WP4)
    • publications sur les méthodo et leur évaluation

WP3 Méthode hybrides son-texte

Responsable : LIMSI

Participants : Alpage, AFP

Tâches :

Le thème de ce lot est d’étudier les interactions possibles entre les problématiques d’apprentissage de mots hors vocabulaire dans les domaines connexes (mais trop rarement reliés) de la transcription automatique de parole et de l’analyse de textes. Dans le cadre spécifique des flux de dépêches et d’interviews, nous étudierons les complémentarités des deux technologies et plus précisément les possibilités de retour sur erreurs de la reconnaissance par la détection de singularités morphologiques, syntaxiques et statistiques dans les textes.

Acquisitions d’entités nommées inconnues par exploitation de corpus comparables de transcriptions et de dépeches écrites ( ?!).

Livrables :

    • publications sur les méthodo
    • évaluation
    • prototypage du module d’acquisition fournissant des entrées morphologiquement et phonétiquement renseignées (pour WP5)

WP4 Extension d’ontologies

Responsable : Alpage

Participants : LIF, AFP

Le but de ce lot est d’étudier les possibilités de catégorisation automatique dans des classes sémantiques de termes inconnus.

Tâches :

    • Amélioration de l’état de l’art des ressources lexicales sémantiques de type wordnet pour le français (WOLF, Wordnet Libre du Français)
        • Poursuite des travaux sur l’acquisition automatique d’entrées sémantiques à partir de corpus alignés (utilisation de corpus variés, amélioration des techniques d’alignement)
        • Poursuite des travaux sur l’acquisition automatique d’entrées sémantiques à partir de ressources lexicales bilingues
        • Acquisition automatique d’entrées sémantiques à partir de corpus annotés en syntaxe (corpus Passage)
        • Couplage entre le WOLF et des ontologies plus spécialisées telles que celles utilisées à l’AFP
    • Adaptation de ces techniques en vue de l’ajout automatique d’entrées sémantiques à partir des formes et des termes inconnus rencontrés dynamiquement en corpus, et notamment :
        • analyse distributionnelle (plusieurs contextes communs avec un terme connu, à la fois dans le flux textuel et dans des analyses syntaxiques automatiques, améliorées par les résultats du WP2)
        • repérage de contextes sémantiquement non ambigus (le président Irichnovitch)
        • exploitation des résulats d’analyse syntaxique automatique en temps quasi-réel des corpus dynamiques ou spécialisés
        • exploitation du caractère multilingue de corpus dynamiques comme celui des dépêches AFP

Livrables :

    • systèmes opérationnels de suggestion automatique d’entrées sémantiques
    • plateforme de fusion et de validation de ces suggestions d’entrées (entrée pour WP5)
    • publications sur ces technologies et leur évaluation

WP5 Lexique dynamique

Responsable : Alpage

Participants : Tous

Ce lot a pour rôle de centraliser les informations lexicales fournies par les modules d’acquisitions. Le cadre utilisé, qui sera multi-niveau (phonologique, morphologique, syntaxique et sémantique) étendra à la fois, dans une perspective multilingue :

    • l’architecture Alexina, qui est celle des lexiques syntaxiques Lefff (français) et Leffe (espagnol) ainsi que de ressources qui, pour le moment, ne sont que morphologiques (notamment pour l’anglais)
    • l’architecture wordnet utilisée par le WOLF

Tâches :

    • définition du cadre lexicographique suggéré ci-dessus
    • fusion des données venant de WP2, WP3 et WP4 et intégration dynamique dans le lexique multi-niveau, dit lexique dynamique
        • mise en correspondance des entrées venant des différents workpackages concernés
        • vérifications de cohérence (doublons, faux-doublons, taux d’ambiguité)
        • spécification des valeurs par défaut pour les informations manquantes

Livrables :

    • spécification du cadre lexicographique
    • spécification de contraintes d’intégrité et de cohérence
    • moyen d’accès au lexique dynamique (mise à jour permanente de la ressource)

WP6 Applications AFP

Responsable : Nuxeo

Participants : Tous

Réalisation d’une maquette valorisant l’acquisition lexicale dynamique croisée.

Tâches :

    • enrichissement du modèle de langage pour accélérer les prise en compte des nouvelles entités dans la reco (citation d'interviews par les journalistes).
    • enrichissement sémantique d’un thésaurus métier multilingue
    • validation et évaluation des techniques et de leurs résultats au sein de la plateforme AFP

Livrables :

    • intégration effective des techniques développées et du lexique dynamique dans les outils Nuxeo utilisés à l’AFP
    • publications sur l’évaluation de l’apport concret de ces technologies dans le contexte de leur utilisation à l’AFP