La LRE map : un outil pour recenser les ressources linguistiques
Prof . Joseph Mariani
LIMSI-CNRS
Prof . Joseph Mariani
LIMSI-CNRS
Résumé
Il est important d'avoir une image claire de ce qui existe en termes de ressources linguistiques et d'évaluation pour mener des recherches en linguistique computationnelle ou en communication parlée et pour développer des systèmes de traitement automatique des langues et de la parole. La prise en compte de la couverture linguistique est particulièrement importante pour produire des technologies qui puissent aider le multilinguisme et protéger les langues en danger. Cela implique de savoir ce qui est nécessaire et ce qui existe déjà pour certaines langues, d’identifier les lacunes pour d'autres langues et de trouver un moyen de les combler.
Pour obtenir cette information, la LRE Map a été proposée dans le cadre du projet FLaReNet de la Commission Européenne. La LRE Map est basée sur les données recueillies directement auprès des auteurs lors des conférences et fournit ainsi des données réelles obtenues à la source, et non une estimation de ces données. Nous considérons ici les « ressources linguistiques » au sens large, incluant les données, les outils, l'évaluation et les méta-ressources (normes, métadonnées, bonnes pratiques, etc.). Les informations recueillies incluent le nom de la ressource, son type, sa ou ses modalités, la ou les langues couvertes, sa taille, l'état de sa production, son utilisation, sa disponibilité, les licences de distribution, l’existence de documentation et éventuellement l'URL du site où elle peut être obtenue. La LRE Map contient actuellement des données collectées dans 12 conférences tenues entre 2010 et 2014, et les données de deux autres conférences tenues en 2016 seront ajoutées prochainement.
Afin de mesurer l’existence des ressources linguistiques pour les différentes langues, nous avons conçu un outil logiciel appelé "LRE Matrix" qui produit automatiquement des matrices de langue à partir de la LRE Map donnant le nombre de ressources de différents types qui existent pour les différentes modalités pour chaque langue. Nous avons tenu compte des noms, des types, des modalités et des langues attachés à chaque entrée de la LRE Map. Un important nettoyage manuel a été nécessaire pour pouvoir utiliser les données afin d'éviter les doublons et de compléter les informations manquantes.
Nous avons développé une matrice globale identifiant les ressources existantes pour les différentes langues européennes (langues officielles de l'UE et autres langues nationales ou régionales) et pour les principales langues internationales. Nous avons ensuite produit des matrices distinctes pour les différentes modalités (parole, texte et multimodal/multimédia) concernant les données, les outils, l'évaluation et les méta-ressources.
Nous avons également analysé le nombre de fois où une ressource est mentionnée dans les articles scientifiques, que l'on pourrait appeler «Facteur d'Impact» de la ressource (LRIF), à l’aide du corpus NLP4NLP que nous avons constitué et qui rassemble plus de 65,000 articles parus dans les conférences et revues du domaine sur une période de 50 ans (1965-2015). Nous avons effectué ces mesures pour les données, les outils, l’évaluation et les méta-ressources globalement et pour différentes langues.
Compte tenu de leur caractère quantitatif et objectif, nos résultats sont utiles pour comparer la situation des différentes langues nationales et régionales relative à l’existence et la disponibilité de ressources linguistiques, et leur progression. Nous avons spécifiquement étudié l'existence de ressources pour les langues européennes régionales ou peu dotées et pour les langues des signes. Ces données et ces outils seront utilisés par le Less-Resourced Languages Committee créé récemment au sein de l'European Language Resources Association (ELRA), qui s ‘élargit vers un SIG commun avec l’International Speech Communication Association (ISCA) : SIG-UL (Special Interest Group on Under-resourced Languages).
Nous avons comparé nos résultats quantitatifs aux résultats qualitatifs obtenus dans une analyse parue dans les White Papers du réseau Européen META-NET, et suggérons des adaptations des catégories et du classement des tableaux de META-NET.
Nous avons été confrontés dans nos études au besoin d'un processus fastidieux de normalisation et de nettoyage qui a montré la nécessité d'attribuer un identifiant unique et persistant à chaque ressource linguistique afin de l'identifier plus facilement et de suivre ses utilisations et son évolution au fil du temps. Cela nécessitera une coordination internationale pour laquelle ELRA a proposé l’ISLRN (International Standard Language Resource Number Resource), similaire à l'ISBN pour les publications.
Biographie
Joseph Mariani a mené ses premières activités de recherche sur la reconnaissance de la parole au LIMSI, un laboratoire propre du CNRS (Centre National de la Recherche Scientifique) en 1973 avant de prendre la responsabilité du groupe «Communication Parlée». Il a ensuite rejoint l'équipe de Fred Jelinek au T.J. Watson Research Center d’IBM en tant que chercheur invité en 1985. À son retour au LIMSI, il a été nommé en 1987 responsable du département "Communication homme-machine", qui couvre différentes modalités de communication (traitement de la langue parlée, écrite et signée, vision par ordinateur, infographie, communication gestuelle, réalité virtuelle et augmentée,…) sous différents éclairages (informatique, traitement du signal, linguistique, sciences cognitives, ergonomie, sciences sociales). Il a été directeur général du LIMSI de 1989 à 2000.
Il est ensuite devenu directeur du département «Technologies de l'Information et de la Communication» au Ministère de la recherche de 2001 à 2006. Dans ce cadre, il a géré plusieurs programmes nationaux et a lancé en particulier les actions Techno-Langue et Techno-Vision, sur le développement et l’évaluation des technologies de traitement des langues et de vision par ordinateur.
Il a ensuite été nommé directeur de l'Institut des technologies Multilingues et Multimédias de l’Information (IMMI), un laboratoire international franco-allemand impliquant le LIMSI, l'Institut de technologie de Karlsruhe (KIT) et RWTH à Aix-la-Chapelle, lancé en 2007 dans le cadre du programme national français Quaero.
Joseph Mariani a été président du Comité «Sciences et technologies de l'information» du CNRS et membre du Conseil Scientifique du CNRS et de son Comité d'éthique (COMETS), où il a coordonné la rédaction d’un rapport sur l'éthique des TIC qui a abouti à la création de la Commission Nationale d'éthique des recherches en sciences et technologies du numérique (CERNA).
Sur la scène internationale, il a lancé et coordonné FRANCIL, le Réseau Francophone en technologies de la langue de l'Association des Universités Francophones (AUF). Il est membre d’honneur de l’AFCP[1]. Il a initié et présidé en 1988 l'Association européenne pour la Communication Parlée, à présent International Speech Communication Association (ISCA), où il a lancé en 1989 la conférence Eurospeech, à présent Interspeech. Il a également initié en 1995 l'Association européenne pour les ressources linguistiques (ELRA), dont il est président d'honneur, et, en 1998, la «Conférence sur les ressources linguistiques et l’évaluation» (LREC). Il a été le premier coordinateur du comité Cocosda[2] lors de sa création en 1991. Il a siégé au conseil d'administration de l’European Language & Speech Network of Excellence (ELSNET), au Comité directeur de FLaReNet (Fostering Language Resources Network) et aux bureau et conseil d'administration de META-NET (l'Alliance technologique pour une Europe Multilingue).
Il a été ou est toujours dans les comités de rédaction des journaux Speech Communication, Speech Technology et Language Resources and Evaluation. Auteur de plus de 500 publications, il a co-édité le Survey of the State-of-the-Art on Human Language Technology et édité une monographie sur le «Traitement du langage parlé».
Joseph Mariani est actuellement directeur de recherche émérite au CNRS. Ses activités de recherche concernent le traitement du langage parlé, la communication homme-machine et les ressources et technologies de la langue.