Projets et collaborations

Le projet AAC4ALL (2022 - 2025)

Il existe un grand nombre de maladies (paralysie cérébrale, syndrome d’enfermement, maladie de Parkinson, maladie de Charcot ou autres maladies neurodégénératives, syndrome de Rett et maladies génétiques comparables, etc…) qui empêchent les personnes de pouvoir communiquer oralement ou par écrit. La Communication Améliorée et Alternative (CAA) communication palliative, regroupe les aides techniques qui améliorent ou remplacent la communication oral ou écrite chez ces personnes. Un système de communication palliative comprend souvent un clavier affiché sur un écran, un dispositif de commande du clavier adapté à la personne. Il peut également intégrer une synthèse vocale si cela est nécessaire. Ces systèmes peuvent améliorer les capacités de communication. Cependant, il est important que l’aide technique qui est proposée par les médecins (ergothérapeutes, orthophonistes) soit adaptée à la personne et à ses besoins.


Choisir un système d’aide à la communication est difficile. Comme chaque handicap est unique, il est tout d’abord important de rencontrer des ergothérapeutes et des orphéonistes pour bien définir les be-soins de la personne concernée. Il faut ensuite choisir la bonne aide technique, et ce choix est difficile car les solutions sont très nombreuses. On peut trouver de nombreux systèmes en vente ou proposés par des laboratoires de recherches, qui ont de nombreuses différences (dispositif de contrôle, organisation du clavier, type de communication, paramétrage, etc.). Or, il existe très peu de comparaisons, de tests ou de guides qui aideraient au choix d’un système. Le problème se retrouve en recherche : l’aide à la communication concerne beaucoup de disciplines différentes : interaction homme-machine, traitement auto-matique du langage, ergothérapie, orthophonie, linguistique ou encore la psychologie. Peu de laboratoires les réunissent toutes en même temps. Face à ces problèmes, le projet ANR AAC4All, qui a débuté le 1er janvier 2022 et est piloté par le LIFAT, réunit différents partenaires pour proposer une plateforme où les personnes intéressées trouveront librement et gratuitement des logiciels ou des informations qui les guideront dans le domaine de la communication palliative. Nous espérons également arriver à créer une communauté autour de cette plateforme qui se compose des trois composantes suivantes :



Lien vers le projet

Projet ANR-21-CE19-0051.


Dates: 01/10/2022 - 31/10/2025.


Partenaires du projet


Le projet IA.IO 

Artificial Intelligence in Orléans: Apprentissage à partir de données hétérogènes et de connaissances expert. Application aux sciences géologiques et environnementales – AI.i0 PhD Fellowship


L'Université d'Orléans dispose d'une activité de recherche importante dans le domaine de l'Intelligence Artificielle avec des travaux à la fois fondamentaux et appliqués. Ces activités sont menées dans trois laboratoires : LIFO (Laboratoire d’Informatique Fondamentale de l’Université d’Orléans), IDP (Institut Denis Poisson), and PRISME (automatique, signal et traitement d'images). D'autre part Orléans Grand Campus regroupe plusieurs instituts de recherche et laboratoires avec un haut niveau d'expertise en environnement, comme par exemple le BRGM, l'INRA, le CNRS. Plus précisément, Orléans (BRGM, INRA, …) est l'un des plus grands centres en Europe hébergeant des bases de données géo-environnementales nationales et internationales.


La politique scientifique de l'université est de développer un pôle de recherches reconnu dans le domaine de l'Environnement et du Numérique. Dans ce contexte, plusieurs initiatives ont déjà été entreprises: (1) la proposition (non acceptée) d'une Ecole Universitaire de Recherche GEODE intégrant l'Université d'Orléans, le BRGM, l'INRA, le CNRS d'une part, les groupes ANTEA et ATOS d'autre part (2) le montage d'une chaire de recherche et enseignement en IA , Ch.A.I.R.E.-O (Chair Artificial Intelligence Research for Environment in Orléans, leader F. Ros)


Ce projet a pour but de renforcer les activités de recherche fondamentale en Intelligence Artificielle avec comme domaines d'application cible l'environnement et le patrimoine. Dans ce genre d'applications il faut souvent prendre en compte une grande quantité de données issues de différentes sources, arrivant à intervalles de temps réguliers ou pouvant survenir à tout moment et de différents endroits. Cela engendre des données hétérogènes (texte, image, signal, capteurs) décrites à différents degrés de granularité. Le temps est un facteur important. Alors que les séries temporelles ont déjà été longuement étudiées, nous envisageons des applications comme l'évaluation d'une catastrophe où les données (tweets, images) peuvent arriver à tout moment. Enfin les experts disposent de nombreuses connaissances qui doivent être intégrées dans le processus d'apprentissage.


Apprendre dans le cas de données hétérogènes à différents degrés de granularité en présence d'événements non réguliers est fondamental dans les applications environnementales mais c'est un problème difficile dans toute sa généralité. Nous avons défini deux axes de recherche fondamentaux dans lesquels s'intègreront les sujets de thèse, guidés par des besoins applicatifs en environnement et en patrimoine.

• Axe 1: Intégration de connaissance

• Axe 2: Explicabilité dans le cas de données hétérogènes

• Axe 3: Applications à des données hétérogènes environnementales.


La première thématique reposera sur les compétences en Apprentissage Profond des laboratoires IDP et PRISME et les compétences du LIFO dans les formalismes déclaratifs pour l'apprentissage et en traitement du langage naturel alors que le second axe sera plus porté par le LIFO, PRISME et le BRGM, pour lequel l'explicabilité est un problème clef pour l'évaluation des risques géologiques et environnementaux.


Ces deux directions de recherche fondamentales seront guidées par des applications réelles, venant d'instituts ou de laboratoires de la région Centre Val de Loire. Des thèses seront plus spécialement dédiées à des applications du BRGM. Nous pouvons citer la fouille de médias pour la gestion de catastrophes naturelles, l'apprentissage profond pour une analyse minéralogique automatique, la prédiction de niveaux d'eau dans les nappes. Il est à noter que cette chance unique de collaborer avec le BRGM permettra aux chercheurs de l'Université d'Orléans d'accéder à des bases de données géologiques et environnementales hétérogènes variées et de collaborer avec des experts en géologie qui peuvent aider à façonner des modèles intégrant leurs connaissances.

Le projet TALAD (2018 - 2021)

Entant que membre associé au LI, je participe au projet ANR TALAD : Analyse et traitement automatique de discours (lancement début 2018)

Ce projet a pour ambition de montrer comment le TAL permet à l’AD d’aller plus loin dans ses explorations, d’éprouver son appareil théorique et de renforcer son outillage méthodologique. Son objectif est d’adapter des techniques issues du TAL pour fournir à l’AD des jeux de descripteurs plus complexes, relatifs à différents niveaux d’organisation discursive, ainsi que des outils permettant de les composer dans des chaînes de traitement, en fonction des finalités recherchées. En retour, l’AD offrira un éventail de phénomènes complexes à étudier qui seront autant de défis à soumettre aux dernières avancées en TAL.

Nous attendons de ces interactions un impact fort sur les pratiques en AD, qu’elle soit outillée ou non outillée. Cet impact sera évalué sur la problématique de la nomination, qui concerne notamment des personnes, lieux, événements, autrement dit des entités structurantes de l’espace public. La nomination est souvent, dans la sphère publique, utilisée comme outil de recatégorisation. En fonction des positions énonciatives, elle contribue à construire des référents, « colorer » la perception qui en est donnée, voire construire des associations (pouvant tendre à l’amalgame) qui impactent le débat. Ceci a particulièrement été saillant dans les récentes productions, politiques et médiatiques, notamment autour des termes migrants/ immigrants/ réfugiés/ demandeurs d’asile/ candidats à l’asile . Un traitement d’envergure, sur corpus, permettra d’observer la circulation des nominations, et d’observer comment les axiologies viennent aux nominations, comment elles évoluent, ou basculent. Le projet comporte ainsi des enjeux théoriques et scientifiques, mais aussi sociétaux et politiques. Par ailleurs, la transposition des enjeux de la nomination en AD pour le TAL s’accompagnera de la production d’une ontologie des concepts de l’analyse du discours. En effet, l’AD a bâti un appareillage conceptuel robuste, mais varié, et fonction des différents courants, écoles, etc. Le rassemblement de chercheurs en AD et de TAListes à la création d’un corpus annoté et d’outils dédiés a pour ambition d’aider à structurer les pratiques dans une visée d’opérationnalité. Devant cette profusion terminologique, adopter une démarche ontologique aidera l’AD à mieux maîtriser la complexité de ses objets d’étude, travailler et stabiliser l’appareillage conceptuel afin de faciliter les discussions théoriques à partir d’un bagage commun. La proposition d’un schéma d’annotation défini sur cette base conduira à la distribution de l’ontologie et d’un corpus de recherche annoté, ce qui répondra à un besoin pour la communauté en AD : ce corpus annoté, librement diffusé, et assorti des travaux de synthèse du projet, constituera à la fois une avancée scientifique inédite pour le domaine, mais permettra aussi à la communauté de s’en saisir, et de pouvoir contribuer aux réflexions initiées. Ce corpus sera également le point d’interaction méthodologique et technologique entre les communautés de l’AD et du TAL, ce qui facilitera la dissémination des résultats dans chacune des communautés, et rendra compte de la plus-value des résultats pour chacune.


Ce projet réunit :

AGORA de Cergy-Pontoise,

ERTIM de l'INALCO,

PRAXILING de Montpellier,

et le LI à Blois.

Le projet RAVIOLI (2018 - 2020)

Le projet Région RAVIOLI  se situe à la jonction d’un travail d’analyste informatique et linguistique, il prend  appui sur des données orales massives et authentiques, vues parallèlement comme matière sonore sujette à un examen en termes de traitement du signal.

La jonction de ces trois compétences (linguistique, informatique et traitement du signal) donne toute son originalité à cette approche multimodale qui vise à identifier, caractériser et reconnaître automatiquement les énoncés injonctifs et les nuances sémantico-pragmatiques qu’ils expriment, de l’ordre strict, au conseil, en passant par l’instruction, la requête, etc.

Le premier objectif du projet RAVIOLI sera la constitution d’une base de données des énoncés injonctifs produits dans des interactions orales authentiques et massives. Recueillis en partie dans les bases de données du LLL, et notamment dans le corpus ESLO, ces énoncés seront complétés par de nouvelles collectes, visant à atteindre l’exhaustivité nécessaire à la réalisation du projet, tout en permettant à la base de données constituée de se hisser au statut de BD de référence à la visibilité nationale et internationale accrue. L’approche corpus défendue rompt avec les recherches antérieures, menées sur des données réduites, et rend crédible la réalisation des autres objectifs visés par le projet, tout en contribuant à l’établissement d’une typologie des discours, qui constitue actuellement l’un des enjeux scientifiques majeurs en sciences du langage.

Les données constituées seront classées dans un triptyque qui donne son originalité à RAVIOLI. A une caractérisation sémantico-pragmatique affinée, permettant la classification des énoncés selon leur sens (ordre strict, requête, conseil, instruction, etc.), se superposera une caractérisation syntaxique qui visera à identifier les paramètres morphosyntaxiques pertinents, ainsi qu’une caractérisation prosodique cherchant à identifier les paramètres prosodiques pertinents pour la discrimination des injonctions. L’objectif final consiste à parvenir, en superposant ces trois types d’enrichissement de données, à une discrimination prosodique automatique par apprentissage supervisé. Le projet, qui vise une certaine reproductibilité, se clôturera par l’étude de la faisabilité d’une généralisation des résultats à d’autres langues.

Ce projet rassemble :

le LLL (Laboratoire Ligérien de Linguistique) de l’Université d’Orléans),

le LIFO (Laboratoire d'Informatique Fondamentale d'Orléans) de l’Université d’Orléans,

le laboratoire PRISME de l'université d'Orléans,

et l'équipe BDTLN (Bases de Donnée et Traitement de la Langue Naturelle) du LI à Blois.

Le projet ODIL (2016 - 2018)

ODIL (Outiller les données pour le développement des industries de la langue) est un projet de la région centre d'initiative académique, il a pour objectif de valoriser une ressource centrale dans l’identité de notre région Centre-Val de Loire : le français.

Une langue n’a d’existence pour la recherche scientifique qu’en fonction de la qualité de ressources préparées pour son exploitation. Alors que le patrimoine écrit du français est bien étudié, il manque aujourd’hui un corpus de référence pour le français oral dont les variations demandent le développement de systèmes d’annotation spécifiques.

En partant du corpus des ESLO (une enquête menée à Orléans et environs), ce programme vise à lever un obstacle technologique et scientifique en finalisant le plus grand corpus de français oral au meilleur niveau international – sur le format d’ICE aux Etats-Unis, de l’IDS en Allemagne – afin d’établir un standard scientifique et un réservoir de données exploitables par les entreprises en technologies de l’information et de la communication, secteur en émergence sur l’axe ligérien.

Plus précisément, les objectifs dans lesquels le LIFO s'est investi sont les suivants :

- Réalisation et mise à disposition d’un corpus annoté en arbres syntaxiques, diffusé librement (licence Creative Commons) ; un sous-corpus annoté en temporalité (licence Creative Commons), d’un parseur de l’oral et d’un outil d’annotation temporelle diffusés en open source.

Ce projet réunit :

le LLL (Laboratoire Ligérien de Linguistique) de l’Université d’Orléans),

l'équipe CA (Contraintes et Apprentissage ) du LIFO (Laboratoire d'Informatique Fondamentale d'Orléans) de l’Université d’Orléans,

et l'équipe BDTLN (Bases de Donnée et Traitement de la Langue Naturelle) du LI à Blois.

Le projet PREDICT4ALL (2018 - 2021)

Entant que membre affilié du LI, je participe au projet PREDICT4ALL : Prédiction de mots tolérante aux erreurs orthographiques pour travailler, écrire et communiquer, financé par la fondation Bennetot.

La saisie de texte sur l’outil informatique est incontournable dans notre vie quotidienne, sociale, scolaire et professionnelle. Dans ce cadre, les erreurs orthographiques peuvent être un réel handicap dans la communication avec autrui. Ces difficultés se retrouvent dans les troubles de l'apprentissage (dysorthographie), mais peuvent aussi être présentes dans certaines pathologies comme la paralysie cérébrale. Elles peuvent être caractérisées par l'ajout de lettres ou de syllabes à l'intérieur d'un mot, l'inversion de lettres ou de syllabes, par des difficultés à respecter l'entité des mots, à conjuguer et à faire l'accord correctement dans le groupe nominal et le groupe verbal. En pratique clinique, les erreurs orthographiques sont évaluées et prises en charge par différents thérapeutes. Dans cette prise en charge thérapeutique, différents axes sont mis en place, notamment celui de la compensation logicielle. En effet, certaines solutions logicielles (reconnaissance vocale, correcteur orthographique, prédiction de mots) peuvent être mises en place auprès de la personne afin de l'aider dans sa production écrite. Néanmoins, ces logiciels présentent un certain coût financier et demandent un apprentissage conséquent pour leur utilisation. De plus, ils ne permettent pas d'utiliser la prédiction / le correcteur dans différentes interfaces comme les claviers virtuels ou les outils d'aide à la communication, pourtant largement utilisées chez les enfants ayant des déficiences motrices associées. L'objectif du projet PREDICT4ALL est de développer un module de prédiction de mots qui cible les différentes erreurs orthographiques, en partant de la prédiction de mots Sibylle développée par le Laboratoire d'Informatique de Tours, pour la mettre à disposition gratuitement au plus grand nombre.

Ce projet s'équilibre entre une dimension technologique liée au Traitement Automatique des Langues Naturelles (LI de Tours) et une dimension clinique (Kerpape, Garches) fortes. Il est ainsi divisé en trois phases successives : une phase d'expression des besoins utilisateurs, une phase de développement de la prédiction adaptée aux dysorthographies et une phase d'évaluation clinique avant intégration et diffusion publique via les logiciels Sibylle vK (logiciel d’aide à la communication avec synthèse vocale) et Civikey (clavier virtuel gratuit open-source développé par la société Invienetis et la Plate-Forme Nouvelles Technologies de Garches)).

Le projet DEMOCRAT (2015 - 2019)

Entant que membre affilié au LI, je participe en tant que consultant au projet ANR Democrat : DEscription et MOdélisation des Chaînes de Référence : outils pour l’Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique (lien).

Ce projet "vise à développer les recherches sur la langue et la structuration textuelle du français via l’analyse détaillée et contrastive des chaînes de référence (instanciations successives d’une même entité) dans un corpus diachronique de textes écrits entre le 9ème et le 21ème siècle, avec des genres textuels variés.

Le projet mettra à disposition de la communauté scientifique :

Le corpus annoté manuellement en chaînes de référence aura une taille de 1 million de mots, soit environ 100 000 maillons annotés."

Ce projet réunit :

le LaTTice (Responsable Frédéric Landragin),

le LILPA (Responsable Catherine Schneidecker),

le laboratoire ICAR (Responsable Céline Guillot-Barbance).

Le RTR Risque

Le Réseau Thématique de Recherche Risque est financé par la région Centre. L'un de ses axes  concerne l’analyse et la maîtrise du risque dans le domaine des aides numériques au handicap.

Dans ce cadre, nous nous sommes intéressés à la qualification et à l'évaluation des risques provoqués par les technologies d'aide au handicap. Nous avons travaillé à la création d'une typologie des risques lié à l'utilisation de celles-ci et plus précisément, nous avons poussé cette étude selon 2 axes : le premier est l'extension possible de cette analyse à tout type de technologie numérique pour le handicap (Smart Home, agent conversationnel, dossier patient numérique etc.), , et le second en nous focalisant plus spécifiquement sur les applications d'aide à la communication, que l'objectif poursuivi soit de pallier un handicap ou non (l'autocomplétion originellement proposée pour aider un handicap de communication se retrouve dans tout assistant SMS).

Ce projet a pour but de créer un réseau d'experts pluridisciplinaires autour de ces questions. Plus précisément, nous travaillons en partenariat avec le centre de rééducation de Garches et de Kerpape pour la mise en place d'un protocole d'évaluation des effets tant positifs qu'indésirables de la mise en place de systèmes d’aide à la communication pour des personnes atteintes de déficiences motrices de type dyspraxie.

Ce réseau réunit les membres :

• Jean-Yves Antoine de BDTLN (Bases de Donnée et Traitement de la Langue Naturelle) et

Patrick Martineau de l'équipe OC (Ordonnancement et Conduite) du LI,

• Christian Toinard et Benjamin Nuyen de SDS (Sécurité et Distribution des Systèmes) et Jean-Michel Couvreur de l'équipe LMV (Logique, Modélisation et Verification) du LIFO d'Orléans,

• Samuel Pouplin du centre de rééducation de Garches,

• Willy Allègre du centre de rééducation de Kerpape,

• Evelyne Klinger de l'école d'ingénieur ISIEA Laval & de l'Institut Français de Recherche sur le Handicap (IFRH)

• Yvan Bedini d'Orange Labs à Caen.

• Patrice Clémente de l'école d'ingénieure INSA de Bourges.

Le projet TEMPORAL (2014)

Dans la continuité de ce qui précède, les partenaires du projet ANCOR ont proposés de travailler sur une norme originale d’annotation pour la temporalité des éventualités et des expressions temporelles. J’ai participé au montage du projet TEMPORAL (lien) portant sur cette thématique. Ce projet, qui vient d’être lancé, visera la constitution et publication d’une ressource pour l’étude de phénomènes linguistiques autour du raisonnement temporel, du calcul de la référence temporelle ou encore pour l’entraînement d’algorithmes de recherche d’informations temporelles.

• BDTLN (Bases de Donnée et Traitement de la Langue Naturelle) du LI à Blois,

• LLL (Laboratoire Ligérien de Linguistique) de l’Université d’Orléans.

Ce projet est financé par la MSH Val de Loire.

Le projet ANCOR (2011 - 2013)

Le projet ANCOR a pour objet l’étude de toutes les formes de reprises anaphoriques et de coréférence dans une optique pluridisciplinaire (traitement automatique, typologie, sémantique) autour de l’étude de la langue orale. Ce projet a permis de diffuser un corpus d’environ 500 000 mots, ANCOR_Centre sous licences Creative Commons, annoté manuellement en anaphores et en coréférences. Le projet ANCOR (lien) réunit les équipes:

• BDTLN (Bases de Donnée et Traitement de la Langue Naturelle) du LI à Blois,

• LLL (Laboratoire Ligérien de Linguistique) de l’Université d’Orléans.

Ce projet a été financé par la Région Centre.

Le projet ITIPY (2009 - 2012)

La médiathèque intercommunale à dimension régionale de Pau a numérisé un large corpus de textes à fort ancrage territorial. Un certain nombre sont des récits de voyage dans les Pyrénées Occidentales, qui s'étendent parfois jusqu'en Gironde. Ces textes, qui datent d'une période entre le milieu du XIXe siècle et le début du XXe, ont un fort intérêt patrimonial. Ils sont également utilisés par les enseignants dans leurs activités éducatives. L'accès à cette masse de documents pose de nouveaux défis : une indexation « à la Google » se limite à la recherche d'occurrences de mots alors qu'on aimerait pouvoir interroger le fonds documentaire indépendamment des mots utilisés et des modes de narration afin de connaître les récits passant par un certain lieu ou suivant un certain chemin, à certaines dates ou époques, et ce via une interface graphique qui permette des allers et retours simples et directs entre texte et carte géographique. L'objectif de ce projet est d'automatiser l'extraction des itinéraires décrits dans les récits de voyages. Ce projet réunit les équipes :

• SIGNES (Signes linguistiques, grammaire et sens : algorithmique logique de la langue), d’INRIA Bordeaux – Sud-Ouest, à Bordeaux,

• DESI (Document Electronique, Sémantique et Interaction), du LIUPPA (laboratoire d’informatique de l’université de Pau et des pays de l’Adour), à Pau,

• LILaC (Logic, Interaction, Language, and Computation), de l’IRIT (institut de recherche en informatique de Toulouse), à Toulouse.

Ce projet a été financé par INRIA Sud-Ouest et la Région Aquitaine.