Recherche

Voir les projets Voir les publications

Je donne ici quelques détails des travaux auxquels j'ai participé ou auxquels je participe actuellement :

Digital Technology Risks

EthicsAndNLP_2024.pdf

Pour visualiser la présentation lors de l'atelier : https://www.youtube.com/watch?v=y5yfmy23pGE&list=PLRRIu4Z2oc_T2SC-_8t8DLuOU7yYQitE-&index=2

Pour commenter participer : https://webprotege.stanford.edu/#projects/fc23c6ed-3a01-4c98-9fd0-2e0f0a59bff5/edit/

Il suffit de se créer un compte Web Protégé tout d'abord puis de commenter dans la fenêtre en haut à droite de l'interface.

Exploration d'espaces de plongement pour la structuration et la description d'évènements d'actualité

Olivier Gracianne (CIFRE ATOS) a soutenu sa thèse intitulée "Exploration de micro-posts d’actualité : représentation, structuration et description" en décembre 2023.

Résumé :

Les réseaux sociaux où sont échangés des messages courts sont devenus des sources de premier choix pour le suivi d'objet d'actualité. Les sources de ce relais d'information sont ainsi très variées, permettant de couvrir la grande majorité des aspects de ces objets. De plus, l'information est diffusée quasiment en temps réel. Traiter les données issues de ce type de plate-forme est donc devenu un objectif clef pour le monde de la recherche comme celui de l'industrie.

Les présents travaux portent sur l'exploitation de ces données. L'objectif est de décrire les données issues de tels réseaux pour permettre de les rendre accessibles à un utilisateur final. Nous proposons de traiter le problème à travers la représentation, la structuration et finalement la description des données reçues.

Pour pouvoir baser nos raisonnements et procédures sur la sémantique véhiculée par les données, nous procédons à leur changement de représentation. Cette étape est opérée avec un modèle d'apprentissage automatique adapté à nos besoins, Doc2Vec, produisant des représentations sémantiques raffinées.

Ces vecteurs peuvent ensuite être exploités pour détecter la structuration sous-jacente de ces données. Cette étape prend la forme d'un clustering basé sur la mesure de similarité accessible dans l'espace de représentation des micro-posts captés. Ce découpage permet d'identifier les manifestations de la cible écoutée que l'on peut repérer dans les données.

Nous proposons finalement d'exploiter cette partition et le contenu des messages pour identifier des composants de descriptions pertinents. Ces descripteurs, issus du corps même des messages, doivent être représentatifs de l'ensemble où ils ont été sélectionnés. Ils permettent ainsi la construction de description de la partition. Nous introduisons d'abord à cette fin un modèle de Programmation Linéaire en Nombres Entiers, et ensuite une méthodologie basée sur le clustering et la mesure de l'impact des mots sur la position du vecteur de leur document.

C'est finalement à travers l'ensemble formé par les descriptions des aspects de la cible écoutée sur les réseaux que nous proposons de la décrire.

Explicabilité dans le cadre multimodal

Dans le cadre de l'ANR IA.IO, je coencadre 2 thèses actuellement qui se préoccupent d’interaction entre modalités pour des systèmes multimodaux texte/image.

Sofiane Elguendouze a soutienu sa thèse intitulée "Explainable Artificial Intelligence approaches

for Image Captioning" tout début 2024.

Résumé :

Les algorithmes à base d'intelligence artificielle (IA) / apprentissage automatique se sont distingués par leur puissance en termes de résultats et de prédictions, cependant les modèles générés sont généralement opaques ou manquent de transparence. En d'autres termes, la plupart des modèles produits sont sous forme de boîtes noires complexes : leur logique interne et leur fonctionnement sont cachés à l'utilisateur et même aux experts. Cela empêche un humain, expert ou non, de vérifier, d'interpréter et de comprendre le raisonnement du système et la manière dont les décisions sont prises. Dans ce contexte, l'intelligence artificielle explicable (IAX) est apparue comme un domaine de recherche à part entière, qui vise à faire un nouveau pas vers une IA plus compréhensible. A cet effet, diverses techniques sont utilisées permettant d'établir une sorte de compromis entre la haute performance des modèles et leur grande explicabilité.

Cette thèse s'inscrit dans le contexte de sous-titrage des images (sTI) et de l'IAX. Plus précisément, les méthodes de sous-titrage des images ont montré de bonnes performances dans la génération automatique des légendes, en particulier les techniques basées sur l'apprentissage profond. Cependant, ces techniques manquent d'interprétabilité, ce qui signifie que nous ne parvenons pas à comprendre les raisons derrière la génération de la séquence de mots qui constitue la légende en sortie. Ainsi, notre objectif est de proposer de nouvelles approches IAX pour aider à mieux comprendre les modèles sTI en répondant à des questions de type "Quelles parties de l'image ont été principalement impliquées dans la génération de cette légende ?" ou encore "A quoi correspond chaque mot de la légende générée en sortie dans l'image en entrée ?". Nous appelons ce domaine de recherche sous-Titrage Explicable des images (sTXI).

Sofiane Elguendouze s’intéresse à l'explicabilité pour les système d'image captioning, tandis que Badreddine Farah s'occupe des mécanismes de fusion pour la classification de tweets contenant du texte et/ou de l' image.

Prédiction de caractères et de mots dans les systèmes d'aide à la communication

L' ANR AAC4LL propose de travailler sur divers aspects des AAC, je m’intéresse plus précisément au WP 3 sur l'optimisation de la prédiction de mots et de lettres.

Projets passés :

Mécanismes référentiels et temporalité

Sémantique des temps du français : une formalisation compositionnelle

Mon travail s’inscrit dans le cadre du projet ITIPY : Extraction automatique d’itinéraires dans des récits de voyage et application à la recherche documentaire « intelligente » dans des fonds patrimoniaux liés au territoire aquitain. Disposant d’un analyseur syntaxique et sémantique à large échelle du français, basé sur les grammaires catégorielles et la sémantique compositionnelle (λ-calcul ou λ-DRT), notre tâche a été de prendre en compte les temps des verbes pour obtenir une représentation sémantique de la temporalité des événements et des états, notions que nous regroupons sous le termes d’éventualité. Cette thèse se concentre sur la construction d’un lexique sémantique traitant des temps verbaux du français. Nous proposons une extension et une adaptation d’un système d’opérateurs compositionnels conçu pour les temps du verbe anglais, aux temps et à l’aspect du verbe français du XIXème siècle à nos jours. Cette formalisation est de facto opérationnelle, car elle est définie en terme d’opérateurs du λ-calcul dont la composition et la réduction, déjà programmées calculent automatiquement les représentations sémantique souhaitées, des formules multisortes de la logique d’ordre supérieur. Par ailleurs, le passage de l’énoncé comportant une éventualité seule au discours, dont le maillage référentiel est plus complexe, est discuté dans le cadre de la λ-DRT et quelques perspectives de poursuites de ces travaux sont évoquées.

Publications significatives :

• Lefeuvre A., Moot R., Rétoré C. et N.-F. Sandillon Rezer (2012). Traitement automatique sur corpus de récit de voyage pyrénéens: une analyse syntaxique, sémantique et temporelle. TALN’2012, Grenoble, France. pp. 43-56.

• Lefeuvre A., Moot R. et C. Rétoré (2012).Traitement automatique d’un corpus de récits de voyage pyrénéens : analyse syntaxique sémantique et pragmatique dans le cadre de la théorie des types.Congrès Mondial de Linguistique Française 2012, Lyon, France. pp.2485- 2595

TEMPORAL : Représentation et annotation de la temporalité pour les études linguistiques et le traitement automatique des langues

Dans la continuité de ce qui précède, nous sommes sur le point de proposer une norme d’annotation pour la temporalité des éventualités et des expressions temporelles en vue de la publication d’une ressources pour l’étude de phénomènes linguistiques autour du raisonnement temporel, du calcul de la référence temporelle ou encore pour l’entrainement d’algorithmes de recherche d’informations temporelles.

Publications significatives :

• Lefeuvre-Halftermeyer A., Antoine J.-Y., Couillault A., Schang E., Abouda L., Savary A., Maurel D., Eshkol-Taravella I. et D. Battistelli (2016). Temporal Annotation : It is the Right Time to Improve ISO-TimeML! LREC’2016, Ljubjana, Slovénie.

• Lefeuvre A., Antoine J.-Y., A. Savary, E. Schang, L. Abouda, D. Maurel et I. Eshkol (2014). Annotation de la temporalité en corpus : contribution à l’amélioration de la norme TimeML. TALN’2014, Marseilles, France.

ODIL : Outiller les données pour le développement des industries de la langue

ODIL (Outiller les données pour le développement des industries de la langue) est un projet de la région centre d'initiative académique, il a pour objectif de valoriser une ressource centrale dans l’identité de notre région Centre-Val de Loire : le français.

Une langue n’a d’existence pour la recherche scientifique qu’en fonction de la qualité de ressources préparées pour son exploitation. Alors que le patrimoine écrit du français est bien étudié, il manque aujourd’hui un corpus de référence pour le français oral dont les variations demandent le développement de systèmes d’annotation spécifiques.

En partant du corpus des ESLO (une enquête menée à Orléans et environs), ce programme vise à lever un obstacle technologique et scientifique en finalisant le plus grand corpus de français oral au meilleur niveau international – sur le format d’ICE aux Etats-Unis, de l’IDS en Allemagne – afin d’établir un standard scientifique et un réservoir de données exploitables par les entreprises en technologies de l’information et de la communication, secteur en émergence sur l’axe ligérien.

Plus précisément, les objectifs dans lesquels le LIFO s'est investi sont les suivants :

- Réalisation et mise à disposition d’un corpus annoté en arbres syntaxiques, diffusé librement (licence Creative Commons) ; un sous-corpus annoté en temporalité (licence Creative Commons), d’un parseur de l’oral et d’un outil d’annotation temporelle diffusés en open source.

Mécanismes référentiels et coréférence

ANCOR : Annotation des anaphores et coréférences dans les corpus oraux et résolution automatique des coréférences

Le projet ANCOR a pour objet l’étude de toutes les formes de reprises anaphoriques et de coréférence dans une optique pluridisciplinaire (traitement automatique, typologie, sémantique) autour de l’étude de la langue orale. Ce projet a permis de diffuser un corpus d’environ 500 000 mots, ANCOR_Centre sous licences Creative Commons, annoté manuellement en anaphores et en coréférences. Au sein de ce projet, j’ai assumé une phase de correction automatique, j’ai participé à la phase d’évaluation du corpus, et de j’ai créé un outil d’interrogation et de visualisation de corpus annoté sous le format d’annotation Glozz, ANCORQI. Nous avons par ailleurs pu mener quelques recherche sur les traits d’accord en genre et en nombre dans le cas des relations d’anaphores, et j’ai participé à l’évaluation de métriques statistiques sur les annotations.

Publications significatives :

• Antoine J.-Y., Villaneau J. et A. Lefeuvre (2014). Weighted Krippendorff’s alpha is a more reliable metrics for multi- coders ordinal annotations : experimental studies on emotion, opinion and coreference annotation. EACL’2014, Gothenburg, Suède.

• Muzerelle J., Lefeuvre A., Antoine J.-Y., Pelletier A., Schang E., Maurel D., Villaneau J. et I. Eskhol (2014). ANCOR_Centre, a large free spoken French coréférence corpus : description of the resource and reliability measures. LREC’2014, Reykjavik, Islande.

• Lefeuvre A., Antoine J.-Y., et E. Schang (2014). Le corpus ANCOR_Centre et son outil de requêtage : application à l’étude de l’accord en genre et nombre dans les coréférences et anaphores en français parlé. CMLF’2014, Berlin, France.

• Muzerelle J., Lefeuvre A., Antoine J.-Y., Schang E., Maurel D., Villaneau J., et I. Eskhol (2013). Apprentissage supervisé sur ressources encyclopédiques pour l’enrichissement d’un lexique de noms propres destiné à la reconnaissance des entités nommées. TALN’2013, Les Sables d’Olonnes, France.

DEMOCRAT

Entant que membre affilié au LI, je participe au projet ANR Democrat : DEscription et MOdélisation des Chaînes de Référence : outils pour l’Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique (lien).

Ce projet "vise à développer les recherches sur la langue et la structuration textuelle du français via l’analyse détaillée et contrastive des chaînes de référence (instanciations successives d’une même entité) dans un corpus diachronique de textes écrits entre le 9ème et le 21ème siècle, avec des genres textuels variés.

Le projet mettra à disposition de la communauté scientifique :

Un modèle intégré et discursif de la référence et de la composition des chaînes de référence.
Un corpus annoté qui puisse servir de corpus de référence et de corpus d’apprentissage pour les campagnes d’évaluation internationales portant sur la coréférence.
Un outil d’annotation, d’aide à l’annotation et de manipulation des données annotées.
Un système de détection automatique des coréférences.

Le corpus annoté manuellement en chaînes de référence aura une taille de 1 million de mots, soit environ 100 000 maillons annotés."

Mécanismes référentiels, discours et nomination

TALAD : Analyse et traitement automatique de discours

Le croisement disciplinaire des SHS et des SI pour le domaine de l’analyse des textes et des discours

est devenu incontournable, dû notamment à la multiplication des sources d’expression et formats disponibles. L’analyse de discours (AD), centrée sur l’étude des textes dans leurs conditions réelles de production (qui fait des textes des discours), est de plus en plus basée sur une observation en corpus, avec l’adoption notamment d’outils de textométrie. De son côté, le Traitement automatique des langues (TAL) propose aujourd’hui des technologies de plus en plus performantes et diversifiées, mais leur adoption par les SHS est encore relativement restreinte, se limitant à certains traitements tels que : annotation morphosyntaxique, extraction d’informations (terminologie, événements, etc.).

Ce projet a pour ambition de montrer comment le TAL permet à l’AD d’aller plus loin dans ses explorations, d’éprouver son appareil théorique et de renforcer son outillage méthodologique. Son objectif est d’adapter des techniques issues du TAL pour fournir à l’AD des jeux de descripteurs plus complexes, relatifs à différents niveaux d’organisation discursive, ainsi que des outils permettant de les composer dans des chaînes de traitement, en fonction des finalités recherchées. En retour, l’AD apportera au TAL un éventail de phénomènes complexes à étudier qui seront autant de défis à soumettre aux dernières avancées en TAL.

Nous attendons de ces interactions un impact fort sur les pratiques en AD, qu’elle soit outillée ou non

outillée. Cet impact sera évalué sur la problématique, phare pour l’AD, de la nomination, qui peut concerner, entre autres, des personnes, lieux ou événements. Cette question revêt des enjeux à la fois théoriques, scientifiques, mais aussi sociétaux et politiques d’importance. Elle consiste pour l’AD à étudier les différentes modalités subjectives et idéologiques mobilisées dans la nomination et leur incidence discursives (cf. par exemple les représentations liées au choix de noms tels que « migrants » ou « réfugiés » dans la presse). Pour le TAL, cette problématique présente l’intérêt de croiser pour partie un champ d’application très étudié : la détection des entités nommés (EN).

Dans ce cadre, plusieurs questionnements de l’AD seront considérés, qui correspondent à des domaines où les techniques du TAL peuvent apporter un saut méthodologique appréciable.

• Variété des constructions dans la nomination – On approfondira ici les travaux sur des distinctions comme intension/extension ou qualification/catégorisation (Longhi 2008, 2009). On développera un outil de proposition de variantes de nominations basé sur l’analyse en TAL de la variabilité des Ens et entités polylexicales, qui servira ensuite au requêtage de corpus ;

• Exploitation des coréférences caractérisées par le TAL pour connecter des unités linguistiques aux notions étudiées. L’enjeu est de saisir l’orientation argumentative d’une nomination (valeur sémantique et charge axiologique) par l’analyse des entités reliées et l’identification des isotopies (allocataire/assisté/profiteur ; rejets des boues rouges/scandale des boues rouges) ou des formes sémantiques (étrangers en situation irrégulière/illégale (Valette 2004), (Eensoo et Valette 2015).

Afin d’atteindre une certaine généricité, ces travaux feront l’objet d’une étude différentielle suivant différents genres textuels (Slodzian et Valette 2009, Ho Dinh et Valette 2014) et langues.

Gestion du risque et réflexion éthique

RTR Risque

Le Réseau Thématique de Recherche Risque est financé par la région Centre. L'un de ses axes concerne l’analyse et la maîtrise du risque dans le domaine des aides numériques au handicap.

Dans ce cadre, nous nous sommes intéressés à la qualification et à l'évaluation des risques provoqués par les technologies d'aide au handicap. Nous avons travaillé à la création d'une typologie des risques lié à l'utilisation de celles-ci et plus précisément, nous avons poussé cette étude selon 2 axes : le premier est l'extension possible de cette analyse à tout type de technologie numérique pour le handicap (Smart Home, agent conversationnel, dossier patient numérique etc.), , et le second en nous focalisant plus spécifiquement sur les applications d'aide à la communication, que l'objectif poursuivi soit de pallier un handicap ou non (l'autocomplétion originellement proposée pour aider un handicap de communication se retrouve dans tout assistant SMS).

Ce projet a pour but de créer un réseau d'experts pluridisciplinaires autour de ces questions. Plus précisément, nous travaillons en partenariat avec le centre de rééducation de Garches et de Kerpape pour la mise en place d'un protocole d'évaluation des effets tant positifs qu'indésirables de la mise en place de systèmes d’aide à la communication pour des personnes atteintes de déficiences motrices de type dyspraxie.

Publications significatives :

• Lefeuvre-Halftermeyer A., Govaere V. , Antoine J.-Y. , Allegre W., Pouplin S., Departe J.-P., Slimani S. et A. Spagnulo (2016) : Typologie des risques pour une analyse éthique de l’impact des technologies du TAL. revue TAL 57 sur "TAL et éthique" pp 47-71.

• Lefeuvre A., Antoine J.-Y.et W. Allègre (2015). Ethique conséquentialiste et traitement automatique des langues : une typologie de facteurs de risques adaptée aux technologies langagières. Atelier "Eternal" à TALN’2015, Caen, France.

• Antoine J.-Y., Lefeuvre A. et W. Allègre (2014) Pour une réflexion éthique sur les conséquences de l’usage des NTIC : le cas des aides techniques (à composante langagière ou non) aux personnes handicapées. Communication lors de la journée d’étude "Ethique et TAL" de l’ATALA : Novembre 2014, INALCO Paris.

• Antoine J.-Y., Labat E., Lefeuvre A., Toinard C. (2014). Vers une méthode de maîtrise des risques dans l’informatisation de l’aide au handicap. Forum ENVIRORISK’2014, Bourges, France.

PREDICT4ALL : Prédiction de mots tolérante aux erreurs orthographiques pour travailler, écrire et communiquer

La saisie de texte sur l’outil informatique est incontournable dans notre vie quotidienne, sociale, scolaire et professionnelle. Dans ce cadre, les erreurs orthographiques peuvent être un réel handicap dans la communication avec autrui. Ces difficultés se retrouvent dans les troubles de l'apprentissage (dysorthographie), mais peuvent aussi être présentes dans certaines pathologies comme la paralysie cérébrale. Elles peuvent être caractérisées par l'ajout de lettres ou de syllabes à l'intérieur d'un mot, l'inversion de lettres ou de syllabes, par des difficultés à respecter l'entité des mots, à conjuguer et à faire l'accord correctement dans le groupe nominal et le groupe verbal. En pratique clinique, les erreurs orthographiques sont évaluées et prises en charge par différents thérapeutes. Dans cette prise en charge thérapeutique, différents axes sont mis en place, notamment celui de la compensation logicielle. En effet, certaines solutions logicielles (reconnaissance vocale, correcteur orthographique, prédiction de mots) peuvent être mises en place auprès de la personne afin de l'aider dans sa production écrite. Néanmoins, ces logiciels présentent un certain coût financier et demandent un apprentissage conséquent pour leur utilisation. De plus, ils ne permettent pas d'utiliser la prédiction / le correcteur dans différentes interfaces comme les claviers virtuels ou les outils d'aide à la communication, pourtant largement utilisées chez les enfants ayant des déficiences motrices associées. L'objectif du projet PREDICT4ALL est de développer un module de prédiction de mots qui cible les différentes erreurs orthographiques, en partant de la prédiction de mots Sibylle développée par le Laboratoire d'Informatique de Tours, pour la mettre à disposition gratuitement au plus grand nombre. Ce projet s'équilibre entre une dimension technologique liée au Traitement Automatique des Langues Naturelles (LI de Tours) et une dimension clinique (Kerpape, Garches) fortes. Il est ainsi divisé en trois phases successives : une phase d'expression des besoins utilisateurs, une phase de développement de la prédiction adaptée aux dysorthographies et une phase d'évaluation clinique avant intégration et diffusion publique via les logiciels Sibylle vK (logiciel d’aide à la communication avec synthèse vocale) et Civikey (clavier virtuel gratuit open-source développé par la société Invienetis et la Plate-Forme Nouvelles Technologies de Garches)).

Trouver ma page sur Research Gate →