Recherche

Maxime Amblard,  MdC, Nancy2 et Loria, Nancy, France  

accueil | curriculum-vitae | publications | enseignement | recherche | divers | contact  

Activités de Recherche détaillées [pdf]

 

Activités de Recherche - 2007/2008

Lors de mon stage post doctoral, je travaille sur la formalisation sémantique pour l'outil de traitement automatique des langues de France Télécom R&D (Orange Labs).

J'ai été recruté pour mes travaux de modélisation formelle, ainsi que pour mes aptitudes à dialoguer simultanément avec des spécialistes d'informatiques et de linguistique.

Je travaille à réintégrer la notion de portée dans la modélisation, afin de pouvoir manipuler des opérateurs sur les strutures représentant le sens d'un énoncé. Une seconde partie de mon travail consiste à redéfinir les concepts mis en jeu.

Une clause de confidentialité ne me permet pas de donner plus de détails quant au contenu de ces recherches.

Activités de Recherche - 2003/2007

Contexte

Mes recherches se placent dans le cadre de la linguistique computationnelle. Cette discipline tente de modéliser et automatiser la reconnaissance d'énoncés en langue naturelle. Lorsqu'on utilise une langue, plusieurs niveaux d'analyse peuvent être établis. L'un des plus étudiés est sans conteste la syntaxe. Cependant, ces analyses permettent d'extraire les liens qui existent entre les différents éléments mais pas d'en modéliser le contenu informationnel. La volonté d'extraire un sens d'un énoncé est un défi important pour l'évolution vers des systèmes élaborés utilisant les langues naturelles.

Les grammaires catégorielles - GC - sont un formalisme classique permettant l'étude des relations syntaxiques pour les langues naturelles. Grâce à l'isomorphisme de Curry-Howard, elles permettent de conserver et de retrouver la structure prédicative des énoncés lors de l'analyse via le lambda-calcul. Cependant leur capacité générative reste très limitée. Elles ne suffisent pas pour rendre compte de nombreux phénomènes linguistiques (discontinuité, dislocation, ...).

Une théorie linguistique récente proposée par Noam Chomsky en 1995, se situe en rupture des théories classiques. La théorie ne se contente pas de décrire la structure de la phrase mais propose un mécanisme dérivationnel de reconnaissance des structures syntaxiques par l'utilisation de deux opérations: la fusion et le déplacement.

Ed. Stabler - UCLA - a proposé une formalisation de ce programme en présentant les grammaires minimalistes - GM - (Stabler, 1997) qui sont la base de mes travaux. La première étape de mon travail a été de me former aux théories linguistiques d'une part, pour comprendre comment se situe ce formalisme par rapport aux autres, mais principalement pour déterminer les problèmes linguistiques dont doivent rendre compte les GMs.


Interface syntaxe/sémantique - 2003/2007

L'objectif principal de mes travaux est de donner un mécanisme permettant de calculer des représentations sémantiques  (formules d'ordre supérieur) représentant les rapports thématiques entre les différents éléments d'un énoncé d'une langue naturelle. Un postulat majeur a été de synchroniser le calcul sémantique sur le calcul syntaxique afin d'obtenir un maximum d'informations pertinentes lors de l'analyse (permettant d'arrêter des analyses avant la fin de le reconnaissance syntaxique si un problème sémantique se présente, comme nous le faisons dans l'acte de langage).

Mes travaux se sont articulés autours de la formalisation de l'interface syntaxe/sémantique [8],  [4].
Pour donner une interface simple et calculable sans mécanismes ad hoc, nous avons reformulé les grammaires minimalistes dans une perspective logique. Les grammaires de Lambek, permettent l'utilisation de l'isomorphisme de Curry-Howard et la correspondance entre fusion et élimination d'implication offre une perspective de rapprochement des deux formalismes. La contre-partie sémantique étant l'application d'un terme à un autre. Plusieurs contraintes et problèmes s'imposent par contre pour l'interprétation de l'opération de déplacement.

Dans le même temps, j'ai travaillé sur la portée des quantificateurs qui est un problème spécifique de sémantique. Mon choix s'est porté sur ces phénomènes d'une part pour leur présence systématique dans les énoncés de langue naturelle (au moins pour chaque déterminant d'une phrase) et d'autre part pour les problèmes qu'ils entraînent dans la forme même des structures sémantiques.
La sous-spécification est une première solution, laissant les problèmes de résolution en fin de calcul, par l'utilisation d'une représentation des lambda-termes par des arbres sous-spécifiés : CLLS (Constraint language for Lambda Structures), proposé par Markus Egg. Cette proposition a fait l'objet d'un poster lors de la cession RECITAL05 [7]. Cependant, bien que cette proposition donne de bons résultats sur les ambiguïtés de portée des quantificateurs, elle introduit des mécanismes ad hoc dans le calcul.

Les autres analyses des GMs et des problèmes de sémantique, nous ont conduit à proposer un traitement de la coordination et de l'ellipse pour des grammaires de type logique, travaux qui ont été menés conjointement avec Houda Anoun et Alain Lecomte. La proposition se fonde sur l'utilisation du lambda-calcul comme outils pour la sémantique et la phonologie, en se basant sur un système logique possédant l'opérateur $!$. Les possibilités de contraction sont directement introduites dans le lexique. Par exemple, pour ``Jean est parti puis revenu", ``Jean" et ``il" sont reconnus comme étant le même item lexical ce qui permet de résoudre l'anaphore pronominale. Une présentation peut être trouvée dans [6].


MG et Capacité générative - 2004/2005

Parallèlement aux questions d'interface syntaxe/sémantique, j'ai étudié les propriétés du formalisme lui-même. Deux axes ont été retenus: (1) l'étude de la capacité générative et la production de grammaires pour des langages formels connus (du type a^nb^pc^nd^p..., ou a^{f(n)} avec f(n) la fonction de Fibonacci, ....). Une présentation des compteurs enchassés a été donnée lors de la student session de LACL05, [3] ;
(2) j'ai travaillé à identifier les mécanismes entrant en jeu dans les GMs et comment les
retrouver dans d'autres formalismes, notamment les GC, les TPG (Tuple PreGroup Grammars, ... ).
Le but était d'identifier les points cruciaux du formalisme pour identifier des structures particulières afin de les interpréter comme conditions de bonne formation des lexiques.

L'analyse des mécanismes m'a permis de proposer une série de décompositions des analyses fournies par les GMs en fonction de ce qui est recherché. En effet, une partie de la structure prédicative  peut être directement déductible de la suite de fusions. J'ai donc proposé une normalisation des GMs pour la fusion permettant d'extraire cette information. Cette modélisation peut être réalisée sur la totalité d'un lexique. Cette modélisation abstraite est un outil performant dans la phase de rédaction du lexique et peut être utilisée comme filtre avant analyse (mais pas comme un parseur en lui même). L'extraction de représentation abstraite ainsi qu'un module de calcul sémantique basé sur la suite des fusions ont été implémentés en Ocaml pour le parser de John Hale.

Fragment de GM du français - 2005/2006

Ensuite, j'ai engagé la rédaction d'une GM du français. Ma problématique n'était pas d'être en mesure de fournir une grammaire à large couverture, mais de pouvoir utiliser un analyseur pour les GMs dans lequel il serait possible de reconnaître des phénomènes linguistiques caractéristiques. Après avoir modélisé les phrases standard, j'ai axé la rédaction de ce fragment sur une modélisation des clitiques (pronoms anaphoriques). Leurs règles d'utilisation sont très dépendantes du contexte. Cette étude a été présentée lors du workshop ``the Logic of Variation" [5], puis a fait l'objet d'une présentation à FG, [2].
Les résultats ont par la suite été étendus permettant la reconnaissance en ce qui concerne le groupe verbal: la négation, l'impératif, les enchassées, les relatives, et  la nominalisation: la dislocation droite et gauche, l'extraction d'un groupe nominal.


Résultats récents - 2006/2007

Les travaux plus récents se sont portés sur l'interprétation de l'opération de déplacement. Cela a nécessité d'étendre le système logique pour obtenir la commutativité entre hypothèses. La logique linéaire mixte possède toutes ces propriétés. Avec Christian Retoré, nous avons montré la normalisation faible, et dans le cas du calcul de Lambek avec produit, qui est un cas particulier de la logique linéaire mixte, une normalisation forte, [1]. En utilisant un fragment de cette logique, nous proposons un calcul -grammaires minimaliste catégorielles - simulant les opérations de fusion et de déplacement, ainsi qu'une interprétation des contraintes de rédaction des lexiques des GMs. Un calcul sémantique est basé sur les GMCs: la sémantique globale est dissociée sur chacune des composantes, ce qui entraîne la réification des formules. Ainsi aucun mécanisme ad hoc n'est introduit. L'opération de déplacement est alors la substitution de variables globales, mécanisme issu de la DRT -Discourse Représentative Theory. Afin d'affiner ce calcul, nous utilisons une décomposition des quantificateurs (inspirée de la DRT), ainsi que les propriétés du lambda mu-calcul pour rendre compte des ambiguïtés de portée des quantificateurs. L'interface syntaxe/sémantique actuelle est beaucoup plus élaborée. Ces travaux font l'objet de propositions de soumissions, actuellement en cours de rédaction.




Projet scientifique et motivations

Travaux futurs dans le cadre du minimalisme:

 l'interface syntaxe sémantique proposée dans le cadre de ma thèse doit recevoir des extensions.
Des phénomènes importants restent à intégrer, en particulier la résolution d'anaphore (a) et la coordination (b). Pour (a),  une première perspective est d'intégrer l'algorithme de résolution d'anaphore dans le cadre générativiste et la théorie du liage, proposé par Bonato dans ses travaux de thèse.
Pour (b) des perspectives d'interprétations collectives et distributives ont été envisagées, tout comme l'utilisation de la copie par l'opérateur '$!$'. Je souhaite vivement continuer à travailler sur ces deux points tout en conservant l'utilisation du lambda mu-calcul pour rendre compatible avec l'ISS ces deux traitements.

  • Parallèlement à ces questions d'interface syntaxe/sémantique, je souhaite à présent me tourner vers la jonction avec les interface pragmatique/sémantique. Deux perspectives se présentent: dans le cadre de l'action nationale de recherche PRELUDE, des travaux liant la ludique (cadre logique proposé par J.Y. Girard) et la pragmatique sont en cours. Pour l'heure, le lien syntaxe/sémantique reste le point crucial du projet, mais la perspective pragmatique reste l'objectif.  
  • de récents travaux de Nicholas Asher, sur l'interface pragmatique/sémantique dans le cadre de grammaires lexicalisées, proposent une modélisation des entités par des types complexes, formant des tuples de propriétés. Or l'ISS proposée dans mes travaux est également basée sur la dissociation des propriétés inhérentes à un groupe nominal sur plusieurs composantes pour former des tuples. Cette symétrie entre proposition de modélisation pour des interfaces convergentes me semble être une perspective à poursuivre.

 

 Je souhaite également continuer à utiliser les GMs pour la modélisation syntaxique. Lors de mes travaux de thèse, j'ai été amené à côtoyer des linguistes travaillant sur la Langue des Signes Française (LSF). Cette langue n'utilise pas les composantes sur lesquelles les formalismes de TAL sont basés (les mots). L'objectif est de proposer un outil simplifiant les rapports entre une communauté isolée et le reste de la société (via la production d'avatars de qualité). Cependant, la modélisation d'autres phénomènes naturels, ayant la même cohérence, en utilisant les GMs aurait un intérêt pour ouvrir une nouvelle voie aux interprétations que le formalisme fournit.

En effet, au cours de ma thèse, j'ai été amené à me poser la question de la pertinence du formalisme en dehors des questions syntaxiques. Par exemple, quel pourrait être son intérêt pour la modélisation du discours ou encore pour des travaux plus connexes comme l'extraction de structures de documents, ou celle de scénari dynamiques, etc. En fait, ce cadre permet de retrouver des structures syntaxiques, donc son utilisation dans d'autres contextes permettrait l'extraction d'autres informations structurées.
La dissociation de la localisation de l'information et la nécessité de connaître soit de l'information a priori et/ou a posteriori forment un mécanisme facilement réutilisable.


Bien que l'ensemble de mes travaux soit resté très théorique, que ce soit dans l'analyse formelle des propriétés des GMs ou dans la proposition d'interface syntaxe/sémantique, et ce malgré quelques outils fonctionnels qui ne permettent que quelques tests en laboratoire, une utilisation à grande échelle est une voie que je souhaite explorer. Plusieurs problèmes se posent alors, notamment le fait que les algorithmes utilisés pour l'analyse ne sont pas suffisamment efficaces. Je souhaite à la fois les améliorer et utiliser les résultats de mes analyses sur la bonne formation des lexiques pour les optimiser.
Les implémentations pourraient aussi bien être réalisées dans un langage de script (Python) ou en Ocaml pour garder le lien avec l'analyseur existant.
Parallèlement, la collaboration avec des linguistes permettrait d'élaborer une véritable grammaire du français à large couverture.

Une fois ces travaux réalisés, les GMs seront en mesure d'analyser de grandes masses de données des points de vue syntaxique et sémantique. Dès lors, des tests sur un formalisme de pragmatique automatisé pourraient être envisagés.
Cette étape permettrait de passer à des systèmes effectifs dans le monde réel, comme l'interrogation de base de données en langue naturelle, l'extraction d'informations pertinentes dans de grandes masses de données structurées, extraction de structures.
Pour parvenir à de tels résultats, l'utilisation de probabilités et statistiques, que j'ai enseigné ces dernières années, semble nécessaire.


Pendant ma thèse, j'ai été amené à me familiariser avec d'autres formalismes classiques ou se posant des problématiques similaires aux miennes. Si chacun a ses caractéristiques lui donnant sa légitimité, l'ensemble des problèmes reste le même. Les solutions pertinentes doivent être extérieures à toute formalisation. Je peux m'intégrer dans une équipe utilisant un autre formalisme tout en apportant mon point de vue global sur les questions de linguistique computationnelle.

Les problématiques liées à la linguistique computationnelle sont à la fois du domaine de la linguistique et de l'informatique. Je souhaite poursuivre dans cette voie qui me permet de rester en contact avec des problématiques de la langue, par goût personnel, tout en mettant à profit la formation d'informaticien et de mathématicien que j'ai reçue.


Finalement, je souhaiterais, dans un avenir proche, pouvoir intégrer un organisme de recherche dans une unité spécialisée pour le traitement automatique des langues, me permettant à la fois de continuer des recherches théoriques sur les formalismes de traitement automatiques des langues et de réaliser des outils efficaces mettant en oeuvre mes résultats, mon implication dans la recherche ne pouvant pas aller l'un sans l'autre.

 

Références utilisées. Pour plus de détails, se référer à la page publication

 

[1] Maxime Amblard et Christian Retoré. Natural Deduction and Normalisation for Partially commutative linear logic and Lambek calculus with Product, Computation and Logic in the real world, 2007.

[2] Maxime Amblard. Treating clitics with MG, Formal Grammar, 2006.

[3] Maxime Amblard. Counting dependencies and Minimalist Grammars, student session of
LACL05, 2005. 

[4] Maxime Amblard, Alain Lecomte et Christian Rétoré. Syntax and Semantics interacting
in a Minimalist theory
, Prospect and advances in the Syntax/Semantics Interface, 2003.

[5] Maxime Amblard. Treating the Semantics of french clitics with MG, The logic of variation, 2006.  

[6] Maxime Amblard, Houda Anoun et Alain Lecomte. Ellipse et coordination en grammaire
logique
, JSM06. 

[7] Maxime Amblard. Synchronisation syntaxe sémantique, des grammaires minimalistes
catégorielles aux Constraint Languages for Lambda Structures
, RECITAL 2005.

[8] Maxime Amblard, Alain Lecomte et Christian Rétoré. Interface syntaxe sémantique pour les
Categorial Minimalist Grammar
. JSM 2004.