Mes centres d’intérêt sont au croisement de deux axes : morphologie constructionnelle du français (description et modélisation) et traitement automatique des langues (production d'outils et ressources). Leur point de convergence est le projet Démonext.
Les données sur lesquelles portent les travaux ci-dessous sont extraites de corpus authentiques : journaux, documents scientifiques, textes extraits de la Toile. L’objectif est triple : montrer l’évolution des modes de construction morphologique dans la langue contemporaine, présenter les motivations et les limites à l’expansion de ces nouveaux patrons, et enfin, proposer une classification des infractions que ces données peuvent rencontrer dans leur formation. Les thématiques abordées incluent l'analyse de procédés divers, et explorent : la formation des noms désignant des humains, la composition néoclassique, la compétition affixale ou radicale, la pluri-interprétation adjectivale, les détoponymiques.
Le choix d'utiliser des données authentiques fait partie de la pratique dite de "morphologie extensive", qui consiste à appuyer les descriptions des phénomènes sur des corpus d'exemples aussi étendus que possible. Dans ce cadre, les autres aspects de mes recherches, menées avec G. Dal, incluent la définition et l'identification des occasionnalismes, la différence entre productivité et créativité en dérivation, le point de vue des locuteurs, le rôle de la fréquence, les modes de collecte des inventions des locuteurs hébergées sur la toile.
En particulier l'exploration des larges corpus issus des explorations en ligne font émerger des séries de constructions morphologiques dont le sens et la structure ne sont au mieux qu'en correspondance partielle. Après avoir proposé avec N. Hathout une classification de ces cas de décalage, nous avons montré comment une représentation en réseau pouvait expliquer et prédire leur construction.
ParaDis ("Paradigmes et Discordances") est un modèle paradigmatique de la dérivation qui s'inscrit dans le cadre de l'approche Famille et Paradigmes. L’idée est de considérer la dérivation est paradigmatique, que cette organisation s'observe à chaque niveau de description, de sorte qu'il existe des paradigmes formels et des paradigmes sémantiques qui fonctionnent chacun de manière indépendante et qui établissent des correspondances dans le lexique sous la forme de paradigmes morphologiques. La validité théorique du modèle ParaDis est illustrée empiriquement par les données qui alimentent la base de données dérivationnelle Démonette, produite dans le cadre du projet ANR Demonext.
FLEMMv3.1 effectue l'analyse flexionnelle de textes en français préalablement munis d'une étiquette catégorielle. Les objets résultat renvoyés par Flemm sont susceptibles d'être affichés en tant que structures XML. (voir ici)
DériF (Dérivation en Français) un analyseur du lexique morphologiquement construit du Français. DériF analyse les unités du lexique construites par dérivation de manière à reconstituer, étape par étépe, l'histoire ou les histoires dérivationnelle(s) du mot analysé jusqu'au primitif. Cette analyse inclut le sens construit du dérivé, exprimé sous la forme d'une paraphrase en langue naturelle, par rapport à sa base. Dans le cadre de collaborations avec des médecins et des bio-informaticiens (2004-2007), Dérif a été étendu à l'analyse du vocabulaire médical, en français et en anglais. DériF attribue automatiquement aux noms et adjectifs composés savants du domaine médical la nature (synonymie, hyponymie, approximation) de leur relation. (voir ici)
Démonette est une une base de données morphologique du français, organisée en réseau dérivationnel, dont chaque entrée est un couple (Mot1, Mot2) appartenant à la même famille morphologique. Chaque entrée est décrite par une trentaine de traits (dont la catégorie morphosyntaxique et le type sémantique de chaque mot, ainsi que l'interdéfinition de Mot1 et Mot2). DériF a contribué à la couverture initiale de Démonette.
La première version de Démonette (2014-2016), téléchargeable [ici], décrit les relations entre les membres des familles formées d'un verbe, du nom d'agent (en -eur, -euse, -rice), du nom d'action (en -ion, -age, -ment) , et de l'adjectif en -if. (voir ici et là)
Démonette v2 (2018-) est en cours de réalisation dans le cadre du projet Demonext (voir ci-dessous).
A partir de 2018, la structure de Démonette a été adaptée pour y inclure les annotations nécessaires à l'analyse de la morphologie non-concaténative des langues sémitiques, que L. Laks (un. Bar-Ilan, Israël) et moi avons appliqué à l'hébreu (base Hebrewnette).
Le projet ANR Demonext a été financé financé par l’Agence Nationale de la Recherche (ANR), sous la référence ANR-17-CE23-0005 pour quatre ans et demi (2018-2022). Le projet réunit 4 UMR (ATILF, ERSS-CLLE, LLF, STL) et fait collaborer une équipe interdisciplinaire de 30 personnes : morphologues, talistes, informaticiens, psycholinguistes et orthophonistes.
Le but du projet est de reformater un ensemble de ressources produites par des morphologues, les réannoter et en compléter le contenu par de nouvelles descriptions, pour les mettre à disposition du public, et répondre en particulier aux besoins des Talistes, des enseignants et étudiants en linguistique, des enseignants du primaire et secondaire (acquisition du vocabulaire) et des orthophonistes (prise en charge de troubles du langage chez l'enfant, ou d'aphasies chez l'adulte).
Les résultats incluent : une base de données dérivationnelles décrivant environ 144.200 paires de lexèmes reliés morphologiquement complétée par une table présentant les propriétés catégorielles, graphiques et phonologiques de 287.630 lexèmes, une plateforme d'édition, interrogation, téléchargement et visualisation de la base, avec un volet destiné aux enseignants du secondaire ainsi qu'aux chercheurs et praticiens en orthophonie : matériel spécifique pour l'établissement de vignettes cliniques, banques d'exemples pour la conception d'exercices et la passation de tests (génération de non-mots, fréquences, familles, etc).
La présentation du projet, ses participants, leurs publications et résultats sont [ICI].
L'accès provisoire à ces résultats est [ICI]. L'adresse définitive sera décidée dans les mois qui viennent pour l'hébergement à long terme de la base.