Accueil

Description du projet

Les nominalisations, c'est-à-dire les noms dérivés de verbes (e.g. construction) ou d'adjectifs (e.g. tristesse), ont occupé et occupent toujours une place centrale dans l’analyse grammaticale. Cependant, les recherches dans ce domaine se sont surtout concentrées sur les structures argumentales et thématiques des noms concernés (Grimshaw, 1990). La question fondamentale de l'influence, au niveau temporel et aspectuel, du verbe ou de l'adjectif d'origine sur la forme nominalisée n'a suscité à ce jour qu'un intérêt limité. Il en va de même de leur représentation dans un cadre sémantique à large couverture empirique. Le projet présenté ici vise à combler ces lacunes, tant sur le plan empirique que théorique.

Au niveau empirique, nous proposons de recueillir des occurrences de nominalisations variées au sein de plusieurs corpus de référence, aussi bien en français que dans d'autres langues. Nous envisageons d’exploiter des corpus étiquetés tels que le French Treebank (Abeillé, 2003) pour le français, et le corpus Negra pour l'allemand. La première étape de notre projet consistera donc à collecter des exemples attestés de noms déverbaux et déadjectivaux, par opposition aux exemples construits sur lesquels s'appuie traditionnellement l'ensemble de la littérature. Le but de ce recueil de données est d'élargir le spectre des analyses sémantiques proposées, afin de tenir compte de phénomènes peu ou pas décrits. Nous nous appuierons aussi bien sur des approches symboliques (à base de règles) que sur l'apprentissage automatique, à partir des observations et pistes d'analyses développées dans le cadre du projet PAI Ontoref. Cette collecte de données revêt une importance cruciale pour les étapes suivantes de notre projet. Elle offre également des garanties quant à la réalisation de l'objectif applicatif général que nous poursuivons : la constitution d'un lexique sémantique des nominalisations.

Du point de vue théorique, la question centrale est de savoir si les formes nominalisées héritent de certains traits sémantiques (notamment aspectuels) de leurs bases verbales ou adjectivales. Sur ce point, la première difficulté rencontrée concerne les tests linguistiques de diagnostic des propriétés aspectuo-temporelles. En effet, les tests généralement employés dans le domaine verbal (Vendler, 1967; Dowty, 1979) s’appliquent difficilement au domaine nominal. Un travail préliminaire (Huyghe & Marín, 2006) nous a permis de proposer plusieurs tests linguistiques adaptés au traitement des nominalisations. Nous pouvons affirmer, d'après les premiers résultats obtenus, que seule une partie des traits aspectuels est effectivement héritée par les formes nominales. La détection des divergences entre formes d'origine et formes dérivées, ainsi que l'élaboration d'un ensemble de tests linguistiques adaptés au traitement de l'aspect nominal sont les deux piliers de notre projet. Il s’agit d'apporter de nouveaux éléments à la compréhension des relations entre l'Aktionsart des noms et celle des verbes et adjectifs morphologiquement apparentés. A cet objectif principal s'ajoute l'élaboration d'une ontologie adaptée au traitement des objets abstraits (situations, faits, propositions) dénotés par les nominalisations (Asher, 1993; Zuchi, 1993; Ginzburg & Sag, 2001).

Par ailleurs, il semble exister un consensus dans le domaine du TAL concernant l'importance d'une meilleure compréhension des contraintes sémantiques pesant sur les nominalisations, notamment dans le cadre du développement d'ontologies et de l’extraction d'information. Néanmoins, la prédominance des approches basées sur la structure argumentale est incontestable (Meyers et al., 1998). Nous proposons comme alternative à ce traitement univoque le développement d'un lexique des nominalisations qui, tout en intégrant autant de données que possible sur leur structure argumentale, garantisse une codification fine de leur contenu sémantique.

L'autre retombée majeure du présent projet concerne l'évaluation et la distribution d'un outil d'annotation sémantique. Cet outil mettra en oeuvre les informations accumulées et formalisées au sein du lexique sémantique proposé, ainsi que des donnés provenant de XCRF, un outil généraliste d'annotation d'arbres XML distribué par le GRAPPA-LIFL (Jousse et al., 2006). Il s’agira ainsi d'assurer une large couverture empirique, en permettant aussi bien l'étiquetage d'occurrences déjà rencontrées et décrites au sein du lexique que celui d'occurrences nouvelles.


Interface de consultation du corpus annoté

Suivez ce lien pour accéder à l'interface de consultation du corpus annoté, basé sur le French Treebank.