Réseaux Lexicaux et Traitement des Langues Naturelles

1        PRÉSENTATION DU CHAMP / THÉMATIQUES VISÉES

La façon dont nous regardons les unités lexicales, leur organisation et utilisation a radicalement changé ces dernières décennies. Décrites dans des dictionnaires et considérées comme des annexes de la grammaire dans les années 80, on les considère désormais comme de la matière première en tal. Si à l’époque on utilisait encore des termes comme ‘mots’ ou ‘dictionnaires’, on parle aujourd’hui plutôt de ‘ressources lexicales’ dont il existe un certain nombre (WordNet, FrameNet, VerbNet, PropBank, ...). Celles-ci ont été standardisées (http://en.wikipedia.org/wiki/UBY-LMF), liées entre elles (http://verbs. colorado.edu/semlink/) ou liées à des encyclopédies comme Wikipédia (http://en.wikipedia. org/wiki/BabelNet). Il y a également des projets comme DBnary (http://kaiko.getalp.org/ about-dbnary) qui, partant de Wiktionary, fournit des ressources lexicales dans de nombreuses langues.

Si dans le passé on créait des dictionnaires à la main, on le fait aujourd'hui de manière (semi-) automatique et à l'aide de corpus. Bien entendu, cette évolution ne s'est pas faite du jour au lendemain. Les premières tentatives de création automatique de ressources à partir de dictionnaires imprimés (Ide & Véronis, sites.univ-provence.fr/veronis/publis.html) se sont vite heurtées à des problèmes, en raison de la pauvreté de la source : les dictionnaires papier ne contenaient pas les informations nécessaires permettant ensuite un usage par la machine. Or, c’était justement le but recherché. L’accès à de vastes corpus a alors permis de marquer un tournant et de construire des ressources plus riches, plus explicites et mieux structurées. Concernant ce dernier point, WordNet (wn) a joué un rôle capital. Bien qu’il n’a pas eu le succès escompté auprès des psycholinguistes ou auprès des utilisateurs consultant la ressource (pour chercher des mots), wn a eu un succès considérable en tal. Ceci dit, wn a également eu un impact incontestable sur le plan théorique. Il a profondément modifié notre manière de voir la structure des ressources lexicales. Dorénavant, elles ne se résument plus à des simples listes alphabétiques, mais elles sont représentées plutôt sous forme des graphes (réseau lexical) dont les noeuds sont des unités lexicales liées par différents types de relations.

Parallèlement à l’évolution des ressources lexicales, on a pu observer une évolution notable concernant les travaux portant sur les graphes. Ces derniers semblent se prêter à merveille à la modélisation de divers domaines (Barrat, 2008, Barabási, 2003), y compris celui de la langue. En effet, il y a eu de nombreux travaux montrant leur pertinence pour capter le sens des mots et celui des phrases (Widdows, 2004; Sowa, 1991) ou pour modéliser divers aspects du ‘monde’ lexical : structures associatives (http://www.eat.rl.ac.uk, ou http://w3.usf.edu/FreeAssociation/), structure du dictionnaire (Gaume et al. 2008), densité lexicale, distance moyenne entre les mots (Vitevitch, 2008), accessibilité (Ferrer i Cancho & Sole, 2001), aspects dynamiques des graphes (Dion, 2012), etc.

Nous constatons donc qu’il y a deux communautés, dont l’une s’intéresse aux données (concrètes comme les unités lexicales), et l’autre plutôt à leur représentation et organisation (graphes, topologie, navigation). C’est pour encourager l’échange d’idées entre ces deux mondes que nous organisons cet atelier.

2        THEMES

   Nous attendons des soumissions portant sur les thèmes évoqués plus haut et en particulier :

  • Origine des données permettant la construction des ressources : corpus (web, blogs, courriels), êtres humains (liste d’associations), etc. ;
  • Méthode de construction de la ressource : automatique, semi-automatique, collaborative (par des jeux, etc.) ;
  • Construction automatique du réseau : repérage et caractérisation des relations sémantiques ;
  • Structuration des données : alphabétique, thématique, liens sémantiques, liens associatifs ;
  • Propriétés mathématiques des réseaux lexicaux ;
  • Facteurs affectant le poids des noeuds ou des liens : aspects dynamiques des graphes (fréquence, saillance, récence, changement de thème, etc.) ;
  • Caractérisation topologique du graphe lexical : distribution, densité relative, évolution du graphe ;
  • Exploitation ou utilisation de la ressource ou d’une de ses transformations comme la transformation du graphe en arbre pour assister la navigation (accès lexical) ;
  • Accessibilité des mots grâce à des caractéristiques du réseau : phénomène du ‘petit monde’, etc. ;
  • Visualisation et manipulation des graphes : traduction en arbre, clustering, calcul de similarité sémantique ;
  • Modélisation des variations linguistiques et des changements de la langue : évolution du lexique.