APPEL A COMMUNICATIONS

14 & 15 décembre 2012

La linguistique de corpus à l'heure de la confrontation

entre concepts, techniques et applications

Miroir d'eau (1)
                                                                                                                                                                                               Crédit photo : Van Toan NGUYEN


La linguistique de corpus à l’heure de la confrontation entre concepts, techniques et applications

 14-15 décembre 2012

Université Bordeaux 3 - TELEM EA 4195 / CLEE-ERSSàB UMR 5263

    NOUVELLE DATE limite de réception des propositions : 1er JUILLET 2012 / Langues de communication : français - anglais 

    Ce colloque sera centré autour de trois thèmes :

A. comment coder les éléments discursifs à l’écrit et à l’oral ? quelles convergences, quelles divergences dans le codage de l’écrit et de l’oral ?

Les logiciels d’annotation des corpus écrits sont déjà anciens et ils ne permettent pas toujours d’aboutir à un balisage robuste ; il reste donc un certain nombre de problèmes que l’on ne sait pas résoudre, tout en entrevoyant une solution (traitement du discours). L’annotation des corpus oraux est plus récente et pose encore de très nombreux problèmes : on peut parfois s’appuyer sur les solutions envisagées pour l’écrit parce que l’oral partage certaines propriétés avec l’écrit. Mais les dissemblances entre oral et écrit sont aussi très prégnantes : corrélation syntaxe / prosodie pour l’oral, cinétique de l’oral (l’oral se structure en se produisant), opposition oral monologal / oral dialogal, etc. Cela entraîne de grandes différences avec l’annotation de l’écrit. Nous nous confronterons à trois questions : comment traiter les phénomènes discursifs ? comment caractériser les convergences entre codage de l’écrit et codage de l’oral ? comment problématiser et caractériser la spécificité du codage de l’oral ?

B. coder la multimodalité : enjeux et défis.

Le codage des fichiers images et celui des vidéos présentent de nombreuses particularités. Si le son est a priori non parsable et donc rétif à l’emploi de XML, il conserve toutefois des points communs (chaîne linguistique, séquentialité, etc.). En revanche, l’image et l’image animée constituent des documents qui appellent surtout des métadonnées. Comment peut-on dès lors coder les vidéos ? Cette question en entraîne deux autres : comment coder les aspects iconiques de l’oral ? comment lier les codages des différents composants d’une vidéo ?

C. de la linguistique de corpus aux digital humanities.

La linguistique de corpus est de plus en plus confrontée à des champs connexes auxquels elle est de plus en plus appelée à participer. Le traitement de métadonnées l’expose à un parallélisme avec les grands projets portant sur les métadonnées (par exemple, le Dublin Core). Mais elle entre aussi dans l’élaboration des digital humanities, dans le fait que les Humanités ou SHS sont de plus en plus technologisées, ce qui appelle au moins deux questions : ces technologies agissent-elles sur les concepts des SHS ? comment ces technologies transforment-elles les procédures de traitement en SHS ? Dans ce cadre, nous devrons nous confronter aux questions suivantes. Comment la linguistique de corpus peut-elle jouer un rôle à ce niveau ? quelle part des digital humanities peut-elle assumer ? en quoi la TEI permet-elle d’articuler linguistique de corpus et digital humanities ?