Accueil

Atelier thématique organisé dans le cadre de la conférence JEP-TALN-RECITAL 2016INALCO, Paris, 4 Juillet 2016
Thème de l'atelier :

Les contenus textuels générés par les internautes sur le Web sont aujourd'hui multiples : blogs, commentaires (sur des produits, forums, sur des articles de journaux en ligne, etc.), micro-blogs sur les réseaux sociaux, etc. Ces contenus sont générés quotidiennement dans un volume considérable et leur variété de forme et de contenu en fait un objet d'étude intéressant pour le TAL ou la fouille de données. Ils offrent également l'opportunité de mettre au point des applications Big Data sur des données observées en « temps réel » dans des domaines variés comme le marketing, la sociologie, la sécurité, la pharmacovigilance, etc.


Lors de cet
atelier seront abordées les spécificités de ces contenus selon ces deux points de vue :
  • du point de vue de la forme, ils sont souvent caractérisés par une taille limitée, un vocabulaire et une syntaxe propres (abréviations, émoticônes, hashtags, etc.);
  • du point de vue du fond, ils sont une source d'informations importante pour l'extraction de connaissances mais leur compréhension hors contexte est parfois difficile voire impossible.

L'atelier sera l'occasion de se faire rencontrer des chercheurs en linguistique et en linguistique computationnelle autour d'outils TAL et applications permettant de répondre aux questions suivantes :

  • comment se comportent les outils TAL existants sur ce type de contenu ?
  • comment adapter ces outils aux spécificités de ces données ?
  • quels types d'application émergent de ces nouveaux contenus et comment sont-elles mises en oeuvre à travers ces outils?

Pour répondre à ces questions, nous invitons des soumissions autour des thématiques suivantes :

  • Normalisation (correction orthographique, etc.) et analyse syntaxique (particularités des textes courts et dégradés, analyse des hashtags, etc.)
  • Traitement de fils de discussion : coréférence, anaphore
  • Extraction d'information : entités nommées, expressions temporelles, etc.
  • Détection du langage figuratif : humour, ironie, sarcasme, métaphore
  • Prise en compte du contexte discursif de la conversation, contexte de l'actualité
  • Rôle des informations extra-linguistiques ou meta-données comme le profil utilisateur, les informations démographiques (comme le genre, localisation géographique), les liens sociaux, etc.
  • Applications mettant en œuvre des approches spécifiques aux données du web social : détection de communautés, d'événements, de buzz ; analyse des opinions et émotions sur un sujet donné ; détection de rumeurs, de mensonges, de conflits, de changements d'opinion (par exemple, au fil d'une discussion) ; prédiction de votes, etc. 

Une attention particulière sera donnée au traitement de contenus textuels en langue française mais également aux outils et applications de contenus multilingues.