RISE 2017

9ème Atelier Recherche d'Information SEmantique. Caen, juillet 2017

L'atelier RISE en est à sa neuvième édition. Cette année il sera associé à la Conférence IC 2017 de la Plateforme Francophone d'Intelligence Artificielle, après avoir été organisé conjointement avec les conférences  CORIA 2016 de la Semaine du Document Numérique, IC 2015 (PFIA 2015), CORIA 2014 (SDNRI 2014), IC 2013 ,EGC 2012, CORIA 2011, INFORSID 2010 et 2009.

L'atelier RISE est soutenu par l'ARIA (Association Francophone de Recherche d'Information et Applications) et le collège Science de l'Ingénierie des connaissances de l'AFIA  (Association Francophone d'Intelligence Artificielle)

ARIA

Les inscriptions sont obligatoires. Le formulaire d'inscription est disponible en ligne: https://pfia2017.greyc.fr/inscriptions

Les actes ainsi que les présentations seront accessibles dans RISE Documents.


Présentation

Les avancées du Web Sémantique rendent possible la mise en place de nouvelles méthodes d'accès à l'information sémantique. Les ressources sémantiques mises en ligne permettent de conceptualiser les besoins des utilisateurs et les contenus des documents. En effet les systèmes d'accès à l'information peuvent désormais traiter le contenu informationnel au niveau sémantique et non plus seulement au niveau signal (texte, image, etc). Un des enjeux actuels est de proposer des fonctionnalités sémantiques pertinentes pour exploiter au mieux les ressources sémantiques telles que les ontologies, les bases de données lexicales, les thesaurii.

Le passage au niveau conceptuel permet de s'abstraire du niveau signal ainsi que, dans certains cas, de la langue. Le raisonnement au niveau conceptuel  peut être exploité pour la recherche d'information multimédia et multilingue.

Les précédentes éditions de cet atelier ont montré l'intérêt de la recherche d'information sémantique dans des domaines de spécialité tels que le domaine agricole, médical, juridique, environnement, etc.

Cet atelier a pour but de proposer un lieu d'échange entre des chercheurs issus de différentes communautés comme la Recherche d'Information, le Web Sémantique, l’Extraction des Connaissances et le Traitement Automatique des Langues Naturelles et le Multimédia

Thèmes

Les principaux thèmes abordés sont alors (liste non exhaustive, d'autres thèmes connexes peuvent être traités par les auteurs) :
  •  Modèles de Recherche d'Information Sémantique
  •  Extraction d'Information
  •  Expansion de requêtes
  •  Question/Réponse Sémantique
  •  Annotation Sémantique, Indexation Sémantique
  •  Alignement d'ontologies et correspondances pour la Recherche d'Information
  •  Langages de Représentation des connaissances pour la Recherche d'Information (Graphes Conceptuels, Logiques de Description, RDF)
  •  Utilisation des distances ou similarités sémantiques pour la Recherche d'Information
  •  Construction et enrichissement de Ressources Sémantiques pour la gestion documentaire
  •  Usage de larges Bases de Connaissances pour la Recherche d'Information, Web de données documentaires
  •  Évaluation de nouvelles méthodes d'accès sémantique
  •  Passage à l'échelle
  •  Sémantique latente et apprentissage (LSA, deep learning)

Organisation


Comité de Programme 

Organisateurs :

  • CHEVALLET Jean-Pierre, LIG, Grenoble (France)
  • ROUSSEY Catherine,IRSTEA, Clermont Ferrand (France)
  • ZARGAYOUNA Haïfa , LIPN, Paris (France)

Membres : 

  • BERTIN Marc, STIH  Paris (France),  CIRST Montreal (Canada)
  • BUSCALDI Davide, LIPN, Paris (France)
  • CALABRETTO Sylvie, LIRIS Lyon (France)
  • CHEVALLET Jean-Pierre, LIG, Grenoble (France)
  • GRAU Brigitte, LIMSI et ENSIIE (France)
  • KAMEL Mouna, IRIT, Toulouse (France)
  • ROUSSEY Catherine, IRSTEA, Clermont Ferrand (France)
  • SALLABERRY Christian, LIUPPA, Pau (France)
  • SCHWAB Didier, LIG-GETALP, Grenoble (France)
  • TAMINE LECHANI Lynda, IRIT, Toulouse (France)
  • ZARGAYOUNA Haïfa, LIPN, Paris (France)

Dates importantes

 Soumission des articles :  15 mai 2017 reportée au 20 mai 2017

 Notification aux auteurs:  1er juin 2017

 Soumission de la version définitive:  9 juin 2017

 Atelier RISE à IC@PFIA:  mardi 4 juillet 2017


Soumission

Deux types de soumissions seront possibles (en anglais ou en français), donnant lieu à une présentation de 20 minutes + 10 minutes de questions. Le format des soumissions est celui de PFIA 2017 (Latex ou Word). Les soumissions se feront sur le site de easy chair https://easychair.org/conferences/?conf=rise20170. Les soumissions seront évaluées par au moins 2 membres du comité de programme.

Articles longs  :

Article d'au moins 8 pages. Les articles longs  devront décrire des contributions originales en cours de développement (et non simplement des propositions de recherche). Les articles longs peuvent être soumis en français ou en anglais. Concernant les publications définitives, Il n'y a pas de contraintes de taille imposée pour l'atelier, mais nous recommandons que les articles longs fassent entre 8 et 12 pages en tenant compte des figures et des références.

Articles courts  :

Résumé de 2 à 4 pages, présentant un projet en cours de développement ou un début de thèse. 

Programme

9h-10h Conférence plénière AFIA (Leon van den Torre)

10H00 - 10H30 : Pause 

10h30 11h30 : Conférencier invité Mathieu Lafourcade

10 ans de JeuxDeMots : un gros réseau lexico-sémantique obtenu par crowdsourcing

Résumé : Le projet JeuxDeMots a pour objet de construire un réseau lexical de sens commun (et de spécialité) en français à l'aide de jeux (gwaps - games with a purpose), d'approches contributives mais également de mécanismes d'inférences. Une dizaine de jeux ont été conçus dans le cadre du projet, chacun permettant de collecter des informations spécifiques ou encore de vérifier la qualité de données acquise via un autre jeu. Cet exposé s'attachera à décrire la nature des données que nous avons collectées et construites depuis le lancement du projet durant l'été 2007.

Nous décrirons en particulier les aspects suivant : la structure de réseau lexical obtenu, les types de relations sémantiques représentées (ontologiques, subjectives, rôles sémantiques, associations d'idées), les questions liées à l'activation et l'inhibition de termes et relations, l'annotation de relations (méta-informations), les raffinements sémantiques (gestion de la polysémie), la création d'agglomérations permettant la représentation de connaissances plus riches.

Ce réseau lexical, distribué sous licence libre, est exploité dans de nombreux laboratoires de recherche et entreprises. Les applications en cours utilisant le réseau JeuxDeMots concernent principalement l'interprétation sémantique de textes, la compréhension de l'écrit, la recherche d'information, l'inférence de faits, l'analyse d'opinions et de sentiments - et ce dans des domaines comme la radiologie, le tourisme, la nutrition. Construit à partir d'une liste de 150 000 termes sans aucune relation entre eux, le réseau lexical de JeuxDeMots contient maintenant plus de 1000 000 termes et plus de 80 millions de relations.

11h30 12h30 : 

Enhancing Translation Language Models with Word Embedding for Information Retrieval 

            Jibril Frej, Jean-Pierre Chevallet et Didier Schwab



Améliorer la qualité d’un thésaurus à l’aide de requêtes SPARQL 

            Catherine Roussey et Stéphan Bernard

12h30-14h : Repas

14h-15h Conférencier invité Kata Gabor

Acquisition automatique de relations entre concepts dans le domaine scientifique

Résumé : De nos jours, la production d'articles scientifiques croît à un rythme accéléré. Cette explosion d'information rend le travail des chercheurs, des experts et des relecteurs de plus en plus difficile et nécessite de nouvelles méthodes pour la compréhension, l'extraction et la structuration automatique de l'information dans les textes de spécialité. Comme la disponibilité et la couverture des bases de connaissances existantes est souvent insuffisante, nous proposons de prendre comme point de départ l’analyse sémantique du contenu afin de faire émerger un modèle de connaissances. Nous présentons deux approches non supervisées pour l'acquisition des relations sémantiques dans un corpus de spécialité. L’identification des relations ne nécessite pas des données d'apprentissage annotées et bien qu'elle soit spécifiquement dédiée à la littérature scientifique, elle reste applicable sur n'importe quel domaine pour lequel une telle littérature existe.

La présentation explorera les problématiques spécifiques à la tâche non supervisée. Deux approches complémentaires seront distinguées et explorées. La première se concentre principalement sur les relations lexicales, qui se caractérisent par une sélection sémantique des arguments, et qui ne dépendent pas du contexte. Cette approche est basée sur la représentation du sens des mots individuels par des vecteurs distributionnels (word embeddings). Les vecteurs sont créés à partir de corpus et combinés pour représenter le sens et la relation sémantique du couple d’entités. Nous proposons une nouvelle méthode de combinaison de vecteurs distributionnels qui permet de mieux estimer la similarité relationnelle entre deux couples d’entités. L’avantage de cette méthode est de pouvoir s’appliquer à des couples d’entités qui ont peu de co-occurrences dans le corpus. La deuxième approche, à son tour, s’applique aux relations contextuelles et s’appuie sur les contextes de co-occurrence des entités. Les couples d’entités sont caractérisés par leurs co-occurrences avec des motifs spécifiques à la relation, qui sont extraits automatiquement à partir du corpus. Nous montrons que cette approche peut bénéficier de la fouille de motifs séquentiels, qui crée un espace vectoriel plus adapté (moins creux) pour un clustering non supervisé.

15h-15h30 : 

Annotation sémantique à partir de textes :  Cas des observations dans les Bulletins de Santé du végétal

            Haïfa Zargayouna, Catherine Roussey et Synda Ouardani


16h-17h00 : Session entreprise

La terminologie structurée, élément structurant de l'activité de l'entreprises ? Ses atouts, ses inconvénients :  exemple d'application dans une fondation d'art contemporain

    Nicolas Delaforge (Co-fondateur & Gérant, Société Coopérative Mnémotix)

La présentation concernera Mnémotix ainsi que l’intégration du standard SKOS qui est au coeur de la démarche de structuration de l'activité métier chez les clients. Cette première étape de formalisation et d'explicitation est un préalable à tout développement de service à forte valeur ajoutée. La présentation décrira, ensuite, l’outil développé pour rendre la gestion de terminologie SKOS plus accessible à des utilisateurs non-experts. La présentation finira par la présentation des développements en cours pour la mise en oeuvre d'un workflow collaboratif d'édition de terminologie métier en cours de réalisation pour la fondation d'art contemporain Lafayette Anticipation.

Constitution d'un thésaurus pour la recherche de produits

    Marc Dutoo  (responsable de projet R&D, SmileLab, Smile)

La présentation introduira l'important de la recherche de produit dans les solutions e-commerce [60% du CA vient de là], puis la solution e-commerce Smile Magento Elastic Suite qui l'adresse. Elle décrira ensuite les problématiques d'expansion de recherche et comment son thésaurus y répond. Elle se focalisera enfin sur l'usage dans la pratique de ce thésaurus et des problématiques concrètes auxquelles il a permis de répondre chez les clients Smile.


17h00-17h30 : Bilan

Comments