Corpus C-PROM

PROM est un corpus aligné et annoté, développé pour l'étude des proéminences syllabiques en français. Il inclut 24 enregistrements échantillonnés en 7 genres (ou styles) de parole et produits par des locuteurs francophones (issus de Belgique, de France et de Suisse).

Ce corpus est distribué librement à la communauté scientifique, sous acceptation de ces conditions. Nous souhaitons qu'il puisse donner lieu à des études variées permettant aux chercheurs de confronter leurs analyses sur un matériel partagé. Les publications faisant usage du corpus C-PROM seront référencée sur ce site, afin de permettre des échanges sur l'analyse de la prosodie du français, mais aussi de phénomènes syntaxiques, liés aux hésitations, etc. Les utilisateurs du corpus peuvent également proposer de nouvelles annotations à ajouter aux annotations existantes.

Le matériel téléchargeable contient les données suivantes:
  • des fichiers sons (au format .wav)
  • des fichiers d'annotation (au format .TextGrid du logiciel Praat) contenant plusieurs niveaux d'information linguistique
  • des fichiers Pitch vérifiés (au format .Pitch du logiciel Praat)
Les outils utilisés pour annoter ce corpus (alignement texte-son, stylisation de la f0, etc.) sont également distribués librement.

N'hésitez pas à envoyer vos suggestions et commentaires et à participer à la liste de discussion.

Antoine Auchlin (U. Genève), Mathieu Avanzi (U. Neuchâtel / Paris X), Jean-Philippe Goldman (U. Genève) & Anne Catherine Simon (UCLouvain)

  
Genre Enregistrements Locuteurs Durée Exemples sonores
JPA journal radiophonique 3 2M/1F 10'21"
URL de spécification du gadget introuvable
LEC lecture orale 3 3M/0F 6'41"
URL de spécification du gadget introuvable
POL discours politique 3 2M/1F 10"35
URL de spécification du gadget introuvable
CNF conférence universitaire 3 1M/2F 11'27"
URL de spécification du gadget introuvable
INT interview radiophonique 2 2M/2F 10'27"
URL de spécification du gadget introuvable
ITI prescription d'itinéraires 7 6M/3F 9'50"
URL de spécification du gadget introuvable
NAR narration - récit de vie 3 0M/3F 10'22"
URL de spécification du gadget introuvable
TOTAL 24 16M/12F 69'43"