Corpus C-PROM

PROM est un corpus aligné et annoté, développé pour l'étude des proéminences syllabiques en français. Il inclut 24 enregistrements échantillonnés en 7 genres (ou styles) de parole et produits par des locuteurs francophones (issus de Belgique, de France et de Suisse).

Ce corpus est distribué librement à la communauté scientifique, sous acceptation de ces conditions. Nous souhaitons qu'il puisse donner lieu à des études variées permettant aux chercheurs de confronter leurs analyses sur un matériel partagé. Les publications faisant usage du corpus C-PROM seront référencée sur ce site, afin de permettre des échanges sur l'analyse de la prosodie du français, mais aussi de phénomènes syntaxiques, liés aux hésitations, etc. Les utilisateurs du corpus peuvent également proposer de nouvelles annotations à ajouter aux annotations existantes.

Le matériel téléchargeable contient les données suivantes:
  • des fichiers sons (au format .wav)
  • des fichiers d'annotation (au format .TextGrid du logiciel Praat) contenant plusieurs niveaux d'information linguistique
  • des fichiers Pitch vérifiés (au format .Pitch du logiciel Praat)
Les outils utilisés pour annoter ce corpus (alignement texte-son, stylisation de la f0, etc.) sont également distribués librement.

N'hésitez pas à envoyer vos suggestions et commentaires et à participer à la liste de discussion.

Antoine Auchlin (U. Genève), Mathieu Avanzi (U. Neuchâtel / Paris X), Jean-Philippe Goldman (U. Genève) & Anne Catherine Simon (UCLouvain)

  
Genre Enregistrements Locuteurs Durée Exemples sonores
JPA journal radiophonique 3 2M/1F 10'21"
LEC lecture orale 3 3M/0F 6'41"
POL discours politique 3 2M/1F 10"35
CNF conférence universitaire 3 1M/2F 11'27"
INT interview radiophonique 2 2M/2F 10'27"
ITI prescription d'itinéraires 7 6M/3F 9'50"
NAR narration - récit de vie 3 0M/3F 10'22"
TOTAL 24 16M/12F 69'43"