Internationaler Workshop "CMC-Corpora" (2013)

Building Corpora of Computer-Mediated Communication: Issues, Challenges, and Perspectives

Internationaler Workshop, TU Dortmund, 13.-15.02.2013

Der Workshop hatte zum Ziel, die im Netz­werk bearbeiteten Fragestellungen rund um den Aufbau linguistisch aufbereiteter IBK-Korpora zum Deutschen durch einen Austausch mit Korpusprojekten zu anderen Sprachen zu internationalisieren. Der Workshop präsentierte einen Überblick über aktuelle Arbeiten und Desiderate in Projekten zum Deutschen, Englischen, Französischen, Italienischen, Niederländischen und Spanischen. Ausgehend von den vorgestellten Arbeiten wurden Punkte gemeinsamen Interesses sondiert, für die ein Transfer von Konzepten und eine sprachenübergreifende Erarbeitung von Lösungen anzustreben sind.

Der Workshop wurde finanziert aus Fördermitteln des Programms „Global Young Faculty“ der Stiftung Mercator und der Universitätsallianz Metropole Ruhr (UAMR).

Als Ergebnis des Workshops wurde ein Netzwerk für den weiteren Austausch zwischen den Projekten initiiert. Als ein zentrales Desiderat beim Aufbau wurde das Fehlen eines Standards für die Annotation von IBK-Genres identifiziert. Da verschiedene Korpusprojekte sich zum Zeitpunkt des Workshops in einem Stadium befanden, in dem das Basisschema für die Annotation der Korpusdaten noch nicht endgültig festgelegt war, und Interoperabilität mit anderen Korpora (zu anderen Sprachen und Textgenres) einhellig als wünschenswert angesehen wurde, wurde in der Folge aus dem neu gegründeten Netzwerk heraus ein Antrag an den Council der Text Encoding Initiative (TEI) zur Einrichtung einer Special Interest Group (SIG) „Computer-Mediated Communication“ formuliert. Aufgabe der SIG sollte es sein, ausgehend von existierenden Modellierungsoptionen sowie einem im TEI-Journal publizierten Schemaentwurf von Mitgliedern des Empirikom-Netzwerks (Beißwenger et al. 2012) einen gemeinsamen Vorschlag für einen TEI-Standard für IBK-Korpora zu erarbeiten, der auf die Anforderungen von Korpusprojekten zu unterschiedlichen Sprachen zugeschnitten ist.

Die Einrichtung der SIG wurde im August 2013 durch den TEI Council bewilligt, an der Gründung der SIG beteiligt waren Projekte aus Frankreich (CoMeRe), Deutschland (DeRiK), den Niederlanden (SoNaR) und aus Italien (Web2Corpus_it). Bis 2016 hat die SIG drei aufeinander aufbauende Schemavorschläge entwickelt und an verschiedenen Korpora getestet. Die darin beschriebenen Modellierungsvorschläge würden bei den TEI-Konferenzen 2013 in Rom, 2015 in Lyon und 2016 in Wien im Rahmen von Special Topic Panels und Einzelvorträgen mit der TEI-Community diskutiert. Für 2017 ist die Formulierung einer "offiziellen" Eingabe in den TEI-Standardisierungsprozess (Feature Request) zu einem Basisschema für IBK-Genres geplant.

Ausgewählte Beiträge des Workshops wurden 2014 in Form eines Themenhefts des Journal for Language Technology and Computational Linguistics (JLCL) publiziert.

Der Workshop war die Initialzündung für die Etablierung der internationalen Konferenzreihe "CMC and Social Media Corpora for The Humanities" (cmc-corpora.org) mit seit 2013 jährlich stattfindenden Konferenzen (2013, 2014: Dortmund, 2015: Rennes/Frankreich, 2016: Ljubljana/Slowenien, 2017: Bozen(Italien in Vorb.). Einen Überblick über das Themenspektrum der Folgekonferenzen bieten die Online-Proceedings der 4. Konferenz in Ljubljana.

Programm des Workshops