Themen & Ergebnisse
Themen & Ergebnisse (4): TEI-Annotation
Bislang existiert kein Standard für die linguistische Annotation und Strukturbeschreibung von Genres internetbasierter Kommunikation. Für die Interoperabilität von Sprachressourcen ist es jedoch wünschenswert, IBK-Korpora auf der Grundlage eines einheitlichen Basisschemas bzw. kompatibel zu einem anerkannten Austauschformat zu repräsentieren. Einer der Schwerpunkte des Netzwerks lag daher auf der texttechnologischen Modellierung von IBK auf der Grundlage etablierter Standards für die Repräsentation von Textdaten im Bereich der Digitale Humanities.
Laurent Romary lieferte mit seinen Gastbeiträgen zu drei Netzwerktagungen wertvolle Hinweise für die Erarbeitung entsprechender Repräsentationsschemata auf Basis des Encoding Frameworks der Text Encoding Initiative (TEI P5), das sich per ‚customization‘ nach festgelegten Regeln auch an neue, im Framework bislang nicht explizit berücksichtigte Genres anpassen lIässt.
In den Vorarbeiten zum DeRiK-Projekt wurde 2011/12 ein kustomisiertes Schema für IBK-Genres entwickelt und auf der Jahrestagung der TEI in einem Panel vorgestellt sowie im TEI-Journal publiziert (Beißwenger et al. 2012). Entwurfsfassungen des Schemas wurden auf Tagungen des Netzwerks und mit Vertretern der TEI diskutiert; es bildet auch den Ausgangspunkt für die Arbeit der 2013 neu gegründeten Special Interest Group „Computer-Mediated Communication“ in der TEI, in der unter Beteiligung von Korpusprojekten zu verschiedenen europäischen Sprachen ein Vorschlag für einen TEI-Standard zur Repräsentation von IBK-Genres erarbeitet wird. Zentrale Konzepte des Schemas wurden von verschiedenen anderen Korpusprojekte adaptiert (Chanier et al. 2014, Margaretha & Lüngen 2014, Lüngen et al. 2016).
Publikationen zum Themenschwerpunkt:
- Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar; Storrer, Angelika (2012): A TEI Schema for the Representation of Computer-mediated Communication. In: Journal of the Text Encoding Initiative (jTEI), Issue 3, November 2012 (DOI: 10.4000/jtei.476).
- Chanier, Thierry; Poudat, Céline; Sagot, Benoit; Antoniadis, Georges; Wigham, Ciara; Hriba, Linda; Longhi, Julien; Seddah, Djamé (2014): The CoMeRe corpus for French: structuring and annotating heterogeneous CMC genres. Journal of language Technology and Computational Linguistics, 29(2), 1–30.
- Lüngen, Harald; Beißwenger, Michael; Herold, Axel; Storrer, Angelika (2016): Integrating corpora of computer-mediated communication in CLARIN-D: Results from the curation project ChatCorpus2CLARIN. In: Stefanie Dipper, Friedrich Neubarth & Heike Zinsmeister (eds.): Proceedings of the 13th Conference on Natural Language Processing (KONVENS 2016), 156-164.
- Margaretha, Eliza; Lüngen, Harald (2014): Building Linguistic Corpora from Wikipedia Articles and Discussions. Journal of language Technology and Computational Linguistics, 29(2), 59–82.
- [TEI P5] TEI Consortium (eds) (2007): TEI P5: Guidelines for Electronic Text Encoding and Interchange.