Themen & Ergebnisse

Themen & Ergebnisse (4): TEI-Annotation

Bislang existiert kein Standard für die linguistische Annotation und Strukturbeschreibung von Genres internetbasierter Kommunikation. Für die Interoperabilität von Sprachressourcen ist es jedoch wünschenswert, IBK-Korpora auf der Grundlage eines einheitlichen Basisschemas bzw. kompatibel zu einem anerkannten Austauschformat zu repräsentieren. Einer der Schwerpunkte des Netzwerks lag daher auf der texttechnologischen Modellierung von IBK auf der Grundlage etablierter Standards für die Repräsentation von Textdaten im Bereich der Digitale Humanities.

Laurent Romary lieferte mit seinen Gastbeiträgen zu drei Netzwerktagungen wertvolle Hinweise für die Erarbeitung entsprechender Repräsentationsschemata auf Basis des Encoding Frameworks der Text Encoding Initiative (TEI P5), das sich per ‚customization‘ nach festgelegten Regeln auch an neue, im Framework bislang nicht explizit berücksichtigte Genres anpassen lIässt.

In den Vorarbeiten zum DeRiK-Projekt wurde 2011/12 ein kustomisiertes Schema für IBK-Genres entwickelt und auf der Jahrestagung der TEI in einem Panel vorgestellt sowie im TEI-Journal publiziert (Beißwenger et al. 2012). Entwurfsfassungen des Schemas wurden auf Tagungen des Netzwerks und mit Vertretern der TEI diskutiert; es bildet auch den Ausgangspunkt für die Arbeit der 2013 neu gegründeten Special Interest Group „Computer-Mediated Communication“ in der TEI, in der unter Beteiligung von Korpusprojekten zu verschiedenen europäischen Sprachen ein Vorschlag für einen TEI-Standard zur Repräsentation von IBK-Genres erarbeitet wird. Zentrale Konzepte des Schemas wurden von verschiedenen anderen Korpusprojekte adaptiert (Chanier et al. 2014, Margaretha & Lüngen 2014, Lüngen et al. 2016).

Publikationen zum Themenschwerpunkt: