3. Arbeitstagung (HU Berlin, 2012)

3. Arbeitstagung, Humboldt-Universität zu Berlin, 27.-29.02.2012

Die 3. Arbeitstagung wurde von Anke Lüdeling und Team an der Humboldt-Universität zu Berlin ausgerichtet.

Schwerpunkte der Berliner Tagung waren Fragen der linguistischen Annotation und Repräsentation von Korpora internetbasierter Kommunikation (IBK-Korpora) sowie der Verwaltung von Korpora mit Mehrebenen-Annotationen. In einem Doppelvortrag stellte einleitend Amir Zeldes (Berlin) als externer Gast in Kooperation mit den Netzwerkmitgliedern Anke Lüdeling und Torsten Zesch die Vorteile und Anforderungen von Mehrebenen-Architekturen vor. Als Beispiele für linguistische Analysen auf Basis von Mehrebenen-annotierten Korpora dienten Fallstudien mit der Tübinger Baumbank TüBa-D/Z und mit Lernerkorpora (Reznicek, Lüdeling & Hirschmann 2013). Torsten Zesch gab einen Überblick über Möglichkeiten der Automatisierung bei der Verwaltung und Verarbeitung von Mehrebenen-Architekturen mit dem UIMA-Framework. Als Ergänzung zum Vortrag war der Tagung eine praktische Einführung in die Nutzung des Analyse- und Visualisierungswerkzeugs ANNIS in Form eines halbtägigen Workshops angegliedert, die von Mitarbeitern des Berliner Lehrstuhls durchgeführt wurde. Der Mehrebenen-Ansatz floss in der Folge in verschiedene laufende Projekte im Netzwerk ein.

Ein zentraler Teil der Tagung war Problemaufrissen und Experimenten zur Verarbeitung und Annotation von IBK-Korpora und von IBK-Anteilen in Webkorpora gewidmet. Kay-Michael Würzner (Potsdam) berichtete über Experimente zur linguistischen Annotation von Daten aus dem Dortmunder Chat-Korpus mit gängigen sprachtechnologischen Werkzeugen und entwarf eine erste Fehlertypologie. Stefanie Dipper gab einen Einblick in die Funktionsweise von Spell-Checking-Tools und diskutierte die Brauchbarkeit solcher Werkzeuge für die automatische Normalisierung von Korpora mit nichtstandardisierter Schriftlichkeit. Bianka Trevisan, Melanie Neunerdt und Eva-Maria Jakobs stellten Ergebnisse aus Experimenten zur Annotation von Blogkommentaren vor, die im Aachener Projekt HUMIC durchgeführt wurden. Stefan Evert und Torsten Zesch diskutierten Ansätze zur Evaluation der automatischen linguistischen Annotation großer Webkorpora. Michael Beißwenger und Angelika Storrer gaben einen Überblick über den aktuellen Stand der Entwicklung eines TEI-Schemas für die Annotation von IBK-Genres aus dem DeRiK-Projekt; Laurent Romary kommentierte den Entwurf als eingeladener Gast und gab wertvolle technische Hinweise für die weitere Arbeit an TEI-Modellen für die Repräsentation von IBK.

Als Resultat der Bestandsaufnahme zur Verarbeitung und Annotation von IBK-Daten konnte festgehalten werden, dass Sprachverarbeitungswerkzeuge, die für Genres mit redigierter Schriftlichkeit (Zeitungstexte u. Ä.) entwickelt wurden, für IBK-Daten keine zufrieden stellenden Analyseergebnisse liefern und dass Verfahren und Tagsets entsprechend an die strukturellen und linguistischen Besonderheiten von IBK-Genres angepasst werden müssen. In diesem Bereich substanziell voranzukommen, stellt für viele der Netzwerkbeteiligten ein zentrales Desiderat dar: Sowohl für Linguistik und Kommunikationswissenschaft, die an korpusgestützten Untersuchungen zu IBK-Phänomenen interessiert sind, wie auch für die automatische Aufbereitung und Analyse von Webkorpora im Bereich der Sprachtechnologie ist es wünschenswert, Ansätze und Verfahren zu entwickeln, die mit den strukturellen und linguistischen Besonderheiten von IBK-Daten umgehen können, sowie über Standards zu verfügen, die eine interoperable Repräsentation von IBK-Ressourcen (z.B. kompatibel zu den Formaten der TEI) erlauben.

Weitere Beiträge der Tagung behandelten die komplexen Anforderungen bei der linguistischen Analyse multimodaler IBK-Genres (Dissertationsprojekt von Wolf Stertkamp/Gießen, abgeschlossen 2016), die Modellierung von Diskursstrukturen und Kollaboration in Wikipedia (Dissertationsprojekt von Johannes Daxenberger/Darmstadt) sowie die Aachener Innovationsplattform "Social Networking Site (Eva-Maria Jakobs & Bianka Trevisan).

Tagungsprogramm