Themen & Ergebnisse

Themen & Ergebnisse (3): NLP4CMC / Sprachtechnologische Ansätze

Den Ausgangspunkt für Fragen der Anpassung sprachtechnologischer Verfahren für die automatische linguistische Analyse von IBK-Daten bildetete die erste systematische Evaluation der Wortartenannotierung (PoS-Annotation) für Webkorpora aus Giesbrecht & Evert (2009). Die Genauigkeit der automatischen Annotation wurde in der Studie zwar nicht explizit für IBK-Daten überprüft, es zeigte sich aber, dass IBK-Anteile in Webkorpora die Genauigkeit beeinträchtigen. In verschiedenen Projekten im Netzwerk wurden Experimente zur linguistischen Verarbeitung von IBK-Daten mit sprachtechnologischen Werkzeugen durchgeführt, die für die Analyse von Texten der redigierten Schriftlichkeit (Zeitungstexten u.Ä.) entwickelt wurden. Dabei wurden datengestützt z.T. sehr detaillierte Aufrisse zu unterschiedlichen Typen von Verarbeitungsproblemen in Bezug auf Typen von IBK-Phänomenen erarbeitet − unter anderem für die Verarbeitungsaspekte des Boilerplate Removal, der Tokenisierung, der Normalisierung, der Lemmatisierung, der PoS-Annotation und der syntaktischen Annotation. Die Diskussion von Annotations- und Verarbeitungsexperimenten sowie der daraus entwickelten Problemtypologien bildete einen Schwerpunkt zweier Arbeitstagungen (Berlin und Aachen) sowie des vom Netzwerk ausgerichteten GSCL-Workshops, mit Blick auf andere Sprachen als dem Deutschen auch beim internationalen Workshop „Building and Annotating CMC Corpora“.

Zentrale Befunde sind:

  1. dass Werkzeuge, die für die Verarbeitung von Texten der redigierten Schriftlichkeit entwickelt wurden, nicht ohne Anpassung für die Annotation von IBK-Daten verwendet werden können;
  2. dass IBK-Daten diesen Werkzeugen und Verfahren unter allen behandelten Verarbeitungsaspekten und auf allen Ebenen des Verarbeitungsprozesses Probleme bereiten; zusammen mit den Verfahren müssen auch die von den Verfahren genutzten Ressourcen (Tagsets, Segmentierungs- und Normalisierungsregeln) an die Besonderheiten von IBK-Schriftlichkeit angepasst werden.

Für verschiedene Verarbeitungsaspekte von IBK konnten im Rahmen des Netzwerks erste Lösungsansätze entwickelt werden: für den Aspekt der Tokenisierung mit Jurish & Würzner (2013), für die Anpassung des Stuttgart-Tübingen-Tagset (STTS) an die Besonderheiten von IBK mit Bartz et al. (2013), für die Anpassung eines PoS-Taggers an IBK-Phänomene mit Neunerdt et al. (2013), für die Annotation von Diskursstrukturen in Wikipedia-Diskussionsseiten mit Ferschke, Gurevych & Chebotar (2012). Vorarbeiten für die Automatisierung von Annotationen auf weiteren linguistischen Beschreibungsebenenen wurden für die syntaktische Annotation mit Dipper et al. (2013), für Bewertungen in Blogkommentaren mit Trevisan (2014), für die Normalisierung von Chat-Daten in Laarmann-Quante (2013) erarbeitet. Im Rahmen des aus dem Netzwerk initiierten Projekts zur Vorbereitung einer Shared Task zur Verarbeitung von IBK- und Web-Korpora und im Zusammenhang mit drei CLARIN-D-Workshops zur Aktualisierung des Stuttgart-Tübingen-Tagsets (STTS, Schiller et al. 1999; Zinsmeister et al. 2014 zu den Workshops) wurden darüber hinaus unter Einbeziehung der im Netzwerk geführten Diskussionen Richtlinien für die Tokenisierung und für die PoS-Annotation von IBK-Daten entwickelt (Beißwenger et al. 2015a, 2015b), die abgestimmt sind mit Tagseterweiterungen für das FOLK-Korpus gesprochener Sprache am IDS Mannheim (Westpfahl 2014, Westpfahl & Schmidt 2016). Das Shared-Task-Projekt wurde 2016 mit einer Vorstellung der Ergebnisse im Rahmen der ACL-Konferenz abgeschlossen (WAC-X/EmpiriST-Proceedings 2016)

In der Folge des Netzwerks entwickelten Tobias Horsmann und Torsten Zesch an der Universität Duisburg-Essen mit FlexTag einen Part-Of-Speech Tagger, der auf eine hohe Flexibilität ausgelegt ist und der es im Gegensatz zu klassischen Taggern erlaubt, mit neuen Ressourcen zu experimentieren. Mit geringem Aufwand lässt sich das Werkzeug vom Nutzer auf neue Ressourcen sowie aufgabenspezifisch (z.B. für die Bearbeitung von speziellen Phänomenen in IBK- und Social-Media-Daten) anpassen (Horsmann & Zesch 2016a, Zesch & Horsmann 2016). Im Rahmen der EmpiriST-Shared-Task erzielte FlexTag den 2. Platz. FlexTag wird via GitHub bereitgestellt. Weitere Ergebnisse aus dem Duisburger Language Technology Lab zur Verarbeitung von IBK-Daten sind in Publikationen dokumentiert (Horsmann et al. 2015, Horsmann & Zesch 2015, 2016b, 2016c).

Großes Potenzial bietet auch weiterhin die schon im Netzwerk fruchtbare Zusammenarbeit zwischen an der Aufbereitung und Analyse von IBK-Korpora interessierten Linguisten und Korpuslinguisten mit an der Erhebung und Annotation von großen Webkorpora interessierten Computerlinguisten und Informatikern. Im Bereich der Webkorpora existieren Verfahren für das Crawling, die Bereinigung und die linguistische Annotation großer Datensammlungen aus Webgenres (Biemann et al. 2013), die auch für den Aufbau von IBK-Korpora interessante Möglichkeiten bieten. Umgekehrt können linguistisch fundierte Typologien zu IBK-Phänomenen bei der Aufbereitung von Webkorpora eine interessante Ressource darstellen, um die IBK-Anteile in solchen Korpora besser zu analysieren. Für die vom Netzwerk initiierte Shared Task wurde daher ganz bewusst entschieden, die Anwendungsbereiche „IBK-Korpora“ und „Webkorpora“ gleichermaßen zu berücksichtigen.

Publikationen zum Themenschwerpunkt:

  • Bartz, Thomas; Beißwenger, Michael; Storrer, Angelika (2013): Optimierung des Stuttgart-Tübingen-Tagset für die linguistische Annotation von Korpora zur internetbasierten Kommunikation: Phänomene, Herausforderungen, Erweiterungsvorschläge. In: Journal for Language Technology and Computational Linguistics 28 (1), 157−198.
  • Beißwenger, Michael; Bartsch, Sabine; Evert, Stefan; Würzner, Kay-Michael (2015a): Richtlinie für die manuelle Tokenisierung von Sprachdaten aus Genres internetbasierter Kommunikation. Shared Task des Empirikom-Netzwerks zur automatischen linguistischen Annotation deutschsprachiger internetbasierter Kommunikation (EmpiriST2015).
  • Beißwenger, Michael; Bartz, Thomas; Storrer, Angelika; Westpfahl, Swantje (2015b): Tagset und Richtlinie für das Part-of-Speech-Tagging von Sprachdaten aus Genres internetbasierter Kommunikation. Shared Task des Empirikom-Netzwerks zur automatischen linguistischen Annotation deutschsprachiger internetbasierter Kommunikation (EmpiriST2015).
  • Biemann, Chris; Bildhauer, Felix; Evert, Stefan; Goldhahn, Dirk; Quasthoff, Uwe; Schäfer, Roland; Simon, Johannes; Swiezinski, Leonard; Zesch, Torsten (2013): Scalable construction of high-quality web corpora. In: Journal for Language Technology and Computational Linguistics 28 (2), 23−60.
  • Dipper, Stefanie; Lüdeling, Anke; Reznicek, Marc (2013): NoSta-D: A Corpus of German Non-Standard Varieties. In: Marcos Zampierie & Sascha Diwersy (Eds.): Non-Standard Data Sources in Corpus-Based Research. Aachen: Shaker Verlag, 69−76.
  • Ferschke, Oliver; Gurevych, Iryna; Chebotar, Yevgen (2012): Behind the Article: Recognizing Dialog Acts in Wikipedia Talk Pages. In: Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2012), 777−786.
  • Giesbrecht, Eugenie; Evert, Stefan (2009): Part-of-speech tagging – a solved task? An evaluation of POS taggers for the Web as corpus. In: Inaki Alegria, Igor Leturia & Serge Sharoff (Eds.): Proceedings of the 5th Web as Corpus Workshop (WAC5), 27−35.
  • Horsmann, Tobias; Erbs, Nicolai; Zesch, Torsten (2015): Fast or Accurate ? - A Comparative Evaluation of PoS Tagging Models. In: Proceedings of the International Conference of the German Society for Computational Linguistics and Language Technology (GSCL-2015), pp. 22–30, Essen, Germany, 2015.
  • Horsmann, Tobias; Zesch, Torsten (2015): Effectiveness of Domain Adaptation Approaches for Social Media PoS Tagging. In: Proceeding of the Second Italian Conference on Computational Linguistics, pp. 166-170, Accademia University Press, Trento, Italy, 2015.
  • Horsmann, Tobias; Zesch, Torsten (2016a): LTL-UDE @ EmpiriST 2015: Tokenization and PoS Tagging of Social Media Text. In: Proceedings of the 10th Web as Corpus Workshop (WAC-X) and the EmpiriST Shared Task. Stroudsburg: Association for Computational Linguistics (ACL Anthology W16-26), 120–126.
  • Horsmann, Tobias; Zesch, Torsten (2016b): Assigning Fine-grained PoS Tags based on High-precision Coarse-grained Tagging. In: Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, pp. 328 – 336, Dublin City University and Association for Computational Linguistics, Osaka, Japan, 2016.
  • Horsmann, Tobias; Zesch, Torsten (2016c): Building a Social Media Adapted PoS Tagger Using FlexTag – A Case Study on Italian Tweets. In: Fifth Evaluation Campaign of Natural Language Processing and Speech Tools for Italian - EVALITA 2016, pp. 95–98, Naples, Italy, 2016.
  • Jurish, Bryan; Würzner, Kay-Michael (2013): Word and Sentence Tokenization with Hidden Markov Models. In: Journal for Language Technology and Computational Linguistics, 28(2), 61−83.
  • Laarmann-Quante, Ronja (2013): Manual and Automatic Normalization of Chat Data – Challenges and Approaches. Bachelorarbeit, Ruhr-Universität Bochum.
  • Neunerdt, Melanie; Trevisan, Bianka; Reyer, Michael; Mathar, Rudolf (2013): Part-of-Speech Tagging for Social Media Texts. In: Proceedings of the 25th Conference of the German Society for Computational Linguistics (GSCL 2013), 139−150.
  • Schiller, Anne; Teufel, Simone, Stöckert, Christine; Thielen, Christine (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset). Technical Report, Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung.
  • Trevisan, Bianka (2014): Bewerten in Blogkommentaren. Mehrebenenannotation sprachlichen Bewertens. Dissertation, RWTH Aachen University. http://darwin.bth.rwth-aachen.de/opus3/volltexte/2014/5145/
  • [WAC-X/EmpiriST-Proceedings] Proceedings of the 10th Web as Corpus Workshop (WAC-X) and the EmpiriST Shared Task. The 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics (ACL Anthology W16-26).
  • Westpfahl, Swantje (2014): STTS 2.0? Improving the Tagset for the Part-of-Speech-Tagging of German Spoken Data. In: Lori Levin & Manfred Stede (Hrsg.): Proceedings of LAW VIII – The 8th Linguis-tic Annotation Workshop. Dublin, Ireland: Association for Computational Linguistics and Dublin City University, 1–10.
  • Westpfahl, Swantje; Schmidt, Thomas (2016): FOLK-Gold – A GOLD standard for Part-of-Speech-Tagging of Spoken German. In: Proceedings of the Tenth conference on International Language Resources and Evaluation (LREC’16)
  • Zesch, Torsten; Horsmann, Tobias (2016): FlexTag: A Highly Flexible Pos Tagging Framework. In: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), pp. 4259–4263, European Language Resources Association (ELRA), Portorož, Slovenia, 2016.
  • Zinsmeister, Heike; Heid, Ulrich; Beck, Kathrin (Hrsg., 2014): Das STTS-Tagset für Wortartentagging – Stand und Perspektiven. Themenheft, Journal for Language Technology and Computational Linguistics 28 (1).