Themen & Ergebnisse

Themen und Ergebnisse (1): Aufbau von Korpora

Den Ausgangspunkt für die Bearbeitung theoretischer und methodischer Grundlagenfragen in Bezug auf den Aufbau von Korpora internetbasierter Kommunikation (IBK-Korpora) bildeten die Problemaufrisse in Beißwenger & Storrer (2008) und King (2009). Zur Erhebung, Aufbereitung, Dokumentation und Verwaltung von IBK-Korpora konnten durch die Arbeiten im Netzwerk und in den angegliederten Projekten Fortschritte erzielt werden:

  • Für die Extraktion von Sprachdaten aus dem Netz kann der Aufbau von IBK-Korpora von Crawling-Verfahren profitieren, die im Bereich der Webkorpora entwickelt wurden (Biemann et al. 2013).
  • Im Zusammenhang mit den Vorarbeitung zu einem deutschen Referenzkorpus internetbasierter Kommunikation (DeRiK, Beißwenger et al. 2013) wurde ein Crawler für die Identifikation und Extraktion von IBK-Daten entwickelt, die unter dem Lizenzmodell „Creative Commons“ lizenziert sind (Barbaresi 2014, Barbaresi & Würzner 2014).
  • Im WebDisk-Projekt entstand ein Crawler für die Gewinnung von Webkommentaren (Neunerdt, Trevisan & Mathar 2013).
  • Für die Repräsentation annotierter IBK-Korpora erwies sich in verschiedenen Projekten der auf der Berliner Tagung vorgestellte Mehrebenen-Ansatz als fruchtbar (u. a. Dipper, Lüdeling & Reznicek 2013, Trevisan, Neunerdt & Jakobs 2012, Trevisan 2014, Tereick 2014).
  • Zur Adaption des Konzepts der ‚Ausgewogenheit‘ für die Zusammenstellung eines Referenzkorpus internetbasierter Kommunikation wurde in Beißwenger & Lemnitzer (2013) ein Vorschlag entwickelt, in den Diskussionen im Netzwerk eingeflossen sind.

Generell hat sich in verschiedenen Projekten im Netzwerk gezeigt, dass beim Aufbau von IBK-Korpora eine ganze Reihe von Besonderheiten zu berücksichtigen sind, die sich beim Aufbau von Text- und Gesprächskorpora nicht oder nicht in vergleichbarer Weise stellen und die aus den medialen und sprachlichen Besonderheiten internetbasierter Kommunikation resultieren (vgl. Storrer 2014: IBK-Korpora als ‚Korpora der dritten Art‘). Entsprechend können IBK-Korpora nicht mit denselben Analysekategorien, Annotations- und Metadatenschemata beschrieben werden, die sich für die Repräsentation von Text- und Gesprächskorpora bewährt haben. Auch lassen sich Verfahren für die automatische linguistische Annotation, die auf die Behandlung von Sprachdaten aus Genres der redigierten Schriftlichkeit optimiert sind, nicht ohne Anpassung für die Annotation von IBK-Korpora verwenden. Um diese Herausforderungen zu bearbeiten, ist ein Zusammenwirken von linguistischer IBK-Forschung, Korpuslinguistik, Sprach- und Texttechnologie erforderlich. Für einige zentrale Desiderate konnten im Netzwerk erste Lösungsansätze erarbeitet und Initiativen auf den Weg gebracht werden. In einem JLCL-Themenheft (Beißwenger et al. 2014) mit ausgewählten Beiträge eines vom Netzwerk veranstalteten internationalen Workshops wurden Lösungsansätze aus Korpusprojekten zu verschiedenen europäischen Sprachen vorgestellt.

Ein Desiderat, das auch nach Auslaufen des Netzwerks bestehen bleibt, ist die Klärung der rechtlichen Rahmenbedingungen für die Erhebung, Aufbereitung und Nutzung von IBK-Daten für Forschungszwecke und für deren Wiederbereitstellung im Rahmen von Korpora. Da eine solche Klärung nicht nur für die Linguistik und Sprachtechnologie, sondern für alle Disziplinen relevant ist, die Daten aus dem Internet bzw. aus sozialen Medien analysieren (also auch Sozialwissenschaften, Politikwissenschaft, Medien- und Kommunikationswissenschaft, Mediendidaktik), wäre die Einholung eines Rechtsgutachtens über zentrale Forschungsinstitutionen (DFG, BMBF) oder Ressourcen-Initiativen (CLARIN, DARIAH) wünschenswert. Auch für IBK-Datensets, die im Rahmen von Forschungsprojekten mit Förderung durch die öffentliche Hand aufgebaut werden, könnte auf Basis eines solchen Gutachtens künftig besser entscheiden werden, unter welchen Bedingungen und ggf. mit welchen Einschränkungen diese der Fachgemeinschaft nach Projektende als Forschungsressourcen zur Verfügung gestellt werden können. Ein Rechtsgutachten zur Integration eines existierenden Chat-Korpus in die CLARIN-D-Ressourceninfrastruktur, das im Rahmen eines Folgeprojekts zum Netzwerk eingeholt wurde, wird in Beißwenger et al. (2016, i.Dr.) zugänglich gemacht.

Publikationen zum Themenschwerpunkt:

  • Barbaresi, Adrien (2014): Finding viable seed URLs for web corpora. In: Proceedings of the 9th Web as Corpus Workshop (WaC-9), 1−8.
  • Barbaresi, Adrien; Würzner, Kay-Michael (2014): For a fistful of blogs: Discovery and comparative benchmarking of republishable German content. In: Proceedings of the KONVENS 2014 pre-conference workshop „NLP4CMC: Natural Language Processing for Computer-Mediated Communication / Social Media“. Hildesheim.
  • Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar; Storrer, Angelika (2013): DeRiK: A German Reference Corpus of Computer-Mediated Communication. In: Literary and Linguistic Computing 2013 (doi: 10.1093/llc/fqt038).
  • Beißwenger, Michael & Lemnitzer, Lothar (2013): Aufbau eines Referenzkorpus zur deutschsprachigen internetbasierten Kommunikation als Zusatzkomponente für die Korpora im Projekt „Digitales Wörterbuch der deutschen Sprache" (DWDS). In: Journal for Language Technology and Computational Linguistics 28 (2), 1-22.
  • Beißwenger, Michael; Lüngen, Harald; Schallaböck, Jan; Weitzmann, John H.; Herold, Axel; Kamocki, Pawel; Storrer, Angelika; Wildgans, Julia (2016, i.Dr.): Rechtliche Bedingungen für die Bereitstellung eines Chat-Korpus in CLARIN-D: Ergebnisse eines Rechtsgutachtens. In: Michael Beißwenger (in Vorb.): Empirische Erforschnug internetbasierter Kommunikation. Beiträge aus dem DFG-Netzwerk Empirikom.
  • Beißwenger, Michael; Oostdijk, Nelleke; Storrer, Angelika; van den Heuvel, Henk (Eds., 2014): Building and Annotating Corpora of Computer-Mediated Communication: Issues and Challenges at the Interface of Corpus and Computational Linguistics. Special Issue, Journal of Language Technology and Computational Linguistics (JLCL 2/2014).
  • Beißwenger, Michael; Storrer, Angelika (2008): Corpora of Computer-Mediated Communication. In: Anke Lüdeling & Merja Kytö (Eds): Corpus Linguistics. An International Handbook. Volume 1. Berlin. New York: de Gruyter (Handbücher zur Sprache und Kommunikationswissenschaft / Handbooks of Linguistics and Communication Science 29.1), 292−308.
  • Biemann, Chris; Bildhauer, Felix; Evert, Stefan; Goldhahn, Dirk; Quasthoff, Uwe; Schäfer, Roland; Simon, Johannes; Swiezinski, Leonard; Zesch, Torsten (2013): Scalable construction of high-quality web corpora. In: Journal for Language Technology and Computational Linguistics 28 (2), 23−60.
  • Dipper, Stefanie; Lüdeling, Anke; Reznicek, Marc (2013): NoSta-D: A Corpus of German Non-Standard Varieties. In: Marcos Zampierie & Sascha Diwersy (Eds.): Non-Standard Data Sources in Corpus-Based Research. Aachen: Shaker Verlag, 69−76.
  • King, Brian W. (2009): Building and Analysing Corpora of Computer-Mediated Communication. In: Paul Baker (Ed.): Contemporary corpus linguistics. London: Continuum, 301−320.
  • Storrer, Angelika (2014): Sprachverfall durch internetbasierte Kommunikation? Linguistische Erklärungsansätze – empirische Befunde. In: Albrecht Plewina & Andreas Witt (Hrsg.): Sprachverfall? Dynamik – Wandel – Variation. Jahrbuch des Instituts für Deutsche Sprache 2013. Berlin. Boston: de Gruyter, 171−196.
  • Tereick, Jana (2014): Klimawandel im Diskurs. Korpusassistierte multimodale Diskursanalyse im digitalen Zeitalter. Dissertation, Universität Hamburg.
  • Trevisan, Bianka (2014): Bewerten in Blogkommentaren. Mehrebenenannotation sprachlichen Bewertens. Dissertation, RWTH Aachen University.
  • Trevisan, Bianka; Neunerdt, Melanie; Jakobs, Eva-Maria (2012): A Multi-level Annotation Model for Fine-grained Opinion Detection in Blog Comments. In: Proceedings of KONVENS 2012, Vienna (A), 179−188.