Big Data in Education

Unterrichtsgestaltung rund um Big Data

Big Data im Informatikunterricht: Motivation und Umsetzung

Quelle:

http://subs.emis.de/LNI/Proceedings/Proceedings249/125.pdf


Das Sammeln und Auswerten von Daten ist heute allgegenwärtig: In vielen Bereichen des täglichen Lebens nimmt die Bedeutung von Daten und datenbezogenen Anwendungen immer mehr zu, z. B. bei der Nutzung sozialer Medien oder bei der Verwaltung großer Mengen an eigenen Daten. Während Daten früher hauptsächlich konsumiert wurden, wird heute auch jeder zum Produzenten immer umfangreicherer Datenmengen. Dabei werden immer größere und vielfältigere Datenmengen verwaltet und verarbeitet. Im Informatikunterricht wird Big Data jedoch bisher kaum thematisiert: Die fachlichen Grundlagen dafür scheinen auf den ersten Blick zu komplex und kaum auf schulischem Niveau verständlich zu sein. In diesem Beitrag werden daher zuerst die wesentlichen Entwicklungen vorgestellt, die sich derzeit im Datenmanagement ereignen, sowie die sich dadurch ergebenden fachlichen Herausforderungen. Um zu demonstrieren, dass solche fachliche Innovationen oft grundlegende Konzepte enthalten, die im Informatikunterricht thematisiert werden können, wird anhand von zwei Unterrichtsszenarien aus diesem Themenbereich exemplarisch vorgestellt, wie Informatik es mittels moderner Ansätze zur Datenverarbeitung ermöglicht, Big Data beherrschbar zu machen.


Ziel des Unterrichts ist es, dass die Schülerinnen und Schüler ...

• einfache Datenanalysen an vorgegebenen Datensätzen durchführen

• die Datenanalysemethoden Klassifikation und Assoziation am Beispiel nachvollziehen und erklären

• die Möglichkeiten und Gefahren von Big-Data-Analysen erkennen

• verstehen, dass die Qualität der gewonnenen Information nicht nur von der Analyse der Daten sondern insbesondere auch von deren Interpretation abhängt

• erkennen, dass der Einfluss der Datenqualität mit ansteigender Datenmenge abnimmt

• den Unterschied zwischen Kausalität und Korrelation erkennen und am Beispiel erklären


Möglicher Unterrichsverlauf:

Kennenlernen von Big Data: Durch Untersuchung eines großen Datensatzes erkennen die Lernenden den Aufbau von Datensätzen sowie die Bedeutung der verschiedenen Attribute und können Ideen zu den darin implizit enthaltenen Informationen sammeln.

2. Klassifizierung von Daten: Beim Filtern des Kriminalfälle-Datensatzes nach Stadtteilen und Bestimmung der Anzahl gemeldeter Ereignisse in diesem lernen die Schülerinnen und Schüler die Klassifizierung von Daten nach gegebenen Merkmalen kennen. Nebenbei kann die Aussagekraft von Analyseergebnissen am Beispiel diskutiert werden: Eine mögliche Fehlinterpretation der gewonnenen Information wäre, dass ein Stadtteil aufgrund einer höheren Zahl von Kriminalfällen in diesem gefährlicher ist.

3. Assoziationen zwischen Daten: Es kann festgestellt werden, dass die Adresse auch den Stadtteil festlegt. Während diese Assoziation offensichtlich ist, sind es andere weniger: Auch die Beschreibung eines Vorfalls (anscheinend ein vordefinierter Text) legt die Kategorie fest. Im Unterricht kann anhand dieser beiden Beispiele das Weglassen der redundanten Attribute Stadtteil bzw. Kategorie diskutiert werden. Dabei ist es wichtig, den Lernenden bewusst zu machen, dass anhand des Datensatzes nur eine Korrelation zwischen den beiden Attributen gefolgert werden kann, aber keine Kausalität. Durch das Weglassen können daher Fehler entstehen. Weitere Informationen, wie zum Beispiel beim Zusammenhang zwischen Adresse und Stadtteil vorhanden, können jedoch einen Kausalzusammenhang untermauern, sodass derartige Fehler ausgeschlossen werden.

4. Verknüpfung von Datensätzen: Aus dem Datensatz können verschiedene Informationen auf einfache Weise gewonnen werden, beispielsweise die Abhängigkeit der Anzahl an Delikten vom Stadtteil: Die Daten wurden in geeigneter Weise gesammelt, um solche Auswertungen durchführen zu können. Falls jedoch weitergehende Informationen gewonnen werden sollen, müssen weitere Daten herangezogen werden. Mit dem Datensatz ist es beispielsweise nicht direkt möglich zu analysieren, ob eine Korrelation zwischen Verkehrsunfällen und Ausfällen der Straßenbeleuchtung vorliegt. Es existiert jedoch auch kein Datensatz, in dem diese Information direkt enthalten ist. Durch Annahme einer Assoziation, nämlich dass im Fall einer ausgefallenen Beleuchtung eine Meldung bei der zuständigen Behörde eingeht, kann diese Information jedoch gewonnen werden: Die Anrufe bei der Servicenummer 311 der Stadt San Francisco liegen als Datensatz vor und können unter der Annahme dieser Assoziation in einen neuen Datensatz, der die benötigten Informationen beinhaltet, überführt werden. Indem diese Informationen und der ursprüngliche Datensatz im Rahmen eines Mash-Up9 zusammengefasst werden, kann untersucht werden, ob die gesuchte Korrelation vorliegt.

5. Rückblick: Im Rückblick kann erkannt werden, dass selbst wenige zusätzliche Daten dazu beitragen können, wesentlich umfangreichere Informationen zu gewinnen. Dabei zeigt sich, dass Fehler in den Daten, wie sie beispielsweise auch durch die ungenaue Assoziation „keine Beschwerde → Beleuchtung funktionsfähig“ produziert werden, sich zwar im Einzelfall negativ auswirken, bei großen Datenmengen jedoch nur noch einen geringen Einfluss haben.