Mit Big Data verbindet sich die Hoffnung, dass wir die Welt besser verstehen – und abgeleitet von diesem Verständnis bessere Entscheidungen treffen. Als Extrapolation der Vergangenheit und der Gegenwart erwarten wir, bessere Vorhersagen über die Zukunft machen zu können. Wieso aber verbessert Big Data menschliche Erkenntnis?
Von Stichproben…
Menschen haben seit jeher versucht, die Welt zu erklären, indem sie diese beobachteten. Das Sammeln und Auswerten von Daten ist demnach ganz ursprünglich mit menschlicher Erkenntnis verbunden. Aber diese Arbeit der Datenerfassung und -analyse war stets auch mit hohem Zeit- und Kostenaufwand verbunden.
Als Folge entwickelten wir Methoden und Verfahren, Strukturen und Institutionen, die darauf ausgelegt waren, mit möglichst wenigen Daten auszukommen. Das ist grundsätzlich sinnvoll, wenn wenige Daten zur Verfügung stehen. Aber es führte in der Vergangenheit auch dazu, dass wir schon aus einem oder wenigen Fällen auf das Ganze schlossen und uns schrecklich irrten.
Erst seit nicht einmal einem Jahrhundert steht uns mit Zufallsstichproben ein probates Verfahren zur Verfügung, aus relativ wenigen Daten auf das Ganze zu schließen. Das hat große Fortschritte mit sich gebracht, von der Qualitätskontrolle in der industriellen Fertigung bis zu robusten Meinungsumfragen zu gesellschaftlich relevanten Themen.
…zu Big Data
Aber Zufallsstichproben bleiben im Kern eine Krücke. Ihnen fehlt die Detaildichte, um das zugrunde liegende Phänomen umfassend abzubilden. Unsere aus den Stichproben gewonnene Erkenntnis bleibt damit zwangsläufig detailarm. In der Regel können wir aus den Stichproben nur jene Fragen beantworten, die uns schon von Anfang an bekannt waren. Die auf Stichproben basierende Erkenntnis ist also bestenfalls eine Bestätigung oder Widerlegung einer vorab formulierten Hypothese.
Wird der Umgang mit Daten aber drastisch leichter, dann können wir in einer zunehmenden Zahl von Fällen nahezu alle Daten eines bestimmten Phänomens, das wir studieren wollen, sammeln und auswerten. Weil wir nahezu alle Daten haben, können wir auch nahezu beliebig Details analysieren.
Google und die Grippewelle
Ein Beispiel mag dies verdeutlichen: Google leitet aus Anfragen, die in seine Suchmaschine eingegeben werden, die Verbreitung von Grippe ab. Die Idee dahinter ist, dass Menschen sich zumeist dann über die Grippe informieren, wenn sie selbst oder ihnen nahestehende Personen davon betroffen sind. Eine entsprechende Analyse von Suchanfragen und historischen Grippedaten über fünf Jahre fand in der Tat eine Korrelation.
Dabei wurden 50 Millionen unterschiedliche Suchbegriffe und 450 Millionen Begriffskombinationen automatisiert evaluiert. Es wurden, mit anderen Worten, fast eine halbe Milliarde konkreter Hypothesen generiert und anhand der Daten bewertet, um daraus nicht bloß eine, sondern die optimal passende Hypothese auszuwählen. Und weil Google neben den Suchanfragen und deren Datum auch noch speicherte, von wo die Anfrage kam, konnten am Ende auch geografisch differenzierte Aussagen über die wahrscheinliche Verbreitung der Grippe abgeleitet werden.
Der Faktor Mensch
Dank Big Data können wir die Daten auch als Inspiration für neue Hypothesen einsetzen, die sich in Zukunft öfter ohne erneute Datensammlung evaluieren lassen. In einem viel diskutierten Beitrag argumentierte der damalige „Wired“-Chefredakteur Chris Anderson vor einigen Jahren, das automatisierte Entwickeln von Hypothesen mache menschliche Theoriebildung überflüssig.
Doch schon bald revidierte Anderson seine Meinung, denn so sehr Big Data in der parametrischen Generierung von Hypothesen den Erkenntnisprozess zu beschleunigen vermag, so wenig gelingen damit abstrakte Theorien. Das bleibt auch künftig den Menschen vorbehalten; der Mensch bleibt also weiterhin im Mittelpunkt der Erkenntnisschöpfung.
Das hat aber auch zur Folge, dass die Ergebnisse jeder Big-Data-Analyse durchwoben sind von menschlichen Theorien – und damit auch von deren Schwächen und Unzulänglichkeiten. So bewiesen Forscher erst vor Kurzem, dass Künstliche Intelligenzen unsere Vorurteile übernehmen, wenn sie Big Data in Form von Text-Datensätzen auswerten. Auch durch die beste Big-Data-Analyse können wir uns demnach nicht aus den daraus resultierenden möglichen Verzerrungen befreien.
In Summe lassen sich also mit Hilfe von Big Data nicht bloß bereits vorgefasste Hypothesen bestätigen, sondern automatisiert neue Hypothesen generieren und evaluieren. Dies beschleunigt den Erkenntnisprozess.
Viktor Mayer-Schönberger für bpb.de, CC-by-nc-nd 3.0
Stand: 22.06.2018