Die gängigen Big-Data-Analysen identifizieren statistische Korrelationen in den Datenbeständen, die auf Zusammenhänge hindeuten. Sie erklären damit im besten Fall, was passiert, nicht aber warum. Das ist für uns Menschen oftmals unbefriedigend, weil wir die Welt in der Regel als Verkettungen von Ursachen und Wirkungen verstehen.
Schnellschüsse und Irrtümer
Der Nobelpreisträger für Wirtschaftswissenschaften Daniel Kahneman hat eindrücklich nachgewiesen, dass schnelle Ursachenschlüsse von Menschen oftmals fehlerhaft sind. Sie mögen uns das Gefühl geben, die Welt zu verstehen, aber sie reflektieren die Wirklichkeit und ihre Ursachen nur unzureichend. Die echte Ursachensuche hingegen ist zumeist außergewöhnlich schwierig und aufwendig und gelingt vollständig gerade bei komplexen Zusammenhängen nur in ausgewählten Fällen.
Diese Schwierigkeit der Ursachenforschung führte bisher dazu, dass wir trotz mitunter erheblichen Einsatzes an Ressourcen die Kausalitäten nur relativ weniger komplexer Phänomene ausreichend verstanden haben. Auch schleichen sich beträchtliche Fehler schon deshalb ein, weil sich die beteiligten Forscherinnen und Forscher mit der eigenen Ursachenhypothese identifizieren und nur diese erfolgreich beweisen wollen. Dieses Risiko lässt sich allenfalls durch aufwendige Methoden – etwa dem Doppelblindverfahren – mindern.
Lebensrettend für Frühchen
Die auf Korrelationen beruhende Big-Data-Analyse könnte hier Vorteile bieten – etwa, indem wir schon die daraus resultierende Antwort auf das „Was“ mitunter als werthaltige Erkenntnis wahrnehmen und daraus pragmatische Konsequenzen ziehen. Zum Beispiel haben die Gesundheitsinformatikerin Carolyn McGregor und ihr Team an der Universität Toronto in den Daten der Vitalfunktionen von Frühgeborenen Muster erkannt, die eine wahrscheinliche zukünftige Infektion anzeigen, viele Stunden bevor erste Symptome auftreten.
McGregor kennt damit zwar nicht die Ursache der Infektion, aber die auf Wahrscheinlichkeiten beruhende Erkenntnis reicht aus, um den betroffenen Frühchen entsprechende Medikamente zu verabreichen. Das mag in Einzelfällen gar nicht nötig gewesen sein, aber in der Mehrzahl der Fälle rettet es das Leben des Frühgeborenen und ist daher, gerade auch wegen der relativ geringen Nebenwirkungen, die pragmatisch richtige Konsequenz aus der Datenanalyse.
Korrelation ist nicht gleich Ursache
Im Gegenzug müssen wir freilich auf der Hut sein, nicht jeder statistischen Korrelation auch einen tieferen Zusammenhang zu unterstellen. Denn mittels Korrelationen werden auch bloß zufällige Übereinstimmungen erfasst, die keinen tieferen inneren Zusammenhang widerspiegeln.
Erkenntnisse über das Was der Wirklichkeit können darüber hinaus auch für die Ursachenforschung von bedeutendem Nutzen sein. Denn anstatt lediglich auf der Basis einer Intuition einen bestimmten Zusammenhang aufwendig zu erforschen, erlaubt eine auf Korrelationen basierende Big-Data-Analyse die Bewertung einer großen Vielzahl leicht unterschiedlicher Hypothesen. Die Erfolg versprechendsten Hypothesen können dann für die Ursachenforschung herangezogen werden. Mit anderen Worten: Big Data kann helfen, die Stecknadel der Erkenntnis im Heuhaufen der Daten für die Ursachenforschung zu finden.
Schon daraus wird klar, dass mit Big Data die Suche der Menschen nach Ursachen nicht abbricht. Aber die nahezu monopolartige Stellung der Ursachenforschung im Erkenntnisprozess weicht sich auf, indem öfter das Was vor dem Warum ermittelt werden wird. In manchen Fällen mag das schon reichen, jedenfalls fürs Erste. Und in vielen anderen Fällen wird die nachfolgende Suche nach dem Warum vom Verständnis über das Was deutlich profitieren. In Summe wird damit der menschliche Erkenntnisprozess verbessert.
Viktor Mayer-Schönberger für bpb.de, CC-by-nc-nd 3.0
Stand: 22.06.2018