„Big Data“, die große Datenflut, ist in aller Munde und war Schwerpunktthema der diesjährigen CeBit-Messe. Google gilt mit Werkzeugen wie dem Grippe-Tool „Google Flu Trends“ als Vorreiter unter den Datensammlern. Doch die Datenmassen haben auch ihre Schwächen, wie US-Wissenschaftler im Magazin „Science“ ausführen. Dabei ließen sich diese Schwierigkeiten ganz leicht beheben: mit traditionellen wissenschaftlichen Grundsätzen.
Google und dessen Trendbeobachtung dient oft als Paradebeispiel für das Sammeln und Verwerten von „Big Data“. Ein solches Werkzeug, der Datensammler Google Flu Trends (GFT), soll die Ausbreitung von Grippewellen vorhersagen oder zumindest frühzeitig ankündigen. Stark vereinfacht ausgedrückt, zählt der Google-Algorithmus dazu, wie oft typische Suchbegriffe wie „Fieber“ oder „Husten“ in die Suchleiste eingegeben werden und wertet diese Häufigkeiten aus. Wie genau die Vorhersage funktioniert, ist unbekannt: Google nimmt häufige Veränderungen am geheimen Algorithmus vor, und auch die ausgewählten Suchbegriffe sind nicht vollständig bekannt.
Dieses Vorgehen hat jedoch offenbar seine Grenzen: GFT neigt dazu, in seinen Prognosen die Stärke von Grippewellen drastisch zu übertreiben, wie US-Forscher jetzt nachweisen. In 100 von 108 Wochen im Zeitraum von August 2011 bis September 2013 überschätzte das Datenwerkzeug die Grippehäufigkeit. Die Google-Vorhersage lag in der Grippesaison 2012/2013 sogar rund doppelt so hoch wie die von der Regierungsbehörde Centers for Disease Control (CDC) tatsächlich registrierten Grippefälle.
„Big Data Arroganz“
„Google Flu Trend ist ein erstaunliches Stück Programmierkunst und ein sehr nützliches Werkzeug, aber es zeigt auch, wie die ‚Big Data‘-Analyse schief gehen kann“, sagt Ryan Kennedy von der Universität Houston. Zusammen mit einigen Kollegen kritisiert der Politologe den verbreiteten Umgang mit den erhobenen Informationen. Die Wissenschaftler plädieren stattdessen für einen wissenschaftlicheren Ansatz bei der Datenanalyse.
Daten sind die Grundlage einer wissenschaftlichen Untersuchung. Aber ohne Zusammenhang und Auswertung sagt eine bloße Zahl noch nicht viel aus. Doch genau dieser Punkt wird bei der Präsentation von „Big Data“ offenbar oft vernachlässigt: Die Daten sollen für sich selbst sprechen – egal welchen Sinn das ergibt. Kennedy spricht von einer gewissen „Big Data Arroganz“: Die schiere Masse an verfügbaren Informationen soll traditionelle Datenerhebung und Analyse ersetzen. Trotz des enormen Potentials der Datensätze fallen wissenschaftliche Grundsätze wie Zuverlässigkeit und Reproduzierbarkeit unter den Tisch. Wie einzelne Teilbereiche eines Datennetzes miteinander in Verbindung stehen und sich gegenseitig beeinflussen, wird oft völlig ignoriert.
Bei Googles Grippe-Warnsystem zeigt sich dies zum Beispiel in der Auswahl der Suchbegriffe: In den Anfangstagen von GFT bemühten sich die Entwickler, die Prognose durch passende Begriffe an die Daten der CDC anzupassen. Da die Grippe vor allem im Winter auftritt, landeten auch Begriffe mit lediglich saisonalem Bezug in der Auswahl. Die Schweinegrippe von 2009, die außerhalb der normalen Grippesaison auftrat, blieb dadurch für GFT nahezu unsichtbar. Kennedy beschreibt diese frühe Version von GFT als „teils Grippedetektor, teils Winterdetektor“.
Anpassung an den Markt beeinflusst Daten
Ein generelles Problem, unter dem GFT bislang nicht zu leiden scheint, sehen die Wissenschaftler im hohen Marktwert bestimmter Trendanalysen. Begriffe, die google, Twitter und Facebook heiß laufen lassen, sind angesagt. Da ist es naheliegend, dass die Marketingabteilungen erfolgreicher Firmen diese Kanäle zu ihrem Vorteil nutzen, und die Trends zu beeinflussen versuchen. Dies führt jedoch wiederum zu einer verzerrten Darstellung der tatsächlichen Verhältnisse.
Dennoch ist Google ein Unternehmen, das seine Dienstleistungen an den Markt anpasst. Das bedeutet, der grundlegende Algorithmus der Suchmaschine wird regelmäßig überarbeitet und aktualisiert. Solche Veränderungen sind ebenfalls eine mögliche Fehlerquelle für die Trendanalyse: Die von Google seit einer Weile vorgeschlagenen Alternativen oder weiterführenden Begriffe bei der Suche etwa könnten einen großen Einfluss auf die Datenlage haben. Sie verleiten dazu, weitere oder andere Begriffe zu suchen als eigentlich beabsichtigt. „Wir müssen besser verstehen, wie dies die erhaltenen Daten beeinflusst“, sagt Kennedy, „ansonsten laufen wir Gefahr, die falschen Schlüsse zu ziehen.“
„All Data“ statt „Big Data“
Kennedy und seine Kollegen wollen die großen Datensammler des Internets jedoch bei weitem nicht zu Gunsten traditioneller Methoden als Informationsquellen abschreiben. Im Gegenteil, sie sehen großes Potenzial in den Datenmassen, sofern sie entsprechend ausgewertet werden können. Als Beispiel nennen sie die regionale Überlegenheit der Google-Daten: Während die CDC lediglich überregionale Daten liefern, erfasst Google die Situation einzelner Landstriche und Städte.
Eine einfache und effektive Lösung liegt daher auf der Hand: Die besten Grippe-Daten erhielten die Wissenschaftler, als sie Informationen von GFT und CDC zusammenführten. „Die besten Resultate stammen aus der Kombination von Informationen und Techniken aus beiden Quellen,“ erläutert Kennedy. „Statt einer ‚Big Data Revolution‘ sollten wir über eine ‚All Data Revolution‘ diskutieren, so dass neue Technologien uns mehr und bessere Analysen aller Art ermöglichen.“
(Science, 2014; doi: 10.1126/science.1248506)
(University of Houston, 17.03.2014 – AKR)