„Big Data“, die große Datenflut, ist in aller Munde und war Schwerpunktthema der diesjährigen CeBit-Messe. Google gilt mit Werkzeugen wie dem Grippe-Tool „Google Flu Trends“ als Vorreiter unter den Datensammlern. Doch die Datenmassen haben auch ihre Schwächen, wie US-Wissenschaftler im Magazin „Science“ ausführen. Dabei ließen sich diese Schwierigkeiten ganz leicht beheben: mit traditionellen wissenschaftlichen Grundsätzen.
Google und dessen Trendbeobachtung dient oft als Paradebeispiel für das Sammeln und Verwerten von „Big Data“. Ein solches Werkzeug, der Datensammler Google Flu Trends (GFT), soll die Ausbreitung von Grippewellen vorhersagen oder zumindest frühzeitig ankündigen. Stark vereinfacht ausgedrückt, zählt der Google-Algorithmus dazu, wie oft typische Suchbegriffe wie „Fieber“ oder „Husten“ in die Suchleiste eingegeben werden und wertet diese Häufigkeiten aus. Wie genau die Vorhersage funktioniert, ist unbekannt: Google nimmt häufige Veränderungen am geheimen Algorithmus vor, und auch die ausgewählten Suchbegriffe sind nicht vollständig bekannt.
Dieses Vorgehen hat jedoch offenbar seine Grenzen: GFT neigt dazu, in seinen Prognosen die Stärke von Grippewellen drastisch zu übertreiben, wie US-Forscher jetzt nachweisen. In 100 von 108 Wochen im Zeitraum von August 2011 bis September 2013 überschätzte das Datenwerkzeug die Grippehäufigkeit. Die Google-Vorhersage lag in der Grippesaison 2012/2013 sogar rund doppelt so hoch wie die von der Regierungsbehörde Centers for Disease Control (CDC) tatsächlich registrierten Grippefälle.
„Big Data Arroganz“
„Google Flu Trend ist ein erstaunliches Stück Programmierkunst und ein sehr nützliches Werkzeug, aber es zeigt auch, wie die ‚Big Data‘-Analyse schief gehen kann“, sagt Ryan Kennedy von der Universität Houston. Zusammen mit einigen Kollegen kritisiert der Politologe den verbreiteten Umgang mit den erhobenen Informationen. Die Wissenschaftler plädieren stattdessen für einen wissenschaftlicheren Ansatz bei der Datenanalyse.