Computerhirn jagt Highscores: Auch Computer sind fähig, mit nur minimaler Vorinformation Neues zu lernen, wie eine von Google-Forschern entwickelte künstliche Intelligenz belegt. Das Deep Q-Network getaufte Programm lernte selbständig und ohne viele Vorinformationen, 49 Atari-Spieleklassiker von Space Invaders bis Breakout zu spielen. Nach kurzem Training kam es dabei den Highscores menschlicher Spieler sehr nahe, wie die Forscher im Fachmagazin „Nature“ berichten.
Unser Gehirn leistet im Alltag ständig Schwerstarbeit. Denn es muss unzählige verschiedene Reize auswerten, aus diesen die wichtigen herausfiltern, ihre Bedeutung erkennen und sie mit vergangenen Erfahrungen abgleichen. Erst durch diese Kombination aus Reizen, Erinnerungen und positiven oder negativen Verstärkungen lernen wir – beispielsweise wie wir in einem Computerspiel möglichst weit kommen können. Die Lernfähigkeit von Computern und Robotern ist im Vergleich dazu eher beschränkt und funktioniert nur in wenigen eng umgrenzten Anwendungsbereichen gut.
Computerhirn spielt Space Invader
Doch Volodymyr Mnih und seine Kollegen vom Projekt Google DeepMind in London haben nun eine künstliche Intelligenz entwickelt, die ohne viel Vorwissen direkt aus eingehenden Reizen lernen kann. Das Deep Q-Network (DQN) genannte System basiert auf einem neuronalen Netzwerk mit hierarchischen Filterschichten. Ähnlich wie unser Gehirn lernt dieses Netzwerk durch positive Verstärkung: Bringt eine Aktion Erfolg, wird sie beibehalten. Bringt sie keinen, wird sie beim nächsten Mal verändert.
Um das Programm testen, ließen die Forscher es selbstständig 49 verschiedene Videospiel-Klassiker lernen, die früher auf dem Atari 2600 liefen. Unter diesen sind Autorennspiele wie Enduro, Schießspiele wie Space Invaders, aber auch einfache Strategiespiele wie Breakout. Die Regeln und vor allem die Strategien, die zu einem möglichst hohen Highscore führen, unterscheiden sich jeweils. „Damit wollten wir demonstrieren, dass unser System auf Basis nur minimaler Vorinformationen robuste Strategien für ganz unterschiedliche Spiele lernen kann“, betonen Mnih und seine Kollegen.
KI lernt selbstständig Spielstrategien
Das Deep Q-Network erhielt jeweils die Bildinformationen der verschiedenen Spielphasen und die Rückmeldung, ob seine jeweilige Aktion positiv oder negativ war. Im eigentlichen Test spielte das neuronale Netzwerk das jeweils gelernte Spiel 30 Mal hintereinander und der Highscore wurde registriert. Der gegen ihn antretende menschliche Spieler durfte zwei Stunden üben und spielte danach das Spiel ebenfalls mehrfach durch.
Das Ergebnis: Das Computerprogramm schaffte es, sich die verschiedenen Spiele quasi selbst beizubringen. In einigen Spielen lernte es dabei sogar, längerfristige Strategien einzusetzen, wie die Forscher berichten: Beim Spiel Breakout beispielsweise besteht die optimale Strategie darin, sich zunächst einen Tunnel an der Seite freizuschießen, damit der Ball auch die Rückseite der Mauer zerstören kann.
Fast so gut wie der menschliche Spieler
Im Durchschnitt schnitt das Deep Q-Network nur wenig schlechter ab als sein menschlicher Konkurrent: „In mehr als der Hälfte der Spiele erreichte DQN mehr als drei Viertel der Punktzahl, die der Mensch erzielte“, berichten die Forscher. Bisherige lernfähige Programme lässt das Deep Q-Network damit weit hinter sich.
Nach Ansicht der Forscher demonstriert ihr System, dass auch Computer fähig sind, mit nur minimaler Vorinformation Neues zu lernen. Dem Deep Q-Network gelang dies noch dazu unter ganz unterschiedlichen Bedingen – je nach Spiel waren andere Spielzüge und Taktiken gefragt. „Dies ist damit die erste künstliche Intelligenz, selbst lernt, eine vielfältige Spannbreite von Aufgaben erfolgreich zu bewältigen“, konstatieren Mnih und seine Kollegen. (Nature, 2015; doi: 10.1038/nature14236)
(Nature, 26.02.2015 – NPO)