Dabei müssen die Spieler kurzfristige Aktionen ihrer zahlreichen Spielfiguren durchführen, gleichzeitig aber ihre langfristige Strategie berücksichtigen. Erschwerend kommt hinzu, dass jeder Spieler immer nur Teile der Spielwelt sieht und sie erst erkunden muss. „Die Komplexität des Spieles ist weit größer als beim Schach, weil die Spieler hunderte von Einheiten gleichzeitig steuern“, erklärt Vinyals Kollege David Silver. „Sie ist auch größer als bei Go, weil es für jeden Spielzug zehn hoch 26 Möglichkeiten gibt. Und noch dazu haben die Spieler weniger Informationen über ihre Gegner als beim Poker.“
Training durch kombinierte Lernmethoden
Als KI-Akteur in diesem Spiel nutzten Vinyals und sein Team ein KI-System, das auf einem neuronalen Netzwerk und universell einsetzbaren Lern-Algorithmen aufgebaut ist. Das Programm „AlphaStar“ trainierte StarCraft II zunächst auf Basis der Spielregeln und einem Datensatz mit Spielzügen und Strategien menschlicher Spieler. Zusätzlich lernte das Programm durch verstärkendes Lernen und eine Art Liga-Spiel: Das Programm spielte wiederholt gegen mehrere verschiedene Kopien seiner selbst.
Dann folgte der eigentliche Test: Die Forscher meldeten AlphaStar unter Pseudonym im Battle.net an, einer Liga, in der StarCraft-Spieler auf Basis ihrer Leistungen eingestuft werden. Dann absolvierte die KI online und in Echtzeit Spiele gegen die ihm vom System zugeteilten menschlichen Spieler. Um dem Computer keine unfairen Vorteile zu verschaffen, bauten die Forscher bewusst entsprechende Begrenzungen ein: AlphaStar ist im Tempo seiner Aktionen auf ein fast menschliches Maß gebremst. Zudem kennt auch er nicht die ganze Karte der Spielwelt, sondern muss sie erst nach und nach erkunden.
Großmeister mit „ganz eigenem Stil“
Das Ergebnis: AlphaStar erreichte schnell den Rang eines Großmeisters – eine Liga, in die nur die 200 stärksten Spieler einer der fünf Regionen vorrücken dürfen. Sein Punktewert übertraf dabei den von 99,8 Prozent aller gelisteten menschlichen Spieler, wie Vinyals und seine Kollegen berichten. AlphaStar ist damit das erste Computerprogramm, das das Topniveau in einem professionell gespielten E-Sport erreicht.
„AlphaStar hat dieses Niveau allein mit einem neuronalen Netzwerk und universell einsetzbaren Lern-Algorithmen erreicht – das war vor zehn Jahren noch unvorstellbar“, sagt Vinyals. Auch einige der Profispieler, gegen die AlphaStar antrat, waren beeindruckt: „AlphaStar ist ein faszinierender und unorthodoxer Spieler – er hat die Reflexe und das Tempo der besten Profis, aber Strategien und einen Stil, die ganz seine eigenen sind“, sagt Diego „Kelazhur“ Schwimer.
Wichtiger Schritt für die KI-Forschung
Auch andere KI-Forscher bewerten diesen Erfolg als durchaus beeindruckende Leistung: „Es ist faszinierend, dass ein KI-System ein so komplexes Echtzeit-Strategiespiel wie StarCraft II auf einem so hohen Niveau spielen kann“, kommentiert Kristian Kersting von der Technischen Universität Darmstadt. „Das ist nicht einfach für eine Maschine – für ein KI-System. Daher waren und sind Echtzeit-Strategiespiele ein beliebtes Testbett der KI-Forschung. AlphaStar folgt dieser Tradition, hebt es aber auf ein neues Niveau.“
Bis allerdings KI-Systeme auch die noch komplexere reale Welt ähnlich gut meistern können, ist noch einiges zu tun, das räumen auch Vinyals und seine Kollegen ein. „Spiele wie StarCraft sind für solche Ansätze ein exzellentes Trainingsfeld. Wir wollen so das Potenzial und die Grenzen des ergebnisoffenen Lernens besser verstehen“, erklären die Forscher. „Das ermöglicht es uns, robuste und flexible Agenten zu entwickeln, die auch mit den komplexen Anforderungen der realen Welt zurechtkommen.“ (Nature, 2019; doi: 10.1038/s41586-019-1724-z)
Quelle: DeepMind, Nature
31. Oktober 2019
- Nadja Podbregar