Gut gepokert: Erstmals hat eine künstliche Intelligenz gegen gleich fünf Mitspieler im Poker gewonnen – und dabei selbst Weltklasse-Profis geschlagen. Das KI-System „Pluribus“ meisterte dabei gleich zwei Herausforderungen. Es bewährte sich in einem Mehrspieler-Game und gleichzeitig in einem Kartenspiel, bei dem man das Blatt seiner Gegner nicht kennt. Das sei ein weiterer Meilenstein für die für KI-Forschung, sagen die Forscher im Fachmagazin „Science“
Dank neuronaler Netze und lernfähiger Algorithmen beherrschen künstliche Intelligenzen inzwischen selbst komplexe Strategiespiele. Sie haben im Schach, im asiatischen Strategiespiel Go und in der japanischen Schachvariante Shogi bereits menschliche Weltklassespieler besiegt. Das KI-System AlphaGo Zero erreichte dabei innerhalb von drei Tagen Profi-Niveau – und das ganz ohne menschliche Lehrer.
Doch Schach, Go und Co haben eine Gemeinsamkeit: In diesen Spielen sieht jeder Spieler die Spielpositionen des Gegenübers – es sind Spiele mit sogenannter „perfekter Information“. Anders ist dies bei Kartenspielen wie dem Poker: Hier kennt man das Blatt seines Gegenübers entweder gar nicht oder nur teilweise. Das macht es deutlich schwerer, eine Strategie zu entwickeln. Dennoch haben Computerhirne auch diese Herausforderung schon gemeistert – und sogar bluffen gelernt.
Sechs Spieler statt nur zwei
Einen Schritt weiter geht nun „Pluribus“, ein von Noam Brown und Tuomas Sandholm von der Carnegie Mellon University in Pittsburgh entwickeltes KI-System. Denn dieses lernfähige Maschinenhirn pokert nicht nur mit einem Mitspieler, sondern kann sich in Pokerrunden gegen gleich fünf Mitspieler durchsetzen. Pluribus spielt dabei die verbreitete Pokervariante „No-Limit Texas Hold’em“. Bei dieser hat jeder Spieler zwei verdeckte Karten, fünf weitere Karten werden sukzessive für alle sichtbar aufgedeckt.
„Bisher waren KI-Meilensteine im strategischen Denken immer auf Zwei-Parteien-Wettbewerbe begrenzt“, sagt Brown. „Ein Spiel mit sechs Mitspieler zu absolvieren erfordert fundamentale Veränderungen darin, wie die KI ihre Spielstrategie entwickelt.“ Denn sie muss dann deutlich variablere Strategien einsetzen.
Flexible Strategien und gekonntes Bluffen
Pluribus löst dieses Problem, indem er zunächst wiederholt gegen Kopien seiner selbst spielt und dadurch immer besser wird. Aus diesen Erfahrungen entwickelt das KI-System dann eine Art Strategie-Blaupause, wie die Forscher erklären. Mit dieser vorab ermittelten Spielweise beginnt die KI ihr Pokerspiel gegen die fünf Mitspieler. „Während des Spiels optimiert Pluribus dann seine Strategie, indem er in Echtzeit nach einer besseren Lösung für die aktuelle Spielsituation sucht“, berichten Brown und Sandholm.
Dabei kann Pluribus sogar bluffen: „Wenn ein Spieler immer nur dann den Einsatz erhöhen würde, wenn er das bestmögliche Blatt hat, wüssten seiner Gegner, dass sie in dem Fall immer passen müssten“, erklären die Forscher. Die KI umgeht dies, indem sie bei jeder Entscheidung die Wahrscheinlichkeit des Spielzugs ungeachtet ihres Blatts mitberücksichtigt. Dadurch kann sie erkennen, wann es auch bei einem schlechten Blatt vorteilhafter ist, einen Einsatz zu machen – sie blufft.
Klarer Sieg gegen Weltklasse-Pokerprofis
Doch wie gut pokert das Maschinenhirn? Das haben die Forscher getestet, indem sie Pluribus in zwei Turnieren gegen Weltklasse-Profispieler antreten ließen. Im ersten Turnier spielte die KI über zwölf Tage lang 10.000 Runden gegen jeweils fünf menschliche Mitspieler. Im zweiten Turnier trat jeweils ein Profispieler gegen fünf Kopien von Pluribus an. „Der Bot hat dabei gegen einige der besten Pokerspieler der Welt gespielt“, betont Darren Elias, einer der teilnehmenden Pokerprofis.
Das Ergebnis: Pluribus gewann deutlich häufiger als seine menschlichen Konkurrenten – und hatte am Ende signifikant mehr Geld eingespielt. „Seine größte Stärke ist seine Fähigkeit, Strategien zu mischen“, sagt Elias. Das ist etwas, das auch menschliche Spieler versuchen, aber oft nicht schaffen. In einigen Fällen wählte Pluribus aber auch Strategien, die landläufiger Meinung nach eher suboptimal sind – und gewann trotzdem.
Wo liegt der praktische Nutzen?
Nach Ansicht von Brown und Sandholm hat Pluribus damit einen weiteren Meilenstein der KI-Forschung geknackt. „Die Fähigkeit, fünf andere Spieler in einem so komplizierten Spiel zu schlagen, eröffnet ganz neue Möglichkeiten, KI für Probleme in der realen Welt einzusetzen“, sagt Brown. Den auch in der Wirklichkeit seien meist verdeckte Informationen und mehrere Akteure mit im Spiel.
Andere KI-Forscher sehen die praktische Anwendbarkeit allerdings etwas kritischer: „Ein Mensch, der sehr gut Poker spielen kann, ist ja auch nicht gleich ein Börsengenie“, kommentiert Kristian Kersting von der TU Darmstadt. Der Transfer solcher Spielerfolge auf reale Problemlösungen sei daher nicht ganz einfach. Dennoch könne der Erfolg von Pluribus als Inspiration dienen, um viele spannende Fragen anzugehen. (Science, 2019; doi: 10.1126/science.aay2400)
Quelle: Carnegie Mellon University