Informatik

Künstliche Intelligenz als Meister-Stratege

KI-System AlphaZero erreicht selbstständig Weltmeisterniveau in gleich drei Strategiespielen

Stategiespiel
Die künstliche Intelligenz AlphaZero beweist sich als Allround-Stratege: Sie lernte Schach, Go und Shogi in kürzester Zeit bis auf Weltmeisterniveau. © DeepMind Technologies Ltd

Meisterspieler mit Maschinenhirn: Eine künstliche Intelligenz hat es erstmals geschafft, in gleich drei Strategiespielen Topniveau zu erreichen – ohne menschliche Hilfe. Das KI-System AlphaZero brachte sich innerhalb weniger Stunden Schach, Go und Shogi selbst bei und besiegte dann jeweils Spezialprogramme auf Weltmeisterniveau, wie die Forscher im Fachmagazin „Science“ berichten. Vom innovativen Spiel der KI waren selbst Schachweltmeister beeindruckt.

Das Beherrschen von komplexen Strategiespielen wie Schach, Go oder der japanischen Schachvariante Shogi gilt schon lange als Messlatte für die Leistung von Computerhirnen. Doch herkömmliche Schachcomputer sind immer nur so gut wie die ihnen einprogrammierten Partien – ein kreatives oder gar innovatives Spiel ist für sie unmöglich.

Das hat sich mit der Entwicklung neuronaler Netze und lernfähiger künstlicher Intelligenzen geändert: Erst vor Kurzem sorgte das KI-System AlphaGO für eine Sensation, als es einen Großmeister im asiatischen Brettspiel Go besiegte – einem der schwersten Strategiespiele überhaupt. Wenig später übertraf sein Nachfolger AlphaGO Zero dies noch: Er brachte sich das Go-Spielen komplett ohne menschlichen Lehrer selbst bei und erreichte dabei in kürzester Zeit Meisterniveau.

Drei Spiele – eine KI

Die große Frage aber war: Kann eine künstliche Intelligenz auch jenseits der Spezialisierung auf nur ein Spiel ein meisterhafter Stratege werden? Dieser Herausforderung haben sich nun David Silver und sein Team vom Forschungszentrum DeepMind gestellt – mit einer noch fortgeschritteneren Variante ihrer Alpha-KI. „Wir setzen AlphaZero auf Schach, Go und Shogi an, dabei nutzt er die gleichen Algorithmen und Netzwerk-Architektur für alle drei Spiele“, berichten die Forscher.

Ähnlich wie seine Vorgänger beruht AlphaZero auf einer Kombination von neuronalen Netzwerken, einem Algorithmus, der Lernen durch positive Verstärkung ermöglicht und einer sogenannten Monte-Carlo-Suche, die mögliche Spielzüge prüft. Als Input von außen bekommt das KI-System nur die Regeln der drei Spiele. Um diese zu lernen und darin Meisterschaftsniveau zu erlangen, spielt AlphaZero nun immer wieder gegen sich selbst.

Trainiert nur durch Spiele gegen sich selbst

„AlphaZero hat abgesehen von den Regeln keinerlei Vorwissen über die Spiele“, erklärt Demis Hassabis von DeepMind. „Beginnend mit zufälligen Spielzügen lernt AlphaZero nach und nach, was eine gute Partie ausmacht und bildet sich seine eigenen Bewertungsmaßstäbe über das Spiel.“ Mit jeder gespielten Partie kann das System sein Spiel dadurch weiter optimieren und verfeinern. Die Trainingsphase für AlphaZero dauerte für Schach neun Stunden, für Shogi zwölf Stunden und für Go 13 Tage.

Spielergebnisse von AlphaZero
Abschneiden von AlphaZero in Schach, Go und Shogi gegen Spezialprogramme auf Weltmeisterniveau. © DeepMind Technologies Ltd

Dann folgte der Test: Die Forscher ließen AlphaZero gegen die jeweils besten spezialisierten Computerprogramme für diese Spiele antreten: Gegen Stockfisch in Schach, gegen Elmo in Shogi und gegen seinen eigenen Vorgänger AlphaGo Zero in Go. Das Ergebnis: In Shogi gewann AlphaZero mehr als 90 Prozent aller Partien, bei Go besiegte er seinen Vorgänger immerhin in 61 Prozent der Spiele. Beim Schach gewann AlphaZero 155 von 1.000 Partien, verlor sechs und erzielte beim Rest ein Patt.

„Besser als jede Maschine und jeder Mensch“

Damit hat AlphaZero demonstriert, dass ein KI-System in kürzester Zeit Meisterschaftsniveau in gleich mehreren verschiedenen Strategiespielen erreichen kann – selbstständig und ohne langwieriges Training. Und nicht nur das: AlphaZero entwickelte auch ganz eigene, innovative Spielzüge. „Als ich mir die Partien anschaute, war ich beeindruckt von AlphaZeros einzigartigem und dynamischem Stil“, sagt Hassabis.

Die Spielweise der künstlichen Intelligenz begeistert selbst Schach-Profis wie den ehemaligen Schachweltmeister Garry Kasparov: „AlphaZero hat eigenes Wissen erschaffen – und das in nur wenigen Stunden. Er spielt mit einem sehr dynamischen Stil – sehr ähnlich meinem eigenen“, sagt Kasparov. „Seine Ergebnisse haben die jeder bekannten Maschine und jedes Menschen übertroffen.“

Erster Schritt zur universellen Lernmaschine

Nach Ansicht der Forscher ist Alpha Zero ein erster Schritt hin zu künftigen Computersystemen, die komplexe Probleme auch in der realen Welt lösen können. „Mein Traum ist es, ein solches System nicht nur für Spiele einzusetzen, sondern für alle Arten von Anwendungen in der wirklichen Welt – beispielsweise bei der Entwicklung von Arzneimitteln, neuen Materialien oder in der Biotechnologie“, sagt Silver.

Ähnlich sieht es auch der nicht an AlphaZero beteiligte KI-Forscher Klaus-Robert Müller von der TU Berlin: „Dies ist ein wichtiger erster Schritt hin zu einer universellen strategischen Lernmaschine“, kommentiert er. Auch wenn eine Spielumgebung ein kontrolliertes Umfeld darstelle und daher einfacher zu bewältigen sei, sei dies ein vielversprechender Anfang. (Science, 2018; doi: 10.1126/science.aar6404)

Quelle: Science, DeepMind, SMC

Keine Meldungen mehr verpassen – mit unserem wöchentlichen Newsletter.
Teilen:

In den Schlagzeilen

News des Tages

Diaschauen zum Thema

Dossiers zum Thema

Killerroboter - Autonome Waffensysteme – wenn Computer über Leben und Tod entscheiden

Alan Turing - Genialer Computerpionier und tragischer Held

Bücher zum Thema

Maschinen mit Bewusstsein - Wohin führt die künstliche Intelligenz? von Bernd Vowinkel

Menschmaschinen - Wie uns die Zukunftstechnologien neu erschaffen von Rodney Brooks

Die berechnete Welt - Leben unter dem Einfluss von Algorithmen Von Nora S. Stampfl

Top-Clicks der Woche