Alphazero: Einzelne KI ist bester Spieler in Go, Schach und Shogi

Forscher bei Googles Deepmind haben ein KI-System entwickelt, das drei klassische Brettspiele sehr gut beherrscht. Alphazero(öffnet im neuen Fenster) heißt die Software, welche in Go, Schach und der japanischen Schachvariate Shogi alle anderen Weltmeister in der jeweiligen Disziplin schlägt. Diese sind seit einiger Zeit keine Menschen mehr, sondern ebenfalls Künstliche Intelligenzen.
Alphazero musste beim Schach gegen Stockfish, bei Shogi gegen Elmo und bei Go gegen das hauseigene Programm Alphago antreten. Das Besondere am neuen System ist, dass ihm nur die jeweiligen Spielregeln beigebracht wurden. Als neuronales Netzwerk spielte die Software zunächst gegen sich selbst und prägte sich zufällig generierte Züge und deren beste Reaktionen genau ein. Dieses Trial-and-Error-Prinzip nennt sich auch Reinforcement Learning. Mithilfe von 5.000 spezialisierten Tensor Processing Units dauerte das Modelltraining bei Schach neun Stunden, bei Shogi zwölf Stunden und bei Go ganze 13 Tage.
Trial and Error statt vorprogrammierter Züge
Der Unterschied zu bisher eingesetzten Programmen ist, dass diese aus vielen manuell erstellten Zügen ihre eigenen Spielschritte durchführen. Dazu wurden auch professionelle menschliche Spieler zur Hilfe herangezogen. Alphazero konnte durch die enorme Rechenleistung allerdings wesentlich mehr Züge berechnen und hat daher ein größeres taktisches Repertoire. "Es ist so, als würde man die geheimen Notizen eines großartigen Spielers aus der Vergangenheit entdecken" , beschreiben die Profispieler Natasha Regan und Matthew Sadler die Spielweise von Alphazero.
Die Ergebnisse der Partien sind recht eindeutig: Je nach Figurenfarbe gewinnt Alphazero beim Schach gegen Stockfish in 29 Prozent der Fälle und verliert zu 0,4 Prozent. Beginnt Alphazero mit den schwarzen Figuren, gewinnt es nur noch zu 2 Prozent und verliert zu etwa 0,8 Prozent. Bei Schach ist der Anteil der Remis-Situationen sehr hoch: 70,6 Prozent für weiß und 97,2 Prozent für schwarz.
Bei Shogi schlägt Alphazero den Kontrahenten Elmo sehr eindeutig: Auf der weißen Spielseite ist die Software zu 84,2 Prozent und auf der schwarzen zu 98,2 Prozent siegreich. Im japanischen Schach beginnt die Farbe Schwarz das Spiel. Bei Go gegen Deepminds Alphago sind es 86,9 Prozent Siege mit den weißen und 53,7 Gewinnerquote mit den schwarzen Linsen.
Für Software sind die drei getesteten Strategiespiele eine sehr gut zu bewältigende Aufgabe. Es wird abwechselnd nach sehr festen Zugregeln gespielt. Äußere Einflüsse gibt es nicht. Die Suchbaummethode Monte-Carlo Tree Search (MCTS) ist ein großer Vorteil, den die Konkurrenzprodukte nicht haben - genauso wenig wie viele Züge, die laut Deepmind Profispieler bisher nie zuvor gesehen haben und die Alphazero durch Millionen von Testläufen evaluiert und gespeichert hat.



