Original-URL des Artikels: https://www.golem.de/news/deep-learning-wenn-die-ki-besser-pruegelt-als-menschen-1702-126357.html    Veröffentlicht: 23.02.2017 16:41    Kurz-URL: https://glm.io/126357

Deep Learning

Wenn die KI besser prügelt als Menschen

In linearen Jump-'n'-Run-Spielen sind Maschinen schon lange besser als Menschen. In vergleichsweise hochkomplexen Multiplayer-Spielen wie Super Smash Bros. Melee kann KI nun aber auch Menschen übertrumpfen. Noch haben Menschen aber einen entscheidenden Vorteil.

Mit Super Smash Bros. Melee (SSBM) hat Nintendo vor rund 15 Jahren das wohl meistverkaufte Spiel für den Gamecube veröffentlicht und das Spiel erfreut sich wegen dessen komplexer Anforderungen nach wie vor großer Beliebtheit. Ein Forscherteam vom MIT und der NYU hat sich daran probiert, künstliche Intelligenz (KI) auf das Spiel für SSBM zu trainieren. Seine Untersuchung hat das Team auf Arxiv.org vorveröffentlicht. Demnach hat es dabei nicht nur erwartbare Probleme gegeben, dem Team ist es in Teilen sogar gelungen, tatsächlich Profi-Spieler zu schlagen.

Dass Letzteres möglich ist, war nicht unbedingt zu erwarten. Zwar werden verschiedene Methoden des sogenannten maschinellen Lernens schon länger genutzt, um KI in Computerspielen zu testen - teils auch mit extrem beeindruckenden und klar übermenschlichen Ergebnissen. Doch das Multiplayer-Spiel SSBM setzt sehr komplexe Dynamiken der Spieler voraus, die teilweise auch gar nicht mehr wahrgenommen werden können. SSBM ist damit viel mehr als nur eine lustige Prügel-Orgie mit Comic-Figuren und übersteigt etwa die Anforderungen bisher getesteter linearer Jump-'n'-Run-Spiele von Atari oder Nintendo.

Fast zu viele Möglichkeiten für die Maschine

Bei einigen Aktionen verfügt SSBM etwa über eine erzwungene Verzögerung der Eingaben, die teils mehrere Frames umfasst. Ebenso gibt es Aktionen, die innerhalb von höchstens zwei Frames (rund 33ms) ausgelöst werden müssen. Bei 60 Bildern die Sekunde geht das deutlich über das für Menschen üblicherweise angenommene Reiz-Reaktions-Schema (200ms) hinaus.

Eigene Aktionen müssen also in Antizipation auf mögliche Aktionen des Gegners vor diesen geplant und ausgeführt werden. Auch der Erfolg einer Aktion lässt sich nur relativ zum Gegner und über einen bestimmten Zeitraum hinweg beurteilen. Letztlich können mit dem Gamecube-Controller auch so viele Eingaben getätigt werden, dass das Team für seine KI diese auf 54 Aktionen reduzieren mussten.

Paralleles Selbst-Lernen

Um die KI zu trainieren, hat das Team die Methoden des sogenannten verstärkenden Lernens (Reinforcement Learning, RL) genutzt. Dabei erlernt die KI, hier ein neuronales Netzwerk, mehr oder weniger selbstständig eine Strategie zum Gewinnen auf Basis von Erfolg und Misserfolg im Spiel. Im Vergleich zu Atari-Spielen aus den 80er Jahren ist die Emulation des Gamecube mit SSBM aber wesentlich langsamer. Das Team hat sich deshalb dazu entschlossen, bis zu 50 Emulatoren parallel zu betreiben und diese zum Lernen zu nutzen.

Die so erhaltenen Ergebnisse, also das Erlernte selbst, werden damit aber asynchron zueinander erzeugt, was im Gegensatz zu bisherigen Annahmen zum RL in der Praxis allerdings keine Probleme bereite. Das System ist wohl immer noch schnell genug, die Ergebnisse der parallel laufenden Trainingsphase zu verteilen. Die Unterschiede seien dabei außerdem wohl klein genug, um das gesamte System nicht zu gefährden.

Die Eigenheiten des Spiels erschwerten die Trainingsphase aber enorm, weshalb diese immer wieder an andere Voraussetzungen angepasst werden musste. Aber auch nach diesem Fine-Tuning sind die Algorithmen im direkten Vergleich mit Menschen nicht immer gut genug.

Gutes Lernen, schlechtes Lernen und Eigen-KO

So zeigte sich bei zwei unterschiedlichen getesteten Methoden zum Lernen, dass der eine Algorithmus (Actor-Critic) beim Training gegen die KI des Spiels am Ende so agierte, wie dies von Menschen zu erwarten sei. Der zweite Algorithmus (Q-Learning) nutzte dagegen eine Schwäche des Spiels und konnte durch Eigen-KO des Gegners gewinnen, was dauerhaft reproduzierbar war. Beide Algorithmen konnten aber noch einfach von menschlichen Spielern geschlagen werden.

Deshalb hat das Team in Anlehnung an die Vorgehensweise von Alpha Go seine Algorithmen gegen alte Versionen ihrer selbst antreten lassen. Damit war das Netzwerk schließlich in der Lage, nicht nur gegen menschliche Spieler mit Erfahrung in SSBM zu gewinnen, sondern auch gegen jene, die von der Spieler-Community als professionell und damit besonders gut eingeschätzt werden.

Doch auch diese Version des Algorithmus hatte große Schwierigkeiten damit, auf unerwartete Aktionen seiner Gegner reagieren zu können. Einem von den Autoren der Untersuchung als besonders clever bezeichneter Spieler ist es etwa mit einem Trick gelungen, den Actor-Critic-Algorithmus zum Verzicht auf einen Angriff zu zwingen und letztlich ebenfalls in ein Eigen-KO zu treiben.

Derartige Probleme hat das Team versucht zu überwinden, indem mittels verschiedener Spielcharaktere voneinander unabhängige neuronale Netze trainiert worden sind, die dann wiederum gegeneinander angetreten sind. Zuvor ist immer nur ein einzelner Charakter genutzt worden. So konnten die Algorithmen besser auf unerwartete Situationen reagieren.

KI ohne Erinnerung

Im Gegensatz zu Menschen, die kontinuierlich Reize aufnehmen, diese verarbeiten und in Reaktionen überführen können, kann das trainierte neuronale Netz immer nur auf einen einzelnen Zustand im Spiel reagieren. Dem Algorithmus fehlt damit sozusagen das Gedächtnis, um auf einen bestimmten Spielverlauf reagieren zu können.

Zwar gibt es mit den rekurrenten neuronalen Netzwerken (RNN) die Möglichkeit, diese Art Gedächtnis als eigenen Zustand zu emulieren, mit dem das Ergebnis einer Aktion direkt wieder in das Netz eingespeist wird. Dem Team gelang es in seiner Untersuchung jedoch nicht, ein fähiges RNN zu trainieren.

Ein RNN mit dem Gedächtnis könnte im Fall von SSBM künftig dazu genutzt werden, mit der eingangs erwähnten Zeitverzögerung umgehen zu können, die wie erwähnt in dem Spiel eine große Rolle einnimmt. Ebenso wäre ein RNN in der Lage, auch Geschosse, die in SSBM vorkommen, zu beurteilen und eventuell sogar selbst zu verwenden, indem deren Flugbahn bestimmt wird.  (sg)


Verwandte Artikel:
Microsoft: KI-Framework kommt auf Windows-10-Endgeräte   
(08.03.2018, https://glm.io/133217 )
Aaeon UP Core Plus: Entwickler-Platine koppelt Intel Atom mit AI-Hardware   
(28.02.2018, https://glm.io/133045 )
Tensorflow: Das US-Militär nutzt KI-Systeme von Google   
(07.03.2018, https://glm.io/133194 )
Maschinelles Lernen: Biometrisches Captcha nutzt Sprache und Bild   
(22.02.2018, https://glm.io/132937 )
Neuronales Netzwerk: Algorithmus erstellt 3D-Gesichtsmodell aus einzelnem Foto   
(19.09.2017, https://glm.io/130125 )

© 1997–2020 Golem.de, https://www.golem.de/