Deep Learning: Wenn die KI besser prügelt als Menschen

In linearen Jump-'n'-Run-Spielen sind Maschinen schon lange besser als Menschen. In vergleichsweise hochkomplexen Multiplayer-Spielen wie Super Smash Bros. Melee kann KI nun aber auch Menschen übertrumpfen. Noch haben Menschen aber einen entscheidenden Vorteil.

Artikel veröffentlicht am ,
Auch KI kann nun Prügelorgien in Knuddelgrafik spielen.
Auch KI kann nun Prügelorgien in Knuddelgrafik spielen. (Bild: Nintendo)

Mit Super Smash Bros. Melee (SSBM) hat Nintendo vor rund 15 Jahren das wohl meistverkaufte Spiel für den Gamecube veröffentlicht und das Spiel erfreut sich wegen dessen komplexer Anforderungen nach wie vor großer Beliebtheit. Ein Forscherteam vom MIT und der NYU hat sich daran probiert, künstliche Intelligenz (KI) auf das Spiel für SSBM zu trainieren. Seine Untersuchung hat das Team auf Arxiv.org vorveröffentlicht. Demnach hat es dabei nicht nur erwartbare Probleme gegeben, dem Team ist es in Teilen sogar gelungen, tatsächlich Profi-Spieler zu schlagen.

Inhalt:
  1. Deep Learning: Wenn die KI besser prügelt als Menschen
  2. Gutes Lernen, schlechtes Lernen und Eigen-KO

Dass Letzteres möglich ist, war nicht unbedingt zu erwarten. Zwar werden verschiedene Methoden des sogenannten maschinellen Lernens schon länger genutzt, um KI in Computerspielen zu testen - teils auch mit extrem beeindruckenden und klar übermenschlichen Ergebnissen. Doch das Multiplayer-Spiel SSBM setzt sehr komplexe Dynamiken der Spieler voraus, die teilweise auch gar nicht mehr wahrgenommen werden können. SSBM ist damit viel mehr als nur eine lustige Prügel-Orgie mit Comic-Figuren und übersteigt etwa die Anforderungen bisher getesteter linearer Jump-'n'-Run-Spiele von Atari oder Nintendo.

Fast zu viele Möglichkeiten für die Maschine

Bei einigen Aktionen verfügt SSBM etwa über eine erzwungene Verzögerung der Eingaben, die teils mehrere Frames umfasst. Ebenso gibt es Aktionen, die innerhalb von höchstens zwei Frames (rund 33ms) ausgelöst werden müssen. Bei 60 Bildern die Sekunde geht das deutlich über das für Menschen üblicherweise angenommene Reiz-Reaktions-Schema (200ms) hinaus.

Eigene Aktionen müssen also in Antizipation auf mögliche Aktionen des Gegners vor diesen geplant und ausgeführt werden. Auch der Erfolg einer Aktion lässt sich nur relativ zum Gegner und über einen bestimmten Zeitraum hinweg beurteilen. Letztlich können mit dem Gamecube-Controller auch so viele Eingaben getätigt werden, dass das Team für seine KI diese auf 54 Aktionen reduzieren mussten.

Paralleles Selbst-Lernen

Stellenmarkt
  1. Data Manager (m/w/d)
    Hays AG, München
  2. Beschäftigte:r (w/m/d) in der Informations- und IT-Sicherheit
    Universität zu Köln, Köln
Detailsuche

Um die KI zu trainieren, hat das Team die Methoden des sogenannten verstärkenden Lernens (Reinforcement Learning, RL) genutzt. Dabei erlernt die KI, hier ein neuronales Netzwerk, mehr oder weniger selbstständig eine Strategie zum Gewinnen auf Basis von Erfolg und Misserfolg im Spiel. Im Vergleich zu Atari-Spielen aus den 80er Jahren ist die Emulation des Gamecube mit SSBM aber wesentlich langsamer. Das Team hat sich deshalb dazu entschlossen, bis zu 50 Emulatoren parallel zu betreiben und diese zum Lernen zu nutzen.

Die so erhaltenen Ergebnisse, also das Erlernte selbst, werden damit aber asynchron zueinander erzeugt, was im Gegensatz zu bisherigen Annahmen zum RL in der Praxis allerdings keine Probleme bereite. Das System ist wohl immer noch schnell genug, die Ergebnisse der parallel laufenden Trainingsphase zu verteilen. Die Unterschiede seien dabei außerdem wohl klein genug, um das gesamte System nicht zu gefährden.

Die Eigenheiten des Spiels erschwerten die Trainingsphase aber enorm, weshalb diese immer wieder an andere Voraussetzungen angepasst werden musste. Aber auch nach diesem Fine-Tuning sind die Algorithmen im direkten Vergleich mit Menschen nicht immer gut genug.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Gutes Lernen, schlechtes Lernen und Eigen-KO 
  1. 1
  2. 2
  3.  


violator 24. Feb 2017

Zufällig ja, aber eben ohne Taktik oder Gedanken. Da wird immer nur analysiert und...

JayJay15 24. Feb 2017

Es gibt doch nur 2 mögliche Entwicklungen im Bereich der KI. Ich bin nicht einer dieser...

Polinda Panda 24. Feb 2017

Vielleicht haben haben sie Spass am Spiel ...

Smincke 24. Feb 2017

In Melee ist Techskill wesentlich wichtiger als in den anderen Smash Teilen. Ein gut...



Aktuell auf der Startseite von Golem.de
"Macht mich einfach wahnsinnig"
Kelber beklagt digitale Inkompetenz von VW

Der Bundesdatenschutzbeauftragte Ulrich Kelber hat vor einem Jahr ein Elektroauto bei VW bestellt. Und seitdem nichts mehr davon gehört.

Macht mich einfach wahnsinnig: Kelber beklagt digitale Inkompetenz von VW
Artikel
  1. Unikate: Deutsche Post verkauft eine Milliarde Matrixcode-Briefmarken
    Unikate
    Deutsche Post verkauft eine Milliarde Matrixcode-Briefmarken

    Die Deutsche Post begann im Februar 2021, Briefmarken mit Matrixcode zu verkaufen. Nun wurden bereits eine Milliarde Stück verkauft.

  2. Telemetrie: Voyager 1 weiß wohl nicht, wo sie ist
    Telemetrie
    Voyager 1 weiß wohl nicht, wo sie ist

    Seit 1977 befindet sich die Raumsonde Voyager 1 auf ihrer Reise durchs All. Die neusten Daten scheinen einen falschen Standort anzuzeigen.

  3. Agile Softwareentwicklung: Einfach mal so drauflos programmiert?
    Agile Softwareentwicklung
    Einfach mal so drauflos programmiert?

    Ohne Scrum wäre das nicht passiert, heißt es oft, wenn etwas schiefgeht. Dabei ist es umgekehrt: Ohne agiles Arbeiten geht es nicht mehr. Doch es gibt drei fundamentale Missverständnisse.
    Von Frank Heckel

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Xbox Series X bestellbar • Samsung schenkt 19% MwSt. • MindStar (u. a. AMD Ryzen 9 5950X 488€) • Cyber Week: Jetzt alle Deals freigeschaltet • LG OLED TV 77" 62% günstiger: 1.749€ • Bis zu 35% auf MSI • Alternate (u. a. AKRacing Core EX SE Gaming-Stuhl 169€) [Werbung]
    •  /