Gutes Lernen, schlechtes Lernen und Eigen-KO

So zeigte sich bei zwei unterschiedlichen getesteten Methoden zum Lernen, dass der eine Algorithmus (Actor-Critic) beim Training gegen die KI des Spiels am Ende so agierte, wie dies von Menschen zu erwarten sei. Der zweite Algorithmus (Q-Learning) nutzte dagegen eine Schwäche des Spiels und konnte durch Eigen-KO des Gegners gewinnen, was dauerhaft reproduzierbar war. Beide Algorithmen konnten aber noch einfach von menschlichen Spielern geschlagen werden.

Stellenmarkt
  1. Testmanager & Data Quality Specialist (m/w/d) im Data Management
    Schaeffler Automotive Aftermarket GmbH & Co. KG, Langen
  2. IT-Service-Manager*in Crossmedialer Systembetrieb
    Hessischer Rundfunk Anstalt des öffentlichen Rechts, Frankfurt am Main
Detailsuche

Deshalb hat das Team in Anlehnung an die Vorgehensweise von Alpha Go seine Algorithmen gegen alte Versionen ihrer selbst antreten lassen. Damit war das Netzwerk schließlich in der Lage, nicht nur gegen menschliche Spieler mit Erfahrung in SSBM zu gewinnen, sondern auch gegen jene, die von der Spieler-Community als professionell und damit besonders gut eingeschätzt werden.

Doch auch diese Version des Algorithmus hatte große Schwierigkeiten damit, auf unerwartete Aktionen seiner Gegner reagieren zu können. Einem von den Autoren der Untersuchung als besonders clever bezeichneter Spieler ist es etwa mit einem Trick gelungen, den Actor-Critic-Algorithmus zum Verzicht auf einen Angriff zu zwingen und letztlich ebenfalls in ein Eigen-KO zu treiben.

Derartige Probleme hat das Team versucht zu überwinden, indem mittels verschiedener Spielcharaktere voneinander unabhängige neuronale Netze trainiert worden sind, die dann wiederum gegeneinander angetreten sind. Zuvor ist immer nur ein einzelner Charakter genutzt worden. So konnten die Algorithmen besser auf unerwartete Situationen reagieren.

KI ohne Erinnerung

Golem Akademie
  1. Blender Grundkurs: virtueller Drei-Tage-Workshop
    07.-09.06.2022, Virtuell
  2. AZ-104 Microsoft Azure Administrator: virtueller Vier-Tage-Workshop
    28.06.-01.07.2022, virtuell
Weitere IT-Trainings

Im Gegensatz zu Menschen, die kontinuierlich Reize aufnehmen, diese verarbeiten und in Reaktionen überführen können, kann das trainierte neuronale Netz immer nur auf einen einzelnen Zustand im Spiel reagieren. Dem Algorithmus fehlt damit sozusagen das Gedächtnis, um auf einen bestimmten Spielverlauf reagieren zu können.

Zwar gibt es mit den rekurrenten neuronalen Netzwerken (RNN) die Möglichkeit, diese Art Gedächtnis als eigenen Zustand zu emulieren, mit dem das Ergebnis einer Aktion direkt wieder in das Netz eingespeist wird. Dem Team gelang es in seiner Untersuchung jedoch nicht, ein fähiges RNN zu trainieren.

Ein RNN mit dem Gedächtnis könnte im Fall von SSBM künftig dazu genutzt werden, mit der eingangs erwähnten Zeitverzögerung umgehen zu können, die wie erwähnt in dem Spiel eine große Rolle einnimmt. Ebenso wäre ein RNN in der Lage, auch Geschosse, die in SSBM vorkommen, zu beurteilen und eventuell sogar selbst zu verwenden, indem deren Flugbahn bestimmt wird.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Deep Learning: Wenn die KI besser prügelt als Menschen
  1.  
  2. 1
  3. 2


violator 24. Feb 2017

Zufällig ja, aber eben ohne Taktik oder Gedanken. Da wird immer nur analysiert und...

JayJay15 24. Feb 2017

Es gibt doch nur 2 mögliche Entwicklungen im Bereich der KI. Ich bin nicht einer dieser...

Polinda Panda 24. Feb 2017

Vielleicht haben haben sie Spass am Spiel ...

Smincke 24. Feb 2017

In Melee ist Techskill wesentlich wichtiger als in den anderen Smash Teilen. Ein gut...



Aktuell auf der Startseite von Golem.de
Kitty Lixo
Nach Sex mit Mitarbeitern Instagram-Account zurückerhalten

Laut einer Sexdarstellerin muss man nur die richtigen Leute bei Facebook sehr intim kennen, um seinen Instagram-Account immer wieder zurückzubekommen.

Kitty Lixo: Nach Sex mit Mitarbeitern Instagram-Account zurückerhalten
Artikel
  1. Ebay-Kleinanzeigen: Im Chat mit den Phishing-Betrügern
    Ebay-Kleinanzeigen
    Im Chat mit den Phishing-Betrügern

    Wenn man bestimmte Anzeigen in Kleinanzeigenportalen aufgibt, hat man sofort einen Betrüger an der Backe. Die Polizei kann kaum etwas dagegen tun.
    Ein Bericht von Friedhelm Greis

  2. Autos: Mercedes' Luxuskurs könnte das Aus für A- und B-Klasse sein
    Autos
    Mercedes' Luxuskurs könnte das Aus für A- und B-Klasse sein

    Mercedes definiert sich neu als Luxuskonzern. Das könnte auch das Ende für die Einsteiger-Modelle bedeuten, weil mit diesen kaum Geld zu verdienen ist.

  3. Ericsson und Telia Norway: Fast 4 GBit/s in 26-GHz-Netz erreicht
    Ericsson und Telia Norway
    Fast 4 GBit/s in 26-GHz-Netz erreicht

    26-GHz-Netz-Antennen erreichen in Norwegen Höchstwerte bei der Datenübertragung. Die 5G-Ausrüstung kommt von Ericsson.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Cyber Week: Bis zu 87€ Rabatt auf SSDs • PNY RTX 3080 12GB günstig wie nie: 974€ • Razer Basilisk V3 Gaming-Maus 44,99€ • PS5-Controller + Samsung SSD 1TB 176,58€ • MindStar (u. a. MSI RTX 3090 24GB Suprim X 1.790€) • Gigabyte Waterforce Mainboard günstig wie nie: 464,29€ [Werbung]
    •  /