Reinforcement Learning: genetischer Algorithmus

Algorithmen der Kategorie Reinforcement Learning (bestärkendes Lernen) lernen selbstständig, indem sie versuchen, Belohnungen zu maximieren beziehungsweise Strafen zu minimieren. Dahinter steckt das Prinzip von Trial and Error, verbunden mit einer Bewertung, die gutes (zielführendes) Verhalten belohnt und schlechte Verhaltensmuster bestraft. Eine Belohnung bedeutet hier, dass diese Verhaltensmuster in Zukunft häufiger ausprobiert werden. Bei einer Bestrafung werden die verwendeten Verhaltensmuster zukünftig seltener ausprobiert.

Stellenmarkt
  1. Referentin bzw. Referent (m/w/d) für IT und Digitalisierung
    Behörde für Justiz und Verbraucherschutz, Hamburg
  2. IT-Netzwerkadministrator (m/w/d)
    DRK Landesverband Rheinland-Pfalz e.V., Mainz
Detailsuche

Der Algorithmus durchläuft eine Vielzahl von Iterationen, bei denen er bewährte Verhaltensmuster miteinander kombiniert und zufällig neue Verhaltensweisen ausprobiert. So kommt er dem Optimum Schritt für Schritt näher. Die wohl bekanntesten Vertreter dieser Kategorie sind die genetischen Algorithmen, die sich an der Evolutionstheorie von Charles Darwin orientieren.

Reinforcement Learning wird bei Minimierungs- und Maximierungsaufgaben verwendet. Des Weiteren kommt es bei Lernprozessen zum Einsatz, bei denen auf sich verändernde Umwelteinflüsse reagiert werden soll. Beispielsweise könnte man Reinforcement Learning verwenden, damit ein Volk von Roboterameisen lernt, wie es sich optimal fortbewegen kann. Jede Roboterameise würde anfangs mit einer zufälligen Bewegungstechnik probieren voranzukommen.

Der Erfolg kann gemessen werden (Fitnessfunktion): die zurückgelegte Strecke. In der nächsten Generation werden dann Fortbewegungstechniken, die überdurchschnittlich erfolgreich waren, auch überdurchschnittlich oft miteinander kombiniert (Rekombination) und ihre Merkmale vererbt, das heißt, ihre Merkmale kommen in Zukunft häufiger zum Einsatz. Eine Generation ist die Gesamtheit aller sexuell für Fortpflanzungszwecke untereinander kompatiblen Individuen in einem Schritt der zeitlichen Fortpflanzungskette.

Golem Akademie
  1. Netzwerktechnik Kompaktkurs
    8.-12. November 2021, online
  2. IT-Fachseminare der Golem Akademie
    Live-Workshops zu Schlüsselqualifikationen
  3. 1:1-Videocoaching mit Golem Shifoo
    Berufliche Herausforderungen meistern
Weitere IT-Trainings

Zusätzlich wird jedoch immer mit einer bestimmten Wahrscheinlichkeit (Mutationsrate) ein neues, zufälliges Bewegungsmerkmal ausprobiert. Das entspricht der Mutation in der Evolution. Am Ende jeder Generation erfolgt wieder eine Bewertung mit der Fitnessfunktion. Dadurch werden die Roboterameisen im Laufe der vielen Generationen immer erfolgreicher beim Fortbewegen.

Reinforcement Learning hat hier noch den Vorteil, dass das Lernen auch sich verändernde Umweltfaktoren berücksichtigt. Wenn sich das Terrain hin und wieder ändert, weil es zum Beispiel regnet und der Boden matschig wird, wird die Evolution der Bewegungstechniken dies berücksichtigen. Deshalb konnte auch das Leben auf der Erde trotz Eiszeiten und Trockenperioden weiterbestehen: Es hat sich an die neuen Umwelteinflüsse angepasst.

Die drei wichtigsten Prinzipien bei genetischen Algorithmen sind die Begriffe Rekombination, Mutation und Selektion. Rekombination steht für die zufällige Vermischung von je 50 Prozent des Erbguts der Elternteile bei der sexuellen Fortpflanzung und deren Weitergabe an das Kind. Bei genetischen Algorithmen ist die Rekombination die Vermischung von Eigenschaften der Elterngeneration bei der Weitergabe an die Kindergeneration. Bei genetischen Algorithmen sind Mutationen zufällige Veränderungen von Eigenschaften von einzelnen Individuen.

Selektion bedeutet, dass Individuen mit den besseren Genen höhere Chancen haben, lange zu leben und viele Nachkommen zu haben. Die Selektion wird durch äußeren Druck vorangetrieben: Fressfeinde in der Natur, Nahrungsmittelknappheit, Seuchen, klimatische Herausforderungen etc. Bei genetischen Algorithmen findet die Selektion in der Regel durch eine mathematische Bewertungsfunktion statt: die sogenannte Fitnessfunktion. Diese Funktion vergibt Punkte (Score), die die Zielerreichung bewerten. Eine andere Möglichkeit ist, dass die Funktion die Kosten berechnet und das Ziel eine Minimierung der Kosten ist. Kosten können hier sehr unterschiedlicher Art sein: Distanzen, monetäre Kosten, Treibstoffverbrauch, Ausfallwahrscheinlichkeit von Bauteilen etc.

Die Funktionsweise des Algorithmus ist in Abbildung 4 dargestellt.

  • Funktionsweise des genetischen Algorithmus' (Bild: Miroslav Stimac)
Funktionsweise des genetischen Algorithmus' (Bild: Miroslav Stimac)

Die Ausführung des Algorithmus endet entweder nach Erreichen des Ziels bzw. Überschreiten einer Zielpunktezahl, die man mit einer mathematischen Bewertungsfunktion berechnen kann, oder nach einer vom Anwender vorgegebenen Anzahl von Generationen.

Aufgrund seiner Funktionsweise hat ein genetischer Algorithmus zwei wichtige Eigenschaften: Er garantiert kein optimales Ergebnis, sondern in der Regel lediglich eine Verbesserung von Generation zu Generation. In Ausnahmefällen kann es passieren, dass es in einer Folgegeneration sogar zu einer Verschlechterung kommt. Das passiert oft aufgrund einer zu hohen Mutationsrate.

Außerdem ist das erreichte Endergebnis nicht das einzig Mögliche und auch nicht immer wiederholbar. Wenn man mit der gleichen Anfangspopulation den Algorithmus ein zweites Mal laufen lässt, so ist das Ergebnis oft ein anderes als beim ersten Mal. Das liegt daran, dass Rekombination und Mutation durch den Zufall beeinflusst werden. Ein Gedankenspiel: Würde man, sofern die Evolutionstheorie von Charles Darwin wirklich die Entwicklung von Leben auf der Erde richtig und vollständig beschreibt, die Erde von vor 5 Milliarden Jahren klonen und auf beiden Erden die Evolution ablaufen lassen, so wäre es sehr wahrscheinlich, dass auf der zweite Erde nicht der Mensch, sondern eine andere, vielleicht mehr oder weniger intelligente Lebensform entstünde. Deshalb ist es oft ratsam, das Reinforcement Learning mit dem genetischen Algorithmus einige Male zu wiederholen und die Ergebnisse zu vergleichen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Unsupervised Learning: k-Means-AlgorithmusFazit 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Kimmy1994 02. Nov 2018

Hey, seit geraumer Zeit interessiere ich mich für Entscheidungsbäume und Random Forests...

bionade24 20. Okt 2018

In Bayern Gymnasium kommt in der 9. nur simple Stochastik dran, nix davon. Noch nicht...

Ducifacius 17. Okt 2018

... heißt auf deutsch "Maschinelles Lernen" (groß geschrieben als Name eines...

Kein Kostverächter 16. Okt 2018

Der aktuelle Zustand ist aber gerade Vurin = Vmax, was nach deinem Regelsatz ein nicht...

A. Tomic 16. Okt 2018

Artikel wie diesen finde ich absolut genial. Es ist gar nicht einfach, komplizierte...



Aktuell auf der Startseite von Golem.de
Waffensystem Spur
Menschen töten, so einfach wie Atmen

Soldaten müssen bald nicht mehr um ihr Leben fürchten. Wozu auch, wenn sie aus sicherer Entfernung Roboter in den Krieg schicken können.
Ein IMHO von Oliver Nickel

Waffensystem Spur: Menschen töten, so einfach wie Atmen
Artikel
  1. OpenBSD, TSMC, Deathloop: Halbleiterwerk für Automotive-Chips in Japan bestätigt
    OpenBSD, TSMC, Deathloop
    Halbleiterwerk für Automotive-Chips in Japan bestätigt

    Sonst noch was? Was am 15. Oktober 2021 neben den großen Meldungen sonst noch passiert ist, in aller Kürze.

  2. Whatsapp: Vater bekommt wegen eines Nacktfotos Ärger mit Polizei
    Whatsapp
    Vater bekommt wegen eines Nacktfotos Ärger mit Polizei

    Ein Vater nutzte ein 15 Jahre altes Nacktfoto seines Sohnes als Statusfoto bei Whatsapp. Nun läuft ein Kinderpornografie-Verfahren.

  3. Pornoplattform: Journalisten wollen Xhamster-Eigentümer gefunden haben
    Pornoplattform
    Journalisten wollen Xhamster-Eigentümer gefunden haben

    Xhamster ist und bleibt Heimat für zahlreiche rechtswidrige Inhalte. Doch ohne zu wissen, wer profitiert, wusste man bisher auch nicht, wer verantwortlich ist.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Bis 21% auf Logitech, bis 33% auf Digitus - Cyber Week • Crucial 16GB Kit 3600 69,99€ • Razer Huntsman Mini 79,99€ • Gaming-Möbel günstiger (u. a. DX Racer 1 Chair 201,20€) • Alternate-Deals (u. a. Razer Gaming-Maus 19,99€) • Gamesplanet Anniversary Sale Classic & Retro [Werbung]
    •  /