• IT-Karriere:
  • Services:

Reinforcement Learning: genetischer Algorithmus

Algorithmen der Kategorie Reinforcement Learning (bestärkendes Lernen) lernen selbstständig, indem sie versuchen, Belohnungen zu maximieren beziehungsweise Strafen zu minimieren. Dahinter steckt das Prinzip von Trial and Error, verbunden mit einer Bewertung, die gutes (zielführendes) Verhalten belohnt und schlechte Verhaltensmuster bestraft. Eine Belohnung bedeutet hier, dass diese Verhaltensmuster in Zukunft häufiger ausprobiert werden. Bei einer Bestrafung werden die verwendeten Verhaltensmuster zukünftig seltener ausprobiert.

Stellenmarkt
  1. Valtech Mobility GmbH, München, Düsseldorf
  2. OEDIV KG, Bielefeld

Der Algorithmus durchläuft eine Vielzahl von Iterationen, bei denen er bewährte Verhaltensmuster miteinander kombiniert und zufällig neue Verhaltensweisen ausprobiert. So kommt er dem Optimum Schritt für Schritt näher. Die wohl bekanntesten Vertreter dieser Kategorie sind die genetischen Algorithmen, die sich an der Evolutionstheorie von Charles Darwin orientieren.

Reinforcement Learning wird bei Minimierungs- und Maximierungsaufgaben verwendet. Des Weiteren kommt es bei Lernprozessen zum Einsatz, bei denen auf sich verändernde Umwelteinflüsse reagiert werden soll. Beispielsweise könnte man Reinforcement Learning verwenden, damit ein Volk von Roboterameisen lernt, wie es sich optimal fortbewegen kann. Jede Roboterameise würde anfangs mit einer zufälligen Bewegungstechnik probieren voranzukommen.

Der Erfolg kann gemessen werden (Fitnessfunktion): die zurückgelegte Strecke. In der nächsten Generation werden dann Fortbewegungstechniken, die überdurchschnittlich erfolgreich waren, auch überdurchschnittlich oft miteinander kombiniert (Rekombination) und ihre Merkmale vererbt, das heißt, ihre Merkmale kommen in Zukunft häufiger zum Einsatz. Eine Generation ist die Gesamtheit aller sexuell für Fortpflanzungszwecke untereinander kompatiblen Individuen in einem Schritt der zeitlichen Fortpflanzungskette.

Zusätzlich wird jedoch immer mit einer bestimmten Wahrscheinlichkeit (Mutationsrate) ein neues, zufälliges Bewegungsmerkmal ausprobiert. Das entspricht der Mutation in der Evolution. Am Ende jeder Generation erfolgt wieder eine Bewertung mit der Fitnessfunktion. Dadurch werden die Roboterameisen im Laufe der vielen Generationen immer erfolgreicher beim Fortbewegen.

Reinforcement Learning hat hier noch den Vorteil, dass das Lernen auch sich verändernde Umweltfaktoren berücksichtigt. Wenn sich das Terrain hin und wieder ändert, weil es zum Beispiel regnet und der Boden matschig wird, wird die Evolution der Bewegungstechniken dies berücksichtigen. Deshalb konnte auch das Leben auf der Erde trotz Eiszeiten und Trockenperioden weiterbestehen: Es hat sich an die neuen Umwelteinflüsse angepasst.

Die drei wichtigsten Prinzipien bei genetischen Algorithmen sind die Begriffe Rekombination, Mutation und Selektion. Rekombination steht für die zufällige Vermischung von je 50 Prozent des Erbguts der Elternteile bei der sexuellen Fortpflanzung und deren Weitergabe an das Kind. Bei genetischen Algorithmen ist die Rekombination die Vermischung von Eigenschaften der Elterngeneration bei der Weitergabe an die Kindergeneration. Bei genetischen Algorithmen sind Mutationen zufällige Veränderungen von Eigenschaften von einzelnen Individuen.

Selektion bedeutet, dass Individuen mit den besseren Genen höhere Chancen haben, lange zu leben und viele Nachkommen zu haben. Die Selektion wird durch äußeren Druck vorangetrieben: Fressfeinde in der Natur, Nahrungsmittelknappheit, Seuchen, klimatische Herausforderungen etc. Bei genetischen Algorithmen findet die Selektion in der Regel durch eine mathematische Bewertungsfunktion statt: die sogenannte Fitnessfunktion. Diese Funktion vergibt Punkte (Score), die die Zielerreichung bewerten. Eine andere Möglichkeit ist, dass die Funktion die Kosten berechnet und das Ziel eine Minimierung der Kosten ist. Kosten können hier sehr unterschiedlicher Art sein: Distanzen, monetäre Kosten, Treibstoffverbrauch, Ausfallwahrscheinlichkeit von Bauteilen etc.

Die Funktionsweise des Algorithmus ist in Abbildung 4 dargestellt.

  • Funktionsweise des genetischen Algorithmus' (Bild: Miroslav Stimac)
Funktionsweise des genetischen Algorithmus' (Bild: Miroslav Stimac)

Die Ausführung des Algorithmus endet entweder nach Erreichen des Ziels bzw. Überschreiten einer Zielpunktezahl, die man mit einer mathematischen Bewertungsfunktion berechnen kann, oder nach einer vom Anwender vorgegebenen Anzahl von Generationen.

Aufgrund seiner Funktionsweise hat ein genetischer Algorithmus zwei wichtige Eigenschaften: Er garantiert kein optimales Ergebnis, sondern in der Regel lediglich eine Verbesserung von Generation zu Generation. In Ausnahmefällen kann es passieren, dass es in einer Folgegeneration sogar zu einer Verschlechterung kommt. Das passiert oft aufgrund einer zu hohen Mutationsrate.

Außerdem ist das erreichte Endergebnis nicht das einzig Mögliche und auch nicht immer wiederholbar. Wenn man mit der gleichen Anfangspopulation den Algorithmus ein zweites Mal laufen lässt, so ist das Ergebnis oft ein anderes als beim ersten Mal. Das liegt daran, dass Rekombination und Mutation durch den Zufall beeinflusst werden. Ein Gedankenspiel: Würde man, sofern die Evolutionstheorie von Charles Darwin wirklich die Entwicklung von Leben auf der Erde richtig und vollständig beschreibt, die Erde von vor 5 Milliarden Jahren klonen und auf beiden Erden die Evolution ablaufen lassen, so wäre es sehr wahrscheinlich, dass auf der zweite Erde nicht der Mensch, sondern eine andere, vielleicht mehr oder weniger intelligente Lebensform entstünde. Deshalb ist es oft ratsam, das Reinforcement Learning mit dem genetischen Algorithmus einige Male zu wiederholen und die Ergebnisse zu vergleichen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Unsupervised Learning: k-Means-AlgorithmusFazit 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Anzeige
Hardware-Angebote
  1. (reduzierte Überstände, Restposten & Co.)
  2. täglich neue Deals bei Alternate.de

Kimmy1994 02. Nov 2018

Hey, seit geraumer Zeit interessiere ich mich für Entscheidungsbäume und Random Forests...

bionade24 20. Okt 2018

In Bayern Gymnasium kommt in der 9. nur simple Stochastik dran, nix davon. Noch nicht...

Ducifacius 17. Okt 2018

... heißt auf deutsch "Maschinelles Lernen" (groß geschrieben als Name eines...

Kein Kostverächter 16. Okt 2018

Der aktuelle Zustand ist aber gerade Vurin = Vmax, was nach deinem Regelsatz ein nicht...

A. Tomic 16. Okt 2018

Artikel wie diesen finde ich absolut genial. Es ist gar nicht einfach, komplizierte...


Folgen Sie uns
       


Macbook Air (2020) - Test

Endlich streicht Apple die fehlerhafte Butterfly auch beim Macbook Air. Im Test sind allerdings einige andere Mängel noch vorhanden.

Macbook Air (2020) - Test Video aufrufen
    •  /