Abo
  • IT-Karriere:

Reinforcement Learning: genetischer Algorithmus

Algorithmen der Kategorie Reinforcement Learning (bestärkendes Lernen) lernen selbstständig, indem sie versuchen, Belohnungen zu maximieren beziehungsweise Strafen zu minimieren. Dahinter steckt das Prinzip von Trial and Error, verbunden mit einer Bewertung, die gutes (zielführendes) Verhalten belohnt und schlechte Verhaltensmuster bestraft. Eine Belohnung bedeutet hier, dass diese Verhaltensmuster in Zukunft häufiger ausprobiert werden. Bei einer Bestrafung werden die verwendeten Verhaltensmuster zukünftig seltener ausprobiert.

Stellenmarkt
  1. Hays AG, Berlin
  2. Stadtwerke München GmbH, München

Der Algorithmus durchläuft eine Vielzahl von Iterationen, bei denen er bewährte Verhaltensmuster miteinander kombiniert und zufällig neue Verhaltensweisen ausprobiert. So kommt er dem Optimum Schritt für Schritt näher. Die wohl bekanntesten Vertreter dieser Kategorie sind die genetischen Algorithmen, die sich an der Evolutionstheorie von Charles Darwin orientieren.

Reinforcement Learning wird bei Minimierungs- und Maximierungsaufgaben verwendet. Des Weiteren kommt es bei Lernprozessen zum Einsatz, bei denen auf sich verändernde Umwelteinflüsse reagiert werden soll. Beispielsweise könnte man Reinforcement Learning verwenden, damit ein Volk von Roboterameisen lernt, wie es sich optimal fortbewegen kann. Jede Roboterameise würde anfangs mit einer zufälligen Bewegungstechnik probieren voranzukommen.

Der Erfolg kann gemessen werden (Fitnessfunktion): die zurückgelegte Strecke. In der nächsten Generation werden dann Fortbewegungstechniken, die überdurchschnittlich erfolgreich waren, auch überdurchschnittlich oft miteinander kombiniert (Rekombination) und ihre Merkmale vererbt, das heißt, ihre Merkmale kommen in Zukunft häufiger zum Einsatz. Eine Generation ist die Gesamtheit aller sexuell für Fortpflanzungszwecke untereinander kompatiblen Individuen in einem Schritt der zeitlichen Fortpflanzungskette.

Zusätzlich wird jedoch immer mit einer bestimmten Wahrscheinlichkeit (Mutationsrate) ein neues, zufälliges Bewegungsmerkmal ausprobiert. Das entspricht der Mutation in der Evolution. Am Ende jeder Generation erfolgt wieder eine Bewertung mit der Fitnessfunktion. Dadurch werden die Roboterameisen im Laufe der vielen Generationen immer erfolgreicher beim Fortbewegen.

Reinforcement Learning hat hier noch den Vorteil, dass das Lernen auch sich verändernde Umweltfaktoren berücksichtigt. Wenn sich das Terrain hin und wieder ändert, weil es zum Beispiel regnet und der Boden matschig wird, wird die Evolution der Bewegungstechniken dies berücksichtigen. Deshalb konnte auch das Leben auf der Erde trotz Eiszeiten und Trockenperioden weiterbestehen: Es hat sich an die neuen Umwelteinflüsse angepasst.

Die drei wichtigsten Prinzipien bei genetischen Algorithmen sind die Begriffe Rekombination, Mutation und Selektion. Rekombination steht für die zufällige Vermischung von je 50 Prozent des Erbguts der Elternteile bei der sexuellen Fortpflanzung und deren Weitergabe an das Kind. Bei genetischen Algorithmen ist die Rekombination die Vermischung von Eigenschaften der Elterngeneration bei der Weitergabe an die Kindergeneration. Bei genetischen Algorithmen sind Mutationen zufällige Veränderungen von Eigenschaften von einzelnen Individuen.

Selektion bedeutet, dass Individuen mit den besseren Genen höhere Chancen haben, lange zu leben und viele Nachkommen zu haben. Die Selektion wird durch äußeren Druck vorangetrieben: Fressfeinde in der Natur, Nahrungsmittelknappheit, Seuchen, klimatische Herausforderungen etc. Bei genetischen Algorithmen findet die Selektion in der Regel durch eine mathematische Bewertungsfunktion statt: die sogenannte Fitnessfunktion. Diese Funktion vergibt Punkte (Score), die die Zielerreichung bewerten. Eine andere Möglichkeit ist, dass die Funktion die Kosten berechnet und das Ziel eine Minimierung der Kosten ist. Kosten können hier sehr unterschiedlicher Art sein: Distanzen, monetäre Kosten, Treibstoffverbrauch, Ausfallwahrscheinlichkeit von Bauteilen etc.

Die Funktionsweise des Algorithmus ist in Abbildung 4 dargestellt.

  • Funktionsweise des genetischen Algorithmus' (Bild: Miroslav Stimac)
Funktionsweise des genetischen Algorithmus' (Bild: Miroslav Stimac)

Die Ausführung des Algorithmus endet entweder nach Erreichen des Ziels bzw. Überschreiten einer Zielpunktezahl, die man mit einer mathematischen Bewertungsfunktion berechnen kann, oder nach einer vom Anwender vorgegebenen Anzahl von Generationen.

Aufgrund seiner Funktionsweise hat ein genetischer Algorithmus zwei wichtige Eigenschaften: Er garantiert kein optimales Ergebnis, sondern in der Regel lediglich eine Verbesserung von Generation zu Generation. In Ausnahmefällen kann es passieren, dass es in einer Folgegeneration sogar zu einer Verschlechterung kommt. Das passiert oft aufgrund einer zu hohen Mutationsrate.

Außerdem ist das erreichte Endergebnis nicht das einzig Mögliche und auch nicht immer wiederholbar. Wenn man mit der gleichen Anfangspopulation den Algorithmus ein zweites Mal laufen lässt, so ist das Ergebnis oft ein anderes als beim ersten Mal. Das liegt daran, dass Rekombination und Mutation durch den Zufall beeinflusst werden. Ein Gedankenspiel: Würde man, sofern die Evolutionstheorie von Charles Darwin wirklich die Entwicklung von Leben auf der Erde richtig und vollständig beschreibt, die Erde von vor 5 Milliarden Jahren klonen und auf beiden Erden die Evolution ablaufen lassen, so wäre es sehr wahrscheinlich, dass auf der zweite Erde nicht der Mensch, sondern eine andere, vielleicht mehr oder weniger intelligente Lebensform entstünde. Deshalb ist es oft ratsam, das Reinforcement Learning mit dem genetischen Algorithmus einige Male zu wiederholen und die Ergebnisse zu vergleichen.

 Unsupervised Learning: k-Means-AlgorithmusFazit 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Anzeige
Top-Angebote
  1. (u. a. Deapool 2, Vikings, X-Men Dark Phoenix, Terminator u.v.m.)
  2. 107,90€
  3. (u. a. Bohrhammer für 114,99€, Schraubendreher-Set für 27,99€, Ortungsgerät für 193,99€)
  4. (u. a. Multi Schleifmaschine für 62,99€, Schlagbohrmaschine für 59,99€, Akku Staubsauger für...

Kimmy1994 02. Nov 2018

Hey, seit geraumer Zeit interessiere ich mich für Entscheidungsbäume und Random Forests...

bionade24 20. Okt 2018

In Bayern Gymnasium kommt in der 9. nur simple Stochastik dran, nix davon. Noch nicht...

Ducifacius 17. Okt 2018

... heißt auf deutsch "Maschinelles Lernen" (groß geschrieben als Name eines...

Kein Kostverächter 16. Okt 2018

Der aktuelle Zustand ist aber gerade Vurin = Vmax, was nach deinem Regelsatz ein nicht...

A. Tomic 16. Okt 2018

Artikel wie diesen finde ich absolut genial. Es ist gar nicht einfach, komplizierte...


Folgen Sie uns
       


Xiaomi Mi 9T Pro - Fazit

Das Mi 9T Pro von Xiaomi ist eines der ersten Smartphones, das der chinesische Hersteller offiziell in Deutschland anbietet. Im Test überzeugt das Gerät durch sehr gute Hardware zu einem verhältnismäßig geringen Preis.

Xiaomi Mi 9T Pro - Fazit Video aufrufen
Acer Predator Thronos im Sit on: Der Nerd-Olymp
Acer Predator Thronos im Sit on
Der Nerd-Olymp

Ifa 2019 Ob wir es nun den eisernen Thron oder den Sitz der Götter nennen: Der Predator Thronos von Acer fällt auf dem Messestand des Herstellers schon auf. Golem.de konnte den skurrilen Stuhl ausprobieren. Er ist eines Gaming-Kellers würdig.
Ein Hands on von Oliver Nickel

  1. Nitro XV273X Acer baut ersten Monitor mit IPS-Panel und 240 Hz
  2. Acer Beim Predator-Notebook fährt die Tastatur wie eine Rampe aus
  3. Geräte für Mediengestalter Acer gibt Verfügbarkeit der Concept-D-Laptops bekannt

Apple TV+: Apples Videostreamingdienst ist nicht konkurrenzfähig
Apple TV+
Apples Videostreamingdienst ist nicht konkurrenzfähig

Bei so einem mickrigen Angebot hilft auch ein mickriger Preis nicht: Apples Streamingdienst hat der Konkurrenz von Netflix, Amazon und bald Disney nichts entgegenzusetzen - und das wird sich auf Jahre nicht ändern.
Eine Analyse von Ingo Pakalski

  1. Apple TV+ Disney-Chef tritt aus Apple-Verwaltungsrat zurück
  2. Apple TV+ Apples Streamingangebot kostet 4,99 Euro im Monat
  3. Videostreaming Apple TV+ startet mit fünf Serien für 10 US-Dollar monatlich

5G-Antenne in Berlin ausprobiert: Zu schnell, um nützlich zu sein
5G-Antenne in Berlin ausprobiert
Zu schnell, um nützlich zu sein

Neben einem unwirtlichen Parkplatz in Berlin-Adlershof befindet sich ein Knotenpunkt für den frühen 5G-Ausbau von Vodafone und Telekom. Wir sind hingefahren, um 5G selbst auszuprobieren, und kamen dabei ins Schwitzen.
Von Achim Sawall und Martin Wolf

  1. Tausende neue Nutzer Vodafone schafft Zuschlag für 5G ab
  2. Vodafone Callya Digital Prepaid-Tarif mit 10 GByte Datenvolumen kostet 20 Euro
  3. Kabelnetz Vodafone bekommt Netzüberlastung nicht in den Griff

    •  /