Abo
  • Services:

Reinforcement Learning: genetischer Algorithmus

Algorithmen der Kategorie Reinforcement Learning (bestärkendes Lernen) lernen selbstständig, indem sie versuchen, Belohnungen zu maximieren beziehungsweise Strafen zu minimieren. Dahinter steckt das Prinzip von Trial and Error, verbunden mit einer Bewertung, die gutes (zielführendes) Verhalten belohnt und schlechte Verhaltensmuster bestraft. Eine Belohnung bedeutet hier, dass diese Verhaltensmuster in Zukunft häufiger ausprobiert werden. Bei einer Bestrafung werden die verwendeten Verhaltensmuster zukünftig seltener ausprobiert.

Stellenmarkt
  1. Lachmann & Rink GmbH, Freudenberg und Dortmund
  2. SP_Data GmbH & Co. KG, Herford

Der Algorithmus durchläuft eine Vielzahl von Iterationen, bei denen er bewährte Verhaltensmuster miteinander kombiniert und zufällig neue Verhaltensweisen ausprobiert. So kommt er dem Optimum Schritt für Schritt näher. Die wohl bekanntesten Vertreter dieser Kategorie sind die genetischen Algorithmen, die sich an der Evolutionstheorie von Charles Darwin orientieren.

Reinforcement Learning wird bei Minimierungs- und Maximierungsaufgaben verwendet. Des Weiteren kommt es bei Lernprozessen zum Einsatz, bei denen auf sich verändernde Umwelteinflüsse reagiert werden soll. Beispielsweise könnte man Reinforcement Learning verwenden, damit ein Volk von Roboterameisen lernt, wie es sich optimal fortbewegen kann. Jede Roboterameise würde anfangs mit einer zufälligen Bewegungstechnik probieren voranzukommen.

Der Erfolg kann gemessen werden (Fitnessfunktion): die zurückgelegte Strecke. In der nächsten Generation werden dann Fortbewegungstechniken, die überdurchschnittlich erfolgreich waren, auch überdurchschnittlich oft miteinander kombiniert (Rekombination) und ihre Merkmale vererbt, das heißt, ihre Merkmale kommen in Zukunft häufiger zum Einsatz. Eine Generation ist die Gesamtheit aller sexuell für Fortpflanzungszwecke untereinander kompatiblen Individuen in einem Schritt der zeitlichen Fortpflanzungskette.

Zusätzlich wird jedoch immer mit einer bestimmten Wahrscheinlichkeit (Mutationsrate) ein neues, zufälliges Bewegungsmerkmal ausprobiert. Das entspricht der Mutation in der Evolution. Am Ende jeder Generation erfolgt wieder eine Bewertung mit der Fitnessfunktion. Dadurch werden die Roboterameisen im Laufe der vielen Generationen immer erfolgreicher beim Fortbewegen.

Reinforcement Learning hat hier noch den Vorteil, dass das Lernen auch sich verändernde Umweltfaktoren berücksichtigt. Wenn sich das Terrain hin und wieder ändert, weil es zum Beispiel regnet und der Boden matschig wird, wird die Evolution der Bewegungstechniken dies berücksichtigen. Deshalb konnte auch das Leben auf der Erde trotz Eiszeiten und Trockenperioden weiterbestehen: Es hat sich an die neuen Umwelteinflüsse angepasst.

Die drei wichtigsten Prinzipien bei genetischen Algorithmen sind die Begriffe Rekombination, Mutation und Selektion. Rekombination steht für die zufällige Vermischung von je 50 Prozent des Erbguts der Elternteile bei der sexuellen Fortpflanzung und deren Weitergabe an das Kind. Bei genetischen Algorithmen ist die Rekombination die Vermischung von Eigenschaften der Elterngeneration bei der Weitergabe an die Kindergeneration. Bei genetischen Algorithmen sind Mutationen zufällige Veränderungen von Eigenschaften von einzelnen Individuen.

Selektion bedeutet, dass Individuen mit den besseren Genen höhere Chancen haben, lange zu leben und viele Nachkommen zu haben. Die Selektion wird durch äußeren Druck vorangetrieben: Fressfeinde in der Natur, Nahrungsmittelknappheit, Seuchen, klimatische Herausforderungen etc. Bei genetischen Algorithmen findet die Selektion in der Regel durch eine mathematische Bewertungsfunktion statt: die sogenannte Fitnessfunktion. Diese Funktion vergibt Punkte (Score), die die Zielerreichung bewerten. Eine andere Möglichkeit ist, dass die Funktion die Kosten berechnet und das Ziel eine Minimierung der Kosten ist. Kosten können hier sehr unterschiedlicher Art sein: Distanzen, monetäre Kosten, Treibstoffverbrauch, Ausfallwahrscheinlichkeit von Bauteilen etc.

Die Funktionsweise des Algorithmus ist in Abbildung 4 dargestellt.

  • Funktionsweise des genetischen Algorithmus' (Bild: Miroslav Stimac)
Funktionsweise des genetischen Algorithmus' (Bild: Miroslav Stimac)

Die Ausführung des Algorithmus endet entweder nach Erreichen des Ziels bzw. Überschreiten einer Zielpunktezahl, die man mit einer mathematischen Bewertungsfunktion berechnen kann, oder nach einer vom Anwender vorgegebenen Anzahl von Generationen.

Aufgrund seiner Funktionsweise hat ein genetischer Algorithmus zwei wichtige Eigenschaften: Er garantiert kein optimales Ergebnis, sondern in der Regel lediglich eine Verbesserung von Generation zu Generation. In Ausnahmefällen kann es passieren, dass es in einer Folgegeneration sogar zu einer Verschlechterung kommt. Das passiert oft aufgrund einer zu hohen Mutationsrate.

Außerdem ist das erreichte Endergebnis nicht das einzig Mögliche und auch nicht immer wiederholbar. Wenn man mit der gleichen Anfangspopulation den Algorithmus ein zweites Mal laufen lässt, so ist das Ergebnis oft ein anderes als beim ersten Mal. Das liegt daran, dass Rekombination und Mutation durch den Zufall beeinflusst werden. Ein Gedankenspiel: Würde man, sofern die Evolutionstheorie von Charles Darwin wirklich die Entwicklung von Leben auf der Erde richtig und vollständig beschreibt, die Erde von vor 5 Milliarden Jahren klonen und auf beiden Erden die Evolution ablaufen lassen, so wäre es sehr wahrscheinlich, dass auf der zweite Erde nicht der Mensch, sondern eine andere, vielleicht mehr oder weniger intelligente Lebensform entstünde. Deshalb ist es oft ratsam, das Reinforcement Learning mit dem genetischen Algorithmus einige Male zu wiederholen und die Ergebnisse zu vergleichen.

 Unsupervised Learning: k-Means-AlgorithmusFazit 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Anzeige
Top-Angebote
  1. (aktuell u. a. ASUS ZenFone 3 (ZE552KL) 64 GB für 129€ + Versand)
  2. für 50,96€ mit Code: Osterlion19

Kimmy1994 02. Nov 2018

Hey, seit geraumer Zeit interessiere ich mich für Entscheidungsbäume und Random Forests...

bionade24 20. Okt 2018

In Bayern Gymnasium kommt in der 9. nur simple Stochastik dran, nix davon. Noch nicht...

Ducifacius 17. Okt 2018

... heißt auf deutsch "Maschinelles Lernen" (groß geschrieben als Name eines...

Kein Kostverächter 16. Okt 2018

Der aktuelle Zustand ist aber gerade Vurin = Vmax, was nach deinem Regelsatz ein nicht...

A. Tomic 16. Okt 2018

Artikel wie diesen finde ich absolut genial. Es ist gar nicht einfach, komplizierte...


Folgen Sie uns
       


Dell XPS 13 (9380) - Test

Das aktuelle XPS 13 entspricht vom Gehäuse her dem Vorgänger, allerdings sitzt die Webcam nun oberhalb des Displays und vor dem matten Panel befindet sich keine spiegelnde Scheibe mehr. Zudem fallen CPU-Geschwindigkeit und Akkulaufzeit höher aus.

Dell XPS 13 (9380) - Test Video aufrufen
Adblock Plus: Adblock-Filterregeln können Code ausführen
Adblock Plus
Adblock-Filterregeln können Code ausführen

Unter bestimmten Voraussetzungen können Filterregeln für Adblocker mit einer neuen Funktion Javascript-Code in Webseiten einfügen. Adblock Plus will reagieren und die entsprechende Funktion wieder entfernen. Ublock Origin ist nicht betroffen.
Von Hanno Böck


    Fitbit Versa Lite im Test: Eher smartes als sportliches Wearable
    Fitbit Versa Lite im Test
    Eher smartes als sportliches Wearable

    Sieht fast aus wie eine Apple Watch, ist aber viel günstiger: Golem.de hat die Versa Lite von Fitbit ausprobiert. Neben den Sport- und Fitnessfunktionen haben uns besonders der Appstore und das Angebot an spaßigen und ernsthaften Anwendungen interessiert.
    Von Peter Steinlechner

    1. Smartwatch Fitbit stellt Versa Lite für Einsteiger vor
    2. Inspire Fitbits neues Wearable gibt es nicht im Handel
    3. Charge 3 Fitbit stellt neuen Fitness-Tracker für 150 Euro vor

    Anno 1800 im Test: Super aufgebaut
    Anno 1800 im Test
    Super aufgebaut

    Ach, ist das schön: In Anno 1800 sind wir endlich wieder in einer heimelig-historischen Welt unterwegs - zumindest anfangs. Das neue Werk von Blue Byte fesselt dank des toll umgesetzten und unverwüstlichen Spielprinzips. Auch neue Elemente wie die Klassengesellschaft funktionieren.
    Von Peter Steinlechner

    1. Ubisoft Blue Byte Anno 1800 erhält Koop-Modus und mehr Statistiken
    2. Ubisoft Blue Byte Preload der offenen Beta von Anno 1800 eröffnet
    3. Systemanforderungen Anno 1800 braucht schnelle CPU

      •  /