Abo
  • IT-Karriere:

Reinforcement Learning: genetischer Algorithmus

Algorithmen der Kategorie Reinforcement Learning (bestärkendes Lernen) lernen selbstständig, indem sie versuchen, Belohnungen zu maximieren beziehungsweise Strafen zu minimieren. Dahinter steckt das Prinzip von Trial and Error, verbunden mit einer Bewertung, die gutes (zielführendes) Verhalten belohnt und schlechte Verhaltensmuster bestraft. Eine Belohnung bedeutet hier, dass diese Verhaltensmuster in Zukunft häufiger ausprobiert werden. Bei einer Bestrafung werden die verwendeten Verhaltensmuster zukünftig seltener ausprobiert.

Stellenmarkt
  1. Dataport, verschiedene Standorte
  2. SICK AG, Waldkirch bei Freiburg im Breisgau

Der Algorithmus durchläuft eine Vielzahl von Iterationen, bei denen er bewährte Verhaltensmuster miteinander kombiniert und zufällig neue Verhaltensweisen ausprobiert. So kommt er dem Optimum Schritt für Schritt näher. Die wohl bekanntesten Vertreter dieser Kategorie sind die genetischen Algorithmen, die sich an der Evolutionstheorie von Charles Darwin orientieren.

Reinforcement Learning wird bei Minimierungs- und Maximierungsaufgaben verwendet. Des Weiteren kommt es bei Lernprozessen zum Einsatz, bei denen auf sich verändernde Umwelteinflüsse reagiert werden soll. Beispielsweise könnte man Reinforcement Learning verwenden, damit ein Volk von Roboterameisen lernt, wie es sich optimal fortbewegen kann. Jede Roboterameise würde anfangs mit einer zufälligen Bewegungstechnik probieren voranzukommen.

Der Erfolg kann gemessen werden (Fitnessfunktion): die zurückgelegte Strecke. In der nächsten Generation werden dann Fortbewegungstechniken, die überdurchschnittlich erfolgreich waren, auch überdurchschnittlich oft miteinander kombiniert (Rekombination) und ihre Merkmale vererbt, das heißt, ihre Merkmale kommen in Zukunft häufiger zum Einsatz. Eine Generation ist die Gesamtheit aller sexuell für Fortpflanzungszwecke untereinander kompatiblen Individuen in einem Schritt der zeitlichen Fortpflanzungskette.

Zusätzlich wird jedoch immer mit einer bestimmten Wahrscheinlichkeit (Mutationsrate) ein neues, zufälliges Bewegungsmerkmal ausprobiert. Das entspricht der Mutation in der Evolution. Am Ende jeder Generation erfolgt wieder eine Bewertung mit der Fitnessfunktion. Dadurch werden die Roboterameisen im Laufe der vielen Generationen immer erfolgreicher beim Fortbewegen.

Reinforcement Learning hat hier noch den Vorteil, dass das Lernen auch sich verändernde Umweltfaktoren berücksichtigt. Wenn sich das Terrain hin und wieder ändert, weil es zum Beispiel regnet und der Boden matschig wird, wird die Evolution der Bewegungstechniken dies berücksichtigen. Deshalb konnte auch das Leben auf der Erde trotz Eiszeiten und Trockenperioden weiterbestehen: Es hat sich an die neuen Umwelteinflüsse angepasst.

Die drei wichtigsten Prinzipien bei genetischen Algorithmen sind die Begriffe Rekombination, Mutation und Selektion. Rekombination steht für die zufällige Vermischung von je 50 Prozent des Erbguts der Elternteile bei der sexuellen Fortpflanzung und deren Weitergabe an das Kind. Bei genetischen Algorithmen ist die Rekombination die Vermischung von Eigenschaften der Elterngeneration bei der Weitergabe an die Kindergeneration. Bei genetischen Algorithmen sind Mutationen zufällige Veränderungen von Eigenschaften von einzelnen Individuen.

Selektion bedeutet, dass Individuen mit den besseren Genen höhere Chancen haben, lange zu leben und viele Nachkommen zu haben. Die Selektion wird durch äußeren Druck vorangetrieben: Fressfeinde in der Natur, Nahrungsmittelknappheit, Seuchen, klimatische Herausforderungen etc. Bei genetischen Algorithmen findet die Selektion in der Regel durch eine mathematische Bewertungsfunktion statt: die sogenannte Fitnessfunktion. Diese Funktion vergibt Punkte (Score), die die Zielerreichung bewerten. Eine andere Möglichkeit ist, dass die Funktion die Kosten berechnet und das Ziel eine Minimierung der Kosten ist. Kosten können hier sehr unterschiedlicher Art sein: Distanzen, monetäre Kosten, Treibstoffverbrauch, Ausfallwahrscheinlichkeit von Bauteilen etc.

Die Funktionsweise des Algorithmus ist in Abbildung 4 dargestellt.

  • Funktionsweise des genetischen Algorithmus' (Bild: Miroslav Stimac)
Funktionsweise des genetischen Algorithmus' (Bild: Miroslav Stimac)

Die Ausführung des Algorithmus endet entweder nach Erreichen des Ziels bzw. Überschreiten einer Zielpunktezahl, die man mit einer mathematischen Bewertungsfunktion berechnen kann, oder nach einer vom Anwender vorgegebenen Anzahl von Generationen.

Aufgrund seiner Funktionsweise hat ein genetischer Algorithmus zwei wichtige Eigenschaften: Er garantiert kein optimales Ergebnis, sondern in der Regel lediglich eine Verbesserung von Generation zu Generation. In Ausnahmefällen kann es passieren, dass es in einer Folgegeneration sogar zu einer Verschlechterung kommt. Das passiert oft aufgrund einer zu hohen Mutationsrate.

Außerdem ist das erreichte Endergebnis nicht das einzig Mögliche und auch nicht immer wiederholbar. Wenn man mit der gleichen Anfangspopulation den Algorithmus ein zweites Mal laufen lässt, so ist das Ergebnis oft ein anderes als beim ersten Mal. Das liegt daran, dass Rekombination und Mutation durch den Zufall beeinflusst werden. Ein Gedankenspiel: Würde man, sofern die Evolutionstheorie von Charles Darwin wirklich die Entwicklung von Leben auf der Erde richtig und vollständig beschreibt, die Erde von vor 5 Milliarden Jahren klonen und auf beiden Erden die Evolution ablaufen lassen, so wäre es sehr wahrscheinlich, dass auf der zweite Erde nicht der Mensch, sondern eine andere, vielleicht mehr oder weniger intelligente Lebensform entstünde. Deshalb ist es oft ratsam, das Reinforcement Learning mit dem genetischen Algorithmus einige Male zu wiederholen und die Ergebnisse zu vergleichen.

 Unsupervised Learning: k-Means-AlgorithmusFazit 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Anzeige
Spiele-Angebote
  1. 4,19€
  2. (-75%) 14,99€
  3. (-75%) 3,75€
  4. 4,99€

Kimmy1994 02. Nov 2018

Hey, seit geraumer Zeit interessiere ich mich für Entscheidungsbäume und Random Forests...

bionade24 20. Okt 2018

In Bayern Gymnasium kommt in der 9. nur simple Stochastik dran, nix davon. Noch nicht...

Ducifacius 17. Okt 2018

... heißt auf deutsch "Maschinelles Lernen" (groß geschrieben als Name eines...

Kein Kostverächter 16. Okt 2018

Der aktuelle Zustand ist aber gerade Vurin = Vmax, was nach deinem Regelsatz ein nicht...

A. Tomic 16. Okt 2018

Artikel wie diesen finde ich absolut genial. Es ist gar nicht einfach, komplizierte...


Folgen Sie uns
       


AMD stellt Navi-Grafikkarten vor

Die neuen GPUs sollen deutlich effizienter und leistungsstärker sein und ab Juli 2019 verfügbar sein.

AMD stellt Navi-Grafikkarten vor Video aufrufen
Ryzen 3900X/3700X im Test: AMDs 7-nm-CPUs lassen Intel hinter sich
Ryzen 3900X/3700X im Test
AMDs 7-nm-CPUs lassen Intel hinter sich

Das beste Prozessor-Design seit dem Athlon 64: Mit den Ryzen 3000 alias Matisse bringt AMD sehr leistungsstarke und Energie-effiziente CPUs zu niedrigen Preisen in den Handel. Obendrein laufen die auch auf zwei Jahre alten sowie günstigen Platinen mit schnellem DDR4-Speicher.
Ein Test von Marc Sauter

  1. Ryzen 3000 BIOS-Updates schalten PCIe Gen4 für ältere Boards frei
  2. Mehr Performance Windows 10 v1903 hat besseren Ryzen-Scheduler
  3. Picasso für Sockel AM4 AMD verlötet Ryzen 3400G für flottere iGPU

LEDs: Schlimmes Flimmern
LEDs
Schlimmes Flimmern

LED-Licht zu Hause oder im Auto leuchtet nur selten völlig konstant. Je nach Frequenz und Intensität kann das Flimmern der Leuchtmittel problematisch sein, für manche Menschen sogar gesundheitsschädlich.
Von Wolfgang Messer

  1. Wissenschaft Schadet LED-Licht unseren Augen?
  2. Straßenbeleuchtung Detroit kämpft mit LED-Ausfällen und der Hersteller schweigt
  3. ULED Ubiquitis Netzwerkleuchten bieten Wechselstromversorgung

Wizards Unite im Test: Harry Potter Go mit Startschwierigkeiten
Wizards Unite im Test
Harry Potter Go mit Startschwierigkeiten

Der ganz große Erfolg ist das in der Welt von Harry Potter angesiedelte Wizards Unite bislang nicht. Das dürfte mit dem etwas zähen Einstieg zusammenhängen - Muggel mit Durchhaltevermögen werden auf den Straßen dieser Welt aber durchaus mit Spielspaß belohnt.
Von Peter Steinlechner

  1. Pokémon Go mit Harry Potter Magische Handy-Jagd auf Dementoren

    •  /