Abo
  • Services:

Random Forest, k-Means, Genetik: Machine Learning anhand von drei Algorithmen erklärt

Maschinenlernen klingt innovativ und hat schier unendlich viele Einsatzzwecke, doch die Funktionsweise verstehen nur wenige. Sie basiert auf komplizierten mathematischen und statistischen Verfahren. Wir erklären sie Nichtmathematikern anhand von drei wichtigen Algorithmen.

Artikel von Miroslav Stimac veröffentlicht am
Anhand der Klassifizierung von Iris-Arten erklären wir Supervised Learning.
Anhand der Klassifizierung von Iris-Arten erklären wir Supervised Learning. (Bild: Ian Forsyth/Getty Images)

Machine-Learning-Algorithmen befähigen Computer, selbstständig zu lernen. Statt eine Vielzahl von Regeln im Quellcode zu programmieren, werden dafür statistische Algorithmen verwendet. Wer Machine Learning in seinen Programmen einsetzen will, sollte als Erstes die Funktionsweise und Einsatzzwecke der jeweiligen Algorithmen kennen. Hierzu müssen Anwender allerdings nicht unbedingt die Mathematik dahinter durchdringen, obwohl das natürlich hilfreich ist. Oft reicht es, die prinzipielle Funktionsweise der Algorithmen zu verstehen, die es als fertige Bausteine in diversen Programmiersprachenbibliotheken gibt.

Inhalt:
  1. Random Forest, k-Means, Genetik: Machine Learning anhand von drei Algorithmen erklärt
  2. Unsupervised Learning: k-Means-Algorithmus
  3. Reinforcement Learning: genetischer Algorithmus
  4. Fazit

Das zeigen wir an Algorithmen, die die drei Hauptkategorien des Maschinenlernens repräsentieren: Supervised Learning (überwachtes Lernen), Unsupervised Learning (unüberwachtes Lernen) und Reinforcement Learning (bestärkendes Lernen). Machine-Learning-Algorithmen können anhand der Art und Weise, wie sie lernen, einer dieser drei Hauptkategorien zugeordnet werden, wie Masashi Sugiyama in seinem Buch Statistical Reinforcement Learning: Modern Machine Learning Approaches schreibt. Die meisten Algorithmen, aber nicht alle, suchen nach Korrelationen, also Beziehungen und Zusammenhängen, zwischen Input-Daten untereinander oder zwischen den Input-Daten und dem Output.

Supervised Learning: Random Forest

Random Forest wird sowohl für Regressionen als auch Klassifizierungen sehr oft verwendet. Seine Anforderungen an die Hardware sind in vielen Fällen geringer als bei neuronalen Netzen, insbesondere wenn man keine Cuda-fähige Grafikkarte hat, die bei vielen Libraries für die Beschleunigung der neuronalen Netze von großer Bedeutung ist. Random Forest basiert auf sogenannten Entscheidungsbäumen (Englisch: Decision Trees).

Was sind Entscheidungsbäume? Nehmen wir für die Erklärung ein Beispiel zu Hilfe. Drei Arten von Schwertlilien (Iris) werden anhand von vier Merkmalen klassifiziert: Kelchblattlänge, Kelchblattbreite, Blütenblattlänge und Blütenblattbreite. Dieses klassische Klassifizierungsbeispiel wurde schon vom britischen Biologen und Statistiker Ronald Fisher in seinem Artikel "The use of multiple measurements in taxonomic problems" im Jahre 1936 vorgestellt.

Stellenmarkt
  1. über duerenhoff GmbH, Raum Münster
  2. Fidor Solutions AG, München

Daten von 150 vermessenen Schwertlilien findet man im UCI Machine Learning Repository: Wir haben vier Inputvariablen (X1: Kelchblattlänge, X2: Kelchblattbreite, X3: Blütenblattlänge und X4: Blütenblattbreite) und eine Outputvariable (Y: Art der Schwertlilie). Um intuitiv zu verstehen, wie ein Decision-Tree-Algorithmus arbeitet, betrachten wir zunächst nur zwei der vier Inputvariablen, zum Beispiel Blütenblattlänge und Blütenblattbreite. Diese Daten visualisieren wir in einem zweidimensionalen Diagramm.

Wie man sehen kann, haben Iris-setosa kurze und schmale Blütenblätter. Die Iris-virginica haben mittellange bis sehr lange und mittelbreite bis sehr breite Blütenblätter. Diese zwei Sorten kann man anhand der Länge und Breite der Blütenblätter sehr gut unterscheiden. Anders sieht es mit der Iris-versicolor aus: Sie hat mittellange und mittelbreite Blütenblätter und teilt diese Eigenschaften mit einigen der Iris-virginica. Eine Unterscheidung ist hier zwar in vielen, aber nicht in allen Fällen möglich.

  • Abbildung 1 zum Random Forest: Iris-Arten mit Länge und Breite ihrer Blütenblätter (Bild: Miroslav Stimac)
  • Random Forest: Iris-Arten unterschieden nach vier Merkmalen (Bild: Miroslav Stimac)
  • Random Forest: Iris-Arten unterschieden nach vier Merkmalen (Bild: Miroslav Stimac)
  • Random Forest: Iris-Arten unterschieden nach vier Merkmalen (Bild: Miroslav Stimac)
  • Random Forest: Iris-Arten unterschieden nach vier Merkmalen (Bild: Miroslav Stimac)
  • Random Forest: Iris-Arten unterschieden nach vier Merkmalen (Bild: Miroslav Stimac)
  • Abbildung 2: Klassifizierung mit einem sehr einfachen Ereignisbaumalgorithmus (Bild: Miroslav Stimac)
Abbildung 1 zum Random Forest: Iris-Arten mit Länge und Breite ihrer Blütenblätter (Bild: Miroslav Stimac)

Die Klassifizierung mit einem sehr einfachen Ereignisbaumalgorithmus sähe in etwa so wie in Abbildung 2 aus. Die verwendeten Zahlen sind rein optisch aus Abbildung 1 abgeleitet worden, das heißt, sie wurden nicht mit einem Decision-Tree-Algorithmus mathematisch berechnet:

Abbildung 2: einfacher Entscheidungsbaum für Iris-Klassifikation anhand Blütenblattlänge und -breite Wie bereits erwähnt, kann man anhand von nur Blütenblattbreite- und -länge in manchen Fällen nicht zwischen Iris-versicolor und Iris-virginica richtig unterscheiden. Um die Wahrscheinlichkeit einer korrekten Klassifikation zu erhöhen, könnte man mehr Merkmale berücksichtigen. In unserem Beispiel haben wir zusätzlich noch die Merkmale Kelchblattlänge und Kelchblattbreite. Insgesamt haben wir somit vier Inputfaktoren: X1: Kelchblattlänge, X2: Kelchblattbreite, X3: Blütenblattlänge und X4: Blütenblattbreite.

Kombiniert man diese vier Merkmale jeweils paarweise, so ergeben sich sechs Kombinationsmöglichkeiten, die in folgenden Diagrammen visualisiert sind:

  • Abbildung 1 zum Random Forest: Iris-Arten mit Länge und Breite ihrer Blütenblätter (Bild: Miroslav Stimac)
  • Random Forest: Iris-Arten unterschieden nach vier Merkmalen (Bild: Miroslav Stimac)
  • Random Forest: Iris-Arten unterschieden nach vier Merkmalen (Bild: Miroslav Stimac)
  • Random Forest: Iris-Arten unterschieden nach vier Merkmalen (Bild: Miroslav Stimac)
  • Random Forest: Iris-Arten unterschieden nach vier Merkmalen (Bild: Miroslav Stimac)
  • Random Forest: Iris-Arten unterschieden nach vier Merkmalen (Bild: Miroslav Stimac)
  • Abbildung 2: Klassifizierung mit einem sehr einfachen Ereignisbaumalgorithmus (Bild: Miroslav Stimac)
Abbildung 2: Klassifizierung mit einem sehr einfachen Ereignisbaumalgorithmus (Bild: Miroslav Stimac)

Für eine dieser Kombinationsmöglichkeiten, nämlich Blütenblattlänge und Blütenblattbreite, haben wir schon einen Entscheidungsbaum betrachtet. Nun könnte man auch für die fünf verbleibenden Kombinationsmöglichkeiten jeweilige Entscheidungsbäume erstellen und so entsteht ein sogenannter Random Forest, also ein Wald von zufälligen Entscheidungsbäumen. Darauf wird hier aus Platzgründen verzichtet, aber der interessierte Leser kann zur Übung den einen oder anderen Entscheidungsbaum selbst erstellen.

Jeder dieser Entscheidungsbäume würde eine Schwertlilie zu einer der drei Arten klassifizieren. Was passiert nun, wenn sich die Entscheidungsbäume uneinig sind? Die Lösung ist simpel: Die Mehrheit entscheidet!

Richten wir das Augenmerk auf das Wort "random" in Random Forest. Dies beschreibt die Art und Weise, wie Merkmale Entscheidungsbäumen zugeordnet werden. In unserem Beispiel gibt es nur vier Merkmale (Inputfaktoren) und deshalb wurden vereinfacht sechs Kombinationsmöglichkeiten mit jeweils zwei Merkmalen verwendet. Dies wurde aus pädagogischen Gründen auch deshalb gemacht, weil man zwei Dimensionen einfach in Diagrammen visualisieren kann. Doch was macht man, wenn man Hunderte Merkmale (Inputfaktoren) hätte?

Nun, es ist eigentlich ganz einfach: Man wählt für jeden Entscheidungsbaum zufällig eine Anzahl k von Merkmalen, die kleiner sein muss als die Gesamtanzahl aller Merkmale n. Die Anzahl k von Merkmalen ist ein Parameter für den Random-Forest-Algorithmus. Ein anderer, wichtiger Parameter ist die Anzahl der Bäume. Je größer diese ist, um so wahrscheinlicher ist die Klassifikation korrekt, jedoch benötigt der Algorithmus mehr RAM und eine höhere CPU-Leistung beziehungsweise eine längere Ausführungszeit.

Unsupervised Learning: k-Means-Algorithmus 
  1. 1
  2. 2
  3. 3
  4. 4
  5.  


Anzeige
Hardware-Angebote
  1. 216,50€
  2. 349,00€ (inkl. Call of Duty: Black Ops 4 & Fortnite Counterattack Set)
  3. (reduzierte Überstände, Restposten & Co.)

Kimmy1994 02. Nov 2018

Hey, seit geraumer Zeit interessiere ich mich für Entscheidungsbäume und Random Forests...

bionade24 20. Okt 2018

In Bayern Gymnasium kommt in der 9. nur simple Stochastik dran, nix davon. Noch nicht...

Ducifacius 17. Okt 2018

... heißt auf deutsch "Maschinelles Lernen" (groß geschrieben als Name eines...

Kein Kostverächter 16. Okt 2018

Der aktuelle Zustand ist aber gerade Vurin = Vmax, was nach deinem Regelsatz ein nicht...

A. Tomic 16. Okt 2018

Artikel wie diesen finde ich absolut genial. Es ist gar nicht einfach, komplizierte...


Folgen Sie uns
       


Der Mars-Maulwurf des DLR erklärt

Ulrich Köhler vom DLR erläutert die Funktionsweise des Mars-Maulwurfes.

Der Mars-Maulwurf des DLR erklärt Video aufrufen
Raumfahrt: Aus Marzahn mit der Esa zum Mond
Raumfahrt
Aus Marzahn mit der Esa zum Mond

Die Esa versucht sich an einem neuen Ansatz: der Kooperation mit privaten Unternehmen in der Raumforschung. Die PT Scientists aus Berlin-Marzahn sollen dafür bis 2025 einen Mondlander liefern.
Von Frank Wunderlich-Pfeiffer

  1. Raumfahrt Die Nasa will schnell eine neue Mondlandefähre
  2. Chang'e 4 Chinesische Sonde landet auf der Rückseite des Mondes
  3. Raumfahrt 2019 - Die Rückkehr des Mondfiebers?

Mobile-Games-Auslese: Mit der Enterprise durch unendliche Onlineweiten
Mobile-Games-Auslese
Mit der Enterprise durch unendliche Onlineweiten

Weltraumspannung in Star Trek Fleet Command und Bananenrepublik zum Selberspielen in Tropico: Diese Mobile Games haben auch abseits ihrer großen Namen etwas zu bieten.
Von Rainer Sigl

  1. Mobile-Games-Auslese Große Abenteuer im kleinen Feiertagsformat
  2. Small Giant Games Zynga kauft Empires & Puzzles für 560 Millionen US-Dollar
  3. Mobile-Games-Auslese Taktische Tentakel und knuddelige Killer

Far Cry New Dawn im Test: Die Apokalypse ist chaotisch, spaßig und hat Pay to Win
Far Cry New Dawn im Test
Die Apokalypse ist chaotisch, spaßig und hat Pay to Win

Grizzly frisst Bandit, Buggy rammt Grizzly: Far Cry New Dawn zeigt eine wunderbar chaotische Postapokalypse, die gerade bei der Geschichte und dem Schwierigkeitsgrad viel besser macht als der Vorgänger. Schade, dass die bunte Welt von Mikrotransaktionen getrübt wird.
Ein Test von Oliver Nickel

  1. Far Cry New Dawn angespielt Das gleiche Chaos im neuen Gewand
  2. New Dawn Ubisoft setzt Far Cry 5 postapokalyptisch fort

    •  /