• IT-Karriere:
  • Services:

Der Algorithmus trainiert

Nun wird noch ein Machine-Learning-Algorithmus benötigt. Der Einsatzzweck ist eine Regression. Wer sich nun auf seine Schulzeit besinnt, wird sich möglicherweise an die lineare Regression erinnern:

  • Lineare Regression
  • Vergleich von Klassifikation und Clustering
Lineare Regression
Stellenmarkt
  1. OEDIV KG, Bielefeld
  2. W.I.S. Sicherheit + Service GmbH & Co KG, Köln

Was nun vielleicht für den einen oder anderen eine Überraschung ist: die lineare Regression ist ein simpler, aber oft verwendeter, Machine-Learning-Algorithmus!

In unserem Pkw-Beispiel würde der Machine-Learning-Algorithmus für alle 75.000 Trainingsfälle die lineare Regression verwenden und nach Korrelationen zwischen den Input-Variablen Xi und der Output-Variablen Y (Preis) suchen. Der Algorithmus würde die Konstante Const und insbesondere die Gewichtungen a, b, ..., z für die Input-Variablen Xi anhand der Korrelationen aus den Trainingsdaten selbstständig finden. Das Ergebnis ist das sogenannte trainierte Modell.

Wie gut das trainierte Modell ist, wird in der Testphase ermittelt. Hierbei wird es mit den Input-Variablen der 25.000 Testfälle gefüttert. Dabei es soll für jedes der 25.000 Pkw den Preis schätzen. Daraufhin werden die 25.000 Preisschätzungen mit den zugehörigen 25.000 Ist-Preisen der Testfälle verglichen. Genauer gesagt, der oben erwähnte Korrelationskoeffizient, das sogenannte Bestimmtheitsmaß oder der Score berechnet. Alle sind Kennzahlen der klassischen Statistik.

Wenn die vom trainierten Modell geschätzten Preise statistisch betrachtet nahe genug an den realen Ist-Preisen liegen, ist man mit dem trainierten Modell zufrieden. Wenn nicht, liegt es möglicherweise an schlechter Datenqualität, zu geringer Datenmenge - oder die lineare Regression ist in diesem Fall als Machine-Learning-Algorithmus keine gute Wahl, weil die Korrelationen zwischen den Input-Variablen und der Output-Variable möglicherweise nicht linear sind. Natürlich könnte man auch andere Algorithmen für die Regression verwenden, wie beispielsweise Random Forest (ein Algorithmus, der mit Entscheidungsbäumen arbeitet) oder bestimmte neuronale Netze. Welcher Algorithmus besser ist, hängt von mehreren Faktoren ab, unter anderem von

  • der Datenmenge
  • der Datenqualität
  • der Art der Korrelationen (linear, logarithmisch, polynomisch etc.) und
  • den benötigten Hardwareressourcen (Rechenleistung, RAM etc.)

In der Regel wird man mehrere Algorithmen ausprobieren und sich für den entscheiden, dessen Schätzungen mindestens "gut genug" sind, das heißt die Anforderungen erfüllen, und für den zugleich die Kosten (Hardwareressourcen) akzeptabel sind. Manchmal ist der Algorithmus mit den besten Ergebnissen leider zu langsam, das heißt, die Hardwarekosten für mehr Rechenleistung wären zu hoch oder die Dauer des Trainierens wäre zu lang. Eine Nutzen-Kosten-Analyse ist sinnvoll.

Welche Machine-Learning-Algorithmen gibt es?

Wie bereits erwähnt, gibt es eine Vielzahl von Machine-Learning-Algorithmen. Eine Übersicht hat der KI-Experte Abhinav Srivastava erstellt.

Diese Algorithmen können anhand der Art und Weise, wie sie lernen, einer dieser drei Hauptkategorien zugeordnet werden, wie Masashi Sugiyama in seinem Buch "Statistical Reinforcement Learning: Modern Machine Learning Approaches" schreibt:

  • Supervised Learning
  • Unsupervised Learning
  • Reinforcement Learning

Supervised Learning

Bei Algorithmen, die zur Kategorie Supervised Learning zählen, sind die Outputs bei den Trainingsdaten schon verfügbar. Unser Fallbeispiel mit den Autopreisen hat Trainingsdaten, bei denen der Output-Preis (Variable Y) in jedem Datensatz bekannt ist. Die Maschine lernt, indem sie die Korrelationen zwischen den Input-Variablen Xi und der Output-Variablen Y sucht. In manchen Fällen können auch mehrere Output-Variablen Yi existieren. Solche Algorithmen werden hauptsächlich für Regressionen, wie in unserem Pkw-Beispiel, und für Klassifizierungsaufgaben verwendet.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Was Regressionen leisten könnenHund oder Katze? 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7.  


Anzeige
Hardware-Angebote
  1. (reduzierte Überstände, Restposten & Co.)
  2. täglich neue Deals bei Alternate.de

mg1993 15. Okt 2018

Der Artikel an für sich ist sehr interessant. Ich selbst studiere Informatik und schreibe...

a user 11. Okt 2018

Nein. Die Rechenkapazität unseres Gehirns schlägt um Welten die aller existierenden...

tunnelblick 11. Okt 2018

vielen lieben dank für die ausführliche antwort!

a user 10. Okt 2018

Der Punkt ist ein anderer. Die Umsetzungen sind erst mit heutiger Technik möglich. Aber...

danh 09. Okt 2018

Theoretisch: Bilder einer Frontkamera in trainiertes neuronales Netz rein, am Ende kommen...


Folgen Sie uns
       


IT-Jobs: Feedback für Freelancer
IT-Jobs
Feedback für Freelancer

Gutes Feedback ist vor allem für Freelancer rar. Wenn nach einem IT-Projekt die Rückblende hintenüberfällt, ist das aber eine verschenkte Chance.
Ein Bericht von Louisa Schmidt

  1. IT-Freelancer Der kürzeste Pfad zum nächsten Projekt
  2. Selbstständiger Sysadmin "Jetzt fehlen nur noch die Aufträge"

Playstation 5: Sony macht das Rennen
Playstation 5
Sony macht das Rennen

Die Playstation 5 liegt preislich zwischen Xbox Series S und Xbox Series X. So schlägt Sony zwei Microsoft-Konsolen mit einer eigenen.
Ein IMHO von Marc Sauter

  1. Sony Weitere Playstation 5 für Vorbesteller angekündigt
  2. Spielekonsole Playstation 5 ist nicht zu älteren Spielen kompatibel
  3. Hogwarts Legacy Potter-Solo-RPG und Final Fantasy 16 angekündigt

Leben auf dem Ozean: Reif für die autarke Insel
Leben auf dem Ozean
Reif für die autarke Insel

Die nachhaltige Heimat der Zukunft? Ein EU-Projekt forscht an modularen schwimmenden Inseln, die ihre Energie selbst erzeugen.
Ein Bericht von Monika Rößiger

  1. Umweltschutz Verbrennerverbot ab 2035 in Kalifornien
  2. Mindestens 55 Prozent Von der Leyen verschärft EU-Klimaziele deutlich
  3. Klimaschutz Studie fordert Verkaufsverbot für Verbrenner ab 2028

    •  /