Klassifikator trainieren und evaluieren

Für das Trainieren und Evaluieren eines Klassifikators müssen in einem ersten Schritt die Daten aufgeteilt werden. Denn es ergibt wenig Sinn, den Klassifikator auf allen Daten zu trainieren und ihn anschließend auf ihnen zu evaluieren. Schließlich könnte er die Trainingsdaten schlicht auswendig gelernt haben.

Stellenmarkt
  1. Wissenschaftliche Mitarbeiterin / Wissenschaftlicher Mitarbeiter (m/w/d) am Lehrstuhl für ... (m/w/d)
    Universität Passau, Passau
  2. IT Manager (m/w/d)
    softgarden e-recruiting gmbh, Berlin
Detailsuche

Hier hilft der Partitioning Node, der auf die Workflow-Fläche gezogen und mit seinem Input Port mit dem Output Port des Color Managers verbunden wird. In der Konfiguration des Partitioning Nodes, wird Relative 80 % und Stratified Sampling für die Spalte Label ausgewählt.

Damit wird der Partitioning Node angewiesen, 80 Prozent der Eingangsdaten am ersten Output Port bereitzustellen, wobei er bei der zufälligen Auswahl der Datenreihen auch die Verteilung der Klassen im gesamten Datensatz berücksichtigen soll. Die restlichen 20 Prozent werden am zweiten Output Port ausgegeben.

  • Knime-Startbildschirm nach dem Programmstart (Screenshot: Andreas Meier)
  • Konfigurationsdialog des CSV Readers (Screenshot: Andreas Meier)
  • Konfiguration des Column Rename Nodes zur sinnvollen Benennung der Spalten (Screenshot: Andreas Meier)
  • Konfiguration des Color Managers zur Einfärbung der Pflanzenart-Klassen (Screenshot: Andreas Meier)
  • Die Scatter-Matrix zeigt jede Dimensionskombination, ordnet die Datenreihen entsprechend zu und färbt die Datenpunkte anhand der Label-Farbe. (Screenshot: Andreas Meier)
  • Konfiguration des Partitioning Node (Screenshot: Andreas Meier)
  • Teil-Flow, der einen Entscheidungsbaum trainiert und evaluiert (Screenshot: Andreas Meier)
  • Vorhersagegüte des Entscheidungsbaums auf den Testdaten (Screenshot: Andreas Meier)
  • Gelernter Entscheidungsbaum für das Iris flower data set (Screenshot: Andreas Meier)
  • Flow-Programmierung zur Parameter-Optimierung für einen Klassifikator (Screenshot: Andreas Meier)
Konfiguration des Partitioning Node (Screenshot: Andreas Meier)

Dann werden der Decision Tree Learner, der Decision Tree Predictor und der Scorer auf die Workflow-Fläche gezogen und wie auf dem Screenshot unten miteinander verbunden. Bei der Konfiguration des Scorers sollte für die First Column die Spalte Label und für die Second Column die Spalte Prediction (Label) eingestellt werden.

  • Knime-Startbildschirm nach dem Programmstart (Screenshot: Andreas Meier)
  • Konfigurationsdialog des CSV Readers (Screenshot: Andreas Meier)
  • Konfiguration des Column Rename Nodes zur sinnvollen Benennung der Spalten (Screenshot: Andreas Meier)
  • Konfiguration des Color Managers zur Einfärbung der Pflanzenart-Klassen (Screenshot: Andreas Meier)
  • Die Scatter-Matrix zeigt jede Dimensionskombination, ordnet die Datenreihen entsprechend zu und färbt die Datenpunkte anhand der Label-Farbe. (Screenshot: Andreas Meier)
  • Konfiguration des Partitioning Node (Screenshot: Andreas Meier)
  • Teil-Flow, der einen Entscheidungsbaum trainiert und evaluiert (Screenshot: Andreas Meier)
  • Vorhersagegüte des Entscheidungsbaums auf den Testdaten (Screenshot: Andreas Meier)
  • Gelernter Entscheidungsbaum für das Iris flower data set (Screenshot: Andreas Meier)
  • Flow-Programmierung zur Parameter-Optimierung für einen Klassifikator (Screenshot: Andreas Meier)
Teil-Flow, der einen Entscheidungsbaum trainiert und evaluiert (Screenshot: Andreas Meier)
Golem Karrierewelt
  1. First Response auf Security Incidents: Ein-Tages-Workshop
    14.11.2022, Virtuell
  2. Microsoft Azure Administration: virtueller Zwei-Tage-Workshop
    22./23.08.2022, virtuell
Weitere IT-Trainings

Nach einem Rechtsklick auf den Scorer und der Auswahl von Execute and Open Views werden nun zufällig 80 Prozent des gesamten Datensatzes ausgewählt und damit ein Entscheidungsbaum-Klassifikator trainiert. Die Pflanzenart-Klassen der restlichen 20 Prozent des Datensatzes, auch Testdatensatz genannt, werden von diesem trainierten Klassifikator dann über den Predictor vorhergesagt.

Der Scorer vergleicht die vorhergesagte mit der tatsächlichen Klasse und gibt abschließend eine Performance-Statistik aus. Die hier erreichten 90 Prozent korrekter Vorhersagen sind ein sehr guter Wert.

  • Knime-Startbildschirm nach dem Programmstart (Screenshot: Andreas Meier)
  • Konfigurationsdialog des CSV Readers (Screenshot: Andreas Meier)
  • Konfiguration des Column Rename Nodes zur sinnvollen Benennung der Spalten (Screenshot: Andreas Meier)
  • Konfiguration des Color Managers zur Einfärbung der Pflanzenart-Klassen (Screenshot: Andreas Meier)
  • Die Scatter-Matrix zeigt jede Dimensionskombination, ordnet die Datenreihen entsprechend zu und färbt die Datenpunkte anhand der Label-Farbe. (Screenshot: Andreas Meier)
  • Konfiguration des Partitioning Node (Screenshot: Andreas Meier)
  • Teil-Flow, der einen Entscheidungsbaum trainiert und evaluiert (Screenshot: Andreas Meier)
  • Vorhersagegüte des Entscheidungsbaums auf den Testdaten (Screenshot: Andreas Meier)
  • Gelernter Entscheidungsbaum für das Iris flower data set (Screenshot: Andreas Meier)
  • Flow-Programmierung zur Parameter-Optimierung für einen Klassifikator (Screenshot: Andreas Meier)
Vorhersagegüte des Entscheidungsbaums auf den Testdaten (Screenshot: Andreas Meier)
Codeless Deep Learning with KNIME: Build, train, and deploy various deep neural network architectures using KNIME Analytics Platform

Per Rechtsklick auf den Decision Tree Learner und Klick auf View: Decision Tree View kann dann auch der gelernte Entscheidungsbaum angeschaut werden. Dadurch sieht man, welche Attribute der Baum prüft, um Daten zu klassifizieren, wobei im letzten Kästchen des Pfades durch den Baum die dann häufigste Klasse angenommen wird.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
  • Knime-Startbildschirm nach dem Programmstart (Screenshot: Andreas Meier)
  • Konfigurationsdialog des CSV Readers (Screenshot: Andreas Meier)
  • Konfiguration des Column Rename Nodes zur sinnvollen Benennung der Spalten (Screenshot: Andreas Meier)
  • Konfiguration des Color Managers zur Einfärbung der Pflanzenart-Klassen (Screenshot: Andreas Meier)
  • Die Scatter-Matrix zeigt jede Dimensionskombination, ordnet die Datenreihen entsprechend zu und färbt die Datenpunkte anhand der Label-Farbe. (Screenshot: Andreas Meier)
  • Konfiguration des Partitioning Node (Screenshot: Andreas Meier)
  • Teil-Flow, der einen Entscheidungsbaum trainiert und evaluiert (Screenshot: Andreas Meier)
  • Vorhersagegüte des Entscheidungsbaums auf den Testdaten (Screenshot: Andreas Meier)
  • Gelernter Entscheidungsbaum für das Iris flower data set (Screenshot: Andreas Meier)
  • Flow-Programmierung zur Parameter-Optimierung für einen Klassifikator (Screenshot: Andreas Meier)
Gelernter Entscheidungsbaum für das Iris flower data set (Screenshot: Andreas Meier)
 Einfügen der Nodes zur DatenvorverarbeitungFür Fortgeschrittene: Parameter-Optimierung via Flow-Programmierung 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Aktuell auf der Startseite von Golem.de
Prehistoric Planet
Danke, Apple, für so grandiose Dinosaurier!

Musik von Hans Zimmer, dazu David Attenborough als Sprecher: Apples Prehistoric Planet hat einen Kindheitstraum zum Leben erweckt.
Ein IMHO von Marc Sauter

Prehistoric Planet: Danke, Apple, für so grandiose Dinosaurier!
Artikel
  1. Star Wars: Cal Kestis kämpft in Jedi Survivor weiter
    Star Wars
    Cal Kestis kämpft in Jedi Survivor weiter

    EA hat offiziell den Nachfolger zu Star Wars Jedi Fallen Order angekündigt. Hauptfigur ist erneut Cal Kestis mit seinem Roboterkumpel BD-1.

  2. Fahrgastverband Pro Bahn: Wo das 9-Euro-Ticket sicher gilt
    Fahrgastverband Pro Bahn
    Wo das 9-Euro-Ticket sicher gilt

    Die Farbe der Züge ist entscheidend, was bei der Reiseplanung in der Deutsche-Bahn-App wenig nützt. Dafür laufen Fahrscheinkontrollen ins Leere.

  3. Retro Gaming: Wie man einen Emulator programmiert
    Retro Gaming
    Wie man einen Emulator programmiert

    Warum nicht mal selbst einen Emulator programmieren? Das ist lehrreich und macht Spaß - wenn er funktioniert. Wie es geht, zeigen wir am Gameboy.
    Von Johannes Hiltscher

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 evtl. bestellbar • Prime Video: Filme leihen für 0,99€ • Gigabyte RTX 3080 12GB günstig wie nie: 1.024€ • MSI Gaming-Monitor 32" 4K günstig wie nie: 999€ • Mindstar (u. a. AMD Ryzen 5 5600 179€, Palit RTX 3070 GamingPro 669€) • Days of Play (u. a. PS5-Controller 49,99€) [Werbung]
    •  /