Einfügen der Nodes zur Datenvorverarbeitung

Auf dieser Fläche wird der eigentliche Workflow erstellt. Ein Workflow stellt dabei einen Graphen bestehend aus den Knoten (Nodes) dar. Die eigentliche Verarbeitung, sei es I/O, Training und Anwendungen von KI-Modellen oder Visualisierungen, erfolgt dabei in den Nodes. Der Workflow beschreibt hingegen nur die Verknüpfung der Nodes und damit die Datenflüsse zwischen diesen.

Stellenmarkt
  1. Senior Projektleiter (d/m/w)
    NÜRNBERGER Versicherung, Nürnberg
  2. DevOps System Engineer (w/m/d)
    DENIC eG, Frankfurt am Main
Detailsuche

Ein Node ist wie eine Art Lego-Stein und hat immer eine ganz bestimmte Aufgabe, für die er sich zumeist individuell konfigurieren lässt. Links im Fenster Node Repository kann über den Suchschlitz der CSV Reader gefunden werden, der wie der Name schon sagt, CSV-Dateien einlesen kann.

Per Drag and Drop wird er aus dem Node Repository auf die Workflow-Fläche gezogen, ein Doppelklick öffnet den Konfigurationsdialog. Darin wird unter File der Pfad zur Datei iris.data aus dem heruntergeladenen Iris flower data set angegeben.

Knime sollte nun, sofern das Trennzeichen (Column delimiter) richtig auf Komma gestellt ist, unten eine Vorschau der Datei in Form einer Tabelle anzeigen. Ein Klick auf Ok schließt den Konfigurationsdialog, so dass anschließend nach Rechtsklick auf den CSV Reader dieser per Execute ausgeführt werden kann.

Golem Akademie
  1. Einführung in Unity: virtueller Ein-Tages-Workshop
    21.06.2022, Virtuell
  2. Elastic Stack Fundamentals – Elasticsearch, Logstash, Kibana, Beats: virtueller Drei-Tage-Workshop
    14.-16.06.2022, Virtuell
Weitere IT-Trainings

Unter dem Node sollte die Ampel dann auf Grün springen, was einen erfolgreichen Durchlauf signalisiert. Über einen weiteren Rechtsklick und Auswahl des Punktes File Table zeigt Knime dann die eingelesenen Daten.

  • Knime-Startbildschirm nach dem Programmstart (Screenshot: Andreas Meier)
  • Konfigurationsdialog des CSV Readers (Screenshot: Andreas Meier)
  • Konfiguration des Column Rename Nodes zur sinnvollen Benennung der Spalten (Screenshot: Andreas Meier)
  • Konfiguration des Color Managers zur Einfärbung der Pflanzenart-Klassen (Screenshot: Andreas Meier)
  • Die Scatter-Matrix zeigt jede Dimensionskombination, ordnet die Datenreihen entsprechend zu und färbt die Datenpunkte anhand der Label-Farbe. (Screenshot: Andreas Meier)
  • Konfiguration des Partitioning Node (Screenshot: Andreas Meier)
  • Teil-Flow, der einen Entscheidungsbaum trainiert und evaluiert (Screenshot: Andreas Meier)
  • Vorhersagegüte des Entscheidungsbaums auf den Testdaten (Screenshot: Andreas Meier)
  • Gelernter Entscheidungsbaum für das Iris flower data set (Screenshot: Andreas Meier)
  • Flow-Programmierung zur Parameter-Optimierung für einen Klassifikator (Screenshot: Andreas Meier)
Konfigurationsdialog des CSV Readers (Screenshot: Andreas Meier)

Jede Zeile zeigt dabei einen Eintrag aus der iris.data-Datei, wobei die Spalten nicht schön beschriftet sind. Es empfiehlt sich deshalb, im Node Repository nach dem Column Rename Node zu suchen und ihn auf den Workflow hinter den CSV Reader zu ziehen.

Um in der Analogie zum Lego-Stein zu bleiben: Jeder Node besitzt über kleine Symbole an seinem Icon Verbindungsmöglichkeiten, Ports genannt, zu anderen Nodes. Links sind immer die Input Ports für Eingabedaten in den Node und rechts die Output Ports für Ausgabedaten vorhanden.

Mit gedrückter Maustaste wird deshalb vom Output Port des CSV Readers eine Linie zum Input Port des Column Rename Nodes gezogen, dessen Ampel danach auf Gelb springt. Anschließend können die Spaltenbenennungen wie dargestellt konfiguriert werden, wodurch die Spalten dann später besser verständlich sind.

  • Knime-Startbildschirm nach dem Programmstart (Screenshot: Andreas Meier)
  • Konfigurationsdialog des CSV Readers (Screenshot: Andreas Meier)
  • Konfiguration des Column Rename Nodes zur sinnvollen Benennung der Spalten (Screenshot: Andreas Meier)
  • Konfiguration des Color Managers zur Einfärbung der Pflanzenart-Klassen (Screenshot: Andreas Meier)
  • Die Scatter-Matrix zeigt jede Dimensionskombination, ordnet die Datenreihen entsprechend zu und färbt die Datenpunkte anhand der Label-Farbe. (Screenshot: Andreas Meier)
  • Konfiguration des Partitioning Node (Screenshot: Andreas Meier)
  • Teil-Flow, der einen Entscheidungsbaum trainiert und evaluiert (Screenshot: Andreas Meier)
  • Vorhersagegüte des Entscheidungsbaums auf den Testdaten (Screenshot: Andreas Meier)
  • Gelernter Entscheidungsbaum für das Iris flower data set (Screenshot: Andreas Meier)
  • Flow-Programmierung zur Parameter-Optimierung für einen Klassifikator (Screenshot: Andreas Meier)
Konfiguration des Column Rename Nodes zur sinnvollen Benennung der Spalten (Screenshot: Andreas Meier)

Ein erster Schritt bei jeder Datenanalyse oder Anwendung von maschinellem Lernen ist die Visualisierung von Daten, um schnell erste Zusammenhänge zu erkennen. Dafür bieten sich farbige Darstellungen an, da über die Farbe eine weitere Datendimension vermittelt werden kann.

Codeless Deep Learning with KNIME: Build, train, and deploy various deep neural network architectures using KNIME Analytics Platform

Eingelesene Daten visualisieren

Es empfiehlt sich deshalb, hinter den Column Rename Node den Color Manager aus dem Node Repository zu ziehen und den Output Port des Column Rename Nodes mit dem Input Port des Color Managers zu verbinden.

Nach dem Öffnen der Konfiguration des Color Managers und der Auswahl der Label-Spalte wird der Color Manager einen Farbvorschlag für die drei verschiedenen Pflanzenarten geben. Durch diese Färbung erhalten nun alle Reihen mit einem Label die zugehörige Farbe, was insbesondere Plots deutlich übersichtlicher macht.

  • Knime-Startbildschirm nach dem Programmstart (Screenshot: Andreas Meier)
  • Konfigurationsdialog des CSV Readers (Screenshot: Andreas Meier)
  • Konfiguration des Column Rename Nodes zur sinnvollen Benennung der Spalten (Screenshot: Andreas Meier)
  • Konfiguration des Color Managers zur Einfärbung der Pflanzenart-Klassen (Screenshot: Andreas Meier)
  • Die Scatter-Matrix zeigt jede Dimensionskombination, ordnet die Datenreihen entsprechend zu und färbt die Datenpunkte anhand der Label-Farbe. (Screenshot: Andreas Meier)
  • Konfiguration des Partitioning Node (Screenshot: Andreas Meier)
  • Teil-Flow, der einen Entscheidungsbaum trainiert und evaluiert (Screenshot: Andreas Meier)
  • Vorhersagegüte des Entscheidungsbaums auf den Testdaten (Screenshot: Andreas Meier)
  • Gelernter Entscheidungsbaum für das Iris flower data set (Screenshot: Andreas Meier)
  • Flow-Programmierung zur Parameter-Optimierung für einen Klassifikator (Screenshot: Andreas Meier)
Konfiguration des Color Managers zur Einfärbung der Pflanzenart-Klassen (Screenshot: Andreas Meier)

Für erste Plots ist besonders der Scatter Matrix (local) Node interessant, der hinter den Color Manager gezogen und dessen Input Port entsprechend verbunden wird. Per Rechtsklick auf den Scatter Matrix Node und der Wahl von Execute and Open Views werden alle im Flow vorhergehenden, abhängigen Nodes ausgeführt und eine Matrix-Darstellung öffnet sich.

Diese zeigt für alle Paarungen der vier Eingangsdimensionen jeweils einen Plot, in dem die Datenreihen einsortiert und die Punkte der Klasse entsprechend gefärbt werden. Wie im Beispiel zu sehen, separiert sich die Klasse Iris-setosa (grün) sehr deutlich von den anderen Klassen, was bedeutet, dass ein Klassifikator diese Unterscheidung sehr leicht erreichen kann.

Iris-versicolor (rot) und Iris-virginica (blau) lassen sich dagegen nicht so einfach trennen, aber der zu trainierende Klassifikator findet bestimmt trotzdem eine Lösung.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
  • Knime-Startbildschirm nach dem Programmstart (Screenshot: Andreas Meier)
  • Konfigurationsdialog des CSV Readers (Screenshot: Andreas Meier)
  • Konfiguration des Column Rename Nodes zur sinnvollen Benennung der Spalten (Screenshot: Andreas Meier)
  • Konfiguration des Color Managers zur Einfärbung der Pflanzenart-Klassen (Screenshot: Andreas Meier)
  • Die Scatter-Matrix zeigt jede Dimensionskombination, ordnet die Datenreihen entsprechend zu und färbt die Datenpunkte anhand der Label-Farbe. (Screenshot: Andreas Meier)
  • Konfiguration des Partitioning Node (Screenshot: Andreas Meier)
  • Teil-Flow, der einen Entscheidungsbaum trainiert und evaluiert (Screenshot: Andreas Meier)
  • Vorhersagegüte des Entscheidungsbaums auf den Testdaten (Screenshot: Andreas Meier)
  • Gelernter Entscheidungsbaum für das Iris flower data set (Screenshot: Andreas Meier)
  • Flow-Programmierung zur Parameter-Optimierung für einen Klassifikator (Screenshot: Andreas Meier)
Die Scatter-Matrix zeigt jede Dimensionskombination, ordnet die Datenreihen entsprechend zu und färbt die Datenpunkte anhand der Label-Farbe. (Screenshot: Andreas Meier)
 Datenanalyse und maschinelles Lernen: Sag ja zu KnimeKlassifikator trainieren und evaluieren 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Aktuell auf der Startseite von Golem.de
Cariad
Aufsichtsrat greift bei VWs Softwareentwicklung durch

Die Sorge um die Volkswagen-Softwarefirma Cariad hat den Aufsichtsrat veranlasst, ein überarbeitetes Konzept für die ehrgeizigen Pläne vorzulegen.

Cariad: Aufsichtsrat greift bei VWs Softwareentwicklung durch
Artikel
  1. Delfast Top 3.0: Ukrainische Armee setzt E-Motorräder zur Panzerjagd ein
    Delfast Top 3.0
    Ukrainische Armee setzt E-Motorräder zur Panzerjagd ein

    Ukrainische Infanteristen nutzen E-Motorräder, um leise und schnell zum Einsatz zu gelangen und die Panzerabwehrlenkwaffe NLAW zu transportieren.

  2. Überwachung: Polizei setzt Handy-Erkennungskamera gegen Autofahrer ein
    Überwachung
    Polizei setzt Handy-Erkennungskamera gegen Autofahrer ein

    In Rheinland-Pfalz werden Handynutzer am Steuer eines Autos automatisch erkannt. Dazu wird das System Monocam aus den Niederlanden genutzt.

  3. Love, Death + Robots 3: Mal spannend, mal tragisch, mal gelungen, mal nicht so
    Love, Death + Robots 3
    Mal spannend, mal tragisch, mal gelungen, mal nicht so

    Die abwechslungsreichste Science-Fiction-Serie unserer Zeit ist wieder da - mit acht neuen Folgen der von David Fincher produzierten Anthologie-Reihe.
    Von Peter Osteried

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Borderlands 3 gratis • CW: Top-Rabatte auf PC-Komponenten • Inno3D RTX 3070 günstig wie nie: 614€ • Ryzen 9 5900X 398€ • Top-Laptops zu Tiefpreisen • Edifier Lautsprecher 129€ • Kingston SSD 2TB günstig wie nie: 129,90€ • Samsung Soundbar + Subwoofer günstig wie nie: 228,52€ [Werbung]
    •  /