Datenanalyse und maschinelles Lernen: Sag ja zu Knime

Knime ist genial für Datenanalyse und KI-Training. Doch obwohl man nicht coden muss, ist es für Anfänger nicht leicht. Zeit für ein Tutorial mit Pflanzen.

Eine Anleitung von Andreas Meier veröffentlicht am
Pflanzenarten richtig zuzuordnen gehört zu den Standard-Tests bei maschinellem Lernen. Und: Nein, das ist keine Iris.
Pflanzenarten richtig zuzuordnen gehört zu den Standard-Tests bei maschinellem Lernen. Und: Nein, das ist keine Iris. (Bild: Pexels)

2004 gestartet, ist Knime inzwischen eines der führenden Tools für Data Science und maschinelles Lernen geworden. Es eignet sich hervorragend dazu, Daten aus unterschiedlichen Quellen zusammenzuführen, zu analysieren und (graphisch) aufzuarbeiten, automatisiert Reports zu erstellen und KI-Modelle zu trainieren.

Dieser Text soll eine Einführung in Knime sein. Anhand des Hello-World-Äquivalents des maschinellen Lernens, dem Training eines Klassifikators auf dem Iris flower data set möchte ich zeigen, wie der Einstieg in Knime gelingt. Aber auch Fortgeschrittene kommen nicht zu kurz, denn abschließend gebe ich noch einen Einblick in Knimes Flow-Programmierung zur automatischen Parameter-Optimierung von Lernverfahren. Alle gezeigten Workflows können selbst nachgebaut oder von hier heruntergeladen (Zip-Archiv) werden.

Knime (gesprochen: Neim) steht für Konstanz Information Miner und wurde um 2004 von Michael Berthold an der Universität Konstanz ins Leben gerufen. Seit 2008 existiert mit der Knime AG sogar ein eigens gegründetes Unternehmen in der Schweiz, das professionellen Support sowie den Knime-Server als weiteres Software-Produkt anbietet.

Modular und flexibel einsetzbar

Wenn von Knime gesprochen wird, ist meist die Knime Analytics Platform gemeint. Dabei handelt es sich um eine auf der Eclipse Rich Client Platform (Eclipse RCP) basierende, unter GPL v3 stehende Desktop-Software zum Erstellen von Workflows zur Datenverarbeitung.

Stellenmarkt
  1. Junior Client Administrator (m/w/d)
    Standard Life, Frankfurt am Main
  2. Microsoft Powerplatform & RPA Specialist (m/w/d)
    GILDEMEISTER Beteiligungen GmbH, Bielefeld
Detailsuche

Aktuell liegt die Knime Analytics Platform in Version 4.4.2 vor, wird aber regelmäßig gepflegt und kann im Quellcode auf Github angesehen werden. Neben der Analytics Platform existiert noch der Knime-Server, der die Ausführung von Workflows in einem Backend und ihre interaktive Nutzung über Formulare und Visualisierungen gestattet. Im Folgenden liegt der Fokus auf der Analytics Platform, im Text der Einfachheit halber nur "Knime" genannt.

Knimes große Stärke ist neben der einfachen Nutzbarkeit seine Modularität, was die Software für viele Einsatzbereiche interessant macht. So kann Knime über seine Extensions auf verschiedenste Datenquellen lesend und schreibend zugreifen, angefangen von einfachen Dateitypen wie *.csv oder *.arff, über Datenbankzugriffe via SQL bis hin zum Zugriff auf Big-Data-Umgebungen oder Webressourcen.

Es gibt Extensions für Keras, Weka, Java, Python

Aber auch umfassende Transformationen dieser Daten für die Text-, Bild- und Sprachverarbeitung sind möglich. Ferner existieren Extensions für populäre Open-Source-Lösungen wie Keras, Weka und sogar Programmcode in Java, R oder Python lässt sich integrieren. Die Knime AG bietet umfassenden Community-Support, angefangen von offiziellen Tutorials auf Youtube bis hin zu Anleitungen, um eigene Extensions zu entwickeln.

Knime wird nach meiner Erfahrung sehr unterschiedlich eingesetzt. In der Lehre dient es vor allem zur Erklärung von Algorithmen und Methoden, in der Industrie für Datenanalysen und Reports. Ich selbst nutze Knime meist als Rapid-Prototyping-Werkzeug, um schnell einen Überblick über Daten zu gewinnen und Ideen zur Datenanalyse und zum maschinellen Lernen zu evaluieren.

Codeless Deep Learning with KNIME: Build, train, and deploy various deep neural network architectures using KNIME Analytics Platform

Auf diese Weise lässt sich effizient herausfinden, welche Ansätze funktionieren, so dass sie unter Nutzung verwandter Open-Source-Bibliotheken in nativen Code portiert werden können. Vorsicht ist jedoch bei der Nutzung im Hinblick auf die Open-Source-Lizenzen geboten. Während Knime selbst unter GPL v3 steht, können die Extensions ganz anders lizenziert sein, so dass bei einem produktiven Einsatz unbedingt die Kompatibilität der Lizenzen zueinander geprüft werden sollte.

Knime für die erste Nutzung einrichten

Für unser Beispiel laden wir zuerst die aktuelle Knime-Version herunter. Nach Installation und Start der Software fragt sie nach dem Speicherort des Workspaces, der irgendwo auf einem Laufwerk liegen kann. Der Workspace ist der zentrale Ort, wo Knime die Workflows speichern wird.

Anschließend begrüßt Knime mit seinem Startbildschirm, der ähnlich wie in diesem Screenshot aussehen sollte.

  • Knime-Startbildschirm nach dem Programmstart (Screenshot: Andreas Meier)
  • Konfigurationsdialog des CSV Readers (Screenshot: Andreas Meier)
  • Konfiguration des Column Rename Nodes zur sinnvollen Benennung der Spalten (Screenshot: Andreas Meier)
  • Konfiguration des Color Managers zur Einfärbung der Pflanzenart-Klassen (Screenshot: Andreas Meier)
  • Die Scatter-Matrix zeigt jede Dimensionskombination, ordnet die Datenreihen entsprechend zu und färbt die Datenpunkte anhand der Label-Farbe. (Screenshot: Andreas Meier)
  • Konfiguration des Partitioning Node (Screenshot: Andreas Meier)
  • Teil-Flow, der einen Entscheidungsbaum trainiert und evaluiert (Screenshot: Andreas Meier)
  • Vorhersagegüte des Entscheidungsbaums auf den Testdaten (Screenshot: Andreas Meier)
  • Gelernter Entscheidungsbaum für das Iris flower data set (Screenshot: Andreas Meier)
  • Flow-Programmierung zur Parameter-Optimierung für einen Klassifikator (Screenshot: Andreas Meier)
Knime-Startbildschirm nach dem Programmstart (Screenshot: Andreas Meier)

Als nächstes kann das Iris flower data set über den Data-Folder-Link von der Website geladen und irgendwo auf dem Laufwerk entpackt werden. Der eigentliche Datensatz besteht aus einer CSV-Datei, die für 150 Pflanzen drei verschiedener Arten die Breite und Länge der Kelch- (sepal) und Blütenblätter (petal) enthält. Ziel wird es sein, einen Klassifikator zu trainieren, der anhand dieser Breiten- und Längenangaben die richtige Pflanzenart vorhersagt.

Nun wird über File > New... > New KNIME Workflow ein neuer Workflow erstellt, ein Name vergeben, (zum Beispiel: IrisDataSetProject) und der Dialog via Finish geschlossen. Falls nicht automatisch geschehen, öffnet ein Doppelklick auf den Namen im Knime Explorer den soeben erstellten Workflow in der Fenstermitte und zeigt einen weißen Hintergrund mit Karo-Muster.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Einfügen der Nodes zur Datenvorverarbeitung 
  1. 1
  2. 2
  3. 3
  4. 4
  5.  


Aktuell auf der Startseite von Golem.de
Entwickler im Ukrainekrieg
"Es ist schwierig, aber das Team unterstützt mich"

Bereits im März sprach Golem.de mit zwei IT-Fachkräften aus Kyjiw. So geht es ihnen jetzt, mehr als zwei Monate nach Beginn des Ukrainekriegs.
Ein Bericht von Daniel Ziegener

Entwickler im Ukrainekrieg: Es ist schwierig, aber das Team unterstützt mich
Artikel
  1. Raumfahrt: Starliner fliegt nach mehr als zwei Jahren zum zweiten Mal
    Raumfahrt
    Starliner fliegt nach mehr als zwei Jahren zum zweiten Mal

    Nach einem fehlgeschlagenen Testflug, klemmenden Treibstoffventilen und vielen Verzögerungen ist Boeings Starliner erfolgreich abgehoben.
    Von Frank Wunderlich-Pfeiffer

  2. Kitty Lixo: Nach Sex mit Mitarbeitern Instagram-Account zurückerhalten
    Kitty Lixo
    Nach Sex mit Mitarbeitern Instagram-Account zurückerhalten

    Laut einer Sexdarstellerin muss man nur die richtigen Leute bei Facebook sehr intim kennen, um seinen Instagram-Account immer wieder zurückzubekommen.

  3. DIY-Notebook: Der Framework Laptop bekommt Alder Lake und Ethernet
    DIY-Notebook
    Der Framework Laptop bekommt Alder Lake und Ethernet

    Die neue Generation des Framework Laptop mit Alder-Lake-Chip und ein RJ45-Anschluss kommen. Die Mainboards sind auch einzeln bestellbar.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Borderlands 3 gratis • Inno3D RTX 3070 günstig wie nie: 614€ • Kingston SSD 2TB günstig wie nie: 129,90€ • MindStar (u. a. Palit RTX 3050 339€) • Samsung Soundbar + Subwoofer 3.1.2 wireless günstig wie nie: 228,52€ • PNY RTX 3080 12GB günstig wie nie: 974€ • Dualsense + 1TB-SSD 176,58€ [Werbung]
    •  /