Data-Mining: Wertvolle Informationen aus Datenhaufen ziehen

Betreiber von Onlineshops wollen wissen, was sich verkauft und was nicht. Mit Data-Mining lassen sich aus den gesammelten Daten über Kunden solche und andere nützliche Informationen ziehen. Es birgt aber auch Risiken.

Artikel von veröffentlicht am
Kaffeebohnen-Mining
Kaffeebohnen-Mining (Bild: Avopix)

Angenommen, Sie besitzen einen Onlineshop. Da wäre es doch gut, abschätzen zu können, ob neue Kunden auf Ihrer Seite etwas kaufen oder sich die Sachen nur anschauen werden. Oder wie viel ein Kunde voraussichtlich ausgeben wird. Data-Mining soll bei solchen Vorhersagen helfen, die wiederum Entscheidungen in Geschäftsprozessen beeinflussen. Zum Beispiel, wie die Seite aussieht oder welche Produkte zu welchem Preis angeboten werden.

Genutzt werden dafür Methoden aus der Informatik, der Mathematik und der Statistik, bei der Umsetzung wird viel Wert eine autonome und effiziente Auswertung gelegt. Bei vielen der Anwendungsfälle geht es um zeitnahe Entscheidungen und Reaktionen.

Verwandte Themen sind die Wissensentdeckung in Datenbanken (Knowledge Discovery in Data Bases, KDD) und das Maschinelle Lernen (Machine Learning, ML). Beim ML werden Datenmengen analysiert, um ein System aufzubauen, das Entscheidungen ermöglicht. Allerdings stellt ML ein Werkzeug dar, mit dessen Hilfe zum Beispiel künstliche Intelligenzen lernen, die dann für Data-Mining verwendet werden können, jedoch ist ML nicht für alle Fälle des Data-Mining geeignet.

KDD wird oft als Synonym für Data-Mining verwendet, allerdings ist dies eigentlich nur ein Teilbereich von KDD. KDD umfasst zusätzlich noch die Bereiche für die Vorbereitung und die Auswertung der Daten, während Data-Mining nur bereitgestellte Daten untersucht und als Ergebnis Hypothesen erstellt, die dann außerhalb des Data-Mining weiterverwendet werden.

Die Kategorien des Data-Mining

Stellenmarkt
  1. Product Configuration Manager (w/m/d)
    WILO SE, Dortmund
  2. System Engineer (m/w/d) Citrix ADC / NetScaler
    DATAGROUP Köln GmbH, Köln (Home-Office)
Detailsuche

Data-Mining selbst lässt sich in verschiedene Gruppen einteilen: Gruppierung, Assoziation, Klassifikation und Prognose. Gruppierung und Assoziation sind Beschreibungsaufgaben, während Klassifikation und Prognose als Potenzialaufgaben bezeichnet werden.

Für die Potenzialaufgaben - oft auch als Prognoseaufgaben (S. 5) bezeichnet - werden Systeme mit bereits bestehenden Daten trainiert, um Werte für zukünftig eintreffende Datensätze vorhersagen zu können. Bei der Klassifikation sollen die Datensätze vorher festgelegten Ergebnismengen zugeteilt werden, während es bei der Prognose um die Ermittlung eines Ergebniswertes geht.

Mit der Klassifikation wird eben zum Beispiel versucht vorherzusagen, ob ein neuer Kunde oder eine neue Kundin kauft oder nur schaut. Mit der Prognose wird hingegen versucht, ein Rating zu erstellen, wie viel jemand ausgeben wird.

Die Beschreibungsaufgaben (S. 5) teilen sich ähnlich auf, befassen sich aber nicht mit der Modellerstellung für zukünftige Datensätze, sondern beziehen sich auf den vorliegenden Datenbestand. Die Gruppierung, auch Segmentation oder Clustering genannt, dient dazu, einen Datenbestand in verschiedene Bereiche einzuteilen, die in sich möglichst homogen sind und damit zum Beispiel ähnlich auf eine bestimmte Präsentationsart reagieren.

Von Data Mining bis Big Data: Handbuch für die industrielle Praxis

Ein Beispiel wäre hier, die Kunden eines Onlineshops in die Kategorien Einmalkäufer und Mehrfachkäufer zu unterteilen oder auch in "hat oft auf Angebot-Mails reagiert" und "lässt sich von E-Mail nicht ansprechen". Die Assoziation beschäftigt sich stattdessen damit, Verknüpfungen herzustellen, um Kunden zum Beispiel zu ihren bisherigen Einkäufen passende Produkte vorzuschlagen.

Datenquellen für das Data-Mining

Die Quellen für die Daten können beim Data-Mining fast beliebig sein. Datenbanken relationaler, objektorientierter, objektrationaler, transaktionaler oder räumlicher Art taugen genauso wie E-Mails, Dateien in verschiedenen Formaten, strukturierte oder unstrukturierte Informationen. Zusammenfassen lässt sich das alles unter dem Begriff Data Lake.

Hinzu können Echtzeitdaten kommen, Informationen über das Surfverhalten von Nutzern, Sensordaten und noch vieles mehr. Soll Data-Mining betrieben werden, müssen die Daten aus den gewünschten Quellen vorbereitet werden - in der Etablierung eines Data-Mining-Prozesses stellt dies oftmals den aufwendigsten Teil der Entwicklung dar. Die Daten müssen für die Auswertung benutzbar gemacht werden.

Es wird generalisiert, normalisiert, aggregiert, aber auch die Glättung zur Entfernung von Rauschen oder die Extraktion einzelner Attribute gehört dazu. Wie die Daten aufbereitet werden und in welches Modell sie überführt werden, wird zum Großteil dadurch vorgegeben, was aus den Daten geschlossen werden soll und wie viel Zeit dafür zur Verfügung steht.

Will man zum Beispiel den Kunden im Internetshop beim Checkout des Warenkorbs noch schnell ein paar weitere Produkte vorschlagen, an denen möglicherweise Interesse besteht, muss das Ergebnis praktisch sofort vorliegen. Sollen stattdessen E-Mails oder Briefe mit Werbung verschickt werden, kann so eine Auswertung schon mal länger dauern, denn es fällt nicht wirklich ins Gewicht, ob das ein paar Stunden in Anspruch nimmt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Data Warehouse und Data Marts 
  1. 1
  2. 2
  3. 3
  4. 4
  5.  


Aktuell auf der Startseite von Golem.de
Macbook Pro
Apple bestätigt High Power Mode für M1 Max

Käufer des Macbook Pro mit M1 Max können wohl in MacOS Monterey per Klick noch mehr Leistung aus dem Gerät herausholen.

Macbook Pro: Apple bestätigt High Power Mode für M1 Max
Artikel
  1. Klage: Google soll E-Privacy und Werbemarkt manipuliert haben
    Klage
    Google soll E-Privacy und Werbemarkt manipuliert haben

    Mehrere US-Bundesstaaten haben Klage gegen Google eingereicht. Das Unternehmen rühmt sich derweil, Regulierungen verlangsamt zu haben.

  2. Bundesregierung: Autobahn App 2.0 im ersten Quartal 2022 geplant
    Bundesregierung
    Autobahn App 2.0 im ersten Quartal 2022 geplant

    Die Opposition kritisiert die massiven Kosten, Nutzer bewerten die App schlecht. Dennoch soll die Autobahn App nun erweitert werden.

  3. Silence S04: Günstiges Elektroauto mit herausnehmbaren Akku vorgestellt
    Silence S04
    Günstiges Elektroauto mit herausnehmbaren Akku vorgestellt

    Beim Elektroauto Silence S04 kann der Nutzer den Akku selbst wechseln, wenn dieser leergefahren ist.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Saturn-Gutscheinheft mit Direktabzügen und Zugaben • Nur noch heute: Mehrwertsteuer-Aktion bei MediaMarkt • Roccat Suora 43,99€ • Razer Goliathus Extended Chroma Mercury ab 26,99€ • Seagate SSDs & HDDs günstiger • Alternate (u. a. ASUS ROG Strix Z590-A Gaming WIFI 258€) [Werbung]
    •  /