Data-Mining: Wertvolle Informationen aus Datenhaufen ziehen
Betreiber von Onlineshops wollen wissen, was sich verkauft und was nicht. Mit Data-Mining lassen sich aus den gesammelten Daten über Kunden solche und andere nützliche Informationen ziehen. Es birgt aber auch Risiken.

Angenommen, Sie besitzen einen Onlineshop. Da wäre es doch gut, abschätzen zu können, ob neue Kunden auf Ihrer Seite etwas kaufen oder sich die Sachen nur anschauen werden. Oder wie viel ein Kunde voraussichtlich ausgeben wird. Data-Mining soll bei solchen Vorhersagen helfen, die wiederum Entscheidungen in Geschäftsprozessen beeinflussen. Zum Beispiel, wie die Seite aussieht oder welche Produkte zu welchem Preis angeboten werden.
- Data-Mining: Wertvolle Informationen aus Datenhaufen ziehen
- Data Warehouse und Data Marts
- Ein Ausflug zum Online Analytical Processing (OLAP)
- Anwendungsfall Prescriptive Analytics
Genutzt werden dafür Methoden aus der Informatik, der Mathematik und der Statistik, bei der Umsetzung wird viel Wert eine autonome und effiziente Auswertung gelegt. Bei vielen der Anwendungsfälle geht es um zeitnahe Entscheidungen und Reaktionen.
Verwandte Themen sind die Wissensentdeckung in Datenbanken (Knowledge Discovery in Data Bases, KDD) und das Maschinelle Lernen (Machine Learning, ML). Beim ML werden Datenmengen analysiert, um ein System aufzubauen, das Entscheidungen ermöglicht. Allerdings stellt ML ein Werkzeug dar, mit dessen Hilfe zum Beispiel künstliche Intelligenzen lernen, die dann für Data-Mining verwendet werden können, jedoch ist ML nicht für alle Fälle des Data-Mining geeignet.
KDD wird oft als Synonym für Data-Mining verwendet, allerdings ist dies eigentlich nur ein Teilbereich von KDD. KDD umfasst zusätzlich noch die Bereiche für die Vorbereitung und die Auswertung der Daten, während Data-Mining nur bereitgestellte Daten untersucht und als Ergebnis Hypothesen erstellt, die dann außerhalb des Data-Mining weiterverwendet werden.
Die Kategorien des Data-Mining
Data-Mining selbst lässt sich in verschiedene Gruppen einteilen: Gruppierung, Assoziation, Klassifikation und Prognose. Gruppierung und Assoziation sind Beschreibungsaufgaben, während Klassifikation und Prognose als Potenzialaufgaben bezeichnet werden.
Für die Potenzialaufgaben - oft auch als Prognoseaufgaben (S. 5) bezeichnet - werden Systeme mit bereits bestehenden Daten trainiert, um Werte für zukünftig eintreffende Datensätze vorhersagen zu können. Bei der Klassifikation sollen die Datensätze vorher festgelegten Ergebnismengen zugeteilt werden, während es bei der Prognose um die Ermittlung eines Ergebniswertes geht.
Mit der Klassifikation wird eben zum Beispiel versucht vorherzusagen, ob ein neuer Kunde oder eine neue Kundin kauft oder nur schaut. Mit der Prognose wird hingegen versucht, ein Rating zu erstellen, wie viel jemand ausgeben wird.
Die Beschreibungsaufgaben (S. 5) teilen sich ähnlich auf, befassen sich aber nicht mit der Modellerstellung für zukünftige Datensätze, sondern beziehen sich auf den vorliegenden Datenbestand. Die Gruppierung, auch Segmentation oder Clustering genannt, dient dazu, einen Datenbestand in verschiedene Bereiche einzuteilen, die in sich möglichst homogen sind und damit zum Beispiel ähnlich auf eine bestimmte Präsentationsart reagieren.
Ein Beispiel wäre hier, die Kunden eines Onlineshops in die Kategorien Einmalkäufer und Mehrfachkäufer zu unterteilen oder auch in "hat oft auf Angebot-Mails reagiert" und "lässt sich von E-Mail nicht ansprechen". Die Assoziation beschäftigt sich stattdessen damit, Verknüpfungen herzustellen, um Kunden zum Beispiel zu ihren bisherigen Einkäufen passende Produkte vorzuschlagen.
Datenquellen für das Data-Mining
Die Quellen für die Daten können beim Data-Mining fast beliebig sein. Datenbanken relationaler, objektorientierter, objektrationaler, transaktionaler oder räumlicher Art taugen genauso wie E-Mails, Dateien in verschiedenen Formaten, strukturierte oder unstrukturierte Informationen. Zusammenfassen lässt sich das alles unter dem Begriff Data Lake.
Hinzu können Echtzeitdaten kommen, Informationen über das Surfverhalten von Nutzern, Sensordaten und noch vieles mehr. Soll Data-Mining betrieben werden, müssen die Daten aus den gewünschten Quellen vorbereitet werden - in der Etablierung eines Data-Mining-Prozesses stellt dies oftmals den aufwendigsten Teil der Entwicklung dar. Die Daten müssen für die Auswertung benutzbar gemacht werden.
Es wird generalisiert, normalisiert, aggregiert, aber auch die Glättung zur Entfernung von Rauschen oder die Extraktion einzelner Attribute gehört dazu. Wie die Daten aufbereitet werden und in welches Modell sie überführt werden, wird zum Großteil dadurch vorgegeben, was aus den Daten geschlossen werden soll und wie viel Zeit dafür zur Verfügung steht.
Will man zum Beispiel den Kunden im Internetshop beim Checkout des Warenkorbs noch schnell ein paar weitere Produkte vorschlagen, an denen möglicherweise Interesse besteht, muss das Ergebnis praktisch sofort vorliegen. Sollen stattdessen E-Mails oder Briefe mit Werbung verschickt werden, kann so eine Auswertung schon mal länger dauern, denn es fällt nicht wirklich ins Gewicht, ob das ein paar Stunden in Anspruch nimmt.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Data Warehouse und Data Marts |
Das ist eine einfache Segmentierung von Kundenprofilen mittels weniger Datenpunkte. Kurz...
Haha ... jetzt habe ich doch tatsächlich Genetallotion gelesen!
Der Artikel geht irgendwie im Business Intelligence aber ansonsten ist das nur mal eben...
Kommentieren