Data Warehouse und Data Marts

Die klassische Datenquelle für Data-Mining ist das Data Warehouse. Schon Mitte der 90er Jahre begann IBM, den Begriff des Information Warehouse zu nutzen. Der Begriff Data Warehouse tauchte erstmals aber bereits 1988 im Titel eines Buches von Barry Devlin auf.

Stellenmarkt
  1. Consultant IT-Security (m/w/d)
    operational services GmbH & Co. KG, Nürnberg
  2. Experte (m/w/d) IT Governance
    Alte Leipziger Lebensversicherung a. G., Oberursel (bei Frankfurt am Main)
Detailsuche

Ein Data Warehouse führt Informationen aus unterschiedlichen Quellen zu einem gemeinsamen Datenbestand zusammen. Daten werden dabei kopiert und transformiert, um einen Datenbestand zu erhalten, der auf Abfragen von Daten optimiert ist und auf dessen Basis neben dem Data-Mining auch Daten für Reports erstellt werden können oder Online Analytical Processing (OLAP) betrieben werden kann.

Ein Data Warehouse enthält Daten als Fakten, hinzu kommen dimensionale Daten, die sich hierarchisch kategorisch einordnen lassen. Ein Faktum stellt zum Beispiel einen Verkauf dar, eine zugehörige Dimension könnte der Zeitpunkt des Verkaufs sein, der hierarchisch organisiert abgelegt wird. Zum Beispiel ergibt eine Gruppe von Tagen eine Woche, Wochen wiederum sind in Jahre gruppiert. Zwecks einfacher Abfragelogik werden diese Informationen als dimensionale Daten mit abgespeichert.

Weil in einem Data Warehouse die Daten aus verteilten Systemen zusammengeführt werden und damit eine globale Zusammenfassung darstellen, eröffnet es aber auch Problematiken hinsichtlich Zugriffsrechten, Sicherheit und Datenschutz.

Golem Akademie
  1. CEH Certified Ethical Hacker v11: virtueller Fünf-Tage-Workshop
    8.–12. November 2021, Virtuell
  2. Ansible Fundamentals: Systemdeployment & -management: virtueller Drei-Tage-Workshop
    6.–8. Dezember 2021, Virtuell
Weitere IT-Trainings

Denn nicht jeder soll alle Daten in einem Data Warehouse sehen können. Aber nur Daten darin zuzulassen, die von jedem mit Zugriff auf das Data Warehouse eingesehen werden dürfen, ist auch keine Lösung.

Deswegen haben die meisten der Data-Warehouse-Applikationen noch einmal von ihnen abhängige Data Marts. Data Marts sind Teilkopien eines Data Warehouse, die nur die Daten enthalten, die ein bestimmter Operationsbereich oder eine bestimmte Applikation benötigt.

Von Data Mining bis Big Data: Handbuch für die industrielle Praxis

Sensible Daten, die in einer Abteilung oder einem Prozess nicht unbedingt benötigt werden, müssen so in deren Mart gar nicht zur Verfügung gestellt werden - während sie in einem anderen Mart, vorgesehen für Auswertungen, die diese Daten benötigen, vorhanden sein können.

Zusätzlich lassen sich die Daten für einen spezialisierten Data Mart auch noch einmal transformieren und so Zugriffe und Auswertungen beschleunigen oder vereinfachen. In manchen Fällen müssen auch spezifische Zuordnungen und Assoziationen generiert werden, die sich nur aus dem Gesamtdatensatz, nicht aber mit den Teildaten herstellen lassen, die in diesem Mart enthalten sind. Technisch realisiert sind die Data Marts in den meisten Fällen als relationale Datenbanken, multidimensionale Datenbanken oder inzwischen auch immer öfter als Datenstrukturen im Arbeitsspeicher von Servern, um Zugriffszeiten noch weiter zu optimieren.

In-Memory Analytics

Bei zeitkritischen Prozessen in der Business Intelligence (BI) kommt immer mehr In-Memory-Analytics zum Einsatz. Gegenüber festplattenbasierten Auswertungen bietet dies gewaltige Performanceverbesserungen, weil die Ladezeiten wegfallen, wenn sich die Daten bereits im Arbeitsspeicher befinden.

Serverprozessoren in 64-Bit-Architekturen unterstützen seit Jahren die Verwendung von mehr als einem Terabyte an RAM. Besonders wird das beim OLAP genutzt, wenn der gesamte Datenbestand des multidimensionalen OLAP oder des relationalen OLAP direkt zur Verfügung steht.

Es wird aber auch auf Datenstrukturen wie Arrays gearbeitet, die zum Beispiel die Tabellendaten einer Datenbank beinhalten. Passen in einem Anwendungsfall nicht alle Daten in den Speicher, kann auch mit hybriden Systemen gearbeitet werden. Dabei sind Indexdaten und relationale Daten - also solche, die eine Verbindung zwischen Entitäten herstellen - im Speicher und werden zur Suche benutzt, um möglichst wenig von der Platte nachladen zu müssen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Data-Mining: Wertvolle Informationen aus Datenhaufen ziehenEin Ausflug zum Online Analytical Processing (OLAP) 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


richtchri 24. Jan 2021

Das ist eine einfache Segmentierung von Kundenprofilen mittels weniger Datenpunkte. Kurz...

Joblow 21. Jan 2021

Haha ... jetzt habe ich doch tatsächlich Genetallotion gelesen!

silentCarl 21. Jan 2021

Der Artikel geht irgendwie im Business Intelligence aber ansonsten ist das nur mal eben...



Aktuell auf der Startseite von Golem.de
Kursabsturz
Teamviewer-Chef spricht über schwere hausgemachte Fehler

Die vielen neuen Mitarbeiter seien nicht richtig eingearbeitet worden. Und die Ziele von Teamviewer seien zu hochgesteckt gewesen, sagt Oliver Steil.

Kursabsturz: Teamviewer-Chef spricht über schwere hausgemachte Fehler
Artikel
  1. Adobe Max 2021: Mehr KI-Funktionen in Photoshop und Premiere Pro
    Adobe Max 2021
    Mehr KI-Funktionen in Photoshop und Premiere Pro

    Adobe hat eine bessere Objektauswahl und einfacheres Kolorieren in Photoshop sowie Optionen für Musikremixing in Premiere Pro vorgestellt.

  2. Rockstar Games: Neue GTA Trilogy läuft auch auf älterer PC-Hardware
    Rockstar Games
    Neue GTA Trilogy läuft auch auf älterer PC-Hardware

    Die Grafik der überarbeiteten GTA Trilogy sieht im Video viel besser aus als im Original. Trotzdem muss es keine ganz neue Hardware sein.

  3. Amazon-Go-Konkurrenz: Rewe eröffnet ersten kassenlosen Supermarkt
    Amazon-Go-Konkurrenz
    Rewe eröffnet ersten kassenlosen Supermarkt

    Kameras und Sensoren überwachen Kunden in Rewes kassenlosem Supermarkt. Bezahlt wird mit dem Smartphone.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Speicherprodukte von Sandisk & WD zu Bestpreisen (u. a. Sandisk SSD Plus 2TB 140,99€) • Sapphire Pulse RX 6600 497,88€ • Nintendo Switch OLED 369,99€ • Epos H3 Hybrid Gaming-Headset 144€ • Apple MacBook Pro 2021 ab 2.249€ • EA-Spiele günstiger • Samsung 55" QLED 699€ [Werbung]
    •  /