• IT-Karriere:
  • Services:

Data Warehouse und Data Marts

Die klassische Datenquelle für Data-Mining ist das Data Warehouse. Schon Mitte der 90er Jahre begann IBM, den Begriff des Information Warehouse zu nutzen. Der Begriff Data Warehouse tauchte erstmals aber bereits 1988 im Titel eines Buches von Barry Devlin auf.

Stellenmarkt
  1. Kreis Paderborn, Paderborn
  2. Gottfried Wilhelm Leibniz Universität Hannover, Hannover

Ein Data Warehouse führt Informationen aus unterschiedlichen Quellen zu einem gemeinsamen Datenbestand zusammen. Daten werden dabei kopiert und transformiert, um einen Datenbestand zu erhalten, der auf Abfragen von Daten optimiert ist und auf dessen Basis neben dem Data-Mining auch Daten für Reports erstellt werden können oder Online Analytical Processing (OLAP) betrieben werden kann.

Ein Data Warehouse enthält Daten als Fakten, hinzu kommen dimensionale Daten, die sich hierarchisch kategorisch einordnen lassen. Ein Faktum stellt zum Beispiel einen Verkauf dar, eine zugehörige Dimension könnte der Zeitpunkt des Verkaufs sein, der hierarchisch organisiert abgelegt wird. Zum Beispiel ergibt eine Gruppe von Tagen eine Woche, Wochen wiederum sind in Jahre gruppiert. Zwecks einfacher Abfragelogik werden diese Informationen als dimensionale Daten mit abgespeichert.

Weil in einem Data Warehouse die Daten aus verteilten Systemen zusammengeführt werden und damit eine globale Zusammenfassung darstellen, eröffnet es aber auch Problematiken hinsichtlich Zugriffsrechten, Sicherheit und Datenschutz.

Denn nicht jeder soll alle Daten in einem Data Warehouse sehen können. Aber nur Daten darin zuzulassen, die von jedem mit Zugriff auf das Data Warehouse eingesehen werden dürfen, ist auch keine Lösung.

Deswegen haben die meisten der Data-Warehouse-Applikationen noch einmal von ihnen abhängige Data Marts. Data Marts sind Teilkopien eines Data Warehouse, die nur die Daten enthalten, die ein bestimmter Operationsbereich oder eine bestimmte Applikation benötigt.

Von Data Mining bis Big Data: Handbuch für die industrielle Praxis

Sensible Daten, die in einer Abteilung oder einem Prozess nicht unbedingt benötigt werden, müssen so in deren Mart gar nicht zur Verfügung gestellt werden - während sie in einem anderen Mart, vorgesehen für Auswertungen, die diese Daten benötigen, vorhanden sein können.

Zusätzlich lassen sich die Daten für einen spezialisierten Data Mart auch noch einmal transformieren und so Zugriffe und Auswertungen beschleunigen oder vereinfachen. In manchen Fällen müssen auch spezifische Zuordnungen und Assoziationen generiert werden, die sich nur aus dem Gesamtdatensatz, nicht aber mit den Teildaten herstellen lassen, die in diesem Mart enthalten sind. Technisch realisiert sind die Data Marts in den meisten Fällen als relationale Datenbanken, multidimensionale Datenbanken oder inzwischen auch immer öfter als Datenstrukturen im Arbeitsspeicher von Servern, um Zugriffszeiten noch weiter zu optimieren.

In-Memory Analytics

Bei zeitkritischen Prozessen in der Business Intelligence (BI) kommt immer mehr In-Memory-Analytics zum Einsatz. Gegenüber festplattenbasierten Auswertungen bietet dies gewaltige Performanceverbesserungen, weil die Ladezeiten wegfallen, wenn sich die Daten bereits im Arbeitsspeicher befinden.

Serverprozessoren in 64-Bit-Architekturen unterstützen seit Jahren die Verwendung von mehr als einem Terabyte an RAM. Besonders wird das beim OLAP genutzt, wenn der gesamte Datenbestand des multidimensionalen OLAP oder des relationalen OLAP direkt zur Verfügung steht.

Es wird aber auch auf Datenstrukturen wie Arrays gearbeitet, die zum Beispiel die Tabellendaten einer Datenbank beinhalten. Passen in einem Anwendungsfall nicht alle Daten in den Speicher, kann auch mit hybriden Systemen gearbeitet werden. Dabei sind Indexdaten und relationale Daten - also solche, die eine Verbindung zwischen Entitäten herstellen - im Speicher und werden zur Suche benutzt, um möglichst wenig von der Platte nachladen zu müssen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Data-Mining: Wertvolle Informationen aus Datenhaufen ziehenEin Ausflug zum Online Analytical Processing (OLAP) 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Anzeige
Top-Angebote
  1. (u. a. Anno 1800 für 26,99€, Railway Empire für 14,99€, Code Vein für 16,99€)
  2. 119,90€ (Bestpreis mit Amazon)
  3. (AMD Ryzen 9 5950X + Radeon RX 6900 XT)
  4. (u. a. TU7199 58 Zoll für 559€, Q80T QLED 49 Zoll für 859€, TU7199 75 Zoll für 899€, Q60T...

richtchri 24. Jan 2021 / Themenstart

Das ist eine einfache Segmentierung von Kundenprofilen mittels weniger Datenpunkte. Kurz...

Joblow 21. Jan 2021 / Themenstart

Haha ... jetzt habe ich doch tatsächlich Genetallotion gelesen!

silentCarl 21. Jan 2021 / Themenstart

Der Artikel geht irgendwie im Business Intelligence aber ansonsten ist das nur mal eben...

Kommentieren


Folgen Sie uns
       


Gaming auf dem Chromebook ausprobiert

Wir haben uns Spielestreaming und natives Gaming auf dem Chromebook angesehen.

Gaming auf dem Chromebook ausprobiert Video aufrufen
The Legend of Zelda: Das Vorbild für alle Action-Adventures
The Legend of Zelda
Das Vorbild für alle Action-Adventures

The Legend of Zelda von 1986 hat das Genre geprägt. Wir haben den 8-Bit-Klassiker erneut gespielt - und waren hin- und hergerissen.
Von Benedikt Plass-Fleßenkämper


    XPS 13 (9310) im Test: Dells Ultrabook ist besser denn je
    XPS 13 (9310) im Test
    Dells Ultrabook ist besser denn je

    Wir dachten ja, bis auf den Tiger-Lake-Chip habe Dell am XPS 13 nichts geändert. Doch es gibt einige willkommene Änderungen.
    Ein Test von Marc Sauter

    1. Dell-Ultrabook XPS 13 mit weniger vertikalen Pixeln
    2. Notebooks Dells XPS 13 mit Intels Tiger Lake kommt
    3. XPS 13 (9300) im Test Dells i-Tüpfelchen

    Surface Duo im Test: Microsoft, bitte bring ein Surface Duo 2!
    Surface Duo im Test
    Microsoft, bitte bring ein Surface Duo 2!

    Microsofts neuer Ausflug in die Smartphone-Welt ist gewagt - das Konzept stimmt aber. Nicht stimmig hingegen sind Software, Hardware und Preis.
    Ein Test von Tobias Költzsch

    1. Error 1016 Windows-Händler Lizengo ist online nicht mehr erreichbar
    2. Kubernetes Microsofts einfache Cloud-Laufzeitumgebung Dapr wird stabil
    3. Microsoft Surface Duo kostet in Deutschland ab 1.550 Euro

      •  /