Die für Analysen benötigten Daten werden aus den sogenannten Quellen
abgerufen. Quellen können operative Datenbanken (etwa eine Lagerver-
waltung oder eine elektronische Kasse), aber auch Informationsbestände
aus dem Internet (etwa Produktkataloge, Wetterdaten, Börsenkurse) sein.
Für spätere Analysen relevante Daten werden mittels Extraktionskompo-
nenten in den temporären Datenbereinigungsbereich (DBB) kopiert. Die-
ser Bereich beinhaltet derart importierte Daten in verschiedenen Verar-
beitungsstadien.
Transformationskomponenten bearbeiten die Daten im Datenbereini-
gungsbereich, bis diese den Struktur- und Qualitätsvorgaben der Nutzung
im Data Warehouse genügen. Wichtige Schritte sind dabei das Erkennen
und Beseitigen von fehlerhaften und unvollständigen Daten sowie die
Integration semantisch zusammenhängender Daten aus unterschiedlichen
Quellen.
Eine Ladekomponente kopiert die Daten aus dem Datenbereinigungsbe-
reich in eine integrierte Basisdatenbank als Grundlage für verschiedene
Analysen. Die Daten aus dem DBB werden gelöscht, sobald sie nicht mehr
für den Ladevorgang benötigt werden — der Datenbereinigungsbereich ist
damit ein temporärer Datenspeicher. Die Basisdatenbank hingegen ist per-
sistent, Daten werden in ihr unter anderem für historische Analysen be-
wahrt.
Aus der Basisdatenbank werden die Daten im Rahmen der Befüllung in
den Datenwürfel geladen. Der Datenwürfel stellt die Daten in für Da-
tenanalysen geeigneten Strukturen dar und wird daher grafisch nicht als
Datenbank-„Tonne“, sondern als Würfel dargestellt.
Data Marts sind Ausschnitte aus dem Gesamt-Data-Warehouse. Sie kön-
nen entweder aus der Basisdatenbank oder dem Datenwürfel befüllt wer-
den (oder auch unabhängig betrieben werden, und dann wiederum das Da-
ta Warehouse „füttern“ – Näheres dazu in Abschnitt 2.4).
Die Extraktion aus den Quellen, die folgende Transformation der Daten und
das anschließende Laden in die Basisdatenbank werden zusammengefasst auch
als Datenbereinigungsbereich bezeichnet, die dortigen Komponenten unter dem
Begriff ETL (für Extraktion, Transformation, Laden) zusammengefasst.
2.2.2 Datenquellen
Das Data Warehouse muss mit den Daten gefüttert werden, die für Analysen
benötigt werden. Die Lieferanten der Daten für das Data Warehouse bezeichnet
man als (Daten-) Quellen. Die Datenquellen gehören nicht direkt zum Data
2.2 Datenfluss in einem Data-Warehouse-System 23
Warehouse, da es sich um separate Systeme mit anderem Bestimmungszweck
handelt. Es gibt in der Regel sehr unterschiedliche Datenquellen für ein Data
Warehouse.
Datenquellen können organisatorisch als interne Quellen (Daten aus dem-
selben Unternehmen) oder extern (z.B. Daten aus dem Internet) klassifiziert
werden. Unterschiedliche Datenquellen sind oft heterogen bezüglich der Struk-
tur, des Inhalts und der Schnittstellen. Datenquellen können als Datenbanken
organisiert sein, aber auch unstrukturierte Quellen im Internet können genutzt
werden. Diese Heterogenität bedeutet insbesondere, dass die Daten erst aufbe-
reitet, transformiert und bereinigt werden müssen, bevor sie für Analysezwecke
genutzt werden können.
Bestimmte Informationen können auch aus unterschiedlichen Quellen be-
sorgt werden, etwa Aktienkurse oder Preisinformationen. Diese Quellen unter-
scheiden sich oft nicht nur in der Struktur, sondern auch in der Qualität der
gelieferten Daten. Die Auswahl der Quellen und die damit erreichte Qualität
der Daten ist hierbei von besonderer Bedeutung, denn von ihr hängt die Güte
der Analysen ab.
Wichtige Faktoren für die Auswahl sind insbesondere der Zweck des Data-
Warehouse (welche Analysen sollen unterstützt werden), die Qualität der
Quelldaten, die Verfügbarkeit der Daten (rechtlich, sozial, technisch) sowie
nicht zuletzt der Preis für den Erwerb der Daten (speziell bei externen Quellen).
Bei der Auswahl der Datenquellen werden die potenziellen Quellen nach
diversen Kriterien klassifiziert. Diese Klassifikation ist notwendig, um den Auf-
wand der Nutzung einer Datenquelle (und die nötige Wartung derselben) be-
stimmen zu können.
Datenquellen
Herkunft
extern intern
Zeitbezug
aktuell historisch
Nutzungs-
ebene
primär
(Fakten)
Metadaten
DarstellungQualität Inhalt
Vertraulichkeit Zeichensatz Sprache
Abbildung 2.3: Aspekte von Datenquellen
Abbildung 2.3 zeigt einen Ausschnitt aus den möglichen Klassifikationsdi-
mensionen. Im Einzelnen handelt es sich hierbei um die folgenden Punkte:
24 2 Architektur

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.