über ihre zugeordneten Daten beinhalten). In der Praxis ist häufig ein Quellsys-
tem über die Zeit gewachsen und die zugehörige Dokumentation unzureichend
oder sie fehlt komplett. Eine weitere Herausforderung stellt das sogenannte
Herrschaftswissen bei den einzelnen Mitarbeitern dar, die sowohl eine fachli-
che als auch technische Expertise in den Anwendungssystemen besitzen.
Für die Vielzahl der genannten Herausforderungen gibt es eine Vielzahl
an kommerziellen ETL-Systemen, die bei der Integration der heterogenen Da-
tenquellsystemlandschaft in das Data Warehouse unterstützen. Diese können
sowohl Bestandteil innerhalb des Data Warehouse sein als auch als eigenstän-
diges Produkt auf dem Markt angeboten werden.
4.3.2 Methode des Differential Snapshot
Aufgrund zahlreicher Einschränkungen beim Datenzugang und der Tatsache,
dass viele Quellen nur den aktuellen und vollständigen Datenbestand liefern,
müssen diese Komplettdatenbestände im Extraktionsschritt verarbeitet wer-
den. Typische Beispiele aus Anwendungsszenarien sind Produkt- und Liefe-
rantenkataloge, Kundenlisten oder aus dem wissenschaftlichen Bereich mole-
kularbiologische Datenbanken. Hierbei besteht das Problem, dass ein ständi-
ges Einspielen der Daten in das Data Warehouse sehr ineffizient ist und die
Analyseprozesse beeinträchtigen kann. Zudem müssen Duplikate in den Quell-
systemen auch im Data Warehouse erkannt werden, siehe hierzu insbesonde-
re Abschnitt 4.1.2. Somit müssen für die Snapshots Algorithmen zum Einsatz
kommen, die aus den Ursprungsdaten und den bereits geladenen Daten Delta-
Dateien berechnen. Für große Datenmengen, die nicht in den Hauptspeicher
passen, sind die Algorithmen hinsichtlich der Delta-Berechnung besonders an-
spruchsvoll.
Im Folgenden wollen wir das Differential-Snapshot-Problem [LGM96], wel-
ches in Abbildung 4.9 dargestellt ist, detailliert besprechen. Hierzu benutzen
wir die folgende Notation:
Die Extrakte der Quellen ergeben die Datei F
2
(Snapshot n).
Im Data Warehouse liegt der Datenbestand als Datei F
1
(Snapshot n 1) vor.
Die Dateien F stellen eine ungeordnete Menge von Records
(K, A
1
, . . . , A
n
) dar.
Die Dateigröße beträgt f = |F |.
Die Menge möglicher Operationen für Datenmanipulationen
ist O = {INS, DEL, UPD}.
4.3 Die Extraktionsphase 101
K4, t, r, ...
K102, p, q, ...
K104, k, k, ...
K202, a, a, ...
Dif ferential
Snapshot
Algorithmus
K3, t, r, ...
K102, p, q, ...
K103, t, h, ...
K104, k, k, ...
K202, b, b, ...
INS K3
DEL K4
INS K103
UPD K202: ...
F
1
F
2
DWH
Abbildung 4.9: Beispiel Differential Snapshot
Gesucht wird die Menge O, für die gilt O(F
1
) = F
2
. Hierbei muss beachtet
werden, dass O nicht eindeutig ist. So ist beispielsweise
O
1
= {(INS(X)), , (DEL(X))} O
2
= {∅, , ∅}.
Daher wird im Differential-Snapshot-Problem die kleinste Menge O
gesucht,
die F
1
in F
2
überführt. Hierbei muss sich die Tatsache bewusst gemacht wer-
den, dass nicht alle Änderungen gefunden werden können. Im obigen Beispiel
ist O
= O
2
, auch wenn in der Realität O
1
eigentlich erfolgte. Dies gilt für
verschiedene Sequenzen von Einfügungen und Löschaktionen oder für Ände-
rungen. Abbildung 4.9 verdeutlicht den Vorgang im Data-Warehouse-Kontext.
Wir wollen nun unterschiedliche Algorithmen für das Differential-Snap-
shot-Problem betrachten. Diese beleuchten wir näher mittels des folgenden ver-
einfachten Kostenmodells:
Alle Operationen im Hauptspeicher sind kostenfrei.
I/O zählt mit der Anzahl der Records (sequenzielles Lesen).
Blockgrößen werden nicht betrachtet.
Der Hauptspeicher weist eine Größe von M Records auf. Die Dateigrößen sind
|F
1
| = f
1
Records und |F
2
| = f
2
Records. Prinzipiell kann O wie folgt berechnet
werden (Differential-Snapshot-Algorithmus DS
naiv
):
1. Lese Record R aus F
1
.
2. Lese F
2
sequenziell und vergleiche mit R
R ist nicht in F
2
O := O (DEL(R))
R ist in F
2
O := O (UPD(R)) oder ignorieren
102 4 Extraktions-, Transformations- und Ladeprozess

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.