Warehouse. Neben den Komponenten Datenbereinigungsbereich und Basisda-
tenbank bzw. Datenwürfel müssen auch die Metadaten während des gesamten
ETL-Prozesses beachtet und bearbeitet werden.
4.3 Die Extraktionsphase
In Abhängigkeit von der Analyseanforderung ist die Datenversorgung des Data
Warehouse die entscheidende Aufgabe in einem Data-Warehouse-Projekt. Dies
bezieht sich sowohl auf die Erstbefüllung als auch auf die regelmäßige Extrak-
tion von Änderungsdaten aus den Quellen. Für die Extraktionsphase spielen
sowohl der Zeitpunkt als auch die Art der extrahierten Daten eine Rolle. Daher
wollen wir im Folgenden auf beide Aspekte eingehen.
Wenn die Datenquellen jede Änderung an die Monitore im Data Warehou-
se propagieren, sprechen wir von einer synchronen Benachrichtigung. Bei der
asynchronen Benachrichtigung wird hingegen zwischen periodischen, ereignis-
gesteuerten und anfragegesteuerten Formen unterschieden. Wenn die Quellen
regelmäßig Extrakte erzeugen und das Data Warehouse diesen Datenbestand
abfragt bzw. regelmäßig der aktuelle Datenbestand der Quellen in das Data
Warehouse übernommen wird, so handelt es sich um ein periodisches Laden der
Daten in den Datenbeschaffungsbereich. Ereignisse, die den ETL-Prozess star-
ten können, sind z.B. der bevorstehende Jahresabschluss oder dass die Quellen
die Anzahl X an Änderungen erhalten haben. Es ist aber auch möglich, die Da-
tenquellen vor jedem tatsächlichen Zugriff auf Änderungen zu überprüfen. Der
Komplexitätsgrad steigt bei diesen genannten asynchronen Benachrichtigun-
gen. Für eine Zusammenfassung der Benachrichtigungen siehe Tabelle 4.3.
Quelle . . . Technik Aktualität
DWH
Belastung
DWH
Belastung
Quellen
erstellt periodisch Fi-
les
Batchläufe,
Snapshots
Je nach
Frequenz
Niedrig Niedrig
propagiert jede Ände-
rung
Trigger,
Replikation
Maximal Hoch Sehr hoch
erstellt Ex-
trakte auf
Anfrage
vor Be-
nutzung
Sehr schwie-
rig
Maximal Medium Medium
Anwen-
dungsge-
steuert
Anwen-
dungsgesteu-
ert
Je nach
Frequenz
Je nach
Frequenz
Je nach
Frequenz
Tabelle 4.3: Extraktionstechniken und ihre Eigenschaften
Die Art der Daten kann im Wesentlichen in drei Kategorien unterteilt wer-
den. Zum Ersten sind dies Flussgrößen (engl. flow). Hierzu zählen z.B. Ver-
4.3 Die Extraktionsphase 99

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.