4
Extraktions-,
Transformations- und
Ladeprozess
Der Extraktions-, Transformations- und Ladeprozess (kurz ETL-Prozess) ist
dafür verantwortlich, dass Daten aus den operativen Systemen und anderen
Datenquellen in das Data Warehouse geladen werden. Hierbei ist prinzipi-
ell zwischen zwei Befüllungsarten zu unterscheiden einerseits ist dies die
Initialbefüllung und andererseits die periodische Befüllung. Hierbei kann der
ETL-Prozess für heterogene Quellen in beiden Arten eingesetzt werden. Ziel ist
es, die Daten dauerhaft, einheitlich und für die analytischen Zwecke im Data
Warehouse aufzubereiten und abzuspeichern. In diesem Buch gehen wir dafür
auf die vorhandenen Datenbanktechnologien für den ETL-Prozess ein.
Das folgende Kapitel ist in sechs Abschnitte unterteilt. Der erste Teil fokus-
siert auf typische Herausforderungen hinsichtlich der Datenqualität und stellt
wesentliche Anforderungen an den ETL-Prozess dar. Ein Überblick über die ge-
nerellen Konzepte des ETL-Prozesses bietet Abschnitt 4.2. Im darauf folgenden
Abschnitt 4.3 wird die erste Phase, die Extraktionsphase, vorgestellt. Die Ex-
traktion der Daten aus den Quellsystemen wird dabei durch Monitorstrategien
effizient gestaltet, um die Datenlast gering zu halten. Für die Einbettung des
ETL-Prozesses siehe auch Kapitel 2 zur Architektur. In der Transformations-
phase im Data Warehouse werden Daten- und Schemaintegrität hergestellt. Zu
dieser Phase zählen auch Verfahren zur Identifikation von Realweltobjekten,
Duplikaterkennung und Vervollständigung fehlender Werte. Daher widmen wir
uns dieser Phase im vierten Abschnitt dieses Kapitels. Im Abschnitt 4.5 gehen
wir auf das Laden der Daten in das Data Warehouse System ein, wobei spezielle
Mechanismen von ROLAP-Systemen diskutiert werden. Abschließend stellen
81

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.