579
Kapitel 24
ETL in der Praxis
ETL steht für »Extraction, Transformation and Loading«. ETL ist eine der aufwen-
digsten Aufgaben in einem Data Warehouse-Projekt und beginnt bei der Identifi-
zierung der Datenquellen. Dies ist keineswegs ein trivialer Vorgang. Häufig sind
Daten in den operativen Systemen redundant gespeichert. Dabei gilt es auch zu
überprüfen, wie zuverlässig die Datenquellen sind. Weiterhin ist die Frage der
Konsistenz der Quellen zu berücksichtigen. Die Sicherung der Datenqualität
beginnt bereits mit der Quellenidentifizierung.
Nach der Identifikation müssen die Daten extrahiert werden. In großen Unterneh-
men befinden sich die Datenquellen auf verschiedenen Systemen und unter-
schiedlichen Plattformen. Die Daten können weltweit über mehrere Standorte
verteilt sein.
Sind die Daten extrahiert, müssen sie zum Ziel transportiert werden. Da der
erfolgreiche Transport die Voraussetzung für das Laden der Daten ist, muss der
gesamte Prozess überwacht werden. An dieser Stelle ist es wichtig, den Sicherheit-
saspekt zu beachten. Eine Verschlüsselung ist notwendig, wenn der Transport
über öffentliche Netzwerke erfolgt
In der Regel liegen die Daten nach dem Transport zum Zielsystem in einem zur
Quelle identischen oder ähnlichen Format vor. Aufgrund der Vielfältigkeit der ope-
rativen Systeme ist beim Laden eine Transformation erforderlich.
Da die Menge der zu ladenden Daten sehr groß ist, werden hohe Anforderungen
an die Performance der Ladeprozesse gestellt. Schließlich werden die Daten nicht
im Originalformat geladen, sie müssen in die Struktur des Star-Schemas übertra-
gen werden.
Wie bereits erwähnt, spielt die Qualitätssicherung im ETL-Prozess eine wichtige
Rolle. Das betrifft nicht nur die operativen Tätigkeiten, d.h. die Absicherung, dass
alle Daten vollständig geladen werden. Auch die Auswahl der »richtigen« Daten in
den Quellsystemen ist bedeutsam. Schließlich ist das Data Warehouse die Basis
für die Entscheidungsfindung im Unternehmen. Falsche Daten implizieren fal-
sche Entscheidungen. Beachten Sie in diesem Zusammenhang auch, dass es
immer wieder zu Änderungen in den operativen Systemen kommt, die möglicher-
weise nicht an das DWH-Team kommuniziert werden.

Get Oracle 12c - Das umfassende Handbuch now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.