Data Warehouse Technologien

Datenqualität spielt einen stetig wachsenden Anspruch in den Entschei-

dungsprozessen aber auch im operativen Betrieb. Viele Probleme können durch

technische Maßnahmen bereits vorab verhindert werden. Jedoch müssen hier-

zu Anwender und Systembetreiber ihre Anforderungen in einem kontinuier-

lichen Prozess überprüfen und anpassen. Heterogene Quellen erfordern jedoch

auch weiterhin eine Überwachung und Sicherstellung der Datenqualität im Da-

ta Warehouse. Das wachsende Datenvolumen und neue Quellen erfordern eine

konsequente und efﬁziente Nutzung von Ressourcen. Neue Techniken und Al-

gorithmen müssen daher für die Datenbereitstellung genutzt werden.

4.2 Der ETL-Prozess

Der Extraktions-, Transformations- und Ladeprozess (ETL-Prozess) dient dazu,

Daten aus der heterogenen Quelllandschaft (z.B. aus operativen Datenbanken,

Anwendungsdateien oder dem Internet) im Data Warehouse bereitzustellen.

Prinzipiell kann dieser komplexe Prozess in zwei Schritte unterteilt werden. Im

ersten Schritt werden die Daten aus den Quellen in den Datenbeschaffungsbe-

reich geladen. Hierbei erfolgt eine Extraktion der Daten aus den Quellen, das

Erkennen und Erstellen von differenziellen Updates und das Erstellen von La-

dedateien. Im zweiten Schritt werden die Daten aus dem Datenbeschaffungs-

bereich in die Basisdatenbank überführt. Dies beinhaltet die Datenbereinigung

(Data Cleaning) und auch das Tagging der Daten. Tagging bedeutet in diesem

Zusammenhang die Anreicherung der Daten um Metadaten bzw. beschreibende

Informationen. Dieser Schritt garantiert die Erstellung eines integrierten Da-

tenbestandes. Der ETL-Prozess ist dafür verantwortlich, dass das Data Ware-

house kontinuierlich mit Daten versorgt wird. Es ergeben sich hier zwei un-

terschiedliche Stufen für den Prozess: die Initialbefüllung des Data Warehouse

und die kontinuierliche Datenversorgung. In beiden Stufen muss eine Siche-

rung der DWH-Konsistenz bezüglich der Datenquellen erfolgen. Prinzipiell ste-

hen sich zwei wichtige Anforderungen im ETL-Prozess gegenüber: Sperrzeiten

müssen minimiert werden, um eine hohe Verfügbarkeit des Data Warehouse

in den Analyseprozessen zu gewährleisten; eine hohe Datenqualität im Data

Warehouse muss sichergestellt sein, damit die Analysen auch zu tragfähigen

Entscheidungen führen können. Somit sind efﬁziente Methoden wie auch rigo-

rose Prüfungen der Daten essenziell.

Der ETL-Prozess ist im Data Warehouse häuﬁg der aufwendigste Teil. Dies

liegt in der Vielzahl der Quellen begründet, die innerhalb eines Unternehmens,

aber auch über die Unternehmensgrenzen hinaus für das Data Warehouse ge-

nutzt werden. Zugleich weisen die Quellen eine große Heterogenität sowohl hin-

sichtlich ihrer Anbindung an das Data Warehouse als auch für die Datendar-

stellung auf. Ebenso steigt das Datenvolumen kontinuierlich an, das durch den

ETL-Prozess verwaltet werden muss. Nicht nur operative Datenquellen liefern

4.2 Der ETL-Prozess 97

stetig neue Daten, sondern auch die Verwendung von Sensoren oder die Einbe-

ziehung des Internet sind Treiber für das massive Datenwachstum. All dies hat

Auswirkungen auf die Transformationen der Daten. Die Transformation stellt

somit einen hochgradig komplexen Vorgang dar, sowohl für die Schema- und In-

stanzintegration als auch für die Bereinigung und Zusammenführung der Da-

ten. Aufgrund der Heterogenität und Komplexität existiert kaum eine durch-

gängige Methoden- und Systemunterstützung, jedoch gibt es auf dem Markt

eine Vielzahl von ETL-Werkzeugen.

Im Folgenden werden wir auf die drei Hauptphasen Extraktion, Transfor-

mation und Laden genauer eingehen. Die Extraktionsphase stellt dabei die Se-

lektion eines Ausschnitts der Daten aus den Quellen und die Bereitstellung

dieser Daten für die Transformationsphase dar. In der Transformationsphase

werden Anpassungen der Quelldaten an die im Data Warehouse vorgegebenen

Schema- und Datenqualitätsanforderungen durchgeführt. In der Ladephase er-

folgt das physische Einbringen der Daten aus dem Datenbeschaffungsbereich

in das Data Warehouse. Hier können ebenfalls notwendige Aggregationen für

das Befüllen des Datenwürfels integriert sein.

Quelldaten-

analyse

Metadaten-

Management

Repository

OLTP

Legacy

Externe

Quellen

Auswahl der

Objekte

Erstellen der

Transformation

Erstellen der

ETL-Routinen

Analyse-

bedarf

Datenmodell und

Konventionen

Dokumentation,

operativer

Datenkatalog

Regelwerk für

Datenqualität

Transfor-

mations-

regeln

Erfolgskriterien

für Laderoutinen

ETL-Jobs

Abbildung

Schlüsseltransf.

Normalisierung

DWH

Datenquellen

Abbildung 4.8: ETL-Prozess und Komponenten

Abbildung 4.8 stellt den ETL-Prozess schematisch dar. Ausgangspunkt

für die Data-Warehouse-Daten sind externe Quellen, wie OLTP-Datenbanken

oder Legacy-Systeme. Diese Daten müssen in einem ersten Schritt analysiert

werden. Anschließend werden die für die Arbeiten im Data Warehouse rele-

vanten Daten ausgewählt. An dieser Stelle wird gleichzeitig festgelegt, wel-

che Anforderungen hinsichtlich der Datenqualität existieren. Dann können die

Transformationsaufgaben deﬁniert werden. Eine Aufteilung der in einzelnen

ETL-Routinen ermöglicht eine weitgehend automatisierte Beladung des Data

98 4 Extraktions-, Transformations- und Ladeprozess

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Data Warehouse Technologien by Köppen, Sattler, Saake

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly