Die Genauigkeit der Daten betrachtet etwa die Anzahl der Nachkomma-
stellen und die Granularität (Grad der Aggregation von Einzeldaten zu
aggregierten Daten). Beispiele für verschiedene Granularitäten sind tages-
genaue Daten versus Wochenübersichten.
Die Zuverlässigkeit und Glaubwürdigkeit betrifft die Nachvollziehbarkeit
der Entstehung der Daten oder die Vertrauenswürdigkeit des Lieferanten
der Daten.
Das Kriterium der Verständlichkeit betrachtet, ob die Daten inhaltlich und
technisch/strukturell für die jeweilige Zielgruppe geeignet sind.
Verwendbarkeit und Relevanz prüfen, ob die Daten in einem geeigneten
Format vorliegen, bzw. die Zweckdienlichkeit der Daten.
2.2.3 Datenbereinigungsbereich
Der Datenbereinigungsbereich ist die zentrale Datenhaltungskomponente des
Datenbeschaffungsbereichs. Er wird in der einschlägigen Literatur auch als Ar-
beitsbereich oder engl. staging area bezeichnet.
Der Datenbereinigungsbereich (kurz DBB) ist ein temporärer Zwischen-
speicher zur Integration und Bereinigung der Daten auf den Datenquellen. Er
wird durch die Extraktionskomponenten mit Rohdaten gefüllt. Die Hauptnut-
zung des DBB ist allerdings die Nutzung als temporärer Zwischenspeicher für
alle Transformationsaufgaben. Diese Transformationen, also insbesondere die
Bereinigung der Daten und die Integration, erfolgt direkt auf diesem Zwischen-
speicher. Das Laden der transformierten Daten in das Data Warehouse bzw. in
die Basisdatenbank erfolgt erst nach erfolgreichem Abschluss aller Transfor-
mationen.
Die Einführung der temporären DBB führt insbesondere zu zwei Vorteilen:
Da die Daten bereits aus den Quellen extrahiert wurden und erst nach den
erfolgreichen Transformationen das Laden erfolgt, werden weder die Quel-
len noch das eigentliche Data Warehouse durch die Transformationen be-
einflusst. Gerade bei aufwendigen Transformationen ist das eine wichtige
Eigenschaft.
Da das Laden erst nach den erfolgreichen Transformationen erfolgt, ist ei-
ne versehentliche Übernahme fehlerbehafteter Daten so weit möglich aus-
geschlossen.
Diesen Vorteilen steht natürlich ein erhöhter Speicherbedarf entgegen, da die
Daten redundant gespeichert werden müssen.
26 2 Architektur

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.