wir den alternativen Ansatz ELT im Abschnitt 4.6 vor. Dieser extrahiert und
lädt zuerst die Daten in das Data Warehouse, bevor die Daten für die späteren
Analysen aufbereitet werden.
4.1 Qualitätsaspekte
Die Daten im Data Warehouse dienen der Entscheidungsfindung. Daher sollten
sie mit besonderer Sorgfalt ausgewählt und für die analytischen Prozesse auf-
bereitet werden. In der Praxis können sich eine Vielzahl von Datenfehlerquel-
len ergeben. Diese können theoretisch durch die Ausnutzung von Funktionali-
täten operativer Systeme verhindert werden, wie z.B. referenzieller Integrität,
Definition von Schlüsselattributen und weiteren Funktionalitäten hinsichtlich
von Randbedingungen in Datenbanken. Da diese jedoch oft nicht in den syn-
taktischen Metadaten hinterlegt sind oder, wenn hinterlegt, umgangen werden
können, ergeben sich viele potenzielle Datenqualitätsprobleme. Dieses Kapitel
soll sich den typischen Herausforderungen in der Datenbereinigung widmen.
JBeispiel 4-1I Eine Übersicht potenzieller Fehler, wie sie in Datenbanksyste-
men möglich sind, gibt Abbildung 4.1.
KNr Name Geb.datum Alter Geschl. Telefon PLZ
34 Meier, Tom 21.01.1980 35 M 999-999 39107
34 Tina Möller 18.04.78 29 W 763-222 36999
35 Tom Meier 32.05.1969 27 F 222-231 39107
Person Email
null
null
t@r.de
PLZ
39107
36996
95555
Ort
Magdeburg
Spanien
Illmenau
Ort
Eindeutigkeit
verletzt
Unterschiedliche
Repräsentation
Widersprüchliche
Werte
Fehlende Werte
(z.B. Default-Werte)
Referenzielle
Integrität verletzt
Duplikate
Schreib- oder
Tippfehler
Falsche oder
unzulässige Werte
unvollständig
Abbildung 4.1: Typische Datenfehler
2
In Fällen, in denen der Primärschlüssel nicht gesetzt ist, kann es mög-
lich sein, dass dieser doppelt vergeben ist. Dies bedeutet eine Verletzung der
Eindeutigkeit des Schlüsselattributs. Es ist ebenso möglich, dass eine Verlet-
zung der referenziellen Integrität vorliegt, wenn ein Bezug (Fremdschlüsselbe-
82 4 Extraktions-, Transformations- und Ladeprozess
ziehung) erfolgt, der nicht vorliegt bzw. in der referenzierten Tabelle nicht vor-
handen ist. Durch die Bedingung NOT NULL können darüber hinaus unvollstän-
dige Daten vermieden werden, jedoch kann dies in der Praxis durch Eingabe
von Default-Werten zu weiteren Qualitätsproblemen auf Datenebene führen.
Durch die Einschränkung von Datenbereichen ist es möglich, der Datenbasis
nur geeignete Werte hinzuzufügen. Allerdings wird beim Entwurf und der Im-
plementierung häufig darauf Wert gelegt, dass die Einschränkungen nicht zu
restriktiv sind. So können unzulässige Werte dennoch Einzug in den Datenbe-
stand halten. Diese Probleme können durch geeignete Maßnahmen im Bereich
des Metadatenmanagements eingeschränkt werden. Jedoch gibt es noch wei-
tere Herausforderungen, die nicht oder nicht effizient durch Prüfung der Me-
tadaten untersucht werden können. So sind die Datenrepräsentation, wider-
sprüchliche Werte, falsche oder unzulässige Werte sowie Schreib- und Tippfeh-
ler nur unter sehr hohem Aufwand, z.B. durch Referenztabellen, Glossare und
Regelsysteme, zu verhindern. Dieser Aufwand ist aufgrund des Kosten-Nutzen-
Verhältnisses oftmals nicht begründbar. So muss während des ETL-Prozesses
eine Integration auf Daten- und Schemaebene erfolgen. Auf der Datenebene
müssen daher unter anderem Eingabefehler und Widersprüche korrigiert wer-
den. Auf Schemaebene müssen beispielsweise Verletzungen der Attributabhän-
gigkeiten und semantische, strukturelle und schematische Herausforderungen
adressiert werden.
Vermeidung von durch
falschen Datentypen Datentypdefinition, DOMAIN-Constraints
falschen Werten CHECK
fehlenden Werten NOT NULL
ungültigen Referenzen FOREIGN KEY
Duplikaten UNIQUE, PRIMARY KEY
Inkonsistenzen Transaktionen
veralteten Daten Replikation, materialisierte Sichten
Tabelle 4.1: Datenfehler und Vermeidungsstrategien
Tabelle 4.1 gibt eine Übersicht, wie in operativen Systemen Datenqua-
litätsproblemen begegnet werden kann. Durch die Verwendung von geeigne-
ten Maßnahmen kann eine Vielzahl von Datenfehlern vermieden werden. So
werden durch Datentypdefinitionen und Domänenbeschränkungen falsche Da-
tentypen ausgeschlossen. Mittels CHECK können falsche Werte reduziert wer-
den. Ebenfalls bietet sich die NOT-NULL-Bedingung an, um fehlende Werte zu
verhindern. Eine Überprüfung der referenziellen Integrität wird durch die
FOREIGN-KEY-Restriktion bereits bei Dateneingabe erreicht. Duplikate können
für einzelne oder zusammengesetzte Spalten mittels der Bedingungen UNIQUE
und PRIMARY KEY verringert werden. Jedoch sind hierbei auch auf Relationen-
ebene nicht alle Duplikate sinnvoll auszuschließen. Zusätzlich können spezielle
4.1 Qualitätsaspekte 83

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.