Data Warehouse Technologien

wir den alternativen Ansatz ELT im Abschnitt 4.6 vor. Dieser extrahiert und

lädt zuerst die Daten in das Data Warehouse, bevor die Daten für die späteren

Analysen aufbereitet werden.

4.1 Qualitätsaspekte

Die Daten im Data Warehouse dienen der Entscheidungsﬁndung. Daher sollten

sie mit besonderer Sorgfalt ausgewählt und für die analytischen Prozesse auf-

bereitet werden. In der Praxis können sich eine Vielzahl von Datenfehlerquel-

len ergeben. Diese können theoretisch durch die Ausnutzung von Funktionali-

täten operativer Systeme verhindert werden, wie z.B. referenzieller Integrität,

Deﬁnition von Schlüsselattributen und weiteren Funktionalitäten hinsichtlich

von Randbedingungen in Datenbanken. Da diese jedoch oft nicht in den syn-

taktischen Metadaten hinterlegt sind oder, wenn hinterlegt, umgangen werden

können, ergeben sich viele potenzielle Datenqualitätsprobleme. Dieses Kapitel

soll sich den typischen Herausforderungen in der Datenbereinigung widmen.

JBeispiel 4-1I Eine Übersicht potenzieller Fehler, wie sie in Datenbanksyste-

men möglich sind, gibt Abbildung 4.1.

KNr Name Geb.datum Alter Geschl. Telefon PLZ

34 Meier, Tom 21.01.1980 35 M 999-999 39107

34 Tina Möller 18.04.78 29 W 763-222 36999

35 Tom Meier 32.05.1969 27 F 222-231 39107

Person Email

null

t@r.de

PLZ

39107

36996

95555

Ort

Magdeburg

Spanien

Illmenau

Ort

Eindeutigkeit

verletzt

Unterschiedliche

Repräsentation

Widersprüchliche

Werte

Fehlende Werte

(z.B. Default-Werte)

Referenzielle

Integrität verletzt

Duplikate

Schreib- oder

Tippfehler

Falsche oder

unzulässige Werte

unvollständig

Abbildung 4.1: Typische Datenfehler

In Fällen, in denen der Primärschlüssel nicht gesetzt ist, kann es mög-

lich sein, dass dieser doppelt vergeben ist. Dies bedeutet eine Verletzung der

Eindeutigkeit des Schlüsselattributs. Es ist ebenso möglich, dass eine Verlet-

zung der referenziellen Integrität vorliegt, wenn ein Bezug (Fremdschlüsselbe-

82 4 Extraktions-, Transformations- und Ladeprozess

ziehung) erfolgt, der nicht vorliegt bzw. in der referenzierten Tabelle nicht vor-

handen ist. Durch die Bedingung NOT NULL können darüber hinaus unvollstän-

dige Daten vermieden werden, jedoch kann dies in der Praxis durch Eingabe

von Default-Werten zu weiteren Qualitätsproblemen auf Datenebene führen.

Durch die Einschränkung von Datenbereichen ist es möglich, der Datenbasis

nur geeignete Werte hinzuzufügen. Allerdings wird beim Entwurf und der Im-

plementierung häuﬁg darauf Wert gelegt, dass die Einschränkungen nicht zu

restriktiv sind. So können unzulässige Werte dennoch Einzug in den Datenbe-

stand halten. Diese Probleme können durch geeignete Maßnahmen im Bereich

des Metadatenmanagements eingeschränkt werden. Jedoch gibt es noch wei-

tere Herausforderungen, die nicht oder nicht efﬁzient durch Prüfung der Me-

tadaten untersucht werden können. So sind die Datenrepräsentation, wider-

sprüchliche Werte, falsche oder unzulässige Werte sowie Schreib- und Tippfeh-

ler nur unter sehr hohem Aufwand, z.B. durch Referenztabellen, Glossare und

Regelsysteme, zu verhindern. Dieser Aufwand ist aufgrund des Kosten-Nutzen-

Verhältnisses oftmals nicht begründbar. So muss während des ETL-Prozesses

eine Integration auf Daten- und Schemaebene erfolgen. Auf der Datenebene

müssen daher unter anderem Eingabefehler und Widersprüche korrigiert wer-

den. Auf Schemaebene müssen beispielsweise Verletzungen der Attributabhän-

gigkeiten und semantische, strukturelle und schematische Herausforderungen

adressiert werden.

Vermeidung von durch

falschen Datentypen Datentypdeﬁnition, DOMAIN-Constraints

falschen Werten CHECK

fehlenden Werten NOT NULL

ungültigen Referenzen FOREIGN KEY

Duplikaten UNIQUE, PRIMARY KEY

Inkonsistenzen Transaktionen

veralteten Daten Replikation, materialisierte Sichten

Tabelle 4.1: Datenfehler und Vermeidungsstrategien

Tabelle 4.1 gibt eine Übersicht, wie in operativen Systemen Datenqua-

litätsproblemen begegnet werden kann. Durch die Verwendung von geeigne-

ten Maßnahmen kann eine Vielzahl von Datenfehlern vermieden werden. So

werden durch Datentypdeﬁnitionen und Domänenbeschränkungen falsche Da-

tentypen ausgeschlossen. Mittels CHECK können falsche Werte reduziert wer-

den. Ebenfalls bietet sich die NOT-NULL-Bedingung an, um fehlende Werte zu

verhindern. Eine Überprüfung der referenziellen Integrität wird durch die

FOREIGN-KEY-Restriktion bereits bei Dateneingabe erreicht. Duplikate können

für einzelne oder zusammengesetzte Spalten mittels der Bedingungen UNIQUE

und PRIMARY KEY verringert werden. Jedoch sind hierbei auch auf Relationen-

ebene nicht alle Duplikate sinnvoll auszuschließen. Zusätzlich können spezielle

4.1 Qualitätsaspekte 83

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Data Warehouse Technologien by Köppen, Sattler, Saake

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly