Schema-Matching spielt seit vielen Jahren eine große Rolle. Eine aktuelle
Übersicht leistet der Artikel von Do und Rahm [DR07]. Eine intensive Ausein-
andersetzung mit dem Thema liefert auch die Dissertation von Do [Do06]. Der
Artikel von Bernstein und Melnik [BM07] geht auf das Modellmanagement von
Mappings ein. Wie bereits in Multidatenbanken die Heterogenität gemeistert
werden kann, wird in dem Artikel von Kim et al. [KCGS93] dargestellt. Auch
die Dissertation von Schmitt [Sch97] zur Integration föderierter Datenbanken
gibt einen Einblick in die Aspekte der Schemaintegration, die im Kontext des
Data Warehouse eine wichtige Rolle spielen.
4.8 Übungen
Übung 4-1 Beschreiben Sie die Phasen der Datenaufbereitung im Data Ware-
house!
Übung 4-2 Nennen Sie die Schritte zum Füllen eines Data Warehouse, cha-
rakterisieren Sie alle Beteiligten und Schritte.
Übung 4-3 Welche Datenfehler können in einer operativen Quelle oder in meh-
reren Quellen bestehen? Wie kann man diese finden? Welche Fehler bleiben
bei welchem Verfahren unberücksichtigt?
Übung 4-4 Welche Datenqualitätsfehler sind in den Relationen Kunde und
Bestellung zu finden? Durch welche Analysearten können die Fehler identi-
fiziert werden?
KNr Nachname Vorname Addresse Stadt Geburtstag
555666 Maier Thomas First Avenue 12 New York 1983-10-10
123456 Muster Max Rue du Tour 1 Lyon 1972-01-01
112233 Schulz Maik M.-Gorki-Str. 5 Magdeburg 1990-12-03
445566 Thomas Maier Rue du Gare 11 Paris NULL
123456 Schulz Mike Maxim-Gorki- 1985-08-08
Strasse 5
Abbildung 4.20: Beispielrelation Kunde
BNr KNr Artikel Menge Zugestellt
125 555666 4123649700201 1 T
512 123456 4222451689005 Zwei 1
699 112233 40815487990 3 0
730 555566 4900043174599 6 Nein
938 123456 3900004433901 Eins Ja
Abbildung 4.21: Beispielrelation Bestellung
120 4 Extraktions-, Transformations- und Ladeprozess
Übung 4-5 Berechnen Sie die Edit-Distanz zwischen den folgenden Worten:
Datenbank und Datenschrank
Dateianhang und Karteischrank
Physiologisch und Psychologisch
Prüfen Sie Ihr Ergebnis, wenn möglich, mithilfe eines SQL-Statements.
Übung 4-6 Bestimmen Sie die 4-Gramme der Wörter aus der letzen Aufgabe.
Geben Sie die Anzahl übereinstimmender 4-Gramme für alle Wortkombinatio-
nen an.
Übung 4-7 Welchen Soundex haben die Worte aus Aufgabe 4-5? Welches Paar
ist am ähnlichsten?
Übung 4-8 Was wird unter dem Differential-Snapshot-Problem und Record
Linkage verstanden? Worin liegt der Unterschied? Die triviale Herangehens-
weise besteht in der vollständigen Evaluierung sämtlicher Tupel (Jeder-gegen-
Jeden).
Wie kann der Aufwand für die Aufgabe der Eliminierung von Duplikaten
gelöst werden?
Welche Vor- und Nachteile haben die einzelnen Techniken?
Wie kann die Datenqualität im Data Warehouse weiter verbessert wer-
den?
4.8 Übungen 121
Übung 4-9 Überführen Sie mittels SQL-Statements die Relationen Bierla-
den1 und Bierladen2 in die Zielrelation IntegratedBierladen.
PersonalID Name Fachrichtung Abschluss
1 Mark Verkaeufer Lehrling
2 Pete Lagerist Geselle
Abbildung 4.22: Beispielrelation Bierladen1
PersonalID Name Verkaeufer Lagerist
1 Mark Lehrling NULL
2 Pete NULL Geselle
Abbildung 4.23: Beispielrelation Bierladen2
PersonalID Name Geselle Lehrling
Abbildung 4.24: Beispielrelation IntegratedBierladen
122 4 Extraktions-, Transformations- und Ladeprozess

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.