Data Warehouse Technologien

über ihre zugeordneten Daten beinhalten). In der Praxis ist häuﬁg ein Quellsys-

tem über die Zeit gewachsen und die zugehörige Dokumentation unzureichend

oder sie fehlt komplett. Eine weitere Herausforderung stellt das sogenannte

Herrschaftswissen bei den einzelnen Mitarbeitern dar, die sowohl eine fachli-

che als auch technische Expertise in den Anwendungssystemen besitzen.

Für die Vielzahl der genannten Herausforderungen gibt es eine Vielzahl

an kommerziellen ETL-Systemen, die bei der Integration der heterogenen Da-

tenquellsystemlandschaft in das Data Warehouse unterstützen. Diese können

sowohl Bestandteil innerhalb des Data Warehouse sein als auch als eigenstän-

diges Produkt auf dem Markt angeboten werden.

4.3.2 Methode des Differential Snapshot

Aufgrund zahlreicher Einschränkungen beim Datenzugang und der Tatsache,

dass viele Quellen nur den aktuellen und vollständigen Datenbestand liefern,

müssen diese Komplettdatenbestände im Extraktionsschritt verarbeitet wer-

den. Typische Beispiele aus Anwendungsszenarien sind Produkt- und Liefe-

rantenkataloge, Kundenlisten oder aus dem wissenschaftlichen Bereich mole-

kularbiologische Datenbanken. Hierbei besteht das Problem, dass ein ständi-

ges Einspielen der Daten in das Data Warehouse sehr inefﬁzient ist und die

Analyseprozesse beeinträchtigen kann. Zudem müssen Duplikate in den Quell-

systemen auch im Data Warehouse erkannt werden, siehe hierzu insbesonde-

re Abschnitt 4.1.2. Somit müssen für die Snapshots Algorithmen zum Einsatz

kommen, die aus den Ursprungsdaten und den bereits geladenen Daten Delta-

Dateien berechnen. Für große Datenmengen, die nicht in den Hauptspeicher

passen, sind die Algorithmen hinsichtlich der Delta-Berechnung besonders an-

spruchsvoll.

Im Folgenden wollen wir das Differential-Snapshot-Problem [LGM96], wel-

ches in Abbildung 4.9 dargestellt ist, detailliert besprechen. Hierzu benutzen

wir die folgende Notation:

• Die Extrakte der Quellen ergeben die Datei F

(Snapshot n).

• Im Data Warehouse liegt der Datenbestand als Datei F

(Snapshot n − 1) vor.

• Die Dateien F stellen eine ungeordnete Menge von Records

(K, A

, . . . , A

) dar.

• Die Dateigröße beträgt f = |F |.

• Die Menge möglicher Operationen für Datenmanipulationen

ist O = {INS, DEL, UPD}.

4.3 Die Extraktionsphase 101

K4, t, r, ...

K102, p, q, ...

K104, k, k, ...

K202, a, a, ...

Dif ferential

Snapshot

Algorithmus

K3, t, r, ...

K102, p, q, ...

K103, t, h, ...

K104, k, k, ...

K202, b, b, ...

INS K3

DEL K4

INS K103

UPD K202: ...

DWH

Abbildung 4.9: Beispiel Differential Snapshot

Gesucht wird die Menge O, für die gilt O(F

) = F

. Hierbei muss beachtet

werden, dass O nicht eindeutig ist. So ist beispielsweise

= {(INS(X)), ∅, (DEL(X))} ≡ O

= {∅, ∅, ∅}.

Daher wird im Differential-Snapshot-Problem die kleinste Menge O

∗

gesucht,

die F

in F

überführt. Hierbei muss sich die Tatsache bewusst gemacht wer-

den, dass nicht alle Änderungen gefunden werden können. Im obigen Beispiel

ist O

∗

= O

, auch wenn in der Realität O

eigentlich erfolgte. Dies gilt für

verschiedene Sequenzen von Einfügungen und Löschaktionen oder für Ände-

rungen. Abbildung 4.9 verdeutlicht den Vorgang im Data-Warehouse-Kontext.

Wir wollen nun unterschiedliche Algorithmen für das Differential-Snap-

shot-Problem betrachten. Diese beleuchten wir näher mittels des folgenden ver-

einfachten Kostenmodells:

• Alle Operationen im Hauptspeicher sind kostenfrei.

• I/O zählt mit der Anzahl der Records (sequenzielles Lesen).

• Blockgrößen werden nicht betrachtet.

Der Hauptspeicher weist eine Größe von M Records auf. Die Dateigrößen sind

| = f

Records und |F

| = f

Records. Prinzipiell kann O wie folgt berechnet

werden (Differential-Snapshot-Algorithmus DS

naiv

1. Lese Record R aus F

2. Lese F

sequenziell und vergleiche mit R

• R ist nicht in F

→ O := O ∪ (DEL(R))

• R ist in F

→ O := O ∪ (UPD(R)) oder ignorieren

102 4 Extraktions-, Transformations- und Ladeprozess

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Data Warehouse Technologien by Köppen, Sattler, Saake

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly