Data Warehouse Technologien

kaufspositionen oder Lieferungen. Dabei müssen alle Änderungen in das Da-

ta Warehouse integriert werden. Auch müssen Änderungen, z.B. wenn sich

die Lieferpositionen aufgrund von Rücksendungen ändern, möglich sein. Zum

Zweiten handelt es sich um Bestandsgrößen (engl. stock). Bei diesen ist der

Zeitpunkt der Extraktion essenziell. Dieser muss deﬁniert sein, um eine ge-

meinsame Basis für die Analysephase zu schaffen. Typische Beispiele für Be-

standsdaten sind die Mitarbeiteranzahl zum Monatsende einer Filiale oder der

Lagerbestand zum Jahresende. Die dritte Größe sind einheitsabhängige Da-

ten (engl. value per unit). Diese können von Maßeinheiten, Währungskursen

oder anderen Dimensionen abhängig sein. Beispiele hierfür sind der Aktien-

kurs eines Unternehmens zu einem gegebenen Zeitpunkt oder der Goldpreis an

einem bestimmten Börsenplatz. Für die notwendige Unterteilung siehe auch

Abschnitt 3.1.3

4.3.1 Extraktionstechniken

Um die Daten der Quellen zu extrahieren, existieren unterschiedliche Möglich-

keiten, die Daten geliefert zu bekommen. Wir gehen dabei davon aus, dass es

sich um eine reine Datenlieferung handelt. Es stehen somit Snapshots, Logs

und Netto-Logs alternativ bereit.

Ein Snapshot ist der aktuelle Datenbestand, z.B. ein neuer Lieferantenka-

talog oder eine neue Preisliste. Bei dieser Datenlieferung müssen daher Ände-

rungen (bezüglich Hinzufügen, Löschen und Aktualisierung) erkannt und die

Historie korrekt abgebildet werden. Bei Logs liefert die Quelle jede Änderung.

Hierbei kann es sich z.B. um Transaktionslogs oder ein anwendungsgesteuer-

tes Logging handeln. Ziel in der Extraktionsphase ist das efﬁziente Einspielen

der Änderungen in den Datenbeschaffungsbereich. Bei Netto-Logs liefern die

Quellen nur die Änderungen seit der letzten Anfrage. Hierzu zählen unter an-

derem Katalog-Updates und Snapshot-Deltas. Genauso wie bei Snapshots ist

eine komplette Historie-Abbildung im Data Warehouse nicht möglich. Analog

zum Bearbeiten der Logs ist das efﬁziente Laden der Daten in den Datenbe-

schaffungsbereich eine Herausforderung. Für alle Verfahren gilt, dass sie an

die Anwendung angepasst und darin etabliert werden müssen. Dies bedeutet

einen hohen Aufwand. Wenn ein Zugriff auf das Datensystem nur ohne die Mög-

lichkeit des Online-Zugriffs erfolgen kann, so kann auf Verfahren wie Batch,

Reportwriter oder Scheduling zurückgegriffen werden. Im Bereich der Nicht-

Standard-Datenbanken ohne API muss eine Programmierung (z.B. in PL-1,

COBOL, Natural oder IMS) erfolgen, um die Daten in das Data Warehouse

zu laden.

Prinzipiell ist für eine Sicherstellung der Datenqualität darauf zu achten,

ob die Semantik eindeutig ist (bei heterogenen Quellen ist diese meist ungenau

oder unklar), eine Doppelbelegung der Anwendungsdaten vorliegt oder es sich

um sprechende Schlüssel handelt (also Schlüssel, die zusätzlich Informationen

100 4 Extraktions-, Transformations- und Ladeprozess

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Data Warehouse Technologien by Köppen, Sattler, Saake

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly