kaufspositionen oder Lieferungen. Dabei müssen alle Änderungen in das Da-
ta Warehouse integriert werden. Auch müssen Änderungen, z.B. wenn sich
die Lieferpositionen aufgrund von Rücksendungen ändern, möglich sein. Zum
Zweiten handelt es sich um Bestandsgrößen (engl. stock). Bei diesen ist der
Zeitpunkt der Extraktion essenziell. Dieser muss definiert sein, um eine ge-
meinsame Basis für die Analysephase zu schaffen. Typische Beispiele für Be-
standsdaten sind die Mitarbeiteranzahl zum Monatsende einer Filiale oder der
Lagerbestand zum Jahresende. Die dritte Größe sind einheitsabhängige Da-
ten (engl. value per unit). Diese können von Maßeinheiten, Währungskursen
oder anderen Dimensionen abhängig sein. Beispiele hierfür sind der Aktien-
kurs eines Unternehmens zu einem gegebenen Zeitpunkt oder der Goldpreis an
einem bestimmten Börsenplatz. Für die notwendige Unterteilung siehe auch
Abschnitt 3.1.3
4.3.1 Extraktionstechniken
Um die Daten der Quellen zu extrahieren, existieren unterschiedliche Möglich-
keiten, die Daten geliefert zu bekommen. Wir gehen dabei davon aus, dass es
sich um eine reine Datenlieferung handelt. Es stehen somit Snapshots, Logs
und Netto-Logs alternativ bereit.
Ein Snapshot ist der aktuelle Datenbestand, z.B. ein neuer Lieferantenka-
talog oder eine neue Preisliste. Bei dieser Datenlieferung müssen daher Ände-
rungen (bezüglich Hinzufügen, Löschen und Aktualisierung) erkannt und die
Historie korrekt abgebildet werden. Bei Logs liefert die Quelle jede Änderung.
Hierbei kann es sich z.B. um Transaktionslogs oder ein anwendungsgesteuer-
tes Logging handeln. Ziel in der Extraktionsphase ist das effiziente Einspielen
der Änderungen in den Datenbeschaffungsbereich. Bei Netto-Logs liefern die
Quellen nur die Änderungen seit der letzten Anfrage. Hierzu zählen unter an-
derem Katalog-Updates und Snapshot-Deltas. Genauso wie bei Snapshots ist
eine komplette Historie-Abbildung im Data Warehouse nicht möglich. Analog
zum Bearbeiten der Logs ist das effiziente Laden der Daten in den Datenbe-
schaffungsbereich eine Herausforderung. Für alle Verfahren gilt, dass sie an
die Anwendung angepasst und darin etabliert werden müssen. Dies bedeutet
einen hohen Aufwand. Wenn ein Zugriff auf das Datensystem nur ohne die Mög-
lichkeit des Online-Zugriffs erfolgen kann, so kann auf Verfahren wie Batch,
Reportwriter oder Scheduling zurückgegriffen werden. Im Bereich der Nicht-
Standard-Datenbanken ohne API muss eine Programmierung (z.B. in PL-1,
COBOL, Natural oder IMS) erfolgen, um die Daten in das Data Warehouse
zu laden.
Prinzipiell ist für eine Sicherstellung der Datenqualität darauf zu achten,
ob die Semantik eindeutig ist (bei heterogenen Quellen ist diese meist ungenau
oder unklar), eine Doppelbelegung der Anwendungsdaten vorliegt oder es sich
um sprechende Schlüssel handelt (also Schlüssel, die zusätzlich Informationen
100 4 Extraktions-, Transformations- und Ladeprozess

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.