ment CREATE TABLE AS SELECT zur Verfügung, mit dem neben dem parallelen
Beladen von Tabellen auch eine Reorganisation der Tabellen, z.B. mittels In-
dexstruktur oder Sortierung, möglich ist. Ebenfalls ist es in den Optionen des
Statements möglich, das Logging auszuschalten, was die Bearbeitung der Ta-
bellendaten drastisch reduzieren kann. Die Syntax des Befehls lautet:
CREATE TABLE Neu
TABLESPACE Neuer
_
Tablespace
_
Name
STORAGE (initial Neuer
_
Initialwert
next Neuer
_
next
freelists Neue
_
Freilistennummer )
AS
SELECT
*
FROM quelle
ORDER BY primary
_
index
_
key
_
werten;
4.7 Vertiefende Literatur
Aufgrund der Komplexität des ETL-Prozesses und der notwendigen Betrach-
tungen für die speziellen Anwendungsdomänen existiert eine Vielzahl von Bü-
chern und Artikeln zur Thematik. Wir werden im Folgenden daher nur auf
einzelne ausgewählte Arbeiten eingehen.
Der Themenbereich Datenqualität im Kontext des Data Warehouse ist sehr
groß. Einen guten Überblick in die Thematik Informationsintegration liefern
Leser und Naumann [LN06]. Für einen umfassenden Überblick zu Datenquali-
tät, den betrachteten Dimensionen, Modellen und Vorgehensweisen bietet sich
ebenfalls das Buch von Batini und Scannapieco [BS06] an. Einen Überblick zur
Duplikaterkennung findet sich in [NH10]. Das Data Matching unterteilt Chris-
ten [Chr12] in die Bereiche des Record Linkage, der Entity Resolution und der
Duplikaterkennung, wobei er Techniken und Tools
1
4
r den Data Matching
Prozess vorstellt. Einen Überblick zu den Herausforderungen der Datenquali-
tät wird in [Sad13] gegeben. Hier werden unter anderem die organisatorischen
und technischen Besonderheiten dargestellt.
Datenintegration im Data Warehouse steht im Fokus von Kimballs
Buch [KC04] zum ETL-Prozess, auch wenn hier vorgeschlagen wird, diesen
Prozess eher in Extraktion, Datenbereinigung, Anpassung und Datenlieferung
zu unterteilen. Eine Übersicht über Datenintegration liefert auch der Artikel
von Halevy et al. [HRO06]. Herangehensweisen für die Auflösung von Schema-
konflikten wird beispielsweise in [KCGS93] dargestellt. Die dort vorgestellten
Methoden für Multidatenbanksysteme gelten auch im Data Warehouse. Einen
weiteren guten Übersichtsartikel zum Thema Umgang mit einer heterogenen
Modelllandschaft stellt [BM07] dar.
4.7 Vertiefende Literatur 119

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.