Bei einer naiven Auswertung der obigen Anfrage müsste die gesamte Fak-
tentabelle (plus die Dimensionstabellen) vom Externspeicher gelesen werden.
Bei einer angenommenen Transferrate von 80 MB/s würde dies 23.296 Sekun-
den oder fast 6,5 Stunden erfordern! Mit RAID5 (Striping auf Blockebene, sie-
he auch [SSH11]) ließe sich diese Zeit halbieren und mit RAID10 (RAID0 über
mehrere RAID1, d.h. insgesamt mindestens 4 Festplatten) vierteln – allerdings
wären dies immer noch 1,6 Stunden, was für eine Antwortzeit zu einer Ad-hoc-
Anfrage inakzeptabel ist.
Berücksichtigt man die Restriktionen über die Dimensionen, so bedeutet
dies im Einzelnen
1,5
5
der Artikel in der Produkt-Dimension,
2
10
der Verkaufstage in der Zeit-Dimension und
2
16
aller Orte in der Ort-Dimension
müssen betrachtet werden. Unter Annahme der Gleichverteilung sind damit
nur noch
3
10
·
2
10
·
2
16
u 0,75%
der Datensätze zu verarbeiten. Dies wären ca. 13,6 GB, was für die obigen Fest-
platten immer noch zwischen 174 und 43 Sekunden erfordern würde.
Daher werden wir im Folgenden, sowie im Kapitel 8, neben Anfragekon-
strukten und -operatoren auch Techniken zur effizienten Auswertung von An-
fragen an Data Warehouses vorstellen, welche diese Herausforderungen adres-
sieren.
5.2 OLAP-Operationen
Das in Kapitel 3 eingeführte Datenwürfelmodell ist nicht nur zur Modellierung
der Daten eines Data Warehouse geeignet, sondern bildet auch die Basis für die
Definition von Operatoren zur multidimensionalen Analyse. Diese Operatoren
lassen sich in vier Gruppen einordnen:
die Pivotierung bzw. die Rotation des Würfels (PIVOT oder ROTATE),
die Navigation entlang der Hierarchien (DRILL DOWN und ROLL UP),
Wechsel zwischen Datenwürfeln (DRILL ACROSS),
die Bildung von Teilmengen (SLICE und DICE).
5.2 OLAP-Operationen 125
Die erste Gruppe von Operationen dient der einfachen Analyse der Daten aus
unterschiedlichen Perspektiven. So lassen sich durch das Drehen des Würfels
die (etwa in einem Report sichtbaren) Dimensionen vertauschen. Abbildung 5.1
demonstriert die PIVOT-Operation am Beispiel unseres Datenwürfels: Ausge-
hend von einer Sicht auf die Verkaufszahlen in den einzelnen Bundesländern
in den betrachteten Jahren, wird der Würfel so rotiert, dass die Verkaufszahlen
pro Produkt angezeigt werden.
Produkt
Ort
Zeit
Bier
Wein
Softdrink
Thüringen
Sachsen-
Anhalt
Bayern
2009
2010
2011
Produkt
Ort
Zeit
Bier
Wein
2009
Thüringen
Sachsen-
Anhalt
Bayern
2011
2010
Softdrink
Abbildung 5.1: Die Operation PIVOT
DRILL DOWN und ROLL UP ermöglichen das Wechseln der Hierarchieebenen
einer Dimension sowie die Auswahl verschiedener Aggregationsebenen, wobei
die Dimensionalität erhalten bleibt. DRILL DOWN dient dabei dem „Hineinnavi-
gieren“ in den Würfel entlang der Klassifikationshierarchie, indem die aggre-
gierten Darstellungen auf ein feineres Granulat einer Dimension herunterge-
brochen werden. Typische Beispiele sind der Übergang von der Jahresebene auf
die Quartalsdarstellung der Zeitdimension (wie in Abbildung 5.2 dargestellt)
oder von der Ebene der Bundesländer auf die Städte oder Filialen. Die Grenzen
der Navigation werden dabei durch die verfügbaren (d.h. gespeicherten) Detail-
daten gebildet.
Die dazu inverse Operation ist ROLL UP, bei der entlang der Hierarchie aus
dem Würfel „herausnavigiert“ wird. Dies entspricht einer Aggregation der Da-
ten einer Ebene, z.B. Quartalszahlen zu Jahreszahlen (Abbildung 5.2).
Werden verschiedene Kennzahlen durch unterschiedliche Würfel model-
liert, kann durch die DRILL ACROSS-Operation zwischen diesen Würfeln hin und
her gesprungen werden. Hierbei bleiben die ausgewählten Dimensionen und
Hierarchieebenen erhalten.
Schließlich erlauben die Operatoren SLICE und DICE die Bildung von Sub-
sets des Datenwürfels und damit die Erstellung individueller Sichten. Hierbei
wird mit SLICE eine „Scheibe“ aus dem Würfel geschnitten, indem für eine der
Dimensionen ein Wert ausgewählt wird. Damit verringert sich natürlich die
126 5 Anfragen an Data-Warehouse-Datenbanken
Produkt
Ort
Zeit
Bier
Wein
Softdrink
Thüringen
Sachsen-
Anhalt
Bayern
2009
2010
2011
Produkt
Ort
Zeit
Bier
Wein
Softdrink
Thüringen
Sachsen-
Anhalt
Bayern
Q1
Q2
Q3
Q4
2009
2010
2011
...
Drill Down
Roll Up
Abbildung 5.2: Die Operationen DRILL DOWN und ROLL UP
Dimensionalität des Ergebniswürfels. In Abbildung 5.3 ist dies am Beispiel der
Beschränkung auf ein Produkt dargestellt.
Produkt
Ort
Zeit
Bier
Wein
Softdrink
Thüringen
Sachsen-
Anhalt
Bayern
2009
2010
2011
Produkt
Ort
Zeit
Bier
Wein
Softdrink
Thüringen
Sachsen-
Anhalt
Bayern
2009
2010
2011
Abbildung 5.3: Die Operation SLICE
DICE
1
kann als das Herausschneiden eines „Teilwürfels“ verstanden wer-
den. Hierzu werden SLICE-Operationen in mehreren Dimensionen durchge-
führt, sodass insgesamt die Dimensionalität erhalten bleibt. Abbildung 5.4 il-
lustriert diese Operation für die Beschränkung auf die Verkaufszahlen ausge-
wählter Regionen und Produkte für die Jahre 2010 und 2011.
Die beschriebenen Operationen lassen sich ähnlich wie die Operatoren der
Relationenalgebra beliebig kombinieren, da das Ergebnis jeder Operation auf
einem Datenwürfel wiederum ein Datenwürfel ist.
1
Das englische Wort dice bedeutet „würfeln“ im Sinne von „in Würfel schneiden“.
5.2 OLAP-Operationen 127

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.