Data Warehouse Technologien

Input : Trainingsdatensätze T

Result : Entscheidungsbaum E

1 foreach Datensatz D ∈ T do

2 E.root.add(D);

3 end

4 while Splitattribut vorhanden und ∃ Knoten N ∈ E mit Datensätzen

unterschiedlicher Klassen do

5 Splitattribut SplitAtt ← chooseSplitAttribut(N,Splitstrategie);

6 foreach Ausprägung A ∈ SplitAtt do

7 Node newNode ← new Node;

8 foreach Datensatz D ∈ N do

9 if D.SplitAtt = A then

10 newNode.add(D);

11 end

12 end

13 N.addChild(newNode);

14 end

15 end

16 return E;

Algorithmus 9.6: Aufbau eines Entscheidungsbaumes (T )

Pfade von Elternknoten zum Kindknoten erfolgen über disjunkte Wertausprä-

gungen des Attributs im Elternknoten.

Während für den Entscheidungsbaum nominale Ausprägungen der Klas-

senzugehörigkeit notwendig sind, können auch metrische Daten als Beschrei-

bung für die Klassiﬁkation genutzt werden. In diesem Fall sprechen wir von

Zeitreihenanalysen bzw. Prognosemodellen. Beide Verfahren weisen die Ge-

meinsamkeit auf, dass sie Daten mit bekannten Klassiﬁkationen besitzen müs-

sen. Um ein überprüfbares Modell zu erhalten, müssen diese Daten dann auf-

geteilt werden, in die Lerndaten und die Testdaten. Das Klassiﬁkationsmodell

wird mittels Lerndaten parametrisiert und diese Parameter werden anschlie-

ßend anhand der Testdaten auf ihre Güte hin überprüft.

9.3.4 Zeitreihenanalyse & Prognose

Im folgenden Abschnitt wollen wir uns einer der Klassiﬁkation ähnlichen Data-

Mining-Methode widmen. Für die Vorhersage von Zeitreihenelementen werden

Techniken genutzt, um über zukünftige Entwicklungen und Zustände bzw. Er-

eignisse eine Aussage treffen zu können. So sind für Unternehmen beispielswei-

se Absatzprognosen oder Nachfragen von Interesse. Für unser Beispiel des Ver-

9.3 Data Mining im BI-Umfeld 297

kaufsladens sind Nachfrageprognosen der Kunden bezüglich bestimmter Pro-

dukte notwendig, um eine optimale Bestellpolitik zu erzielen. Abbildung 9.15

stellt das Prognoseproblem graﬁsch dar (vergleiche hierzu auch [Göt00]).

2000

4000

6000

8000

10000

12000

14000

Monatlicher Bierabsatz

khl

lfd. Monat

Absatzentwicklung je Monat

2000

4000

6000

8000

10000

12000

14000

khl

Januar

Februar

März

April

November

Dezember

September

Oktober

Juli

August

Mai

Juni

1974 1976 1978 1980 1982 1984 1986 1988

Jan Feb Mär Apr Mai Jun Jul Aug Sept Okt Nov Dez

1974

2000

4000

6000

8000

10000

12000

14000

khl

1975

1976

1977

1978

1979

1980

1981

1982

1983

1984

1985

1986

1987

1988

1989

1 1839145 136

19821977 1979 1981 1984 1986 1987 1988 19891974 1975 1976 1978 1980 1983 1985

4646

2363

3279 4021 6236 6771 7386 7034 71502339 1638 2101 2697 3438 4811 6770

46462700 3561 4570 6582 7237 6279 7449 85251588 1798 2307 3388 4044 5896 7881

58682794 4343 4461 8029 8335 8370 8569 95301800 2235 2281 3609 4584 7426 8290

63463371 4103 4771 7661 8966 8356

10320

1858 2827 3570 4536 7076 8720

68573303 4749 5383 8471 11709 11318 103402001

2479

2713 3783 5711 7749 9813

66023555 4711 4843 9103 9402 8964 106412169 1988 3083 4163 6225 8293 9913

82954364 5661 5504 10198 11799 11119 111002911 2804 3657 4405 5609 9183 9847

72784198 5503 5633 10725 11147 11113 104743414 2820 3872 4890 5860 9496 10196

68293547 4494 5360 8785 8645 8783 104272077 2666 3149 4206 4800 8620 8546

62693491 4595 5297 7994 9615 10397 103292184 2494 2773 3923 5256 8237 9613

58143246 4740 4546 7929 7765 7672

8677

1913 2308 2382 3893 4576 6919 8038

56863102 4179 4733 7527 7948 8202 86511809 2212 2798 3543 4330 6721 7217

2481

Monatlicher Tankbierabsatz einer Brauerei (khl)

Abbildung 9.15: Beispiel für Prognose

Ausgangspunkt stellen historische Daten dar, wie sie im Data Warehouse

vorliegen. Anhand dieser Daten werden Vorhersagen über zukünftige Absatz-

mengen getroffen. Aufgrund der Struktur müssen dabei sowohl der Trend als

auch saisonale Effekte berücksichtigt werden. Formalisiert lässt sich das Pro-

blem darstellen als:

• Historische Daten (x

, x

, . . . , x

) gegeben als Zeitreihe (äquidistant ver-

teilt).

Diese Daten werden als Realisationen eines stochastischen Prozesses auf-

gefasst.

• Modell als Vorinformation.

univariater Fall: X

= f(X

t−1

, X

t−2

, . . . , X

)+e

mit e

als Restkomponente,

die nicht erklärt wird.

multivariater Fall: Z

= g(X

t−1

, X

t−2

, . . . , X

, Y

t−1

, Y

t−2

, . . . , Y

, . . .) + e

Zeitreihenmodelle können dabei unterteilt werden in:

298 9 Business-Intelligence-Anwendungen

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Data Warehouse Technologien by Köppen, Sattler, Saake

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly