Input : Trainingsdatensätze T
Result : Entscheidungsbaum E
1 foreach Datensatz D T do
2 E.root.add(D);
3 end
4 while Splitattribut vorhanden und Knoten N E mit Datensätzen
unterschiedlicher Klassen do
5 Splitattribut SplitAtt chooseSplitAttribut(N,Splitstrategie);
6 foreach Ausprägung A SplitAtt do
7 Node newNode new Node;
8 foreach Datensatz D N do
9 if D.SplitAtt = A then
10 newNode.add(D);
11 end
12 end
13 N.addChild(newNode);
14 end
15 end
16 return E;
Algorithmus 9.6: Aufbau eines Entscheidungsbaumes (T )
Pfade von Elternknoten zum Kindknoten erfolgen über disjunkte Wertausprä-
gungen des Attributs im Elternknoten.
Während für den Entscheidungsbaum nominale Ausprägungen der Klas-
senzugehörigkeit notwendig sind, können auch metrische Daten als Beschrei-
bung für die Klassifikation genutzt werden. In diesem Fall sprechen wir von
Zeitreihenanalysen bzw. Prognosemodellen. Beide Verfahren weisen die Ge-
meinsamkeit auf, dass sie Daten mit bekannten Klassifikationen besitzen müs-
sen. Um ein überprüfbares Modell zu erhalten, müssen diese Daten dann auf-
geteilt werden, in die Lerndaten und die Testdaten. Das Klassifikationsmodell
wird mittels Lerndaten parametrisiert und diese Parameter werden anschlie-
ßend anhand der Testdaten auf ihre Güte hin überprüft.
9.3.4 Zeitreihenanalyse & Prognose
Im folgenden Abschnitt wollen wir uns einer der Klassifikation ähnlichen Data-
Mining-Methode widmen. Für die Vorhersage von Zeitreihenelementen werden
Techniken genutzt, um über zukünftige Entwicklungen und Zustände bzw. Er-
eignisse eine Aussage treffen zu können. So sind für Unternehmen beispielswei-
se Absatzprognosen oder Nachfragen von Interesse. Für unser Beispiel des Ver-
9.3 Data Mining im BI-Umfeld 297
kaufsladens sind Nachfrageprognosen der Kunden bezüglich bestimmter Pro-
dukte notwendig, um eine optimale Bestellpolitik zu erzielen. Abbildung 9.15
stellt das Prognoseproblem grafisch dar (vergleiche hierzu auch [Göt00]).
2000
4000
6000
8000
10000
12000
14000
0
Monatlicher Bierabsatz
khl
lfd. Monat
Absatzentwicklung je Monat
2000
4000
6000
8000
10000
12000
14000
0
khl
Januar
Februar
März
April
November
Dezember
September
Oktober
Juli
August
Mai
Juni
1974 1976 1978 1980 1982 1984 1986 1988
Jan Feb Mär Apr Mai Jun Jul Aug Sept Okt Nov Dez
1974
2000
4000
6000
8000
10000
12000
14000
0
khl
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1 1839145 136
19821977 1979 1981 1984 1986 1987 1988 19891974 1975 1976 1978 1980 1983 1985
4646
2363
3279 4021 6236 6771 7386 7034 71502339 1638 2101 2697 3438 4811 6770
46462700 3561 4570 6582 7237 6279 7449 85251588 1798 2307 3388 4044 5896 7881
58682794 4343 4461 8029 8335 8370 8569 95301800 2235 2281 3609 4584 7426 8290
63463371 4103 4771 7661 8966 8356
10320
1858 2827 3570 4536 7076 8720
68573303 4749 5383 8471 11709 11318 103402001
2479
2713 3783 5711 7749 9813
66023555 4711 4843 9103 9402 8964 106412169 1988 3083 4163 6225 8293 9913
82954364 5661 5504 10198 11799 11119 111002911 2804 3657 4405 5609 9183 9847
72784198 5503 5633 10725 11147 11113 104743414 2820 3872 4890 5860 9496 10196
68293547 4494 5360 8785 8645 8783 104272077 2666 3149 4206 4800 8620 8546
62693491 4595 5297 7994 9615 10397 103292184 2494 2773 3923 5256 8237 9613
58143246 4740 4546 7929 7765 7672
8677
1913 2308 2382 3893 4576 6919 8038
56863102 4179 4733 7527 7948 8202 86511809 2212 2798 3543 4330 6721 7217
2481
Monatlicher Tankbierabsatz einer Brauerei (khl)
Abbildung 9.15: Beispiel für Prognose
Ausgangspunkt stellen historische Daten dar, wie sie im Data Warehouse
vorliegen. Anhand dieser Daten werden Vorhersagen über zukünftige Absatz-
mengen getroffen. Aufgrund der Struktur müssen dabei sowohl der Trend als
auch saisonale Effekte berücksichtigt werden. Formalisiert lässt sich das Pro-
blem darstellen als:
Historische Daten (x
t
1
, x
t
2
, . . . , x
t
n
) gegeben als Zeitreihe (äquidistant ver-
teilt).
Diese Daten werden als Realisationen eines stochastischen Prozesses auf-
gefasst.
Modell als Vorinformation.
univariater Fall: X
t
= f(X
t1
, X
t2
, . . . , X
0
)+e
t
mit e
t
als Restkomponente,
die nicht erklärt wird.
multivariater Fall: Z
t
= g(X
t1
, X
t2
, . . . , X
0
, Y
t1
, Y
t2
, . . . , Y
0
, . . .) + e
t
.
Zeitreihenmodelle können dabei unterteilt werden in:
298 9 Business-Intelligence-Anwendungen

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.