Item frequente Itemsets
Erfurter Bock (MT,Erfurter Bock)
Anhaltinisch Flüssig (Dornfelder, Anhaltinisch Flüssig)
Dornfelder (MT, Dornfelder)
Tabelle 9.5: Ergebnis des FP-Baum-Mining
gung ist erreicht, wenn der übergebene Baum nur aus einem Pfad besteht. An-
dernfalls muss der Baum traversiert werden (von den Blattknoten zur Wurzel)
und dabei zwei Strukturen angelegt werden. Zum einen die Musterbasis, d.h.
das Item und alle Elemente, die als Vorgängerknoten im Baum existieren. Zum
anderen der neue reduzierte Baum für das entsprechende Item i. In Tabelle 9.4
sind die Musterbasis (engl. conditional pattern base) und der reduzierte Baum
(engl. conditional frequent pattern tree) für die erste Rekursionsebene ange-
geben. Sollte der reduzierte Baum nicht leer sein, wird der Algorithmus 9.4
erneut aufgerufen, dieses Mal mit dem Item, inklusive allen Vorgängern als
Itemset und dem reduzierten Baum.
Das Ergebnis des Mining-Algorithmus haben wir in Tabelle 9.5 dargestellt.
Für den Erfurter Bock ergibt sich die Kombination aus Müller-Thurgau und Er-
furter Bock als Regel. Hier muss noch eine Berechnung der Confidence erfolgen,
um einen Vergleich zum Apriori-Algorithmus durchführen zu können. Für die
anderen Items ergeben sich die Regeln analog.
Mit dem Apriori-Algorithmus und dem FP-Growth-Algorithmus haben wir
zwei Verfahren präsentiert, die für die Identifikation von Regeln in Datenbe-
ständen genutzt werden können. Häufigstes Anwendungsgebiet ist dabei die
Warenkorbanalyse, aber auch Alternativen, z.B. wann werden bestimmte Ak-
tionen gemeinsam durchgeführt, können durch die Assoziationsverfahren auf-
gedeckt werden. Dies kann in den unterschiedlichen Bereichen von Unterneh-
men genutzt werden. Im Folgenden wollen wir eine weitere Thematik vorstel-
len, die für die Aufdeckung von Zusammenhängen genutzt werden kann, ohne
dass ein Vorwissen um die Zugehörigkeit existiert.
9.3.2 Kunden-Clustering
Im Bereich des Marketings oder des Verkaufs kommt es oftmals vor, dass spe-
zielle Kunden über besondere Preis- oder Produktgestaltungen informiert wer-
den sollen. Hierzu ist es notwendig, diese Kunden zu identifizieren. Dabei wer-
den aus den CRM-Systemen, den Verkaufsdatenbanken (z.B. durch Nutzung
von Kundenkarten) und weiteren zur Verfügung stehenden Informationen über
die Kunden Gruppen, sogenannte Cluster, gebildet. Dabei stellen Objekte eines
Clusters eine große Ähnlichkeit dar und Objekte in verschiedenen Segmenten
sollen große Unterschiede aufweisen. So können über ihre Eigenschaften leich-
9.3 Data Mining im BI-Umfeld 289
ter Kunden identifiziert werden, die auf eine Maßnahme des Unternehmens mit
einer höheren Erfolgswahrscheinlichkeit reagieren werden. Aber auch in ande-
ren Branchen wie den Versicherungsunternehmen oder Banken wird versucht,
Kundensegmente zu identifizieren, um den Erfolg des Geschäftes zu optimie-
ren.
Clusterverfahren stellen hier ein Data-Mining-Verfahren dar, um die Iden-
tifikation einer endlichen Menge von Gruppen in den Daten zu ermöglichen
es ist die Suche nach einer Partitionierung des Datenraumes. Es wird dabei
zeitgleich versucht, eine Ähnlichkeit innerhalb einer Gruppe möglichst hoch
zu setzen und zwischen verschiedenen Gruppen eine große Verschiedenheit zu
erreichen. Abbildung 9.11 zeigt typische Muster, also eine Variation der Grö-
ße und Form sowie der Verteilung der Daten. In diesem Beispiel sind die Daten
zweidimensional repräsentiert, Clusterverfahren können jedoch auch mit hoch-
dimensionalen Daten umgehen.
Abbildung 9.11: Clustermuster unterschiedlicher Größe, Form und Dichte
Ein elementarer Bestandteil für die Clusteranalyse ist folglich das Ähnlich-
keitsmaß. Wir bezeichnen ein Maß sim(x, y) als das Ähnlichkeitsmaß zwischen
den Objekten x und y, wenn gilt:
s(x, x) = s(y, y) = 1 (Identität),
s(x, x) s(y, x) (Minimalität),
290 9 Business-Intelligence-Anwendungen

Get Data Warehouse Technologien now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.