PG 402 Wissensmanagment Lehrstuhl für Künstliche Intelligenz

Zoulfa El Jerroudi

Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung

von redundanten und missverständlichen Regeln

PG 402 Wissensmanagment

Lehrstuhl für Künstliche Intelligenz

Prof. Katarina Morik und Stefan Haustein

7. Mai 2001

Algorithmen zur Entdeckung von Assoziationsregeln unter Vermeidung von redundanten und mißverständlichen Regeln

2Zoulfa El Jerroudi

Gliederung

• Problemdarstellung• Nachteile von Support und Konfidenzwert• Eigenschaften für ein Genauigkeitsmaß• Sicherheitsfaktor• Lösungsmöglichkeiten zur Vermeidung von

redundanten Regeln• Eine Implementierung von Apriori• Zusammenfassung und Ausblick


3Zoulfa El Jerroudi

Problemdarstellung

Assoziationsregeln drücken Regelmäßigkeiten zwischen Objekten in einer Datenbank aus

Das Problem der Entdeckung von Assoziationsregeln wurde 1993 von Agrawal, Imielinski und Swami eingeführt. In: Mining association rules between sets of items in large databases


4Zoulfa El Jerroudi

Assoziationsregeln – Eine Übersicht

• Es sei D eine Menge von Transaktionen, wobei jede Transaktion T eine Menge von Obj. (Items) aus I={i1,

i2, ...,in} ist. Also T ⊆ I.

• Eine Assoziationsregel ist eine Implikation der Form A => B, wobei A, B ⊆ I und A B = Ø ist.

• Die Regel A => B hat den Konfidenzwert c, wenn c% der Trans. in D, die A enthalten auch B enthalten

• Die Regel A => B hat den Support s, wenn s% der Trans. in D, A vereinigt B enthalten


5Zoulfa El Jerroudi

Die Aufgabe

Bei einer gegebenen Transaktionsmenge D, besteht die Aufgabe der Entdeckung der Assoziationsregeln darin, alle Regeln abzuleiten, die einen Support und Konfidenzwert haben, der größer ist als der vom Benutzer eingegebner minimaler Support bzw. minimaler Konfidenzwert ist.


6Zoulfa El Jerroudi

2 Phasen zur Entdeckung von Assoziationsregeln

• Die Aufgabe der Entdeckung von Assoziationsregeln wird in 2 Phasen unterteilt:1. Finde alle Kombinationen von Obj., für die gilt

support > minsup. Diese Kombinationen werden große Objektmengen genannt.

2. Benutze die großen Objektmengen (frequent itemset) um die Regeln abzuleiten.Dazu wird für jede große Objektmenge X, jede ihrer Teilmenge als Beh. (A) gewählt u. die verbleibenden Obj. als Folgerung (B). Danach wird der Konfidenzwert berechnet und die Regel wird verworfen, falls ihr Konfidenzwert < minconf Ist.


7Zoulfa El Jerroudi

Nachteile von Support und Konfidenzwert1.Beispiel

Nachteile von Support und Konfidenzwert wurden von Motwani u. Ullman, von Daniel Sánchez u. Silversten untersucht.

Folgendes Beispiel ist aus: Dynamic itemset counting and implication rules from market basket data von S. Brin, R. Motwani, J.D. Ullman, and S. Tsur. SIGMOD Record, 26(2):255-264, 1997

In der Datenbank CENSUS hat d. Regel: Aktive militärische Vergangenheit => kein Dienst in Vietnam einen Konfidenzwert 90%. Man beachte aber: Objektmenge {keinen Dienst in Vietnam} hat einen Support von 95%.

Also: Wahrscheinlichkeit, dass eine Person nicht in Vietnam gedient hat, fällt von 95% auf 90%, wenn wir wissen, das sie aktiven militärischen Dienst geleistet hat.

Diese Regel ist irreführend.


8Zoulfa El Jerroudi

Nachteile von Support und Konfidenzwert2. Beispiel

M. S. Chen, J. Han und P.s. Yu. Data Mining: An Overview from a Database Perspective. IEEE Transactions on Knowledge and Data engineering, 8(6): 866-883, 1996

Frühstücksflocken-Hersteller führt Umfrage mit 5000 Schülern durch. Die Umfrage ergab: 60% spielen Basketball, 75% essen Cornflakes und 40% essen Cornflakes und spielen Basketball.Angenommen auf den Daten wird Apriori angewannt. Der min. Support der Schüler sei 2000 und der Konfidenzwert sei 60%.Es würde folgende Assoziationsregel abgeleitet werden:Basketball spielen => Cornflakes essen (Konfidenzwert 66%)Aber: In Wirklichkeit ist d. Anzahl der Schüler die Cornflakes essen ist viel höher (75%). Basketball spielen und Cornflakes essen beeinflussen sich also negativ.


9Zoulfa El Jerroudi

Nachteile von Support und Konfidenzwert3. Beispiel

Folgendes Beispiel zeigt, dass viele überflüssige Regeln ableitet werden können.

Aus: A new Framework to Assess Assosiation Rules. F. Berzal, I. Blanco, D. Sánchez und Maria-Amparo Vila

Sei T eine Menge von Transaktionen. R eine daraus abgeleitete Regelmenge. Ein Obj. i wird in (fast) allen Transaktionen hinzugefügt => Obj. i hat hohen Support.Wenn wir i in jeder Regel zu der Folgerung hinzufügen, ändern sich Support und Konf. nicht. Genauso, wenn wir das Obj. i in die Behauptung einfügen. So erhalten wir 3 x soviele Regeln.Da das Obj. i (fast) immer vorkommt, kann aus jeder Teilmenge das Obj. i gefolgert werden.


10Zoulfa El Jerroudi

Eigenschaften für ein Genauigkeitsmaß

Piatetsky-Shapiro hat in: Discovery, analysis and presentation of strong rules gezeigt, dass jedes Genauigkeitsmaß ACC für eine Assoziationsregel folgende Eigenschaften erfüllen muss, um die starken Regeln von den schwachen zu trennen.

P1: ACC(A => C) = 0, wenn Supp(A => B) = supp(A) supp(C) Diese Eigenschaft geht davon aus, dass jedes Genauigkeitsmaß die Unabhängigkeit testen muss.

P2: ACC(A => C) wächst monoton mit Supp(A => C), wenn die anderen Parameter gleich bleiben.

P3: ACC(A => C) fällt monoton mit supp(A) (oder mit supp(C), wenn die anderen Parameter gleich bleiben.



Erfüllt der Konfidenzwert diese Eigenschaften?

Der Konfidenzwert erfüllt die Eigenschaft P1 nicht.Der Konfidenzwert erfüllt die Eigenschaft P2.Die Eigenschaft P3 erfüllt er nur für supp(A)

Zusammenfassend: Der Konfidenzwert kann weder statistische Unabhängigkeit noch neg. Abhängigkeit entdecken (siehe Beispiel), weil in seiner Def. der Support der Beh. Nicht in Betracht gezogen wird.Conf(A =>C) = supp( A C)/supp(A) = supp( A => C)/supp(A)Da supp(A =>C)= supp(A C)



Sicherheitsfaktor (certainty factor)Shortliffe und Buchanan führten in: A model of inexact reasoning in medicine(1975) den Sicherheitsfakor ein, der den Konfidenzwert als Genauigkeitsmaß ersetzt.

Def: Der Sicherheitsfakor einer Regel aus A => C hat den Wert:

CCF(A =>C ) = Conf(A => C) – supp(C)

1 –supp(C) wenn Conf(A => C) > supp(C), und

CCF(A =>C ) = Conf(A => C) – supp(C)

supp(C) wenn Conf(A => C) < supp(C) und 0 sonst.Der Sicherheitsfaktor erfüllt alle 3 Eigenschaften eines Genauigkeitsmaß



Lösungsmöglichkeiten für die Nachteile eines Obj. mit hohem Support (1.Teil)

• Obj. Mit sehr hohem Support führen zu sehr vielen, nicht aussagekräftigen Regeln (s. Beispiel)

• 1. Lösung: Grenzwert für den Support, der nicht überschritten werden darf. Nachteil: Benutzer muss diesen Wert angeben.

• 2. Lösung: Konzept der sehr starken Regeln

Def.: Eine Regel A => C heißt stark, wenn ihr Support und ihr Sicherheitsfaktor (certainty factor) größer sind, als die vom ´Benutzer eingegebene Grenzwerte

Def.: Eine Regel aus A => C heißt sehr stark, wenn sowohl A => C als auch ¬C => ¬A starke Regeln sind.



Lösungsmöglichkeiten für die Nachteile eines Obj. mit hohem Support (2.Teil)

• Mit dieser Def. Kann man das Problem von Obj., die in fast allen Trans. Auftauchen, lösen. Da, falls supp(C) (oder supp(A)) sehr hoch ist, dann ist supp(¬C => ¬A) sehr niedrig und die Regel ¬C => ¬A nicht stark und somit A => C nicht sehr stark.

• D.h es müssen nur folgende Bed. Getestet werden.

1. Support

(a) Supp(A => C) > minsupp

(b) Supp(¬C => ¬A) > minsupp

2. Certainty factor

(a) CF(A => C) > minCF

(b) CF(¬C => ¬A) > minCF



Implementierung des Apriori-Algorithmus

In: ARtool v1.1.2- Association Rule Mining Algorithms and Tools

Von: Laurentiu Cristofor

Der Closure Algorithmus wurde eingeführt in:

Fast Algorithms for Mining Association Rules, by Rakesh Agrawal and Ramakrishnan Srikant, IBM Almaden Research Center Technical Report RJ9839, 1994.

The FPgrowth Algorithmus wurde eingeführt in:

Galois Connections and Data Mining, by Dana Cristofor, Laurentiu Cristofor, and Dan A. Simovici, published in the Journal of Universal Computer Science, vol. 6, no. 1, 2000, pages 60-73.

The CoverRules algorithm comes from:

Mining Frequent Patterns without Candidate Generation, by Jiawei Han, Jian Pei and Yiwen Yin, published in Proceedings of ACM-SIGMOD International Conference on Management of Data, 2000, pages 1-12.



Die Oberfläche



große Objektmengen (frequent itemset)



Assoziationsregeln



Dateiformat

Textdatei Versicherung.asc

1 Rentenversicherung

2 Unfallversicherung

3 Krankenversicherung

4 Lebensversicherung A

5 Lebensversicherung B

6 Lebensversicherung C

BEGIN_DATA

1 2 3

2 3 4

1 2

2 3

END_DATA

• Wird in das interne Format Versicherung.db konvertiert mit dem Aufruf java asc2db Versicherung



Zusammenfassung und Ausblick

Die Definition der sehr starken Regeln basierend auf den Sicherheitsfaktor ist nützlich bei der Vermeidung von überflüssigen Regel.

Das ARtool lässt sich gut in das System EAMS integrieren.

PG 402 Wissensmanagment Lehrstuhl für Künstliche Intelligenz

Documents

Transcript of PG 402 Wissensmanagment Lehrstuhl für Künstliche Intelligenz