Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining...

28
Vergleich der Ansätze des „Inkrementellen Lernen“ mit den Ideen des „Online Data Mining“ Ergebnispräsentation Steffen Ciupke Jörg Hipp

Transcript of Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining...

Page 1: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Vergleich der Ansätze des „Inkrementellen Lernen“ mit den Ideen des „Online Data Mining“

Ergebnispräsentation

Steffen CiupkeJörg Hipp

Page 2: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Agenda

Online COBWEBOnline COBWEB

Inkrementelle Online AssoziationsregelnInkrementelle Online Assoziationsregeln

Zusammenfassende KritikZusammenfassende Kritik

RückblickRückblick

Page 3: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Rückblick

Vorgehen nach der Einführungspräsentation

• Vergleich der Ansätze Inkrementelles Lernen und Online Data Mining und der Anforderungen an die dabei verwendeten Algorithmen

• Erweiterung des Conceptual Clusterings um Elemente mit Online Behavior

• Prüfung der Vereinbarkeit von Online Assoziationsregeln mit Methoden des Inkrementellen Lernens

Synthese beider Ansätze in Hinblick auf große DatenmengenZiel

Page 4: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Agenda

Online COBWEBOnline COBWEB

Inkrementelle Online AssoziationsregelnInkrementelle Online Assoziationsregeln

Zusammenfassende KritikZusammenfassende Kritik

RückblickRückblick

Page 5: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Online COBWEB

Idee: Parameter (insb. Cuttoff) während der Laufzeit des Algorithmus anpassen

Fragen

• Kann ein bestehender Baum unter Verwendung der Operationen „Merge“ und „Split“ sinnvoll restrukturiert werden?

• Kann Informationsverlust durch zu geringer Clusteranzahl zu Beginn vermieden werden?

Page 6: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Online COBWEB

Durch inkrementelle Eigenschaft des COBWEB-Algorithmus ist Veränderung der Parameter möglich

Vorgehen:

• Mit einem Cuttoff von Null beginnen

• Nach einer best. Anzahl Instanzen Ergebnis prüfen

• Bei Overfitting Cuttoff schrittweise erhöhen

Page 7: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Online COBWEB

COBWEB Kontroll-Struktur

Funktion COBWEB (Objekt, Root)

1.) Update Counts in der Wuzel

2.) Finde den Sohn der Wurzel mit bester CU und mache eines der Folgenden

a) Erschaffung einer neuen Klasse

b) Mergen? COBWEB(Objekt, Merged node)

c) Splitten? COBWEB(Objekt, Root)

d) Keines der Obigen COBWEB(Objekt, Best Host)

Page 8: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Online COBWEB

CA B

K

C

D

K

BA

Merge Operation ohne Cuttoff

• Ca: „best fitting host“; Cb: „runner up“ • CU(C1,....Ca+b,...Ck) > CU(C1,...,Ca,...,Cb,...Ck)• Einfügen der neuen Instanz

Page 9: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Online COBWEB

C

K

BA

CAB

KSituation 1 Situation 2

Merge Operation mit Cuttoff

• Entscheidung (Merge) analog• CU(Situation1) – CU(Situation 2) < Cuttoff

Situation 2• Einfügen der neuen Instanz unter Berücksichtigung

des Cuttoff

Page 10: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Online COBWEB

Performance (COBWEB)

• Kosten des Einfügens einer Instanz: O(B2 logB

n*AV)

A: #Attibute V: durchschnittliche #Attributwerte

• COBWEB ist fähig Schlussfolgerungen zu treffen bzw. besitzt die Eigenschaft Regelmäßigkeiten zu entdecken

COBWEB ist ein inkrementelles, ökonomisches und robustes Conceptual Clustering System

Page 11: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Online COBWEB

Zusammenfassende Kritik

• Keine Literatur zu diesem (trivialen) Ansatz zu finden, obwohl zu COBWEB diverse Erweiterungen existieren

• Praktische Test mit WEKA-COBWEB lassen auf einen relativ geringen Einfluss der Parameter schließen Daten besitzen keine „Clusterstruktur“ „Overfitting“ trotz scharfen Cuttoffs

Hauptproblem inkrementeller Algorithmen (Reihenfolge der Instanzen) wird von diesem Ansatz keineswegs gelöst

Page 12: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Agenda

Online COBWEBOnline COBWEB

Inkrementelle Online AssoziationsregelnInkrementelle Online Assoziationsregeln

Zusammenfassende KritikZusammenfassende Kritik

RückblickRückblick

Page 13: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Inkrementelle Online Assoziationsregeln

erforderliche Leistungen des Verfahrens

inkrementelle Eigenschaft:... Wissen aus Ausgangsdaten DB (repräsentiert durch Assoziationsregeln) wird um neue Transaktion in db erweitert (ohne Zugriff auf DB)

Möglichkeiten der Inkrementierung:1. Pruning von bestehenden großen Itemsets/

Assoziationsregeln2. Aktualisierung von Support und Konfidenz 3. Hinzufügen neuer Assoziationsregeln

ProblemfallTransaktionsdaten DB nicht mehr vorhanden

Page 14: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Inkrementelle Online Assoziationsregeln

theoretische Ansätze für „Inkrementierung“ von CARMA

Hinzunahme neuer Assoziationsregeln:...einfache Abschätzung untere und obere Schranke Support des Itemsets

Steffen Ciupke:

evtl. Abschätzung (v.a. maxSupport) angeben

Steffen Ciupke:

evtl. Abschätzung (v.a. maxSupport) angebenlim Support(v) =

(T-1) + t(v)

N + nlim Support(v) =

t(v)

N + n

T(v) minSupport(DB)•N

T(v) : # Transaktionen mit Itemset v in DB t : # Transaktionen mit Itemset v in dbN : # Transaktionen gesamt DB n : # Transaktionen gesamt db

Page 15: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Inkrementelle Online Assoziationsregeln

theoretische Ansätze für „Inkrementierung“ von CARMA

Hinzunahme neuer Assoziationsregeln:

Steffen Ciupke:

evtl. Abschätzung (v.a. maxSupport) angeben

Steffen Ciupke:

evtl. Abschätzung (v.a. maxSupport) angeben

Fallunterscheidung:1. lim Support(v) > supportSequence(t):

neue Assoziationsregel2. lim Support(v) < supportSequence(t):

Regel bleibt unberücksichtigt

3. lim Support(v) < supportSequence(t) < lim Support(v)

ProblemfallNotwendigkeit Index auf DB zu erstellen

Page 16: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Inkrementelle Online Assoziationsregeln

Negative Border Algorithmus (S. Thomas et al.)

ermöglicht inkrementelle Anwendung von Assoziationsregeln:

•best case, average case: ohne Zugriff auf DB •worst case: maximal einmaliger Scan DB bei stark

reduzierter Anzahl zu überprüfender Transaktionen

Steffen Ciupke:

wichtig: Restriktion bzgl konstanter MinSupport-Grenzwerte !

Steffen Ciupke:

wichtig: Restriktion bzgl konstanter MinSupport-Grenzwerte !

•Algorithmus läßt sich für herkömmliche Assoziationsregelverfahren anwenden (z.B. APRIORI)

•große Performancevorteile (Faktor 20 ggü. APRIORI bereits bei 100000 Transaktionen (v.a. bei mittlerem Support))

Erweiterung von CARMA um Negative Border

Lösungsansatz existierendes, effizientes Verfahren

Page 17: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Ansatzpunkte in CARMA

Inkrementelle Online Assoziationsregeln

Menge der Kandidatenfür Menge der großen Itemsets

Pruning der Kandiaten mit zu geringem Support

Page 18: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Inkrementelle Online Assoziationsregeln

Funktion Negative Border

NBd(L) : Negative Border von LLi : Menge der großen Itemsets (Kardinalität i: Anzahl Items)Ck : Menge der Kandiaten (Kardinalität k: Anzahl Items)

äquivalent: Generierung Kandidaten Phase I CARMA

Negative Border ist Index über maximale Itemsets L (NBd(Lk) = Ck - Lk )

Page 19: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Inkrementelle Online Assoziationsregeln

Umsetzung inkrementeller Ablauf

Ermittlung der Menge der großen Itemsets mit Standard- CARMA

Update des count(s) Ausgangs- Itemsets aus DB

Assoziations-regeln aus DB werden beibehalten od. geprunt

Generierung von neuen Assoziations-regeln

Funktionen arbeiten ohne Scan auf DB

mathemat. Abschätzung support-Sequence auf DB notwendig

Page 20: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

•••

Inkrementelle Online Assoziationsregeln

Umsetzung inkrementeller Ablauf

Gesamtmenge der vorgehaltenen Itemsets ist gewachsenGenerierung der Menge der neuen großen Itemsets und Negative Border(Schrittweite: jeweils um 1 vergrößerte Kardinalität der Itemsets)

Rescan DB ermittelt Support Itemsets s{s LDB+ NBd(LDB+ ) | sLdb NBd(LDB+ ) sLDB NBd(LDB )}

Page 21: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Inkrementelle Online Assoziationsregeln

Eigenschaftsänderung durch Kombination inkrementeller & Online Ansatz

• maximal einmaliger Scan der Datenmenge nur für konstanten MinSupport möglich

für CARMA-Verfahren mit exakten Ergebnissen für Support und Konfidenz maximal 2 Scans über Update-Datensatz (db) und 1 Scan über ursprüngliche Datensätze (DB) notwendig

dabei jedoch Reduzierung der Komplexität/Kosten • Einschränkung der auf Support zu überprüfenden Itemsets• Forwardpruning nutzt bei erstem Durchlauf gewonnene Erkenntnisse

(vorzeitiger Abbruch des Prunings möglich)

Page 22: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Zusammenfassende Kritik: Online Ansatz Hellerstein

Effizienz Online Ansatz auf sehr großen Datenmengen (Telekomdaten, generell Terrabyteberreich) durch strukturelle Eigenschaften (v.a. ABC-Tool , Basis-Verfahren „Online Reordering“) fragwürdig - kein Widerleg durch Performancedaten !

offensichtlich Probleme in der Umsetzung für weitere Data Mining Anwendungen - bisher nur für Assoziationsregeln verwirklicht

fruchtbarer Denkanstoß......Berücksichtigung Tradeoff: +

-

interaktive Einbindung Intuition/externes Wissen

Laufzeitoptimierung

Page 23: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Prinzipielle Vereinbarkeit der beiden Ansätze?

• Jedes inkrementelle Verfahren besitzt per Definition ANYTIME- Verhalten

• Vorgehen bei Erweiterung von existierenden inkrementellen Data Mining Methoden mit..:

...Problem: Repräsentation der Wissensbasis

...Shift der Kostenorientierung für große DB

Rechenzeitminimierung DB-Zugriffsminimierung

Zusammenfassende Kritik

Page 24: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Fragen

Page 25: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Online COBWEB

CABD

K

Merge Operation mit Cuttoff

• Einfügen der neuen Instanz unter Berücksichtigung des Cuttoff

C

AB

K

D

Page 26: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Beispielhafter Ablauf Online Associatione Rules ( CARMA )

Inkrementelle Online Association Rules

Page 27: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

CARMA

1. Scan :

firstTrans(): Transaktion zu der Itemset in Menge der potentiell

großen Itemsets hinzugenommen wird

count(): Anzahl des Vorkommen des Itemset nach firstTrans

maxMissed:() obere Schranke für Vorkommen vor firstTrans (in Abh. von bearbeiteter Datenmenge und supportSequence)

supportSequence: dynamische Speicherung der nutzerspezifizierten

Supportgrenzwerte

Ermöglicht Angabe einer oberen und unteren Schranke für Support

Inkrementelle Online Association Rules

Page 28: Vergleich der Ansätze des Inkrementellen Lernen mit den Ideen des Online Data Mining Ergebnispräsentation Steffen Ciupke Jörg Hipp.

Backup

Untere Schranke für Abschätzung minSupport in Abhängigkeit von supportSequence

minSupport(LDB) = avgn (n) +c - 1

n

c: Kardinalität des größten Itemsets in LDB

n: # Transaktionen in LDB

Durch CARMA generierte LDB (Basis

supportSequence ) ist Menge der großen Itemsets bzgl. minSupport

n = avgn (n) +c - 1

n

CARMA (i) statt CARMA (i) gewährleistet minSupport(LDB) = n

Erweiterung: