Funktionsweise und Ansätze von inhaltsbasiertem Filtern

46
Vorgehensweise Artikelprofil Benutzerprofil Klassifizierungsmethoden Feedback Funktionsweise und Ans¨ atze von inhaltsbasiertem Filtern Bettina Pflugbeil Dezember 6, 2013 Bettina Pflugbeil Funktionsweise und Ans¨ atze von inhaltsbasiertem Filtern

description

Ein Vortrag von Bettina Pflugbeil aus dem Hauptseminar "Personalisierung mit großen Daten".

Transcript of Funktionsweise und Ansätze von inhaltsbasiertem Filtern

Page 1: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Funktionsweise und Ansatze von inhaltsbasiertemFiltern

Bettina Pflugbeil

Dezember 6, 2013

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 2: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Agenda1 Vorgehensweise2 Artikelprofil

Strukturierte DatenUnstrukturierte Daten

3 BenutzerprofilBenutzerhistorieErstellung eines Benutzerprofils

4 KlassifizierungsmethodenProbabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

5 FeedbackBettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 3: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Problemstellung

große Fulle an Informationen im WebSchwierigkeiten bei der SuchePersonalisierung der Inhalte fur die Benutzer

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 4: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

allgemeine Vorgehensweise

Empfehlung von Artikeln, die der Benutzer in derVergangenheit fur gut befand.

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 5: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

allgemeine Vorgehensweise

Analyse von bewerteten DokumentenErstellung eines ArtikelprofilsErstellung eines BenutzerprofilsVergleichen des Benutzerprofils mit dem zu testenden Objekt

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 6: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Empfehlungsprozess in 3 Schritten

CONTENT ANALYZERPROFILE LEARNER

FILTERING COMPONENT

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 7: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Empfehlungsprozess in 3 Schritten

CONTENT ANALYZERPROFILE LEARNERFILTERING COMPONENT

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 8: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Empfehlungsprozess in 3 Schritten

CONTENT ANALYZERPROFILE LEARNERFILTERING COMPONENT

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 9: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

CONTENT ANALYZER

Erstellung einer strukturierten ArtikelbeschreibungTechniken vom Information Retrievalunstrukturierte Information ⇒ Vorverarbeitungsschritt notigdiese Reprasentation = Input fur PROFILE LEARNER undFILTERING COMPONENT

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 10: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

PROFILE LEARNER

Profil = strukturierte Darstellung der Benutzerinteressen

Sammlung von Daten (Benutzerbewertungen bzw. Feedback)⇒ Training set fur den aktiven BenutzerVerallgemeinerung der Daten ⇒ Erstellung des BenutzerprofilsUmsetzung der Generalisierungsstrategie durchMaschinenlerntechniken

Speicherung des Benutzerprofils in einem Profilarchiv (furFILTERING COMPONENT)

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 11: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

FILTERING COMPONENT

Vorhersage uber Interesse des Benutzers fur neuen Artikelneue Artikelreprasentation⇒ Vergleich der Attribute des Benutzerprofils mit den derjeweiligen Artikelprofile

Vergleich mittels KlassifizierungsalgorithmenErgebnis = reprasentiert Interesse des Benutzers an diesemObjekt

”Top-Artikel“⇒ Speicherung in Empfehlungsliste

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 12: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 13: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Strukturierte DatenUnstrukturierte Daten

Artikelprofil

Profil = Sammlung der wichtigsten Eigenschaften des ArtikelsDarstellung als Menge von AttributenArtikel der gleichen ”Klasse“haben gleiche AttributeSpeicherung in einem relationalen Datenbanksystem

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 14: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Strukturierte DatenUnstrukturierte Daten

Beispiel - Eigenschaften

Beispiel: Buchempfehlung

TitelGenreAutorennameVerlagErscheinungsjahrPreis...

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 15: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Strukturierte DatenUnstrukturierte Daten

Beispiel - Tabellendarstellung

Beispiel: Buchempfehlung

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 16: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Strukturierte DatenUnstrukturierte Daten

ABER...

”Strictly speaking, the information about the publisher and theauthor are actually not the content of a book, but rather additionalknowledge about it.“

⇒ Inhaltsbasierte Systeme wurden entwickelt, um textbasierteArtikel zu filtern und zu empfehlen.

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 17: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Strukturierte DatenUnstrukturierte Daten

Beispiel: Teil eines Zeitungsartikels

Artikelbeschreibung meistens textuelle Eigenschaften(Webseite, Zeitungen, E-Mails...)keine gut definierten Werte (↔ strukturierte Daten)keine Liste von ”Meta-Information“, sondern Liste vonrelevanten Schlusselwortern⇒ Einsatz von diversen Verfahren zur Extrahierung

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 18: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Strukturierte DatenUnstrukturierte Daten

Vektor-Raum-ModellBoolean-Vektor

VRMraumliche Darstellung von Textdokumenten

Liste aller Worter von allen Dokumenten⇒ Darstellung jedes Dokuments als boolean-Vektor

1 = Wort kommt vor0 = Wort kommt nicht vor

gleiche Darstellung im Benutzerprofil⇒ Vergleich

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 19: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Strukturierte DatenUnstrukturierte Daten

Vektor-Raum-ModellBoolean-Vektor - Probleme

Annahme: jedes Wort hat dieselbe Relevanz innerhalb desDokumentsABER: Haufigeres Vorkommen ⇒ bessere Charakterisierunggroßere Ubereinstimmung bei langeren Dokumenten⇒ Empfehlung langere Dokumente

Verbesserung: Benutzung des TF-IDF-Kodierungsformates

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 20: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Strukturierte DatenUnstrukturierte Daten

Vektor-Raum-ModellTF-IDF-Kodierungsformat

TF-IDF-KodierungsformatDarstellung als Vektoren in einem multidimensionalen Raum

= Produkt aus Termfrequenz und inverse Dokumentenhaufigkeit

ist eine Technik vom ”information retrieval“Berucksichtigt die Lange des DokumentsRaumanzahl = Anzahl der Schlusselworter (Terme)

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 21: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Strukturierte DatenUnstrukturierte Daten

Vektor-Raum-ModellTF-IDF-Kodierungsformat

normierte Termfrequenz (TF)

TF (i , j) = freq(i ,j)maxOthers(i ,j)

⇒ Verknupft die Anzahl der Termfrequenz mit der maximalenFrequenz der anderen Schlusselworter im Dokument

ist eine Technik vom ”information retrieval“Raumanzahl = Anzahl der Schlusselworter (Terme)

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 22: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Strukturierte DatenUnstrukturierte Daten

Vektor-Raum-ModellTF-IDF-Kodierungsformat

inverse DokumentenfrequenzIDF (i) = log N

n(j)

Ziel: Reduzierung der Gewichtung der Schlusselworter, die sehrhaufig in allen Dokumenten vorkommen.

Idee: zum Unterscheiden der Dokumente sind diese Worternicht sehr hilfreich⇒ Terme, die nur in ein paar Dokumenten vorkommen,sollten hoher gewichtet werden

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 23: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Strukturierte DatenUnstrukturierte Daten

Verbesserung und Begrenzung

StoppworterLoschen von bestimmten Wortarten wie Prapositionen,Konjunktionen, Artikel usw.Grund: kommen in so gut wie allen Dokumenten vor, habenjedoch auf den Inhalt bzw. die Schlusselworter keinen Einfluss

StemmingErsetzen der verschiedenen Wortvarianten durch ihrengemeinsamen Wortstamm⇒ Verringert die Vektorgroße⇒ Verbesserung des Matching-ProzessesProbleme: Abkurzungen oder gleichlautende Worter

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 24: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Strukturierte DatenUnstrukturierte Daten

Verbesserung und Begrenzung

RedewendungVerwendung ganzer Redewendungen oder Phrasen als TermeGrund: hohere Aussagekraft

Anwendung von Lexika oder OntologienProblem: keine Erfassung der Semantik (String-Matching)↪→ Polysemie: Ein Wort/ mehrere Bedeutungen↪→ Synonymie: viele Worter/ dieselbe Bedeutung⇒ Schlusselidee: Wissensbasen wie Lexika oder Ontologien

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 25: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

BenutzerhistorieErstellung eines Benutzerprofils

Benutzerprofil

BenutzerprofilStellt die (vergangenen) Interessen des Nutzers dar.

Speicherung der BenutzerpraferenzenHistorie der Nutzerinteraktionen mit dem Empfehlungssystem

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 26: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

BenutzerhistorieErstellung eines Benutzerprofils

Benutzerhistorie

angesehene Artikelgekaufte Artikelbewertete ArtikelSucheingaben⇒ Rekonstruktion kurzlich angesehener Artikel⇒ Rekonstruktion gekaufter bzw. gelesener Artikel⇒ Verwendung als Trainingsdaten (Algorithmen)⇒ Erstellung des Benutzerprofils

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 27: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

BenutzerhistorieErstellung eines Benutzerprofils

Erstellung eines Benutzerprofils

Verwendung von MaschinenlerntechnikenUmsetzung als binare Textkategorisierung⇒ Klassifizierung jedes Dokuments/Artikels:c+: positiv ⇒ Benutzer mag esc-: negativ ⇒ Benutzer mag es nicht

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 28: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

BenutzerhistorieErstellung eines Benutzerprofils

explizites VorgehenBenutzer bewertet Artikel/ Attribute/ Schlusselworter aktiv selbstz. B. durch Check-Box

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 29: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

BenutzerhistorieErstellung eines Benutzerprofils

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 30: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

BenutzerhistorieErstellung eines Benutzerprofils

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 31: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

BenutzerhistorieErstellung eines Benutzerprofils

explizites VorgehenBenutzer bewertet Artikel/ Attribute/ Schlusselworter aktiv selbstz. B. durch Check-Box

implizites VorgehenDas System beobachtet das Nutzerverhalten⇒ versucht es zu bewerten und zu kategorisieren

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 32: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Probabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

Probabilistische Methoden und Naive Bayes

Wahrscheinlichkeitsmethode fur induktives LernenErzeugung eines Wahrscheinlichkeitsmodells (unbekannter

”Umweltzustand“) an Hand von davor beobachteten Daten

Bayes theorem

P(c|d) = P(c)∗P(d |c)P(d)

fur Klassifizierung des Dokuments d, wird Klasse mit hochsterWahrscheinlichkeit ausgewahlt

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 33: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Probabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

Probabilistische Methoden und Naive Bayes

beobachtete Daten nicht ausreichend⇒ Unabhangigkeitsannahme⇒ Berechnung der Wahrscheinlichkeit fur jedes Wort

gute Ergebnisse bei Textdokumentsklassifizierung trotzDiskrepanz zur realen Welt (↔ Methode des nachstenNachbarn)

Probleme beim Benutzerprofil:→ unterschiedliche Lange der Dokumente (training set)→ seltene Kategorien→ mehr positives als negatives Feedback

Verwendung: NewsDude, Daily Learner, LIBRA...

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 34: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Probabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

Entscheidungsbaum

Erstellung eines Entscheidungsbaumes durch rekursiveAufteilung der Textdokumente (Trainingsdaten) inUntergruppen⇒ Untergruppen enthalten nur noch Instanzen der KlasseAufteilung durch Test der Merkmale (An- bzw. Abwesenheit)Verwendung der informativsten Eigenschaften fur die Testsnicht ideal fur unstrukturierte Daten⇒ besser kleine Baume mit wenigen TestsRIPPER: post-pruning-Algorithmus (Optimierung) undUnterstutzung von Attributen mit mehrfachen Wertenbereits angewendet bei: Klassifizierung von E-Mails,Data-Mining-Probleme, Personalisierung von Werbung

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 35: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Probabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

Entscheidungsbaum

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 36: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Probabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

Methode des nachsten Nachbarn

Untersuchen, ob Benutzer gleichartige Dokumente in derVergangenheit positiv bewertet hatzwei Informationen notig:→ Historie der Vorlieben (like/ dislike)→ Algorithmus zur Bestimmung der GleichartigkeitSpeicherung aller TrainingsdatenKlassifizierung eines neuen Artikels:⇒ Berechnet durch Ahnlichkeitsfunktion den nachsten bzw.die k nachsten Nachbarn⇒ Ubernahme der Daten der nachsten Nachbarn

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 37: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Probabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

Methode des nachsten Nachbarn

strukturierte Daten - Euklidische Abstandsmetrik⇒ d(p, q) =

√(p1− q1)2 + (p2− q2)2

unstrukturierte Daten (VRM) - Kosinus-AhnlichkeitsmaßProblem bei Euklidischer Abstandsmetrik:Gleichbehandlung egal ob kleiner oder großer Wert⇒ Dokumente werden als gleichartig angesehen, wenn beidenicht bei dem ”abgefragtem“Thema ubereinstimmen

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 38: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Probabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

Methode des nachsten Nachbarn

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 39: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Probabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

Relevantes Feedback und Rocchio’s Methode

Benutzer geben explizites Feedback, ob die abgerufenenArtikel relevant waren. (Ruckkopplungsmechanismus)⇒ Verfeinerung der Abfrage durch das System⇒ Verbesserung der AbfrageergebnisseGrund: Qualitat hangt sehr stark von den abgefragtenSchlusselwortern ab→ durchschnittlich zwei Schlusselworter (oft mehrdeutig)

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 40: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Probabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

Relevantes Feedback und Rocchio’s Methode

Teilen der bewerteten Dokumente in zwei Bereiche:→ D+: relevante Dokumente→ D-: unrelevante Dokumente⇒ Erstellung eines Prototypen (Durchschnitt)Verfeinerung des aktuellen Abfragevektors⇒ Vektor bewegt sich in Richtung der relevanten Datenempirische Daten: gute Methode - am besten die erstn 10 bis20 Worter dafur benutzenaber bei zu vielen Termen problematisch (oft mehrdeutig)

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 41: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Probabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

Relevantes Feedback und Rocchio’s Methode

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 42: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Probabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

Relevantes Feedback und Rocchio’s Methode

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 43: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Probabilistische Methoden und Naive BayesEntscheidungsbaumMethode des nachsten NachbarnRelevantes Feedback und Rocchio’s MethodeLineare Klassifikatoren

Lineare Klassifikatoren

Berechnung einer linearen Entscheidungsgrenzegroße Anzahl von Algorithmen in dieser Kategorie

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 44: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Vorteile

Unabhangig von anderen NutzernKein Erster-Beurteiler-ProblemErweiterung der Empfehlung durch InhaltsmerkmaleFahigkeit der guten Empfehlung bei eindeutigen Vorlieben(fast) kein Kalt-Start-Problem

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 45: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Nachteile

keine Berucksichtigung subjektiver Attribute→ Asthetik→ korrekte Hyperlinks→ Benutzerfreundlichkeit→ multimediale ElementeUberspezialisierung→ Empfehlung nur uber gleichartige, positiv bewertete Artikel→ gleiche Zeitungsartikel werden vorgeschlagen⇒ gewissen Zufall einbauenExtrahierung von Eigenschaftsmerkmalen muss moglich sein

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern

Page 46: Funktionsweise und Ansätze von inhaltsbasiertem Filtern

VorgehensweiseArtikelprofil

BenutzerprofilKlassifizierungsmethoden

Feedback

Dankeschon fur die Aufmerksamkeit!

⇒ Sind noch Fragen offen?

Bettina Pflugbeil Funktionsweise und Ansatze von inhaltsbasiertem Filtern