05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten...

26
05.02.2008,01.11.2007,0 5.11.2006,05.11.2005 (1 :26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt

Transcript of 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten...

Page 1: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Retrieval und Ranking von Dokumenten

Kursfolien

Karin Haenelt

Page 2: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Die einzelnen Schritte (1) Texte auswählen Boolesches Modell

Erzeugung der Dokumentvektoren Erzeugung der disjunktiven Normalform der

Anfrage Vergleich von Dokument- und Anfragevektoren

Vektormodell Erzeugung der Dokumentvektoren

(Termfrequenz, normalisierte Termfrequenz, Termgewichtung)

Berechnung der Ähnlichkeit zwischen Dokument und Anfragevektor nach der Cosinusformel

Page 3: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Die einzelnen Schritte (2) Probabilistisches Modell

Auswahl eines Trainingscorpus Ermittlung der Beobachtungswerte

rel (Anzahl relevanter Dokumente) nrel (Anzahl nicht-relevanter Dokumente) reli (Anzahl rel. Dok. mit Termi) nreli (Anzahl nicht rel. Dok. mit Termi)

Berechnung der Termstatuswerte Berechnung der Retrievalstatuswerte für

neue Dokumente

Page 4: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Texte (1) 03.08.2001 09:48 MEZ

1) Weiter Stabilisierung an der Weichsel Warschau (dpa) - An den Hochwassergebieten entlang der Deichsel hat sich die Lage weiter beruhigt. In Ostpolen ist der Wasserstand teilweise bereits unter den Alarmpegel gesunken, berichtet der polnische Rundfunk. Die Flutwelle der Weichsel zieht nun durch Pommern Richtung Ostsee. Unterdessen steigt der Wasserstand der Oder in Westpolen weiter an. Im Glogow wurde der Alarmpegel mittlerweile um 124 Zentimeter überschritten. In Dutzenden von Ortschaften stehen Straßen und Ackerland unter Wasser.

02.08.2001 15:07 MEZ2) Russische Behörden melden Cholera-Erkrankungen im Wolga-GebietMoskau (dpa) - Im russischen Wolgagebiet sind fast 50 Menschen an Cholera erkrankt. Die Opfer, unter ihnen 26 Kinder, hätten in einem mit den lebensgefährlichen Viren verseuchten Gewässer gebadet. Das teilte die Gesundheitsbehörde der Stadt Kasan mit. Nach vorläufigen Angaben gab es keine Todesopfer. Angehörige der Opfer seien vorsorglich in Quarantänestationen gebracht worden, meldete die Agentur Interfax. Zudem werden Bahn-Reisende aus Kasan auf Cholera- Symptome untersucht, berichtete ein Radiosender.

Page 5: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Texte (2) 02.08.2001 14:57 MEZ

3) «Feuerpause» am ÄtnaCatania (dpa) - Der sizilianische Vulkan Ätna hat eine «Feuerpause» eingelegt. «Er brummt, als würde er schnarchen», beschrieb ein Fernsehreporter das Szenario. Im Touristenzentrum Sapienza knallten die Sektkorken. Ein Betreiber sagte, das Zentrum werde im September wieder geöffnet. Nach Tagen des Bangens war eine Lavafront nur 200 Meter vor der Station mit Seilbahn, Souvenirläden und Büros zum Stillstand gekommen. Der größte Vulkan Europas tobt seit mehr als zwei Wochen. Menschen kamen bislang nicht zu Schaden.

02.08.2001 09:46 MEZ4) Ätna auf Sizilien speit WasserCatania (dpa) - Der Vulkan Ätna auf Sizilien speit auch Wasser. Ein solches Phänomen ist laut italienischen Fernsehberichten seit 15 000 Jahren nicht mehr vorgekommen. Forscher erklären das Ereignis damit, dass in einer Lavaflut das Mineral Amphibol vorkommt. Dieses enthalte Wasser in seiner kristallinen Struktur und erwärme sich, sobald das Magma Gas absondern könne. Unterdessen scheint gut zwei Wochen nach dem Ausbruch des Vulkans die größte Gefahr gebannt. Trotz spektakulärer Lavafluten kamen bislang Menschen nicht zu Schaden.

Page 6: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Texte (3) 02.08.2001 09:23 MEZ

5) Weiterer Deichabschnitt gesprengtWarschau (dpa) - Im Osten Polens haben Pioniere der Armee einen weiteren Deichabschnitt gesprengt. Damit soll ein rascher Abfluss des Hochwassers ermöglicht werden. Außerdem kommen heute auch Hubschrauber zum Einsatz. Sie sollen Betonplatten auf den Deich werfen, um Risse zu schaffen und den Abfluss des Wassers zu beschleunigen, meldet die Agentur IAR. Bereits gestern war eine 50 Meter breite Lücke in den so genannten Sommerdeich der Weichsel südlich von Kazimierz Dolny gesprengt worden.

01.08.2001 08:29 MEZ6) Millionen-Schaden durch Feuer in WyomingJackson (dpa) - Das vor 10 Tagen ausgebrochene Buschfeuer nahe Jackson im USBundesstaat Wyoming ist weitgehend unter Kontrolle. Bei kühlerem, regnerischem Wetter gelang es der Feuerwehr, den Brand einzudämmen. Das Feuer, das vermutlich durch menschliches Verschulden auf einem Campingplatz entstand, vernichtete 1800 Hektar Land. Menschen kamen nicht zu Schaden. Im benachbarten Yellowstone National Park sind weiterhin mehr als 60 Feuerwehrleute im Einsatz. Dort hat ein Feuer rund 400 Hektar Wald verbrannt.

Page 7: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Texte (4) 01.08.2001 08:01 MEZ

7) Angriff von Computerwurm «Code Red» offenbar abgewehrtWashington (dpa) - Der Angriff des weltweit mit Sorge erwarteten Computerwurms «Code Red» ist offenbar abgewehrt worden. Nach ersten Angaben des FBI hat er kaum Schaden angerichtet. Es werde aber noch einige Zeit dauern, bis eine genaue Schadensanalyse fertig sei, hieß es. Vermutlich hätten die Schutzmaßnahmen gegen die Attacke gewirkt. Der Angriff hatte nach Berechnungen der Experten um 2 Uhr deutscher Zeit begonnen. Bei seinem ersten Auftauchen Mitte Juli hatte «Code Red» unter anderem die Webseiten des Weißen Hauses angegriffen.

01.08.2001 07:31 MEZ8) Polnische Pioniere beginnen kontrollierten DeichbruchWarschau (dpa) - Polnische Pioniere haben im Osten des Landes mit einem kontrollierten Deichbruch begonnen. Damit soll das Hochwasser der Weichsel in ein unbewohntes Gebiet umgelenkt werden. Die Soldaten begannen am frühen Morgen damit, einen Teil des Deichs der Weichsel abzutragen, berichtet der polnische Rundfunk. Die Gefahr gehe nicht von der Höhe der Flutwelle aus, sondern von der ungewöhnlich langen Verweildauer, sagte ein Feuerwehrsprecher. Das Hochwasser an der Weichsel erstreckt sich mittlerweile über 350 Kilometer.

Page 8: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Texte (5) 30.07.2001 09:52 MEZ

9) Immer mehr Deiche in Polen undichtWarschau (dpa) - In den polnischen Hochwassergebieten ist in der Nähe der ostpolnischen Ortschaft Kamien ein weiterer Deich gebrochen. Das berichtet der polnische Rundfunk. Damit sind an Weichsel und San nun schon fünf Deiche geborsten. Allein südlich von Sandomierz steht ein 52 Quadratkilometer großes Gebiet mit vier Dörfern und hunderten Bauernhöfen unter Wasser. An vielen Stellen sind die durchweichten Deiche nach Angaben der Krisenstäbe mittlerweile löchrig und undicht. Bisher wurden rund 12 000 Menschen in Sicherheit gebracht.

27.07.2001 12:49 MEZ10) Neue Überschwemmungen in ZentralpolenWarschau (dpa) - Mit neuen Überschwemmungen in Zentralpolen und im Südosten ist die Flutwelle des Hochwassers weiter ins Landesinnere vorgedrungen. Die Rettungskräfte sind pausenlos im Einsatz. Uferbefestigungen wurden mit Sandsäcken verstärkt. Die polnische Regierung hofft auf internationale Hilfe. Es habe erste Kontakte mit der Weltbank gegeben, berichtete der Rundfunksender «Radio RMF» unter Berufung auf die Regierung. Die Zahl der Todesopfer stieg inzwischen auf elf. Im Süden stabilisierte sich die Lage dagegen allmählich.

Page 9: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Texte (6) 27.07.2001 08:41 MEZ

11) Lage in Südpolen bleibt weiter dramatischWarschau - Die Lage in den Hochwassergebieten im Süden und Südosten Polens bleibt dramatisch. Bisher hat die Katastrophe 11 Todesopfer gefordert. Tausende Häuser stehen unter Wasser, mehrere hundert Bauernhöfe sind überflutet. Straßen und Brücken wurden durch die Wassermassen der Weichsel und ihrer Zuflüsse zerstört oder schwer beschädigt. Auch an der Oder in Oberschlesien stiegen die Wasserstände wieder.

Page 10: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Retrievalaufgabe

Retrievalaufgabe Welche Dokumente benennen einen

Schaden, der durch Feuer oder Wasser entstanden ist?

Page 11: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Dokument relevant benannte Schäden

1) Weiter Stabilisierung an der Weichsel 0 | 1 Straßen und Ackerland unter

Wasser (Schaden impliziert)

2) Russische Behörden melden Cholera 1 50 Menschen an Cholera erkrankt

3) «Feuerpause» am Ätna 0

4) Ätna auf Sizilien speit Wasser 0

5) Weiterer Deichabschnitt gesprengt 0 | 1 Deichabschnitt gesprengt

6) Millionen-Schaden durch Feuer in Wyoming 1 Millionen-Schaden, 400 Hektar

Wald verbrannt

7) Angriff von Computerwurm «Code Red» 0

8) Polnische Pioniere beginnen Deichbruch 0 | 1 Hochwasser (Schaden impliziert)

9) Immer mehr Deiche in Polen undicht 1 Deich gebrochen, Deich geborsten,

Dörfer, Bauernhöfe unter Wasser

10) Neue Überschwemmungen in

Zentralpolen

1 11 Todesopfer

11) Lage in Südpolen bleibt weiter dramatisch 1 11 Todesopfer

Gewünschtes Ergebnis

Relevanz-begriff?

Page 12: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Lösungsansatz

Lösungsansatz hilfsweise Ansatz des Queryvektors: Feuer, Opfer, Schaden, Wasser

Page 13: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Dokument Feuer Opfer Schaden Wasser Rang

1) Weiter Stabilisierung an der Weichsel 1 -

2) Russische Behörden melden Cholera 1 1 +

3) «Feuerpause» am Ätna 1 1 +

4) Ätna auf Sizilien speit Wasser 1 1 +

5) Weiterer Deichabschnitt gesprengt 1 -

6) Millionen-Schaden durch Feuer in Wyoming 1 1 +

7) Angriff von Computerwurm «Code Red» 1 -

8) Polnische Pioniere beginnen Deichbruch 1 1 -

9) Immer mehr Deiche in Polen undicht 1 -

10) Neue Überschwemmungen in Zentralpolen 1 1 +

11) Lage in Südpolen bleibt weiter dramatisch 1 1 +

Boolesches Modell Anfrage (Feuer | Wasser) & (Opfer | Schaden)

Page 14: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Dokument Feuer Opfer Schaden Wasser

1) Weiter Stabilisierung an der Weichsel 4

2) Russische Behörden melden Cholera 3 1

3) «Feuerpause» am Ätna 2 1

4) Ätna auf Sizilien speit Wasser 1 3

5) Weiterer Deichabschnitt gesprengt 2

6) Millionen-Schaden durch Feuer in Wyoming 6 2

7) Angriff von Computerwurm «Code Red» 2

8) Polnische Pioniere beginnen Deichbruch 1 2

9) Immer mehr Deiche in Polen undicht 2

10) Neue Überschwemmungen in Zentralpolen 1 1

11) Lage in Südpolen bleibt weiter dramatisch 1 4

Vektormodell: Termfrequenz

Page 15: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Vektormodell:normalisierte Termfrequenz: maxl

Dokument max. Frequenz eine Terms im Dokument

1) Weiter Stabilisierung an der Weichsel 4 (Wasser)

2) Russische Behörden melden Cholera 3 (Cholera)

3) «Feuerpause» am Ätna 2 (Ätna, Vulkan, Feuerpause)

4) Ätna auf Sizilien speit Wasser 3 (Wasser)

5) Weiterer Deichabschnitt gesprengt 4 (Deichabschnitt / Deich / Sommerdeich)

6) Millionen-Schaden durch Feuer in Wyoming 6 (Feuer)

7) Angriff von Computerwurm «Code Red» 3 (Angriff, Code Red)

8) Polnische Pioniere beginnen Deichbruch 3 (Deichbruch / Deich, Weichsel)

9) Immer mehr Deiche in Polen undicht 4 (Deich)

10) Neue Überschwemmungen in Zentralpolen 2 (Überschwemmungen, Zentralpolen)

11) Lage in Südpolen bleibt weiter dramatisch 4 (Wasser)

mll

mimi

freq

freqtf

,

,,

max

Page 16: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Dokument Feuer Opfer Schaden Wasser

1) Weiter Stabilisierung an der Weichsel 1

2) Russische Behörden melden Cholera 1 0.33

3) «Feuerpause» am Ätna 1 0.5

4) Ätna auf Sizilien speit Wasser 0.33 1

5) Weiterer Deichabschnitt gesprengt 0.5

6) Millionen-Schaden durch Feuer in Wyoming 1 0.33

7) Angriff von Computerwurm «Code Red» 0.66

8) Polnische Pioniere beginnen Deichbruch 0.33 0.66

9) Immer mehr Deiche in Polen undicht 0.5

10) Neue Überschwemmungen in Zentralpolen 0.5 0.5

11) Lage in Südpolen bleibt weiter dramatisch 0.25 1

Vektormodell:normalisierte Termfrequenz

Page 17: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Dokument Feuer Opfer Schaden Wasser

1) Weiter Stabilisierung an der Weichsel 0.14

2) Russische Behörden melden Cholera 0.56 0.0462

3) «Feuerpause» am Ätna 0.56 0.22

4) Ätna auf Sizilien speit Wasser 0.1452 0.14

5) Weiterer Deichabschnitt gesprengt 0.07

6) Millionen-Schaden durch Feuer in Wyoming 0.56 0.1452

7) Angriff von Computerwurm «Code Red» 0.2904

8) Polnische Pioniere beginnen Deichbruch 0.1848 0.0924

9) Immer mehr Deiche in Polen undicht 0.07

10) Neue Überschwemmungen in Zentralpolen 0.28 0.07

11) Lage in Südpolen bleibt weiter dramatisch 0.14 0.14

Vektormodell: Termgewichtungi

miimimi n

Ntfidftfw log. ,,,

56.3

11log Feueridf 56.

3

11log Opferidf 44.

4

11log Schadenidf 14.

8

11log Wasseridf

Page 18: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Vektormodell: Ähnlichkeit von Dokument und Query

Dokument Feuer Opfer Schaden Wasser

4) Ätna auf Sizilien speit Wasser 0.1452 0.14

x

i qi

x

i mi

x

iqimi

m

ww

wwqdsim

1

2

,1

2

,

1,,

),(

70698.0111114.01452.000

)114.0()11452.0()10()10(),(

222222224

qdsim

Page 19: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Vektormodell: ErgebnisseDokument sim(d,q)

Frequenz

Rang sim(d,q)

norm.Freq

Rang sim(d,q)

tf.idf

Rang

1) Weiter Stabilisierung an der Weichsel 0.50000 5 0.50000 5 0.50000 8

2) Russische Behörden melden Cholera 0.63245 3 0.63150 3 0.53941 7

3) «Feuerpause» am Ätna 0.67082 2 0.67082 2 0.64820 4

4) Ätna auf Sizilien speit Wasser 0.63245 3 0.63150 3 0.70698 2

5) Weiterer Deichabschnitt gesprengt 0.50000 5 0.50000 5 0.50000 8

6) Millionen-Schaden durch Feuer in W. 0.63245 3 0.63150 3 0.60948 5

7) Angriff v. Computerwurm «Code Red» 0.50000 5 0.50000 5 0.50000 8

8) Poln. Pioniere beginnen Deichbruch 0.67082 2 0.67082 2 0.67082 3

9) Immer mehr Deiche in Polen undicht 0.50000 5 0.50000 5 0.50000 8

10) Neue Überschwemmungen in

Zentralpolen

0.70710 1 0.70710 1 0.60633 6

11) Lage in Südpolen bleibt weiter

dramatisch

0.60633 4 0.60633 4 0.70710 1

Page 20: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Vektormodell: Ergebnisse

-6

-5

-4

-3

-2

-1

01 2 3 4 5 6 7 8 9 10 11

Freq

normFreq

Gewicht

tf.idf

Page 21: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Vektormodell: Ergebnisse - Analyse

Dokument 1 ?

2 +

3 -

4 -

5 ?

6 +

7 -

8 ?

9 +

10 +

11 +

Rangtf 5 3 3 3 5 3 5 2 5 1 4 Rangtf.idf 5 4 1 1 5 3 5 2 5 4 1 idf-Werte tf-Werte .56 Feuer 1 1 1 0.33 .56 Opfer 1 0.5 0.25 .44 Schaden 0.5 0.33 0.33 0.66 .14 Wasser 1 0.33 0.5 0.66 0.5 0.5 1 Rang 5 nach tf und idf: Dokumente, in denen nur 1 Term vorkommt

Page 22: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Probabilistisches Modell

Trainingscorpus

Dokument Feuer Opfer Schaden Wasser relevant

1) Weiter Stabilisierung an der Weichsel 1 0

2) Russische Behörden melden Cholera 1 1 1

3) «Feuerpause» am Ätna 1 1 0

4) Ätna auf Sizilien speit Wasser 1 1 0

5) Weiterer Deichabschnitt gesprengt 1 0

6) Millionen-Schaden durch Feuer in Wyoming 1 1 1

reli 1 1 1 1 rel = 2

nreli 1 0 2 3 nrel = 4

exp(svi) 2.33 9 1 0.43

Page 23: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Probabilistisches Modell:Termstatuswerte

9)

125.01

1(145.00

)145.00

1(125.01

Opfer

1)

125.01

1(145.02

)145.02

1(125.01

Schaden

4288.0)

11

5.001(

14

5.03

)14

5.031(

12

5.01

Wasser

33.2)

125.01

1(145.01

)145.01

1(125.01

Feuer

)1(

)1(log

relrel

nrelnrel

nrelnrel

relrel

ii

ii

Korrekturfaktoren:reli + 0.5, nreli + 0.5, rel + 1, nrel +1

Page 24: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Probabilistisches Modell:Neue Dok.: Retrievalstatuswert

Dokument Feuer Opfer Schaden Wasser RSV = 7) Angriff von Computerwurm

0 0 1 0 log(1.00) 0

8) Pioniere beginnen Deichbruch

1 0 0 1 log(2.33) + log(0.43)

0

9) Deiche in Polen undicht

0 0 0 1 log(0.43) -0.366

10) Neue Überschwemmungen

0 1 0 1 log(9) + log(0.43) 0.588

11) Lage in Südpolen dramatisch

0 1 0 1 log(9) + log(0.43) 0.588

Page 25: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Vergleich der ErgebnisseDokument Juror Boole Freq norm.

Freq

tf.idf

Gewicht

probab Pooling

1) Stabilisierung an der Weichsel 0|1 0 0 0 0 0

2) Russ. Behörd. melden Cholera 1 1 1 1 0 0

3) «Feuerpause» am Ätna 0 0 1 1 1 0

4) Ätna auf Sizilien speit Wasser 0 1 1 1 1 1

5) Deichabschnitt gesprengt 0|1 0 0 0 0 0

6) Millionen-Schaden durch Feuer 1 1 1 1 1 1

7) Angriff von Computerwurm 0 0 0 0 0 1 0

8) Pioniere beginnen Deichbruch 0|1 0 1 1 1 1 0

9) Deiche in Polen undicht 1 0 0 0 0 0 0

10) Neue Überschwemmungen 1 1 1 1 1 1 1

11) Lage in Südpolen dramatisch 1 1 1 1 1 1 1

Page 26: 05.02.2008,01.11.2007,05. 11.2006,05.11.2005 (1:26.10.2003) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

05.02.2008,01.11.2007,05.11.2006,05.11.2005 (1:26.10.2003)

Literatur und Danksagung Karin Haenelt (2002)

Retrieval und Ranking von Dokumenten. Ein Übungsbeispiel. Kursskript. 12.12.2001. (letzte Änderung 05.11.2002) 15 S. kontext.fraunhofer.de/haenelt/kurs/folien/Ranking-Uebung.pdf

Vielen Dank

für das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich Olena Beck