13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

16
13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking

Transcript of 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

Page 1: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

13.03.2014 lbsffm/pop

Suchportal Informationen zum Ranking

Page 2: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

213.03.2014

Level 0personperson_lc_wordtitle title_lc_word title_lc_phrase topic… Level 1 / Level 2kls_3shelfmark_3topic_3topic_lc_word_3…

Fremddaten(z.B. Titelanreicherungen)

HDS-Index

HDS-IndexCBS-Retro

CBS

Tlw. Einsatz von „Filtern“(Stemming, Phonetische Unschärfe, etc.)

Page 3: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

313.03.2014

Indexierung - Beispiel

Indexfeld Indexierungsverfahren Autor: „Gerthsen, Christian“Titel: „Gerthsen Physik“ wird im Index gespeichert als …

person Wortweise mit Modifikation(Phonetische Unschärfe)

gerdzen | gertsen | dZertsen | tSristjan| xriStjan| xristjan

person_lc_word Wortweise „exakte Schreibweise“(auf Kleinschreibung normiert)

gerthsen | christian

title Wortweise mit Modifikation(Phonetische Unschärfe + „starkes“ Stemming)

gerts | fisik | fizik | phisik | phizik

title_lc_word Wortweise „exakte Schreibweise“(auf Kleinschreibung normiert)

gerthsen | physik

title_lc_phrase Phrase gerthsen physik

misc Wortweise mit Modifikation(„schwaches“ Stemming)

gerths | physik

Page 4: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

413.03.2014

Suchanfrage

Indexfeld Autor: „Gerthsen, Christian“Titel: „Gerthsen Physik“ wird im Index gespeichert als …

Suchanfrage: „Gerdsen Physik“wird im Index gesucht als …

person gerdzen | gertsen | dZertsen | tSristjan| xriStjan| xristjan

gerdzen | gertsen | dZertsen | fisik | fizik | phisik | phizik

title_lc_word gerthsen | physik gerdsen | physik

title_lc_phrase gerthsen physik gerdsen physik

Page 5: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

513.03.2014

DismaxFields: - person - person_lc_word ^5^2 - title_lc_word ^4 - id - isxn - topic ^0.6 - topic_lc_word ^0.6 - topic_3 ^0.5 - topic_lc_word_3 ^0.5 - kls_3 ^0.5 - kls_lc_word_3^0.5 - misc ^0.01 - shelfmark_3 - series_statement ^0.01 - retroocr - retroocr_lc_word - part_of

Ranking-Einstellungen der Einfachen Suche I

Kein eigener ALL-Index, wie im OPAC Stattdessen ein Suchfeld „allfields“, in dem

festgelegt wird, welche Indexfelder bei der Suche berücksichtigt werden

Relevanz-Grundwert multipliziert mit ^Wert

Stärkere Gewichtung / Boosting (>1) bzw. Schwächere Gewichtung (<1) eines Indexfelds

Page 6: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

613.03.2014

Ranking-Einstellungen der Einfachen Suche II

DismaxParams:Parameter zum Einstellen, wie viele Suchbegriffe gefunden werden müssen- [mm, 4<-1 7<80%]Erscheinungsjahr-Boosting- [boost, sum(product(max(0,sum(product(abs(ms(NOW/YEAR,pub_date_max)),- 5.285e-13),1)),6.5),1)]Dämpfung der Relevanzwerte von Titelaufnahmen aus dem Retrokatalog- [boost, if(exists(query({!v='id:HEBr*'})),0.4,1)]Automatische Phrasenbildung- [ps, 3]- [pf, title_lc_word^3 kls_3]

Mehr Infos unter: http://lucidworks.lucidimagination.com/display/solr/The+Extended+DisMax+Query+Parser

Page 7: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

713.03.2014

publisher: DismaxFields: - publisher - publisher_lc_word^5 DismaxParams: - [mm, 4<-1 7<80%] - [bf, product(max(0,sum(product(abs (ms(NOW/YEAR,pub_date_max)), -5.285e-13),1)),250)] QueryFields: - publisher: - [and, 100] - [or, ~] - publisher_lc_word: - [and, 100] - [or, ~]

Ranking-Einstellungen der Erweiterten Suche I

Für die Erweiterte Suche werden die Suchfelder einzeln definiert

allfields

title

fulltitle

author

topic

publisher

misc

shelfmark

isn

Page 8: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

813.03.2014

Ranking-Einstellungen der Erweiterten Suche II

title:DismaxFields: - title_lc_word^2DismaxParams: - [mm, 4<-1 7<80%] - [bf, product(max(0,sum(product (abs(ms(NOW/YEAR,pub_date_max)), -5.285e-13),1)),250)] - [ps, 1] - [pf, title_lc_word]

fulltitle: QueryFields: - title_lc_phrase: - [onephrase, 10]

Suchbegriffe, die nur sinnvoll als Phrase gesucht werden können, z.B. „Vollständiger Titel“, „Klassifikationen“ und „Signaturen“ müssen über den Standard-Query-Parser gesucht werden.

Tlw. andere Parameter als in der Einfachen Suche, da in der Erweiterten Suche nicht alle DisMax-Parameter funktionieren.

Page 9: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

913.03.2014

Auswertung I

https://fantasio.rz.uni-frankfurt.de/ubffm2

Page 10: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

1013.03.2014

Auswertung II

Seitenquelltext anzeigen lassen …

… und diesen komplett kopieren.

Page 11: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

1113.03.2014

Auswertung III

„http://explain.solr.pl“ aufrufen und dort den Seitenquelltext einfügen.

Page 12: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

1213.03.2014

Auswertung IV

Page 13: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

1313.03.2014

Berechnung des Relevanz-Wertes I

Pro Suchbegriff wird für jedes Indexfeld ein Relevanz-Grundwert ermittelt, der sich an Hand der folgenden Kriterien berechnet:

Je seltener ein Suchwort im Index vorhanden ist, desto höher ist sein Beitrag zum Ranking.

Je länger der Feldinhalt ist, in dem ein Suchwort gefunden wurde, desto geringer ist sein Beitrag zum Ranking.

Dokumente, in denen die Suchworte häufiger vorkommen, werden höher bewertet.

Dokumente, in denen mehr Suchworte vorkommen, werden höher bewertet.

Den Relevanz-Grundwert kann man nur bedingt mit den Ranking-Einstellungen in der searchspecs.yaml beeinflussen, z.B. stärker oder schwächer gewichten mit '^'.

Die Berücksichtigung der Feldlänge ist bei bibliographischen Daten allerdings nicht sinnvoll und sollte daher nur bei Indexfeldern mit Volltexten berücksichtigt werden.

Page 14: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

1413.03.2014

Berechnung des Relevanz-Wertes II

Pro Suchbegriff wird für jedes Indexfeld ein Relevanz-Grundwert ermittelt.

Page 15: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

1513.03.2014

Berechnung des Relevanz-Wertes III

Pro Suchbegriff wird der größte Relevanz-Grundwert eines Indexfeldes mit der Summe der übrigen Relevanz-Grundwerte x 0,1 * addiert.

1,5657005 + ((0,642657 + 0,0003096999 + 0,3055427 + 0,3834857) x 0,1) = 1,6989001

* Der Faktor kann über den "tie-Parameter" geändert werden.

Page 16: 13.03.2014 lbsffm/pop Suchportal Informationen zum Ranking.

1613.03.2014

Berechnung des Relevanz-Wertes IV

Die so ermittelten Werte werden addiert und mit dem Wert des Erscheinungsjahr-Boostings multipliziert.

(0,99749726 + 1,6989001) x 7,066367 = 19.053734