SpringerMedizin Suchoptimierung Nemo-Projekt
-
Upload
hashim-torres -
Category
Documents
-
view
19 -
download
0
description
Transcript of SpringerMedizin Suchoptimierung Nemo-Projekt
SpringerMedizin SuchoptimierungNemo-Projekt
Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014
1
Agenda
Aufgabe/Probleme
Vorgehen
Demo
Methodik
Ergebnisse
Weiterführung
Lessons Learned
2
Aufgabe/Problem
Einarbeitung
Vorgehen
Solr konfigurieren
Goldstandard
➔ Apache Solr
➔ Spring MVC
➔ Junit /Mockito
➔ VirtualBox
➔ Springer Core
➔ Author Core
➔ Anpassung der Konfigurationsdateien
➔ Indexierung von Beispieldokumenten
➔ MESH anbinden
➔ Suchseite
➔ InstantSearch
➔ Highlighting
➔ Suggestion
➔ Kombination der Cores
➔ Synonyme
➔ Example Queries von Biomedcentral
➔ Suchergebnisse Messen mittels Mean Reciprocal Rank
➔ Visuelle Darstellung des Goldstandards
➔ laden Goldstandard
Datenimport Suche
4
DEMO
5
Methodik Indizierung* Indizierung per Implementierung des DataImportHandlers in der solr-Konfiguration
- XML-Dateien von Springer mittels Xpath-Ausdrücken indiziert. - Indizierung der Dokumente mittels gezieltem absenden von Such-Queries evaluiert - 2788 XML-Dateien Indiziert
* Während der Indizierung copyFields für Suggester aufbauen- Suggester in solrconfig.xml implementieren der für diese Felder Vorschläge zurückgibt
Struktur der Indizierung:
* Highlighting in Standart-Solr-Konfiguration vorhanden- Probleme mit Implementierung der hintereinander geschalteten Cores
AuthorName
Article Title
Article SubTitle
Author CoreAuthorGroupGivenNameFamilyName
...
Token + Synonym
Springer Core
6
Methodik Synonyme
QueryQuery Analyser
Synonyme
Cancer of Breast, Breast Cancer
Index Analyser
Cancer of Breast
Breast Cancer
Breasts Tumor
of
7
Methodik Datenstruktur/Gold
SearchQuery“cancer”
SearchResultsMapMap(docid,pos)
SearchResultsMap(SearchQuery,SearchResults)
SearchQueryExecution(SearchResults,SearchResults)
Calculate Mean Reciprocal Rank
GoldResult
SearchResult
Metric Table
8
ErgebnisGoldstandart - Testframework auf Basis von Spring MVC
Das Testframework gibt ein arithmetische Mittel (MRR) aus, um das Ranking-Ergebnis einer Query über eine Anzahl an möglichen Ergebnissenzu evaluieren. Erweiterungen und Änderungen an Solr können direkt bewertet werden.
Indizierung der A++ Struktur
Eine mögliche Lösung für die Indizierung der bisherigen XML-Dokumente in einen Solr-Index ist von uns bereitgestellt.
SolrSuggester, InstantSearch, Autocomplete
Die Nutzung des Suggester von Solr selbst, eine eigene Implementierung des InstantSearches mittels jQuery, sowie eine eigene Implementierung einer Autocomplete-Lösung mittels jQuery ist von uns realisiert worden
9
ErgebnisVirtualbox
* Virtualbox - Image- funktionsfähige Umgebung- Beispiel für Einrichtung unserer Lösung (Readme - Datei angehangen)
- Auslieferung als .rar oder auch auf DVD möglich
Bereitgestellte Dokumentehow to setup virtualbox containing our solution
https://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20use%20the%20virtual%20box%20%28on%20ubuntu%29how to setup project locally without virtualboxhttps://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20Setup%20the%20projectInfo-document containing team-infos, goals, plannings https://docs.google.com/document/d/1CARvHSsHC3KKxHg2Ox8WaYLaMNNoiAbd_5eksuZ_k-0/edit?usp=sharing
10
Weiterführung● Highlighting für Synonyme implementieren
● Goldstandard vervollständigen durch gezieltere Datenanalyse
● Erweitern der SolrInstanz um weitere Funktionen(Testen mit dem Testframework)
● Authoren-Namen-Importfilter weiter optimieren
● Synoymen Multi Wildcards
● Trefferlisten sollten die Ergebnisse durchsuchbar machen damit Artikel Informationen verglichen werden können.
11
Lessons Learned
● Apache Solr und Spring-Applikation in getrennten Repositories versionieren
● Eine einheitliche Server-Instanz in einer VM für das Team bereitstellen, die sowohl Solr als auch Tomcat umfasst aber nicht die Entwicklungsumgebung.
● wissenschaftliche Anfangsanalyse der Eingangsdaten und Problematik durchführen
12