SpringerMedizin Suchoptimierung Nemo-Projekt

12
SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1

description

SpringerMedizin Suchoptimierung Nemo-Projekt. Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014. 1. Agenda. Aufgabe/Probleme Vorgehen Demo Methodik Ergebnisse Weiterführung Lessons Learned. 2. Aufgabe/Problem. 3. Vorgehen. Einarbeitung. - PowerPoint PPT Presentation

Transcript of SpringerMedizin Suchoptimierung Nemo-Projekt

Page 1: SpringerMedizin Suchoptimierung Nemo-Projekt

SpringerMedizin SuchoptimierungNemo-Projekt

Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014

1

Page 2: SpringerMedizin Suchoptimierung Nemo-Projekt

Agenda

Aufgabe/Probleme

Vorgehen

Demo

Methodik

Ergebnisse

Weiterführung

Lessons Learned

2

Page 3: SpringerMedizin Suchoptimierung Nemo-Projekt

Aufgabe/Problem

Page 4: SpringerMedizin Suchoptimierung Nemo-Projekt

Einarbeitung

Vorgehen

Solr konfigurieren

Goldstandard

➔ Apache Solr

➔ Spring MVC

➔ Junit /Mockito

➔ VirtualBox

➔ Springer Core

➔ Author Core

➔ Anpassung der Konfigurationsdateien

➔ Indexierung von Beispieldokumenten

➔ MESH anbinden

➔ Suchseite

➔ InstantSearch

➔ Highlighting

➔ Suggestion

➔ Kombination der Cores

➔ Synonyme

➔ Example Queries von Biomedcentral

➔ Suchergebnisse Messen mittels Mean Reciprocal Rank

➔ Visuelle Darstellung des Goldstandards

➔ laden Goldstandard

Datenimport Suche

4

Page 5: SpringerMedizin Suchoptimierung Nemo-Projekt

DEMO

5

Page 6: SpringerMedizin Suchoptimierung Nemo-Projekt

Methodik Indizierung* Indizierung per Implementierung des DataImportHandlers in der solr-Konfiguration

- XML-Dateien von Springer mittels Xpath-Ausdrücken indiziert. - Indizierung der Dokumente mittels gezieltem absenden von Such-Queries evaluiert - 2788 XML-Dateien Indiziert

* Während der Indizierung copyFields für Suggester aufbauen- Suggester in solrconfig.xml implementieren der für diese Felder Vorschläge zurückgibt

Struktur der Indizierung:

* Highlighting in Standart-Solr-Konfiguration vorhanden- Probleme mit Implementierung der hintereinander geschalteten Cores

AuthorName

Article Title

Article SubTitle

Author CoreAuthorGroupGivenNameFamilyName

...

Token + Synonym

Springer Core

6

Page 7: SpringerMedizin Suchoptimierung Nemo-Projekt

Methodik Synonyme

QueryQuery Analyser

Synonyme

Cancer of Breast, Breast Cancer

Index Analyser

Cancer of Breast

Breast Cancer

Breasts Tumor

of

7

Page 8: SpringerMedizin Suchoptimierung Nemo-Projekt

Methodik Datenstruktur/Gold

SearchQuery“cancer”

SearchResultsMapMap(docid,pos)

SearchResultsMap(SearchQuery,SearchResults)

SearchQueryExecution(SearchResults,SearchResults)

Calculate Mean Reciprocal Rank

GoldResult

SearchResult

Metric Table

8

Page 9: SpringerMedizin Suchoptimierung Nemo-Projekt

ErgebnisGoldstandart - Testframework auf Basis von Spring MVC

Das Testframework gibt ein arithmetische Mittel (MRR) aus, um das Ranking-Ergebnis einer Query über eine Anzahl an möglichen Ergebnissenzu evaluieren. Erweiterungen und Änderungen an Solr können direkt bewertet werden.

Indizierung der A++ Struktur

Eine mögliche Lösung für die Indizierung der bisherigen XML-Dokumente in einen Solr-Index ist von uns bereitgestellt.

SolrSuggester, InstantSearch, Autocomplete

Die Nutzung des Suggester von Solr selbst, eine eigene Implementierung des InstantSearches mittels jQuery, sowie eine eigene Implementierung einer Autocomplete-Lösung mittels jQuery ist von uns realisiert worden

9

Page 10: SpringerMedizin Suchoptimierung Nemo-Projekt

ErgebnisVirtualbox

* Virtualbox - Image- funktionsfähige Umgebung- Beispiel für Einrichtung unserer Lösung (Readme - Datei angehangen)

- Auslieferung als .rar oder auch auf DVD möglich

Bereitgestellte Dokumentehow to setup virtualbox containing our solution

https://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20use%20the%20virtual%20box%20%28on%20ubuntu%29how to setup project locally without virtualboxhttps://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20Setup%20the%20projectInfo-document containing team-infos, goals, plannings https://docs.google.com/document/d/1CARvHSsHC3KKxHg2Ox8WaYLaMNNoiAbd_5eksuZ_k-0/edit?usp=sharing

10

Page 11: SpringerMedizin Suchoptimierung Nemo-Projekt

Weiterführung● Highlighting für Synonyme implementieren

● Goldstandard vervollständigen durch gezieltere Datenanalyse

● Erweitern der SolrInstanz um weitere Funktionen(Testen mit dem Testframework)

● Authoren-Namen-Importfilter weiter optimieren

● Synoymen Multi Wildcards

● Trefferlisten sollten die Ergebnisse durchsuchbar machen damit Artikel Informationen verglichen werden können.

11

Page 12: SpringerMedizin Suchoptimierung Nemo-Projekt

Lessons Learned

● Apache Solr und Spring-Applikation in getrennten Repositories versionieren

● Eine einheitliche Server-Instanz in einer VM für das Team bereitstellen, die sowohl Solr als auch Tomcat umfasst aber nicht die Entwicklungsumgebung.

● wissenschaftliche Anfangsanalyse der Eingangsdaten und Problematik durchführen

12