9 . Information Retrieval und Medizinische Literaturdatenbanken

Post on 23-Feb-2016

34 views 0 download

description

9 . Information Retrieval und Medizinische Literaturdatenbanken. Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz. Dokumentenretrieval. Anfrage (Query). ?. Sucher- gebnisse. Kollektion von Dokumenten (Dokumentationseinheiten). - PowerPoint PPT Presentation

Transcript of 9 . Information Retrieval und Medizinische Literaturdatenbanken

9. Information Retrieval und Medizinische Literaturdatenbanken

Wintersemester 2010/11Dozent: Univ.-Prof. Dr. med. Stefan Schulz

Sucher-gebnisse

Kollektion von Dokumenten(Dokumentationseinheiten)

Anfrage (Query) ?

Dokumentenretrieval

Problem 1: eindeutige Formulierung der Suchanfrage

Mehrdeutige Begriffe

• Ein Patient kennt das Wort "Ventrikel" nicht und gibt das Wort in eine Suchmaschine ein

• Wo liegt das Problem?

Ventrikel

Zwei Sprachphänomene, die die Textrecherche erschweren

• Synoymie: Ein Gegenstand lässt sich durch

unterschiedliche sprachliche Zeichen ausdrücken

• Homonymie (Ambiguität) : Unterschiedliche

Gegenstände werden mit demselben sprachlichen

Ausdruck belegt

Relevante Dokumente

Suchanfrage

Suchanfrage

RelevanteDokumente

Suchanfrage

RelevanteDokumente

Suchmaschine

Suchanfrage

RelevanteDokumente

Eine Suchanfrage…

• Teilt den Dokumentenraum in– Relevante– Nicht relevante Dokumente

• Eine Suchmaschine (IR-System)– Findet relevante, aber auch nichtrelevante– Verfehlt relevante, schließt nichtrelevante aus

RelevanteDokumente

NichtrelevanteDokumente

GefundeneDokumente

NichtgefundeneDokumente

RelevanteDokumente

NichtrelevanteDokumente

GefundeneDokumente

NichtgefundeneDokumente

Precision (Genauigkeit):Anteil der relevanten an den gefundenen

Dokumenten

RelevanteDokumente

NichtrelevanteDokumente

GefundeneDokumente

NichtgefundeneDokumente

Recall (Ausbeute, Sensitivität):Anteil der gefundenen relevanten an allen

relevanten Dokumenten

Übung zu Precision / Recall

• Ein Lehrbuch enthält Krankheitsbeschreibungen zu :Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis.

• Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen• Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als

relevant betrachtet.• Wie ist die Precision, wie der Recall dieser Methode ?• Gegeben eine große (n > 1000) Dokumentenkollektion, was ist

einfacher zu messen, Precision oder Recall ?

Übung zu Precision / Recall

• Ein Lehrbuch enthält Krankheitsbeschreibungen zu :Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis.

• Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen• Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als

relevant betrachtet.• Wie ist die Precision, wie der Recall dieser Methode ?• Gegeben eine große (n > 1000) Dokumentenkollektion, was ist

einfacher zu messen, Precision oder Recall ?

Indexierung

• Feststellen und Kennzeichnen des Inhalts einer Dokumentationseinheit mit Hilfe sogenannter Deskriptoren

• Zuordnung von Deskriptoren zu Dokumentationseinheiten: Indexieren

• Manuelles Indexieren: Zuweisung von Deskriptoren aus einem vorgegebenen Vokabular durch Experten

Manuelles Indexieren

• Beispiel:MEDLINE• Fachkräfte weisen jedem Dokument

Deskriptoren aus einem Indexierungsvokabular zu.

• Indexierungsvokabular: MeSH(Medical Subject Headings)Multihierarchisches Schlagwortsystem

Automatisches Indexieren

• Beispiel: GOOGLE • "Crawler" bewegen sich automatisch /

zufallsgesteuert durch das World Wide Web und erstellen / aktualisieren Index

• Indexierungsvokabular: sämtliche Textwörter minus Stoppwörter

Suchmaschinen• Gleichen Anfrage ab mit (asynchron erstelltem) Index• Auswahl und Verknüpfung der Indexterms bedingt die

Dokumentenselektion

Schilddrüsen-krankheiten

Radioaktivität Schilddrüsen-krankheiten

Radioaktivität

Suchmaschinen• Gleichen Anfrage ab mit (asynchron erstelltem) Index• Auswahl und Verknüpfung der Indexterms bedingt die

Dokumentenselektion

AND OR

Anfragesyntax

• Vorsicht: Jede Suchmaschine hat ihre eigene Syntax

• Typische Operatoren• Boolesche Operatoren: AND OR NOT• Trunkierung, z.B. magen*• Phrasen: "sick sinus syndrome"• Synonyme: ~Kidney (z.B. Google,

aber Vorsicht! )

Medline-Datenbank

• Inhalt: Bibliographische Angaben zu biomedizinischen Publikation in (ausgewählten) wissenschaftlichen Fachzeitschriften und Sammelbänden.

• Anbieter: National Library of Medicine (USA)• 5300 Journals• 37 Sprachen• Referenzen von 1949 bis heute• 2000 – 4000 neue Referenzen täglich

PubMed Suchoberfläche

• Anbieter: National Library of Medicine• Freier Zugang zur Medline Datenbank

– http://pubmed.gov

http://www.ncbi.nlm.nih.gov/About/tools/restable_stat_pubmed.html

x 1000

18.317.256

368.521

417.200

609.632

473.244Medlinein processsupplied by publisherOther [PubMed]OldMedline

Umfang in PubMed Aktualität

Medline in processSupplied by Publisher,Other:

nicht oder unvollständigverschlagwortet

nicht mit MeSH suchbar

Medline:

Verschlagwortung nach einigen Tagen bis zu einigen Monaten

~ 5.300 Medline Journals

20.185.853 Zitate

Am 21.09.2010

Oldmedline wird sukzessive in Medline integriert

MEDLINE - Datenbankeintrag

MEDLINE - Datenbankeintrag

Medical Subject Headings (MeSH)

• Ca. 25.000 MeSH-Deskriptoren• 160.000 Entry Terms (Synonyme und

spezifischere Terms)• 76 Subheadings (“Qualifier”)

– “Therapy”, “Prevention and Control”• Definitionen• Indexierungszeitraum

http://www.nlm.nih.gov/pubs/factsheets/mesh.html

MeSH

• Poly-hierarchische Struktur (ein Term kann mehrere Eltern haben)

All

Diseases Category

Diseases Category

Pathological Conditions, Signs and Symptoms

Digestive System Diseases

Gastrointestinal Diseases Hemorrhage

Gastrointestinal Hemorrhage

Hematemesis Melena Peptic Ulcer Hemorrhage

Welche Wörter sollen in einer Textwortsuche verwendet werden?

• Prävention von Ösophagus-varizen-blutungen

Suche nach Primärprophylaxe von Ösophagusvarizenblutungen

1. Beta-blocker plus nitrate for primary prophylaxis of variceal bleeding.

2. Efficacy of prophylactic sclerotherapy for prevention of a first variceal hemorrhage.

3. Beta-blockers for the prevention of variceal haemorrhage in patients with cirrhosis.

4. Primary prevention of bleeding from esophageal varices.

Prevention of variceal bleeding (Textwortsuche)

• Bleeding• Hemorrhage(s)• Haemorrhage(s)

• Variceal• Varices• Varix

• Prophylaxis• Prevention

Prevention of variceal bleeding (Textwortsuche, Trunkierung)

• Bleed*• Hemorrhag*• Haemorrhag*

• Varic*

• Prohyla*• Prevent*

Prevention of variceal bleeding (Textwortsuche, log. Operatoren)

• Bleed*• Hemorrhag*• Haemorrhag*

• Varic*

• Prophyla*• Prevent*

OR

OR

AND

(bleed* OR hemorrhag* OR haemorrhag*) AND varic* AND (prophyla* OR prevent*)

Vorteile:

Synonyme und versch. Schreibweisen werden automatisch berücksichtigt.

Bei hierarchischem Aufbau Suche nach Ober- und Unterbegriffen in einem Schritt.

Inhaltliche Zusammenhänge sind suchbardurch MeSH/Subheading-Kombination.Bsp.: Gastrointestinal Hemorrhage/prevention & control

Artikel durch Fachpersonal verschlagwortetvergebenes Schlagwort ist Gegenstand der Arbeit.

Vor- und Nachteile der Suche mit MeSH

Nachteile:

Uneinheitliche Verschlagwortung(Indexierung)

Zutreffendes wird nicht gefunden.

Aktuelle, noch nicht verschlagwortete Artikel werden nicht gefunden (Komponente Premedline).

Für neue Substanznamen oder neue medizinische Termeexistiert noch kein MeSH.

Suche einschränken

Suche weiter einschränken

Search history

Automatic term mapping

• Naive Suche

• Automatischer Abgleich mit Indexen– MeSH, Journal, Author

Expansion von Trunkierungen

SuchstrategienAnalyse der Fragestellung - PICO - Blöcke bilden (Aspekte)

Suchbegriffe - zu jedem Block

Schlagwortsuche - MeSH - explode (erweitern) - subheadings (eingrenzen)

Textwortsuche - Synonyme - verwandte Begriffe - sprachliche Vielfalt (Trunkierung) E

insc

hrän

kung

(lim

its, f

ilter

)

Kom

bina

tion

(OR

, AN

D)

Frage in Blöcke zerlegen(PICO)

Suchbegriffe finden

MeSH-Term(s) - Explode:

erweitern- Subheadings: eingrenzen

Textwörter (verwandte Begriffe, Synonyme, Trunkierung)

Begriffe kombinieren OR

Textwörter (verwandte Begriffe, Synonyme, Trunkierung)

OR

AND

Aspekt 1 Aspekt 2 Evtl. weitereAspekte Suchfilter

z.B. Cochrane highly sensitive search filter for randomized controlled trials.

Aspekte kombinieren

AND

MeSH-Term(s) - Explode:

erweitern- Subheadings: eingrenzen