9 . Information Retrieval und Medizinische Literaturdatenbanken

51
9. Information Retrieval und Medizinische Literaturdatenbanken Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz

description

9 . Information Retrieval und Medizinische Literaturdatenbanken. Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz. Dokumentenretrieval. Anfrage (Query). ?. Sucher- gebnisse. Kollektion von Dokumenten (Dokumentationseinheiten). - PowerPoint PPT Presentation

Transcript of 9 . Information Retrieval und Medizinische Literaturdatenbanken

Page 1: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

9. Information Retrieval und Medizinische Literaturdatenbanken

Wintersemester 2010/11Dozent: Univ.-Prof. Dr. med. Stefan Schulz

Page 2: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Sucher-gebnisse

Kollektion von Dokumenten(Dokumentationseinheiten)

Anfrage (Query) ?

Dokumentenretrieval

Page 3: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Problem 1: eindeutige Formulierung der Suchanfrage

Page 4: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Mehrdeutige Begriffe

• Ein Patient kennt das Wort "Ventrikel" nicht und gibt das Wort in eine Suchmaschine ein

• Wo liegt das Problem?

Page 5: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Ventrikel

Page 6: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Zwei Sprachphänomene, die die Textrecherche erschweren

• Synoymie: Ein Gegenstand lässt sich durch

unterschiedliche sprachliche Zeichen ausdrücken

• Homonymie (Ambiguität) : Unterschiedliche

Gegenstände werden mit demselben sprachlichen

Ausdruck belegt

Page 7: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Relevante Dokumente

Page 8: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken
Page 9: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Suchanfrage

Page 10: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Suchanfrage

RelevanteDokumente

Page 11: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Suchanfrage

RelevanteDokumente

Suchmaschine

Page 12: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Suchanfrage

RelevanteDokumente

Page 13: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Eine Suchanfrage…

• Teilt den Dokumentenraum in– Relevante– Nicht relevante Dokumente

• Eine Suchmaschine (IR-System)– Findet relevante, aber auch nichtrelevante– Verfehlt relevante, schließt nichtrelevante aus

Page 14: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

RelevanteDokumente

NichtrelevanteDokumente

GefundeneDokumente

NichtgefundeneDokumente

Page 15: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

RelevanteDokumente

NichtrelevanteDokumente

GefundeneDokumente

NichtgefundeneDokumente

Precision (Genauigkeit):Anteil der relevanten an den gefundenen

Dokumenten

Page 16: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

RelevanteDokumente

NichtrelevanteDokumente

GefundeneDokumente

NichtgefundeneDokumente

Recall (Ausbeute, Sensitivität):Anteil der gefundenen relevanten an allen

relevanten Dokumenten

Page 17: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Übung zu Precision / Recall

• Ein Lehrbuch enthält Krankheitsbeschreibungen zu :Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis.

• Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen• Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als

relevant betrachtet.• Wie ist die Precision, wie der Recall dieser Methode ?• Gegeben eine große (n > 1000) Dokumentenkollektion, was ist

einfacher zu messen, Precision oder Recall ?

Page 18: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Übung zu Precision / Recall

• Ein Lehrbuch enthält Krankheitsbeschreibungen zu :Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis.

• Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen• Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als

relevant betrachtet.• Wie ist die Precision, wie der Recall dieser Methode ?• Gegeben eine große (n > 1000) Dokumentenkollektion, was ist

einfacher zu messen, Precision oder Recall ?

Page 19: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Indexierung

• Feststellen und Kennzeichnen des Inhalts einer Dokumentationseinheit mit Hilfe sogenannter Deskriptoren

• Zuordnung von Deskriptoren zu Dokumentationseinheiten: Indexieren

• Manuelles Indexieren: Zuweisung von Deskriptoren aus einem vorgegebenen Vokabular durch Experten

Page 20: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Manuelles Indexieren

• Beispiel:MEDLINE• Fachkräfte weisen jedem Dokument

Deskriptoren aus einem Indexierungsvokabular zu.

• Indexierungsvokabular: MeSH(Medical Subject Headings)Multihierarchisches Schlagwortsystem

Page 21: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Automatisches Indexieren

• Beispiel: GOOGLE • "Crawler" bewegen sich automatisch /

zufallsgesteuert durch das World Wide Web und erstellen / aktualisieren Index

• Indexierungsvokabular: sämtliche Textwörter minus Stoppwörter

Page 22: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken
Page 23: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Suchmaschinen• Gleichen Anfrage ab mit (asynchron erstelltem) Index• Auswahl und Verknüpfung der Indexterms bedingt die

Dokumentenselektion

Schilddrüsen-krankheiten

Radioaktivität Schilddrüsen-krankheiten

Radioaktivität

Page 24: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Suchmaschinen• Gleichen Anfrage ab mit (asynchron erstelltem) Index• Auswahl und Verknüpfung der Indexterms bedingt die

Dokumentenselektion

AND OR

Page 25: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken
Page 26: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken
Page 27: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Anfragesyntax

• Vorsicht: Jede Suchmaschine hat ihre eigene Syntax

• Typische Operatoren• Boolesche Operatoren: AND OR NOT• Trunkierung, z.B. magen*• Phrasen: "sick sinus syndrome"• Synonyme: ~Kidney (z.B. Google,

aber Vorsicht! )

Page 28: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Medline-Datenbank

• Inhalt: Bibliographische Angaben zu biomedizinischen Publikation in (ausgewählten) wissenschaftlichen Fachzeitschriften und Sammelbänden.

• Anbieter: National Library of Medicine (USA)• 5300 Journals• 37 Sprachen• Referenzen von 1949 bis heute• 2000 – 4000 neue Referenzen täglich

Page 29: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

PubMed Suchoberfläche

• Anbieter: National Library of Medicine• Freier Zugang zur Medline Datenbank

– http://pubmed.gov

Page 30: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

http://www.ncbi.nlm.nih.gov/About/tools/restable_stat_pubmed.html

x 1000

Page 31: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

18.317.256

368.521

417.200

609.632

473.244Medlinein processsupplied by publisherOther [PubMed]OldMedline

Umfang in PubMed Aktualität

Medline in processSupplied by Publisher,Other:

nicht oder unvollständigverschlagwortet

nicht mit MeSH suchbar

Medline:

Verschlagwortung nach einigen Tagen bis zu einigen Monaten

~ 5.300 Medline Journals

20.185.853 Zitate

Am 21.09.2010

Oldmedline wird sukzessive in Medline integriert

Page 32: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

MEDLINE - Datenbankeintrag

Page 33: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

MEDLINE - Datenbankeintrag

Page 34: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Medical Subject Headings (MeSH)

• Ca. 25.000 MeSH-Deskriptoren• 160.000 Entry Terms (Synonyme und

spezifischere Terms)• 76 Subheadings (“Qualifier”)

– “Therapy”, “Prevention and Control”• Definitionen• Indexierungszeitraum

http://www.nlm.nih.gov/pubs/factsheets/mesh.html

Page 35: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

MeSH

• Poly-hierarchische Struktur (ein Term kann mehrere Eltern haben)

All

Diseases Category

Diseases Category

Pathological Conditions, Signs and Symptoms

Digestive System Diseases

Gastrointestinal Diseases Hemorrhage

Gastrointestinal Hemorrhage

Hematemesis Melena Peptic Ulcer Hemorrhage

Page 36: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken
Page 37: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Welche Wörter sollen in einer Textwortsuche verwendet werden?

• Prävention von Ösophagus-varizen-blutungen

Page 38: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Suche nach Primärprophylaxe von Ösophagusvarizenblutungen

1. Beta-blocker plus nitrate for primary prophylaxis of variceal bleeding.

2. Efficacy of prophylactic sclerotherapy for prevention of a first variceal hemorrhage.

3. Beta-blockers for the prevention of variceal haemorrhage in patients with cirrhosis.

4. Primary prevention of bleeding from esophageal varices.

Page 39: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Prevention of variceal bleeding (Textwortsuche)

• Bleeding• Hemorrhage(s)• Haemorrhage(s)

• Variceal• Varices• Varix

• Prophylaxis• Prevention

Page 40: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Prevention of variceal bleeding (Textwortsuche, Trunkierung)

• Bleed*• Hemorrhag*• Haemorrhag*

• Varic*

• Prohyla*• Prevent*

Page 41: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Prevention of variceal bleeding (Textwortsuche, log. Operatoren)

• Bleed*• Hemorrhag*• Haemorrhag*

• Varic*

• Prophyla*• Prevent*

OR

OR

AND

(bleed* OR hemorrhag* OR haemorrhag*) AND varic* AND (prophyla* OR prevent*)

Page 42: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Vorteile:

Synonyme und versch. Schreibweisen werden automatisch berücksichtigt.

Bei hierarchischem Aufbau Suche nach Ober- und Unterbegriffen in einem Schritt.

Inhaltliche Zusammenhänge sind suchbardurch MeSH/Subheading-Kombination.Bsp.: Gastrointestinal Hemorrhage/prevention & control

Artikel durch Fachpersonal verschlagwortetvergebenes Schlagwort ist Gegenstand der Arbeit.

Vor- und Nachteile der Suche mit MeSH

Nachteile:

Uneinheitliche Verschlagwortung(Indexierung)

Zutreffendes wird nicht gefunden.

Aktuelle, noch nicht verschlagwortete Artikel werden nicht gefunden (Komponente Premedline).

Für neue Substanznamen oder neue medizinische Termeexistiert noch kein MeSH.

Page 43: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Suche einschränken

Page 44: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Suche weiter einschränken

Page 45: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Search history

Page 46: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Automatic term mapping

• Naive Suche

• Automatischer Abgleich mit Indexen– MeSH, Journal, Author

Page 47: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken
Page 48: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Expansion von Trunkierungen

Page 49: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

SuchstrategienAnalyse der Fragestellung - PICO - Blöcke bilden (Aspekte)

Suchbegriffe - zu jedem Block

Schlagwortsuche - MeSH - explode (erweitern) - subheadings (eingrenzen)

Textwortsuche - Synonyme - verwandte Begriffe - sprachliche Vielfalt (Trunkierung) E

insc

hrän

kung

(lim

its, f

ilter

)

Kom

bina

tion

(OR

, AN

D)

Page 50: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken

Frage in Blöcke zerlegen(PICO)

Suchbegriffe finden

MeSH-Term(s) - Explode:

erweitern- Subheadings: eingrenzen

Textwörter (verwandte Begriffe, Synonyme, Trunkierung)

Begriffe kombinieren OR

Textwörter (verwandte Begriffe, Synonyme, Trunkierung)

OR

AND

Aspekt 1 Aspekt 2 Evtl. weitereAspekte Suchfilter

z.B. Cochrane highly sensitive search filter for randomized controlled trials.

Aspekte kombinieren

AND

MeSH-Term(s) - Explode:

erweitern- Subheadings: eingrenzen

Page 51: 9 .  Information  Retrieval  und Medizinische Literaturdatenbanken