Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung...

30
Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum Freiburg

Transcript of Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung...

Page 1: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Verbesserung der Recherche in medizinischen Textkollektionen

durch Wortstamm-basierte Indexierung

Stefan Schulz

Abteilung Medizinische Informatik,Universitätsklinikum Freiburg

Page 2: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.
Page 3: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.
Page 4: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Anfrage an ein Textretrieval-System (Suchmaschine): „Grauer Star“

Page 5: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Vögel und MerkmaleUnsere Vögel und ihre Merkmale (die Namen in Klammern sind von den Wölflingen, die die Merkmale zusammengetragen haben). Blaumeise. ... Star. ... grauer Kopf. (Michi). ... www.pfadfinder-traustadt.de/wir/meute/ projekte/voegel/voegelundmerkmale.htm - 13k

Vogelgeschichten - Der kleine Star... Keine Katze, kein Hund, kein älterer grauer Mann ... auf dem Friedhof auskannte, bat die anderen Vögel und auch ... Eines Tages traf der Star zwei kleine Eichhörnchen ... www.tiergeschichten.de/voegel/derkleinestar.htm - 21k -

Anfrage an ein Textretrieval-System (Suchmaschine): „Grauer Star“

Suchmaschine findet u.a. nicht relevante Dokumente:

Page 6: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Vögel und MerkmaleUnsere Vögel und ihre Merkmale (die Namen in Klammern sind von den Wölflingen, die die Merkmale zusammengetragen haben). Blaumeise. ... Star. ... grauer Kopf. (Michi). ... www.pfadfinder-traustadt.de/wir/meute/ projekte/voegel/voegelundmerkmale.htm - 13k

Vogelgeschichten - Der kleine Star... Keine Katze, kein Hund, kein älterer grauer Mann ... auf dem Friedhof auskannte, bat die anderen Vögel und auch ... Eines Tages traf der Star zwei kleine Eichhörnchen ... www.tiergeschichten.de/voegel/derkleinestar.htm - 21k -

Anfrage an ein Textretrieval-System (Suchmaschine): „Grauer Star“

Suchmaschine findet u.a. nicht relevante Dokumente:

Suchmaschine findet relevante Dokumente nicht:

Patienteninformationen/Vorderer Abschnitt des Auges/Der graue Star ...... Patienteninformationen/Vorderer Abschnitt des Auges/Der graue Star (Katarakt),Druckversion. ... Der Graue Star (Katarakt). ... Wie wird der Graue Star behandelt? ... www.uniklinikum-giessen.de/augen/katarakt.html - 26k

Erhöhtes Katarakt-Risiko auch bei inhalierten SteroidenBad Drug News -- Erhöhtes Katarakt-Risiko auch bei inhalierten Steroiden. ... (UPM) Eine Therapie mit Steroiden bedeutet ein erhöhtes Katarakt-Risiko. ... www.infomed.org/bad-drug-news/bdn115.html -

Page 7: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Textretrieval

Dokumentenkollektion

Doku-menten-RetrievalSystem

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ...

Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer

Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

basisprojektblutlymphozytencarcinomachirurgiechronischcolitiscoloncolonkarzinomsdarmerkrankungdarmlymphozytendatendiagnostikeingriffeneinschließlich

Dokumenten-index

Page 8: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Textretrieval

Dokumentenkollektion

Doku-menten-RetrievalSystem

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ...

Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer

Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

basisprojektblutlymphozytencarcinomachirurgiechronischcolitiscoloncolonkarzinomsdarmerkrankungdarmlymphozytendatendiagnostikeingriffeneinschließlich

Dokumenten-index

Anfrage(“query”)?

Page 9: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

TextretrievalAnfrage(“query”)?

Dokumentenkollektion

Doku-menten-RetrievalSystem

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ...

Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer

Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

basisprojektblutlymphozytencarcinomachirurgiechronischcolitiscoloncolonkarzinomsdarmerkrankungdarmlymphozytendatendiagnostikeingriffeneinschließlich

Relevanz

Dokumenten-index

Page 10: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Textretrieval

Ergebnisse der Recherche

Anfrage(“query”)?

Dokumentenkollektion

Doku-menten-RetrievalSystem

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ...

Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer

Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ...

Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ...

Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

basisprojektblutlymphozytencarcinomachirurgiechronischcolitiscoloncolonkarzinomsdarmerkrankungdarmlymphozytendatendiagnostikeingriffeneinschließlich

Dokumenten-index

Relevanz

Page 11: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Textretrieval

Ergebnisse der Recherche

Anfrage(“query”)?

Dokumentenkollektion

Doku-menten-RetrievalSystem

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ...

Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer

Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ... Vogelgeschichten - Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ...

Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... grauer Kopf. (Michi). ...

Der kleine Star... Keine Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

Vögel und MerkmaleUnsere Vögel und ihre Merkmale Wölflingen, die die MerkmaleStar. ... Katze, auf dem Friedhof auskannte, Tages traf der Star zwei kleine

basisprojektblutlymphozytencarcinomachirurgiechronischcolitiscoloncolonkarzinomsdarmerkrankungdarmlymphozytendatendiagnostikeingriffeneinschließlich

Dokumenten-index

Relevanz

Page 12: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Automatische Indexierung:Wortindex

abdominalchirurgischenadenomatöseakuteanalyseantibiotikatherapieausmaßbasisprojektblutlymphozytencarcinomachirurgiechronischcolitiscoloncolonkarzinomsdarmerkrankungendarmlymphozytendatendiagnostikeingriffeneinschließlichempfindlichkeitentzündlicheepidemiologischer

Page 13: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

abdominalchirurgischenadenomatöseakuteanalyseantibiotikatherapieausmaßbasisprojektblutlymphozytencarcinomachirurgiechronischcolitiscoloncolonkarzinomsdarmerkrankungendarmlymphozytendatendiagnostikeingriffeneinschließlichempfindlichkeitentzündlicheepidemiologischer

Page 14: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Indexierung auf Wort-Ebene Probleme:

Linguistische Phänomene erschweren medizinisches Text-Retrieval, z.B.

Morphologische Prozesse: Flexion: Leukozyt <> Leukozyten, Ulcus <> ulcera Derivation: Leukozyt <> leukozytär Komposition: Leuk|ämie, Rechts|herz|insuffizienz

Orthographische Variation Karzinom <> Carcinom <> Carzinom

Synonymie, Variationen der Rechtschreibung: Ascorbinsäure <> Vitamin C, Haut <> Cutis

Page 15: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Lösungsansatz:Subwort-Index statt Wort-Index

Subwörter sind atomare Begriffs- oder linguistische Einheiten: Stämme: verletz, entzünd, magen, schleimhaut Präfixe: ab-, an-, anti-, ge-, hervor-, hyper- Suffixe: -abel, -bar, -haft, -ion, -itis Infixe: -o-, -s-

Synonyme Subwörter werden in Synonymklassen gruppiert: kqxqqk = {nephr, niere, kidney} yxwqzv = {leber, hepat, liver}

Page 16: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Ressourcen Subwort-Lexikon:

Organisiert und klassifiziert medizinspezifische Subwörter und Affixe in mehreren Sprachen (derzeit Deutsch, Englisch, Portugiesisch, ca. 25.000 Einträge), Spanisch, Französisch, Schwedisch im Aufbau

Subwort-Thesaurus: Gruppiert synonyme Lexikoneinträge

Morphosyntaktischer Parser: Extrahiert aus Texten Subwörter und ordnet ihnen

Synonymklassen – IDs zu

Page 17: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Indexierungdurch Subwörter

abdominadenomakutanalysantibiotausmassbasisbiologblutchirurgchronidarmdatendiagnosteingriffempfindlichentzuendepidemiologexpressfamilifapfeinheredithinsichtlichhnpccimmunindikiortitiskarzinklinkolitiskolon

kombinkrankkrohnlymphmodalmolekulmultinonoperation ordnosispankreaspankreatperitonpolypprojektprophylaktpunktresektschwerpunktstellsuppressthematherapueber ulzerversuszeitzielzytzytokin

Page 18: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Indexierungdurch Subwort – Synonymklassen-IDs

qxxqkyyxyqwxyyxqkxzzkqyzyyzqkqkkqkkyqkqzzkyzxqkqqxqxkzqkqxkzkqxqqkkzzkqzyzqyyzyzkkzyxqkzqqyqqqkqxxzxqkzxkqqqqyyyzxkzxqkkkqkzzqkqqzkzyzqkqzzzqqzzyyyyyqkkqyzqqqkqzzkqkyzyyqqkkkkxyzqkzxqkyzkkzqxyqqkqkz

zzyqkkyzxqkzyzzqyzyyzqkqzkqkyzzkqzzkyzqkqqqxxkzyqqxkzxqqkxxqzkqzqzyyyzykykzyqkxzqqqzqkqkqzzxqkyyxkqqqyyyyzxkzxqkkqqkzzqqkzkzqkyqkqzzzqqzzyyqqkzqkqyzqqqqzzkkkyzykqqkkkyqxyzqkqqkqkqy

{entzuend; itis}

{pankreas; pankreat; bauchspeicheldrues}

{periton; bauchfell}

Page 19: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Evaluation

Wissenschaftliche Fragestellung:

Verbessert ein automatisch erstellter

Subwort-Index die Recherche in

medizinischen Dokumentenbeständen ?

Page 20: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Dokument 01 Dokument 02Dokument 03Dokument 04 Dokument 05Dokument 06 Dokument 07Dokument 08 Dokument 09Dokument 10 Dokument 11Dokument 12 Dokument 13Dokument 14 Dokument 15Dokument 16 Dokument 17Dokument 18 Dokument 19Dokument 20 Dokument 21Dokument 22 Dokument 23Dokument 24Dokument 25

Textretrievalsysteme: Evaluationsmethodik

Kenngrößen:Dokument 05 Dokument 16Dokument 21Dokument 22 Dokument 02Dokument 25 Dokument 20Dokument 10Dokument 07 Dokument 18Dokument 04 Dokument 12Dokument 11 Dokument 24Dokument 15Dokument 09 Dokument 17Dokument 08Dokument 19Dokument 13 Dokument 03Dokument 14Dokument 23Dokument 01Dokument 06

precision = 67% recall = 25%

Anfrage X

Precision/Recall-Diagramme bei geranktem OutputBeispiel: 25 Dokumente, 8 relevant

okumentegefundeneD

okumenterelevanteDgefundene

n

nprecision

okumenterelevanteD

okumenterelevanteDgefundene

n

nrecall

Page 21: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Dokument 01 Dokument 02Dokument 03Dokument 04 Dokument 05Dokument 06 Dokument 07Dokument 08 Dokument 09Dokument 10 Dokument 11Dokument 12 Dokument 13Dokument 14 Dokument 15Dokument 16 Dokument 17Dokument 18 Dokument 19Dokument 20 Dokument 21Dokument 22 Dokument 23Dokument 24Dokument 25

Textretrievalsysteme: Evaluationsmethodik

Dokument 05 Dokument 16Dokument 21Dokument 22 Dokument 02Dokument 25 Dokument 20Dokument 10Dokument 07 Dokument 18Dokument 04 Dokument 12Dokument 11 Dokument 24Dokument 15Dokument 09 Dokument 17Dokument 08Dokument 19Dokument 13 Dokument 03Dokument 14Dokument 23Dokument 01Dokument 06

precision = recall =

Anfrage X

Precision/Recall-Diagramme bei geranktem OutputBeispiel: 25 Dokumente, 8 relevant

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100

Recall (%)

Pre

cisi

on

(%

)

Page 22: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Dokument 01 Dokument 02Dokument 03Dokument 04 Dokument 05Dokument 06 Dokument 07Dokument 08 Dokument 09Dokument 10 Dokument 11Dokument 12 Dokument 13Dokument 14 Dokument 15Dokument 16 Dokument 17Dokument 18 Dokument 19Dokument 20 Dokument 21Dokument 22 Dokument 23Dokument 24Dokument 25

Textretrievalsysteme: Evaluationsmethodik

Dokument 05 Dokument 16Dokument 21Dokument 22 Dokument 02Dokument 25 Dokument 20Dokument 10Dokument 07 Dokument 18Dokument 04 Dokument 12Dokument 11 Dokument 24Dokument 15Dokument 09 Dokument 17Dokument 08Dokument 19Dokument 13 Dokument 03Dokument 14Dokument 23Dokument 01Dokument 06

precision = 60% recall = 38%

Anfrage X

Precision/Recall-Diagramme bei geranktem OutputBeispiel: 25 Dokumente, 8 relevant

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100

Recall (%)

Pre

cisi

on

(%

)

Page 23: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Dokument 01 Dokument 02Dokument 03Dokument 04 Dokument 05Dokument 06 Dokument 07Dokument 08 Dokument 09Dokument 10 Dokument 11Dokument 12 Dokument 13Dokument 14 Dokument 15Dokument 16 Dokument 17Dokument 18 Dokument 19Dokument 20 Dokument 21Dokument 22 Dokument 23Dokument 24Dokument 25

Textretrievalsysteme: Evaluationsmethodik

Dokument 05 Dokument 16Dokument 21Dokument 22 Dokument 02Dokument 25 Dokument 20Dokument 10Dokument 07 Dokument 18Dokument 04 Dokument 12Dokument 11 Dokument 24Dokument 15Dokument 09 Dokument 17Dokument 08Dokument 19Dokument 13 Dokument 03Dokument 14Dokument 23Dokument 01Dokument 06

precision = 57% recall = 50%

Anfrage X

Precision/Recall-Diagramme bei geranktem OutputBeispiel: 25 Dokumente, 8 relevant

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100

Recall (%)

Pre

cisi

on

(%

)

Page 24: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Dokument 01 Dokument 02Dokument 03Dokument 04 Dokument 05Dokument 06 Dokument 07Dokument 08 Dokument 09Dokument 10 Dokument 11Dokument 12 Dokument 13Dokument 14 Dokument 15Dokument 16 Dokument 17Dokument 18 Dokument 19Dokument 20 Dokument 21Dokument 22 Dokument 23Dokument 24Dokument 25

Textretrievalsysteme: Evaluationsmethodik

Dokument 05 Dokument 16Dokument 21Dokument 22 Dokument 02Dokument 25 Dokument 20Dokument 10Dokument 07 Dokument 18Dokument 04 Dokument 12Dokument 11 Dokument 24Dokument 15Dokument 09 Dokument 17Dokument 08Dokument 19Dokument 13 Dokument 03Dokument 14Dokument 23Dokument 01Dokument 06

precision = 55% recall = 63%

Anfrage X

Precision/Recall-Diagramme bei geranktem OutputBeispiel: 25 Dokumente, 8 relevant

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100

Recall (%)

Pre

cisi

on

(%

)

Page 25: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Dokument 01 Dokument 02Dokument 03Dokument 04 Dokument 05Dokument 06 Dokument 07Dokument 08 Dokument 09Dokument 10 Dokument 11Dokument 12 Dokument 13Dokument 14 Dokument 15Dokument 16 Dokument 17Dokument 18 Dokument 19Dokument 20 Dokument 21Dokument 22 Dokument 23Dokument 24Dokument 25

Textretrievalsysteme: Evaluationsmethodik

Dokument 05 Dokument 16Dokument 21Dokument 22 Dokument 02Dokument 25 Dokument 20Dokument 10Dokument 07 Dokument 18Dokument 04 Dokument 12Dokument 11 Dokument 24Dokument 15Dokument 09 Dokument 17Dokument 08Dokument 19Dokument 13 Dokument 03Dokument 14Dokument 23Dokument 01Dokument 06

precision = 54% recall = 75%

Anfrage X

Precision/Recall-Diagramme bei geranktem OutputBeispiel: 25 Dokumente, 8 relevant

0

10

20

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90 100

Recall (%)

Pre

cisi

on

(%

)

Page 26: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Evaluationsszenarien

Szenario 1 Szenario 2

Sprachen D: DeutschQ: Deutsch

D: EnglischQ: Deutsch, Englisch

Dokumente MSD-Manual (|D| = 5.500)

MEDLINE-Abstracts(|D| = 233.000)

Anfragen |Q| = 25 (nach IMPP-Fragen durch Medizinstudenten, Uni FR)

|Q| = 106 (Oregon Health Science Univ.)Übersetzung durch Medizin-studenten ins Deutsche

Goldstandard: D Q {rel, n.rel}

Relevanzurteile durch Einzelbewerung Medizinstudenten, Uni FR

Relevanzurteile durch MeSH-vermittelte Medline-Anfragen und manuelle Nachbearbeitung durch med. Dokumentare

Page 27: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Ergebnisse

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Pre

cisi

on

D – D – Wortbasierter Index

D – D – Subwort- Synonymkl.

0,5

0,55

0,6

0,65

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Recall

Pre

cisi

on

E – E – Wortbasierter Index

D – E – Subwort- Synonymklassen

D – E – Automatische Anfrageübersetzung 0,5

0,55

0,6

0,65

Szenario 1 Szenario 2

Page 28: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Folgerung

Indexierung mit Subwort-Synonymklassen verbessert das Retrieval in medizinischen Textkollektionen

Nachweis für sprachinternes Retrieval (deutsch-deutsch) und für sprachübergreifendes Retrieval (deutsch-englisch)

Abdeckunggsgrad und Qualität des Lexikons von entscheidender Bedeutung

Page 29: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

Stand des Projekts

Finanzierung: DFG – Projekt KoMoDoRe BMBF – Internationales Büro: Wissenschaftleraustausch EU – SemanticMining Network of Excellence

Partner: Universitätsklinikum Freiburg, Medizinische Informatik

(Projektleitung) Universität Jena, Abteilung Computerlinguistik Katholische Universität Paraná, Curitiba, Brasilien Sahlgrenska Universitätsklinikum Göteborg, Schweden Universität Göteborg, Schwedische Sprachwissenschaft Kantonshospital Genf, Medizinische Informatik

Page 30: Verbesserung der Recherche in medizinischen Textkollektionen durch Wortstamm-basierte Indexierung Stefan Schulz Abteilung Medizinische Informatik, Universitätsklinikum.

www.morphosaurus.de