Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten...

16
Morphosaurus Statusreport Mai 2005

Transcript of Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten...

Page 1: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Morphosaurus

Statusreport Mai 2005

Page 2: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Grundidee

• Semantische Indexierung von medizinischern Dokumenten

• Verbesserung des Dokumentenretrievals

• Unterstützung sprachübergreifender Dokumentenrecherche

• Geeignetes Granularitätsniveau:“Subwörter”

Page 3: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Indexierungdurch Subwörter

abdominadenomakutanalysantibiotausmassbasisbiologblutchirurgchronidarmdatendiagnosteingriffempfindlichentzuendepidemiologexpressfamilifapfeinheredithinsichtlichhnpccimmunindikiortitiskarzinklinkolitiskolon

kombinkrankkrohnlymphmodalmolekulmultinonoperation ordnosispankreaspankreatperitonpolypprojektprophylaktpunktresektschwerpunktstellsuppressthematherapueber ulzerversuszeitzielzytzytokin

Page 4: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Indexierungdurch Subwort –

Synonymklassen-IDsqxxqkyyxyqwxyyxqkxzzkqyzyyzqkqkkqkkyqkqzzkyzxqkqqxqxkzqkqxkzkqxqqkkzzkqzyzqyyzyzkkzyxqkzqqyqqqkqxxzxqkzxkqqqqyyyzxkzxqkkkqkzzqkqqzkzyzqkqzzzqqzzyyyyyqkkqyzqqqkqzzkqkyzyyqqkkkkxyzqkzxqkyzkkzqxyqqkqkz

zzyqkkyzxqkzyzzqyzyyzqkqzkqkyzzkqzzkyzqkqqqxxkzyqqxkzxqqkxxqzkqzqzyyyzykykzyqkxzqqqzqkqkqzzxqkyyxkqqqyyyyzxkzxqkkqqkzzqqkzkzqkyqkqzzzqqzzyyqqkzqkqyzqqqqzzkkkyzykqqkkkyqxyzqkqqkqkqy

{entzuend; itis}

{pankreas; pankreat; bauchspeicheldrues}

{periton; bauchfell}

Page 5: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Sprachübergreifende Indexierung

high tsh value s suggest the diagnos is of primar y hypo thyroid ism

er hoeh te tsh wert e erlaub en die diagnos e einer primaer en hypo thyre ose

ZerlegungsalgorithmusSubwort-Lexikon

High TSH values suggest the diagnosis of primary hypo-thyroidism ...

Original

Erhöhte TSH-Werte erlauben die Diagnose einer primären Hypothyreose ...

high tsh values suggest the diagnosis of primary hypo-thyroidism ...

erhoehte tsh-werte erlauben die diagnose einer primaeren hypothyreose ...

Orthografische Regeln

Orthografische Normalisierung

#up tsh #value #suggest #diagnost #primar #small #thyre

Interlingua

#up tsh #value #permit #diagnost #primar #small #thyre Subwort-

Thesaurus

Semantische Normalisierung

Page 6: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Morphosaurus - Komponenten

Kernsystem

• Subwort – Lexikon

• Präprozessor

• Segmentierer / Indexer

• Suchmaschine

Werkzeuge

• Lexikon-Editor (Morphoedit)

• Validierungstools

Page 7: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.
Page 8: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Morphosaurus - Komponenten

Experimentelle Komponenten:

• Akronym-Lerner

• Disambiguierer

• Morphoogle

• Dynamisches Dictionary

• Tools zur automatischen Lexikonaquisition

… basierend auf Ko-Okkurenzinformation aus großen mehrsprachigen Medizinkorpora

Page 9: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.
Page 10: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Stand des Lexikons

• Ca. 65 000 Einträge und 25 000 Äquivalenzklassen

• Sprachen:DeutschEnglischPortugiesischSpanischSchwedischFranzösisch

Page 11: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Partner

• Medizinische Informatik Freiburg:Projektleitung, SW-Entwicklung und Pflege, Lexikonentwicklung

• Computerlinguistik JenaHosting, wissenschaftliche Beratung

• PUCPR Curitiba / BrasilienLexikonentwicklung, Entwicklung von Lexikonwerkzeugen

• SemanticMining-PartnerLexikonentwicklung

Page 12: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Aufgabenverteilung

• Projektleitung: Stefan Schulz, Kornel Marko• Lexikon: Philipp Daumke, Susanne Hanser,

Roosewelt Andrade + 4 Hiwis (D) + 3 Hiwis (Brasilien) + 1-2 (Schweden)

• SW-Entwicklung: Kornel Marko, Philipp Daumke, Edson Pacheco, Jan Pätzold + Hiwis

• Wissenschaft: Stefan Schulz, Kornel Marko, Philipp Daumke, Udo Hahn, Edson Pacheco

• Externe Partner / Kunden:Kornel Marko, (Martin Romacker)

Page 13: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Finanzierung

• EU: NoE SemanticMining (bis 12/06)

• DFG: KoMoDoRe (bis 03/06)

• BMBF: Brasilien-Austausch (bis 12 / 06)

Page 14: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Externe Partner

Machbarkeitsstudien (im Gange): • ZbMED, Köln: Indexierung der

Literaturdatenbank CCMed• Rhön-Kliniken (+ Siemens): “EPA-Google”• IS-GBE (Stat. Bundesamt / RKI) :

Retrievalinterface für Materialien zur Gesundheitsberichterstattung

(geplant)• HCPA (Porto Alegre, Brasilien): Recherche und

Wissensextraktion aus elektronischer Patientenakte

Page 15: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

Potentielle Partner

Termine mit:

• TEMIS group (Text Mining)

• Novartis (Martin Romacker in Text / Knowledge Management – Gruppe)

• DIMDI

Page 16: Morphosaurus Statusreport Mai 2005. Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.

SWOT - Analyse

• Strengths

• Weaknesses

• Opportunities

• Threats