FRaMed Ein medizinisches Textkorpus des Deutschen

9
FRaMed Ein medizinisches Textkorpus des Deutschen Udo Hahn JULIE Lab Friedrich-Schiller-Universität Jena

description

FRaMed Ein medizinisches Textkorpus des Deutschen. Udo Hahn JULIE Lab Friedrich-Schiller-Universität Jena. Besonderheiten medizinischer Fachsprache. Sprachmix aus Deutsch und lateinischen, griechischen sowie zunehmend auch englischen lexikalischen / phrastischen Fragmenten - PowerPoint PPT Presentation

Transcript of FRaMed Ein medizinisches Textkorpus des Deutschen

Page 1: FRaMed Ein medizinisches Textkorpus des Deutschen

FRaMedEin medizinisches Textkorpus des Deutschen

Udo HahnJULIE Lab

Friedrich-Schiller-Universität Jena

Page 2: FRaMed Ein medizinisches Textkorpus des Deutschen

Besonderheitenmedizinischer Fachsprache

• Sprachmix aus Deutsch und lateinischen, griechischen sowie zunehmend auch englischen lexikalischen / phrastischen Fragmenten

• Tendenz zu paragrammatischem Sprachgebrauch• Schreib- und Interpunktionsfehler• Häufige Verwendung von (idiosynkratischen)

Abkürzungen und (sehr ambigen) Akronymen• Keine kohärente „medizinische“ Fachsprache,

sondern textsorten- und subdomänenspezifische Medizinsprachen

• Experte-Experte-Annahme: verdichteter Jargon• Lexikonzentrierung

Page 3: FRaMed Ein medizinisches Textkorpus des Deutschen

Besonderheitenmedizinischer Textkorpora

• Im Allgemeinen nicht öffentlich zugänglich (klinische Dokumente)– Sicherung der Anonymität von Patienten

• AMIA 2006: FIRST SHARED-TASK FOR CHALLENGES IN NATURAL LANGUAGE PROCESSING FOR CLINICAL DATA http://www.bisti.nih.gov/ahm2006/abstracts/L-2.pdfhttp://www2.amia.org/meetings/f06/workshops.asp

• F=99.75 (best-performing system)

– Besitzstandswahrung von Klinikchefs

Page 4: FRaMed Ein medizinisches Textkorpus des Deutschen

Textsorten in FRaMed(Wermter & Hahn, LREC 2004)

Textsorte # Sätze # Tokens # Types mittlere Satzlänge

(Standardabweichung)

normalisierter Token/Type Ratio basierend auf 7138 Sample

Entlassberichte summaries

513 7138 2076 12.9 (11.1) 3.4 Pathologieberichte reports

1522 20734 3815 12.6 (8.6) 3.6

Histologieberichte 881 15022 2821 16.1 (13.8) 4.8

Operationsberichte reports

1303 17003 3123 12.7 (7.4) 3.7

Textbuch-Texte 1222 24347 5372 18.9 (11.7) 3.3

Konsumenten-Texte 1053 15906 3522 14.1 (8.6) 3.6

FRAMED total 6494 100150 20729 14.4 (10.8) 3.7 NEGRA (Sample) Nachrichtentexte

5254 100139 18954 20.4 (11.5) 2.7

Klinische Texte

Nichtklinische Texte („Manual der Diagnostik und Therapie“, Webportal netdoktor.de)

IAA3 = 98.4

Page 5: FRaMed Ein medizinisches Textkorpus des Deutschen

Tag Set STTS-med

POS tag Definition Beispiele

ADJD adverbial modifier zunehmend (increasingly) ADJA prenominal adjective fiebrige (febril)

NN common noun Krankheit (disease) NE proper noun Aspirin, Pfizer KON coordination und (and), oder (or) KOUS subordinating

conjunction weil (because)

PTKZU infinitive marker zu (to) XY non-words H2O, P02.7, Q61.3

POSTag Beschreibung Beispiele

LATIN Lateinische Nominative od. Genitive in medizin. Termen

Arteria pulmonalis dextra Ulucs ventriculi

ENUM Aufzählungen 1., 2., a., (b), i., ii.

FDSREF Referenzmuster bzgl. formaler Dokumentstrukturen

wie unter 2. beschrieben wie in 1.a. erwähnt

Page 6: FRaMed Ein medizinisches Textkorpus des Deutschen

POS-Tagging-Experimente(Hahn & Wermter, PRICAI 2004)

• Brill Tagger vs. TnT (Brants)• STTS vs. STTS-med• TnT, nachrichtentrainiert (Default)

auf FRaMed: 97% acc• TnT, FRaMED-trainiert: 98% acc

• Fazit– Nachrichtentrainierter POS-Tagger direkt

anwendbar– Minimale Genauigkeitssteigerung für med. Tag-Set

Page 7: FRaMed Ein medizinisches Textkorpus des Deutschen

Perspektiven

• Entitäten-Tagging– Krankheiten, Anatomie, Arzneien,

Untersuchungsmethoden, …

• Relationen-Tagging– (anatomische) Lokalisation, Behandlungs-

und Interventionsroutinen, …

• JenAge – Altersforschungsschwerpunkt der FSU Jena, Klinikum Jena, diverse Leibniz-Institute

Page 8: FRaMed Ein medizinisches Textkorpus des Deutschen

Verfügbarkeit

• • … wir mussten unsere Tagging-Software im

Universitätsklinikum installieren …• … und alle Beteiligten mussten sich (wegen

fehlender Anonymisierung) strikten Geheimhaltungsklauseln unterwerfen …

• • … und diese Restriktionen werden sich ver-

schärfen, je mehr Semantik kodiert werden wird

Page 9: FRaMed Ein medizinisches Textkorpus des Deutschen

FRaMedEin medizinisches Textkorpus des Deutschen

Udo HahnJULIE Lab

Friedrich-Schiller-Universität Jena

http://www.julielab.de