10. Natürliche Sprache in Biologie und Medizin Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med....

Post on 05-Apr-2015

109 views 1 download

Transcript of 10. Natürliche Sprache in Biologie und Medizin Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med....

10. Natürliche Sprache in Biologie und Medizin

Wintersemester 2010/11Dozent: Univ.-Prof. Dr. med. Stefan Schulz

Ebenen der SprachtechnologieI. „Speech“

Erkennung gesprochener Sprache (speech recognition)Erzeugung gesprochener Sprache (speech synthesis)

II. „Content“TextretrievalText MiningTextgenerierungTextzusammenfassungInformationsextraktion Maschinelle Übersetzung

Information Retrieval

Sucher-gebnisse

Kollektion von Dokumenten(Dokumentationseinheiten)

Anfrage (Query) ?

PersonOutPersonInPositionOrganizationTimeOutTimeIn

Template

Dr. Hermann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus seinem Amt. Der 65-jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu bestzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach

Pressenotiz

PersonOut Dr. Hermann WirthPersonIn Sabine KlingerPosition LeiterOrganization Musikhochschule MTimeOut HeuteTimeIn

PersonOut Christian MeindlPersonIn Annelie HäfnerPosition MusikdirektorOrganization Musikhochschule MTimeOutTimeIn

Informationsextraktion

Maschinelle Übersetzung

Question Answering

Grundbegriffe der Linguistik

• Semiotik• Phonetik, Phonologie• Morphologie• Syntax• Grammatik• Semantik• Pragmatik• Textlinguistik• Lexikographie• Terminologie

Ebenen der Linguistik

• Morphologie:– be + end + en, In + fekt + ion, In + fekt + ion + en

• Syntax:– Eine schwere Infektion beendete die Schwangerschaft vs.– Eine Infektion schwere die Schwangerschaft beendete.

• Semantik:– Es wurde eine Entbindung per Kaiserschnitt vorgenommen– Es wurde eine Osteosynthese per Kaiserschnitt vorgenommen

• Textverstehen: – Eine schwere Infektion beendete die Schwangerschaft. Das Neugeborene

befindet sich in gutem Allgemeinzustand– Eine schwere Infektion beendete die Schwangerschaft. Das Transplantat

wurde bisher nicht abgestoßen.

Medizinische Anwendungen von Sprachtechnologien

• Unterstützung der Befunderstellung durch Spracherkennungssysteme

• Dokumentenretrieval aus computerisierten Krankenblattarchiven, Literaturdatenbanken, WWW- Dokumenten, WWW-Portalen

• Zusammenfassung von Krankengeschichten• Automatische Wissensaquisition aus medizinischen Freitexten• Automatisierte Verordungen• Multilinguale Erzeugung von Patienteninformation• Automatische Kodierung / Klassifikation von Diagnosen und

Prozeduren

Semiotik... Lehre von den Zeichen

• Ein Zeichen ist Stellvertreter für etwas Bezeichnetes• Alles sinnlich wahrnehmbare kann Zeichen sein• Alles beliebige kann als Zeichen fungieren• Sprachwissenschaft: Zeichensystem „Sprache“ •

Das semiotische Dreieck

Symbol, Wort,Code, Bezeichner

Objekt,InstanzReferent

Begriff, Gedanke, Inhalt, Konzept

"Stuhl", "chair" Beliebiger Ausschnitt aus derwahrnehmbaren oder vorstellbaren Welt.

Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird.

Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln

Sprachliche Zeichen

• Laute• Phoneme• Morpheme ver auf mitt haut • einfache Wörter Magen, Schleim, Haut• Komplexe Wörter Magen-schleim-haut• Phrasen das ödematös aufgelockerte Stroma• Sätze Es finden sich vereinzelt Lymphfollikel.• Texte

Zusammen gut reiskorngroßes Biopsiematerial einer Magenschleimhautvom Antrumtyp mit mittelgradig verplumpten, verlängerten und vermehrtbasophilen Foveolen, die streckenweise einen Becherzellbesatz aufweisen. Das ödematös aufgelockerte Stroma wird mittelgradig vermehrt überwiegend von Lymphozyten und Plasmazellen infiltriert. Es finden sich vereinzelt Lymphfollikel.

Linguistische Betrachtungsweisen

• Grammatik: Zeichenformen und Möglichkeiten ihrer

Kombination

• Semantik: Bedeutung einfacher und komplexer

Zeichenformen

• Pragmatik: Allgemeine Regularitäten, die dem

Sprachgebrauch zugrundeliegen

Grammatik

• Lehre vom – Wort (Morphologie, Morphosyntax) – Satz (Syntax)– Laut (Phonologie)– Text (Textgrammatik)

• Formale Seite sprachlicher Ausdrücke:– System minimaler Einheiten mit Regeln zur Generierung

komplexerer Einheiten– Berührung zur Theorie der formalen Sprachen

Sprachliche Zeichen

• Charakteristikum: Verkettung von Einzelzeichen zu komplexeren Einheiten

LautePhoneme

MorphemeWörter

(einfach / komplex)

Phrasen TexteSätze

Morphem-bedeutung

Wort-bedeutung

Phrasen -bedeutung

Textbedeutung

Satz-bedeutung

Grammatik: Morphologie, Übung

• Morphologie = Lehre vom Wort• Was ist ein Wort ?• Beispiel:

• Übung: Wie viele Wörter hat dieser Satz ?

Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach.

Token, Type, Lexem• Token: Einzelne Vorkommen eines Zeichens (Wortes)

• Type: Einzelne Muster eines Zeichens (Wortes)

• Lexem: Zusammenfassung mehrerer Types (unterschiedlicher syntaktischer Wörter)

Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach

1 2 3 4 5 6

7 8 9 10 11

Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach

1 2 3 4 5 6

6 4 5 3 7

Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach

1 2 3 4 3 6

6 4 3 3 6

Morphosyntax• Morphemarten: Stamm, Präfix, Suffix• Bildungsregeln „wohlgeformter“ (well-formed)

Wörter:Beispiele: – Kein Wort kann mit einem Suffix beginnen– Keine zwei Beugungssuffixe hintereinander– Kein Wort kann nur aus Affixen bestehen

• Beugungsregeln z.B. past part

went gone

pres

go

Morphologische Besonderheiten der Bio/Medizinsprache (I)

• Morpheme aus dem Griechischen, Lateinischen, Deutschen, zunehmend dem Englischen

• Fugen-o typisch für lat./gr. Lehnwörter: hepatozellulär, gastrointestinal

• Zwei Wortbildungsschemata:1. Deutsch: Orthographische Anpassung

lateinischer Morpheme caka; ceze; cizi; coko; cuku;

es gelten deutsche Wortbildungsregelnwenige hybride Pluralbildungen (-itis , -itiden, -zera)

2. Lateinisch:Großschreibung der Substantive, sonst gelten die Wortbildungsregeln des Lateinischen

Morphologische Besonderheiten der Medizinsprache (II)

• Eponyme (Eigennamen) werden oft wie Wortstämme behandeltParkinsonismus

• Akronyme (Kürzel) sehr häufig, verweisen oft auf englische NPs (ARDS, MALT, AIDS) und können zu normalen Wortstämmen mutieren (der Aidspatient)

• Abkürzungen (in der geschriebenen Sprache):meist Wortstämmechron., persist., Herzinsuff.,

• Ad-hoc KompositabildunglymphoplasmazellulärBecherzellbesatz

Wortbildungsphänomene in der Molekularbiologie

Syntax

• Lehre vom Satz– Regeln zur Bildung „well-formed“ Wordgruppen– Früher: Satzgliedlehre (Subjekt, Prädikat, Objekt etc.)

Worttypen: POS („Part of Speech“)

• Komponenten: – Lexikon, Syntax:– Regeln der Kombination elementarer Ausdrücke zu

komplexen Ausdrücke

• Ähnlichkeit zu formalen Sprachen (z.B. Programmiersprachen)

Syntax: Konstituentenstruktur• Konstituente: Überbegriff für sämtliche Einheiten vom Einzelwort

bis zum Satz– np: Nominalphrase „Hans“, „der Arzt“– vp: Verbalphrase „verlegt“, „verlegt Hans“– pp: Präpositionalphrase „auf die Intensivstation“

• Einfachstbeispiel:Regelns-->np,vp. np-->det,n. np-->n. vp-->v,np. vp-->v. vp-->vp,pp. np-->np,pp. pp-->p,np.

Lexikon n-->[Hans]. n-->[Arzt]. n-->[Intensivstation]. det-->[der]. det-->[die]. v-->[verlegt]. p-->[auf].

Nichtterminalsymbole: s, np, det, ...; Terminalsymbole: Hans, Arzt, der, ...

Beispiel: Strukturbaum

det n np n

np

v det

np

Der Arzt Hansauf Intensivstationverlegt die

np

pp

vp

vp

vp

s

Parser

pn nv det

Wir beobachten das Kind mit dem Fernglas Wir beobachten das Kind mit dem Fernglas

p det n

npnp

pp

np vp

vp

vp

s

pn nv det p det n

npnp

pp

np vp

vp

s

np

Ein Parser ist ein Programm, das einen gegebenen Satz anhand einer Grammatik syntaktisch analysiert. Es Programm ordnet dem Satz ein oder mehrere Strukturbäume zu (welche einer oder mehreren mehrdeutigen

Lesarten entsprechen)

Wir beobachten das Kind mit dem Fahrrad Wir beobachten das Kind mit dem Fahrrad

Semantik

Symbol, Wort,Code, Bezeichner

Objekt,InstanzReferent

Begriff, Gedanke, Inhalt, Konzept

"Stuhl", "chair" Beliebiger Ausschnitt aus derwahrnehmbaren oder vorstellbaren Welt.

Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenschaften mittels Abstraktion gebildet wird.

Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln

Begriffsinhalt / Begriffsumfang

Die Semantik erforscht die Bedeutung sprachlicher Ausdrücke

Begriffsinhalt (intensionale Bedeutung): definiert den

Begriffsinhalt auf der Ebene des Denkens

Begriffsumfang (extensionale Bedeutung): definiert den

Begriffsumfang auf der Ebene der Wirklichkeit

Abstraktion: Übergang von der extensionalen zur intensionalen Bedeutung

Aufgaben von Semantik

• Welche Bedeutung kommt einem (sprachlichen) Zeichen zu ?

• Welche Beziehungen gibt es hinsichtlich der Bedeutung sprachlicher Ausdrücke ?

• Semantik der Arbitrarität oder lexikalische Semantik:definitorische Zuordnung von Bedeutung zu Ausdrücken, z.B.

Stethoskop

Bedeutung

• Semantik der Kompositionalität: Aufbau der Bedeutung komplexer Ausdrücke aus den Bedeutungen ihrer Teile

• Unterdeterminiertheit: Diaphyse: dia = auseinander, physis = Naturdurch die Lappen gehen

• Synonymie: Bauchspeicheldrüse = Pankreas• Mehrdeutigkeit:

– Polysemie , Homonymie: „Krebs“ : Tier oder Krankheit– Syntaktische Ambiguität:

Ich sehe das Kind mit dem Fernglas

Merkmalssemantik• Theorie vom Begriff

(Aristoteles: genus proximum et differentia specifica)• Bedeutung eines Zeichens ist nicht atomar, sondern lässt sich in

Bedeutungseinheiten zerlegen• Ähnlichkeit zu formalen Ontologien

• Defizit: viele Begriffe lassen sich so nicht definieren

weiblich erwachsen menschlich

Mann - + +

Frau + + +

Mädchen + - +

Weibchen + 0 -

Modelltheoretische Semantik

• Beschreibung der Bedeutung von Sprache mit Hilfe der Mathematik (formale Logik)

• Wahrheit von Aussagen in möglichen Welten (Modellen)Der Mensch hat 32 Zähne, Ein Einhorn hat ein Horn

• arzt(x): Funktion arzt bildet jedes der Elemente x auf die Werte True oder False ab Analog chirurg(x)Falls Teilmengenbeziehung, dann besteht zwischen arzt und chirurg eine Hypernymie/Hyponymie-Beziehung (is-a) (mengentheoretische Semantik, z.B. Beschreibungslogik)

• Problem: Adäquate Beschreibung erfordert Logiken höherer Ordnung => Berechnungskomplexität !

Zusammenspiel Sytax / Semantik: Beispiel aus medizinischem Textverstehenssystem

Datenbasismedizinischer Freitexte

T1

T2

...

Tn

SyntaktischeRepräsentation

InhaltlicheRepräsentation

........

.......

.......

........

.....

........

........

.........

.....

........

.......

.......

........

.....

........

........

.........

.....

?

Das

Partikelspec:

einer

Colonschleimhaut

mit

ödematösen

Zotten

genatt:

spec: ppatt:

pobj:

adj:

zeigtsubject:

Dependenzgrammatik

• Kanten repräsentieren syntaktische Rollen• Begriffe:

– syntaktischer Kopf– syntaktischer Modifier

Show.5

show-patientParticle.1

Colon-Mucosa.2anatomical-fragment-of

has-phenomenonEdema.3

has-anatomical-partVillus.4

Ontologische Repräsentation

Das

Partikelspec:

einer

Colonschleimhaut

mit

ödematösen

Zotten

genatt:

spec: ppattr:

pobj:

adj:

SyntaktischeEbene

Edema.3

Villus.4

zeigtsubject:

Particle.1

OntologischeEbene

Show.5

Colon-Mucosa.2

Dasspec:

einer

ödematösen

spec:

adj:

SyntaktischeEbene

Colon-Mucosa.2

Edema.3

Villus.4

zeigt

Partikel

mitZotten

ppatt:

pobj:

Colonschleimhaut

genatt:

subj:

Show.5Particle.1

OntologischeEbene

Von der Semantik zur Pragmatik

• Gegenstand der Semantik ist, was ein sprachlicher Ausdruck immer bedeutetPatient mit karzinomverdächtigem Befund der linken Lunge

• Gegenstand der Pragmatik ist, was ein sprachlicher Ausdruck situationsbedingt bedeutet.„Ihr Befund ist positiv“

• Gesagtes, Mitgeteiltes und Gemeintes. „Ich war hier“„Es zieht“„Tupfer!“ „Kompresse!“

• Pragmatik untersucht den kommunikativen Austausch

Pragmatik

• Sprechakttheorie:– Konstative Sätze (Behauptungen)– Performative Sätze (Aktionen)

1. Äußerung „Der Hund ist bissig“ (Grammatik, Syntax)

2. Proposition bissig(Hund) = True (Semantik)

3. Warnung oder Empfehlung4. Hörer entfernt sich oder Hörer kauft den Hund• Indirekte Sprechakte

„Können Sie mir sagen, wie spät es ist ?“

Kontext

• Lokaler Kontext„Der Bruch wurde eingegipst“

• Sprachlicher Kontext:„Diabetes“ als Diagnose, Verdacht, oder Familienanamnese

• Intentionaler Kontext„es ist kalt“ (Fenster schließen !)

• Situativer Kontext„der Hubschrauber ist gelandet“ (Notfallaufnahme, Spielecke)

Generisches Textverstehenssystem

Lexicon GrammarSemanticRule Base

DomainOntology

# 150,000# 1,000,000

# 10,000# 10,000

# 150,000# 1,000,000

end + edPastTense

ended

infection pregnancy

a severe the

Ending

Pregnancy

Infection

severe

E-patient

E-agent

I-degree

P-patient

IF ... Pregnancy & inf.THEN ... mortal danger

* The baby survived

MotherBaby

Pregnancy

P-co-patient

MorphologicalProcessor

SyntacticProcessor(Parser/

Generator)

SemanticInterpreter

InferenceEngine

Generisches Textverstehenssystem• Tiefstmögliche Textanalyse: Instantiierung einer Wissensbasis

nach syntaktischer und semantischer Analyse, sowie der Anwendung semantischer Interpretationsregeln, bis hin zu Textverstehen (Auflösung von Koreferenzen, Diskursrelationen)

• Einzig und allein Prototypen vorbehalten, die in eingeschränkten Diskursbereichen ausgewählte Sprachphänomene implementieren.

• In der Praxis: Kompromisslösungen zwischen theoretischen Forderungen und pragmatischen Anforderungen

Text-Mining statt Textverstehen

• Seit 15 Jahren: Probabilistische Verfahren lösen KI-basierte Verfahren ab:– exponentielle Komplexität der wissensintensiven

Verfahren– „Knowledge acquisition bottleneck“– Verfügbarkeit riesiger Textmengen (WWW)– Skalierbarkeit („shallow“ methods)

Standardtools und - ressourcen

• Tagger• Chunker / partielle Parser• Namenserkenner• …• Textkorpora

– annotiert (POS, Chunks, Nes, Semantik)– nicht annotiert

Beispiel: Tagging

45

A severe infection ended the pregnancy .

DET NOUN VERBADJ DET NOUN ST

Tag Set (Penn treebank)

Tag Description Examples

. sentence terminator . ! ?

DT determiner all an many such that the them these this

JJ adjective, numeral first oiled separable battery-powered

NN common noun cabbage thermostat investment

PRP personal pronoun herself him it me one oneself theirs they

IN preposition among out within behind into next

VB verb (base form) ask assess assign begin break bring

VBD verb (past tense) asked assessed assigned began broke

WP WH-pronoun that what which who whom

Statistisches HMM – Tagging (I)

• Wahrscheinlichkeit eines Tags im Vergleich zu n anchfolgenden Tags

– P1(Tagi | Tagi-1 ... Tagi-n)

• Wahrscheinlichkeit eines Tokens bzgl. eines Tags – P2(Tokeni | Tagi)

• die/DET Frau/NOUN ,/COMMA die/DET or PREL singt/VFIN

Statistisches HMM – Tagging (I)

• State transition probabilities (trigrams):– P1(DET | COMMA NOUN) = 0.0007

– P1(PREL | COMMA NOUN) = 0.01

• State emission probabilities:– P2( die | DET) = 0.7

– P2( die | PREL) = 0.2

• Compute probabilistic evidence for the tag being– DET: P1 • P2 = 0.00049

– PREL: P1 • P2 = 0.002

• die/DET Frau/NOUN ,/COMMA die/PREL singt/VFIN

Statistische Methoden erfordern Trainingsdaten