Post on 05-Apr-2015
© 2000 Hans Uszkoreit
Vorlesung: Einführung in die ComputerlinguistikVorlesung: Einführung in die Computerlinguistik
Hans UszkoreitHans Uszkoreit
WintersemesterWintersemester 01/0201/02
© 2001 Hans Uszkoreit
Übersicht des ersten TeilsÜbersicht des ersten Teils
Aufgaben und Einordnung des Faches Aufgaben und Einordnung des Faches
Motivationen für die Modellierung menschlicher SpracheMotivationen für die Modellierung menschlicher Sprache
Computerlinguistik als eine moderne SprachwissenschaftComputerlinguistik als eine moderne Sprachwissenschaft
Repräsentationen und VerarbeitungskomponentenRepräsentationen und Verarbeitungskomponenten
© 2001 Hans Uszkoreit
EINSTIEGEINSTIEG
FaszinationFaszination
WissenschaftWissenschaft
TechnologieTechnologie
© 2001 Hans Uszkoreit
FaszinationFaszination
Mehr noch als Denken ist die Sprache eine Fähigkeit, die nur der Mehr noch als Denken ist die Sprache eine Fähigkeit, die nur der Mensch besitzt. Mensch besitzt.
Es ist ein Wunder, wie wir in Sekundenschnelle komplexe Gedanken in Es ist ein Wunder, wie wir in Sekundenschnelle komplexe Gedanken in einem Satz ausdrücken können.einem Satz ausdrücken können.
Es ist nicht weniger erstaunlich, wie das Kind in nur wenigen Jahren Es ist nicht weniger erstaunlich, wie das Kind in nur wenigen Jahren zehntausende von Wörtern und eine komplexe Gramnmatik lernt.zehntausende von Wörtern und eine komplexe Gramnmatik lernt.
© 2001 Hans Uszkoreit
NNACHBARWISSENSCHAFTENACHBARWISSENSCHAFTEN
Psychologie
Linguistik
Informatik
© 2001 Hans Uszkoreit
NNACHBARWISSENSCHAFTENACHBARWISSENSCHAFTEN
Psychologie
Linguistik
Informatik
Psycho-linguistik
Computer-linguistik
KI
© 2001 Hans Uszkoreit
Die Die DisziplinDisziplin
Computerlinguistik im weiteren SinneComputerlinguistik im weiteren Sinne
ist ein zwischen Linguistik und Informatik liegendes interdisziplinäres ist ein zwischen Linguistik und Informatik liegendes interdisziplinäres
Forschungsgebiet, das sich mit der maschinellen Verarbeitung natürlicher Forschungsgebiet, das sich mit der maschinellen Verarbeitung natürlicher
Sprachen beschäftigt.Sprachen beschäftigt.
Computerlinguistik im engeren SinneComputerlinguistik im engeren Sinne
ist ein Teilgebiet der modernen Linguistik, das berechenbare Modelle ist ein Teilgebiet der modernen Linguistik, das berechenbare Modelle
menschlicher Sprache entwirft, implementiert und untersucht.menschlicher Sprache entwirft, implementiert und untersucht.
© 2001 Hans Uszkoreit
Die DisziplinDie Disziplin
Theoretische ComputerlinguistikTheoretische Computerlinguistik
entwirft, implementiert und untersucht die Modelle mit dem Ziel, entwirft, implementiert und untersucht die Modelle mit dem Ziel, zum Verständnis, zur Verifikation und zur Verbesserung der zum Verständnis, zur Verifikation und zur Verbesserung der zugrundeliegenden linguistischen und psychologischen Theorien zugrundeliegenden linguistischen und psychologischen Theorien beizutragen.beizutragen.
Angewandte ComputerlinguistikAngewandte Computerlinguistik
entwirft, implementiert und untersucht die Modelle mit dem Ziel, entwirft, implementiert und untersucht die Modelle mit dem Ziel, Softwareanwendungen zu ermöglichen, die über eine Softwareanwendungen zu ermöglichen, die über eine (eingeschränkte) Beherrschung menschlicher Sprache verfügen.(eingeschränkte) Beherrschung menschlicher Sprache verfügen.
© 2001 Hans Uszkoreit
Sprachliche KommunikationSprachliche Kommunikation
© 2001 Hans Uszkoreit
Sprachliche KommunikationSprachliche Kommunikation
© 2001 Hans Uszkoreit
Sprachliche KommunikationSprachliche Kommunikation
© 2001 Hans Uszkoreit
Sprachliche KommunikationSprachliche Kommunikation
© 2001 Hans Uszkoreit
Sprachliche KommunikationSprachliche Kommunikation
© 2001 Hans Uszkoreit
GrammatikGrammatik
SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten
© 2001 Hans Uszkoreit
GrammatikGrammatik
SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten
GrammatikGrammatik
© 2001 Hans Uszkoreit
GrammatikGrammatik
SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten
GrammatikGrammatik
© 2001 Hans Uszkoreit
Grammatik Grammatik
SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten
GrammatikGrammatik
© 2001 Hans Uszkoreit
GrammatikGrammatik
SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten
N
NP
A
NDetV
VP
NP
S
Sue gave Paul an old penny.
NP
GrammatikGrammatik
© 2001 Hans Uszkoreit
Grammatik Grammatik
SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten
Phonologie/Morphologie
GrammatikGrammatik
Semantikkonstruktion
N
NP
A
NDetV
VP
NP
S
Sue gave Paul an old penny.
NP
© 2001 Hans Uszkoreit
GrammatikGrammatik
SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten
N
NP
A
NDetV
VP
NP
S
Sue gave Paul an old penny.
NP
GrammatikGrammatik
© 2001 Hans Uszkoreit
GrammatikGrammatik
SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten
N
NP
A
NDetV
VP
NP
S
Sue gave Paul an old penny.
NP
GrammatikGrammatik
© 2001 Hans Uszkoreit
Maschinelle SprachverarbeitungMaschinelle SprachverarbeitungAnalyse und Generierung von natürlicher Sprache mit dem Computer. Analyse und Generierung von natürlicher Sprache mit dem Computer. Englisch: Natural Language Processing (NLP).Englisch: Natural Language Processing (NLP).
Sprachtechnologie(n)Sprachtechnologie(n)Übergriff für die Technologien sprachbeherrschender Systeme. Übergriff für die Technologien sprachbeherrschender Systeme. Ingenieurwissenschaftliches Forschungsgebiet, in dem die Ingenieurwissenschaftliches Forschungsgebiet, in dem die Sprachtechnologien entwickelt werden.Sprachtechnologien entwickelt werden.
Linguistische Datenverarbeitung (LDV)Linguistische Datenverarbeitung (LDV)Traditionell ein Teilgebiet der elektronischen Datenverarbeitung, das sich Traditionell ein Teilgebiet der elektronischen Datenverarbeitung, das sich sowohl mit der Anwendung von Methoden der Datenverarbeitung für die sowohl mit der Anwendung von Methoden der Datenverarbeitung für die linguistische Forschung als auch mit maschineller Sprachverarbeitung linguistische Forschung als auch mit maschineller Sprachverarbeitung beschäftigt. Die LDV versteht sich heute als ein Gebiet, das die beschäftigt. Die LDV versteht sich heute als ein Gebiet, das die Computerlinguistik einschließt.Computerlinguistik einschließt.
SprachdatenverarbeitungSprachdatenverarbeitungVerarbeitung von sprachlichen Daten mit dem Computer. Schließt ein: Verarbeitung von sprachlichen Daten mit dem Computer. Schließt ein: mono- und multilinguale Textverarbeitung, elektronische Wörterbücher, mono- und multilinguale Textverarbeitung, elektronische Wörterbücher, Konkordanzen, Terminologiebanken, maschinelle und maschinengestützte Konkordanzen, Terminologiebanken, maschinelle und maschinengestützte Übersetzung.Übersetzung.
Verwandte BegriffeVerwandte Begriffe
© 2001 Hans Uszkoreit
MotivationenMotivationen
kognitionswissenschaftlicheskognitionswissenschaftlichesInteresseInteresse
Modelle der menschlichenModelle der menschlichenSprachfähigkeitSprachfähigkeit
kognitionswissenschaftlicheskognitionswissenschaftlichesInteresseInteresse
Modelle der menschlichenModelle der menschlichenSprachfähigkeitSprachfähigkeit
ingenieurwissenschaftlichesingenieurwissenschaftliches Interesse Interesse
sprachtechnologische sprachtechnologische AnwendungenAnwendungen
ingenieurwissenschaftlichesingenieurwissenschaftliches Interesse Interesse
sprachtechnologische sprachtechnologische AnwendungenAnwendungen
sprachwissenschaftliches sprachwissenschaftliches InteresseInteresse
Modelle der GrammatikModelle der Grammatik
sprachwissenschaftliches sprachwissenschaftliches InteresseInteresse
Modelle der GrammatikModelle der Grammatik
© 2001 Hans Uszkoreit
CL
MotivationenMotivationen
ingenieur-ingenieur-wissenschaftliche wissenschaftliche
InteressenInteressen
kognitions-kognitions-wissenschaftliche wissenschaftliche
InteressenInteressen
sprach-sprach-wissenschaftliche wissenschaftliche
InteressenInteressen
© 2001 Hans Uszkoreit
MotivationenMotivationen
ingenieur-ingenieur-wissenschaftliche wissenschaftliche
InteressenInteressen
kognitions-kognitions-wissenschaftliche wissenschaftliche
InteressenInteressen
sprach-sprach-wissenschaftliche wissenschaftliche
InteressenInteressen
Modelle der GrammatikModelle der Grammatik
sprach-sprach-technologische technologische AnwendungenAnwendungen
Modelle der Modelle der menschlichenmenschlichen
SprachfähigkeitSprachfähigkeit
© 2001 Hans Uszkoreit
Die Linguistik ist eine "moderne", synchron orientierte, auf Die Linguistik ist eine "moderne", synchron orientierte, auf die interne Struktur der Sprache bezogene Wissenschaft, die die interne Struktur der Sprache bezogene Wissenschaft, die sprachliche Regularitäten auf allen Beschreibungsebenen sprachliche Regularitäten auf allen Beschreibungsebenen untersucht und ihre Ergebnisse in explizierter (formalisierter) untersucht und ihre Ergebnisse in explizierter (formalisierter) Beschreibungssprache und in integrierten Modellen darlegt.Beschreibungssprache und in integrierten Modellen darlegt.
((H. Bußmann "Lexikon der Sprachwissenschaft")H. Bußmann "Lexikon der Sprachwissenschaft")
LinguistikLinguistik
© 2001 Hans Uszkoreit
Nach BeschreibungsebenenNach Beschreibungsebenen
• PhonetikPhonetik• PhonologiePhonologie• MorphologieMorphologie• SyntaxSyntax• SemantikSemantik• Pragmatik/Text/DiskursPragmatik/Text/Diskurs
Andere TeildisziplinenAndere Teildisziplinen
• Psycholinguistik Psycholinguistik • NeurolinguistikNeurolinguistik• Historische LinguistikHistorische Linguistik• Sozio- und Ethnolinguistik, Sozio- und Ethnolinguistik, • DialektologieDialektologie• Mathematische LinguistikMathematische Linguistik
Teilgebiete der LinguistikTeilgebiete der Linguistik
© 2001 Hans Uszkoreit
AASPEKTESPEKTE DERDER S SPRACHEPRACHE
SPRACHLICHES WISSENSPRACHLICHES WISSEN
Was sind die Inhalte und Strukturen dieses unbewußten Was sind die Inhalte und Strukturen dieses unbewußten
Wissens? Wissens?
SPRACHVERARBEITUNGSPRACHVERARBEITUNG
Wie produzieren und verstehen wir sprachliche Äußerungen?Wie produzieren und verstehen wir sprachliche Äußerungen?
SPRACHERWERBSPRACHERWERB
Wie lernt das Kind seine Muttersprache?Wie lernt das Kind seine Muttersprache?
SPRACHWANDELSPRACHWANDEL
Wie entstehen Sprachen, Dialekte, Soziolekte?Wie entstehen Sprachen, Dialekte, Soziolekte?
© 2001 Hans Uszkoreit
Sprachliche Kompetenz:Sprachliche Kompetenz:
die endliche strukturierte Wissensbasis, die es den die endliche strukturierte Wissensbasis, die es den Sprechern einer Sprache ermöglicht, die wohlgeformten Sprechern einer Sprache ermöglicht, die wohlgeformten Äußerungen der Sprache zu generieren und zu Äußerungen der Sprache zu generieren und zu interpretieren.interpretieren.
Sprachliche Performanz:Sprachliche Performanz:
die Generierung oder Interpretation realer Äußerungen, bzw. die Generierung oder Interpretation realer Äußerungen, bzw. die Gesamtheit der Prozesse, die beteiligt sind, wenn der die Gesamtheit der Prozesse, die beteiligt sind, wenn der Mensch auf der Basis der sprachlichen Kompetenz reale Mensch auf der Basis der sprachlichen Kompetenz reale Äußerungen generiert und interpretiert.Äußerungen generiert und interpretiert.
Kompetenz und PerformanzKompetenz und Performanz
© 2001 Hans Uszkoreit
Ein Kompetenzmodell sollte beinhalten:Ein Kompetenzmodell sollte beinhalten:
Regeln, Prinzipien, Beschränkungen auf jeder Regeln, Prinzipien, Beschränkungen auf jeder Beschreibungsebene, die in ihrem Zusammenwirken Beschreibungsebene, die in ihrem Zusammenwirken genau die wohlgeformten Sätze der Sprache genau die wohlgeformten Sätze der Sprache charakterisieren.charakterisieren.
Es bietet für jede Sprache eine formalisierte endliche Es bietet für jede Sprache eine formalisierte endliche Definition einer unendlichen Menge von Paaren <Satz, Definition einer unendlichen Menge von Paaren <Satz, Bedeutung>. Bedeutung>.
(Dazu gehören: Grammatik, Lexikon, morphologische (Dazu gehören: Grammatik, Lexikon, morphologische Regeln, semantische Regeln.)Regeln, semantische Regeln.)
KompetenzmodellKompetenzmodell
© 2001 Hans Uszkoreit
Ein Performanzmodell sollte erklären:Ein Performanzmodell sollte erklären:
warum viele ungrammatische Sätze erzeugt werdenwarum viele ungrammatische Sätze erzeugt werden z.B. Sprechfehler, Grammatikfehlerz.B. Sprechfehler, Grammatikfehler
warum viele ungrammatische Sätze verstanden werdenwarum viele ungrammatische Sätze verstanden werden z.B. in der der Kommunikation mit Kindern oder Ausländernz.B. in der der Kommunikation mit Kindern oder Ausländern
warum viele grammatische Sätze nicht erzeugt werden warum viele grammatische Sätze nicht erzeugt werden z.B. durch Präferenzen in der Generierungz.B. durch Präferenzen in der Generierung
warum viele grammatische Sätze nicht verstanden werden warum viele grammatische Sätze nicht verstanden werden z.B. Holzwegsätze z.B. Holzwegsätze
wie die Verarbeitung zeitlich strukturiert ist wie die Verarbeitung zeitlich strukturiert ist z.B. Effizienz, Abfolge der Verarbeitungsschrittez.B. Effizienz, Abfolge der Verarbeitungsschritte
welchen Aufwand die Verarbeitungsschritte erfordern welchen Aufwand die Verarbeitungsschritte erfordern z.B. Abhängigkeiten von anderen kognitiven Belastungenz.B. Abhängigkeiten von anderen kognitiven Belastungen
PerformanzmodellPerformanzmodell
© 2001 Hans Uszkoreit
PerformanzkriterienPerformanzkriterien
efficiency efficiency Fähigkeit, Lösungen mit geringem Zeit- und Fähigkeit, Lösungen mit geringem Zeit- und Speicherbedarf zu liefernSpeicherbedarf zu liefern
accuracyaccuracy Fähigkeit, linguistisch korrekte Lösungen zu liefernFähigkeit, linguistisch korrekte Lösungen zu liefern
robustnessrobustness Fähigkeit, mit allen möglichen Eingaben fertigzuwerdenFähigkeit, mit allen möglichen Eingaben fertigzuwerden
coveragecoverage größtmögliche Abdeckung der Grammatikgrößtmögliche Abdeckung der Grammatik
specificityspecificity Fähigkeit, die intendierte Analyse zu selegierenFähigkeit, die intendierte Analyse zu selegieren
© 2001 Hans Uszkoreit
phonetische Verarbeitung orthographische Verarbeitung
morphonologische Verarbeitung
syntaktische Verarbeitung
semantische Verarbeitung
pragmatische Verarbeitung - Wissensverarbeitung
akustische Form geschriebene Form
morphonologische Repräsentation
phonetische o. graphemische Repräsentation
syntaktische Repräsentation
semantische Repräsentation
Repräsentation der vollen Bedeutung
Textverstehen
© 2001 Hans Uszkoreit
akustische Form geschriebene Form
morphonologische Repräsentation
phonetische o. graphemische Repräsentation
syntaktische Repräsentation
semantische Repräsentation
Repräsentation der vollen Bedeutung
Diktat
das Boot auf dem Main
oder
daß bot auf dem mein
phonetische Verarbeitung orthographische Verarbeitung
morphonologische Verarbeitung
syntaktische Verarbeitung
semantische Verarbeitung
pragmatische Verarbeitung - Wissensverarbeitung
© 2001 Hans Uszkoreit
akustische Form geschriebene Form
morphonologische Repräsentation
phonetische o. graphemische Repräsentation
syntaktische Repräsentation
semantische Repräsentation
Repräsentation der vollen Bedeutung
MaschinelleÜbersetzung
phonetische Verarbeitung orthographische Verarbeitung
morphonologische Verarbeitung
syntaktische Verarbeitung
semantische Verarbeitung
pragmatische Verarbeitung - Wissensverarbeitung
© 2001 Hans Uszkoreit
Grammatikfehler und Sprechfehler:Grammatikfehler und Sprechfehler:
Das Verfassen der Kinderbücher und der Reiseberichte haben Das Verfassen der Kinderbücher und der Reiseberichte haben dem Autor viel Ruhm eingebracht.dem Autor viel Ruhm eingebracht.
Die Poxen zum Backen...Die Poxen zum Backen...
Holzwegsätze:Holzwegsätze:
The canoe floated down the river sank.The canoe floated down the river sank. Er bezichtigte den Vater des Schreibens unkundiger Kinder.Er bezichtigte den Vater des Schreibens unkundiger Kinder. Peter beschuldigte sie der Geheimniskrämerei ähnlichen Peter beschuldigte sie der Geheimniskrämerei ähnlichen
Verhaltens.Verhaltens.
BeispieleBeispiele
© 2001 Hans Uszkoreit
AmbiguitätAmbiguität
phonetische Ambiguität (Homophone)phonetische Ambiguität (Homophone)
Miene - MineMiene - Mine
orthographische Ambiguität (Homographen)orthographische Ambiguität (Homographen)
übersetzen - übersetzenübersetzen - übersetzen
lexikalische Ambiguität (Homonyme)lexikalische Ambiguität (Homonyme)
Ball - Ball Ball - Ball
morphologische Ambiguitätmorphologische Ambiguität
Staubecken - StaubeckenStaubecken - Staubecken
HauptpostsekretärHauptpostsekretär
© 2001 Hans Uszkoreit
AmbiguitätAmbiguität
syntaktische Ambiguitätsyntaktische Ambiguität
Peter fuhr seinen Freund sturzbetrunken nach Hause.Peter fuhr seinen Freund sturzbetrunken nach Hause.
Visiting relatives can be boring.Visiting relatives can be boring.
Ich traf den Sohn des Nachbarn mit dem Gewehr.Ich traf den Sohn des Nachbarn mit dem Gewehr.
kompositionell-semantische Ambiguitätkompositionell-semantische Ambiguität
Die zwei Mitarbeiter müssen vier Sprachen beherrschen.Die zwei Mitarbeiter müssen vier Sprachen beherrschen.
pragmatische Ambiguitätpragmatische Ambiguität
Könnten Sie die Aufgabe lösen.Könnten Sie die Aufgabe lösen.
© 2001 Hans Uszkoreit
Ambiguität Ambiguität II
phonetische Ambiguität (Homophone)phonetische Ambiguität (Homophone)
Miene - MineMiene - Mine
orthographische Ambiguität (Homographen)orthographische Ambiguität (Homographen)
übersetzen - übersetzenübersetzen - übersetzen
lexikalische Ambiguität (Homonyme)lexikalische Ambiguität (Homonyme)
Ball - Ball Ball - Ball
morphologische Ambiguitätmorphologische Ambiguität
Staubecken - StaubeckenStaubecken - Staubecken
HauptpostsekretärHauptpostsekretär
© 2001 Hans Uszkoreit
Lexikalische AmbiguitätLexikalische Ambiguität
Gewisse Lesarten sind weniger stark präferiert:
Auf dem Tisch lag ein Heft. Auf der Werkbank lag ein Heft.
Ich habe einen Stift gefunden. Ich habe einen jungen Stift gesucht.
Die Präferenz für eine Lesart kann durch den Kontext beeinflußt werden:
Der Mittelstürmer eröffnete den Ball. versus Der Präsident eröffnete den Ball.
Der Gärtner sprengte das Schloß. versus Der Einbrecher sprengte das Schloß.
The astronomer married a star. versus The movie director married a star.
© 2001 Hans Uszkoreit
Ambiguität Ambiguität IIII
syntaktische Ambiguitätsyntaktische Ambiguität Peter fuhr seinen Freund sturzbetrunken nach Hause.Peter fuhr seinen Freund sturzbetrunken nach Hause. Visiting relatives can be boring.Visiting relatives can be boring. Ich traf den Sohn des Nachbarn mit dem Gewehr.Ich traf den Sohn des Nachbarn mit dem Gewehr.
kompositionell-semantische Ambiguitätkompositionell-semantische Ambiguität Die zwei Mitarbeiter müssen vier Sprachen beherrschen.Die zwei Mitarbeiter müssen vier Sprachen beherrschen.
pragmatische Ambiguitätpragmatische Ambiguität Könnten Sie die Aufgabe lösen.Könnten Sie die Aufgabe lösen.
© 2001 Hans Uszkoreit
Ambiguität beim ParsingAmbiguität beim Parsing
In fast allen realen Situationen sind Sätze hochgradig ambig.In fast allen realen Situationen sind Sätze hochgradig ambig.
Beispiel:Beispiel:
Grammatik: Grammatik: deutsche LFG-Grammatik von Christian Rohrer deutsche LFG-Grammatik von Christian Rohrer
Parser: Parser: XLE Parser von XEROX PARC (Kaplan, Maxwell, XLE Parser von XEROX PARC (Kaplan, Maxwell, Shemtov,...)Shemtov,...)
Korpus: Korpus: Teilmenge des NEGRA Korpus Frankfurter Rundschau Teilmenge des NEGRA Korpus Frankfurter Rundschau (Saarbrücken)(Saarbrücken)
Satzlänge:Satzlänge: ca. 16 Wörter ca. 16 Wörter
Ambiguität: Ambiguität: >>3000 Lesarten3000 Lesarten pro Satz pro Satz
(durch heuristische Präferenzen reduziert auf (durch heuristische Präferenzen reduziert auf 7 Lesarten7 Lesarten))
© 2001 Hans Uszkoreit
„„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mitFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mit
Blumenmotiven her, die ihre Männer an den folgenden Montagen auf demBlumenmotiven her, die ihre Männer an den folgenden Montagen auf dem
Markt im Zentrum der Hauptinsel verkauften.Markt im Zentrum der Hauptinsel verkauften.““
Ambiguität (Beispiel)Ambiguität (Beispiel)
© 2001 Hans Uszkoreit
„„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mitFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mit
Blumenmotiven her, die ihre Männer an den folgenden Montagen auf demBlumenmotiven her, die ihre Männer an den folgenden Montagen auf dem
Markt im Zentrum der Hauptinsel verkauften.Markt im Zentrum der Hauptinsel verkauften.““
Ambiguität (Beispiel)Ambiguität (Beispiel)
Der Satz weist lexikalische Der Satz weist lexikalische (L)(L), syntaktische , syntaktische (S)(S) und anaphorische und anaphorische (A)(A) Ambiguitäten auf, die uns nicht auffallen.Ambiguitäten auf, die uns nicht auffallen.
© 2001 Hans Uszkoreit
„„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mitFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mit
Blumenmotiven her, die ihre Männer an den folgenden Montagen auf demBlumenmotiven her, die ihre Männer an den folgenden Montagen auf dem
Markt im Zentrum der Hauptinsel verkauften.Markt im Zentrum der Hauptinsel verkauften.““
Ambiguität (Beispiel)Ambiguität (Beispiel)
258.048
Der Satz weist lexikalische Der Satz weist lexikalische (L)(L), syntaktische , syntaktische (S)(S) und anaphorische und anaphorische (A)(A) Ambiguitäten auf, die uns nicht auffallen.Ambiguitäten auf, die uns nicht auffallen.
Wieviele Lesarten besitzt dieser Satz?Wieviele Lesarten besitzt dieser Satz?
© 2001 Hans Uszkoreit
Ambiguität (Beispiel)Ambiguität (Beispiel)
„„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mitFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mit
Blumenmotiven her, die ihre Männer an den folgenden Montagen auf Blumenmotiven her, die ihre Männer an den folgenden Montagen auf
demdem
Markt im Zentrum der Hauptinsel verkauften.Markt im Zentrum der Hauptinsel verkauften.““
Das berechnet sich so:Das berechnet sich so:
LL FrüherFrüher kann sowohl eigenständiges Adverb als auch Komparativ von kann sowohl eigenständiges Adverb als auch Komparativ von frühfrüh sein (2); sein (2);
LL die Verbform die Verbform stelltenstellten is ambig zwischen Präteritum und Konjunktiv (2); is ambig zwischen Präteritum und Konjunktiv (2);
SS die Nominalphrase die Nominalphrase die Frauendie Frauen kann sowohl Subjekt als auch Objekt des Satzes kann sowohl Subjekt als auch Objekt des Satzes sein (2); sein (2);
SS am Wochenendeam Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3); kann die Insel, die Frauen oder das Verb modifizieren (3);
SS mit Blumenmotivenmit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument der kann sich auf die Kopftücher beziehen, ein Instrument der Herstellung Herstellung
sein oder ein Adjunkt im Sinne vonsein oder ein Adjunkt im Sinne von gemeinsam mit Blumenmotivengemeinsam mit Blumenmotiven (3); (3);
LL herher hat auch eine direktionale Bedeutung (2); hat auch eine direktionale Bedeutung (2);
© 2001 Hans Uszkoreit
Ambiguität (Beispiel)Ambiguität (Beispiel)
„„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mitFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mit
Blumenmotiven her, die ihre Männer an den folgenden Montagen auf Blumenmotiven her, die ihre Männer an den folgenden Montagen auf
demdem
Markt im Zentrum der Hauptinsel verkauften.Markt im Zentrum der Hauptinsel verkauften.““
Und weiter:Und weiter:
SS der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4);der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4);
SS sowohl sowohl diedie als auch als auch ihre Männerihre Männer kann Subjekt des Relativsatzes sein (2); kann Subjekt des Relativsatzes sein (2);
AA das Possessivpronomen das Possessivpronomen ihrihre kann auf jede der Nominalphrasen referieren (4);e kann auf jede der Nominalphrasen referieren (4);
LL MontagenMontagen hat eine zweite Lesart als Nominalisierung von hat eine zweite Lesart als Nominalisierung von montierenmontieren (2); (2);
SS die Hauptinseldie Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die Dativ die Käuferin bezeichnen (2); Käuferin bezeichnen (2);
SS die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt siebendie drei Präpositionalphrasen des Relativsatzes können sich in insgesamt siebenKombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb
verbinden (7); verbinden (7);
LL verkauftenverkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2).(2).
© 2001 Hans Uszkoreit
Ambiguität (Beispiel)Ambiguität (Beispiel)
„„Früher stellten die Frauen der Inseln am Wochenende Kopftücher Früher stellten die Frauen der Inseln am Wochenende Kopftücher
mitmit
Blumenmotiven her, die ihre Männer an den folgenden Montagen Blumenmotiven her, die ihre Männer an den folgenden Montagen
auf demauf dem
Markt im Zentrum der Hauptinsel verkauften.Markt im Zentrum der Hauptinsel verkauften.““
Durch Multiplikation ergibt sich die Gesamtambiguität:Durch Multiplikation ergibt sich die Gesamtambiguität:
2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 = 2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 = 258.048258.048
© 2001 Hans Uszkoreit
Wir wollen wissen...Wir wollen wissen...
warum viele ungrammatische Sätze erzeugt werdenwarum viele ungrammatische Sätze erzeugt werden z.B. Sprechfehler, Grammatikfehlerz.B. Sprechfehler, Grammatikfehler
warum viele ungrammatische Sätze verstanden werdenwarum viele ungrammatische Sätze verstanden werden z.B. in der der Kommunikation mit Kindern oder Ausländernz.B. in der der Kommunikation mit Kindern oder Ausländern
warum viele grammatische Sätze nicht erzeugt werden warum viele grammatische Sätze nicht erzeugt werden z.B. durch Präferenzen in der Generierungz.B. durch Präferenzen in der Generierung
warum viele grammatische Sätze nicht verstanden werden warum viele grammatische Sätze nicht verstanden werden z.B. Holzwegsätze z.B. Holzwegsätze
wie die Verarbeitung zeitlich strukturiert ist wie die Verarbeitung zeitlich strukturiert ist z.B. Effizienz, Abfolge der Verarbeitungsschrittez.B. Effizienz, Abfolge der Verarbeitungsschritte
welchen Aufwand die Verarbeitungsschritte erfordern welchen Aufwand die Verarbeitungsschritte erfordern z.B. Abhängigkeiten von anderen kognitiven Belastungenz.B. Abhängigkeiten von anderen kognitiven Belastungen
© 2001 Hans Uszkoreit
GedächtnisbelastungGedächtnisbelastung
Der Wissenschaftler schrieb zwei Bücher über den Ursprung der menschlichen Sprache, die in vielen Fernsehsendungen diskutiert wurden, ab.
© 2001 Hans Uszkoreit
Der Wissenschaftler schrieb zwei Bücher über den Ursprung der menschlichen Sprache, die in vielen Fernsehsendungen diskutiert wurden, ab.
GedächtnisbelastungGedächtnisbelastung
© 2001 Hans Uszkoreit
statistische und konnektio- nistische Methoden in der CL
deklarative linguistische Formalismen in der CL
spezielle Verfahren für die CL
direkte Programmierung, keine Trennung von Beschreibung und Verarbeitung
1950 1960 1970 1980 1990
Hauptansätze der CLHauptansätze der CL
© 2001 Hans Uszkoreit
Direkte Programmierung in einer traditionellen Programmiersprache.Direkte Programmierung in einer traditionellen Programmiersprache.Keine Trennung von Kompetenz und Performanz, also auch keine Trennung Keine Trennung von Kompetenz und Performanz, also auch keine Trennung von Grammatik und Verarbeitungvon Grammatik und Verarbeitung Beispiele : Beispiele :
SYSTRAN, SHRDLU, frühe SFB 100 SystemeSYSTRAN, SHRDLU, frühe SFB 100 Systeme
Kompetenzmodellierung: Kompetenzmodellierung: als Modelle theoretisch uninteressant, nicht überprüfbar, Kodierung als Modelle theoretisch uninteressant, nicht überprüfbar, Kodierung
linguistisch uninteressant, schwer erweiterbarlinguistisch uninteressant, schwer erweiterbar
Performanzmodellierung:Performanzmodellierung: als Modelle theoretisch uninteressant, weil mit der Kompetenz als Modelle theoretisch uninteressant, weil mit der Kompetenz
vermischt, keine Ansätze zur Integration psycholinguistischer vermischt, keine Ansätze zur Integration psycholinguistischer Erkenntnisse Erkenntnisse
Anwendungspotential:Anwendungspotential:einige wenige Systeme sind zur Anwendungsreife gelangt (z.B. einige wenige Systeme sind zur Anwendungsreife gelangt (z.B.
SYSTRAN), fast nicht mehr erweiterbar, für neue Entwicklungen nicht SYSTRAN), fast nicht mehr erweiterbar, für neue Entwicklungen nicht geeignetgeeignet
Direkte ProgrammierungDirekte Programmierung
© 2001 Hans Uszkoreit
Spezielle Verfahren und Beschreibungssprachen wurden entwickelt. Spezielle Verfahren und Beschreibungssprachen wurden entwickelt. Trennung von Kompetenz und Performanz, vielfach noch immer Trennung von Kompetenz und Performanz, vielfach noch immer Vermischung von Wissen und VerarbeitungVermischung von Wissen und Verarbeitung
Beispiele:Beispiele: Augmented Transition Networks (ATN), Augmented Phrase Structure Augmented Transition Networks (ATN), Augmented Phrase Structure
Grammar (APSG), EUROTRA FrameworkGrammar (APSG), EUROTRA Framework
Kompetenzmodellierung: Kompetenzmodellierung: verschieden von den Modellen der Linguistik, als linguistische verschieden von den Modellen der Linguistik, als linguistische
Modelle theoretisch wenig interessant, vielfach Vermischung mit Modelle theoretisch wenig interessant, vielfach Vermischung mit prozeduralen Elementenprozeduralen Elementen
Performanzmodellierung:Performanzmodellierung: wenige aber sehr ernsthafte Versuche, einige Gesichtspunkte der wenige aber sehr ernsthafte Versuche, einige Gesichtspunkte der
Performanzmodellierung zu berücksichtigen, Einflüsse der Performanzmodellierung zu berücksichtigen, Einflüsse der Psycholinguistik, Hindernis ist das Fehlen plausibler Psycholinguistik, Hindernis ist das Fehlen plausibler KompetenzmodelleKompetenzmodelle
Anwendungspotential:Anwendungspotential:fast alle der heute marktreifen Systeme gehören zu dieser Klasse fast alle der heute marktreifen Systeme gehören zu dieser Klasse
(z.B. METAL, Q&A)(z.B. METAL, Q&A)
Spezielle VerfahrenSpezielle Verfahren
© 2001 Hans Uszkoreit
Deklarative Grammatikformalismen, in denen sich linguistische Deklarative Grammatikformalismen, in denen sich linguistische Grammatikmodelle und Einzelanalysen kodierenGrammatikmodelle und Einzelanalysen kodieren lassen. Dadurch lassen. Dadurch Aufhebung der Trennung von theoretischer Linguistik und Aufhebung der Trennung von theoretischer Linguistik und Computerlinguistik.Computerlinguistik.
Beispiele:Beispiele: fast alle Unifikationsgrammatikmodelle, neuere semantische fast alle Unifikationsgrammatikmodelle, neuere semantische
Formalismen Formalismen
Kompetenzmodellierung:Kompetenzmodellierung: deklarative linguistisch fundierte Modelle; unabhängig von deklarative linguistisch fundierte Modelle; unabhängig von
Verarbeitungsrichtung, Verarbeitungsreihenfolge und Verarbeitungsrichtung, Verarbeitungsreihenfolge und Verarbeitungsalgorithmen; logisch fundierte Semantik, transparente Verarbeitungsalgorithmen; logisch fundierte Semantik, transparente Modularisierung und Hierarchisierung des Wissens Modularisierung und Hierarchisierung des Wissens
Performanzmodellierung:Performanzmodellierung: deduktive Verarbeitung; in den fortgeschrittensten Systemen erfolgt deduktive Verarbeitung; in den fortgeschrittensten Systemen erfolgt
die Verarbeitung durch Typdeduktion; bisher keine plausiblen die Verarbeitung durch Typdeduktion; bisher keine plausiblen KompetenzmodelleKompetenzmodelle
Anwendungspotential:Anwendungspotential: noch keine marktreifen System, bisher noch mangelnde Effizienznoch keine marktreifen System, bisher noch mangelnde Effizienz
Deklarative FormalismenDeklarative Formalismen
© 2001 Hans Uszkoreit
Statistische Verfahren in der akustischen Spracherkennung (Hidden Markov Statistische Verfahren in der akustischen Spracherkennung (Hidden Markov Models), und in der maschinellen Übersetzung; massiv-paralleler Ansatz zur Models), und in der maschinellen Übersetzung; massiv-paralleler Ansatz zur Modellierung der neuronalen Strukturierung des menschlichen Hirns.Modellierung der neuronalen Strukturierung des menschlichen Hirns.
Beispiele:Beispiele: Hidden Markov Models (HMM), Parsing mit neuronalen NetzenHidden Markov Models (HMM), Parsing mit neuronalen Netzen
Kompetenzmodellierung: Kompetenzmodellierung: für die Theoriebildung uninteressant, die Kompetenz ist nicht transparent für die Theoriebildung uninteressant, die Kompetenz ist nicht transparent modelliert, keine Verbindung zu den Theorien der Linguistik, unzureichende modelliert, keine Verbindung zu den Theorien der Linguistik, unzureichende Darstellung der RekursivitätDarstellung der Rekursivität
Performanzmodellierung:Performanzmodellierung:
Lernverfahren, massive Parallelität könnte Schlüssel zum Effizienzproblem Lernverfahren, massive Parallelität könnte Schlüssel zum Effizienzproblem sein, Potential für die Modellierung linguistischer Präferenzen und anderer sein, Potential für die Modellierung linguistischer Präferenzen und anderer unscharfer Konzepte z.B. in der lexikalischen Semantik, Potential für unscharfer Konzepte z.B. in der lexikalischen Semantik, Potential für holistische Ansätzeholistische Ansätze
Anwendungspotential:Anwendungspotential: großes Potential in der akustischen Spracherkennung und in der akustischen großes Potential in der akustischen Spracherkennung und in der akustischen Sprachsynthese, für rein statistische oder neuronale Verfahren geringes Sprachsynthese, für rein statistische oder neuronale Verfahren geringes Potential in der linguistischen VerarbeitungPotential in der linguistischen Verarbeitung
Statistische u. konnektionistische Statistische u. konnektionistische VerfahrenVerfahren
© 2001 Hans Uszkoreit
Exkurs: Vorzüge und Nachteile der deklarativen AnsätzeExkurs: Vorzüge und Nachteile der deklarativen AnsätzeExkurs: Vorzüge und Nachteile der deklarativen AnsätzeExkurs: Vorzüge und Nachteile der deklarativen Ansätze
© 2001 Hans Uszkoreit
Deklarative Formalismen 2Deklarative Formalismen 2Deklarative Formalismen 2Deklarative Formalismen 2
Linguistische Grammatikmodelle: Linguistische Grammatikmodelle:
 Generalized Phrase Structure Grammar (GPSG),Generalized Phrase Structure Grammar (GPSG),
 Lexical Functional Grammar (LFG), Lexical Functional Grammar (LFG),
 Head-Driven Phrase Structure Grammar (HPSG), Head-Driven Phrase Structure Grammar (HPSG),
 Categorial Unification Grammar (CUG), Categorial Unification Grammar (CUG),
Computerlinguistische Formalismen:Computerlinguistische Formalismen:
 FUGFUG
 PATRPATR
 STUFSTUF
 TFSTFS
 CUFCUF
 TDLTDL
© 2001 Hans Uszkoreit
Exkurs: Probleme des neuronalen Exkurs: Probleme des neuronalen AnsatzesAnsatzes
Wenn ein Teil der sprachlichen Kompetenz angeboren ist, Wenn ein Teil der sprachlichen Kompetenz angeboren ist, dann kann der Spracherwerb nicht alleine durch dann kann der Spracherwerb nicht alleine durch neuronale Lernverfahren modelliert werden.neuronale Lernverfahren modelliert werden.
Der Mensch erlernt viele Arten der Sprachverwendung Der Mensch erlernt viele Arten der Sprachverwendung (Performanztypen). Er scheint jedoch die einmal (Performanztypen). Er scheint jedoch die einmal erworbene Kompetenz immer weiter zu verwenden.erworbene Kompetenz immer weiter zu verwenden.
Selbst wenn das System den Anforderungen des Selbst wenn das System den Anforderungen des Erstspracherwerbs technisch gewachsen wäre, müßte die Erstspracherwerbs technisch gewachsen wäre, müßte die Maschine eine ähnliche Sprachsozialisation wie der Maschine eine ähnliche Sprachsozialisation wie der Mensch durchlaufen, was aus vielen Gründen nicht Mensch durchlaufen, was aus vielen Gründen nicht möglich ist.möglich ist.
Rekursion stellt ein Problem für neuronale Netze dar.Rekursion stellt ein Problem für neuronale Netze dar.
© 2001 Hans Uszkoreit
MitteleinbettungenMitteleinbettungen
Der Mann, der die Katze beobachtete, staunte.
Der Mann, der die Katze, die den Vogel jagte, beobachtete, staunte.
Der Mann, der die Katze, die den Vogel, der laut schrie, jagte, beobachtete, staunte.
© 2001 Hans Uszkoreit
MitteleinbettungenMitteleinbettungen
Der Hammer, mit dem der Handwerker, den Peter angerufen hatte, die Nägel einschlug, war mindestens drei Pfund schwer.
© 2001 Hans Uszkoreit
BeobachtungenBeobachtungen
Peter hat den Wagen, der seit Tagen vor der Haustür steht, gekauft.
Peter hat den Wagen gekauft, der seit Tagen vor der Haustür steht.
Peter hat den Wagen, der vor der Haustür steht, langsam und sorgfältig lackiert.
Peter hat den Wagen langsam und sorgfältig lackiert, der vor der Haustür steht.
Der Mann hat dem Jungen, der aus der Schule kam, den Ball gegeben.
Der Mann hat dem Jungen den Ball gegeben, der aus der Schule kam.
© 2001 Hans Uszkoreit
DependenzenDependenzen
Kleine Kinder brauchen viel Liebe
Peter gab dem Jungen den Ball
Kleine Kinder brauchen viel Liebe
© 2001 Hans Uszkoreit
DependenzenDependenzen
weil Peter dem Jungen den Ball, der vor der Haustür lag, gab
weil Peter dem Jungen den Ball gab , der vor der Haustür lag
© 2001 Hans Uszkoreit
Das Problem der Sprachbeherrschung ist zu komplexDas Problem der Sprachbeherrschung ist zu komplex
Es gibt viele Anwendungen, die nur begrenzte Sprachbeherrschung benötigen!Es gibt viele Anwendungen, die nur begrenzte Sprachbeherrschung benötigen!
KEINE SPRACHBEHERRSCHUNG OHNE ALLGEMEINES WISSEN KEINE SPRACHBEHERRSCHUNG OHNE ALLGEMEINES WISSEN
SprachumfangSprachumfang
SprachtiefeSprachtiefe
GegenstandsbereicheGegenstandsbereiche
Morphologie
Syntax
Semantik
Pragmatik
Wissensverarbeitung
Worterkennung
© 2001 Hans Uszkoreit
Sprachtechnologie und WWWSprachtechnologie und WWW
Die Sprache in der multimedialen Informationsgesellschaft Die Sprache in der multimedialen Informationsgesellschaft
Die Mehrsprachigkeit des WWWDie Mehrsprachigkeit des WWW
Probleme der InformationssucheProbleme der Informationssuche
Das Potential der SprachtechnologieDas Potential der Sprachtechnologie
Multilinguale Suche und NavigationMultilinguale Suche und Navigation
© 2001 Hans Uszkoreit
Sprache im WWWSprache im WWW
Sprache ist nur ein Medium auf dem WWW. Sprache ist nur ein Medium auf dem WWW.
Aber unter den verschiedenen Medien hat die Sprache einen besonderen Status.Aber unter den verschiedenen Medien hat die Sprache einen besonderen Status.
Bücher, Filme, Bilder, Musikstücke und Computerprogramme beschreiben und finden wir am Bücher, Filme, Bilder, Musikstücke und Computerprogramme beschreiben und finden wir am besten mit Sprache.besten mit Sprache.
Nur mithilfe der Sprache können wir Wissen strukturieren und sinnvoll vernetzen.Nur mithilfe der Sprache können wir Wissen strukturieren und sinnvoll vernetzen.
Die Sprache ist das Gewebe des World Wide WebDie Sprache ist das Gewebe des World Wide Web
© 2001 Hans Uszkoreit
Menschliche SpracheMenschliche Sprache
Die Sprache hat Seiten, die dem Menschen leichtfallen, Die Sprache hat Seiten, die dem Menschen leichtfallen,
dem Computer hingegen schwer.dem Computer hingegen schwer.
Insbesondere:Insbesondere:
Ambiguität: Ambiguität: viele Wörter und Phrasen haben mehrere Bedeutungenviele Wörter und Phrasen haben mehrere Bedeutungen
Paraphrasen: Paraphrasen: es gibt viele Möglichkeiten, das Gleiche auszudrücken es gibt viele Möglichkeiten, das Gleiche auszudrücken
Ungenauigkeit: oft ist die Bedeutung von Ausdrücken unscharfUngenauigkeit: oft ist die Bedeutung von Ausdrücken unscharf
© 2001 Hans Uszkoreit
Heutige SuchtechnologieHeutige Suchtechnologie
Wort-IndexWort-Index
Boolsche KombinationenBoolsche Kombinationen
verschiedene verschiedene IndexierungsverfahrenIndexierungsverfahren
eingeschränkte Morphologieeingeschränkte Morphologie
Sortierung nach RelevanzSortierung nach Relevanz
Suche in mehreren SprachenSuche in mehreren Sprachen
More than 35 terabytes served
surch the web for:
Lyca Lyca SurchaSurcha
First 10 of 45.677 matches:
1. research in mutlilingual IR an easier...
Order your free beer today
sweat AND tears
2. Sir Winston S. Churchill homepage of...
4. 60s Rock Timeline remember the best...
3. Shinjuku Yamabuki B$h$&$3$=;%5!
© 2001 Hans Uszkoreit
Probleme für heutige SuchmaschinenProbleme für heutige Suchmaschinen
Sie finden nicht genug!Sie finden nicht genug!
Andere WortformenAndere Wortformen
derder Herzog, Herzog, des Herzogs, die Herzögedes Herzogs, die Herzöge
Unter- und ÜberbegriffeUnter- und Überbegriffe
Alfa Romeo Zagato Alfa Romeo Zagato roadster roadster sports carsports car car car motor vehicle motor vehicle vehiclevehicle
ParaphrasenParaphrasen
steuerliche Gründesteuerliche Gründe, Steuergründe, steuerliche Erwägungen, , Steuergründe, steuerliche Erwägungen,
steuerliche Überlegungen, fiskalische Erwägungen, um Steuern zu sparen, ...steuerliche Überlegungen, fiskalische Erwägungen, um Steuern zu sparen, ...
© 2001 Hans Uszkoreit
Nehmen wir an, Sie suchten nach AutomobilfirmenNehmen wir an, Sie suchten nach Automobilfirmen
und gäben daher der Suchmaschine (z.B. HOTBOT) den Suchbegriff und gäben daher der Suchmaschine (z.B. HOTBOT) den Suchbegriff
““Automobilfirmen”Automobilfirmen”
Im Englischen suchten Sie nach: Im Englischen suchten Sie nach:
““automobile companies” automobile companies”
Paraphrasen: Ein kleines Paraphrasen: Ein kleines ExperimentExperiment
© 2001 Hans Uszkoreit
Paraphrasen: Ein kleines Paraphrasen: Ein kleines ExperimentExperiment
automobile companies automobile companies 704 704 AutomobilfirmenAutomobilfirmen 55 55
© 2001 Hans Uszkoreit
Paraphrasen: Ein kleines Paraphrasen: Ein kleines ExperimentExperiment
automobile companies automobile companies 704 704car builders car builders
233233car makerscar makers 18461846auto makersauto makers
23072307automobile makersautomobile makers
181181car companiescar companies
30463046cars companiescars companies
1414motor companiesmotor companies 194 194auto companiesauto companies 13451345car manufacturerscar manufacturers 30563056motor manufacturersmotor manufacturers
582582automobile manufacturersautomobile manufacturers 42634263manufacturers of carsmanufacturers of cars
151151manufacturers of autosmanufacturers of autos
1515manufacturers of automobilesmanufacturers of automobiles
165165manufacturers of motor vehiclesmanufacturers of motor vehicles 55 55
AutomobilfirmenAutomobilfirmen 55 55 AutoherstellerAutohersteller
320320AutobauerAutobauer 131 131AutoproduzentenAutoproduzenten 26 26AutofabrikantAutofabrikant
8989AutofirmenAutofirmen
8686Pkw HerstellerPkw Hersteller
1515Automobilunternehmen Automobilunternehmen 57 57AutomobilherstellerAutomobilhersteller
602602Kfz-HerstellerKfz-Hersteller
4242Autounternehmen Autounternehmen 9 9AutomobilkonzerneAutomobilkonzerne
8383Unternehmen der Automobilbranche 4Unternehmen der Automobilbranche 4Hersteller von Autos Hersteller von Autos
4 4Hersteller von Automobilen Hersteller von Automobilen
1313Hersteller von Kraftfahrzeugen Hersteller von Kraftfahrzeugen 3 3
© 2001 Hans Uszkoreit
Weitere ProblemeWeitere Probleme
Sie finden zu viel!Sie finden zu viel!
AmbiguitätAmbiguität
deutsch: deutsch: Zug, Bahn, Leitung, SchalterZug, Bahn, Leitung, Schalter
englisch:englisch: terminal, line, engine terminal, line, engine
PolysemiePolysemie
Buch, Schule, printerBuch, Schule, printer
EigennamenEigennamen
Personennamen: Personennamen: Maurer, Washington, ChaseMaurer, Washington, Chase
Ortsbezeichnungen: Ortsbezeichnungen: Essen, Halle, BismarckEssen, Halle, Bismarck
© 2001 Hans Uszkoreit
Das Web ist mutlilingualDas Web ist mutlilingual
Das WWW war anfangs vorherrschend monolingualDas WWW war anfangs vorherrschend monolingual
(1994 - 96% aller WWW Seiten englisch)(1994 - 96% aller WWW Seiten englisch)
Nicht-englische Inhalte nehmen schneller zu. Nicht-englische Inhalte nehmen schneller zu.
(1996 - 91% englisch, heute ca. 85%)(1996 - 91% englisch, heute ca. 85%)
© 2001 Hans Uszkoreit
GGLOBALIZATIONLOBALIZATION OF THE OF THE UUSERSER B BASEASE
Share of US Web Users
0102030405060708090
100
1991 1995 1998 2000
US Web Users in %
Source: ComputerIndustry Almanac Inc.January 1998
80
6555
40
© 2001 Hans Uszkoreit
Relevante FaktorenRelevante Faktoren
Entwicklung vom Avantgardemedium zum MassenmediumEntwicklung vom Avantgardemedium zum Massenmedium
Ausbreitung in neue Regionen (Lateinamerika, Asien, arabische Welt)Ausbreitung in neue Regionen (Lateinamerika, Asien, arabische Welt)
Digitalisierung großer Bibliotheken in vielen LändernDigitalisierung großer Bibliotheken in vielen Ländern
Rolle des WWW als globaler HandelsplatzRolle des WWW als globaler Handelsplatz
Rolle des WWW als Medium für politische Information und PropagandaRolle des WWW als Medium für politische Information und Propaganda
Zunahme sozialer und kultureller Inhalte Zunahme sozialer und kultureller Inhalte
Die Zukunft des WWW ist vielsprachig.Die Zukunft des WWW ist vielsprachig.
© 2001 Hans Uszkoreit
Noch mehr Probleme! Noch mehr Probleme!
Andere Schriftsysteme müssen kodiert und dargestellt werden:Andere Schriftsysteme müssen kodiert und dargestellt werden:
Chinesisch, Japanisch, Arabisch, Griechisch,...Chinesisch, Japanisch, Arabisch, Griechisch,...
Die Wortbildungsregeln der Sprachen geraten sich ins Gehege:Die Wortbildungsregeln der Sprachen geraten sich ins Gehege:
SkatSkat skatingskatingLimesLimes limelime
Sprachübergreifende Ambiguität stört bei der Suche:Sprachübergreifende Ambiguität stört bei der Suche:
BriefBrief brief overviewbrief overview
PostPost post messagespost messages
Porto Porto Porto travel informationPorto travel information
HautHaut Haut BarrHaut Barr
cutecute cute girlscute girls
© 2001 Hans Uszkoreit
Multilingualität als HerausforderungMultilingualität als Herausforderung
Eine große Chance tut sich auf:Eine große Chance tut sich auf:
Es wird möglich sein, durch das niedergeschriebene Wissen der Es wird möglich sein, durch das niedergeschriebene Wissen der Menschheit zu navigieren, ohne an der Sprachgrenze stehenbleiben zu Menschheit zu navigieren, ohne an der Sprachgrenze stehenbleiben zu müssen.müssen.
Diese technologische Herausforderung erfordert aber Fortschritte auf den Diese technologische Herausforderung erfordert aber Fortschritte auf den folgenden Gebieten:folgenden Gebieten:
lexikalische Semantiklexikalische Semantik konzeptuelle Strukturierungkonzeptuelle Strukturierung Verbesserungen in maschineller ÜbersetzungVerbesserungen in maschineller Übersetzung
© 2001 Hans Uszkoreit
Maschinelle ÜbersetzungMaschinelle Übersetzung
Die vollautomatische maschinelle Übersetzung (fully automatic Die vollautomatische maschinelle Übersetzung (fully automatic maschine translation – FAMT) beliebiger Texte ist heute nicht maschine translation – FAMT) beliebiger Texte ist heute nicht möglich.möglich.
Das liegt nicht an der linguistischen Verarbeitung der Texte, Das liegt nicht an der linguistischen Verarbeitung der Texte, sondern am fehlenden Wissen der Maschine über die Inhalte.sondern am fehlenden Wissen der Maschine über die Inhalte.
Für sehr eingeschränkte Gegenstandsbereiche und Textarten Für sehr eingeschränkte Gegenstandsbereiche und Textarten können aber brauchbare Übersetzungen geliefert werden.können aber brauchbare Übersetzungen geliefert werden.
Ansonsten dient die maschinelle Übersetzung heute erfolgreich Ansonsten dient die maschinelle Übersetzung heute erfolgreich als Vorstufe für menschliche Übersetzung (machine-assisted als Vorstufe für menschliche Übersetzung (machine-assisted human translation – MAHT).human translation – MAHT).
© 2001 Hans Uszkoreit
MÜ ist dennoch brauchbarMÜ ist dennoch brauchbar
Eine zufriedenstellende automatische Übersetzung beliebiger Texte Eine zufriedenstellende automatische Übersetzung beliebiger Texte ist heute also nicht möglich.ist heute also nicht möglich.
Aber die Technologie liefert Übersetzungen, die den Leser sehr wohl Aber die Technologie liefert Übersetzungen, die den Leser sehr wohl das Thema und die wesentlichsten Inhalte erkennen lassen.das Thema und die wesentlichsten Inhalte erkennen lassen.
Wir arbeiten mit dem Übersetzungssystem LOGOS.Wir arbeiten mit dem Übersetzungssystem LOGOS.
Andere große Übersetzungssysteme (SYSTRAN, METAL) werden Andere große Übersetzungssysteme (SYSTRAN, METAL) werden ebenfalls für WWW Anwendungen eingesetzt.ebenfalls für WWW Anwendungen eingesetzt.
Die Übersetzungen nennen wir indikative Übersetzungen. Die Übersetzungen nennen wir indikative Übersetzungen.
© 2001 Hans Uszkoreit
Indikative ÜbersetzungIndikative Übersetzung
© 2001 Hans Uszkoreit
Multilinguale NavigationMultilinguale Navigation
multilingualemultilingualeSucheSuche
multilingualemultilingualeSchnittstelleSchnittstelle
für die für dieNavigationNavigation
mehrsprachigesmehrsprachigesAngebot im WebAngebot im Web
© 2001 Hans Uszkoreit
Mulinex KonsortiumMulinex Konsortium
Bertelsmann
TRADOSDeutschesForschungszentrum für Künstliche Intelligenz GmbH
DAT MA ATingegneria dei sistemi
© Hans Uszkoreit 1998
Das Konsortium
© 2001 Hans Uszkoreit
mulinex: die englische Suchseitemulinex: die englische Suchseite
© 2001 Hans Uszkoreit
mulinex: englische Eingabemulinex: englische Eingabe
© 2001 Hans Uszkoreit
mulinex: Einschränkung der Suchemulinex: Einschränkung der Suche
© 2001 Hans Uszkoreit
mulinex: Anzeigemulinex: Anzeige
© 2001 Hans Uszkoreit
mulinex: Anzeige (Ausschnitt)mulinex: Anzeige (Ausschnitt)
© 2001 Hans Uszkoreit
mulinex: Zusammenfassungmulinex: Zusammenfassung
© 2001 Hans Uszkoreit
carcar
KonzeptindexKonzeptindex
© 2001 Hans Uszkoreit
carcarPersonenautoPersonenautoAutoAutomobil
KonzeptindexKonzeptindex
© 2001 Hans Uszkoreit
carcarPersonenautoPersonenautoAutoAutomobil
KonzeptindexKonzeptindex
...Kraftfahrzeuge für Personen...
© 2001 Hans Uszkoreit
carcarPersonenautoPersonenautoAutoAutomobil
automobile autocar
KonzeptindexKonzeptindex
...Kraftfahrzeuge für Personen...
© 2001 Hans Uszkoreit
carcarPersonenautoPersonenautoAutoAutomobil
automobile autocar
KonzeptindexKonzeptindex
...location de voitures......Kraftfahrzeuge für Personen...
© 2001 Hans Uszkoreit
KonzeptindexKonzeptindex
motor vehiclemotor vehicle
carcar trucktruck
sports carsports car
...Kraftfahrzeuge für Personen...
tank trucktank truck
PersonenautoPersonenautoAutoAutomobil
automobile autocar
...location de voitures...
© 2001 Hans Uszkoreit
KonzeptindexKonzeptindex
SprachidentifikationSprachidentifikation
Lexikalische DesambiguierungLexikalische Desambiguierung
Flache syntaktische AnalysetechnikenFlache syntaktische Analysetechniken
Aufbau eines phrasalen IndexAufbau eines phrasalen Index
multilinguale Terminologienmultilinguale Terminologien
Paraphrasen-GlossareParaphrasen-Glossare
BenötigteTechnologien:BenötigteTechnologien:
© 2001 Hans Uszkoreit
AusblickAusblick
Die Strukturierung des digitalen menschlichen Wissens ist eine Die Strukturierung des digitalen menschlichen Wissens ist eine der großen Herausforderungen des nächsten Jahrhunderts.der großen Herausforderungen des nächsten Jahrhunderts.
Die Sprachtechnologie ist eine Schlüsseltechnologie für dieses Die Sprachtechnologie ist eine Schlüsseltechnologie für dieses ehrgeizige Vorhaben,ehrgeizige Vorhaben,
denn die Sprache ist das Gewebe des Wissens. denn die Sprache ist das Gewebe des Wissens.
© 2001 Hans Uszkoreit
Sprachtechnologien im ÜberblickSprachtechnologien im Überblick
© 2001 Hans Uszkoreit
Sprachtechnologie in der WirtschaftSprachtechnologie in der Wirtschaft