Einf hrung in die Computerlinguistik berblickhs/teach/15w/intro/pdf/01uberblick.pdf · Was ist...

Post on 14-Oct-2019

16 views 0 download

Transcript of Einf hrung in die Computerlinguistik berblickhs/teach/15w/intro/pdf/01uberblick.pdf · Was ist...

Einführung in die ComputerlinguistikÜberblick

Hinrich Schütze & Robert Zangenfeind

Centrum für Informations- und Sprachverarbeitung, LMU München

2015-10-12

Schütze & Zangenfeind: Überblick 1 / 19

Was ist Computerlinguistik?

Schütze & Zangenfeind: Überblick 2 / 19

Was ist Computerlinguistik?

DefinitionComputational linguistics is the scientific study of models andmethods for automatic processing of natural language.Computational linguistics is an interdisciplinary field that shares alarge part of its subject matter with computer science andlinguistics. However, computational linguists also work on theories,models and methods that are not part of core linguistics or corecomputer science.

Schütze & Zangenfeind: Überblick 2 / 19

Was ist Computerlinguistik?

DefinitionComputational linguistics is the scientific study of models andmethods for automatic processing of natural language.Computational linguistics is an interdisciplinary field that shares alarge part of its subject matter with computer science andlinguistics. However, computational linguists also work on theories,models and methods that are not part of core linguistics or corecomputer science.

Closely related, but different: natural language processing,speech recognition

Schütze & Zangenfeind: Überblick 2 / 19

Anwendungen der Computerlinguistik

Rechtschreibkorrektur

Grammatiküberprüfung

Häufigkeitsanalysen von Vorkommen von Wörtern undlinguistischen Phänomenen

Lexikographie (Thesauri, Wörterbücher)

Informationserschließung (Internet-Recherche)

Kommunikation mit Maschine z.B. bei der Bank

(vollautomatische) maschinelle Übersetzung

Schütze & Zangenfeind: Überblick 3 / 19

Beispiele für industrielle Anwendungen

Schütze & Zangenfeind: Überblick 4 / 19

Beispiele für industrielle Anwendungen

Internetsuchmaschinen: sehr große Menge an Information,aber hochgradig unstrukturiert → direkter Zugang zurelevanten Daten ist schwierig.

Schütze & Zangenfeind: Überblick 4 / 19

Beispiele für industrielle Anwendungen

Internetsuchmaschinen: sehr große Menge an Information,aber hochgradig unstrukturiert → direkter Zugang zurelevanten Daten ist schwierig.

Dialoganwendungen: Zugang zu komplexen Systemen, z.B.Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank,auch mit natürlichsprachlichen Anwendungen

Schütze & Zangenfeind: Überblick 4 / 19

Beispiele für industrielle Anwendungen

Internetsuchmaschinen: sehr große Menge an Information,aber hochgradig unstrukturiert → direkter Zugang zurelevanten Daten ist schwierig.

Dialoganwendungen: Zugang zu komplexen Systemen, z.B.Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank,auch mit natürlichsprachlichen Anwendungen

Übersetzungssysteme: fremdsprachige Web-Seiten,Gebrauchsanweisungen, Wetterberichte etc.

Schütze & Zangenfeind: Überblick 4 / 19

Beispiele für industrielle Anwendungen

Internetsuchmaschinen: sehr große Menge an Information,aber hochgradig unstrukturiert → direkter Zugang zurelevanten Daten ist schwierig.

Dialoganwendungen: Zugang zu komplexen Systemen, z.B.Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank,auch mit natürlichsprachlichen Anwendungen

Übersetzungssysteme: fremdsprachige Web-Seiten,Gebrauchsanweisungen, Wetterberichte etc.

automatische Silbentrennung, Rechtschreibprüfung und-korrektur

Schütze & Zangenfeind: Überblick 4 / 19

Beispiele für industrielle Anwendungen

Internetsuchmaschinen: sehr große Menge an Information,aber hochgradig unstrukturiert → direkter Zugang zurelevanten Daten ist schwierig.

Dialoganwendungen: Zugang zu komplexen Systemen, z.B.Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank,auch mit natürlichsprachlichen Anwendungen

Übersetzungssysteme: fremdsprachige Web-Seiten,Gebrauchsanweisungen, Wetterberichte etc.

automatische Silbentrennung, Rechtschreibprüfung und-korrektur

automatische Spracherkennung

Schütze & Zangenfeind: Überblick 4 / 19

Beispiele für industrielle Anwendungen

Internetsuchmaschinen: sehr große Menge an Information,aber hochgradig unstrukturiert → direkter Zugang zurelevanten Daten ist schwierig.

Dialoganwendungen: Zugang zu komplexen Systemen, z.B.Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank,auch mit natürlichsprachlichen Anwendungen

Übersetzungssysteme: fremdsprachige Web-Seiten,Gebrauchsanweisungen, Wetterberichte etc.

automatische Silbentrennung, Rechtschreibprüfung und-korrektur

automatische Spracherkennung

Informationsextraktion, z.B. relevante Qualifikationen ausBewerbungsbriefen und Lebensläufen maschinell extrahieren

Schütze & Zangenfeind: Überblick 4 / 19

Berufsfelder für Computerlinguisten

Schütze & Zangenfeind: Überblick 5 / 19

Berufsfelder für Computerlinguisten

Verarbeitung gesprochener Sprache für die Interaktion mitComputern

Schütze & Zangenfeind: Überblick 5 / 19

Berufsfelder für Computerlinguisten

Verarbeitung gesprochener Sprache für die Interaktion mitComputern

Verarbeitung von Texten (suchen, bearbeiten und verwalten)

Schütze & Zangenfeind: Überblick 5 / 19

Berufsfelder für Computerlinguisten

Verarbeitung gesprochener Sprache für die Interaktion mitComputern

Verarbeitung von Texten (suchen, bearbeiten und verwalten)

Einsatz sprachtechnologischer Software und Ressourcen (inVerlagen, Übersetzungsbüros, Verwaltungen etc.): MaschinelleÜbersetzung, elektronische Wörterbücher, Spracherkennung,Sprachgenerierung, lexikonbasierte Optimierung vonOptical-Character-Recognition-Verfahren (OCR)

Schütze & Zangenfeind: Überblick 5 / 19

Berufsfelder für Computerlinguisten

Verarbeitung gesprochener Sprache für die Interaktion mitComputern

Verarbeitung von Texten (suchen, bearbeiten und verwalten)

Einsatz sprachtechnologischer Software und Ressourcen (inVerlagen, Übersetzungsbüros, Verwaltungen etc.): MaschinelleÜbersetzung, elektronische Wörterbücher, Spracherkennung,Sprachgenerierung, lexikonbasierte Optimierung vonOptical-Character-Recognition-Verfahren (OCR)

akademischer Bereich

Schütze & Zangenfeind: Überblick 5 / 19

Berufsfelder für Computerlinguisten

Verarbeitung gesprochener Sprache für die Interaktion mitComputern

Verarbeitung von Texten (suchen, bearbeiten und verwalten)

Einsatz sprachtechnologischer Software und Ressourcen (inVerlagen, Übersetzungsbüros, Verwaltungen etc.): MaschinelleÜbersetzung, elektronische Wörterbücher, Spracherkennung,Sprachgenerierung, lexikonbasierte Optimierung vonOptical-Character-Recognition-Verfahren (OCR)

akademischer Bereich

Bedarf an Experten steigt tendentiell

Schütze & Zangenfeind: Überblick 5 / 19

Typische Forschungsgegenstände

Schütze & Zangenfeind: Überblick 6 / 19

Typische Forschungsgegenstände

Entwicklung von Methoden (Theorie)

Schütze & Zangenfeind: Überblick 6 / 19

Typische Forschungsgegenstände

Entwicklung von Methoden (Theorie)

Entwicklung realistischer Anwendungen (Praxis)

Schütze & Zangenfeind: Überblick 6 / 19

Typische Forschungsgegenstände

Entwicklung von Methoden (Theorie)

Entwicklung realistischer Anwendungen (Praxis)

Aufbau und Verwaltung großer wiederverwendbarer Korpora(Daten)

Schütze & Zangenfeind: Überblick 6 / 19

Typische Forschungsgegenstände

Entwicklung von Methoden (Theorie)

Entwicklung realistischer Anwendungen (Praxis)

Aufbau und Verwaltung großer wiederverwendbarer Korpora(Daten)

Konzeption effektiver Evaluationsmechanismen (Experimente)

Schütze & Zangenfeind: Überblick 6 / 19

Nachbardisziplinen (1)

Schütze & Zangenfeind: Überblick 7 / 19

Nachbardisziplinen (1)

Linguistik

Schütze & Zangenfeind: Überblick 7 / 19

Nachbardisziplinen (1)

Linguistik

Die Wissenschaft, die sich mit menschlicher Sprachebeschäftigt

Schütze & Zangenfeind: Überblick 7 / 19

Nachbardisziplinen (1)

Linguistik

Die Wissenschaft, die sich mit menschlicher SprachebeschäftigtGrundinventar linguistischer Termini

Schütze & Zangenfeind: Überblick 7 / 19

Nachbardisziplinen (1)

Linguistik

Die Wissenschaft, die sich mit menschlicher SprachebeschäftigtGrundinventar linguistischer TerminiTeilgebiete: Phonetik/Phonologie, Morphologie, Syntax,Semantik, Pragmatik; Korpuslinguistik

Schütze & Zangenfeind: Überblick 7 / 19

Nachbardisziplinen (1)

Linguistik

Die Wissenschaft, die sich mit menschlicher SprachebeschäftigtGrundinventar linguistischer TerminiTeilgebiete: Phonetik/Phonologie, Morphologie, Syntax,Semantik, Pragmatik; Korpuslinguistik

Informatik (Algorithmen, Datenstrukturen, SoftwareEngineering)

Schütze & Zangenfeind: Überblick 7 / 19

Nachbardisziplinen (1)

Linguistik

Die Wissenschaft, die sich mit menschlicher SprachebeschäftigtGrundinventar linguistischer TerminiTeilgebiete: Phonetik/Phonologie, Morphologie, Syntax,Semantik, Pragmatik; Korpuslinguistik

Informatik (Algorithmen, Datenstrukturen, SoftwareEngineering)

Philosophie (Verbindung von Sprache, Denken und Handeln;Relation zu außersprachlichen Gegebenheiten)

Schütze & Zangenfeind: Überblick 7 / 19

Nachbardisziplinen (1)

Linguistik

Die Wissenschaft, die sich mit menschlicher SprachebeschäftigtGrundinventar linguistischer TerminiTeilgebiete: Phonetik/Phonologie, Morphologie, Syntax,Semantik, Pragmatik; Korpuslinguistik

Informatik (Algorithmen, Datenstrukturen, SoftwareEngineering)

Philosophie (Verbindung von Sprache, Denken und Handeln;Relation zu außersprachlichen Gegebenheiten)

Künstliche Intelligenz (knowledge representation, reasoning,learning)

Schütze & Zangenfeind: Überblick 7 / 19

Nachbardisziplinen (2)

Schütze & Zangenfeind: Überblick 8 / 19

Nachbardisziplinen (2)

Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)

Schütze & Zangenfeind: Überblick 8 / 19

Nachbardisziplinen (2)

Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)

Mathematik

Schütze & Zangenfeind: Überblick 8 / 19

Nachbardisziplinen (2)

Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)

Mathematik

Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie

Schütze & Zangenfeind: Überblick 8 / 19

Nachbardisziplinen (2)

Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)

Mathematik

Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie

Sprache ist oft nicht logisch:

Schütze & Zangenfeind: Überblick 8 / 19

Nachbardisziplinen (2)

Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)

Mathematik

Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie

Sprache ist oft nicht logisch:

Schütze & Zangenfeind: Überblick 8 / 19

Nachbardisziplinen (2)

Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)

Mathematik

Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie

Sprache ist oft nicht logisch:

(1) Ein großer Berg vs. Eine große Ameise

Schütze & Zangenfeind: Überblick 8 / 19

Nachbardisziplinen (2)

Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)

Mathematik

Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie

Sprache ist oft nicht logisch:

(1) Ein großer Berg vs. Eine große Ameise→ Vagheit des Adjektivs (kein Problem für Menschen) →

Logik modifizieren in CL

Schütze & Zangenfeind: Überblick 8 / 19

Nachbardisziplinen (2)

Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)

Mathematik

Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie

Sprache ist oft nicht logisch:

(1) Ein großer Berg vs. Eine große Ameise→ Vagheit des Adjektivs (kein Problem für Menschen) →

Logik modifizieren in CL

(2) Vögel fliegen. / Pinguine sind Vögel. / Pinguine fliegen.

Schütze & Zangenfeind: Überblick 8 / 19

Nachbardisziplinen (2)

Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)

Mathematik

Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie

Sprache ist oft nicht logisch:

(1) Ein großer Berg vs. Eine große Ameise→ Vagheit des Adjektivs (kein Problem für Menschen) →

Logik modifizieren in CL

(2) Vögel fliegen. / Pinguine sind Vögel. / Pinguine fliegen.→ scheinbar widersprüchliche Aussagen (Mensch hat wenigProbleme damit)

Schütze & Zangenfeind: Überblick 8 / 19

Teilgebiete der Linguistik

Phonetik und Phonologie

Morphologie

Syntax

Semantik

Pragmatik

Schütze & Zangenfeind: Überblick 9 / 19

Teilgebiete der Linguistik

Phonetik und Phonologie

Morphologie

Syntax

Semantik

Pragmatik

Jedes dieser Teilgebiete hat auch eine Entsprechung in derComputerlinguistik.

Schütze & Zangenfeind: Überblick 9 / 19

Phonetik und Phonologie

Schütze & Zangenfeind: Überblick 10 / 19

Phonetik und Phonologie

artikulatorische Merkmale

Schütze & Zangenfeind: Überblick 10 / 19

Phonetik und Phonologie

artikulatorische Merkmale

Lautstruktur natürlicher Sprachen

Schütze & Zangenfeind: Überblick 10 / 19

Phonetik und Phonologie

artikulatorische Merkmale

Lautstruktur natürlicher Sprachen

Spracherkennung: Erkennung und Produktion gesprochenerSprache

Schütze & Zangenfeind: Überblick 10 / 19

Phonetik und Phonologie

artikulatorische Merkmale

Lautstruktur natürlicher Sprachen

Spracherkennung: Erkennung und Produktion gesprochenerSprache

modellieren, welche Segmente ein Wort enthält und wie sichderen Struktur auf die Aussprache auswirkt

Schütze & Zangenfeind: Überblick 10 / 19

Phonetik und Phonologie

artikulatorische Merkmale

Lautstruktur natürlicher Sprachen

Spracherkennung: Erkennung und Produktion gesprochenerSprache

modellieren, welche Segmente ein Wort enthält und wie sichderen Struktur auf die Aussprache auswirkt

z.B. wenn ein im Prinzip stimmhafter Konsonant amWortende stimmlos wird (“Auslautverhärtung”):

Schütze & Zangenfeind: Überblick 10 / 19

Phonetik und Phonologie

artikulatorische Merkmale

Lautstruktur natürlicher Sprachen

Spracherkennung: Erkennung und Produktion gesprochenerSprache

modellieren, welche Segmente ein Wort enthält und wie sichderen Struktur auf die Aussprache auswirkt

z.B. wenn ein im Prinzip stimmhafter Konsonant amWortende stimmlos wird (“Auslautverhärtung”):

(3) Dieb /Diep/ vs. Diebe /Diebe/

Schütze & Zangenfeind: Überblick 10 / 19

Morphologie

Schütze & Zangenfeind: Überblick 11 / 19

Morphologie

Bildung und Struktur von Wörtern

Schütze & Zangenfeind: Überblick 11 / 19

Morphologie

Bildung und Struktur von Wörtern

lexikalische Wurzel von einzelnen Wörtern

Schütze & Zangenfeind: Überblick 11 / 19

Morphologie

Bildung und Struktur von Wörtern

lexikalische Wurzel von einzelnen Wörtern

Prozesse, verantwortlich für unterschiedlicheErscheinungsformen an der Oberfläche

Schütze & Zangenfeind: Überblick 11 / 19

Morphologie

Bildung und Struktur von Wörtern

lexikalische Wurzel von einzelnen Wörtern

Prozesse, verantwortlich für unterschiedlicheErscheinungsformen an der Oberfläche

Veränderung der Verwendung und Bedeutung des Wortesdurch Oberflächenmodifikationen

Schütze & Zangenfeind: Überblick 11 / 19

Morphologie

Bildung und Struktur von Wörtern

lexikalische Wurzel von einzelnen Wörtern

Prozesse, verantwortlich für unterschiedlicheErscheinungsformen an der Oberfläche

Veränderung der Verwendung und Bedeutung des Wortesdurch Oberflächenmodifikationen

z.B. Suffix -e als Pluralmarkierung:

Schütze & Zangenfeind: Überblick 11 / 19

Morphologie

Bildung und Struktur von Wörtern

lexikalische Wurzel von einzelnen Wörtern

Prozesse, verantwortlich für unterschiedlicheErscheinungsformen an der Oberfläche

Veränderung der Verwendung und Bedeutung des Wortesdurch Oberflächenmodifikationen

z.B. Suffix -e als Pluralmarkierung:

(4) Dieb-e → Dieb-pl → “Mehr als ein Dieb”

Schütze & Zangenfeind: Überblick 11 / 19

Syntax

Schütze & Zangenfeind: Überblick 12 / 19

Syntax

Strukturbildung von Sätzen

Schütze & Zangenfeind: Überblick 12 / 19

Syntax

Strukturbildung von Sätzen

traditionell am stärksten vertretene Teildisziplin derComputerlinguistik

Schütze & Zangenfeind: Überblick 12 / 19

Syntax

Strukturbildung von Sätzen

traditionell am stärksten vertretene Teildisziplin derComputerlinguistik

Erkennung von Grammatikalität und darauf folgendeBedeutungserschließung

Schütze & Zangenfeind: Überblick 12 / 19

Syntax

Strukturbildung von Sätzen

traditionell am stärksten vertretene Teildisziplin derComputerlinguistik

Erkennung von Grammatikalität und darauf folgendeBedeutungserschließung

z.B.

(5) Der gewitzte Dieb stahl das Geld.

Schütze & Zangenfeind: Überblick 12 / 19

Syntax

Strukturbildung von Sätzen

traditionell am stärksten vertretene Teildisziplin derComputerlinguistik

Erkennung von Grammatikalität und darauf folgendeBedeutungserschließung

z.B.

(5) Der gewitzte Dieb stahl das Geld.vs.

Schütze & Zangenfeind: Überblick 12 / 19

Syntax

Strukturbildung von Sätzen

traditionell am stärksten vertretene Teildisziplin derComputerlinguistik

Erkennung von Grammatikalität und darauf folgendeBedeutungserschließung

z.B.

(5) Der gewitzte Dieb stahl das Geld.vs.*Der Dieb gewitzte stahl das Geld.

Schütze & Zangenfeind: Überblick 12 / 19

Semantik

Schütze & Zangenfeind: Überblick 13 / 19

Semantik

Bedeutung sprachlicher Einheiten (Wort, Satz etc.)

Schütze & Zangenfeind: Überblick 13 / 19

Semantik

Bedeutung sprachlicher Einheiten (Wort, Satz etc.)

z.B.

(6) Die Polizei beschlagnahmte das Diebesgut.

Schütze & Zangenfeind: Überblick 13 / 19

Semantik

Bedeutung sprachlicher Einheiten (Wort, Satz etc.)

z.B.

(6) Die Polizei beschlagnahmte das Diebesgut.vs.

Schütze & Zangenfeind: Überblick 13 / 19

Semantik

Bedeutung sprachlicher Einheiten (Wort, Satz etc.)

z.B.

(6) Die Polizei beschlagnahmte das Diebesgut.vs.Das Diebesgut beschlagnahmte die Polizei.

Schütze & Zangenfeind: Überblick 13 / 19

Semantik

Bedeutung sprachlicher Einheiten (Wort, Satz etc.)

z.B.

(6) Die Polizei beschlagnahmte das Diebesgut.vs.Das Diebesgut beschlagnahmte die Polizei.

→ gleiche Bedeutung

Schütze & Zangenfeind: Überblick 13 / 19

Pragmatik

Schütze & Zangenfeind: Überblick 14 / 19

Pragmatik

Zweck einer Äußerung in der Welt, z.B.

Schütze & Zangenfeind: Überblick 14 / 19

Pragmatik

Zweck einer Äußerung in der Welt, z.B.Wissen Sie, wie spät es ist?

Schütze & Zangenfeind: Überblick 14 / 19

Pragmatik

Zweck einer Äußerung in der Welt, z.B.Wissen Sie, wie spät es ist?

Bestimmung des Bezugs von Wörtern: Antezedens einesPronomens, z.B.:

Schütze & Zangenfeind: Überblick 14 / 19

Pragmatik

Zweck einer Äußerung in der Welt, z.B.Wissen Sie, wie spät es ist?

Bestimmung des Bezugs von Wörtern: Antezedens einesPronomens, z.B.:Die Katze schnurrt. Sie hat Hunger.

Schütze & Zangenfeind: Überblick 14 / 19

Pragmatik

Zweck einer Äußerung in der Welt, z.B.Wissen Sie, wie spät es ist?

Bestimmung des Bezugs von Wörtern: Antezedens einesPronomens, z.B.:Die Katze schnurrt. Sie hat Hunger.

implizite Annahmen (Präsuppositionen), z.B.:

Schütze & Zangenfeind: Überblick 14 / 19

Pragmatik

Zweck einer Äußerung in der Welt, z.B.Wissen Sie, wie spät es ist?

Bestimmung des Bezugs von Wörtern: Antezedens einesPronomens, z.B.:Die Katze schnurrt. Sie hat Hunger.

implizite Annahmen (Präsuppositionen), z.B.:“der Präsident von Frankreich wurde nicht in Paris geboren”

Schütze & Zangenfeind: Überblick 14 / 19

Pragmatik

Zweck einer Äußerung in der Welt, z.B.Wissen Sie, wie spät es ist?

Bestimmung des Bezugs von Wörtern: Antezedens einesPronomens, z.B.:Die Katze schnurrt. Sie hat Hunger.

implizite Annahmen (Präsuppositionen), z.B.:“der Präsident von Frankreich wurde nicht in Paris geboren”“der Präsident von Norwegen wurde nicht in Oslo geboren”

Schütze & Zangenfeind: Überblick 14 / 19

Korpuslinguistik

Schütze & Zangenfeind: Überblick 15 / 19

Korpuslinguistik

seit Anfang 1980er

Schütze & Zangenfeind: Überblick 15 / 19

Korpuslinguistik

seit Anfang 1980er

Fortschritte bei Erkennung gesprochener Sprache

Schütze & Zangenfeind: Überblick 15 / 19

Korpuslinguistik

seit Anfang 1980er

Fortschritte bei Erkennung gesprochener Sprache

Wortartendisambiguierung (Tagging)

Schütze & Zangenfeind: Überblick 15 / 19

Korpuslinguistik

seit Anfang 1980er

Fortschritte bei Erkennung gesprochener Sprache

Wortartendisambiguierung (Tagging)

syntaktische Analyse (Parsing)

Schütze & Zangenfeind: Überblick 15 / 19

Korpuslinguistik

seit Anfang 1980er

Fortschritte bei Erkennung gesprochener Sprache

Wortartendisambiguierung (Tagging)

syntaktische Analyse (Parsing)

semantische Lesartendisambiguierung (z.B. Bank 1 vs. Bank2)

Schütze & Zangenfeind: Überblick 15 / 19

Korpuslinguistik

seit Anfang 1980er

Fortschritte bei Erkennung gesprochener Sprache

Wortartendisambiguierung (Tagging)

syntaktische Analyse (Parsing)

semantische Lesartendisambiguierung (z.B. Bank 1 vs. Bank2)

maschinelle Übersetzung

Schütze & Zangenfeind: Überblick 15 / 19

Text corpus

Schütze & Zangenfeind: Überblick 16 / 19

Text corpus

Definition

A corpus (plural corpora) or text corpus is a large and structuredset of texts, nowadays usually electronically stored and processed.

Schütze & Zangenfeind: Überblick 16 / 19

Text corpus

Definition

A corpus (plural corpora) or text corpus is a large and structuredset of texts, nowadays usually electronically stored and processed.

Corpora are used to do statistical analysis and hypothesistesting, checking occurrences or validating linguistic ruleswithin a specific language territory.

Schütze & Zangenfeind: Überblick 16 / 19

Text corpus

Definition

A corpus (plural corpora) or text corpus is a large and structuredset of texts, nowadays usually electronically stored and processed.

Corpora are used to do statistical analysis and hypothesistesting, checking occurrences or validating linguistic ruleswithin a specific language territory.

A corpus may contain texts in a single language (monolingualcorpus) or text data in multiple languages (multilingualcorpus).

Schütze & Zangenfeind: Überblick 16 / 19

Text corpus

Definition

A corpus (plural corpora) or text corpus is a large and structuredset of texts, nowadays usually electronically stored and processed.

Corpora are used to do statistical analysis and hypothesistesting, checking occurrences or validating linguistic ruleswithin a specific language territory.

A corpus may contain texts in a single language (monolingualcorpus) or text data in multiple languages (multilingualcorpus).

(from Wikipedia)

Schütze & Zangenfeind: Überblick 16 / 19

Kleine Geschichte der Computerlinguistik (1)

Schütze & Zangenfeind: Überblick 17 / 19

Kleine Geschichte der Computerlinguistik (1)

frühe Entwicklung der Computertechnologie (1930er-,40er-Jahre): numerische Problemstellungen (“Berechnungen”,z.B. ballistische Kurven), auch symbolischeVerarbeitungsaufgaben (Dechiffrierung verschlüsselterNachrichtentexte → maschinelle Übersetzung (MÜ) alsSpezialfall einer Dekodierungsaufgabe)

Schütze & Zangenfeind: Überblick 17 / 19

Kleine Geschichte der Computerlinguistik (1)

frühe Entwicklung der Computertechnologie (1930er-,40er-Jahre): numerische Problemstellungen (“Berechnungen”,z.B. ballistische Kurven), auch symbolischeVerarbeitungsaufgaben (Dechiffrierung verschlüsselterNachrichtentexte → maschinelle Übersetzung (MÜ) alsSpezialfall einer Dekodierungsaufgabe)

frühe Ansätze der MÜ haben gemeinsame Wurzel:stochastische Informationstheorie (Betrachtung desfremdsprachlichen Textes als Ergebnis der Übertragung einerNachricht über gestörten Kanal → Aufgabe: Rekonstruktiondes ursprünglichen Nachrichtentextes)

Schütze & Zangenfeind: Überblick 17 / 19

Kleine Geschichte der Computerlinguistik (1)

frühe Entwicklung der Computertechnologie (1930er-,40er-Jahre): numerische Problemstellungen (“Berechnungen”,z.B. ballistische Kurven), auch symbolischeVerarbeitungsaufgaben (Dechiffrierung verschlüsselterNachrichtentexte → maschinelle Übersetzung (MÜ) alsSpezialfall einer Dekodierungsaufgabe)

frühe Ansätze der MÜ haben gemeinsame Wurzel:stochastische Informationstheorie (Betrachtung desfremdsprachlichen Textes als Ergebnis der Übertragung einerNachricht über gestörten Kanal → Aufgabe: Rekonstruktiondes ursprünglichen Nachrichtentextes)

Statistische Verfahren wurden dann für Jahrzehnteaufgegeben.

Schütze & Zangenfeind: Überblick 17 / 19

Kleine Geschichte der Computerlinguistik (2)

Schütze & Zangenfeind: Überblick 18 / 19

Kleine Geschichte der Computerlinguistik (2)

Aufgabe von statistischen Verfahren weil

Schütze & Zangenfeind: Überblick 18 / 19

Kleine Geschichte der Computerlinguistik (2)

Aufgabe von statistischen Verfahren weil

Chomsky die Unzulänglichkeit der statistischen Verfahren der50er und 60er für Sprachmodellierung nachweist.

Schütze & Zangenfeind: Überblick 18 / 19

Kleine Geschichte der Computerlinguistik (2)

Aufgabe von statistischen Verfahren weil

Chomsky die Unzulänglichkeit der statistischen Verfahren der50er und 60er für Sprachmodellierung nachweist.

die Leistungsfähigkeit der damaligen Hardware nichtausreichte (Beschränkungen bevorzugen symbolische Ansätze)

Schütze & Zangenfeind: Überblick 18 / 19

Literatur und Links

Schütze & Zangenfeind: Überblick 19 / 19

Literatur und Links

Jurafsky & Martin: Speech and Language Processing. PearsonPrentice Hall. 2008.

Schütze & Zangenfeind: Überblick 19 / 19

Literatur und Links

Jurafsky & Martin: Speech and Language Processing. PearsonPrentice Hall. 2008.

Manning & Schütze: Foundations of Statistical NaturalLanguage Processing. MIT Press. 1999.

Schütze & Zangenfeind: Überblick 19 / 19

Literatur und Links

Jurafsky & Martin: Speech and Language Processing. PearsonPrentice Hall. 2008.

Manning & Schütze: Foundations of Statistical NaturalLanguage Processing. MIT Press. 1999.

Carstensen et al.: Computerlinguistik und Sprachtechnologie.Eine Einführung. Heidelberg 2010 (3. Auflage)

Schütze & Zangenfeind: Überblick 19 / 19

Literatur und Links

Jurafsky & Martin: Speech and Language Processing. PearsonPrentice Hall. 2008.

Manning & Schütze: Foundations of Statistical NaturalLanguage Processing. MIT Press. 1999.

Carstensen et al.: Computerlinguistik und Sprachtechnologie.Eine Einführung. Heidelberg 2010 (3. Auflage)

elektronische Version beim EasyProxy derUniversitätsbibliothek:https://login.easyproxy.ub.uni-muenchen.de/login

Schütze & Zangenfeind: Überblick 19 / 19