Einf hrung in die Computerlinguistik berblickhs/teach/15w/intro/pdf/01uberblick.pdf · Was ist...
Transcript of Einf hrung in die Computerlinguistik berblickhs/teach/15w/intro/pdf/01uberblick.pdf · Was ist...
Einführung in die ComputerlinguistikÜberblick
Hinrich Schütze & Robert Zangenfeind
Centrum für Informations- und Sprachverarbeitung, LMU München
2015-10-12
Schütze & Zangenfeind: Überblick 1 / 19
Was ist Computerlinguistik?
Schütze & Zangenfeind: Überblick 2 / 19
Was ist Computerlinguistik?
DefinitionComputational linguistics is the scientific study of models andmethods for automatic processing of natural language.Computational linguistics is an interdisciplinary field that shares alarge part of its subject matter with computer science andlinguistics. However, computational linguists also work on theories,models and methods that are not part of core linguistics or corecomputer science.
Schütze & Zangenfeind: Überblick 2 / 19
Was ist Computerlinguistik?
DefinitionComputational linguistics is the scientific study of models andmethods for automatic processing of natural language.Computational linguistics is an interdisciplinary field that shares alarge part of its subject matter with computer science andlinguistics. However, computational linguists also work on theories,models and methods that are not part of core linguistics or corecomputer science.
Closely related, but different: natural language processing,speech recognition
Schütze & Zangenfeind: Überblick 2 / 19
Anwendungen der Computerlinguistik
Rechtschreibkorrektur
Grammatiküberprüfung
Häufigkeitsanalysen von Vorkommen von Wörtern undlinguistischen Phänomenen
Lexikographie (Thesauri, Wörterbücher)
Informationserschließung (Internet-Recherche)
Kommunikation mit Maschine z.B. bei der Bank
(vollautomatische) maschinelle Übersetzung
Schütze & Zangenfeind: Überblick 3 / 19
Beispiele für industrielle Anwendungen
Schütze & Zangenfeind: Überblick 4 / 19
Beispiele für industrielle Anwendungen
Internetsuchmaschinen: sehr große Menge an Information,aber hochgradig unstrukturiert → direkter Zugang zurelevanten Daten ist schwierig.
Schütze & Zangenfeind: Überblick 4 / 19
Beispiele für industrielle Anwendungen
Internetsuchmaschinen: sehr große Menge an Information,aber hochgradig unstrukturiert → direkter Zugang zurelevanten Daten ist schwierig.
Dialoganwendungen: Zugang zu komplexen Systemen, z.B.Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank,auch mit natürlichsprachlichen Anwendungen
Schütze & Zangenfeind: Überblick 4 / 19
Beispiele für industrielle Anwendungen
Internetsuchmaschinen: sehr große Menge an Information,aber hochgradig unstrukturiert → direkter Zugang zurelevanten Daten ist schwierig.
Dialoganwendungen: Zugang zu komplexen Systemen, z.B.Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank,auch mit natürlichsprachlichen Anwendungen
Übersetzungssysteme: fremdsprachige Web-Seiten,Gebrauchsanweisungen, Wetterberichte etc.
Schütze & Zangenfeind: Überblick 4 / 19
Beispiele für industrielle Anwendungen
Internetsuchmaschinen: sehr große Menge an Information,aber hochgradig unstrukturiert → direkter Zugang zurelevanten Daten ist schwierig.
Dialoganwendungen: Zugang zu komplexen Systemen, z.B.Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank,auch mit natürlichsprachlichen Anwendungen
Übersetzungssysteme: fremdsprachige Web-Seiten,Gebrauchsanweisungen, Wetterberichte etc.
automatische Silbentrennung, Rechtschreibprüfung und-korrektur
Schütze & Zangenfeind: Überblick 4 / 19
Beispiele für industrielle Anwendungen
Internetsuchmaschinen: sehr große Menge an Information,aber hochgradig unstrukturiert → direkter Zugang zurelevanten Daten ist schwierig.
Dialoganwendungen: Zugang zu komplexen Systemen, z.B.Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank,auch mit natürlichsprachlichen Anwendungen
Übersetzungssysteme: fremdsprachige Web-Seiten,Gebrauchsanweisungen, Wetterberichte etc.
automatische Silbentrennung, Rechtschreibprüfung und-korrektur
automatische Spracherkennung
Schütze & Zangenfeind: Überblick 4 / 19
Beispiele für industrielle Anwendungen
Internetsuchmaschinen: sehr große Menge an Information,aber hochgradig unstrukturiert → direkter Zugang zurelevanten Daten ist schwierig.
Dialoganwendungen: Zugang zu komplexen Systemen, z.B.Bestellung eines Bahn- oder Flugtickets, Interaktion mit Bank,auch mit natürlichsprachlichen Anwendungen
Übersetzungssysteme: fremdsprachige Web-Seiten,Gebrauchsanweisungen, Wetterberichte etc.
automatische Silbentrennung, Rechtschreibprüfung und-korrektur
automatische Spracherkennung
Informationsextraktion, z.B. relevante Qualifikationen ausBewerbungsbriefen und Lebensläufen maschinell extrahieren
Schütze & Zangenfeind: Überblick 4 / 19
Berufsfelder für Computerlinguisten
Schütze & Zangenfeind: Überblick 5 / 19
Berufsfelder für Computerlinguisten
Verarbeitung gesprochener Sprache für die Interaktion mitComputern
Schütze & Zangenfeind: Überblick 5 / 19
Berufsfelder für Computerlinguisten
Verarbeitung gesprochener Sprache für die Interaktion mitComputern
Verarbeitung von Texten (suchen, bearbeiten und verwalten)
Schütze & Zangenfeind: Überblick 5 / 19
Berufsfelder für Computerlinguisten
Verarbeitung gesprochener Sprache für die Interaktion mitComputern
Verarbeitung von Texten (suchen, bearbeiten und verwalten)
Einsatz sprachtechnologischer Software und Ressourcen (inVerlagen, Übersetzungsbüros, Verwaltungen etc.): MaschinelleÜbersetzung, elektronische Wörterbücher, Spracherkennung,Sprachgenerierung, lexikonbasierte Optimierung vonOptical-Character-Recognition-Verfahren (OCR)
Schütze & Zangenfeind: Überblick 5 / 19
Berufsfelder für Computerlinguisten
Verarbeitung gesprochener Sprache für die Interaktion mitComputern
Verarbeitung von Texten (suchen, bearbeiten und verwalten)
Einsatz sprachtechnologischer Software und Ressourcen (inVerlagen, Übersetzungsbüros, Verwaltungen etc.): MaschinelleÜbersetzung, elektronische Wörterbücher, Spracherkennung,Sprachgenerierung, lexikonbasierte Optimierung vonOptical-Character-Recognition-Verfahren (OCR)
akademischer Bereich
Schütze & Zangenfeind: Überblick 5 / 19
Berufsfelder für Computerlinguisten
Verarbeitung gesprochener Sprache für die Interaktion mitComputern
Verarbeitung von Texten (suchen, bearbeiten und verwalten)
Einsatz sprachtechnologischer Software und Ressourcen (inVerlagen, Übersetzungsbüros, Verwaltungen etc.): MaschinelleÜbersetzung, elektronische Wörterbücher, Spracherkennung,Sprachgenerierung, lexikonbasierte Optimierung vonOptical-Character-Recognition-Verfahren (OCR)
akademischer Bereich
Bedarf an Experten steigt tendentiell
Schütze & Zangenfeind: Überblick 5 / 19
Typische Forschungsgegenstände
Schütze & Zangenfeind: Überblick 6 / 19
Typische Forschungsgegenstände
Entwicklung von Methoden (Theorie)
Schütze & Zangenfeind: Überblick 6 / 19
Typische Forschungsgegenstände
Entwicklung von Methoden (Theorie)
Entwicklung realistischer Anwendungen (Praxis)
Schütze & Zangenfeind: Überblick 6 / 19
Typische Forschungsgegenstände
Entwicklung von Methoden (Theorie)
Entwicklung realistischer Anwendungen (Praxis)
Aufbau und Verwaltung großer wiederverwendbarer Korpora(Daten)
Schütze & Zangenfeind: Überblick 6 / 19
Typische Forschungsgegenstände
Entwicklung von Methoden (Theorie)
Entwicklung realistischer Anwendungen (Praxis)
Aufbau und Verwaltung großer wiederverwendbarer Korpora(Daten)
Konzeption effektiver Evaluationsmechanismen (Experimente)
Schütze & Zangenfeind: Überblick 6 / 19
Nachbardisziplinen (1)
Schütze & Zangenfeind: Überblick 7 / 19
Nachbardisziplinen (1)
Linguistik
Schütze & Zangenfeind: Überblick 7 / 19
Nachbardisziplinen (1)
Linguistik
Die Wissenschaft, die sich mit menschlicher Sprachebeschäftigt
Schütze & Zangenfeind: Überblick 7 / 19
Nachbardisziplinen (1)
Linguistik
Die Wissenschaft, die sich mit menschlicher SprachebeschäftigtGrundinventar linguistischer Termini
Schütze & Zangenfeind: Überblick 7 / 19
Nachbardisziplinen (1)
Linguistik
Die Wissenschaft, die sich mit menschlicher SprachebeschäftigtGrundinventar linguistischer TerminiTeilgebiete: Phonetik/Phonologie, Morphologie, Syntax,Semantik, Pragmatik; Korpuslinguistik
Schütze & Zangenfeind: Überblick 7 / 19
Nachbardisziplinen (1)
Linguistik
Die Wissenschaft, die sich mit menschlicher SprachebeschäftigtGrundinventar linguistischer TerminiTeilgebiete: Phonetik/Phonologie, Morphologie, Syntax,Semantik, Pragmatik; Korpuslinguistik
Informatik (Algorithmen, Datenstrukturen, SoftwareEngineering)
Schütze & Zangenfeind: Überblick 7 / 19
Nachbardisziplinen (1)
Linguistik
Die Wissenschaft, die sich mit menschlicher SprachebeschäftigtGrundinventar linguistischer TerminiTeilgebiete: Phonetik/Phonologie, Morphologie, Syntax,Semantik, Pragmatik; Korpuslinguistik
Informatik (Algorithmen, Datenstrukturen, SoftwareEngineering)
Philosophie (Verbindung von Sprache, Denken und Handeln;Relation zu außersprachlichen Gegebenheiten)
Schütze & Zangenfeind: Überblick 7 / 19
Nachbardisziplinen (1)
Linguistik
Die Wissenschaft, die sich mit menschlicher SprachebeschäftigtGrundinventar linguistischer TerminiTeilgebiete: Phonetik/Phonologie, Morphologie, Syntax,Semantik, Pragmatik; Korpuslinguistik
Informatik (Algorithmen, Datenstrukturen, SoftwareEngineering)
Philosophie (Verbindung von Sprache, Denken und Handeln;Relation zu außersprachlichen Gegebenheiten)
Künstliche Intelligenz (knowledge representation, reasoning,learning)
Schütze & Zangenfeind: Überblick 7 / 19
Nachbardisziplinen (2)
Schütze & Zangenfeind: Überblick 8 / 19
Nachbardisziplinen (2)
Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)
Schütze & Zangenfeind: Überblick 8 / 19
Nachbardisziplinen (2)
Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)
Mathematik
Schütze & Zangenfeind: Überblick 8 / 19
Nachbardisziplinen (2)
Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)
Mathematik
Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie
Schütze & Zangenfeind: Überblick 8 / 19
Nachbardisziplinen (2)
Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)
Mathematik
Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie
Sprache ist oft nicht logisch:
Schütze & Zangenfeind: Überblick 8 / 19
Nachbardisziplinen (2)
Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)
Mathematik
Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie
Sprache ist oft nicht logisch:
Schütze & Zangenfeind: Überblick 8 / 19
Nachbardisziplinen (2)
Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)
Mathematik
Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie
Sprache ist oft nicht logisch:
(1) Ein großer Berg vs. Eine große Ameise
Schütze & Zangenfeind: Überblick 8 / 19
Nachbardisziplinen (2)
Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)
Mathematik
Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie
Sprache ist oft nicht logisch:
(1) Ein großer Berg vs. Eine große Ameise→ Vagheit des Adjektivs (kein Problem für Menschen) →
Logik modifizieren in CL
Schütze & Zangenfeind: Überblick 8 / 19
Nachbardisziplinen (2)
Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)
Mathematik
Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie
Sprache ist oft nicht logisch:
(1) Ein großer Berg vs. Eine große Ameise→ Vagheit des Adjektivs (kein Problem für Menschen) →
Logik modifizieren in CL
(2) Vögel fliegen. / Pinguine sind Vögel. / Pinguine fliegen.
Schütze & Zangenfeind: Überblick 8 / 19
Nachbardisziplinen (2)
Kognitionswissenschaft (Sprachbeherrschung ist speziellerTeilbereich der kognitiven Fähigkeiten des Menschen)
Mathematik
Insbesondere: Logik, Wahrscheinlichkeitstheorie, Statistik,Graphentheorie
Sprache ist oft nicht logisch:
(1) Ein großer Berg vs. Eine große Ameise→ Vagheit des Adjektivs (kein Problem für Menschen) →
Logik modifizieren in CL
(2) Vögel fliegen. / Pinguine sind Vögel. / Pinguine fliegen.→ scheinbar widersprüchliche Aussagen (Mensch hat wenigProbleme damit)
Schütze & Zangenfeind: Überblick 8 / 19
Teilgebiete der Linguistik
Phonetik und Phonologie
Morphologie
Syntax
Semantik
Pragmatik
Schütze & Zangenfeind: Überblick 9 / 19
Teilgebiete der Linguistik
Phonetik und Phonologie
Morphologie
Syntax
Semantik
Pragmatik
Jedes dieser Teilgebiete hat auch eine Entsprechung in derComputerlinguistik.
Schütze & Zangenfeind: Überblick 9 / 19
Phonetik und Phonologie
Schütze & Zangenfeind: Überblick 10 / 19
Phonetik und Phonologie
artikulatorische Merkmale
Schütze & Zangenfeind: Überblick 10 / 19
Phonetik und Phonologie
artikulatorische Merkmale
Lautstruktur natürlicher Sprachen
Schütze & Zangenfeind: Überblick 10 / 19
Phonetik und Phonologie
artikulatorische Merkmale
Lautstruktur natürlicher Sprachen
Spracherkennung: Erkennung und Produktion gesprochenerSprache
Schütze & Zangenfeind: Überblick 10 / 19
Phonetik und Phonologie
artikulatorische Merkmale
Lautstruktur natürlicher Sprachen
Spracherkennung: Erkennung und Produktion gesprochenerSprache
modellieren, welche Segmente ein Wort enthält und wie sichderen Struktur auf die Aussprache auswirkt
Schütze & Zangenfeind: Überblick 10 / 19
Phonetik und Phonologie
artikulatorische Merkmale
Lautstruktur natürlicher Sprachen
Spracherkennung: Erkennung und Produktion gesprochenerSprache
modellieren, welche Segmente ein Wort enthält und wie sichderen Struktur auf die Aussprache auswirkt
z.B. wenn ein im Prinzip stimmhafter Konsonant amWortende stimmlos wird (“Auslautverhärtung”):
Schütze & Zangenfeind: Überblick 10 / 19
Phonetik und Phonologie
artikulatorische Merkmale
Lautstruktur natürlicher Sprachen
Spracherkennung: Erkennung und Produktion gesprochenerSprache
modellieren, welche Segmente ein Wort enthält und wie sichderen Struktur auf die Aussprache auswirkt
z.B. wenn ein im Prinzip stimmhafter Konsonant amWortende stimmlos wird (“Auslautverhärtung”):
(3) Dieb /Diep/ vs. Diebe /Diebe/
Schütze & Zangenfeind: Überblick 10 / 19
Morphologie
Schütze & Zangenfeind: Überblick 11 / 19
Morphologie
Bildung und Struktur von Wörtern
Schütze & Zangenfeind: Überblick 11 / 19
Morphologie
Bildung und Struktur von Wörtern
lexikalische Wurzel von einzelnen Wörtern
Schütze & Zangenfeind: Überblick 11 / 19
Morphologie
Bildung und Struktur von Wörtern
lexikalische Wurzel von einzelnen Wörtern
Prozesse, verantwortlich für unterschiedlicheErscheinungsformen an der Oberfläche
Schütze & Zangenfeind: Überblick 11 / 19
Morphologie
Bildung und Struktur von Wörtern
lexikalische Wurzel von einzelnen Wörtern
Prozesse, verantwortlich für unterschiedlicheErscheinungsformen an der Oberfläche
Veränderung der Verwendung und Bedeutung des Wortesdurch Oberflächenmodifikationen
Schütze & Zangenfeind: Überblick 11 / 19
Morphologie
Bildung und Struktur von Wörtern
lexikalische Wurzel von einzelnen Wörtern
Prozesse, verantwortlich für unterschiedlicheErscheinungsformen an der Oberfläche
Veränderung der Verwendung und Bedeutung des Wortesdurch Oberflächenmodifikationen
z.B. Suffix -e als Pluralmarkierung:
Schütze & Zangenfeind: Überblick 11 / 19
Morphologie
Bildung und Struktur von Wörtern
lexikalische Wurzel von einzelnen Wörtern
Prozesse, verantwortlich für unterschiedlicheErscheinungsformen an der Oberfläche
Veränderung der Verwendung und Bedeutung des Wortesdurch Oberflächenmodifikationen
z.B. Suffix -e als Pluralmarkierung:
(4) Dieb-e → Dieb-pl → “Mehr als ein Dieb”
Schütze & Zangenfeind: Überblick 11 / 19
Syntax
Schütze & Zangenfeind: Überblick 12 / 19
Syntax
Strukturbildung von Sätzen
Schütze & Zangenfeind: Überblick 12 / 19
Syntax
Strukturbildung von Sätzen
traditionell am stärksten vertretene Teildisziplin derComputerlinguistik
Schütze & Zangenfeind: Überblick 12 / 19
Syntax
Strukturbildung von Sätzen
traditionell am stärksten vertretene Teildisziplin derComputerlinguistik
Erkennung von Grammatikalität und darauf folgendeBedeutungserschließung
Schütze & Zangenfeind: Überblick 12 / 19
Syntax
Strukturbildung von Sätzen
traditionell am stärksten vertretene Teildisziplin derComputerlinguistik
Erkennung von Grammatikalität und darauf folgendeBedeutungserschließung
z.B.
(5) Der gewitzte Dieb stahl das Geld.
Schütze & Zangenfeind: Überblick 12 / 19
Syntax
Strukturbildung von Sätzen
traditionell am stärksten vertretene Teildisziplin derComputerlinguistik
Erkennung von Grammatikalität und darauf folgendeBedeutungserschließung
z.B.
(5) Der gewitzte Dieb stahl das Geld.vs.
Schütze & Zangenfeind: Überblick 12 / 19
Syntax
Strukturbildung von Sätzen
traditionell am stärksten vertretene Teildisziplin derComputerlinguistik
Erkennung von Grammatikalität und darauf folgendeBedeutungserschließung
z.B.
(5) Der gewitzte Dieb stahl das Geld.vs.*Der Dieb gewitzte stahl das Geld.
Schütze & Zangenfeind: Überblick 12 / 19
Semantik
Schütze & Zangenfeind: Überblick 13 / 19
Semantik
Bedeutung sprachlicher Einheiten (Wort, Satz etc.)
Schütze & Zangenfeind: Überblick 13 / 19
Semantik
Bedeutung sprachlicher Einheiten (Wort, Satz etc.)
z.B.
(6) Die Polizei beschlagnahmte das Diebesgut.
Schütze & Zangenfeind: Überblick 13 / 19
Semantik
Bedeutung sprachlicher Einheiten (Wort, Satz etc.)
z.B.
(6) Die Polizei beschlagnahmte das Diebesgut.vs.
Schütze & Zangenfeind: Überblick 13 / 19
Semantik
Bedeutung sprachlicher Einheiten (Wort, Satz etc.)
z.B.
(6) Die Polizei beschlagnahmte das Diebesgut.vs.Das Diebesgut beschlagnahmte die Polizei.
Schütze & Zangenfeind: Überblick 13 / 19
Semantik
Bedeutung sprachlicher Einheiten (Wort, Satz etc.)
z.B.
(6) Die Polizei beschlagnahmte das Diebesgut.vs.Das Diebesgut beschlagnahmte die Polizei.
→ gleiche Bedeutung
Schütze & Zangenfeind: Überblick 13 / 19
Pragmatik
Schütze & Zangenfeind: Überblick 14 / 19
Pragmatik
Zweck einer Äußerung in der Welt, z.B.
Schütze & Zangenfeind: Überblick 14 / 19
Pragmatik
Zweck einer Äußerung in der Welt, z.B.Wissen Sie, wie spät es ist?
Schütze & Zangenfeind: Überblick 14 / 19
Pragmatik
Zweck einer Äußerung in der Welt, z.B.Wissen Sie, wie spät es ist?
Bestimmung des Bezugs von Wörtern: Antezedens einesPronomens, z.B.:
Schütze & Zangenfeind: Überblick 14 / 19
Pragmatik
Zweck einer Äußerung in der Welt, z.B.Wissen Sie, wie spät es ist?
Bestimmung des Bezugs von Wörtern: Antezedens einesPronomens, z.B.:Die Katze schnurrt. Sie hat Hunger.
Schütze & Zangenfeind: Überblick 14 / 19
Pragmatik
Zweck einer Äußerung in der Welt, z.B.Wissen Sie, wie spät es ist?
Bestimmung des Bezugs von Wörtern: Antezedens einesPronomens, z.B.:Die Katze schnurrt. Sie hat Hunger.
implizite Annahmen (Präsuppositionen), z.B.:
Schütze & Zangenfeind: Überblick 14 / 19
Pragmatik
Zweck einer Äußerung in der Welt, z.B.Wissen Sie, wie spät es ist?
Bestimmung des Bezugs von Wörtern: Antezedens einesPronomens, z.B.:Die Katze schnurrt. Sie hat Hunger.
implizite Annahmen (Präsuppositionen), z.B.:“der Präsident von Frankreich wurde nicht in Paris geboren”
Schütze & Zangenfeind: Überblick 14 / 19
Pragmatik
Zweck einer Äußerung in der Welt, z.B.Wissen Sie, wie spät es ist?
Bestimmung des Bezugs von Wörtern: Antezedens einesPronomens, z.B.:Die Katze schnurrt. Sie hat Hunger.
implizite Annahmen (Präsuppositionen), z.B.:“der Präsident von Frankreich wurde nicht in Paris geboren”“der Präsident von Norwegen wurde nicht in Oslo geboren”
Schütze & Zangenfeind: Überblick 14 / 19
Korpuslinguistik
Schütze & Zangenfeind: Überblick 15 / 19
Korpuslinguistik
seit Anfang 1980er
Schütze & Zangenfeind: Überblick 15 / 19
Korpuslinguistik
seit Anfang 1980er
Fortschritte bei Erkennung gesprochener Sprache
Schütze & Zangenfeind: Überblick 15 / 19
Korpuslinguistik
seit Anfang 1980er
Fortschritte bei Erkennung gesprochener Sprache
Wortartendisambiguierung (Tagging)
Schütze & Zangenfeind: Überblick 15 / 19
Korpuslinguistik
seit Anfang 1980er
Fortschritte bei Erkennung gesprochener Sprache
Wortartendisambiguierung (Tagging)
syntaktische Analyse (Parsing)
Schütze & Zangenfeind: Überblick 15 / 19
Korpuslinguistik
seit Anfang 1980er
Fortschritte bei Erkennung gesprochener Sprache
Wortartendisambiguierung (Tagging)
syntaktische Analyse (Parsing)
semantische Lesartendisambiguierung (z.B. Bank 1 vs. Bank2)
Schütze & Zangenfeind: Überblick 15 / 19
Korpuslinguistik
seit Anfang 1980er
Fortschritte bei Erkennung gesprochener Sprache
Wortartendisambiguierung (Tagging)
syntaktische Analyse (Parsing)
semantische Lesartendisambiguierung (z.B. Bank 1 vs. Bank2)
maschinelle Übersetzung
Schütze & Zangenfeind: Überblick 15 / 19
Text corpus
Schütze & Zangenfeind: Überblick 16 / 19
Text corpus
Definition
A corpus (plural corpora) or text corpus is a large and structuredset of texts, nowadays usually electronically stored and processed.
Schütze & Zangenfeind: Überblick 16 / 19
Text corpus
Definition
A corpus (plural corpora) or text corpus is a large and structuredset of texts, nowadays usually electronically stored and processed.
Corpora are used to do statistical analysis and hypothesistesting, checking occurrences or validating linguistic ruleswithin a specific language territory.
Schütze & Zangenfeind: Überblick 16 / 19
Text corpus
Definition
A corpus (plural corpora) or text corpus is a large and structuredset of texts, nowadays usually electronically stored and processed.
Corpora are used to do statistical analysis and hypothesistesting, checking occurrences or validating linguistic ruleswithin a specific language territory.
A corpus may contain texts in a single language (monolingualcorpus) or text data in multiple languages (multilingualcorpus).
Schütze & Zangenfeind: Überblick 16 / 19
Text corpus
Definition
A corpus (plural corpora) or text corpus is a large and structuredset of texts, nowadays usually electronically stored and processed.
Corpora are used to do statistical analysis and hypothesistesting, checking occurrences or validating linguistic ruleswithin a specific language territory.
A corpus may contain texts in a single language (monolingualcorpus) or text data in multiple languages (multilingualcorpus).
(from Wikipedia)
Schütze & Zangenfeind: Überblick 16 / 19
Kleine Geschichte der Computerlinguistik (1)
Schütze & Zangenfeind: Überblick 17 / 19
Kleine Geschichte der Computerlinguistik (1)
frühe Entwicklung der Computertechnologie (1930er-,40er-Jahre): numerische Problemstellungen (“Berechnungen”,z.B. ballistische Kurven), auch symbolischeVerarbeitungsaufgaben (Dechiffrierung verschlüsselterNachrichtentexte → maschinelle Übersetzung (MÜ) alsSpezialfall einer Dekodierungsaufgabe)
Schütze & Zangenfeind: Überblick 17 / 19
Kleine Geschichte der Computerlinguistik (1)
frühe Entwicklung der Computertechnologie (1930er-,40er-Jahre): numerische Problemstellungen (“Berechnungen”,z.B. ballistische Kurven), auch symbolischeVerarbeitungsaufgaben (Dechiffrierung verschlüsselterNachrichtentexte → maschinelle Übersetzung (MÜ) alsSpezialfall einer Dekodierungsaufgabe)
frühe Ansätze der MÜ haben gemeinsame Wurzel:stochastische Informationstheorie (Betrachtung desfremdsprachlichen Textes als Ergebnis der Übertragung einerNachricht über gestörten Kanal → Aufgabe: Rekonstruktiondes ursprünglichen Nachrichtentextes)
Schütze & Zangenfeind: Überblick 17 / 19
Kleine Geschichte der Computerlinguistik (1)
frühe Entwicklung der Computertechnologie (1930er-,40er-Jahre): numerische Problemstellungen (“Berechnungen”,z.B. ballistische Kurven), auch symbolischeVerarbeitungsaufgaben (Dechiffrierung verschlüsselterNachrichtentexte → maschinelle Übersetzung (MÜ) alsSpezialfall einer Dekodierungsaufgabe)
frühe Ansätze der MÜ haben gemeinsame Wurzel:stochastische Informationstheorie (Betrachtung desfremdsprachlichen Textes als Ergebnis der Übertragung einerNachricht über gestörten Kanal → Aufgabe: Rekonstruktiondes ursprünglichen Nachrichtentextes)
Statistische Verfahren wurden dann für Jahrzehnteaufgegeben.
Schütze & Zangenfeind: Überblick 17 / 19
Kleine Geschichte der Computerlinguistik (2)
Schütze & Zangenfeind: Überblick 18 / 19
Kleine Geschichte der Computerlinguistik (2)
Aufgabe von statistischen Verfahren weil
Schütze & Zangenfeind: Überblick 18 / 19
Kleine Geschichte der Computerlinguistik (2)
Aufgabe von statistischen Verfahren weil
Chomsky die Unzulänglichkeit der statistischen Verfahren der50er und 60er für Sprachmodellierung nachweist.
Schütze & Zangenfeind: Überblick 18 / 19
Kleine Geschichte der Computerlinguistik (2)
Aufgabe von statistischen Verfahren weil
Chomsky die Unzulänglichkeit der statistischen Verfahren der50er und 60er für Sprachmodellierung nachweist.
die Leistungsfähigkeit der damaligen Hardware nichtausreichte (Beschränkungen bevorzugen symbolische Ansätze)
Schütze & Zangenfeind: Überblick 18 / 19
Literatur und Links
Schütze & Zangenfeind: Überblick 19 / 19
Literatur und Links
Jurafsky & Martin: Speech and Language Processing. PearsonPrentice Hall. 2008.
Schütze & Zangenfeind: Überblick 19 / 19
Literatur und Links
Jurafsky & Martin: Speech and Language Processing. PearsonPrentice Hall. 2008.
Manning & Schütze: Foundations of Statistical NaturalLanguage Processing. MIT Press. 1999.
Schütze & Zangenfeind: Überblick 19 / 19
Literatur und Links
Jurafsky & Martin: Speech and Language Processing. PearsonPrentice Hall. 2008.
Manning & Schütze: Foundations of Statistical NaturalLanguage Processing. MIT Press. 1999.
Carstensen et al.: Computerlinguistik und Sprachtechnologie.Eine Einführung. Heidelberg 2010 (3. Auflage)
Schütze & Zangenfeind: Überblick 19 / 19
Literatur und Links
Jurafsky & Martin: Speech and Language Processing. PearsonPrentice Hall. 2008.
Manning & Schütze: Foundations of Statistical NaturalLanguage Processing. MIT Press. 1999.
Carstensen et al.: Computerlinguistik und Sprachtechnologie.Eine Einführung. Heidelberg 2010 (3. Auflage)
elektronische Version beim EasyProxy derUniversitätsbibliothek:https://login.easyproxy.ub.uni-muenchen.de/login
Schütze & Zangenfeind: Überblick 19 / 19