Linguistische Informatik...

24
Institut für Informatik Linguistische Informatik Einführung Gerhard Heyer Universität Leipzig [email protected]

Transcript of Linguistische Informatik...

Page 1: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Institut für Informatik

Linguistische Informatik

Einführung

Gerhard Heyer

Universität Leipzig [email protected]

Page 2: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

2 Prof. Dr. G. Heyer Modul Linguistische Informatik

Informatik und Linguistik

Informatik als Werkzeug und Theoriegrundlage

Linguistik mit dem Computer: Unterstützung der

Linguisten bei der praktischen Arbeit

Linguistische Informatik: Anwendung von Konzepten

und Verfahren der Informatik für die Analyse von

Sprache (als System oder Einzelsprache)

• formale Sprachen, Parsing, Semantik und Verifikation

• informationstheoretische Konzepte,

graphentheoretische Modellierung

Page 3: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Zwei Traditionen der Linguistischen Informatik

Computerlinguistik

• Orientierung an kognitiven Modellen des

Sprachverstehens

• Grundlage: formale Sprachen und regelbasierte

Repräsentationen

• Ziel ist die Simulation sprachlicher Prozesse auf dem

Computer

Institutionell meist an philologischen Fakultäten angesiedelt,

sehr populär in den 90er Jahren, aber

keine wesentlichen theoretischen oder praktischen Erfolge

Page 4: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

4 Prof. Dr. G. Heyer Modul Linguistische Informatik

Zwei Traditionen der Linguistischen Informatik

Sprachprodukttechnologie

• Orientierung an empirischen und ingenieurswissen-

schaftlichen Verfahren der Sprachbeschreibung

• Grundlage: Textdatenbanken, IR, informations-

theoretische Modelle, graphbasierte Modellierungen

• Ziel ist die computerunterstützte Nutzung von Sprache

als wesentliches Mittel des Verstehens und der

Kommunikation

Institutionell Teil der Angewandten Informatik,

starker Auftrieb mit wachsender Bedeutung des Internet

Page 5: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

5 Prof. Dr. G. Heyer Modul Linguistische Informatik

Anwendungen der Linguistischen Informatik

Informatik für den Computer

Weder Sprachverstehen noch Sprachproduktion sind

bisher gelöst. Jedoch besitzen wir eine Vielzahl von

Verfahren, die zwar kein Verstehen ermöglichen, aber für

viele Anwendungen oft völlig ausreichen.

flache Ansätze (effizient und robust)

statistische Methoden, Mustergrammatiken

tiefe Ansätze (präzise und korrekt)

linguistische Prinzipien, Constraints oder

komplexe Regelwerke

Page 6: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

6 Prof. Dr. G. Heyer Modul Linguistische Informatik

Zentrale Einsatzgebiete

• Sprachprodukte für das

Informations- und Wissensmanagement

• Sprachprodukte für die

Dokumentenproduktion und -verwaltung

• Sprachprodukte für die

Mensch-Maschine Kommunikation

• Sprachprodukte für die

Mensch-Mensch Kommunikation

Page 7: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

7 Prof. Dr. G. Heyer Modul Linguistische Informatik

Wichtige Trends

• Integration von verschiedenen Medien und Modi in der

Kommunikation zwischen Menschen bzw. Mensch und

Maschine

• Verarbeitung von großen Mengen multimedialer,

multimodaler und multilingualer Information

• Schrittweise Entwicklung zu inhaltsbezogenem Umgang

mit Information (semantische statt syntaktische

Methoden)

Page 8: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

8 Prof. Dr. G. Heyer Modul Linguistische Informatik

Speech Technologies

• Voice Control Systems

• Diktiersysteme

• Text-to-Speech Systems (Vorlesesysteme)

• Sprecher Identifikations- und Verifikationssysteme

• Spoken Information Access

• Speech Translation Systems

• Dialog Systeme in gesprochener Sprache

• ... ... ...

Page 9: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

9 Prof. Dr. G. Heyer Modul Linguistische Informatik

Text Technologien

• Rechtschreibprüfung und Textkorrektur

• Grammatikprüfung und Stilometrie

• computergestützte Übersetzung (translation

memories, Terminologiesysteme)

• vollautomatische Vorübersetzung

• hochwertige vollautomatische Übersetzung

• Text Generierung

• ... ... ...

Page 10: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

10 Prof. Dr. G. Heyer Modul Linguistische Informatik

Information Management Technologien

• Textzusammenfassung

• Textklassifikation

• Cross-lingual Information Retrieval

• Information Extraction

• Concept-Based Information Retrieval

• Text Understanding

• ... ... ...

Page 11: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

11 Prof. Dr. G. Heyer Modul Linguistische Informatik

Anwendungen im Information Retrieval

• Stammformreduktion

• automatische Disambiguierung

• Query expansion mit Thesauren, Taxonomien und

Ontologien

• Named entity extraction (NER)

• automatische Sachgebietszuordnung

• Relation Extraction für IE

• User and community profiles

• ... ... ...

Page 12: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

12 Prof. Dr. G. Heyer Modul Linguistische Informatik

79312 Emmendingen

DV - Expect GmbH LABORSYSTEME

Herbolzheim Belchenstr. 44

HRB 662 K - 06. November 2001

Neueintragungen

HRB 662 K -- 06. November 2001: DV – Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit

beschränkter Haftung. Gesellschaftsvertrag vom 28. August 2001, geändert in § 1 (Firma) am 09. Oktober 2001. Gegenstand

des Unternehmens ist die Montage von medizinischen Geräten und Elektronikteilen und deren Vertrieb, auch im Lohnauftrag

für Unternehmen der Gerätemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von Ersatzteilen

für Personen- und Güterbeförderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food Produkten.

Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschäftsführer. Ist nur ein Geschäftsführer bestellt,

vertritt er die Gesellschaft allein. Sind mehrere Geschäftsführer bestellt, wird die Gesellschaft durch zwei Geschäftsführer

gemeinschaftlich oder durch einen Geschäftsführer in Gemeinschaft mit einem Prokuristen vertreten. Einzelvertretungsbefugnis

und Befreiung von den Beschränkungen des § 181 BGB kann erteilt werden. Geschäftsführer sind Vidko Umek, geb. am 7.

März 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind einzelvertretungsberechtigt

und befugt, die Gesellschaft bei der Vornahme von Rechtsgeschäften mit sich selbst oder als Vertreter eines Dritten

uneingeschränkt zu vertreten (§ 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Höhe von

12 500,-- EUR durch Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schätzwert: 14 600,-- EUR, erbracht;

im übrigen wird auf die eingereichten Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im

Bundesanzeiger.

Beispiel: Ortsnamenserkennung

Page 13: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

13 Prof. Dr. G. Heyer Modul Linguistische Informatik

79312 Emmendingen

DV - Expect GmbH LABORSYSTEME

Herbolzheim Belchenstr. 44

HRB 662 K - 06. November 2001

Neueintragungen

HRB 662 K -- 06. November 2001: DV – Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit

beschränkter Haftung. Gesellschaftsvertrag vom 28. August 2001, geändert in § 1 (Firma) am 09. Oktober 2001.

Gegenstand des Unternehmens ist die Montage von medizinischen Geräten und Elektronikteilen und deren Vertrieb, auch im

Lohnauftrag für Unternehmen der Gerätemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von

Ersatzteilen für Personen- und Güterbeförderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food

Produkten. Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschäftsführer. Ist nur ein

Geschäftsführer bestellt, vertritt er die Gesellschaft allein. Sind mehrere Geschäftsführer bestellt, wird die Gesellschaft

durch zwei Geschäftsführer gemeinschaftlich oder durch einen Geschäftsführer in Gemeinschaft mit einem Prokuristen

vertreten. Einzelvertretungsbefugnis und Befreiung von den Beschränkungen des § 181 BGB kann erteilt werden.

Geschäftsführer sind Vidko Umek, geb. am 7. März 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979,

Herbolzheim; diese sind einzelvertretungsberechtigt und befugt, die Gesellschaft bei der Vornahme von

Rechtsgeschäften mit sich selbst oder als Vertreter eines Dritten uneingeschränkt zu vertreten (§ 181 BGB). Nicht

eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Höhe von 12 500,-- EUR durch Einbringung ihres PKW

Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schätzwert: 14 600,-- EUR, erbracht; im übrigen wird auf die eingereichten

Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.

3

Beispiel: Erkennung rechtsrelevanten Vokabulars

Page 14: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

14 Prof. Dr. G. Heyer Modul Linguistische Informatik

79312 Emmendingen

DV - Expect GmbH LABORSYSTEME

Herbolzheim Belchenstr. 44

HRB 662 K - 06. November 2001

Neueintragungen

HRB 662 K -- 06. November 2001: DV – Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit

beschränkter Haftung. Gesellschaftsvertrag vom 28. August 2001, geändert in § 1 (Firma) am 09. Oktober 2001. Gegenstand des

Unternehmens ist die Montage von medizinischen Geräten und Elektronikteilen und deren Vertrieb, auch im Lohnauftrag für

Unternehmen der Gerätemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von Ersatzteilen für

Personen- und Güterbeförderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food Produkten.

Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschäftsführer. Ist nur ein Geschäftsführer bestellt,

vertritt er die Gesellschaft allein. Sind mehrere Geschäftsführer bestellt, wird die Gesellschaft durch zwei Geschäftsführer

gemeinschaftlich oder durch einen Geschäftsführer in Gemeinschaft mit einem Prokuristen vertreten. Einzelvertretungsbefugnis

und Befreiung von den Beschränkungen des § 181 BGB kann erteilt werden. Geschäftsführer sind Vidko Umek, geb. am 7. März

1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind einzelvertretungsberechtigt und befugt,

die Gesellschaft bei der Vornahme von Rechtsgeschäften mit sich selbst oder als Vertreter eines Dritten uneingeschränkt zu

vertreten (§ 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat ihre Einlage in Höhe von 12 500,-- EUR durch

Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299, Schätzwert: 14 600,-- EUR, erbracht; im übrigen wird auf die

eingereichten Unterlagen Bezug genommen. Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.

Beispiel: Erkennung von Firmenzweck

Page 15: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

15 Prof. Dr. G. Heyer Modul Linguistische Informatik

79312 Emmendingen

DV - Expect GmbH LABORSYSTEME

Herbolzheim Belchenstr. 44

HRB 662 K - 06. November 2001

Neueintragungen

HRB 662 K -- 06. November 2001: DV – Expect GmbH LABORSYSTEME in Herbolzheim (Belchenstr. 44). Gesellschaft mit

beschränkter Haftung. Gesellschaftsvertrag vom 28. August 2001, geändert in § 1 (Firma) am 09. Oktober 2001.

Gegenstand des Unternehmens ist die Montage von medizinischen Geräten und Elektronikteilen und deren Vertrieb, auch im

Lohnauftrag für Unternehmen der Gerätemedizin und der Bauindustrie, die Endmontage von Bauelementen, der Vertrieb von

Ersatzteilen für Personen- und Güterbeförderungsunternehmen sowie der ambulante Handel und Vertrieb mit Fast-food

Produkten. Stammkapital: 25 000,-- EUR. Die Gesellschaft hat einen oder mehrere Geschäftsführer. Ist nur ein

Geschäftsführer bestellt, vertritt er die Gesellschaft allein. Sind mehrere Geschäftsführer bestellt, wird die Gesellschaft durch

zwei Geschäftsführer gemeinschaftlich oder durch einen Geschäftsführer in Gemeinschaft mit einem Prokuristen vertreten.

Einzelvertretungsbefugnis und Befreiung von den Beschränkungen des § 181 BGB kann erteilt werden. Geschäftsführer sind

Vidko Umek, geb. am 7. März 1951, Herbolzheim, und Dolores Umek, geb. am 8. August 1979, Herbolzheim; diese sind

einzelvertretungsberechtigt und befugt, die Gesellschaft bei der Vornahme von Rechtsgeschäften mit sich selbst oder als

Vertreter eines Dritten uneingeschränkt zu vertreten (§ 181 BGB). Nicht eingetragen: Die Gesellschafterin Dolores Umek hat

ihre Einlage in Höhe von 12 500,-- EUR durch Einbringung ihres PKW Audi A3 TDI, amtl. Kennzeichen EM-D 2299,

Schätzwert: 14 600,-- EUR, erbracht; im übrigen wird auf die eingereichten Unterlagen Bezug genommen.

Bekanntmachungen der Gesellschaft erfolgen im Bundesanzeiger.

Beispiel: Erkennung numerischer Angaben (Zeit, Geld, §§, HR-Nr.)

Page 16: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

Prof. Dr. G. Heyer Modul Linguistische Informatik

Taxonomies

• Hierachical organization

of concepts

• Domains: patents,

computer science,

medical science

www.wipo.int

Tasks

• Assignment of phrases to

taxonomy concepts

• Automatic generation of

taxonomies

Page 17: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

Prof. Dr. G. Heyer Modul Linguistische Informatik

Question Answering

Page 18: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

Prof. Dr. G. Heyer Modul Linguistische Informatik

Information Extraction

http://joboter.de/

Identify …

• Names

• Locations

• Institutions

• Points in time, dates

• Amounts of money

• …

Page 19: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

19 Prof. Dr. G. Heyer Modul Linguistische Informatik

1) Kette von Buchstaben: Ü-b-e-r-d-e-m-A-t-l-a-n-t-i-k-b-e-f-a-n-d-s-i-c-h-e-i-n-b-a-r-o-m-e-t-r-i-s-c-h-e-s-M-i-n-i-m-u-m

2) Kette von Silben: über-dem-At-lan-tik-be-fand-sich-ein-ba-ro-me-tri-sches-Mi-ni-mum

3) Kette von Morphemen: über-dem-Atlant-ik-be-fand-sich-ein-bar-o-metr-isch-es-Minim-um

4) Kette von Wortformen: Über-dem-Atlantik-befand-sich-ein-barometrisches-Minimum

5) Kette von Phrasen: Über dem Atlantik - befand sich - ein barometrisches Minimum

Beispiel für Linguistische Ebenen

Page 20: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

20 Prof. Dr. G. Heyer Modul Linguistische Informatik

Linguistische Ebenen

Explanandum

Laute (tokens)

Lautgruppen

Phonem: kleinste bedeutungs-

unterscheidende Einheit

Gruppen von Phonemen

Morphem: kleinste bedeutungstragende

Einheit

Allomorphe: bedeutungsäquivalente

Morpheme

Bsp.: sprech={sprech, sprich, sprach, ...}

Explanans

Phonetik

Phonologie

Morphologie

Page 21: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

21 Prof. Dr. G. Heyer Modul Linguistische Informatik

Linguistische Ebenen

Gruppen von Morphemen

Wortformen: flektierte Formen eines

Wortes

Wort: Äquivalenzklasse v. Wortformen

Gruppen von Wörtern

Phrasen: zulässige Kombination von

Wortformen

Sätze: grammatisch vollständige

Sequenz von Phrasen

Aussagen: wahrheitsfähige Sätze

Sprechakte: zustandsverändernd

Lexikon

Syntax

Semantik /

Pragmatik

Page 22: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

Phonetische Analyse

• MAUS service (BAS)

https://webapp.phonetik.uni-muenchen.de/BASWebServices/index.html

22 Prof. Dr. G. Heyer Modul Linguistische Informatik

Page 23: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

23

Online Ressourcen Daten und Verfahren

• http://wortschatz.informatik.uni-leipzig.de/

• http://corpora.informatik.uni-leipzig.de/

• http://www.nltk.org/data

• http://alias-i.com/lingpipe/index.html

• http://asv.informatik.uni-leipzig.de/asv/methoden

• http://nltk.googlecode.com/svn/trunk/doc/api/index.html

Prof. Dr. G. Heyer Modul Linguistische Informatik

Page 24: Linguistische Informatik Einführungasv.informatik.uni-leipzig.de/uploads/document/file_link/860/V01_Einf_hrung.pdf · Einführung 3 Prof. Dr. G. Heyer Modul Linguistische Informatik

Einführung

24 Prof. Dr. G. Heyer Modul Linguistische Informatik

Grewendorf/Hamm/Sternefeld, Linguistisches Wissen, Suhrkamp (stw 695), Frankfurt (13) 2004 C.Manning/H.Schütze, Foundations of Statistical Natural Language Processing, MIT Press 2000 D.Jurafsky/J.Martin, Speech and Language Processing, Prentice Hall, NY 2000 Computerlinguistik im Internet, u.a. http://www.sil.org

http://www.aclweb.org

Literaturempfehlung