Einführung in die Computerlinguistik Im Rahmen des Seminars Grundkurs Linguistik...

of 24 /24
Einführung in die Einführung in die Computerlinguistik Computerlinguistik Im Rahmen des Seminars Grundkurs Linguistik Heinrich-Heine-Universität Düsseldorf, WS 2007/2008 Gastdozent: Christof Rumpf, 31.01.2008 Diese Präsentation finden Sie unter: http://www.phil-fak.uni-duesseldorf.de/~rumpf/talks/ clintro2.pdf

Embed Size (px)

Transcript of Einführung in die Computerlinguistik Im Rahmen des Seminars Grundkurs Linguistik...

  • Folie 1
  • Einfhrung in die Computerlinguistik Im Rahmen des Seminars Grundkurs Linguistik Heinrich-Heine-Universitt Dsseldorf, WS 2007/2008 Gastdozent: Christof Rumpf, 31.01.2008 Diese Prsentation finden Sie unter: http://www.phil-fak.uni-duesseldorf.de/~rumpf/talks/clintro2.pdf
  • Folie 2
  • 31.01.2008 Einfhrung in die Computerlinguistik2 Computerlinguistik in Dsseldorf Computerlinguistik ist an der Heinrich-Heine-Universitt Dsseldorf eine von drei Abteilungen im Institut fr Sprache und Information Allgemeine Sprachwissenschaft (Linguistik) Computerlinguistik Informationswissenschaft Studiengnge BA, MA Linguistik (mit Schwerpunkt Computerlinguistik) BA, MA Informationswissenschaft und Sprachtechnologie
  • Folie 3
  • 31.01.2008 Einfhrung in die Computerlinguistik3 Was ist Computerlinguistik? Computerlinguistik (CL) ist ein interdisziplinres Fachgebiet zwischen den Gebieten Linguistik linguisticscomputational Informatik computer science linguistics In der CL geht es um die maschinelle (algorithmische) Verarbeitung natrlicher Sprache. CL ist eine der Sulen der sogen. Knstlichen Intelligenz.
  • Folie 4
  • 31.01.2008 Einfhrung in die Computerlinguistik4 Anwendungen der CL Maschinelle bersetzung z.B. automatische bersetzung von geschriebenem oder gesprochenem Chinesisch ins Deutsche (siehe z.B. http://babelfish.altavista.com/) Information Retrieval Auffinden von Dokumenten (Texten) in grossen Dokumentsammlungen aufgrund des Inhalts (z.B. alle Einfhrungen in die CL) Informationsextraktion Gewinnung von strukturierter Information (Relationen) aus unstrukturierter Information (Texten) Beispiel: Wer hat JFK erschossen? Szenario: Dialogsysteme z.B. Fahrplanauskunftssysteme, Diagnosesysteme (Medizin, Technik) etc. (die Liste lsst sich noch rahmensprengend verlngern) ausgewhlte
  • Folie 5
  • 31.01.2008 Einfhrung in die Computerlinguistik5 Methoden der CL Symbolische Methoden Parsing ist die Analyse natrlicher Sprache anhand von Grammatiken auf Basis der Theorie der Automaten und formalen Sprachen. Grammatikformalismen basieren auf formalen Logiken zur Reprsentation und Verarbeitung linguistischen Wissens (Inferenz). Statistische Methoden Statistische Modelle ber grossen Textmengen (Korpora) basieren auf Wahrscheinlichkeitstheorie und evt. Informationstheorie. Hybride Methoden (gemischte Methoden) Statistisches Parsing verbindet z.B. symbolische und statistische Methoden Subsymbolische Methoden Neuronale Netze sind heute weitgehend bedeutungslos geworden.
  • Folie 6
  • 31.01.2008 Einfhrung in die Computerlinguistik6 Probleme der CL Ambiguitt (Mehrdeutigkeit) fhrt zur Explosion der Analysen: Polysemie: Bank (Gebude, Institution, Sitzgelegenheit) Komposita: Aluminiumherstellung z.B. alu+mini+umher+stellung (+11) Skopus: ((alte Mnner) und Frauen) vs. (alte (Mnner und Frauen)) PP-Zuordnung: Peter kauft das Auto mit Heckspoiler. Peter kauft das Auto mit Kreditkarte. Peter kauft das Auto mit Gabi. Robustheit erfordert Fehlertoleranz und vollstndiges Wissen mangelnde Fehlertoleranz unvollstndige Lexikabehindern die Funktionsfhigkeit unvollstndige Grammatikenvon CL-Anwendungen Dilemma: je robuster (vollstndiger), desto mehr Ambiguitten. Prpositionalphrase
  • Folie 7
  • 31.01.2008 Einfhrung in die Computerlinguistik7 Wie komplex ist eine Sprache? Um entscheiden zu knnen, welche Mittel man zur Lsung eines Problems bentigt, muss man sich ber die Komplexitt des Problems klar werden. In der Theorie der Automaten und formalen Sprachen werden Sprachen in eine Komplexittshierarchie gebracht: Typ 0: rekursiv aufzhlbarkomplexer Typ 1: kontextsensitiv Typ 2: kontextfrei Typ 3: regulreinfacher Natrliche Sprache gilt als schwach kontextsensitiv. Den Sprachklassen werden Automatenklassen zugeordnet. Chomsky-Hierarchie
  • Folie 8
  • 31.01.2008 Einfhrung in die Computerlinguistik8 Die Chomsky-Hierarchie regulr kontext- frei kontext- sensitiv rekursiv aufzhlbar SpracheAutomat Turing Maschine Linear gebunden Kellerautomat (Stapel) Endlicher Automat Grammatik unbeschrnkt Baa kontext- sensitiv At aA kontextfrei S gSc regulr A cA Erkennung linear polynomiell NP-vollstndig unentscheidbar AbhngigkeitBiology strikt lokal eingebettet berkreuzt beliebig Central Dogma Pseudoknots, etc. Orthodox 2 o Structure Unknown nach D. Searls
  • Folie 9
  • 31.01.2008 Einfhrung in die Computerlinguistik9 Endliche Automaten Endliche Automaten sind die einfachste Automatenklasse. Sie bestehen aus Zustnden, die mit beschrifteten bergngen verbunden sind (bergangsfunktion). Eine Kette von Symbolen aus einem Alphabet gilt als akzeptiert, wenn beginnend mit dem Startzustand die ganze Kette verarbeitet werden kann und der Automat sich dann in einem Endzustand befindet. Der abgebildete Automat erkennt Sprachen, deren Ketten die Teilkette skr enthalten. start z.B. fr ein Alphabet = {a,b,c,s,k,r }, L = *skr *, wobei * die Menge aller Ketten ist, die sich aus beliebigen Symbolen aus dem Alphatet zusammensetzt. Der Stern heisst Kleenscher Stern. Beispielsweise ist aabcskrab L, aber aabcska L.
  • Folie 10
  • 31.01.2008 Einfhrung in die Computerlinguistik10 Kontextfreie Grammatiken Kontextfreie Grammatiken sind neben den einfacheren regulren Grammatiken die wichtigsten Grammatiken fr die Computerlinguistik. Die Regeln einer kontextfreien Grammatik definieren zwei Relationen: Unmittelbare Dominanz zwischen Mutterkategorie und Tochterkategorien Lineare Przedenz zwischen Schwesterkategorien Hier ist eine kontexfreie Grammatik fr ein Fragment der deutschen Sprache: S NP VP NP Det N VP V NP Det Jeder Det eine N Mann N Frau V liebt Legende SSatz NPNominalphrase VPVerbalphrase DetDeterminer (Artikel) NNomen (Substantiv) VVerb
  • Folie 11
  • 31.01.2008 Einfhrung in die Computerlinguistik11 Parsing engl. to parse: grammatisch zerlegen Ein Parser ist ein Automat, der auf Basis einer Grammatik fr eine Kette einen Ableitungsbaum (parse tree) erzeugt. S NP VP Det N V NP Jeder Mann liebt Det N eine Frau Grammatik & Jeder Mann liebt eine Frau
  • Folie 12
  • 31.01.2008 Einfhrung in die Computerlinguistik12 Deklarativ vs. Prozedural Eine Grammatik ist eine deklarative Beschreibung der wohlgeformten Syntaxbume einer Sprache. Eine deklarative Beschreibung stellt einen logischen Sachverhalt dar. Ein Algorithmus ist eine Folge von Anweisungen (eine Prozedur), wie man in endlich vielen Schritten von einem Ausgangszustand (zu lsendes Problem) zu einem Zielzustand (gelstes Problem) kommt. Ein Parser verwendet einen Algorithmus, um Grammatiken zu interpretieren: eine prozedurale Parsingstrategie.
  • Folie 13
  • 31.01.2008 Einfhrung in die Computerlinguistik13 Parsingstrategien top-down bottom-up left-corner Parsingstrategien unterscheiden sich durch die Reihenfolge, in der bei der Konstruktion des Syntaxbaums die Knoten im Baum besucht werden (Traversierung). depth-first breadth-first left-to-right right-to-left
  • Folie 14
  • 31.01.2008 Einfhrung in die Computerlinguistik14 Beispielgrammatik (CFPSG) Syntax S NP VP NP Det N NP NP Conj NP 1 VP V NP Det 2 Lexikon Det the Conj and N dog N cat V chases 1 nicht fr top-down-Parser 2 nicht fr bottom-up-Parser
  • Folie 15
  • 31.01.2008 Einfhrung in die Computerlinguistik15 Top-Down-Traversierung S 1 NP 2 VP 7 D 3 N 5 V 8 NP 10 D 11 N 13 the 4 dog 6 chased 9 the 12 cat 14 top-down depth-first left-to-right
  • Folie 16
  • 31.01.2008 Einfhrung in die Computerlinguistik16 Problem: Linksrekursion Top-Down-Strategie gert bei linksrekursiven Regeln in Endlosschleifen (Endlosberechnungen): NP NP Conj NP Die erste NP auf der linken Regelseite kann beliebig oft mit der gleichen Regel expandiert werden. Auswege: Linksrekursion vermeiden (unbefriedigend) Bottom-Up- oder Left-Corner-Strategie
  • Folie 17
  • 31.01.2008 Einfhrung in die Computerlinguistik17 Bottom-Up-Traversierung S 14 NP 5 VP 13 D 2 N 4 V 7 NP 12 D 9 N 11 the 1 dog 3 chased 6 the 8 cat 10
  • Folie 18
  • 31.01.2008 Einfhrung in die Computerlinguistik18 Shift-Reduce-Algorithmus Der Shift-Reduce-Algorithmus verfolgt eine Bottom-Up- Strategie. 1.Shift: lege ein Wort aus der Eingabekette auf einen Stapel. 2.Reduce: reduziere den Stapel mit Hilfe der Grammatik soweit wie mglich. 3.Falls die Eingabekette noch Wrter enthlt, gehe zu Shift, sonst halte.
  • Folie 19
  • 31.01.2008 Einfhrung in die Computerlinguistik19 Shift-Reduce-Beispiel
  • Folie 20
  • 31.01.2008 Einfhrung in die Computerlinguistik20 Problem: Leere Kategorien Bottom-Up-Strategie loopt (Endlosschleife) bei leeren Kategorien, weil zwischen zwei Konstituenten beliebig viele leere Kategorien eingesetzt werden knnen. Det. Auswege Leere Kategorien vermeiden (fr manche unbefriedigend). Oder eine andere Parsing-Strategie: Left-Corner-Parsing mit Linking (wer wissen mchte, wie das funktioniert, soll Computerlinguistik studieren!)
  • Folie 21
  • 31.01.2008 Einfhrung in die Computerlinguistik21 Klassifikationsprobleme Viele Probleme der Text- bzw. Sprachtechnologie sind Klassifikationsprobleme, z.B: Satzgrenzenerkennung Frau Dr. X. hatte am 31. Jan. 2.000 auf der Bank. Am 1. Feb. waren es 1.000 weniger. Wortartenerkennung Time N flies V like A an D arrow N. vs Time N flies N like V an D arrow N. Term- bzw. Named-Entity-Erkennung z.B. Personen-, Whrungs-, Datums-, oder Ortsbezeichnungen Wortsinndisambiguierung Das Geld liegt auf der Bank. Peter sitzt auf der Bank.
  • Folie 22
  • 31.01.2008 Einfhrung in die Computerlinguistik22 Automatische Klassifikation Ein Klassifikator ist eine Wahrscheinlichkeitsfunktion p(a|b) p(a|b) ist die Wahrscheinlichkeit von Klasse a im Kontext b p(Institution i |Das Geld liegt auf der Bank i ) = 0,6 p(Gebude i |Das Geld liegt auf der Bank i ) = 0,1 p(Sitzmbel i |Das Geld liegt auf der Bank i ) = 0,3 1,0 Klassifikatoren knnen aus Trainingstexten automatisch gelernt werden: Maschinelles Lernen Das Lernen basiert i.d.R. auf dem Zhlen der gemeinsamen Vorkommen von Klassen mit Kontextmerkmalen
  • Folie 23
  • 31.01.2008 Einfhrung in die Computerlinguistik23 Markov-Modelle Markov-Modelle sind gewichtete endliche Automaten. Markov-Modelle reduzieren die komplexen Zusammenhnge einer Kette von Ereignissen (z.B. Wrter in einem Text). Markov-Modelle zur Wortartenerkennung: Kombination aus zwei Wahrscheinlichkeitsfunktionen: Wie hufig kommt ein Wort mit einer Wortart vor? Wie hufig folgt eine Wortart auf eine andere? Time N flies V like A an D arrow N. vs Time N flies N like V an D arrow N.
  • Folie 24
  • 31.01.2008 Einfhrung in die Computerlinguistik24 Beruf ComputerlinguistIn Computerlinguistische Arbeit erfordert Wissen aus mehreren Bereichen: Linguistik Informatik Mathematik Philosophie Logik Informationswissenschaft Je nach Spezialisierung kann der Schwerpunkt einzelner ComputerlinguistInnen stark auf bestimmte der genannten Bereiche verlagert sein. Sofern es um bestimmte Anwendungsdomnen geht, knnen natrlich weitere Fachbereiche involviert sein: Philologie(n), Biologie, Soziologie, Forensik, Kryptologie,