Basisinformationstechnologie HK-Medien

36
BIT – Schaßan – WS 02/03 Basisinformationstechnol ogie HK-Medien Teil 1, 13. Sitzung WS 02/03

description

Basisinformationstechnologie HK-Medien. Teil 1, 13. Sitzung WS 02/03. Beschreibung von PSS. - PowerPoint PPT Presentation

Transcript of Basisinformationstechnologie HK-Medien

Page 1: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Basisinformationstechnologie

HK-Medien

Teil 1, 13. SitzungWS 02/03

Page 2: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Beschreibung von PSS

Bei der Schaffung einer PS sollte diese in klarer und präziser Weise definiert werden. Begriffe und Konzepte müssen beschrieben und ihre Bedeutung erläutert werden. Alle Details müssen in einem Dokument erklärt werden, welches als Referenz fungiert. Genauigkeit, Präzision und Formalität sind dazu notwendig.

Page 3: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Beschreibung von PSS (2)

mögliche Probleme sind:verschiedene Sichtweisen auf die PS erfordern unterschiedliche Schwerpunktsetzungen;verschiedene Methoden der Beschreibung können zu unterschiedlichen Interpretationen führen

mögliche Lösung ist die Abstraktion des zu Beschreibenden in formalisierter Weise unter Anwendung grammatikalischer Theorien

Page 4: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Semi-Thue-Systeme

Semi-Thue-Systeme können als einfache und allgemeine Form von Algorithmen betrachtet werden:

Σ endlicher Zeichenvorrat

x Wörter ( Länge: |x | = n )x = x0⋯xn-1 von Zeichen xi aus Σ

Überführen der Wörter in andere Wörter durch Ersetzen von xi⋯xi+k-1 durch yj⋯yj+k-1

Es gilt: k, l ≥ 0, i+k ≤ n;für k, l = 0 wird das leere Wort ε

ersetzt

Page 5: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Semi-Thue-Systeme (2)

Ersetzungsregel: a⋯b → c⋯dschematisch: p → qEine Regel heißt auf ein Wort x anwendbar, wenn x das Teilwort a⋯b enthält.

Beispiel: Addition natürlicher ZahlenΣ = { |, +}Regeln: +| → |+

+ → εWort: |||+||

Umformung:|||+||⇒ ||||+| ⇒ |||||+ ⇒ |||||.

Page 6: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Ableitung

Der Übergang l → r beschreibt die Transformation, die durch Anwendung einer Regel p → q auf einen Teil der linken Seite l entsteht.r heißt aus l abgeleitet.Die Transformation heißt eine direkte Ableitung.

Page 7: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Ableitung (2)

l ⇒ r wenn r aus l durch fortge-setzte Ableitung

gewonnen werden kannl ⇒ r entweder l ⇒ r oder l = rUmgekehrt kann r auf l reduziert werden, wenn l ⇒ r

+

+*

*

Page 8: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Metaregeln

Metaregeln legen die Anwendung der Regeln fest.

Wenn a⋯b → c⋯d anwendbar ist, ersetze das Teilwort a⋯b von x durch c⋯d ;wenn a⋯b mehrfach vorkommt oder mehrere Regeln anwendbar sind, so wähle das Teilwort bzw. die Regel beliebig;wiederhole die Anwendung beliebig oft.

Page 9: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Semi-Thue-System (3)

Eine Menge T = { p → q } von Regeln zusammen mit den Metaregeln heißt ein Semi-Thue- oder Textersetzungssystem.Die Menge aller r , die aus l abgeleitet werden, heißt die formale Sprache Ll = L(T,l ) von l bei vorgegebenem Semi-Thue-System T.

Page 10: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Thue-Systeme

T = { p → q } ist ein Semi-Thue-System;Menge T -1 = { q → p } mit umgekehrter Pfeilrichtung ist ebenfalls ein Semi-Thue-SystemDas inverse System heißt Reduktionssystem.Thue-Systeme sind symmetrische Semi-Thue-Systeme T = T ∪ T -1, bei dem zu jeder ableitenden Regel p → q auch die reduzierende Regel q → p zu T gehört.

Page 11: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Determination

Sind zu einem Text x mehrere anwendbare Regeln gegeben oder kann eine Regel auf mehrere Teilwörter von x angewendet wer-den, heißt ein Algorithmus indeterministisch.Ist in jedem Schritt die anzuwendende Operation eindeutig bestimmt, so heißt der Algorithmus deterministisch.

Page 12: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Normalform

Überführt ein Semi-Thue-System T ein Wort x in y = T (x ), x ⇒ y, und hält dann an, so heißt y eine Normalform von x.

*

Page 13: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Markov-Algorithmen

Unabhängig von Thue erfand Markov ein System zur Beschreibung von Textersetz-ungen.Ein Markov-Algorithmus (normaler Algo-rithmus) ist ein deterministisches Semi-Thue-System mit endlich vielen Regeln und zwei verschiedenen Endbedingungen.

Page 14: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Markov-Algorithmen (2)

Die Endbedingungen:Wähle in jedem Schritt die erste anwendbare Regel. Falls sie auf mehrere Teilwörter anwend-bar ist, wende sie auf das am weitesten links stehende Teilwort an.Wende Regeln so lange an, bis eine haltende Regel angewandt wurde, oder bis keine Regel mehr anwendbar ist.

Page 15: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Markov-Algorithmen (3)

haltende Regeln: x →. yerste anwendbare Regel:bezogen auf die Reihenfolge, in der die Regeln aufgeschrieben wurden;falls eine Regel ε → r angegeben ist, wird r am Anfang des Wortes eingesetzt, da das am weitesten links stehende Wort ersetzt wird;

Page 16: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Markov-Algorithmen (4)

Erlaubt man zusätzliche Zeichen α,β,γ,…, so genannte Schiffchen, die weder im Eingabetext noch im Ergebnis vorkommen, so kann man mit diesen gesteuerten Markov-Algorithmen, wie im übrigen auch mit allgemeinen Semi-Thue-Systemen, jede beliebige Berechnung beschreiben, die algorithmisch formulierbar ist.

Page 17: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Beispiel-MA

Σ = { O, L } mit den Schiffchen α, βRegeln:

αL → Lα , αO → Oα ,α → β , Lβ → βO ,oβ →. L , β →. L ,ε → α

Eingabe: LOLLUmformung:LOLL ⇒ αLOLL ⇒ LαOLL ⇒ LOαLL ⇒ LOLαL ⇒ LOLLα ⇒ LOLLβ ⇒ LOLβO ⇒ LOβOO ⇒ LLOO

Page 18: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Anwendung in der Linguistik

Semi-Thue-Systeme können benutzt werden, um die Struktur von Sätzen in natürlichen Sprachen als Ableitungsbaum darzustellen.Die Übertragung bzw. Anwendung von solchen Systemen geschah in den 50er Jahren v.a. durch Chomsky und andere Linguisten.

Page 19: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Grammatiken

Chomsky nannte diese Semi-Thue-Systeme Grammatiken und ihre Regeln Produktionen.Beispiel: ein Satz als Normalform für eine Zeichenreihe

Page 20: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Ableitungsbaum

Satz

Subjekt Prädikat

Artikel Substantiv Verbum

Ein Fisch schwimmt

Page 21: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Regeln des Beispiels

Regeln:Satz → Subjekt PrädikatSubjekt → Artikel SubstantivPrädikat → VerbumArtikel → einSubstantiv → FischVerbum → schwimmt

Page 22: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Grammatiken (2): Σ, N

In einer Grammatik unterscheidet man syntaktische Begriffe wie Satz, Verbum etc. von den Wörtern der zu beschreibenden Sprache.Die Wörter werden als Einzelzeichen eines Zeichenvorrats Σ ohne weitere innere Struktur betrachtet und als terminale Zeichen oder kurz Terminale bezeichnet.Die syntaktischen Begriffe bilden einen Zeichen-vorrat N der syntaktischen Variablen, nicht-terminalen Zeichen oder Nichtterminale.

Page 23: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Grammatiken (3): G, Z

Mit der Angabe einer Grammatik G sollen die terminalen Zeichenreihen x, x ∈ T * beschrieben werden, die einem ausge-zeichneten syntaktischen Begriff Z , dem Startsymbol, Axiom oder Ziel der Grammatik G entsprechen.

Page 24: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Grammatiken (4): L(G)

Die Menge L(G ) dieser Zeichenreihen heißt der Sprachschatz der Grammatik G .

Im Semi-Thue-System war die Menge aller, also nicht nur der terminalen, aus Z ableitbaren Zeichenreihen als formale Sprache LZ = L(G, Z ) bezeichnet worden.

Das Ziel Z wird im Unterschied zum Semi-Thue-System nicht mehr explizit erwähnt, da es durch die Grammatik eindeutig gegeben ist.

Page 25: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Grammatiken (5): V

Die Vereinigung V = N ∪ Σ heißt das Vokabular der Grammatik bzw. formalen Sprache.Wenn auch die leere Zeichenreihe ε zulässig ist, wird die Menge aller Zeichenreihen über den Zeichenvorräten V bzw. Σ mit V * bzw. Σ* bezeichnet.Eine Zeichenreihe x aus V *, die durch endlich viele Anwendungen von Produktionen aus dem Ziel Z abgeleitet werden kann (Z ⇒ x ) heißt Satzform oder Phrase.

*

Page 26: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Phrasenstrukturen

Phrasenstrukturen können sichtbar gemacht werden, indem alle Produktionenl → r durch l → ⟨r ersetzt werden.⟩

Die Produktionsmengen P = {Z → z, Z → zZz } und P ' = {Z → z, Z → Zzz } strukturieren Wörter wie zzzzz unterschiedlich: ⟨z ⟨z ⟨z ⟩ z ⟩ z ⟩ bzw. ⟨⟨⟨z ⟩ zz ⟩ zz ⟩

Page 27: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Zerteilung

Um herauszufinden, ob eine Zeichenreihe x eine Phrase ist, muss ihre syntaktische Struktur festgestellt werden.Dieser Vorgang heißt Zerteilung (engl. parsing) von x .Durch Umkehrung aller Pfeile erhält man aus dem Ableitungssystem A ein Reduktions- oder Zerteilungssystem R .

Page 28: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Chomsky-Grammatik

Eine Grammatik G = { Σ, N , P , Z }, in dem Σ, N und Z die vorher erläuterte Bedeutung haben und P eine endliche Menge von Produktionen l → r ist, heißt eine Chomsky-Grammatik.Da die Grammatik G in Satzform bzw. aus Phrasen bestehen, werden die Grammatiken nach Chomsky oft Phrasenstrukturgrammatiken genannt.

Page 29: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Begriffsübersicht

G GrammatikV Vokabular der Grammatik GΣ Zeichenvorrat an Terminalen

auch als VT bezeichnet

N Zeichenvorrat an Nichtterminalenauch als VN bezeichnet

Z Ziel, Axiom der Grammatik Gauch als S bezeichnet

L(G )Sprachschatz der Grammatik GP Produktionsmengen

Page 30: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Beschreibung von PSS (3)

Mit Grammatiken soll beschrieben werden, welche Texte syntaktisch korrekt aufgebaut sind. (Die Unterscheidung von sinnvollen und sinnlosen Texten ist nicht vonnöten.)Die Menge der syntaktisch korrekten Programme, also der Sprache, wird top-down beschrieben.

Page 31: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Chomsky-Hierarchien

Chomsky-Grammatiken lassen sich nach der Form ihrer Produktionen l → r weiter klassifizieren:

Chomsky-Typ 0 (kurz CH-0-Grammatik)heißt allgemeine GrammatikChomsky-Typ 1 (kurz CH-1-Grammatik)heißt kontextsensitive GrammatikChomsky-Typ 2 (kurz CH-2-Grammatik)heißt kontextfreie GrammatikChomsky-Typ 3 (kurz CH-3-Grammatik)heißt reguläre Grammatik

Page 32: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

CH-0

Eine Grammatik ist allgemein oder eine CH-0-Grammatik, wenn ihre Produktionen keinen Ein-schränkungen unterliegen.Insbesondere sind Produktionen ε → r erlaubt.Der Vergleich mit Markov-Algorithmen (die Schiffchen entsprechen in etwa den Nichttermi-nalen) zeigt, dass man jede berechenbare Menge als Sprache L(G ) einer CH-0-Grammatik erhalten kann.

Page 33: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

CH-1

Eine Grammatik ist kontextsensitiv oder eine CH-1-Grammatik, wenn ihre Produk-tionen beschränkt oder kontextsensitiv sind.Da in einer Ableitung Z ⇒ x ⇒ y stets |x | ≤ |y | gilt, kann man in endlich vielen Schritten bestimmen, ob ein Wort y vorge-gebener Länge zu L(G ) gehört.Eine Sprache L(G ) einer kontextsensitiven Grammatik muss daher entscheidbar sein.

*

Page 34: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

CH-2

Eine Grammatik ist kontextfrei oder eine CH-2-Grammatik, wenn ihre Produktionen kontextfrei sind.Die linke Seite jeder Ableitungsregel darf nur aus einer Variablen bestehen, wie die Variable A aber abgeleitet wird, darf nicht vom Kontext, in dem A steht, abhängen.Eine kontextfreie Grammatik heißt ε-frei, wenn sie keine ε-Produktion enthält.

Page 35: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

CH-3

Eine Grammatik ist regulär oder eine CH-3-Grammatik, wenn sie neben terminieren-den und ε-Produktionen entweder nur links- oder nur rechtslineare Produktionen enthält.

Page 36: Basisinformationstechnologie HK-Medien

BIT – Schaßan – WS 02/03

Chomsky-Hierarchien-Übersicht

Produktion

Produktionstyp

Eigenschaften Gr.-typ

l → r allgemein l, r ∈ V * beliebig CH-0

l → ε ε-Produktion l ∈ V *, r = ε

l → r beschränkt l, r ∈ V *, l ≤ |l | ≤ |r | CH-1

uAv → urv kontextsensitiv

A ∈ N , u,v,r ∈ V * , r ≠ ε

CH-1

A → r kontextfrei A ∈ N , r ∈ V * CH-2

A → Bx linkslinear A, B ∈ N , x ∈ Σ CH-3

A → xB rechtslinear CH-3

A → x terminierend A ∈ N , x ∈ Σ