Mensch-Maschine- Kommunikation 1 - LaTeX 4 EI · PDF fileschiedener Medien, z.B. Text, Grafik...

4
4 ei * Mensch-Maschine- Kommunikation 1 (ab WS 2016/17) 1. Allgemeine Einf¨ uhrung 1.1. Grundbegriffe der MMK Interaktion Kommunikation zwischen Mensch und Maschine. Interaktives System System, das auf Eingaben reagiert und gegebenenfalls auch Ausgaben generiert. HCI Human-Computer Interaction. MMI Mensch-Maschine-Interface. Usability Gebrauchstauglichkeit bzw. Eignung eines Produkts. Usability En- gineering Gestaltung und Testen eines Produktes mit dem Ziel optimaler Bedienbarkeit durch die Mensch-Maschine- Schnittstelle. Software- Ergonomie Wissenschaft ¨ uber die Gestaltung von Programmen mit benutzerfreundlicher Mensch-Maschine-Schnittstelle. Medium Datentr¨ ager f¨ ur Information, z.B. Papier oder CD. Multimedia Datenverarbeitung und -darstellung unter Nutzung ver- schiedener Medien, z.B. Text, Grafik und Audio und Video. Modalit¨ at Ein-/Ausgabekanal der menschlichen Kommunikation und Sinneswahrnehmung, z.B. Sprache, Zeigen, Gestik, Tastatur. 1.2. Wichtigste Disziplinen der MMK 1.3. Trends in der MMK Steigerung der Leistungsf¨ ahigkeit Reduzierung der Kosten Erweiterung der Funktionalit¨ at Verbesserung der Bedienbarkeit 1.4. ¨ Ubersicht ¨ uber Sinnesmodalit¨ aten Sinnesbezeichnung Modalit¨ at Bemerkung Sehen visuell 5 Sinne“ oren auditiv Riechen olfaktorisch Schmecken gustatorisch Tasten taktil Druck haptisch mechanische Modal. Kraft Ber¨ uhrung taktil oberfl¨ achen-sensitiv Vibration Temperatur thermorezeptorisch Bewegung und Orientierung kin¨ asthetisch Gleichgewicht vestibul¨ ar 1.5. Die Sinne des Menschen und ihre Datenraten 1.6. Datenraten g¨ angiger System der MMK System Verhalten Rate (KByte/sec) Tastatur (unge¨ ubt) Eingabe 0.01 Tastatur (ge¨ ubt) Eingabe 0.025 Handschrift Eingabe 0.0025 Spracheingabe Eingabe 0.01-0.02 Maus Eingabe 0.02 Sprachausgabe Ausgabe 0.6 Text lesen Ausgabe 0.03-0.3 oren (CD) Ausgabe 40 Sehen (Video) Ausgabe 20000 2. Sprachkommunikation Ermittlung der ge¨ außerten Wortfolge aus einem vorliegenden Sprachsignal und Verarbeitung dieser Information. Die Sprachkom- munikation hat gr¨ oßtes Potential aller Eingabemethoden, da sie auch beim Menschen die h¨ aufigste und nat¨ urlichste Kommunika- tionsform ist. 2.1. Physikalische Wellen Transversalwelle: Longitudinalwelle (z.B. Schall): 2.2. Schallquellen und ihre typischen Pegel 2.3. Menschliche H¨ orsinn 2.3.1. Das Ohr Außenohr Ohrmuschel & Geh¨ organg. Mittelohr Trommelfell, Geh¨ orkn¨ ochelchen (Hammer, Amboss, Steigb¨ ugel) & Euchstachische ohre; Wandlung von Luftschwingung in mech. Schwingung. Innenohr Steigb¨ ugel ¨ uber ovale Fenster in mit Fl¨ ussigkeit gef¨ ullte Schne- cke; Impedanzwandlung von Luft zu Fl¨ ussigkeit. Basilarmembran Haarzellen (25k - 30k Rezeptoren) wandeln Schwin- gung in elektronische Nervenimpulse Frequenz-Ort-Wandlung, Zerlegung in Frequenzanteile ornerv (30k Nervenfasern) Hirn 2.3.2. Psychoakustik Empfindlich von etwa 20 Hz - 20 kHz (10 Oktaven) Starke D¨ ampfung f¨ ur sehr niedrige und sehr hohe Frequenzen Resonanzfrequenz des Geh¨ organgs bei ca. 3 ... 3.4kHz; Lauteinheit in [sone] 1 sone Lautheit eines 1kHz Sinus mit 40 dB Verh¨ altnistonh¨ ohe [mel] 1000 mel 1000Hz Psychoakustik Physik Bezeichnung Einheit Bezeichnung Einheit Tonheit Z Bark Frequenz f Hz Verh¨ altnistonh. V Mel Schalldruck p N m 2 = Pa Schallschnelle v m s Schallintensit¨ at I W m 2 = N sm Lautstrk.pegel Ln Phon Schalldruckp. L dB Lautheit N sone Schallleist. P ak W = Nm s Bezugsschalldruck p 0 =2 · 10 5 N m 2 = 20µP a Bezugsintensit¨ at I 0 =1.0 · 10 12 W m 2 orfl¨ ache Jener Frequenz- und Pegelbereich von Schall, der vom menschlichen Geh¨ or wahrgenommen werden kann: Frequenzbewertung Verfahren zur frequenzabh¨ angigen Anpassung von Schalldruckpegeln an das menschliche orempfinden (nichtlinear zur Lautst¨ arke). Hierf¨ ur werden verschiedene Filterkurven verwendet: A(20–40 phon), B(50–70 phon), C(80–90 phon), D(sehr hohe Schalldr¨ ucke) mit gleichem Lautst¨ arkeeindruck. Lautheit N in Sone ist angepasstes Sche- ma. Frequenzgruppen (24) begrenzte Aufl¨ osung des Geh¨ ors; jede Frequenz- gruppe nimmt gleiche L¨ ange auf Basilarmembran ein (1,3mm - unter 500 Hz = 100Hz, dr¨ uber kleine Terz 1,19 der Mittenfrequenz); Bark-Skala; 1.31 Bark = 131 mel = 131 Hz.; Bl¨ atterrauschen in Ferne L = 10dB, usenj¨ ager in 30 m L = 140dB. Verdeckungen orschwelle bei St¨ orschall (Maskierer); Spektrale: verbreitet sich mit steigendem Pegel ¨ uberproportional. Zeitliche: Vorverdeckung; Simultanverdeckung; Nachverdeckung (ei- nige hundert ms). Kompression: Mith¨ orschwelle ¨ uber Verdeckungen ermitteln; MP3 ab 160 kBit/s. Homepage: www.latex4ei.de – Fehler bitte sofort melden. von Fabian G¨ ottel, Hendrik B¨ ottcher und Lukas Kompatscher – Mail: [email protected] Stand: 22. Februar 2018 1/??

Transcript of Mensch-Maschine- Kommunikation 1 - LaTeX 4 EI · PDF fileschiedener Medien, z.B. Text, Grafik...

Page 1: Mensch-Maschine- Kommunikation 1 - LaTeX 4 EI · PDF fileschiedener Medien, z.B. Text, Grafik und Audio und Video. ... {s0,s1,s2,s3} X= {0,1} F= ... Einzelworterkenner vs. fließende

4ei** kann Spuren von Katzen enthalten nicht für Humorallergiker geeignet alle Angaben ohne Gewehr

Mensch-Maschine-Kommunikation 1(ab WS 2016/17)

1. Allgemeine Einfuhrung

1.1. Grundbegriffe der MMK

Interaktion Kommunikation zwischen Mensch und Maschine.

InteraktivesSystem

System, das auf Eingaben reagiert und gegebenenfallsauch Ausgaben generiert.

HCI Human-Computer Interaction.

MMI Mensch-Maschine-Interface.

Usability Gebrauchstauglichkeit bzw. Eignung eines Produkts.

Usability En-gineering

Gestaltung und Testen eines Produktes mit dem Zieloptimaler Bedienbarkeit durch die Mensch-Maschine-Schnittstelle.

Software-Ergonomie

Wissenschaft uber die Gestaltung von Programmen mitbenutzerfreundlicher Mensch-Maschine-Schnittstelle.

Medium Datentrager fur Information, z.B. Papier oder CD.

Multimedia Datenverarbeitung und -darstellung unter Nutzung ver-schiedener Medien, z.B. Text, Grafik und Audio undVideo.

Modalitat Ein-/Ausgabekanal der menschlichen Kommunikationund Sinneswahrnehmung, z.B. Sprache, Zeigen, Gestik,Tastatur.

1.2. Wichtigste Disziplinen der MMK

1.3. Trends in der MMK• Steigerung der Leistungsfahigkeit

• Reduzierung der Kosten

• Erweiterung der Funktionalitat

• Verbesserung der Bedienbarkeit

1.4. Ubersicht uber Sinnesmodalitaten

Sinnesbezeichnung Modalitat Bemerkung

Sehen visuell

”5 Sinne“

Horen auditiv

Riechen olfaktorisch

Schmecken gustatorisch

Tasten taktil

Druckhaptisch mechanische Modal.

Kraft

Beruhrungtaktil oberflachen-sensitiv

Vibration

Temperatur thermorezeptorisch

Bewegung und Orientierung kinasthetisch

Gleichgewicht vestibular

1.5. Die Sinne des Menschen und ihre Datenraten

1.6. Datenraten gangiger System der MMK

System Verhalten Rate (KByte/sec)

Tastatur (ungeubt) Eingabe 0.01

Tastatur (geubt) Eingabe 0.025

Handschrift Eingabe 0.0025

Spracheingabe Eingabe 0.01-0.02

Maus Eingabe 0.02

Sprachausgabe Ausgabe 0.6

Text lesen Ausgabe 0.03-0.3

Horen (CD) Ausgabe 40

Sehen (Video) Ausgabe 20000

2. Sprachkommunikation

Ermittlung der geaußerten Wortfolge aus einem vorliegendenSprachsignal und Verarbeitung dieser Information. Die Sprachkom-munikation hat großtes Potential aller Eingabemethoden, da sieauch beim Menschen die haufigste und naturlichste Kommunika-tionsform ist.

2.1. Physikalische WellenTransversalwelle: Longitudinalwelle (z.B. Schall):

2.2. Schallquellen und ihre typischen Pegel

2.3. Menschliche Horsinn2.3.1. Das OhrAußenohr Ohrmuschel & Gehorgang.

Mittelohr Trommelfell, Gehorknochelchen (Hammer, Amboss,Steigbugel) & Euchstachische Rohre; Wandlung von Luftschwingungin mech. Schwingung.

Innenohr Steigbugel uber ovale Fenster in mit Flussigkeit gefullte Schne-cke; Impedanzwandlung von Luft zu Flussigkeit.

Basilarmembran Haarzellen (25k - 30k Rezeptoren) wandeln Schwin-gung in elektronische Nervenimpulse Frequenz-Ort-Wandlung, Zerlegungin Frequenzanteile ⇒ Hornerv (30k Nervenfasern) ⇒ Hirn

2.3.2. Psychoakustik• Empfindlich von etwa 20 Hz - 20 kHz (≈ 10 Oktaven)

• Starke Dampfung fur sehr niedrige und sehr hohe Frequenzen

• Resonanzfrequenz des Gehorgangs bei ca. 3 . . . 3.4kHz;

• Lauteinheit in [sone] 1 sone ≜ Lautheit eines 1kHz Sinus mit 40 dB

• Verhaltnistonhohe [mel] 1000 mel ≜ 1000Hz

Psychoakustik Physik

Bezeichnung Einheit Bezeichnung Einheit

Tonheit Z BarkFrequenz f Hz

Verhaltnistonh. V Mel

Schalldruck p Nm2 = Pa

Schallschnelle v ms

Schallintensitat I Wm2 = N

sm

Lautstrk.pegel Ln PhonSchalldruckp. L dB

Lautheit N sone

Schallleist. Pak W = Nms

Bezugsschalldruck p0 = 2 · 10−5 Nm2 = 20µPa

Bezugsintensitat I0 = 1.0 · 10−12 Wm2

Horflache Jener Frequenz- und Pegelbereich von Schall, der vommenschlichen Gehor wahrgenommen werden kann:

Frequenzbewertung Verfahren zur frequenzabhangigen Anpassung vonSchalldruckpegeln an das menschliche Horempfinden (nichtlinear zurLautstarke). Hierfur werden verschiedene Filterkurven verwendet: A(20–40phon), B(50–70 phon), C(80–90 phon), D(sehr hohe Schalldrucke) mitgleichem Lautstarkeeindruck. Lautheit N in Sone ist angepasstes Sche-ma.

Frequenzgruppen (24) begrenzte Auflosung des Gehors; jede Frequenz-gruppe nimmt gleiche Lange auf Basilarmembran ein (1,3mm - unter 500Hz = 100Hz, druber kleine Terz 1,19 der Mittenfrequenz); Bark-Skala;1.31 Bark = 131 mel = 131 Hz.; Blatterrauschen in Ferne L = 10dB,Dusenjager in 30 m L = 140dB.

Verdeckungen Horschwelle bei Storschall (Maskierer);

• Spektrale: verbreitet sich mit steigendem Pegel uberproportional.

• Zeitliche: Vorverdeckung; Simultanverdeckung; Nachverdeckung (ei-nige hundert ms).

Kompression: Mithorschwelle uber Verdeckungen ermitteln; MP3 ab 160kBit/s.

Homepage: www.latex4ei.de – Fehler bitte sofort melden. von Fabian Gottel, Hendrik Bottcher und Lukas Kompatscher – Mail: [email protected] Stand: 22. Februar 2018 1/??

Page 2: Mensch-Maschine- Kommunikation 1 - LaTeX 4 EI · PDF fileschiedener Medien, z.B. Text, Grafik und Audio und Video. ... {s0,s1,s2,s3} X= {0,1} F= ... Einzelworterkenner vs. fließende

2.4. Menschliche Spracherzeugung

2.4.1. PhonemeDas Phonem ist die kleinste bedeutungsunterscheidende Einheit des ge-sprochenen Wortes.

Systematische Einteilung der Phoneme:

3. Grammatiken

Naturlichsprachige Systeme; Modellierung von Dialogen.

3.1. Kontextfreie Grammatiken (CFG)G = {V, T, P, S} mit

• V ≡ Variable (Großbuchstaben)

• T ≡ Terminale (Kleinbuchstaben)

• P ≡ Produktionsregel (A → α mit A ∈ {V } und α ∈{V ∪ T})

• S ≡ Startsymbol

3.1.1. Chomsky-NormalForm (CNF)Enthalt nur Produktionsregeln, bei denen auf der rechten Seite nur zweiVariablen oder nur ein terminaler Ausdruck steht:

A → BC oder A → a

3.1.2. Backus-Naur-Form (BNF)Formal exakte Definition von Programmiersprachen. Nichtterminalsymbo-le werden syntaktische Variablen genannt und durch<> gekennzeichnet.Darstellung von Wiederholungen durch Rekursion.

• | Alternative• (. . . ) Gruppierung

• [. . . ] oder (. . . )? Option

• (. . . )∗ optionale Wiederholung (keinmal, ein- oder mehrfach)

• (. . . )+ Wiederholung (ein- oder mehrfach)

3.1.3. Erweiterte Backus-Naur-Form (EBNF)• [. . . ] Option

• . . . optionale Wiederholung (keinmal, ein- oder mehrfach)

• n∗ abgezahlte Wiederholung

3.1.4. ParsingSatzgenerierung: Produktionsregeln solange anwenden, bis alle VariablenV durch terminale Symbole T ersetzt sind; Parse-Tree; Ambiguitaten;

3.1.5. Anwendung von Grammatiken in KISprache; Mustererkennung;

3.2. Beispiele GrammatikenPalindrom-String:

S → aSa|bSb|a ∗ |b∗

Doppelte Anzahl a wie b:

S → A|SA|AS|aSC|CSa|aSD|DSa|bSB|BSbA → Bb|Ca|DaB → aa C → ab D → ba

Grammatik-Grammatik:S (Satz), NP (Nominalphrase), VP (Verbalphrase), PP(Papositionalphrase), DET (Determinator, Artikel), ADJ (Adjektiv),AUX (Hilfswort), V (Verb), PRE (Praposition) und N (Nomen)

S → NP VP|VP NP

NP → DET N|ADJ N|DET NP|NP PP

VP → V NP|AUX V|V PP|V NP|VP PP|AUX VP

PP → PRE NP

DET →”der“,

”die“,

”das“,...

ADJ →”klein“,

”groß“,...

AUX →”wird“,...

V →”streicheln“,...

PRE →”in“,

”mit“,...

N →”Junge“,

”Hund“,

”Hand“,...

4. Automatentheorie

Verarbeitung von Symbolfolgen; Modellierung von Dialogen;

4.1. ZustandsautomatGraphenform; bestimmte Anzahl von Knoten (Zustande) und Verbindun-gen (Transitionen).

Z = (S,X ,T˜ , s0,F)

• S Set mit endlicher Anzahl Zustande

• X zulassiges Alphabet fur die zu verarbeitende Symbolfolge X

• T˜ Transitionsfunktionen fur die Zustande in S• s0 Anfangszustand

• F ein Set von festgelegten Endzustanden

Transitionsfunktion als Regel: t(s−, xi) = s+

Umwandlung: Zustandsautomat in Grammatik

1. Zustange werden Variable: S ⇒ V

2. Eingabealph. wird zu Terminal: X ⇒ T

3. Transitionen werden Produktionsregeln: T˜ ⇒ P,z.B. P = {S → aA,ArabA

4. Fur jeden Endzustand sE erstelle Produktionsregel,z.B. fur B als Endzustand ⇒ P = {. . . , B → ϵ}

Beispiel fur einen deterministischen Zustandsautomaten

S = {s0, s1, s2, s3}X = {0, 1}F = {s0}

Transitionsregeln in Tabellenform:

Beispiel fur einen nicht-deterministischen Zustandsautomaten

4.2. KellerautomatenKomplexere Grammatiken; Erweiterung mit Stack (LIFO-Queue); Transi-tion abhangig von Stack und Eingang; Stack leer ⇒ Folge akzeptiert;

Z = (S,X ,Y,T˜ , s0, y0F)

• S Set mit endlicher Anzahl Zustande

• X zulassiges Alphabet fur die zu verarbeitende Symbolfolge X

• Y zulassiges Alphabet fur den Stack

• T˜ Transitionsfunktionen fur die Zustande in S• s0 Anfangszustand

• y0 Startsymbol fur den Stack

• F ein Set von festgelegten Endzustanden (leer wenn Endzustand uberleeren Stack definiert ist)

Beispiel fur einen Kellerautomaten:

S = {S0, S1}X = {a, b}Y = {#, a}y0 = #

F = {} (Ende durch leeren Stack)

Generiert Sprache: L(anbn) mit n > 0

Angaben in Klammern:(Voraussetzung auf Stack ∈ Y, Eingabe ∈ X , Aktion push(. . . )/pop)

5. Spracherkennung

Spracherkennung beschaftigt sich mit der Untersuchung und Ent-wicklung von Verfahren, die Automaten, insbesondere Compu-tern, die gesprochene Sprache der automatischen Datenerfassungzuganglich macht.

5.1. KlassifizierungZuordnung zu Bedeutungseinheiten; Merkmalsextraktion; Merkmalsvek-tor; Merkmalsraum; Klassen; Training;

5.2. AbstandsklassifikatorenDistanz eines Mustervektors zu Klasse;

• x unbekannter, zu klassifizierende Mustervektor

• rk,i i-ter Referenzvektor fur die k-te Klasse

• mk Klassenzentrum der Klasse k

• dk(x, mk) Abstandsformel

• kx Klasse mit minimalen Abstand zu x

Formeln

mk =1

Mk

Mk∑i=1

rk,i

dk(x, mk) = (x− mk)T · W˜k · (x− mk)

kx = argminx

dk(x, mk)

Trennfunktion:d1(x,m1) − d2(x,m2) = 0

Gewichtsmatrix Wk entscheidend uber Ergebnis; mk wird im Trainingermittelt; x gehort zur Klasse k mit minimalen Abstand;

Quadratischer Abstand Wk ist Einheitsmatrix; Trennfunktion ist eineGerade;

Mahalanobis Abstand Inverse der Kovarianzmatrix; Abhangig von Klas-se; Bestandteil des Trainings; Trennfunktion ist Kegelschnitt (Gerade, El-lipse, Parabel, Hyperbel).

W˜K,k =1

Mk

Mk∑i=1

rk,i · rTk,i −mk ·mTk

A−1

=1

ad− bc

[d −b−c a

]

5.3. Cepstrum

Praktische Berechnung:

• Selektion eines Zeitfensters fur das betrachtete Sprachsignal

• Fourier-Transformation dieses Signals in den Frequenzbereich

• Bilden des Betrags des resultierenden (komplexen) Spektrums

• Logarithmierung des Amplitudenspektrums

• Rucktransformation mit inverser FT

Homepage: www.latex4ei.de – Fehler bitte sofort melden. von Fabian Gottel, Hendrik Bottcher und Lukas Kompatscher – Mail: [email protected] Stand: 22. Februar 2018 2/??

Page 3: Mensch-Maschine- Kommunikation 1 - LaTeX 4 EI · PDF fileschiedener Medien, z.B. Text, Grafik und Audio und Video. ... {s0,s1,s2,s3} X= {0,1} F= ... Einzelworterkenner vs. fließende

6. Hidden-Markov-Modelle und Algorithmen

Wahrscheinlichkeit Statistischer Klassifikator. Liefert Wahschein-lichkeit p, dass eine Beobachtung einer bestimmten Klasse zu-geordnet werden kann. Klassifizieren ganze Sequenzen (dyna-mische Folgen).

”Finde diejenige Klasse, die die Beobachtung

o = (o1, o2, . . . , ot) am besten nachbilden kann.“.

6.1. Markov-Modelle (MM)Abbildung stochastischer Prozesse, deren aktueller Zustand nur vom vor-ausgegangenen Zustand abhangt.

• Matrix der Ubergangswkt.: A˜ = p{qt+1 = sj |qt = si

}• Vektor der Einsprungswkt.:e = (p(q1 = s1), . . . , p(q1 = sN ))T

6.2. Hidden-Markov-Modelle (HMM)Stochastische Version eines endlichen Zustandautomaten; Zu-standsubergange und Symbolemissionen nicht deterministisch.

• Matrix A˜ und Vektor e siehe MM

• Beobachtungsfolge: o = (o1, . . . , oT )T

• Alphabet: v = (v1, . . . , vM )T

• Beobachtungswahrscheinlichkeiten: bmi = p(vm|si)• Matrix der Beobachtungswahrscheinlichkeiten:

B =

p(v1|s1) . . . p(v1|sN )

.

.

.. . .

.

.

.

p(vM |s1) . . . p(vM |sN )

Zusammengefasste Parameter des HMMs: λ = (e,A˜ ,B˜ )Beobachtungs- bzw. Produktionswkt.: p(o|λ)Dabei durchlaufene (vorborgene/hidden) Zustandsfolge:q = (q1, . . . , qT )

HMM - Eigenschaften

Ergodisches HMM Es kann aus jedem Zustand in jeder andere Zustanderreicht werden; A ist voll besetzt

Links-Rechts-HMM keine Rucksprunge; kausal; A hat rechte obereDreiecksform; Graphisch nach rechts aufsteigend

6.2.1. Klassifizierung mit HMMPro Klasse ein HMM; das HMM welches die großte Produktionswahr-scheinlichkeit p(o|λk) liefert, reprasentiert die gesuchte Klasse kx;

6.2.2. Training von HMMKompensation von Storungen; Bed.: geeignete Parameter λk ; Trainingmit iterativen Verfahren; ⇒ Baum-Welch-Algorithmus

6.3. HMM in der Spracherkennung

Cepstrum; Merkmalsexrahierung; 12D Merkmalsvektor;

6.3.1. ModelleEinzelworterkenner vs. fließende Sprache; Phoneme, kleinste bedeutungs-unterscheidenden Lauteinheiten; HMM pro Phonem; Pausen;

6.3.2. TrainingZusammenfassung der Phonem HMM zu einem HMM;

6.3.3. ErkennungWorterbucher, Grammatiken, Wahrscheinlichkeiten bestimmter Phonem-kombinationen, Sprachmodelle fur Wortkombinationen;

6.4. HMM-Algorithmen6.4.1. TrellisMathematische Formel zur Berechnung der Beobachtungswkt.Fur verschiedene Wege q gilt:

p(o, q|λk) = eq1bq1(o1)T∏

t=2aqt−1qt bqt (ot) Beobachtungswah-

scheinlichkeit:

p(o|λk) =∑q∈Q

p(o, q|λk)

=∑q∈Q

eq1bq1(o1)T∏

t=2

aqt−1qt bqt (ot)

Benotigte OPS ∼ 2T ·NT (sehr rechenintensiv)

6.4.2. Vorwarts-AlgorithmusVorwarts-Wahrscheinlichkeit:

αt(i) = P(o1, o2, . . . , ot, qt = si|λk)

d.h. die Wahrscheinlichkeit, dass die Teilbeobachtung oi emittiert werdenund das sich das HMM zu t im Zustand si befindet;

Vorwarts-Algorithmus (Rekursiv)

1. Initialisierung:α1(i) = eibi(o1), 1 ≤ i ≤ N

2. Induktion:

αt+1(j) =

[N∑

i=1αt(i)aij

]bj(ot+1)

1 ≤ t ≤ T − 1; 1 ≤ j ≤ N ;

3. Terminierung

P(o|λk) =N∑

i=1αT (i)

Benotigte OPS ∼ T ·N2

6.4.3. Baum-Welch-AlgorithmusRuckwartswahrscheinlichkeit:

βt(i) = P (ot+1, ot+2, . . . , oT |qt = si, λk);

d.h. Wahrscheinlichkeit, die restlichen Teilbeob. zu emmttieren;

Baum-Welch-Algorithmus (Rekursiv)

1. InitialisierungβT (i) = 1 1 ≤ i ≤ N

2. Induktion

βt(i) =N∑

j=1aijbj(ot+1)βt+1(j)

t = T − 1, T − 2, . . . 1 1 ≤ i ≤ N

Wahrscheinlichkeit, dass sich dass HMM zu t im Zustand si befindet undo emmitiert wird; Summe druber ⇒

”alle Aufenthalte im Zustand si“

γt(i) =αt(i)βt(i)

N∑i=1

αt(i)βt(i)

Wahrscheinlichkeit, dass sich das HMM zu t in si und zu t+1 in sjbefindet; Summe druber ⇒

”aller Ubergange von si zu sj ;

ξt(i, j) =αt(i)aijbj(ot+1)βt+1(j)

N∑i=1

αt(i)βt(i)

γt(i) =N∑

j=1

ξ

6.4.4. Viterbi-AlgoBerechnet die Beobachtungswahscheinlichkeit des wahrscheinlichsten Pfa-des.

Viterbi-Algorithmus

1. Initialisierung:δ1(i) = eibi(o1) 1 ≤ i ≤ Nψ1(i) = 0

2. Induktion:δt(j) = max

1≤i≤N

[δt−1(i)aij

]bj(ot)

ψt(j) = argmax1≤i≤N

[δt−1(i)aij

]2 ≤ t ≤ T ; 1 ≤ j ≤ N

3. Terminierung:P∗ = max

1≤i≤N[δt(i)]

q∗T = max1≤i≤N

[δt(i)]

4. Ermittlung der wahrsch. Zustandsfolge:q∗t = ψt+1(q

∗t+1)

t = T − 1, T − 2, . . . , 1

7. Suchverfahren

Formulierung und Darstellung eines Problems im Zustandsraum;Graphen-Darstellung; Suchbaum;

Zyklische Wiederholungen unterbinden (gerichtete Kanten imBaum).

7.1. Allgemeiner Algorithmus fur Suche

Suchalgorithmus

1. Initialisiere Queue

2. Schreibe Startknoten in Queue

3. Wiederhole:

a) Queue leer? ⇒ SZiel nicht gefunden”

b) Entnehme nachsten Knoten

c) Knoten == Ziel? ⇒ SZiel erreicht”

d) Schreibe alle Kinder des Knotens in die Queue

e) Update Queue

Art des Algorithmus betimmt die Art der Queue, und damit die Update-Funktion:

Suchalgorithmus Art der Queue

Breitensuche FIFO-Queue

Tiefensuche LIFO-Queue (Stack)

A-Suche Priotiy-Queue

A*-Suche Priotiy-Queue mit heuristischen Kosten als Prioritat

Dijkstra Priotiy-Queue mit bisherige Weg als Heuristik

7.2. Tiefensuche und Breitensuche1. einelementige Liste mit Wurzelknoten

2. bis Liste leer / Ziel erreicht:-prufe erstes Element auf Zielknoten bzw. max. Suchtiefe-wenn ja, fertig- wenn nein, entferne dieses Element und fuge all seine Nachfolger angleicher Stelle / am Ende ein.

Vorraussetzung: Elemente der Warteliste werden systematisch erzeugt;Suchtiefe wird geeignet groß festgesetzt / ausgewertete Suchbaum mussgespeichert werden;

7.3. Heuristische Suche / A-AlgorithmusVerarbeitung zusatzlicher Informationen; Bewertungsmoglichkeit fur Er-folgsaussichten eines bestimmten Pfades; Entscheidungen ordnen; Viel-versprechende Alternative zuerst,

”dem atm billigsten folgen“; Heuristik

besteht in Definition einer geeigneten Bewertungs (Kostenfunktion) f(n):

f(n) = g(n) + h(n)

Bewertungsfunktion = Bisherige Kosten + Schatzfunktion (hier: falschePlattchen)

Falls h(n) ≡ 0 gewahlt wird identisch zur Breitensuche

7.4. A*-AlgorithmusSchatzfunktion h(n) monoton, d.h. Kosten werden nicht uberschatzt; ter-miniert wenn Zielknoten gefunden und keine geringere Kostenschatzungexistiert; A* somit optimaler Pfad; wird die optimale Kostenfkt h1∗(n)verwendet, so wird kurzester Pfad auf Anhieb gefunden (sprich: informierteSuche); Liste mit allen Elementen erstellen + sortieren; dem insg. billigstenfolgen; nix verwerfen.

Homepage: www.latex4ei.de – Fehler bitte sofort melden. von Fabian Gottel, Hendrik Bottcher und Lukas Kompatscher – Mail: [email protected] Stand: 22. Februar 2018 3/??

Page 4: Mensch-Maschine- Kommunikation 1 - LaTeX 4 EI · PDF fileschiedener Medien, z.B. Text, Grafik und Audio und Video. ... {s0,s1,s2,s3} X= {0,1} F= ... Einzelworterkenner vs. fließende

8. Logik und Theorembeweisen

Wissen algorithmisch darstellen; Fakten ableiten; Behauptungenbestatigen / widerlegen;

8.1. Aussagenlogikatomare Aussagen; wahr oder falsch; UND , ODER, NICHT; Implikation⇒;

8.2. PradikatenlogikAnalyse und Bewertung von Beziehungen und logischen Verknupfungen1. Ordnung ⇒ nur Veranderung von Objekten, nicht PradikatenPradikate und Funktionen, Konstanten, Variablen, Funktionen, Negation,Disjunktion, Konjunktion, Existenz-Quantor, All-Quantor, Implikation,Aquivalenz.

Beispiel:”In jeder Stadt gibt es einen Burgermeister“

(∀x) {Stadt(x) ⇒ (∃y) [Mensch(y) · Bgm(x, y)]}

Regeln und Zusammenhange aufstellen; ⇒ Regelwerk (Axiome); Frage(Theorem); Beweis durch Wahrheitstabelle oder Umformen der Regelnund Schlussfolgern (Resolution, Unifikation - effektiver);

Umformregeln:

1. Doppelte Negation ¬¬A ≡ A

2. Idempotenz A + A ≡ A und A · A ≡ A

3. Kommutativitat A + B ≡ B + A

4. Assoziativitat A + (B + C) ≡ (A + B) + C

5. Distributivitat A + (B · C) ≡ (A + B) · (A + C)

6. De Morgan ¬(A · B) ≡ ¬A + ¬B7. Kontrapositiv A ⇒ B ≡ ¬B ⇒ ¬A8. A ⇒ B ≡ ¬A + B

9. A ⇔ B ≡ (A ⇒ B)·(B ⇒ A) ≡ (A·B)+(¬A·¬B)

10. ¬(∀x)A(x) ≡ (∃x)(¬A(x))

11. ¬(∃x)A(x) ≡ (∀x)(¬A(x))

12. (∀x)(A(x) · B(x)) ≡ (∀x)A(x) · (∀y)B(y)

13. (∃x)(A(x) + B(x)) ≡ (∃x)A(x) + (∃y)B(y)

8.3. StandardformenKonjunktive Normalform (KNF): (A1+A2+ . . . ) ·(B1+B2+ . . . ) ·. . .Disjunktive Normalform: (A1 · A2 · . . . ) + (B1 · B2 · . . . ) + . . .

Regeln zur Umformung in Normalform:

1. Eliminierung aller Aquivalenzen (# 9)

2. Eliminierung aller Implikationen (# 8)

3. Einziehung der Negation nach innen (#6, #10, #11)

4. Einfuhrung neuer Variabeln fur jeden Quantifizierer

5. Eliminierung aller Existenz Quantoren

6. Ausklammern der All-Quantoren und Entfallen dieser

7. Anwendung des Distributivgesetzes zur Transformation in Konjunk-tive Normalform (#5)

8. Eliminierung der UND-Verknupfungen durch Auflistung der Klau-seln

9. Einfuhrung getrennter Variablen fur jede Klausel

8.4. Theorembeweis mit ResolutionsverfahrenAllgemeines Resolutionsgesetz:

(X + A) · (¬X + B) ≡ (X + A) · (¬X + B) · (A + B)︸ ︷︷ ︸Resolvente

Spezielles Resolutionsgesetz:

(X + A) · (¬X + A) ≡ A

Absorptionsgesetz:(A + B) · A ≡ A

Weitere Sonderfalle:

1. A

A ⇒ B ≡ ¬A + B R ≡ B

2. A + B

¬A + B R ≡ B + B = B

3. A

¬A R ≡ NIL

4. A ⇒ B ≡ ¬A + B

B ⇒ C ≡ ¬B + C R ≡ ¬A + C ≡ A ⇒ C

Anwendung beim Theorembeweis:Geg.: Set von n existierenden und bewiesenen Axiomen S ={S1 . . . Sn} ; Es gilt T zu beweisennVorgehen: Erweiterung von S zu S∗ = {S1 . . . Sn,¬T} Und Resolu-tionieren bis leere Klausel erzeugt wird.Erklarung: Statt Beweis wird Unerfullbarkeit seines Gegenteils gezeigt.

Tautologie beweisen:

1. Wahrheit auf KNF bringen

2. Gegenteil auf KNF bringen

3. Zeige, dass Gegenteil { } ist.

9. Wissensreprasentation

effizient speichern; strukturiert darstellen; Menge von Fakten, Re-geln, Prozeduren, Modellen, Daten, Heuristiken; interpretierbarmit Hilfe von Reprasentationsmechanismen;

9.1. PradikatenlogikAufteilung in Fakten und Regeln; Standardisiert durch KNF; Resolution alsInferenzmechanismus; Formulierung aufwandig und unnaturlich; zwingendUmformung in KNF;

9.2. Produktionsregelnkeine Umformung in KNF; Wenn-Dann bleibt erhalten; Vorwarts-Ruckwartsverkettung als Inferenzmechanismus; Darstellung imUND/ODER-Graphen; Fakten als Blatt, Regeln als Verzweigung;

9.3. Semantische NetzeGraphische Modelle zur Darstellung von Wissen uber beziehungen zw. Ob-jekten; entsprechen etwa Fakten der Pradikatenlogik; Knoten = Objekte;Kanten = Pradikate; Verwendung bei naturlichssprachigen Systemen; kei-ne 2 Knoten gleicher Beschriftung; Richtung der Kanten von Bedeutung;

9.4. RahmenDarstellung der Zerlegung von Objekten oder Situationen in ihre Bestand-teile; Ahnlichkeit zu semantischen Netzen, wesentlich machtiger und fle-xibler; FrameName - zentraler Knoten, Slots - Kanten, Filler - Knoten;1. Suchverfahren zur Ermittlung von Beziehungen;2.

”Rahmen-Abgleich“; Fakten als Fragezeichen markiert; mit aktuellen

Daten auffullen;

10. Handschrifterkennung

10.1. Vorverarbeitung

Eingabemethoden

1. freie Eingabe (hohe Vorverarbeitung)

2. liniengefuhrte Eingabe

3. feldgefuhrte Eingabe

Eingangssignal: x(t) = (x(t), y(t), p(t))T

x(t) x-Koordinate

y(t) y-Koordinate

p(t) Druck (des Stifts)

10.1.1. Abtastung

Abtastung / Neuabtastung

1. Diskretisierung von x(t) mit n · ∆T ⇒ zeitaquidistante Abtas-tung

2. Lineare Interpolation der Stifttrajektorie

3. Neuabtastung ⇒ ortsaquidistante Abtastpunkte xre[k]

Lange einer Kurve r(t) = (x(t), y(t))T :

L(a, b) =b

a

√(dx(t)dt

)2 + (dy(t)dt

)2 dt

Druckkomponente: pn = p1 + k · (p2 − p1)

10.1.2. Korrekturen

Zeilenneigung (skew)

1. Horizontale Ausrichtung der Kernlinie des Geschriebenen

2. Drehung um den Mittelpunkt m d. Kernlinie um den Winkel α0

3. Bestimmung von α0 mit Projektionsprofilen oder Richtungshisto-grammen in y-Richtung, Hy(α) muss moglichst klein sein

Entropie: (B: Anzahl d. Bins, N(Bi): Anzahl d. Punkte in Bin i)

Hy(α) =B∑

i=1I(i)

I(Bi) = − N(Bi)

B∑j=1

N(Bj)

(ld)N(Bi)

B∑j=1

N(Bj)

Regressionsgerade y = mx + b:

m =

N∑i=1

[(xi−x)(yi−y)]

N∑i=1

(xi−x)2

und b = y −mx

Rotation:

xskew [k] =

cosα0 − sinα0 0

sinα0 cosα0 0

0 0 1

(xre[k] − m) + m

Schriftneigung (slant)

1. Scherung der Schrift an der Grundlinie yS2. Scherung um den Winkel ϕ0

3. Bestimmun von ϕ0 mit Projektionsprofilen oder Richtungshisto-grammen in x-Richtung, Hx(ϕ) muss moglichst klein sein

Scherung:

xslant[k] =

1 − tanϕ0 0

0 1 0

0 0 1

(xskew [k] −

0

yS0

) +

0

yS0

Schriftgroße

1. Schatzen der Referenzlinien

2. Berechnung der Kernhohe

3. Normirung des Schriftzuges

W: Hohe der Bins, P: ProjektionsprofilOberlangenlinie: yober = ymax, Unterlangenlinie: yunter = ymin

Kernlinie: ykern = argmin(ddjPy(j)) − 0.5)W + ymin

Basislinie: ygrund = argmax(ddjPy(j)) − 0.5)W + ymin

Kernhohe: hkern = |ykern − ygrund|Normierung:

xnorm[k] = 1hkern

[x[k] − xmin

y[k] − (ygrund +hkern

2)

]

10.2. MerkmalsextraktionExtraktion aus dem normalisierten SchriftzugSekantensteigungswinkel:

θ[k] = π2

+

{arctan(∆y

∆x) − π

2sgn(∆x) fur ∆x = 0

π2(1 − sgn(∆x)) fur ∆x = 0

∆x = xnorm[k + 1] − xnorm[k], ∆y = ynorm[k + 1] −ynorm[k]Richtungsanderung:∆θ[k] = θ[k + 1] − θ[k]

5-dim. Merkmalsvektor: m[k] =

sin(θ[k])

cos(θ[k])

sin(∆θ[k])

cos(∆θ[k])

p[k]

10.3. ErkennungTrainig und Erkennung lauft uber Hidden-Markov-Modelle (HMM) mitGraphemen (z.B. Buchstabe, Sonderzeichen od. Ziffern) als kleinsteEinheitTraining: Baum-Welch-AlogrithmusErkennung: Viterbi-Algorithmus

11. Dialogsystem (Anhang)

• fortgeschrittene intuitive Ein-/Ausgabetechniken

• Hohes Maß an Interaktivitat durch Benutzerfreundlichkeitund ausgepragte Dialogfahigkeit

• Intelligentes Systemverhalten, selbststandig logische Schlusseziehen;

Teilgebiete der KI: Maschinelles Lernen, Bildverstehende Syste-me, Expertensysteme, Robotik, Logik und automatisches Beweisen,naturlichsprachliche Systeme;

Homepage: www.latex4ei.de – Fehler bitte sofort melden. von Fabian Gottel, Hendrik Bottcher und Lukas Kompatscher – Mail: [email protected] Stand: 22. Februar 2018 4/??