FGAN apl. Prof. Dr. Ulrich Schade Konnektionismus 4. Sitzung (06.11.2008)

apl. Prof. Dr. Ulrich Schade

Konnektionismus

4. Sitzung (06.11.2008)

2 Techniken

• Einleitung und Historischer Rückblick

• Spreading Activation

• Error-Backpropagation

• Kohonen-Netze

2.2 Spreading Activation – Probleme

Probleme• Verrechnung der Aktivierung

(Wie gewährleistet man, dass die Aktivierungswerte

stets im Intervall [m, M] liegen?)

• Modellierung von Sequenzen

• Selektion

(Wann liegt das Ergebnis vor?)

2.2 Spreading Activation – Problem 1

ai(t+1) = ai(t)·(1–Θ) + ni(t)·(M – ai(t)), falls ni(t) > 0

ai(t+1) = ai(t)·(1–Θ) + ni(t)·(ai(t) – m), falls ni(t) ≤ 0

ni(t) = Σ wji · a j(t)

Es muss gelten: | ni(t) | < 1.0.

ni(t) = Σ wji · a j(t) Es muss gelten: | ni(t) | < 1.0.

Beispiel:

Die positiven Leitungsstärken liegen alle bei 0.1.

Dann ist ni(t) = 0.1 · Σ a j(t).

Senden dann mehr als 10 Knoten positiv Aktivierung an

den Knoten i, kann es geschehen, dass | ni(t) | > 1.0 gilt.

Bei der Buchstabenerkennung wird der Knoten

b1 beispielsweise von allen Wortknoten aktiviert,

deren Wörter mit „b“ beginnen. Das können mehr als 10 sein.

Lösungsvorschlag 1:„The spreading rule is completely linear, and given that the lexical

network only has excitatory connections among ist nodes, the model

has the charcteristics of the networks studied by Shrager, Hogg &

Huberman (1987). In such networks the decay rate q must be somewhat

greater than the spreading rate p to keep the network from entering

a phase in which activation levels go haywire. However, when the ratio

p/q is small, the network is reasonably well behaved, and it is in this region

that the present model operates, specifically where p/q < 0.5.“ (S. 129)

Dell, G.S. (1988). The retrieval of phonological forms in production.

Journal of Memory and Language, 27, 124-142.

Lösungsvorschlag 1 ??

McClelland & Rumelhart (1981): p (Letter Word) = 0.07

p (Word Letter) = 0.3

q = Θ = 0.07

Das entspricht nicht den Voraussetzungen, die Dell nennt.

Überdies gilt

Lösungsvorschlag 1 ??

Shrager, J., Hogg, T. & Huberman, B.A. (1987).

Observation of phase transitions in spreading activation networks.

Science, 236, 1092-1094.

„We consider the case where the activation from each node is

divided among the attached nodes according to the weight

of their connections.“ (S. 1093)

„fanning“ (Dies passiert weder im Modell von McClelland & Rumelhart,

noch im Modell von Dell.)

Lösungsvorschlag 2:

Berechnung des Nettoinputs in der Art,

in der Wahrscheinlichkeiten berechnet werden.

Ziel: | ni(t) | < 1.0.

Dazu: Verrechne die eingehenden positiven und die

eingehenden negativen Aktivierungen zunächst getrennt:

ni(t) = PLUSi(t) – MINUSi(t)

10FGAN

Lösungsvorschlag 2:

Berechnung des Nettoinputs in der Art,

in der Wahrscheinlichkeiten berechnet werden.

ni(t) = PLUSi(t) – MINUSi(t)

PLUSi(t) = 1 – Π (1 – wji · a j(t))

MINUSi(t) = 1 – Π (1 + wki · a k(t))

Schade, U. (1992).Konnektionismus.Opladen: Westdeutscher Verlag,Abschnitt 1.2.5.

Achtung: Vorzeichenwechsel !

11FGAN

Beispiel:

PLUSi(t) = 1 – Π (1 – wji · a j(t))

W1i = W2i = W3i = 0.1

a 1(t) = 0.6; a 2(t) = 0.9; a 3(t) = 0.5

PLUSi(t) = 1 – (1 – 0.06)(1 – 0.09)(1 – 0.05)

= 1 – 0.94 · 0.91 · 0.95

= 1 – 0.81263

= 0.18737

12FGAN

Generell gilt:

Klassische Modelle haben kein Modellierungsproblem

mit Sequentialisierung, wohl aber mit Parallelität.

Konnektionistische Modelle haben kein Problem

mit Parallelität, wohl aber mit Sequentialisierung.

13FGAN

Wie wird Sequentialisierung in konnektionistischen Modellen modelliert ?

1 2 3 4

Im Modell von McClelland und Rumelhart wird Sequentialisierungfaktisch vernachlässigt. Das ist möglich, weil es nur um Buchstabenerkennung und nicht um Worterkennung geht.

Diese Frage ist für alle Anwendungsbeispielezu stellen.

14FGAN

Selektion

Wann liegt das Ergebnis vor?

Wann greifen wir das Ergebnis ab?

Möglichkeit 1: „getaktet“ (= nach N Verrechnungszyklen)

Möglichkeit 2: Ermittlung per Selektionsschwelle

Das Ergebnis liegt vor, sobald der erste der fraglichen

Knoten seine Selektionsschwelle überschreitet.

15FGAN

Selektion

Wann liegt das Ergebnis vor?

Wann greifen wir das Ergebnis ab?

Möglichkeit 1: „getaktet“ (= nach N Verrechnungszyklen)

Möglichkeit 2: Ermittlung per Selektionsschwelle

Das Ergebnis liegt vor, sobald der erste der fraglichen

Knoten seine Selektionsschwelle überschreitet.

16FGAN

Selektion

Die Selektionsschwelle ist ein für jeden Knoten

individuell festgelegter Wert, der besagt, wie stark

der Knoten aktiviert sein muss, damit er als „Antwort“

selektiert werden kann.

Diskussion: Reaktionszeitversuche, z.B. zu „lexical decision“

Trick: Mit der Selektionsschwelle kann (alternativ)

Häufigkeit repräsentiert werden (statt Ruhewert).

17FGAN

2 Techniken

• Einleitung und Historischer Rückblick

• Spreading Activation

• Error-Backpropagation

• Kohonen-Netze

18FGAN

2.3 Error-Backpropagation

Konnektionistische Netze mit „Error Backpropagation“

sind Verallgemeinerungen des Perzeptrons.

Sie besitzen in aller Regel drei Schichten:• Eingabeschicht („input layer“)• Zwischenschicht („hidden layer“)• Ausgabeschicht („output layer“; zeigt das Ergebnis)

Aktivierungsausbreitung und Lernen verläuft „analog“

zum Perzeptron.

19FGAN

Verbindungen:

Jeder Knoten der Eingabeschicht ist auf jeden Knoten

der Zwischenschicht verbunden, und

jeder Knoten der Zwischenschicht ist auf jeden Knoten

der Ausgabeschicht verbunden.

20FGAN

Wiederum gilt:

Die Stärke der Verbindungen

wird ganz zu Beginn per Zufall festgesetzt.

Beim Lernen (Training)

werden Muster in der Eingabeschicht angelegt.

21FGAN

Dann wird zu dem angelegten Muster die Aktivierung

in der Zwischenschicht berechnet:

mit hi Aktivierung des Zwischenknotens i

ej Aktivierung des Eingabeknotens j

wji Stärke der Verbindung von j nach i

1hi = 1+e-Σ w

22FGAN

Dann wird dazu die Aktivierung

in der Ausgabeschicht berechnet:

mit hi Aktivierung des Zwischenknotens i

ok Aktivierung des Ausgabeknotens k

wik Stärke der Verbindung von i nach k

1ok = 1+e-Σ w

23FGAN

Die Aktivierungsfunktion ist eine sigmoide Funktion.

f(t) = 1 / (1+ e-t)

f(0) = 0.5f(+) = 1.0f(- ) = 0.0

24FGAN

Das Ergebnis ist das Muster,

das zu dem Eingabemuster assoziiert wird.

Um zu lernen, wird dann das erzielte Ergebnismuster wieder

mit dem eigentlich gewünschten Ergebnismuster verglichen.

Δok = ok gewünscht – ok tatsächlich (Fehler der Ausgabeschicht)

25FGAN

Aus dem Fehler wird eine Änderung der Leitungsstärken

von der Zwischenschicht zur Ausgabeschicht berechnet:

wik (neu) = wik (alt) + Δwik

Δwik = α · Δok · hi (α ist die Lernrate: 0 ≤ α ≤ 1)

Bis hierhin kannten wir das alles mehr oder weniger.

26FGAN

Nun müssten wir aus dem Fehler der Knoten der

Zwischenschicht die Änderung der Leitungsstärken

von der Eingabeschicht zur Zwischenschicht berechnen.

Was aber ist der Fehler der Knoten der Zwischenschicht ?

27FGAN

Eine Antwort darauf lieferten (endgültig)

Rumelhart, McClelland & the PDP Research Group (Eds.) (1986).

Parallel Distributed Processing (2 Volumes).

Cambridge, MA: MIT Press.

28FGAN

Die Antwort gaben zuvor schon• Werbos, P.J. (1974). Beyond Reasoning. Havard University: Promotionsschrift.

• Le Chun, Y. (1985). Une procédure d´apprentissage pour réseau à seuil asymétrique. Proceedings of Cognitiva 85, 599-604. Paris.

• Parker, D.B. (1985). Learning Logic. Cambridge, MA, MIT,

Center for Computational Research in Economics and Management Science.

29FGAN

Von der Antwort her hat das Verfahren den Namen „Error Backpropagation“.

Der erste Schritt der Bestimmung des Fehlers ist die Modifikation des Fehlers der Ausgabeschicht.

30FGAN

Fehler der Ausgabeschicht:

Δok = ok gewünscht – ok tatsächlich

Δok = (ok gewünscht – ok tatsächlich) · ok tatsächlich · (1 – ok tatsächlich)

Die Modifikation bewirkt, dass der „Fehler“ besonders gewichtig ist,

wenn ok tatsächlich in etwa 0.5 ist.

erzielte Ergebnismuster

gewünschtes Ergebnismuster

31FGAN

Der Fehler der Zwischenschichtknoten:

Δhi = (Σ Δok · Wik(alt)) · hi · (1 – hi)

32FGAN

Aus dem Fehler wird wie üblich die Änderung der

Leitungsstärken, in diesem Fall die von der Eingabeschicht

zur Zwischenschicht, berechnet:

wji (neu) = wji (alt) + Δwji

Δwji = α · Δhi · ej (α ist die Lernrate: 0 ≤ α ≤ 1)

33FGAN

2.3 Error-BackpropagationProgrammablauf (ein Lernzyklus)• wähle ein Trainingsmuster;• lege das Muster an den Eingabeknoten an;• berechne die Aktivierung der Zwischenknoten;• berechne die Aktivierung der Ausgabeknoten;• berechne die Fehler der Ausgabeknoten;• berechne die Änderungen der Verbindungsstärken von den

Zwischenknoten zu den Ausgabeknoten;• berechne die Fehler der Zwischenknoten;• berechne die Änderungen der Verbindungsstärken von den

Eingabeknoten zu den Zwischenknoten;

34FGAN

2.3 Error-BackpropagationProgrammablauf (gesamt):

Trainingsphase: Wähle das Trainingsset

für alle Muster aus dem Trainingsset: Lernzyklus

Abbruch ? Testphase

evtl. Verringerung der Lernrate

35FGAN

Nächste Woche:

• Beispiel• Probleme und Tricks• Behandlung von Sequenzen (Jordan-Elman-Netze)

FGAN apl. Prof. Dr. Ulrich Schade Konnektionismus 4. Sitzung (06.11.2008)

Documents

Transcript of FGAN apl. Prof. Dr. Ulrich Schade Konnektionismus 4. Sitzung (06.11.2008)

Zahlen sprechen Die gute alte DM – schade, dass es (noch) keinen 1.000.- -Schein gibt!

2019-GST - APL-CHD III ('Ill 311 gCftt

© Fraunhofer FKIE Spracherwerb apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationsverarbeitung und Ergonomie ulrich.schade@fkie.fraunhofer.de.

Beschreibung Constant Apl Contrast Variance

© Apl. Prof. Dr. Benjamin Ortmeyer Goethe-Universität FFM Homosexuelle Zeugen Jehovas Gemeinschaftsfremde Hautfarben-Rassismus.

Kraftspanntechnik - Stationary Workholding · 2017. 8. 31. · 3 Backen – Langhub ... 3-Backenfutter 3-Backenfutter APL-C 630 Z380 1 Satz Nutensteine mit Schrauben (nicht bei APL-C)

2. Herausforderndes · PDF fileEssen, 06.11.2008 Umgang mit demenziell erkrankten Menschen Herausforderndes Verhalten Intrinsischer Ursprung des Verhaltens vs. Einfluss der Umgebung

© Fraunhofer FKIE Klinische Linguistik apl. Professor Dr. Ulrich Schade Fraunhofer-Institut für Kommunikation, Informationstechnik und Ergonomie ulrich.schade@fkie.fraunhofer.de.

06.11.2008 EANCOM-AnwenderEANCOM-Anwender Version 2.0 06.11.2008 Lieferanten-Name ILN Version ORDERS DESADV INVOIC NVE REMADV INVRPT SLSRPT M & K HAUSHALTSWARENVERTRIEB 4045006000001

»Ach, wie schade, dass Mozart nicht Franzose ist man würde ... · PDF fileWolfgang Amadeus Mozart Violinkonzert D-Dur KV 211 Claude Debussy La Mer »Ach, wie schade, dass Mozart

Gesundheitsamt der Stadt Mülheim an der Ruhr Schwimmbadbedingte Erkrankungen Mülheimer Bädertag am 06.11.2008.

Sauerstoffmessung im Wasser Kläranlagen-Abfluss Karlsruhe Quelle: Quelle: Schade (2006) Herzlichen Dank für die technische Ausstattung.

apl. Doz. Dr.-Ing. habil. G. Georgi Tragwerksberechnung · apl. Doz. Dr.-Ing. habil. G. Georgi Tragwerksberechnung 1 / 19. März 2017 1 A Grundlagen 1 Spannungen 1.1 Spannungsvektor

© Apl. Prof. Dr. Benjamin Ortmeyer Goethe-Universität FFM NS-Ideologie Überblick.

Wie geht es Dir? Schade, dass wir uns schon so lange nicht mehr … · 2020-05-20 · Wie geht es Dir? Schade, dass wir uns schon so lange nicht mehr sehen konnten! Wir wissen leider

mobiles Das Kundenmagazin von Schade.

© Apl. Prof. Dr. Benjamin Ortmeyer Goethe-Universität FFM Schule, Lehrbücher, Lehrende im NS.

Coupé - SCHADE

APL A programming language Maria Heym. Proseminar "Vergleich von Programmiersprachen" 2 APL A double-decker bus. Its takes rows and columns of passengers.

Seminar Softwareagenten Sven Schade, Arnd Sahlmann WS 2001/2002