Überblick Neuronale Netze - News [D. Kriesel] · dkriesel.com InGedenkenan...

Ein kleiner Überblick über

Neuronale Netze

David Kriesel dkriesel.com

Downloadadresse:http://www.dkriesel.com/science/neural_networks

NEU ‐ Für die Coder: Skalierbares, effizientes NN‐Framework für JAVA

http://www.dkriesel.com/tech/snipe

dkriesel.com

In Gedenken anDr. Peter Kemp, Notar a.D., Bonn.

D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) iii

Vorwörtchen„Diese Arbeit ist ursprünglich im Rahmen eines Seminars der RheinischenFriedrich-Wilhelms-Universität Bonn entstanden, wurde und wird jedoch

(nachdem vorgetragen und online verfügbar gemacht unterwww.dkriesel.com am 27.05.2005) immer mehr erweitert – erstens, um mit

der Zeit einen möglichst guten Überblick über das Thema der NeuronalenNetze liefern zu können und zweitens schlicht und einfach, weil ich daran

immer mehr und besser LATEX lernen möchte. Wer weiss, vielleicht wird ausdieser Zusammenfassung ja sogar einmal ein Vorwort!“

Zusammenfassung dieser Arbeit, Ende 2005

Aus der obenstehenden Zusammenfassungist bis jetzt zwar kein Vorwort, aber im-merhin ein Vorwörtchen geworden, nach-dem sich die Erweiterung der Arbeit (da-mals auf 40 Seiten) bei mir unverhofft zumDownloadschlager entwickelt hat.

Anspruch und Intention diesesManuskripts

Der ganze Text ist großzügiger geschrie-ben und ausführlicher bebildert als früher.Die Illustrationen sind nun „nach meinemGusto“ selbst erstellt, zum Großteil direktin LATEX unter Verwendung des PaketsXYpic. Sie spiegeln das wieder, was ichmir beim Erarbeiten des Stoffs gewünschthätte, sollen also mit dem Text zusammenmöglichst eingängig und schnell verständ-lich sein, um möglichst vielen einen Ein-

stieg in das Gebiet der Neuronalen Netzezu ermöglichen.

Trotzdem kann der mathematisch und for-mal versierte Leser die Definitionen wei-testgehend ohne Fließtext lesen, der nuran dem Gebiet an sich interessierte Le-ser umgekehrt; alles wird also sowohl um-gangssprachlich wie auch formal erklärt.Ich bitte ausdrücklich um Hinweise, fallsich diese Doppelmoral einmal nicht ausrei-chend bewerkstelligt haben sollte.

Abschnitte dieser Arbeit sindweitestgehend eigenständig

Das Dokument selbst gliedert sich in meh-rere Teile, die sich wiederum in Kapitelteilen. Trotz Querverweisen untereinanderkann man die Kapitel mit nur geringemVorwissen auch für sich selbst lesen. Hier-bei gibt es größere und kleinere Kapitel:

v

dkriesel.com

Während die größeren einen etwas fundier-teren Einblick in ein Paradigma Neurona-ler Netze geben sollen (z.B. beim Stan-dardbeispiel Neuronaler Netze, dem Per-ceptron und seiner Lernverfahren), sinddie kleineren für einen kurzen Überblickgedacht – dies wird in der jeweiligen Kapi-teleinleitung auch beschrieben. In einigenExkursen möchte ich noch gerne im Zu-sammenhang interessantes, aber nicht di-rekt dem Stoff zugehöriges Wissen vermit-teln.

Auf der Suche nach kostenlosen deutschenQuellen, die inhaltlich (was die Paradig-men Neuronaler Netze angeht) vielfältig,aber trotzdem durchgehend einheitlichenStils sind, bin ich (zumindest was deutsch-sprachiges Material angeht) leider nichtwirklich fündig geworden. Das Ziel dieserArbeit (auch wenn sie es vielleicht nichtauf Anhieb erfüllen kann) ist, diese Lückenach und nach zu schließen und das Fach-gebiet auf leicht verständliche Weise zu-gänglich zu machen.

Für diejenigen, die direktwährend des Lesensprogrammieren möchten, gibtes SNIPE

SNIPE1 ist eine ausführlich dokumen-tierte JAVA-Bibliothek, welche ein schnel-les, feature-reiches und einfach benutzba-

1 Scalable and Generalized Neural Information Pro-cessing Engine, Download unter http://www.dkriesel.com/tech/snipe, Online-JavaDoc un-ter http://snipe.dkriesel.com

res Framework für Neuronale Netze imple-mentiert. Für nichtkommerzielle Einsatz-gebiete ist es kostenlos verfügbar. Es warvon mir ursprünglich für den Einsatz inHochleistungssimulationen konzipiert, indenen sehr viele, auch große Netze gleich-zeitig trainiert und ausgeführt werden. Vorkurzem habe ich mich nun entschieden,Snipe als professionelle Referenzimplemen-tierung zu dieser Arbeit online zu stel-len, die sehr viele der behandelten Aspek-te abdeckt, aber angesichts des ursprüng-lichen Design-Ziels effizienter arbeitet alsdie meisten anderen Implementierungen.Wer also direkt vieles vom Gelernten aus-probieren möchte oder aus anderen Grün-den nach dem Lernen eine schnelle undstabile Neuronale-Netze-Implementierungbraucht, ist mit Snipe sicher gut bera-ten.

Die von Snipe abgedeckten Aspekte sindallerdings nicht komplett deckungsgleichmit dem Manuskript. Manche im Manu-skript vorgestellten Arten Neuronaler Net-ze werden von Snipe nicht unterstützt,während Snipe in anderen Bereichen deut-lich mehr Fähigkeiten hat, als im Manu-skript in Form von Praxistipps beschrie-ben werden kann (ich habe aber dieErfahrung gemacht, dass die allermeis-ten Implementierungsinteressen der Lesergut abgedeckt werden). Auf der Snipe-Downloadseite gibt es in der Rubrik „Los-legen mit Snipe“ eine einfache, schrittwei-se Einführung in Snipe und seine Doku-mentation, sowie einige Beispiele.

SNIPE: Dieses Manuskript integriert Snipesehr stark. Über weite Teile des Manuskrip-tes hinweg finden sich abgesetzte, unter-

vi D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE)



http://snipe.dkriesel.com

dkriesel.com

legte Textstellen wie diese, aus denen her-vorgeht, wie der gerade beschriebene Kon-text in Snipe realisiert werden kann. WerSnipe nicht nutzen möchte, muss al-so nur diese abgesetzten Textstellenüberspringen! Die Snipe-Textstellen set-zen voraus, dass man sich vorher die „Los-legen mit Snipe“-Anleitung auf der Down-loadseite zu Gemüte geführt hat. Oftmalswerden Klassennamen verwendet; da Sni-pe nicht sehr viele Java-Pakete hat, habeich die Paketnamen der Übersichtlichkeithalber nicht den Klassennamen vorange-stellt.

Es ist einfach, diese Arbeit zudrucken

Diese Ausarbeitung ist durchgehend farbiggehalten, kann jedoch auch so, wie sie istmonochrom gedruckt werden: Die Farbensind in Abbildungen, Tabellen und Text sogewählt, dass sie neben schönem Farbde-sign auch einen hervorragenden Schwarz-Weiss-Kontrast ergeben.

Es sind viele Hilfsmittel imText integriert

In das Dokument sind verschiedene Hilfs-mittel direkt integriert, die das Lesen we-sentlich flexibler machen sollen: Wer (wieich) lieber auf Papier liest als am Bild-schirm, soll sich trotzdem einiger Featureserfreuen.

Verschiedene Kapiteltypen sind imInhalt gekennzeichnet

Direkt im Inhaltsverzeichnis sind die Ka-piteltypen gekennzeichnet. Kapitel, dieals „wichtige Grundlagen“ gekennzeichnetsind, sollte man definitiv zu Anfang lesen,denn eigentlich alle nachfolgenden Kapitelbasieren in irgendeiner Form darauf. Ande-re Kapitel basieren zusätzlich auf bestimm-ten anderen (vorherigen) Kapiteln, auchhier steht eine entsprechende Bemerkungim Inhaltsverzeichnis neben dem Kapitel-titel.

Sprechende Überschriften im Text,kürzere im Inhaltsverzeichnis

Das ganze Scriptum ist nun mit sprechen-den Überschriften durchzogen. SprechendeÜberschriften sind nicht nur einfach einTitel wie z.B. „Bestärkendes Lernen“, son-dern definieren den Kernpunkt des zugehö-rigen Abschnitts: in diesem Fall „Bestär-kendes Lernen gibt dem Netz Feedback,ob es sich gut oder schlecht verhält“. Dieletztere, lange Version dient hierbei alsÜberschrift, die im Text verwendet wird,die kürzere steht im Inhaltsverzeichnis, sodass dieses griffig bleibt.

Randbemerkungen sind eineNavigationshilfe

Über das ganze Dokument hinweg exis-tieren umgangssprachliche Randhinweise(siehe nebenstehendes Beispiel), an de-

Hypertextauf Papier:-)

nen entlang man (unter Mitbenutzung

D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) vii

dkriesel.com

der Überschriften) durch den Text „glei-ten“ und Textstellen einfach wiederfindenkann.

Neue mathematische Symbole kennzeich-ne ich zum einfachen Wiederfinden mitbesonderen Randhinweisen (nebenstehend

xI ein Beispiel für x).

Es gibt verschiedene Arten derIndizierung

Es existieren verschiedene Arten der In-dizierung: Zunächst kann man einen Be-griff, nachdem man ihn im Index gefun-den und die betreffende Seite aufgeschla-gen hat, einfach finden, indem man nachhervorgehobenem Text sucht – indizier-te Begriffe sind grundsätzlich auf dieseWeise hervorgehoben.

Kapitelübergreifende mathematische Sym-bole (wie z.B. Ω für ein Outputneuron, ichhabe mich bemüht, bei allgegenwärtig wie-derkehrenden Elementen eine konsistenteNomenklatur beizubehalten) besitzen eineeigene Indexkategorie unter „Mathemati-sche Symbole“, so dass sie einfach dementsprechenden Begriff zugeordnet werdenkönnen.

Personennamen, welche in Kapitälchengeschrieben sind, werden in der Indexkate-gorie „Personen“ indiziert und nach Nach-namen geordnet.

Nutzungsbedingungen undLizenz

Von der Epsilon-Edition an ist dasManuskript unter Creative CommonsAttribution-No Derivative Works 3.0 Un-ported License2 lizensiert, bis auf einigewenige Kleinteile, die liberaleren Lizen-zen unterstehen (im Wesentlichen ein paarBilder, die in den Wikimedia Commonssind). Hier ist eine Kurzzusammenfassungdessen, was diese Lizenz ungefähr wieder-gibt:

1. Dieses Dokument darf frei weiterver-breitet werden (auch wenn es einebessere Idee ist, einfach die URLmeiner Homepage weiterzuverbreiten,denn hier gibt es schließlich immer dieneueste Version).

2. Dieses Dokument darf nicht modifi-ziert oder als Teil eines anderen ver-wendet werden, insbesondere nicht fürkommerzielle Zwecke.

3. Dieses Dokument muss in jeglicher sei-ner Verwendungen dem Autor zuge-schrieben werden. Die Urheberschaftdes Autors darf nicht verschleiert wer-den.

4. Die o.g. Zuschreibung des Dokumen-tes zum Autor impliziert nicht, dassder Autor die Art befürwortet, aufdie ein beliebiger Leser das Dokumentnutzt.

2 http://creativecommons.org/licenses/by-nd/3.0/

viii D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE)

http://creativecommons.org/licenses/by-nd/3.0/

http://creativecommons.org/licenses/by-nd/3.0/

dkriesel.com

Da ich kein Anwalt bin, ist die obigeStichpunktzusammenfassung nur informa-tiv gemeint. Wenn sie in irgendeiner Formin Konflikt zur o.g. Creative Commons-Lizenz steht, so hat letztere in jedemFall Vorrang. Natürlich berührt die Lizenzebenfalls nicht den Source Code des Manu-skripts, der nicht veröffentlicht wird.

Wie dieser Text zitiert wird

Da dieser Text keinen offiziellen Verlaghat, muss man mit Referenzen sorgfäl-tig sein: Hierzu gibt es Informationen inDeutsch und Englisch auf meiner Homepa-ge bzw. der zum Text gehörenden Unter-seite3.

Danksagung

Ich möchte nun einige Danksagungen los-werden, da ein Skriptum wie dieses durch-aus genug Arbeit macht, um viele Hel-fer zu benötigen. Zunächst einmal möchteich mich bei den Korrektoren dieses Skrip-tums bedanken, welche mir und der Leser-schaft sehr sehr geholfen haben. Genanntseien in alphabetischer Ordnung: Wolf-gang Apolinarski, Kathrin Gräve, PaulImhoff, Thomas Kühn, Christoph Kun-ze, Malte Lohmeyer, Joachim Nock, Da-niel Plohmann, Daniel Rosenthal, Christi-an Schulz und Tobias Wilken.

Vielen Dank für Verbesserungen, Feedbackund Anmerkungen möchte ich auch den

3 http://www.dkriesel.com/science/neural_networks

Lesern Dietmar Berger, Igor Buchmüller,Marie Christ, Julia Damaschek, JochenDöll, Maximilian Ernestus, Hardy Falk,Anne Feldmeier, Sascha Fink, AndreasFriedmann, Jan Gassen, Markus Gerhards,Sebastian Hirsch, Andreas Hochrath, NicoHöft, Thomas Ihme, Boris Jentsch, TimHussein, Thilo Keller, Mario Krenn, MirkoKunze, Maikel Linke, Adam Maciak, Ben-jamin Meier, David Möller, Andreas Mül-ler, Rainer Penninger, Lena Reichel, Alex-ander Schier, Matthias Siegmund, Mathi-as Tirtasana, Oliver Tischler, MaximilianVoit, Igor Wall, AchimWeber, FrankWein-reis, Gideon Maillette de Buij Wenniger,PhilippWoock und vielen anderen ausspre-chen.

Herzlicher Dank geht an Sebastian Merz-bach, der die Epsilon2-Version des Skrip-tums auf gewissenhafteste und gründlichs-te Art und Weise auf Inkonsistenzen undFehler durchgesehen hat. Insbesondere dieenglische Version verdankt ihm zusätzlichunzählige sprachliche und ortographischeVerbesserungen.

Ebenfalls danke ich Beate Kuhl ganz be-sonders für die Übersetzung des Skriptumsvom Deutschen ins Englische und Nachfra-gen, die mich bewogen haben, einige For-mulierungen anders zu gestalten.

Ganz besonderen Dank möchte ich Prof.Rolf Eckmiller und Dr. Nils Goerke aus-sprechen, sowie der ganzen Abteilung Neu-roinformatik des Instituts für Informatikder Universität Bonn – sie sorgten da-für, dass ich immer Neues über Neurona-le Netze und Fachverwandtes lernte (undauch lernen musste). Insbesondere Herr

D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) ix

http://www.dkriesel.com/science/neural_networks

http://www.dkriesel.com/science/neural_networks

dkriesel.com

Dr. Goerke war und ist immer bereit, aufjedwede Frage einzugehen, die ich mir wäh-rend des Schreibens nicht selber beantwor-ten konnte. Gespräche mit Prof. Eckmillerwaren für mich immer bereichernd und ga-ben Anstoß für weitere Recherchen oderverleiteten mich, „von der Tafel zurückzu-treten“, um Sachverhalte von weiter wegnüchtern zu betrachten und nächste Auf-gaben auszumachen.

Ganz global und nicht nur auf das Skrip-tum bezogen geht ein weiteres Dankeschönan meine Eltern, welche nie müde werden,mir fachbezogene und damit nicht wirk-lich preiswerte Buchwünsche zu erfüllenund mir auch sonst viel Unterstützung fürmein Studium zukommen lassen.

Für viele „Bemerkungen“ und die ganz be-sonders herzliche Stimmung ;-) bedankeich mich sehr bei Andreas Huber und To-bias Treutler, mit denen es seit dem erstenSemester nur selten langweilig wurde!

Ich möchte auch noch kurz an meine Schul-zeit denken und mich bei jenen Lehrernganz herzlich danken, die mir (das ist mei-ne Überzeugung) trotz meiner vielleichtnicht immer vollherzigen Mitarbeit natur-wissenschaftlich etwas mit auf den Weggegeben haben: Herrn Wilfried Hartmann,Herrn Hubert Peters und Herrn Frank Nö-kel.

Ein Dankeschön geht auch an die Wikime-dia Commons, wo ich einige (wenige) Bild-vorlagen entnommen und auf mein Skrip-tum angepasst habe.

Weiterhin danke ich der gesamten Mann-bzw. Frauschaft des Notariates Dr. Kemp

Dr. Kolb aus Bonn, bei der ich mich immergut aufgehoben fühle und die alles tut, da-mit sich meine Druckkosten im Rahmenhalten - insbesondere seien hier erwähntChristiane Flamme und Herr Dr. Kemp!

Als letztes, und sozusagen als Ehrenplatz,möchte ich aber zwei Personen danken,die sich sehr um das Skriptum verdientmachen: Meine Freundin Verena Thomas,die, obwohl viele andere Dinge für sie zutun sind, viele mathematische und logi-sche Fehler in meinem Skriptum aufge-deckt und mit mir diskutiert hat – undChristiane Schultze, die das Skript sorgfäl-tigst auf Rechtschreibfehler und Inkonsis-tenzen durchgesehen hat.

David Kriesel

x D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE)

Inhaltsverzeichnis

Vorwörtchen v

I Von der Biologie zur Formalisierung – Motivation, Philosophie, Ge-schichte und Realisierung Neuronaler Modelle 1

1 Einleitung, Motivation und Geschichte 31.1 Warum Neuronale Netze? . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.1.1 Die 100-Schritt-Regel . . . . . . . . . . . . . . . . . . . . . . . . 61.1.2 Einfache Anwendungsbeispiele . . . . . . . . . . . . . . . . . . . 6

1.2 Geschichte Neuronaler Netze . . . . . . . . . . . . . . . . . . . . . . . . 91.2.1 Anfänge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2.2 Blütezeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.2.3 Lange Stille und langsamer Wiederaufbau . . . . . . . . . . . . . 111.2.4 Renaissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Biologische Neuronale Netze 152.1 Das Nervensystem von Wirbeltieren . . . . . . . . . . . . . . . . . . . . 15

2.1.1 Peripheres und zentrales Nervensystem . . . . . . . . . . . . . . . 162.1.2 Großhirn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.1.3 Kleinhirn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.1.4 Zwischenhirn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.1.5 Hirnstamm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2 Das Neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.1 Bestandteile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.2 Elektrochemische Vorgänge im Neuron . . . . . . . . . . . . . . . 21

2.3 Rezeptorzellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.3.1 Arten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.3.2 Informationsverarbeitung im Nervensystem . . . . . . . . . . . . 272.3.3 Lichtsinnesorgane . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.4 Neuronenmengen in Lebewesen . . . . . . . . . . . . . . . . . . . . . . . 31

xi

Inhaltsverzeichnis dkriesel.com

2.5 Technische Neuronen als Karikatur der Biologie . . . . . . . . . . . . . . 33Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3 Bausteine künstlicher Neuronaler Netze (wichtige Grundlagen) 353.1 Der Zeitbegriff bei Neuronalen Netzen . . . . . . . . . . . . . . . . . . . 353.2 Bestandteile Neuronaler Netze . . . . . . . . . . . . . . . . . . . . . . . 35

3.2.1 Verbindungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2.2 Propagierungsfunktion und Netzeingabe . . . . . . . . . . . . . . 373.2.3 Aktivierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.2.4 Schwellenwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.2.5 Aktivierungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . 383.2.6 Gängige Aktivierungsfunktionen . . . . . . . . . . . . . . . . . . 393.2.7 Ausgabefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2.8 Lernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.3 Verschiedene Netztopologien . . . . . . . . . . . . . . . . . . . . . . . . . 413.3.1 FeedForward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.3.2 Rückgekoppelte Netze . . . . . . . . . . . . . . . . . . . . . . . . 423.3.3 Vollständig verbundene Netze . . . . . . . . . . . . . . . . . . . . 45

3.4 Das Biasneuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.5 Darstellung von Neuronen . . . . . . . . . . . . . . . . . . . . . . . . . . 483.6 Aktivierungsreihenfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.6.1 Synchrone Aktivierung . . . . . . . . . . . . . . . . . . . . . . . . 493.6.2 Asynchrone Aktivierung . . . . . . . . . . . . . . . . . . . . . . . 49

3.7 Ein- und Ausgabe von Daten . . . . . . . . . . . . . . . . . . . . . . . . 51Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4 Grundlagen zu Lernprozess und Trainingsbeispielen (wichtige Grundlagen) 534.1 Paradigmen des Lernens . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.1.1 Unüberwachtes Lernen . . . . . . . . . . . . . . . . . . . . . . . . 544.1.2 Bestärkendes Lernen . . . . . . . . . . . . . . . . . . . . . . . . . 554.1.3 Überwachtes lernen . . . . . . . . . . . . . . . . . . . . . . . . . . 554.1.4 Offline oder Online lernen? . . . . . . . . . . . . . . . . . . . . . 564.1.5 Fragen im Vorhinein . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2 Trainingsmuster und Teaching Input . . . . . . . . . . . . . . . . . . . . 574.3 Umgang mit Trainingsbeispielen . . . . . . . . . . . . . . . . . . . . . . 58

4.3.1 Aufteilung der Trainingsmenge . . . . . . . . . . . . . . . . . . . 594.3.2 Reihenfolgen der Musterpräsentation . . . . . . . . . . . . . . . . 60

4.4 Lernkurve und Fehlermessung . . . . . . . . . . . . . . . . . . . . . . . . 604.4.1 Wann hört man auf zu lernen? . . . . . . . . . . . . . . . . . . . 63

xii D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE)

dkriesel.com Inhaltsverzeichnis

4.5 Gradientenbasierte Optimierungsverfahren . . . . . . . . . . . . . . . . . 634.5.1 Probleme von Gradientenverfahren . . . . . . . . . . . . . . . . . 65

4.6 Beispielproblemstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . 664.6.1 Boolesche Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 674.6.2 Die Paritätsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . 674.6.3 Das 2-Spiralen-Problem . . . . . . . . . . . . . . . . . . . . . . . 674.6.4 Das Schachbrettproblem . . . . . . . . . . . . . . . . . . . . . . . 684.6.5 Die Identitätsfunktion . . . . . . . . . . . . . . . . . . . . . . . . 684.6.6 Weitere Beispielproblemstellungen . . . . . . . . . . . . . . . . . 68

4.7 Hebbsche Lernregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.7.1 Urform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.7.2 Verallgemeinerte Form . . . . . . . . . . . . . . . . . . . . . . . . 70

Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

II Überwacht lernende Netzparadigmen 71

5 Das Perceptron, Backpropagation und seine Varianten 735.1 Das Singlelayerperceptron . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.1.1 Perceptron-Lernalgorithmus und Konvergenz-Theorem . . . . . . 775.1.2 Delta-Regel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.2 Lineare Separierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 845.3 Das Multilayerperceptron . . . . . . . . . . . . . . . . . . . . . . . . . . 865.4 Backpropagation of Error . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.4.1 Herleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 895.4.2 Reduktion von Backpropagation auf Delta-Regel . . . . . . . . . 945.4.3 Wahl der Lernrate . . . . . . . . . . . . . . . . . . . . . . . . . . 94

5.5 Resilient Backpropagation . . . . . . . . . . . . . . . . . . . . . . . . . . 955.5.1 Änderung der Gewichte . . . . . . . . . . . . . . . . . . . . . . . 975.5.2 Dynamische Lernraten-Anpassung . . . . . . . . . . . . . . . . . 975.5.3 Rprop in der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . 98

5.6 Mehr Variationen und Erweiterungen zu Backpropagation . . . . . . . . 995.6.1 Momentum-Term . . . . . . . . . . . . . . . . . . . . . . . . . . . 995.6.2 Flat Spot Elimination . . . . . . . . . . . . . . . . . . . . . . . . 1005.6.3 Second Order Backpropagation . . . . . . . . . . . . . . . . . . . 1015.6.4 Weight Decay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1015.6.5 Pruning und Optimal Brain Damage . . . . . . . . . . . . . . . . 102

5.7 Initialkonfiguration eines Multilayerperceptrons . . . . . . . . . . . . . . 1025.7.1 Anzahl der Schichten . . . . . . . . . . . . . . . . . . . . . . . . . 1035.7.2 Anzahl der Neurone . . . . . . . . . . . . . . . . . . . . . . . . . 103

D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) xiii


5.7.3 Wahl der Aktivierungsfunktion . . . . . . . . . . . . . . . . . . . 1045.7.4 Initialisierung der Gewichte . . . . . . . . . . . . . . . . . . . . . 104

5.8 Das 8-3-8-Kodierungsproblem und verwandte Probleme . . . . . . . . . 105Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6 Radiale Basisfunktionen 1096.1 Bestandteile und Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . 1096.2 Informationsverarbeitung eines RBF-Netzes . . . . . . . . . . . . . . . . 112

6.2.1 Informationsverarbeitung in den RBF-Neuronen . . . . . . . . . 1126.2.2 Analytische Gedanken im Vorfeld zum Training . . . . . . . . . . 116

6.3 Training von RBF-Netzen . . . . . . . . . . . . . . . . . . . . . . . . . . 1196.3.1 Zentren und Breiten von RBF-Neuronen . . . . . . . . . . . . . . 120

6.4 Wachsende RBF-Netze . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1236.4.1 Hinzufügen von Neuronen . . . . . . . . . . . . . . . . . . . . . . 1236.4.2 Begrenzung der Neuronenanzahl . . . . . . . . . . . . . . . . . . 1236.4.3 Entfernen von Neuronen . . . . . . . . . . . . . . . . . . . . . . . 124

6.5 Gegenüberstellung von RBF-Netzen und Multilayerperceptrons . . . . . 124Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

7 Rückgekoppelte Netze (baut auf Kap. 5 auf) 1277.1 Jordannetze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1287.2 Elmannetze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1297.3 Training rückgekoppelter Netze . . . . . . . . . . . . . . . . . . . . . . . 131

7.3.1 Unfolding in Time . . . . . . . . . . . . . . . . . . . . . . . . . . 1317.3.2 Teacher Forcing . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1327.3.3 Rekurrentes Backpropagation . . . . . . . . . . . . . . . . . . . . 1327.3.4 Training mit Evolution . . . . . . . . . . . . . . . . . . . . . . . . 132

8 Hopfieldnetze 1358.1 Inspiration durch Magnetismus . . . . . . . . . . . . . . . . . . . . . . . 1358.2 Aufbau und Funktionsweise . . . . . . . . . . . . . . . . . . . . . . . . . 136

8.2.1 Eingabe und Ausgabe eines Hopfieldnetzes . . . . . . . . . . . . 1368.2.2 Bedeutung der Gewichte . . . . . . . . . . . . . . . . . . . . . . . 1378.2.3 Zustandswechsel der Neurone . . . . . . . . . . . . . . . . . . . . 137

8.3 Erzeugen der Gewichtsmatrix . . . . . . . . . . . . . . . . . . . . . . . . 1398.4 Autoassoziation und traditionelle Anwendung . . . . . . . . . . . . . . . 1408.5 Heteroassoziation und Analogien zur neuronalen Datenspeicherung . . . 140

8.5.1 Erzeugung der Heteroassoziationsmatrix . . . . . . . . . . . . . . 1418.5.2 Stabilisierung der Heteroassoziationen . . . . . . . . . . . . . . . 1428.5.3 Biologische Motivation der Heteroassoziation . . . . . . . . . . . 142

xiv D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE)


8.6 Kontinuierliche Hopfieldnetze . . . . . . . . . . . . . . . . . . . . . . . . 143Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

9 Learning Vector Quantization 1459.1 Über Quantisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1459.2 Zielsetzung von LVQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1469.3 Benutzung von Codebookvektoren . . . . . . . . . . . . . . . . . . . . . 1479.4 Ausrichtung der Codebookvektoren . . . . . . . . . . . . . . . . . . . . . 147

9.4.1 Vorgehensweise beim Lernen . . . . . . . . . . . . . . . . . . . . 1489.5 Verbindung zu Neuronalen Netzen . . . . . . . . . . . . . . . . . . . . . 149Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

III Unüberwacht lernende Netzparadigmen 151

10 Self Organizing Feature Maps 15310.1 Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15410.2 Funktionsweise und Ausgabeinterpretation . . . . . . . . . . . . . . . . . 15510.3 Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

10.3.1 Die Topologiefunktion . . . . . . . . . . . . . . . . . . . . . . . . 15710.3.2 Monoton sinkende Lernrate und Nachbarschaft . . . . . . . . . . 159

10.4 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16010.4.1 Topologische Defekte . . . . . . . . . . . . . . . . . . . . . . . . . 162

10.5 Auflösungsdosierung und ortsabhängige Lernrate . . . . . . . . . . . . . 16510.6 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

10.6.1 Zusammenspiel mit RBF-Netzen . . . . . . . . . . . . . . . . . . 16710.7 Variationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

10.7.1 Neuronales Gas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16810.7.2 Multi-SOMs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17010.7.3 Multi-Neuronales Gas . . . . . . . . . . . . . . . . . . . . . . . . 17010.7.4 Wachsendes Neuronales Gas . . . . . . . . . . . . . . . . . . . . . 171

Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

11 Adaptive Resonance Theory 17311.1 Aufgabe und Struktur eines ART-Netzes . . . . . . . . . . . . . . . . . . 173

11.1.1 Resonanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17411.2 Lernvorgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

11.2.1 Mustereingabe und Top-Down-Lernen . . . . . . . . . . . . . . . 17511.2.2 Resonanz und Bottom-Up-Lernen . . . . . . . . . . . . . . . . . . 17511.2.3 Hinzufügen eines Ausgabeneurons . . . . . . . . . . . . . . . . . 175

D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) xv


11.3 Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

IV Exkurse, Anhänge und Register 177

A Exkurs: Clusteranalyse und Regional and Online Learnable Fields 179A.1 k-Means Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180A.2 k-Nearest Neighbouring . . . . . . . . . . . . . . . . . . . . . . . . . . . 181A.3 ε-Nearest Neighbouring . . . . . . . . . . . . . . . . . . . . . . . . . . . 181A.4 Der Silhouettenkoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . 182A.5 Regional and Online Learnable Fields . . . . . . . . . . . . . . . . . . . 184

A.5.1 Aufbau eines ROLFs . . . . . . . . . . . . . . . . . . . . . . . . . 184A.5.2 Training eines ROLFs . . . . . . . . . . . . . . . . . . . . . . . . 185A.5.3 Auswertung eines ROLFs . . . . . . . . . . . . . . . . . . . . . . 187A.5.4 Vergleich mit populären Clusteringverfahren . . . . . . . . . . . . 187A.5.5 Initialisierung von Radien, Lernraten und Multiplikator . . . . . 188A.5.6 Anwendungsbeispiele . . . . . . . . . . . . . . . . . . . . . . . . . 189

Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

B Exkurs: Neuronale Netze zur Vorhersage 191B.1 Über Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191B.2 One Step Ahead Prediction . . . . . . . . . . . . . . . . . . . . . . . . . 193B.3 Two Step Ahead Prediction . . . . . . . . . . . . . . . . . . . . . . . . . 195

B.3.1 Rekursive Two Step Ahead Prediction . . . . . . . . . . . . . . . 195B.3.2 Direkte Two Step Ahead Prediction . . . . . . . . . . . . . . . . 195

B.4 Weitere Optimierungsansätze für die Prediction . . . . . . . . . . . . . . 195B.4.1 Veränderung zeitlicher Parameter . . . . . . . . . . . . . . . . . . 195B.4.2 Heterogene Prediction . . . . . . . . . . . . . . . . . . . . . . . . 197

B.5 Bemerkungen zur Vorhersage von Aktienkursen . . . . . . . . . . . . . . 197

C Exkurs: Reinforcement Learning 201C.1 Systemaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

C.1.1 Die Gridworld . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202C.1.2 Agent und Umwelt . . . . . . . . . . . . . . . . . . . . . . . . . . 203C.1.3 Zustände, Situationen und Aktionen . . . . . . . . . . . . . . . . 204C.1.4 Reward und Return . . . . . . . . . . . . . . . . . . . . . . . . . 206C.1.5 Die Policy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

C.2 Lernvorgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208C.2.1 Strategien zur Rewardvergabe . . . . . . . . . . . . . . . . . . . . 209C.2.2 Die State-Value-Funktion . . . . . . . . . . . . . . . . . . . . . . 210

xvi D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE)


C.2.3 Montecarlo-Methodik . . . . . . . . . . . . . . . . . . . . . . . . 212C.2.4 Temporal Difference Learning . . . . . . . . . . . . . . . . . . . . 213C.2.5 Die Action-Value-Funktion . . . . . . . . . . . . . . . . . . . . . 215C.2.6 Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

C.3 Beispielanwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216C.3.1 TD-Gammon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216C.3.2 Das Auto in der Grube . . . . . . . . . . . . . . . . . . . . . . . 217C.3.3 Der Pole Balancer . . . . . . . . . . . . . . . . . . . . . . . . . . 217

C.4 Reinforcement Learning im Zusammenhang mit Neuronalen Netzen . . . 218Übungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

Literaturverzeichnis 221

Abbildungsverzeichnis 227

Index 231

D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) xvii

Teil I

Von der Biologie zur Formalisierung– Motivation, Philosophie,Geschichte und Realisierung

Neuronaler Modelle

1

Kapitel 1

Einleitung, Motivation und GeschichteWie kann man dem Computer etwas beibringen? Entweder, indem man einstarres Programm schreibt – oder, indem man ihm das Lernen ermöglicht.

Lebende Wesen haben keinen Programmierer, der ihnen ein Programm für ihreFähigkeiten schreibt, welches nur ausgeführt werden muss. Sie lernen – ohne

Vorkenntnisse durch Eindrücke von außen – selber und kommen damit zubesseren Problemlösungen als jeder heutige Computer. Kann man solches

Verhalten auch bei Maschinen wie Computern erreichen? Können wir solcheKognition von der Biologie adaptieren? Geschichte, Entwicklung, Niedergang

und Wiederauferstehung eines großen Ansatzes, Probleme zu lösen.

1.1 Warum Neuronale Netze?

Es gibt Kategorien von Problemen, wel-che sich nicht in einen Algorithmus fassenlassen – Probleme, die von einer großenMenge subtiler Faktoren abhängen, wiezum Beispiel die Bestimmung des Kauf-preises einer Immobilie, den wir mit unse-rem Gehirn (ungefähr) bestimmen können,ein Computer in Ermangelung eines Algo-rithmus aber nicht. Darum muss man sichdie Frage stellen:Wie lernen wir denn, aufsolche Fragestellungen einzugehen?

Genau – wir lernen; eine Fähigkeit, an deres Computern offensichtlich mangelt. Men-

Computernicht

lernfähigschen haben ein Gehirn mit der Fähigkeitzu lernen, Computer einige Recheneinhei-ten und Speicher. Diese ermöglichen, in

kürzester Zeit komplizierteste numerischeBerechnungen auszuführen, bieten uns je-doch keine Lernfähigkeit. Stellen wir Com-puter und Gehirn gegenüber1, so bemer-ken wir, dass der Computer theoretischleistungsfähiger sein müsste: Er besitzt 109

Transistoren mit einer Schaltzeit von 10−9

Sekunden. Das Gehirn hat zwar 1011 Neu-rone, jedoch schalten diese nur in etwa10−3 Sekunden.

Allerdings arbeitet der größte Teil des Ge-hirns durchgehend, während wiederum der

1 Diese Gegenüberstellung ist natürlich aus vielennaheliegenden Gründen bei Biologen wie Informa-tikern umstritten, da Schaltzeit und Menge nichtsüber Qualität und Leistung der Recheneinheitenaussagt und Neurone und Transistoren auch nichtdirekt vergleichbar sind. Dennoch erfüllt die Ge-genüberstellung den Zweck, den Vorteil der Paral-lelität anhand der Verarbeitungszeit aufzuzeigen.

3

Kapitel 1 Einleitung, Motivation und Geschichte dkriesel.com

Gehirn ComputerAnzahl Recheneinheiten ≈ 1011 ≈ 109

Art Recheneinheiten Neurone TransistorenArt der Berechnung massiv parallel i.d.R. seriellDatenspeicherung assoziativ adressbasiertSchaltzeit ≈ 10−3s ≈ 10−9sTheoretische Schaltvorgänge ≈ 1013 1

s ≈ 1018 1s

Tatsächliche Schaltvorgänge ≈ 1012 1s ≈ 1010 1

s

Tabelle 1.1: Der (hinkende) Vergleich zwischen Gehirn und Rechner auf einen Blick. Vorlage:[Zel94]

größte Teil des Computers nur passiv Da-ten speichert. So arbeitet das Gehirn paral-lel und damit nahe an seiner theoretischen

ParallelitätMaximalleistung, der Computer ist vondieser jedoch um Zehnerpotenzen entfernt(Tabelle 1.1). Zudem ist ein Computer insich statisch - das Gehirn als biologischesNeuronales Netz kann sich jedoch währendseiner „Laufzeit“ umstrukturieren und solernen, Fehler kompensieren und mehr.

Innerhalb dieser Arbeit möchte ich skiz-zieren, wie man sich solche Eigenschaftendes Gehirns auch am Computer zunutzemacht.

Das Studium der Künstlichen NeuronalenNetze ist also motiviert durch die Ähn-lichkeit zu erfolgreich arbeitenden biologi-schen Systemen, welche im Vergleich zumGesamtsystem aus sehr einfachen, aber da-

Einfache,aber vieleRechen-einheiten

für vielen und massiv parallel arbeitendenNervenzellen bestehen und (das ist wohleiner der bedeutendsten Aspekte) Lern-fähigkeit besitzen. Ein Neuronales Netzmuss nicht explizit für seine Aufgabenprogrammiert werden, es kann beispiels-

weise aus Trainingsbeispielen lernen oderN. Netzlernfähigauch durch Bestärkung, sozusagen durch

Zuckerbrot und Peitsche (ReinforcementLearning).

Ein aus dem Lernvorgang resultierenderAspekt ist die Generalisierungs- bzw.Assoziationsfähigkeit Neuronaler Net-ze: Nach erfolgreichem Training kann einNeuronales Netz ähnliche Probleme dersel-ben Klasse, die nicht explizit trainiert wur-den, plausiblen Lösungen zuführen. Dar-aus resultiert dann wieder eine große Feh-lertoleranz gegenüber verrauschten Ein-gabedaten.

Fehlertoleranz steht wieder in enger Be-ziehung zu biologischen Neuronalen Net-zen, bei denen diese Eigenschaft sehr aus-geprägt ist: Wie schon bemerkt, hat einMensch ca. 1011 Neurone, die sich aberkontinuierlich umstrukturieren oder durchEinflüsse von außen umstrukturiert wer-den (bei einem Vollrausch verliert einMensch ca. 105 Neurone, auch bestimm-te Arten Nahrungsmittel oder Umweltein-flüsse zerstören Gehirnzellen) – trotzdem

4 D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE)

dkriesel.com 1.1 Warum Neuronale Netze?

wird unsere Kognitionsfähigkeit nicht we-sentlich beeinträchtigt. Das Gehirn ist also

N. Netzfehlerto-

leranttolerant gegenüber inneren Fehlern – undauch gegenüber Fehlern von außen, dennso manche „Sauklaue“ können wir immernoch lesen, obwohl einzelne Buchstabenvielleicht gar nicht wirklich auszumachensind.

Unsere moderne Technologie hingegen istnoch nicht automatisch fehlertolerant –mir ist noch kein Computer bekannt,in dem jemand vergessen hat, den Fest-plattencontroller einzubauen, weshalb dieGrafikkarte automatisch dessen Job über-nimmt, Leiterbahnen ausbaut und Kom-munikation entwickelt, so dass der fehlen-de Baustein das Gesamtsystem nur wenigbeeinträchtigt, aber auf keinen Fall völliglahmlegt.

Nachteil dieser verteilten, fehlertolerantenSpeicherung ist natürlich, dass wir einemNeuronalen Netz nicht ohne weiteres anse-hen können, was es weiß, kann oder wo sei-ne Fehler liegen – Analysen dieser Art sindbei herkömmlichen Algorithmen in der Re-gel wesentlich leichter. Auch bekommenwir das Wissen in unser Neuronales Netzmeistens nur durch einen Lernvorgang, beidem verschiedene Fehler passieren könnenund der nicht immer einfach zu handhabenist.

Fehlertoleranz von Daten ist bei der ak-tuellen Technologie schon wesentlich aus-gereifter: Vergleichen wir eine Schallplat-te mit einer CD. Ist auf der Schallplatteein Kratzer, so ist die Toninformation ander Stelle des Kratzers für einen winzigenMoment komplett verloren (man hört ein

Knacken), danach geht die Musik weiter.Bei einer CD sind die Audiodaten verteiltgespeichert: Ein Kratzer sorgt für einenunschärferen Ton in seiner näheren Umge-bung, der Datenstrom an sich bleibt aberweitestgehend unbeeinträchtigt – mit derFolge, dass der Hörer ihn nicht bemerkt.

Wir halten also die herausragenden Merk-male fest, die wir aus der Biologie zu ad-aptieren versuchen:

. Selbstorganisation bzw. Lernfähig-keit,

. Generalisierungsfähigkeit und

. Fehlertoleranz.

Welche Arten von Neuronalen Netzen wel-che Fähigkeiten besonders stark ausbilden,welche für was für Problemklassen nutzbarsind, werden wir im Verlauf dieser Arbeitnoch herausfinden.

Direkt im Einleitungskapitel dieser Arbeitsei gesagt: „Das Neuronale Netz“ gibt es Wichtig!so nicht. Es gibt viele verschiedene Para-digmen, was Neuronale Netze sind, wie sietrainiert und wo sie eingesetzt werden –und mein Ziel ist es, einige dieser Paradig-men anschaulich vorzustellen und mit Be-merkungen für die praktische Anwendungzu versehen.

Oben haben wir bereits erwähnt, dass dieArbeit z.B. unseres Gehirns im Gegensatzzur Arbeit eines Computers massiv paral-lel stattfindet, also jeder Baustein zu jederZeit aktiv ist. Möchte man nun ein Argu-ment für den Nutzen massiver Parallelver-arbeitung anführen, so wird oft die 100-Schritt-Regel genannt.

D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 5


1.1.1 Die 100-Schritt-Regel

Durch Experimente hat man festgestellt,dass ein Mensch ein Bild eines bekanntenGegenstandes bzw. einer bekannten Per-son in ≈ 0.1 Sekunden erkennen kann, alsobei einer Neuronenschaltzeit von ≈ 10−3

Sekunden in ≈ 100 diskreten ZeitschrittenParallele

Verarbeitung paralleler Verarbeitung.

Ein der Von-Neumann-Architektur folgen-der Rechner hingegen kann in 100 Zeit-schritten sequentieller Verarbeitung, alsobeispielsweise 100 Assemblerschritten oderTaktschritten, so gut wie nichts tun.

Nun wollen wir ein einfaches Anwendungs-beispiel betrachten, bei dem ein Neurona-les Netz zum Einsatz kommen könnte.

1.1.2 Einfache Anwendungsbeispiele

Angenommen, wir besitzen einen kleinenRoboter wie in Abb. 1.1. Dieser Robo-ter besitzt acht Abstandssensoren, aus de-nen er Eingabedaten gewinnt: Drei Senso-ren vorne rechts, weitere drei vorne links,und zwei hinten. Jeder dieser Sensoren lie-fert uns zu jeder Zeit einen reellen Zahlen-wert, wir erhalten also immer einen InputI ∈ R8.

In unserem einfachen Beispiel kann der Ro-boter trotz seiner zwei Motoren (die brau-chen wir später) noch nicht viel: Er solleinfach immer fahren, aber anhalten, wenner Gefahr läuft an ein Hindernis zu stoßen.Unser Output ist also binär: H = 0 für„Alles okay, fahr weiter“ und H = 1 für„Halte an“ (Wir nennen den Output H für

Abbildung 1.1: Ein kleiner Roboter mit achtSensoren und zwei Motoren. Der Pfeil zeigt dieFahrtrichtung an.

„Haltesignal“). Wir benötigen also eine Ab-bildung

f : R8 → B1,

welche die Inputsignale einer Robotertätig-keit zuführt.

1.1.2.1 Der klassische Weg

Es gibt nun zwei Wege, diese Abbildungzu realisieren. Zum einen gibt es den klas-sischen Weg: Wir setzen uns eine Weile hinund denken nach, so dass wir am Ende eineSchaltung oder ein kleines Computerpro-gramm erhalten, dass die Abbildung reali-siert (bei der Einfachheit des Beispieles istdas natürlich ohne weiteres möglich). An-schließend nehmen wir die technischen Re-


dkriesel.com 1.1 Warum Neuronale Netze?

ferenzen der Sensoren zur Hand, studierendie Kennlinie der Sensoren, um zu wissen,was für Werte bei welchen Hindernisent-fernungen ausgegeben werden, und bindendie Werte in unser oben gebautes Regel-werk ein. Solche Verfahren finden in derklassischen Künstlichen Intelligenz Anwen-dung, und falls man die Regeln für eineAbbildung exakt kennt, ist man auch gutberaten, diesem Schema zu folgen.

1.1.2.2 Der Weg des Lernens

Für uns hier interessanter und für vieleAbbildungen und Probleme, welche nichtauf Anhieb erfassbar sind, auch erfolgrei-cher ist aber der Weg des Lernens: Wirzeigen dem Roboter verschiedene Situatio-nen (Abb. 1.2 auf der folgenden Seite), indenen er sich beispielsweise befinden kann– und er soll selbst lernen, was in seinemRoboterleben zu tun ist.

In diesem Beispiel soll er einfach lernen,wann anzuhalten ist. Wir stellen uns hier-zu erst einmal das Neuronale Netz als eineArt Black Box (Abb. 1.3) vor, kennenalso nicht seinen Aufbau, sondern betrach-ten es rein in seinem Verhalten nach au-ßen.

Die Situationen in Form von einfach ge-messenen Sensorwerten (wir stellen denRoboter z.B. einfach vor ein Hindernis, sie-he Abbildung), die wir dem Roboter zei-gen und für die wir ihm vorgeben, ob wei-terzufahren oder zu halten ist, nennen wirTrainingsbeispiele – ein Trainingsbeispiel

Abbildung 1.3: Wir betrachten die Roboter-steuerung zunächst als Black Box, deren Innen-leben uns unbekannt ist. Die Black Box nimmteinfach acht reelle Sensorwerte entgegen und bil-det diese auf einen binären Ausgabewert ab.

besteht also aus einem beispielhaften In-put und einem dazugehörigen gewünsch-ten Output. Die Frage ist nun, wie wir die-ses Wissen, die Information, in das Neuro-nale Netz transportieren.

Die Beispiele lassen sich durch ein ein-faches Lernverfahren einem NeuronalenNetz beibringen (ein Lernverfahren ist eineinfacher Algorithmus bzw. eine mathema-tische Formel). Hier wird das NeuronaleNetz, wenn wir alles richtig gemacht undgute Beispiele gewählt haben, aus den Bei-spielen generalisieren und so eine allge-meingültige Vorschrift finden, wann anzu-halten ist.

Unser Beispiel ist beliebig erweiterbar –die Motoren unseres Roboters könntenauch zwecks Richtungssteuerung separat



Abbildung 1.2: Der Roboter wird in eine Landschaft platziert, die ihm Sensorwerte für verschiedeneSituationen liefert. Die gewünschten AusgabewerteH geben wir selbst hinzu, und erhalten so unsereLernbeispiele. Bei zwei Robotern sind exemplarisch die Richtungen aufgetragen, in die die Sensorenweisen.

steuerbar sein2, bei ansonsten gleichemSensorlayout. In diesem Fall suchen wir ei-ne Abbildung

f : R8 → R2,

welche die beiden Motoren anhand derSensorinputs stufenlos steuert und so denRoboter z.B. nicht nur anhalten, sondernauch Hindernissen ausweichen lassen kann– hier ist es schon schwieriger, aus demKopf Regeln abzuleiten, und de facto einNeuronales Netz angebrachter.2 Es gibt einen Roboter namens Khepera, der in et-wa diese Eigenschaften besitzt. Er ist rund, hat ca.7cm Durchmesser, besitzt zwei Motoren mit Rä-dern und verschiedene Sensoren. Zur Veranschau-lichung kann ich nur empfehlen, einmal im Internetdanach zu recherchieren.

Ziel ist es also nicht etwa, die Beispiele aus-wendig zu lernen – sondern das Prinzipdahinter zu realisieren: Der Roboter solldas Neuronale Netz im Idealfall in beliebi-gen Situationen anwenden und Hindernis-sen ausweichen können. Insbesondere sollder Roboter das Netz während des Fah-rens kontinuierlich bzw. oft direkt hinter-einander befragen können, um kontinuier-lich Hindernissen auszuweichen. Dies er-gibt einen ständigen Kreislauf: Der Robo-ter befragt das Netz. Er fährt dadurch ineine Richtung, wodurch sich seine Sensor-werte verändern. Er befragt wieder dasNetz und verändert abermals seine Positi-on, die Sensorwerte verändern sich erneut,und so weiter. Dass sich dieses System


dkriesel.com 1.2 Geschichte Neuronaler Netze

auch auf dynamische, das heißt sich selbstverändernde Umwelten (z.B. bewegte Hin-dernisse in unserem Beispiel) adaptierenlässt, ist ersichtlich.

1.2 Zur GeschichteNeuronaler Netze

Wie jedes Naturwissenschaftliche Gebiethat auch die Lehre der Neuronalen Net-ze eine Entwicklungsgeschichte hintersich, welche, wie wir gleich sehen werden,Höhen und Tiefen aufweist. Dem Stil mei-ner Arbeit treu bleibend stelle ich dieseGeschichte nicht als Text, sondern kom-pakter als Zeitleiste dar. Zitat- und Lite-raturangaben werde ich hier im Wesentli-chen bei Punkten niederschreiben, welcheim weiteren Skriptum nicht mehr bearbei-tet werden. Zu Stichworten, die wir späternoch genauer ergründen, werden die Zita-tangaben in den entsprechenden Kapitelngeliefert.

Die Geschichte nimmt ihren Anfang inden frühen 1940er Jahren und damit fastzeitgleich mit der Geschichte der program-mierbaren elektronischen Computer. Wieauch bei der Informatik an sich erkenntman die Jugend des Gebiets daran, dassviele der erwähnten Personen auch heutenoch unter uns weilen.

1.2.1 Anfänge

Bereits 1943 beschreiben Warren Mc-Culloch und Walter Pitts eine

Art neurologischer Netzwerke, bau-en Schwellwertschalter durch Neuro-ne nach und zeigen, dass selbst ein-fache Netze dieser Art praktisch je-de logische oder auch arithmetischeFunktion berechnen können [MP43].Weiter entstehen erste Computervor-läufer („Elektronengehirne“), u.a.unterstützt von Konrad Zuse, deres leid war, ballistische Bahnen perHand zu berechnen.

1947 nennen Walter Pitts und War-ren McCulloch ein praktisches An-wendungsgebiet (in ihrer Arbeit von1943 wurde noch kein solches ge-nannt), nämlich die Erkennung räum-licher Muster durch Neuronale Net-ze [PM47].

1949: Donald O. Hebb formu-liert die klassische Hebb’scheLernregel [Heb49], welche in ihrer all-gemeineren Form die Basis fast allerneuronalen Lernverfahren darstellt.Sie besagt, dass die Verbindungzwischen zwei Neuronen verstärktwird, wenn beide Neurone gleichzeitigaktiv sind – die Verstärkung istalso proportional zum Produktbeider Aktivitäten. Hebb konntediese Regel zwar postulieren, jedochin Ermangelung neurologischerForschung nicht verifizieren.

1950 vertritt Neuropsychologe KarlLashley die These, dass die Informa-tionsspeicherung im Gehirn verteiltrealisiert wird. Begründet wird seine

NeuronaleTechnikenwerden ent-wickelt

These an Versuchen mit Ratten, beidenen nur der Umfang und nicht



Abbildung 1.4: Einige Urgesteine des Fachbereichs der Neuronalen Netze. Von links nach rechts:John von Neumann, Donald O. Hebb, Marvin Minsky, Bernard Widrow, Seymour Papert, TeuvoKohonen, John Hopfield, alle weitestgehend „in order of appearance“.

der Ort zerstörten Nervengewebesihre Leistung beeinflusst, aus einemLabyrinth zu finden.

1.2.2 Blütezeit

1951 entwickelt Marvin Minsky für sei-ne Dissertation den NeurocomputerSnark, der seine Gewichte3 bereitsautomatisch justieren kann, aber niepraktisch eingesetzt wird – da er zwarfleißig rechnet, jedoch niemand so ge-nau weiss, was.

1956 treffen sich auf dem DartmouthSummer Research Project renom-mierte Wissenschaftler und aufstre-bende Studierende und diskutieren,salopp gesagt, wie man ein Gehirnnachbilden kann – Unterschiede zwi-schen Top-Down- und Bottom-Up-Forschung bilden sich heraus. Wäh-rend die frühen Anhänger der Artifi-cial Intelligence Fähigkeiten durchSoftware nachbilden möchten, habendie Anhänger der Neuronalen Netze

3 Wir werden bald erfahren, was Gewichte sind.

im Sinn, Systemverhalten durch Nach-bildung kleinster Systemteile, derNeurone, zu erreichen.

1957 - 1958 entwickeln Frank Rosen-blatt, Charles Wightman undihre Mitarbeiter am MIT den ers-ten erfolgreichen Neurocomputer, dasMark I Perceptron, welches mit

Entwicklungbeschleunigtsich

einem 20 × 20 Pixel großen Bildsen-sor einfache Ziffern erkennen kannund 512 motorbetriebene Potentiome-ter besitzt - pro variablem Gewichteins.

1959 beschreibt Frank Rosenblattverschiedene Varianten des Percep-trons, formuliert und beweist seinPerceptron-Konvergenz-Theorem. Erbeschreibt an der Retina orientierteNeuronenschichten, Schwellwertschal-ter und eine Lernregel, welche die Ver-bindungsgewichte justiert.

1960 stellen Bernard Widrow undMarcian E. Hoff das ADALINE(ADAptive LInear NEuron) vor[WH60], ein schnell und genau lernen-des adaptives System, das wohl das



erste verbreitet kommerziell eingesetz-te Neuronale Netz darstellte: Es warpraktisch in jedem Analogtelefon zurEchtzeit-Echofilterung zu finden undlernte mit der Widrow-Hoff-Lernregel

Ersteverbreitete

Verwendungbzw. Deltaregel. Hoff, ein Mitbe-gründer von Intel, war zu diesemZeitpunkt Doktorand von Widrow,der seinerseits einer der Erfinderder modernen Mikroprozessoren war.Einer der Fortschritte der Delta-Regel gegenüber dem ursprünglichenPerceptron-Lernalgorithmus war ihreAdaptivität: War man weit von derrichtigen Lösung entfernt, so verän-derten sich auch die Verbindungsge-wichte in größeren Schritten, die inder Nähe des Ziels kleiner werden –Nachteil: bei falscher Anwendung er-hält man unendlich kleine Schrittwei-ten zum Ziel in der Nähe desselben.Während der späteren Flaute und ausAngst vor der wissenschaftlichen Un-beliebtheit der Neuronalen Netze wur-de das ADALINE zwischenzeitlich inAdaptive Linear Element umbe-nannt – was später wieder rückgängiggemacht wurde.

1961 stellt Karl Steinbuch Technikenassoziativer Speicherung vor, die alsVorgänger heutiger neuronaler Asso-ziativspeicher gesehen werden [Ste61].Er beschreibt weiterhin Konzepte fürneuronale Techniken und analysiertihre Möglichkeiten und Grenzen.

1965 gibt Nils Nilsson in seinem BuchLearning Machines einen Überblicküber die Fortschritte und Arbei-ten dieser Periode der Erforschung

Neuronaler Netze. Allgemein nimmtman an, die grundlegenden Prinzipi-en selbstlernender und damit land-läufig gesprochen „intelligenter“ Sys-teme bereits entdeckt zu haben, wasaus heutiger Sicht eine maßlose Über-schätzung darstellt, aber damals fürhohe Popularität und genügend For-schungsmittel sorgte.

1969 veröffentlichen Marvin Minskyund Seymour Papert eine genauemathematische Analyse des Percep-trons [MP69] um zu zeigen, dass dasPerceptronmodell viele wichtige Pro-bleme gar nicht repräsentieren kann(Stichwörter: XOR-Problem und li-neare Separierbarkeit), und setzen soder Überschätzung, der Popularitätund den Forschungsmitteln ein jähesEnde. Die weitergehende Folgerung,

Forschungs-mittel werdengestrichen

dass auch mächtigere Modelle die ex-akt gleichen Probleme aufweisen, ver-bunden mit der Prognose, dass dasganze Gebiet ein research dead-endsei, bewirken einen fast komplettenRückgang der Forschungsgelder fürdie nächsten 15 Jahre, so unzutref-fend diese Prognosen aus heutigerSicht auch waren.

1.2.3 Lange Stille und langsamerWiederaufbau

Wie oben bereits gesagt – Forschungs-gelder wurden extrem knapp. So wurdezwar überall ein wenig weiter geforscht, esgab aber keine Kongresse und sonstigen



Veranstaltungen und demzufolge auch we-nig Veröffentlichungen. Diese Isolation dereinzelnen Forschenden sorgte für die vie-len Paradigmen Neuronaler Netze, welchevoneinander isoliert entstanden sind: Manforschte, redete aber nicht miteinander.

Trotz der geringen Anerkennung des Ge-biets wurden in dieser Zeit die theoreti-schen Grundlagen für die noch andauerndeRenaissance gelegt:

1972 stellt Teuvo Kohonen ein Modelldes linearen Assoziators, eines As-soziativspeichermodells vor [Koh72],es wird im gleichen Jahr davon un-abhängig von James A. Andersonaus neurophysiologischer Sicht präsen-tiert [And72].

1973 verwendet Christoph von derMalsburg ein Neuronenmodell, wasnichtlinear und biologisch besser mo-tiviert ist [vdM73].

1974 entwickelt Paul Werbos für sei-ne Dissertation in Harvard das Back-propagation of Error-Lernverfahren[Wer74], das aber erst ein Jahrzehntspäter seine heutige Bedeutung er-langt.

Backpropentwickelt 1976 – 1980 und danach werden von

Stephen Grossberg viele Arbeiten(z.B. [Gro76]) vorgestellt, in denen ei-ne Vielzahl von neuronalen Modellenmathematisch genau analysiert wird.Er widmet sich weiterhin ausführlichdem Problem, ein Neuronales Netzlernfähig zu halten, ohne bereitserlernte Assoziationen wieder zuzerstören – hieraus entstanden unter

Mitarbeit von Gail Carpenter dieModelle der Adaptive ResonanceTheory, kurz ART.

1982 beschreibt Teuvo Kohonen dienach ihm benannten selbstorgani-sierenden Karten (self organizingfeature maps, SOM) [Koh82, Koh98]auf der Suche nach den Mechanismender Selbstorganisation des Gehirns (erwusste, dass die Informationen überden Aufbau von Wesen im Genomgespeichert sind, das aber ganz we-sentlich zu wenig Speicherplatz für ei-ne Struktur wie das Gehirn besitzt– folglich muss sich das Gehirn zumGroßteil selbst organisieren und auf-bauen).

Weiterhin beschreibt John Hop-field die nach ihm benannten Hop-fieldnetze [Hop82], welche durch dieGesetze des Magnetismus in der Phy-sik inspiriert sind. Sie erfuhren wenigtechnische Anwendungen, aber dasGebiet der Neuronalen Netze kamlangsam wieder ins Rollen.

1983 wird von Fukushima, Miyake undIto das neuronale Modell Neocogni-tron zur Erkennung handgeschriebe-ner Zeichen vorgestellt [FMI83], wel-ches eine Erweiterung des schon 1975entwickelten Cognitrons darstellt.

1.2.4 Renaissance

Durch den Einfluss u.a. John Hopfields,der viele Forscher persönlich von der Wich-tigkeit des Gebiets überzeugte, und die



weite Publikation von Backpropagationdurch Rumelhart, Hinton und Wil-liams machte sich im Gebiet der Neuro-nalen Netze langsam wieder Aufschwungs-stimmung breit.

1985 veröffentlicht John Hopfieldeinen Artikel, der Wege beschreibt,akzeptable Lösungen für dasTravelling Salesman Problem durchHopfieldnetze zu finden.

Wieder-aufleben

1986 wird das Lernverfahren Backpropa-gation of Error als Verallgemeine-rung der Delta-Regel durch die Paral-lel Distributed Processing-Gruppe se-parat entwickelt und weit publiziert[RHW86a]: Nicht linear separierbareProbleme wurden durch mehrschich-tige Perceptrons lösbar, Marvin Mins-kys Negativabschätzungen waren miteinem Schlag widerlegt. Weiterhinmachte sich zeitgleich in der Artifici-al Intelligence eine gewisse Ermüdungbreit, verursacht durch eine Reihe vonFehlschlägen und untertroffenen Hoff-nungen.

Ab dieser Zeit findet eine geradezu explo-sive Entwicklung des Forschungsgebie-tes statt, die zwar nicht mehr stich-punktfähig ist, aber von der wir einigeResultate noch wiedersehen werden.

Übungsaufgaben

Aufgabe 1. Suchen Sie für jeden der fol-genden Punkte mindestens ein Beispiel:

. Ein Buch über Neuronale Netze oderNeuroinformatik,

. eine Arbeitsgruppe an einer Universi-tät, die mit Neuronalen Netzen arbei-tet,

. ein Software-Tool, welches NeuronaleNetze realisiert („Simulator“),

. eine Firma, die Neuronale Netze ein-setzt, und

. ein Produkt oder eine Dienstleistung,die mit Neuronalen Netzen realisiertwurde.

Aufgabe 2. Nennen Sie mindestens vierAnwendungen von technischen Neurona-len Netzen, jeweils zwei aus den Berei-chen Mustererkennung und Funktionsap-proximation.

Aufgabe 3. Charakterisieren Sie kurz dievier Phasen der Entwicklung NeuronalerNetze und geben Sie aussagekräftige Bei-spiele für jede Phase an.


Kapitel 2

Biologische Neuronale NetzeWie lösen biologische Systeme Probleme? Wie funktioniert ein System von

Neuronen? Wie kann man dessen Funktionalität erfassen? Wozu sindverschieden große Mengen von Neuronen imstande? Wo im Nervensystem

findet Informationsverarbeitung statt? Ein kleiner biologischer Überblick überdie große Komplexität einfacher Bausteine Neuronaler

Informationsverarbeitung. Zusätzlich die Überleitung zu deren Vereinfachung,um sie technisch adaptieren zu können.

Bevor wir anfangen, Neuronale Netze auftechnischer Seite zu beschreiben, ist einkleiner Exkurs in die Biologie der Neuro-nalen Netze und der Kognition von Lebe-wesen sinnvoll – der Leser kann das fol-gende Kapitel gerne überspringen, ohne et-was Technisches zu verpassen. Ich möch-te es aber jedem empfehlen, der ein we-nig über die zugrundeliegende Neurophy-siologie wissen und sehen möchte, was füreine Karikatur der Natur unsere kleinenAnsätze, die Technischen Neuronalen Net-ze sind – und wie mächtig die natürlichenPendants sein müssen, wenn wir mit unse-ren kleinen Ansätzen schon so weit kom-men. Wir wollen nun kurz das Nervensys-tem von Wirbeltieren betrachten: Wir wer-den mit sehr grober Granularität beginnenund uns bis ins Gehirn und dann auf dieEbene der Neurone vorarbeiten. Über dasganze Kapitel hinweg haben mir die bei-

den Bücher [CR00, KSJ00] sehr geholfen,die ich als weiterführende Literatur ange-ben möchte.

2.1 Das Nervensystem vonWirbeltieren

Das komplette informationsverarbeitendeSystem, dasNervensystem eines Wirbel-tiers, besteht, um erst einmal eine einfacheUnterteilung vorzunehmen, aus dem Zen-tralnervensystem und dem peripheren Ner-vensystem. In der Realität ist eine ganzso starre Unterteilung nicht sinnvoll, aberhier hilft sie uns bei der Skizzierung derInformationsverarbeitung im Körper.

15

Kapitel 2 Biologische Neuronale Netze dkriesel.com

2.1.1 Peripheres und zentralesNervensystem

Das periphere Nervensystem (PNS)besteht aus den Nerven, die außerhalb desGehirns bzw. Rückenmarks gelegen sind.Diese Nerven bilden ein verzweigtes undsehr dichtes Netz durch den ganzen Kör-per. Zum peripheren Nervensystem gehö-ren beispielsweise die Spinalnerven, wel-che vom Rückenmark ausgehen (in Höheeines jeden Wirbels zwei) und Extremitä-ten, Hals und Rumpf versorgen, aber auchdie direkt zum Gehirn führenden Hirnner-ven.

Das zentrale Nervensystem (ZNS)hingegen stellt quasi den „Zentralcompu-ter“ im Wirbeltier dar. Hier werden Infor-mationen gespeichert und verwaltet, diedurch Sinnesorgane von außen aufgenom-men werden. Weiter steuert und reguliertes die inneren Vorgänge, und koordiniertnicht zuletzt sämtliche motorischen Leis-tungen des Organismus. Das zentrale Ner-vensystem der Wirbeltiere setzt sich zu-sammen aus dem eigentlichen Gehirnund dem Rückenmark (Abb. 2.1). Wirwollen aber besonderes Augenmerk auf dasGehirn legen. Das Gehirn unterteilt manvereinfachend in vier Bereiche (Abb. 2.2auf der rechten Seite), die hier kurz ge-nannt werden sollen.

2.1.2 Das Großhirn ist für abstrakteDenkaufgaben zuständig

Das Großhirn (Telencephalon) ist derBereich des Gehirns, der sich im Laufe Abbildung 2.1: Skizze des zentralen Nervensys-

tems mit Rückenmark und Gehirn.


dkriesel.com 2.1 Das Nervensystem von Wirbeltieren

Abbildung 2.2: Skizze des Gehirns. EingefärbteBereiche des Gehirns werden im Text behandelt.Je weiter wir von der abstrakten Informations-verarbeitung in Richtung der direkten reflexhaf-ten gehen, desto dunkler sind die Gehirnbereicheeingefärbt.

der Evolution mit am meisten veränderthat. Er ist entlang einer Achse, welche denKopf von Gesichtsseite bis Hinterkopf zen-tral durchläuft, in zwei Hemisphären ge-teilt, welche eine in sich gefaltete Struk-tur aufweisen. Diese Teile sind über einengroßen Nervenstrang („Balken“)und meh-rere kleine miteinander verbunden. EineVielzahl von Neuronen liegt in der ca. 2-4cm dickenGroßhirnrinde (Cortex), diein verschiedene Rindenfelder einzuteilenist, von denen jedes eine eigene Aufgabehat. Primäre Rindenfelder sind hierfür die Verarbeitung qualitativer Informa-tion zuständig, wie beispielsweise das Ver-walten von verschiedenen Wahrnehmun-gen (z.B. die Verwaltung des Sehsinnes istAufgabe des visuellen Cortexes).Asso-ziationsfelder hingegen absolvieren hö-

here, abstraktere Assoziations- und Denk-vorgänge; in Ihnen ist auch unser Gedächt-nis untergebracht.

2.1.3 Das Kleinhirn steuert undkoordiniert die Motorik

Das Kleinhirn (Cerebellum) ist unter-halb des Großhirns gelegen, also näheram Rückenmark. Entsprechend dient esweniger abstrakten Funktionen mit höhe-rer Priorität: Hier werden große Teile dermotorischen Koordination absolviert, al-so Gleichgewicht und Bewegungen gesteu-ert und laufend fehlerkorrigiert. Zu diesemZweck besitzt das Kleinhirn direkte senso-rische Informationen über die Muskellän-gen sowie akustische und visuelle Informa-tionen. Weiter erhält es auch Meldungenüber abstraktere motorische Signale, dievom Großhirn ausgehen.

Beim Menschen ist das Kleinhirn deut-lich kleiner als das Großhirn, dies ist abereher eine Ausnahme: Bei vielen Wirbel-tieren ist dieses Verhältnis nicht so starkausgeprägt. Betrachtet man die Evolutionder Wirbeltiere, so ist nicht das Kleinhirn„zu klein“ sondern das Großhirn „zu groß“geraten (immerhin ist es die am höchs-ten entwickelte Struktur des Wirbeltierge-hirns). Die beiden restlichen Gehirnteileseien ebenfalls noch kurz betrachtet: DasZwischenhirn und der Hirnstamm.



2.1.4 Das Zwischenhirn steuertgrundlegende Körpervorgänge

Das Zwischenhirn (Diencephalon) um-fasst wieder einige Teile, von denen nur derThalamus einer kurzen Betrachtung un-

Thalamusfiltert

eingehendeDaten

terzogen werden soll: Dieser Teil des Zwi-schenhirns ist das Medium zwischen sen-sorischen und motorischen Signalen undGroßhirn: Insbesondere wird im Thala-mus entschieden, welcher Teil der Infor-mation an das Großhirn weitergeleitetwird, so dass gerade weniger wichtige Sin-neswahrnehmungen kurzfristig ausgeblen-det werden können, um Überlastungenzu vermeiden. Als weiterer Teil des Zwi-schenhirns steuert der Hypothalamus ei-ne Vielzahl körperinterner Vorgänge. DasZwischenhirn ist auch maßgeblich betei-ligt am Schlaf-Wach-Rhythmus des Men-schen („innere Uhr“) und der Schmerzemp-findung.

2.1.5 Der Hirnstamm verbindetHirn und Rückenmark undsteuert Reflexe

Verglichen mit dem Zwischenhirn istder Hirnstamm bzw. das Stammhirn(Truncus cerebri) stammesgeschichtlichdeutlich älter: Es markiert, grob gespro-chen, das „verlängerte Rückenmark“ unddamit die Überleitung vom Gehirn zumRückenmark. Auch der Hirnstamm kannwieder in verschiedene Teile unterteilt wer-den, von denen einige exemplarisch vorge-stellt werden sollen. Die Funktionen gehenweiter vom Abstrakten in Richtung desGrundlegenden. Ein wichtiger Bestandteil

ist die Pons (=Brücke), eine Art Durch-gangsstation für sehr viele Nervensigna-le vom Gehirn an den Körper und umge-kehrt.

Wird die Pons geschädigt (beispielswei-se durch einen Hirninfarkt), so kannes zum Locked-In-Syndrom kommen –dem Eingeschlossensein in den eigenenKörper, ein Zustand, in dem es für einenMenschen bei voller geistiger Leistungsfä-higkeit völlig unmöglich ist, sich auf ir-gendeine Weise der Außenwelt zu vermit-teln. Man kann nicht sprechen, sich nichtbewegen, während Seh-, Hör-, Geruchs-und Geschmackssinn in aller Regel völlignormal funktionieren. Als letzte Kommu-nikationsmöglichkeit verbleibt Locked-In-Patienten meist nur die Augenbewegungoder Zwinkern.

Weiter ist der Hirnstamm für viele grund-legende Reflexe zuständig, wie z. B. denreflexartigen Augenlidschluss oder Hus-ten.

Alle Teile des Nervensystems haben eineSache gemeinsam: Es werden Informatio-nen verarbeitet. Dies geschieht durch rie-sige Ansammlungen von Milliarden sehrähnlicher Zellen, die an sich sehr einfachgebaut sind, aber fortlaufend miteinanderkommunizieren. Große Gruppen dieser Zel-len senden dann koordiniert Signale underreichen so die gewaltige Informations-verarbeitungskapazität, die wir von unse-rem Gehirn kennen. Wir wechseln nun vonder Ebene der Gehirnteile auf die zellulä-re Ebene im Körper – auf die Ebene derNeuronen.


dkriesel.com 2.2 Das Neuron

2.2 Neuronen sindinformationsverarbeitendeZellen

Bevor wir auf die Funktionen und Vor-gänge innerhalb eines Neurons genauereingehen, sei hier zunächst eine Skizzeder Neuronenfunktion geliefert: Ein Neu-ron ist nichts weiter als ein Schalter miteinem Informationseingang und -ausgang.Der Schalter wird aktiviert, wenn genugReize anderer Neurone am Informations-eingang auftreffen. Am Informationsaus-gang wird dann ein Impuls an z.B. andereNeurone gesendet.

2.2.1 Bestandteile eines Neurons

Wir wollen nun die Einzelbestandteile ei-nes Neurons (Abb. 2.3 auf der folgen-den Seite) betrachten. Wir gehen dabeiden Weg, den die elektrische Informationim Neuron nimmt. Den Dendriten einesNeurons zugeleitet wird die Informationüber spezielle Übergangsstellen, die Syn-apsen.

2.2.1.1 Synapsen gewichten dieeinzelnen Informationsanteile

Von anderen Neuronen oder sonstigen Zel-len eingehende Signale werden einem Neu-ron über spezielle Übergangsstellen, dieSynapsen zugeleitet. Solch eine Über-gangsstelle liegt meistens an den Dendri-ten eines Neurons, manchmal auch direkt

am Soma. Man unterscheidet elektrischeund chemische Synapsen.

Die einfachere von beiden Varianten ist dieelektrische Synapse. Ein elektrisches Si-

ElektrischeSynapseeinfach

gnal, welches auf der Synapse eingeht, al-so von der präsynaptischen Seite kommt,wird direkt in den postsynaptischen Zell-kern fortgeleitet. Es liegt also eine direkte,starke, nicht regulierbare Verbindung vonSignalgeber zu Signalempfänger vor, zumBeispiel sinnvoll für Fluchtreflexe, die ineinem Lebewesen „hart codiert“ sein müs-sen.

Die ausgeprägtere Variante ist die chemi-sche Synapse. Hier findet keine direkteelektrische Kopplung von Quelle und Zielstatt, sondern diese Kopplung ist unter-brochen durch den synaptischen Spalt.Dieser Spalt trennt die prä- und postsyn-aptische Seite elektrisch voneinander. Den-noch muss ja Information fließen, werdenSie jetzt denken, also wollen wir daraufeingehen, wie das passiert: Nämlich nichtelektrisch, sondern chemisch. Auf der prä-synaptischen Seite des synaptischen Spaltswird das elektrische Signal in ein chemi-sches konvertiert, indem dort chemischeSignalstoffe freigesetzt werden (sog. Neu-rotransmitter). Diese Neurotransmitterüberwinden den synaptischen Spalt undübertragen die Information in den Zellkern(das ist sehr vereinfacht ausgedrückt, wirwerden später noch sehen, wie das genaufunktioniert), wo sie wieder in elektrischeInformation umgewandelt wird. Die Neu-rotransmitter werden sehr schnell wiederabgebaut, so dass auch hier sehr genaueInformations-Impulse möglich sind.



Abbildung 2.3: Skizze eines biologischen Neurons mit Beschriftung von im Text verwendetenBestandteilen.

Trotz der viel komplizierteren Funktions-weise hat die chemische Synapse im Ver-

ChemischeSynapse

komplexeraber

mächtiger

gleich zur elekrischen Variante eklatanteVorteile:

Einwegschaltung: Die chemische Synap-se ist eine Einwegschaltung. Dadurch,dass der prä- und postsynaptischeTeil nicht direkt elektrisch verbundensind, können elektrische Impulse impostsynaptischen Teil nicht auf denpräsynaptischen überschlagen.

Regulierbarkeit: Es gibt eine Vielzahlverschiedener Neurotransmitter, dienoch dazu in verschiedenen Mengenin einem synaptischen Spalt freige-setzt werden können. So gibt esNeurotransmitter, die anregend aufden postsynaptischen Zellkern wirken,aber auch andere, die eine solche An-regung wieder abflauen lassen. Man-

che Synapsen geben ein stark an-regendes Signal weiter, manche nurschwach anregende Signale. Die Re-gulierungsvielfalt ist enorm, und dassdie Synapsen hier auch noch varia-bel sind, also mit der Zeit eine stär-kere oder schwächere Verbindung dar-stellen können, ist einer der zentralenPunkte bei Betrachtung der Lernfä-higkeit des Gehirns.

2.2.1.2 Dendriten sammeln alleInformationsanteile

Dendriten verästeln sich baumartig vomZellkern des Neurons (den man Somanennt) und dienen der Aufnahme von elek-trischen Signalen aus vielen verschiedenenQuellen, die dann in den Zellkern über-tragen werden. Die sich verästelnde Men-



ge von Dendriten wird auch Dendriten-baum genannt.

2.2.1.3 Im Soma werden diegewichteten Informationsanteileaufkumuliert

Nachdem über Synapsen und Dendriten ei-ne Fülle an aktivierenden (=anregenden)und inhibierenden (=abschwächenden) Si-gnalen beim Zellkern (Soma) eingetroffenist, kumuliert das Soma diese Signale auf.Sobald das aufkumulierte Signal einen ge-wissen Wert (Schwellwert genannt) über-schreitet, löst der Neuronenzellkern seiner-seits einen elektrischen Impuls aus, derdann zur Weiterleitung an die nachfolgen-den Neuronen bestimmt ist, zu denen dasaktuelle Neuron verbunden ist.

2.2.1.4 Das Axon leitet ausgehendeImpulse weiter

Die Weiterleitung des Impulses zu anderenNeuronen erfolgt durch das Axon. DasAxon ist ein fadenartiger Fortsatz des So-mas. Ein Axon kann im Extremfall ca.einen Meter lang werden (z.B. im Rücken-mark). Das Axon ist elektrisch isoliert, umdas elektrische Signal besser leiten zu kön-nen (später mehr dazu) und mündet inDendriten, um die Information an z.B. an-dere Neurone weiterzugeben. Wir sind alsowieder am Anfang unserer Beschreibungder Neuronenbestandteile angelangt. Na-türlich kann ein Axon aber auch Infor-mationen an andere Zellenarten zu derenSteuerung übertragen.

2.2.2 Elektrochemische Vorgängeim Neuron und seinenBestandteilen

Nachdem wir nun den Weg eines elek-trischen Signals von den Dendriten überdie Synapsen in den Zellkern, und vondort über das Axon in weitere Dendri-ten verfolgt haben, wollen wir einen klei-nen Schritt von der Biologie in RichtungTechnik gehen. Auf diesem Weg soll ver-einfacht vorgestellt werden, wie die Infor-mationsverarbeitung elektrochemisch von-statten geht.

2.2.2.1 Neuronen erhalten einelektrisches Membranpotentialaufrecht

Ein grundlegender Aspekt ist, dass dieNeurone gegenüber ihrer Umwelt eine elek-trische Ladungsdifferenz, ein Potential auf-weisen. Innerhalb der Membran (=Hül-le) des Neurons herrscht also eine andereLadung vor als außen. Diese Ladungsdif-ferenz ist ein zentraler Begriff, den manbraucht, um die Vorgänge im Neuron zuverstehen, wir nennen sie Membranpo-tential. Das Membranpotential, also derLadungsunterschied, entsteht durch meh-rere Arten geladener Atome (Ione), dieinnerhalb und außerhalb des Neurons un-terschiedlich hoch konzentriert sind. Wennwir von innen nach außen durch die Mem-bran stoßen, werden wir bestimmte Ar-ten Ione häufiger oder weniger häufig vor-finden als innen, wir nennen diesen Ab-fall oder Anstieg der Konzentration einenKonzentrationsgradienten.



Betrachten wir das Membranpotential zu-nächst für den Ruhezustand des Neurons,nehmen wir also an, es treffen gerade kei-ne elektrischen Signale von außen ein. Indiesem Fall beträgt das Membranpotential−70 mV. Da wir gelernt haben, dass die-ses Potential von Konzentrationsgradien-ten verschiedener Ionen abhängt, ist natür-lich eine zentrale Frage, wie diese Konzen-trationsgradienten aufrecht erhalten wer-den: Normalerweise herrscht ja überall Dif-fusion vor, also sind alle Ionen bestrebt,Konzentrationsgefälle abzubauen und sichüberall gleichmäßig zu verteilen. Würdedas passieren, würde das Membranpoten-tial gegen 0 mV gehen, schlussendlich wür-de also kein Membranpotential mehr vor-handen sein. Das Neuron erhält sein Mem-branpotential also aktiv aufrecht, um In-formationsverarbeitung betreiben zu kön-nen. Wie geht das vonstatten?

Das Geheimnis liegt in der Membranselbst, die für manche Ione durchlässig ist,für andere aber nicht. Um das Potentialaufrecht zu erhalten, wirken hier mehrereMechanismen gleichzeitig:

Konzentrationsgradient: Wie schon be-schrieben, versuchen die Ionen, immermöglichst gleichverteilt vertreten zusein. Ist innerhalb des Neurons dieKonzentration eines Ions höher als au-ßen, versucht es nach außen zu diffun-dieren und umgekehrt. Das positiv ge-ladene Ion K+ (Kalium) ist im Neu-ron häufig, außerhalb des Neuronsweniger anzutreffen, und diffundiertdarum langsam durch die Membranaus dem Neuron hinaus. Eine weite-re Sammlung negativer Ionen, zusam-

menfassend A− genannt, bleibt aberim Neuron, da die Membran hierfürnicht durchlässig ist. Das Neuronen-innere wird also negativ: Negative A-Ionen bleiben, positive K-Ionen ver-schwinden, das Innere der Zelle wirdnegativer. Dies führt uns zu einemweiteren Gradienten.

Elektrischer Gradient: Der elektrischeGradient wirkt dem Konzentra-tionsgradienten entgegen. DasZellinnere ist mittlerweile sehrnegativ geworden, also zieht espositive Ionen an: K+ möchte nunwieder in die Zelle hinein.

Würde man diese beiden Gradienten nuneinfach sich selbst überlassen, so würdensie sich irgendwann ausgleichen, einen sta-bilen Zustand erreichen und ein Membran-potential von −85 mV würde entstehen.Wir wollen aber auf ein Ruhemembranpo-tential von −70 mV hinaus, es muss alsoStörkomponenten geben, die dies verhin-dern. Zum einen gibt es noch ein weitereswichtiges Ion, Na+ (Natrium), für das dieMembran zwar nicht besonders durchläs-sig ist, das aber trotzdem langsam durchdie Membran in die Zelle einströmt. DasNatrium fühlt sich hierbei doppelt nach in-nen getrieben: Zum einen gibt es wenigerNatrium im inneren des Neurons als außen,zum anderen ist Natrium positiv, das Zel-linnere aber negativ, ein zweiter Grund, indie Zelle zu wollen.

Durch die geringe Natriumdiffusion insZellinnere nimmt die Natriumkonzentrati-on im Zellinneren zu, gleichzeitig wird dasZellinnere aber weniger negativ, so dass



der Einstrom von K+ langsamer wird (wirsehen: Das ist ein komplizierter Mechanis-mus, in dem alles sich gegenseitig beein-flusst). Durch Natrium wird das Zellinne-re tendentiell weniger negativ gegenüberder Umwelt. Auch mit diesen beiden Ionenkönnte aber immer noch ein Stillstand er-reicht werden, in dem sich alle Gradientenausgleichen und nichts mehr passiert. Nunkommt aber das fehlende Mosaiksteinchen,auf das wir warten: Eine „Pumpe“ (eigent-lich das ProteinATP) bewegt aktiv Ionenentgegen der Richtung, zu der sie eigent-lich möchten!

Natrium wird aktiv aus der Zelle raus-gepumpt, obwohl es entlang desKonzentrations- und des elektrischenGradienten in die Zelle möchte.

Kalium hingegen diffundiert stark aus derZelle heraus, wird aber wieder aktivhineingepumpt.

Aus diesem Grund nennen wir die Pum-pe auch Natrium-Kalium-Pumpe. DiePumpe erhält sowohl für Natrium alsauch für Kalium den Konzentrationsgra-dienten aufrecht, so dass eine Art Fließ-gleichgewicht entsteht und das Ruhepoten-tial schlussendlich bei den beobachteten−70 mV landet. Zusammenfassend wirddas Membranpotential also aufrecht erhal-ten, indem die Membran für manche Io-nen gar nicht durchlässig ist und andereIonen aktiv entgegen der Konzentrations-und elektrischen Gradienten gepumpt wer-den. Nachdem wir nun wissen, dass jedemNeuron ein Membranpotential zueigen ist,wollen wir genau betrachten, wie ein Neu-ron Signale empfängt und versendet.

2.2.2.2 Veränderungen imMembranpotential aktivierendas Neuron

Oben haben wir gelernt, dass Natrium undKalium durch die Membran hindurchdif-fundieren können, Natrium langsam, Ka-lium schneller. Dies geschieht durch inder Membran enthaltene Kanäle, Natrium-bzw. Kaliumkanäle. Neben diesen immergeöffneten Kanälen, die für die Diffusi-on verantwortlich sind und durch dieNatrium-Kalium-Pumpe ausgeglichen wer-den, gibt es auch Kanäle, die nicht immergeöffnet sind, sondern nur „nach Bedarf“geöffnet werden. Da sich durch eine Öff-nung dieser Kanäle die Konzentration vonIonen innerhalb und außerhalb der Mem-bran verändern, ändert sich logischerweiseauch das Membranpotential.

Diese steuerbaren Kanäle werden geöff-net, wenn der aufkumulierte eingehen-de Reiz einen gewissen Schwellwert über-schreitet. Eingehende Reize können bei-spielsweise von anderen Neuronen kom-men oder aber von anderen Ursachen her-rühren: So gibt es zum Beispiel spezialisier-te Formen von Neuronen, Sinneszellen, fürdie z.B. Lichteinfall einen solchen Reiz dar-stellen kann. Fällt dann genug Licht ein,um den Schwellwert zu überschreiten, wer-den steuerbare Kanäle geöffnet.

Der besagte Schwellwert (das Schwellen-wertpotential) liegt bei ca. −55 mV. So-bald dieses von den eingehenden Reizenerreicht wird, wird das Neuron aktiviertund ein elektrisches Signal, ein Aktions-potential wird ausgelöst. Dieses Signal



Abbildung 2.4: Auslösung eines Aktionspotentials über die Zeit.



wird dann weitergeleitet an diejenigen Zel-len, die mit dem betrachteten Neuron ver-bunden sind, also ihm „zuhören“. Die Pha-sen des Aktionspotentials wollen wir etwasgenauer betrachten (Abb. 2.4 auf der lin-ken Seite):

Ruhezustand: Nur die immer geöffnetenKalium- und Natriumkanäle liegen of-fen, das Membranpotential liegt bei−70 mV und wird vom Neuron aktivdort gehalten.

Stimulus bis Schwellwert: Ein Reiz (Sti-mulus) öffnet Kanäle, so dass Na-trium einströmen kann. Die Ladungdes Zellinneren wird positiver. So-bald das Membranpotential über denSchwellenwert von−55 mV geht, wirddas Aktionspotential ausgelöst, in-dem sehr viele Natriumkanäle geöff-net werden.

Depolarisation: Natrium strömt ein. Wirerinnern uns, dass Natrium einströ-men möchte sowohl, weil davon deut-lich weniger in der Zelle vorhandenist als außen, als auch, weil in derZelle ein negatives Milieu vorherrscht,durch das das positive Natrium ange-zogen wird. Durch den starken Ein-strom steigt das Membranpotentialdrastisch an, bis auf ca. +30 mV. Diesist dann der elektrische Impuls, dasAktionspotential.

Repolarisation: Natriumkanäle werdennun geschlossen, dafür werden dieKaliumkanäle geöffnet. Das positivgeladene Kalium will nun aus demebenfalls positiven Zellinneren heraus.Zusätzlich ist es im Zellinneren

wesentlich höher konzentriert alsaußen, was den Ausstrom nochbeschleunigt. Das Zellinnere wirdwieder negativer geladen als dieAußenwelt.

Hyperpolarisation: Sowohl Natrium- alsauch Kaliumkanäle werden wiedergeschlossen. Zunächst ist das Mem-branpotential nun leicht negativer alsdas Ruhepotential, was daher kommt,dass die Kaliumkanäle sich etwasträger schließen, was Kalium (posi-tiv geladen) aufgrund seiner geringe-ren Konzentration außerhalb der Zel-le ausströmen lässt. Nach einer Re-fraktärzeit von 1 − 2 ms ist dannder Ruhezustand wiederhergestellt, sodass das Neuron auf neue Reize wie-der mit einem Aktionspotential rea-gieren kann. Die Refraktärzeit ist, ein-fach ausgedrückt, eine Zwangspause,welche ein Neuron einhalten muss, umsich zu regenerieren. Je kürzer sie ist,desto öfter kann ein Neuron pro Zeitfeuern.

Der so entstandene Impuls wird danndurch das Axon fortgeleitet.

2.2.2.3 Im Axon wird ein Impuls aufsaltatorische Weiseweitergeleitet

Wir haben schon gelernt, dass das Axonzur Fortleitung des Aktionspotentials überlange Distanzen dient (zur Erinnerung:Eine Illustration eines Neurons inklusiveAxon findet sich in Abb. 2.3 auf Seite 20).Das Axon ist ein fadenartiger Fortsatz des



Somas. Bei Wirbeltieren ist es in der Re-gel von einer Myelinscheide umgeben,welche aus Schwannschen Zellen (imPNS) oder Oligodendrozyten (im ZNS)besteht1, die das Axon elektrisch sehr gutisolieren. Zwischen diesen Zellen befindensich im Abstand von 0.1−2mm Lücken, diesogenannten Ranvierschen Schnürrin-ge, die jeweils dort auftreten, wo eine Iso-lationszelle zuende ist und die nächste an-fängt. An einem solchen Schnürring ist dasAxon logischerweise schlechter isoliert.

Man mag nun annehmen, dass dieseschlecht isolierten Schnürringe von Nach-teil für das Axon sind: Dem ist aber nichtso. An den Schnürringen ist ein Stoffaus-tausch zwischen intrazellulärem und extra-zellulärem Raum möglich, der an Teilendes Axons, welche zwischen zwei Schnür-ringen liegen (Internodien) und so durchdie Myelinscheide isoliert sind, nicht funk-tioniert. Dieser Stoffaustausch ermöglichtdie Erzeugung von Signalen, ganz ähnlichder Erzeugung des Aktionspotentials imSoma. Die Weiterleitung eines Aktionspo-tentials funktioniert nun folgendermaßen:Es läuft nicht kontinuierlich entlang desAxons, sondern springt von einem Schnür-ring zum nächsten. Es läuft also eine Rei-he von Depolarisationen entlang der Ran-vierschnürringe. Ein Aktionspotential löstdominoartig das nächste aus, meist sindhierbei sogar mehrere Schnürringe gleich-zeitig aktiv. Durch das „Springen“ des Im-

1 Sowohl Schwannsche Zellen als auch Oligodendro-zyten sind Ausprägungen der Gliazellen, von de-nen es ca. 50 mal mehr gibt als Neuronen, unddie die Neuronen umgeben (Glia = Leim), vonein-ander isolieren, mit Energie versorgen, etc.

pulses von einem Schnürring zum nächs-ten kommt diese Impulsleitung auch zuihrem Namen: Saltatorische Impulslei-tung.

Es ist offensichtlich, dass der Impulsschneller voran kommt, wenn seine Sprün-ge größer sind. So wird bei Axonen mitgroßen Internodien (2 mm) eine Signalaus-breitungsgeschwindigkeit von ca. 180 Me-tern pro Sekunde erreicht. Die Internodi-en können aber nicht beliebig groß wer-den, da das weiterzuleitende Aktionspo-tential sonst bis zum nächsten Schnürringzu sehr verblassen würde. Die Schnürringehaben also auch die Aufgabe, das Signalregelmäßig zu verstärken. Am Ende desAxons hängen dann – oft über Dendritenund Synapsen verbunden – die Zellen, wel-che das Aktionspotenzial empfangen. Wieoben schon angedeutet, können Aktions-potentiale aber nicht nur durch über dieDendriten eingehende Information von an-deren Neuronen entstehen.

2.3 Rezeptorzellen sindabgewandelte Neurone

Aktionspotentiale können auch durch sen-sorische Informationen, die ein Lebewesenaus seiner Umwelt mittels Sinneszellen auf-nimmt, herrühren. Spezialisierte Rezep-torzellen können für sie spezifische Reiz-energien wie Licht, Temperatur und Schalloder das Vorhandensein bestimmter Mole-küle wahrnehmen (wie es z.B. der Geruchs-sinn tut). Dies funktioniert, da diese Sin-neszellen eigentlich abgewandelte Neurone


dkriesel.com 2.3 Rezeptorzellen

sind: Hier werden keine elektrischen Signa-le über Dendriten aufgenommen, sonderndas Vorhandensein des für die Rezeptorzel-le spezifischen Reizes sorgt dafür, dass sichIonenkanäle öffnen und ein Aktionspoten-tial ausgebildet wird. Dieser Vorgang desUmwandelns von Reizenergie in Verände-rungen im Membranpotential nennt sichSensorische Transduktion. In aller Re-gel ist die Reizenergie selbst zu schwach,um direkt Nervensignale auszulösen, undso findet entweder während der Transduk-tion oder durch den Reizleitenden Ap-parat auch gleich eine Signalverstärkungstatt. Das resultierende Aktionspotentialkann von anderen Neuronen verarbeitetwerden und gelangt dann in den Thalamus,der, wie wir schon gelernt haben, als Torzum Cerebralen Cortex Sinneseindrückenach der momentanen Relevanz aussortie-ren und so einen Überfluss an zu verwal-tenden Informationen verhindern kann.

2.3.1 Es existieren verschiedensteRezeptorzellen für viele Artenvon Wahrnehmungen

Primärrezeptoren senden ihre Impulsedirekt ans Nervenssystem. Schmerzempfin-dung ist hierfür ein gutes Beispiel. Hier istdie Reizstärke proportional zur Amplitu-de des Aktionspotentials, technisch ausge-drückt findet hier also eine Amplitudenmo-dulation statt.

Sekundärrezeptoren senden hingegendurchgehend Impulse. Diese Impulse steu-ern dann die Menge des zugehörigen Neu-rotransmitters zur Weitergabe des Reizes,

der wiederum die Frequenz der Aktionspo-tentiale des empfangenden Neurons steu-ert. Hier handelt es sich um Frequenzmo-dulation, eine Kodierung des Reizes, beider man Zu- und Abnahme eines Reizesbesser wahrnehmen kann.

Rezeptorzellen können einzeln vorkommenoder aber komplexe Sinnesorgane bilden(z.B. Augen oder Ohren). Es können so-wohl Reize im Körper empfangen wer-den (das machen dann Enterorezepto-ren) wie auch Reize außerhalb des Kör-pers (hierfür sind die Exterorezeptorenzuständig).

Nachdem wir nun skizziert haben, wie In-formation aus der Umwelt aufgenommenwird, ist interessant zu betrachten, auf wel-che Weise sie verarbeitet wird.

2.3.2 Informationsverarbeitungfindet auf jeder Ebene desNervensystems statt

Es ist nämlich keinesfalls so, dass alle Infor-mationen ins Gehirn geleitet werden, dortverarbeitet werden, und das Gehirn da-nach für eine „Ausgabe“ in Form von mo-torischen Impulsen sorgt (das einzige, wasein Lebewesen in seiner Umwelt wirklichtun kann, ist ja, sich zu bewegen). DieInformationsverarbeitung ist komplett de-zentral angelegt. Um das Prinzip zu ver-deutlichen, wollen wir kurz ein paar Bei-spiele betrachten, für die wir in unserer In-formationsverarbeitungshierarchie wiedervom Abstrakten zum Grundlegenden wan-dern.



. Dass im Großhirn als höchstentwickel-ter Informationsverarbeitender Struk-tur in der Natur Informationsverarbei-tung stattfindet, ist klar.

. In der Hierarchie deutlich tiefer liegtdas Mittelhirn und der Thalamus, denwir als Tor zur Großhirnrinde schonkennengelernt haben: Auch das vonihm betriebene Filtern von Informa-tionen nach aktueller Relevanz ist ei-ne sehr wichtige Art der Informati-onsverarbeitung. Doch auch der Tha-lamus erhält keine Reize von außen,die nicht bereits vorverarbeitet wur-den. Machen wir einen Sprung zur un-tersten Ebene, den Sinneszellen.

. Bereits auf der untersten Ebene,den Rezeptorzellen, wird Informationnicht nur aufgenommen und weiterge-leitet, sondern auch direkt verarbei-tet. Einer der Hauptaspekte zu die-sem Thema ist die Verhinderung von„Dauerreizen“ an das Zentralnerven-system durch sensorische Adapti-on: Bei kontinuierlicher Reizung wer-den sehr viele Rezeptorzellen automa-tisch unempfindlicher. Rezeptorzellenstellen also keine direkte Abbildungvon spezifischer Reizenergie auf Ak-tionspotentiale da, sondern sind ab-hängig von der Vergangenheit. Wei-tere Sensoren ändern die Empfind-lichkeit je nach Situation: Es gibtGeschmacksrezeptoren, die je nachErnährungszustand des Organismusmehr oder weniger stark auf densel-ben Reiz ansprechen.

. Selbst bevor ein Reiz zu den Rezeptor-zellen vorstößt, kann durch einen vor-geschalteten signalführenden Apparatschon Informationsverarbeitung statt-finden, beispielsweise in Form vonVerstärkung: Die Ohrmuschel und dasInnenohr haben eine spezifische schall-verstärkende Form, welche es – inVerbindung mit den Sinneszellen desHörsinns – ebenfalls ermöglich, dassder Nervenreiz nur logarithmisch mitder Intensität des gehörten Signals an-steigt. Dies ist bei näherer Betrach-tung auch sehr notwendig, da derSchalldruck der Signale, für die dasOhr gemacht ist, über viele Zehner-potenzen variieren kann. Eine loga-rithmische Messweise ist hier von Vor-teil. Erstens wird Überlastung vermie-den, und dass zweitens die Intensi-tätsmessung bei intensiven Signalendadurch weniger genau wird, machtauch nichts: Wenn neben einem gera-de ein Düsenjet startet, sind winzigeSchwankungen im Lärmpegel zu ver-nachlässigen.

Um noch etwas mehr Bauchgefühl überSinnesorgane und Informationsverarbei-tung im Organismus zu erhalten, sollennun kurz „gängige“, also in der Naturhäufig anzutreffende Lichtsinnesorgane be-schrieben werden. Beim dritten beschriebe-nen Lichtsinnesorgan, dem Einzellinsenau-ge, gehen wir dann auf Informationsverar-beitung ein, die noch direkt im Auge statt-findet.


dkriesel.com 2.3 Rezeptorzellen

2.3.3 Eine Skizze häufigerLichtsinnesorgane

Für viele Lebewesen hat es sich als ex-trem nützlich erwiesen, elektromagneti-sche Strahlung in bestimmten Bereichenwahrzunehmen. Konsequenterweise sindSinnesorgane entstanden, welche solchelektromagnetische Strahlung feststellenkönnen, und der Wellenlängenbereich die-ser Strahlung, welcher für den Menschenwahrnehmbar ist, heißt dadurch sichtba-rer Bereich oder schlicht Licht. Verschie-dene Wellenlängen dieser sichtbaren Strah-lung nehmen wir Menschen durch ver-schiedene Farben wahr. Der sichtbare Be-reich der elektromagnetischen Strahlungist nicht bei allen Lebewesen gleich, man-che Lebewesen können Farben (=Wellen-längenbereiche) nicht sehen, die wir sehenkönnen, andere Lebewesen können sogarzusätzliche Wellenlängenbereiche (z.B. imUV-Bereich) wahrnehmen. Bevor wir zumMenschen kommen, wollen wir kurz – umetwas breiter angelegtes Wissen zum Seh-sinn zu erhalten – zwei Sehsinnesorgane be-trachten, die evolutionär gesehen vor demMenschen da waren.

2.3.3.1 Komplexaugen undLochkameraaugen bieten nurzeitlich bzw. örtlich hoheAuflösung

Betrachten wir als erstes das sogenannteKomplexauge (Abb. 2.5), auch Facet-tenauge genannt, welches beispielsweisebei Insekten und Krustentieren vorkommt.

Komplexauge:Hohe zeitl.,

niedrigeörtliche

Auflösung

Abbildung 2.5: Facettenaugen einer Raubfliege

Das Komplexauge besteht aus vielen klei-nen, separaten Einzelaugen, die, wennman das Komplexauge von außen betrach-tet, auch deutlich sichtbar sind und ein wa-benähnliches Muster erzeugen. Jedes Ein-zelauge im Komplexauge verfügt über eineeigene Nervenfaser als Anbindung an dasInsektengehirn. Da wir die Einzelaugen se-hen können, ist klar, dass die Anzahl derBildpunkte, also die spatiale Auflösung beiKomplexaugen recht niedrig liegen muss:Das Bild ist unscharf. Komplexaugen bie-ten aber auch Vorteile, gerade für schnellf-liegende Insekten: Bestimmte Arten Kom-plexaugen verarbeiten mehr als 300 Bilderpro Sekunde (dem Menschen hingegen er-scheinen schon Kinofilme mit 25 Bildernpro Sekunde als flüssige Bewegung).

Lochkameraaugen kommen zum Bei-spiel bei Krakenarten vor und funktionie-ren – man errät es – ähnlich einer Lochka-mera. Es gibt ein winziges Lichteintritts-

Lochkamera:Hohe örtl.,niedrigezeitlicheAuflösung

loch, welches ein scharfes Bild auf dahinter-



liegende Sinneszellen projiziert, die räum-liche Auflösung ist hier also deutlich höherals beim Komplexauge. Aufgrund des win-zigen Eintrittsloches ist das Bild aber sehrlichtschwach.

2.3.3.2 Einzellinsenaugen kombinierenbeide Stärken, sind aberkomplexer aufgebaut

Die bei Wirbeltieren verbreitete Art desLichtsinnesorgans ist das Einzellinsen-auge: Es vermittelt ein scharfes, hochauf-gelöstes Bild der Umwelt, bei hoher bzw.variabler Lichtstärke. Dafür ist es kompli-zierter aufgebaut. Wie beim Lochkamera-auge fällt Licht durch eine Öffnung ein(Pupille) und wird im Auge auf eineSchicht Sinneszellen projiziert (Netzhaut

Einzellinsen-auge: Hohe

zeitl. und örtl.Auflösung

oder Retina). Im Unterschied zum Loch-kameraauge kann der Öffnungsgrad derPupille allerdings den Helligkeitsverhält-nissen angepasst werden (dies geschiehtdurch den Iris-Muskel, der die Pupillevergrößert oder verkleinert). Diese Unter-schiede im Pupillenöffnungsgrad macheneine aktive Scharfstellung des Bildes not-wendig, weswegen das Einzellinsenaugenoch eine ebenfalls verstellbare Linse ent-hält.

2.3.3.3 Die Retina ist nicht nurEmpfänger, sondern verarbeitetInformationen

Die auftreffenden Lichtsignale werden inder Retina aufgenommen und direkt durch

mehrere Schichten informationsverarbei-tender Zellen vorverarbeitet. Wir wollenkurz verschiedene Punkte dieser Informati-onsvorverarbeitung betrachten und gehendabei den Weg, den die vom Licht einge-brachte Information nimmt:

Photorezeptoren empfangen das Lichtsi-gnal und lösen Aktionspotentiale aus(es gibt verschiedene Rezeptoren fürverschiedene Farbanteile und Lichtin-tensitäten). Diese Rezeptoren sindder eigentlich lichtempfangende Teilder Retina und derart empfindlich,dass bereits das Auftreffen von einemeinzigen Photon ein Aktionspotentialauslösen kann. Mehrere Photorezepto-ren leiten dann ihre Signale an eineeinzige

Bipolarzelle weiter, hier findet also be-reits eine Zusammenfassung der Infor-mation statt. Schlussendlich gelangtdas nun umgewandelte Lichtsignalwieder von jeweils mehreren Bipolar-zellen2 in die

Ganglienzellen. Es können verschiedenviele Bipolarzellen ihre Informationan eine Ganglienzelle weiterleiten. Jehöher die Zahl der Photorezeptoren,von denen die Ganglienzelle betroffenist, um so größer ist der Wahrneh-mungsbereich, das Rezeptive Feld,welches die Ganglien abdeckt – undum so weniger Bildschärfe ist imBereich dieser Ganglienzelle gegeben.Hier werden also direkt in der Retinabereits Informationen aussortiert und

2 Es gibt wieder verschiedene Arten Bipolarzellen,deren Betrachtung hier aber zu weit führen würde.


dkriesel.com 2.4 Neuronenmengen in Lebewesen

das Gesamtbild z.B. in Randsichtbe-reichen verunschärft. Bis jetzt habenwir die Informationsverarbeitung inder Retina aber als reine Top-Down-Struktur kennengelernt. Dies bringtuns nun zur Betrachtung der

Horizontal- und Amakrinzellen. DieseZellen sind nicht von vorne nachhinten, sondern lateral verbundenund machen es möglich, dassLichtsignale sich direkt währendder Informationsverarbeitung in derRetina lateral beeinflussen – eineviel mächtigere Art der Informati-onsverarbeitung als komprimierenund verunschärfen. Horizontalzellenist es hierbei möglich, von einemPhotorezeptor angeregt, andere nahePhotorezeptoren ebenfalls anzuregenund gleichzeitig weiter entfernteBipolarzellen und Rezeptoren zuhemmen. Dies sorgt für die klareWahrnehmung von Konturen undhellen Punkten. Amakrinzellenkönnen weiter bestimmte Reizeverstärken, indem sie Informationenvon Bipolarzellen auf mehrereGanglienzellen verteilen oder auchGanglien hemmen.

Wir sehen an diesem Anfang des Wegs vi-sueller Information ins Hirn, dass Infor-mationsverarbeitung zum einen vom ers-ten Moment der Informationsaufnahmestattfindet – und zum anderen parallel inMillionen von informationsverarbeitendenZellen stattfindet. Kein Systembestandteilruht jemals, und aus dieser massiven Ver-teilung der Arbeit zieht das Nervensystemseine Macht und Fehlerresistenz.

2.4 Neuronenmengen inunterschiedlich hochentwickelten Lebewesen

Hier nun ein Überblick, welche verschie-denen Lebewesen was für eine Kapazitätan Neuronen besitzen (zum Großteil aus[RD05]):

302 Neuronen benötigt das Nervensys-tem eines Fadenwurms, der einen be-liebten Modellorganismus in der Bio-logie darstellt. Fadenwürmer leben imErdboden und ernähren sich von Bak-terien.

104 Neuronen ergeben eine Ameise (derEinfachheit halber sei vernachläs-sigt, dass manche Ameisenarten auchmehr oder weniger leistungsfähigeNervensysteme aufweisen können).Durch verschiedene Lockstoffe undDüfte sind Ameisen zu komplexem So-zialverhalten und zur Bildung von rie-sigen Staaten mit Millionen von Indi-viduen in der Lage. Sieht man nichtdie Ameise, sondern einen solchenStaat als Individuum an, so kommtman ungefähr auf die kognitive Leis-tungsfähigkeit eines Schimpansen bishin zum Menschen.

Mit 105 Neuronen können wir das Ner-vensystem einer Fliege bauen. Ei-ne Fliege kann im dreidimensionalenRaum in Echtzeit ausweichen, durcheinen Looping an der Decke landen,besitzt umfangreiche Sensorik durchFacettenaugen, Tasthaare, Nerven an



den Beinenden und vieles mehr. Ei-ne Fliege hat also „in Hardware“ um-fangreiche Differential- und Integral-rechnungen in hohen Dimensionen im-plementiert. Wir alle wissen, dass ei-ne Fliege schwer zu fangen ist. Na-türlich werden auch die Körperfunk-tionen von Neuronen gesteuert, dieseseien aber hier außen vor gelassen.

Mit 0.8 · 106 Neuronen haben wir genugGehirnmasse für eine Honigbiene. Ho-nigbienen bilden Staaten und besit-zen erstaunliche Fähigkeiten im Be-reich der Luftaufklärung und Orien-tierung.

4 · 106 Neurone ergeben eine Maus, hiersind wir schon in der Welt der Wirbel-tiere angelangt.

1.5 · 107 Neurone reichen bereits für ei-ne Ratte, ein Tier, was als außeror-dentlich klug verschrien ist und oftals Teilnehmer für verschiedene an-schauliche Intelligenztests bezüglichder Tierwelt herangezogen wird. Rat-ten können außerordentlich gut rie-chen und sich orientieren, zeigen au-ßerdem Sozialverhalten. In etwa der-selben Größenordnung liegt das Ge-hirn eines Frosches. Der Frosch be-sitzt einen komplizierten und funkti-onsreichen Körperbau, kann schwim-men und ist zu komplexen Verhaltens-weisen fähig. Er kann besagte Flie-ge während einer Sprungbewegung imdreidimensionalen Raum durch sei-ne Augen kontinuierlich zielerfasssenund durch seine Zunge mit vertretba-rer Wahrscheinlichkeit fangen.

5 · 107 Neurone ergeben eine Fleder-maus. Die Fledermaus kann sich intotaler Dunkelheit rein akustisch ineinem Raum orientieren, auf mehrereZentimeter genau. Die Fledermauskann sich selbst tarnende Insekten(z.B Motten tarnen sich durch einebestimmte Flügelstruktur, welcheSchall schlecht zurückwirft) währenddes Fluges akustisch orten undebenso während des Fluges fressen.

1.6 · 108 Neurone benötigt das Gehirneines Hundes, der seit jeher Wegge-fährte des Menschen ist. Kommen wirzu einem weiteren beliebten Gefähr-ten des Menschen:

3 · 108 Neurone, also ca. doppelt so vie-le wie ein Hund, besitzt eine Katze.Wie wir wissen, sind Katzen sehr ele-gante, geduldige Raubtiere, fähig zueiner Vielzahl von Verhaltensweisen.In derselben Größenordnung liegt üb-rigens der Octopus, von dem nur weni-ge wissen, dass er z. B. in Labyrinth-Orientierungstests der Ratte deutlichüberlegen ist.

Für 6 · 109 Neurone gibt es bereits einenSchimpansen, eines der Tiere, die demMenschen schon sehr ähneln.

1011 Neurone besitzt ein Mensch. DerMensch besitzt meist sehr umfangrei-che kognitive Fähigkeiten und ist inder Lage zu sprechen, zu abstrahieren,zu erinnern und Werkzeuge sowie dasWissen von anderen Menschen zu nut-zen, um fortgeschrittene Technologienund vielfältige soziale Strukturen zuentwickeln.


dkriesel.com 2.5 Technische Neuronen als Karikatur der Biologie

Mit 2 · 1011 Neuronen gibt es Nerven-systeme, die mehr Neuronen besitzenals die des Menschen: Hier seien Ele-phanten und bestimmte Walarten ge-nannt.

Bereits mit der oben (sehr dünn) be-schriebenen Rechenleistung einer Fliegekönnen unsere aktuellen Computer schonnicht mehr mithalten. Neuere Forschungs-ergebnisse legen sogar nahe, dass diein Nervensystemen ablaufenden Prozes-se noch einmal deutlich mächtiger sind,als man bis vor kurzem noch dachte:Michaeva et al. beschreiben eine eige-ne Synapsen-integrierte Informationsver-arbeitung [MBW+10]. Inwiefern sich dasbestätigt, wird die Zeit zeigen.

2.5 Übergang zu technischenNeuronen: NeuronaleNetze sind eine Karikaturder Biologie

Wie kommen wir nun von den biologischenNeuronalen Netzen zu den technischen?Durch radikalste Vereinfachung. Hierzumöchte ich nun die für die technische Seiterelevanten Erkenntnisse noch einmal kurzzusammenfassen:

Wir haben gesehen, dass die biologischenNeurone miteinander auf gewichtete Wei-se vernetzt sind und ihr Signal bei Rei-zung elektrisch über das Axon übertra-gen. Von dort gelangen sie aber nichtdirekt in die Nachfolgeneurone, sondernüberwinden erst den synaptischen Spalt,

in dem das Signal durch variierbare che-mische Vorgänge noch einmal verändertwird. Im empfangenden Neuron werdendann die vielen durch den synaptischenSpalt nachverarbeiteten Inputs zu einemImpuls zusammengefasst bzw. aufkumu-liert. Je nachdem, wie sehr das Neurondurch den kumulierten Input gereizt wird,gibt es dann selbst einen Impuls ab, odernicht – der Output ist also nichtlinear, erist nicht etwa proportional zum kumulier-ten Input. Unsere kurze Zusammenfassungentspricht nun genau den wenigen Fakto-ren biologischer Neuronaler Netze, welchewir in die technische Approximation über-nehmen wollen:

Vektorieller Input: Der Input von techni-schen Neuronen hat viele Komponen-ten, ist also ein Vektor. In der Naturempfängt ein Neuron ja auch Impulsevon durchschnittlich 103 bis 104 ande-ren Neuronen.

Skalarer Output: Der Output eines Neu-rons ist ein Skalar, hat also nur eineKomponente. Viele skalare Outputsbilden dann wieder einen vektoriel-len Input eines anderen Neurons. Diesbedeutet insbesondere, dass irgendwoim Neuron die vielen Inputkomponen-ten so zusammengefasst werden müs-sen, dass nur eine Komponente übrigbleibt.

Synapsen verändern Input: Auch in tech-nischen Neuronalen Netzen werdendie Inputs vorverarbeitet, nämlichmit einer Zahl (dem Gewicht) multi-pliziert – also gewichtet. Die Menge al-ler dieser synaptischen Gewichte stel-



len – sowohl im biologischen als auchim technischen Sinne – den Informa-tionsspeicher des neuronalen Netzesdar.

Aufkumulieren der Inputs: In der Biolo-gie werden die Inputs nach der chemi-schen Veränderung zu einem Impulszusammengefasst, also aufkumuliert– in der Technik geschieht dies oftdurch die gewichtete Summe, die wirnoch kennenlernen werden. Im Neu-ron arbeiten wir also anstatt mit ei-nem Vektor nach der Aufkumulierungmit nur einem Wert, einem Skalar,weiter.

Nichtlineare Kennlinie: Auch unseretechnischen Neurone haben keinenzum Input proportionalen Output.

Gewichte einstellbar: Die Gewichte, mitdenen die Inputs gewichtet werden,sind variabel, ähnlich den chemischenProzessen am synaptischen Spalt.Dies verleiht dem Netz eine große Dy-namik, denn in den Gewichten bzw.der Art und Stärke der chemischenVorgänge in einem synaptischen Spaltwird das „Wissen“ eines NeuronalenNetzes zu großen Teilen gespeichert.

Unser aktuelles, nur salopp formuliertes,sehr einfaches Neuronenmodell erhält alsoeinen vektoriellen Input

~x,

mit Komponenten xi. Es kumuliert diesemultipliziert mit den zugehörigen Gewich-ten wi auf: ∑

i

wixi.

Obiger Term wird auch gewichtete Summegenannt. Die nichtlineare Abbildung f be-stimmt dann den skalaren Output y:

y = f

(∑i

wixi

).

Nach dieser Überleitung wollen wir nun un-ser Neuronenmodell genauer spezifizierenund ihm noch einige Kleinigkeiten hinzufü-gen. Auf welche Weise Gewichte eingestelltwerden können, werden wir anschließendebenfalls betrachten.

Übungsaufgaben

Aufgabe 4. Es wird geschätzt, dass einmenschliches Gehirn etwa 1011 Nervenzel-len besitzt, von denen jede etwa 103 –104 Synapsen aufweist. Gehen wir für die-se Aufgabe von 103 Synapsen pro Neuronaus. Nehmen wir weiter an, eine einzelneSynapse könnte 4 Bit an Information spei-chern. Naiv gerechnet: Welche Speicherka-pazität hat das Gehirn also? Beachten Sie,dass die Information, welches Neuron mitwelchem anderen eine Verbindung besitzt,auch von Bedeutung ist.


Kapitel 3

Bausteine künstlicher Neuronaler NetzeFormale Definitionen und umgangssprachliche Erklärungen der Bestandteile,

die die technischen Adaptionen der biologischen Neuronalen Netze ausmachen.Erste Beschreibungen, wie man diese Bestandteile zu einem Neuronalen Netz

zusammensetzen kann.

Dieses Kapitel beinhaltet die formalen De-finitionen für den Großteil der BausteineNeuronaler Netze, die wir später verwen-den werden. Nach dem Ende dieses Kapi-tels kann man ohne weiteres auch einzelneKapitel des Skriptums lesen, ohne die vor-angehenden zu betrachten (auch wenn dasnatürlich nützlich wäre).

3.1 Der Zeitbegriff beiNeuronalen Netzen

Bei manchen Definitionen verwenden wirin dieser Arbeit einen Begriff der Zeit bzw.der Durchlaufanzahl des Neuronalen Net-zes. Die Zeitrechnung unterteilt sich hier-bei in diskrete Zeitschritte:

DiskreteZeitschritte

Definition 3.1 (Zeitbegriff). Die aktu-elle Zeit (Jetzt-Zeit) wird dabei als (t)bezeichnet, der nächste Zeitschritt mit(t + 1), der vorherige mit (t − 1) und

(t)I sämtliche anderen analog. Beziehen sich

verschiedene mathematische Größen (z.B.netj oder oi) in den folgenden Kapiteln aufeinen bestimmten Zeitpunkt, so lautet dieSchreibweise hierfür z.B. netj(t − 1) oderoi(t).

Biologisch ist das natürlich nicht sehr plau-sibel (bei unserem Gehirn wartet auch keinNeuron auf ein anderes), aber die Imple-mentierung wird dadurch ganz wesentlichvereinfacht.

3.2 Bestandteile NeuronalerNetze

Ein technisches Neuronales Netzbesteht aus simplen Recheneinheiten,den Neuronen, sowie gerichteten,gewichteten Verbindungen zwischendiesen. Die Verbindungsstärke (bzw.das Verbindungsgewicht) zwischen zwei

35

Kapitel 3 Bausteine künstlicher Neuronaler Netze (wichtige Grundlagen) dkriesel.com

Neuronen i und j wollen wir als wi,jbezeichnen1.

Definition 3.2 (Neuronales Netz). EinNeuronales Netz ist ein sortiertes Tri-pel (N,V,w) mit zwei Mengen N , V so-wie einer Funktion w, wobei N die Mengeder Neurone bezeichnet und V eine Menge(i, j)|i, j ∈ N ist, deren Elemente Ver-bindungen von Neuron i zu Neuron j hei-ßen. Die Funktion w : V → R definiert die

Neuro. Netz= Neurone

+ gewichteteVerbindung

Gewichte, wobei w((i, j)), das Gewichtder Verbindung von Neuron i zu Neuronj, kurz mit wi,j bezeichnet wird. Sie ist je

wi,jI nach Auffassung entweder undefiniert oder0 für Verbindungen, welche in dem Netznicht existieren.

SNIPE: In Snipe instantiiert manzunächst ein Objekt der KlasseNeuralNetworkDescriptor, dass dengroben Umriss eines Netzes definiert(z.B. die Anzahl der Neuronenschich-ten). Mittels des Descriptors kann mandann beliebig viele konkrete NeuronaleNetze in Form von Objekten der KlasseNeuralNetwork instantiieren. Um mit derSnipe-Programmierung anzufangen, sinddie Dokumentationen genau dieser beidenKlassen – in dieser Ordnung – der richtigeOrt zum Lesen. Dieses Layout aus Des-criptor und abhängigen konkreten Netzenist implementierungstechnisch durchaussinnvoll, denn man kann damit effizientauch große Mengen ähnlicher (aber nichtunbedingt gleicher) Netze erzeugen, undverschiedene Parameter zentral ändern.

1 Vorsicht beim Literaturstudium: Bei manchen Li-teraturstellen können die i und j in wi,j vertauschtsein – hier gibt es keinen einheitlichen Standard.Generell bemühe ich mich aber, in diesem Skrip-tum die Schreibweise zu finden, die ich häufigerund an prominenteren Literaturstellen antreffe.

Die Gewichtungen lassen sich also in einerquadratischen Gewichtsmatrix W oderwahlweise einem Gewichtsvektor W im- JWplementieren, wobei im Falle der Matrixdie Zeilennummer angibt, von wo die Ver-bindung ausgeht, und die Spaltennummer,welches Neuron ihr Ziel ist. In diesem Fallmarkiert die Zahl 0 in der Tat eine nichtexistierende Verbindung. Diese Matrixdar-stellung wird auch Hinton-Darstellunggenannt2.

Die Neurone und Verbindungen sind ihrer-seits aus folgenden Bestandteilen und Grö-ßen zusammengesetzt (ich gehe dabei denWeg, den die Daten innerhalb eines Neu-rons nehmen, der Abb. 3.1 auf der rechtenSeite nach von oben nach unten):

3.2.1 Verbindungen übertragenInformationen, die von denNeuronen verarbeitet werden

Über die Verbindungen werden Daten zwi-schen Neuronen übertragen, wobei dasVerbindungsgewicht entweder verstärkendoder hemmend wirkt. Die Definition vonVerbindungen ist bereits in der Definitiondes Neuronalen Netzes eingeschlossen.

SNIPE: Verbindungsgewichtelassen sich mit der MethodeNeuralNetwork.setSynapse ändern.

2 Wieder Vorsicht bei Literaturstudium: Bei man-chen Literaturstellen können Achsen und Zeilenvertauscht sein. Auch hier gibt es keine Konsistenzüber die Gesamtliteratur.


dkriesel.com 3.2 Bestandteile Neuronaler Netze

Propagierungsfunktion (oft gewichtete Summe, verarbeitet

Eingaben zur Netzeingabe)

Ausgabefunktion (Erzeugt aus Aktivierung die Ausgabe,

ist oft Identität)

Aktivierungsfunktion (Erzeugt aus Netzeingabe und alter

Aktivierung die neue Aktivierung)

Eingaben anderer Neuronen Netzeingabe

Aktivierung Ausgabe zu anderen Neuronen

Propagierungsfunktion (oft gewichtete Summe, verarbeitet

Eingaben zur Netzeingabe)

Ausgabefunktion (Erzeugt aus Aktivierung die Ausgabe,

ist oft Identität)

Aktivierungsfunktion (Erzeugt aus Netzeingabe und alter

Aktivierung die neue Aktivierung)

Eingaben anderer Neuronen

Netzeingabe

Aktivierung

Ausgabe zu anderen Neuronen

Abbildung 3.1: Datenverarbeitung eines Neu-rons. Die Aktivierungsfunktion eines Neuronsbeinhaltet den Schwellenwert.

3.2.2 Die Propagierungsfunktionverwandelt vektorielleEingaben zur skalarenNetzeingabe

Wenn man ein Neuron j betrachtet, so fin-det man meistens eine ganze Menge Neu-rone, von denen eine Verbindung zu j aus-geht, die also Ausgaben an j weiterlei-ten.

Die Propagierungsfunktion nimmt fürein Neuron j Ausgaben oi1 , . . . , oin andererNeurone i1, i2, . . . , in entgegen (von deneneine Verbindung zu j existiert), und ver-

VerwaltetEingabenarbeitet diese unter Berücksichtigung der

Verbindungsgewichte wi,j zur Netzeinga-be netj , welche von der Aktivierungsfunk-tion weiterverwendet werden kann. DieNetzeingabe ist also das Ergebnis derPropagierungsfunktion.

Definition 3.3 (Propagierungsfunkti-on und Netzeingabe). Es sei I =i1, i2, . . . , in die Menge der Neurone, beidenen gilt ∀z ∈ 1, . . . , n : ∃wiz ,j . Dannberechnet sich die Netzeingabe von j, ge-nannt netj , durch die Propagierungsfunk-tion fprop:

netj = fprop(oi1 , . . . , oin , wi1,j , . . . , win,j)(3.1)

Beliebt ist hier die Gewichtete Summe:Die Multiplikation der Ausgabe eines je-den imit wi,j , und die Aufsummierung derErgebnisse:

netj =∑i∈I

(oi · wi,j) (3.2)



SNIPE: Die Gewichtete Summe ist exaktso in Snipe als Propagierungsfunktion rea-lisiert.

3.2.3 Die Aktivierung ist der„Schaltzustand“ eines Neurons

Nach dem Vorbild der Natur ist jedes Neu-ron zu jeder Zeit zu einem bestimmtenGrad aktiv, gereizt, oder was man sonst fürAusdrücke verwenden möchte. Von diesemAktivierungszustand hängen die Reaktio-nen des Neurons auf Eingaben ab. Der Ak-

Wie aktivist ein

Neuron?tivierungszustand gibt also den Grad derAktivierung eines Neurons an und wirdoft kurz als Aktivierung bezeichnet. Sei-ne formale Definition wird von der gleichfolgenden Definition der Aktivierungsfunk-tion eingeschlossen. Allgemein kann manaber definieren:

Definition 3.4 (Aktivierungszustand /Aktivierung allgemein). Sei j Neuron.Der Aktivierungszustand aj , kurz Aktivie-rung genannt, ist j eindeutig zugeordnet,bezeichnet den Grad der Aktivität desNeurons und ergibt sich aus der Aktivie-rungsfunktion.

SNIPE: Der Aktivierungszustand von Neu-ronen lässt sich mit den MethodengetActivation bzw. setActivation derKlasse NeuralNetwork abrufen bzw. set-zen.

3.2.4 Neuronen werden aktiviert,wenn die Netzeingabe ihrenSchwellenwert überschreitet

Um den Schwellenwert herum reagiert dieAktivierungsfunktion eines Neurons beson-ders empfindlich. Biologisch gesehen stelltder Schwellenwert die Reizschwelle dar, abder ein Neuron feuert. Der Schwellenwert

StellehöchsterEmpfindung

wird ebenfalls weitestgehend in der De-finition der Aktivierungsfunktion mitdefi-niert, allerdings kann man allgemein defi-nieren:

Definition 3.5 (Schwellenwert allge-mein). Sei j Neuron. Der SchwellenwertΘj ist j eindeutig zugeordnet und markiert JΘdie Stelle der größten Steigung der Aktivie-rungsfunktion.

3.2.5 Die Aktivierungsfunktionberechnet abhängig vonSchwellenwert undNetzeingabe, wie stark einNeuron aktiviert ist

Wie wir schon gehört haben, hängt dieAktivierung aj eines Neurons j zu einembestimmten Zeitpunkt davon ab, wie akti-viert das Neuron bereits war3 und welcheEingaben es von außen erhalten hat.

Definition 3.6 (Aktivierungsfunktionund Aktivierung). Sei j Neuron. Die Ak-

BerechnetAktivierung

3 Die vorherige Aktivierung muss nicht immer in dieBerechnung des neuen Aktivierungszustandes mit-einbezogen werden – wir werden für beide Varian-ten Beispiele kennenlernen.


dkriesel.com 3.2 Bestandteile Neuronaler Netze

tivierungsfunktion ist definiert als

aj(t) = fact(netj(t), aj(t− 1),Θj) (3.3)

und verarbeitet also die Netzeingabe netjfactI und den alten Aktivierungszustand aj(t −

1) zu einem neuen Aktivierungszustandaj(t), wobei der Schwellenwert Θ wie obenschon erläutert eine große Rolle spielt.

Im Unterschied zu anderen Größen inner-halb des Neuronalen Netzes (insbesonde-re zu den bisher definierten) ist die Ak-tivierungsfunktion oft global für alle oderzumindest eine Menge von Neuronen de-finiert, nur die Schwellenwerte unterschei-den sich dann von Neuron zu Neuron.Auch sollten wir im Hinterkopf behalten,dass sich die Schwellenwerte z.B. durcheinen Lernvorgang ändern sollten, so dasses insbesondere nötig werden kann, dieSchwellenwerte auf die Zeit zu beziehenund z.B. Θj als Θj(t) zu schreiben (dashabe ich hier der Übersichtlichkeit zuliebeerst einmal unterlassen). Die Aktivierungs-funktion wird auch oft als Transferfunk-tion bezeichnet.

SNIPE: Aktivierungsfunktionen sind inSnipe generalisiert zu „Neuronenverhal-tensweisen“ (Neuron Behaviors). Diesekönnen zum einen ganz normale Aktivie-rungsfunktionen repräsentieren, aber auchinterne Zustände besitzen. DiesbezüglicheProgrammbestandteile befinden sich imPaket neuronbehavior, wo auch einigeder gleich vorgestellten Aktivierungsfunk-tionen implementiert sind. Das InterfaceNeuronBehavior erlaubt die Implementie-rung eigener Verhaltensweisen. Objekte,die von diesem Interface erben, könneneinem NeuralNetworkDescriptor überge-ben werden; pro Neuronenschicht kann ei-

ne Neuronenverhaltensweise festgelegt wer-den.

3.2.6 GängigeAktivierungsfunktionen

Die einfachste Aktivierungsfunktion istdie binäre Schwellenwertfunktion(Abb. 3.2 auf der folgenden Seite), welchenur zwei Werte annehmen kann (auchHeaviside-Funktion genannt). Siewechselt am Schwellenwert von einemWert auf den andern, ist aber ansonstenkonstant. Dies impliziert, dass sie amSchwellenwert nicht differenzierbarist und die Ableitung ansonsten 0ist. Dies macht z.B. das Lernen mitBackpropagation unmöglich (spätermehr dazu). Beliebt ist weiterhin dieauch Logistische Funktion genannteFermifunktion (Abb. 3.2)

11 + e−x , (3.4)

welche einen Wertebereich von (0, 1) auf-weist, sowie der Tangens Hyperbolicus(Abb. 3.2) mit einem Wertebereich von(−1, 1) – beide differenzierbar. Die Fermi-funktion ist einfach um einen Tempera-turparameter T zu der Form JT

11 + e−xT

(3.5)

erweiterbar, der, je kleiner man ihn wählt,die Funktion auf der x-Achse zusammen-staucht. So kann man sie beliebig an dieHeaviside-Funktion annähern. Es existie-ren übrigens auch Aktivierungsfunktionen,



welche nicht eindeutig bestimmt sind, son-dern nach einer Zufallsverteilung von derEingabe abhängen (stochastische Aktivie-rungsfunktionen).

Eine wirklich erwähnenswerte Alternati-ve zum Tangens Hyperbolicus wurde vonAnguita et al. vorgeschlagen [APZ93]. In-spiriert von den eher langsamen Compu-tern, die es 1993 gab, haben sie sich Ge-danken gemacht, wie man ein Neurona-les Netz beschleunigen könnte, und kamenschnell darauf, dass die Approximation dere-Funktion im Tangens Hyperbolicus re-chenzeitmäßig sehr lange dauert. So habensie den Tangens Hyperbolicus näherungs-weise mit zwei Parabelbögen und zweiHalbgeraden nachgebaut. Die resultieren-de Funktion bietet zwar statt des Wertebe-richs von [−1; 1] „nur“ einen Wertebereichvon [−0.96016; 0.96016], lässt sich aber – jenach CPU – um den Faktor 200 schnellermittels einer Addition und zwei Multipli-kationen berechnen und bietet auch nochweitere Vorteile, die an anderer Stelle ge-nannt werden.

SNIPE:Die hier vorgestellten stetigen Akti-vierungsfunktionen finden sich in den Klas-sen Fermi sowie TangensHyperbolicusim Paket neuronbehavior wieder. Dieschnelle Approximation des Tangens Hy-perbolicus befindet sich in der KlasseTangensHyperbolicusAnguita.

−1

−0.5

0

0.5

1

−4 −2 0 2 4

f(x)

x

Heaviside−Funktion

0

0.2

0.4

0.6

0.8

1

−4 −2 0 2 4

f(x)

x

Fermi−Funktion mit Temperaturparameter

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

−4 −2 0 2 4

tanh

(x)

x

Tangens Hyperbolicus

Abbildung 3.2: Verschiedene gängige Akti-vierungsfunktionen, von oben nach unten:Heaviside- bzw. Binäre Schwellenwertfunktion,Fermifunktion, Tangens hyperbolicus. Die Fermi-funktion wurde um einen Temperaturparametererweitert. Die ursprüngliche Fermifunktion isthierbei dunkel herausgestellt, die Temperaturpa-rameter bei den modifizierten Fermifunktionenbetragen (aufsteigend geordnet nach Anstieg)12 ,

15 ,

110 und 1

25 .


dkriesel.com 3.3 Verschiedene Netztopologien

3.2.7 Eine Ausgabefunktion kanngenutzt werden, um dieAktivierung nochmals zuverarbeiten

DieAusgabefunktion eines Neurons j be-rechnet die Werte, die an die anderen Neu-rone, zu welchen eine Verbindung von j be-steht, weitergegeben werden. Formaler:Definition 3.7 (Ausgabefunktion). Sei j

Gibt Infoszu anderenNeuronen

Neuron. Die Ausgabefunktion

fout(aj) = oj (3.6)

berechnet dann den Ausgabewert oj desfoutI Neurons j aus seinem Aktivierungszustand

aj .

Auch die Ausgabefunktion ist i.d.R. globaldefiniert. Oft ist diese Funktion die Identi-tät, d.h. es wird direkt die Aktivierung ajausgegeben4:

fout(aj) = aj , also oj = aj (3.7)

Solange nicht explizit anders angegeben,werden wir innerhalb dieser Arbeit dieIdentität als Ausgabefunktion verwen-den.

3.2.8 Lernverfahren passen ein Netzauf unsere Bedürfnisse an

Da wir uns diesem Thema später noch sehrausführlich widmen werden und erst ein-mal die Grundsätze des Aufbaus Neurona-ler Netze kennen lernen möchten, sei hiernur kurz und allgemein definiert:4 Andere Definitionen der Ausgabe können sinnreichsein, wenn der Wertebereich einer Aktivierungs-funktion nicht ausreichend ist.

Definition 3.8 (Lernregel, allgemein).Ein Lernverfahren ist ein Algorithmus,der das Neuronale Netz verändert und ihmso beibringt, für eine vorgegebene Eingabeeine gewünschte Ausgabe zu produzieren.

3.3 VerschiedeneNetztopologien

Nachdem wir nun den Aufbau der Bestand-teile Neuronaler Netze kennengelernt ha-ben, möchte ich einen Überblick über diegängigen Topologien (= Bauarten) vonNeuronalen Netzen geben – also aus denBausteinen Netze bauen. Jede beschriebe-ne Topologie wird sowohl mit Abbildungals auch durch seine Hinton-Darstellung il-lustriert, damit der Leser sofort die Cha-rakteristika sehen und bei der Betrach-tung anderer Netze anwenden kann.

Die gepunktet eingezeichneten Gewichtewerden in der Hinton-Darstellung als hell-graue Kästchen dargestellt, die durchge-zogenen als dunkelgraue. Die der Über-sichtlichkeit halber hinzugefügten Input-und Outputpfeile sind in der Hinton-Darstellung nicht zu finden. Um zu ver-deutlichen, dass die Verbindungen von denZeilenneuronen zu den Spaltenneuronengehen, ist in der oberen linken Zelle derkleine Pfeil eingefügt.

SNIPE: Snipe ist dafür ausgelegt, ver-schiedenste Netztopologien realisieren zukönnen. Hierfür unterscheidet Snipe ver-schiedene Synapsenklassen (abhängig vonSynapsenstart und -Ziel), die in einerNeuralNetworkDescriptor-Instanz für diedavon abhängenden Netze nach Belieben



mittels der setAllowed-Methoden erlaubtoder verboten werden können.

3.3.1 FeedForward-Netze bestehenaus Schichten undVerbindungen zur jeweilsnächsten Schicht

FeedForward-Netze (Abb. 3.3 auf derrechten Seite) sind in dieser Arbeit dieNetze, die wir zunächst erforschen wer-den (wenn auch später andere Topo-logien verwendet werden). Die Neuro-ne sind in Schichten eingeteilt: Eine

Netz inSchichten Eingabeschicht, n versteckte Verar-

beitungsschichten (unsichtbar von au-ßen, weswegen man die Neurone darinauch als versteckt bezeichnet) und ei-ne Ausgabeschicht. Die Verbindungenvon einem jeden Neuron dürfen bei ei-nem FeedForward-Netz ausschließlich einNeuron der nächsten Schicht (in Rich-tung Ausgabeschicht) treffen. Die fürein FeedForward-Netz zugelassenen Ver-bindungen sind in Abb. 3.3 auf der rech-ten Seite durchgezogen dargestellt. Sehroft begegnet man FeedForward-Netzen,in denen jedes Neuron i eine Verbin-dung zu allen Neuronen der nachfolgendenSchicht besitzt (diese Schichten nennt mandann untereinander vollverknüpft). Out-putneurone werden zur Vermeidung vonBenennungskonflikten oft mit Ω bezeich-net.

Definition 3.9 (FeedForward-Netz). EinFeedForward-Netz (Abb. 3.3 auf der rech-ten Seite) besitzt klar abgetrennte Schich-ten von Neuronen: Eine Eingabeschicht, ei-

ne Ausgabeschicht und beliebig viele in-nere, von außen nicht sichtbare Verarbei-tungsschichten (auch versteckte Schichtenbzw. hidden layer genannt). Verbindungensind nur zu Neuronen der jeweils nächstenSchicht erlaubt.

3.3.1.1 ShortCut-Verbindungenüberspringen Schichten

ShortCutsüberspringenSchichten

Manche FeedForward-Netze gestatten sog.ShortCut-Connections (Abb. 3.4 aufder rechten Seite): Verbindungen, wel-che eine oder mehrere Ebenen übersprin-gen. Auch diese Verbindungen dürfen aus-schließlich in Richtung der Ausgabeschichtzeigen.

Definition 3.10 (FeedForward-Netzmit ShortCut-Connections). Wiebeim FeedForward-Netz, doch dürfenVerbindungen nicht nur die nächste,sondern auch jede andere nachfolgendeSchicht zum Ziel haben.

3.3.2 Rückgekoppelte Netzebeeinflussen sich selbst

Man spricht von einer Rückkopplungoder Rekurrenz, wenn ein Neuron sichauf irgendeine Weise oder durch irgend-einen Verbindungsweg selbst beeinflussenkann. Bei rückgekoppelten oder rekurren-ten Netzen sind nicht immer Input- oderOutputneurone explizit definiert, daherlasse ich die diesbezügliche Beschriftung inden Abbildungen weg und nummeriere dieNeurone nur durch.



GFED@ABCi1

~~

AAAAAAAAA

**UUUUUUUUUUUUUUUUUUUUUUUUUU GFED@ABCi2

ttiiiiiiiiiiiiiiiiiiiiiiiiii

~~

AAAAAAAAA

GFED@ABCh1

AAAAAAAAA

**UUUUUUUUUUUUUUUUUUUUUUUUUU GFED@ABCh2

~~

AAAAAAAAAGFED@ABCh3

~~


GFED@ABCΩ1

GFED@ABCΩ2

i1 i2 h1 h2 h3 Ω1 Ω2i1i2h1h2h3Ω1Ω2

Abbildung 3.3: Ein FeedForward-Netz mit dreiSchichten: Zwei Inputneurone, drei versteckteNeurone und zwei Outputneurone. Charakteris-tisch in der Hinton-Darstellung für vollverknüpf-te FeedForward-Netze: Die Blockbildung überder Diagonalen.

GFED@ABCi1

++

~~ **

GFED@ABCi2

ss

tt ~~ GFED@ABCh1

**

GFED@ABCh2

~~

GFED@ABCh3

~~ttGFED@ABCΩ1

GFED@ABCΩ2

i1 i2 h1 h2 h3 Ω1 Ω2i1i2h1h2h3Ω1Ω2

Abbildung 3.4: Ein FeedForward-Netzmit durchgezogen dargestellten Shortcut-Connections. Rechts der FeedForward-Blöckesind in der Hinton-Darstellung neue Verbindun-gen hinzugekommen.



3.3.2.1 Direkte Rückkopplungenstarten und enden andemselben Neuron

Manche Netze lassen Verbindungen voneinem Neuron zu sich selbst zu, was alsdirekte Rückkopplung (manchmal auchSelbstrückkopplung oder Selbstrekurrenz)bezeichnet wird (Abb. 3.5). Neurone hem-men und stärken sich so selbst, um an ihreAktivierungsgrenzen zu gelangen.Definition 3.11 (Direkte Rückkopplung).Wir erweitern wieder das FeedForward-

Neuronebeeinflussensich selbst

Netz, diesmal um Verbindungen von ei-nem Neuron j zu sich selbst, deren Ge-wichte dann den Namen wj,j tragen. An-ders ausgedrückt darf die Diagonale derGewichtsmatrix W ungleich 0 sein.

3.3.2.2 Indirekte Rückkopplungenbeeinflussen ihr Startneuronnur über Umwege

Sind Verbindungen in Richtung der Einga-beschicht gestattet, so nennt man diese in-direkte Rückkopplungen. Ein Neuron jkann sich dann durch Umwege nach vorneselbst beeinflussen, indem es z.B. die Neu-rone der nächsten Schicht beeinflusst unddie Neurone dieser nächsten Schicht wie-der j (Abb. 3.6 auf der rechten Seite).Definition 3.12 (Indirekte Rückkopp-lung). Wieder vom FeedForward-Netzausgehend, sind diesmal zusätzlich Ver-bindungen von Neuronen zur vorherigenSchicht erlaubt, also dürfen die Werte imBereich unter der Diagonalen von W un-gleich 0 sein.

?>=<89:;1vv

))

?>=<89:;2vv

uu ?>=<89:;3vv

))

?>=<89:;4vv

?>=<89:;5vv

uu?>=<89:;6vv ?>=<89:;7

vv

1 2 3 4 5 6 71234567

Abbildung 3.5: Ein FeedForward-ähnlichesNetz mit direkt rückgekoppelten Neuronen.Die direkten Rückkopplungen sind durch-gezogen dargestellt. Sie entsprechen in derHinton-Darstellung genau der Diagonalen derMatrix.



?>=<89:;1

))

?>=<89:;2

uu ?>=<89:;3

88 22

))

?>=<89:;4

XX 88

?>=<89:;5

XXgg

uu?>=<89:;6

XX 88 22

?>=<89:;7

gg XX 88

1 2 3 4 5 6 71234567

Abbildung 3.6: Ein FeedForward-ähnlichesNetz mit indirekt rückgekoppelten Neuronen.Die indirekten Rückkopplungen sind durchge-zogen dargestellt. Wie wir sehen, können hierauch Verbindungen zu vorherigen Schichtenexistieren. Die zu den FeedForward-Blöckensymmetrischen Felder in der Hinton-Darstellungsind nun belegt.

3.3.2.3 Laterale Rückkopplungenverbinden Neuronen in ein- undderselben Ebene

Verbindungen von Neuronen innerhalb ei-ner Ebene heißen laterale Rückkopp-lungen (Abb. 3.7 auf der folgenden Sei-te). Oft hemmt hier jedes Neuron die an-deren Neurone der Ebene und verstärktsich selbst, es wird dann nur das stärks-te Neuron aktiv (Winner-Takes-All-Schema).

Definition 3.13 (Laterale Rückkopp-lung). Ein lateral rückgekoppeltes Netzerlaubt Verbindungen innerhalb einerSchicht.

3.3.3 Vollständig verbundene Netzeerlauben jede denkbareVerbindung

Vollständig verbundene Netze erlaubenVerbindungen zwischen allen Neuronen,außer direkten Rückkopplungen; außer-dem müssen die Verbindungen symme-trisch sein (Abb. 3.8 auf der folgenden Sei-te). Ein populäres Beispiel sind die selbst-organisierenden Karten, welche in Kap. 10vorgestellt werden.

Definition 3.14 (Vollständiger Verbund).Hier darf prinzipiell jedes Neuron zu je-dem eine Verbindung unterhalten – aller-dings kann so auch jedes Neuron Eingabe-neuron werden, weshalb direkte Rückkopp-lungen i.d.R. hier nicht angewandt wer-den, und es keine klar definierten Schich-ten mehr gibt. Die Matrix W darf also



?>=<89:;1 ++kk

))

?>=<89:;2

uu ?>=<89:;3 ++kk **jj

))

?>=<89:;4 ++kk

?>=<89:;5

uu?>=<89:;6 ++kk ?>=<89:;7

1 2 3 4 5 6 71234567

Abbildung 3.7: Ein FeedForward-ähnlichesNetz mit lateral rückgekoppelten Neuronen. Diedirekten Rückkopplungen sind durchgezogendargestellt. Rückkopplungen existieren hier nurebenenweise. In der Hinton-Darstellung sam-meln sich um die Diagonale gefüllte Quadratein Höhe der FeedForward-Blöcke an, die jedochdie Diagonale frei lassen.

?>=<89:;1 ii

ii

))TTTTTTTTTTTTTTTTTTTTTTTOO

oo //^^

>>>>>>>>>?>=<89:;255

uujjjjjjjjjjjjjjjjjjjjjjj OO

@@

^^

>>>>>>>>>

?>=<89:;3 ii

))TTTTTTTTTTTTTTTTTTTTTTToo //

@@ ?>=<89:;4 ?>=<89:;544jj 55

uujjjjjjjjjjjjjjjjjjjjjjj//oo@@

?>=<89:;6

55

@@

^>>>>>>>>> ?>=<89:;7//oo

^>>>>>>>>>

1 2 3 4 5 6 71234567

Abbildung 3.8: Ein vollständig verbundenesNetz mit symmetrischen Verbindungen, ohne di-rekte Rückkopplungen. Nur die Diagonale in derHinton-Darstellung bleibt frei.

überall ungleich 0 sein, außer auf ihrer Dia-gonalen.

3.4 Das Biasneuron ist eintechnischer Trick,Schwellwerte alsVerbindungsgewichte zubehandeln

Wir wissen mittlerweile, dass Neurone invielen Netzparadigmen einen Schwellen-wert besitzen, der angibt, ab wann ein


dkriesel.com 3.4 Das Biasneuron

Neuron aktiv ist. Der Schwellenwert ist al-so ein Parameter der Aktivierungsfunkti-on eines Neurons. Dies ist zwar biologischam plausibelsten, es ist jedoch kompliziert,zwecks Training des Schwellenwerts zurLaufzeit auf die Aktivierungsfunktion zu-zugreifen.

Man kann allerdings SchwellenwerteΘj1 , . . . ,Θjn für Neurone j1, j2, . . . , jnauch als Gewicht einer Verbindung voneinem immer feuernden Neuron reali-sieren: Zu diesem Zweck integriert manein zusätzliches, immer 1 ausgebendesBiasneuron in das Netz, verbindet esmit den Neuronen j1, j2, . . . , jn und gibtdiesen neuen Verbindungen die Gewichte−Θj1 , . . . ,−Θjn , also die negativenSchwellenwerte.

Definition 3.15. Ein Biasneuron istein Neuron, welches immer 1 ausgibt undals GFED@ABCBIAS

dargestellt wird. Es wird verwendet, umSchwellwerte als Gewichte zu repräsentie-ren, so dass beliebige Lernverfahren siedirekt mitsamt den Gewichten trainierenkönnen.

Den Schwellenwert der Neuronej1, j2, . . . , jn setzt man dann auf 0. Nunsind die Schwellenwerte als Verbindungs-gewichte implementiert (Abb. 3.9 aufder folgenden Seite) und können beimTraining von Verbindungsgewichtendirekt mittrainiert werden, was uns dasLernen erheblich vereinfacht.

Anders ausgedrückt: Wir verschieben dieEinrechnung des Schwellenwerts von der

Aktivierungsfunktion in die Propagie-rungsfunktion. Noch kürzer: Der Schwel-lenwert wird jetzt einfach von der Netzein-gabe subtrahiert, ist also Teil der Netzein-gabe. Formaler:

BiasneuronersetztSchwellenw.durchGewichte

Seien j1, j2, . . . , jn Neurone mitSchwellenwerten Θj1 , . . . ,Θjn . DurchEinsetzen eines immer 1 ausgebendenBiasneurons, Erstellen von Verbindungenvon diesem zu den Neuronen j1, j2, . . . , jnund Gewichtung dieser VerbindungenwBIAS,j1 , . . . , wBIAS,jnmit −Θj1 , . . . ,−Θjn

kann man Θj1 = . . . = Θjn = 0 setzenund erhält ein äquivalentes NeuronalesNetz, bei dem sämtliche Schwellenwertedurch Verbindungsgewichte realisiertsind.

Der Vorteil des Biasneurons ist ohne Zwei-fel die vielfach einfachere Implementie-rung des Netzes. Als Nachteil sei genannt,dass die Darstellung des Netzes schon beinur wenigen Neuronen recht unansehnlichwird, von einer großen Neuronenanzahlganz zu schweigen. Übrigens wird ein Bias-neuron auch oft On-Neuron genannt.

Wir wollen mit dem Biasneuron so verfah-ren, dass es ab hier der Übersichtlichkeithalber nicht mehr mit abgebildet wird, wiraber wissen, dass es so etwas gibt und dassman die Schwellenwerte damit einfach alsGewichte behandeln kann.

SNIPE: Auch in Snipe wurde anstattSchwellwerten ein Biasneuron implemen-tiert, es trägt den Index 0.



GFED@ABCΘ1

BBBBBBBBB

~~|||||||||

GFED@ABCΘ2

GFED@ABCΘ3

GFED@ABCBIAS −Θ1 //

−Θ2AAAA

AAAA −Θ3TTTTTTTTTT

**TTTTTTTTTT

?>=<89:;0

?>=<89:;0

?>=<89:;0

Abbildung 3.9: Zwei äquivalente Neuronale Netze, links eins ohne, rechts eins mit Biasneuron. DieNeuronenschwellenwerte stehen in den Neuronen, Verbindungsgewichte an den Verbindungen. DerÜbersichtlichkeit zuliebe habe ich Gewichte der schon vorhandenen (rechts gepunktet dargestellten)Verbindungen nicht extra aufgeschrieben.

3.5 Darstellung von Neuronen

Wir haben oben bereits gesehen, dass manin Neuronen ihren Namen oder aber ihrenSchwellenwert schreiben kann. Eine weite-re sinnvolle Darstellungsmethode, welchewir auch in der weiteren Arbeit mehrfachanwenden werden, ist, Neurone nach ihrerDatenverarbeitungsart darzustellen. Eini-ge Beispiele ohne weitere Erläuterungenseien in Abb. 3.10 gegeben – erläutertwerden die Neuronenarten, sobald sie ge-braucht werden.

WVUTPQRS||c,x||Gauß

GFED@ABC ONMLHIJKΣ

WVUTPQRSΣL|H

WVUTPQRSΣTanh

WVUTPQRSΣFermi

ONMLHIJKΣfact

GFED@ABCBIAS

Abbildung 3.10: Verschiedene Neuronenarten,denen wir im Text noch begegnen werden.

3.6 Es ist nicht egal, inwelcher ReihenfolgeNeuronenaktivierungenberechnet werden

Für ein Neuronales Netz ist es von großerBedeutung, in welcher Reihenfolge die


dkriesel.com 3.6 Aktivierungsreihenfolgen

einzelnen Neurone ihre Eingaben empfan-gen, verarbeiten, und Ergebnisse ausgeben.Hierbei werden zwei Modellklassen unter-schieden:

3.6.1 Synchrone Aktivierung

Alle Neurone ändern ihre Werte syn-chron, berechnen also simultan Netzein-gaben, Aktivierung und Ausgabe undgeben diese weiter. Synchrone Aktivie-rung kommt dem biologischen Vorbild amnächsten, macht aber – wenn sie in Hard-ware implementiert werden soll – nur aufbestimmten Parallelrechnern Sinn und spe-ziell keinen Sinn für FeedForward-Netze.Diese Variante ist die allgemeinste undkann mit Netzen beliebiger Topologie sinn-voll angewandt werden.

Definition 3.16 (Synchrone Aktivie-rung). Alle Neurone eines Netzes berech-

Biologischplausibel nen gleichzeitig Netzeingaben mittels Pro-

pagierungsfunktion, Aktivierung mittelsAktivierungsfunktion und Ausgabe mit-tels Ausgabefunktion. Hiernach ist der Ak-tivierungszyklus abgeschlossen.

SNIPE: Softwaretechnisch würde man die-se sehr allgemeine Aktivierungsreihenfol-ge realisieren, indem man in jedem neuenZeitschritt zunächst alle Netzeingaben ausden existierenden Aktivierungen berechnet,zwischenspeichert, und anschließend ausden Netzeingaben alle Aktivierungen. Undso ist das auch genau das, was in Snipepassiert, denn Snipe muss ja beliebige To-pologien realisieren können.

3.6.2 Asynchrone Aktivierung

Hier ändern die Neurone ihre Werte nichtsimultan, sondern zu verschiedenen Zeit-punkten. Hierfür gibt es verschiedene Ord-nungen, von denen ich ausgewählte vorstel-le:

Besser imple-mentierbar

3.6.2.1 Zufällige Ordnung

Definition 3.17 (Zufällige Aktivierungs-ordnung). Bei der zufälligen Aktivie-rungsordnung wird jeweils ein Neuron izufällig gewählt und dessen neti, ai undoi aktualisiert. Bei n vielen Neuronen istein Zyklus die n-malige Durchführung die-ses Schrittes. Offensichtlich werden man-che Neurone pro Zyklus mehrfach aktuali-siert, andere hingegen gar nicht.

Es ist klar, dass diese Aktivierungsord-nung nicht immer sinnreich ist.

3.6.2.2 Zufällige Permutation

Bei der Zufälligen Permutation wirdpro Zyklus jedes Neuron genau einmal be-rücksichtigt, das Ganze allerdings in zufäl-liger Reihenfolge.

Definition 3.18 (Zufällige Permutation).Zunächst wird eine Permutation der Neu-rone zufällig berechnet, welche die Aktivie-rungsreihenfolge festlegt. In dieser Reihen-folge werden die Neurone dann sukzessiveabgearbeitet.



Auch diese Aktivierungsreihenfolge wirdnicht oft eingesetzt, weil erstens die Rei-henfolge im Allgemeinen nicht sinnvoll istund es zweitens sehr zeit- bzw. rechenauf-wändig ist, bei jedem Zyklus eine neuePermutation zu berechnen. Wir werden inForm der Hopfield-Netze (Kap. 8) zwar ei-ne Topologie kennenlernen, welche nomi-nell eine zufällige oder zufällig permutierteAktivierungsreihenfolge besitzt – die prak-tische Umsetzung sieht dort allerdings soaus, dass man aus o.g. Gründen eine festeReihenfolge verwendet.

Bei allen Ordnungen können wahlweiseentweder die alten Aktivierungen der Neu-rone des Zeitpunkts t als Ausgangspunktgenommen werden, oder aber, wo vorhan-den, bereits die Aktivierungen des Zeit-punkts t+ 1, für den wir eigentlich geradedie Aktivierungen errechnen.

3.6.2.3 Topologische Ordnung

Definition 3.19 (Topologische Aktivie-rung). Bei der Topologischen Aktivie-

Oft sinnvollrungsordnung werden die Neurone proZyklus in fester Ordnung aktualisiert, wel-che durch die Netztopologie definiert ist.

Dieses Verfahren kommt nur für zyklen-freie, also rückkopplungsfreie Netze in Fra-ge, da man sonst keine Aktivierungsreihen-folge finden kann. In FeedForward-Netzen(für die das Verfahren äußerst günstig ist)würden so erst die Eingabeneurone aktuali-siert, danach die inneren Neurone, als letz-tes die Ausgabeneurone. Dies spart eineMenge Zeit: Bei synchroner Aktivierung

würde man für ein Feed-Forward-Netz mitdrei Schichten beispielsweise drei vollstän-dige Propagierungszyklen benötigen, da-mit eine Eingabe auch Auswirkungen aufdie Ausgabeneurone haben kann. Mittelstopologischer Aktivierung ist dies mit nureinem Propagierungszyklus geschafft. Al-lerdings lässt sich nicht für jede Netzto-pologie eine sinnvolle Ordnung finden, umauf diese Weise Zeit zu sparen.

SNIPE: Wenn der Leser mit SnipeFeedForward-Netze realisieren und auf die-se Weise Rechenzeit einsparen möchte, sokann er in der Dokumentation zur KlasseNeuralNetworkDescriptor nach der Funk-tion Fastprop suchen und diese aktivie-ren. Während der Propagierung werdendie Neurone dann nacheinander durchge-gangen und für jedes Neuron Netzeingabeund Aktivierung auf einmal berechnet. Dadie Neurone von Eingabeschicht über dieverschiedenen Schichten bis hin zur Ausga-beschicht durchgehend aufsteigend numme-riert sind, entspricht diese Propagierungs-variante der topologisch sinnvollen Ord-nung für FeedForward-Netze.

3.6.2.4 Feste Aktivierungsordnungen inder Implementierung

Offensichtlich kann man sich auch festeAktivierungsordnungen definieren. Esist daher eine beliebte Methode bei derImplementierung von z.B. FeedForward-Netzen, die Aktivierungsreihenfolge ein-mal nach der Topologie zu ermitteln undzur Laufzeit diese ermittelte Reihenfolgeohne weitere Prüfung weiter zu verwenden.Dies ist jedoch bei Netzen, die ihre Topo-logie verändern können, nicht unbedingtsinnvoll.


dkriesel.com 3.7 Ein- und Ausgabe von Daten

3.7 Kommunikation mit derAußenwelt: Ein- undAusgabe von Daten inund von NeuronalenNetzen

Zuletzt sei noch betrachtet, dass in vie-le Arten von Neuronalen Netzen natürlichauch Daten eingegeben werden können.Diese werden dann verarbeitet und kön-nen eine Ausgabe hervorrufen. Betrachtenwir beispielsweise das FeedForward-Netzaus Abb. 3.3 auf Seite 43: Es hat zweiEingabe- und zwei Ausgabeneurone, alsoauch zwei numerische Eingaben x1, x2 undAusgaben y1, y2. Diese Schreibweise wirdnatürlich für Netze mit vielen Ein- undAusgabeneuronen mühselig – insofern ma-chen wir es uns einfach und fassen dieEin- und Ausgabekomponenten für n Ein-bzw. Ausgabeneurone in den Vektoren x =(x1, x2, . . . , xn) und y = (y1, y2, . . . , yn) zu-sammen.

Definition 3.20 (Eingabevektor). EinxI Netz mit n vielen Eingabeneuronen be-

nötigt n Eingaben x1, x2, . . . , xn. Wirfassen diese als Eingabevektor x =(x1, x2, . . . , xn) auf. Die Eingabedimen-sion bezeichnen wir also mit n. Daten

nI werden in ein Neuronales Netz eingegeben,indem die Komponenten des Eingabevek-tors einfach bei den Eingabeneuronen alsNetzeingabe verwendet werden.

Definition 3.21 (Ausgabevektor). EinyI Netz mit m vielen Ausgabeneuronen

liefert m Ausgaben y1, y2, . . . , ym. Wirfassen diese als Ausgabevektor y =

(y1, y2, . . . , ym) auf. Die Ausgabedimen-sion bezeichnen wir also mit m. Daten Jmwerden von einem Neuronalen Netz ausge-geben, indem die Komponenten des Aus-gabevektors von den Ausgabewerten derAusgabeneurone übernommen werden.

SNIPE: Um Daten durch eineNeuralNetwork-Instanz zu propagie-ren, wird die propagate-Methode genutzt.Sie nimmt den Eingabevektor als Arrayvon Doubles entgegen und liefert einenebensolchen Ausgabevektor.

Wir haben nun die Grundbausteine derNeuronalen Netze definiert und näher be-trachtet – ohne jedoch ein Netz einmal inAktion zu sehen. Wir wollen mit dieserrein erklärenden Ansicht zunächst etwasweiter fortfahren und ganz allgemein be-schreiben, wie ein Neuronales Netz lernenkönnte.

Übungsaufgaben

Aufgabe 5. Ist es (Ihrer Meinung nach)sinnvoll, bei schichtenbasierten Netzen wiez.B. FeedForward-Netzen ein Biasneuronpro Schicht einzufügen? Erörtern Sie diesin Bezug auf die Darstellung und die Im-plementierung des Netzes. Ändert sich et-was am Ergebnis des Netzes?

Aufgabe 6. Zeigen Sie sowohl für die Fer-mifunktion f(x), als auch für den TangensHyperbolicus tanh(x), dass sich die Ablei-tungen der Funktionen durch die Funktionselbst ausdrücken lassen, dass also die bei-den Behauptungen



1. f ′(x) = f(x) · (1− f(x)) und

2. tanh′(x) = 1− tanh2(x)

gelten.


Kapitel 4

Grundlagen zu Lernprozess undTrainingsbeispielen

Ansätze und Gedanken, auf welche Arten Maschinen etwas beizubringen ist.Korrigiert man Neuronale Netze? Bestärkt man sie nur? Lässt man sie gar

ganz alleine ohne Hilfe lernen? Gedanken darüber, was wir während desLernvorganges überhaupt verändern möchten, wie wir es verändern, über

Fehlermessung und wann wir mit dem Lernen fertig sind.

Wie schon beschrieben, besteht das in-teressanteste Merkmal Neuronaler Netzein ihrer Fähigkeit, sich Problemen durchTraining vertraut zu machen und, nachausreichendem Training, auch bis dato un-bekannte Probleme derselben Klasse lösenzu können, was man alsGeneralisierungbezeichnet. Bevor wir konkrete Lernver-fahren kennenlernen, möchte ich in die-sem Kapitel zunächst grundsätzliche Ge-danken zum Lernprozess anregen.

4.1 Es gibt verschiedeneParadigmen zu lernen

Lernen ist ein weiter Begriff. Es bedeutet,Woran

lernt man? das ein System sich in irgendeiner Formverändert, um sich z.B. an Veränderungenin seiner Umwelt anzupassen. Grundsätz-

lich verändert sich ein Neuronales Netzmit der Veränderung seiner Bestandteile,die wir eben kennengelernt haben. Theore-tisch könnte ein Neuronales Netz also ler-nen, indem es

1. neue Verbindungen entwickelt,

2. vorhandene Verbindungen löscht,

3. Verbindungsgewichte verändert,

4. Schwellenwerte von Neuronen ändert,

5. eine oder mehrere der drei Neu-ronenfunktionen (wir erinnern uns:Aktivierungs-, Propagierungs- undAusgabefunktion) abwandelt,

6. neue Neurone entwickelt

7. oder aber vorhandene Neurone löscht(und damit natürlich Verbindungen).

53

Kapitel 4 Grundlagen zu Lernprozess und Trainingsbeispielen (wichtige Grundlagen)dkriesel.com

Wir behandeln die Gewichtsveränderungzunächst als die gängigste. Weiterhin kanndas Löschen von Verbindungen hierdurchrealisiert werden, dass man zusätzlichnoch dafür Sorge trägt, dass eine zum Lö-schen auf 0 gesetzte Verbindung nicht wei-ter trainiert wird. Man kann weiterhin Ver-bindungen entwickeln durch das Setzen ei-ner nicht vorhandenen Verbindung (wel-che ja in der Verbindungsmatrix den Wert0 innehat) auf einen von 0 verschiedenenWert. Für die Modifikation der Schwellen-werte verweise ich auf die Möglichkeit, die-se als Gewichte zu implementieren (Ab-schnitt 3.4). Wir erschlagen also gleich vierder obigen Punkte durch reines Trainingvon Verbindungsgewichten.

Die Veränderung von Neuronenfunktionenist schwierig zu implementieren, nicht sehrintuitiv und auch nicht wirklich biologischmotiviert. Sie ist daher nicht verbreitetund wird hier zunächst nicht behandeltwerden. Die Möglichkeiten, Neurone zuentwickeln oder zu löschen, liefern wäh-rend des Trainings eines Neuronalen Net-zes nicht nur gut eingestellte Gewichte,sondern optimieren auch noch die Netzto-pologie - sie gewinnen daher immer mehran Interesse und werden oft mit evolutio-nären Verfahren realisiert. Da wir aber ein-sehen, dass wir einen Großteil der Lern-möglichkeiten bereits durch Gewichtsver-änderungen abdecken können, sind auchsie zunächst nicht Gegenstand dieser Ar-beit (es ist aber geplant, die Arbeit in die-se Richtung zu erweitern).

SNIPE: Methoden der KlasseNeuralNetwork erlauben das Ändernvon Verbindungsgewichten und Schwel-

lenwerten sowie das Hinzufügen undEntfernen von Verbindungen sowie gan-zen Neuronen. Methoden der KlasseNeuralNetworkDescriptor erlauben dasÄndern der Aktivierungsfunktion proSchicht.

LernendurchGewichts-änderung

Wir lassen also unser Neuronales Netz ler-nen, indem wir es die Verbindungsgewich-te modifizieren lassen nach Regeln, die wirin Algorithmen fassen können – ein Lern-verfahren ist also immer ein Algorith-mus, den wir einfach mithilfe einer Pro-grammiersprache implementieren können.Ich werde später voraussetzen, dass wir de-finieren können, was eine erwünschte, ler-nenswerte Ausgabe ist (und an dieser stel-le auch die Trainingsbeispiele formal defi-nieren) und dass wir eine Trainingsmengean Lernbeispielen besitzen. Eine Trainings-menge sei folgendermaßen definiert:

Definition 4.1 (Trainingsmenge). Als JPTrainingsmenge P bezeichnen wir eineMenge von Trainingsbeispielen, welche wirzum Training unseres Neuronales Netzesverwenden.

Ich stelle nun die drei wesentlichen Pa-radigmen des Lernens anhand der Un-terschiede in der Beschaffenheit der Trai-ningsmenge vor.

4.1.1 Unüberwachtes Lernen gibtdem Netz nur Eingabemuster,aber keine Lernhilfen

Unüberwachtes Lernen (engl. unsu-pervised learning) ist die biologisch

Netz lerntalleineplausibelste Methode, die aber nicht für


dkriesel.com 4.1 Paradigmen des Lernens

alle Fragestellungen geeignet ist. Gegebensind nur Eingabemuster; das Netz ver-sucht, ähnliche Muster zu identifizierenund in ähnliche Kategorien zu klassifizie-ren.

Definition 4.2 (Unüberwachtes Lernen).Die Trainingsmenge besteht nur aus Ein-gabemustern, das Netz versucht selbst,Ähnlichkeiten herauszufinden und Muster-klassen zu bilden.

Als bekanntes Beispiel sei wieder auf dieselbstorganisierenden Karten von Koho-nen (Kap. 10) verwiesen.

4.1.2 Bestärkendes Lernen gibtdem Netz Feedback, ob essich gut oder schlecht verhält

Beim bestärkenden Lernen (engl. re-inforcement learning) wird dem Netznach erfolgtem Durchlauf immerhin einWahrheits- oder reeller Wert geliefert, derdefiniert, ob das Ergebnis richtig oder

Netz erhältBelohnung oder

Strafefalsch ist. Intuitiv ist klar, dass dieses Ver-fahren für viele Anwendungen zielstrebi-ger funktionieren sollte als unüberwachtesLernen, erhält das Netz doch konkrete An-haltspunkte zur Lösungsfindung.

Definition 4.3 (Bestärkendes Lernen).Die Trainingsmenge besteht aus Eingabe-mustern, nach erfolgtem Durchlauf wirddem Netz ein Wert zurückgegeben, ob dasErgebnis falsch oder richtig war, u.U. nochwie falsch oder richtig es war.

4.1.3 Überwachtes Lernen hilft demNetz mit Trainingsbeispielenund zugehörigen Lösungen

Beim überwachten Lernen (engl. su-pervised learning) existiert eine Trai-ningsmenge von Eingabemustern sowie de-ren korrekte Ergebnisse in Form der genau-en Aktivierung sämtlicher Ausgabeneuro-ne. Für jedes in das Netz eingegebeneTrainingsmuster kann so beispielsweise die

Netz erhältkorrekte Lö-sungen zuBeispielen

Ausgabe direkt mit der korrekten Lösungverglichen werden und anhand der Diffe-renz die Netzgewichtungen geändert wer-den. Ziel ist eine Veränderung der Gewich-te dahingehend, dass das Netz nach demTraining nicht nur selbstständig Ein- undAusgabemuster assoziieren, sondern bis da-to unbekannte, ähnliche Eingabemuster ei-nem plausiblen Ergebnis zuführen, also ge-neralisieren kann.

Definition 4.4 (Überwachtes Lernen).Die Trainingsmenge besteht aus Eingabe-mustern mit jeweiliger korrekter Lösung,so dass dem Netz nach Ausgabe ein ge-nauer Fehlervektor1 zurückgegeben wer-den kann.

Dieses Lernverfahren ist biologisch nichtimmer plausibel, aber exorbitant zielge-richteter als die anderen und daher sehrpraktikabel.

Wir möchten hier zunächst die überwach-ten Lernverfahren allgemein betrachten,welche sich innerhalb dieser Abeit zu-nächst an folgendes Schema halten:1 Den Begriff des Fehlervektors werden wir in Ab-schnitt 4.2 noch definieren, wenn es an die mathe-matische Formalisierung des Lernens geht.



Eingabe des Eingabemusters (Aktivie-rung der Eingabeneurone),

Vorwärtspropagierung der Eingabedurch das Netz, Erzeugung derAusgabe,

Lernschema

Vergleich der Ausgabe mit der korrektenAusgabe (Teaching Input), liefert Feh-lervektor (Differenzvektor),

Verbesserungen des Netzes werden auf-bauend auf den Fehlervektor berech-net.

Anwendung der Verbesserung um dievorher berechneten Werte.

4.1.4 Offline oder Online lernen?

Zu beachten ist, dass das Lernen offlineerfolgen kann (eine Menge von Trainings-beispielen wird präsentiert, danach werdendie Gewichte verändert, der Gesamtfehlerwird mit Hilfe einer Fehlerfunktion errech-net bzw. einfach aufkumuliert; nähereshierzu im Abschnitt 4.4) oder aber online(nach jedem präsentierten Beispiel werdendie Gewichte verändert). Beides bietet Vor-und Nachteile, auf die wir bei den Lern-verfahren nötigenfalls eingehen werden.Offline-Trainingsverfahren werden auchBatch-Trainingsverfahren genannt, daein Stapel Ergebnisse auf einmal kor-rigiert wird. Einen solchen Trainingsab-schnitt eines ganzen Stapels Trainingsbei-spiele samt der zugehörigen Veränderungder Gewichtswerte nennt man Epoche.

Definition 4.5 (Offline-Lernen). Mangibt mehrere Trainingsbeispiele auf einmal

in das Netz ein, kumuliert die Fehler auf,und lernt für alle Trainingsbeispiele gleich-zeitig.

Definition 4.6 (Online-Lernen). Manlernt direkt durch den Fehler eines jedenTrainingsbeispiels.

4.1.5 Fragen, über die man sich vordem Lernen Gedankenmachen sollte

Die Anwendung der Schemata setzt natür-lich voraus, dass man sich vorher über eini-ge Fragen Gedanken gemacht hat, die ichhier gewissermaßen als Checkliste einbrin-gen und im Laufe der Arbeit sukzessivebeantworten möchte, soweit möglich:

. Woher kommt die Lerneingabe und inwelcher Form erhalten wir sie?

. Auf welche Weise muss man die Ge-wichte modifizieren, so dass man mög-lichst schnell und sicher lernt?

. Wie kann man objektiv messen, wieerfolgreich der Lernprozess ist?

. Kann man ermitteln, welches das„beste“ Lernverfahren ist?

. Kann man vorhersagen, ob ein Lern-verfahren terminiert, ob es also nachendlicher Zeit einen optimalen Zu-stand erreicht oder z.B. zwischen ver-schiedenen Zuständen oszilliert?

. Wie wird das Gelernte im Netz gespei-chert?


dkriesel.com 4.2 Trainingsmuster und Teaching Input

. Kann man verhindern, dass neugelernte Muster alte erlernteAssoziationen wieder zerstören(das sog. Stabilitäts-Plastizitäts-Dilemma)?

Wir werden feststellen, dass alle diese Fra-gen nicht allgemein beantwortet werdenIII

keine Patent-lösungen!

können, sondern für jedes Lernverfahrenund jede Topologie von Netzwerk neu dis-kutiert werden müssen.

4.2 Trainingsmuster undTeaching Input

Bevor wir unsere erste Lernregel kennen-lernen, muss der Teaching Input einge-führt werden. Im (hier vorliegenden) Falledes überwachten Lernens setzen wir vor-aus, dass eine Trainingsmenge aus Trai-ningsmustern und dazugehörigen richtigenAusgabewerten vorliegt, die man nach er-

GewünschteAusgabe folgtem Training an den Ausgabeneuronen

sehen möchte. Diese Ausgabewerte wer-den, bis das Netz trainiert ist d.h. solangees falsche Ausgaben erzeugt, als sogenann-ter Teaching Input bezeichnet, und zwarfür jedes Neuron einzeln. Für ein Neuronj mit fehlerhafter Ausgabe oj ist tj alsodie Bezeichnung für den Teaching Input,die richtige oder gewünschte Ausgabe zueinem Trainingsmuster p.

Definition 4.7 (Trainingsmuster).Als Trainingsmuster bezeichnen wir

pI einen Eingabevektor p mit Komponentenp1, p2, . . . , pn, dessen gewünschte Ausgabewir kennen. Indem wir das Trainings-muster in das Netz eingeben, erhalten

wir eine Ausgabe, die wir mit demTeaching Input, also der gewünschtenAusgabe vergleichen. Die Menge derTrainingsmuster nennen wir P . Sieenthält eine endliche Anzahl geordneterPaare (p, t) von Trainingsmustern mitzugehörigem gewünschten Output.

Trainingsmuster heißen im englischenPattern, weswegen sie hier mit p bezeich-net werden. Sie besitzen in der Literaturund in der weiteren Arbeit viele Synonyme,wie z.B. Pattern, Trainingsbeispiel, Mus-ter, usw.

Definition 4.8 (Teaching Input). Sei j JtAusgabeneuron. Der Teaching Input tjist definiert als der gewünschte, korrekteWert, den j nach der Eingabe eines be-stimmten Trainingsmusters ausgeben soll-

Wunsch-Ausgabete. Analog zum Vektor p kann man auch

Teaching Inputs t1, t2, . . . , tn der Neuronezu einem Vektor t zusammenfassen. t istimmer auf ein bestimmtes Trainingsmus-ter p bezogen und ist, wie oben schon ge-sagt, in der Menge P der Trainingsmusterenthalten.

SNIPE: Für die Trainingsdaten relevanteKlassen befinden sich im Paket training.Die Klasse TrainingSampleLesson ist zumSpeichern von Trainingsmustern und Tea-ching Inputs gedacht und erlaubt auch ein-fache Vorverarbeitung der daten.

Definition 4.9 (Fehlervektor). Für meh- JEprere Ausgabeneurone Ω1,Ω2, . . . ,Ωn wirddie Differenz von Ausgabevektor und Tea-



ching Input unter einem Trainingsbeispielp

Ep =

t1 − y1...

tn − yn

als Fehlervektor, manchmal auch alsDifferenzvektor bezeichnet. Je nachdem,ob man offline oder online lernt, bezieht ersich auf ein bestimmtes Trainingsmuster,oder den auf bestimmte Weise normalisier-ten Fehler aus einer Menge von Trainings-mustern.

Ich fasse noch einmal kurz zusammen, waswir jetzt an diesbezüglichen Vektoren defi-niert haben. Es gibt einen

Eingabevektor x, der in das NeuronaleNetz eingegeben werden kann. DasNeuronale Netz gibt dann je nachNetzart einen

Ausgabevektor y aus. Das

Trainingsbeispiel p ist im Grunde nichtsweiter als ein Eingabevektor. Wir ver-wenden ihn nur zum Trainieren, weilwir den dazugehörigen

Teaching Input t kennen, der nichts ande-res als der gewünschte Ausgabevektorzu dem Trainingsbeispiel ist. Der

Fehlervektor Ep ist die Differenz zwischenTeaching Input t und tatsächlicherAusgabe y.

Was also x und y für den allgemeinen Be-trieb des Netzes sind, sind p und t fürWichtig!das Training des Netzes – und währenddes Trainings versuchen wir, y möglichstnah an t heranzubringen. Noch ein Tip

zur Nomenklatur. Wir haben die Ausga-bewerte eines Neurons i mit oi bezeich-net. Die Ausgabe eines Ausgabeneurons Ωheißt also oΩ. Wir nennen aber Ausgabe-werte des Netzes yΩ. Diese Netzausgabensind natürlich auch nur Neuronenausga-ben, allerdings von Ausgabeneuronen. In-sofern gilt

yΩ = oΩ.

4.3 Umgang mitTrainingsbeispielen

Wir haben gesehen, wie wir grundsätz-lich lernen können und welche Schrittewir dafür durchführen müssen. Nun soll-ten wir noch die Wahl der Trainingsdatenund die Lernkurve betrachten. Insbeson-dere interessant nach erfolgtem Lernvor-gang ist auch die Frage, ob das Netz viel-leicht nur auswendig gelernt hat – alsounsere Trainingsbeispiele recht exakt derrichtigen Ausgabe zuführen kann, jedochfür sämtliche anderen Probleme derselbenKlasse falsche Antworten liefert.

Angenommen, wir wollen das Netz eineAbbildung R2 → B1 trainieren lassen, unddie Trainingsbeispiele aus Abb. 4.1 auf derrechten Seite ansetzen: Dann könnte essein, dass das Netz zum Schluss exakt diefarblich markierten Bereiche um die Trai-ningsbeispiele herum mit der Ausgabe 1markiert (Abb. 4.1 oben), und ansonstenüberall 0 ausgibt – es hat also genug Spei-cherkapazität gehabt, sich auf die sechsTrainingsbeispiele mit einer 1 als Ausga-be zu konzentrieren, was auf ein zu großes


dkriesel.com 4.3 Umgang mit Trainingsbeispielen

Abbildung 4.1: Veranschaulichung von Trai-ningsergebnissen derselben Trainingsmenge aufNetzen zu hoher (oben), richtiger (Mitte) oderzu niedriger Kapazität (unten).

Netz mit zu viel freier Speicherkapazitätschließen lässt.

Andersherum kann auch ein Netz zu wenigKapazität haben (Abb. 4.1 unten) – die-se grobe Darstellung der Eingangsdatenentspricht auch nicht der guten Generali-sierung, die wir uns wünschen. Es gilt al-so, hier den Mittelweg zu finden (Abb. 4.1Mitte).

4.3.1 Es ist nützlich, die Menge derTrainingsbeispiele zuunterteilen

Ein Lösungsansatz für diese Probleme isthäufig, die Trainingsmenge zu teilen, undzwar

. in eine Trainingsmenge, mit der wirwirklich trainieren,

. und eine Testmenge, mit der wir un-sere Fortschritte testen

– vorausgesetzt, wir haben ausreichendTrainingsbeispiele. Übliche Teilungsrela-tionen sind z.B. 70% für Trainingsdatenund 30% für Testdaten (zufällig gewählt).Wir können das Training beenden, wenndas Netz auf den Trainings- und Testda-ten gute Werte liefert.

SNIPE: Die Methode splitLesson derKlasse TrainingSampleLesson erlaubt, ei-ne TrainingSampleLesson anhand eineswählbaren Verhältnisses entzwei zu tei-len.

Doch Achtung: Wenn man aufgrund ei-nes schlechten Ergebnisses in den Test-daten an der Netzstruktur schraubt, bis



auch diese gute Ergebnisse liefern, läuftman schnell Gefahr, das Netz auch aufdie Testdaten zuzuschneiden, so dass die-se zumindest indirekt auch ins Trainingeingehen, auch wenn sie nicht explizitfür das Training genutzt werden. Abhilfeschafft ein dritter Validierungsdatensatz,der nach dem mutmaßlich erfolgreichenTraining zum reinen Validieren benutztwird.

Offensichtlich enthalten wir dem Neurona-len Netz dadurch, dass wir weniger Mus-ter trainieren, Information vor und laufendamit Gefahr, dass es schlechter lernt. Esgeht uns hier aber nicht um das 100% exak-te Reproduzieren gegebener Beispiele, son-dern um erfolgreiches Generalisieren undum Approximation einer ganzen Funktion– wofür es durchaus von Nutzen sein kann,weniger Informationen in das Netz zu trai-nieren.

4.3.2 Reihenfolgen derMusterpräsentation

Man kann auch verschiedene Strategienfinden, in welcher Reihenfolge man Mus-ter präsentiert: Präsentiert man sie zufäl-lig, so gibt es keine Garantie, dass die Mus-ter gleichverteilt erlernt werden (dennochist dies die gängigste Methode). Immerdieselbe Musterreihenfolge hingegen provo-ziert z.B. bei rekurrenten Netzen (spätermehr dazu) ein Auswendiglernen der Mus-ter. Abhilfe gegen beide Probleme würdehier eine zufällige Permutation schaffen,die aber – wie schon erwähnt – aufwändigzu berechnen ist.

SNIPE: Die Methode shuffleSamples derKlasse TrainingSampleLesson permutiertdie Lesson.

4.4 Lernkurve undFehlermessung

Die Lernkurve beschreibt den zeitlichenVerlauf des Fehlers, der auf verschiedene

NormierenzumVergleichen

Weisen ermittelt werden kann – die Moti-vation für die Erschaffung einer Lernkur-ve liegt darin, dass man mit ihr darstellenkann, ob das Netz Fortschritte macht odernicht. Der Fehler sollte hierbei normiertsein, also ein Abstandsmaß zwischen richti-gem und aktuellem Output des Netzes dar-stellen. Beispielsweise können wir den mus-terspezifischen, quadratischen Fehler mitVorfaktor nehmen, wie wir ihn für die Her-leitung von Backpropagation of Error ver-wenden werden (Seien Ω Outputneuroneund O die Menge derselben.):

Errp = 12∑Ω∈O

(tΩ − yΩ)2 (4.1)

Definition 4.10 (Spezifischer Fehler).Der spezifische Fehler Errp wird über JErrpein einziges Trainingsbeispiel, also online,gebildet.

Weiter üblich sind der Root-Mean-Square (kurz: RMS) sowie der Euklidi-sche Abstand.

Der Euklidische Abstand (Verallgemeine-rung des Satzes des Pythagoras) ist gutfür niedere Dimensionen, wo wir uns sei-nen Nutzen auch noch bildlich vorstellenkönnen.


dkriesel.com 4.4 Lernkurve und Fehlermessung

Definition 4.11 (Euklidischer Abstand).Der Euklidische Abstand zweier Vektorent und y ist definiert zu

Errp =√∑

Ω∈O(tΩ − yΩ)2. (4.2)

Der Root-Mean-Square wird allgemeinhäufig verwendet, weil er auf grobe Aus-reißer mehr Rücksicht nimmt.

Definition 4.12 (Root-Mean-Square).Der Root-Mean-Square zweier Vektoren tund y ist definiert zu

Errp =√∑

Ω∈O(tΩ − yΩ)2

|O|. (4.3)

Für Offline-Lernen ist auch der gesamteFehler über eine Trainingsepoche von In-teresse und Nutzen:

Err =∑p∈P

Errp (4.4)

Definition 4.13 (Gesamtfehler). DerGesamtfehler Err wird über alle Trai-

ErrI ningsbeispiele, also offline, gebildet.

Analog können wir einen Gesamt-RMSund einen Gesamt-Euklidischen Abstandüber eine ganze Epoche bilden. Natürlichsind auch andere Fehlermaße als das eukli-dische oder der RMS denkbar. Für weitereVarianten der Fehlermessungen kann ichnur raten, einen Blick in den Technical Re-port von Prechelt [Pre94] zu werfen – hierwerden sowohl Fehlermaße als auch Bei-spielproblemstellungen intensiv diskutiert(darum kommt dazu später auch noch ein-mal eine ähnliche Anmerkung im Rahmender Diskussion von Beispielproblemen).

SNIPE: In der Klasse ErrorMeasurementbefinden sich verschiedene statische Me-thoden, welche verschiedene Verfahren derFehlermessung implementieren.

Abhängig von unserem Fehlermessverfah-ren sieht natürlich unsere Lernkurve auchanders aus. Eine ideale Lernkurve siehtaus wie eine negative Exponentialfunktion,ist also proportional zu e−t (Abb. 4.2 aufder folgenden Seite). Insofern stellt mandie Lernkurve am anschaulichsten mit ei-ner logarithmischen Skala dar (Abb. 4.2,zweites Diagramm von unten) – bei dieserSkalierungskombination bedeutet eine ab-sinkende Gerade einen exponentiellen Ab-fall des Fehlers.

Bei guter Arbeit des Netzes, einfachen Pro-blemstellungen und logarithmischer Dar-stellung von Err sieht man also bildlichgesprochen eine absinkende Gerade, dieunten oft „Zacken“ bildet – hier stoßenwir an das Auflösungsvermögen unserer 64-Bit-Darstellung im Computer und habentatsächlich das Optimum dessen erlernt,was unser Netz lernen kann.

Typische Lernkurven können auch einigewenige flache Bereiche aufweisen, also Stu-fen beschreiben, dies ist kein Zeichen füreinen schlecht funktionierenden Lernvor-gang. Wie wir weiterhin an der Abbildung4.2 sehen, kann man mit geeigneter Dar-stellung fast jede nur etwas sinkende Lern-kurve schön aussehen lassen – insofern soll-te man beim Lesen der Literatur etwas vor-sichtig sein.



0

5e−005

0.0001

0.00015

0.0002

0.00025

0 100 200 300 400 500 600 700 800 900 1000

Feh

ler

Epoche

0

2e−005

4e−005

6e−005

8e−005

0.0001

0.00012

0.00014

0.00016

0.00018

0.0002

1 10 100 1000

Feh

ler

Epoche

1e−035

1e−030

1e−025

1e−020

1e−015

1e−010

1e−005

1

0 100 200 300 400 500 600 700 800 900 1000

Feh

ler

Epoche

1e−035

1e−030

1e−025

1e−020

1e−015

1e−010

1e−005

1

1 10 100 1000

Feh

ler

Epoche

Abbildung 4.2: Alle vier Abbildungen stellen dieselbe (idealisierte, da sehr glatte) Lernkurve dar.Achten Sie auf die wechselnden logarithmischen und linearen Skalierungen! Beachten Sie auch denkleinen „Ungenauigkeits-Zacken“, sichtbar am Knick der Kurve im ersten und zweiten Diagrammvon unten.


dkriesel.com 4.5 Gradientenbasierte Optimierungsverfahren

4.4.1 Wann hört man auf zu lernen?

Nun ist die große Frage: Wann hört manauf zu lernen? Üblicherweise hört das Trai-ning auf, wenn derjenige, der vor dem trai-nierenden Computer sitzt, das „Gefühl“hat, der Fehler wäre gering genug. In derTat gibt es dafür wie so oft keine Patentlö-sung und so kann ich hier wieder nur Denk-ansätze geben, welche allerdings alle füreine objektivere Sicht auf das Vergleichenmehrerer Lernkurven setzen.

Es stärkt beispielsweise das Vertrauen inein Ergebnis, wenn das Netz für mehrere

Objektivitätverschiedene zufällige Initialisierungen im-mer ungefähr die gleiche Endfehlerrate er-reicht – mehrmals initialisieren und trai-nieren macht das Ergebnis also ein wenigobjektiver.

Auf der anderen Seite kann sich auch einBild ergeben, bei dem eine anfangs schnel-ler fallende Kurve nach längerem Lernenvon einer anderen Kurve noch überholtwird: Dies kann darauf hinweisen, dass ent-weder die Lernrate der schlechteren Kurvezu hoch war oder aber die schlechtere ein-fach in einem Nebenminimum hängen ge-blieben ist, dieses aber schneller gefundenhat.

Noch einmal zur Erinnerung: Größere Feh-lerwerte sind schlechter.

Auf jeden Fall sei aber beachtet: Woraufsich viele beim Lernen verlassen (und sichdanach wundern, dass wenig funktioniert),ist, die Lernkurve nur in Bezug auf dieTrainingsdaten zu bilden – man sollte al-so der Objektivität halber nicht vergessen,

die Testdaten der Übersichtlichkeit halberauf eine zweite Lernkurve aufzutragen, dieüblicherweise etwas schlechtere Werte lie-fert und auch stärker oszilliert, aber beiguter Generalisierung auch sinkt.

Wenn das Netz dann irgendwann anfängt,die Beispiele auswendig zu lernen, kannman so durch die Lernkurve Hinweise dar-auf erhalten: Wenn die Lernkurve der Test-beispiele plötzlich rapide steigt, währenddie Lernkurve für die Trainingsdaten wei-ter sinkt, kann dies ein Indikator für Aus-wendiglernen und schlechter werdende Ge-neralisierung sein. Hier könnte man dannentscheiden, ob das Netz am nächstenPunkt der beiden Kurven bereits gut ge-nug gelernt hat und der Endzeitpunkt desLernens vielleicht hier anzusetzen ist (die-ses Verfahren wird Early Stopping ge-nannt).

Ich weise noch einmal darauf hin, dassdies alles nur Indikatoren und keine Wenn-Dann-Schlüsse sind.

4.5 GradientenbasierteOptimierungsverfahren

Um die mathematische Grundlage für eini-ge der folgenden Lernverfahren zu schaffen,möchte ich zunächst kurz erklären, wasman unter einem Gradientenabstieg ver-steht – das Lernverfahren Backpropagationof Error beispielsweise baut auf diesen ma-thematischen Grundlagen auf und erbt sodie Vor- und Nachteile des Gradientenab-stiegs.



Abbildung 4.3: Veranschaulichung des Gradientenabstiegs auf zweidimensionaler Fehlerfunkti-on. Wir gehen entgegengesetzt von g, also mit dem steilsten Abstieg einem Tiefpunkt ent-gegen, wobei die Schrittweite proportional zu |g| ist (je steiler der Abstieg, desto grö-ßer die Schrittweite). Links ist die Fläche in 3D gezeigt, rechts die Schritte über dieHöhenlinien in 2D. Hier wird ersichtlich, wie eine Bewegung in Gegenrichtung von g inRichtung Minimum der Funktion erfolgt und proportional zu |g| ständig langsamer wird.Quelle: http://webster.fhs-hagenberg.ac.at/staff/sdreisei/Teaching/WS2001-2002/PatternClassification/graddescent.pdf

Gradientenabstiegsverfahren werden imAllgemeinen verwendet, um Maxima oderMinima n-dimensionaler Funktionen aus-zumachen. In der Illustration (Abb. 4.3)beschränke ich mich übersichtlicherweiseauf zwei Dimensionen, der Dimensionsan-zahl sind aber prinzipiell keine Grenzen ge-setzt.

Hierbei ist der Gradient ein Vektor g,der für jeden differenzierbaren Punkt ei-ner Funktion definiert ist, genau in dieRichtung des steilsten Anstiegs von diesemPunkt aus deutet und durch seinen Betrag|g| den Steigungsgrad in diese Richtungangibt. Der Gradient ist also die Verall-gemeinerung der Ableitung für mehrdimen-

sionale Funktionen. Folglich deutet der ne-gative Gradient −g genau in die Rich-tung des steilsten Abstiegs. Der Operatorfür einen Gradienten ∇ wird als Nabla- J∇

Gradient istmehrdim.Ableitung

Operator bezeichnet, die Gesamtschreib-weise für den Gradienten g des Punktes(x, y) einer zweidimensionalen Funktion flautet dabei z.B. g(x, y) = ∇f(x, y).

Definition 4.14 (Gradient). Sei g Gra-dient. Dann ist g ein n-komponentigerVektor, der für jeden Punkt einer (dif-ferenzierbaren) n-dimensionalen Funktionf(x1, x2, . . . , xn) bestimmt ist. Die Opera-torschreibweise für den Gradienten ist de-finiert als

g(x1, x2, . . . , xn) = ∇f(x1, x2, . . . , xn)


dkriesel.com 4.5 Gradientenbasierte Optimierungsverfahren

g zeigt für jeden Punkt von f in Richtungdes stärksten Anstiegs von diesem Punktaus, wobei |g| dem Grad dieser Steigungentspricht.

Als Gradientenabstieg bezeichnen wir, vonbeliebigem Startpunkt unserer Funktionaus entgegen dem Gradienten g schritt-weise bergab zu gehen (anschaulich gespro-chen in die Richtung, in die auch eine Ku-gel vom Startpunkt aus rollen würde), wo-bei die Schrittgröße proportional zu |g| ist.Auf flachen Plateaus bewegen wir uns alsolangsam, bei großer Steigung schnell densteilsten Weg hinab. Geraten wir in einTal, so werden wir es je nach Größe un-serer Schritte überspringen oder auf demgegenüberliegenden Hang wieder ins Talumkehren, um durch hinund hergehendem tiefsten Punkt des Tals immer näherzu kommen, ähnlich der Bewegung unsererKugel innerhalb einer runden Schüssel.

Definition 4.15 (Gradientenabstieg).Sei f eine n-dimensionale Funktion und

Wir gehenGradient ent-

gegens = (s1, s2, . . . , sn) gegebener Startpunkt.Als Gradientenabstieg bezeichnen wir,von f(s) aus entgegen der Richtung vong, also in Richtung von −g mit Schrittenin Größe von |g| in Richtung immer kleine-rer Werte von f zu gehen.

Gradientenabstiegsverfahren sind kein feh-lerfreies Optimierungsverfahren (wie wirin den nächsten Abschnitten sehen wer-den), aber sie funktionieren doch so gut,dass sie in der Praxis häufig eingesetzt wer-den. Dennoch wollen wir uns ihre potenzi-ellen Nachteile kurz vor Augen führen.

4.5.1 Gradientenverfahren bringenverschiedene Probleme mitsich

Wie in Abschnitt 4.5 angedeutet, ist derGradientenabstieg (und damit Backpropa-gation) erfolgversprechend, jedoch nichtfehlerresistent, wobei eines der Problemeist, dass man nicht immer anhand des Er-gebnisses ersehen kann, ob ein Fehler pas-siert ist.

Gradienten-Abstieghat Fehler

4.5.1.1 Häufig konvergierenGradientenverfahren nur gegensuboptimale Minima

Jedes Gradientenabstiegsverfahren kannzum Beispiel in einem lokalen Minimumhängen bleiben (ein Beispiel findet sich inTeil a der Abb. 4.4 auf der folgenden Seite)– dieses Problem wächst mit der Größe derFehlerfläche an und hierfür gibt es keineallgemeingültige Lösung. In der Realitätkann man nicht wissen, ob man das opti-male Minimum gefunden hat – also gibtman sich zufrieden, sobald man ein Mi-nimum ausreichender Qualität gefundenhat.

4.5.1.2 Flache Plateaus in derFehleroberfläche können dasTraining sehr verlangsamen

Auch wird der Gradient beispielsweisebeim Durchlaufen eines flachen Plateausverschwindend klein (es ist eben kaum Stei-gung vorhanden (Teil b der Abb. 4.4), wassehr viele weitere Schritte nötig macht.



W

Err

b)

c)

a)d)

Globales Minimum

Abbildung 4.4: Mögliche Fehler während eines Gradientenabstiegs: a) Finden schlechter Minima,b) Quasi-Stillstand bei kleinem Gradienten, c) Oszillation in Schluchten, d) Verlassen guter Minima.

Ein theoretisch möglicher Gradient von 0würde den Abstieg gar ganz zum Stillstandbringen.

4.5.1.3 Gute Minima können wiederverlassen werden

Auf der anderen Seite ist der Gradientan einem steilen Hang sehr groß, so dassman große Schritte macht und u.U. ein gu-tes Minimum übersieht (Teil d der Abb.4.4).

4.5.1.4 Steile Schluchten in derFehlerfunktion könnenOszillationen hervorrufen

Ein plötzlicher Wechsel von einem sehrstark negativen zu einem sehr stark posi-

tiven Gradienten kann sogar zu einer Os-zillation führen (Teil c der Abb. 4.4). Anund für sich hört man von diesem Fehlerin der Natur selten, so dass wir uns überMöglichkeiten b und d Gedanken machenkönnen.

4.6 Beispielproblemstellungensind nützlich, um dasselbst programmierteNetz und Lernverfahrenzu testen

Wir haben nun das Lernen noch nicht sehr,aber zumindest ein wenig von der formalenSeite betrachtet – nun ist es an der Zeit,dass ich ein paar Beispielprobleme vorstel-le, mit denen man sehr gut ausprobieren


dkriesel.com 4.6 Beispielproblemstellungen

kann, ob ein implementiertes Netz und einLernverfahren korrekt arbeiten.

4.6.1 Boolesche Funktionen

Gerne wird als Beispiel das genommen,was in den 1960er Jahren nicht ging: DieXOR-Funktion (B2 → B1), welches wirnoch ausführlich besprechen werden. Trivi-al erwarten wir hier die Ausgaben 1.0 bzw.−1.0 je nachdem , ob die Funktion XOR1 oder 0 ausgibt – und genau hier liegtder erste Anfängerfehler, den man machenkann.

Für Ausgaben nahe 1 oder -1, also na-he den Grenzwerten des Tangens Hyper-bolicus (bzw. im Falle der Fermifunktion0 oder 1), benötigt das Netz sehr großeNetzeingaben. Die einzige Chance, dieseNetzeingaben zu erreichen, ist durch großeGewichte, die erlernt werden müssen: DerLernvorgang wird sehr verlängert. Es ist al-so klüger, als gewünschte Ausgaben in dieTeaching Inputs 0.9 bzw. −0.9 einzugebenoder aber zufrieden zu sein, wenn das Netzdiese anstatt 1 und −1 ausgibt.

Beliebt als Beispiel für Singlelayerpercep-trons sind auch die Booleschen FunktionenAND und OR.

4.6.2 Die Paritätsfunktion

Die Paritätsfunktion bildet eine Mengevon Bits auf 1 oder 0 ab, je nachdem, obeine gerade Anzahl Inputbits auf 1 gesetztist oder nicht – es handelt sich also grund-sätzlich um eine Funktion Bn → B1. Sie ist

i1 i2 i3 Ω0 0 0 10 0 1 00 1 0 00 1 1 11 0 0 01 0 1 11 1 0 11 1 1 0

Tabelle 4.1: Darstellung der Paritätsfunktionmit drei Eingaben.

durch leichte Lernbarkeit bis ca. n = 3 ge-kennzeichnet (dargestellt in Tab. 4.1), derLernaufwand steigt aber ab n = 4 rapidean. Der Leser möge doch einmal eine Wer-tetabelle für die 2-bit-Paritätsfunktion er-stellen – was fällt auf?

4.6.3 Das 2-Spiralen-Problem

Nehmen wir als Trainingsbeispiel für eineFunktion zwei ineinander gewundene Spi-ralen (Abb. 4.5 auf der folgenden Seite),wobei die Funktion natürlich eine Abbil-dung R2 → B1 repräsentiert. Eine der Spi-ralen ist mit dem Outputwert 1 belegt, dieandere mit 0. Hier hilft Auswendiglernennicht groß weiter, das Netz muss wirklichdie Abbildung an sich verstehen. Auch die-ses Beispiel kann mit einem MLP gelöstwerden.



Abbildung 4.5: Skizze zum Trainingsbeispieldes 2-Spiralen-Problems

4.6.4 Das Schachbrettproblem

Wir kreieren uns wieder eine zweidimen-sionale Funktion der Form R2 → B1 undgeben schachbrettartige Trainingsbeispielean (Abb. 4.6), wobei ein eingefärbtes Feldeine 1 repräsentiert, alle anderen 0. Hiersteigt die Schwierigkeit wieder mit Größeder Funktion: Während ein 3×3-Feld nochleicht zu lernen ist, sieht es mit größerenFeldern schon schwierig aus.

Das 2-Spiralen-Problem ist dem Schach-brettproblem sehr ähnlich, nur dass beiersterem mathematisch gesehen Polarko-ordinaten statt kartesischen Koordinatenverwendet werden. Eine letzte Kleinigkeitmöchte ich noch als Beispiel vorstellen:Die Identität.

Abbildung 4.6: Skizze von Trainingsbeispielendes Schachbrettproblems

4.6.5 Die Identitätsfunktion

Mit linearen Aktivierungsfunktionen wä-re die Identitätsabbildung von R1 nachR1 (natürlich fairerweise im Wertebe-reich der verwendeten Aktivierungsfunkti-on) für das Netz kein Problem, doch wirlegen ihm durch Verwendung unserer sig-moiden Funktionen Steine in den Weg, sodass es für das Netz sehr schwierig ist, dieIdentität zu lernen. Versuchen Sie es docheinmal spaßeshalber.

4.6.6 Es gibt eine Vielzahl vonBeispielproblemstellungen

Für die Einarbeitung in weitere beispiel-hafte Problemstellungen möchte ich aus-


dkriesel.com 4.7 Hebbsche Lernregel

drücklich den Technical Report von Pre-chelt [Pre94] ans Herz legen, der auchschon im Rahmen der Fehlermessungsver-fahren erwähnt wurde.

Nun können wir unsere erste mathemati-sche Lernregel betrachten.

4.7 Die Hebbsche Lernregelist der Grundstein für diemeisten anderenLernregeln

Die 1949 von Donald O. Hebb formu-lierte Hebbsche Lernregel [Heb49] bil-det den Grundstein für die meisten kom-plizierteren Lernregeln, welche wir in die-ser Arbeit besprechen. Hierbei wird unter-schieden zwischen der Urform und der all-gemeineren Form, einer Art Grundgerüstfür viele andere Lernregeln.

4.7.1 Urform

Definition 4.16 (Hebbsche Lernregel).„Wenn Neuron j eine Eingabe von Neuroni erhält und beide gleichzeitig stark aktivsind, dann erhöhe das Gewicht wi,j (alsodie Stärke der Verbindung von i nach j).“Mathematisch ausgedrückt lautet sie also:

FrüheLernregel

∆wi,j ∼ ηoiaj (4.5)

wobei ∆wi,j die Änderung des Gewich-tes von i nach j bezeichnet, welche propor-

∆wi,jI tional zu folgenden Faktoren ist:

. der Ausgabe oi des Vorgängerneuronsi,

. der Aktivierung aj des Nachfolgerneu-rons j,

. sowie einer Konstante η, der Lernrate,auf die wir in Abschnitt 5.4.3 nochgenau eingehen.

Gewichtsänderungen ∆wi,j werden ein-fach auf das Gewicht wi,j aufaddiert.

Warum spreche ich in der umgangssprach-lichen Formulierung zweimal von Aktivie-rung, schreibe jedoch in der Formel von oiund aj , also von der Ausgabe des Neuronsi und der Aktivierung des Neurons j? Wirerinnern uns, dass sehr oft die Identität alsAusgabefunktion verwendet wird und so aiund oi eines Neurons oft identisch sind –weiterhin postulierte Hebb seine Lernregelweit vor der Spezifikation technischer Neu-rone. Wenn man bedenkt, dass diese Lern-regel gerne bei binären Aktivierungen ver-wendet wurde, ist klar, dass die Gewichtebei möglichen Aktivierungen (1, 0) entwe-der anwachsen oder gleichbleiben. Sie wür-

Gewichtegehen gegenunendlich

den also über kurz oder lang ins unend-liche gehen, da sie bei Fehlern nur „nachoben“ korrigiert werden können. Dies kannausgeglichen werden, indem man die Akti-vierungen (−1, 1) verwendet2. So werdendie Gewichte bei Nichtübereinstimmungder Aktivierung von Vorgänger- und Nach-folgerneuron verringert, sonst verstärkt.

2 Das ist dann aber nicht mehr die „Originalversion“der Hebbschen Lernregel.



4.7.2 Verallgemeinerte Form

Die meisten weiteren hier besprochenenLernregeln sind eine Spezialisierung dermathematisch allgemeineren Form [MR86]der Hebbschen Lernregel.

Definition 4.17 (Hebb-Regel, allgemei-ner). Die verallgemeinerte Form derHebbschen Regel benennt nur die Pro-portionalität der Gewichtsänderung zumProdukt zweier nicht näher definierterFunktionen, allerdings mit definierten Ein-gabewerten.

∆wi,j = η · h(oi, wi,j) · g(aj , tj) (4.6)

Hierbei ergibt das Produkt der Funktio-nen

. g(aj , tj) und

. h(oi, wi,j)

. sowie wieder der konstanten Lernrateη

die Gewichtsänderung. Wie man sieht,nimmt h also die Ausgabe der Vorgänger-zelle oi sowie das Gewicht von Vorgängerzu Nachfolger wi,j entgegen, während gdie tatsächliche und gewünschte Aktivie-rung des Nachfolgers aj sowie tj (t stehthier für den erwähnten Teaching Input)erwartet. In dieser allgemeinen Definitionsind g und h, wie schon angemerkt, nichtkonkretisiert – wir werden uns daher jetztauf den vor Gleichung 4.6 angesprochenenPfad der Spezialisierung begeben und un-ser erstes Netzparadigma samt Lernverfah-ren kennenlernen, nachdem wir nun einekurze Ansicht dessen gehabt haben, wie

eine Lernregel aussehen kann und uns Ge-danken zum Lernen an sich gemacht ha-ben.

Übungsaufgaben

Aufgabe 7. Berechnen Sie für die folgen-den Datenpunkte den Mittelwert µ unddie Standardabweichung σ.

p1 = (2, 2, 2)p2 = (3, 3, 3)p3 = (4, 4, 4)p4 = (6, 0, 0)p5 = (0, 6, 0)p6 = (0, 0, 6)


Teil II

Überwacht lernendeNetzparadigmen

71

Kapitel 5

Das Perceptron, Backpropagation undseine Varianten

Der Klassiker unter den Neuronalen Netzen. Wenn von einem NeuronalenNetz gesprochen wird, ist meistens ein Perceptron oder eine Variation davon

gemeint. Perceptrons sind mehrschichtige Netze ohne Rückkopplung, mitfesten Eingabe- und Ausgabeschichten. Beschreibung des Perceptrons, seiner

Grenzen und seiner Erweiterungen, welche die Grenzen umgehen sollen.Herleitung von Verfahren, es lernen zu lassen, und Diskussion über deren

Probleme.

Wie schon in der Geschichte Neurona-ler Netze erwähnt, wurde das Perceptronvon Frank Rosenblatt 1958 beschrie-ben [Ros58]. Rosenblatt legte als Kompo-nenten des Perceptrons zunächst die schonbesprochene gewichtete Summe, sowie einenichtlineare Aktivierungsfunktion fest.

Obwohl es keine wirklich feste Defi-nition des Perceptrons gibt, ist meis-tens ein FeedForward-Netz mit ShortCut-Connections gemeint, das eine Schichtvon Abtastneuronen (Retina) mit statischgewichteten Verbindungen zur nächstenSchicht besitzt, die wir Eingabeschichtnennen (Abb. 5.1 auf der folgenden Seite);alle Gewichte ab der Eingabeschicht dür-fen aber verändert werden. Die der Reti-na nachgeordneten Neuronen stellen Mus-terdetektoren dar. Wir verwenden hier zu-

nächst ein binäres Perceptron, bei demjedem Outputneuron genau zwei mögli-che Ausgabewerte zur Verfügung stehen(z.B. 0, 1 oder −1, 1). Wir verwen-den also eine binäre Schwellenwertfunk-tion als Aktivierungsfunktion, abhängigvom jeweiligen Schwellenwert Θ des Out-putneurons.

Gewissermaßen stellt eine binäre Aktivie-rungsfunktion also eine IF-Abfrage dar,die man durch negative Gewichte auch ne-gieren kann – man kann also mit dem Per-ceptron wirkliche logische Informationsver-arbeitung durchführen.

Ob das sinnvoll ist, sei einmal dahinge-stellt – Boolesche Logik kann man na-türlich auch einfacher haben. Ich möchtenur darstellen, dass Perceptrons durchaus

73

Kapitel 5 Das Perceptron, Backpropagation und seine Varianten dkriesel.com

Kapitel 5 Das Perceptron dkriesel.com

"" )) ++ ,, ## )) ++|| ## ))uu

""uuss||uussrrGFED@ABC

''OOOOOOOOOOOOOOOOO GFED@ABC

@@@@@@@@@GFED@ABC

GFED@ABC

~~~~~~~~~GFED@ABC

wwooooooooooooooooo

WVUTPQRSΣL|H

GFED@ABCi1

((PPPPPPPPPPPPPPPPPP GFED@ABCi2

!!CCCCCCCCCCGFED@ABCi3

GFED@ABCi4

GFED@ABCi5

vvnnnnnnnnnnnnnnnnnn

?>=<89:;Ω

Abbildung 5.1: Aufbau eines Perceptrons mit einer Schicht variabler Verbindungen in verschiede-nen Ansichten. Die durchgezogene Gewichtsschicht in den unteren beiden Abbildungen ist trainier-bar.Oben: Am Beispiel der Informationsabtastung im Auge.Mitte: Skizze desselben mit eingezeichneter fester Gewichtsschicht unter Verwendung der definier-ten funktionsbeschreibenden Designs fur Neurone.Unten: Ohne eingezeichnete feste Gewichtsschicht, mit Benennung der einzelnen Neuronen nachunserer Konvention. Wir werden die feste Gewichtschicht im weiteren Verlauf der Arbeit nicht mehrbetrachten.

70 D. Kriesel – Ein kleiner Uberblick uber Neuronale Netze (EPSILON-DE)

Abbildung 5.1: Aufbau eines Perceptrons mit einer Schicht variabler Verbindungen in verschiede-nen Ansichten. Die durchgezogene Gewichtsschicht in den unteren beiden Abbildungen ist trainier-bar.Links: Am Beispiel der Informationsabtastung im Auge.Rechts oben: Skizze desselben mit eingezeichneter fester Gewichtsschicht unter Verwendung derdefinierten funktionsbeschreibenden Designs für Neurone.Rechts unten: Ohne eingezeichnete feste Gewichtsschicht, mit Benennung der einzelnen Neuronennach unserer Konvention. Wir werden die feste Gewichtschicht im weiteren Verlauf der Arbeit nichtmehr betrachten.


dkriesel.com

als simple logische Bausteine nutzbar sindund man mit geschickten hintereinander-und zusammengeschalteten Perceptronstheoretisch jede Boolesche Funktion rea-lisieren kann. Wir werden aber noch se-hen, dass dies ohne Hintereinanderschal-tung nicht möglich ist. Bevor wir das Per-ceptron an sich definieren, möchte ich zu-nächst einige Neuronenarten, welche wirin diesem Kapitel verwenden werden, defi-nieren.

Definition 5.1 (Eingabeneuron). EinEingabeneuron (auch Inputneuron ge-nannt) ist ein Identitätsneuron – es gibtgenau das weiter, was es als Eingabe er-

Eingabeneuronleitet nur

Daten weiterhält. Es repräsentiert also die Identitäts-funktion, die wir durch das Symbol an-deuten wollen. Wir stellen ein Eingabeneu-ron daher mit dem Symbol GFED@ABC dar.

Definition 5.2 (Informationsverarbeiten-des Neuron). Informationsverarbei-tende Neurone verarbeiten die eingege-bene Information auf irgendeine Weise, re-präsentieren also nicht die Identitätsfunk-tion. Ein Binäres Neuron summiert al-le Eingaben, die es erhält, durch die ge-wichtete Summe als Propagierungsfunkti-on auf, was wir mit dem Summenzeichen Σskizzieren wollen. Die Aktivierungsfunkti-on des Neurons ist dann die binäre Schwel-lenwertfunktion, die mitL|H skizziert wer-den kann. Dies bringt uns insgesamt zu

der Symboldarstellung WVUTPQRSΣL|H

. Analog wer-

den andere Neurone mit gewichteter Sum-me als Propagierungsfunktion, jedoch denAktivierungsfunktionen Tangens Hyperbo-

licus, Fermifunktion oder einer separat de-finierten Aktivierungsfunktion fact als

WVUTPQRSΣTanh

WVUTPQRSΣFermi

ONMLHIJKΣfact

dargestellt. Diese Neurone bezeichnen wirdann z.B. auch als Fermi-Neuron oderTanh-Neuron.

Ausgabeneurone werden auch oft Out-putneuron genannt. Nachdem wir nundie Bestandteile eines Perceptrons kennen,können wir es auch definieren.

Definition 5.3 (Perceptron). Das Per-ceptron (Abb. 5.1 auf der linken Seite)ist1 ein FeedForward-Netz, in welchem eseine Retina gibt, die der reinen Datenauf-nahme dient und fest gewichtete Verbin-dungen zur ersten Neuronenschicht (Ein-gabeschicht) besitzt. Der festen Gewichts-schicht folgt mindestens eine trainierbareGewichtsschicht. Eine Neuronenschicht istzur jeweils nächsten vollverknüpft. Die ers-te Schicht des Perceptrons besteht aus denoben definierten Eingabeneuronen.

Oft enthält ein FeedForward-Netz auchShortCuts, was aber nicht exakt der ur-sprünglichen Beschreibung entspricht unddaher hier auch nicht der Definition hin-zugefügt wird. Wir sehen, dass die Reti-na gar nicht in den unteren Teil der Abb.5.1 mit einbezogen wird – in der Tat wird

1 Es mag dem einen oder anderen Leser sauer aufsto-ßen, dass ich behaupte, es gäbe keine Definitionfür ein Perceptron, das Perceptron aber im nächs-ten Absatz definiere. Ich schlage daher vor, meineDefinition im Hinterkopf zu behalten, aber nur fürdiese Arbeit als wirklich gegeben anzusehen.



meist (vereinfachend und für die Imple-mentierung ausreichend) die erste Neuro-nenschicht nach der Retina als Eingabe-

Retina wirdvernachlässigt schicht betrachtet, da diese die Inputwerte

sowieso nur weitergibt. Die Retina selbstund die statischen Gewichte dahinter wer-den also nicht weiter erwähnt oder abgebil-det, da sie sowieso nicht informationsver-arbeitend sind. Die Abbildung eines Per-ceptrons beginnt also bei den Inputneuro-nen.

SNIPE: Die MethodensetSettingsTopologyFeedForward so-wie die Variante -WithShortcuts einerNeuralNetworkDescriptor-Instanz konfi-gurieren den Descriptor für FeedForward-Netze bzw. solche mit Shortcuts, indemsie die entsprechenden Verbindungsklassenerlauben. Andere Verbindungsklassenwerden verboten und Fastprop wirdaktiviert.

5.1 Das Singlelayerperceptronbesitzt nur einetrainierbareGewichtsschicht

Hier gehen von der Eingabeschicht Verbin-dungen mit trainierbaren Gewichten zu ei-nem Ausgabeneuron Ω, welches ausgibt,

1 trainierb.Schicht ob das an den Eingabeneuronen eingege-

bene Muster erkannt wird oder nicht. EinSinglelayerperceptron (kurz: SLP) besitztalso nur eine Ebene trainierbarer Gewichte(Abb. 5.1 auf Seite 74).

Definition 5.4 (Singlelayerperceptron).Als Singlelayerperceptron (SLP) wirdein Perceptron bezeichnet, welches nach

GFED@ABCBIAS

wBIAS,Ω

GFED@ABCi1

wi1,Ω

GFED@ABCi2

wi2,Ω

?>=<89:;Ω

Abbildung 5.2: Ein Singlelayerperceptron mitzwei Eingabeneuronen und einem Outputneuron.Durch den aus dem Netz herausführenden Pfeilgibt das Netz die Ausgabe aus. In der Mitte be-findet sich die trainierbare Schicht von Gewich-ten (beschriftet). Zur Erinnerung habe ich hiernoch einmal das Biasneuron mit abgebildet. Ob-wohl das Gewicht wBIAS,Ω ein ganz normales Ge-wicht ist und auch so behandelt wird, habe ich eshier nur gepunktet gezeichnet – dies erhöht dieÜbersichtlichkeit bei größeren Netzen stark. InZukunft werden wir das Biasneuron nicht mehrmit abbilden.

der Schicht Eingabeneurone nur eine va-riable Gewichtsschicht und eine SchichtAusgabeneurone Ω besitzt. Die technischeSicht eines SLPs findet sich in Abb. 5.2.

Es ändert am Prinzip des Perceptronsnatürlich nichts wesentlich, wenn mehre- Wichtig!re Ausgabeneurone Ω1,Ω2, . . . ,Ωn vorkom-men (Abb. 5.3 auf der rechten Seite): EinPerceptron mit mehreren Ausgabeneuro-nen kann man auch als mehrere verschie-dene Perceptrone mit derselben Eingabeansehen.

Als triviale, zusammensetzbare Beispielesind die in Abb. 5.4 auf der rechten Seite


dkriesel.com 5.1 Das Singlelayerperceptron

GFED@ABCi1

@@@@@@@@@

**UUUUUUUUUUUUUUUUUUUUUUUUUU

''PPPPPPPPPPPPPPPPP GFED@ABCi2

((PPPPPPPPPPPPPPPPPP

AAAAAAAAAGFED@ABCi3

~~

AAAAAAAAA

GFED@ABCi4

vvnnnnnnnnnnnnnnnnnn

~~GFED@ABCi5

~~~~~~~~~~~


wwnnnnnnnnnnnnnnnnn

GFED@ABCΩ1

GFED@ABCΩ2

GFED@ABCΩ3

Abbildung 5.3: Singlelayerperceptron mit meh-reren Ausgabeneuronen

dargestellten Booleschen Funktionen ANDund OR zu sehen.

Wir möchten nun erfahren, wie wirein Singlelayerperceptron trainieren kön-nen, und betrachten hierzu zunächst denPerceptron-Lernalgorithmus und anschlie-ßend die Delta-Regel.

5.1.1 Perceptron-Lernalgorithmusund Konvergenz-Theorem

Der ursprüngliche Perceptron-Lernalgorithmus mit binärerAktivierungsfunktion in den Neuronen istbeschrieben in Alg. 1. Es ist bewiesen,dass der Algorithmus in endlicher Zeit kon-vergiert – das Perceptron also in endlicherZeit alles lernen kann, was ihm möglichist, zu repräsentieren (Perceptron-Konvergenz-Theorem, [Ros62]). DerLeser sollte sich hierbei nicht zu frühfreuen. Was das Perceptron repräsentierenkann, werden wir noch erforschen.

GFED@ABC

1AAAA

AAAA

GFED@ABC

1

~~

[email protected]

GFED@ABC

1AAAA

AAAA

GFED@ABC

1

~~

[email protected]

Abbildung 5.4: Zwei Singlelayerperceptrons fürBoolesche Funktionen. Das obere Singlelayer-perceptron realisiert ein AND, das untere einOR. Die Aktivierungsfunktion des informations-verarbeitenden Neurons ist jeweils die binäreSchwellenwertfunktion, wo vorhanden stehen dieSchwellenwerte in den Neuronen.



1: while ∃p ∈ P and Fehler zu groß do2: Gebe ein p in Netz ein, berechne Ausgabe y P Menge der Trainingsmuster3: for jedes Ausgabeneuron Ω do4: if yΩ = tΩ then5: Ausgabe richtig, keine Gewichtsänderung6: else7: if yΩ = 0 then8: for jedes Eingabeneuron i do9: wi,Ω := wi,Ω + oi ...Gewicht zu Ω um oi vergrößern

10: end for11: end if12: if yΩ = 1 then13: for jedes Eingabeneuron i do14: wi,Ω := wi,Ω − oi ...Gewicht zu Ω um oi verkleinern15: end for16: end if17: end if18: end for19: end whileAlgorithmus 1: Perceptron-Lernalgorithmus. Der Perceptron-Lernalgorithmus verrin-gert Gewichte zu Ausgabeneuronen, welche 1 statt 0 ausgeben, und erhöht Gewichteim umgekehrten Fall.



Während der Erforschung der linearenSeparierbarkeit von Problemen werdenwir noch behandeln, dass zumindest dasSinglelayerperceptron leider viele Proble-me nicht repräsentieren kann.

5.1.2 Die Delta-Regel alsgradientenbasiertesLernverfahren für SLPs

Im Folgenden weichen wir von unsererbinären Schwellenwertfunktion als Akti-vierungsfunktion ab, denn zumindest fürBackpropagation of Error brauchen wir,wie wir gleich sehen werden, eine diffe-

fact nundiffbar renzierbare oder gar semilineare Aktivie-

rungsfunktion – für die nun folgende Delta-Regel (ebenfalls hergeleitet in [MR86]) istsie nicht zwangsweise erforderlich, abernützlich. Auf diesen Umstand wird aberauch noch einmal an Ort und Stelle hin-gewiesen. Die Delta-Regel hat gegenüberdem obigen Perceptron-Lernalgorithmusim Wesentlichen die Vorteile, für nicht-binäre Aktivierungsfunktionen geeignet zusein und, bei großer Entfernung zum Lern-ziel, automatisch schneller zu lernen.

Angenommen, wir besitzen ein Single-layerperceptron mit zufällig gesetzten Ge-wichten, dem wir eine Funktion anhandvon Trainingsbeispielen beibringen möch-ten. Die Menge dieser Trainingsbeispielenennen wir P – sie enthält, wie schon de-finiert, Paare (p, t) von Trainingsbeispie-len p und zugehörigem Teaching Input t.Ich rufe auch noch einmal in Erinnerung,dass

. x Inputvektor und

. y Outputvektor eines Neuronalen Net-zes ist,

. Outputneurone Ω1,Ω2, . . . ,Ω|O| ge-nannt werden und

. i Input sowie

. o Output eines Neurons ist.

Ferner haben wir definiert, dass

. der Fehlervektor Ep die Differenz (t−y) unter einem bestimmten Trainings-beispiel p darstellt.

. Sei weiterhin wie gehabt O die Mengeder Ausgabeneurone und

. I die Menge der Eingabeneurone.

Als weitere Namenskonvention wollen wirvereinbaren, dass z.B. für Output o undTeaching Input t ein zusätzlicher Index pgesetzt werden darf, um anzuzeigen, dassdiese Größe musterspezifisch ist – dies er-höht manchmal die Übersichtlichkeit ganzerheblich.

Unser Lernziel ist jetzt natürlich, dass beiallen Trainingsbeispielen der Output y desNetzes annähernd gleich dem gewünschtenOutput t ist, also formal gilt

∀p : y ≈ t bzw. ∀p : Ep ≈ 0.

Hierfür müssen wir erst lernen, den Ge-samtfehler Err als Funktion der Gewichtezu betrachten: Der Gesamtfehler nimmt zuoder ab, je nachdem, wie wir die Gewichteändern.



−2−1

0 1

2w1

−2−1

0 1

2

w2

0

1

2

3

4

5

Abbildung 5.5: Beispielhafte Fehlerfläche einesNeuronalen Netzes mit zwei trainierbaren Verbin-dungen w1 und w2. In der Regel haben Neu-ronale Netze mehr als zwei Verbindungen, washier nicht so übersichtlich abzubilden gewesenwäre. Weiterhin ist die Fehlerfläche meist sehrviel zerklüfteter, was die Suche nach dem Mini-mum erschwert.

Definition 5.5 (Fehlerfunktion). DieFehlerfunktion

Err(W )IErr : W → R

fasst die Menge2 der Gewichte W als Vek-tor auf und bildet die Gewichtswerte aufden normalisierten Ausgabefehler ab (nor-

Fehler alsFunktion malisiert daher, weil man sämtliche Aus-

gabefehler sonst nicht in einem einzelnene ∈ R abbilden kann, um einen Gradi-entenabstieg darauf durchzuführen). Dasssich analog eine spezifische Fehlerfunk-tion für ein einzelnes Muster p bilden

Errp(W )I lässt, ist offensichtlich.

2 Der Tradition anderer Literatur folgend, habe ichW vorher als Gewichtsmatrix definiert – ich binmir dieses Konfliktes bewusst, er wird uns hieraber nicht weiter stören.

Wie wir bereits in Abschnitt 4.5 zum The-ma Gradientenabstiegsverfahren gesehenhaben, berechnen Gradientenabstiegsver-fahren den Gradienten einer beliebig- aberendlichdimensionalen Funktion (hier derFehlerfunktion Err(W )) und gehen entge-gen dem Gradienten nach unten, bis einMinimum erreicht ist. Err(W ) ist auf derMenge sämtlicher Gewichte definiert, diewir hier als Vektor W ansehen. Es wirdalso versucht, den Fehler zu verringernbzw. zu minimieren, indem man, saloppgesagt, an den Gewichten dreht – manbekommt also Informationen darüber, wieman die Gewichte verändern soll (die Ver-änderung aller Gewichte bezeichnen wirmit ∆W ), indem man die FehlerfunktionErr(W ) nach diesen ableitet:

∆W ∼ −∇Err(W ). (5.1)

Aufgrund dieser Proportionalität gibt eseine Proportionalitätskonstante η, so dassGleichheit gilt (η wird bald noch eine wei-tere Bedeutung und wirklich praktischenNutzen außerhalb der bloßen Bedeutungals Proportionalitätskonstante bekommen.Ich möchte den Leser bitten, sich bis dahinnoch etwas zu gedulden.):

∆W = −η∇Err(W ). (5.2)

Die Ableitung der Fehlerfunktion nach denGewichten schreiben wir jetzt als norma-le partielle Ableitung nach einem Gewichtwi,Ω (es gibt nur variable Gewichte zu Aus-gabeneuronen Ω), um damit rechnerischetwas mehr anfangen zu können. Wir dre-hen also an jedem einzelnen Gewicht undschauen, wie sich die Fehlerfunktion dabeiändert, leiten also die Fehlerfunktion nach



einem Gewicht wi,Ω ab und erhalten so dieInformation ∆wi,Ω, wie wir dieses Gewichtverändern sollen.

∆wi,Ω = −η∂Err(W )∂wi,Ω

. (5.3)

Nun stellt sich langsam die Frage: Wieist denn genau unsere Fehlerfunktion defi-niert? Es ist schlecht für uns, wenn sich vie-le Ergebnisse fern der gewünschten finden,die Fehlerfunktion sollte dann also großeWerte liefern – auf der anderen Seite ist esauch nicht gut, wenn viele Ergebnisse na-he der gewünschten sind, es aber vielleichteinen sehr weit entfernten Ausreißer gibt.Es bietet sich also der Quadratische Ab-stand zwischen dem Ausgabevektor y unddem Teaching Input t an, der uns den fürein Trainingsbeispiel p spezifischen FehlerErrp über die Ausgabe aller Outputneuro-ne Ω liefert:

Errp(W ) = 12∑Ω∈O

(tp,Ω − yp,Ω)2. (5.4)

Wir quadrieren also die Differenzen derKomponenten der Vektoren t und y untereinem Muster p und summieren diese Qua-drate auf. Die Fehlerdefinition Err und da-mit die der Fehlerfunktion Err(W ) ergibtsich dann einfach durch die Aufsummie-rung der spezifischen Fehler Errp(W ) allerMuster p:

Err(W ) =∑p∈P

Errp(W ) (5.5)

= 12

Summe über alle p︷︸︸︷∑p∈P

∑Ω∈O

(tp,Ω − yp,Ω)2

︸︷︷︸

Summe über alle Ω

.

(5.6)

Der aufmerksame Leser wird sich natür-lich fragen, woher denn in Gleichung 5.4der Faktor 1

2 plötzlich kommt, und wodenn, da die Gleichung dem euklidischenAbstand so ähnlich sieht, die Wurzel ge-blieben ist. Beides folgt aus einfacher Prag-matik: Es geht nur um die Fehlerminimie-rung. Die Wurzelfunktion ist monoton undsinkt mit ihrem Argument, also könnenwir sie auch dem Rechen- und Implementa-tionsaufwand zuliebe weglassen, da wir siefür die Minimierung nicht brauchen. Eben-so ist egal, ob wir den zu minimierendenTerm durch den Vorfaktor 1

2 halbieren: Ichdarf also mit 1

2 multiplizieren – aus der rei-nen Faulheit heraus, damit es sich im wei-teren Verlauf unserer Rechnungen gegeneine 2 herauskürzt.

Nun wollen wir fortfahren, die Delta-Regelfür lineare Aktivierungsfunktionen herzu-leiten. Wir haben bereits behandelt, dassman etwas an den einzelnen Gewichtenwi,Ω dreht und schaut, wie sich der Feh-ler Err(W ) verändert – was der Ableitungder Fehlerfunktion Err(W ) nach eben die-sem Gewicht wi,Ω entspricht. Diese Ablei-tung entspricht (da sich der GesamtfehlerErr(W ) aus der Summe der spezifischenFehler ergibt) der Summe der Ableitungenaller spezifischen Fehler Errp nach diesemGewicht:

∆wi,Ω = −η∂Err(W )∂wi,Ω

(5.7)

=∑p∈P−η∂Errp(W )

∂wi,Ω. (5.8)

An dieser Stelle möchte ich noch einmaldarüber nachdenken, wie ein Neuronales



Netz denn Daten verarbeitet. Im Grundewerden die Daten nur durch eine Funkti-on geschickt, das Ergebnis der Funktiondurch eine weitere und so weiter und sofort. Lassen wir die Outputfunktion ein-mal außen vor, so besteht der Weg vonNeuronenausgaben oi1 und oi2 , die vonNeuronen i1 und i2 in ein Neuron Ω ein-gegeben werden, zunächst aus der Pro-pagierungsfunktion (hier gewichtete Sum-me), aus der wir dann die Netzeingabe er-halten. Diese wird dann durch die Aktivie-rungsfunktion des Neurons Ω geschickt, sodass wir den Output dieses Neurons erhal-ten, der auch gleichzeitig eine Komponen-te des Ausgabevektors y ist:

netΩ → fact

= fact(netΩ)= oΩ

= yΩ.

Wie wir sehen, resultiert dieser Output ausvielen ineinander geschachtelten Funktio-nen:

oΩ = fact(netΩ) (5.9)

= fact(oi1 · wi1,Ω + oi2 · wi2,Ω). (5.10)

Dass wir den Output auch bis in die Ein-gabeneurone aufschlüsseln können, ist klar(das ist hier nicht notwendig, da diesebei einem SLP keine Informationsverarbei-tung betreiben). Wir wollen also die Ab-leitungen von Gleichung 5.8 auf der vor-angehenden Seite durchführen und kön-nen durch die Funktionsschachtelung die

Kettenregel anwenden, um die in Glei-chung 5.8 auf der vorangehenden Seite ent-haltene Ableitung ∂Errp(W )

∂wi,Ωzu zerlegen.

∂Errp(W )∂wi,Ω

= ∂Errp(W )∂op,Ω

· ∂op,Ω∂wi,Ω

. (5.11)

Betrachten wir den ersten multiplikati-ven Faktor der obigen Gleichung 5.11,der die Ableitung des spezifischen FehlersErrp(W ) nach dem Output darstellt, al-so die Veränderung des Fehlers Errp mitdem Output op,Ω: Es ist bei Betrachtungvon Errp (Gleichung 5.4 auf der vorange-henden Seite) klar, dass diese Veränderungsich genau mit der Differenz zwischen Te-aching Input und Ausgabe (tp,Ω − op,Ω)verändert (wir erinnern uns: Da Ω Ausga-beneuron, gilt op,Ω = yp,Ω). Ist der Out-put dem Teaching Input näher, so ist derspezifische Fehler kleiner. Wir können alsodas eine durch das andere ersetzen, wobeiwir diese Differenz auch δp,Ω nennen (da-her hat die Delta-Regel ihren Namen):

∂Errp(W )∂wi,Ω

= −(tp,Ω − op,Ω) · ∂op,Ω∂wi,Ω

(5.12)

= −δp,Ω ·∂op,Ω∂wi,Ω

(5.13)

Der zweite multiplikative Faktor der Glei-chung 5.11 und der folgenden ist die Ab-leitung des Outputs des Neurons Ω zumMuster p nach dem Gewicht wi,Ω. Wie ver-ändert sich also op,Ω bei der Veränderungdes Gewichts von i nach Ω? Da wir nachder Forderung am Anfang der Herleitungnur eine lineare Aktivierungsfunktion fact



haben, können wir genauso gut die Verän-derung der Netzeingabe bei Veränderungvon wi,Ω betrachten:

∂Errp(W )∂wi,Ω

= −δp,Ω ·∂∑i∈I(op,iwi,Ω)∂wi,Ω

.

(5.14)

Diese Ableitung ∂∑

i∈I(op,iwi,Ω)∂wi,Ω

können wirnun vereinfachen: Die abzuleitende Funkti-on ∑i∈I(op,iwi,Ω) besteht aus vielen Sum-manden, und nur der Summand op,iwi,Ωenthält die Variable wi,Ω, nach der wir ab-leiten. Es gilt also ∂

∑i∈I(op,iwi,Ω)∂wi,Ω

= op,iund damit:

∂Errp(W )∂wi,Ω

= −δp,Ω · op,i (5.15)

= −op,i · δp,Ω. (5.16)

Dies setzen wir in die Gleichung 5.8 aufSeite 81 ein und erhalten so unsere Modi-fikationsregel für ein Gewicht wi,Ω:

∆wi,Ω = η ·∑p∈P

op,i · δp,Ω. (5.17)

Allerdings: Wir haben die Herleitungschon von Anfang an als Offline-Regel be-gonnen, indem wir uns Gedanken gemachthaben, wie wir die Fehler aller Muster auf-summieren und jeweils nach der Präsenta-tion aller Muster lernen. Dies ist der ma-thematisch korrekte Weg, aber aufwändi-ger zu implementieren und, wie wir spä-ter in diesem Kapitel sehen werden, auchteilweise rechenaufwändiger während desTrainings.

Für die „Online-Learning-Version“ derDelta-Regel wird die Aufsummierung ein-fach weggelassen und direkt nach der Prä-sentation jedes Musters gelernt, was unsauch die Schreibweise vereinfacht (sie mussnicht mehr auf ein Muster p bezogensein):

∆wi,Ω = η · oi · δΩ. (5.18)

Diese Version der Delta-Regel möchte ichauch für die folgende Definition verwen-den.

Definition 5.6 (Delta-Regel). Bestim-men wir analog zu obiger Herleitung, dassdie Funktion h aus der Hebb-Regel (Glei-chung 4.6 auf Seite 70) nur den Ausgabe-wert oi des Vorgängerneurons i wieder aus-gibt und die Funktion g die Differenz vongewünschter Aktivierung tΩ und tatsächli-cher Aktivierung aΩ ist, so erhalten wir dieDelta-Regel, auch bekannt als Widrow-Hoff-Regel:

∆wi,Ω = η · oi · (tΩ − aΩ) = ηoiδΩ (5.19)

Wenn man als Teaching Input die ge-wünschte Ausgabe anstatt Aktivierung an-legt, die Ausgabefunktion der Outputneu-rone also keine Identität darstellt, erhältman

∆wi,Ω = η · oi · (tΩ − oΩ) = ηoiδΩ (5.20)

und δΩ entspricht dann der Differenz zwi-schen tΩ und oΩ.

Bei der Delta-Regel ist die Gewichtsände-rung aller Gewichte zu einem Ausgabeneu-ron Ω proportional



Ein. 1 Ein. 2 Ausgabe0 0 00 1 11 0 11 1 0

Tabelle 5.1: Definition des logischen XORs.Links die Eingabewerte, rechts die definierteAusgabe.

. zur Differenz der aktuellen Aktivie-rung bzw. Ausgabe aΩ bzw. oΩ unddem dazugehörigen Teaching InputtΩ. Diesen Faktor möchten wir δΩ

δI nennen, er wird auch „Delta“ gespro-chen.

Offensichtlich gilt die Delta-Regel jedochnur für SLPs, da sich die Formel immer aufden Teaching Input bezieht und für innere

Delta-Regelnur für SLP Verarbeitungsschichten von Neuronen kein

Teaching Input existiert.

5.2 Ein SLP kann nur linearseparierbare Datenrepräsentieren

Sei f die XOR-Funktion, welche zwei bi-näre Eingaben erwartet und eine binäreAusgabe erzeugt (genaue Definition sieheTabelle 5.1).

Versuchen wir, durch ein SLP mit zweiEingabeneuronen i1, i2 und einem Ausga-beneuron Ω die XOR-Funktion darzustel-len (Abb. 5.6).

GFED@ABCi1

wi1,ΩBBBB

BBBB

GFED@ABCi2

wi2,Ω||||

~~||||

?>=<89:;Ω

XOR?

Abbildung 5.6: Skizze für ein Singlelayerpercep-tron, welches die XOR-Funktion darstellen soll –solch ein SLP kann es aber nicht geben.

Wir verwenden hier die gewichtete Sum-me als Propagierungsfunktion, eine binäreAktivierungsfunktion mit Schwellenwert Θund die Identität als Ausgabefunktion. Ωmuss also in Abhängigkeit von i1 und i2den Wert 1 ausgeben, wenn gilt:

netΩ = oi1wi1,Ω + oi2wi2,Ω ≥ ΘΩ (5.21)

Gehen wir von einem positiven Gewichtwi2,Ω aus, so ist Ungleichung 5.21 äquiva-lent zu der Ungleichung

oi1 ≥1

wi1,Ω(ΘΩ − oi2wi2,Ω) (5.22)

Bei konstantem Schwellenwert ΘΩ stelltder rechte Teil der Ungleichung 5.22 eineGerade durch ein von den möglichen Aus-gaben oi1 und oi2 der Eingabeneurone i1und i2 aufgespanntes Koordinatensystem(Abb. 5.7 auf der rechten Seite) dar.


dkriesel.com 5.2 Lineare Separierbarkeit

Abbildung 5.7: Lineare Separierung von n = 2Eingaben von Inputneuronen i1 und i2 durch 1-dimensionale Gerade. A und B bezeichnen dieZugehörigkeit der Eckpunkte zu den zu separie-renden Mengen der XOR-Funktion.

Für ein (wie für Ungleichung 5.22 auf derlinken Seite gefordertes) positives wi2,Ωfeuert das Ausgabeneuron Ω bei den Ein-gabekombinationen, welche über der er-zeugten Geraden liegen. Für ein negativeswi2,Ω würde es für alle Eingabekombinatio-nen feuern, welche unter der Geraden lie-gen. Es sei angemerkt, dass nur die vierEckpunkte des Einheitsquadrates mögli-che Eingaben sind, da die XOR-Funktionnur binäre Eingaben kennt.

Um das XOR-Problem zu lösen, müssenwir also die Gerade so drehen und ver-schieben, dass sie die Eingabemenge A =(0, 0), (1, 1) von der Eingabemenge B =(0, 1), (1, 0) abgrenzt - was offensichtlichnicht möglich ist.

Allgemein lassen sich die Eingabemöglich-keiten n vieler Eingabeneurone in einem n-dimensionalen Würfel darstellen, der von

SLP kannnicht alleseinem SLP durch eine (n−1)-dimensionale

Hyperebene separiert wird (Abb. 5.8 aufder folgenden Seite) – nur Mengen, diedurch eine solche Hyperebene trennbar, al-so linear separierbar sind, kann ein SLPklassifizieren.

Es spricht leider viel dafür, dass der Pro-zentsatz der linear separierbaren Problememit steigendem n schnell abnimmt (sieheTabelle 5.2 auf der folgenden Seite), was

Wenige Aufg.linearseparierbar

die Funktionalität des SLPs einschränkt –weiterhin sind Prüfungen auf lineare Sepa-rierbarkeit schwierig. Für schwierigere Auf-gaben mit mehr Eingaben benötigen wiralso etwas Mächtigeres als das SLP. DasXOR-Problem stellt schon eine dieser Auf-gaben dar, braucht doch ein Perceptron,das die XOR-Funktion repräsentieren will,



Abbildung 5.8: Lineare Separierung von n = 3Eingaben von Inputneuronen i1, i2 und i3 durch2-dimensionale Ebene.

n AnzahlbinärerFunktionen

davon lin.separier-bar

Anteil

1 4 4 100%2 16 14 87.5%3 256 104 40.6%4 65, 536 1, 772 2.7%5 4.3 · 109 94, 572 0.002%6 1.8 · 1019 5, 028, 134 ≈ 0%

Tabelle 5.2: Anzahl der Funktionen bezüglichn binärer Eingaben und Anzahl und Anteil derdavon linear separierbaren Funktionen. Nach[Zel94,Wid89,Was89].

GFED@ABC

1AAAA

AAAA

111111111

11111111

GFED@ABC

1

~~

1

[email protected]

−[email protected]

XOR

Abbildung 5.9: Neuronales Netz, welches dieXOR-Funktion realisiert. Schwellenwerte stehen(soweit vorhanden) innerhalb der Neurone.

bereits eine verdeckte Ebene (Abb. 5.9).

5.3 Ein Multilayerperceptronenthält mehr trainierbareGewichtsschichten

Mächtiger als ein SLP ist ein Percep-tron mit zwei oder mehr trainierbarenGewichtsschichten (Multilayerperceptronbzw. MLP genannt). Wie wir wissen, kannein Singlelayerperceptron den Inputraumdurch eine Hyperebene (bei zweidimen-sionalem Inputraum eine Geraden) teilen.Ein zweistufiges Perceptron (2 trainierba-

Mehr Ebenenre Gewichtsschichten, 3 Schichten Neuro-ne) kann konvexe Polygone klassifizieren,indem es diese Geraden weiterbehandelt,


dkriesel.com 5.3 Das Multilayerperceptron

zum Beispiel in der Form „erkenne Mus-ter, die über Gerade 1, unter Gerade 2und unter Gerade 3 liegen“. Wir haben al-so bildlich gesprochen ein SLP mit mehre-ren Ausgabeneuronen genommen und einweiteres SLP „angehangen“ (oberer Teilder Abb. 5.10 auf der folgenden Seite).Ein Multilayerperceptron stellt einen uni-versellen Funktionsapproximator dar,wie aus dem Cybenko-Theorem hervorgeht[Cyb89].

Eine weitere trainierbare Gewichtsschichtverfährt genauso, nur eben mit den kon-vexen Polygonen, die nun wieder durcheine Gewichtsschicht aufeinander addiert,voneinander abgezogen oder mit anderenOperationen nachbearbeitet werden kön-nen (unterer Teil der Abb. 5.10 auf derfolgenden Seite).

Allgemein kann mathematisch bewiesenwerden, dass schon ein Multilayerpercep-tron mit einer Schicht versteckter Neuro-ne eine Funktion mit endlich vielen Unste-tigkeitsstellen sowie deren erste Ableitungbeliebig genau approximieren kann – lei-der ist der Beweis aber nicht konstruktiv,und so ist es uns selbst überlassen, die rich-tige Neuronenanzahl und Gewichte zu fin-den.

Im Folgenden möchten wir für verschie-dene Multilayerperceptrons eine Kurz-schreibweise verwenden, welche weite Ver-breitung findet: So ist ein zweistufiges Per-ceptron mit 5 Neuronen in der Eingabe-schicht, 3 Neuronen in der verstecktenSchicht und 4 Neuronen in der Ausgabe-schicht ein 5-3-4-MLP.

Definition 5.7 (Multilayerperceptron).Perceptrons mit mehr als einer Schichtvariabel gewichteter Verbindungen be-zeichnen wir als Multilayerperceptron(MLP). Ein n-Layer-Perceptron bzw. n-stufiges Perceptron hat dabei genau n va-riable Gewichtsschichten und n+1 Schich-ten Neurone (die Retina lassen wir außerAcht), die Neuronenschicht 1 ist hierbeidie Schicht Eingabeneurone.

Da dreistufige Perceptrons durch Vereini-gung und Schnitt beliebig vieler konvexer

3-Schichten-MLP reichtaus

Polygone Mengen beliebiger Form klassifi-zieren können, bringt uns eine weitere Stu-fe für Funktionsdarstellungen durch Neu-ronale Netze keinen Vorteil mehr. Vorsichtbeim Literaturlesen: An der Schichtende-finition scheiden sich die Geister. Man-che Quellen zählen die Neuronenschichten,manche die Gewichtsschichten. Manchezählen die Retina hinzu, manche zählendie trainierbaren Gewichtsschichten. Man-che zählen (aus welchen Gründen auchimmer) die Ausgabeneuronenschicht nichtmit. Ich habe hier die Definition gewählt,die meiner Meinung nach am meisten überdie Lernfähigkeiten aussagt – und werdesie hier auch konsistent durchhalten. Noch-mal zur Erinnerung: Ein n-stufiges Percep-tron besitzt genau n trainierbare Gewichts-schichten. Eine Zusammenfassung, welchePerceptrons welche Art von Menge klassi-fizieren können, findet sich noch einmal inTabelle 5.3 auf Seite 89. Wir werden unsjetzt der Herausforderung widmen, Percep-trons mit mehr als einer Gewichtsschichtzu trainieren.



GFED@ABCi1

@@@@@@@@@

**UUUUUUUUUUUUUUUUUUUUUUUUU GFED@ABCi2

@@@@@@@@@

ttjjjjjjjjjjjjjjjjjjjjjjjjj

GFED@ABCh1

''PPPPPPPPPPPPPPPPP GFED@ABCh2

GFED@ABCh3

wwooooooooooooooooo

?>=<89:;Ω

GFED@ABCi1

~~~~~~~~~~~

@@@@@@@@@

'' )) **

GFED@ABCi2

tt uu ww ~~~~~~~~~~~

@@@@@@@@@

GFED@ABCh1

''PPPPPPPPPPPPPPPPP

--

GFED@ABCh2

@@@@@@@@@

,,

GFED@ABCh3

**

GFED@ABCh4

tt

GFED@ABCh5

~~~~~~~~~~~

rr

GFED@ABCh6

wwnnnnnnnnnnnnnnnnn

qqGFED@ABCh7

@@@@@@@@@GFED@ABCh8

~~~~~~~~~

?>=<89:;Ω

Abbildung 5.10: Wie wir wissen, repräsentiert ein SLP eine Gerade. Mit 2 trainierbaren Gewichts-schichten kann man mehrere Geraden zu konvexen Polygonen zusammensetzen (oben). Unter Ver-wendung von 3 trainierbaren Gewichtsschichten kann man mit mehreren Polygonen beliebige Men-gen modellieren (unten).


dkriesel.com 5.4 Backpropagation of Error

n klassifizierbare Menge1 Hyperebene2 konvexes Polygon3 jede beliebige Menge4 auch jede beliebige Menge,

also kein weiterer Vorteil

Tabelle 5.3: Hier wird dargestellt, mit welchemPerceptron sich Mengen welcher Art klassifizie-ren lassen, wobei das n die Anzahl der trainier-baren Gewichtsschichten darstellt.

5.4 Backpropagation of Errorverallgemeinert dieDelta-Regel auf MLPs

Im Folgenden möchte ich die Backpropa-gation of Error-Lernregel (Kurz: Back-propagation, Backprop oder auch BP) her-leiten und näher erläutern, mit der manmehrstufige Perceptrons, welche semilinea-re3 Aktivierungsfunktionen besitzen, trai-nieren kann. Binäre Schwellenwertfunk-tionen und sonstige nicht-differenzierbareFunktionen werden nicht mehr unter-stützt, das macht aber nichts: Wir ha-ben ja gesehen, dass man die Fermifunkti-on bzw. den Tangens Hyperbolicus durcheinen Temperatur-Parameter T der bi-nären Schwellenwertfunktion beliebig an-nähern kann. Weitgehend werde ich derHerleitung nach [Zel94] bzw. [MR86] fol-gen – ich möchte aber noch einmal dar-auf hinweisen, dass das Verfahren bereitsfrüher von Paul Werbos in [Wer74] pu-

3 Semilineare Funktionen sind monoton und differen-zierbar – aber im Allgemeinen nicht linear.

bliziert wurde, jedoch wesentlich wenigerLeser fand als in [MR86].

Backpropagation ist ein Gradientenab-stiegsverfahren (mit all den Stärken undSchwächen des Gradientenabstiegs), wobeidie Fehlerfunktion Err(W ) hier sämtlichen Gewichte als Argument entgegennimmt(Abb. 5.5 auf Seite 80) und diese dem Aus-gabefehler zuordnet, also n-dimensionalist. Auf Err(W ) sucht man durch Gradien-tenabstieg einen Punkt geringen oder gargeringsten Fehlers. Backpropagation trai-niert also wie die Delta-Regel die Gewich-te des Neuronalen Netzes – und genaudie Delta-Regel bzw. ihre Größe δi für einNeuron i wird durch Backpropagation voneiner auf mehrere trainierbare Gewichts-schichten erweitert.

5.4.1 Die Herleitung erfolgt völliganalog zur Deltaregel, abermit allgemeinerem Delta

Im Vorfeld sei definiert, dass sich dieNetzeingabe der einzelnen Neurone idurch die gewichtete Summe ergibt. Wei-terhin seien op,i, netp,i etc. wie schon beiHerleitung der Delta-Regel definiert alsdie gewohnten oi, neti, etc. unter demEingabemuster p, welches wir zum Trai-nieren verwenden. Auch sei die Ausgabe-funktion wieder die Identität, es gilt al-so oi = fact(netp,i) für jedes Neuron i.Da es sich um eine Verallgemeinerung derDelta-Regel handelt, benutzen wir wiederdas gleiche Formelgerüst wie bei der Delta-

Verallge-meinernvon δ

Regel (Gleichung 5.20 auf Seite 83). Waswir verallgemeinern müssen, ist, wie schon



/.-,()*+

&&LLLLLLLLLLLLLLL /.-,()*+

========== /.-,()*+

. . . ?>=<89:;kwk,h

pppppppp

wwppppppp

K

ONMLHIJKΣfact

xxrrrrrrrrrrrrrrr

wh,lNNNNNNN

''NNNNNNNN

h H

/.-,()*+ /.-,()*+ /.-,()*+ . . . ?>=<89:;l L

Abbildung 5.11: Skizze der Lage unseres Neu-rons h im Neuronalen Netz. Es liegt in derSchicht H, Vorgängerschicht ist K, nachfolgen-de Schicht ist L.

angedeutet, die Größe δ für jedes Neu-ron.

Zunächst: Wo befindet sich das Neuron,für das wir ein δ errechnen wollen? Esliegt nahe, ein beliebiges inneres Neuronh zu wählen, welches eine Menge K vonVorgängerneuronen k sowie eine MengeL von Nachfolgerneuronen l besitzt, wel-che ebenfalls innere Neurone sind (SieheAbb. 5.11). Es ist dabei irrelevant, ob dieVorgängerneurone bereits die Eingabeneu-rone sind.

Wir führen nun das gleiche Spiel wie beider Herleitung der Delta-Regel durch undspalten Funktionen durch die Kettenregel.Ich werde bei dieser Herleitung nicht ganz

so ausführlich sein, das Prinzip ist aberdem der Delta-Regel ähnlich (die Unter-schiede liegen eben wie gesagt im verallge-meinerten δ). Wir leiten also zunächst dieFehlerfunktion Err nach einem Gewichtwk,h ab.

∂Err(wk,h)∂wk,h

= ∂Err∂neth︸︷︷︸=−δh

·∂neth∂wk,h

(5.23)

Der erste Faktor der Gleichung 5.23 ist−δh, welches wir gleich noch betrachtenwollen. Der zweite Faktor der Gleichungträgt im Zähler die Netzeingabe, also diegewichtete Summe, so dass wir diese auchdirekt ableiten können. Es fallen wieder al-le Summanden der Summe weg bis auf den-jenigen, der wk,h enthält. Dieser Summandheißt wk,h ·ok. Leitet man diesen ab, bleibtalso der Output des Neurons k übrig:

∂neth∂wk,h

= ∂∑k∈K wk,hok∂wk,h

(5.24)

= ok (5.25)

Wie versprochen, behandeln wir nun das−δh der Gleichung 5.23, welches wir wie-der mit der Kettenregel aufspalten:

δh = − ∂Err∂neth

(5.26)

= −∂Err∂oh

· ∂oh∂neth

(5.27)

Die Ableitung des Outputs nach derNetzeingabe (der zweite Faktor in Glei-chung 5.27) kommt natürlich der Ablei-



tung der Aktivierungsfunktion nach derNetzeingabe gleich:

∂oh∂neth

= ∂fact(neth)∂neth

(5.28)

= fact′(neth) (5.29)

Analog leiten wir nun den ersten Faktorin Gleichung 5.27 auf der linken Seite ab.Diese Stelle möge sich der Leser bitte gutdurch den Kopf gehen lassen. Wir müssenuns hierfür nur klarmachen, dass die Ab-leitung der Fehlerfunktion nach dem Out-put einer inneren Neuronenschicht abhän-gig ist vom Vektor sämtlicher Netzeinga-ben der Nachfolgeschicht. Dies schlägt inGleichung 5.30 zu Buche:

−∂Err∂oh

= −∂Err(netl1 , . . . ,netl|L|)

∂oh(5.30)

Nach der Definition der mehrdimensiona-len Kettenregel folgt dann sofort die Glei-chung 5.31:

−∂Err∂oh

=∑l∈L

(− ∂Err∂netl

· ∂netl∂oh

)(5.31)

Die Summe in Gleichung 5.31 besitztzwei Faktoren. Mit diesen Faktoren, sum-miert über die Nachfolgeschicht L, wol-len wir uns nun beschäftigen. Wir rechnenden zweiten Faktor in der folgenden Glei-chung 5.33 einfach aus:

∂netl∂oh

= ∂∑h∈H wh,l · oh∂oh

(5.32)

= wh,l (5.33)

Analog gilt für den ersten Faktor nach derDefinition unseres δ:

− ∂Err∂netl

= δl (5.34)

Wir setzen nun ein:

⇒ −∂Err∂oh

=∑l∈L

δlwh,l (5.35)

Eine graphisch aufbereitete Version der δ-Verallgemeinerung mit allen Aufspaltun-gen findet sich in Abbildung 5.12 auf derfolgenden Seite.

Dem Leser wird bereits aufgefallen sein,dass einige Zwischenergebnisse umrahmtwurden. Umrahmt wurden genau die Zwi-schenergebnisse, die in der Gewichtsver-änderung von wk,h einen Faktor ausma-chen. Führt man die obigen Gleichungenmit den umrahmten Zwischenergebnissenzusammen, so ergibt sich die gesuchte Ge-wichtsänderung ∆wk,h zu

∆wk,h = ηokδh mit (5.36)

δh = f ′act(neth) ·∑l∈L

(δlwh,l)

– natürlich nur für den Fall, dass h eininneres Neuron ist (sonst gibt es ja auchkeine Nachfolgeschicht L).

Den Fall, dass h Ausgabeneuron ist, habenwir ja schon in der Herleitung der Delta-Regel behandelt. Insgesamt ergibt sich al-so unsere Verallgemeinerung der Delta-Regel, genannt Backpropagation of Error,zu:

∆wk,h = ηokδh mit

δh =f ′act(neth) · (th − yh) (h außen)f ′act(neth) ·∑l∈L(δlwh,l) (h innen)

(5.37)

Im Unterschied zur Delta-Regel ist also dieBehandlung des δ, je nachdem, ob es sich



δh

− ∂Err∂neth

∂oh∂neth −∂Err

∂oh

f ′act(neth) − ∂Err

∂netl∑l∈L

∂netl∂oh

δl∂∑

h∈H wh,l·oh∂oh

wh,l

Abbildung 5.12: Graphische Darstellung der Gleichsetzungen (durch langgezogene Gleichzeichen)und Kettenregel-Aufspaltungen (durch Pfeile) im Rahmen der Herleitung von Backpropagation. DieBlätter des Baumes spiegeln die in der Herleitung umrahmten Endergebnisse aus der Verallgemei-nerung des δ wieder.



bei h um ein Ausgabe- oder aber inneres(also verdecktes) Neuron handelt, verschie-den:

1. Ist h Ausgabeneuron, so gilt

δp,h = f ′act(netp,h) · (tp,h − yp,h)(5.38)

Das Gewicht wk,h von k nach h wirdalso unter unserem Übungsmuster pproportional zu

. Lernrate η,

. Ausgabe op,k des Vorgängerneu-rons k,

. Gradient der Aktivierungs-funktion an der Stelle derNetzeingabe des Nach-folgerneurons f ′act(netp,h)und

. Differenz aus Teaching Input tp,hund Ausgabe yp,h des Nachfolger-neurons h

Teach. Inputfür äußere

Gew.-Schicht geändert. In diesem Fall arbeitetBackpropagation also auf zwei Neu-ronenschichten, der Ausgabeschichtmit dem Nachfolgerneuron h und derSchicht davor mit dem Vorgängerneu-ron k.

2. Ist h inneres, verdecktes Neuron, sogilt

δp,h = f ′act(netp,h) ·∑l∈L

(δp,l · wh,l)

(5.39)

An dieser Stelle sei ausdrücklich er-wähnt, dass Backpropagation nun auf

drei Schichten arbeitet. Hierbei istdas Neuron k der Vorgänger der zu

Rückwärts-propagierungfür innereSchichten

ändernden Verbindung mit dem Ge-wicht wk,h, das Neuron h der Nach-folger der zu ändernden Verbindung,und die Neurone l liegen in derSchicht nach dem Nachfolgerneuron.Das Gewicht wk,h von k nach h wirdalso unter unserem Übungsmuster pproportional zu

. Lernrate η,

. Ausgabe des Vorgängerneuronsop,k,

. Gradient der Aktivierungs-funktion an der Stelle derNetzeingabe des Nachfolgerneu-rons f ′act(netp,h),

. sowie, und hier liegt der Unter-schied, aus der gewichteten Sum-me der Gewichtsveränderungenzu allen Neuronen, die h nachfol-gen, ∑l∈L(δp,l · wh,l)

geändert.

Definition 5.8 (Backpropagation). Fas-sen wir die Formeln 5.38 und 5.39 zusam-men, so erhalten wir folgende Gesamtfor-mel für Backpropagation (die Bezeich-ner p werden der Übersichtlichkeit halberweggelassen):



(5.40)



SNIPE: Eine online-Variante vonBackpropagation ist in der MethodetrainBackpropagationOfError der KlasseNeuralNetwork implementiert.

Offensichtlich ist also, dass Backpropa-gation zunächst die hinterste Gewichts-schicht direkt mit dem Teaching Input be-arbeitet und sich anschließend ebenenwei-se unter Berücksichtigung der jeweils vor-hergehenden Gewichtsänderungen weiternach vorn arbeitet. Der Teaching Inputhinterlässt also Spuren in sämtlichen Ge-wichtsschichten. Ich beschreibe hier geradeden ersten Teil (Delta-Regel) und zweitenTeil von Backpropagation (Verallgemeiner-te Delta-Regel auf mehr Schichten) in ei-nem Zug, was vielleicht der Sache, nichtjedoch der Forschung daran gerecht wird.Der erste Teil ist offensichtlich, das wer-den wir gleich im Rahmen einer mathema-tischen Spielerei sehen. Zwischen dem ers-ten und zweiten, rekursiven Teil liegen je-doch Jahrzehnte an Entwicklungszeit und-arbeit, denn wie bei vielen bahnbrechen-den Erfindungen merkte man auch diesererst nach der Entwicklung an, wie ein-leuchtend sie eigentlich ist.

5.4.2 Der mathematische Rückweg:Reduktion vonBackpropagation aufDelta-Regel

Wie oben erläutert, ist die Delta-Regel einSpezialfall von Backpropagation für ein-stufige Perceptrons und lineare Aktivie-rungsfunktionen – diesen Umstand möch-te ich hier kurz näher erläutern und die

Backproperweitert

Delta-Regel

Delta-Regel aus Backpropagation entwi-ckeln, um das Verständnis für beide Re-geln noch etwas zu schärfen. Wir habengesehen, dass Backpropagation durch



(5.41)

definiert ist. Da wir sie nur für einstufi-ge Perceptrons verwenden, fällt der zwei-te Teil von Backpropagation (heller darge-stellt) ersatzlos weg, wir erhalten also:

∆wk,h = ηokδh mitδh = f ′act(neth) · (th − oh) (5.42)

Weiterhin wollen wir nur lineare Aktivie-rungsfunktionen verwenden, so dass f ′act(heller dargestellt) konstant ist. Konstan-ten lassen sich bekanntlich zusammenfas-sen, wir fassen also die konstante Ablei-tung f ′act und die (mindestens pro Lern-zyklus konstante) Lernrate η (auch hellerdargestellt) direkt in η zusammen. Es er-gibt sich also:

∆wk,h = ηokδh = ηok · (th − oh) (5.43)

Dies entspricht genau der Definition derDelta-Regel.

5.4.3 Die Wahl der Lernrate hatenormen Einfluss auf denLernprozeß

Wie mittlerweile vielfach gesehen, ist dieGewichtsänderung in jedem Fall proportio-nal zur Lernrate η. Die Wahl von η ist also


dkriesel.com 5.5 Resilient Backpropagation

sehr entscheidend für das Verhalten vonBackpropagation und allgemein für Lern-verfahren.

Wie schnellwird gelernt?

Definition 5.9 (Lernrate). Die Ge-schwindigkeit und Genauigkeit eines Lern-verfahrens ist immer steuerbar von undproportional zu einer Lernrate, welche alsη geschrieben wird.

ηI

Wird η zu groß gewählt, so sind die Sprün-ge auf der Fehlerfläche zu groß und eskönnten z.B. enge Täler, also gute Werte,einfach übersprungen werden, zudem be-wegt man sich sehr unkontrolliert über dieFehleroberfläche. Das Wunschmittel ist al-so ein kleines η, was aber einen riesigen, oftinakzeptablen Zeitaufwand mit sich brin-gen kann. Die Erfahrung zeigt, dass guteWerte für die Lernrate im Bereich

0.01 ≤ η ≤ 0.9

liegen. Die Wahl von η hängt maßgeblichvon Problem, Netz und Trainingsdaten ab,so dass man kaum praktische Wahlhilfengeben kann. Beliebt ist jedoch, mit einemrelativ großen η, z.B. 0.9, den Anfang desLernens zu machen und η dann langsambis auf z.B. 0.1 zu verringern, während füreinfachere Probleme η oft einfach konstantgehalten werden kann.

5.4.3.1 Variation der Lernrate über dieZeit

Weiteres Stilmittel beim Training kann ei-ne variable Lernrate sein: Eine großeLernrate lernt am Anfang gut, aber später

nicht mehr genau, eine kleinere ist aufwän-diger, lernt aber genauer. Also verringertman einmal oder mehrere Male die Lernra-te um eine Größenordnung – während desLernvorgangs.

Ein beliebter Fehler (der obendrein nochauf den ersten Blick sehr elegant wirkt)ist, die Lernrate kontinuierlich sinken zulassen: Hier kommt es sehr leicht vor, dassder Abfall der Lernrate größer ist als dieSteigung eines Hügels der Fehlerfunktion,die wir gerade erklimmen – was zur Fol-ge hat, dass wir an dieser Steigung ein-fach hängen bleiben. Lösung: Lieber wiebeschrieben die Lernrate stufenweise ver-ringern.

5.4.3.2 Verschiedene Schichten –verschiedene Lernraten

Je weiter man sich während des Lernvor-ganges von der Ausgabeschicht wegbewegt,um so langsamer lernt Backpropagation– es ist also eine gute Idee, für die Ge-wichtsschichten nahe der Eingabeschichteine größere Lernrate zu nehmen als fürdiejenigen nahe der Ausgabeschicht. DerUnterschied kann hier ruhig bis zu einerGrößenordnung betragen.

5.5 Resilient Backpropagationist eine Erweiterung vonBackpropagation of Error

Gerade haben wir zwei Backpropagation-spezifische Eigenschaften angesprochen,



die hin und wieder zum Problem werdenkönnen (zusätzlich zu denjenigen, die Gra-dientenabstiege ohnehin schon mit sichbringen): Zum einen kann der Benutzervon Backpropagation eine schlechte Lern-rate wählen, und zum anderen lernt Back-propagation immer langsamer, je weiterdie Gewichte von der Ausgabeschicht ent-fernt sind. Aus diesem Grund haben Mar-tin Riedmiller et al. Backpropagationweiterentwickelt, und ihre Variante Resi-lient Backpropagation (kurz: Rprop)getauft [RB93, Rie94]. Ich möchte Back-propagation und Rprop hier gegenüber-stellen, ohne ausdrücklich eine Varianteals „besser“ zu deklarieren. Bevor wir unsnun wirklich mit Formeln auseinanderset-zen, wollen wir die zwei primären Ideenhinter Rprop (und ihre Folgen) erst ein-mal umgangsprachlich dem schon bekann-ten Backpropagation gegenüberstellen.

Lernrate: Backpropagation benutzt stan-dardmäßig eine Lernrate η, die vomBenutzer gewählt wird, und für dasganze Netz gilt. Sie bleibt statisch,bis sie manuell geändert wird. DieNachteile dieser Vorgehensweise ha-ben wir schon erforscht. Rprop ver-folgt hier einen komplett anderen An-satz: Es gibt keine globale Lernra-te. Erstens hat jedes einzelne Ge-wicht wi,j seine eigene Lernrate ηi,j ,Eine Lern-

rate proGewicht

ηi,jI

und zweitens werden diese Lernratennicht vom Benutzer gewählt, sondernvon Rprop selbst festgelegt. Drittens

Lernraten-einstellung

automatisch

bleiben die Gewichtsänderungen nichtstatisch, sondern werden von Rpropfür jeden Zeitschritt angepasst. Umdie zeitliche Änderung miteinzubezie-

hen, nennen wir sie korrekterweiseηi,j(t). Dies ermöglich nicht nur ge-zielteres Lernen, auch das Problemdes schichtweise verlangsamten Ler-nens wird auf elegante Weise gelöst.

Gewichtsänderung: In Backpropagationwerden die Gewichte proportionalzum Gradienten der Fehlerfunktiongeändert. Das ist auf den ersten Blickwirklich intuitiv, allerdings überneh-men wir so jegliche Zerklüftung, diedie Fehleroberfläche aufweist, mit indie Gewichtsänderung. Ob das immersinnvoll ist, darf zumindest angezwei-felt werden. Auch hier geht Rprop an-dere Wege: Der Betrag der Gewichts-änderung ∆wi,j entspricht einfach di-rekt der zugehörigen, automatisch an-gepassten Lernrate ηi,j . So ist dieGewichtsänderung nicht proportionalzum Gradienten, nur noch das Vorzei-chen des Gradienten geht in die Ge-wichtsänderung mit ein. Bis jetzt wis-sen wir noch nicht, auf welche Weisedie ηi,j zur Laufzeit angepasst werden,aber es sei vorweggenommen, dass derErgebnisprozess deutlich weniger zer-

Viel gleich-mäßigeres Lernenklüftet aussieht als eine Fehlerfunkti-

on.

Gegenüber Backprop wird also derGewichts-Updateschritt ersetzt, und einzusätzlicher Lernraten-Anpassungsschritthinzugefügt. Wie werden diese Ideen nungenau umgesetzt?


dkriesel.com 5.5 Resilient Backpropagation

5.5.1 Gewichtsänderungen sindnicht proportional zumGradienten

Betrachten wir zunächst die Gewichtsän-derung. Wir haben schon bemerkt, dassdie gewichtsspezifischen Lernraten direktals Beträge der Gewichtsänderungen fürihr jeweiliges Gewicht herhalten. Bleibtdie Frage, woher das Vorzeichen kommt– und das ist eine Stelle, bei welcher derGradient ins Spiel kommt. Wie schon beider Herleitung von Backpropagation, lei-ten wir die Fehlerfunktion Err(W ) nachden einzelnen Gewichten wi,j ab und erhal-ten so Gradienten ∂Err(W )

∂wi,j. Jetzt kommt

der große Unterschied: Anstatt den Betragdes Gradienten multiplikativ mit in dieGewichtsänderung einfließen zu lassen, be-trachten wir nur das Vorzeichen des Gra-dienten. Der Gradient bestimmt also nicht

Gradientbestimmt nurRichtung des

Updates

mehr die Stärke, sondern nur noch dieRichtung der Gewichtsänderung. Ist dasVorzeichen des Gradienten ∂Err(W )

∂wi,jpositiv,

müssen wir das Gewicht wi,j verringern.Vom Gewicht wird also ηi,j abgezogen. Istdas Vorzeichen des Gradienten hingegennegativ, so bedarf das Gewicht einer Ver-stärkung, bekommt also ηi,j addiert. Istder Gradient genau 0, passiert einfach garnichts. Wir gießen diese umgangssprachli-che Beschreibung nun in eine Formel. Wirfügen jeweils ein (t) an, um darzustellen,dass alles im gleichen Zeitschritt passiert.Das ist unübersichtlicher, aber trotzdemwichtig, denn gleich werden wir noch ei-ne weitere Formel betrachten, die über ver-schiedene Zeitschritte operiert. Dafür kür-zen wir den Gradienten ab: g = ∂Err(W )

∂wi,j.

Definition 5.10 (Gewichtsänderung inRprop).

∆wi,j(t) =

−ηi,j(t), wenn g(t) > 0+ηi,j(t), wenn g(t) < 00 sonst.

(5.44)

Wir wissen nun, wie die Gewichte an sichgeändert werden - jetzt bleibt noch die Fra-ge, auf welche Weise die Lernraten selbst-ständig angepasst werden. Zuletzt, wennwir das Gesamtsystem verstanden haben,klären wir dann die verbleibenden Klei-nigkeiten wie Initialisierungswerte und einpaar konkrete Konstanten.

5.5.2 Viele dynamisch angepassteLernraten statt einerstatischen

Um die Lernraten ηi,j anzupassen, müssenwir wieder die zugehörigen Gradienten gbetrachten, und zwar über zwei Zeitschrit-te hinweg: Den gerade vergangenen (t−1)und den jetzigen (t). Wieder ist für unsnur das Vorzeichen des Gradienten wichtig,und wir müssen uns nun fragen: Was kannmit dem Vorzeichen über zwei Schritte hin-weg passieren? Es kann gleich bleiben, undes kann wechseln.

Wechselt das Vorzeichen von g(t − 1) zug(t), so haben wir im Gradienten ein lo-kales Minimum übersprungen, das letzteUpdate ist also zu groß gewesen, folglichmuss ηi,j(t) im Vergleich zu dem vorheri-gen ηi,j(t − 1) verkleinert werden, die Su-che muss genauer werden. Mathematisch



ausgedrückt: Wir erhalten ein neues ηi,j(t),in dem wir das alte ηi,j(t − 1) mit einerKonstante η↓ multiplizieren, die zwischen

η↓I 1 und 0 liegt. In diesem Falle wissen wirja, dass im letzten Zeitschritt (t−1) etwasschiefgelaufen ist – also wird zusätzlichnoch das Gewichtsupdate für das Gewichtwi,j im Zeitschritt (t) hart auf 0 gesetzt,also gar nicht erst durchgeführt (nicht inder folgenden Formel angegeben).

Bleibt das Vorzeichen aber gleich, kanneine (behutsame!) Vergrößerung von ηi,jstattfinden, um über flache Bereiche derFehlerfunktion hinwegzukommen. Hier er-halten wir unser neues ηi,j(t), in dem wirdas alte ηi,j(t−1) mit einer Konstante η↑

η↑I multiplizieren, die größer als 1 ist.

Definition 5.11 (Anpassung der Lernra-ten in Rprop).

ηi,j(t) =

η↑ηi,j(t− 1), g(t− 1)g(t) > 0η↓ηi,j(t− 1), g(t− 1)g(t) < 0ηi,j(t− 1) sonst.

(5.45)

Achtung: Daraus folgt auch, dass RpropRprop lernt

ausschließlichoffline

ausschließlich für Offline-Lernen konzi-piert ist, denn wenn die Gradientennicht eine gewisse Kontinuität aufweisen,bremst das Lernverfahren auf niedrigstesTempo ab (und verweilt dort). Wer onli-ne lernt, wechselt ja – salopp gesprochen –mit jeder neuen Epoche die Fehlerfunktion,da diese nur auf jeweils ein Trainingsmus-ter bezogen ist. Das geht zwar bei Back-propagation oft sehr gut und sogar sehroft schneller als die Offline-Variante, wes-halb es dort gerne eingesetzt wird. Es fehlt

aber die saubere mathematische Motivati-on, und genau diese benötigen wir hier.

5.5.3 Uns fehlen noch ein paarKleinigkeiten, um Rprop inder Praxis zu verwenden

Es bleiben noch ein paar kleinere Fragenoffen, nämlich

1. Wie groß sind η↑ und η↓ (wie starkwerden Lernraten verstärkt, bzw. ab-geschwächt)?

2. Wie groß ist ηi,j(0) (wie werden diegewichtsspezifischen Lernraten initia-lisiert)?4

3. Wie sind die oberen und unterenGrenzen ηmin bzw. ηmax für die ηi,j Jηmin

Jηmaxgesetzt?

Die Antworten auf diese Fragen handelnwir nun mit kurzer Motivation ab. Der In-itialisierungswert für die Lernraten sollteirgendwo in der Größenordnung der Ge-wichtsinitialisierung liegen, und so hat sichbewährt, ηi,j(0) = 0.1 zu setzen. Die Au-toren der Rprop-Veröffentlichung beschrei-ben einleuchtenderweise, dass dieser Wert– solange er positiv gesetzt wird und kei-nen exorbitant hohen Betrag hat – eherunkritisch zu sehen ist, da er ohnehinschnell von der automatischen adaptionüberschrieben wird.

Ebenso unkritisch ist ηmax, für das oh-ne weitere mathematische Begründung ein

4 Protipp: Da die ηi,j ausschließlich durch Multipli-kation verändert werden, ist 0 als Initialisierungs-wert eher suboptimal :-)


dkriesel.com 5.6 Mehr Variationen und Erweiterungen zu Backpropagation

Wert von 50 empfohlen und über die meis-te weitere Literatur verwendet wird. Mankann diesen Parameter niedriger setzen,um ausschließlich sehr vorsichtige Update-schritte zu erlauben. Kleine Updateschrit-te sollten in jedem Fall erlaubt sein, alsosetzen wir ηmin = 10−6.

Bleiben die Parameter η↑ und η↓. Fangenwir mit η↓ an: Wenn dieser Wert zum Ein-satz kommt, haben wir ein Minimum über-sprungen, von dem wir nicht genau wis-sen, wo auf der übersprungenen Streckees liegt. Analog zur Vorgehensweise der bi-nären Suche, wo das Zielobjekt ebenfallsoft übersprungen wird, gehen wir davonaus, es läge in der Mitte der übersprunge-nen Strecke. Also müssen wir die Lernratehalbieren, weswegen sich ein η↓ = 0.5 ka-nonischerweise anbietet. Wenn der Wertη↑ zum Einsatz kommt, sollen Lernratenumsichtig vergrößert werden, hier könnenwir also nicht die binäre Suche generalisie-ren und einfach den Wert 2.0 verwenden,sonst besteht das Lernraten-Update nach-her fast nur noch aus Richtungswechseln.Problemunabhängig hat sich ein Wert vonη↑ = 1.2 als erfolgsversprechend erwie-sen, wobei leichte Änderungen die Konver-genzgeschwindigkeit nicht signifikant be-einflusst haben. So konnte auch dieserWert einfach als Konstante gesetzt wer-den.

Mit fortschreitender Rechengeschwindig-keit der Computer ist eine immer größe-re Verbreitung von sehr tiefen Netzwer-ken (Deep networks), also Netzwerken

Rprop sehrgut für

tiefe Netzemit sehr vielen Schichten, zu beobachten.Für solche Netze ist Rprop dem originalenBackpropagation unbedingt vorzuziehen,

weil Backprop, wie schon angedeutet, aufGewichten fern der Ausgabeschicht sehrlangsam lernt. Bei Problemen mit kleine-ren Schichtenzahlen würde ich empfehlen,das verbreitete Backpropagation (sowohlmit offline- als auch mit online-Lernen)und das weniger verbreitete Rprop zu-nächst gleichwertig zu testen.

SNIPE: Resilient Backpropagationwird in Snipe über die MethodetrainResilientBackpropagation derKlasse NeuralNetwork unterstützt. Wahl-weise kann man hier auch noch eineweitere Verbesserung zu Resilient Propa-gation zuschalten, die in dieser Arbeitjedoch nicht weiter behandelt wird. Fürdie verschiedenen Rprop-Parameter findensich Getter und Setter.

5.6 Backpropagation wurdeauch außerhalb vonRprop vielfach erweitertund variiert

Backpropagation ist vielfach erweitert wor-den – viele dieser Erweiterungen kann maneinfach als optionale Features von Back-propagation implementieren, um größerenTestspielraum zu haben. Ich möchte imfolgenden einige von ihnen kurz beschrei-ben.

5.6.1 Masseträgheit zumLernprozeß hinzufügen

Angenommen, wir fahren auf Skiern einensteilen Hang hinab – was hindert uns, am



Rande des Hangs zum Plateau sofort ste-henzubleiben? Genau – der Schwung. DerMomentum-Term [RHW86b] sorgt beiBackpropagation dafür, dass der Schritt-weite eine Art Trägheitsmoment (Mo-mentum) hinzugefügt wird (Abb. 5.13),indem jeder neuen Gewichtsänderung im-mer ein Anteil der vorherigen Änderunghinzuaddiert wird:

(∆pwi,j)jetzt = ηop,iδp,j +α · (∆pwi,j)vorher

Diese Schreibweise dient natürlich nurdem besseren Verständnis; in der Regelwird, wie bereits durch den Zeitbegriff de-finiert, der Zeitpunkt des aktuellen Durch-laufs durch (t) bezeichnet, der vorheri-ge Durchlauf wird dann durch (t − 1)gekennzeichnet, was man sukzessive fort-führt. Wir kommen also zur formalen De-finition des Momentum-Terms:Definition 5.12 (Momentum-Term).

Trägheits-Moment Die Variation von Backpropagation durch

den Momentum-Term ist wie folgt defi-niert:

∆wi,j(t) = ηoiδj + α ·∆wi,j(t− 1) (5.46)

Wir beschleunigen also auf Plateaus (ver-hindert Quasi-Stillstand auf Plateaus) undbremsen auf zerklüfteten Flächen (gegenOszillationen). Weiterhin kann man denEffekt der Trägheit über den Vorfaktorα variieren, übliche Werte befinden sich

αI zwischen 0.6 und 0.9. Außerdem machtdas Momentum den positiven Effekt mög-lich, dass unser Skifahrer in einem Mini-mum ein paar mal hinund herpendelt,und schlussendlich in dem Minimum lan-det. Leider tritt trotz des schönen Ausse-hens im eindimensionalen der ansonsten

Abbildung 5.13: Wir möchten den Gradienten-abstieg durchführen wie ein Skifahrer seine Ab-fahrt, der wohl kaum sofort an der Grenze zumPlateau anhalten wird.

seltene Fehler des Verlassens guter Mini-ma durch den Momentum-Term häufigerauf – so dass auch hier wieder keine Pa-tentlösung gegeben ist (wir gewöhnen unsja langsam an diese Aussage).

5.6.2 Flat spot eliminationverhindert, dass sich Neuroneverfangen

Es ist zu beachten, dass sowohl beim Tan-gens Hyperbolicus sowie der Fermifunktiondie Ableitung außerhalb unmittelbarer Nä-he zu Θ fast 0 ist. Dieser Umstand führtdazu, dass sich Neurone nur schwer wie-der aus den Grenzwerten der Aktivierung(flat spots) entfernen können, was die Lern-

Neuronefahren sichfest

zeit extrem verlängern kann. Diesem Pro-blem kann durch Modifikation der Ablei-


dkriesel.com 5.6 Mehr Variationen und Erweiterungen zu Backpropagation

tung, z.B. Addition einer Konstanten (z.B.0.1), begegnet werden, was als Flat spotelimination oder – umgangssprachlicher– Zuckern bezeichnet wird.

Eine interessante Beobachtung ist, dassman auch schon reinen Konstanten als Ab-leitungen Erfolge erzielt hat [Fah88]. Auchdie schon in Abschnitt 3.2.6 auf Seite 39erwähnte schnelle Appoximation des Tan-gens Hyperbolicus von Anguita et al. be-nutzt in den äußeren Bereichen der eben-falls approximierten Ableitung eine kleineKonstante.

5.6.3 Die zweite Ableitung kannmit einbezogen werden

Second Order Backpropagation nachDavid Parker [Par87] verwendet auchden zweiten Gradienten, also die zweitemehrdimensionale Ableitung der Fehler-funktion, um genauere Schätzungen derkorrekten ∆wi,j zu erhalten. Höhere Ab-leitungen verbessern die Schätzungen nurnoch selten. So braucht man weniger Trai-ningszyklen, diese sind aber weitaus re-chenaufwändiger.

Bei Methoden höherer Ordnung im All-gemeinen werden weitere Ableitungen (al-so Hessesche Matrizen, da die Funktionenmehrdimensional sind) verwendet. Erwar-tungsgemäß reduzieren die Verfahren dieAnzahl der Lernepochen, machen die ein-zelnen Epochen aber signifikant rechenauf-wändiger – so dass am Ende die Lernzeitoft sogar länger ist als mit Backpropaga-tion.

Das Lernverfahren Quickpropagation[Fah88] verwendet die zweite Ableitungder Fehlerfunktion und sieht die Fehler-funktion lokal als eine Parabel an, de-ren Scheitelpunkt wir analytisch bestim-men und wohin wir direkt springen. Die-ses Lernverfahren ist also ein Verfahrenzweiter Ordnung. Es funktioniert natür-lich nicht bei Fehleroberflächen, die nichtlokal durch eine Parabel approximierbarsind (ob das der Fall ist, kann man natür-lich nicht immer direkt sagen).

5.6.4 Weight Decay: GroßeGewichte können bestraftwerden

Bei der Modifikation Weight Decay (zuDeutsch: Dämpfung der Gewichte) vonPaul Werbos [Wer88] wird der Fehlerum einen Term erweitert, der große Ge-wichte bestraft. Der Fehler unter WeightDecay

ErrWD

steigt also nicht nur mit dem eigentlichen JErrWDFehler, sondern auch mit dem Quadratder Gewichte – was zur Folge hat, dassdas Netz beim Lernen die Gewichte kleinhält.

ErrWD = Err + β · 12∑w∈W

(w)2

︸︷︷︸Bestrafung

(5.47)

Dies ist von der Natur inspiriert, in dersynaptische Gewichte ebenfalls nicht un-endlich stark werden können. Klein gehal-

Gewichteklein haltentene Gewichte sorgen außerdem häufig da-

für, dass die Fehlerfunktion weniger starke



Schwankungen beinhaltet, was das Lerneneinfacher und kontrollierter macht.

Der Vorfaktor 12 ist wieder aus einfacher

Pragmatik heraus entstanden. Der Faktorβ regelt die Stärke der Bestrafung: Werte

βI von 0.001 bis 0.02 werden hier oft verwen-det.

5.6.5 Das Netz zurechtstutzen:Pruning und Optimal BrainDamage

Wenn wir das Weight Decay lange genugdurchgeführt haben und feststellen, dassbei einem Neuron im Eingabelayer alleNachfolgegewichte Null oder fast Null sind,

Netzstutzen können wir das Neuron entfernen, haben

ein Neuron und einige Gewichte verlorenund reduzieren so die Chance, dass dasNetz auswendig lernt. Dieser Vorgang wirdals Pruning („Stutzen“) bezeichnet.

Solch ein Verfahren, unnötige Gewichteund Neurone zu detektieren und weg-zustreichen, nennt sich Optimal BrainDamage [lCDS90]. Es sei hier nur kurzbeschrieben: Der Fehler pro Outputneu-ron setzt sich hierbei aus zwei konkurrie-renden Termen zusammen. Während dereine wie gewohnt die Differenz zwischenOutput und Teaching Input berücksich-tigt, versucht der andere, ein Gewicht ge-gen 0 zu „pressen“. Wird ein Gewicht nunstark benötigt, um den Fehler zu mini-mieren, gewinnt der erste Term – ist diesnicht der Fall, gewinnt der zweite. Neuro-ne, die nur Nullgewichte besitzen, könnenzum Schluss wieder gestutzt werden.

Es gibt noch viele weitere Variationenvon Backprop bzw. ganze Bücher eigenshierüber – da mein Ziel aber ist, einenÜberblick über Neuronale Netze zu bieten,möchte ich hier nur die obigen als Anstoßzum Weiterlesen nennen.

Es ist bei manchen dieser Erwei-terungen offensichtlich, dass sienicht nur bei FeedForward-Netzenmit Backpropagation-Lernverfahrenangewendet werden können.

Wir haben nun Backpropagation und dieFeedForward-Topologie kennen gelernt –nun fehlt uns noch Erfahrung, wie wirein Netz aufbauen. Diese Erfahrung ist imRahmen dieser Arbeit natürlich nicht ver-mittelbar, und um ein wenig davon zu er-werben, empfehle ich nun, ein paar der Bei-spielproblemstellungen aus Abschnitt 4.6anzugehen.

5.7 Wie fängt man an?Initialkonfiguration einesMultilayerperzeptrons

Nachdem wir jetzt das LernverfahrenBackpropagation of Error behandelt ha-ben und wissen, wie wir ein einmal vorhan-denes Netz trainieren, ist es noch sinnvollzu betrachten, wie wir denn überhaupt anso ein Netz gelangen können.


dkriesel.com 5.7 Initialkonfiguration eines Multilayerperceptrons

5.7.1 Anzahl der Schichten: Zweioder drei sind oft genug, mehrwerden aber auch benutzt

Fangen wir mit dem trivialen Umstandan, dass ein Netz eine Schicht Inputneuro-ne und eine Schicht Outputneurone habensollte, was uns zu mindestens zwei Schich-ten führt.

Weiterhin benötigen wir, wie wir bereitswährend unserer Untersuchung der linea-ren Separierbarkeit erfahren haben, min-destens eine versteckte Schicht Neurone,falls unser Problem nicht linear separier-bar ist (wie wir gesehen haben, ist daswahrscheinlich).

Es kann, wie schon gesagt, mathematischbewiesen werden, dass dieses MLP miteiner versteckten Neuronenschicht bereitsbeliebige Funktionen beliebig genau appro-ximieren kann5 – doch müssen wir nichtnur die Repräsentierbarkeit eines Pro-blems durch ein Perceptron betrachten,sondern auch die Lernbarkeit. Repräsen-tierbarkeit bedeutet, dass ein Perceptroneine Abbildung grundsätzlich realisierenkann – Lernbarkeit bezeichnet aber, dasswir sie ihm auch beibringen können.

Insofern zeigt uns die Erfahrung, dasszwei versteckte Neuronenschichten bzw.drei trainierbare Gewichtsschichten für dieRealisierung eines Problems sehr nützlichsein können, da viele Probleme zwar durch-aus von einer versteckten Schicht reprä-

5 Achtung: Wir haben keine Aussage über die Neu-ronenanzahl in der versteckten Schicht gemacht,nur über die theoretische Möglichkeit.

sentiert werden können, jedoch leider nurschwer lernbar sind.

Jede weitere Schicht erzeugt auch weitereNebenminima der Fehlerfunktion, was beider Wahl der Schichtenzahl beachtet wer-den sollte. Ein erfolgversprechender Wegist also zusammenfassend, es erst mit einerversteckten Schicht zu probieren. Wenndas nicht klappt, versucht man es mit zwei-en, und erst wenn das nicht funktioniertauf mehr Schichten auszuweichen. Den-noch werden mit zunehmender Rechen-kraft der Computer für manche Problemebereits Deep networks mit sehr vielenSchichten erfolgreich angewandt.

5.7.2 Anzahl der Neurone solltegetestet werden

Die Zahl der Neurone (abseits vonEingabe- und Ausgabeschicht, die Anzahlder Eingabe- und Ausgabeneurone ist jadurch die Problemstellung bereits fest de-finiert) entspricht grundsätzlich der Zahlder freien Parameter des zu repräsentieren-den Problems.

Da wir ja schon die Netzkapazität in Be-zug auf Auswendiglernen oder eine zuungenaue Problemrepräsentation erforschthaben, ist klar, dass unser Ziel so wenigwie möglich, aber so viel wie nötig freieParameter sind.

Wie wir aber auch wissen, gibt es keine Pa-tentformel, wie viele Neurone zu verwen-den sind – die sinnvollste Herangehenswei-se besteht also darin, zunächst mit weni-gen Neuronen zu trainieren und so lange



neue Netze mit mehr Neuronen zu trainie-ren, wie das Ergebnis noch signifikant ver-bessert und vor allem die Generalisierungs-leistung nicht beeinträchtigt wird (Bottom-Up-Ansatz).

5.7.3 Wahl derAktivierungsfunktion

Ein weiterer sehr wichtiger Parameter fürdie Informationsverarbeitungsweise einesNeuronalen Netzes ist die Wahl der Ak-tivierungsfunktion. Für die Inputneu-ronen steht die Aktivierungsfunktion jafest, da sie nicht informationsverarbeitendsind.

Eine Frage, die man sich zunächst stel-len kann, ist, ob man überhaupt in derversteckten und der Ausgabeschicht diegleiche Aktivierungsfunktion verwendenmöchte – niemand hindert uns daran, hierzu variieren. In aller Regel ist die Akti-vierungsfunktion aber für alle verstecktenNeurone untereinander gleich, ebenso fürdie Outputneurone.

Für Aufgaben der Funktionsapproxi-mation hat es sich als sinnvoll erwiesen,als Aktivierungsfunktion der verstecktenNeurone den Tangens Hyperbolicus (linkerTeil der Abb. 5.14 auf der rechten Seite)zu verwenden, während eine lineare Akti-vierungsfunktion in der Ausgabe verwen-det wird – letzteres ist unbedingt erforder-lich, damit wir kein begrenztes Ausgabe-intervall erzeugen. Da die Outputschichtim Gegensatz zur ebenfalls linearen In-putschicht Schwellenwerte besitzt, ist sie

trotzdem informationsverarbeitend. Linea-re Aktivierungsfunktionen in der Ausgabekönnen aber auch für riesige Lernschrittesorgen, und dafür, dass man gute Minimain der Fehleroberfläche überspringt. Dieskann verhindert werden, indem man dieLernrate an der Ausgabeschicht auf sehrkleine Werte setzt.

Für Aufgaben der Mustererkennung6

ist ein unbegrenztes Ausgabeintervallnicht unbedingt erforderlich. Verwendetman überall den Tangens Hyperbolicus, soist das Ausgabeintervall etwas größer. DieFermifunktion (rechter Teil der Abb. 5.14auf der rechten Seite) hat im Gegensatzzum Tangens Hyperbolicus weit vor demSchwellenwert (wo ihr Ergebnis nahe 0 ist)kaum Möglichkeiten etwas zu lernen. Hierist allerdings wieder viel Ermessensspiel-raum bei der Wahl der Aktivierungsfunk-tion gegeben. Sigmoide Funktionen habenallgemein aber den Nachteil, dass sie weitweg von ihrem Schwellenwert kaum nochetwas lernen, wenn man das Netz nicht et-was modifiziert.

5.7.4 Gewichte sollten klein undzufällig initialisiert werden

Die Initialisierung der Gewichte ist nichtso trivial wie man vielleicht denken mag:Initialisiert man sie einfach mit 0, wirdgar keine Gewichtsänderung stattfinden.Initialisiert man sie alle mit demselben

6 Mustererkennung wird in der Regel als Spezialfallder Funktionsapproximation mit wenigen diskretenAusgabemöglichkeiten gesehen.


dkriesel.com 5.8 Das 8-3-8-Kodierungsproblem und verwandte Probleme

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

−4 −2 0 2 4

tanh

(x)

x

Tangens Hyperbolicus

0

0.2

0.4

0.6

0.8

1

−4 −2 0 2 4

f(x)

x


Abbildung 5.14: Zur Erinnerung noch einmal die Darstellung des Tangens Hyperbolicus (links)und der Fermifunktion (rechts). Die Fermifunktion wurde um einen Temperaturparameter erweitert.Die ursprüngliche Fermifunktion ist hierbei dunkel herausgestellt, die Temperaturparameter bei denmodifizierten Fermifunktionen betragen von außen nach innen (aufsteigend geordnet nach Anstieg)12 ,

15 ,

110 und 1

25 .

Wert, werden sie im Training immer glei-chermaßen geändert. Die einfache Lösungdieses Problems nennt man SymmetryBreaking. So wird die Initialisierung derGewichte mit kleinen, zufälligen Werten

ZufälligeStartgewichte bezeichnet. Als Bereich für die Zufallswer-

te könnte man das Intervall [−0.5; 0.5] ver-wenden, jedoch ohne die Null oder Wer-te, die sehr nah bei Null liegen. Diese Zu-fallsinitialisierung hat einen schönen Ne-beneffekt, nämlich dass der Durchschnittder Netzeingaben wahrscheinlich nahe 0ist. Dies ist nützlich, denn bei den gängi-gen Aktivierungsfunktionen liegt die 0 imBereich der stärksten Ableitung der Akti-vierungsfunktion, was kräftige Lernimpul-se direkt zu Beginn des Lernens ermög-licht.

SNIPE: In Snipe werden die Gewichte zu-fällig initialisiert, falls eine Synapseninitia-lisierung gewünscht ist. Den maximalenAbsolutbetrag eines Gewichts kann man in

einem NeuralNetworkDescriptor mit derMethode setSynapseInitialRange festle-gen.

5.8 Das8-3-8-Kodierungsproblemund verwandte Probleme

Das 8-3-8-Kodierungsproblem ist ein Klas-siker unter den Testtrainingsproblemenfür Multilayerperceptrons. Wir besitzenin unserem MLP eine Eingabeschicht vonacht Neuronen i1, i2, . . . , i8, eine Ausgabe-schicht von acht Neuronen Ω1,Ω2, . . . ,Ω8,und eine versteckte Schicht von drei Neu-ronen. Dieses Netz repräsentiert also eineFunktion B8 → B8. Die Trainingsaufgabeist nun, dass, wenn in ein Neuron ij derWert 1 eingegeben wird, genau im NeuronΩj der Wert 1 ausgegeben wird (es soll je-



weils nur ein Neuron aktiviert werden, diesführt uns zu 8 Trainingsbeispielen).

Sie werden bei Analyse des trainierten Net-zes sehen, dass das Netz mit den 3 ver-steckten Neuronen eine Art Binärkodie-rung repräsentiert und die obige Abbil-dung so möglich ist (mutmaßliche Trai-ningszeit hierfür sind ≈ 104 Epochen).Wir haben mit unserem Netz also eine Ma-schine gebaut, die Daten kodiert und dieseanschließend wieder dekodiert.

Analog hierzu kann man ein 1024-10-1024 Kodierungsproblem trainieren – dochgeht das auch effizienter? Kann es bei-spielsweise ein 1024-9-1024 oder ein 8-2-8-Kodierungsnetz geben?

Ja, selbst das geht, da das Netz nicht aufbinäre Kodierungen angewiesen ist: Ein 8-2-8-Netz funktioniert also für unsere Pro-blemstellung. Die Kodierung, die diesesNetz realisiert, ist allerdings schwierigerzu durchschauen (Abb. 5.15) und es mussauch wesentlich länger trainiert werden.

Ein 8-1-8-Netz funktioniert nicht mehr,da die Möglichkeit vorhanden sein muss,dass die Ausgabe eines Neurons von einemanderen ausgeglichen wird, und bei nureinem versteckten Neuron natürlich keinAusgleichsneuron vorhanden ist.

SNIPE: Die statische MethodegetEncoderSampleLesson der Klas-se TrainingSampleLesson erlaubt es,einfache Trainingsamples für derartige En-coderprobleme beliebiger Dimensionalitätzu generieren.

Abbildung 5.15: Skizze der Funktionsweise derKodierung eines 8-2-8 Netzes. Die Punkte re-präsentieren die Vektoren der Aktivierung derbeiden inneren Neuronen. Wie Sie sehen, las-sen sich durchaus Aktivierungsformationen fin-den, so dass jeder der Punkte durch eine Geradevom Rest der Punkte separierbar ist. Diese Sepa-rierung ist im Bild für einen der Punkte exempla-risch durchgeführt.


dkriesel.com 5.8 Das 8-3-8-Kodierungsproblem und verwandte Probleme

Übungsaufgaben

Aufgabe 8. Ein 2-15-15-2-MLP solldurch ein MLP mit nur einer einzigen ver-deckten Schicht, aber gleich vielen Gewich-ten ersetzt werden. Berechnen Sie, wievie-le Neurone dieses Netz in seiner verdeck-ten Schicht hat. Hinweis: Vergessen Sie dasBIAS-Neuron nicht.Aufgabe 9. In Abb. 5.4 auf Seite 77 se-hen Sie jeweils ein kleines Netz für die Boo-leschen Funktionen AND und OR. SchreibenSie Tabellen, die sämtliche Berechnungs-größen in den Neuronalen Netzen beinhal-ten (z.B. Netzeingabe, Aktivierungen, etc).Exerzieren Sie die vier möglichen Einga-ben der Netze durch und notieren Sie dieWerte dieser Größen für die jeweiligen Ein-gaben. Verfahren Sie in gleicher Weise fürXOR-Netz (Abb. 5.9 auf Seite 86).Aufgabe 10.

1. Nennen Sie alle Booleschen Funktio-nen B3 → B1, welche linear separier-bar sind, bzw. charakterisieren Sie siegenau.

2. Nennen Sie diejenigen, die es nichtsind, bzw. charakterisieren Sie sie ge-nau.

Aufgabe 11. Ein einfaches 2-1-Netz sollmittels Backpropagation of Error und η =0.1 mit einem einzigen Muster trainiertwerden. Prüfen Sie, ob der Fehler

Err = Errp = 12(t− y)2

konvergiert und wenn ja, zu welchemWert.Wie sieht die Fehlerkurve aus? Das Mus-ter (p, t) sei definiert zu p = (p1, p2) =

(0.3, 0.7) und tΩ = 0.4. Initialisieren Siedie Gewichte zufällig im Intervall [1;−1].

Aufgabe 12. Ein einstufiges Perceptronmit zwei Inputneuronen, Biasneuron undbinärer Schwellenwertfunktion als Aktivie-rungsfunktion trennt den zweidimensiona-len Raum durch eine Gerade g in zwei Tei-le. Berechnen Sie für ein solches Percep-tron analytisch einen Satz Gewichtswerte,so dass die folgende Menge P der 6 Mus-ter der Form (p1, p2, tΩ) mit ε 1 richtigklassifiziert wird.

P =(0, 0,−1);(2,−1, 1);(7 + ε, 3− ε, 1);(7− ε, 3 + ε,−1);(0,−2− ε, 1);(0− ε,−2,−1)

Aufgabe 13. Berechnen Sie einmal undnachvollziehbar den Vektor ∆W sämtli-cher Gewichtsänderungen mit dem Verfah-ren Backpropagation of Error mit η = 1.Gegeben Sei ein 2-2-1-MLP mit Biasneu-ron, das Muster sei definiert zu

p = (p1, p2, tΩ) = (2, 0, 0.1).

Die Initialwerte der Gewichte sollen bei al-len Gewichten, welche Ω als Ziel haben,1 betragen – sämtliche anderen Gewichtesollten den Initialwert 0.5 besitzen. Wasfällt an den Änderungen auf?


Kapitel 6

Radiale BasisfunktionenRBF-Netze nähern Funktionen an, indem sie Gaußglocken strecken, stauchen

und anschließend räumlich versetzt aufsummieren. Beschreibung ihrerFunktion und ihres Lernvorganges, Gegenüberstellung mit

Multilayerperceptrons.

Radiale Basisfunktionennetze (RBF-Netze) nach Poggio und Girosi [PG89]sind ein Paradigma Neuronaler Netze,welches deutlich später entstand als dasder Perceptrons. Sie sind wie Perceptronsschichtartig aufgebaute Netze, allerdingsin diesem Fall mit exakt drei Schichten,also nur einer einzigen Schicht versteckterNeurone.

Wie Perceptrons besitzen die Netze ei-ne reine FeedForward-Struktur und Voll-verknüpfung zwischen den Schichten, undauch hier trägt die Inputschicht nicht zurInformationsverarbeitung bei. Auch sinddie RBF-Netze wie MLPs universelle Funk-tionsapproximatoren.

Bei allen Gemeinsamkeiten: Was unter-scheidet die RBF-Netze nun von den Per-ceptrons? Es ist die Informationsverarbei-tung selbst bzw. die Berechnungsvorschrif-ten innerhalb der Neurone, welche nichtin der Inputschicht liegen. Wir werden al-

so gleich eine bis jetzt völlig unbekannteArt Neurone neu definieren.

6.1 Bestandteile und Aufbaueines RBF-Netzes

Wir wollen nun zunächst einige Begrifferund um die RBF-Netze erst umgangs-sprachlich betrachten und danach definie-ren.

Ausgabeneurone in einem RBF-Netz ent-halten nur die Identität als Akti-vierungsfunktion und eine gewichte-te Summe als Propagierungsfunktion.Sie machen also nichts weiter, als alles,was in sie eingegeben wird, aufzusum-mieren und die Summe auszugeben.

Versteckte Neurone heißen auch RBF-Neurone (so wie die Schicht, in der siesich befinden, auch RBF-Schicht ge-nannt wird). Jedes versteckte Neuron

109

Kapitel 6 Radiale Basisfunktionen dkriesel.com

erhält als Propagierungsfunktion eineNorm, welche den Abstand zwischender Eingabe in das Netz und demsogenannten Ort des Neurons (Zen-trum) errechnet. Diese wird in eineradiale Aktivierungsfunktion eingege-ben, die die Aktivierung des Neuronsberechnet und ausgibt.

Definition 6.1 (RBF-Eingabeneuron).Die Definition und Darstellung ist

Eingabewiederlinear

identisch mit der Eingabeneuron-Definition 5.1 auf Seite 75.Definition 6.2 (Zentrum eines RBF-Neu-rons). Das Zentrum ch eines RBF-

cI Neurons h ist der Punkt im Eingaberaum,Position im

Eingaberaum in dem das RBF-Neuron angesiedelt ist. Jenäher der Eingabevektor am Zentrumsvek-tor eines RBF-Neurons liegt, umso höherist in der Regel seine Aktivierung.Definition 6.3 (RBF-Neuron). Die so-genannten RBF-Neurone h besitzen ei-ne Propagierungsfunktion fprop, welcheden Abstand zwischen dem Zentrum chWichtig!eines Neurons und dem Eingabevektory feststellt. Dieser Abstand repräsentiertdann die Netzeingabe. Die Netzeingabewird dann durch eine Radialbasisfunkti-on fact geschickt, welche die Aktivierungbzw. Ausgabe des Neurons ausgibt. RBF-

Neurone werden durch das Symbol WVUTPQRS||c,x||Gauß

dargestellt.Definition 6.4 (RBF-Ausgabeneuron).RBF-Ausgabeneurone Ω besitzen diegewichtete Summe als Propagierungsfunk-tion fprop, und die Identität als Aktivie-

Summiertnur auf rungsfunktion fact. Wir stellen sie durch

das Symbol ONMLHIJKΣ dar.

Definition 6.5 (RBF-Netz). Ein RBF-Netz besitzt exakt drei Schichten inder folgenden Reihenfolge: Die Eingabe-schicht aus Eingabeneuronen, die versteck-te Schicht (auch RBF-Schicht genannt)aus RBF-Neuronen und die Ausgabe-schicht aus RBF-Ausgabeneuronen. JedeSchicht ist mit der nächsten vollverknüpft,

3 Schichten,FeedForwardShortCuts existieren nicht (Abb. 6.1 auf

der rechten Seite) – es handelt sich alsoum eine reine FeedForward-Topologie. DieVerbindungen zwischen Eingabeschichtund RBF-Schicht sind ungewichtet, lei-ten die Eingabe also nur weiter. Die Ver-bindungen zwischen RBF- und Ausgabe-schicht sind gewichtet. Die ursprünglicheDefinition eines RBF-Netzes bezog sichauf nur ein Ausgabeneuron, analog zuden Perceptrons ist aber klar, dass sichdies verallgemeinern lässt. Ein Biasneuronkennt das RBF-Netz nicht. Wir wollen dieMenge der Eingabeneurone mit I, die Men- JI,H,Oge der versteckten Neurone mit H und dieMenge der Ausgabeneurone mit O bezeich-nen.

Die inneren Neurone heißen daher RadialeBasisneurone, weil aus deren Definition di-rekt folgt, dass alle Eingabevektoren, wel-che den gleichen Abstand vom Zentrum ei-nes Neurons haben, auch den gleichen Aus-gabewert produzieren (Abb. 6.2 auf Seite112).


dkriesel.com 6.1 Bestandteile und Aufbau

GFED@ABC

||yyyyyyyyyy

""EEEEEEEEEE

((RRRRRRRRRRRRRRRRRRRR

++VVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVV GFED@ABC

""EEEEEEEEEE

||yyyyyyyyyy

vvllllllllllllllllllll

sshhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh i1, i2, . . . , i|I|


!!CCCCCCCCCC

((QQQQQQQQQQQQQQQQQQQQ

**VVVVVVVVVVVVVVVVVVVVVVVVVVVVVVV WVUTPQRS||c,x||Gauß

!!CCCCCCCCCC

((QQQQQQQQQQQQQQQQQQQQWVUTPQRS||c,x||

Gauß

!!CCCCCCCCCCWVUTPQRS||c,x||

Gauß

vvmmmmmmmmmmmmmmmmmmmm


tthhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh

vvmmmmmmmmmmmmmmmmmmmm

h1, h2, . . . , h|H|

ONMLHIJKΣ

ONMLHIJKΣ

ONMLHIJKΣ

Ω1,Ω2, . . . ,Ω|O|

Abbildung 6.1: Ein beispielhaftes RBF-Netz mit zwei Eingabeneuronen, fünf versteckten Neuronenund drei Ausgabeneuronen. Die Verbindungen zu den versteckten Neuronen besitzen keine Gewichte,sie leiten die Eingabe nur weiter. Rechts der Skizze ist die Benennung der Neurone zu finden, welchesich analog zu der bekannten Benennung der Neurone im MLP verhält: Inputneurone heißen i,versteckte Neurone h, Ausgabeneurone Ω. Die zugehörigen Mengen bezeichnen wir mit I, H undO.



Abbildung 6.2: Sei ch das Zentrum eines RBF-Neurons h. Dann liefert die Aktivierungsfunktionfacth für alle Eingaben, welche auf dem Kreisliegen, den gleichen Wert.

6.2 Informationsverarbeitungeines RBF-Netzes

Die Frage ist nun, was durch dieses Netzrealisiert wird und wo der Sinn liegt. Ge-hen wir doch einmal das RBF-Netz vonoben nach unten durch: Der Input wirddurch die ungewichteten Verbindungenin ein RBF-Neuron eingebracht. Diesesschickt den Inputvektor durch eine Norm,so dass ein Skalar herauskommt. DieserSkalar (der aufgrund der Norm übrigensnur positiv sein kann) wird durch eine Ra-diale Basisfunktion, also zum Beispiel eineGaußglocke (Abb. 6.3 auf der rechten Sei-te) verarbeitet.

Eingabe→ Abstand

→ Gaußglocke→ Summe→ Ausgabe

Die Ausgabewerte der verschiedenen Neu-rone der RBF-Schicht bzw- der verschiede-nen Gaußglocken werden nun in der drit-ten Schicht aufsummiert: Faktisch werden,auf den ganzen Eingaberaum bezogen, al-so Gaußglocken aufsummiert.

Stellen wir uns vor, wir haben ein zweites,drittes und viertes RBF-Neuron und daherinsgesamt vier unterschiedlich lokalisierteZentren. Jedes dieser Neurone misst nuneinen anderen Abstand von der Eingabezum eigenen Zentrum und liefert de fac-to selbst bei gleicher Gaußglocke andereWerte. Da diese zum Schluß in der Aus-gabeschicht nur aufkumuliert werden, istleicht einsehbar, dass man durch Zerren,Stauchen und Verschieben von Gaußglo-cken und durch das anschließende Aufku-mulieren jede beliebige Oberfläche model-lieren kann. Die Entwicklungsterme für dieSuperposition der Gaußglocken liegen hier-bei in den Gewichten der Verbindungenvon RBF-Schicht zu Outputschicht.

Die Netzarchitektur bietet weiterhin dieMöglichkeit, Höhe und Breite der Gauß-glocken frei zu bestimmen oder zu trainie-ren – was dieses Netzparadigma noch viel-fältiger macht. Methoden und Vorgehens-weisen hierzu werden wir noch kennenler-nen.

6.2.1 RBF-Neurone verarbeitenInformation durch Normenund Radialbasisfunktionen

Nehmen wir zunächst ein einfaches 1-4-1-RBF-Netz als Beispiel. Es ist hier klar,


dkriesel.com 6.2 Informationsverarbeitung eines RBF-Netzes

0

0.2

0.4

0.6

0.8

1

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2

h(r)

r

Gauss−Glocke in 1D Gauss−Glocke in 2D

−2−1

0 1

x

−2−1

0 1

2

y

0 0.2 0.4 0.6 0.8

1

h(r)

Abbildung 6.3: Zwei einzelne Gaußglocken im Ein- und Zweidimensionalen. In beiden Fällen giltσ = 0.4 und in beiden Fällen ist das Zentrum der Gaußglocke im Nullpunkt. Der Abstand r zumZentrum (0, 0) berechnet sich schlicht aus dem Satz des Pythagoras: r =

√x2 + y2.

dass wir eine eindimensionale Ausgabe er-halten werden, die wir als Funktion dar-stellen können (Abb. 6.4 auf der folgen-den Seite). Das Netz besitzt weiterhin Zen-tren c1, c2, . . . , c4 der vier inneren Neuroneh1, h2, . . . , h4, und somit Gaußglocken, diezum Schluss im Ausgabeneuron Ω aufsum-miert werden. Das Netz besitzt auch vierWerte σ1, σ2, . . . , σ4, welche die Breite derGaußglocken beeinflussen. Die Höhe derGaußglocke wird hingegen von den nach-folgenden Gewichten beeinflusst, da damitdie einzelnen Ausgabewerte der Glockenmultipliziert werden.

Da wir eine Norm zum Berechnen des Ab-stands des Inputvektors zum Neuronen-zentrum eines Neurons h verwenden, ha-ben wir verschiedene Wahlmöglichkeiten:

Oft wird der Euklidische Abstand zur Ab-standsberechnung gewählt:

rh = ||x− ch|| (6.1)

=√∑i∈I

(xi − ch,i)2 (6.2)

Wir erinnern uns: Mit x haben wir den Ein-gabevektor benannt. Hierbei durchläuftder Index i die Eingabeneurone und damitdie Komponenten des Eingabevektors unddes Neuronenzentrums. Wie wir sehen, bil-det der Euklidische Abstand die Quadrateder Differenzen aller Vektorkomponenten,summiert sie auf und zieht aus der Sum-me die Wurzel, was im zweidimensionalendem Satz des Pythagoras gleich kommt.Aus der Definition einer Norm folgt direkt,dass der Abstand nur positiv sein kann,weswegen wir genaugenommen den positi-ven Teil der Aktivierungsfunktion verwen-den. Übrigens sind auch andere Aktivie-rungsfunktionen als die Gaußglocke mög-



−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

−2 0 2 4 6 8

y

x

Abbildung 6.4: Vier verschiedene durch RBF-Neurone gebildete Gaußglocken im Eindimensionalenwerden von einem Outputneuron des RBF-Netzes aufsummiert. Die Gaußglocken haben verschiede-ne Höhen, Breiten und Orte. Die Zentren c1, c2, . . . , c4 lagen bei 0, 1, 3, 4, die Breiten σ1, σ2, . . . , σ4bei 0.4, 1, 0.2, 0.8. Ein Beispiel für den zweidimensionalen Fall findet sich in Abb. 6.5 auf der rechtenSeite.

lich, in aller Regel werden Funktionen ge-wählt, die im Intervall [0;∞] monoton ab-fallen.

Nachdem wir nun den Abstand rh des In-rhI putvektors x zum Zentrum ch des RBF-

Neurons h kennen, muss dieser Abstanddurch die Aktivierungsfunktion fact ge-schickt werden – wir verwenden hier, wieschon gesagt, eine Gaußglocke:

fact(rh) = e

(−r2h

2σ2h

)(6.3)

Es ist klar, dass sowohl Zentrum ch alsauch die Breite σh als Bestandteil der Akti-vierungsfunktion fact gesehen werden kön-nen und nach dieser Ansicht die Aktivie-

rungsfunktionen nicht alle mit fact bezeich-net werden dürften. Eine Lösung wäre, dieAktivierungsfunktionen nach dem Musterfact1, fact2, . . . , fact|H| mit H als Mengeder versteckten Neurone durchzunumme-rieren – was die Erklärungen aber unüber-sichtlich macht. Insofern verwende ich ein-fach für alle Aktivierungsfunktionen dieBezeichnung fact und betrachte σ und cals Größen, die zwar für einzelne Neuronedefiniert, aber nicht direkt in der Aktivie-rungsfunktion enthalten sind.

Dem Leser fällt bestimmt auf, dass dieGaußglocke bei ihren vielen Verwendun-gen in anderer Literatur oft mit einem mul-tiplikativen Faktor versehen wird – auf-



Gaussglocke 1

−2−1

0 1x

−2−1

0 1

2

y

−1−0.5

0 0.5

1 1.5

2

h(r)Gaussglocke 2

−2−1

0 1x

−2−1

0 1

2

y

−1−0.5

0 0.5

1 1.5

2

h(r)

Gaussglocke 3

−2−1

0 1x

−2−1

0 1

2

y

−1−0.5

0 0.5

1 1.5

2

h(r)Gaussglocke 4

−2−1

0 1x

−2−1

0 1

2

y

−1−0.5

0 0.5

1 1.5

2

h(r)


((QQQQQQQQQQQQQQQQQQQQWVUTPQRS||c,x||

Gauß

AAAAAAAAAAWVUTPQRS||c,x||

Gauß

~~


vvmmmmmmmmmmmmmmmmmmm

ONMLHIJKΣ

Aufsummierung der 4 Gaussglocken

−2−1.5

−1−0.5

0 0.5

1 1.5

2

x

−2−1.5

−1−0.5

0 0.5

1 1.5

2

y

−1−0.75

−0.5−0.25

0 0.25

0.5 0.75

1 1.25

1.5 1.75

2

Abbildung 6.5: Vier verschiedene durch RBF-Neurone gebildete Gaußglocken im Zweidimensiona-len werden von einem Outputneuron des RBF-Netzes aufsummiert. Für den Abstand gilt wiederr =

√x2 + y2. Die Höhen w, Breiten σ und Zentren c = (x, y) sind: w1 = 1, σ1 = 0.4, c1 =

(0.5, 0.5), w2 = −1, σ2 = 0.6, c2 = (1.15,−1.15), w3 = 1.5, σ3 = 0.2, c3 = (−0.5,−1),w4 = 0.8, σ4 = 1.4, c4 = (−2, 0).D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE) 115


grund der sowieso vorhandenen Multipli-kation durch die nachfolgenden Gewichteund der Aufwiegbarkeit von Konstanten-multiplikationen brauchen wir diesen Fak-tor jedoch hier nicht (zumal das Integralder Gaußglocke für unsere Zwecke nichtimmer 1 sein darf) und lassen ihn dahereinfach weg.

6.2.2 Einige analytische Gedankenim Vorfeld zum Training

Die Ausgabe yΩ eines RBF-Ausgabeneurons Ω ergibt sich also,indem wir die Funktionen einesRBF-Neurons zusammensetzen zu

yΩ =∑h∈H

wh,Ω · fact (||x− ch||) . (6.4)

Nehmen wir an, wir besitzen wie beimMultilayerperceptron eine Menge P , die|P | viele Trainingsbeispiele (p, t) enthält.Dann erhalten wir |P | viele Funktionender Form

yΩ =∑h∈H

wh,Ω · fact (||p− ch||) , (6.5)

nämlich für jedes Trainingsbeispiel p ei-ne.

Das Ziel des Aufwands ist es natürlich wie-der, die Ausgabe y für alle Trainingsmus-ter p gegen den zugehörigen Teaching In-put t gehen zu lassen.

6.2.2.1 Gewichte können einfach alsLösung eines Gleichungssystemsausgerechnet werden

Wir sehen also, dass wir |P | viele Glei-chungen gegeben haben. Betrachten wirnun die Breiten σ1, σ2, . . . , σk, die Zentrenc1, c2, . . . , ck und die Trainingsbeispiele psamt Teaching Input t als gegeben. Ge-sucht sind die Gewichte wh,Ω, wovon es|H| Stück für ein einzelnes Ausgabeneu-ron Ω gibt. Wir können unser Problem alsoals Gleichungssystem sehen, da das einzi-ge, was wir im Moment verändern möch-ten, die Gewichte sind.

Dies bringt uns dazu, eine Fallunterschei-dung zu treffen bezüglich der Anzahl derTrainingsbeispiele |P | und der Anzahl derRBF-Neurone |H|:

|P | = |H|: Ist die Zahl der RBF-Neuronegleich der Zahl der Muster, also |P | =|H|, so können wir die Gleichung auf

Gewichteeinfachausrechnen

eine Matrixmultiplikation

T = M ·G (6.6)

⇔ M−1 · T = M−1 ·M ·G (6.7)

⇔ M−1 · T = E ·G (6.8)

⇔ M−1 · T = G (6.9)

zurückführen, wobei

. T der Vektor der Teaching In- JTputs für alle Trainingsbeispieleist,

. M die |P | × |H|-Matrix der JM



Ausgaben von allen |H| RBF-Neuronen zu |P | vielen Beispie-len (Wir erinnern uns: |P | = |H|,die Matrix ist quadratisch unddaher können wir versuchen, siezu invertieren),

. G der Vektor der gewünschtenGI Gewichte und

. E eine Einheitsmatrix passendEI zu G.

Wir können also die Gewichte mathe-matisch gesehen einfach ausrechnen:Im Fall |P | = |H| haben wir pro Trai-ningsbeispiel genau ein RBF-Neuronzur Verfügung. Das heißt nichts an-deres, als dass das Netz nach erfolg-tem Errechnen der Gewichte die |P |vielen Stützstellen, die wir haben, ex-akt trifft, also eine exakte Interpo-lation durchführt – für ein solchesGleichungs-Ausrechnen benötigen wiraber natürlich kein RBF-Netz, so dasswir zum nächsten Fall übergehen wol-len.

Exakte Interpolation ist nicht mitdem bei den MLPs erwähnten Aus-wendiglernen zu verwechseln: Erstensreden wir im Moment noch gar nichtüber das Trainieren von RBF-Netzen,zweitens kann es auch sehr gut für unsund durchaus gewollt sein, wenn dasNetz zwischen den Stützstellen exaktinterpoliert.

|P | < |H|: Das Gleichungssystem ist un-terbestimmt, es existieren mehr RBF-Neurone als Trainingsbeispiele, also

|P | < |H|. Dieser Fall taucht natür-lich normalerweise nicht sehr oft auf.In diesem Fall gibt es eine Lösungs-vielfalt, die wir gar nicht im Detailbrauchen: Wir können uns aus vielenoffensichtlich möglichen Sätzen vonGewichten einen auswählen.

|P | > |H|: Für die weitere Betrachtungam interessantesten ist jedoch derFall, dass es signifikant mehr Trai-ningsbeispiele gibt als RBF-Neurone,also gilt |P | > |H| – wir wollen al-so wieder die Generalisierungsfähig-keit der Neuronalen Netze nutzen.

Wenn wir viel mehr Trainingsmusterals RBF-Neurone haben, können wirfairerweise nicht mehr davon ausge-hen, dass jedes Trainingsmuster exaktgetroffen wird. Wenn wir die Punk-te also nicht exakt treffen könnenund daher auch nicht nur interpolie-ren können wie im obigen Idealfall|P | = |H|, so müssen wir versuchen,eine Funktion zu finden, die unsereTrainingsmenge P so genau wie mög-lich approximiert: Wir versuchenwie beim MLP, die Summe der Feh-lerquadrate auf ein Minimum zu re-duzieren.

Wie fahren wir also im Fall |P | > |H|mit der Berechnung fort? Wie obenmüssen wir, um das Gleichungssys-tem zu lösen, eine Matrixmultiplika-tion

T = M ·G (6.10)

mit einer Matrix M lösen. Problemist aber, dass wir die |P | × |H|-



Matrix M dieses mal nicht invertie-ren können, weil sie nicht quadra-tisch ist (es gilt |P | 6= |H|). Hiermüssen wir also, um überhaupt wei-terzukommen, die Moore-Penrose-Pseudoinverse mit

M+IM+ = (MT ·M)−1 ·MT (6.11)

verwenden. Die Moore-Penrose-Pseudoinverse ist nicht die Inverseeiner Matrix, kann aber in diesemFall so verwendet werden1. Wirerhalten Gleichungen, die denen imFall |P | = |H| sehr ähnlich sind:

T = M ·G (6.12)

⇔ M+ · T = M+ ·M ·G (6.13)

⇔ M+ · T = E ·G (6.14)

⇔ M+ · T = G (6.15)

Ein weiterer Hauptgrund für dieVerwendung der Moore-Penrose-Pseudoinversen ist hier, dass sie diequadratische Abweichung minimiert(was unser Ziel ist): Die Schätzungdes Vektors G in Gleichung 6.15entspricht dem aus der Statistikbekannten Gauß-Markov-Modellzur Minimierung des quadratischenFehlers. In den obigen Gleichun-gen 6.11 und folgenden sei das T inMT (der transponierten Matrix M)bitte nicht mit dem T des Vektorsaller Teaching Inputs zu verwechseln.

1 Insbesondere gilt M+ = M−1, falls M invertier-bar. Auf die Begründung für diese Umstände undVerwendungsmöglichkeiten von M+ möchte ichhier nicht weiter eingehen – diese sind aber in derLinearen Algebra einfach zu finden.

6.2.2.2 Die Verallgemeinerung aufmehrere Ausgaben ist trivialund wenig rechenintensiv

Wir haben also jeweils einen mathema-tisch exakten Weg gefunden, die Gewichtedirekt zu errechnen. Was passiert nun beimehreren Ausgabeneuronen, also |O| > 1,wobei O wie gewohnt die Menge der Aus-gabeneurone Ω ist?

In diesem Fall ändert sich, wie wir schonangedeutet haben, nicht viel: Diese weite-ren Ausgabeneurone haben ja einen eige-nen Satz Gewichte, während wir die σ undc der RBF-Schicht nicht ändern. Für einRBF-Netz ist es also für gegebene σ und ceinfach, sehr viele Outputneurone zu rea-lisieren, da wir nur für jedes neue Output-neuron Ω einzeln den Vektor der zu ihmführenden Gewichte

GΩ = M+ · TΩ (6.16)

errechnen müssen, wobei die sehr aufwän-dig zu errechnende Matrix M+ immergleich bleibt: Das Hinzufügen von mehrAusgabeneuronen ist also, was die Be-

Ausgabe-dimensionpreiswert

rechnungskomplexität angeht, recht preis-wert.

6.2.2.3 Berechnungsaufwand undGenauigkeit

Bei realistischen Problemstellungen gilt je-doch in aller Regel, dass es wesentlichmehr Trainingsbeispiele als RBF-Neuronegibt, also |P | |H|: Man kann ohne weite-res den Wunsch haben, mit 106 Trainings-beispielen zu trainieren. Wir können zwar


dkriesel.com 6.3 Training von RBF-Netzen

theoretisch mathematisch korrekt an derTafel die Terme für die richtige Lösungfinden (in sehr sehr langer Zeit), die Be-rechnung am Computer erweist sich aberoft als ungenau und sehr zeitaufwändig(Matrixinversionen haben einen großen Re-chenaufwand).

Weiterhin ist unsere Moore-Penrose-Pseudoinverse, trotz numerischerStabilität, noch keine Garantie dafür,

M+ aufwändigund ungenau dass der Outputvektor dem Teachingvek-

tor entspricht, da bei den aufwändigenBerechnungen sehr viele Ungenauigkeitenauftreten können, obwohl die Rechenwegemathematisch natürlich korrekt sind:Unsere Computer können uns diepseudoinversen Matrizen auch nurnäherungsweise liefern (wenn auchgute Näherungen). De facto erhaltenwir also auch nur eine Näherung derrichtigen Gewichte (womöglich mit vielenaufgeschaukelten Ungenauigkeiten) unddamit auch nur eine (vielleicht sehrgrobe oder gar unerkennbare) Näherungder Outputwerte an den gewünschtenOutput.

Falls wir genug Rechenpower besitzen, umeinen Gewichtsvektor analytisch zu be-stimmen, sollten wir ihn also auf jedenFall nur als Startwert für unseren Lernvor-gang benutzen, womit wir zu den wirkli-chen Trainingsverfahren kommen – abersonst wäre es ja auch langweilig, oder?

6.3 Kombinationen ausGleichungssystem undGradientenverfahren sindzum Training sinnvoll

Analog zum MLP führen wir also zumFinden passender Gewichte einen Gradi-entenabstieg durch, und zwar über die

NachtrainingDelta-Regelbereits hinlänglich bekannte Delta-Regel.

Backpropagation ist hier gar nicht not-wendig, da wir nur eine einzige Gewichts-schicht trainieren müssen – ein Umstand,der sehr rechenzeitfreundlich ist.

Wie wir wissen, lautet die Delta-Regel ansich

∆wh,Ω = η · δΩ · oh, (6.17)

wobei wir in unserem Fall nun einsetzen:

∆wh,Ω = η · (tΩ − yΩ) · fact(||p− ch||)(6.18)

Ich möchte noch einmal ausdrücklich dar-auf hinweisen, dass es sehr beliebt ist, dasTraining in zwei Phasen zu unterteilen,indem man zunächst einen Gewichtssatzanalytisch berechnet und diesen mit derDelta-Regel nachtrainiert.

Oft wird das Training sogar in drei Pha-sen gegliedert: Es bleibt nämlich noch dieFrage zu klären, ob man offline oder onli-ne lernt. Hier kann man Ähnliches sagenwie bei Multilayerperceptrons: Es wird oftzunächst online gelernt (schnellere Bewe-

Trainingin Phasengung über die Fehleroberfläche). Anschlie-

ßend, wenn man der Meinung ist, sich derLösung zu nähern, werden in einer dritten



Lernphase noch einmal die Fehler aufku-muliert und für eine noch genauere Annä-herung offline gelernt. Ähnlich wie bei denMLPs erreicht man aber hier mit vielenMethoden gute Erfolge.

Wir haben aber schon angedeutet, dassman auch andere Dinge an einem RBF-Netz optimieren kann als nur die Gewichtevor der Outputschicht – betrachten wir al-so einmal die Möglichkeiten, die σ und czu variieren.

6.3.1 Zentren und Breiten vonRBF-Neuronen zu bestimmen,ist nicht immer trivial

Es ist klar, dass man die Approximati-onsgenauigkeit von RBF-Netzen erhöhenkann, indem man die Breiten und Positio-nen der Gaußglocken im Inputraum an daszu approximierende Problem anpasst. Esgibt mehrere Methoden, mit den Zentren

σ und cvariieren c und Breiten σ der Gaußglocken zu ver-

fahren:

Feste Wahl: Die Zentren und Breitenkann man fest und ohne Rücksicht aufdie Muster wählen – hiervon sind wirbis jetzt ausgegangen.

Bedingte, feste Wahl: Wieder werdenZentren und Breiten fest gewählt,man besitzt allerdings Vorwissenüber die zu approximierendeFunktion und kann sich etwas danachrichten.

Adaptiv zum Lernprozess: Zweifellos dieeleganteste Variante, aber natürlich

auch die anspruchsvollste. Eine Rea-lisierung dieses Ansatzes wird in die-sem Kapitel nicht besprochen, istaber im Zusammenhang mit einer an-deren Netztopologie zu finden (Ab-schnitt 10.6.1).

6.3.1.1 Feste Wahl

In jedem Fall ist es das Ziel, den Eingangs-raum möglichst gleichmäßig abzudecken.Hier kann man dann Breiten von 2

3 desAbstandes der Zentren zueinander wählen,so dass sich die Gaußglocken zu ca. „ei-nem Drittel“2 überlappen (Abb. 6.6 aufder rechten Seite). Je dichter wir die Glo-cken setzen, desto genauer, aber desto Re-chenaufwändiger wird das Ganze.

Dies mag sehr unelegant aussehen, aller-dings kommen wir in Bereichen der Funkti-onsapproximation kaum um die gleichmä-ßige Abdeckung herum – hier bringt es unsnämlich im Allgemeinen wenig, wenn diezu approximierende Funktion an einigenStellen sehr genau repräsentiert wird, ananderen Stellen aber nur 0 als Rückgabe-wert geliefert wird.

Allerdings erfordert eine hohe Eingangs-dimension gigantisch viele RBF-Neurone,

Eingabe-dimensionsehr teuer

was den Rechenaufwand exponentiell zurDimension in die Höhe schnellen läßt –und dafür sorgt, dass wir sechs- bis zehndi-mensionale Probleme bei RBF-Netzen be-reits „hochdimensional“ nennen (ein MLP

2 Es ist klar, dass eine Gaußglocke mathematischunendlich breit ist, ich bitte also den Leser, diesesaloppe Formulierung zu entschuldigen.


dkriesel.com 6.3 Training von RBF-Netzen

Abbildung 6.6: Beispiel einer gleichmäßigenAbdeckung eines zweidimensionalen Inputrau-mes durch Radialbasisfunktionen.

macht hier beispielsweise überhaupt keineProbleme).

6.3.1.2 Bedingte, feste Wahl

Angenommen, unsere Trainingsbeispielesind nicht gleichmäßig über den Eingangs-raum verteilt – dann liegt es nahe, dieZentren und Sigmas der RBF-Neuroneanhand der Musterverteilung auszurich-ten. Man kann also seine Trainingsmus-ter mit statistischen Verfahren wie einerClusteranalyse analysieren und so heraus-finden, ob es statistische Gegebenheitengibt, nach denen wir unsere Verteilungder Zentren und Sigmas richten sollten(Abb. 6.7).

Abbildung 6.7: Beispiel einer ungleichmäßigenAbdeckung eines zweidimensionalen Inputrau-mes, über den wir Vorwissen besitzen, durchRadialbasisfunktionen.

Eine trivialere Möglichkeit wäre es, |H|viele Zentren auf zufällig aus der Muster-menge ausgewählte Positionen zu setzen:Es bestünde also bei dieser Vorgehenswei-se für jedes Trainingsmuster p die Möglich-keit, direkt Zentrum eines Neurons zu sein(Abb. 6.8 auf der folgenden Seite). Das istauch noch nicht sehr elegant, aber keineschlechte Lösung, wenn es schnell gehensoll. Bei dieser Vorgehensweise werden dieBreiten in der Regel fest gewählt.

Wenn wir Grund zu der Annahme haben,dass die Menge der Trainingsbeispiele Häu-fungspunkte besitzt, können wir Cluste-ringverfahren benutzen, um diese zu fin-den. Es gibt verschiedene Arten, Clusterin einer beliebigdimensionalen Menge von



Abbildung 6.8: Beispiel einer ungleichmäßigenAbdeckung eines zweidimensionalen Inputrau-mes durch Radialbasisfunktionen. Die Breitenwurden fest gewählt, die Zentren der Neuronezufällig über die Trainingsmuster verteilt. DieseVerteilung kann natürlich leicht zu unrepräsenta-tiven Ergebnissen führen, wie auch deutlich andem allein stehenden Datenpunkt unten links zusehen ist.

Punkten zu finden, von denen wir einigeim Exkurs A kennenlernen werden. Einneuronales Clusteringverfahren sind die so-genannten ROLFs (Abschnitt A.5), undauch Self Organizing Maps haben sich alssinnvoll im Zusammenhang mit der Posi-tionsbestimmung von RBF-Neuronen er-wiesen (Abschnitt 10.6.1). Bei den ROLFskönnen sogar Anhaltspunkte für sinnvol-le Radien der RBF-Neurone gefunden wer-den. Auch mit Learning Vector Quantisa-tion (Kap. 9) wurden schon gute Ergeb-nisse erzielt. Alle diese Verfahren habennichts direkt mit den RBF-Netzen zu tun,sondern dienen der reinen Erzeugung vonVorwissen – wir behandeln sie daher nichtin diesem Kapitel, sondern eigenständig inden genannten Kapiteln.

Ein weiterer Ansatz ist, auf Bewährtes zu-rückzugreifen: Wir können an den Positio-nen der Zentren drehen und schauen, wiesich unsere Fehlerfunktion Err damit ver-ändert – einen Gradientenabstieg, wie vonden MLPs gewohnt. Wir können auch aufgleiche Weise schauen, wie der Fehler vonden Werten σ abhängt. Analog zur Herlei-tung von Backpropagation bilden wir alsodie Ableitungen

∂Err(σhch)∂σh

und ∂Err(σhch)∂ch

.

Da die Herleitung dieser Terme sich ana-log zu der von Backpropagation verhält,wollen wir sie hier nicht ausführen.

Die Erfahrung zeigt aber, dass es kei-ne sehr überzeugenden Ergebnisse liefert,wenn wir betrachten, wie sich der Feh-ler abhängig von den Zentren und Sigmasverhält. Auch wenn die Mathematik uns


dkriesel.com 6.4 Wachsende RBF-Netze

lehrt, dass Verfahren dieser Art erfolgver-sprechend sind, ist der Gradientenabstieg,wie wir wissen, problembehaftet bei sehrzerklüfteten Fehleroberflächen.

Genau hier liegt der Knackpunkt: RBF-Netze bilden naturgemäß sehr zerklüfteteFehleroberflächen, denn wenn wir an ei-nem c oder σ etwas verändern, verändernwir das Aussehen der Fehlerfunktion sehrstark.

6.4 Wachsende RBF-Netzepassen dieNeuronendichteautomatisch an

Bei wachsenden RBF-Netzen ist dieAnzahl |H| der RBF-Neurone nicht kon-stant. Man wählt vorab eine bestimmteZahl |H| Neurone, sowie deren Zentrench und Breiten σh (beispielsweise anhandeines Clusteringverfahrens) und erweitertbzw. reduziert diese anschließend. Im Fol-genden werden nur einfache Mechanismenangeschnitten, genauere Informationen fin-den Sie unter [Fri94].

6.4.1 Neurone werden Stellengroßen Fehlers hinzugefügt

Nach Bildung dieser Startkonfiguration be-rechnet man analytisch den Vektor der Ge-wichte G. Man errechnet als nächstes alle

spezifischen Fehler Errp bezüglich der Men-ge P der Trainingsbeispiele und sucht denmaximalen spezifischen Fehler

maxP

(Errp).

Die Erweiterung des Netzes ist einfach:An die Stelle dieses größten Fehlers setzen

Neuronauf Fehlersetzen

wir nun ein neues RBF-Neuron. Hierbeimüssen wir natürlich ein wenig aufpassen:Bei kleinen σ beeinflussen sich die Neuro-ne nur bei wenig Entfernung zueinander.Bei großen σ hingegen findet aufgrund derÜberlappung der Gaußglocken eine großeBeeinflussung der schon vorhandenen Neu-rone durch das neue Neuron statt.

Es liegt also nahe, dass wir beim Hin-zufügen eines neuen Neurons die bereitsvorhandenen RBF-Neurone etwas anpas-sen.

Diese Anpassung geschieht salopp gesagt,indem man die Zentren c der anderen Neu-rone etwas von dem neuen Neuron weg-bewegt und deren Breite σ etwas verklei-nert. Danach wird der aktuelle Outputvek-tor y des Netzes mit dem Teaching In-put t verglichen und der GewichtsvektorG durch Training verbessert. Anschließendkann man, sofern erforderlich, wieder einneues Neuron einfügen. Dieses Verfahreneignet sich insbesondere für Funktionsap-proximationen.

6.4.2 Begrenzung derNeuronenanzahl

Es ist hierbei unbedingt darauf zu achten,dass das Netz nicht ins Unendliche wächst,



was sehr schnell passieren kann. Es ist al-so sinnvoll, sich im Vorhinein eine Maxi-malanzahl für Neurone |H|max zu definie-ren.

6.4.3 Weniger wichtige Neuronewerden gelöscht

Dies bringt uns zu der Frage, ob mannoch weiterlernen kann, wenn diese Gren-ze |H|max erreicht ist. Auch hier ist demLernen noch kein Riegel vorgeschoben:Man sucht sich das „unwichtigste“ Neuronund löscht es. Ein Neuron ist beispielswei-se für das Netz nicht wichtig, wenn es einanderes Neuron gibt, welches fast genaudas gleiche tut: Es kommt oft vor, dasssich zwei Gaußglocken genau überlappen,an solchen Stellen würde beispielsweise ein

UnwichtigeNeurone raus einziges Neuron mit entsprechend größerer

Höhe seiner Gaußglocke genügen.

Automatisierte Verfahren für das Findenvon weniger relevanten Neuronen zu entwi-ckeln, ist aber sehr stark problemabhängigund sei an dieser Stelle dem Programmie-rer überlassen.

Mit RBF-Netzen und Multilayerpercep-trons haben wir nun bereits zwei Netzpa-radigmen für ähnliche Problemstellungenkennengelernt und ausführlich betrachtet.Wir wollen diese beiden Paradigmen dahereinander gegenüberstellen und ihre Vor-und Nachteile vergleichen.

6.5 Gegenüberstellung vonRBF-Netzen undMultilayerperceptrons

Wir nehmen den Vergleich von Multilayer-perceptrons und RBF-Netzen anhand ver-schiedener Aspekte vor.

Eingabedimension: Bei RBF-Netzen istin hochdimensionalen Funktionsräu-men etwas Vorsicht geboten, da dasNetz sehr schnell sehr speicher- undrechenaufwändig werden kann – hiermacht ein Multilayerperceptron weni-ger Probleme, da dessen Neuronenan-zahl nicht exponentiell mit der Einga-bedimension wächst.

Wahl der Zentren: Allerdings ist dieWahl der Zentren c bei RBF-Netzen(trotz der hier vorgestellten Ansätze)nach wie vor ein großes Problem –bitte nutzen Sie bei deren Anwen-dung also wirklich jedes Vorwissen,das sie haben. Solche Problemehaben wir beim MLP nicht.

Ausgabedimension: Vorteil der RBF-Netze ist, dass es dem Training wenigmacht, wenn das Netz eine hoheOutput-Dimension aufweist – einLernverfahren wie Backpropagationbei einem MLP wird dabei sehr indie Länge gezogen.

Extrapolation: Vorteil und Nachteil vonRBF-Netzen ist die mangelnde Extra-polationsfähigkeit: Ein RBF-Netz lie-fert weit weg von den Zentren derRBF-Schicht das Ergebnis 0. Dies ist


dkriesel.com 6.5 Gegenüberstellung von RBF-Netzen und Multilayerperceptrons

gut und schlecht: Zum einen extrapo-liert es eben nicht, es ist im Gegen-satz zum MLP hierfür nicht verwert-bar (wobei wir beim MLP nie wissenkönnen, ob die extrapolierten Wertevernünftig sind, die Erfahrung zeigtaber, dass MLPs hier gutmütig sind).Zum anderen hat das Netz aber imGegensatz zum MLP die Möglichkeit,Wichtig!uns durch diese 0 zu sagen „Ich weisses nicht“, was sehr vom Vorteil seinkann.

Läsionstoleranz: Für den Output einesMLPs ist es nicht so wichtig, wennirgendwo ein Gewicht oder Neuronfehlt, er wird insgesamt ein wenigschlechter werden. Fehlt ein Gewichtoder Neuron beim RBF-Netz, so sindweite Teile des Outputs so gut wie un-beeinflusst – eine Stelle des Outputsist jedoch sehr betroffen, weil eben di-rekt eine Gaußglocke fehlt. Hier kannman also wählen zwischen starkem lo-kalem Fehler bei Läsion und schwa-chem, aber globalem Fehler.

Verbreitung: Hier ist das MLP „im Vor-teil“, da RBF-Netze wesentlich weni-ger angewandt werden – ein Umstand,der von professionellen Stellen nichtimmer verstanden wird (was niedrig-dimensionale Eingaberäume angeht).MLPs haben anscheinend eine wesent-lich höhere Tradition und funktionie-ren zu gut, als dass es nötig wäre, sichein paar Seiten in dieser Arbeit überRBF-Netze durchzulesen :-).

Übungsaufgaben

Aufgabe 14. Mit einem |I|-|H|-|O|-RBF-Netz mit festen Breiten und Zentren derNeurone soll eine Zielfunktion u approxi-miert werden. Hierfür sind |P | viele Trai-ningsbeispiele der Form (p, t) der Funkti-on u gegeben. Es gelte |P | > |H|. DieBestimmung der Gewichte soll analytischüber die Moore-Penrose-Pseudoinverse er-folgen. Geben Sie das Laufzeitverhaltenbezüglich |P | und |O| möglichst genau an.

Hinweis: Für Matrixmultiplikationen undMatrixinvertierungen existieren Verfahren,welche effizienter sind als die kanonischenVerfahren. Für bessere Abschätzungen re-cherchieren Sie nach solchen Verfahren(und deren Komplexität). Geben Sie beiIhrer Komplexitätsberechnung die verwen-deten Verfahren samt ihrer Komplexitätan.


Kapitel 7

Rückgekoppelte NetzeGedanken über Netze, welche eigene interne Zustände besitzen.

Rückgekoppelte Netze im Allgemeinen be-zeichnen Netze, die die Fähigkeit haben,sich durch Rückkopplungen selbst zu be-einflussen, beispielsweise indem die Aus-gabe des Netzes in die folgenden Berech-nungsschritte mit eingeht. Es gibt viele Ar-ten rückgekoppelter Netze von nahezu be-liebiger Gestalt, fast alle überschneidendals rückgekoppelte Neuronale Netzebezeichnet – demzufolge verwende ich fürdie wenigen hier vorgestellten Paradig-men den Namen rückgekoppelte Multi-layerperceptrons. W Dass man mit ei-

Kann mehrals MLP nem rückgekoppelten Netz mehr berech-

nen kann als mit einem normalen MLP,ist offensichtlich: Setzt man die Rückkopp-lungsgewichte auf 0, reduziert man dasrückgekoppelte Netz ja auf ein normalesMLP. Insbesondere erzeugt die Rückkopp-lung verschiedene netzinterne Zustände, sodass auch auf gleiche Eingaben im Kontextdes Netzzustands verschiedene Ausgabenausgegeben werden können.

Rückgekoppelte Netze an sich besitzen ei-ne große Dynamik, die mathematisch sehrschwer zu erfassen und äußerst umfang-

reich zu betrachten ist. Das Ziel dieses Ka-pitels wird es nur sein, kurz zu betrachten,wie Rückkopplungen aufgebaut sein kön-nen und netzinterne Zustände erzeugt wer-den können. So werde ich nur kurz zwei Pa-radigmen rückgekoppelter Netze vorstel-len, und anschließend grob deren Trainingumreißen.

Bei einem rückgekoppelten Netz könnenfür eine zeitlich konstante Eingabe xverschiedene Dinge passieren: Zum einenkann das Netz konvergieren, sich also in

Zustands-dynamikeinen festen Zustand bringen und irgend-

wann eine feste Ausgabe y ausgeben, oderes konvergiert eben nicht bzw. nach so lan-ger Zeit, dass wir es nicht mehr mitbekom-men, was eine ständige Veränderung vony zur Folge hat.

Falls es nicht konvergiert, kann man bei-spielsweise die Ausgabe auf Periodikaoder Attraktoren (Abb. 7.1 auf der fol-genden Seite) untersuchen – wir könnenhier die komplette Vielfalt von dynami-schen Systemen erwarten, weswegen ich

127

Kapitel 7 Rückgekoppelte Netze (baut auf Kap. 5 auf) dkriesel.com

Abbildung 7.1: Der Rössler-Attraktor

auch speziell auf die Literatur zu dynami-schen Systemen verweisen möchte.

Durch weitergehende Betrachtungen kannman dann herausfinden, was passiert,wenn bei rückgekoppelten Netzen der In-put verändert wird.

Vorgestellt werden sollen in diesem Kapi-tel die verwandten Paradigmen rückgekop-pelter Netze nach Jordan und Elman.

7.1 Jordannetze

Ein Jordannetz [Jor86] ist ein Mul-tilayerperceptron mit einer Menge K

von sogenannten Kontextneuronenk1, k2, . . . , k|K| – pro Output-Neuronexistiert ein Kontextneuron (illustriertin Abb. 7.2 auf der rechten Seite). EinKontextneuron macht im Grunde nichtsanderes, als einen Output zwischenzuspei-chern, so dass er im nächsten Zeitschritt

Ausgabe-neuronewerdengepuffert

verwertet werden kann. Es gibt alsogewichtete Verbindungen von jedemAusgabeneuron zu einem Kontextneuron.Die gespeicherten Werte werden durchVollverknüpfungen von den Kontextneu-ronen zur Eingabeschicht wieder an daseigentliche Netz zurückgegeben.

In der ursprünglichen Definition eines Jor-dannetzes sind die Kontextneurone auchnoch über ein Verbindungsgewicht λ zusich selbst rückgekoppelt – in den meis-ten Anwendungen wird diese Rückkopp-lung aber weggelassen, da das Jordannetzohne diese zusätzlichen Rückkopplungenschon sehr dynamisch und schwer analy-sierbar ist.

Definition 7.1 (Kontextneuron). EinKontextneuron k nimmt einen Outputwerteines anderen Neurons i zu einem Zeit-punkt t entgegen und gibt diesen im Zeit-punkt (t+ 1) wieder in das Netz ein.

Definition 7.2 (Jordannetz). Ein Jor-dannetz ist ein Multilayerperceptron, wel-ches pro Outputneuron ein Kontextneu-ron besitzt. Die Menge der Kontextneu-rone nennen wir K. Die Kontextneuronesind vollverknüpft in Richtung der Einga-beschicht des Netzes.


dkriesel.com 7.2 Elmannetze

GFED@ABCi1

~~

AAAAAAAAA



~~

AAAAAAAAAGFED@ABCk2

xx

GFED@ABCk1

vvGFED@ABCh1

AAAAAAAAA

**UUUUUUUUUUUUUUUUUUUUUUUUUU GFED@ABCh2

~~

AAAAAAAAAGFED@ABCh3

~~


GFED@ABCΩ1

@A BC

OO

GFED@ABCΩ2

OO

Abbildung 7.2: Darstellung eines Jordannetzes. Die Ausgabe des Netzes wird in den Kontextneu-ronen gepuffert und beim nächsten Zeitschritt zusammen mit der neuen Eingabe in das Netzeingebracht.

7.2 Elmannetze

Auch die Elmannetze (eine Variationder Jordannetze) [Elm90] haben Kontext-neurone – allerdings pro informationsver-arbeitender Neuronenschicht eine SchichtKontextneurone (Abb. 7.3 auf der fol-genden Seite). Die Ausgaben eines jedenversteckten Neurons oder Ausgabeneurons

Fast alleswird

gepuffertwerden also in die zugehörige Kontext-schicht geleitet (wieder pro Neuron ge-nau ein Kontextneuron) und von da imnächsten Zeitschritt wieder in die komplet-te Neuronenschicht eingegeben (auf demRückweg also wieder eine Vollverknüp-fung). Es existiert also der gesamte in-

formationsverarbeitende Teil1 des MLPsnoch einmal als „Kontextversion“ – wasdie Dynamik und Zustandsvielfalt nocheinmal wesentlich erhöht.

Gegenüber Jordannetzen haben Elmannet-ze oft den Vorteil, etwas zielgerichteter zuagieren, da jede Schicht auf ihren eigenenKontext zurückgreifen kann.

Definition 7.3 (Elmannetz). Ein Elman-netz ist ein MLP, welches pro informations-verarbeitendem Neuron ein Kontextneu-ron besitzt. Die Menge der Kontextneu-rone nennen wir K. Pro informationsver-arbeitender Neuronenschicht existiert al-so eine Kontextschicht mit exakt gleich-

1 Wir erinnern uns: die Inputschicht ist nicht infor-mationsverarbeitend



GFED@ABCi1

~~~~~~~~~~~~

@@@@@@@@@@



~~~~~~~~~~~~

@@@@@@@@@@

GFED@ABCh1

@@@@@@@@@

**UUUUUUUUUUUUUUUUUUUUUUUUUU 44GFED@ABCh2

~~~~~~~~~

@@@@@@@@@ 55GFED@ABCh3

~~~~~~~~~

ttiiiiiiiiiiiiiiiiiiiiiiiiii 55ONMLHIJKkh1

uu zzvv ONMLHIJKkh2

wwuutt ONMLHIJKkh3

vvuutt

GFED@ABCΩ1

55GFED@ABCΩ2 55

ONMLHIJKkΩ1

uu ww ONMLHIJKkΩ2

uu vv

Abbildung 7.3: Darstellung eines Elmannetzes. Der ganze informationsverarbeitende Teil des Net-zes ist sozusagen zweimal vorhanden. Die Ausgabe eines jeden Neurons (bis auf die der Eingabeneu-rone) wird gepuffert und in die zugeordnete Schicht wieder eingegeben. Ich habe die Kontextneuronezur Übersichtlichkeit anhand ihrer Vorbilder im eigentlichen Netz benannt, das muss man aber nichtso machen.


dkriesel.com 7.3 Training rückgekoppelter Netze

vielen Kontextneuronen. Jedes Neuron be-sitzt eine gewichtete Verbindung zu exakteinem Kontextneuron, während die Kon-textschicht in Richtung ihrer Ursprungs-schicht vollverknüpft ist.

Interessant ist nun, das Training rückge-koppelter Netze zu betrachten, da z.B. dasnormale Backpropagation of Error nichtauf rückgekoppelten Netzen funktionierenkann. Dieser Teil ist wieder etwas informel-ler gehalten, so dass ich dort keine forma-len Definitionen verwenden werde.

7.3 Training rückgekoppelterNetze

Um das Training so anschaulich wie mög-lich darzustellen, müssen wir einige Verein-fachungen verabreden, die das Lernprinzipan sich aber nicht beeinträchtigen.

Gehen wir für das Training also davon aus,dass die Kontextneurone zu Anfang mit ei-ner Eingabe initiiert werden, da sie sonsteine undefinierte Eingabe haben (das istkeine Vereinfachung, sondern wird tatsäch-lich gemacht).

Weiterhin verwenden wir für unsere Trai-ningsgehversuche ein Jordannetz, welcheskeine versteckte Neuronenschicht hat, sodass die Outputneurone direkt wieder In-put liefern. Dies ist eine starke Vereinfa-chung, da in der Regel kompliziertere Net-ze verwendet werden. Dies verändert so-weit aber nichts am Lernprinzip.

7.3.1 Unfolding in Time

Erinnern wir uns an unser eigentlichesLernverfahren für MLPs, Backpropagationof Error, das die Deltawerte rückwärts pro-pagiert. Im Falle rückgekoppelter Netzewürden die Deltawerte also zyklisch immerwieder rückwärts durch das Netz propa-giert, was das Training schwieriger macht.Zum einen kann man nicht wissen, welcheder vielen generierten Deltawerte für einGewicht nun für das Training gewählt wer-den sollen, also sinnvoll sind, zum anderenkönnen wir auch nicht unbedingt wissen,wann das lernen nun beendet werden soll.Der Vorteil von rückgekoppelten Netzenist eine große Zustandsdynamik innerhalbdes Netzbetriebs – der Nachteil rückgekop-pelter Netze ist, dass diese Dynamik auchdem Training zuteil wird und dieses somiterschwert.

Ein Lernansatz wäre der Versuch, die zeit-lichen Zustände des Netzes aufzufalten(Abb. 7.4 auf Seite 133): Man löst die Re-kursionen auf, indem man ein gleichförmi-ges Netz über die Kontextneurone setzt, al-so die Kontextneurone sozusagen die Aus-gabeneurone des angefügten Netzes bilden.Allgemeiner ausgedrückt, Verfolgt man dieRekurrenzen zurück und hängt so „frühe-re“ Instanzen von Neuronen in das Netzein. So erzeugt man ein Großes, vorwärts-gerichtetes Netz, verliert aber im Gegen-zug die Rekurrenzen und kann so das Netzmit Verfahren für nicht-rekurrente Netzetrainieren In jede „Kopie“ der Eingabeneu-

Jeweils anKontext-schichtgleichesNetz hängen

rone wird hierbei die Eingabe als TeachingInput eingegeben. Dies kann man für ei-ne diskrete Anzahl Zeitschritte tun. Wir



nennen dieses TrainingsparadigmaUnfol-ding in Time [MP69]. Nach der Auffal-tung ist ein Training durch Backpropaga-tion of Error möglich.

Offensichtlich erhält man für ein Gewichtwi,j aber mehrere Änderungswerte ∆wi,j ,mit denen man auf verschiedene Wei-se verfahren kann: Aufkumulieren, Durch-schnittsberechnung, etc. Kumuliert mansie einfach auf, können sich u.U. zu großeÄnderungen pro Gewicht ergeben, falls al-le Änderungen das gleiche Vorzeichen ha-ben. Demzufolge ist auch der Durchschnittnicht zu verachten. Man könnte auch einendiscounting factor einführen, der den Ein-fluss weiter in der Vergangenheit liegender∆wi,j abschwächt.

Unfolding in Time ist besonders dann sinn-voll, wenn man den Eindruck hat, dassdie nähere Vergangenheit wichtiger für dasNetz ist als die weiter entfernte, da Back-propagation in den von der Ausgabe wei-ter entfernten Schichten nur wenig Ein-fluss hat (wir erinnern uns: Der Einflussvon Backpropagation wird immer kleiner,je weiter man von der Ausgabeschicht weg-geht).

Nachteile: Das Training des so ausein-andergefalteten Netzes kann sehr langedauern, da man unter Umständen einegroße Anzahl Schichten produziert. Einnicht mehr vernachlässigbares Problem istdie begrenzte Rechengenauigkeit norma-ler Computer, die bei derartig vielen ge-schachtelten Rechnungen sehr schnell er-schöpft ist (der Einfluss von Backpropaga-tion wird, je weiter man von den Ausga-beschichten weg kommt, immer kleiner, so

dass man an diese Grenze stößt). Weiter-hin kann das Verfahren bei mehreren Ebe-nen Kontextneurone sehr große zu trainie-rende Netze produzieren.

7.3.2 Teacher Forcing

Weitere Verfahren sind die deckungsglei-chen Teacher Forcing und Open LoopLearning. Sie schneiden während des Ler-nens die Rückkopplung auf: Während des

TeachingInput anKontext-neurone

Lernens tun wir einfach so, als gäbe esdie Rückkopplung nicht, und legen den Te-aching Input während des Trainings anden Kontextneuronen an. Auch so wird einBackpropagation-Training möglich. Nach-teil: Ein Teaching Input bei Kontext-neuronen oder allgemein nicht-ausgabe-Neuronen ist ja nicht verfügbar.

7.3.3 Rekurrentes Backpropagation

Ein weiteres beliebtes Verfahren ohne be-schränkten Zeithorizont ist rekurrentesBackpropagation, das dem Problem mitHilfe von Lösungsmethoden für Differenti-algleichungen zu Leibe rückt [Pin87].

7.3.4 Training mit Evolution

Gerade bei rückgekoppelten Netzen habensich aufgrund des ohnehin langen Trai-nings evolutionäre Algorithmen be-währt, da diese nicht nur in Bezug aufRückkopplungen keinen Beschränkungenunterliegen, sondern bei geeigneter Wahlder Mutationsmechanismen auch weitereVorteile haben: So können zum Beispiel


dkriesel.com 7.3 Training rückgekoppelter Netze

GFED@ABCi1

''OOOOOOOOOOOOOOOO


@@@@@@@@@


AAAAAAAAAGFED@ABCk1

wwnnnnnnnnnnnnnnnnn

~~GFED@ABCk2


wwnnnnnnnnnnnnnnnnn

GFED@ABCΩ1@A BC

OO

GFED@ABCΩ2

OO

...

...

......

...

/.-,()*+

((RRRRRRRRRRRRRRRRR

**VVVVVVVVVVVVVVVVVVVVVVVV /.-,()*+

!!CCCCCCCCC

((PPPPPPPPPPPPPPP /.-,()*+ ???????? /.-,()*+

wwoooooooooooooo

/.-,()*+

ttjjjjjjjjjjjjjjjjjjjjj

wwoooooooooooooo

/.-,()*+

((RRRRRRRRRRRRRRRRRR

**VVVVVVVVVVVVVVVVVVVVVVVVVVV /.-,()*+

!!DDDDDDDDDD

((QQQQQQQQQQQQQQQQQQ /.-,()*+ !!CCCCCCCCC /.-,()*+

vvnnnnnnnnnnnnnnnn

/.-,()*+

ttjjjjjjjjjjjjjjjjjjjjjjj

wwppppppppppppppp

GFED@ABCi1

''OOOOOOOOOOOOOOOO


@@@@@@@@@


AAAAAAAAAGFED@ABCk1

wwnnnnnnnnnnnnnnnnn

~~GFED@ABCk2


wwnnnnnnnnnnnnnnnnn

GFED@ABCΩ1

GFED@ABCΩ2

Abbildung 7.4: Darstellung des Unfolding in Time bei einem kleinen beispielhaften rückgekoppel-ten MLP. Oben: Das rückgekoppelte MLP. Unten: Das aufgefaltete Netz. Um der Übersichtlichkeitzu dienen, habe ich im aufgefalteten Netz nur dem untersten Teilnetz Benennungen hinzugefügt.Gepunktete Pfeile, welche in das Netz hineinführen, markieren Eingaben. Gepunktete Pfeile, welcheaus dem Netz herausführen, markieren Ausgaben. Jede „Netzkopie“ repräsentiert einen Zeitschrittdes Netzes, unten ist der aktuellste Zeitschritt.



Neurone und Gewichte angepasst und sodie Netztopologie optimiert werden (esmuss dann nach dem Lernen natürlich keinJordan- oder Elmannetz herauskommen).Bei normalen MLPs hingegen sind die Evo-lutionsstrategien weniger gefragt, da sienatürlich viel mehr Zeit benötigen als eingerichtetes Lernverfahren wie Backpropa-gation.


Kapitel 8

HopfieldnetzeIn einem magnetischen Feld übt jedes Teilchen Kraft auf jedes andere Teilchenaus, so dass sich die Teilchen insgesamt so ausrichten, wie es am energetisch

günstigsten für sie ist. Wir kopieren diesen Mechanismus der Natur, umverrauschte Eingaben zu ihren richtigen Vorbildern zu korrigieren.

Ein weiteres überwacht lernendes Beispielaus dem Zoo der Neuronalen Netze wurdevon John Hopfield entwickelt: die nachihm benannten Hopfieldnetze [Hop82].Hopfield und seine physikalisch motivier-ten Netze haben viel zur Renaissance derNeuronalen Netze beigetragen.

8.1 Hopfieldnetze sindinspiriert durch Teilchenin einem magnetischenFeld

Die Idee für die Hopfieldnetze ist aus demVerhalten von Teilchen im Magnetismusentstanden: Jedes Teilchen „redet“ (durchdie magnetischen Kräfte) mit jedem an-deren (also eine Vollverknüpfung), wobeies aber jeweils versucht, einen energetischgünstigen Zustand (sozusagen ein Mini-mum der Energiefunktion) zu erreichen.

Diesen Eigenzustand kennen wir bei denNeuronen als Aktivierung. Die Teilchenbzw. Neurone drehen sich also alle und ani-mieren sich dadurch wieder gegenseitig zurDrehung. Unser Neuronales Netz ist alsosozusagen eine Wolke von Teilchen.

Ausgehend von der Tatsache, dass die Teil-chen die Minima in der Energiefunktionselbsttätig aufspüren, hatte Hopfield nundie Idee, den „Drehwinkel“ der Teilchenzu nutzen, um Informationsverarbeitungzu betreiben: Warum nicht die Teilchenauf selbstdefinierten Funktionen Minimasuchen lassen? Selbst wenn wir nur zweidieser Drehwinkel (Spins) verwenden, al-so eine binäre Aktivierung, werden wir fest-stellen, dass das entwickelte Hopfieldnetzerstaunliche Dynamik besitzt.

135

Kapitel 8 Hopfieldnetze dkriesel.com

?>=<89:;↑ ii

ii

))SSSSSSSSSSSSSSSSSSSSSSSSOO

oo //^^

<<<<<<<<<?>=<89:;↓55

uukkkkkkkkkkkkkkkkkkkkkkkkOO

@@

^^

<<<<<<<<<

?>=<89:;↑ ii

))SSSSSSSSSSSSSSSSSSSSSSSSoo //

@@ ?>=<89:;↓ ?>=<89:;↑44jj 55

uukkkkkkkkkkkkkkkkkkkkkkkk//oo@@

?>=<89:;↓

66

@@

^^<<<<<<<<< ?>=<89:;↑//oo

^^<<<<<<<<<

Abbildung 8.1: Darstellung eines beispielhaftenHopfieldnetzes. Die Pfeile ↑ und ↓ markierendie binären „Drehwinkel“. Durch die vollständigeVerknüpfung der Neurone können keine Schich-ten voneinander abgegrenzt werden, so dass einHopfieldnetz einfach eine Menge von Neuronenumfasst.

8.2 In einem Hopfieldnetzbeeinflussen sich alleNeurone symmetrischgegenseitig

Kurz gesagt besteht ein Hopfieldnetz al-so aus einer Menge K von untereinander

KI vollverknüpften Neuronen mit binärer Ak-tivierung (wir verwenden ja nur zwei Dreh-winkel), wobei die Gewichte zwischen deneinzelnen Neuronen symmetrisch sind und

VollständigverknüpfteNeuronen-

menge

ein Neuron keine Direktverbindung zu sichselbst aufweist (Abb. 8.1). Der Zustandvon |K| vielen Neuronen mit zwei mögli-chen Zuständen ∈ −1, 1 lässt sich alsodurch eine Zeichenkette x ∈ −1, 1|K| be-schreiben.

Die Vollverknüpfung sorgt dafür, dass wireine volle quadratische Matrix an Gewich-ten unter den Neuronen haben. Was dieGewichte bedeuten, wollen wir gleich er-forschen. Weiter werden wir gleich durch-schauen, nach welchen Regeln die Neuronesich drehen, also ihren Zustand ändern.

Die Vollverknüpfung sorgt weiterhin dafür,dass wir keine Input-, Output- oder ver-steckten Neurone kennen. Wir müssen unsalso Gedanken machen, wie wir etwas indie |K| Neurone eingeben.

Definition 8.1 (Hopfieldnetz). Ein Hop-fieldnetz besteht aus einer Menge K vonvollverknüpften Neuronen ohne direkteRückkopplungen. Die Aktivierungsfunkti-on der Neurone ist die binäre Schwellen-wertfunktion mit Ausgaben ∈ 1,−1.

Definition 8.2 (Zustand eines Hopfield-netzes). Die Gesamtheit der Aktivierungs-zustände aller Neurone ist der Zustand desNetzes. Der Netzzustand kann also als Bi-närstring z ∈ −1, 1|K| aufgefasst wer-den.

8.2.1 Eingabe und Ausgabe einesHopfieldnetzes werden durchNeuronenzuständerepräsentiert

Wir haben gelernt, dass das Netz, alsodie Menge der |K| vielen Teilchen, von ei-nem Zustand aus selbsttätig ein Minimumsucht. Ein Inputmuster eines Hopfieldnet-zes ist genau so ein Zustand: Ein Binär-string x ∈ −1, 1|K|, welcher die Neuro-ne initialisiert. Das Netz sucht dann zur


dkriesel.com 8.2 Aufbau und Funktionsweise

Eingabe das Minimum auf seiner Energie-oberfläche (das wir vorher durch Eingabevon Trainingsbeispielen selbst definiert ha-ben).

Woher wissen wir nun, dass das Minimumgefunden ist? Auch das ist einfach: Wenn

Eingabe undAusgaben =Netzzustände

das Netz stillsteht. Man kann beweisen,dass ein Hopfieldnetz mit symmetrischerGewichtsmatrix und Nullen in der Diago-nale immer konvergiert [CG88] , es wird

konvergiertimmer also irgendwann still stehen. Die Ausgabe

ist dann ein Binärstring y ∈ −1, 1|K|,nämlich die Zustandszeichenkette des Net-zes, das ein Minimum gefunden hat.

Betrachten wir nun die Inhalte der Ge-wichtsmatrix und die Regeln für den Zu-standswechsel der Neurone etwas genau-er.Definition 8.3 (Eingabe und Ausgabeeines Hopfieldnetzes). Die Eingabe inein Hopfieldnetz ist ein Binärstring x ∈−1, 1|K|, welcher den Netzzustand initia-lisiert. Nach erfolgter Konvergenz des Net-zes ist der aus dem neuen Netzzustand er-zeugte Binärstring y ∈ −1, 1|K| die Aus-gabe.

8.2.2 Bedeutung der Gewichte

Wir haben gesagt, dass die Neurone ihreZustände, also ihre Ausrichtung von −1nach 1 oder umgekehrt ändern. Diese Dre-hungen finden abhängig von den aktuel-len Zuständen der anderen Neurone undvon den Gewichten zu diesen statt. Die Ge-wichte sind also in der Lage, die Gesamt-veränderung des Netzes zu steuern. Die Ge-wichte können positiv, negativ oder 0 sein.

Hierbei gilt umgangsprachlich für ein Ge-wicht wi,j zwischen zwei Neuronen i undj:

Ist wi,j positiv, versucht es die beidenNeurone zur Gleichheit zu zwingen,je größer wi,j , desto stärker ist derZwang. Wenn das Neuron i den Zu-stand 1 hat, das Neuron j aber denZustand −1, vermittelt ein hohes po-sitives Gewicht den beiden Neuronen,dass es energetisch günstiger ist, wennsie gleich sind.

Ist wi,j negativ, verhält es sich analog,nur werden hier i und j zur Unter-schiedlichkeit gedrängt. Ein Neuron imit Zustand −1 würde versuchen, einNeuron j in den Zustand 1 zu drän-gen.

Null-Gewichte sorgen dafür, dass sich diebeiden beteiligten Neurone nicht be-einflussen.

Die Gesamtheit der Gewichte beschreibtalso offensichtlich den Weg zum nächstenMinimum der Energiefunktion vom aktuel-len Netzzustand aus – wir wollen nun un-tersuchen, auf welche Weise die Neuronediesen Weg einschlagen.

8.2.3 Ein Neuron wechselt denZustand anhand desEinflusses der anderenNeurone

Die Funktionsweise des einmal trainiertenund mit einem Anfangszustand initialisier-



−1

−0.5

0

0.5

1

−4 −2 0 2 4

f(x)

x

Heaviside−Funktion

Abbildung 8.2: Darstellung der binärenSchwellenwertfunktion.

ten Netzes liegt darin, die Zustände xk dereinzelnen Neurone k nach dem Schema

xk(t) = fact

∑j∈K

wj,k · xj(t− 1)

(8.1)

mit jedem Zeitschritt zu ändern, wobeidie Funktion fact in aller Regel die bi-näre Schwellenwert-Funktion (Abb. 8.2)mit Schwellenwert 0 ist. Umgangssprach-lich: Ein Neuron k berechnet die Summeder wj,k ·xj(t−1), die angibt, wie stark undin welche Richtung das Neuron k von denanderen Neuronen j gedrängt wird. Derneue Zustand des Netzes (Zeitpunkt t) er-gibt sich also aus dem Netzzustand zumvorherigen Zeitpunkt t− 1. Die Summe er-gibt dann die Gesamtrichtung, in die dasNeuron k gedrängt wird. Je nach Vorzei-chen der Summe nimmt das Neuron denZustand 1 oder −1 an.

Ein weiterer Unterschied der Hopfieldnet-ze zu anderen Netztopologien, welche wir

bereits kennengelernt haben, ist das asyn-chrone Update: Es wird jedes mal ein Neu-ron k zufällig gewählt, welches dann dieAktivierung neu errechnet. Die neuen Ak-tivierungen der jeweils vorher geändertenNeurone nehmen also direkt Einfluss, einZeitschritt bezeichnet also die Änderungeines einzigen Neurons.

Ungeachtet der hier beschriebenen zufäl-ligen Wahl des Neurons findet die Imple-mentierung eines Hopfieldnetzes oft ein-facher statt: die Neurone werden einfachnacheinander durchgegangen und derenAktivierungen neu berechnet – so lange,bis sich nichts mehr ändert.

ZufälligesNeuronberechnetneueAktivierung

Definition 8.4 (Zustandswechsel einesHopfieldnetzes). Der Zustandswechsel derNeurone findet asynchron statt, wobei daszu aktualisierende Neuron jeweils zufäl-lig bestimmt wird und der neue Zustanddurch die Vorschrift

xk(t) = fact

∑j∈K

wj,k · xj(t− 1)

gebildet wird.

Nachdem wir jetzt wissen, wie die Gewich-te die Zustandsänderungen der Neuronebeeinflussen und das gesamte Netz in Rich-tung eines Minimums treiben, ist nun nochdie Frage offen, wie man den Gewichtenbeibringt, das Netz in Richtung eines be-stimmten Minimums zu treiben.


dkriesel.com 8.3 Erzeugen der Gewichtsmatrix

8.3 Die Gewichtsmatrix wirddirekt anhand derTrainingsbeispiele erzeugt

Es ist das Ziel, Minima auf der genanntenEnergieoberfläche zu erzeugen, in die dasNetz bei einer Eingabe konvergiert. Wieschon bei vielen anderen Netzparadigmen,verwenden wir hier wieder eine Menge Pvon Mustereingaben p ∈ 1,−1|K|, diedie Minima unserer Energieoberfläche dar-stellen.

Im Unterschied zu vielen anderen Netz-paradigmen suchen wir hier nicht die Mi-nima einer uns unbekannten Fehlerfunkti-on, sondern definieren uns selbst Minimaauf einer solchen – mit dem Zweck, dassdas Netz das naheliegendste Minimum vonselbst annehmen soll, wenn man ihm eineEingabe präsentiert. Dies ist für uns ersteinmal ungewohnt – den Sinn und Zweckwerden wir aber noch verstehen.

Das Training eines Hopfieldnetzes spieltsich grob gesagt so ab, dass man jedes Trai-ningsmuster genau einmal mit der im Fol-genden beschriebenen Vorschrift trainiert(Single Shot Learning), wobei pi und pjdie Zustände der Neurone i und j in demBeispiel p ∈ P sind:

wi,j =∑p∈P

pi · pj (8.2)

Hieraus ergibt sich dann die Gewichtsma-trix W . Umgangssprachlich: Wir initiali-sieren das Netz mit einem Trainingsmus-ter, und gehen dann alle Gewichte wi,jdurch. Für jedes dieser Gewichte schauen

wir: Sind die Neurone i, j im gleichen Zu-stand oder sind die Zustände unterschied-lich? Im ersten Fall addieren wir 1 zumGewicht, im zweiten Fall −1.

Dies machen wir für alle Trainingsmusterp ∈ P . Zum Schluss haben also Gewich-te wi,j hohe Werte, wenn i und j bei vie-len Trainingsmustern übereingestimmt ha-ben. Der hohe Wert sagt diesen Neuronenumgangssprachlich: „Es ist sehr oft ener-getisch günstig, wenn ihr den gleichen Zu-stand innehabt“. Entsprechendes gilt fürnegative Gewichte.

Durch dieses Training können wir also einegewisse feste Anzahl Muster p in der Ge-wichtsmatrix abspeichern. Das Netz wirddann bei einer Eingabe x zu dem abgespei-cherten Muster konvergieren, dass der Ein-gabe p am nächsten liegt.

Leider ist die Zahl der maximal speicherba-ren und rekonstruierbaren Muster p auf

|P |MAX ≈ 0.139 · |K| (8.3)

beschränkt, was auch wiederum nur für or-thogonale Muster gilt. Dies wurde durchgenaue (und aufwändige) mathematischeAnalysen gezeigt, auf die wir jetzt nichteingehen wollen. Gibt man mehr Musterals diese Anzahl ein, zerstört man bereitsgespeicherte Informationen.

Definition 8.5 (Lernregel für Hopfield-netze). Die einzelnen Elemente der Ge-wichtsmatrix W werden durch das einma-lige Ausführen der Lernregel

wi,j =∑p∈P

pi · pj



bestimmt, wobei die Diagonale der Matrixmit Nullen belegt ist. Hierbei können nichtmehr als |P |MAX ≈ 0.139 · |K| Trainings-beispiele funktionserhaltend trainiert wer-den.

Wir haben nun die Funktionalität vonHopfieldnetzen kennen gelernt, jedochnoch nicht ihren praktischen Nährwert.

8.4 Autoassoziation undtraditionelle Anwendung

Hopfieldnetze, wie sie oben beschriebenwurden, sind sogenannte Autoassoziato-ren. Ein Autoassoziator a legt genau das

aI oben beschriebene Verhalten an den Tag:Erstens gibt er bei Eingabe eines bekann-ten Musters p genau dieses bekannte Mus-ter wieder aus, es gilt also

a(p) = p,

wobei a die Assoziator-Abbildung ist. ZumZweiten, und genau hier liegt der Nähr-wert des Ganzen, funktioniert das auchmit Eingaben, die in der Nähe von einemMuster liegen:

a(p+ ε) = p.

Der Autoassoziator ist hinterher in jedemFall in einem stabilen Zustand, nämlich imZustand p.

Nimmt man als Mustermenge P beispiels-weise Buchstaben oder sonstige Schriftzei-

Netzrestauriert

kaputteEingaben

chen in Pixelform, so wird das Netz in

der Lage sein, deformierte oder verrausch-te Buchstaben mit hoher Wahrscheinlich-keit richtig zu erkennen (Abb. 8.3 auf derrechten Seite).

Anwendung von Hopfieldnetzen sind da-her prinzipiell Mustererkennung undMustervervollständigung, so zum BeispielEnde der 1980er Jahre die Erkennungvon Postleitzahlen auf Briefen. Bald sinddie Hopfieldnetze aber in den meisten ih-rer Anwendungsgebiete von anderen Sys-temen überholt worden, so in der Buch-stabenerkennung von modernen OCR-Systemen. Heute werden Hopfieldnetze sogut wie überhaupt nicht mehr verwendet,sie haben sich nicht durchgesetzt.

8.5 Heteroassoziation undAnalogien zur neuronalenDatenspeicherung

Bis jetzt haben wir Hopfieldnetze kennen-gelernt, die für eine beliebige Eingabe indas naheliegendste Minimum einer stati-schen Energieoberfläche konvergieren.

Eine weitere Variante wäre eine dynami-sche Energieoberfläche: Hier sieht die Ener-gieoberfläche je nach aktuellem Zustandanders aus und wir erhalten keinen Autoas-soziator mehr, sondern einen Heteroas-soziator. Für einen Heteroassoziator giltnicht mehr

a(p+ ε) = p,

sondern vielmehr

h(p+ ε) = q,


dkriesel.com 8.5 Heteroassoziation und Analogien zur neuronalen Datenspeicherung

Abbildung 8.3: Darstellung der Konvergenz ei-nes beispielhaften Hopfieldnetzes. Jedes der Bil-der hat 10 × 12 = 120 binäre Pixel. Jeder Pixelentspricht im Hopfieldnetz einem Neuron. Obensind die Trainingsbeispiele abgebildet, unten dieKonvergenz einer stark verrauschten 3 zum kor-respondierenden Trainingsbeispiel.

was bedeutet, dass ein Muster aufein anderes abgebildet wird. h ist die JhHeteroassoziator-Abbildung. Man erreichtsolche Heteroassoziationen durch eineasymmetrische Gewichtsmatrix V .

Durch hintereinandergeschaltete Heteroas-soziationen der Form

h(p+ ε) = q

h(q + ε) = r

h(r + ε) = s

...h(z + ε) = p

wird es möglich, einen schnellen Zustands-durchlauf

p→ q → r → s→ . . .→ z → p

zu provozieren, wobei ein einzelnes Mus-ter aber niemals vollständig angenommenwird: Bevor ein Muster vollständig zustan-degekommen ist, versucht die Heteroasso-ziation ja bereits, dessen Nachfolger zu er-zeugen. Außerdem würde unser Netz niezum Stillstand kommen, da es ja nach Er-reichen des letzten Zustands z wieder zumersten Zustand p übergeht.

8.5.1 Erzeugung derHeteroassoziationsmatrix

Wir erzeugen die Matrix V mit Elementen JVv sehr ähnlich der Autoassoziationsmatrix,

Jvwobei (pro Übergang) p das Trainingsbei-spiel vor dem Übergang ist und q das aus Jqp zu erzeugende Trainingsbeispiel:

vi,j =∑

p,q∈P,p6=qpiqj (8.4)



Die Diagonale der Matrix ist wieder mitNullen belegt. Die Adaption der Neuro-

NetzdurchläuftZuständeinstabil

nenzustände erfolgt im laufenden Betrieb,wie gehabt. Mehrere Übergänge könneneinfach durch Aufsummierung in die Ma-trix eingebracht werden, wobei auch hierwieder die genannte Begrenzung gegebenist.

Definition 8.6 (Lernregel für Heteroas-soziationsmatrix). Für zwei Trainingsbei-spiele p als Vorgänger und q als Nachfol-ger eines Heteroassoziationsübergangs er-geben sich die Gewichte der Heteroassozia-tionsmatrix V durch die Lernregel

vi,j =∑

p,q∈P,p6=qpiqj ,

wobei sich mehrere Heteroassoziationendurch einfache Aufsummierung in ein Netzeinbringen lassen.

8.5.2 Stabilisierung derHeteroassoziationen

Wir haben oben das Problem angespro-chen, dass die Muster nicht vollständig er-zeugt werden, sondern schon vor Ende derErzeugung bereits das nächste Muster inAngriff genommen wird.

Dieses Problem kann umgangen werden,indem das Netz nicht nur durch die He-teroassoziationsmatrix V beeinflusst wird,sondern zusätzlich durch die bereits be-kannte Autoassoziationsmatrix W .

Zusätzlich wird die Neuronenadaptionsre-gel so verändert, dass konkurrierende Ter-me entstehen: Einer, der ein vorhandenes

Muster autoassoziiert, und einer, der ver-sucht, eben dieses Muster in seinen Nach-folger umzuwandeln. Die Assoziationsregelbewirkt hierbei, dass das Netz ein Mus-ter stabilisiert, dort eine Weile bleibt, zumnächsten Muster übergeht, und so wei-ter.

xi(t+ 1) = (8.5)

fact

∑j∈K

wi,jxj(t)︸︷︷︸Autoassoziation

+∑k∈K

vi,kxk(t−∆t)︸︷︷︸Heteroassoziation

Der Wert ∆t bewirkt hierbei anschaulich J∆tStabilerDurchlauf

gesprochen, dass der Einfluss der MatrixV verzögert eintritt, da sie sich nur auf ei-ne um ∆t zurückliegende Version des Net-zes bezieht. Hierdurch ergibt sich ein Zu-standswechsel, in dem die einzelnen Zu-stände aber zwischendurch für kurze Zeitstabil sind. Setzen wir ∆t auf z.B. zwan-zig Schritte, so bekommt die asymmetri-sche Gewichtsmatrix jegliche Veränderungim Netz erst zwanzig Schritte später mit,so dass sie zunächst mit der Autoassoziati-onsmatrix zusammenarbeitet (da sie nochdas Vorgängermuster vom aktuellen wahr-nimmt) und erst später gegen sie.

8.5.3 Biologische Motivation derHeteroassoziation

Die Übergänge von stabilen in anderestabile Zustände sind hierbei biologischstark motiviert: Es gab zumindest Anfangder 1990er Jahre Vermutungen, dass mit


dkriesel.com 8.6 Kontinuierliche Hopfieldnetze

dem Hopfieldmodell eine Näherung der Zu-standsdynamik im Gehirn erreicht wird,welches vieles durch Zustandsketten reali-siert: Wenn ich Sie, lieber Leser, nun bitte,das Alphabet aufzusagen, werden Sie dasin der Regel wesentlich besser schaffen alsmir (bitte sofort versuchen) die Frage zubeantworten:

Welcher Buchstabe folgt im Alphabetauf den Buchstaben P?

Ein anderes Beispiel ist das Phänomen,dass man etwas vergisst, jedoch den Ortnoch kennt, an dem man zuletzt daran ge-dacht hat. Geht man nun an diesen Ortzurück, fällt einem das Vergessene oftmalswieder ein.

8.6 KontinuierlicheHopfieldnetze

Bis jetzt haben wir nur Hopfieldnetzemit binären Aktivierungen erforscht. Hop-field beschrieb aber auch eine Version sei-ner Netze mit kontinuierlichen Aktivierun-gen [Hop84], die wir zumindest kurz an-schauen wollen: kontinuierliche Hop-fieldnetze. Hier wird die Aktivierungnicht mehr durch die binäre Schwellen-wertfunktion berechnet, sondern durch dieFermifunktion mit Temperaturparameter(Abb. 8.4).

Auch hier ist das Netz für symmetrischeGewichtsmatrizen mit Nullen auf der Dia-gonalen stabil.

Hopfield selbst nennt als Anwendungs-beispiel für kontinuierliche Hopfieldnetze,

0

0.2

0.4

0.6

0.8

1

−4 −2 0 2 4

f(x)

x


Abbildung 8.4: Die bereits bekannte Fermi-funktion mit verschiedenen Variationen desTemperaturparameters.

recht gute Lösungen für das NP-harteTravelling Salesman Problem zu finden[HT85]. Nach einem in [Zel94] beschrie-benen Feldversuch kann dieses Statementaber nicht ohne weiteres aufrecht erhaltenwerden. Es gibt heute aber ohnehin schnel-lere Algorithmen, um gute Lösungen fürdieses Problem zu finden, weswegen dasHopfieldnetz auch hier keine Anwendungmehr finden kann.

Übungsaufgaben

Aufgabe 15. Geben Sie den Speicherbe-darf für ein Hopfieldnetz mit |K| = 1000Neuronen an, wenn die Gewichte wi,j alsganze Zahlen gespeichert werden sollen.Kann der Wertebereich der Gewichte ein-gegrenzt werden, um Speicher zu sparen?



Aufgabe 16. Berechnen Sie die Gewich-te wi,j für ein Hopfieldnetz unter Verwen-dung der Trainingsmenge

P =(−1,−1,−1,−1,−1, 1);(−1, 1, 1,−1,−1,−1);(1,−1,−1, 1,−1, 1).


Kapitel 9

Learning Vector QuantizationLearning Vector Quantization ist ein Lernverfahren mit dem Ziel, in

vordefinierte Klassen unterteilte Trainingsmengen von Vektoren durch wenigeRepräsentanten-Vektoren möglichst gut wiederzugeben. Ist dies geschafft, so

ist eine einfache Zuordnung bis dato unbekannter Vektoren in eine dieserKlassen möglich.

Allmählich neigt sich Teil II dieser Ar-beit dem Ende entgegen – und so möch-te ich auch ein Kapitel für den Abschlussdieses Teils schreiben, welches einen schö-nen Übergang darstellt: Ein Kapitel überdie von Teuvo Kohonen beschriebeneLearning Vector Quantization (Kurz:LVQ) [Koh89], welche man als verwandtmit den Self Organizing Feature Maps be-zeichnen kann. Diese werden direkt im An-schluss beschrieben, nämlich im nächstenKapitel, welches sich bereits in Teil III derArbeit befindet, da SOMs unüberwacht ler-nen. Ich möchte also nach der Untersu-chung von LVQ Abschied vom überwach-ten Lernen nehmen.

Gleich im Voraus möchte ich ankündigen,dass es verschiedene Variationen von LVQgibt, die ich zwar erwähnen, aber nichtgenau darstellen werde – es ist mehr dasZiel dieses Kapitels, das zugrundeliegendePrinzip zu erforschen.

9.1 Über Quantisierung

Um die Learning Vector Quantizationzu erforschen, sollten wir uns zunächstklarmachen, was denn Quantization, zuDeutsch Quantisierung ist, die manauch mit Diskretisierung bezeichnenkann.

Jeder von uns kennt den diskreten Zahlen-raum

N = 1, 2, 3, . . .,

in dem die natürlichen Zahlen liegen.Dis-kret bedeutet, dass dieser Raum aus von-

Diskret= getrennteinander abgetrennten Elementen besteht,

die nicht miteinander verbunden sind. Inunserem Beispiel sind diese Elemente ebendiese Zahlen, denn in den natürlichen Zah-len gibt es ja beispielsweise keine Zahl zwi-schen 1 und 2. Kontinuierlich ist dage-gen beispielsweise der Raum der reellenZahlen R: Egal, wie nah man daraus zwei

145

Kapitel 9 Learning Vector Quantization dkriesel.com

Zahlen wählt, es wird immer eine Zahl zwi-schen ihnen geben.

Quantisierung bedeutet nun die Untertei-lung eines kontinuierlichen Raums in dis-krete Abschnitte: Indem man der reellenZahl 2.71828 beispielsweise alle Nachkom-mastellen entfernt, könnte man diese Zahlder natürlichen Zahl 2 zuweisen. Hierbeiist klar, dass jede andere Zahl mit einer 2vor dem Komma ebenfalls der natürlichenZahl 2 zugewiesen würde, die 2 wäre alsoeine Art Repräsentant für alle reellen Zah-len im Intervall [2; 3).

Zu beachten ist, dass wir einen Raum auchunregelmäßig quantisieren können: So wä-re der Zeitstrahl einer Woche beispielswei-se in Arbeitstage und Wochenende quanti-sierbar.

Ein Spezialfall der Quantisierung ist dieDigitalisierung: Im Fall der Digitalisie-rung sprechen wir immer von einer gleich-mäßigen Quantisierung eines kontinuierli-chen Raums in ein Zahlensystem zu einerbestimmten Basis. Geben wir beispiels-weise Zahlen in den Computer ein, werdendiese in das Binärsystem (Basis 2) digita-lisiert.

Definition 9.1 (Quantisierung). Unter-teilung eines kontinuierlichen Raums indiskrete Abschnitte.

Definition 9.2 (Digitalisierung). Gleich-mäßige Quantisierung.

9.2 LVQ unterteilt denEingaberaum in separateBereiche

Nun können wir schon fast anhand des Na-mens beschreiben, was LVQ uns ermögli-chen soll: Es soll einen Eingaberaum durcheine Menge von repräsentativen Vektorenin Klassen unterteilen, die ihn möglichstgut wiedergeben (Abb. 9.1 auf der rechten

Reduktion d.Eingabe-raums aufVektoren-Repräsen-tanten

Seite). Jedes Element des Eingaberaumssoll also einem Vektor als Repräsentanten,also einer Klasse zugeordnet werden kön-nen, wobei die Menge dieser Repräsentan-ten den ganzen Eingaberaum möglichst ge-nau repräsentieren soll. Einen solchen Vek-tor nennt man Codebookvektor. Ein Co-debookvektor ist dann der Repräsentantgenau derjenigen Vektoren des Eingabe-raums, die am nächsten bei ihm liegen,was den Eingaberaum in besagte diskreteBereiche unterteilt.

Hervorzuheben ist, dass wir im Voraus wis-sen müssen, wieviele Klassen wir habenund welches Trainingsbeispiel zu welcherKlasse gehört. Weiter ist wichtig, dass dieKlassen nicht disjunkt sein müssen, sie dür-fen sich also überlappen.

Solche Unterteilungen der Daten in Klas-sen sind interessant bei vielen Problemstel-lungen, bei denen es nützlich ist, anstattder unter Umständen riesigen Ursprungs-menge von Daten nur ein paar typischeVertreter zu betrachten – sei es, weil esweniger Aufwand ist, oder weil es an Ge-nauigkeit einfach genügt.


dkriesel.com 9.4 Ausrichtung der Codebookvektoren

Abbildung 9.1: Beispielquantisierungen eines zweidimensionalen Eingaberaums. Die Linien stellendie Klassengrenzen dar, die × markieren die Codebookvektoren.

9.3 Benutzung vonCodebookvektoren: Dernächste gewinnt

Die Benutzung eines einmal angefertig-ten Satzes Codebookvektoren ist sehr ein-fach: Für einen Eingabevektor y entschei-det man die Klassenzugehörigkeit ganz ein-

NächsterVektor

gewinntfach daran, welcher Codebookvektor amnächsten zu ihm liegt – die Codebookvek-toren bilden also ein Voronoidiagrammin unserer Eingabemenge. Da jeder Code-bookvektor eindeutig einer Klasse zuzuord-nen ist, ist hierdurch jeder Eingabevektoreiner Klasse zugeordnet.

9.4 Ausrichtung derCodebookvektoren

Wie wir schon angedeutet haben, han-delt es sich bei LVQ um ein überwach-tes Lernverfahren. Wir besitzen also einenTeaching Input, der dem Lernverfahrensagt, ob ein Eingangsmuster richtig oderfalsch klassifiziert wurde: Anders ausge-drückt müssen wir bereits im Vorhineindie Anzahl der zu repräsentierenden Klas-sen bzw. die Anzahl der Codebookvekto-ren kennen.

Das Ziel des Lernvorganges ist also grobgesprochen, dass wir eine im Vorhineinbestimmte Anzahl zufällig initialisierterCodebookvektoren durch Trainingsbeispie-


Kapitel 9 Learning Vector Quantization dkriesel.com

le dazu bringen, die Trainingsdaten mög-lichst gut wiederzuspiegeln.

9.4.1 Vorgehensweise beim Lernen

Das Lernen funktioniert nach einem ein-fachen Schema. Man besitzt (da das Ler-nen überwacht ist) eine Menge P von |P |vielen Trainingsbeispielen. Wie wir außer-dem schon wissen, sind auch die Klas-sen vordefiniert, man besitzt also weiter-hin eine Klassenmenge C. Jeder Klasseist ein Codebookvektor eindeutig zuge-ordnet, wir können also sagen, dass dieKlassenmenge |C| viele CodebookvektorenC1, C2, . . . , C|C| enthält.

Dies führt uns zum Aufbau der Trainings-beispiele: Sie sind von der Form (p, c),enthalten also zum einen den Trainings-Eingabevektor p und zum anderen dessenKlassenzugehörigkeit c. Für die Klassenzu-gehörigkeit gilt hierbei

c ∈ 1, 2, . . . , |C|,

sie ordnet also das Trainingsbeispiel ein-deutig einer Klasse bzw. einem Codebook-vektor zu.

Intuitiv könnte man zum Lernen nun sa-gen: „Wozu ein Lernverfahren? Wir rech-nen den Durchschnitt aller Klassenmitglie-der aus, platzieren dort deren Codebook-vektor und gut.“ Dass unser Lernverfahrenaber wesentlich mehr macht, werden wirgleich sehen.

Wir wollen nun kurz die Schritte desgrundsätzlichen LVQ-Lernverfahrens be-trachten:

Initialisierung: Wir platzieren unserenSatz Codebookvektoren auf zufälligeOrte im Eingaberaum.

Trainingsbeispiel: Ein Trainingsbeispiel paus unserer Trainingsmenge P wirdgewählt und präsentiert.

Abstandsmessung: Wir messen den Ab-stand ||p − C|| aller Codebookvekto-ren C1, C2, . . . , C|C| zu unserer Einga-be p.

Gewinner: Der naheliegendste Codebook-vektor gewinnt, also derjenige mit

minCi∈C

||p− Ci||.

Lernvorgang: Der Lernvorgang findetdurch die Regel

∆Ci = η(t) · h(p, Ci) · (p− Ci)(9.1)

Ci(t+ 1) = Ci(t) + ∆Ci (9.2)

statt, die wir nun aufschlüsseln wol-len.

. Der erste Faktor η(t) ist, wie wirschon oft gesehen haben, eine zeitab-hängige Lernrate, die es uns ermög-licht, zwischen großen Lernschrittenund Fine-Tuning zu differenzieren.

. Der letzte Faktor (p − Ci) ist offen-sichtlich die Richtung, in die wir denCodebookvektor verschieben.

. Kernstück aber ist die Funktionh(p, Ci): Sie trifft eine Fallunterschei-dung.


dkriesel.com 9.5 Verbindung zu Neuronalen Netzen

Zuweisung richtig: Der Gewinner-vektor ist der Codebookvektorder Klasse, der p zugehörigWichtig!ist. In diesem Fall liefert dieFunktion positive Werte, derCodebookvektor bewegt sichauf das p zu.

Zuweisung falsch: Der Gewinnervek-tor repräsentiert nicht die Klas-se, der p zugehörig ist. Er bewegtsich daher von p weg.

Wir sehen, dass wir die Funktion h nichtgenau definiert haben. Aus gutem Grund:Ab hier teilt sich LVQ in verschiedeneNuancen auf, abhängig davon wie exakth und die Lernrate bestimmt sein sollen(genannt LVQ1, LVQ2, LVQ3, OLVQ,etc). Die Unterschiede liegen beispiels-weise in der Stärke der Codebookvektor-Bewegungen. Sie haben aber alle das glei-che hier dargestellte Grundprinzip gemein-sam, und wie angekündigt möchte ich sienicht weiter betrachten – insofern schrei-be ich auch keine formalen Definitionen zuobiger Lernregel und LVQ an sich auf.

9.5 Verbindung zuNeuronalen Netzen

Bis jetzt kann man sich trotz des Lernvor-ganges fragen, was denn LVQ mit Neuro-nalen Netzen zu tun hat. Man kann dieCodebookvektoren als Neuronen mit fes-tem Ort im Inputraum ansehen, ähnlichwie bei RBF-Netzen. Zudem ist es in der

Vektoren= Neurone? Natur oft so, dass ein Neuron pro Grup-

pe feuern darf (ein Gewinnerneuron, hier

ein Codebookvektor), während alle ande-ren von ihm inhibiert werden.

Ich setze das kurze Kapitel über LearningVector Quantization an diese Stelle imScript, weil wir im folgenden Kapitel überSelf Organizing Maps den Ansatz weiter-verfolgen wollen: Wir werden weitere Ein-gaben mithilfe von im Eingangsraum ver-teilten Neuronen klassifizieren, nur, dasswir diesmal nicht wissen, welche Eingabezu welcher Klasse gehört.

Kommen wir nun zu den unüberwacht ler-nenden Netzen!

Übungsaufgaben

Aufgabe 17. Geben Sie eine Quantisie-rung an, die im 5-dimensionalen Einheits-würfelH alle Vektoren H ∈ H gleichmäßigin eine von 1024 Klassen einteilt.


Teil III

Unüberwacht lernendeNetzparadigmen

151

Kapitel 10

Self Organizing Feature MapsEin Paradigma unüberwacht lernender Neuronaler Netze, welches einen

Eingaberaum durch seine feste Topologie kartographiert und so selbstständignach Ähnlichkeiten sucht. Funktion, Lernverfahren, Variationen und

Neuronales Gas.

Betrachtet man die Konzepte biologischerNeuronaler Netze in der Einleitung, sokann man sich die Frage stellen, wie dennunser Gehirn die Eindrücke, die es täg-lich erhält, speichert und abruft – hiersei hervorgehoben, dass das Gehirn keine

Wie speichertGehirn Daten? Trainingsbeispiele, also keine „gewünsch-

te Ausgabe“ hat, und wo wir schon dar-über nachdenken, merken wir, dass auchkeine Ausgabe in diesem Sinne vorhandenist: Unser Gehirn ist nicht wie eine Abbil-dung oder ein Perceptron, das Eingabewer-te auf Ausgabewerte abbildet. Unser Ge-hirn reagiert auf Eingaben von außen mitZustandsänderungen – diese sind sozusa-gen seine Ausgabe.

Basierend auf diesem Grundsatz und derFrage nachgehend, wie biologische Neuro-nale Netze sich selbst organisieren können,schuf Teuvo Kohonen in den 1980er Jah-ren seine Self Organizing Feature Maps[Koh82, Koh98], kurz Self OrganizingMaps oder SOMs genannt – ein Paradig-

ma Neuronaler Netze, in dem der Zustanddes Netzes die Ausgabe ist, und das voll-kommen unüberwacht, also ohne Teacherlernt.

Im Unterschied zu anderen Netzparadig-men, welche wir bereits kennengelernt ha-ben, stellt man bei SOMs keine Fragen da-nach, was die Neurone berechnen – manfragt nur, welches Neuron gerade aktiv ist.Dies ist biologisch sehr gut motiviert: Sind

Keine Ausgabe,aber aktivesNeuron

in der Biologie Neurone mit bestimmtenMuskeln verbunden, interessiert es in al-ler Regel weniger, wie stark ein bestimm-ter Muskel kontrahiert wird, sondern wel-cher Muskel angesteuert wird. Anders aus-gedrückt: Es interessiert nicht, was genauNeurone ausgeben, sondern welches Neu-ron etwas ausgibt. SOMs sind also we-sentlich biologieverwandter als z.B. dieFeedForward-Netze, die wir vermehrt fürRechenaufgaben nutzen.

153

Kapitel 10 Self Organizing Feature Maps dkriesel.com

10.1 Aufbau einer SelfOrganizing Map

SOMs haben – wie das Gehirn – typi-scherweise die Aufgabe, einen hochdimen-sionalen Input (N Dimensionen) auf Berei-che in einem niedrigdimensionalen Gitter(G Dimensionen) abzubilden, also sozusa-

Hochdim.Eingabe

↓Niedrigdim.

Karte

gen eine Karte von dem hochdimensiona-len Raum zu zeichnen. Um diese Karte zuerschaffen, erhält die SOM einfach belie-big viele Punkte aus dem Inputraum. DieSOM wird während der Eingabe der Punk-te versuchen, die Orte, auf denen die Punk-te auftreten, so gut wie möglich mit ih-ren Neuronen abzudecken. Dies bedeutetinsbesondere, dass jedes Neuron einem be-stimmten Ort im Inputraum zuzuordnenist.

Diese Fakten sind zunächst etwas verwir-rend, man muss sie kurz durchdenken. Esgibt also zwei Räume, in denen SOMs ar-beiten:

. Den N -dimensionalen Eingaberaumund

. das G-dimensionale Gitter, auf demdie Neurone liegen bzw. das die Nach-

Eingaberaumund Topologie barschaftsbeziehungen der Neurone

und damit die Netztopologie angibt.

Bei einem eindimensionalen Gitter könn-ten die Neurone beispielweise wie an einerPerlenkette aufgereiht sein, jedes Neuronwürde genau zwei Nachbarn besitzen (bisauf die beiden End-Neurone). Ein zwei-dimensionales Gitter könnte eine recht-winklige Anordnung von Neuronen sein

/.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+

/.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+

/.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+

/.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+

/.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+

Abbildung 10.1: Beispieltopologien einer SelfOrganizing Map – Oben eine eindimensionale To-pologie, unten eine zweidimensionale.

(Abb. 10.1). Eine weitere denkbare An-ordnung im zweidimensionalen wäre in ei-ner Art Wabenform. Auch ungleichmäßi-ge Topologien sind möglich, wenn auchnicht sehr häufig. Topologien mit mehrDimensionen und wesentlich mehr Nach-barschaftsbeziehungen wären auch denk-bar, werden aber aufgrund der mangeln-den Visualisierungsfähigkeit nicht oft ein-gesetzt. Wichtig!

Auch dann, wenn N = G gilt, sind die bei-den Räume nicht gleich und müssen un-terschieden werden – sie haben in diesemSpezialfall nur die gleiche Dimension.

Wir werden die Funktionsweise einer SelfOrganizing Map nun zunächst kurz formal


dkriesel.com 10.2 Funktionsweise und Ausgabeinterpretation

betrachten und dann an einigen Beispielenklarmachen.

Definition 10.1 (SOM-Neuron). Ähn-lich den Neuronen in einem RBF-Netz be-sitzt ein SOM-Neuron k eine feste Posi-tion ck (ein Zentrum) im Eingaberaum.

cIDefinition 10.2 (Self Organizing Map).Eine Self Organizing Map ist eine MengeK von SOM-Neuronen. Bei Eingabe eines

KI Eingabevektors wird genau dasjenige Neu-ron k ∈ K aktiv, welches dem Eingabe-muster im Eingaberaum am nächsten liegt.Die Dimension des Eingaberaumes nennenwir N .

NIDefinition 10.3 (Topologie). Die Neu-rone sind untereinander durch Nach-barschaftsbeziehungen verbunden. DieseNachbarschaftsbeziehungen nennen wirTopologie. Die Topologie nimmt starkenEinfluss auf das Training einer SOM. Siewird durch die Topologiefunktion h(i, k, t)definiert, wobei i das Gewinnerneuron1 ist,

iIk das gerade zu adaptierende Neuron (hier-

kI zu kommen wir später noch) und t der Zeit-schritt. Wir bezeichnen die Dimension derTopologie mit G.

GI

10.2 SOMs aktivieren immerdas Neuron, was derEingabe am nächstenliegt

Wie viele andere Neuronale Netze, mussdie SOM erst trainiert werden, bevor man1 Wir werden noch erfahren, was ein Gewinnerneu-ron ist.

sie benutzt. Betrachten wir aber vor demTraining noch die sehr einfache Funktions-weise einer fertigen Self Organizing Map,da sie einige Analogien zum Training be-sitzt. Die Funktionsweise setzt sich aus fol-genden Schritten zusammen:

Eingabe eines beliebigen Wertes p ausdem Eingangsraum RN .

Abstandsberechnung von jedem Neuronk zu p durch eine Norm – also Berech-nung von ||p− ck||.

Ein Neuron wird aktiv, nämlich genaudas Neuron i mit dem kürzesten obenberechneten Abstand zur Eingabe –alle anderen Neurone sind nicht aktiv.Dieses Paradigma der Aktivität heißt

Eingabe↓

Gewinnerauch Winner-Takes-All-Schema. DieAusgabe, welche wir zu einer Eingabevon einer SOM erwarten, ist, welchesNeuron aktiv wird.

Viele Literaturstellen beschreiben dieSOM wesentlich formaler: Es wird oft ei-ne Eingabeschicht beschrieben, die in Rich-tung einer SOM-Schicht vollverknüpft ist.Die Eingabeschicht (N Neurone) leitetdann alle Eingaben an die SOM-Schichtweiter. Die SOM-Schicht ist in sich lateralvollverknüpft, so dass sich ein Gewinner-neuron herausbilden und die anderen Neu-rone inhibieren kann. Ich finde diese Art,eine SOM zu beschreiben, nicht sehr an-schaulich und habe versucht, den Netzauf-bau hier anschaulicher zu beschreiben.

Nun ist die Frage, welches Neuron bei wel-cher Eingabe aktiv wird – und genau diesist die Frage, die uns das Netz währenddes Trainings von alleine beantwortet.



10.3 Training bringt dieSOM-Topologie dazu,den Eingaberaumabzudecken

Das Training einer SOM ist ähnlich über-schaubar wie die eben beschriebene Funk-tionsweise. Es gliedert sich im Wesent-lichen in fünf Schritte, die teilweise de-ckungsgleich mit denen der Funktionswei-se sind.

Initialisierung: Start des Netzes mit zufäl-ligen Neuronenzentren ck ∈ RN ausdem Eingangsraum.

Anlegen eines Eingangsmusters: Eswird ein Stimulus, also ein Punkt paus dem Eingangsraum RN gewählt.

Training:Eingabe,

→ Gewinner i,Ortsänderung

i und Nachbarn

Dieser Stimulus wird nun in das Netzeingegeben.

Abstandsmessung: Für jedes Neuron kim Netz wird nun der Abstand ||p −ck|| bestimmt.

Winner takes all: Es wird das Gewin-nerneuron i ermittelt, welches denkleinsten Abstand zu p besitzt, das al-so der Bedingung

||p− ci|| ≤ ||p− ck|| ∀ k 6= i

genügt. Wie aus der Bedingung er-sichtlich, kann man bei mehreren Ge-winnerneuronen eines nach Beliebenwählen.

Adaption der Zentren: Die Zentren derNeurone werden innerhalb des Ein-gangsraumes nach der Vorschrift2

∆ck = η(t) · h(i, k, t) · (p− ck),

versetzt, wobei die Werte ∆ck ein-fach auf die bisherigen Zentren ad-diert werden. Aus dem letzten Faktorwird bereits offensichtlich, dass dieOrtsänderung der Neurone k propor-tional zu der Entfernung zum eingege-benen Muster p und wie gewohnt zueiner zeitabhängigen Lernrate η(t) ist.Die oben besprochene Topologie desNetzes nimmt ihren Einfluss durch dieFunktion h(i, k, t), die wir im Folgen-den erforschen werden.

Definition 10.4 (SOM-Lernregel). EineSOM wird trainiert, indem ihr ein Einga-bemuster präsentiert und das Gewinner-neuron dazu ermittelt wird. Das Gewinner-neuron und seine durch die Topologiefunk-tion definierten Nachbarneuronen adaptie-ren dann ihre Zentren nach der Vorschrift

∆ck = η(t) · h(i, k, t) · (p− ck),(10.1)

ck(t+ 1) = ck(t) + ∆ck(t). (10.2)

2 Achtung: Viele Quellen schreiben diese Vorschriftηh(p−ck), was dem Leser fälschlicherweise sugge-riert, dass es sich bei h um eine Konstante handelt.Dieses Problem ist einfach lösbar, indem man dieMultiplikationspunkte · nicht weglässt.


dkriesel.com 10.3 Training

10.3.1 Die Topologiefunktionbestimmt, wie stark einlernendes Neuron seineNachbarn beeinflusst

Die Topologiefunktion h ist nicht aufdem Eingangsraum, sondern auf dem Git-ter definiert und stellt die Nachbarschafts-beziehungen zwischen den Neuronen dar– also die Topologie des Netzes. Sie kannzeitabhängig sein (und ist es auch oft) –dies erklärt den Parameter t. Der Parame-

Auf Gitterdefiniert ter k ist der durch alle Neurone laufende

Index, und der Parameter i ist der Indexdes Gewinnerneurons.

Prinzipiell ist der Sinn der Funktion, einengroßen Wert anzunehmen, falls k Nach-bar des Gewinners oder gar der Gewin-ner selbst ist, und kleine Werte, falls nicht.Schärfer definiert: Die Topologiefunktionmuss unimodal sein, also genau ein Ma-ximum besitzen – dieses Maximum mussbeim Gewinnerneuron i liegen, das zu sichselbst natürlich die Entfernung 0 hat.

Nur 1 Maximumbei Gewinner

Zusätzlich macht es uns die Zeitabhän-gigkeit beispielsweise möglich, die Nach-barschaft mit der Zeit schrumpfen zu las-sen.

Um große Werte für Nachbarn von i undkleine Werte für Nicht-Nachbarn ausge-ben zu können, braucht die Funktion heine Art Abstandsbegriff auf dem Gitter,irgendwoher muss sie also wissen, wie weiti und k auf dem Gitter voneinander ent-fernt sind. Es gibt verschiedene Methodenzur Berechnung des Abstandes.

Hierfür könnte bei einem zweidimensiona-len Gitter z.B. der euklidische Abstand(unterer Teil der Abb. 10.2 auf Seite159) verwendet werden oder bei einemeindimensionalen Gitter einfach die An-zahl der Verbindungen zwischen den Neu-ronen i und k (oberer Teil derselben Ab-bildung).Definition 10.5 (Topologiefunktion).Die Topologiefunkton h(i, k, t) beschreibtdie Nachbarschaftsbeziehungen in der To-pologie. Sie kann eine beliebige unimoda-le Funktion sein, die maximal wird, wenni = k gilt. Eine Zeitabhängigkeit ist optio-nal, wird aber oft verwendet.

10.3.1.1 Vorstellung gängiger Abstands-und Topologiefunktionen

Eine gängige Abstandsfunktion wäre bei-spielsweise die uns schon bekannteGauß-glocke (siehe auch Abb. 10.3 auf der fol-genden Seite). Sie ist unimodal mit einemMaximum bei 0, zusätzlich kann sie durchihren Parameter σ in ihrer Breite verän- Jσdert werden, was wir für die Realisierungder mit der Zeit schrumpfenden Nachbar-schaft nutzen können: Wir beziehen dieZeitabhängigkeit einfach auf das σ, erhal-ten also ein monoton sinkendes σ(t). Un-sere Topologiefunktion könnte dann wiefolgt aussehen:

h(i, k, t) = e(− ||gi−gk||

2

2·σ(t)2

), (10.3)

wobei hier gi und gk die Positionen derNeurone auf dem Gitter sind, nicht im Ein-gaberaum, welche wir mit ci und ck be-zeichnen würden.



0

0.2

0.4

0.6

0.8

1

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2

h(r)

r

Gauss−Glocke in 1D

0

0.2

0.4

0.6

0.8

1

−4 −2 0 2 4

f(x)

x

Kegelfunktion

0

0.2

0.4

0.6

0.8

1

−4 −2 0 2 4

f(x)

x

Zylinderfunktion

−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

3

3.5

−3 −2 −1 0 1 2 3

f(x)

x

Mexican Hat Function

Abbildung 10.3: Gaußglocke, Kegelfunktion, Zylinderfunktion und die von Kohonen vorgeschlage-ne Mexican-Hat-Funktion als Beispiele für Topologiefunktionen einer SOM.


dkriesel.com 10.3 Training

/.-,()*+ ?>=<89:;i oo 1 // ?>=<89:;k /.-,()*+ /.-,()*+

/.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+

/.-,()*+ /.-,()*+ /.-,()*+ ?>=<89:;kOO

/.-,()*+

/.-,()*+ ?>=<89:;i xx2.23qqqqqqq

88qqqqqq

oo ///.-,()*+oo ///.-,()*+ /.-,()*+

/.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+ /.-,()*+

Abbildung 10.2: Beispiel-Abstände einer eindi-mensionalen SOM-Topologie (oben) und einerzweidimensionalen SOM-Topologie (unten) zwi-schen zwei Neuronen i und k. Im unteren Fallbilden wir den Euklidischen Abstand (im zwei-dimensionalen äquivalent zum Satz des Pytha-goras). Im oberen Fall wird einfach die diskreteWeglänge zwischen i und k abgezählt. In beidenFällen habe ich der Einfachheit halber eine festeGitterkantenlänge von 1 gefordert.

Weitere Funktionen, die anstatt der Gauß-funktion eingesetzt werden können, sindzum Beispiel die Kegelfunktion, die Zy-linderfunktion oder die Mexican-Hat-Funktion (Abb. 10.3 auf der linken Sei-te). Die Mexican-Hat-Funktion bietet hier-bei eine besondere biologische Motivation:Sie stößt durch ihre negativen Stellen man-che Neurone in der Umgebung des Gewin-nerneurons ab, was man auch in der Na-tur schon beobachtet hat. Dies kann fürschärfere Abgrenzung der Kartenbereichesorgen – genau aus diesem Grund wurdesie auch von Teuvo Kohonen selbst vor-geschlagen. Diese Regulierungseigenschaftist aber für die Funktion der Karte an sichnicht notwendig, es kann sogar passieren,dass dadurch die Karte divergiert, also ge-wissermaßen explodiert.

10.3.2 Lernraten undNachbarschaften könnenüber die Zeit monotonsinken

Damit in den späteren Phasen des Trai-nings nicht mehr die ganze Karte sehrstark in Richtung eines neuen Mustersgezogen wird, wird bei den SOMs oftmit zeitlich monoton sinkenden Lernra-ten und Nachbarschaftsgrößen gearbeitet.Sprechen wir zunächst über die Lernrate:Typische Größenordnungen für den Ziel-wert der Lernrate sind zwei Größenordnun-gen kleiner als der Startwert, beispielswei-se könnte gelten

0.01 < η < 0.6.



Diese Größe ist aber auch wieder abhängigzu machen von der Netztopologie bzw. derGröße der Nachbarschaft.

Eine sinkende Nachbarschaftsgröße kann,wie wir gesehen haben, beispielsweise miteinem zeitabhängig monoton sinkenden σbei Benutzung der Gaußglocke in der To-pologiefunktion realisiert werden.

Der Vorteil bei einer sinkenden Nachbar-schaftsgröße ist, dass ein sich bewegendesNeuron zu Anfang viele Neurone in sei-ner Umgebung „mitzieht“, sich das zufälliginitialisierte Netz also am Anfang schnellund sauber entfalten kann. Zum Ende desLernvorganges hin werden nur noch weni-ge Neurone auf einmal beeinflusst, was dasNetz im Gesamten steifer macht, aber eingutes „fine tuning“ der einzelnen Neuroneermöglicht.

Zu beachten ist weiterhin, dass stets

h · η ≤ 1

gelten muss, sonst würden Neurone andau-ernd am aktuellen Trainingsbeispiel vor-beischießen.

Doch nun genug der Theorie – betrachtenwir eine SOM im Einsatz!

10.4 Beispiele für dieFunktionsweise vonSOMs

Beginnen wir mit einem einfachen, imKopf nachvollziehbaren Beispiel.

In diesem Beispiel verwenden wir einenzweidimensionalen Eingangsraum, es giltalso N = 2. Die Gitterstruktur sei eindi-mensional (G = 1). Weiterhin soll unsereBeispiel-SOM aus insgesamt 7 Neuronenbestehen und die Lernrate sei η = 0.5.

Auch unsere Nachbarschaftsfunktion hal-ten wir recht einfach, um das Netz im Kopfnachvollziehen zu können:

h(i, k, t) =

1 k direkter Nachbar von i,1 k = i,

0 sonst.(10.4)

Wir betrachten jetzt das soeben beschrie-bene Netz mit zufälliger Initialisierung derZentren (Abb. 10.4 auf der rechten Sei-te) und geben ein Trainingsmuster p ein.Offensichtlich liegt das Eingangsmuster inunserem Beispiel dem Neuron 3 am nächs-ten – dieses ist also der Gewinner.

Wir erinnern uns an die Lernvorschrift fürSOMs

∆ck = η(t) · h(i, k, t) · (p− ck)

und arbeiten die drei Faktoren von hintennach vorne ab:

Lernrichtung: Wir erinnern uns, dass dieNeuronenzentren ck Vektoren im Ein-gangsraum sind, genau wie das Mus-ter p. Der Faktor (p − ck) gibt unsalso den Vektor vom Neuron k zumMuster p an. Dieser wird nun mit ver-schiedenen Skalaren multipliziert:


dkriesel.com 10.4 Beispiele

?>=<89:;1 ?>=<89:;2

?>=<89:;7

?>=<89:;4

>>>>>>>>?>=<89:;6

?>=<89:;3 // // p ?>=<89:;5

?>=<89:;1

?>=<89:;2

?>=<89:;3

?>=<89:;4

?>=<89:;5

?>=<89:;6

?>=<89:;7

Abbildung 10.4: Darstellung des zweidimensionalen Eingaberaumes (links) und des eindimensiona-len Topologieraumes (rechts) einer Self Organizing Map. Neuron 3 ist das Gewinnerneuron, da es pam nächsten liegt. Die Nachbarn von 3 in der Topologie sind die Neurone 2 und 4. Die Pfeile mar-kieren die Bewegung des Gewinnerneurons und seiner Nachbarn in Richtung des Trainingsbeispielsp.

Die eindimensionale Topologie des Netzes ist hier zur Veranschaulichung durch die gepunktetenLinien in den Eingangsraum aufgetragen. Die Pfeile markieren die Bewegung des Gewinners undseiner Nachbarn auf das Muster zu.



Unsere Topologiefunktion h besagt, dassnur das Gewinnerneuron und seinebeiden nächsten Nachbarn (hier: 2und 4) lernen dürfen, indem sie beiallen anderen Neuronen 0 ausgibt. Ei-ne Zeitabhängigkeit ist nicht gegeben.Unser Vektor (p−ck) wird also entwe-der mit 1 oder mit 0 multipliziert.

Die Lernrate gibt, wie immer, die Stärkedes Lernens an. Es gilt wie schon ge-sagt η = 0.5 – wir kommen also insge-samt auf das Ergebnis, dass sich dasGewinnerneuron und seine Nachbarn(hier: Die Neurone 2, 3 und 4) demMuster p um die Hälfte des Weges nä-hern (dies markieren die Pfeile in derAbbildung).

Obwohl das Zentrum von Neuron 7 vomEingangsraum aus gesehen wesentlich nä-her am Eingangsmuster p liegt als das Neu-ron 2, lernt das Neuron 2, und das Neu-ron 7 nicht. Ich möchte daran noch einmaldeutlich machen, dass die Netztopologiebestimmt, welches Neuron mitlernen darf,

Topologiebestimmt,wer lernt

und nicht die Lage im Eingangsraum. Diesist genau der Mechanismus, durch den ei-ne Topologie einen Eingangsraum aussage-kräftig abdecken kann, ohne mit ihm aufirgendeine Weise verwandt sein zu müs-sen.

Nach der Adaption der Neurone 2, 3 und4 wird das nächste Muster angelegt, undso weiter, und so fort. Ein weiteres Bei-spiel, wie sich eine solche eindimensiona-le SOM im zweidimensionalen Inputraumbei gleichverteilten Inputmustern über dieZeit entwickeln kann, sehen wir an der Ab-bildung 10.5 auf der rechten Seite.

Endzustände von ein- und zweidimensiona-len SOMs bei verschieden geformten Input-räumen sehen wir in der Abbildung 10.6auf Seite 164. Wie wir sehen, sind nichtalle Inputräume durch jede Netztopologieschön abdeckbar, es gibt sogenannte frei-liegende Neurone – Neurone, welche in ei-nem Bereich liegen, in dem kein Inputmus-ter je aufgetreten ist. Eine eindimensionaleTopologie produziert in der Regel wenigerfreiliegende Neurone als eine zweidimensio-nale: Beispielsweise beim Training auf ring-förmig angeordnete Eingabemuster ist esbei einer zweidimensionalen quadratischenTopologie so gut wie unmöglich, die frei-liegenden Neurone in der Mitte des Ringszu verhindern – diese werden ja währenddes Trainings in jede Richtung gezogen, sodass sie schlussendlich einfach in der Mit-te bleiben. Das macht die eindimensionaleTopologie aber keineswegs zur Optimalto-pologie, da sie nur weniger komplexe Nach-barschaftsbeziehungen finden kann als ei-ne mehrdimensionale.

10.4.1 Topologische Defekte sindFehlentfaltungen der SOM

Es kann während des Entfaltens einerSOM vorkommen, dass diese einen Topo-logischen Defekt (Abb. 10.7 auf Seite165) bildet, sich also nicht richtig entfaltet.

„Knoten“in KarteEin Topologischer Defekt kann am besten

mit dem Wort „Verknotung“ beschriebenwerden.

Ein Mittel gegen Topologische Defektekann sein, die Startwerte für die Nachbar-schaftsgröße zu erhöhen, denn je komple-


dkriesel.com 10.4 Beispiele

Abbildung 10.5: Verhalten einer SOM mit eindimensionaler Topologie (G = 1) nach Eingabe von0, 100, 300, 500, 5000, 50000, 70000 und 80000 zufällig verteilten Eingabemustern p ∈ R2. η fielwährend des Trainings von 1.0 auf 0.1, der σ-Parameter der als Nachbarschaftsmaß eingesetztenGauß-Funktion von 10.0 auf 0.2.



Abbildung 10.6: Endzustände von eindimensionalen (linke Spalte) und zweidimensionalen (rech-te Spalte) SOMs auf verschieden abgedeckten Inputräumens. Genutzt wurden bei eindimensiona-ler Topologie 200 Neurone, bei zweidimensionaler 10 × 10 Neurone und bei allen Karten 80.000Eingabemuster.164 D. Kriesel – Ein kleiner Überblick über Neuronale Netze (ZETA2-DE)

dkriesel.com 10.5 Auflösungsdosierung und ortsabhängige Lernrate

Abbildung 10.7: Ein Topologischer Defekt in ei-ner zweidimensionalen SOM.

xer die Topologie ist (bzw. je mehr Nach-barn jedes Neuron besitzt, man könnte jaauch dreidimensionale oder wabenförmigezweidimensionale Topologien erzeugen) de-sto schwerer ist es für eine zufällig initiali-sierte Karte, sich zu entfalten.

10.5 Man kann die Auflösungeiner SOM ortsabhängigdosieren

Wir haben gesehen, dass eine SOM trai-niert wird, indem hintereinander immerwieder Eingabemuster aus dem Eingangs-

raum RN eingegeben werden, so dass sichdie SOM an diesen Mustern ausrichtenund diese kartographieren wird. Es kannnun vorkommen, dass wir eine bestimmteUntermenge U des Eingaberaums genau-er kartographiert haben möchten als denRest.

Die Lösung dieses Problems kann mitSOMs denkbar einfach realisiert werden:Wir präsentieren der SOM während desTrainings ganz einfach überproportionalviele Eingabemuster aus diesem BereichU . Werden der SOM mehr Trainingsmus-ter aus U ⊂ RN präsentiert als aus demRest RN \ U , so werden sich dort auchmehr Neurone zusammenfinden, währendsich die restlichen Neurone auf RN \U dün-ner verteilen (Abb. 10.8 auf der folgendenSeite).

Mehr Muster↓

höhereAuflösungWie in der Abbildung ersichtlich, kann so

der Rand der SOM etwas deformiert wer-den – dies ist ausgleichbar, indem mandem Rand des Inputraumes ebenfalls eineetwas höhere Wahrscheinlichkeit zuweist,von Trainingsmustern getroffen zu werden(eine Taktik, die man sowieso oft anwen-det, um mit den SOMs besser „in dieEcken zu kommen“).

Auch wird oft bei den Rand- bzw. Eckneu-ronen eine höhere Lernrate angewandt, dasie durch die Topologie nur nach innen ge-zogen werden - auch dies sorgt für eine si-gnifikant bessere Eckabdeckung.



Abbildung 10.8: Training einer SOM mit G = 2 auf einen zweidimensionalen Inputraum. Linkswar die Wahrscheinlichkeit für jede Koordinate des Inputraumes, zum Trainingsmuster zu werden,gleich. Rechts war sie für den zentralen Kreis im Inputraum mehr als zehnmal so groß wie fürden Rest des Inputraumes (sichtbar an der größeren Musterdichte im Hintergrund). Offensichtlichdrängen sich die Neurone in diesem Kreis viel stärker und der restliche Bereich ist etwas undichterabgedeckt, aber immer noch jeweils einigermaßen gleichmäßig. Beide SOMs wurden mit 80.000Trainingsbeispielen und abfallendem η (1→ 0.2) sowie abfallendem σ (5→ 0.5) trainiert.


dkriesel.com 10.6 Anwendung

10.6 Anwendung von SOMs

Self Organizing Maps und ihre Variationenhaben eine Vielzahl von Anwendungsgebie-ten in Bezug auf die biologisch inspirierteassoziative Speicherung von Daten.

Beispielsweise ist es gelungen, auf einerSOM mit einer zweidimensionalen diskre-ten Gittertopologie die verschiedenen Pho-neme der Finnischen Sprache abzubildenund so Nachbarschaften zu finden (eineSOM macht ja nichts anderes, als Nachbar-schaftsbeziehungen zu finden). Man ver-sucht also wieder, einen hochdimensio-nalen Raum auf einen niederdimensiona-len Raum (die Topologie) herabzubrechen,schaut, ob sich irgendwelche Strukturenherausbilden – und siehe da: Es bilden sichklar definierte Bereiche für die einzelnenPhoneme heraus.

Teuvo Kohonen selbst hat sich die Mü-he gemacht, eine Vielzahl von Papern, wel-che seine SOMs erwähnen, nach Schlüssel-wörtern zu durchsuchen. In diesem großenEingangsraum besetzen jetzt die einzelnenPaper einzelne Positionen, je nach Schlüs-selwortvorkommen. Kohonen hat dann ei-ne SOM mit G = 2 kreiert und damitden von ihm erstellten hochdimensionalen„Paper-Raum“ durch sie kartographierenlassen.

Man kann also ein Paper, an dem man Ge-fallen findet, in die fertig trainierte SOMeingeben und schauen, welches Neuronin der SOM davon aktiviert wird. Wahr-scheinlich wird man feststellen, dass manan den in der Topologie benachbarten Pa-pern auch Gefallen findet. Diese Art von

Gehirn-ähnlicher kontextbasierter Su-che funktioniert noch bei vielen anderenInputräumen.

SOM findetÄhnlichkeiten

Festzuhalten ist, dass das System selbstfestlegt, was innerhalb der Topologie be-nachbart, also ähnlich ist – genau dasmacht es so interessant.

An diesem Beispiel ist direkt ersichtlich,dass die Lage c der Neurone im Inputraumnicht aussagekräftig ist. Interessant ist esvielmehr, nun zu schauen, welches Neuronbei Eingabe eines bis jetzt unbekanntenInputmusters aktiv wird. Man kann alsnächstes schauen, bei welchen bisherigenEingaben genau dieses Neuron ebenfallsaktiv war – und hat sofort eine Gruppevon einander sehr ähnlichen Eingaben ent-deckt. Je weiter nun Eingaben innerhalbder Topologie auseinander liegen, um soweniger Gemeinsamkeiten haben sie. DieTopologie bildet also quasi eine Karte derMerkmale der Eingaben – reduziert aufanschaulich wenige Dimensionen im Ver-gleich zur Inputdimension.

Oftmals ist die Topologie einer SOM daherzweidimensional, da sie sich so sehr gutvisualisieren lässt, während der Eingabe-raum sehr hochdimensional sein kann.

10.6.1 Mit SOMSs kann manZentren für RBF-Neuronefinden

SOMs richten sich genau auf die Orte derausgehenden Eingaben aus – demzufolge



werden sie z.B. gerne genutzt, um die Zen-tren eines RBF-Netzes zu wählen. Das Pa-radigma der RBF-Netze haben wir bereitsin Kapitel 6 kennengelernt.

Wie wir bereits gesehen haben, kann mansogar steuern, welche Bereiche des Input-raums mit höherer Auflösung abgedecktwerden sollen – oder im Zusammenhangmit RBF-Netzen gesprochen, welche Berei-che unserer Funktion das RBF-Netz mitmehr Neuronen, also genauer bearbeitensoll. Als zusätzliches nützliches Merkmalder Kombination aus RBF-Netz und SOMkann man die durch die SOM erhaltene To-pologie nutzen, um beim schlussendlichenTraining eines Neurons des RBF-Netzes„benachbarte“ RBF-Neurone auf verschie-dene Weisen mit zu beeinflussen.

Viele Simulatoren Neuronaler Netze bietenhierfür eine zusätzliche sogenannte SOM-Schicht im Zusammenhang mit der Simu-lation von RBF-Netzen an.

10.7 Variationen von SOMs

Für verschiedene Variationen der Reprä-sentationsaufgaben gibt es auch verschie-dene Variationen der SOMs:

10.7.1 Ein Neuronales Gas ist eineSOM ohne feste Topologie

Das Neuronale Gas ist eine Variationder Self Organizing Maps von ThomasMartinetz [MBS93], die aus der Schwie-rigkeit heraus entstanden ist, komplizierteInputformationen abzubilden, welche sich

teilweise nur in Unterräumen des Inpu-traums abspielen oder die Unterräume so-gar wechseln (Abb. 10.9 auf der rechtenSeite).

Die Idee von einem Neuronalen Gas be-steht grob gesprochen darin, ein SOM oh-ne Gitterstruktur zu realisieren. Die Lern-schritte sehen aufgrund der Abstammungvon den SOMs den SOM-Lernschrittenauch sehr ähnlich, haben aber einen zusätz-lichen Zwischenschritt:

. Wieder zufällige Initialisierung derck ∈ Rn

. Wahl und Präsentation eines Mustersaus dem Eingangsraum p ∈ Rn

. Neuronenabstandsmessung

. Ermittlung des Gewinnerneurons i

. Zwischenschritt: Bilden einer nachder Entfernung zum Gewinnerneuronaufsteigend sortierten Liste L vonNeuronen. Erstes Neuron in der ListeL ist also das Neuron, was dem Ge-winnerneuron am nächsten liegt.

. Ändern der Zentren durch die bekann-te Vorschrift, aber der leicht modifi-zierten Topologiefunktion

hL(i, k, t).

Die gegenüber der ursprünglichenFunktion h(i, k, t) modifizierte FunktionhL(i, k, t) sieht nun jeweils die erstenElemente der Liste als Nachbarschaft desGewinnerneurons i an. Dies hat direktzur Folge, dass sich – ähnlich der frei

DynamischeNachbarschaftschwebenden Moleküle in einem Gas –


dkriesel.com 10.7 Variationen

Abbildung 10.9: Eine Figur, die verschiedene Unterräume des eigentlichen Eingaberaums zu ver-schiedenen Orten ausfüllt und daher durch eine SOM nur schwer ausgefüllt werden kann.

die Nachbarschaftsbeziehungen zwischenden Neuronen jederzeit ändern können,auch die Anzahl der Nachbarn ist nahezubeliebig. Die Entfernung innerhalbder Nachbarschaft wird nun durch dieEntfernung innerhalb des Eingaberaumsrepräsentiert.

Die Masse der Neurone kann durch ei-ne stetig sinkende Nachbarschaftsgröße ge-nauso versteift werden, wie eine SOM – siehat aber keine feste Dimension, sondernkann jeweils die Dimension annehmen, dielokal gerade gebraucht wird, was sehr vor-teilhaft sein kann.

Von Nachteil kann sein, dass nicht durchein festes Gitter erzwungen wird, dass derInputraum relativ gleichmäßig abgedecktwird, und so Löcher in der Abdeckungentstehen oder Neurone vereinsamen kön-nen.

Es bleibt wie immer in der Pflicht desAnwenders, diese Arbeit bei allen Praxis-tipps nicht als Katalog für Patentlösungenzu verstehen, sondern selbst die Vor- undNachteile zu erforschen.

Anders als bei einer SOM muss sich dieNachbarschaft in einem Neuronalen Gasanfangs auf die Gesamtheit aller Neuronebeziehen, weil sonst einige Ausreißer derzufälligen Initialisierung vielleicht nie indie Nähe der restlichen Gruppe kommen.Dies zu vergessen, ist ein sehr beliebterFehler bei der Implementierung eines Neu-ronalen Gases.

Mit einem Neuronalen Gas kann man aucheine sehr komplexe Inputform lernen, da

KomplizierteFigurenklassifizierbar

wir nicht an ein festdimensionales Git-ter gebunden sind. Rechenaufwändig wer-den kann aber das dauernde Sortierender Liste (hier kann es viel bringen, die



Liste gleich in einer von sich aus geord-neten Datenstruktur abzulegen). Ein Bei-spiel für solche Inputformen findet sich inAbb. 10.9 auf der vorangehenden Seite.

Definition 10.6 (Neuronales Gas). EinNeuronales Gas unterscheidet sich von ei-ner SOM durch eine vollständig dyna-mische Nachbarschaftsfunktion. In jedemLernzyklus wird neu entschieden, welcheNeurone die Nachbarneurone des Gewin-nerneurons sind. In der Regel ist das Kri-terium für diese Entscheidung die Entfer-nung der Neurone zum Gewinnerneuronim Inputraum.

10.7.2 Eine Multi-SOM besteht ausmehreren separaten SOMs

Um eine weitere Variante der SOMs zu prä-sentieren, möchte ich eine erweiterte Pro-blemstellung formulieren: Was machen wirbei Eingabemustern, von denen wir vorherwissen, dass sie sich in verschiedene (viel-leicht disjunkte) Bereiche abgrenzen?

Mehrere SOMs

Die Idee hierzu ist, nicht nur eine SOMzu nehmen, sondern gleich mehrere: Ei-ne Multi Self Organizing Map, kurzM-SOM [GKE01b, GKE01a, GS06]. DieSOMs müssen nicht die gleiche Topologieoder Größe haben, eine M-SOM ist nur einZusammenschluss aus M vielen SOMs.

Der Lernvorgang funktioniert analog zuden einfachen SOMs – allerdings werdennur die Neurone, die zum Gewinner-SOMeines jeden Trainingsschritts gehören, ad-aptiert. Mit zwei SOMs ist es also einfach,

zwei disjunkte Cluster Daten zu repräsen-tieren, selbst wenn einer davon nicht in al-len Dimensionen des Eingangsraumes RNvertreten ist. Die einzelnen SOMs spiegelnsogar genau die Cluster wieder.

Definition 10.7 (Multi-SOM). EineMulti-SOM ist nichts weiter als eine gleich-zeitige Verwendung von M vielen SOMs.

10.7.3 Ein Multi-Neuronales Gasbesteht aus mehrerenseparaten neuronalen Gasen

Analog zum Multi-SOM haben wir hierwieder eine Menge von M vielen Neurona-len Gasen: ein Multi-Neuronales Gas[GS06, SG06]. Dieses Konstrukt verhält

Mehrere Gasesich analog zu Neuronalem Gas und M-SOM: Es werden wieder nur die Neuroneadaptiert, die im Gewinner-Gas sind.

Der Leser wird sich natürlich fragen, wasdenn ein Multi-Neuronales Gas für Vortei-le bringt, da bereits ein einzelnes Neuro-nales Gas in der Lage ist, sich in Clusterzu zerteilen und auch auf komplizierten In-putmustern mit wechselnder Dimension zuarbeiten. Das ist zwar grundsätzlich rich-tig, doch es gibt zwei gravierende Vorteileeines Multi-Neuronalen Gases gegenübereinem einfachen Neuronalen Gas.

1. Bei mehreren Gasen kann man jedemNeuron direkt ansehen, zu welchemGas es gehört. Das ist insbesonderebei Clustering-Aufgaben wichtig, fürdie Multi-Neuronale Gase in jüngsterZeit genutzt werden. Einfache Neuro-nale Gase können zwar auch Cluster


dkriesel.com 10.7 Variationen

finden und abdecken, man sieht abernicht, welches Neuron jetzt zu wel-chem Cluster gehört.

WenigerRechen-aufwand 2. Es spart enorm Rechenzeit, große

Ursprungs-Gase in mehrere kleinereaufzuteilen, da (wie schon angespro-chen) das Sortieren der Liste L sehrviel Rechenzeit in Anspruch nehmenkann, das Sortieren von mehreren klei-neren Listen L1, L2, . . . , LM aber we-niger aufwändig ist – selbst dann,wenn diese Listen insgesamt genauso-viele Neurone enthalten.

Man erhält zwar nur lokale Sortierungenund keine globale, diese reichen aber inden meisten Fällen aus.

Wir können nun zwischen zwei Extremfäl-len des Multi-Neuronalen Gases wählen:Der eine Extremfall ist das normale Neu-ronale Gas M = 1, wir verwenden al-so nur ein einziges Neuronales Gas. Inter-essanterweise verhält sich der andere Ex-tremfall (sehr großes M , wenige oder nurein Neuron pro Gas) analog zum K-Means-Clustering (siehe zum Thema Clustering-verfahren auch den Exkurs A).

Definition 10.8 (Multi-Neuronales Gas).Ein Multi-Neuronales Gas ist nichts wei-ter als eine gleichzeitige Verwendung vonM vielen Neuronalen Gasen.

10.7.4 Wachsende neuronale Gasekönnen sich selbst Neuronehinzufügen

Ein Wachsendes Neuronales Gas isteine Variation des beschriebenen Neurona-

len Gases, dem nach bestimmten Regelnmehr und mehr Neurone hinzugefügt wer-den. Man versucht so, der Vereinsamungvon Neuronen oder der Bildung großer Ab-deckungslöcher entgegenzuwirken.

Es sei hier nur benannt, aber nicht weitererforscht.

Eine wachsende SOM zu konstruieren istinsofern schwieriger, als dass neue Neuro-ne in die Nachbarschaft eingegliedert wer-den müssen.

Übungsaufgaben

Aufgabe 18. Mit einem regelmäßigenzweidimensionalen Gitter soll eine zweidi-mensionale Fläche möglichst „gut“ ausge-legt werden.

1. Welche Gitterstruktur wäre hierfüram besten geeignet?

2. Welche Kriterien für „gut“ bzw. „ambesten“ haben Sie verwendet?

Diese Aufgabe ist bewusst sehr schwam-mig formuliert.


Kapitel 11

Adaptive Resonance TheoryEin ART-Netz in seiner ursprünglichen Form soll binäre Eingabevektoren

klassifizieren, also einer 1-aus-n-Ausgabe zuordnen. Gleichzeitig sollen bis jetztunklassifizierbare Muster erkannt und einer neuen Klasse zugeordnet werden.

Wie in anderen kleinen Kapiteln wollenwir wieder versuchen, die grundlegendeIdee der Adaptive Resonance Theo-ry (Kurz: ART) zu ergründen, ohne ihreTheorie wirklich in der Tiefe zu betrach-ten.

Wir haben bereits in verschiedenen Ab-schnitten angedeutet, dass es schwierigist, mit Neuronalen Netzen neue Infor-mation zusätzlich zu bestehender „hin-zuzulernen“, ohne jedoch die bestehendeInformation zu zerstören – diesen Um-stand bezeichnen wir als Stabilitäts-Plastizitäts-Dilemma.

1987 veröffentlichten Stephen Gross-berg und Gail Carpenter mit dem Zielder Entschärfung dieser Problematik dieerste Version ihres ART-Netzes [Gro76],der ab da eine ganze Familie von ART-Verbesserungen folgte (die wir ebenfallsnoch kurz ansprechen wollen).

Es handelt sich um eine Idee des unüber-wachten Lernens, die (zunächst binäre)

Mustererkennung zum Ziel hatte, genauergesagt, die Einteilung von Mustern in Klas-sen – wobei ein ART-Netz aber zusätzlichin der Lage sein soll, neue Klassen zu fin-den.

11.1 Aufgabe und Struktureines ART-Netzes

Ein ART-Netz ist aufgebaut aus genauzwei Schichten: Der Eingabeschicht Iund der Erkennungsschicht O, wobei dieEingabeschicht in Richtung der Erken-nungsschicht vollverknüpft ist. Diese Voll-verknüpfung gibt uns eine Top-Down-Gewichtsmatrix W an, die die Gewichts-werte von jedem Neuron der Eingabe-schicht zu jedem Neuron der Erkennungs-schicht enthält (Abb. 11.1 auf der folgen-den Seite).

An der Eingabeschicht werden einfach bi-näre Muster eingegeben, welche an die

Muster-erkennung

173

Kapitel 11 Adaptive Resonance Theory dkriesel.com

GFED@ABCi1

44444444444444

##FFFFFFFFFFFFFFFFFFFFF

''OOOOOOOOOOOOOOOOOOOOOOOOOOOOO

))SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS GFED@ABCi2

xxxxxxxxxxxxxxxxxxxxx

44444444444444

##FFFFFFFFFFFFFFFFFFFFF

''OOOOOOOOOOOOOOOOOOOOOOOOOOOOO GFED@ABCi3

wwooooooooooooooooooooooooooooo


44444444444444

##FFFFFFFFFFFFFFFFFFFFF GFED@ABCi4

uukkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk

wwooooooooooooooooooooooooooooo


44444444444444

GFED@ABCΩ1

EE

;;xxxxxxxxxxxxxxxxxxxxx

77ooooooooooooooooooooooooooooo

55kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk

GFED@ABCΩ2

OO EE


77ooooooooooooooooooooooooooooo

GFED@ABCΩ3

YY44444444444444

OO EE


GFED@ABCΩ4

ccFFFFFFFFFFFFFFFFFFFFF

YY44444444444444

OO EE

GFED@ABCΩ5

ggOOOOOOOOOOOOOOOOOOOOOOOOOOOOO


YY44444444444444

OO

GFED@ABCΩ6

iiSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS

ggOOOOOOOOOOOOOOOOOOOOOOOOOOOOO


YY44444444444444

Abbildung 11.1: Vereinfachte Darstellung des Aufbaus eines ART-Netzes. Oben die Eingabe-schicht, unten die Erkennungsschicht. Für die Abbildung außer Acht gelassen worden sind dielaterale Inhibition der Erkennungsschicht und die Steuerungsneurone.

Erkennungsschicht weitergegeben werden– während die Erkennungsschicht eine 1-aus-|O|-Kodierung ausgeben soll, also demWinner-Takes-All-Schema folgen soll. Umdiese 1-aus-|O|-Kodierung zu realisieren,kann man beispielsweise das Prinzip der la-teralen Inhibition nutzen – oder in der Im-plementierung pragmatischerweise per IF-Abfrage das am stärksten aktivierte Neu-ron suchen.

11.1.1 Resonanz erfolgt, indemAktivitäten hin- undhergeworfen werden

Zusätzlich gibt es aber noch eineBottom-Up-Gewichtsmatrix V , die die Aktivitä-

VI ten in der Erkennungsschicht wieder in die

Eingabeschicht propagiert. Es ist nun of-fensichtlich, dass diese Aktivitäten immerhin- und hergeworfen werden, was den Be-griff der Resonanz ins Spiel bringt. JedeAktivität der Eingabeschicht bewirkt eine

Schichtenaktivierensichgegenseitig

Aktivität der Erkennungsschicht, währenddort jede Aktivität wiederum eine Aktivi-tät in der Eingabeschicht bewirkt.

Zusätzlich zu den zwei genannten Schich-ten existieren in einem ART-Netz noch ei-nige wenige Neurone, welche Kontrollfunk-tionen ausüben wie z.B. eine Signalverstär-kung. Deren Theorie soll hier nicht weiterbetrachtet werden, da nur das grundlegen-de Prinzip der ART-Netze klar werden soll.Ich erwähne sie nur, um darzustellen, dassdas Art-Netz nach einer Eingabe trotz dervorhandenen Rückkopplungen in einen sta-bilen Zustand gelangen wird.


dkriesel.com 11.2 Lernvorgang

11.2 Der Lernvorgang einesArtnetzes ist geteilt inTop-Down- undBottom-Up-Lernen

Die Kunst der Adaptive Resonance Theo-ry liegt nicht nur in der Gestaltung desART-Netzes, sondern auch in ihrem Lern-vorgang, der zweigeteilt ist: Wir trainie-ren zum einen die Top-Down-Matrix Wund zum anderen die Bottom-Up-MatrixV (Abb. 11.2 auf der folgenden Seite).

11.2.1 Mustereingabe undTop-Down-Lernen

Wenn ein Muster in das Netz eingegebenwird, sorgt es wie schon gesagt für eineAktivierung an den Ausgabeneuronen, wo-

Gewinner-neuron

wirdverstärkt

bei das stärkste Neuron gewinnt. Anschlie-ßend werden die zum Ausgabeneuron ge-henden Gewichte der Matrix W dahin-gehend verändert, dass die Ausgabe desstärksten Neurons Ω noch verstärkt wird.Die Klassenzugehörigkeit des Eingabevek-tors zu der Klasse des Ausgabeneurons Ωwird also verstärkt.

11.2.2 Resonanz undBottom-Up-Lernen

Etwas tricky ist nun das Trainieren derrückwärtsgerichteten Gewichte der Matrix

Eingabe istTeach. Inp.

für rückwärtsgerichteteGewichte

V : Es werden nur die Gewichte vom jewei-lige Gewinnerneuron zur Eingabeschichttrainiert und als Teaching Input unser ak-tuell angelegtes Eingabemuster verwendet.

Das Netz wird also darauf trainiert, einge-gebene Vektoren zu verstärken.

11.2.3 Hinzufügen einesAusgabeneurons

Es kann natürlich vorkommen, dass dieNeurone ungefähr gleich aktiviert sindoder mehrere Neurone aktiviert sind, dasNetz also unentschlossen ist. In diesemFall wird durch die Mechanismen derSteuerungsneurone ein Signal ausgelöst,das ein neues Ausgabeneuron hinzufügt.Das aktuelle Muster wird dann diesemAusgabeneuron zugeordnet und die Ge-wichtssätze des neuen Neurons wie ge-wohnt trainiert.

Die Stärke des Systems liegt also nichtnur darin, Eingaben in Klassen zu untertei-len und neue Klassen zu finden – es kannuns bei Aktivierung eines Ausgabeneuronsauch sagen, wie ein typischer Vertreter ei-ner Klasse aussieht – ein bedeutendes Fea-ture.

Oft kann das System Muster aber nurmäßig gut unterscheiden. Die Frage ist,wann einem neuen Neuron erlaubt wird,aktiv zu werden und wann gelernt wer-den soll. Auch um diese Fragen zu beant-worten, existieren in einem ART-Netz ver-schiedene zusätzliche Kontrollneurone, diediese Fragen nach verschiedenen mathema-tischen Regeln beantworten und dafür zu-ständig sind, Spezialfälle abzufangen.

Hier benennen wir einen der größten Kri-tikpunkte an ART: Ein ART-Netz verwen-det eine Spezialfallunterscheidung ähnlich


Kapitel 11 Adaptive Resonance Theory dkriesel.comKapitel 11 Adaptive Resonance Theory dkriesel.com

GFED@ABCi1

""

GFED@ABCi2

GFED@ABCi3

GFED@ABCi4

|| GFED@ABCΩ1

YY OO EE <<

GFED@ABCΩ2

bb YY OO EE

0 1

GFED@ABCi1

""FFFFFFFFFFFFFFFFFFFF GFED@ABCi2

44444444444444GFED@ABCi3

GFED@ABCi4

||

GFED@ABCΩ1

YY OO EE <<

GFED@ABCΩ2

bb YY OO EE

0 1

GFED@ABCi1

""

GFED@ABCi2

GFED@ABCi3

GFED@ABCi4

|| GFED@ABCΩ1

YY OO EE <<

GFED@ABCΩ2

bbFFFFFFFFFFFFFFFFFFFF

YY44444444444444

OO EE

0 1

Abbildung 11.2: Vereinfachte Darstellung deszweigeteilten Trainings eines ART-Netzes: Diejeweils trainierten Gewichte sind durchgezogendargestellt. Nehmen wir an, ein Muster wurde indas Netz eingegeben und die Zahlen markierenAusgaben. Oben: Wir wir sehen, ist Ω2 das Ge-winnerneuron. Mitte: Also werden die Gewichtezum Gewinnerneuron hin trainiert und (unten)die Gewichte vom Gewinnerneuron zur Eingangs-schicht trainiert.

einer IF-Abfrage, die man in den Mecha-nismus eines Neuronalen Netzes gepressthat.

11.3 Erweiterungen

Wie schon eingangs erwahnt, wurden dieART-Netze vielfach erweitert.

ART-2 [CG87] ist eine Erweiterungauf kontinuierliche Eingaben und bietetzusatzlich (in einer ART-2A genanntenErweiterung) Verbesserungen der Lernge-schwindigkeit, was zusatzliche Kontroll-neurone und Schichten zur Folge hat.

ART-3 [CG90] verbessert die Lernfahig-keit von ART-2, indem zusatzliche biolo-gische Vorgange wie z.B. die chemischenVorgange innerhalb der Synapsen adap-tiert werden1.

Zusatzlich zu den beschriebenen Erweite-rungen existieren noch viele mehr.

1 Durch die haufigen Erweiterungen der AdaptiveResonance Theory sprechen bose Zungen bereitsvon ”ART-n-Netzen“.

168 D. Kriesel – Ein kleiner Uberblick uber Neuronale Netze (EPSILON-DE)

Abbildung 11.2: Vereinfachte Darstellung deszweigeteilten Trainings eines ART-Netzes: Diejeweils trainierten Gewichte sind durchgezogendargestellt. Nehmen wir an, ein Muster wurde indas Netz eingegeben und die Zahlen markierenAusgaben. Oben: Wie wir sehen, ist Ω2 das Ge-winnerneuron. Mitte: Also werden die Gewichtezum Gewinnerneuron hin trainiert und (unten)die Gewichte vom Gewinnerneuron zur Eingangs-schicht trainiert.

einer IF-Abfrage, die man in den Mecha-nismus eines Neuronalen Netzes gepressthat.

11.3 Erweiterungen

Wie schon eingangs erwähnt, wurden dieART-Netze vielfach erweitert.

ART-2 [CG87] ist eine Erweiterung aufkontinuierliche Eingaben und bietet zu-sätzlich (in einer ART-2A genanntenErweiterung) Verbesserungen der Lernge-schwindigkeit, was zusätzliche Kontroll-neurone und Schichten zur Folge hat.

ART-3 [CG90] verbessert die Lernfähig-keit von ART-2, indem zusätzliche biologi-sche Vorgänge wie z.B. die chemischen Vor-gänge innerhalb der Synapsen adaptiertwerden1.

Zusätzlich zu den beschriebenen Erweite-rungen existieren noch viele mehr.

1 Durch die häufigen Erweiterungen der AdaptiveResonance Theory sprechen böse Zungen bereitsvon „ART-n-Netzen“.


Teil IV

Exkurse, Anhänge und Register

177

Anhang A

Exkurs: Clusteranalyse und Regional andOnline Learnable Fields

Das Grimmsche Wörterbuch beschreibt das heute ausgestorbene deutscheWort „Kluster“ mit „was dicht und dick zusammensitzet“. In der statistischen

Clusteranalyse wird die Gruppenbildung innerhalb von Punktwolkenuntersucht. Vorstellung einiger Verfahren, Vergleich ihrer Vor- und Nachteile.Betrachtung eines lernenden Clusteringverfahrens auf Basis Neuronaler Netze.Ein Regional and Online Learnable Field modelliert aus einer Punktwolke mitwomöglich sehr vielen Punkten eine vergleichsweise kleine Menge von für die

Punktwolke repräsentativen Neuronen.

Wie schon angedeutet, lassen sich vieleProblemstellungen auf Probleme derClusteranalyse zurückführen. Diesmacht die Erforschung von Verfahrennotwendig, die untersuchen, ob sichinnerhalb von Punktwolken Gruppen (sog.Cluster) herausbilden. Da Verfahrenzur Clusteranalyse für ihre Arbeit einenAbstandsbegriff zwischen zwei Punktenbrauchen, muss auf dem Raum, in demsich die Punkte finden, eine Metrikdefiniert sein. Wir wollen also kurz daraufeingehen, was eine Metrik ist.

Definition A.1 (Metrik). Eine Relationdist(x1, x2), die für zwei Objekte x1, x2 de-finiert ist, heißt Metrik, wenn jedes der fol-genden Kriterien gilt:

1. dist(x1, x2) = 0 genau dann, wennx1 = x2,

2. dist(x1, x2) = dist(x2, x1), also Sym-metrie,

3. dist(x1, x3) ≤ dist(x1, x2) +dist(x2, x3), d. h. die Dreiecksunglei-chung gilt.

Umgangssprachlich ausgedrückt, ist eineMetrik ein Werkzeug, Abstände von Punk-ten in einem beliebig gearteten Raum fest-zustellen. Abstände müssen hierbei sym-metrisch sein, und der Abstand zwischenzwei Punkten darf nur 0 sein, wenn beidePunkte gleich sind. Zudem muss die Drei-ecksungleichung gelten.

179

Anhang A Exkurs: Clusteranalyse und Regional and Online Learnable Fields dkriesel.com

Metriken liefert uns beispielsweise derquadratische Abstand und der Eukli-dische Abstand, welche wir schon ken-nengelernt haben. Aufbauend auf eine sol-che Metrik kann man Clusteringverfahrendefinieren, die eine Metrik als Abstands-maß verwenden.

Wir wollen nun verschiedene Clustering-verfahren vorstellen und kurz diskutie-ren.

A.1 k-Means Clustering teiltDaten in einevordefinierte AnzahlCluster ein

k-Means Clustering nach J. Mac-Queen [Mac67] ist ein Algorithmus,der aufgrund seiner niedrigen Rechen-und Speicherkomplexität häufig verwen-det wird und allgemein als „billig und gut“angesehen wird. Der Algorithmus k-MeansClustering hat folgenden Arbeitsablauf:

1. Daten bereitstellen, die untersuchtwerden sollen

2. k, die Anzahl der Clusterzentren, de-finieren

3. k viele zufällige Vektoren für die Clus-terzentren wählen (auch Codebook-vektoren genannt).

4. Jeden Datenpunkt dem nächsten Co-debookvektor1 zuordnen

1 Der Name Codebookvektor entstand, weil die oftverwendete Bezeichnung Clustervektor zu missver-ständlich war.

5. Clusterschwerpunkte für alle Clusterberechnen

6. Codebookvektoren auf neue Cluster-schwerpunkte setzen.

7. Bei 4 weitermachen, bis keine Zuord-nungsänderungen mehr eintreten.

Vorher mussClusterzahlbekanntsein

Bei Punkt 2 sieht man schon eine dergroßen Fragen des k-Means-Algorithmus:Man muss im Vorhinein selbst die An-zahl k der Clusterzentren bestimmen, diesnimmt einem das Verfahren also nicht ab.Das Problem ist, dass man im Vorhineinnicht unbedingt weiß, wie k am bestenbestimmt werden kann. Ein weiteres Pro-blem ist, dass das Verfahren recht insta-bil werden kann, wenn die Codebookvek-toren schlecht initialisiert werden. Da diesaber zufällig geschieht, hilft oft schon einNeustart des Verfahrens, das zudem nichtsehr rechenaufwändig ist, was wiederumein Vorteil ist. Verwenden Sie es im Be-wusstsein dieser Schwächen, und Sie wer-den recht gute Ergebnisse erhalten.

Komplizierte Strukturen, wie „Cluster inClustern“ können allerdings nicht erkanntwerden. Bei einem hoch gewählten k wür-de der äußere Ring dieser Konstruktion inder Abbildung als viele einzelne Cluster er-kannt, bei einer niedrigen Wahl von k wür-de der Ring mit dem kleinen innenliegen-den Cluster als ein Cluster gesehen.

Siehe für eine Veranschaulichung den obe-ren rechten Teil der Abb. A.1 auf Seite183.


dkriesel.com A.3 ε-Nearest Neighbouring

A.2 k-Nearest Neighbouringsucht die k nächstenNachbarn jedenDatenpunkts

Das k-Nearest Neighbouring-Verfahren [CH67] verbindet jedenDatenpunkt mit den jeweils k vielennächsten Nachbarn, was oft eineUnterteilung in Gruppen zur Folge hat.Eine solche Gruppe bildet dann einenCluster. Der Vorteil ist hier, dass dieClusteranzahl von alleine entsteht –der Nachteil ein recht großer Speicher-und Rechenaufwand, um die nächtenNachbarn zu finden (es muss derAbstand von jedem zu jedem Datenpunktausgerechet und gespeichert werden).

Clusteringüber nächste

Punkte Es gibt außerdem Spezialfälle, in denendas Verfahren bei zu großer Wahl vonk Datenpunkte zusammenschließt, die ei-gentlich in verschiedene Cluster gehören(siehe die beiden kleinen Cluster obenrechts in der Abbildung). Cluster, die nuraus einem einzigen Datenpunkt bestehen,werden grundsätzlich mit einem anderenCluster zusammengeschlossen, auch dasist nicht immer gewollt.

Weiterhin müssen die Bindungen unterden Punkten nicht symmetrisch sein.

Das Verfahren ermöglicht es aber, Ringeund somit auch „Cluster in Clustern“ zuerkennen, ein eindeutiger Vorteil. Weite-rer Vorteil ist, dass das Verfahren adap-tiv auf die Entfernungen in und zwischenClustern eingeht.

Siehe für eine Veranschaulichung den un-teren linken Teil der Abb. A.1.

A.3 ε-Nearest Neighbouringsucht für jedenDatenpunkt Nachbarn imRadius ε

Ein anderer Ansatz des Neighbourings:Hier geht die Nachbarschaftsfindung nichtüber eine feste Anzahl k von Nachbarn,sondern über einen Radius ε – daherder Name Epsilon-Nearest Neighbou-ring. Punkte, die maximal ε weit vonein-ander entfernt sind, sind Nachbarn. Hierist der Speicher- und Rechenaufwand au-genscheinlich wieder sehr hoch, was einNachteil ist.

ClusteringüberRadien umPunkte

Achtung, auch hier gibt es Spezialfälle:Zwei an sich getrennte Cluster könnenhier durch die ungünstige Lage eines ein-zigen Datenpunkts einfach verbunden wer-den. Dies kann zwar auch beim k-NearestNeighbouring passieren, jedoch schwerer,da die Anzahl der Nachbarn pro Punktdort begrenzt ist.

Vorteil ist die symmetrische Natur derNachbarschaftsbeziehungen. Weiterer Vor-teil ist, dass nicht aufgrund einer festenNachbaranzahl Kleinstcluster zusammen-geschlossen werden.

Auf der anderen Seite muss aber ε ge-schickt initialisiert werden, um hier Erfol-ge zu erzielen, nämlich kleiner als die Hälf-te des kleinsten Abstands zwischen zwei



Clustern. Dies ist bei sehr variablen Clus-terabständen und Punktabständen inner-halb von Clustern unter Umständen einProblem.

Siehe für eine Veranschaulichung den un-teren rechten Teil der Abb. A.1.

A.4 DerSilhouettenkoeffizientmacht die Güte einesgegebenen Clusteringsmessbar

Wie wir oben sehen, gibt es keine Patent-lösung für Clusteringprobleme, denn jedesdargestellte Verfahren hat seine ganz spe-zifischen Nachteile. Insofern ist es wert-voll, ein Kriterium dafür zu haben, wie gutunsere Clustereinteilung ist. Genau dieseMöglichkeit bietet uns der Silhouetten-koeffizient nach [Kau90]. Er misst, wiegut die Cluster voneinander abgegrenztsind, und ist ein Indikator dafür, ob viel-leicht Punkte in falsche Cluster einsortiertsind.

Clustering-güte

messbar Sei P eine Punktwolke und sei p ein Punkt∈ P . Sei c ⊆ P ein Cluster in der Punkt-wolke und gehöre p in diesen Cluster, alsop ∈ c. Die Menge der Cluster nennen wirC. Zusammengefasst gilt also

p ∈ c ⊆ P.

Um den Silhouettenkoeffizient zu errech-nen, benötigen wir zunächst den durch-schnittlichen Abstand des Punktes p zu

allen seinen Clusternachbarn. Diese Grö-ße nennen wir a(p) und definieren sie wiefolgt:

a(p) = 1|c| − 1

∑q∈c,q 6=p

dist(p, q) (A.1)

Sei weiterhin b(p) der durchschnittlicheAbstand unseres Punktes p zu allen Punk-ten des nächsten anderen Clusters (g läuftüber alle Cluster außer c):

b(p) = ming∈C,g 6=c

1|g|∑q∈g

dist(p, q) (A.2)

Der Punkt p ist gut klassifiziert, wennder Abstand zum Schwerpunkt des eige-nen Clusters minimal und der Abstandzu den Schwerpunkten der anderen Clus-ter maximal ist. Ist dies der Fall, so wirdder folgende Term einen Wert nahe 1 erge-ben:

s(p) = b(p)− a(p)maxa(p), b(p) (A.3)

Der ganze Term s(p) kann sich offensicht-lich nur im Intervall [−1; 1] bewegen. Indi-kator für eine schlechte Klassifikation vonp ist ein Wert nahe -1.

Der Silhouettenkoeffizient S(P ) ergibtsich aus dem Durchschnitte aller s(p)-Werte: Es gilt

S(P ) = 1|P |

∑p∈P

s(p). (A.4)

Die Gesamtgüte der Clustereinteilungdrückt sich wie oben durch das Intervall[−1; 1] aus.

Nachdem wir nun die Charakteristiken ver-schiedener Clusteringmethoden sowie ein


dkriesel.com A.4 Der Silhouettenkoeffizient

Abbildung A.1: Oben links: Unsere Punktmenge. An ihr werden wir die verschiedenen Cluste-ringverfahren erforschen. Oben rechts: k-Means Clustering. Bei der Anwendung dieses Verfah-rens wurde k = 6 gewählt. Wie wir sehen, kann das Verfahren „Cluster in Clustern“ nicht erkennen(unten links im Bild). Auch lange „Linien“ von Punkten bereiten Schwierigkeiten: Sie würden alsviele kleine Cluster erkannt werden (bei ausreichend großer Wahl von k). Unten links: k-NearestNeighbouring. Bei zu großer Wahl von k (größer als die Punktanzahl des kleinsten Clusters)kommt es zu Clusterzusammenschlüssen, wie man oben rechts im Bild sehen kann. Unten rechts:ε-Nearest Neighbouring. Dieses Verfahren bereitet Schwierigkeiten, wenn ε größer gewählt ist alsder minimale Abstand zwischen zwei Clustern (sichtbar oben links im Bild) – diese werden dannzusammengeschlossen.



Maß zur Qualitätsbeurteilung einer be-reits existierenden Unterteilung in Clusterkennengelernt haben (viel weiteres Mate-rial findet sich in [DHS01]), möchte ichein 2005 veröffentlichtes Clusteringverfah-ren auf Basis eines unüberwacht lernen-den Neuronalen Netzes [SGE05] vorstel-len, welches wie alle dieser Verfahren wahr-scheinlich nicht perfekt ist, aber dochgroße Standard-Schwächen von den be-kannten Clusteringverfahren ausmerzt –auch, um einmal eine vergleichsweise hoch-aktuelle Entwicklung im Bereich der Neu-ronalen Netze darzustellen.

A.5 Regional and OnlineLearnable Fields sind einneuronalesClusteringverfahren

Das Paradigma Neuronaler Netze, welchesich nun vorstellen möchte, sind dieRegio-nal and Online Learnable Fields, kurzROLFs genannt.

A.5.1 ROLFs versuchen, mitNeuronen Datenwolkenabzudecken

Grob gesagt sind die Regional and OnlineLearnable Fields eine Menge K von Neuro-

KI nen, die versuchen, eine Menge von Punk-ten durch ihre Verteilung im Eingaberaummöglichst gut abzudecken. Hierfür werdenwährend des Trainings bei Bedarf Neurone

Netz decktPunktwolke

ab

hinzugefügt, verschoben oder in ihrer Grö-ße verändert. Die Parameter der einzelnenNeurone werden wir noch erforschen.

Definition A.2 (Regional and OnlineLearnable Field). Ein Regional and On-line Learnable Field (kurz: ROLF oderROLF-Netz) ist eine Menge K von Neuro-nen, welche darauf trainiert werden, einebestimmte Menge im Eingaberaum mög-lichst gut abzudecken.

A.5.1.1 ROLF-Neurone besitzenPosition und Radius imEingaberaum

Ein ROLF-Neuron k ∈ K hat hierbeizwei Parameter: Es besitzt ähnlich derRBF-Netze ein Zentrum ck, also einen JcOrt im Eingaberaum.

Es besitzt aber noch einen weiteren Para-meter: Den Radius σ, der den Radius der Jσperzeptiven Fläche, welche das Neuronumgibt, erst definiert2. Ein Neuron decktden Anteil des Eingaberaums ab, der in-nerhalb des Radius liegt.

Sowohl ck als auch σk sind für jedes Neu-Neuronreprä-sentiertFläche

ron lokal definiert, das heißt insbesonde-re, dass die Neurone verschieden große Flä-chen abdecken können.

Der Radius der perzeptiven Fläche istdurch r = ρ · σ gegeben (Abb. A.2 aufder rechten Seite), wobei der Multiplika-tor ρ für alle Neurone global definiert ist

2 Ich schreibe daher „definiert“ und nicht „ist“, weilder eigentliche Radius ja durch σ · ρ gegeben ist.


dkriesel.com A.5 Regional and Online Learnable Fields

Abbildung A.2: Aufbau eines ROLF-Neurons.

und im Vorhinein festgelegt wird. Der Le-ser wird sich nun intuitiv fragen, wozu die-ser Multiplikator gut ist. Wir werden sei-ne Bedeutung später noch erforschen. Zubeachten ist weiterhin: Die perzeptive Flä-che der verschiedenen Neurone muss nichtgleich groß sein.

Definition A.3 (ROLF-Neuron). EinROLF-Neuron k besitzt als Parameter einZentrum ck sowie einen Radius σk.

Definition A.4 (Perzeptive Fläche). Dieperzeptive Fläche eines Rolf-Neurons k be-steht aus allen Punkten, welche im Einga-beraum innerhalb des Radius ρ · σ liegen.

A.5.2 ROLFs lernen unüberwachtdurch Online-Präsentationvon Trainingsbeispielen

Wie viele andere Paradigmen NeuronalerNetze lernt unser ROLF-Netz durch dieEingabe vieler Trainingsbeispiele p aus ei-ner Trainingsmenge P . Das Lernen findetunüberwacht statt. Für jedes Trainingsbei-spiel p, welches in das Netz eingegebenwird, können zwei Fälle eintreten:

1. Es existiert ein akzeptierendes Neu-ron k für p oder

2. es existiert kein akzeptierendes Neu-ron.

Falls im ersteren Fall mehrere Neuronein Frage kommen, existiert insofern genauein akzeptierendes Neuron, als dassdas nächstgelegene akzeptierend ist. Beimakzeptierenden Neuron k werden ck undσk angepasst.

Definition A.5 (Akzeptierendes Neuron).Damit ein ROLF-Neuron k ein akzeptie-rendes Neuron eines Punktes p ist, mussder Punkt p innerhalb der perzeptiven Flä-che von k liegen. Liegt p in den perzepti-ven Flächen mehrerer Neurone, so ist dasnächstliegende akzeptierend. Gibt es meh-rere nächste Neurone, kann willkürlich ei-nes ausgewählt werden.

A.5.2.1 Sowohl Positionen als auchRadien werden beim Lernenadaptiert

AdaptionvonvorhandenemNeuron

Angenommen, wir haben ein Trainingsbei-spiel p in das Netz eingegeben und es exis-



tiert ein akzeptierendes Neuron k. Dannwandert der Radius in Richtung ||p − ck||(also in Richtung des Abstandes zwischenp ud ck) und das Zentrum ck in Richtungvon p. Zusätzlich seien zwei Lernraten ησ

ησ, ηcI und ηc für Radien und Zentren definiert.

ck(t+ 1) = ck(t) + ηc(p− ck(t))σk(t+ 1) = σk(t) + ησ(||p− ck(t)|| − σk(t))

Hierbei ist zu beachten, dass σk ein Ska-lar ist, während ck ein Vektor im Eingabe-raum ist.

Definition A.6 (Adaption eines ROLF–Neurons). Ein zu einem Punkt p akzep-tierendes Neuron k wird nach folgendenRegeln adaptiert:

ck(t+ 1) = ck(t) + ηc(p− ck(t)) (A.5)

σk(t+ 1) = σk(t) + ησ(||p− ck(t)|| − σk(t))(A.6)

A.5.2.2 Der Radiusmultiplikator sorgtdafür, dass Neurone nicht nurschrumpfen können

Nun können wir auch verstehen, wozu derMultiplikator ρ da ist: Durch ihn umfasst

ρI die perzeptive Fläche eines Neurons mehrals nur alle Punkte um das Neuron im Ra-dius σ. Das bedeutet, dass σ durch dieobige Lernregel nicht nur schrumpfen, son-

DamitNeuronewachsenkönnen

dern auch wachsen kann.

Definition A.7 (Radiusmultiplikator).Der Radiusmultiplikator ρ > 1 ist globaldefiniert und vergrößert die perzeptive Flä-che eines Neurons k auf ein Vielfaches vonσk. So ist sichergestellt, dass der Radius

σk auch wachsen und nicht nur schrump-fen kann.

Der Radiusmultiplikator wird üblicherwei-se auf Werte im unteren einstelligen Be-reich gesetzt, wie z.B. 2 oder 3.

Wir haben bis jetzt nur den Fall im ROLF-Training betrachtet, dass für ein Trainings-beispiel p ein akzeptierendes Neuron exis-tiert.

A.5.2.3 Nach Bedarf werden neueNeurone erzeugt

Dies legt nahe, die Vorgehensweise zu er-forschen, falls kein akzeptierendes Neuronexistiert.

Wenn dies der Fall ist, so wird einfach einakzeptierendes Neuron k für unser Trai-ningsbeispiel neu erzeugt. Dies hat zur Fol-ge, dass natürlich ck und σk initialisiertwerden müssen.

Intuitiv verstehbar ist die Initialisierungvon ck: Das Zentrum des neuen Neuronswird einfach auf das Trainingsbeispiel ge-setzt, es gilt also

ck = p.

Wir erzeugen ein neues Neuron, weil keinsin der Nähe von p ist – also setzen wir dasNeuron sinnvollerweise genau auf p.

Doch wie wird ein σ gesetzt, wenn ein neu-es Neuron gebildet wird? Hierfür gibt esverschiedene Taktiken:

Init-σ: Es wird immer ein vorherbestimm-tes, statisches σ gewählt.



Minimum-σ: Wir schauen uns die σ al-ler Neurone an und wählen das Mini-mum.

Maximum-σ: Wir schauen uns die σ al-ler Neurone an und wählen das Ma-ximum.

Mean-σ: Der Mittelwert der σ aller Neu-rone wird gewählt.

Aktuell ist die Mean-σ-Variante die favori-sierte, obwohl das Lernverfahren mit denanderen auch funktioniert. Die Minimum-σ-Variante lässt die Neurone hierbei ten-denziell weniger Fläche einnehmen, dieMaximum-σ-Variante tendenziell mehr.

Definition A.8 (Erzeugen eines ROLF–Neurons). Wird ein neues ROLF-Neuronk durch Eingabe eines Trainingsbeispiels p

Initialisierungeines

Neuronserzeugt, so wird ck mit p initialisiert undσk nach einer der obigen Strategien (Init-σ, Minimum-σ, Maximum-σ, Mean-σ).

Ein gutes Kriterium für ein Trainingsen-de ist, wenn nach immer wieder zufälligpermutierter Präsentation der Muster beieiner Epoche kein neues Neuron mehr er-zeugt wurde und die Neuronenpositionensich kaum noch verändern.

A.5.3 Auswertung eines ROLFs

Der Trainingsalgorithmus hat zur Folge,dass die ROLF-Neurone nach und nachdie Trainingsmenge recht gut und genauabdecken, und dass eine hohe Konzentra-tion von Punkten an einem Fleck des Ein-gaberaums nicht automatisch mehr Neuro-ne erzeugen muss. Eine unter Umständen

sehr große Punktwolke wird also auf (rela-tiv zur Eingabemenge) sehr wenige Reprä-sentanten reduziert.

Die Anzahl der Cluster lässt sich dannCluster =verbundeneNeurone

sehr einfach bestimmen: Zwei Neuronesind (nach Definition beim ROLF) verbun-den, wenn deren perzeptive Flächen sichüberlappen (es wird also eine Art Nea-rest Neighbouring mit den variablen per-zeptiven Flächen ausgeführt). Ein Clusterist eine Gruppe von verbundenen Neuro-nen bzw. von diesen Neuronen abgedeck-ten Punkten des Eingaberaums (Abb. A.3auf der folgenden Seite).

Selbstverständlich kann man das fertigeROLF-Netz auch mit anderen Clustering-verfahren auswerten, also Cluster in denNeuronen suchen. Insbesondere bei Cluste-ringverfahren, deren Speicheraufwand qua-dratisch zu |P | steigt, kann der Speicher-aufwand so dramatisch reduziert werden,da es in aller Regel wesentlich wenigerROLF-Neurone als ursprüngliche Daten-punkte gibt, die Neurone die Datenpunkteaber recht gut repräsentieren.

A.5.4 Vergleich mit populärenClusteringverfahren

Es ist offensichtlich, dass der Löwenan-teil des Speicheraufwands bei den ROLFsbeim Speichern der Neurone liegt undnicht etwa beim Speichern von Einga-bepunkten. Dies ist von großem Vorteil

WenigSpeicher-verbrauch!

bei riesigen Punktwolken mit sehr vielenPunkten.



Abbildung A.3: Ablauf des Clusterings durchein ROLF. Oben die Eingabemenge, in der Mit-te die Abdeckung durch ROLF-Neurone, un-ten die reine Abdeckung durch die Neurone(Repräsentanten).

Unser ROLF als neuronales Clustering-verfahren hat also, da die Datenpunktenicht komplett gespeichert werden müs-sen, die Fähigkeit des Online-Lernens,was zweifellos einen großen Vorteil dar-stellt. Weiterhin kann es (ähnlich demε Nearest Neighbouring bzw. k NearestNeighbouring) Cluster von eingeschlosse-nen Clustern unterscheiden – jedoch durch

„Cluster inClustern“erkennbar

die Online-Präsentation der Daten ohnequadratischen Speicheraufwand, der mitAbstand der größte Nachteil der beidenNeighbouring-Verfahren ist.

Es wird weiterhin durch die variablen per-zeptiven Flächen auf die Größe der jeweili-gen Cluster im Verhältnis zu ihrer Entfer-nung voneinander eingegangen – was eben-falls bei den beiden genannten Verfahrennicht immer der Fall ist.

Im Vergleich mit dem k-Means-Clusteringschneidet das ROLF auch gut ab: Erstensmuss man nicht die Clusteranzahl im Vor-hinein wissen, zum zweiten erkennt dask-Means-Clustering Cluster, die von ande-ren Clustern eingeschlossen sind, nicht alsseparate Cluster an.

A.5.5 Die Initialisierung von Radien,Lernraten und Multiplikatorist nicht trivial

Natürlich sollen auch die Nachteile desROLFs nicht verschwiegen werden: Es istnicht immer leicht, den Initialwert für dieσ und das ρ gut zu wählen. In das ρ undden σ-Startwert kann man dem ROLF so-zusagen das Vorwissen über die Datenmen-ge mitgeben: Feinkörnig geclusterte Daten



sollten ein kleines ρ und einen kleinen σ-Startwert verwenden. Je kleiner aber dasρ, desto weniger Chance haben die Neuro-nen, größer zu werden, wenn nötig. Hiergibt es wieder keine Patentrezepte, genauwie für die Lernraten ηc und ησ.

Beliebt für ρ sind Multiplikatoren im un-teren einstelligen Bereich, wie 2 oder 3.Bei ηc und ησ wird mit Werten um 0.005bis 0.1 erfolgreich gearbeitet, auch bei die-sem Netztyp sind Variationen zur Laufzeitdenkbar. Startwerte für σ hängen in derRegel sehr von der Cluster- und Daten-streuung ab (müssen also oft ausprobiertwerden), wobei diese gegenüber falschenInitialisierungen zumindest bei der Mean-σ-Strategie nach einiger Trainingszeit rela-tiv robust sind.

Insgesamt muss sich das ROLF im Ver-gleich zu den anderen Clusteringverfahrendurchaus nicht verstecken und wird ins-besondere für speicherarme Systeme odersehr große Datenmengen sehr interessantsein.

A.5.6 Anwendungsbeispiele

Ein erstes Anwendungsbeispiel könnte z.B.das Finden von Farbclustern in RGB-Bildern sein. Ein weiteres direkt in derROLF-Veröffentlichung beschriebenes Ein-satzgebiet ist das Erkennen von Worten,welche in einen 720dimensionalen Merk-malsraum überführt wurden – wir sehenalso, dass die ROLFs auch gegenüber höhe-ren Dimensionen relativ robust sind. Wei-tere mir bekannte Anwendungsgebiete lie-

gen in der Entdeckung und Zuordnung vonAngriffen auf Netzwerksysteme.

Übungsaufgaben

Aufgabe 19. Bestimmen Sie mindestensvier Adaptionsschritte für ein einzelnesROLF-Neuron k, wenn die vier untenste-henden Muster nacheinander in der an-gegebenen Reihenfolge präsentiert werden.Die Startwerte für das ROLF-Neuron sei-en ck = (0.1, 0.1) und σk = 1. Weiter gelteηc = 0.5 sowie ησ = 0. Sei ρ = 3.

P = (0.1, 0.1);= (0.9, 0.1);= (0.1, 0.9);= (0.9, 0.9).


Anhang B

Exkurs: Neuronale Netze zur VorhersageBetrachtung einer Anwendung Neuronaler Netze: Ein Blick in die Zukunft von

Zeitreihen.

Nach Betrachtung verschiedenster Para-digmen Neuronaler Netze ist es sinnvoll,nun eine Anwendung Neuronaler Netzezu betrachten, die viel thematisiert und(wie wir noch sehen werden) auch für Be-trug genutzt wird: Die Anwendung derZeitreihenvorhersage. Dieses Exkurska-pitel gliedert sich hierbei in die Beschrei-bung von Zeitreihen und Abschätzungen,unter welchen Voraussetzungen man über-haupt nur Werte einer Zeitreihe vorhersa-gen kann. Zum Schluß möchte ich noch et-was zu den häufigen Softwareangeboten sa-gen, die mit Hilfe Neuronaler Netze oderanderer Verfahren Aktienkurse oder ande-re wirtschaftliche Kenngrößen vorhersagensollen.

Das Kapitel soll weniger eine ausführlicheBeschreibung sein, sondern vielmehr einpaar Denkansätze für die Zeitreihenvor-hersage nennen, insofern werde ich michmit formalen Definitionen wieder zurück-halten.

B.1 Über Zeitreihen

Eine Zeitreihe ist eine Reihe von Wer-ten, welche in der Zeit diskretisiert ist.Beispielsweise könnten täglich gemesseneTemperaturwerte oder andere Wetterda-ten eines Ortes eine Zeitreihe darstellen –auch Aktienkurswerte stellen eine Zeitrei-he dar. Zeitreihen sind häufig zeitlich äqui-distant gemessen, und bei vielen Zeitrei-hen ist sehr von Interesse, wie denn dieZukunft ihrer Werte aussieht – nennen wirals Beispiel nur die tägliche Wettervorher-sage.

ZeitlicheReihe vonWertenZeitreihen können auch in einem bestimm-

ten zeitlichen Abstand ∆t abgetastete J∆tWerte einer eigentlich kontinuierlichenFunktion sein (Abb. B.1 auf der folgendenSeite).

Wenn wir eine Zeitreihe vorhersagen möch-ten, so suchen wir ein Neuronales Netz,was vergangene Werte der Zeitreihe auf zu-künftige abbildet – kennen wir eine Zeitrei-he also auf längeren Abschnitten, so sind

191

Anhang B Exkurs: Neuronale Netze zur Vorhersage dkriesel.com

Abbildung B.1: Eine Funktion x der Zeit wirdzu diskreten Zeitpunkten abgetastet (zeitdiskre-tisiert), wir erhalten also eine Zeitreihe. Die ab-getasteten Werte werden in ein Neuronales Netzeingegeben (hier im Beispiel ein SLP), welcheslernen soll, Werte der Zeitreihe vorherzusagen,welche in der Zukunft liegen.

uns genug Trainingsbeispiele gegeben. Die-se sind natürlich keine Beispiele der vorher-zusagenden Zukunft, aber man versuchtmit ihrer Hilfe, die Vergangenheit zu ver-allgemeinern und zu extrapolieren.

Bevor wir uns allerdings an die Vorhersageeiner Zeitreihe machen, müssen wir uns einpaar Gedanken zu Fragen über die betrach-tete Zeitreihe machen – bzw. sicherstellen,dass unsere Zeitreihe einige Bedingungenerfüllt.

1. Haben wir überhaupt Anhaltspunktedafür, dass die Zukunft der Zeitreiheauf irgendeine Weise von ihrer Vergan-genheit abhängt? Steckt in der Ver-gangenheit der Zeitreihe also Informa-tion über ihre Zukunft?

2. Haben wir genug vergangene Werteder Zeitreihe als Trainingsmuster?

3. Im Falle einer Vorhersage einer konti-nuierlichen Funktion: Wie müssen wir∆t sinnvollerweise wählen?

Wir wollen diese Fragen nun etwas näherbeleuchten.

Wieviel Information über die Zukuft istin der Vergangenheit einer Zeitreihe vor-handen? Dies ist mit Abstand die wich-tigste Frage, die wir für jede Zeitreihe, diewir in die Zukunft abbilden wollen, beant-worten müssen. Sind die zukünftigen Wer-te einer Zeitreihe beispielsweise überhauptnicht von den vergangenen abhängig, so istüberhaupt keine Zeitreihenvorhersage ausihnen möglich.

Wir gehen in diesem Kapitel von Systemenaus, deren Zustände auch auf ihre Zukunft


dkriesel.com B.2 One Step Ahead Prediction

schließen lassen – deterministische Syste-me. Dies bringt uns erst einmal zu der Fra-ge, was ein Systemzustand ist.

Ein Systemzustand beschreibt ein Systemfür einen bestimmten Zeitpunkt vollstän-dig. Die Zukunft eines deterministischenSystems wäre durch die vollständige Be-schreibung seines aktuellen Zustands alsoeindeutig bestimmt.

Das Problem in der Realität ist, dass einsolcher Zustandsbegriff alle Dinge umfasst,die auf irgendeine Weise Einfluss auf unserSystem nehmen.

Im Falle unserer Wettervorhersage füreinen Ort könnten wir die Temperatur,den Luftdruck und die Wolkendichte alsden Wetterzustand des Ortes zu einemZeitpunkt t durchaus bestimmen – dochder gesamte Zustand würde wesentlichmehr umfassen. Hier wären weltweite wet-tersteuernde Phänomene von Interesse, ge-nauso wie vielleicht kleine lokale Phänome-ne, z.B. die Kühlanlage des örtlichen Kraft-werks.

Es ist also festzuhalten, dass der System-zustand für die Vorhersage wünschenswert,aber nicht immer zu bekommen ist. Oftsind nur Teile des aktuellen Zustands er-fassbar – wie beim Wetter die verschiede-nen angesprochenen Wettergrößen.

Wir können aber diese Schwäche teilweiseausgleichen, indem wir nicht nur die beob-achtbaren Teile eines einzigen (des letzten)Zustandes in die Vorhersage mit einfließenlassen, sondern mehrere vergangene Zeit-punkte betrachten. Hieraus wollen wir nununser erstes Vorhersagesystem formen:

B.2 One Step AheadPrediction

Den Vorhersageversuch für den nächstenzukünftigen Wert einer Zeitreihe aus ver-gangenen Werten nennen wir One StepAhead Prediction (Abb. B.2 auf der fol-genden Seite).

NächstenWertvorhersagenEin solches Prediktorsystem erhält also

die letzten n observierten Zustandsteiledes Systems als Eingabe und gibt die Vor-hersage für den kommenden Zustand (oderZustandsteil) aus. Die Idee, dass wir einenZustandsraum mit Zuständen haben, diewir vorhersagen können, nennt man StateSpace Forecasting.

Ziel des Prediktors ist es, eine Funktion

f(xt−n+1, . . . , xt−1, xt) = xt+1 (B.1)

zu realisieren, welche exakt n vergangeneZeitwerte entgegennimmt, um daraus denzukünftigen Wert vorherzusagen. Vorher-gesagte Werte wollen wir mit einer Tilde(z.B. x) überschreiben, um sie von den tat- Jxsächlichen zukünftigen Werten zu unter-scheiden.

Der intuitivste und einfachste Ansatz wä-re, eine Linearkombination

xi+1 = a0xi + a1xi−1 + . . .+ ajxi−j(B.2)

zu suchen, welche unsere Bedingungen nä-herungsweise erfüllt.

Eine solche Konstruktion nennt man di-gitales Filter. Hier nutzt man aus, dasswir bei Zeitreihen in der Regel über sehr



xt−3

..

xt−2

..

xt−1

--

xt

++

xt+1

Prediktor

KK

Abbildung B.2: Darstellung der One Step Ahead Prediction – aus einer Reihe vergangener Werteversucht man, den zukünftigen Wert zu errechnen. Das vorhersagende Element (in unserem Fall einNeuronales Netz) nennt man Prediktor.

viele vergangene Werte verfügen, so dasswir eine Reihe von Gleichungen aufstellenkönnen1:

xt = a0xt−1 + . . .+ ajxt−1−(n−1)

xt−1 = a0xt−2 + . . .+ ajxt−2−(n−1)... (B.3)

xt−n = a0xt−n + . . .+ ajxt−n−(n−1)

Man könnte also n Gleichungen für n vie-le unbekannte Koeffizienten finden und soauflösen (soweit möglich). Oder noch einbesserer Ansatz: Wir könnten m > n Glei-chungen für n Unbekannte so verwenden,dass die Summe der Fehlerquadrate derVorhersagen, die uns ja bereits bekanntsind, minimiert wird – genannt Moving-Average-Verfahren.

Diese lineare Struktur entspricht aber ein-fach einem Singlelayerperceptron mit li-nearer Aktivierungsfunktion, welches mit

1 Ohne diesen Umstand weiter zu betrachten möch-te ich anmerken, dass die Vorhersage oft einfacherwird, je mehr vergangene Werte der Zeitreihe zurVerfügung stehen. Ich bitte den Leser, hierzu et-was zum Nyquist-Shannon-Abtasttheorem zu re-cherchieren.

Daten aus der Vergangenheit trainiertwurde (Der Versuchsaufbau würde derAbb. B.1 auf Seite 192 entsprechen). Inder Tat liefert ein Training mit der Delta-regel hier Ergebnisse, die der analytischenLösung sehr nahe liegen.

Auch wenn man damit oft schon sehrweit kommt, haben wir gesehen, dass manmit einem Singlelayerperceptron viele Pro-blemstellungen nicht abdecken kann. Wei-tere Schichten mit linearer Aktivierungs-funktion bringen uns auch nicht weiter, daein Multilayerperceptron mit ausschließ-lich linearen Aktivierungsfunktionen sichauf ein Singlelayerperceptron reduzierenlässt. Diese Überlegungen führen uns zumnichtlinearen Ansatz.

Uns steht mit dem Multilayerperceptronund nichtlinearen Aktivierungsfunktionenein universeller nichtlinearer Funktionsap-proximator zur Verfügung, wir könnten al-so ein n-|H|-1-MLP für n viele Eingabenaus der Vergangenheit verwenden. Auchein RBF-Netz wäre verwendbar, wir erin-nern uns aber daran, dass die Zahl n hierim kleinen Rahmen bleiben muss, da hoheEingabedimensionen in RBF-Netzen sehr


dkriesel.com B.4 Weitere Optimierungsansätze für die Prediction

aufwändig zu realisieren sind. Wenn manalso viele Werte aus der Vergangenheit miteinbeziehen will, ist ein Multilayerpercep-tron deutlich weniger rechenaufwändig.

B.3 Two Step AheadPrediction

Was für Lösungsansätze können wir dennfinden, wenn wir weiter in die Zukunft se-hen wollen?

B.3.1 Rekursive Two Step AheadPrediction

SpätereWerte

vorhersagen Um beispielsweise zwei Zeitschritte in dieZukunft zu schauen, könnten wir einfachzwei One Step Ahead Predictions hinter-einander ausführen (Abb. B.3 auf der fol-genden Seite), also eine rekursive TwoStep Ahead Prediction ausführen. Lei-der ist aber der von einer One Step AheadPrediction ermittelte Wert in aller Regelnicht exakt, so dass sich die Fehler schnellaufschaukeln können und, je öfter man diePredictions hintereinander ausführt, dasErgebnis immer ungenauer wird.

B.3.2 Direkte Two Step AheadPrediction

Wir ahnen schon, dass es eine bessere Va-riante gibt: So wie wir das System auf dieVorhersage des nächsten Wertes trainieren

DirekteVorhersage

besserkönnen, können wir das natürlich auch mitdem übernächsten Wert – wir trainieren al-so z.B. ein Neuronales Netz direkt darauf,

zwei Zeitschritte in die Zukunft zu blicken,was wir Direct Two Step Ahead Pre-diction (Abb. B.4 auf der folgenden Sei-te) nennen. Die Direct Two Step AheadPrediction ist offensichtlich technisch iden-tisch mit der One Step Ahead Prediction,der Unterschied liegt nur im Training.

B.4 WeitereOptimierungsansätze fürdie Prediction

Die Möglichkeit, in der Zukunft weiterentfernt liegende Werte vorherzusagen, istnicht nur wichtig, weil wir die Zukunft wei-ter vorhersagen zu versuchen – es kannauch periodische Zeitreihen geben, wo esanders schwer möglich ist: Wenn eine Vor-lesung jeden Dienstag um 09:00 Uhr statt-findet, nützt uns die Information, wievielePersonen Montags im Hörsaal saßen, fürdie Prädiktion der Vorlesungsteilnehmer-zahl sehr wenig. Gleiches gilt z.B. für peri-odisch auftretende Pendlerstaus.

B.4.1 Veränderung zeitlicherParameter

Es kann also sehr sinnvoll sein, in derZeitreihe sowohl in Vergangenheit als auchin Zukunft bewusst Lücken zu lassen, alsoden Parameter ∆t einzuführen, der angibt,der wievielte zurückliegende Wert jeweilszur Prädiktion genutzt wird. Wir bleiben

Eingabe-zeitraumstrecken

also technisch gesehen bei einer One StepAhead Prediction, und strecken nur denEingaberaum oder aber wir trainieren die



Prediktor

xt−3

..

xt−2

00

..

xt−1

00

--

xt

++

00

xt+1

OO

xt+2

Prediktor

JJ

Abbildung B.3: Darstellung der Two Step Ahead Prediction – aus einer Reihe vergangener Wer-te versucht man, durch einen zweiten Prediktor unter Einbeziehung eines bereits vorhergesagtenWertes den zweiten zukünftigen Wert vorherzusagen.

xt−3

..

xt−2

..

xt−1

--

xt

++

xt+1 xt+2

Prediktor

EE

Abbildung B.4: Darstellung der Direct Two Step Ahead Prediction. Hier wird direkt der zweiteZeitschritt vorhergesagt, und der erste übersprungen. Sie unterscheidet sich technisch nicht voneiner One Step Ahead Prediction.


dkriesel.com B.5 Bemerkungen zur Vorhersage von Aktienkursen

Vorhersage weiter entfernt liegender Wer-te.

Auch Kombinationen verschiedener ∆tsind möglich: Im Falle der Stauvorhersa-ge für einen Montag könnten zusätzlichzu den letzten Montagen die letzten paarTage als Dateninput genutzt werden. Wirnutzen so also die letzten Werte mehrererPerioden, in diesem Fall einer wöchentli-chen und einer täglichen. Wir könnten inForm der Ferienanfänge auch noch einejährliche hinzunehmen (jeder von uns hatbestimmt schon einmal viel Zeit auf derAutobahn verbracht, weil er den Ferienan-fang vergessen hatte).

B.4.2 Heterogene Prediction

Eine weitere Variante der Vorhersage wä-re, aus mehreren Zeitreihen etwas über dieZukunft einer einzigen Zeitreihe vorherzu-sagen, falls man annimmt, dass die zusätz-liche Zeitreihe etwas mit der Zukunft der

InformationenaußerhalbZeitreihenutzen

ersten zu tun hat (heterogene One StepAhead Prediction, Abb. B.5 auf der fol-genden Seite).

Will man zwei Ausgaben zu zwei Zeitrei-hen, welche etwas miteinander zu tun ha-ben, vorhersagen, kann man natürlich zweiparallele One Step Ahead Predictions aus-führen (dies wird analytisch oft gemacht,weil die Gleichungen sonst irgendwannsehr unübersichtlich werden) – oder manhängt im Falle der Neuronalen Netze ein-fach ein Outputneuron mehr an und nutztWissen von beiden Zeitreihen für beideAusgaben (Abb. B.6 auf der folgenden Sei-te).

Mehr und allgemeineres Material zumThema „Zeitreihen“ findet sich unter[WG94].

B.5 Bemerkungen zurVorhersage vonAktienkursen

Viele Personen schauen sich die Verände-rung eines Aktienkurses in der Vergangen-heit an und versuchen daraus auf die Zu-kunft zu schließen, um Profit daraus zu zie-hen. Aktienkurse sind aus sich selbst her-aus unstetig und daher prinzipiell schoneinmal schwierige Funktionen. Weiterhinkann man die Funktionen nur zu dis-kreten Werten abrufen, oft beispielsweiseim Tagesrhytmus (wenn man Glück hat,noch mit Maximal- und Minimalwertenpro Tag), wo natürlich die Tagesschwan-kungen wieder wegfallen. Dies macht dieSache auch nicht einfacher.

Es gibt nun Chartisten, also Personen,welche sich viele Diagramme anschauenund mit viel Hintergrundwissen und oftJahrzehnten an Erfahrung entscheiden, obWertpapiere gekauft werden sollten odernicht (und damit auch oft Erfolg ha-ben).

Neben den Wertpapierkursen sind auchWechselkurse von Währungen sehr inter-essant vorherzusagen: Wenn man 100 Eu-ro in Dollar umtauscht, diese in Pfundund diese wieder in Euro, kann passieren,dass man zum Schluss 110 Euro heraus-bekommt. Wenn man das allerdings her-ausgefunden hat, würde man das öfter ma-



xt−3

..

xt−2

..

xt−1

--

xt

++

xt+1

Prediktor

KK

yt−3

00

yt−2

00

yt−1

00

yt

33

Abbildung B.5: Darstellung der Heterogenen One Step Ahead Prediction. Vorhersage einer Zeitrei-he unter Betrachtung einer weiteren.

xt−3

..

xt−2

..

xt−1

--

xt

++

xt+1

Prediktor

KK

yt−3

00

yt−2

00

yt−1

11

yt

33

yt+1

Abbildung B.6: Heterogene One Step Ahead Prediction von zwei Zeitreihen gleichzeitig.


dkriesel.com B.5 Bemerkungen zur Vorhersage von Aktienkursen

chen und somit selbst die Wechselkurse ineinen Zustand verändern, in dem ein sol-cher vermehrender Kreislauf nicht mehrmöglich ist (wäre das nicht so, könnteman ja Geld herstellen, indem man sozusa-gen ein finanzielles Perpetuum Mobile er-schafft).

Gute Wertpapier- und Wechselkursbrokerheben oder senken den Daumen an derBörse – und geben damit an, ob eine Ak-tie oder ein Wechselkurs ihrer Meinungnach steigen wird. Sie geben also mathe-matisch ausgedrückt das erste Bit (Vorzei-chen) der ersten Ableitung des Wechsel-kurses an. Exzellente Weltklasse-Broker er-reichen damit Erfolgsraten von etwas über70%.

In Großbritannien ist es mit einer heteroge-nen One-Step-Ahead-Prediction gelungen,diese Vorhersagerichtigkeit auf 76% zu stei-gern: Zusätzlich zu der Zeitreihe des Wer-tes wurden noch Indikatoren miteinbezo-gen, wie z.B. der Ölpreis in Rotterdamoder die US-Staatsverschuldung.

Das einmal zur Größenordnung der Rich-tigkeit von Börsenschätzungen – wir redenja immer noch über das Erste Bit der Ers-ten Ableitung! Damit ist uns auch nochkeine Information gegeben, wie stark dererwartete Anstieg oder Abfall ist, und soauch nicht, ob sich der ganze Aufwandlohnt: Vielleicht macht uns eine einzigefalsche Vorhersage den ganzen Gewinn vonhundert richtigen wieder zunichte.

Wie verhalten sich also Neuronale Netzezur Aktienkursvorhersage? Wir nehmen jaganz intuitiv an, dass die Aktienkurswerte

der Zukunft eine Funktion der Aktienwer-te von Zeitpunkten davor sind.

Genau diese Annahme ist jedoch irrig: Ak-tienkurse sind keine Funktion ihrer Ver-gangenheit, sondern eine Funktion ihrer

AktienkursFunktion dermutmaßlichenZukunft!

mutmaßlichen Zukunft. Wir kaufen keineAktien, weil sie in den letzten Tagen sehrgestiegen sind – sondern weil wir den-ken, dass sie morgen höher steigen werden.Kaufen viele Personen aus diesem Einfallheraus eine Aktie, so treiben sie ihren Kursin die Höhe, und haben also mit ihrer Mut-maßung recht – es entsteht eine Self Ful-filling Prophecy, ein in der Wirtschaftlange bekanntes Phänomen.

Gleiches gilt für den umgekehrten Fall:Wir verkaufen Aktien, weil wir denken,dass sich morgen die Kurse nach unten be-wegen werden – was den Kurs am nächtenTag nach unten drückt und am übernächs-ten in aller Regel noch viel mehr.

Immer wieder taucht Software auf, die mitwissenschaftlichen Schlagworten wie z.B.Neuronalen Netzen behauptet, Aktienkur-se vorhersagen zu können. Kaufen Sie die-se nicht – zusätzlich zu den oben genann-ten wissenschaftlichen Ausschlusskriterienaus einem einfachen Grund: Wenn dieseTools so toll funktionieren – warum ver-kauft die Herstellerfirma sie dann? Nütz-liches Wirtschaftswissen wird in aller Re-gel geheimgehalten, und wenn wir einenWeg wüssten, garantiert mit Aktien reichzu werden, würden wir doch durch diesenWeg Millionen verdienen, und nicht in 30-Euro-Häppchen durch den Verkauf dessel-ben, oder?


Anhang C

Exkurs: Reinforcement LearningWas, wenn keine Trainingsbeispiele existieren, man aber trotzdem beurteilen

kann, wie gut man gelernt hat, ein Problem zu lösen? Betrachten wir einLernparadigma, welches zwischen überwachtem und unüberwachtem Lernen

anzusiedeln ist.

Wir wollen nun einen eher exotischen An-satz des Lernens kennenlernen – einfach,um einmal von den üblichen Verfahrenwegzukommen. Wir kennen Lernverfahren,in denen wir einem Netz genau sagen,was es tun soll, also beispielhafte Ausgabe-werte bereitstellen. Wir kennen ebenfallsLernverfahren, wie bei den Self OrganizingMaps, in denen ausschließlich Eingabewer-te gegeben werden.

Wir wollen nun eine Art Mittelding er-forschen: Das Lernparadigma des bestär-kenden Lernens – Reinforcement Learningnach Sutton und Barto [SB98].

Reinforcement Learning an sich ist keinNeuronales Netz, sondern nur eines derdrei Lernparadigmen, die wir bereits inKapitel 4 genannt haben. Manche Quellenzählen es zu den überwachten Lernverfah-ren, da man ein Feedback gibt – durch

KeineBeispiele,

aberFeedback

die sehr rudimentäre Art des Feedbacksist es aber begründet von den überwach-ten Lernverfahren abzugrenzen, mal ganz

abgesehen von der Tatsache, dass es keineTrainingsbeispiele gibt.

Während allgemein bekannt ist, dass Ver-fahren wie Backpropagation im Gehirnselbst nicht funktionieren können, wird Re-inforcement Learning allgemein als biolo-gisch wesentlich motivierter angesehen.

Der Ausdruck Reinforcement Learning(Bestärkendes Lernen) kommt aus denKognitionswissenschaften und der Psycho-logie und beschreibt das in der Natur über-all vorhandene Lernsystem durch Zucker-brot und Peitsche, durch gute Erfahrun-gen und schlechte Erfahrungen, Beloh-nung und Bestrafung. Es fehlt aber eineLernhilfe, die uns genau erklärt, was wirzu tun haben: Wir erhalten lediglich einGesamtergebnis für einen Vorgang (Habenwir das Schachspiel gewonnen oder nicht?Und wie sicher haben wir es gewonnen?),aber keine Ergebnisse für die Zwischen-schritte.

201

Anhang C Exkurs: Reinforcement Learning dkriesel.com

Fahren wir beispielsweise mit unseremFahrrad mit abgewetzten Reifen und einerGeschwindigkeit von exakt 21, 5kmh in ei-ner Kurve über Sand mit einer Korngrößevon durchschnittlich 0.1mm, so wird unsniemand genau sagen können, auf welchenWinkel wir den Lenker einzustellen haben,oder noch schlimmer, wie stark die Muskel-kontraktionen von unseren vielen Muskel-teilen in Arm oder Bein dafür sein müssen.Je nachdem, ob wir das Ende der Kurveunbeschadet erreichen, sehen wir uns abersehr schnell mit einer guten oder schlech-ten Lernerfahrung, einem Feedback bzw.Reward konfrontiert. Der Reward ist alsosehr einfach gehalten – aber dafür auchwesentlich einfacher verfügbar. Wenn wirnun oft genug verschiedene Geschwindig-keiten und Kurvenwinkel ausgetestet ha-ben und einige Rewards erhalten haben,werden wir in etwa ein Gefühl dafür be-kommen, was funktioniert und was nicht:Genau dieses Gefühl zu erhalten, ist dasZiel des Reinforcement Learnings.

Ein weiteres Beispiel für die Quasi-Unmöglichkeit, eine Art Kosten- oder Nut-zenfunktion zu erhalten, ist ein Tennis-spieler, der durch komplizierte Bewegun-gen und ballistische Bahnen im dreidimen-sionalen Raum unter Einberechnung vonWindrichtung, Wichtigkeit des Turniers,privaten Faktoren und vielem anderen ver-sucht, seinen sportlichen Ruhm auf langeZeit zu maximieren.

Um es gleich vorweg zu sagen: Da wir nurwenig Feedback erhalten, heißt Reinforce-ment Learning oft ausprobieren – und da-mit ist es recht langsam.

C.1 Systemaufbau

Wir wollen nun verschiedene Größen undBestandteile des Systems kurz anspre-chen, und sie in den nachfolgenden Ab-schnitten genauer definieren. Reinforce-ment Learning repräsentiert grob formu-liert die gegenseitige Interaktion zwischeneinem Agenten und einem Umweltsystem(Abb. C.2).

Der Agent soll nun irgendeine Aufgabe lö-sen, er könnte z.B. ein autonomer Robotersein, der Hindernisvermeidung betreibensoll. Der Agent führt in der Umwelt nunAktionen aus und bekommt von der Um-welt dafür ein Feedback zurück, das wir imfolgenden Reward nennen wollen. DieserKreis aus Aktion und Reward ist charak-teristisch für Reinforcement Learning. DerAgent beeinflusst das System, das Systemgibt einen Reward und verändert sich.

Der Reward ist ein reeller oder diskreterSkalar, welcher uns wie oben beschriebenangibt, wie gut wir unser Ziel erreichen,jedoch keine Anleitung vermittelt, wie wires erreichen können. Ziel ist immer, lang-fristig eine möglichst hohe Summe von Re-wards zu erwirtschaften.

C.1.1 Die Gridworld

Als Lernbeispiel für Reinforcement Lear-ning möchte ich gerne die sogenannteGridworld verwenden. Wir werden sehen,dass sie sehr einfach aufgebaut und durch-schaubar ist und daher eigentlich gar keinReinforcement Learning notwendig ist –trotzdem eignet sie sich sehr gut, die Vor-

EinfacheBeispiel-Welt


dkriesel.com C.1 Systemaufbau

gehensweisen des Reinforcement Learningan ihr darzustellen. Definieren wir nun dieeinzelnen Bestandteile des ReinforcementSystems beispielhaft durch die Gridworld.Wir werden jedes dieser Bestandteile spä-ter noch genauer beleuchten.

Umwelt: Die Gridworld (Abb. C.1) ist ei-ne einfache, diskrete Welt in zwei Di-mensionen, die wir im Folgenden alsUmweltsystem verwenden wollen.

Agent: Als Agent nehmen wir einen ein-fachen Roboter, der sich in unsererGridworld befindet.

Zustandsraum: Wie wir sehen, hat unse-re Gridworld 5× 7 Felder, von denen6 nicht begehbar sind. Unser Agentkann also 29 Positionen in der Grid-world besetzen. Diese Positionen neh-men wir für den Agenten als Zustän-de.

Aktionsraum: Fehlen noch die Aktionen.Definieren wir einfach, der Roboterkönnte jeweils ein Feld nach oben, un-ten, rechts oder links gehen (solangedort kein Hindernis oder der Rand un-serer Gridworld ist).

Aufgabe: Die Aufgabe unseres Agentenist es, aus der Gridworld hinauszufin-den. Der Ausgang befindet sich rechtsvon dem hell ausgefüllten Feld.

Nichtdeterminismus: Die beiden Hinder-nisse können durch eine „Tür“ verbun-den werden. Wenn die Tür geschlos-sen ist (unterer Teil der Abbildung),

×

×

Abbildung C.1: Eine graphische Darstellung un-serer Gridworld. Dunkel gefüllte Zellen sind Hin-dernisse und daher nicht begehbar. Rechts vondem hell gefüllten Feld ist der Ausgang. Das Sym-bol × markiert die Startposition unseres Agen-ten. Im oberen Teil der Abbildung ist die Türoffen, im unteren geschlossen.

ist das entsprechende Feld nicht be-gehbar. Die Tür kann sich nicht wäh-rend eines Durchlaufs verändern, son-dern nur zwischen den Durchläufen.

Wir haben nun eine kleine Welt geschaffen,die uns über die nachfolgenden Lernstrate-gien begleiten und sie uns anschaulich ma-chen wird.

C.1.2 Agent und Umwelt

Unser Ziel ist nun, dass der Agent lernt,was mit Hilfe des Rewards geschieht. Es



Agent

Aktion

Umwelt

Reward / neue Situation

??

Abbildung C.2: Der Agent führt Aktionen inseiner Umwelt durch, welche ihm einen Rewardgibt.

wird also über, von und mit einem dy-namischen System, der Umwelt, gelernt,um ein Ziel zu erreichen. Doch was genauheißt eigentlich Lernen in diesem Zusam-menhang?

Der Agent soll eine Abbildung von Situa-Agent

agiert inUmwelt

tionen auf Aktionen (genannt Policy) ler-nen, also lernen, was er in welcher Situati-on tun soll, um ein ganz bestimmtes (gege-benes) Ziel zu erreichen. Das Ziel wird demAgenten einfach aufgezeigt, indem er fürdas Erreichen eine Belohnung bekommt.

Die Belohnung ist nicht zu verwechselnmit dem Reward – vielleicht ist es auf demWeg des Agenten zur Problemlösung auchsinnvoll, zwischendurch hin und wieder et-was weniger Belohnung oder gar Strafe zubekommen, wenn das langfristige Ergeb-nis dafür maximal ist (ähnlich, wie wennein Anleger ein Tief eines Aktienkurses ein-fach aussitzt oder ein Bauernopfer beimSchach). Ist der Agent also auf einem gu-ten Weg zum Ziel, gibt es positiven Re-ward, wenn nicht, gibt es keinen oder sogar

negativen Reward (Strafe). Die Belohnungist sozusagen die schlussendliche Summealler Rewards – wir wollen sie auch Returnnennen.

Nachdem wir nun die Grundbestandtei-le umgangssprachlich benannt haben, wol-len wir in den folgenden Abschnittengenauer betrachten, aus was wir unserReinforcement-Learning-System abstraktzusammensetzen können.

In der Gridworld: Der Agent ist in derGridworld ein einfacher Roboter, der ausder Gridworld herausfinden soll. Umweltist die Gridworld selbst, eine diskrete Git-terwelt.

Definition C.1 (Agent). Der Agent beiReinforcement Learning kann formal be-schrieben werden als eine Abbildung vomSituationsraum S in den AktionsraumA(st). Was Situationen st sind, wird spä-ter noch definiert und soll nur aussagen,dass der Aktionsraum von der aktuellenSituation abhängig ist.

Agent: S → A(st) (C.1)

Definition C.2 (Umwelt). Die Umweltrepräsentiert eine stochastische Abbildungvon einer Aktion A unter der aktuellen Si-tuation st auf einen Reward rt und eineneue Situation st+1.

Umwelt: S ×A→ P (S × rt) (C.2)

C.1.3 Zustände, Situationen undAktionen

Wie wir schon angesprochen haben, kannein Agent sich innerhalb seiner Umwelt



in verschiedenen Zuständen befinden: ImFalle der Gridworld zum Beispiel an ver-schiedenen Orten (wir erhalten hier einenzweidimensionalen Zustandsvektor).

Es ist für den Agenten aber nicht immermöglich, alle Informationen seines aktuel-len Zustandes zu erfassen, weswegen wirden Begriff der Situation einführen müs-sen. Eine Situation ist ein Zustand ausAgentensicht, also nur eine mehr oder we-niger gute Approximation eines Zustan-des.

Situationen lassen es daher nicht imAllgemeinen zu, Folgesituationen eindeu-Wichtig!tig „vorherzusagen“ – selbst bei einem voll-ständig deterministischen System habenwir das vielleicht nicht gegeben. Wenn wiralle Zustände und die Übergänge dazwi-schen exakt kennen würden (also das ge-samte System), wäre eine optimale Pla-nung möglich und auch eine optimale Poli-cy einfach findbar – (Methoden liefert z.B.die dynamische Programmierung).

Wir wissen nun, dass das ReinforcementLearning eine Interaktion zwischen Agentund System mit Aktionen at und Situa-tionen st ist. Der Agent kann nun nichtselbst feststellen, ob die aktuelle Situationgut oder schlecht ist: Genau dies ist derGrund, warum er wie eingangs bereits be-schrieben von der Umwelt einen Rewarderhält.

In der Gridworld: Zustände sind die Or-te, an denen der Agent sich befinden kann.Situationen kommen den Zuständen in derGridworld vereinfachend gleich. MöglicheAktionen sind nach Norden, Süden, Ostenoder Westen zu gehen.

Situation und Aktion können vektoriellsein, der Reward jedoch ist immer ein Ska-lar (im Extremfall sogar nur ein Binär-wert), da das Ziel von Reinforcement Lear-ning ist, mit sehr wenig Feedback auszu-kommen – ein komplizierter vektoriellerReward käme ja einem richtigen TeachingInput gleich.

Im Übrigen soll ja eine Kostenfunktion mi-nimiert werden, was aber mit einem vek-toriellen Reward so nicht möglich wäre,da wir keine intuitiven Ordnungsrelatio-nen im Mehrdimensionalen besitzen – alsonicht direkt wissen, was jetzt besser oderschlechter ist.

Definition C.3 (Zustand). In einem Zu-stand befindet sich der Agent innerhalb sei-ner Umwelt. Zustände enthalten jede Infor-mation über den Agent im Umweltsystem.Es ist also theoretisch möglich, aus diesemgottähnlichen Zustandswissen einen Folge-zustand auf eine ausgeführte Aktion in ei-nem deterministischen System eindeutigvorherzusagen.

Definition C.4 (Situation). Situationenst (hier zum Zeitpunkt t) aus einem Si- Jsttuationsraum S sind das eingeschränkte,

JSapproximative Wissen des Agenten überseinen Zustand. Die Approximation (vonder der Agent nicht einmal wissen kann,wie gut sie ist) macht eindeutige Vorhersa-gen unmöglich.

Definition C.5 (Aktion). Aktionen atkönnen vom Agenten ausgeführt werden Jat(wobei es sein kann, dass je nach Situationein anderer Aktionsraum A(S) besteht)

JA(S)und bewirken Zustandsübergänge und da-



mit eine neue Situation aus Sicht des Agen-ten.

C.1.4 Reward und Return

Wie im wirklichen Leben ist unser Ziel, ei-ne möglichst hohe Belohnung zu erhalten,also die Summe der erwarteten Rewardsr, genannt Return R, langfristig zu ma-ximieren. Bei endlich vielen Zeitschritten1

kann man die Rewards einfach aufsummie-ren:

Rt = rt+1 + rt+2 + . . . (C.3)

=∞∑x=1

rt+x (C.4)

Der Return wird hierbei natürlich nurabgeschätzt (Würden wir alle Rewardsund damit den Return komplett kennen,bräuchten wir ja nicht mehr lernen).Definition C.6 (Reward). Ein Rewardrt ist eine skalare, reelle oder diskrete

rtI (manchmal sogar nur binäre) Belohnungs-oder Bestrafungsgröße, welche dem Agen-ten vom Umweltsystem als Reaktion aufeine Aktion gegeben wird.Definition C.7 (Return). Der ReturnRt ist die Aufkumulierung aller erhaltenen

RtI Rewards bis zum Zeitpunkt t.

C.1.4.1 Umgang mit großenZeiträumen

Nicht alle Problemstellungen haben aberein explizites Ziel und damit eine endliche1 Soviel sind in der Praxis ja nur möglich, auch wenndie Formeln prinzipiell mit unendlichen Summenarbeiten

Summe (unser Agent kann zum Beispielein Roboter sein, der die Aufgabe hat, ein-fach immer weiter herumzufahren und Hin-dernissen auszuweichen).

Um im Falle einer unendlichen Reihe vonReward-Abschätzungen keine divergieren-de Summe zu erhalten, wird ein abschwä-chender Faktor 0 < γ < 1 verwendet, Jγder den Einfluss ferner erwarteter Rewardsabschwächt: Das ist nicht nur dann sinn-voll, wenn kein Ziel an sich existiert, son-dern auch, wenn das Ziel sehr weit entferntist:

Rt = rt+1 + γ1rt+2 + γ2rt+3 + . . . (C.5)

=∞∑x=1

γx−1rt+x (C.6)

Je weiter die Belohnung weg ist, umso we-niger Anteil hat sie also an den Entschei-dungen des Agenten.

Eine andere Möglichkeit, die Return-Summe zu handhaben, wäre ein begrenz-ter Zeithorizont τ , so dass nur τ viele Jτfolgende Rewards rt+1, . . . , rt+τ betrachtetwerden:

Rt = rt+1 + . . .+ γτ−1rt+τ (C.7)

=τ∑x=1

γx−1rt+x (C.8)

Wir unterteilen also den Zeitstrahl in Epi-soden. Üblicherweise wird eine der beidenMethoden zur Begrenzung der Summe ver-wendet, wenn nicht sogar beide gemein-sam.

Wir versuchen also wie im täglichen Le-ben, unsere aktuelle Situation an einen



gewünschten Zustand zu approximieren.Da nicht zwangsläufig nur der folgendeerwartete Reward, sondern die erwarteteGesamtsumme bestimmt, was der Agenttut, können auch Aktionen durchgeführtwerden, die kurzfristig erst einmal negati-ven Reward ergeben (z.B. das Bauernopferbeim Schach), sich jedoch später auszah-len.

C.1.5 Die Policy

Nachdem wir nun einige Systemelemen-te des Reinforcement Learnings genau be-trachtet und formalisiert haben, bleibtnoch das eigentliche Ziel zu betrachten:

Der Agent lernt während des Reinforce-ment Learnings eine Policy

ΠIΠ : S → P (A),

er justiert also fortlaufend eine Abbildungvon den Situationen auf die Wahrschein-lichkeiten P (A), mit denen jede Aktion Ain jeder Situation S ausgeführt wird. Ei-ne Policy kann definiert werden als eineStrategie, Aktionen auszuwählen, die denReward auf lange Zeit maximiert.

In der Gridworld: Die Policy ist in derGridworld die Strategie, nach der derAgent versucht, aus der Gridworld heraus-zufinden.

Definition C.8 (Policy). Die Policy Π isteine Abbildung von Situationen auf Wahr-scheinlichkeiten, jede Aktion aus dem Ak-tionsraum A auszuführen. Sie ist also for-malisierbar als

Π : S → P (A). (C.9)

Wir unterscheiden hierbei grundsätzlichzwischen zwei Paradigmen von Policies: Ei-ne Open Loop Policy stellt eine offe-ne Steuerkette dar und bildet aus einerStartsituation s0 eine Sequenz von Aktio-nen a0, a1, . . . mit ai 6= ai(si); i > 0. DerAgent erstellt also zu Beginn einen Planund führt ihn sukzessive bis zum Ende aus,ohne die zwischenzeitlichen Situationen zuberücksichtigen (daher ai 6= ai(si), Aktio-nen nach a0 hängen nicht von den Situa-tionen ab).

In der Gridworld: Eine Open Loop Po-licy würde uns in der Gridworld für ei-ne Startposition eine exakte Wegbeschrei-bung zum Ausgang liefern, z.B. von der an-gegebenen Startposition den Weg (in Him-melsrichtungsabkürzungen) OOOON.

Eine Open Loop Policy ist also eine Se-quenz von Aktionen ohne zwischenzeitli-ches Feedback. Aus einer Startsituationwird eine Sequenz von Aktionen generiert.Wenn man das System 100%ig kennt, kannman mit einer solchen Open Loop Poli-cy erfolgreich arbeiten und zu sinnvollenErgebnissen gelangen. Um aber z.B. dasSchachspiel 100% zu kennen, müssten wiralle Spielzüge durchprobieren, was sehraufwändig ist. Wir müssen uns für derarti-ge Problemstellungen also eine Alternativezur Open Loop Policy suchen, die aktuelleSituationen in die Handlungsplanung mit-einbezieht:

Eine Closed Loop Policy ist ein ge-schlossener Regelkreis, gewissermaßen ei-ne Funktion

Π : si → ai mit ai = ai(si).



Hier übt die Umwelt Einfluss auf unsereAktionen aus bzw. der Agent reagiert aufInput der Umwelt, wie schon in Abb. C.2dargestellt. Die Closed Loop Policy ist ge-wissermaßen ein reaktiver Plan, der aktuel-le Situationen auf auszuführende Aktionenabbildet.

In der Gridworld: Eine Closed Loop Policywürde auf die Aktuelle Position eingehenund Richtungen nach der Aktion auswäh-len. Insbesondere wenn dynamisch ein Hin-dernis erscheint, ist eine solche Policy diebessere Wahl.

Bei der Wahl der auszuführenden Aktio-nen können wieder zwei grundsätzlicheStrategien betrachtet werden.

C.1.5.1 Exploitation vs. Exploration

Wie im wirklichen Leben stellt sich wäh-rend des Reinforcement Learnings oft dieFrage, ob vorhandenes Wissen stur ausge-nutzt, oder aber auch neue Wege auspro-biert werden. Wir wollen zunächst die zweiExtrema betrachten:

Forschungoder

Sicherheit? Eine Greedy Policy wählt immer denWeg des höchsten Rewards, den wir im vor-aus bestimmen können, also des höchstenbekannten Rewards. Diese Policy repräsen-tiert denExploitation-Ansatz und ist er-folgversprechend, wenn man das behandel-te System bereits kennt.

Im Gegensatz zum Exploitation-Ansatzsteht der Exploration-Ansatz, der zumZiel hat, ein System möglichst umfassendzu erforschen, so dass auch Wege zum Zielgefunden werden können, welche auf den

ersten Blick vielleicht nicht erfolgverspre-chend aussehen, es aber dennoch sind.

Angenommen, wir suchen einen Weg zumRestaurant, so wäre eine auf Nummer si-cher gehende Policy, von überall den Wegzu nehmen, den wir kennen, so unoptimalund lang er auch sein mag, und nicht zuversuchen, bessere Wege zu erforschen. Einanderer Ansatz wäre, auch hin und wiedernach kürzeren Wegen zu forschen, selbstauf die Gefahr hin, dass die Forschunglange dauert, nichts bringt und wir daherzum Schluß doch den ursprünglichen Wegnehmen und zu spät ins Restaurant kom-men.

In der Realität wird oft eine Kombinati-on beider Verfahren angewandt: Zum An-fang eines Lernvorgangs wird mit höhe-rer Wahrscheinlichkeit geforscht, währendzum Ende mehr vorhandenes Wissen aus-genutzt wird. Auch eine statische Wahr-scheinlichkeitsverteilung ist hier möglichund wird oft angewandt.

In der Gridworld: Für die Wegsuche in derGridworld gilt das Restaurantbeispiel na-türlich analog.

C.2 Lernvorgang

Betrachten wir wieder das tägliche Leben.Von einer Situation können wir durch Ak-tionen in verschiedene Untersituationengeraten, von jeder Untersituation wiederin Unteruntersituationen. Gewissermaßenerhalten wir einen Situationsbaum, wo-bei man Verknüpfungen unter den Knoten


dkriesel.com C.2 Lernvorgang

berücksichtigen muss (oft gibt es mehre-re Wege, wie man zu einer Situation ge-langen kann – der Baum könnte also tref-fender als Situationsgraph bezeichnet wer-den). Blätter des Baums sind Endsituatio-nen des Systems. Der Exploration-Ansatzwürde den Baum möglichst genau durch-suchen und alle Blätter kennenlernen, derExploitation-Ansatz zielsicher zum bestenbekannten Blatt gehen.

Analog zum Situationsbaum können wiruns auch einen Aktionsbaum aufbauen –hier stehen dann in den Knoten die Re-wards für die Aktionen. Wir müssen nunvom täglichen Leben adaptieren, wie ge-nau wir lernen.

C.2.1 Strategien zur Rewardvergabe

Interessant und von großer Wichtigkeit istdie Frage, wofür man einen Reward ver-gibt und was für einen Reward man ver-gibt, da das Design des Rewards das Sys-temverhalten maßgeblich steuert. Wie wiroben gesehen haben, gibt es (wieder ana-log zum täglichen Leben) in der Regelzu jeder Situation verschiedene Aktionen,welche man ausführen kann. Es existie-ren verschiedene Strategien, um die ausge-wählten Situationen zu bewerten und sodie zum Ziel führende Aktionsfolge zu ler-nen. Diese sollen im Folgenden erst einmalgrundsätzlich erläutert werden.

Wir wollen nun einige Extremfälle als De-signbeispiele zum Reward anbringen:

Als Pure Delayed Reward bezeichnenwir eine Rewardvergabe ähnlich wie beim

Schachspiel: Wir erhalten unsere Beloh-nung zum Schluss, und während des Spielskeine. Diese Methode ist immer dann vonVorteil, wenn man am Ende genau sagenkann, ob man Erfolg gehabt hat, aberin den Zwischenschritten nicht genau ein-schätzen kann, wie gut die eigene Situati-on ist. Es gilt

rt = 0 ∀t < τ (C.10)

sowie rτ = 1 bei Gewinn und rτ = −1bei Verlust. Bei dieser Rewardstrategie ge-ben nur die Blätter des Situationsbaumeseinen Reward zurück.

Pure Negative Reward: Hier gilt

rt = −1 ∀t < τ. (C.11)

Dieses System findet den schnellsten Wegzum Ziel, weil dieser automatisch auch dergünstigste in Bezug auf den Reward ist.Man wird bestraft für alles, was man tut –selbst wenn man nichts tut, wird man be-straft. Diese Strategie hat zur Folge, dasses die preiswerteste Methode für den Agen-ten ist, schnell fertig zu werden.

Als weitere Strategie betrachten wir dieAvoidance Strategy: Schädlichen Situa-tionen wird aus dem Weg gegangen. Esgilt

rt ∈ 0,−1, (C.12)

Fast alle Situationen erhalten hier gar kei-nen Reward, nur einige wenige erhalteneinen negativen. Diese negativen Situa-tionen wird der Agent weiträumig umge-hen.



Achtung: Rewardstrategien können leichtunerwartete Folgen haben. Ein Roboter,dem man sagt „mach was du willst, aberwenn du ein Hindernis berührst, kriegst dueine Strafe“, wird einfach stehenbleiben.Wird Stehenbleiben folglich auch bestraft,wird er kleine Kreise fahren. Bei näheremÜberlegen kommt man auf den Gedanken,dass diese Verhaltensweisen den Returndes Roboters optimal erfüllen, aber leidernicht von uns intendiert waren.

Man kann weiterhin zeigen, dass insbeson-dere kleine Aufgaben mit negativen Re-wards besser gelöst werden können wäh-rend man bei großen, komplizierten Auf-gaben mit positiven, differenzierteren Re-wards weiter kommt.

In Bezug auf unsere Gridworld wollen wirden Pure Negative Reward als Strategiewählen: Der Roboter soll möglichst schnellzum Ausgang finden.

C.2.2 Die State-Value-Funktion

Im Gegensatz zu unserem Agenten habenZuständebewerten wir eine gottgleiche Sicht auf unsere Grid-

world, so dass wir schnell bestimmen kön-nen, welche Roboterstartposition welchenoptimalen Return erreichen kann.

In Abbildung C.3 sind diese optimalen Re-turns pro Feld aufgetragen.

In der Gridworld: Die State-Value-Funktion für unsere Gridworld stelltgenau eine solche Funktion pro Situation(= Ort) dar, mit dem Unterschied, dasssie nicht bekannt ist, sondern gelerntwerden muss.

-6 -5 -4 -3 -2-7 -1-6 -5 -4 -3 -2-7 -6 -5 -3-8 -7 -6 -4-9 -8 -7 -5-10 -9 -8 -7 -6

-6 -5 -4 -3 -2-7 -1-8 -9 -10 -2-9 -10 -11 -3-10 -11 -10 -4-11 -10 -9 -5-10 -9 -8 -7 -6

Abbildung C.3: Darstellung des jeweils optima-len Returns pro Feld in unserer Gridworld unterder Pure Negative Reward-Vergabe, oben mit of-fener Tür und unten mit geschlossener.

Wir sehen also, dass es für den Robo-ter praktisch wäre, die aktuellen wie zu-künftigen Situationen einer Bewertung un-terziehen zu können. Betrachten wir al-so ein weiteres Systemelement des Re-inforcement Learning, die State-Value-Funktion V (s), welche mit Bezug auf ei-ne Policy Π auch oft als VΠ(s) bezeichnetwird: Denn ob eine Situation schlecht ist,hängt ja auch davon ab, was der Agentfür ein Allgemeinverhalten Π an den Taglegt.

Eine Situation, die unter einer risiko-suchenden, Grenzen austestenden Policyschlecht ist, wäre beispielsweise, wenn ei-nem Agent auf einem Fahrrad das Vorder-



rad in der Kurve anfängt wegzurutschenund er in dieser Situation aufgrund seinerDraufgänger-Policy nicht bremst. Mit ei-ner risikobewussten Policy sähe dieselbeSituation schon viel besser aus, würde al-so von einer guten State-Value-Funktionhöher bewertet werden.

VΠ(s) gibt einfach den Wert zurück, denVΠ(s)I die aktuelle Situation s unter der Policy Π

für den Agenten gerade hat. Abstrakt nachden obigen Definitionen gesagt, entsprichtder Wert der State-Value-Funktion demReturn Rt (dem erwarteten Wert) einer Si-tuation st. EΠ bezeichnet hierbei die Men-ge der erwarteten Returns unter Π und deraktuellen Situation st.

VΠ(s) = EΠRt|s = st

Definition C.9 (State-Value-Funktion).Die State-Value-Funktion VΠ(s) hat zurAufgabe, den Wert von Situationen untereiner Policy zu ermitteln, also dem Agen-ten die Frage zu beantworten, ob eine Si-tuation s gut oder schlecht ist oder wie gutbzw. schlecht sie ist. Hierfür gibt sie denErwartungswert des Returns unter der Si-tuation aus:

VΠ(s) = EΠRt|s = st (C.13)

Die optimale State-Value-Funktion nen-nen wir V ∗Π(s).

V ∗Π(s)I

Nun hat unser Roboter im Gegensatz zuuns leider keine gottgleiche Sicht auf sei-ne Umwelt. Er besitzt keine Tabelle mitoptimalen Returns, wie wir sie eben auf-gezeichnet haben, an der er sich orientie-ren könnte. Das Ziel von Reinforcement

Learning ist es, dass der Roboter sich sei-ne State-Value-Funktion anhand der Re-turns aus vielen Versuchen nach und nachselbst aufbaut und der optimalen State-Value-Funktion V ∗ annähert (wenn es einegibt).

In diesem Zusammenhang seien noch zweiBegriffe eingeführt, welche eng mit demKreislauf zwischen State-Value-Funktionund Policy verbunden sind:

C.2.2.1 Policy evaluation

Policy evaluation nennt man die Vorge-hensweise, eine Policy einige Male durch-zuprobieren, auf diese Weise viele Rewardszu erhalten und durch diese mit der Zeiteine State-Value-Funktion aufzukumulie-ren.

C.2.2.2 Policy improvement

Policy improvement bedeutet, eine Po-licy selbst zu verbessern, also aus ihr eineneue, bessere Policy zu erzeugen. Um diePolicy zu verbessern, müssen wir das Zielverfolgen, dass der Return zum Schlusseinen größeren Wert hat als vorher – manalso einen kürzeren Weg zum Restaurantgefunden hat und ihn auch erfolgreich ge-gangen ist.

Das Prinzip des Reinforcement Learningsist nun, ein Wechselspiel zu realisieren.Man versucht zu bewerten, wie gut ei-ne Policy in den einzelnen Situationenist. Wir probieren eine Policy und erhal-ten eine veränderte State-Value-Funktion.



V))

Πii

V ∗ Π∗

Abbildung C.4: Der Kreislauf desReinforcement-Learnings, welcher idealerweisezu optimalem Π∗ bzw. V ∗ führt.

Aus der Veränderung der State-Value-Funktion gewinnen wir Informationenüber das System, aus der wir wieder un-sere Policy verbessern. Diese beiden Wer-te ziehen sich nun gegenseitig hoch, wassich auch mathematisch beweisen lässt –so dass man zum Schluß eine optimalePolicy Π∗ und eine optimale State-Value-Funktion V ∗ erhält (Abb. C.4). DieserKreislauf hört sich einfach an, ist aber sehrlangwierig.

Betrachten wir nun zuerst eine einfache,zufällige Policy, wie unser Roboter sei-ne State-Value-Funktion ohne Vorwissenlangsam ausfüllen und verbessern könn-te.

C.2.3 Montecarlo-Methodik

Die einfachste Taktik, eine State-Value-Funktion aufzukumulieren, ist das reineAusprobieren. Wir wählen also eine sichrein zufällig verhaltende Policy, welche dieaufkumulierte State-Value-Funktion für ih-re Zufallsentscheidungen nicht berücksich-tigt. Es lässt sich beweisen, dass wir in un-

serer Gridworld irgendwann einmal durchZufall den Ausgang finden werden.

Angelehnt an die auf Zufall basierendenGlücksspiele nennen wir diese Vorgehens-weise Montecarlo-Methodik.

Gehen wir weiterhin von einem Pure Nega-tive Reward aus, so ist klar, dass wir für un-ser Startfeld in der State-Value-Funktioneinen Bestwert von −6 erhalten können. Jenachdem, welchen zufälligen Weg die zufäl-lige Policy aber einschlägt, können ande-re (kleinere) Werte als −6 für das Start-feld auftreten. Intuitiv möchten wir unsfür einen Zustand (also ein Feld) jeweilsnur den besseren Wert merken. Hier ist je-doch Vorsicht geboten: So würde das Lern-verfahren nur bei deterministischen Sys-temen funktionieren. Unsere Tür, die proDurchlauf entweder offen oder geschlossensein kann, würde Oszillationen bei allenFeldern hervorrufen, deren kürzester Wegzum Ziel durch sie beeinflusst wird.

Wir verwenden bei der Montecarlo-Methodik also lieber die Lernregel2

V (st)neu = V (st)alt + α(Rt − V (st)alt),

in der offensichtlich sowohl der alte Zu-standswert als auch der erhaltene ReturnEinfluss auf die Aktualisierung der State-Value-Funktion haben (α ist die Lernra- Jαte). Der Agent erhält also eine Art Erinne-rungsvermögen, neue Erkenntnisse ändernimmer nur ein wenig am Situationswert.Ein beispielhafter Lernschritt findet sichin Abb. C.5 auf der rechten Seite.2 Sie wird u.a. unter Verwendung der Bellman-

Gleichung hergeleitet, die Herleitung ist aber nichtBestandteil des Kapitels.



In dem Beispielbild wurde nur die Zu-standswertberechnung für einen einzigenZustand (unseren Startzustand) aufgetra-gen. Dass es möglich ist und auch oft ge-macht wird, die Werte für die zwischen-durch besuchten Zustände (im Fall derGridworld unsere Wege zum Ziel) gleichmit zu trainieren, sollte offensichtlich sein.Das Ergebnis einer solchen Rechnung inBezug auf unser Beispiel findet sich inAbb. C.6 auf der folgenden Seite.

Die Montecarlo-Methodik mag subopti-mal erscheinen und ist auch im Regelfallwesentlich langsamer als die nachfolgendvorgestellten Methoden des ReinforcementLearnings - allerdings ist sie die einzige,bei der man mathematisch beweisen kann,dass sie funktioniert und eignet sich dahersehr für theoretische Betrachtungen.

Definition C.10 (Montecarlo-Lernen).Es werden zufällig Aktionen ohne Rück-sicht auf die State-Value-Funktion ausge-führt und langfristig eine aussagekräftigeState-Value-Funktion mit untenstehenderLernregel aufkumuliert.

V (st)neu = V (st)alt + α(Rt − V (st)alt),

C.2.4 Temporal Difference Learning

Wir lernen im täglichen Leben weitestge-hend durch Erfahrung und Ausprobieren.Das Allermeiste, was wir lernen, geschiehtdurch Erfahrung; blessurenfrei (oder ebenauch nicht) gehen und Fahrrad fahren,auch geistige Fertigkeiten wie mathemati-sches Problemlösen profitieren sehr von Er-fahrung und schlichtem Ausprobieren (Tri-

-1-6 -5 -4 -3 -2

-1-14 -13 -12 -2

-11 -3-10 -4-9 -5-8 -7 -6

-10

Abbildung C.5: Anwendung der Montecarlo-Lernregel mit einer Lernrate von α = 0.5. Obensind beispielhaft zwei Wege aufgetragen, die derAgent durch Zufall wählt (einer mit offener, ei-ner mit geschlossener Tür). Unten das Ergebnisder Lernregel für den Wert des Startzustandsunter Berücksichtigung beider Wege. Dadurch,dass unter zufälliger Policy mit der Zeit sehr vieleverschiedene Wege gegangen werden, erhält maneine sehr aussagekräftige State-Value-Funktion.



-1-10 -9 -8 -3 -2

-11 -3-10 -4-9 -5-8 -7 -6

Abbildung C.6: Erweiterung des Lernbeispielsaus Abb. C.5, in dem auch die Returns fürZwischenzustände zur Aufkumulierung der State-Value-Funktion herangezogen werden. Sehrschön zu beobachten ist der niedrige Wert aufdem Türfeld: Wenn dieser Zustand eingenom-men werden kann, ist er ja sehr positiv, wenndie Tür zu ist, kann er gar nicht eingenommenwerden.

al and Error). Wir initialisieren also unse-re Policy mit irgendwelchen Werten - pro-bieren aus, lernen und verbessern die Po-licy so aus Erfahrung (Abb. C.7). Im Un-terschied zur Montecarlo-Methodik wollenwir dies nun auf eine gerichtetere Art undWeise tun.

Genau wie wir durch Erfahrung lernen, inverschiedenen Situationen auf bestimmteWeise zu reagieren, macht es die Tempo-ral Difference Lernmethode (kurz: TD-Learning), indem VΠ(s) trainiert wird(der Agent lernt also einschätzen, wel-che Situationen viel wert sind und welchenicht). Wir bezeichnen wieder die aktuelleSituation mit st, die nachfolgende Situati-on mit st+1 und so weiter. Die Lernformel

Π

Evaluation

!!Q

Policy verbessern

aa

Abbildung C.7: Wir probieren Aktionen in derUmwelt aus und lernen so und verbessern diePolicy.

für die State-Value-Funktion VΠ(st) ergibtsich also zu

V (st)neu =V (st)+ α(rt+1 + γV (st+1)− V (st))︸︷︷︸

Veränderung des alten Wertes

Wir sehen, dass die zur Lernrate α propor-tionale Veränderung des Wertes der aktu-ellen Situation st beeinflusst wird von

. dem empfangenen Reward rt+1,

. dem mit einem Faktor γ gewichtetenbisherigen Return der Nachfolgesitua-tion V (st+1),

. dem alten Wert der Situation V (st).

Definition C.11 (Temporal Diffe-rence Learning). Im Unterschiedzur Montecarlo-Methodik schaut TD-Learning etwas in die Zukunft, indem dieNachfolgesituation st+1 betrachtet wird.Die Lernregel ist definiert zu

V (st)neu =V (st) (C.14)

+ α(rt+1 + γV (st+1)− V (st))︸︷︷︸Veränderung des alten Wertes

.



0× +1-1

Abbildung C.8: Beispielhafte Werte einerAction-Value-Funktion für die Position ×. Nachrechts gehend bleibt man auf dem schnellstenWeg zum Ziel, nach oben ist immer noch einrecht schneller Weg, nach unten zu gehen istkein guter Weg (alles im Falle einer offenenTür).

C.2.5 Die Action-Value-Funktion

Analog zur State-Value-Funktion VΠ(s)ist ein weiterer Systembestandteil desReinforcement Learning die Action-

Aktionenbewerten Value-Funktion QΠ(s, a), welche eine be-

QΠ(s, a)I stimmte Aktion a unter einer bestimmtenSituation s und der Policy Π bewertet.

In der Gridworld: In der Gridworld sagtuns die Action-Value-Funktion, wie gut esist, von einem bestimmten Feld in eine be-stimmte Richtung zu gehen (Abb. C.8).

Definition C.12 (Action-Value-Funkti-on). Analog zur State-Value-Funktionbewertet die Action-Value-FunktionQΠ(st, a) bestimmte Aktionen ausgehendvon bestimmten Situationen untereiner Policy. Die optimale Action-Value-Funktion benennen wir mitQ∗Π(st, a).

Q∗Π(s, a)I

Wie in Abb. C.9 ersichtlich, führen wir Ak-tionen so lange durch, bis eine Zielsituati-on (hier sτ genannt) erreicht ist (wenn eseine gibt, ansonsten werden einfach immerweiter Aktionen durchgeführt).

C.2.6 Q-Learning

Recht analog ergibt sich als Lernformel fürdie Action-Value-Funktion QΠ(s, a), derenBenutzung wir analog zum TD-Learningals Q-Learning bezeichnen:

Q(st, a)neu =Q(st, a)+ α(rt+1 + γmax

aQ(st+1, a)︸︷︷︸

Greedy-Strategie

−Q(st, a))

︸︷︷︸Veränderung des alten Wertes

.

Wir schlüsseln wieder die (zur Lernrate αproportionale) Veränderung des aktuellenAktionswertes unter der aktuellen Situati-on auf. Sie wird beeinflusst von

. dem empfangenen Reward rt+1,

. dem mit γ gewichteten maximalen Ac-tion Value über die Nachfolgeaktio-nen (hier wird eine Greedy-Strategieangewendet, da man ruhig davonausgehen kann, dass man die bes-te bekannte Aktion wählt, beim TD-Learning achten wir hingegen nichtdarauf, immer in die beste bekanntenächste Situation zu kommen),

. dem alten Wert der Aktion unterunserer als st bekannten SituationQ(st, a) (nicht vergessen, dass auchdieser durch α gewichtet ist).



GFED@ABCs0a0 //

Aktionsrichtung

((GFED@ABCs1a1 //

r1kk GFED@ABC· · · aτ−2 //

r2kk ONMLHIJKsτ−1

aτ−1 //rτ−1kk GFED@ABCsτ

rτll

Rewardrichtung

hh

Abbildung C.9: Aktionen werden durchgeführt, bis eine gewünschte Zielsituation erreicht ist. Zubeachten ist die Durchnummerierung: Rewards werden von 1 an nummeriert, Aktionen und Situa-tionen von 0 an (Dies hat sich einfach eingebürgert).

In aller Regel lernt die Action-Value-Funktion wesentlich schneller als die State-Value-Funktion, wobei aber nicht zu ver-nachlässigen ist, dass Reinforcement Lear-ning allgemein recht langsam ist: Das Sys-tem muss ja selbst herausfinden, was gutist. Schön ist aber am Q-Learning: Πkann beliebig initialisiert werden, durch Q-Learning erhalten wir immer Q∗.

Definition C.13 (Q-Learning).Q-Learning trainiert die Action-Value-Funktion mit der Lernregel

Q(st, a)neu =Q(st, a) (C.15)+ α(rt+1 + γmax

aQ(st+1, a) −Q(st, a)).

und findet so auf jeden Fall Q∗.

C.3 Beispielanwendungen

C.3.1 TD-Gammon

TD-Gammon ist ein sehr erfolgreiches,auf TD-Learning basierendes Backgam-

monspiel von Gerald Tesauro. Situa-tion ist hier die aktuelle Konfigurationdes Spielbrettes. Jedem, der schon einmalBackgammon gespielt hat, ist klar, dassder Situationsraum gigantisch groß ist (ca.1020 Situationen) – was zur Folge hat, dassman keine State-Value-Funktione explizitausrechnen kann (insbesondere zur Zeitdes TD-Gammons Ende der 80er Jahre).Die gewählte Rewardstrategie war PureDelayed Reward, das System erhält denReward also erst zum Schluss des Spiels,der dann gleichzeitig der Return ist. Manhat das System dann selbstständig übenlassen (zunächst gegen ein Backgammon-programm, danach gegen eine Instanz sei-ner selbst). Resultat war, das es in einerComputer-Backgammon-Liga das höchsteRanking erreicht hat und eindrucksvoll wi-derlegt war, dass ein Computerprogrammeine Tätigkeit nicht besser beherrschenkann als sein Programmierer.


dkriesel.com C.3 Beispielanwendungen

C.3.2 Das Auto in der Grube

Betrachten wir ein Auto, das auf eindi-mensionaler Fahrbahn am Fuß einer tiefenMulde steht, und die Steigung zu keinerder beiden Seiten auf Anhieb mit seinerMotorkraft überwinden kann, um aus derMulde hinauszufahren. Ausführbare Aktio-nen sind hier trivialerweise die Möglich-keiten, vorwärts und rückwärts zu fahren.Die intuitive Lösung, an welche wir alsMenschen sofort denken, ist zurückzuset-zen, an der gegenüberliegenden SteigungSchwung zu holen und mehrmals auf dieseWeise hinund her zu oszillieren, um mitSchwung aus der Mulde herauszufahren.

Aktionen eines Reinforcement LearningSystems wären „Vollgas nach vorn“, „Voll-gas zurück“ und „nichts tun“.

Hier wäre „Alles kostet“ eine gute Wahlfür die Rewardvergabe, so dass das Sys-tem schnell lernt, aus der Grube herauszu-kommen und merkt, dass unser Problemmit purer vorwärts gerichteter Motorkraftnicht zu lösen ist. Das System wird sichalso langsam hochschaukeln.

Hier können wir die Policy nicht mehrals Tabelle ablegen, da der Zustandsraumnicht gut diskretisierbar ist. Hier musswirklich eine Funktion als Policy geschaf-fen werden.

C.3.3 Der Pole Balancer

Der Pole Balancer wurde entwickelt vonBarto, Sutton und Anderson.

Gegeben sei eine Situation, welche einFahrzeug beinhaltet, das sich entweder mitVollgas nach rechts oder mit Vollgas nachlinks bewegen kann (Bang-Bang-Control).Es kann nur diese beiden Aktionen aus-führen, Stehenbleiben ist nicht möglich.Auf diesem Fahrzeug steht senkrecht eineStange, welche zu beiden Seiten umkippenkann. Die Stange ist so konstruiert, dasssie immer in Richtung einer Seite kippt,also niemals stillsteht (sagen wir einfach,sie sei am unteren Ende abgerundet).

Den Winkel, in dem die Stange im Mo-ment relativ zur Senkrechten steht, be-zeichnen wir mit α. Das Fahrzeug besitztweiterhin immer eine definierte Position xauf unserer eindimensionalen Welt und im-mer eine Geschwindigkeit x. Unsere eindi-mensionale Welt ist begrenzt, es gibt alsoMaximal- und Minimalwerte, welche x an-nehmen kann.

Ziel unseres Systems ist zu lernen, den Wa-gen dahingehend zu steuern, dass er dasKippen der Stange ausgleicht, die Stangealso nicht umfällt. Dies erreichen wir ambesten mit einer Avoidance Strategy: So-lange die Stange nicht umgefallen ist, gibtes einen Reward von 0, fällt sie um, gibtes einen Reward von -1.

Interessanterweise ist das System schnellin der Lage, den Stab stehend zu halten,indem es schnell genug mit kleinen Bewe-gungen daran wackelt. Es hält sich hierbeizumeist in der Mitte des Raums auf, da esam weitesten weg von den Wänden ist, diees als negativ empfindet (stößt man gegendie Wand, fällt der Stab um).



C.3.3.1 Swinging up an invertedPendulum

Schwieriger für das System ist die Startsi-tuation, dass der Stab im Vorhinein her-unterhängt, erst einmal durch Schwingun-gen über das Gefährt bewegt werden, undanschließend stabilisiert werden muss. Die-se Aufgabe wird in der Literatur mitSwing up an inverted Pendulum be-zeichnet.

C.4 Reinforcement Learningim Zusammenhang mitNeuronalen Netzen

Zu guter Letzt möchte der Leser viel-leicht fragen, was das Kapitel über Re-inforcement Learning in einem Skriptumzum Thema „Neuronale Netze“ zu suchenhat.

Die Antwort ist einfach motiviert. Wir ha-ben bereits überwachte und unüberwachteLernverfahren kennengelernt. Wir habenzwar nicht überall einen allwissenden Te-acher, der uns überwachtes Lernen ermög-licht. Es ist aber auch nicht unbedingt so,dass wir gar kein Feedback erhalten. Oftgibt es ein Mittelding, eine Art Kritik oderSchulnote, bei Problemen dieser Art kannReinforcement Learning zum Einsatz kom-men.

Nicht alle Probleme sind hierbei so leichthandhabbar wie unsere Gridworld: Beiunserem Backgammon-Beispiel haben wiralleine ca. 1020 Situationen und einen

großen Verzweigungsgrad im Situations-baum, von anderen Spielen ganz zu schwei-gen. Hier werden die in der Gridworld be-nutzten Tabellen als State- und Action-Value-Funktionen schlicht nicht mehr rea-lisierbar, wir müssen also Approximatorenfür diese Funktionen finden.

Und welche lernfähigen Approximatorenfür diese Bestandteile des ReinforcementLearnings fallen uns nun auf Anhieb ein?Richtig: Neuronale Netze.

Übungsaufgaben

Aufgabe 20. Ein Kontrollsystem füreinen Roboter soll mittels ReinforcementLearning dazu gebracht werden, eine Stra-tegie zu finden um ein Labyrinth möglichstschnell zu verlassen.

. Wie könnte eine geeignete State-Value-Funktion aussehen?

. Wie würden Sie einen geeigneten Re-ward erzeugen?

Gehen Sie davon aus, dass der RoboterHindernisvermeidung beherrscht und zu je-dem Zeitpunkt seine Position (x, y) undOrientierung φ kennt.

Aufgabe 21. Beschreiben Sie die Funkti-on der beiden Elemente ASE und ACE sowie sie von Barto, Sutton und Ander-son für die Kontrolle des Pole Balancervorgeschlagen wurden.

Literaturangabe: [BSA83].


dkriesel.com C.4 Reinforcement Learning im Zusammenhang mit Neuronalen Netzen

Aufgabe 22. Nennen Sie mehrere „klas-sische“ Informatik-Aufgaben, die mit Re-inforcement Learning besonders gut bear-beitet werden könnten und begründen Sieihre Meinung.


Literaturverzeichnis

[And72] James A. Anderson. A simple neural network generating an interactivememory. Mathematical Biosciences, 14:197–220, 1972.

[APZ93] D. Anguita, G. Parodi, and R. Zunino. Speed improvement of the back-propagation on current-generation workstations. In WCNN’93, Portland:World Congress on Neural Networks, July 11-15, 1993, Oregon ConventionCenter, Portland, Oregon, volume 1. Lawrence Erlbaum, 1993.

[BSA83] A. Barto, R. Sutton, and C. Anderson. Neuron-like adaptive elementsthat can solve difficult learning control problems. IEEE Transactions onSystems, Man, and Cybernetics, 13(5):834–846, September 1983.

[CG87] G. A. Carpenter and S. Grossberg. ART2: Self-organization of stable cate-gory recognition codes for analog input patterns. Applied Optics, 26:4919–4930, 1987.

[CG88] M.A. Cohen and S. Grossberg. Absolute stability of global pattern formati-on and parallel memory storage by competitive neural networks. ComputerSociety Press Technology Series Neural Networks, pages 70–81, 1988.

[CG90] G. A. Carpenter and S. Grossberg. ART 3: Hierarchical search usingchemical transmitters in self-organising pattern recognition architectures.Neural Networks, 3(2):129–152, 1990.

[CH67] T. Cover and P. Hart. Nearest neighbor pattern classification. IEEETransactions on Information Theory, 13(1):21–27, 1967.

[CR00] N.A. Campbell and JB Reece. Biologie. Spektrum. Akademischer Verlag,2000.

[Cyb89] G. Cybenko. Approximation by superpositions of a sigmoidal function. Ma-thematics of Control, Signals, and Systems (MCSS), 2(4):303–314, 1989.

[DHS01] R.O. Duda, P.E. Hart, and D.G. Stork. Pattern classification. Wiley NewYork, 2001.

221

Literaturverzeichnis dkriesel.com

[Elm90] Jeffrey L. Elman. Finding structure in time. Cognitive Science, 14(2):179–211, April 1990.

[Fah88] S. E. Fahlman. An empirical sudy of learning speed in back-propagationnetworks. Technical Report CMU-CS-88-162, CMU, 1988.

[FMI83] K. Fukushima, S. Miyake, and T. Ito. Neocognitron: A neural network mo-del for a mechanism of visual pattern recognition. IEEE Transactions onSystems, Man, and Cybernetics, 13(5):826–834, September/October 1983.

[Fri94] B. Fritzke. Fast learning with incremental RBF networks. Neural Proces-sing Letters, 1(1):2–5, 1994.

[GKE01a] N. Goerke, F. Kintzler, and R. Eckmiller. Self organized classification ofchaotic domains from a nonlinearattractor. In Neural Networks, 2001. Pro-ceedings. IJCNN’01. International Joint Conference on, volume 3, 2001.

[GKE01b] N. Goerke, F. Kintzler, and R. Eckmiller. Self organized partitioning ofchaotic attractors for control. Lecture notes in computer science, pages851–856, 2001.

[Gro76] S. Grossberg. Adaptive pattern classification and universal recoding, I:Parallel development and coding of neural feature detectors. BiologicalCybernetics, 23:121–134, 1976.

[GS06] Nils Goerke and Alexandra Scherbart. Classification using multi-soms andmulti-neural gas. In IJCNN, pages 3895–3902, 2006.

[Heb49] Donald O. Hebb. The Organization of Behavior: A NeuropsychologicalTheory. Wiley, New York, 1949.

[Hop82] John J. Hopfield. Neural networks and physical systems with emergent col-lective computational abilities. Proc. of the National Academy of Science,USA, 79:2554–2558, 1982.

[Hop84] JJ Hopfield. Neurons with graded response have collective computationalproperties like those of two-state neurons. Proceedings of the NationalAcademy of Sciences, 81(10):3088–3092, 1984.

[HT85] JJ Hopfield and DW Tank. Neural computation of decisions in optimiza-tion problems. Biological cybernetics, 52(3):141–152, 1985.

[Jor86] M. I. Jordan. Attractor dynamics and parallelism in a connectionist se-quential machine. In Proceedings of the Eighth Conference of the CognitiveScience Society, pages 531–546. Erlbaum, 1986.


dkriesel.com Literaturverzeichnis

[Kau90] L. Kaufman. Finding groups in data: an introduction to cluster analysis.In Finding Groups in Data: An Introduction to Cluster Analysis. Wiley,New York, 1990.

[Koh72] T. Kohonen. Correlation matrix memories. IEEEtC, C-21:353–359, 1972.

[Koh82] Teuvo Kohonen. Self-organized formation of topologically correct featuremaps. Biological Cybernetics, 43:59–69, 1982.

[Koh89] Teuvo Kohonen. Self-Organization and Associative Memory. Springer-Verlag, Berlin, third edition, 1989.

[Koh98] T. Kohonen. The self-organizing map. Neurocomputing, 21(1-3):1–6, 1998.

[KSJ00] E.R. Kandel, J.H. Schwartz, and T.M. Jessell. Principles of neural science.Appleton & Lange, 2000.

[lCDS90] Y. le Cun, J. S. Denker, and S. A. Solla. Optimal brain damage. InD. Touretzky, editor, Advances in Neural Information Processing Systems2, pages 598–605. Morgan Kaufmann, 1990.

[Mac67] J. MacQueen. Some methods for classification and analysis of multiva-riate observations. In Proceedings of the Fifth Berkeley Symposium onMathematics, Statistics and Probability, Vol. 1, pages 281–296, 1967.

[MBS93] Thomas M. Martinetz, Stanislav G. Berkovich, and Klaus J. Schulten.’Neural-gas’ network for vector quantization and its application to time-series prediction. IEEE Trans. on Neural Networks, 4(4):558–569, 1993.

[MBW+10] K.D. Micheva, B. Busse, N.C. Weiler, N. O’Rourke, and S.J. Smith. Single-synapse analysis of a diverse synapse population: proteomic imaging me-thods and markers. Neuron, 68(4):639–653, 2010.

[MP43] W.S. McCulloch and W. Pitts. A logical calculus of the ideas immanentin nervous activity. Bulletin of Mathematical Biology, 5(4):115–133, 1943.

[MP69] M. Minsky and S. Papert. Perceptrons. MIT Press, Cambridge, Mass,1969.

[MR86] J. L. McClelland and D. E. Rumelhart. Parallel Distributed Processing:Explorations in the Microstructure of Cognition, volume 2. MIT Press,Cambridge, 1986.


Literaturverzeichnis dkriesel.com

[Par87] David R. Parker. Optimal algorithms for adaptive networks: Second or-der back propagation, second order direct propagation, and second orderhebbian learning. In Maureen Caudill and Charles Butler, editors, IEEEFirst International Conference on Neural Networks (ICNN’87), volume II,pages II–593–II–600, San Diego, CA, June 1987. IEEE.

[PG89] T. Poggio and F. Girosi. A theory of networks for approximation andlearning. MIT Press, Cambridge Mass., 1989.

[Pin87] F. J. Pineda. Generalization of back-propagation to recurrent neural net-works. Physical Review Letters, 59:2229–2232, 1987.

[PM47] W. Pitts and W.S. McCulloch. How we know universals the perception ofauditory and visual forms. Bulletin of Mathematical Biology, 9(3):127–147,1947.

[Pre94] L. Prechelt. Proben1: A set of neural network benchmark problems andbenchmarking rules. Technical Report, 21:94, 1994.

[RB93] M. Riedmiller and H. Braun. A direct adaptive method for faster backpro-pagation learning: The rprop algorithm. In Neural Networks, 1993., IEEEInternational Conference on, pages 586–591. IEEE, 1993.

[RD05] G. Roth and U. Dicke. Evolution of the brain and intelligence. Trends inCognitive Sciences, 9(5):250–257, 2005.

[RHW86a] D. Rumelhart, G. Hinton, and R. Williams. Learning representations byback-propagating errors. Nature, 323:533–536, October 1986.

[RHW86b] David E. Rumelhart, Geoffrey E. Hinton, and R. J. Williams. Learninginternal representations by error propagation. In D. E. Rumelhart, J. L.McClelland, and the PDP research group., editors, Parallel distributed pro-cessing: Explorations in the microstructure of cognition, Volume 1: Foun-dations. MIT Press, 1986.

[Rie94] M. Riedmiller. Rprop - description and implementation details. Technicalreport, University of Karlsruhe, 1994.

[Ros58] F. Rosenblatt. The perceptron: a probabilistic model for information stora-ge and organization in the brain. Psychological Review, 65:386–408, 1958.

[Ros62] F. Rosenblatt. Principles of Neurodynamics. Spartan, New York, 1962.

[SB98] R. S. Sutton and A. G. Barto. Reinforcement Learning: An Introduction.MIT Press, Cambridge, MA, 1998.


dkriesel.com Literaturverzeichnis

[SG06] A. Scherbart and N. Goerke. Unsupervised system for discovering patternsin time-series, 2006.

[SGE05] Rolf Schatten, Nils Goerke, and Rolf Eckmiller. Regional and online learna-ble fields. In Sameer Singh, Maneesha Singh, Chidanand Apté, and PetraPerner, editors, ICAPR (2), volume 3687 of Lecture Notes in ComputerScience, pages 74–83. Springer, 2005.

[Ste61] K. Steinbuch. Die lernmatrix. Kybernetik (Biological Cybernetics), 1:36–45,1961.

[vdM73] C. von der Malsburg. Self-organizing of orientation sensitive cells in striatecortex. Kybernetik, 14:85–100, 1973.

[Was89] P. D. Wasserman. Neural Computing Theory and Practice. New York :Van Nostrand Reinhold, 1989.

[Wer74] P. J. Werbos. Beyond Regression: New Tools for Prediction and Analysisin the Behavioral Sciences. PhD thesis, Harvard University, 1974.

[Wer88] P. J. Werbos. Backpropagation: Past and future. In Proceedings ICNN-88,San Diego, pages 343–353, 1988.

[WG94] A.S. Weigend and N.A. Gershenfeld. Time series prediction. Addison-Wesley, 1994.

[WH60] B. Widrow and M. E. Hoff. Adaptive switching circuits. In ProceedingsWESCON, pages 96–104, 1960.

[Wid89] R. Widner. Single-stage logic. AIEE Fall General Meeting, 1960. Wasser-man, P. Neural Computing, Theory and Practice, Van Nostrand Reinhold,1989.

[Zel94] Andreas Zell. Simulation Neuronaler Netze. Addison-Wesley, 1994. Ger-man.


Abbildungsverzeichnis

1.1 Roboter mit 8 Sensoren und 2 Motoren . . . . . . . . . . . . . . . . . . 61.3 Blackbox mit acht Eingängen und zwei Ausgängen . . . . . . . . . . . . 71.2 Lernbeispiele für Beispielroboter . . . . . . . . . . . . . . . . . . . . . . 81.4 Urgesteine des Fachbereichs . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1 Zentrales Nervensystem . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2 Gehirn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3 Biologisches Neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.4 Aktionspotential . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.5 Facettenaugen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.1 Datenverarbeitung eines Neurons . . . . . . . . . . . . . . . . . . . . . . 373.2 Verschiedene gängige Aktivierungsfunktionen . . . . . . . . . . . . . . . 403.3 FeedForwardnetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.4 FeedForwardnetz mit Shortcuts . . . . . . . . . . . . . . . . . . . . . . . 433.5 Direkt rückgekoppeltes Netz . . . . . . . . . . . . . . . . . . . . . . . . . 443.6 Indirekt rückgekoppeltes Netz . . . . . . . . . . . . . . . . . . . . . . . . 453.7 Lateral rückgekoppeltes Netz . . . . . . . . . . . . . . . . . . . . . . . . 463.8 Vollständig verbundenes Netz . . . . . . . . . . . . . . . . . . . . . . . . 463.9 Beispielnetz mit und ohne Biasneuron . . . . . . . . . . . . . . . . . . . 483.10 Beispiele für Neuronenarten . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.1 Trainingsbeispiele und Netzkapazitäten . . . . . . . . . . . . . . . . . . 594.2 Lernkurve mit verschiedenen Skalierungen . . . . . . . . . . . . . . . . . 624.3 Gradientenabstieg, Veranschaulichung in 2D . . . . . . . . . . . . . . . . 644.4 Mögliche Fehler während eines Gradientenabstiegs . . . . . . . . . . . . 664.5 2-Spiralen-Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.6 Schachbrettproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.1 Das Perceptron in drei Ansichten . . . . . . . . . . . . . . . . . . . . . . 745.2 Singlelayerperceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.3 Singlelayerperceptron mit mehreren Ausgabeneuronen . . . . . . . . . . 775.4 AND und OR Singlelayerperceptron . . . . . . . . . . . . . . . . . . . . 77

227

Abbildungsverzeichnis dkriesel.com

5.5 Fehlerfläche eines Netzes mit 2 Verbindungen . . . . . . . . . . . . . . . 805.6 Skizze für ein XOR-SLP . . . . . . . . . . . . . . . . . . . . . . . . . . . 845.7 Lineare Separierung im zweidimensionalen . . . . . . . . . . . . . . . . . 855.8 Lineare Separierung im dreidimensionalen . . . . . . . . . . . . . . . . . 865.9 Das XOR-Netz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865.10 Multilayerperceptrons und Ausgabemengen . . . . . . . . . . . . . . . . 885.11 Lage eines inneren Neurons für Backpropagation-Herleitung . . . . . . . 905.12 Skizze der Backpropagation-Herleitung . . . . . . . . . . . . . . . . . . . 925.13 Momentum-Term . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1005.14 Fermifunktion und Tangens Hyperbolicus . . . . . . . . . . . . . . . . . 1055.15 Funktionsweise 8-2-8-Kodierung . . . . . . . . . . . . . . . . . . . . . . . 106

6.1 RBF-Netz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1116.2 Abstandsfunktion im RBF-Netz . . . . . . . . . . . . . . . . . . . . . . . 1126.3 Einzelne Gaußglocken im Ein- und Zweidimensionalen . . . . . . . . . . 1136.4 Aufkumulieren von Gaußglocken im Eindimensionalen . . . . . . . . . . 1146.5 Aufkumulieren von Gaußglocken im Zweidimensionalen . . . . . . . . . . 1156.6 Gleichmäßige Abdeckung eines Inputraums mit Radialbasisfunktionen . 1216.7 Ungleichmäßige Abdeckung eines Inputraums mit Radialbasisfunktionen 1216.8 Zufällige, ungleichmäßige Abdeckung eines Inputraums mit Radialbasis-

funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

7.1 Rössler-Attraktor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1287.2 Jordannetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1297.3 Elmannetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1307.4 Unfolding in Time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

8.1 Hopfieldnetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1368.2 Binäre Schwellenwertfunktion . . . . . . . . . . . . . . . . . . . . . . . . 1388.3 Konvergenz eines Hopfieldnetzes . . . . . . . . . . . . . . . . . . . . . . 1418.4 Fermifunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

9.1 Quantisierungsbeispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

10.1 Beispieltopologien einer SOM . . . . . . . . . . . . . . . . . . . . . . . . 15410.3 SOM-Topologiefunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 15810.2 Beispielabstände von SOM-Topologien . . . . . . . . . . . . . . . . . . . 15910.4 Erstes Beispiel einer SOM . . . . . . . . . . . . . . . . . . . . . . . . . . 16110.5 Training einer SOM mit eindimensionaler Topologie . . . . . . . . . . . 16310.6 SOMs mit ein- und zweidimensionalen Topologien und verschiedenen

Inputs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164


dkriesel.com Abbildungsverzeichnis

10.7 Topologischer Defekt einer SOM . . . . . . . . . . . . . . . . . . . . . . 16510.8 Auflösungsoptimierung einer SOM auf bestimmte Gebiete . . . . . . . . 16610.9 Durch Neuronales Gas zu klassifizierende Figur . . . . . . . . . . . . . . 169

11.1 Aufbau eines ART-Netzes . . . . . . . . . . . . . . . . . . . . . . . . . . 17411.2 Lernvorgang eines ART-Netzes . . . . . . . . . . . . . . . . . . . . . . . 176

A.1 Vergleich von Clusteranalyseverfahren . . . . . . . . . . . . . . . . . . . 183A.2 ROLF-Neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185A.3 Clustering durch ein ROLF . . . . . . . . . . . . . . . . . . . . . . . . . 188

B.1 Zeitreihe abtastendes Neuronales Netz . . . . . . . . . . . . . . . . . . . 192B.2 One Step Ahead Prediction . . . . . . . . . . . . . . . . . . . . . . . . . 194B.3 Two Step Ahead Prediction . . . . . . . . . . . . . . . . . . . . . . . . . 196B.4 Direct Two Step Ahead Prediction . . . . . . . . . . . . . . . . . . . . . 196B.5 Heterogene One Step Ahead Prediction . . . . . . . . . . . . . . . . . . 198B.6 Heterogene One Step Ahead Prediction mit zwei Ausgaben . . . . . . . 198

C.1 Gridworld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203C.2 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . 204C.3 Gridworld mit optimalen Returns . . . . . . . . . . . . . . . . . . . . . . 210C.4 Reinforcement-Learning-Kreislauf . . . . . . . . . . . . . . . . . . . . . . 212C.5 Montecarlo-Methodik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213C.6 Erweiterte Montecarlo-Methodik . . . . . . . . . . . . . . . . . . . . . . 214C.7 Verbesserung der Policy . . . . . . . . . . . . . . . . . . . . . . . . . . . 214C.8 Action-Value-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215C.9 Reinforcement Learning Zeitstrahl . . . . . . . . . . . . . . . . . . . . . 216


Index

*100-Schritt-Regel . . . . . . . . . . . . . . . . . . . . 5

AAbstand

euklidischer. . . . . . . . . . . . . . . .60, 180quadratischer . . . . . . . . . . . . . . 80, 180

Action-Value-Funktion . . . . . . . . . . . . 215ADALINE . . . . . . siehe Adaptive Linear

NeuronAdaptive Linear Element. . . . . . . . .siehe

Adaptive Linear NeuronAdaptive Linear Neuron . . . . . . . . . . . . 10Adaptive Resonance Theory . . . 12, 173Agent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204Aktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205Aktionspotential . . . . . . . . . . . . . . . . . . . .23Aktionsraum . . . . . . . . . . . . . . . . . . . . . . 205Aktivierung . . . . . . . . . . . . . . . . . . . . . . . . 38Aktivierungsfunktion . . . . . . . . . . . . . . . 38

Wahl der . . . . . . . . . . . . . . . . . . . . . . 103Aktivierungsreihenfolge . . . . . . . . . . . . . 48

asynchronfeste Ordnung . . . . . . . . . . . . . . . . 50permutiert zufällige Ordnung . 49topologische Ordnung . . . . . . . . 50

zufällige Ordnung . . . . . . . . . . . . 49synchron . . . . . . . . . . . . . . . . . . . . . . . 48

Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . 54Amakrinzelle . . . . . . . . . . . . . . . . . . . . . . . 31Approximation . . . . . . . . . . . . . . . . . . . . 117ART siehe Adaptive Resonance TheoryART-2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176ART-2A. . . . . . . . . . . . . . . . . . . . . . . . . . .176ART-3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176Artificial Intelligence . . . . . . . . . . . . . . . 10assoziative Speicherung . . . . . . . . . . . . 167ATP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23Attraktor. . . . . . . . . . . . . . . . . . . . . . . . . .127Ausgabedimension . . . . . . . . . . . . . . . . . . 51Ausgabefunktion . . . . . . . . . . . . . . . . . . . 40Ausgabevektor. . . . . . . . . . . . . . . . . . . . . .51Auswendig lernen . . . . . . . . . . . . . . . . . . . 58Autoassoziator . . . . . . . . . . . . . . . . . . . . 140Axon . . . . . . . . . . . . . . . . . . . . . . . . . . . 21, 25

BBackpropagation . . . . . . . . . . . . . . . . . . . 93

Second Order . . . . . . . . . . . . . . . . . 101Backpropagation of Error . . . . . . . . . . .87

rekurrentes . . . . . . . . . . . . . . . . . . . . 132Balken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17Basis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

231

Index dkriesel.com

Bestärkendes Lernen . . . . . . . . . . . . . . 201Biasneuron . . . . . . . . . . . . . . . . . . . . . . . . . 47Binäre Schwellenwertfunktion. . . . . . .39Bipolarzelle . . . . . . . . . . . . . . . . . . . . . . . . 30Black Box . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

C

Cerebellum . . . . . . . . . . . . siehe KleinhirnCluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179Clusteranalyse . . . . . . . . . . . . . . . . . . . . 179Codebookvektor . . . . . . . . . . . . . . 146, 180Cortex . . . . . . . . . . . . siehe Großhirnrinde

visueller . . . . . . . . . . . . . . . . . . . . . . . . 17

D

Dartmouth Summer Research Project10

Deep networks . . . . . . . . . . . . . . . . . 99, 103Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83Delta-Regel . . . . . . . . . . . . . . . . . . . . . . . . 83Dendrit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

-enbaum . . . . . . . . . . . . . . . . . . . . . . . 20Depolarisation . . . . . . . . . . . . . . . . . . . . . . 25Diencephalon . . . . . . siehe ZwischenhirnDifferenzvektor . . . . . siehe Fehlervektordigitales Filter . . . . . . . . . . . . . . . . . . . . 193Digitalisierung . . . . . . . . . . . . . . . . . . . . 146diskret . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145Diskretisierung . . . . siehe QuantisierungDynamisches System . . . . . . . . . . . . . . 127

EEarly Stopping . . . . . . . . . . . . . . . . . . . . . 63Eingabedimension . . . . . . . . . . . . . . . . . . 51Eingabemuster . . . . . . . . . . . . . . . . . . . . . 55Eingabevektor . . . . . . . . . . . . . . . . . . . . . . 51Einzelauge . . . . . . . . . siehe OmmatidiumEinzellinsenauge . . . . . . . . . . . . . . . . . . . . 30Elektronengehirn . . . . . . . . . . . . . . . . . . . . 9Elmannetz . . . . . . . . . . . . . . . . . . . . . . . . 129Entwicklungsgeschichte . . . . . . . . . . . . . . 9Episode . . . . . . . . . . . . . . . . . . . . . . . . . . . 206Epoche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56Epsilon-Nearest Neighbouring . . . . . 181Evolutionäre Algorithmen . . . . . . . . . 132Exploitation-Ansatz . . . . . . . . . . . . . . . 208Exploration-Ansatz. . . . . . . . . . . . . . . .208

FFacettenauge . . . . . . siehe KomplexaugeFastprop . . . . . . . . . . . . . . . . . . . . . . . . . . . 50FeedForward . . . . . . . . . . . . . . . . . . . . . . . 42Fehler

Gesamt- . . . . . . . . . . . . . . . . . . . . . . . . 61spezifischer . . . . . . . . . . . . . . . . . . . . . 60

Fehlerfunktion . . . . . . . . . . . . . . . . . . . . . . 79spezifische . . . . . . . . . . . . . . . . . . . . . . 79

Fehlertoleranz . . . . . . . . . . . . . . . . . . . . . . . 4Fehlervektor . . . . . . . . . . . . . . . . . . . . . . . . 58Fermifunktion . . . . . . . . . . . . . . . . . . . . . . 39Fläche, perzeptive . . . . . . . . . . . . . . . . . 184Flat spot elimination . . . . . . . . . . . . . . 100Funktionsapproximation . . . . . . . . . . . 104Funktionsapproximator

universeller . . . . . . . . . . . . . . . . . . . . . 86


dkriesel.com Index

GGanglienzelle . . . . . . . . . . . . . . . . . . . . . . . 30Gauß-Markov-Modell . . . . . . . . . . . . . . 118Gaußglocke. . . . . . . . . . . . . . . . . . . . . . . .157Gehirn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Generalisierung . . . . . . . . . . . . . . . . . . 4, 53Gewicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36Gewichtete Summe . . . . . . . . . . . . . . . . . 37Gewichtsänderung . . . . . . . . . . . . . . . . . . 69Gewichtsmatrix . . . . . . . . . . . . . . . . . . . . 36

Bottom-Up- . . . . . . . . . . . . . . . . . . . 174Top-Down- . . . . . . . . . . . . . . . . . . . . 173

Gewichtsvektor . . . . . . . . . . . . . . . . . . . . . 36Gitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154Gliazelle . . . . . . . . . . . . . . . . . . . . . . . . . . . .26Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . 64Gradientenabstieg . . . . . . . . . . . . . . . . . . 65

Probleme. . . . . . . . . . . . . . . . . . . . . . .65Gridworld . . . . . . . . . . . . . . . . . . . . . . . . . 202Großhirn . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Großhirnrinde . . . . . . . . . . . . . . . . . . . . . . 17

HHeaviside-Funktion . . . . . . . siehe Binäre

SchwellenwertfunktionHebbsche Lernregel . . . . . . . . . . . . . . . . . 69

Verallgemeinerte Form . . . . . . . . . 70Heteroassoziator. . . . . . . . . . . . . . . . . . .141Hinton-Darstellung . . . . . . . . . . . . . . . . . 36Hirnstamm . . . . . . . . . . . . . . . . . . . . . . . . . 18Hopfieldnetz. . . . . . . . . . . . . . . . . . . . . . .135

kontinuierliches . . . . . . . . . . . . . . . 143Horizontalzelle . . . . . . . . . . . . . . . . . . . . . 31Hyperpolarisation . . . . . . . . . . . . . . . . . . 25

Hypothalamus . . . . . . . . . . . . . . . . . . . . . . 18

IInternodien . . . . . . . . . . . . . . . . . . . . . . . . . 26Interpolation

exakte . . . . . . . . . . . . . . . . . . . . . . . . 117Ion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Iris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

JJordannetz . . . . . . . . . . . . . . . . . . . . . . . . 128

Kk-Means Clustering. . . . . . . . . . . . . . . .180k-Nearest Neighbouring . . . . . . . . . . . 181Kegelfunktion . . . . . . . . . . . . . . . . . . . . . 159Kleinhirn . . . . . . . . . . . . . . . . . . . . . . . . . . . 17Komplexauge . . . . . . . . . . . . . . . . . . . . . . . 29Kontextbasierte Suche . . . . . . . . . . . . . 167kontinuierlich. . . . . . . . . . . . . . . . . . . . . .145Konzentrationsgradient . . . . . . . . . . . . . 21

LLearning

reinforcement . . . . . . . . siehe Lernen,bestärkendes


Index dkriesel.com

supervised . . . . . . . . . . . siehe Lernen,überwachtes

unsupervised. . . . . . . . .siehe Lernen,unüberwachtes

Learning Vector Quantization . . . . . 145Lernbarkeit. . . . . . . . . . . . . . . . . . . . . . . .103Lernen

überwachtes . . . . . . . . . . . . . . . . . . . . 55Batch- . . . . . . . . siehe Lernen, offlinebestärkendes . . . . . . . . . . . . . . . . . . . 55offline . . . . . . . . . . . . . . . . . . . . . . . . . . 56online . . . . . . . . . . . . . . . . . . . . . . . . . . 56unüberwachtes . . . . . . . . . . . . . . . . . 54

Lernfähigkeit . . . . . . . . . . . . . . . . . . . . . . . . 4Lernrate. . . . . . . . . . . . . . . . . . . . . . . . . . . .94

variable . . . . . . . . . . . . . . . . . . . . . . . . 95Lernverfahren . . . . . . . . . . . . . . . . . . . . . . 41Lineare Separierbarkeit . . . . . . . . . . . . . 85Linearer Assoziator . . . . . . . . . . . . . . . . . 12Linse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30Lochkameraauge . . . . . . . . . . . . . . . . . . . 29Locked-In-Syndrom. . . . . . . . . . . . . . . . .18Logistische Funktion . . . . . . . . . . . . . siehe

FermifunktionTemperaturparameter . . . . . . . . . . 39

LVQ . . . . . . . . . . . . siehe Learning VectorQuantization

LVQ1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149LVQ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149LVQ3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

MM-SOM . . . . siehe Self Organizing Map,

MultiMark I Perceptron. . . . . . . . . . . . . . . . . .10Mathematische Symbole

(t) . . . . . . . . . . . . . . . . siehe ZeitbegriffA(S) . . . . . . . . . . .siehe AktionsraumEp . . . . . . . . . . . . . .siehe FehlervektorG . . . . . . . . . . . . . . . . . siehe TopologieN . . . . . . siehe Self Organizing Map,

EingabedimensionP . . . . . . . . . . . siehe TrainingsmengeQ∗Π(s, a) . . . . . . . siehe Action-Value-

Funktion, optimaleQΠ(s, a) . . . . . . . . . . . . . . . . . . . . . siehe

Action-Value-FunktionRt . . . . . . . . . . . . . . . . . . . siehe ReturnS . . . . . . . . . . . . siehe SituationsraumT . . . . . siehe TemperaturparameterV ∗Π(s) . siehe State-Value-Funktion,

optimaleVΠ(s) . . siehe State-Value-FunktionW . . . . . . . . . . siehe Gewichtsmatrix∆wi,j . . . . . siehe GewichtsänderungΠ . . . . . . . . . . . . . . . . . . . . . siehe PolicyΘ . . . . . . . . . . . . . siehe Schwellenwertα . . . . . . . . . . . . . . . . siehe Momentumβ . . . . . . . . . . . . . siehe Weight Decayδ . . . . . . . . . . . . . . . . . . . . . . siehe Deltaη . . . . . . . . . . . . . . . . . . . siehe Lernrateη↑ . . . . . . . . . . . . . . . . . . . . siehe Rpropη↓ . . . . . . . . . . . . . . . . . . . . siehe Rpropηmax . . . . . . . . . . . . . . . . . . siehe Rpropηmin . . . . . . . . . . . . . . . . . . siehe Rpropηi,j . . . . . . . . . . . . . . . . . . . siehe Rprop∇ . . . . . . . . . . . siehe Nabla-Operatorρ . . . . . . . .siehe RadiusmultiplikatorErr . . . . . . . . . . siehe Fehler, Gesamt-Err(W ) . . . . . . .siehe FehlerfunktionErrp . . . . . .siehe Fehler, spezifischerErrp(W ) . . . . . siehe Fehlerfunktion,

spezifischeErrWD . . . . . . . . siehe Weight Decayat . . . . . . . . . . . . . . . . . . . . siehe Aktion


dkriesel.com Index

csiehe Zentrum eines RBF-Neurons,siehe Neuron, Self OrganizingMap-, Zentrum

m . . . . . . . . siehe Ausgabedimensionn . . . . . . . . . siehe Eingabedimensionp . . . . . . . . . . . siehe Trainingsmusterrh . . . . . . . . . . . . siehe Zentrum eines

RBF-Neurons, Abstand zurt . . . . . . . . . . . . . . . . . . . siehe Rewardst . . . . . . . . . . . . . . . . . .siehe Situationt . . . . . . . . . . . . .siehe Teaching Inputwi,j . . . . . . . . . . . . . . . . . siehe Gewichtx . . . . . . . . . . . . . siehe Eingabevektory . . . . . . . . . . . . . siehe Ausgabevektorfact . . . . siehe Aktivierungsfunktionfout . . . . . . . . siehe Ausgabefunktion

Membran. . . . . . . . . . . . . . . . . . . . . . . . . . .21-potential . . . . . . . . . . . . . . . . . . . . . . 21

Metrik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179Mexican-Hat-Funktion . . . . . . . . . . . . 159MLP . . . . . siehe Perceptron, Multilayer-Momentum. . . . . . . . . . . . . . . . . . . . . . . . . 99Momentum-Term. . . . . . . . . . . . . . . . . .100Montecarlo-Methodik. . . . . . . . . . . . . .212Moore-Penrose-Pseudoinverse. . . . . .117Moving-Average-Verfahren. . . . . . . . .194Mustererkennung . . . . . . . . . . . . . 104, 141Myelinscheide . . . . . . . . . . . . . . . . . . . . . . 26

NNabla-Operator . . . . . . . . . . . . . . . . . . . . 64Natrium-Kalium-Pumpe . . . . . . . . . . . . 23Neocognitron . . . . . . . . . . . . . . . . . . . . . . . 12Nervensystem . . . . . . . . . . . . . . . . . . . . . . 15Netzeingabe . . . . . . . . . . . . . . . . . . . . . . . . 37Netzhaut . . . . . . . . . . . . . . . . . siehe Retina

Neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35akzeptierendes . . . . . . . . . . . . . . . . 185Binäres. . . . . . . . . . . . . . . . . . . . . . . . .75Eingabe- . . . . . . . . . . . . . . . . . . . . . . . 75Fermi- . . . . . . . . . . . . . . . . . . . . . . . . . 75Gewinner-. . . . . . . . . . . . . . . . . . . . .156Identitäts- . . . . . . . . . . . . . . . . . . . . . .75Informationsverarbeitendes . . . . . 75Input- . . . . . siehe Neuron, Eingabe-Kontext- . . . . . . . . . . . . . . . . . . . . . . 128RBF- . . . . . . . . . . . . . . . . . . . . . . . . . 110RBF-Ausgabe- . . . . . . . . . . . . . . . . 110ROLF- . . . . . . . . . . . . . . . . . . . . . . . . 184Self Organizing Map-. . . . . . . . . .155Zentrum . . . . . . . . . . . . . . . . . . . . 155

Tanh- . . . . . . . . . . . . . . . . . . . . . . . . . . 75Neuronales Gas . . . . . . . . . . . . . . . . . . . 168

Multi- . . . . . . . . . . . . . . . . . . . . . . . . .170wachsendes. . . . . . . . . . . . . . . . . . . .171

Neuronales Netz . . . . . . . . . . . . . . . . . . . . 36rückgekoppeltes . . . . . . . . . . . . . . . 127

Neurotransmitter . . . . . . . . . . . . . . . . . . . 19

O

Oligodendrozyten. . . . . . . . . . . . . . . . . . .26OLVQ. . . . . . . . . . . . . . . . . . . . . . . . . . . . .149On-Neuron. . . . . . . . . . .siehe BiasneuronOne Step Ahead Prediction. . . . . . . .193

heterogene . . . . . . . . . . . . . . . . . . . . 197Open Loop Learning . . . . . . . . . . . . . . 132Optimal Brain Damage . . . . . . . . . . . . 102


Index dkriesel.com

PParallelität . . . . . . . . . . . . . . . . . . . . . . . . . . 6Pattern . . . . . . . . . siehe TrainingsmusterPerceptron . . . . . . . . . . . . . . . . . . . . . . . . . 75

Multilayer- . . . . . . . . . . . . . . . . . . . . . 87rückgekoppeltes . . . . . . . . . . . . . 127

Singlelayer-. . . . . . . . . . . . . . . . . . . . .76Perceptron-Konvergenz-Theorem . . . 77Perceptron-Lernalgorithmus . . . . . . . . 77Periode . . . . . . . . . . . . . . . . . . . . . . . . . . . 127Peripheres Nervensystem . . . . . . . . . . . 16Personen

Anderson . . . . . . . . . . . . . . . . . . . . 217 f.Anderson, James A. . . . . . . . . . . . . 12Anguita . . . . . . . . . . . . . . . . . . . . . . . . 40Barto . . . . . . . . . . . . . . . . . . . 201, 217 f.Carpenter, Gail . . . . . . . . . . . .12, 173Elman . . . . . . . . . . . . . . . . . . . . . . . . 128Fukushima . . . . . . . . . . . . . . . . . . . . . 12Girosi . . . . . . . . . . . . . . . . . . . . . . . . . 109Grossberg, Stephen . . . . . . . . 12, 173Hebb, Donald O. . . . . . . . . . . . . 9, 69Hinton . . . . . . . . . . . . . . . . . . . . . . . . . 12Hoff, Marcian E. . . . . . . . . . . . . . . . 10Hopfield, John . . . . . . . . . . . 12 f., 135Ito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12Jordan . . . . . . . . . . . . . . . . . . . . . . . . 128Kohonen, Teuvo . 12, 145, 153, 167Lashley, Karl . . . . . . . . . . . . . . . . . . . . 9MacQueen, J. . . . . . . . . . . . . . . . . . 180Martinetz, Thomas . . . . . . . . . . . . 168McCulloch, Warren . . . . . . . . . . . . . . 9Minsky, Marvin . . . . . . . . . . . . . . . 10 f.Miyake . . . . . . . . . . . . . . . . . . . . . . . . . 12Nilsson, Nils. . . . . . . . . . . . . . . . . . . .11Papert, Seymour . . . . . . . . . . . . . . . 11Parker, David . . . . . . . . . . . . . . . . . 101Pitts, Walter . . . . . . . . . . . . . . . . . . . . 9

Poggio . . . . . . . . . . . . . . . . . . . . . . . . 109Pythagoras . . . . . . . . . . . . . . . . . . . . . 60Riedmiller, Martin . . . . . . . . . . . . . 95Rosenblatt, Frank . . . . . . . . . . 10, 73Rumelhart . . . . . . . . . . . . . . . . . . . . . 12Steinbuch, Karl . . . . . . . . . . . . . . . . 11Sutton . . . . . . . . . . . . . . . . . . 201, 217 f.Tesauro, Gerald . . . . . . . . . . . . . . . 216von der Malsburg, Christoph . . . 12Werbos, Paul . . . . . . . . . . 12, 89, 101Widrow, Bernard . . . . . . . . . . . . . . . 10Wightman, Charles . . . . . . . . . . . . .10Williams . . . . . . . . . . . . . . . . . . . . . . . 12Zuse, Konrad . . . . . . . . . . . . . . . . . . . . 9

PNS . . . siehe Peripheres NervensystemPole Balancer . . . . . . . . . . . . . . . . . . . . . 217Policy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

closed loop . . . . . . . . . . . . . . . . . . . . 207evaluation . . . . . . . . . . . . . . . . . . . . . 211greedy . . . . . . . . . . . . . . . . . . . . . . . . 208improvement . . . . . . . . . . . . . . . . . . 211open loop . . . . . . . . . . . . . . . . . . . . . 207

Pons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18Propagierungsfunktion. . . . . . . . . . . . . .37Pruning . . . . . . . . . . . . . . . . . . . . . . . . . . . 102Pupille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Q

Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . 215Quantisierung . . . . . . . . . . . . . . . . . . . . . 145Quickpropagation . . . . . . . . . . . . . . . . . 101


dkriesel.com Index

RRückenmark . . . . . . . . . . . . . . . . . . . . . . . . 16Rückkopplung . . . . . . . . . . . . . . . . . 43, 127

direkte . . . . . . . . . . . . . . . . . . . . . . . . . 43indirekte . . . . . . . . . . . . . . . . . . . . . . . 44laterale . . . . . . . . . . . . . . . . . . . . . . . . .44

Ranvierscher Schnürring . . . . . . . . . . . . 26RBF-Netz . . . . . . . . . . . . . . . . . . . . . . . . . 110

wachsendes. . . . . . . . . . . . . . . . . . . .123Refraktärzeit . . . . . . . . . . . . . . . . . . . . . . . 25Regional and Online Learnable Fields

184Reinforcement Learning . . . . . . . . . . . 201Reizleitender Apparat . . . . . . . . . . . . . . 27Rekurrenz . . . . . . . . . . . . . . . . . . . . . . . . . . 43Repolarisation . . . . . . . . . . . . . . . . . . . . . . 25Repräsentierbarkeit. . . . . . . . . . . . . . . .103Resilient Backpropagation . . . . . . . . . . 95Resonanz. . . . . . . . . . . . . . . . . . . . . . . . . .174Retina . . . . . . . . . . . . . . . . . . . . . . . . . . 30, 75Return . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206Reward . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

Avoidance Strategy. . . . . . . . . . . .209pure delayed . . . . . . . . . . . . . . . . . . 209pure negative . . . . . . . . . . . . . . . . . 209

Rezeptives Feld. . . . . . . . . . . . . . . . . . . . .30Rezeptorzelle . . . . . . . . . . . . . . . . . . . . . . . 26

Entero-. . . . . . . . . . . . . . . . . . . . . . . . .27Extero-. . . . . . . . . . . . . . . . . . . . . . . . .27Photo- . . . . . . . . . . . . . . . . . . . . . . . . . 30Primär- . . . . . . . . . . . . . . . . . . . . . . . . 27Sekundär- . . . . . . . . . . . . . . . . . . . . . . 27

Rindenfeld . . . . . . . . . . . . . . . . . . . . . . . . . 17Assoziations- . . . . . . . . . . . . . . . . . . . 17primäres . . . . . . . . . . . . . . . . . . . . . . . 17

RMS . . . . . . . . . siehe Root-Mean-SquareROLFs . . . . . siehe Regional and Online

Learnable Fields

Root-Mean-Square . . . . . . . . . . . . . . . . . 60Rprop siehe Resilient Backpropagation

SSaltatorische Impulsleitung . . . . . . . . . 26Schicht

Ausgabe- . . . . . . . . . . . . . . . . . . . . . . . 42Eingabe- . . . . . . . . . . . . . . . . . . . . . . . 42versteckte . . . . . . . . . . . . . . . . . . . . . . 42

Schichten von Neuronen . . . . . . . . . . . . 42Schwannsche Zelle . . . . . . . . . . . . . . . . . . 26Schwellenwert . . . . . . . . . . . . . . . . . . . . . . 38Schwellenwertpotential . . . . . . . . . . . . . 23Selbstorganisierende Karten . . . . . . . . 12Self Fulfilling Prophecy . . . . . . . . . . . . 199Self Organizing Map. . . . . . . . . . . . . . .153

Multi- . . . . . . . . . . . . . . . . . . . . . . . . .170Sensorische Adaption . . . . . . . . . . . . . . . 28Sensorische Transduktion . . . . . . . . . . . 27ShortCut-Connections . . . . . . . . . . . . . . 43Silhouettenkoeffizient . . . . . . . . . . . . . . 182Single Shot Learning . . . . . . . . . . . . . . 139Situation . . . . . . . . . . . . . . . . . . . . . . . . . . 205Situationsbaum . . . . . . . . . . . . . . . . . . . 208Situationsraum . . . . . . . . . . . . . . . . . . . . 205SLP . . . . . siehe Perceptron, Singlelayer-Snark . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10SNIPE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .viSOM . . . . . . . siehe Self Organizing MapSoma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Spin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .135Stabilitäts-Plastizitäts-Dilemma57, 173State Space Forecasting . . . . . . . . . . . 193State-Value-Funktion . . . . . . . . . . . . . . 210Stimulus . . . . . . . . . . . . . . . . . . . . . . .25, 156Swing up an inverted Pendulum . . . 218


Index dkriesel.com

Symmetry Breaking . . . . . . . . . . . . . . . 104Synapse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

chemische . . . . . . . . . . . . . . . . . . . . . . 19elektrische. . . . . . . . . . . . . . . . . . . . . .19

synaptischer Spalt . . . . . . . . . . . . . . . . . . 19

TTangens Hyperbolicus . . . . . . . . . . . . . . 39TD-Gammon . . . . . . . . . . . . . . . . . . . . . . 216TD-Learningsiehe Temporal Difference

LearningTeacher Forcing . . . . . . . . . . . . . . . . . . . 132Teaching Input . . . . . . . . . . . . . . . . . . . . . 57Telencephalon . . . . . . . . . .siehe GroßhirnTemporal Difference Learning . . . . . 214Thalamus . . . . . . . . . . . . . . . . . . . . . . . . . . 18Topologie . . . . . . . . . . . . . . . . . . . . . . . . . 155Topologiefunktion . . . . . . . . . . . . . . . . . 157Topologischer Defekt . . . . . . . . . . . . . . 162Trainingsmenge. . . . . . . . . . . . . . . . . . . . .54Trainingsmuster . . . . . . . . . . . . . . . . . . . . 57

Menge der. . . . . . . . . . . . . . . . . . . . . .57Transferfunktion . . . . . . . . . . . . . . . . . siehe

AktivierungsfunktionTruncus cerebri . . . . . . siehe HirnstammTwo Step Ahead Prediction. . . . . . . .195

direct . . . . . . . . . . . . . . . . . . . . . . . . . 195

UUmwelt . . . . . . . . . . . . . . . . . . . . . . . . . . . 204Unfolding in Time. . . . . . . . . . . . . . . . . 132

VVerbindung . . . . . . . . . . . . . . . . . . . . . . . . . 36Vollverknüpfung . . . . . . . . . . . . . . . . . . . . 42Voronoidiagramm . . . . . . . . . . . . . . . . . 147

WWeight Decay . . . . . . . . . . . . . . . . . . . . . 101Widrow-Hoff-Regel . . siehe Delta-RegelWinner-Takes-All-Schema . . . . . . . . . . 44

ZZeitbegriff . . . . . . . . . . . . . . . . . . . . . . . . . . 35Zeithorizont . . . . . . . . . . . . . . . . . . . . . . . 206Zeitreihe . . . . . . . . . . . . . . . . . . . . . . . . . . 191Zeitreihenvorhersage. . . . . . . . . . . . . . .191Zentrales Nervensystem. . . . . . . . . . . . .16Zentrum

eines RBF-Neurons. . . . . . . . . . . .110Abstand zu . . . . . . . . . . . . . . . . . 113

eines ROLF-Neurons . . . . . . . . . . 184ZNS. . . . . siehe Zentrales NervensystemZuckern . . . . siehe Flat spot eliminationZustand . . . . . . . . . . . . . . . . . . . . . . . . . . . 205Zwischenhirn . . . . . . . . . . . . . . . . . . . . . . . 17Zylinderfunktion . . . . . . . . . . . . . . . . . . 159


Überblick Neuronale Netze - News [D. Kriesel] · dkriesel.com InGedenkenan...

Documents

Transcript of Überblick Neuronale Netze - News [D. Kriesel] · dkriesel.com InGedenkenan...