Neuronale Netze Optionspreistheorie Und Risikobewertung

113
Neuronale Netze in der Optionspreistheorie und Risikobewertung Seminar am Lehrstab Mathematik des Fachbereichs Wirtschaftswissenschaften der Universit¨ at des Saarlandes SS 2003 - 2007 Dr. Christian Hoffmann Dr. Klaus Schindler Version 2.0

Transcript of Neuronale Netze Optionspreistheorie Und Risikobewertung

Page 1: Neuronale Netze Optionspreistheorie Und Risikobewertung

Neuronale Netze in der

Optionspreistheorie und

Risikobewertung

Seminar am Lehrstab Mathematik

des Fachbereichs Wirtschaftswissenschaften

der Universitat des Saarlandes

SS 2003 - 2007

Dr. Christian Hoffmann

Dr. Klaus Schindler

Version 2.0

Page 2: Neuronale Netze Optionspreistheorie Und Risikobewertung

2 Kapitel

Page 3: Neuronale Netze Optionspreistheorie Und Risikobewertung

Inhaltsverzeichnis

1 Grundlagen kunstlicher neuronaler Netze (Roman Brosowski) 111.1 Einfuhrung und Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2 Grundlegender Aufbau eines neuronalen Netzes . . . . . . . . . . . . . . . . . . 12

1.2.1 Das naturliche Neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.2.2 Aufbau eines Netzes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3 Aufbau eines kunstlichen neuronalen Netzes . . . . . . . . . . . . . . . . . . . . 141.3.1 Der erste Nachbau: das McCulloch-Pitts Neuron . . . . . . . . . . . . . 141.3.2 Und-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.3.3 Oder-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.3.4 Verfeinertes Modell des Neurons . . . . . . . . . . . . . . . . . . . . . . 151.3.5 Die Eingabefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.3.6 Die Aktivierungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . 161.3.7 Die Ausgabefunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.4 Topologien und Lernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.4.1 Topologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.4.2 Netze ohne Ruckkopplung . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4.3 Netze mit Ruckkopplung . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4.4 Lernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4.5 Uberwachtes Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.4.6 Bestarkendes Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.4.7 Unuberwachtes Lernen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.5 Adaline und Madaline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.5.1 Und-Funktion mit Adaline . . . . . . . . . . . . . . . . . . . . . . . . . . 201.5.2 Oder-Funktion mit Adaline . . . . . . . . . . . . . . . . . . . . . . . . . 201.5.3 XOR als Grenze der Adaline . . . . . . . . . . . . . . . . . . . . . . . . 211.5.4 Madaline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2 Grundlagen (Hans-Peter Ziegler) 232.1 Einleitung und Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.2 Grundidee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.3 Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.3.1 Eingabeschicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.3.2 Ausgabeschicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.3.3 Der Aktivierungszustand . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.3.4 Die Ausgaberegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.3.5 Das Fehlermaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.3.6 Synapsen und Gewichte . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3

Page 4: Neuronale Netze Optionspreistheorie Und Risikobewertung

4 INHALTSVERZEICHNIS

2.3.7 Netzaktivitat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.4 Allgemeine Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.5 Lernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.6 Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.7 Adaline und Madaline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.8 Adaption der Adaline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342.9 Das Perzeptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352.10 Stochastische Mustererkennung mal anders... . . . . . . . . . . . . . . . . . . . 35

3 Das Backpropagation-Verfahren (Jakob Janiszewski) 393.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.1.1 Eingabeschicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.1.2 Verarbeitungsschicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.1.3 Ausgabeschicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.2 Backprop-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2.1 Forward Pass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.2.2 Fehleranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.2.3 Backward Pass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.2.4 Resumee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.3 Problematiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.3.1 Problemstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.3.2 Losungsansatze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4 Optimierung Neuronaler Netze (Andreas Jung) 494.1 Sinn und Zweck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.2 Grundidee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.3 Cascade Correlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.3.1 Starre Netze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.3.2 Simulationsbeispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.3.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.4 Pruning-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.4.1 Gewichtspruning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.4.2 Hidden Neuron (HN) Pruning/Mergen . . . . . . . . . . . . . . . . . . . 604.4.3 Input Pruning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.4.4 Optimal Brain Damage (OBD) . . . . . . . . . . . . . . . . . . . . . . . 604.4.5 Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5 Genetische Algorithmen und Evolutionsstrategien (Roland Zimmer) 635.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635.2 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645.3 Aufbau und Funktionsweise eines genetischen Algorithmus . . . . . . . . . . . 64

5.3.1 Selektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.3.2 Crossover . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.3.3 Mutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665.3.4 Refill . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.4 Beispiel eines GA mit binarer Kodierung . . . . . . . . . . . . . . . . . . . . . . 685.4.1 erster Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.4.2 zweiter Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

Page 5: Neuronale Netze Optionspreistheorie Und Risikobewertung

INHALTSVERZEICHNIS 5

5.4.3 dritter Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.4.4 vierter Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.4.5 funfter Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.4.6 sechster Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.4.7 siebter Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.5 Vorteil der GAs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.5.1 Schema-Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6 Perfomancemessung (Stefan Gotz) 73

6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

6.2 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

6.3 Anforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

6.4 Perfomancemase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

6.4.1 Volatilitat und Beta-Faktor . . . . . . . . . . . . . . . . . . . . . . . . . 74

6.4.2 Renditeberechnungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

6.4.3 Berechnung der Portfoliorendite . . . . . . . . . . . . . . . . . . . . . . 76

6.5 Risikounterscheidung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6.5.1 qunt./qual. Risiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6.5.2 Basisrisiken vs. Spezielle Risiken . . . . . . . . . . . . . . . . . . . . . . 78

6.6 Risikomessung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6.6.1 Tracking Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6.6.2 Semivarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6.7 Differenzierte Perfomancemessung . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.7.1 Risikoadjustierung nach Sharpe . . . . . . . . . . . . . . . . . . . . . . . 79

6.7.2 Risikoadjustierung nach Treynor . . . . . . . . . . . . . . . . . . . . . . 80

6.8 Vorselektion von KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.8.1 Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.8.2 Theill-Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

7 Kreditrisikomodelle und Basel II (Mihnea-Stefan Mihai) 83

7.1 Worum geht’s? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

7.1.1 Was ist Kreditrisiko? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

7.1.2 Kreditrisikomodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

7.1.3 Weshalb Basel II? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

7.2 CreditMetrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

7.2.1 Kreditrating . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

7.2.2 Ubergangs- und Ausfallwahrscheinlichkeiten . . . . . . . . . . . . . . . 87

7.2.3 Zinsstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

7.2.4 Kreditrisikomaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

7.3 Anwendung KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

7.4 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

Page 6: Neuronale Netze Optionspreistheorie Und Risikobewertung

6 INHALTSVERZEICHNIS

8 Using neural networks to forecast stock indices (Christine Kiefer) 958.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 958.2 Partially recurrent networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

8.2.1 Jordan networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 978.2.2 Elman networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 978.2.3 Hierarchical Elman networks . . . . . . . . . . . . . . . . . . . . . . . . 988.2.4 Training of partially recurrent networks . . . . . . . . . . . . . . . . . . 98

8.3 Tools for developing neural networks . . . . . . . . . . . . . . . . . . . . . . . . 998.3.1 Stuttgart Neural Network Simulator . . . . . . . . . . . . . . . . . . . . 998.3.2 Microsoft Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

8.4 System development process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1028.5 Case study: Forcasting the DAX . . . . . . . . . . . . . . . . . . . . . . . . . . 104

8.5.1 Obtaining and preprocessing the data . . . . . . . . . . . . . . . . . . . 1048.5.2 The network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1048.5.3 Postprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

8.6 Case study: Forcasting the 3-month-development of the DAX . . . . . . . . . . 1068.6.1 Input/output variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1068.6.2 Correlation analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1078.6.3 Transformations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1088.6.4 Time lag analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1098.6.5 Neural network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1118.6.6 Final results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

8.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

Page 7: Neuronale Netze Optionspreistheorie Und Risikobewertung

Abbildungsverzeichnis

1.1 Schematischer Aufbau eines naturlichen Neurons . . . . . . . . . . . . . . . . . 121.2 Schematischer Aufbau eines neuronalen Netzes . . . . . . . . . . . . . . . . . . 131.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4 Adaline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.1 Neuronale Netze in der Biologie . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2 Modell eines Neuronalen Netzes in der Informatik . . . . . . . . . . . . . . . . 252.3 Diskrete Akt.-funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.4 kontinuierliche Akt.-funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.5 Sigmoide Funktion als Akt.-Funktion . . . . . . . . . . . . . . . . . . . . . . . . 282.6 Bauplan einer Adaline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.7 Realisation der OR-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.8 Realisation der AND-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.9 Realisation der XOR-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.1 Cascade-Topologie: ausgefullte Quadrate markieren diejenigen Gewichte,die mit jedem Lernschritt erneut adaptiert werden, leere Quadrate die“eingefrorenen“ Gewichte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.2 Lernfehlerverlauf fur die Tangensfunktion . . . . . . . . . . . . . . . . . . . . . 534.3 Approximation der Tangensfunktion von QP . . . . . . . . . . . . . . . . . . . 544.4 Approximation der Tangensfunktion von CC . . . . . . . . . . . . . . . . . . . 544.5 Approximation der Cosinusfunktion von QP . . . . . . . . . . . . . . . . . . . 554.6 Approximation der Cosinusfunktion von CC . . . . . . . . . . . . . . . . . . . . 564.7 Seitenansicht der betrachteten Spiralen . . . . . . . . . . . . . . . . . . . . . . 564.8 Draufsicht der betrachteten Spiralen . . . . . . . . . . . . . . . . . . . . . . . . 564.9 Draufsicht der Approximation der Spiralen fur BP . . . . . . . . . . . . . . . . 574.10 Seitenansicht der Approximation der Spiralen fur BP . . . . . . . . . . . . . . 584.11 Draufsicht der Approximation der Spiralen fur CC . . . . . . . . . . . . . . . 584.12 Seitenansicht der Approximation der Spiralen fur CC . . . . . . . . . . . . . . 59

5.1 Die Individuen mit hoher Fitness f1 und f2 haben deutlich bessere Chancen zurReproduktion ausgewahlt zu werden, als die Individuen mit geringer Fitnessf3 und f4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.2 Darstellung des Prinzips des one-point-crossovers. . . . . . . . . . . . . . . . . 665.3 Darstellung des uniform crossovers. Aus zwei Eltern-Individuen wird nur

ein Nachkomme erzeugt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

7

Page 8: Neuronale Netze Optionspreistheorie Und Risikobewertung

8 ABBILDUNGSVERZEICHNIS

5.4 Das vierte Gen wurde zur Mutation ausgewahlt und seine Allele mit derdes Nachbargens getauscht. pm bezeichnet die Wahrscheinlichkeit, mit der einbestimmtes Gen mutiert wird. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.5 Das vierte Gen wurde zur Mutation ausgewahlt und seine Allele gekippt. pm

bezeichnet die Wahrscheinlichkeit, mit der ein bestimmtes Gen mutiert wird. 67

8.1 Jordan network with connections between the output cells and the contextcells. The context cells have direct feedback connections. Source: [Zel94, p. 138.] 96

8.2 Elman network. The context cells are connected with the cells of the hiddenlayer and have no direct feedback connections. Source: [Zel94,p.141]. . . . . . 97

8.3 Hierarchical Elman network with two hidden layers Source: [Zel94, p.142]. . . 988.4 Screenshot of the Stuttgart Neural Network Simulator. There are five control

panels: The display window, the log, the control panel, the error graph andthe analyser. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

8.5 Pattern file . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1018.6 The process of building, training and testing a neural network . . . . . . . . . 1028.7 Results of the forcasting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1058.8 Correlation coefficients of business climate indicators . . . . . . . . . . . . . . . 1088.9 Time lags with the highest correlation coefficients for each data series . . . . . 1108.10 Results of the neural network for different input sets . . . . . . . . . . . . . . . 1118.11 Results of the buy signals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1128.12 Results of the sell signals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1128.13 3-month forecast of the DAX: The shading of the background indicates the trend 113

Page 9: Neuronale Netze Optionspreistheorie Und Risikobewertung

Tabellenverzeichnis

7.1 Bedingte Verteilung des Kreditwerts in einem Jahr zum Zeitpunkt t . . . . . . 907.2 Bedingte Verteilung des Verlustes in einem Jahr zum Zeitpunkt t . . . . . . . 90

9

Page 10: Neuronale Netze Optionspreistheorie Und Risikobewertung

10 TABELLENVERZEICHNIS

Page 11: Neuronale Netze Optionspreistheorie Und Risikobewertung

Kapitel 1

Grundlagen kunstlicher neuronaler Netze

von Roman Brosowski

1.1 Einfuhrung und Motivation

Ein in einer Bank alltagliches Vorkommnis ist das Einreichen eines Kreditantrags. Imklassischen Fall geht ein Kunde zu einer Filiale einer Bank und reicht den Antrag bei demdafur zustandigen Sachbearbeiter ein.

Dieser Sachbearbeiter wird nun mit einer Vielzahl von Daten konfrontiert. Das konntenbeispielsweise Kreditbetrag, Laufzeit sein, aber auch zusatzliche Informationen wie Wohnort,Dauer der Kundenbeziehung, Auskunfte bei Schufa, Infoscore oder bei Firmen Auskunftevon entsprechenden Ratingagenturen, direkt personenbezogene Daten wie Alter, Geschlecht,berufliche Tatigkeiten sein. Auch ist denkbar, dass sich der Sachbearbeiter von dem Aussehender Person beeindrucken lasst.

Nachdem der Sachbearbeiter nun mit den Daten vertraut ist, muss er anfangen, diese zuprufen und zu bewerten. Dabei muss er selbsttatig gewichten, welche Daten einen großerenEinfluss auf die spatere Vergabe ausuben und welche womoglich uberhaupt keinen Einflussauf eine Vergabe haben.

Die letztendliche Entscheidung des Sachbearbeiters ist sozusagen digital: entweder lehnt erden Kreditantrag in seiner bisherigen Form ab, oder er lasst ihn passieren und gewahrt dengewunschten Kredit.

Aus Sicht der Banken ist es nun wunschenswert, dass alle Bearbeiter ungefahr den gleichenStandard haben, so dass eine Person bei allen Filialen mit den gleichen Chancen an einenKredit herankommt. Dabei ist allerdings auch entscheidend, dass die vorhandenen Datenentsprechend ihrer tatsachlichen Relevanz gewichtet werden, keine, womoglich personlichgepragten, Praferenzen eine Rolle spielen und zudem aus Erfahrungswerten gelernt wird.

11

Page 12: Neuronale Netze Optionspreistheorie Und Risikobewertung

12 Grundlagen kunstlicher neuronaler Netze (Roman Brosowski)

Abbildung 1.1: Schematischer Aufbau eines naturlichen Neurons

Damit diese Ziele der Bank vom Sachbearbeiter erreicht werden konnen, stellt sie ihm einHilfsmittel zur Verfugung, welches sich um den Kreditantrag kummern kann: ein Gehirn.

Auf den ersten Blick mag das etwas ungewohnlich sein, allerdings ist die Arbeitsweise einesGehirns fur die Problematik Bewertung eines Kreditantrags durchaus brauchbar. Diese unterteiltsich in drei Schritte.

Am Anfang steht die Informationsaufnahme. Diese erfolgt bei einem Lebewesen uber dieSinne. Die Informationen werden dann uber Nervenbahnen zum Gehirn geleitet. Diesesverarbeitet sie dann, kann dabei auf schon erlernte Muster zuruckgreifen oder durch dasSammeln von Erfahrungen neue bilden. Als letzter Schritt erfolgt dann eine Ausgabe,beispielsweise in Form einer Entscheidung oder einer Handlung.

Von daher ist es von Interesse, sich die Arbeitsweise und den Aufbau eines Gehirns, also einesneuronalen Netzes, etwas genauer anzuschauen.

1.2 Grundlegender Aufbau eines neuronalen Netzes

1.2.1 Das naturliche Neuron

Das kleinste Element in einem neuronalen Netz ist das Neuron. Seine grundlegendeArbeitsweise unterscheidet sich kaum von der des oben beschriebenen Gehirns. DieHauptbestandteile des Neurons sind: Axon, Soma, Dendrit. Die Bestandteile des Systemsdienen der Eingabe, Verarbeitung und Ausgabe.

Die Aufgabe des Axons liegt darin, die Informationen der dem Neuron vorgelagertenNeuronen an das Soma weiterzuleiten. Im Soma selber erfolgt eine Informationsverarbeitungund letztendlich auch eine Ausgabe. Diese leitet das Soma mit Hilfe seiner Dendriten weiter.An die Dendriten schließen sich die Synapsen an, welche die Schnittstelle zwischen deneinzelnen Neuronen bilden. Zwischen ihnen herrscht ein permanenter Ionenfluss, der dieInformationen ubertragen kann.

Wie erfolgt nun die Informationsverarbeitung in einem Neuron?

Page 13: Neuronale Netze Optionspreistheorie Und Risikobewertung

1.2 Grundlegender Aufbau eines neuronalen Netzes 13

Abbildung 1.2: Schematischer Aufbau eines neuronalen Netzes

Hier gibt es noch keine endgultigen Erkenntnisse, da es vor allem noch an Wissen daruberfehlt, in welcher Form die Daten aussehen, die zwischen den einzelnen Neuronen hin-und hergeschoben werden. Die grundlegende Struktur ist allerdings schon hinreichend gutbekannt:

Das Neuron empfangt Informationen von seiner Vorgangerzelle. Der Fachausdruck fur dieseInformationen ist Reiz. Sobald diese Reize einen gewissen Wert (Schwellwert) uberschreiten,sendet das Neuron uber seinen Dendriten einen Reiz an seine Nachfolgerzellen ab, d.h. esfeuert.

Fur uns relevant bleibt allerdings die Frage, ob man mit einem solchen System arbeiten kann,oder besser gesagt: ist man in der Lage, mathematische Strukturen mit Hilfe von Neuronennachzubilden?

1.2.2 Aufbau eines Netzes

Wie sich schon andeutete, wandern in einem neuronalen Netz die Informationen vonNeuron zu Neuron. Im allgemeinen besitzt ein solches Netz drei Untergliederungen. EineEingabeebene, welche die Daten und Informationen sammelt. In der Verarbeitungsebenewerden diese Daten, wie der Name schon sagt verarbeitet, und dann letzt endlich in derAusgabeebene dem Benutzer zur Verfugung gestellt.

Jede Ebene lasst sich durch eine Funktion beschreiben: fein, fakt, faus

Ubertragen auf unseren Kreditbearbeiter kann man den Schichten entsprechende Funktionenzuordnen:

Eingabeebene Der Kreitantrag wird eingereicht.

Verarbeitungsebene Der Antrag wird uberpruft.

Ausgabeebene Die Entscheidung wird bekannt gegeben.

Page 14: Neuronale Netze Optionspreistheorie Und Risikobewertung

14 Grundlagen kunstlicher neuronaler Netze (Roman Brosowski)

Abbildung 1.3:

1.3 Aufbau eines kunstlichen neuronalen Netzes

1.3.1 Der erste Nachbau: das McCulloch-Pitts Neuron

Die ersten konkreten Arbeiten, die sich mit dem Thema Mathematik und Neuronenbefassten, stammen von Warren McCulloch und Walter Pitts1 und wurden Mitte des20. Jahrhunderts verfasst.

Sie verstanden das Neuron als eine Art binarer Schalter, der entweder an- oder ausgeschaltetsein konnte. Das Neuron erhalt eine Eingabe, die aus einem Vektor besteht, dessen Elementeentweder 0 oder 1 sind. Als Ausgabe erfolgt ebenfalls entweder eine 0 oder eine 1. Das Neuronselbst summiert im inneren samtliche Elmente des Eingabevektors auf und vergleicht diesemit einem vorgegebenen Schwellenwert S, d.h.

o(x1, . . . , xn) =

0 fallssumni=1xj < S

1 fallssumni=1xj ≥ S

(1.1)

Dieses Neuron ist also sehr einfach aufgebaut, allerdings reicht diese simple Konstruktionschon aus, um Boolesche Funktionen zu modellieren. Dazu mussen wir es erreichen, mitdiesem Neuron die Funktionen UND und ODER zu modellieren.

1.3.2 Und-Funktion

∧ : 0, 1 → 0, 1mit(p, q) → p ∧ q

Wir wahlen ein Neuron, welches uber zwei Eingabeelemente verfugt. Als Schwellwert setzenwir S = 2 an. Wir konnen samtliche denkbaren Ergebnisse in folgender Tabelle abtragen:

1A logical calculus of the ideas immanent in nervous activity, 1943

Page 15: Neuronale Netze Optionspreistheorie Und Risikobewertung

1.3 Aufbau eines kunstlichen neuronalen Netzes 15

Eingabe∑

xi Relation zu S Ausgabe MCP-Neuron p ∧ q

(0/0) 0∑

xi < S 0 0

(0/1) 1∑

xi < S 0 0

(1/0) 1∑

xi < S 0 0

(1/1) 2∑

xi > S 1 1

1.3.3 Oder-Funktion

∨ : 0, 1 → 0, 1mit(p, q) → p ∨ q

Wir benutzen das gleiche Neuron wie bei der vorherigen Funktion, nur diesmal andern wirden Schwellwert von S = 2 auf S = 1. Dann ergibt sich folgende Funktion:

Eingabe∑

xi Relation zu S Ausgabe MCP-Neuron p ∧ q

(0/0) 0∑

xi < S 0 0

(0/1) 1∑

xi = S 1 1

(1/0) 1∑

xi = S 1 1

(1/1) 2∑

xi > S 1 1

Durch Kombination dieser Funktionen ist man in der Lage, samtliche denkbaren Funktionenim Booleschen Raum nachzubilden. Damit haben wir zumindest im Grundsatz gezeigt, dassman mathematische Funktionen sinnvoll mit einem neuronalen Netz nachbilden konnte.

1.3.4 Verfeinertes Modell des Neurons

Das McCulloch-Pitts Neuron ist sehr einfach gehalten. Um komplexere Aufgaben, schließlichwollen wir, dass das Netz bei der Kreditvergabe lernen kann, zu bewaltigen und spater auchModifikationsmoglichkeiten im kunstliches neuronalen Netz zur Verfugung zu haben, mussenwir unser Modell des Neurons erganzen.

Eine erste Neuerung besteht darin, dass wir in Zukunft als Eingaben reele Zahlen zulassen.Auch denkbar waren komplexe Zahlen.

Eine entscheidende Neuerung besteht jedoch bei der Zerlegung der Neuronen in ihre einzelnenFunktionen.

Page 16: Neuronale Netze Optionspreistheorie Und Risikobewertung

16 Grundlagen kunstlicher neuronaler Netze (Roman Brosowski)

1.3.5 Die Eingabefunktion

Als Gegenstuck zu den Axonen und Synapsen des naturlichen Neurons findet man dieEingabefunktion. Sie leitet die Summe aller gewichteten Eingabewerte (xjwj) der Neuronenweiter.

fein(xj, . . . , xn) = sumnj=1xjwj (1.2)

1.3.6 Die Aktivierungsfunktion

Die einfachste Aktivierungsfunktion wurde auch schon im Kapitel uber die McCulloch-PittsNeuronen indirekt angesprochen.

(fakt fein)(xj, . . . , xn) =

1 furfein ≥ S

0 furfein < S(1.3)

Weitere typische Aktivierungsfunktionen stellen die Identitatsfunktion mit und ohneSchranken dar. Auch denkbar sind elementare Polynome oder signoide Funktionen.

1.3.7 Die Ausgabefunktion

Die Ausgabefunktion ubergibt die u.U. bearbeitete Aktivierung des Neurons als Ausgabewertan die folgenden Zellen. Oftmals wird fur Die Ausgabefunktion die Identitatsfunktionverwendet.

faus(fakt(x)) (1.4)

1.4 Topologien und Lernverfahren

1.4.1 Topologien

Mit Topologie meint man die Struktur der Verbindungen der einzelnen Neuronen in einemkunstlichen neuronalen Netz. Wie schon im letzten Abschnitt erwahnt, unterliegen alleTopologien grundsatzlich einer Gliederung in Eingabe-, Verarbeitungs- und Ausgabeschicht.

Bei den Topologien gibt es zwei grundsatzliche Unterscheidungen:

• Neuronale Netze ohne Ruckkopplung (feedforward-Netze)

Page 17: Neuronale Netze Optionspreistheorie Und Risikobewertung

1.4 Topologien und Lernverfahren 17

• Neuronale Netze mit Ruckkopplung (rekurrente-Netze)

1.4.2 Netze ohne Ruckkopplung

Jedes Neuron leitet den erzeugten Output an nachfolgende Neuronen weiter. Es wird keinOutput an vorhergehende Neuronen zuruckgegeben.

Es gibt zwei Varianten solcher Netze: einmal ebenenweise verbundene Netze. Bei diesen wirdder Output von Schicht zu Schicht weitergegeben. Dann Netze mit sogenannten shortcuts.Hier kann ein Output eine Ebene uberspringen und so direkt von der Eingabeschicht zurAusgabeschicht weitergeleitet werden.

1.4.3 Netze mit Ruckkopplung

Der Output einzelner Neuronen wird teilweise an vorhergehende Neuronen, z.B. sich selbst,direkt oder indirekt weitergeleitet.

Auch denkbar sind Netze, bei denen Neuronen innerhalb einer Schicht direkt vernetzt sind.Diese Netze werden als laterale Netze bezeichnet. Eine weitere vorstellbare Topologie ware einvollstandig verschaltetes Netz. Durch dieses konnen durch entsprechende Wahl der Gewichtewj alle anderen Typen erzeugt werden.

Fur welche Topologie man sich letztendlich entscheidet, kann allgemein nicht gesagt werden.Es kommt auf die jeweilige Aufgabenstellung an.

1.4.4 Lernverfahren

Zusatzlich ist es fur eine Bank von Interesse, dass unser Gehirn mit der Zeit lernt, alsoaus jedem bearbeiteten Kreditantrag schlauer wird. Es ist also naheliegend, in das Gehirnauch Lernverfahren zu implementieren. Man kann also ein Lernverfahren als eine gezielteSelbstmodifikation des kunstlichen neuronalen Netzes verstehen.

Welche Modifikationsmoglichkeiten hat nun unser Netz? Denkbar waren folgende:

• Aufbau und Abbau von Verbindungen zwischen den Neuronen

• Modifikation der Gewichte

• Modifikation der Aktivierungsfunktion oder der Ausgabefunktion

• Aufbau und Abbau von Neuronen

Die heute ublichen Lernverfahren lassen sich in drei Gruppen untergliedern:

Page 18: Neuronale Netze Optionspreistheorie Und Risikobewertung

18 Grundlagen kunstlicher neuronaler Netze (Roman Brosowski)

• Uberwachtes Lernen

• Bestarkendes Lernen

• Unuberwachtes Lernen

1.4.5 Uberwachtes Lernen

Ein Lehrer verfugt uber eine ausreichend große Anzahl von Tupeln, bestehend ausEingabevektoren und den dazu passenden Ausgabevektoren.

In einem ersten Schritt ubergibt der Lehrer dem neuronalen Netz einen Eingabevektor undlasst diesen von dem Netz auswerten. Die Ausgabe des neuronalen Netzes wird nun mit demkorrekten Ausgabevektor einer Fehlerfunktion ubergeben, die anhand dieser Information, dasneuronale Netz modifiziert.

Dieser Vorgang wird solange wiederholt, bis samtliche Tupel dem neuronalen Netz ubergebenwurden. Die Voraussetzung fur diese Art von Lernen ist naturlich, dass entsprechende Tupelexistieren.

1.4.6 Bestarkendes Lernen

Auch in diesem Fall existiert ein Lehrer, der uber Tupel verfugt. Der Ablauf ist prinzipiellgleich dem des uberwachten Lernes. Der Unterschied besteht darin, dass dem neuronalenNetz nun nicht mehr ein korrekter Ausgabevektor zur Verfugung gestellt wird, sondern nurdie Information ubergeben wird, ob der vom neuronalen Netz erzeugte Vektor mit demtatsachlichen ubereinstimmt oder nicht.

In diesem Fall konnte beispielsweise der Kreditsachbearbeiter der Lehrer sein. Er teilt demNetz die bisherigen Krediantrage mit und fragt das Netz, ob es den Kredit genehmigen wurdeoder nicht. Anschließend teilt er dem Netz mit, ob die Entscheiung korrekt war oder nicht.

1.4.7 Unuberwachtes Lernen

In diesem Fall existiert kein Lehrer. Das Netz soll sich gezielt selbst organisieren undversuchen, die Daten zu sortieren. Dadurch hat das Netz die flexibelste Grundlage fur eineOrganisation, allerdings kann hier ein Lerneffekt auch ausbleiben, wenn die Selbstorganisationfehlschlagt.

Page 19: Neuronale Netze Optionspreistheorie Und Risikobewertung

1.5 Adaline und Madaline 19

Abbildung 1.4: Adaline

1.5 Adaline und Madaline

Das einfachste denkbare kunstliche neuronale Netz besteht aus nur einem einzelnen Neuron.Da dieses Netz weder uber eine Eingabeschicht noch uber eine Ausgabeschicht verfugt, istes bei diesem System erforderlich, die Informationen dem Netz codiert als ~x ∈ −1, 1n Vektorzu ubergeben und seine Ausgabe wieder zu dekodieren. Ein solches Netz bezeichnet man alsAdaline.

Als Eingabe lassen wir, wie schon gesagt, nur -1 und 1 zu.

xj ∈ −1, 1furj = 1, . . . , n (1.5)

Auch fuhren wir einen 1-Wert oder auch Bias genannt ein, der an das Neuron eine permanentepositive Eingabe sendet.

Θ = +1

Entsprechend modifizieren wir die Eingabefunktion:

fein(xj, Θ) = Θ +n

j=1

xjwj (1.6)

Als Aktivierungsfunktion dient eine einfache Schwellwertfunktion:

fakt(fein(xj, Θ)) =

1 furfakt ≥ S

0 furfakt < S(1.7)

Page 20: Neuronale Netze Optionspreistheorie Und Risikobewertung

20 Grundlagen kunstlicher neuronaler Netze (Roman Brosowski)

Abbildung 1.5:

1.5.1 Und-Funktion mit Adaline

Wie schon bei den McCulloch-Pitts Neuronen versuchen wir den Booleschen Operator UNDnachzubauen. Dazu nutzen wir eine Adaline, die zwei Eingaben bestehend aus -1 oder 1erwartet. Die Gewichte seien 0 und 2, der Schwellwert sei 1.1.

Eingabe xj fein faus,ist faus, soll

(-1,-1) 0,6 -1 -1

(1,-1) 1,0 -1 -1

(-1,1) 1,0 -1 -1

(1,1) 1,4 1 1

Die Adaline teilt den Eingaberaum in zwei Teile. Versuchen wir nun, ob wir auch ODERrealisiseren konnen.

1.5.2 Oder-Funktion mit Adaline

Die Gewichte sein wieder 0 und 2. Der Schwellwert betrage nun 0.2.

Page 21: Neuronale Netze Optionspreistheorie Und Risikobewertung

1.5 Adaline und Madaline 21

Abbildung 1.6:

Eingabe xj fein faus,ist faus, soll

(-1,-1) -0,2 -1 -1

(1,-1) 0,2 1 1

(-1,1) 0,2 1 1

(1,1) 0,8 1 1

1.5.3 XOR als Grenze der Adaline

Mit der Adaline konnen wir sowohl die UND als auch die ODER Funktion darstellen. Beideteilen den Ergebnisraum in zwei Teilraume. Stellt sich eine Frage: konnen wir mit diesemverbesserten Neuron den Ergebnisraum auch in drei Teile zerteilen?

Eine Zerteilung in drei Teile wurde sich bei der entweder oder Funktion, oder kurz XORgenannt, ergeben. Formell musste folgendes Gleichungssystem gelost werden.

−w1 − w2 + Θ ≤ 0 (1.8)

−w1 + w2 + Θ > 0 (1.9)

+w1 − w2 + Θ > 0 (1.10)

+w1 + w2 + Θ ≤ 0 (1.11)

Durch einfaches Umformen und Einsetzen ergibt sich

2Θ > 0und2Θ ≤ 0.

Page 22: Neuronale Netze Optionspreistheorie Und Risikobewertung

22 Grundlagen kunstlicher neuronaler Netze (Roman Brosowski)

Die Adaline ist also nicht in der Lage, diese Aufgabe zu losen. Es gibt allerdings eine Rettung:die Multiple Adaline, kurz Madaline.

1.5.4 Madaline

Wir setzen insgesamt drei Adaline zu einer Madaline zusammen. Fur den Fall des XORsbenutzen wir in der ersten Schicht ein oder-Adaline und ein negiertes und. Deren Ausgabenfassen wir mit einem und-Adaline wieder zusammen.

Dieses Konstrukt ergibt folgende Ausgabe:

Eingaben Oder Nicht-Und Oder Und Nicht-Und

(-1,-1) -1 +1 -1

(+1,-1) +1 +1 +1

(-1,+1) +1 +1 +1

(+1,+1) +1 -1 -1

Mit diesem Aufbau haben wir nun das XOR realisisert. Durch Kombination von beliebigvielen Adalines ist man in der Lage, jede Funktion zu nahern.

Page 23: Neuronale Netze Optionspreistheorie Und Risikobewertung

Kapitel 2

Grundlagen

von Hans-Peter Ziegler

2.1 Einleitung und Motivation

Die klassischen Programmierstile sind zwar fur viele Probleme ausreichend, stoßen aber auchleider oft an ihre Grenzen.

Beim modularen Programmierstil, wie etwa bei Turbo Pascal, werden vom AnwenderDatenstruktur, Funktionen und ihre Abfolge fest vorgegeben. Kleine Veranderungen derProblemstellung, sprich der Umwelt, fuhren aus diesen festen Strukturen heraus und machenoftmals strukturelle Anderungen am Programm selbst notwendig.

Die objektorientierten Weiterentwicklungen, wie beispielsweise C++, Java usw. erleichterndas Programmieren und machen die erstellten Programme wartungsfreundlicher. DasProblem der festgelegten Strukturen, des Unvermogens sich seiner Umgebung anzupassen,bleibt aber bestehen.

An diesem Schwachpunkt andern auch regelbasierte Programmierstile nichts, bei denen dieUmwelt mit Hilfe einer Modellwelt durch Fakten und Regeln beschrieben wird. Dies laßtzwar allgemeinere Problemlosungen zu, unterliegt dennoch einer starken Schematisierung desUmfeldes.

In all diesen Fallen stimmen die Grenzen des Programms mit denen des Programmierersuberein, da er selbst das Problem bereits in “mundgerechte Happen“ aufschlusseln muss.Deshalb war es notwendig ein Programmierverfahren zu entwickeln, das es schafft eineProblemstellung selbststandig zu analysieren und eine moglichst gute Losung zu finden.Neuronale Netze sind ein solcher Ansatz, bei dem das Programm viel Freiheiten besitzt unddurch Lernen selbst seine Struktur aufbaut... Doch dazu spater noch mehr!

23

Page 24: Neuronale Netze Optionspreistheorie Und Risikobewertung

24 Grundlagen (Hans-Peter Ziegler)

Vielleicht ist es an dieser Stelle angebracht ein oder zwei Beispiele zu der oben angesprochenenProblematik anzureisen. Dazu stelle sich folgendes Problem vor:

Man soll einen Roboter bauen, der beide Arme und Hande unabhangig voneinander zubewegen vermag. Das Problem einen Gegenstand zu greifen laßt sich qualitativ leichtformulieren – wenn es jedoch um die Umsetzung in Bewegungen der einzelnen Gelenke geht,treten enorme Schwierigkeiten auf, die u.a. darin liegen, dass sich die tatsachliche Situationvon Fall zu Fall andert und sich der Algorithmus auf diese Anderungen einstellen muss. DerRoboter muss also in gewisser Weise “flexibel“ sein, “selbststandig“ Losungen finden, ausFehlern lernen – und das Ganze auch noch in einer akzeptablen Zeit.

Ein weiteres Problem:

Berechnung des momentanen Kurses einer Option, oder des Wertes einer Wahrung. Selbstwenn es einen deterministischen Zusammenhang zwischen den Weltdaten und des Kurses gabeund dieser bekannt ware, mussten so viele Daten richtig erfasst und bewertet, d.h. gewichtetwerden, dass jeder noch so große Computer damit uberfordert ware, erst recht wenn sichdie Situationen am Markt von Augenblick zu Augenblick andern und seine Ergebnisse nachMoglichkeit in realtime berechnet werden sollen.

Beide Problemstellungen haben eines gemein:

Mit den herkommlichen Algorithmen wurde man sich die Zahne ausbeisen.

Ein weiteres bedeutendes Problem, das zur Einfuhrung der KNN fuhrte lag in derNotwendigkeit, neue mathematische Methoden zur Approximation ’komplexer’ Funktionenzu finden. An dieser Stelle wird deutlich erwahnt, dass sich hinter all den Modellvorstellungender KNN nichts weiter als Approximationsverfahren verbergen. Diese sollen eine unbekannteFunktion - die beispielsweise einen Raum in zwei Untermengen (richtig, falsch) unterteilt -moglichst genau beschreiben.

2.2 Grundidee

Wie so oft, wenn Wissenschaftler ein neues Modell entwickeln, wurde auch hier die Grundideeaus der Natur abgeschaut.

Vorlage fur die KNN bilden die menschlichen Nervenzellen. Diese sind wie folgt aufgebaut:

Eine solche Zelle besteht im Prinzip aus

• dem Zellkorper (Soma), der als Informationstrager dient und im einfachsten Fall diebeiden Zustande ’erregt’, ’nicht erregt’ (also 1 und 0) unterscheidet,

• dem Zellfortsatz (Axon), das den Erregungszustand eines Zellkorpers weiterleitet,

• den Rezeptoren (Dendriten), die die Eingangserregungen aufaddieren und auf denZellkorper ubertragen.

Page 25: Neuronale Netze Optionspreistheorie Und Risikobewertung

2.2 Grundidee 25

Abbildung 2.1: Neuronale Netze in der Biologie

Abbildung 2.2: Modell eines Neuronalen Netzes in der Informatik

• der Synapse, die Potenziale zwischen Pri- und Postsynapse uber einen funktionalen Spalt’verarbeitet’ und weiterleitet. Als Pri- bzw. Postsynapse konnen axonische, dendritischeund speziell als Postsynapse auch somatische Bereiche auftreten.

Die folgende Abbildung zeigt eine mogliche informationstheoretische Abstraktion diesesModells.

Ankommende Informationen an werden uber die Eingange (Dendriten) aufgenommen. In denSynapsen werden diese Daten nach ihrer Wichtigkeit bewertet und entsprechend uber dieGewichte verstarkt oder gedampft. Alle Informationen addieren sich nun im eigentlichenZellkorper auf und ergeben ihren Aktivierungszustand, der wiederum uber das Axon anfolgende Zellen weiterubermittelt wird.

Unserem KNN werden die Informationen zur Beschreibung der Umwelt, ahnlich wie beiunserem Gehirn, in moglichst kleinen Verarbeitungseinheiten eingeggeben. Die Modellbildung

Page 26: Neuronale Netze Optionspreistheorie Und Risikobewertung

26 Grundlagen (Hans-Peter Ziegler)

erfolgt dann auf einer Beschreibungsebene, die nicht mehr in einem direkten Zusammenhangmit der Anwendungswelt steht. Das gibt der Verarbeitung Raum zur Interpretation. Somitwird unser System ’offener’ fur andere, ahnliche Situationen.

Diese Simulation kann selbstredend nicht die Leistung des menschlichen Gehirns erreichen.Dieses hat etwa 1011 Neuronen mit 1015 Verbindungen pro Sekunde.

Das erklart auch, warum einfache KNN nicht in der Lage sind, menschliche Attributewie Kreativitat, Phantasie und Assoziationsvermogen angemessen zu simulieren. Beimodernen KNN werden aberauch bereits diese Hurden genommen,was dazu fuhrt, dassneue Programme durchaus Verhaltensweisen, die wir auch hoheren Lebewesen zuordnen wiebeispielsweise optische Tauschung oder auch kognitive Phanomene wie Konditionierungs- /Assoziationseffekte (die deutlich hohere Komplexitat voraussetzen).

2.3 Aufbau

Um die Funktion eines KNN uberhaupt zu verstehen, finde ich es an dieser Stelle notig,zunachst auf die wichtigsten Elemente und den Grundaufbau des Netzes einzugehen.

2.3.1 Eingabeschicht

Die Eingabeschicht nimmt Informationen aus der Umwelt auf und ordnet diesen Werte zu,damit folgende Schichten mit sie verarbeiten konnen. (z.B. Es werden verschiedenenen Farben,Zahlen zugeordnet)

2.3.2 Ausgabeschicht

Die Ausgabeschicht wandelt die Ergebnisse am Ende der Berechnung wieder in fur denUser handliche Datensatze um. (z.B. Den Zahlen werden wieder die zugehorigen Farbenzugeordnet)

2.3.3 Der Aktivierungszustand

Jede Einzelaktivierung ai einer Verarbeitungseinheit (=Zelle/Neurons) stellt einen Anteilder Aktivitat des Gesamtsystems dar. Diese wird zum Zeitpunkt t mit dem Vektor ~a(t)beschrieben.

Die Aktivierungszustande konnen diskrete Werte, also z.B. 0, 1 fur inaktiv, aktivoder −1, 0, 1 fur nein, indifferent, ja oder kontinuierliche Werte mit oberer undunterer Schranke, also z.B. [0; 1], annehmen. Haufig wird dafur eine Sigmoidfunktion

Page 27: Neuronale Netze Optionspreistheorie Und Risikobewertung

2.3 Aufbau 27

Abbildung 2.3: Diskrete Akt.-funktion

Abbildung 2.4: kontinuierliche Akt.-funktion

(reelle, differenzierbare, punktsymmetrische, monoton steigende Funktion mit beschranktemBildbereich) gewahlt.

Die Aktivitat jeder Zelle wird bestimmt vom Vorzustand (Voraktivierung, Bias) der Zelleund den Zustanden der ubrigen Zellen im Netz.

ai(t) = fakt(neti(t), ai(t − 1))

Die Aktivierung aller Zellen im Netz wird als Netzaktivitat neti(t) bezeichnet. AlsAktivierungsfunktion wird meist eine Schwellwert- oder Treppenfunktion benutzt, da manmit ihr Verarbeitungseinheiten mit diskreten Aktivierungszustanden erzeugen kann:

2.3.4 Die Ausgaberegel

Die Ausgabefunktion oi(t) des i-ten Neurons ist abhangig vom Aktivierungszustand ai(t) allerubrigen Neuronen

oi(t) = faus(ai(t)).

Im einfachsten und wohl haufigsten Fall wird fur die Ausgabefunktion die Identitat zumAktivierungszustand gewahlt, was Rechenaufwand vermeidet undzumindest in diesem Schritt

Page 28: Neuronale Netze Optionspreistheorie Und Risikobewertung

28 Grundlagen (Hans-Peter Ziegler)

Abbildung 2.5: Sigmoide Funktion als Akt.-Funktion

Zeit einspart. Deshalb wird in der Literatur des ofteren gar nicht erst zwischen Aktivierungs-und Ausgabefunktion unterschieden.

In manchen Fallen kann es jedoch von Nutzen sein, die nichtlineare Aktivierungs- in einelineare Ausgabefunktion zu modellieren.

Wann aber genau welche Funktion die bessere ist, hangt von dem jeweiligen Problem ab undist wiedereinmal eine Frage der Erfahrenheit des Programmierers.

2.3.5 Das Fehlermaß

Damit das KNN lernen (seine Struktur verandern) kann, muss es nach einem ProbedurchlaufRuckmeldeung erhalten uber die Richtigkeit seiner Ergebnisse.

Dazu fuhren wir das Fehlermass ein. Dieses ist ein Maß fur die Abweichung des Testregebnissesvom realen Wert.

Bei Ausgabeeinheiten ist es leicht das Fehlermaß durch den Vergleich des Ist- mit dem Sollwertzu erhalten.

Interessiert man sich fur einzelne Verarbeitungsschichten, so muss der Gesamtfehler auf dieeinzelnen Schichten verteilt werden. Hier gibt es wieder eine sehr einfach, dafur aber auchungenau Moglichkeit: Der Gesamtfehler wird durch die Anzahl der Schichten (bzw. Neuronen- je nach Problem) geteilt und anschließend dieser Anteil jeder Schicht (jedem Neuron)zugeordnet.

Zum Verstandnis sollte diese Variante genugen, da es mir eh nicht moglich ist, auf alle weiterenund teilweise extrem aufwendigen Berechnungen zur Fehlerverteilung einzugehen.

Page 29: Neuronale Netze Optionspreistheorie Und Risikobewertung

2.4 Allgemeine Eigenschaften 29

2.3.6 Synapsen und Gewichte

Zwei Neuronen i und j sind jeweils uber die Gewichte (wij) und (wji) miteinander verbunden.Die Ausgabe des i-ten Neurons wird also als gewichtete Eingabe des j-ten Neurons mit demGewicht (Faktor) wij gewertet und umgekehrt.

Je großer das Gewicht zwischen den beiden Zellen ist, desto starker tragt die Informationder feuernden Zelle zur Aktivitat der empfangenden Zelle bei. Ist das Gewicht negativ, sowirkt die Vorgangerzelle hemmend auf ihren Nachfolger. Bei wij = 0 besteht keine Verbindungzwischen den beiden Neuronen.

Der Schwellwert Θi (Threshold, Bias) gibt die Untergrenze an, ab der ein Neuron aktiviertwird. Dieser laßt sich als Gewicht einer Zelle mit der Aktivitat 1 (On-Neuron) auffassen,welche mit dem entsprechenden Neuron verbunden ist.

2.3.7 Netzaktivitat

Als letzte große steht nun noch die Netzaktivitat aus. In ihr soll, wie der Name schon sagt,die Aktivitat des gesamten Netzes angegeben werden. Diese setzt sich aus den Aktivitatenzwischen den einzelnen Zellen, also der Outputgroßen der Zellen jeweils bewertet mit denVerbindungsgewichten zu den Nachfolgezellen.

netj =∑

i

oiwij

2.4 Allgemeine Eigenschaften

Bei den allgemeinen Eigenschaften ist zunachst die Robustheit zu positiv zu nennen.Durch die Zusammenarbeit vieler Neuronen fuhren Ausfalle oder die Fehlfunktion einzelnerNeuronen nicht zum Zusammenbruch des ganzen Systems, sondern nur zur schrittweisenAbnahme der Leistung.

Dies kann man sich mit der Fehlerfunktion vor Augen fuhren, bei der das Zusammenspielaller Fehler der einzelnen Neuronen den Gesammtfehler bilden. Bei einer großen Anzahlvon Neuronen hat dann der Fehler einer einzelnen Zelle keinen grossen Einfluss auf dasGesammtergebnis.

Daruberhinaus ermoglicht die aus der Struktur des Modells resultierende Parallelisierbarkeitdie Verteilung des Rechenaufwands auf mehrere Prozessoren.

Und nun noch die dritte und wichtigste Eigenschaft: Lernenfahigkeit

Das System bekommt vom ’Schopfer’ lediglich Eingangsdaten und die gewunschte bzw.erwartete Reaktion zur Verfugung gestellt. Iterativ wird das Netz so lange trainiert, bis es mit

Page 30: Neuronale Netze Optionspreistheorie Und Risikobewertung

30 Grundlagen (Hans-Peter Ziegler)

einer Handlungsvorschrift endlich ein vom Programmierer vorgegebenes ’erlaubtes Fehlermaß’unterschreitet. Dieses Fehlermaß dient dem Programm als hinreichende Bedingung fureine stabile Konfiguration. Somit ist keine explizite Eingabe der einzelnen Parameter derVerbindungsstruktur zwischen den einzelnen Neuronen erforderlich.

2.5 Lernverfahren

Unter Lernen wird der Vorgang der Modifikation des Netzes bzw. der Gewichte zurMinimierung einer Fehlerfunktion f : Rd ⇒ Rc verstanden. Dazu werden dem NetzTrainingsdaten (Inputdaten aus dem Rd und Outputdaten des Rc) angeboten und dieReaktion bewertet. Dabei wird man sich im allgemeinen auch mit einem lokalem Minimumzufrieden geben mussen, wobei die ’Gute’ von Fall zu Fall vom Programmierer neu festgelegtwerden kann. Dabei spielen Erfahrungswerte eine große Rolle.

In der informationtheoretischen Forschung der letzten funfzig Jahre haben sich verschiedeneLernstrategien herausgebildet. Diese lassen sich Beispielsweise in Uberwachtes Lernen, Lernendurch bestarkung und Unuberwachtes Lernen kategorisieren:

Wird dem Netz genau mitgeteilt, was es lernen und spater reprasentieren soll, bezeichnetman das mit Uberwachtem Lernen. Hier kann der Programmierer noch recht viel Einflußauf die Struktur des KNN nehmen und die Testdaten sehr genau durch die Ausgabefunktionbeschrieben werden. Im Gegenzug neigt dieses Verfahren allerdings zum Auswendiglernenund busst so, viel von seiner flexibilitat ein. Diese Methode kann etwa mit dem Lernen vonVokabeln verglichen werden.

Beim Lernen durch Bestarkung erhalt das Netz lediglich Ruckmeldung uber seinVerhalten, d.h. nur die Ausgabe des KNN wird bewertet, nicht jedoch die Netzaktivitateinzelner Schichten. Hierdurch erhalt das Programm mehr Freiheit, gleichzeitig verliert derProgrammierer aber die morglichkeit eben auf die einzelnen Schichten einzuwirken und eineProblemstelle zu lokalisieren.

Als Beispiel sei an die Bewertung der Fahigkeiten eines Spielers erinnert. Diese außern sichdarin, ob er haufiger gewinnt oder verliert. Eine Auskunft uber seine angewendeten Methodenwird damit jedoch nicht getroffen.

Demgegenuber beobachtet das System beim sogenannten Unuberwachten Lernen seineErgebnisse eigenstandig und zieht aus ihnen selbststandig Schlusse. Dieser Stil fuhrt meinesErachtens zu den flexibelsten Konfigurationen, was sich aber negativ auf entweder diegenauigkeit im Einzelfall oder die Lernzeit auswirkt.

Als alternative Moglichkeit der Kategorisierung bietet sich eine Unterscheidung der einzelnenLerntypen nach ihrem Einfluss auf die Netzstruktur an.

Beim Konstruktiven Lernen andert sich die Netzstruktur durch Hinzufugen und Entfernenvon Komponenten. Es konnen also neue Verbindungen zwischen bereits existentenNeuronen geschaffen oder alte unterbrochen, zusatzliche Neuronen, ja ganze Schichten neuhinzukommen oder eliminiert werden.

Page 31: Neuronale Netze Optionspreistheorie Und Risikobewertung

2.6 Topologie 31

Sind hingegen bereit von vornherein mehr als genug Neuronen im Netz integriert und alle miteinander verbunden, so lasst sich uber die Verbindungsgewichte Einfluß auf die Netzstrukturnehmen. Dies geschieht in dem man Gewichte ’0’ setzt, um so die zugehorige Verbindungzu unterbrechen, bzw. den Wert von ’0’ andert, um diese Verbindung zu aktivieren. DieseMethode bezeichnet man als Parameterschatzung.

2.6 Topologie

Je nach Informationsfluss innerhalb des Netzes lassen sich grob zwei Topologienunterscheiden.

Feed-forward Netze ubermitteln Informationen immer nur in eine Richtung, also stets annachfolgende Schichten. Bei ihnen sind Verbindungen zu vorgelagerten Zellen ausgeschlossen.

Feed-backward Netze hingegen ermoglichen Verbindungen von einer Schich zu beliebigenVorgangerschichten. Hier muss auf den zeitlichen Ablauf im Netz geachtet werden, damitjede Zelle zu jedem Zeitpunkt mit den momentan richtigen Informationen versorgt wird.

Zwei bekannte Typen dazu sind:

Rekurrenten Netzen, bei denenZellen Verbindungen zu Zellen in fruheren Schichten besitzen,wodurch Ruckkopplungen und Zyklen moglich werden.

Symmetrischen Netzen, sog. Hopfield - Netzen, bei welchen jede Verbindung mit gleichemGewicht auch in umgekehrter Reihenfolge vorhanden ist. Ihre Eigenschaften konnen zurImplementierung oder Berechnung von Naherungslosungen verwendet werden.

2.7 Adaline und Madaline

Die einfachste Form eines Neuronalen Netzes besteht aus einem einzelnen Neuron ohne Ein-und Ausgabeschicht. Die Informationen werden also, bereits bewertet, direkt in das Neuroneingegeben. Dieses liefert mit Hilfe seiner so erreichten Aktivitat eine Ausgabe, die noch vomUser zu interprtieren ist.

Zusatzlich werden nur zwei mogliche Aktivierungszustande zugelassen

ai = ±1.

Damit ergibt sich die Netzaktivitat zu

net =

n∑

i=1

aiwi + Θ.

Page 32: Neuronale Netze Optionspreistheorie Und Risikobewertung

32 Grundlagen (Hans-Peter Ziegler)

Abbildung 2.6: Bauplan einer Adaline

Aktivierungsfunktion:

a =

+1 : net > 0

−1 : net ≤ 0

Damit lasst sich ein logisches AND darstellen:

Sind z.B. alle Gewichte 0.1 und der Schwellwert -0.1, so ergeben sich folgendeAktivierungszustande.

Eingabeaktivierung net Ausgabe Sollwert

-1 / -1 -0.3 -1 -1

-1 / +1 -0.1 -1 -1

+1 / -1 -0.1 -1 -1

+1 / +1 +0.1 +1 +1

Ebenso konnen OR, NAND und NOR erzeugt werden. XOR jedoch stellt bereits ein nichtmehr losbares Problem dar, was sich aus dem dazugehorigen Gleichungssystem schnellerkennen laßt:

Eingabeaktivierung XOR NXOR

-1 / -1 -1 +1

-1 / +1 +1 -1

+1 / -1 +1 -1

+1 / +1 -1 +1

Page 33: Neuronale Netze Optionspreistheorie Und Risikobewertung

2.7 Adaline und Madaline 33

Abbildung 2.7: Realisation der OR-Funktion

Abbildung 2.8: Realisation der AND-Funktion

Damit ergibt sich das gesuchte Gleichungssystem

−w1 − w2 + Θ ≤ 0 (2.1)

−w1 − w2 + Θ > 0 (2.2)

+w1 − w2 + Θ > 0 (2.3)

+w1 + w2 + Θ ≤ 0, (2.4)

welches nicht losbar ist, da (1) + (4) =⇒ 2Θ ≤ 0, jedoch (2) + (3) =⇒ 2Θ > 0 gilt.

An der Lage der gewunschten Ausgabezustande in der (x1, X2) Ebene erkennt man dieseparierende Eigenschaft der Adaline durch eine einzige Gerade. Dies ist naturlich im Fallvon XOR nicht mehr moglich.

Eine Adaline kann also eine gegebene Menge nur linear in 2 Untermengen separieren. Es mussmoglich sein die beiden Ergebnismengen durch eine Hyperebene, mit ~wt~x = 0, zu trennen.

Abbildung 2.9: Realisation der XOR-Funktion

Page 34: Neuronale Netze Optionspreistheorie Und Risikobewertung

34 Grundlagen (Hans-Peter Ziegler)

In unserem Fall des XOR erreicht man dies, indem man zwei Adaline parallel schaltet. Dieerste produziert ein OR, die zweite ein NAND. Dahinter wird noch ein AND geschaltet undman erhalt das gewunschte Ergebnis:

Eingabe OR NAND ’OR’ AND ’NAND’

-1 / -1 -1 +1 -1

-1 / +1 +1 +1 +1

+1 / -1 +1 +1 +1

+1 / +1 +1 -1 -1

Dieses Verfahren nennt man Multiple Adaline, kurz Madaline

2.8 Adaption der Adaline

Nach dem der Aufbau der Adaline kurz erlautert wurde, gehen wir zum eigentlich interessatenTeil, dem Lernen bzw. der Adaption der Adaline uber.

Wie oben angesprochen, unterteilt die Adaline eine gegebene Menge A in zwei Untermengen,im folgenden mit A− und A+ bezeichnet. Alle Elemente der Menge A− fuhren zu net = −1,alle Elemente der Menge A+ zu net = +1.

Somit ergibt sich:

asoll =

+1 : a ∈ A+−1 : a ∈ A−

Den Gewichten und dem Schwellwert werden zufallig Werte zugeordnet. Der Bereich in demdiese Werte gewahlt werden ist problemabhangig und es kommt auf die Erfahrungen an, dieder Programmierer bislang gesammelt hat. In den meisten Fallen werden die Gewichte aberin einer Großenordnung um 10−1 festgelegt.

Die Abweichung von net zu asoll ist dann:

δges = asoll − net

Dieser Fehler wird gleichmaßig auf alle Gewichte verteilt:

δ = δges/(n + 1)

n+1 ergibt sich aus den n Eingabevektoren + dem Schwellwert!

Dies bewirkt bei den Gewichten folgende Anderungen:

wi = wi + ηaiδ

Θ = Θ + ηδ

Page 35: Neuronale Netze Optionspreistheorie Und Risikobewertung

2.9 Das Perzeptron 35

η ist dabei der Lernfaktor, der angibt in welchem Maß der Fehler Einfluss auf das neueGewicht nimmt.

Dieser Vorgang wird nun solange wiederholt, bis alle ist-Werte den soll-Werten entsprechen.Dabei wird δ aber in den meisten Fallen niemals genau Null werden, da eine genaue Adaptionnicht moglich ist.

So auch im einfachen Beispiel AND, das folgendes Gleichungssystem ergibt:

−w1 − w2 + Θ = −1 (2.5)

−w1 + w2 + Θ = −1 (2.6)

+w1 − w2 + Θ = −1 (2.7)

+w1 + w2 + Θ = +1 (2.8)

Das GLS fuhrt mit (5) + (6) zu Θ = 0 und nach (7) + (8) zu Θ = 2.

2.9 Das Perzeptron

Das Perzeptron funktioniert vom Ansatz her ahnlich wie die Adaline.

Im Gegensatz zur Adaline jedoch werden die Eingabevektoren zunachst in der Eingabeebenecodiert und dann erst an die Verarbeitungseinheit ubermittelt.

(Adaline besteht nur aus einer Zelle. Der User muss die Informationen als bereits codierteingeben!)

Zudem wird bei der Fehlerermittlung der Adaption die Sollaktivitat mit der Aktivitat desPerzeptrons verglichen:

δ = asoll − a, mit

a =

net : net > 0

0 : sonst

Wird hier der Lernprozess wiederholt, so stellt sich irgendwann eine stabile Konfigurationein!

2.10 Stochastische Mustererkennung mal anders...

Klein-HaPe geht in den Zoo. Im Zoo gibt es viele Tiere.

Alle Tiere in den Grenzen des Zoos seien Elemente = Ereignisse xi der Menge Ω. (i = 1, 2, ..., n)

Page 36: Neuronale Netze Optionspreistheorie Und Risikobewertung

36 Grundlagen (Hans-Peter Ziegler)

Im Zoo gibt es ausschliesslich Affen, Baren, Vogel und Schlangen.

Jede dieser Tierarten bildet eine Teilmenge Ωk der Gesamtmenge Ω (k = 1, 2, .., m).

Somit konnten alle Affen in der Menge Ω1, alle Baren in der Menge Ω2 u.s.w. liegen.

Die Mengen sind selbstverstandlich disjunkt, da es selten vorkommt, dass sich Baren mitVogeln paaren. Somit kann also kein Ereignis in 2 Klassen liegen.

Klein-HaPe sucht sich nun irgend ein Tier aus, beispielsweise den großen Braunbaren. DieWahrscheinlichkeit, dass er sich gerade fur ihn entschieden hat sei PΩ(xi) und ist naturlicheine andere, als die fur die kleine Eule, die sich im Baum versteckt.

Die Wahrscheinlichkeit dafur, dass das willkurlich gewahlte Tier aus der Klasse Ωi stammt,sei PΩ(ωi).

ωi seien dabei die klassifizierten Elemente der Menge Ωi.

Sind in unserem Zoo also 25 Tiere und 10 davon Affen, so wahre PΩ(ω1) = 10/25 = 0, 4.

Klein HaPe mochte wissen, was fur ein Tier er sich da ausgesucht hat, damit er weiss, ober es streicheln kann. Dafur hat er eine Rechenmaschine. Jede Zelle dieser Rechenmaschinekann zwischen 2 Ereignissen unterscheiden. Dementsprechend konnte es 4 Zellen geben:

Die erste unterscheidet zwischen Affe und nicht Affe.

Bei Affe sendet sie die Info an die Ausgabe und Klein-HaPe sieht, dass es ein Affe ist. Beinicht Affe bleibt sie inaktiv.

Die zweite Zelle unterscheidet dann zwischen Bar und nicht Bar u.s.w.

Ist unser Ereignis xi nun in der Menge Ωk, so wird es von einer einzelnen Zelle mit derWahrscheinlichkeit P (xi|ωk) an Klein-HaPe weitervermittelt.

Klein HaPe interessiert jetzt naturlich die Wahrscheinlichkeit, dass unser xi auch wirklich inseine zugehorige Klasse Ωk eingeordnet wurde.

Diese Wahrscheinlichkeit lasst sich mit P (ωk|xi) ausdrucken.

Hat Klein-HaPe nun viele Infos uber den Zoo, so ist PΩ(xi) bekannt, genauso wie PΩ(ωk).

Auch die Wahrscheinlichkeit, dass unser xi auf die Klasse Ωi produziert wird, also P (xi|ωk)ist ermittelbar (Durch Testreihen).

Somit kann er mit der Bayes-Regel aus seiner Statistik A Vorlesung:

P (y|x)P (x) = P (x|y)P (y)

die gesuchte Wahrscheinlichkeit P (ωk|xi) ermitteln:

P (ωk|xi) = P (xi|ωk)PΩ(ωk)/PΩ(xi)

Page 37: Neuronale Netze Optionspreistheorie Und Risikobewertung

2.10 Stochastische Mustererkennung mal anders... 37

Seine Maschine ist dann gut, wenn sie fur jedes xi ∈ Ω, die Klasse Ωk wahlt, fur die P (ωk|xi)maximal ist.

Sind die Daten jedoch unbekannt, so ist folgender Weg denkbar:

rkl ∈ R sei die Strafe dafur, dass die Maschine unser Tier xi in die Klasse Ωk, statt Ωl einordnet.

So ist rkl fur ’Affe’ statt ’Vogel’ relativ klein, denn ob er das eine oder andere Tier streichelt,macht keinen grossen Unterschied.

Teilt die Maschine hingegen das Tier in die Klasse Affe ein, statt Bar, so sollte rkl etwasgrosser sein und etwa seinen Armverlust bewerten.

Das Risiko, das Klein-HaPe also in einem bestimmten Fall eingeht, ist:

rk(ωk|xi) =∑

l

rklp(ωl|xi)

Das Gesamtrisiko, fur alle Falle betragt dann:

R(w) =< rk(ωk|xi) >=∑

k,l

Ωk

rklp(ωl|xi)p(xi)dxi

, da

Erwartungsoperator < f(x) >=

f(x)p(x)dx

Die Beziehung∑

l p(ωl|xi) = 1 ergibt sich direkt aus der obigen Bayes - Regel.

Daraus folgt:

R(w) =∑

k

Ωk

rkp(xi)dxi

Diese Risiko-Funktion sollte nun minimiert werden, damit Klein-HaPe ruhigen Gewissensendlich losstreicheln darf.

Page 38: Neuronale Netze Optionspreistheorie Und Risikobewertung

38 Grundlagen (Hans-Peter Ziegler)

Page 39: Neuronale Netze Optionspreistheorie Und Risikobewertung

Kapitel 3

Das Backpropagation-Verfahren

von Jakob Janiszewski

3.1 Grundlagen

Vorab werden einige verwendete Zeichen kurz erklart.

netpj(t) net input, also Eingangswert der Zelle j im Pattern p zum Zeitpunkt t

opj(t) net output, also Ausgangswert der Zelle j im Pattern p zum Zeitpunkt t

ωij(t) Gewicht der Zelle j bzgl. der Vorgangerzelle zum Zeitpunkt t

Fact Aktivierungsfunktion einer Zelle

Ep Fehlerfunktion des Patterns p

tpj vom User errechneter Losungsvektor – Idealwert

η Lernfaktor – Schrittweite der Gewichtsmodifikation

δpj Fehlersignal – gibt den Fehleranteil eines Neurons j des Patterns p am

Gesamtfehler an

Die Ausgangsbasis des Backpropagation-Verfahrens stellen vielschichtige Feedforward-Netzedar, welche zum uberwachten Lernen konzipiert wurden.

Eine Schicht (Pattern) ist eine endliche Anzahl von Neuronen, die untereinander durch Axone(Verbindungsstrange) verbunden sind und uber diese Informationen in Form von Impulsenubertragen konnen. Vielschichtig bedeutet in diesem Fall, dass das Netz mindestens eineverborgene Schicht aufweisen muss, nebst einer Eingabe- und Ausgabeschicht. Feedforward

39

Page 40: Neuronale Netze Optionspreistheorie Und Risikobewertung

40 Das Backpropagation-Verfahren (Jakob Janiszewski)

bedeutet, dass ein Neuron m an ein nachfolgendes Neuron m + 1 einen Impuls abgeben kann,dies in umgekehrter Richtung allerdings nicht moglich ist.

Ein elementarer Gesichtspunkt des Backpropagation ist die Lernmethodik des Netzes. ImGrunde gibt es drei verschiedene Lernstrategien fur KNN:

1. Die erste ist das eben schon angesprochene uberwachte Lernen. Dabei gibt es einen externenLehrer, der dem Netz zu jeder Eingabe die korrekte Ausgabe oder gleich die Differenz dieserbeiden angibt. Anhand dieser Differenz, welche Fehler genannt wird, wird das Netz uber eineLernregel modifiziert. Diese Technik setzt allerdings voraus, dass Trainingsdaten existieren, beidenen die korrekte (erwunschte) Ausgabe bereits bekannt ist.

2. Daneben existiert auch das bestarkende Lernen. Im Gegensatz zum uberwachten Lernen wirddem Netz hier lediglich mitgeteilt, ob die Ausgabe richtig oder falsch war, ein Maß fur denFehler erfahrt das Netz nicht.

3. Als drittes gibt es das unuberwachte Lernen. Diese seltene Lernart findet ohne externen Lehrerstatt. Das Netz versucht ohne externe Beeinflussung die prasentierten Daten gemaß vorhergelernter Strukturen in Aquivalenzklassen aufzuteilen.

Das Backpropagation-Verfahren arbeitet mit dem Eingabe-Verarbeitung-Ausgabe Prinzip.Das bedeutet, daß das Netz eine externe Information aufnimmt, diese gemaß dervorprogrammierten Prozeduren bearbeitet und das Ergebnis wieder an einen externenAbnehmer liefert. Jeder dieser Schritte besitzt im Backpropagation-Verfahren eine eigeneSchicht.

3.1.1 Die Eingabeschicht

Die Neuronen der Eingabe-Schicht besitzen keine Eingangsgewichte, jedes Neuron gibt nurden vorher extern prasentierten Eingangsvektor weiter. Somit fungiert jedes Neuron dieserSchicht als Schnittstelle mit der Umwelt, aus der Reize in Form von Vektoren an einverarbeitendes Neuron weitergegeben werden.

net1 = oUmwelt

3.1.2 Die Verarbeitungsschicht

Schichten aus verarbeitenden Neuronen heißen Verarbeitungsschichten oderverborgene Schichten (hidden layers). Jedes Neuron solcher Schichten besteht ausdrei Funktionseinheiten. Als erstes wird mittels der Propagierungsfunktion dieEingangsinformation des Neurons aus der gewichteten Summe der Outputs derVorgangerneuronen berechnet. Das Neuron ist nun im sogenannten Propagierungszustand.

netj(t) =∑

i

oi(t)ωij(t)

Page 41: Neuronale Netze Optionspreistheorie Und Risikobewertung

3.2 Backprop-Verfahren 41

Als zweites ermittelt die Aktivierungsfunktion aus dem Propagierungszustand denAktivierungszustand. Somit werden die Eingangsinformation und die aktuelle Aktivitat a(t)zu einer neuen Aktivitat a(t + 1) kombiniert – als Aktivierungsfunktion werden im Falle derBackpropagation oftmals sigmoidale Funktionen gewahlt.

Snetj =1

1 + e(−netj)

Sie sind hinreichend glatt und lassen sich dementsprechend problemlos ableiten – eineBedingung fur die Anwendung des Backpropagation-Verfahrens.

Da das Neuron nun einen neuen Aktivierungswert hat, wird es diesen mit Hilfeeiner Ausgabefunktion an nachfolgende Neuronen weitergeben. Als Ausgabefunktion wirdzweckmaßigerweise haufig die identische Abbildung gewahlt. Somit gilt also:

oj = Fact(netj)

Im allgemeinen ist die Anzahl der verborgenen Schichten variabel. Falls sie jedoch zu kleingewahlt wird, vermag das Netz das Problem nicht zu losen, ist sie zu groß, entsteht das schonfruher erwahnte Prinzip des Overtraining.

3.1.3 Die Ausgabeschicht

Ein Ausgabeneuron funktioniert analog zu einem Verarbeitungsneuron, mit dem Unterschied,dass der Abnehmer der Ausgabe der User ist und kein weiteres Neuron. Somit fungiert einjedes Neuron der Ausgabeschicht als erneute Schnittstelle zwischen dem Netz und der Umwelt.Die Arbeitsweise eines Ausgabeneurons ist jedoch nicht vergleichbar mit der Arbeitsweiseeines Eingabeneurons, da dieses, wie erwahnt, keine Gewichte besitzt und lediglich als ’reine’Schnittstelle zwischen User und Netz gilt, wohingegen das Ausgabeneuron zwar auch einesolche Schnittstelle darstellt, jedoch einen verarbeitenden Charakter aufweist, da es, so wiedie verarbeitenden Neuronen, Gewichte besitzt und sich somit der Aktivierungszustand desNeurons bei jedem Impuls andert.

3.2 Das eigentliche Verfahren

Da nun die einzelnen Schichten definiert wurden, wenden wir uns dem Verfahren an sich zu.Das Backpropagation-Verfahren gliedert sich in drei Stufen.

Page 42: Neuronale Netze Optionspreistheorie Und Risikobewertung

42 Das Backpropagation-Verfahren (Jakob Janiszewski)

3.2.1 Der Forward Pass

Beim Forward Pass wird der Eingabeschicht des Netzes ein beliebiger Eingabe vektor v ∈ Rn

(genannt: Muster) prasentiert. In der ersten verborgenen Schicht wird dann fur jedes Neuroneine Aktivierungsfunktion ermittelt

Snetj =1

1 + e−cnetj

und dessen Ausgabefunktion (Aktivierungsfunktion) ergibt den Eingangsvektor der folgendenNeuronen der nachsten Verarbeitungsschicht bis hin zur Ausgabe w ∈ R

m der Ausgabeschicht.

Entsprechend fuhrt man dies fur ein zweites Muster durch, bis alle erwunschten Muster in dasNetz eingegeben wurden. Alle Muster zusammen heißen Trainingsmenge. Es ist auffallig, dassin der obigen Formel eine Konstante c auftaucht. Sie stellt einen frei wahlbaren Faktor dar,der die Steilheit der Aktivierungsfunktion bestimmt. Je großer c gewahlt wird, desto ahnlicherist diese Funktion der Treppenfunktion. Die Wahl von c hangt vom zu bearbeitenden Problemab.

3.2.2 Die Fehleranalyse

Zum Trainieren des Netzes werden die Soll-Ausgabewerte mit den Ist-Ausgabewertenjedes Eingabemusters verglichen. Dies laßt sich theoretisch fur jede Schicht durchfuhren.Mit anderen Worten wird fur jede einzelne Schicht der entsprechende Fehler berechnet.Theoretisch deswegen, weil es nicht moglich ist, die ausgehenden Informationen einer Schichtseparat zu behandeln, es wird vielmehr versucht, mithilfe dieser Darstellung die letztendlicheZusammensetzung des Gesamtfehlers zu vermitteln. Der Fehler ergibt sich dann zu

Ep =1

2

m∑

j=1

(tpj − opj)

2.

Der sich daraus ergebende Gesamtfehler

E =1

2

m∑

j=1

(tj − oj)2

heißt mittlerer quadratischer Fehler und ist offensichtlich die Summe der Einzelfehler allerSchichten.

E =∑

p

Ep

Die Grundidee dieser Vorgehensweise ist folgende: Berechnet man nach jederGewichtsmodifikation den Gesamtfehler, ergibt sich eine Fehlerfunktion. Das Ziel istes nun, ein Minimum dieser Fehlerfunktion ausfindig zu machen, da an dieser Stelle dieDifferenz zwischen tatsachlicher und erwunschter Ausgabe folglich minimal ist. Um ein

Page 43: Neuronale Netze Optionspreistheorie Und Risikobewertung

3.2 Backprop-Verfahren 43

solches Minimum zu finden, bedient man sich der Methode des Gradientenabstiegs. DerGradient einer Funktion ist deren erste Ableitung nach den einzelnen Variablen.

Anschaulich betrachtet andert man nach und nach die einzelnen Gewichte der Neuronenund bewegt sich dadurch Schritt fur Schritt entlang der Fehlerfunktion. Nach jederGewichtsmodifikation ermittelt man den Fehler und analysiert das Verhalten des Gradienten.Besitzt er eine negative Steigung, befindet man sich auf dem richtigen Weg RichtungMinimum. Deswegen setzt man den Vorgang fort, bis die Steigung des Gradienten gegen 0konvergiert. Dies bedeutet dass ein Minimum erreicht wurde, wobei dieses im allgemeinen keinglobales, sondern ein lokales Optimum ist. Das Minimum der Fehlerfunktion aller Gewichtealler Neuronen eines Patterns erhalt man also, indem man den Gradienten der Fehlerfunktionnach den einzelnen Gewichten bestimmt und die einzelnen Gewichte entsprechend derLaufrichtung des Gradienten modifiziert.

Zum besseren Verstandnis betrachtet man die Modifizierung eines einzelnen Gewichts. Damitist der Gradient die erste Ableitung der Fehlerfunktion nach diesem einen Gewicht. Sukzessivewird nun dieses Gewicht modifiziert und entsprechend das Minimum der Fehlerfunktiongesucht.

Der eben erklarte Sachverhalt fuhrt zu folgender Formel:

∆ωij = −∑

p

η∂Ep

∂ωij

,

wobei η die Lernrate angibt, also eine Art Schrittgroße, die anzeigt, um welchen Faktor sichdie Gewichtsanderung auf die Konvergenzgeschwindigkeit auswirkt. Wiederum ist die obigeFormel ein rein theoretisches Konstrukt, da man ja, wie erwahnt, den individuellen Fehlernicht separat fur jedes Pattern ermitteln kann und wird lediglich zur Herleitung der folgendenFormeln verwendet.

Durch Anwendung der Kettenregel ergibt sich

∂Ep

∂ωij

=∂Ep

∂netpj

∂netpj∂ωij

.

Der folgende Ausdruck wird Fehlersignal genannt.

∂Ep

∂netpj=

∂Ep

∂opj

∂opj

∂netpj= δp

j

Er gibt an, inwiefern das einzelne Neuron durch dessen Ausgabe am Gesamtfehler beteiligtwar (credit-assignment-Problem). Hierbei muss man unterscheiden, ob das angesprocheneNeuron ein Ausgabeneuron oder ein verarbeitendes Neuron ist. Der Grund liegt darin,dass sich der Fehler des Ausgabeneurons direkt aus der Differenz zwischen tatsachlicherund erwunschter Ausgabe errechnet. Der Gesamtfehler des verarbeitenden Neurons kannhingegen nur aus den Fehlern aller Nachfolgeneuronen und deren Verbindungsgewichtenωjk(t) berechnet werden. Folgen mehrere Schichten, so sind die Fehler aller Neuronen dernachfolgenden Schichten zu summieren, da jede Fehlaktivierung des j-ten Neurons bei allen

Page 44: Neuronale Netze Optionspreistheorie Und Risikobewertung

44 Das Backpropagation-Verfahren (Jakob Janiszewski)

nachfolgenden Neuronen notwendigerweise einen Fehler verursacht. Fur das Fehlersignalerhalt man

∂oj

∂netj=

e−netj

(1 + e−netj )2

= Snetj (1 − Snetj ) = opj(1 − op

j).

Die Formel ∂oj

∂netjist unabhangig von der betrachteten Schicht, da sie fur Ausgabe- sowie

Verarbeitungsneuronen gleich ausfallt:

Lediglich bei ∂Ep

∂netpj

muss man zwischen Verarbeitungs- und Ausgabeschicht unterscheiden, da

der Fehler Ep fur eine Ausgabeschicht die Differenz zwischen tatsachlicher und erwunschterAusgabe ist, wohingegen bei dem Fehler der verarbeitenden Schicht m die Summe der Fehlerder vorhergehenden Schichten m − n mit m ≥ n berucksichtigt werden soll. Dazu muss man

∂Ep

∂netpj=

∂Ep

∂opj

∂opj

∂netpj= δp

j

entsprechend ableiten.

• Fur ein verarbeitendes Neuron ergibt sich

∂Ep

∂opj

=∑

k

∂Ep

∂netpk

∂netpk∂op

j

=∑

k

δpk

∂∑

i opi ωik

∂opj

,

und damit∂Ep

∂opj

=∑

k

δpkωjk

Fur das Verarbeitungsneuron gilt somit:

δpj = op

j(1 − opj)

k

δpkωjk

• Fur ein Ausgabeneuron gilt fur den linken Ausdruck:

∂Ep

∂opj

= tpj − opj .

Schließlich ergibt sichδpj = op

j(1 − opj)(t

pj − op

j)

oder zudammenfassendVerarbeitungsneuron

Page 45: Neuronale Netze Optionspreistheorie Und Risikobewertung

3.2 Backprop-Verfahren 45

δpj = op

j(1 − opj) ·

k

δpkωjk

Ausgabeneuron

δpj = op

j(1 − opj)(t

pj − op

j)

Es wurde nun also das Fehlersignal fur die zwei alternativen topologischen Positionierungeneiner Schicht innerhalb eines Netzes definiert. Demnach wenden wir uns dem dritten undletzten Schritt des Backpropagation-Verfahrens zu: dem Backward Pass.

3.2.3 Der Backward Pass

Da wir das Fehlersignal nun kennen, konnen wir die Gewichte der einzelnen Neuronen imVerhaltnis zum Gesamtfehler andern. Dazu greifen wir noch mal auf

∂Ep

∂ωij

=∂Ep

∂netpj

∂netpj∂ωij

zuruck. ∂Ep

∂netpj

ist bekanntlich das Fehlersignal. Der Ausdruck∂net

pj

∂ωijwird nach den Gewichten

abgeleitet. Es ergibt sich:∂netpj∂ωij

=∂

i opi ωij

∂ωij

= opi

Gehen wir also von

∆ωij = −∑

p

η∂Ep

∂ωij

aus, erhalten wir∆ωij = η

p

opi δ

pj

und letztendlichωij(t) = ωij(t − 1) + ∆ωij(t − 1)

Auch hier ist eine Fallunterscheidung zu treffen, namlich die zwischen dem sog. offline- undonline-Modus.

Der Grund: falls das Netz offline lernen soll, mussen ihm zuerst alle Muster prasentiert werden,um dann in einem Schritt alle Gewichte des Netzes zu andern.

∆ges.ωij = η∑

p

opi δ

pj

Falls das Netz allerdings online lernen soll, so werden direkt nach jedem Pattern die Gewichtegeandert.

Page 46: Neuronale Netze Optionspreistheorie Und Risikobewertung

46 Das Backpropagation-Verfahren (Jakob Janiszewski)

∆pωij = η∑

p

opi δ

pj

Der leistungstechnische Unterschied liegt darin, dass das Netz fur das online-Verfahren dieGewichtsanderungen pro Muster errechnen muss, was somit Rechenzeit verbraucht, beimoffline-Training braucht das Netz nur eine Berrechnung pro Trainingsphase durchzufuhren,denn in einer Trainingsphase wird jedes Pattern dem Netz einmal prasentiert.

Auf der anderen Seite erwirkt das online-Verfahren eine viel genauere Approximation derFehlerfunktion dadurch, dass bereits nach jedem Muster eine Gewichtsanderung stattfindet.

Fazit: durch die Anwendung des offline-Modus erreicht man zwar eine kurzere Rechenzeit,jedoch entsteht ein Informationsverlust, da die Fehlerfunktion ungenau approximiert wird.

3.2.4 Resumee

Nach der voran gegangenen Vorgehensweise modifiziert man die Gewichte nun so lange,bis man das Minimum der Fehlerfunktion erreicht hat. Danach kann ein Testlauf gestartetwerden, um den Erfolg des Trainings zu uberprufen. Beim Testlauf werden dem Netzbisher untrainierte Testmuster prasentiert. Ist der entstehende mittlere quadratische Fehlerakzeptabel, ist das Netz genugend trainiert, ist er inakzeptabel, muss nachtrainiert werden,indem man neue Trainigspattern einfuhrt und den Vorgang entsprechend dem obenbeschriebenen System wiederholt.

3.3 Die Problematiken des Backpropagation-Verfahrens

3.3.1 Problemstellungen

Auch bei einem solch etablierten Verfahren wie dem Backpropagation ergeben sich Probleme.

• Es wird oftmals nur ein lokales Minimum der Fehlerfunktion gefunden (deswegen nenntman das Backpropagation auch lokales Verfahren). Der Grund dafur wird ersichtlich,wenn man sich noch einmal die Entstehung einer Fehlerfunktion vor Augen halt. Manfuhrt den Prozess des Gradientenabstiegs so lange durch, bis die Steigung gegen Nullkonvergiert. Ob das gefundene Minimum jedoch global oder lokal ist, kann man anhandder Steigung naturlich nicht erkennen. Es wurde noch keine ernst zu nehmende Methodeentwickelt, diesen doch außerst qualitatsmindernden Umstand zu beseitigen.

• Ein weiteres Problem ist die sog. Oszillation. Dazu nehme man an, die Fehlerfunktionwurde in einem bestimmten Intervall ein sehr starkes Gefalle aufweisen, dass in einemMinimum mundet und sich von diesem aus wiederum in einem Intervall erstreckt,in dem eine starke Steigung vorherrscht. Auf diese Intervalle beschrankt ware dies

Page 47: Neuronale Netze Optionspreistheorie Und Risikobewertung

3.3 Problematiken 47

dreidimensional gesehen vergleichbar mit einer Schlucht, zweidimensional mit einer nachoben geoffneten Normalparabel. Der Gradient am Rande jener Schlucht ware in diesemFall so groß, dass die Gewichte sehr stark angepasst wurden, wobei das Minimum, alsoder ’Boden’ der Schlucht, ubersprungen wird.

• Eine zusatzliche Problematik stellen flache Plateaus dar. In diesem Fall ware derGradient zu klein, so dass das Lernverfahren ins stocken geraten wurde, also nurnoch minimale Gewichtsanpassungen stattfanden. Dreidimensional ware dies mit einerEbene zu vergleichen, die eine ganz leichte Krummung vorzuweisen hatte. Des weiterenkann auch nicht festgestellt werden, ob diese Stagnation nun durch die minimaleKonvergenzgeschwindigkeit in einem Minimum oder durch jenes Plateau hervorgerufenwird.

3.3.2 Losungsansatze

Zu den eben erwahnten Problemen finden sich folgende Losungsansatze:

• Der konjugierte Gradientenabstieg: Um den Effekt der Oszillation und derflachen Plateaus vorzubeugen, wird ein Momentum-Term α eingefuhrt, der dieGewichtsmodifikation zum Zeitpunkt t − 1 mit einbezieht.

∆ωij(t) = ηopi δ

pj (t − 1) + αδp

j ωij(t − 1)

Daraus resultiert: eine Modifizierung von ∆ωi,j(t) erwirkt in flachen Plateaus eineBeschleunigung der Konvergenzgeschwindigkeit und eine Minderung deren bei steilenZerkluftungen. Dementsprechend wird der Effekt, der durch die hohe negative Steigungeintrifft, geschwacht.

• Rprop: Dies ist eine Alternative zum konjugierten Gradientenabstieg. Zuerst einmalmuss man sich vor Augen fuhren, dass die Große der Veranderung der Fehlerfunktionnicht nur von der Große der Lernrate η abhangt, sondern auch von der Ableitung nachden einzelnen Gewichten, also dem Gradienten. Da bei einem Vorzeichenwechsel desGradienten offensichtlich ein Minimum ubersprungen wurde, wird bei der Modifikationder Gewichte jeweils ein unabhangiger Wert ∆i,j definiert (dessen Betrag beziehtsich auf die Betrage der Gewichte, ist also deren Bruchteil), den man bei einemVorzeichenwechsel subtrahiert (da ja offensichtlich zu große Gewichtsanderungenstattfanden) und bei gleichbleibendem Vorzeichen addiert (fuhrt zu schnellererKonvergenz). Dieser Wert orientiert sich also lediglich am Vorzeichen des Gradienten.

∆(t)ij =

η+∆(t−1)ij , wenn ∂E(t−1)

∂wij· ∂E(t)

∂wij> 0

η−∆(t−1)ij , wenn ∂E(t−1)

∂wij· ∂E(t)

∂wij< 0

∆(t−1)ij , sonst

Page 48: Neuronale Netze Optionspreistheorie Und Risikobewertung

48 Das Backpropagation-Verfahren (Jakob Janiszewski)

Fur die Gewichte gilt dann:

∆w(t)ij =

−∆(t)ij , wenn ∂E(t)

∂wij> 0

+∆(t)ij , wenn ∂E(t)

∂wij< 0

0 , sonst

Bei dieser Formel muss beachtet werden, dass die im vorigen Verlauf erzieltenAnderungen (falls die partielle Ableitung ihr Vorzeichen geandert hat) wiederrevidiert wurden (es findet ja wieder ein Vorzeichenwechsel statt, da ∆i,j den letztenVorzeichenwechsel korrigiert hat). Deshalb, damit im nachsten Schritt nicht schon wiederein Vorzeichenwechsel festgestellt wird, gilt:

∂E(t−1)

∂wij

= 0

somit bleibt∂E(t)

∂wij

< 0

oder∂E(t)

∂wij

> 0

Zu weiteren Optimierungsansatzen wird in den folgenden Kapiteln noch Stellung bezogen.

Page 49: Neuronale Netze Optionspreistheorie Und Risikobewertung

Kapitel 4

Optimierung Neuronaler Netze

von Andreas Jung

4.1 Sinn und Zweck

Betrachtet man die Entwicklung Neuronaler Netze seit den Anfangen, so lasst sich beider Forschungsarbeit stets die treibende Kraft der Optimierung bestehender Algorithmenerkennen. Durch unterschiedliche Ansatze und Methoden wurde versucht, die Schwachpunkteder bisherigen Entwicklungsstufen auszumerzen. Zu diesen Hauptschwachpunkten zahlen: derZeitaufwand (Zeitkomplexitat), sowohl bei der Rechnerzeit, als auch der Programmierarbeitmit der dazugehorigen Obergrenze der Rechnerkapazitat. Eng damit ist die Frageverbunden, welche Aufwand-Nutzen-Relation sinnvoll ist, und daraus resultierend, welcheTrainingsmethode bzw. welche Netztopologie fur welches Problem gut oder auch weniger gutgeeignet ist.

Ein kleines Beispiel zur Rechenzeit:

Die maximale Anzahl der Gewichte in einem einfachen vollkommen verknupften Netzwerkerrechnet sich durch

Wmax = 1 + Hmax(Imax + 2),

wobei Wmax maximale Anzahl der Gewichte, Hmax maximale Anzahl der verdeckten Neuronenund Imax maximale Anzahl der Imputneuronen.

Die Anzahl der maximal moglichen Permutationen (Netztopologien) im vollkommenverknupften Netz, wobei Permutationen durch Veranderung der Gewichte entstehen, liegtsomit bei

Nmax = 2Wmax,

da jeweils zwei Neuronen miteinander verknupft werden.

49

Page 50: Neuronale Netze Optionspreistheorie Und Risikobewertung

50 Optimierung Neuronaler Netze (Andreas Jung)

Betrachtet man ein solches Netz mit 10 Eingangsneuronen und 5 verdeckten Neuronen, sowieeinem Ausgabeneuron und dem so genannten “On-Neuron“, so kann man - wobei durchNeutralisation einzelner Gewichte kleinere Netze entstehen -

Wmax = 1 + 5(10 + 2) = 61

⇒ Nmax = 261 ≈ 2.3 · 1018

verschiedene Netztopologien unterscheiden. Aus dieser gewaltigen Zahl folgt dieUnmoglichkeit, alle Topologien auf ihre Optimalitat hin zu testen. Nimmt man eine mittlereRechenzeit von 1 ms/Topologie an, so ergibt sich eine Gesamtrechenzeit von 73 MillionenJahren fur Training und Test. Das Ziel besteht also darin, gunstige Topologien und effektiveTrainingsmethoden zu finden, die bestimmten Mindestanforderungen gerecht werden.

4.2 Grundidee

Es stellt sich nun die Frage, wo die Optimierung ansetzen soll. Man unterscheidetdementsprechend folgende drei Verfahren.

1. Optimierung vor dem Lernverfahren

Bei diesem Ansatz bedient man sich Analytischer Schatzungen. Dies sind Verfahren,die versuchen mit statistischen Schatzfunktionen die Bestimmung von Art und Umfangder Hiddenschicht vorzunehmen. Hierbei wird problemorientiert eine Aufteilung desvon Inputvektoren und Hidden-Neuronen bestimmten Inputraumes in separable Raumevorgenommen. Diese Raume werden klassifiziert um die Anzahl der zur Losung desProblems notwendigen Pattern zu verringern. Auf diesem Gebiet sind allerdings keinenennenswerten Fortschritte fur nicht triviale Probleme erzielt worden, sodass hierweiterhin ein hohes Forschungsdefizit besteht.

2. Optimierung wahrend des Lernverfahrens

Bei diesen so genannten Konstruktiven Verfahren wird die verdeckte Schicht sukzessiveaufgebaut. Dieser Ansatz wird weiter unten am Beispiel der Cascade Correlation nahervorgestellt.

3. Optimierung nach erfolgtem Lernen

Die Pruning Verfahen (pruning, engl. Ausdunnen, Beschneiden) sind gewissermaßen denKonstruktiven Verfahren entgegengesetzte Methoden. Hier erfolgt eine nachtragliche,gewollte Manipulation der erreichten Netztopologie. Ausfuhrlich spater.

4.3 Das Cascade Correlation Verfahren

Die CC-Lernarchitektur ist ein Algorithmus fur Feed-Forward-Netze, der nicht nur dieGewichte adaptiert, sondern auch selbstandig die Netzgroße wahrend des Trainings bestimmt.Die Entwicklung erfolgte 1991 durch Fahlmann und Lebiere.

Page 51: Neuronale Netze Optionspreistheorie Und Risikobewertung

4.3 Cascade Correlation 51

Vorgehensweise: Generiere ein minimales Feed-Forward-Netz bestehend aus Ein- undAusgabeschicht mit den dazugehorigen Verbindungsgewichten, wobei die Anzahl derNeuronen problemabhangig ist. Danach erfolgt ein Training dieser Verbindungen mit einemStandardlernverfahren (z.B. Backpropagation) bis sich der Netzfehler

E(w) =1

2

P∑

p=1

N∑

i=1

(opi − tpi)2

nicht mehr wesentlich andert. Beachte: Ist der Fehler ausreichend klein, erfolgt zu diesemZeitpunkt schon ein Abbruch. Es kommt also gar nicht zur CC. Ist der Fehler allerdingsnicht klein genug wird eine verdeckte Schicht bestehend aus nur einer Zelle, der so genanntenKandidatenzelle, eingefugt. Wichtig hierbei ist, dass die Kandidatenzelle zunachst nur mitder Eingabeschicht verbunden wird.

Im nachsten Schritt wird die Maximierung der Summe der Betrage der Korrelation(eigentlich handelt es sich um die Kovarianz) zwischen der Ausgabe der Kandidatenzelleund dem Restfehler der Ausgabezelle vorgenommen. Dies erfolgt ebenfalls mit Hilfe einesStandardlernverfahrens

Sj =

N∑

k=1

P∑

p=1

(opj − oj) (δpk − δk)

mit δpk = f ′(netpk)(opk − tpk).

Hierbei sind opi die Ausgabe der Kandidatenzelle j, δpk der Restfehler der Ausgabezellek, oj und δk die Mittelwerte uber alle Muster P und f ′(netpk) die Ableitung derAktivierungsfunktion.

Kurzer Exkurs - Kovarianz: Die Kovarianz ist ein Maß furden Zusammenhang zweier Zufallsvariablen. Je hoher der Wertder Kovarianz ist, desto enger ist der Zusammenhang derbeiden Variablen.Eine hohe positive Kovarianz bedeutet beispielsweise, dassbeim Vorliegen eines uberdurchschnittlich hohen Wertes furX auch ein uberdurchschnittlicher Wert fur Y vorliegt.Eine hohe negative Kovarianz bedeutet dann, dass beimVorliegen eines uberdurchschnittlich hohen Wertes fur X einunterdurchschnittlicher Wert fur Y vorliegt. Ist die KovarianzNull, so ist X statistisch unabhangig von Y .

Die Maximierung durch das Standardlernverfahren erfolgt mittels des Korrelationsgradienten

∂Sj

∂wij

=P

p=1

N∑

n=1

σk(δpk − δk)f′(netpj)opi

mit dem Vorzeichen der Korrelation σk = sgn(∑P

p=1(opj−oj)(δpk−δk)). Bei der Implementierungerweist es sich als notwendig, den Korrelationsgradienten mit Hilfe des konstanten Faktors

c =

P∑

p=1

N∑

k=1

f ′(netpk)(opk − tpk)

Page 52: Neuronale Netze Optionspreistheorie Und Risikobewertung

52 Optimierung Neuronaler Netze (Andreas Jung)

Abbildung 4.1: Cascade-Topologie: ausgefullte Quadrate markieren diejenigen Gewichte, die mit

jedem Lernschritt erneut adaptiert werden, leere Quadrate die “eingefrorenen“ Gewichte.zu normieren:

∂Sj

∂wij

=

∑P

p=1

∑N

n=1 σk(δpk − δk)f′(netpj)opi

∑P

p=1

∑N

k=1 f ′(netpk)(opk − tpk)∣

Nach Abschluss der Korrelationsmaximierung wird die Kandidatenzelle fest in das Netzeingefugt. Hierbei ist zu beachten, dass die zuvor mittels Kovarianzmaximierung trainiertenGewichte eingefroren werden. Anschließend wird die Hiddenschicht noch durch Gewichte mitder Ausgabeschicht verbunden. Hierbei sei auf die besondere Kaskadentopologie hingewiesen(s. Abb. 4.3), bei der auch die Inputneuronen mit der Ausgabeschicht verbunden sind. Diesespezielle, CC-typische Verbindungen werden auch als Shortcut-Verbindungen bezeichnet.Es folgt ein erneutes Training, diesmal allerdings des gesamten Netzes mit Ausnahme dereingefrorenen Gewichte. Im Klartext also die Gewichte zwischen Eingabe- und Ausgabeschichtsowie Hidden- und Ausgabeschicht. (s. Abb. 4.3)

Auch nach diesem Schritt erfolgt eine Uberprufung des Lernfehlers wie oben. Ist der Restfehlerklein genug wird stoppt der Algorithmus. Ansonsten fahrt man fort indem man eine neueKandidatenzelle in das Netz eingefugt. Abb. 4.3 zeigt, dass sich eine deutliche Verbesserungdes Lernfehlers erst nach dem Einfugen der dritten Kandidatenzelle einstellt.

Eine mogliche Variation: Einfuhrung einer Kandidatengruppe, deren Zellen unabhangigvoneinander trainiert werden. Die Zelle, die die großte Korrelation aufweist, wird eingefugt.

Page 53: Neuronale Netze Optionspreistheorie Und Risikobewertung

4.3 Cascade Correlation 53

Abbildung 4.2: Lernfehlerverlauf fur die Tangensfunktion4.3.1 Unterschiede des CC zu “starren“ Netzen

Es werden viele Trainingsepochen in nicht endgultiger Große des Netzes durchgefuhrt, wasdie Rechenzeit verkurzt. Die Gewichte zur Ausgabeschicht andern sich wahrend der Adaptionnicht. Sie konnen einmal fur alle Muster und Ausgabezellen berechnet, abgespeichert undwieder verwendet werden, was ebenfalls die Rechenzeit verkurzt. Es findet nur ein “Forward-Pass“ nicht aber ein “Back-Pass“ wie in “starren“ Netzen statt.

4.3.2 Simulationsbeispiele

Trigonometrische Funktionen

Tangens-Funktion (siehe Tabelle 1, Abbildungen 4.3.2 und 4.3.2):

f(x) = tan(x), x ∈ [0, π]

Tabelle 1: Trainingsergebnisse fur die Tangensfunktion

Lernverfahren BP SCG QP CC

Netz 1-20-20-20-1 1-5-5-5-1 1-15-15-1 15

Gewichte 840 60 255 136

Lernschritte 100.000 660 3800 -

CPU-Zeit [ms] 344.670 31.570 235.710 946.670

Endfehler 0,1788360 0,0000100 0,0000090 0,0000002

Approximationsfehler 2,20973 0,71514 0,833118 0,99774

Page 54: Neuronale Netze Optionspreistheorie Und Risikobewertung

54 Optimierung Neuronaler Netze (Andreas Jung)

Abbildung 4.3: Approximation der Tangensfunktion von QP

Abbildung 4.4: Approximation der Tangensfunktion von CC

Page 55: Neuronale Netze Optionspreistheorie Und Risikobewertung

4.3 Cascade Correlation 55

Abbildung 4.5: Approximation der Cosinusfunktion von QP

Cosinus-Funktion (siehe Tabelle 2, Abb. 4.5 und 4.3.2):

f(x) = cos(x21 + x2

2), x1, x2 ∈ [−1.25, 1.25]

Tabelle 2: Trainingsergebnisse fur die Cosinusfunktion

Lernverfahren BP SCG QP CC

Netz 2-15-15-15-1 2-15-15-1 2-10-10-1 25

Gewichte 495 255 130 350

Lernschritte 500.000 1620 100.000 -

CPU-Zeit [ms] 1.505.500 247.120 1.921.108 1.782.660

Endfehler 0,0000640 0,0000570 0,0002440 0,0000004

Approximationsfehler 0,03170 0,02020 0,07593 0,1694

Schlußfolgerungen: Wie die Trainingsergebnisse und auch die Approximationsschaubilderzeigen, “verliert“ die CC gegen die gebrauchlichen Standardlernverfahren QP und BP. DieStarke des CC liegt in der Bewaltigung des Spiralenproblems, auf das im Folgenden nahereingegangen wird.

Spiralenproblem

Zwei ineinander verschrankte, jedoch raunlich getrennte Spiralen (s. Abb. 4.7 und 4.8)mussen unterschieden werden. Die Spiralenpunktstelle (x,y-Koordinate) dient als Eingabe,

Page 56: Neuronale Netze Optionspreistheorie Und Risikobewertung

56 Optimierung Neuronaler Netze (Andreas Jung)

Abbildung 4.6: Approximation der Cosinusfunktion von CC

Abbildung 4.7: Seitenansicht der betrachteten Spiralen

als Ausgabe dienen −1 oder 1 als Unterscheidungskriterium. In der Literarur wird dasSpiralenproblem auch als Benchmark-Test bezeichnet. Die Trainingsdaten sind in Tabelle3 dargestellt.

Abbildung 4.8: Draufsicht der betrachteten Spiralen

Page 57: Neuronale Netze Optionspreistheorie Und Risikobewertung

4.3 Cascade Correlation 57

Abbildung 4.9: Draufsicht der Approximation der Spiralen fur BP

Tabelle 3: Trainingsergebnisse fur das Spiralenproblem

Lernverfahren BP SCG QP CC

Netz 2-10-10-1 2-10-10-1 2-10-10-1 50

Gewichte 130 130 130 1315

Lernschritte 1.000 100 100 -

CPU-Zeit [ms] 18.790 59.700 58.090 1.635.530

Endfehler 15,3546 15,1993 15,1696 0,235921

Approximationsfehler 0,999804 0,988987 0,988197 0,089274

Wahrend hier die oben genannten Standardlernverfahren keine Problemlosung anbieten( siehe Abbildungen 4.9 und 4.10), kann das CC-Verfahren aufgrund seiner besonderenKaskaden-Netztopologie, also den Shortcuts, das Spiralenproblem losen (vergleicheAbbildungen 4.11 und 4.12).

4.3.3 Zusammenfassung

Die CC lasst eine Schwache bei der Approximation der angesprochenen nichtlinearenFunktionen erkennen. Es besitzt eine starkere Neigung zum Auswendig lernen, die durchdie dem Lernverfahren besonders angepasste Topologie zu erklaren ist. Dadurch entsteht dergezeigte Verlust der Generalisierungsfahigkeit. Aber gerade dieser Verlust versetzt die CC indie Lage, das Spiralenproblem zu losen.

Die CC stellt also eine sinnvolle Erganzung zu den bestehenden Lernverfahren dar.

Page 58: Neuronale Netze Optionspreistheorie Und Risikobewertung

58 Optimierung Neuronaler Netze (Andreas Jung)

Abbildung 4.10: Seitenansicht der Approximation der Spiralen fur BP

Abbildung 4.11: Draufsicht der Approximation der Spiralen fur CC

Page 59: Neuronale Netze Optionspreistheorie Und Risikobewertung

4.4 Pruning-Verfahren 59

Abbildung 4.12: Seitenansicht der Approximation der Spiralen fur CC

4.4 Pruning-Verfahren

Bei Pruning-Verfahren handelt es sich um Ausdunnungsmethoden die die Komplexitat desNetzes reduzieren. Eine Uberanpassung an die Trainingsdaten soll reduziert werden.

4.4.1 Gewichtspruning

Die Netzwerkkomplexitat wird dadurch reduziert, dass ein Teil der Gewichte im Netzwerkeliminiert wird. Auswahlkriterium fur in Frage kommende Gewichte ist ein Testwert. Gewichtemit großem Testwert sind fur das Netz wichtig, die mit kleinem Testwert deuten darauf hin,dass das Gewicht entfernt werden kann.

Es gibt verschiedene Verfahren fur die Berechnung dieser Testwerte:

a) kleinste Gewichte (Standart Weight Pruning):

Testgroße ist der Betrag des Gewichts. (Eine Variante ist die Rundung des Gewichts). BeideVerfahren fuhren allerdings nicht zu dem gewunschten Ziel die Netzgroße zu verringern,ohne Informationen zu verlieren. Das Entfernen des Gewichtes erfolgt durch Nullsetzen desGewichtswertes. Dies bewirkt, dass die Signalinformationen die sonst uber die Leitung laufenwurden außer Acht gelassen werden.

b) Statistische Signifikanz:

Die Gewichte andern sich bei jeder Fehlerkorrektur. Bei diesem Verfahren wird aber auch dieVerteilung der Gewichtsanderung von Bedeutung sein. Die Verteilung wird uber die kompletteEpoche (also beim Training) gemessen. Die Testgroße lautet hierbei:

Page 60: Neuronale Netze Optionspreistheorie Und Risikobewertung

60 Optimierung Neuronaler Netze (Andreas Jung)

T (w) =|∑

p γp|√

p(γp − γ)2

mit γp als Hohe eines Gewichtes nach Veranderung, die sich ergibt aus γp = w + ∆wp

Das Ausschalten des Gewichts erfolgt genau wie beim Standart Weight Pruning. Der Vorteilder Statistischen Signifikanz liegt allerdings darin, dass die Gewichte nicht unwiderruflichausgeschaltet sind. Sie werden weiterhin durch die ermittelte Gewichtsveranderungberucksichtigt und konnen gegebenenfalls wieder aktiviert werden. Regelnde Große dabeiist eine Aktivationsgrenze.

4.4.2 Hidden Neuron (HN) Pruning/Mergen

Das HN-Pruning ist als Fortsetzungsverfahren des Gewichtprunings zu verstehen. Hierbeiwerden alle zu und von eine HN fuhrenden Gewichte auf Null gesetzt. Beim HN-Mergenwerden HN-Paare gebildet und die Korrelation ihrer Neuronenaktivitat anhand ihresAktivierungspegels uberpruft. Die Neuronenpaare mit der großten Korrelation werdenverschmolzen zu einem neuen Neuron.

4.4.3 Input Pruning

Das Input-Pruning findet erst nach feineren Pruning-Methoden statt. Dabei werdennichtrelevante Ausgangsverbindungen entfernt. Der Fehler des aktuellen Netzes wirdbestimmt und gespeichert. Danach wird der Reihe nach ein Inputneuron vorlaufig deaktiviert.Der Fehler wird neu berechnet. Die Netzwerkfehler-differenz

Di = E − Eneu, (i = 1, 2, . . . , Anzahl der Inputneuronen)

wird errechnet. Ein Neuron ist immer dann storend, wenn Di > 0.

4.4.4 Optimal Brain Damage (OBD)

Hier wird die Frage gestellt, welche Gewichte bei ihrer Herausnahme die kleinste Veranderungdes Netzfehlers auslosen. Man bezeichnet das OBD als Second-Order-Methode, da die ZweiteAbleitung benotigt wird.

Vorgehensweise:

Man nahert die Fehlerfunktion durch eine Taylorreihe unter den folgendenAnnahmen/Voraussetzungen an:

Page 61: Neuronale Netze Optionspreistheorie Und Risikobewertung

4.4 Pruning-Verfahren 61

a) Die Hessematrix wird durch die Diagonalmatrix approximiert. (wg. Rechenzeit)

b) Da das OBD erst nach erfolgtem Lernen ansetzt folgt daraus, dass wir uns im Minimumbefinden, dass heißt, der Fehler bei Anderung nur steigen kann.

c) Die Fehlerfunktion sei in der Nahe des Minimums quadratisch

Die Ableitungen werden durch diese Vorgehensweise von Schicht zu Schicht zuruckpropagiert.

Aber: Eine Uberanpassung ist zu diesem Zeitpunkt bereits geschehen und es wird daruberhinaus eine immense Rechenzeit benotigt, so dass sich in der Praxis die Methode derstatistischen Signifikanz durchgesetzt hat.

Mehrere Pruning-Verfahren konnen hintereinander ausgfuhrt werden, um eine Optimierungunter verschiedenen Aspekten zu gewahrleisten.

4.4.5 Tabellen

Lernverfahren BP SCG QP CC

Netz 2-15-15-15-1 2-15-15-1 2-10-10-1 25

Gewichte 495 255 130 350

Lernschritte 500.000 1620 100.000 -

CPU-Zeit [ms] 1.505.500 247.120 1.921.108 1.782.660

Endfehler 0,0000640 0,0000570 0,0002440 0,0000004

Approximationsfehler 0,03170 0,02020 0,07593 0,1694

Lernverfahren BP SCG QP CC

Netz 1-20-20-20-1 1-5-5-5-1 1-15-15-1 15

Gewichte 840 60 255 136

Lernschritte 100.000 660 3800 -

CPU-Zeit [ms] 344.670 31.570 235.710 946.670

Endfehler 0,1788360 0,0000100 0,0000090 0,0000002

Approximationsfehler 2,20973 0,71514 0,833118 0,99774

Page 62: Neuronale Netze Optionspreistheorie Und Risikobewertung

62 Optimierung Neuronaler Netze (Andreas Jung)

Lernverfahren BP SCG QP CC

Netz 2-10-10-1 2-10-10-1 2-10-10-1 50

Gewichte 130 130 130 1315

Lernschritte 1.000 100 100 -

CPU-Zeit [ms] 18.790 59.700 58.090 1.635.530

Endfehler 15,3546 15,1993 15,1696 0,235921

Approximationsfehler 0,999804 0,988987 0,988197 0,089274

Page 63: Neuronale Netze Optionspreistheorie Und Risikobewertung

Kapitel 5

Genetische Algorithmen und

Evolutionsstrategien

von Roland Zimmer

5.1 Einleitung

Die bisher behandelten Konzepte zur Approximation einer durch Stutzstellen (Muster)gegebenen Funktion sind darauf ausgerichtet, eine zu definierende Fehlerfunktion zuminimieren. Die dabei verwendeten Verfahren sind im allgemeinen weder in der Lage,eine Aussage uber die Globalitat eines gefundenen Extremums zu machen, noch sichaus der ’Gefangenschaft’ eines lokalen Optimums zu befreien. Es liegt also nahe,deterministische Verfahren zum Auffinden von Extrema durch stochastische Konzepte zuerweitern. Damit soll dem Algorithmus die Chance gegeben werden, auch außerhalb desdurch den deterministischen Ablauf vorgegebenen Suchbereichs nach Optima zu suchen. InAnlehnung an die Idee der Evolution werden solche Verfahren genetische Algorithmen oderEvolutionsstrategien genannt.

Vorlaufige Definition: Ein genetischer Algorithmus ist die algorithmisch-mathematische Modellierungbiologischer Evolutionsprozesse.

Genetische Algorithmen treten in unterschiedlichen Formen in der Informatik auf.Hervorzuhebensind hierbei

• Kunstliche Intelligenz,

• Maschinenlernen und

• Neuronale Netze.

63

Page 64: Neuronale Netze Optionspreistheorie Und Risikobewertung

64 Genetische Algorithmen und Evolutionsstrategien (Roland Zimmer)

5.2 Grundlagen

Die Terminologie im Gebiet der GA bedient sich nicht selten der Fachausdrucke aus der Biologieund versucht diese in einem mathematischen Sinne zu abstrahieren. Sehr haufig sind die Begriffeintuitiv, was jedoch auch dazu fuhren mag, ihre semantische Konnotation zu uberschatzen. Es istdaher besonders wichtig, folgende Defintionen nicht zu uberladen.

Zweckmaßigerweise betrachten wir auch bei den GA komplexe Einheiten aus Information und Regeln,die wir Organismen nennen und die hier nur intuitiv eingefuhrt werden sollen. Die Bewertung dieserOrganismen wird letztlich die Gute der Approximation widergeben.

• Eine Population H ist eine Menge von Organismen einer Art.

• Ein Individuum ist ein einzelnes Element h ∈ H einer Population.

• Ein Gen ist eine einzelne Erbinformation g ∈ M , M Alphabet.

Das Alphabet eines klassischen GA umfasst nur binare Werte, also MGA =0, 1, wohingegen die klassische Evolutionsstrategie beliebige Wertemengen,hauptsachlich reelle Zahlen betrachtet.

• Der Wert eines Gens heißt Allele.

• Ein Individuum ist als Vektor von Genen aufzufassen. Alternativ finden auch dieBegriffe Chromosom, String oder Hyphothese Verwendung.

• Evolution ist die Anpassung einer Population an ihre Umgebung durchManipulation der Erbinformation der Individuen.

• Die Fitness ist im biologischen Sinn das Maß der Anpassungsfahigkeit einesIndividuums an seine Umgebung. In der Theorie der genetischen Algorithmen istdarunter jedoch ein Maß f fur die Qualitat der Losung zu verstehen.

5.3 Aufbau und Funktionsweise eines genetischen

Algorithmus

Ein genetischer Algorithmus ist nach biologischem Vorbild in vier Teilgebiete, sogenannteOperatoren, untergliedert. Diese Operatoren sind

• Selektion,

• Crossover (Kreuzung),

• Mutation und

• Refill (Auffullen).

Page 65: Neuronale Netze Optionspreistheorie Und Risikobewertung

5.3 Aufbau und Funktionsweise eines genetischen Algorithmus 65

f1 f2f3

f4

fsonst

Abbildung 5.1: Die Individuen mit hoher Fitness f1 und f2 haben deutlich bessere Chancen zur

Reproduktion ausgewahlt zu werden, als die Individuen mit geringer Fitness f3 und f4.

5.3.1 Selektion

Die Selektion ist die Auswahl bestimmter Individuen fur weitere Betrachtung.

Aus der zur Verfugung stehenden Population H wird eine Teilmenge H ∈ H vonIndividuen ausgesucht, aus denen im weiteren Verlauf Nachkommen entstehen. DieMenge H enthalt mindestens zwei Individuen und hochstens so viele wie H selbst(2 ≤ |H| ≤ |H|).

Die Auswahl der Eltern-Individuen kann beliebig getroffen werden. Im Folgenden sindzwei verbreitete Moglichkeiten vorgestellt.

(a) Vollkommen zufallige Auswahl. Ein Standardverfahren, das die Fitness derIndividuen nicht beachtet. Es wird auch k-tournament selection genannt. ZufalligeAuswahl p = 1

n, n = |H| einer Menge von Individuen, die miteinander gekreuzt

werden.

(b) Bestimmung einer zumeist von der Fitness f abhangigen Wahrscheinlichkeit p furdie Fortpflanzung. Ein Beispiel hierfur ist die sogenannte roulette wheel selection.

Durch p(fj) =f(hj)

P

i f(hi)erhalten Individuen j mit hoher Fitness f großere Chancen

zur Reproduktion. (siehe Abbildung 5.1)

5.3.2 Crossover

Crossover ist die Mischung der Gene von Eltern-Individuen zu Nachkommen.

Wieder gibt es beliebige Moglichkeiten der Durchfuhrung. Einige bekannteStandardmethoden sind:

Page 66: Neuronale Netze Optionspreistheorie Und Risikobewertung

66 Genetische Algorithmen und Evolutionsstrategien (Roland Zimmer)

a a d a d d a

a b b a c c c

-

a a d a c c c

a b b a d d a

cut

Abbildung 5.2: Darstellung des Prinzips des one-point-crossovers.

a a d a d d a

a b b a c c c

-

a a d a c c c

cut

Abbildung 5.3: Darstellung des uniform crossovers. Aus zwei Eltern-Individuen wird nur ein

Nachkomme erzeugt.(a) one-point-crossover

Beim one-point-crossover werden zwei Eltern-Individuen an der gleichen Stellezerschnitten und zu neuen Individuen zusammengesetzt. (siehe Abbildung 5.2)

(b) multi-point-crossover

Multi-point-crossover bezeichnet die gleiche Vorgehensweise wie beim one-point-crossover, jedoch mit mehreren Schnitten.

(c) beliebige Zufallszusammenstellung

Es besteht naturlich auch die Moglichkeit, jedes einzelne Gen entweder demersten oder dem zweiten Nachkommen zuzuordnen.

(d) uniform crossover

Im Gegensatz zu den bisherigen Methoden wird beim uniform crossover nur eineinzelner Nachkomme erzeugt. (siehe Abbildung 5.3)

5.3.3 Mutation

Mutation ist die zufallige Anderung der Erbinformation eines Individuums.

Die Mutation sorgt dafur, dass der Gen-Pool der Population nicht zu starkeingeschrankt wird. Ihre Zielsetzung ist das Verhindern einer Konvergenz in einerlokalen Losung des Optimierungsproblems.

Naturlich gibt es bei der Mutation uberhaupt keine Einschrankung. Die Moglichkeitenreichen vom komplett zufallsgenerierten neuen Individuum bis zur marginalenAnderung einer einzelnen Allele.

Die klassische Evolutionstheorie befasst sich ausschließlich mit der Mutation derIndividuen ihrer Population und lasst keine Fortpflanzung zu. Die klassischen GAs

Page 67: Neuronale Netze Optionspreistheorie Und Risikobewertung

5.3 Aufbau und Funktionsweise eines genetischen Algorithmus 67

1 0 1 0 1 0 1 -

1 0 1 1 0 0 1

pm

6

Abbildung 5.4: Das vierte Gen wurde zur Mutation ausgewahlt und seine Allele mit der des

Nachbargens getauscht. pm bezeichnet die Wahrscheinlichkeit, mit der ein bestimmtes Gen mutiert

wird.

1 0 1 0 1 0 1 -

1 0 1 1 1 0 1

pm

6

Abbildung 5.5: Das vierte Gen wurde zur Mutation ausgewahlt und seine Allele gekippt. pm

bezeichnet die Wahrscheinlichkeit, mit der ein bestimmtes Gen mutiert wird.gehen so vor, dass sie ihre neue Generation hauptsachlich durch Fortpflanzunggenerieren und nur wenig mutieren.

In der Literatur sind mehrere Standardverfahren der Mutation zu finden:

(a) Random exchange

Random exchange beschreibt die Zufallsauswahl eines Gens und den Austauschseiner Allele mit der des Nachbargens. (siehe Abbildung 5.4)

(b) Section reversal

Section reversal geht weiter als random exchange und tauscht ganze Abschnittedes Chromosoms.

(c) bit-flip mutation oder Kippen

Sehen Sie bitte Abbildung 5.5.

(d) !!!!!!!!!Mutation mittels Gauss

Als Kippen bezeichnet man die Methode, in einem als binarcode dargestelltenChromosom einem Gen die Allele umzuschalten, also von 1 auf 0 und umgekehrt.

Im Einsatz wird bei jedem Gen mit einer festgelegten Wahrscheinlichkeit eineMutation durchgefuhrt. Diese Mutationswahrscheinlichkeit kann auch mit jederGeneration, in der nicht mutiert wurde leicht zunehmen, um eine schnellereKonvergenz zu erreichen. Die Mutationsrate sollte sehr gering gewahlt werden.Erfahrungswerte liegen zwischen 0, 1% und 0, 3%. Eine zu hohe Mutationsrate fuhrtzu einem Suchen nach Zufallslosungen, wodurch die Konvergenzgeschwindigkeitabnimmt.

Page 68: Neuronale Netze Optionspreistheorie Und Risikobewertung

68 Genetische Algorithmen und Evolutionsstrategien (Roland Zimmer)

5.3.4 Refill

Unter Refill versteht man das Auffullen der neuen Generation der Population auf diegleiche Anzahl von Individuen wie in der letzten Generation.

Je nach Algorithmus ist es notig, in der neu generierten Population die Anzahl derIndividuen wieder auf die gleiche Zahl wie in der letzten Generation aufzufullen. Hierzubieten sich zwei Moglichkeiten an:

(a) Wiederholung der Zufallsauswahl der Individuen und neue Reproduktion

(b) Kopieren (Klonen) der fittesten Individuen der letzten Generation

Eine beliebige Mischung der Methoden ist moglich und auch wunschenswert.

5.4 Beispiel eines GA mit binarer Kodierung

Wir definieren einen genetischen Algorithmus als Funktion:

GA(Ht, f , c,n,pm) → Ht+1

mit

• Population Ht zum Zeitpunkt t

• Fitnessfunktion f

• Abbruchkriterium c

• Populationsgroße n

• Mutations-Wahrscheinlichkeit pm

5.4.1 erster Schritt

Im ersten Schritt erstellen wir eine Population Ht mit n Individuen durch

• zufallige Generierung oder

• Auswahl bekannter Losungen, beispielsweise bereits trainierte KNN.

Page 69: Neuronale Netze Optionspreistheorie Und Risikobewertung

5.4 Beispiel eines GA mit binarer Kodierung 69

5.4.2 zweiter Schritt

Im zweiten Schritt erfolgt die Bestimmung der Fitness f(hi) fur jedes Element hi, i ∈1, ..., n der Population Ht.

Der Algorithmus wird abgebrochen, wenn die Gesamtfitness der Population großer ist,als das festgelegte Abbruchkriterium c:

n∑

i=1

f(hi) ≥ c

5.4.3 dritter Schritt

Jetzt selektieren wir zwei Individuen hk und hl, l, k ∈ 1, ..., n durch roulette wheelselection.

5.4.4 vierter Schritt

Hier erstellen wir zwei Nachkommen, auch offsprings h′

k und h′

l durch one-pointcrossover.

h′

k und h′

l sind die ersten beiden Elemente der Population Ht+1.

5.4.5 funfter Schritt

Mit der Mutationswahrscheinlichkeit pm wird jedes einzelne Gen von h′

k und h′

l gekippt.

5.4.6 sechster Schritt

Refill der Population Ht+1 auf n Individuen durch Klonen. Die beiden Individuen mitder geringsten Fitness werden nicht mit in Ht+1 ubernommen.

5.4.7 siebter Schritt

Im siebten Schritt wird wieder die Fitness f(hi) fur jedes Element hi, i ∈ 1, ..., n derPopulation Ht+1 bestimmt und es folgt

• der Abbruch des Verfahrens, wenn∑n

i=1 f(hi) ≥ c, oder

• t + 1 → t und die Schritte drei bis sieben werden wiederholt.

Page 70: Neuronale Netze Optionspreistheorie Und Risikobewertung

70 Genetische Algorithmen und Evolutionsstrategien (Roland Zimmer)

5.5 Vorteil der GAs

Der große Vorteil genetischer Algorithmen ist die exponentielle Fortpflanzung derfitten Individuen und damit verbunden das exponentielle Aussterben der schwachenIndividuen. Diese Aussage ist nicht trivial, aber 1975 konnte diese Aussage vonJohn Holland in seinem Buch adaption in natural and artificial systems mittels dessogenannten Schema-Theorems bewiesen werden.

5.5.1 Schema-Theorem

Zunachst einige Definitionen, die im Verlauf des Beweises benotigt werden:

• Schema

Ein Schema ist ein String, in dem einzelne Gene statt einer Allele auch Variablen”∗” enthalten konnen. Das Standard-Alphabet M des Strings wird also zu M ∗

erweitert: M ∗ = M ∪ ∗ = 0, 1, ∗

Das Schema (0,1,0,*,*) beinhaltet also die Strings (0,1,0,0,0), (0,1,0,1,0),(0,1,0,0,1) und (0,1,0,1,1).

• m(s, t) ist die Anzahl der Strings eines Schemas s, die in der Population Ht

enthalten sind.

• f(t) ist die durchschnittliche Fitness einer Population, mit

f(t) =1

n

n∑

k=1

f(hk)

• f(s) ist die durchschnittliche Fitness aller Strings eines Schemas s.

f(s) =1

m

m∑

k=1

f(hsm)

mit k Anzahl der moglichen Strings des Schemas s und hs Strings im Schema.

• P(hi) ist die Wahrscheinlichkeit, dass hi bei der Selektion ausgewahlt wird, mit

P (hi) =f(hi)

∑n

j=1 f(hj)=

f(hi)

n · f(t)

Die Fitness eines uberdurchschnittlich fitten Schemas lasst sich darstellen als:

f(s) = (1 + d) · f(t), mitd ≥ 0 (5.1)

Page 71: Neuronale Netze Optionspreistheorie Und Risikobewertung

5.5 Vorteil der GAs 71

Der Quotient f(s)

f(t)lasst sich als Wachstumsrate der Anzahl der Strings eines Schemas

s in der Population interpretieren, also kann man den Erwartungswert der Anzahl derIndividuen eines Schemas s in Ht+1 bestimmt sich durch:

E(m(s, t + 1)) = m(s, t)f(s)

f(t)(5.2)

Einsetzen von (1) in (2) ergibt

E(m(s, t + 1)) = m(s, t) ·(1 + d) · f(t)

f(t)= m(s, t) · (1 + d) (5.3)

Bei konstantem d und G Generationen ergibt sich daraus

E(m(s, G)) = m(s, o) · (1 + d)G (5.4)

Formel (4) zeigt eine geometrische Wachstumsfunktion und lasst sich so interpretieren,dass ein Schema mit uberdurchschnittlicher Fitness erwartungsgemaß exponentiellfortgepflanzt wird. Gleichermaß/bin/sh: line 1: /dev/console: Permission denied/bin/sh: line 1: /dev/console: Permission denied en muss ein Schema mitunterdurchschnittlicher Fitness exponentiell aussterben.

Mit einigen Erweiterungen lasst sich dies auch fur nicht konstante d zeigen.

Page 72: Neuronale Netze Optionspreistheorie Und Risikobewertung

72 Genetische Algorithmen und Evolutionsstrategien (Roland Zimmer)

Page 73: Neuronale Netze Optionspreistheorie Und Risikobewertung

Kapitel 6

Perfomancemessung

von Stefan Gotz

6.1 Einleitung

Unter Performancemessung versteht man das Instrument, mit dessen Hilfe der Gradder Realisierung der Investitionsziele einer Anlage wiedergegeben werden soll. Dabeigilt es zu beachten, dass Sicherheit, Ertag und Liquiditat einer Anlage in einemSpannungsverhaltnis stehen. Das bedeutet, dass in der Regel keines dieser Zieleverandert werden kann, ohne dass dadurch auch ein anderes beruhrt wird.

Beispiel: Ein Portfoliomanager hat durch eine hochriskante Anlage einen enormenGewinn erwirtschaftet. Trotzdem erhalt dieser in der Folgeperiode wohl kein Kapitalmehr, wenn die Investitionspraktik den Anlegern bekannt wird.

6.2 Aufgaben der Performancemessung

Die Perfomancemessung soll zum einen Entscheidungsgrundlage fur dieGeldanlage sein. Das bedeutet, dass ein potentieller Investor sich uber die bishererreichte Zielrealisierung erkundigen kann und somit Anhaltspunkte fur seineInvestitionsentscheidung hat.

Zum zweiten ist die Perfomancemessung dazu gedacht, die Anlageentscheidung einesPortfoliomanagers zu beurteilen, sie soll demnach ein Maß fur die erbrachte Leistung desPortfoliomanagers sein. Nicht zuletzt konnen damit unterschiedliche Anlageverfahrenmit und ohne Einsatz Kunstlicher Neuronaler Netze verglichen werden.

73

Page 74: Neuronale Netze Optionspreistheorie Und Risikobewertung

74 Perfomancemessung (Stefan Gotz)

Dabei wird der Erfolg einer Geldanlage einerseits von den laufenden Zins- undDividendeneinnahmen, zum anderen von realisierten und nicht realisierten Gewinnenund Verlusten beeinflußt.

Ein ideales Performancemaß berucksichtigt zur Beurteilung der Leistung desPortfoliomanagers Rendite, Risiko, Timing und Selektion.

6.3 Anforderungen an die Perfomancemessung

Die Mindestanforderung die an eine erfolgreiche Perfomancemessung gestellt wird,beinhaltet eine Aussage uber den Anlageerfolg einer Investition. Zusatzlich konnenjedoch noch weitere Anforderungen gestellt werden. Hierbei ist zum einen dieVergleichbarkeit zu nennen. Ein Performancemaß soll demnach so gestaltet sein, dassein Vergleich der beurteilten Investition mit einer Alternativnalage, einem sogenanntenBenchmark, vorgenommen werden kann. Desweiteren gilt es, die Ubersichtlichkeitzu wahren und das Perfomancemaß in eine sinnvolle, geringe Anzahl von Wertenzu verdichten. Auch soll das Perfomancemaß leicht verstandlich, plausibel und furden Portfoliomanager nachvollziehbar gestaltet sein. Die wahrscheinlich wichtigsteAnforderung an ein Perfomancemaß durfte aber sein, dass eine Unterscheidung vonManagerleistung und Zufallseinflussen stattfinden soll. Es soll also gewahrleistet sein,dass sich der Einsatz eines Portfoliomanagers auch in einer hoheren Performanceniederschlagt.

6.4 Perfomancemase

Zunachst einmal soll festgehalten werden, dass das optimale Performancemaß nichtexistiert.

6.4.1 Volatilitat und Beta-Faktor

Bevor verschiedene Berechnungsmoglichkeiten der Rendite aufgezeigt werden, will ichdie statistischen Kennzahlen Volatilitat und Beta-Faktor naher erlautern. Die Volatilitatσ2 ist nichts anderes als die Standardabweichung der beobachteten Renditeauspragungenvon ihrem Mittelwert, also

σ2 =1

n

n∑

i=1

(ri − µ)2

mit n Anzahl der Beobachtungen, ri stetige Rendite zum Zeitpunkt i und µ Mittelwertder beobachteten Renditen.

Page 75: Neuronale Netze Optionspreistheorie Und Risikobewertung

6.4 Perfomancemase 75

Der Beta-Faktor mißt die relative Kursschwankung eines Wertes X zu einemVergleichswert V (wobei i.d.R. als Vergleichswert das Marktportfolio, d.h. ein Indexherangezogen wird). Berechnet wird der Beta-Faktor folgendermaßen:

βX,Y =σX,Y

σ2V

(6.1)

wobei

βX,V = Beta-Faktor von X in Bezug zum Vergleichswert VσX,V = Kovarianz der Renditen von X und V 1

σV = Volatilitat von V

6.4.2 Renditeberechnungen in Abhangigkeit von einem Benchmark

Um die Leistung eines Portfoliomanagers herauszustellen basieren Renditedefinitionenhaufig auf einem Vergleich mit dem Benchmark, d.h. es wird die Leistung des aktivgemanagten Depots mit der eines passiven Vergleichsportfolios oder mit dem bestenDepot verglichen. Es gilt:

RP = αP + βP RB (6.2)

mit

αP = von Benchmark unabhangige Rendite (Residualrendite)βP = Portfoliosensitivitat in Bezug auf den BenchmarkRB = Benchmarkrendite

Da das Ziel eines Portfoliomanagers sein muß, eine hohere Rendite zu erzielen, als miteiner risikolosen Anlage ist, wurde die Kennzahl der Uberschußrendite Re eingefuhrt.

Re = RP − Rf (6.3)

Das bedeutet, dass aus der erwirtschafteten Rendite der Teil herausgerechnet wird, derauch mit einer risikolosen Anlage hatte erzielt werden konnen.

Im nachsten Schritt wird diese Uberschußrendite mit der Uberschußrendite desBenchmark Re

B verglichen und daraus die Differenz gebildet. Der so ermitteltet Wertergibt die aktive Rendite Ra, also die Rendite, die durch aktives Eingreifen desPortfoliomanagers erzielt wurde.

Ra = Re − ReB (6.4)

Zu beachten ist, dass selbstverstandlich sowohl die Uberschußrendite als auch die aktiveRendite negative Werte annehmen konnen.

Page 76: Neuronale Netze Optionspreistheorie Und Risikobewertung

76 Perfomancemessung (Stefan Gotz)

6.4.3 Berechnung der Portfoliorendite

Einfache Rendite

Bei der einfachen Renditeberechnung werden alle Mittelzu- und abflusse so behandelt,als wurden sie zum Ende der Periode auftreten.

RP,t =PT − P0 − Dt − Mt

P0(6.5)

wobei

Dt = DividendenMt = externe Mittelzuflusse

Interne Rendite

Eine Methode, die die Mittelbewegungen im Zeitpunkt ihres Auftretens berucksichtigt,ist die Methode der Internen Rendite.

Hierbei wird der Wert ermittelt, um den jede Geldeinheit (unabhangig vom Zeitpunktdes Eintritts) im Betrachtungszeitraum im Durchschnitt gewachsen ist.

Es gilt folgende Gleichung:

0 = P0ei +

n∑

j=1

Djei(T−tj) +

n∑

j=1

Mjei(T−tj) − PT (6.6)

obei

i = stetige RenditeT = Lange des Zeitraumestj = Zeitpunkt des j-ten Mittelzuflussesn = Anzahl der Mittelzuflusse

Allerdings bleiben bei dieser Berechnungsweise Wertschwankungen des Portfolionsunberucksichtigt, das bedeutet, dass der gemessene Erfolg maßgeblich von dengewahlten Start- und Endzeitpunkten abhangt. Die Leistung des Portfoliomanagersbleibt unberucksichtigt.

Page 77: Neuronale Netze Optionspreistheorie Und Risikobewertung

6.5 Risikounterscheidung 77

Zeitgewichtete Rendite

Durch Berechnung einer zeitgewichteten Rendite findet eine starkere Berucksichtigungder Managementleistung statt. Es werden hierbei Einflusse durch Mittelbewegungenherausgerechnet und nur die Wertsteigerung des Ursprungsportfolios ermittelt. Hierfurwird der Betrachtungszeitraum in Subperioden unterteilt, deren Lange von denZeitpunkten der Mittelbewegungen abhangig ist. Anschließend werden die einzelnenSubperiodenrenditen Ri berechnet und bezuglich ihrer Subperiodenlange gewichtet.

Ri =PT,i −

∑mi

j=1 pi,jMi,j +∑di

j=1 pi,jDi,j

P0,i −∑mi

j=1 qi,jMi,j +∑di

j=1 qi,jDi,j

(6.7)

mit

PT,i =Endwert des Portfolios in der Subperiode iP0,i =Anfangswert in der Subperiode ipi,j =zeitlicher Anteil in der Subperiode i bis zur j-ten Mittelbewegungqi,j =zeitlicher Anteil von der j-ten Subperiode bis Ende der SubperiodeMi,j =Netto-Mittelzuflussemi =Anzahl der Mittelbewegungen in Subperiode iDi,j =Dividendenzahlungendi =Anzahl der Dividendenzahlungen in i

Die Berechnung der Gesamtrendite ergibt sich nachfolgend als

R = T

T∏

i=1

(1 + Ri) − 1 (6.8)

6.5 Risikounterscheidung

6.5.1 Quantitative Risiken vs. qualitative Risiken

Eine Moglickeit Risiken voneinander zu unterscheiden ergibt sich dadurch, dass sich einTeil - die quantitativen Risiken - mithilfe statistischer Methoden in einen objektivenWert fassen lassen. Dies kann beispielsweise das Risikomaß der Volatilitat sein.

Die qualitativen Risiken beruhen im Gegensatz dazu auf einer subjektiven Bewertungwie sie besipielsweise von Rating-Agenturen abgegeben werden.

Page 78: Neuronale Netze Optionspreistheorie Und Risikobewertung

78 Perfomancemessung (Stefan Gotz)

6.5.2 Basisrisiken vs. Spezielle Risiken

Eine andere Moglichkeit, die Risiken von Wertpapieren zu klassifizieren, bestehtin der Unterscheidung von Basisrisiken und speziellen Risiken. Zu den Basisrisikenzahlen vor allem das Konjunkturrisiko, das Inflationsrisiko, das Wahrungsrisikobeim Erwerb auslandischer Papiere sowie das Landerrisiko, z.B. aufgrund mangelderDevisentransferfahigkeit.

Die speziellen Risiken aus Sicht des Aktienkaufers lassen sich wiederum inein systematisches und ein unsystematisches Risiko einteilen. Dabei bezeichnetdas systematische Risiko die Preisanderung einer Aktie, die der allgemeinenTendenz des Marktes zuzuschreiben ist. Das unsystematische Risiko beschreibt dasunternehmensspezifische Risiko.

6.6 Risikomessung

Neben den bereits beschriebenen Kennzahlen von Volatilitat und Beta-Faktor gibt eszahlreiche weitere, die zur Risikomessung herangezogen werden konnen. Nachfolgendwerden zwei Kennzahlen naher erlautert.

6.6.1 Tracking Error

Der Tracking Error gibt das Abweichungsrisiko zwischen einem Portfolio und seinerBenchmark wieder. Er berechnet sich folgendermaßen:

TP = σ(RP − RB) (6.9)

Diese Kennzahl wird auch als Nachbildungsfehler bezeichnet.

6.6.2 Semivarianz

Bei der Volatilitat als Risikomaß werden positive Abweichungen von der Renditegenauso gewichtet wie negative. Da aber eigentlich nur negative Renditeabweichungenrisikorelevant sind, wurden sogenannte Downside-Risikomaße eingefuhrt. Ein Beispielheirfur ist die Semivarianz. Hierbei werden lediglich negative Renditeabweichungenberucksichtigt.

SV =1

n

n∑

i=1

(R−i − µ)2 (6.10)

Page 79: Neuronale Netze Optionspreistheorie Und Risikobewertung

6.7 Differenzierte Perfomancemessung 79

wobei R−i eine negative Renditeabweichung darstellt.

Sofern eine symmetrische Renditeverteilung vorliegt ergibt sich fur die Semivarianzgerade die Halfte der Varianz.

Als Zusatzinformation zur Semivarianz kann das Ausfallrisikomaß (Lower PartialMoments) herangezogen werden. Hierbei kann der Investor Abweichungen der erzieltenRendite von seiner geforderten Mindestrendite nach eigenen Risikovorstellungengewichten.

LPMm =n

i=0

pi(Rmin + R−i )m (6.11)

wobei

n = Anzahl der Renditeauspragungen kleiner als Rmin

i = Index der Renditeauspragung kleiner Rmin

pi = Wahrscheinlichkeit der AbweichungRmin = geforderte Mindestrenditem = Hohe des Moments

Die Risikoaversion oder Risikofreude des Investors kann durch die richtige Wahl desParameters m bestimmt werden. Hierbei bedeutet ein m großer als 1 eine Risikoaversion,d.h. großere Abweichungen von der Mindestrendite werden starker gewichtet. Ein m von1 bedeutet, dass die Abweichung gemaß ihrer Hohe bewertet wird.

6.7 Differenzierte Perfomancemessung

Die differenzierte Perfomancemessung versucht, die Ertrage und Risiken von Portfoliosin Relation zueinander zu setzen. Hierzu gibt es ebenfalls zahlreiche Moglichkeiten,wovon die Risikomaße nach Sharpe und nach Treynor betrachtet werden sollen.

6.7.1 Risikoadjustierung nach Sharpe

Der nach Sharpe entwickelte Risikomarktpreis eines Portfolios ergibt sich als

IS =E(RP ) − RF

σP

(6.12)

mit

Page 80: Neuronale Netze Optionspreistheorie Und Risikobewertung

80 Perfomancemessung (Stefan Gotz)

E(RP ) = erwartete Rendite des PortfoliosRF = risikofreier ZinssatzσP = Volatilitat des Portfolios

Sofern Portfoliorenditen erzielt werden, die großer sind als die Rendite der risikofreienAnlage (ist dies nicht der Fall, ware ohnehin die risikolose Anlage vorzuziehen), istdasjenige Portfolio mit der niedrigeren Volatilitat vorzuziehen. Dementsprechend istauch dessen Risikomarktpreis IS hoher.

6.7.2 Risikoadjustierung nach Treynor

Der von Treynor erarbeitete Risikomarktpreis IT ahnelt dem von Sharpe. EinzigerUnterschied ist der Bezug der erwarteten Uberschußrendite zum Beta-Faktor anstattzur Volatilitat, also

IT =E(RP ) − RF

βP

(6.13)

Auch hier gilt, dass je großer der Risikomarktpreis, desto besser die Performance.

6.8 Vorabselektion von Kunstlichen Neuronalen Netzen

Um vor dem Einsatz Kunstlicher Neuronaler Netze eine gewisse Vorauswahl zu erhalten,die geeignete Netze enthalt, bieten sich verschiedene Moglichkeiten an.

6.8.1 Korrelationskoeffizient

Betrachtet man unterschiedliche KNN und ihre Ausgabewerte, so ist dasjenigeauszuwahlen, dessen Korrelation mit den tatsachlich beobachteten Werten am großtenist.

KorrX,Y =

∑n

i=1(xi − x)(yi − y)√

∑n

i=1(xi − x)2√

∑n

i=1(yi − y)2(6.14)

6.8.2 Theill-Koeffizient

Mit Hilfe des Theill-Koeffizienten kann bestimmt werden, ob die Prognose des KNNbessere Ergebnisse liefert als eine naive Prognose.

Page 81: Neuronale Netze Optionspreistheorie Und Risikobewertung

6.8 Vorselektion von KNN 81

Eine Moglichkeit einer naiven Prognose ist die Annahme, dass der Wert eines Portfoliosin t + 1 genau dem Wert in t entspricht. Hierfur berechnet sich der Theill-Koeffizientwie folgt:

T 0 =

√∑n

i=1(yt − xt)2

∑n

i=1(xt − xt−1)2(6.15)

Ergibt sich fur T ein Wert großer/gleich 1 so bedeutet dies, dass der Schatzer schlechterist als die naive Prognose, anderfalls ist er besser.

Page 82: Neuronale Netze Optionspreistheorie Und Risikobewertung

82 Perfomancemessung (Stefan Gotz)

Page 83: Neuronale Netze Optionspreistheorie Und Risikobewertung

Kapitel 7

Kreditrisikomodelle und Basel II

von Mihnea-Stefan Mihai

7.1 Worum geht’s?

Das Risikobewußtsein der Großanleger ist in den letzten Jahrzehnten durchDeregulierung von Finanzmarkten, durch verbreitete Benutzung von derivativenFinanzinstrumenten (Optionen, Terminkontrakte usw.) und nicht zuletzt durchgravierende Fehlentscheidungen im Umgang mit solchen Instrumenten (siehe z.B. Jorion(1997)) gestiegen. Im Bereich der Marktrisiken, die wir als Risiken im Zusammenhangmit unvorteilhafter Entwicklung von Aktien und Aktienoptionen verstehen, wird derEinsatz von stochastischen Risikomodellen und dem Risikomaß Value-at-Risk (das99%-Quantil der Verlust- und Gewinnverteilung unter Berucksichtigung bisherigerInformation1) vom sogenannten Basel I Dokument (BIS, 1996) zugelassen. DieseVorschlage wurden bereits in das EU-Recht, und somit auch in das deutsche Rechtumgesetzt. Eine ahnliche Entwicklung gibt es seit einigen Jahren auch fur Risiken imZusammenhang mit der Vergabe von Krediten. Diese Entwicklung ist unter dem NamenBasel II bekannt. Das Basler Kommittee fur Bankenaufsicht hat sich erst seit sehr kurzerZeit (BIS, 2004a,b) auf eine endgultige Liste von Vorschlagen festgelegt. Wir werdendaher in dieser Arbeit versuchen, einige grundlegende Aspekte dieser Entwicklung zuverdeutlichen, um festzulegen, im welchem Maße und an welchen Stellen neuronaleNetze zum Einsatz kommen konnten.

1Die Verteilung der sogenannten ”negativen Gewinne”. Verluste werden dabei durch positive Zahlen, Gewinne

durch negative Zahlen dargestellt.

83

Page 84: Neuronale Netze Optionspreistheorie Und Risikobewertung

84 Kreditrisikomodelle und Basel II (Mihnea-Stefan Mihai)

7.1.1 Was ist Kreditrisiko?

Wir betrachten in dieser Arbeit das Kreditrisiko ausschließlich von der Seite desKreditgebers. Als erstes sollten wir klaren, was unter dem Begriff Kredit verstandenwird.

Definition Ein Kredit ist ein Vertrag zwischen zwei Parteien, dem Kreditgeber unddem Kreditnehmer. Der Kreditgeber verpflichtet sich, dem Kreditnehmer zum heutigenZeitpunkt t0 den Betrag X0 zu zahlen. Der Kreditnehmer verpflichtet sich, zu den vorherfestgelegten Zeitpunken t1 < t2 < . . . < tn, dem Kreditgeber in t0 festgelegte BetrageX1, . . . , Xn fur den erhaltenen Betrag X0 auszuzahlen.

Wenn der Kreditnehmer seine Verpflichtungen einhalt und rt0,ti die risikolosen Zinsratenpro Periode zwischen t0 und ti sind, so zahlt der Kreditnehmer dem Kreditgeber einenauf t0 abgezinsten Betrag von.

n∑

i=1

Xi

(1 + rt0,ti)ti−t0

(7.1)

Wenn der Kreditnehmer eine außerordentlich gute Bonitat hat und Ausfalleausgeschlossen sind, dann entpricht die Summe in (7.1) dem heutigen Wert des Kreditsund sollte gleich dem Betrag X0 sein, den der Kreditnehmer fur seine zukunftigeEinzahlungen heute erhalt.

Sollte der Kreditnehmer aber keine außerordentlich gute Bonitat haben, dann sind diezukunftigen Einahmen des Kreditgebers unsicher. Das bedeutet, daß die tatsachlichenAuszahlungen in ti unterhalb von Xi liegen und im Extremfall sogar ausfallen. Wirmussen daher schon an dieser Stelle zwischen den vereinbarten Auszahlungen Xi undden tatsachlich eingetetenen Auszahlungen Xi unterscheiden.

Der Kreditgeber erleidet einen Verlust, wenn die auf t0 abgezinsten Einzahlungenweniger als X0 sind. Diese unvorteilhafte Entwicklung eines Kredites wird Kreditrisikogenannt.

Fur das eingegangene Kreditrisiko wird der Kreditgeber einen zusatzlichen Preisverlangen, bzw. wird bei gleichbleibenden Einzahlungen X1, . . . , Xn einen Betrag X0

auszahlen, der unterhalb der Summe in (7.1) liegt. Die Ermittlung des fairen BetragesX0 hangt von der Bonitat und von der Wahrscheinlichkeit von Ausfallen ab und wirdim Rahmen des sogenennten Pricing von Kreditrisiken ermittelt ( vergleiche Duffieund Singleton (2003)). In dieser Arbeit werden wir uns nicht direkt mit dem Pricingvon Krediten beschaftigen, sondern mit der dafur notigen Messung der Kreditrisiken.Dabei mochte man die Information uber das Risiko eines Kredites oder eines Portfoliosvon Krediten in einer Zahl zusammenfassen. Diese kann z.B. der Value at Risk einesKredits bzw. eines Portfolios sein, ein Betrag, der potentielle Verluste mit einerWahrscheinlichkeit von 99% abdeckt. Das Problems des Managements von Risikenwerden wir hier ebenfalls nicht ansprechen, obwohl es von besonderer Bedeutung furdie effizente Verwaltung großer Kreditportfolios ist.

Page 85: Neuronale Netze Optionspreistheorie Und Risikobewertung

7.1 Worum geht’s? 85

7.1.2 Was ist ein Kreditrisikomodell?

Ein Kreditrisikomodell modelliert, die Unsicherheit des Kreditgebers uberdie zukunftigen Einzahlungen der Kreditnehmer. In diesem Zusammenhangbetrachten wir die Einzahlungen X1, . . . , Xn als stochastischen Prozess uber einenWahrscheinlichkeitsraum (Ω,F , P ). Dabei spielen die Ereignisse eines Kreditausfallsin ti, die wir mit Di bezeichnen, eine besondere Rolle. Man muß deshalb auf einemWahrscheinlichkeitsraum arbeiten, welches die Ereignisse Di enthalt.

Selbstverstandlich ist aus praktischer Perspektive die Spezifikation einer beliebigengemeinsamen Verteilung fur die Xi’s nicht sinnvoll. Vielmehr versuchen wir vernunftigeund angemessene Annahmen fur die gemeinsame Verteilung der Xi und fur dieAusfallwahrscheinlichkeiten P (Di) zu treffen. Dafur gibt es kein standardisiertesVorgehen. Die Intuition und die Erfahrungen der Personen, die das Modell aufstellen,sind gefragt. Die Angemessenheit von Verteilungsannahmen kann mit statistischen Testsgepruft werden, allerdings gibt es keine Rezepte fur den Fall , dass sich die Annahmenals nicht angemessen erweisen.

7.1.3 Weshalb Basel II?

Seit kurzem haben sich die Gouverneure der Zentralbanken und die Vorstandeder Bankenaufsichten der G10 Staaten uber die endgultige Fassung der Basel IIEmpfehlungen geeinigt. Diese wurden unter dem Titel International Convergence ofCapital Measurement and Capital Standards. A Revised Framework. im Juni 2004veroffentlicht. (siehe auch BIS (2004b)).

Die Notwendigkeit von Basel II ergibt sich als Folge der Notwendigkeiteinheitlicher (sowohl quantitativer als auch qualitativer) Standards fur dasRisikomanagement einzelner Banken. Mit der Einsetzung stochastischer Modelle furdas Marktrisikomanagement haben Banken seit einigen Jahren positive Erfahrungengemacht. Nun mochte man stochastische Modelle auch fur das Management vonKreditrisiken einsetzen. In Basel II werden, soweit wie moglich, Mindestbedingungenfestgelegt, welche die Kreditrisikomodelle erfullen mussen, damit diese die gewunschtenErgebnisse fur die Kreditrisikoabdeckung und das Kreditrisikomanagement liefern.Eine der Folgen von Basel II ist, dass die Fahigkeit der Kreditnehmer, laufendeZahlungsverpflichtungen vereinbarungsgemaß zu erfullen (deren Bonitat) bei derErmittlung des Kreditpreises eine viel wichtige Rolle spielt als bisher. Dieser Punktist in den letzten Jahren haufig in den Medien diskutiert worden und in diesemZusammenhang wurde auch auf mogliche negative Folgen von Basel II, insbesonderefur mittelstandische Unternehmen, hingewiesen.

Page 86: Neuronale Netze Optionspreistheorie Und Risikobewertung

86 Kreditrisikomodelle und Basel II (Mihnea-Stefan Mihai)

7.2 Komponenten eines Kreditrisikomodells am Besipiel

von CreditMetricsTM

Wir werden im folgenden Abschnitt eine vereinfachte Version eines bestehendenKreditrisikomodells darstellen. Es handelt sich dabei um CreditMetricsTM , einemModell, das von der US-Investmentbank J.P. Morgan entwickelt wurde (siehe Guptonu. a. (1997)). Wir werden dabei nicht die Analyse von Kreditportfolios betrachten,sondern nur den Fall eines einzelnen Kredits untersuchen. Das Modell beschreibtdie Entwicklung eines Kredits fur einen Zeithorizont von einem Jahr, gegeben dieInformation uber die Entwicklung von Krediten in vergangenen Jahren.

Laut dem technischen Dokument von CreditMetricsTM (siehe Gupton u. a. (1997, Seite23)) werden vier Faktoren bei dem Aufbau des Modells beruksichtigt:

1.) das Kreditrating, welches die Anderung der Qualitat des Kredits bzw. dessen Ausfalluber den betrachteten Zeithorizont steuert

2.) die Ubergangs- und Ausfallwahrscheinlichkeiten , die im direktem Bezug zumKreditrating stehen

3.) die Zinsstrukturkurve fur jedes einzelne Rating, die den Wert des Kredits bestimmt,wenn der Kredit ein bestimmtes Rating hat

4.) der Vorrang (seniority) des Kredits bestimmt der Anteil des Kredits, der bei einemAusfall zuruckerhalten wird

Diese Komponenten werden wir nun im Einzelnen betrachten.

7.2.1 Kreditrating

Das Kreditrating ist eine ordinal skalierte Große, welche die Kreditwurdigkeit desKreditnehmers beschreibt (siehe Bluhm u. a. (2003)). Ein Unternehmen erhalt alsRating einen Wert auf einer Skala von sehr kreditwurdig bis nicht kreditwurdig. In derPraxis wird das Kreditrating nicht als Ergebnis eines quantitativen Verfahrens ermittelt,vielmehr spielt die Erfahrung und das Fingerspitzengefuhl des Ratinganalysten eineentscheidende Rolle. Wenn quantitative Verfahren bei der Bestimmung des Ratingseingesetzt werden, dienen diese lediglich zur Orientierung. Aus meiner Sicht ergibtsich dabei das Problem, dass die Genauigkeit der Ratingeinstufung immer wieder inFrage gestellt wird. Es ist durchaus moglich, daß erfahrene Ratinganalysten sehr guteEinschatzungen liefern, die potentielle Gefahr einer falschen Ratingeinstufung bleibtund wird weiter im Modell auch nicht berucksichtigt.

Große Unternehmen, die Kredite uber die Emmission von Anleihen auf demKapitalmarkt aufnehmen, sind in der Regel von einer oder mehreren derdrei großen Ratingagenturen Standard&Poors (http://www.standardandpoors.com),

Page 87: Neuronale Netze Optionspreistheorie Und Risikobewertung

7.2 CreditMetrics 87

Moodys (http://www.moodys.com) und Fitch (http://www.fitchratings.com). DieRatingklassen der drei großen Ratingagenturen sind nicht identisch, sind dennoch gutvergleichbar (siehe Bluhm u. a. (2003)).

Kleinere Unternehmen sollen nach Einfuhrung von Basel II von den Banken interngeratet werden, wenn sich die Banken fur ein stochastisches Risikokontrollmodellentscheiden . Uber die Ansatze zum internen Rating ist leider sehr wenig bekannt.

Jedes Unternehmen, das Kredite erhalt, wird auf Jahresbasis geratet. Das bedeutet,daß sich das Rating eines Unternehmens innerhalb eines Jahres andern kann. DieseAnderungen sind im Voraus nicht mit Sicherheit bekannt, daher interessieren uns dieUbergangswahrscheinlichkeiten von Ratinganderungen.

7.2.2 Ubergangs- und Ausfallwahrscheinlichkeiten

Angenommen, es existieren n Ratingklassen 0, . . . , n − 1 und die Klasse Ausfall (n).Das Kreditrating zum Zeitpunkt t wird als diskrete Zufallsvariable Yt betrachtet, derenmoglichen Werte 0, 1, . . . , n sind. Die Ubergangswahrscheinlichkeit eines Kredits aus demRating i ∈ 0, . . . , n in das Rating j ∈ 0, . . . , n ist die bedingte Wahrscheinlichkeit

P (Yt+1 = j|Yt = i) (7.2)

Diese gibt uns an , mit welcher Wahrscheinlichkeit ein Kredit mit jetzigem Rating i ineinem Jahr das Rating j haben wird. Die Wahrscheinlichkeiten P (Yt+1 = j|Yt = n) werdenals Ausfallwahrscheinlichkeiten bezeichnet.

Ubergangs- und Ausfallwahrscheinlichkeiten werden oftmals in einer sogenenntenUbergangsmatrix At+1,t zusammengefasst:

At+1,t = (P (Yt+1 = j|Yt = i)) i = 0, . . . , n

j =, . . . , n(7.3)

Man nimmt auch an, daß ein Kredit, der ausgefallen ist, nicht mehr aus diesem Zustandherauskommt, also daß

P (Yt+1 = i|Yt = n) =

0 fur i < n

1 fur i = n(7.4)

Ubergangswahrscheinlichkeiten fur den Fall Yt = n werden durch diese Beziehungmodelliert.

Zur Modellierung der Ausfallwahrscheinlichkeiten im Fall Yt 6= n gibt es mehrereAnsatze. Eine Moglichkeit ware anzunehmen, daß die Ausfallwahrscheinlichkeiten

Page 88: Neuronale Netze Optionspreistheorie Und Risikobewertung

88 Kreditrisikomodelle und Basel II (Mihnea-Stefan Mihai)

fur alle t gleich sind, also daß die Matrix A konstant ist. Verschiedene Studien(z.B. Nickell u. a. (2000)) widerlegen diese Hypothese und belegen, daß sichUbergangswahrscheinlichkeiten in Abhangigkeit von Variablen wie Konjunkturzyklus,vom Unternehmenssitz und von der Branche andern. Fur die Modellierung derUbergangswahrscheinlichkeiten bei einem gegebenen Ausgangsrating Yt = i(i 6= n) inAbhangigkeit von diesen Variablen weden Ordered Probit Modelle (siehe Greene (2003,Kapitel 21.8)) vorgeschlagen und verwendet.

Fur den Fall n = 1, also wenn die Ratings lediglich aus den zwei Zustanden Ausfall(Yt = 1) und kein Ausfall (Yt = 0) bestehen, und bei gegebenen Variablen zt1, . . . , ztK wurdenach dem Vorschlag in Nickell u. a. (2000) die Ausfallwahrscheinlichkeit P (Yt+1 = 1|Yt = 0)wie in einem Probit-Modell (vergleiche Greene (2003, Kapitel 21.3)) durch

P (Yt+1 = 1|Yt = 0) = Φ (β0 + β1zt1 + . . . + βKztK) (7.5)

gegeben, wobei Φ(y) =y∫

−∞

1√2π

exp(

−x2

2

)

dx die Verteilungsfunktion der N(0, 1)-Verteilung

darstellt. Die Wahrscheinlichkeit, daß der Kreditnehmer im nachsten Jahr solvent ist,ware dann durch

P (Yt+1 = 0|Yt = 0) = 1 − Φ (β0 + β1zt1 + . . . + βKztK) (7.6)

gegeben.

Interessant dabei ist, daß die Ubergangswahrscheinlichkeiten als nichtlineare Funktionengegebener (Input-)Variablen dargestellt werden. Der Wertebereich dieser Funktionen istdas Intervall [0, 1].

Anhand der Ausfallwahrscheinlichkeiten konnte ein Kreditgeber uber die Vergabeeines Kredits entscheiden. Als Entscheidungsregel konnte man sich folgende Funktionvorstellen:

Z =

Vergabe wenn p ≤ p0

Ablehnung wenn p > p0(7.7)

Dabei sei p0 ∈ [0, 1] und p = P (Yt+1 = 1|Yt = 0) die Ausfallwahrscheinlichkeit des Kredits.Diese Vergabe ist fehlerbehaftet, da es passieren kann, daß Kredite vergeben werden,die in einem Jahr ausfallen oder daß Kredite nicht vergeben werden, die in einem Jahrnoch solvent sind.

7.2.3 Zinsstrukturkurve und Terminzinssatze

Fur jedes mogliche Rating i = 0, . . . , n − 1 mochten wir den Wert des Kredits in einemJahr ermitteln, unter der Bedingung, dass das Kreditrating im nachsten Jahr Yt+1 = i

Page 89: Neuronale Netze Optionspreistheorie Und Risikobewertung

7.2 CreditMetrics 89

ist. Falls i 6= n mussen wir wissen, wie die verbliebenen zukunftigen Auszahlungen aufden Zeitpunkt t + 1 zu diskontieren sind. Wir brauchen dafur die Zinsstrukturkurve imRating i. Dabei gehen wir davon aus, daß alle Kredite, die mit einem Rating i versehenwerden, auch gleiches Risiko haben.

Die Zinsstrukturkurve ist eine Funktion der Laufzeit t und gibt fur Kredite desRatings i den Diskontierungssatz fur einen Kredit mit einmalinger Einzahlung in t(einer Nullkuponanleihe) an. Mit Hilfe der Zinsstrukturkurve konnen Terminzinssatzehergeleitet werden, die wir zur Diskontierung auf dem Zeitpunkt t+1 brauchen werden.

Angenommen, eine Bank mochte heute Geld anlegen, um in zwei Jahren 100 Euroaus der Anlage zu erhalten. Dabei hat Sie die Moglichkeit das Geld an drei Kundenmit gleichem , uber die zwei Jahre unveranderbarem Rating zu vergeben. Der ersteKunde verpflichtet sich, der Bank in zwei Jahren 100 Euro zu zahlen. Der zweite Kundemochte das Geld nur fur ein Jahr ausleihen und zahlt dafur neben der erhaltenenSumme die ublichen ein-Jahreszinsen am Ende des ersten Jahres zuruck. Der dritteKunde verpflichtet sich heute, in einem Jahr die Einzahlung des zweiten Kunden zuubernehmen und dafur in zwei Jahren 100 Euro auszahlen. Der Zins, den der drittenKunde fur den entgegengenommenen Betrag zahlt, nennen wir Terminzinssatz fur eineeinjahrige Anlage in t + 1. Die Bank ist zwischen den beiden Moglichkeiten, in 2 Jahren100 Euro zu erhalten, indifferent. Daher ergibt sich der Terminzinssatz ft+1,t+2 aus derBeziehung

(1 + rt,t+1)(1 + ft+1,t+2) = (1 + rt,t+2)2 (7.8)

Dabei sind rt,t+k die Zinsen, die in t fur die Auszahlung einer festgelegten Summe in t+kin Kauf genommen werden mussen und konnen aus der Zinsstrukturkurve abgelesenwerden. Allgemein gilt fur den l-jahrigen Terminzinssatz in t + k:

(1 + rt,t+k)k(1 + ft+k,t+k+l)

l = (1 + rt,t+k+l)k+l (7.9)

Diese Gleichung kann nach dem Terminzinssatz ft+k,t+k+l aufgelost werden.

Wenn tk < t+1 ≤ tk+1 , dann folgen nach t+1 die Einzahlungen Xk+1, . . . , Xn. Somit ergibtsich als Wert des Kredits fur jede Ratingklasse j

vj =

n∑

i=k+1

Xi

(1 + ft+1,ti)ti−t−1

(7.10)

Die Werte fur die einzelnen Ratingklassen sind unterscheidlich, da fur dieeinzelnen Ratingklassen unterschiedliche Zinsstrukturkurven gelten. Es ist sinnvoll,daß Zinsstrukturkurven fur bessere Ratingklassen unterhalb der Zinsstrukturkurvenfur schlechtere Ratingklassen liegen.

Page 90: Neuronale Netze Optionspreistheorie Und Risikobewertung

90 Kreditrisikomodelle und Basel II (Mihnea-Stefan Mihai)

Kreditwert v0 . . . vn

Wahrscheinlichkeit P (Yt+1 = 0|Yt) . . . P (Yt+1 = n|Yt)

Tabelle 7.1: Bedingte Verteilung des Kreditwerts in einem Jahr zum Zeitpunkt t

Verlust Vt − v0 . . . Vt − vn

Wahrscheinlichkeit P (Yt+1 = 0|Yt) . . . P (Yt+1 = n|Yt)

Tabelle 7.2: Bedingte Verteilung des Verlustes in einem Jahr zum Zeitpunkt tFur die Klasse Ausfall wird angenommen, daß je nach Besicherung des Kredits derKreditwert ein Anteil γ von Nennwert des Kredits ist (vergleiche Gupton u. a. (1997,Seite 26)).2 Den Wert des ausgefallenen Kredits bezeichnen wir mit vn.

Somit erhalten wir fur den Kreditwert Vt+1 in einem Jahr bedingt durch die Informationbis zum heutigen Zeitpunkt t die diskrete Verteilung mit n + 1 Tragerpunkten aus derTabelle 7.1 hat. Damit konnen wir die bedingte Verteilung des Verlustes im Laufe deskommenden Jahres angeben. Wenn Lt = Vt − Vt+1 der Verlust zwischen t und t + 1 ist, soerhalten wir fur den Verlust Lt die Verteilung in der Tabelle 7.2

Die Verteilung in der Tabelle 7.2 dient als Grundlage zur Herleitung derKreditrisikomaße.

7.2.4 Kreditrisikomaße

Ein bekanntes Risikomaß ist der Value at Risk. Der Value at Risk ist das 99%-Quantilder Verteilung der Verluste und Gewinne. Dabei werden Verluste als positiv betrachtetund Gewinne als negativ. Wenn Lt die Zufallsvariable der Verluste/Gewinne ist, so istderen bedingte Verteilung in der Tabelle 7.2 angegeben. Formal konnen wir dann denValue at Risk des Kredits durch

V aRt = infx|P (Lt ≤ x|Yt) ≥ 0.99 (7.11)

Fur einzelne Kredite ist der Value at Risk nicht besonders informativ. Sollte z.B.die Ausfallwahrscheinlichkeit großer als 0.01 sein, so ist der Value at Risk gleichder Differenz Vt − vn und entspricht dem maximalen Verlust, der bei der Vergabedieses Kredits in einem Jahr auftreten konnte. Das heißt, daß insbesondere bei derBetrachtung eines Kredits fur einen Kreditnehmer mit schlechter Bonitat das Maß sehrwenig informativ ist. Der Nutzen des Value at Risk wird erst ersichtlich wenn mandiese Große nicht fur einen einzelnen Kredit, sondern fur ein Portfolio von Krediten

2Diese Annahme gilt nur, wenn es einen Nennwert des Kredits gibt. Das ist genau dann der Fall, wenn X1 =

. . . = Xn−1 und Xn > Xn−1. Die Differenz Xn − Xn−1 wird Nennwert des Kredits genannt. Aus der Sicht des

Kreditnehmers entspricht die Erhaltung eines solchen Kredits der Emmission einer Kuponanleihe mit Kupon gleich

Xn − Xn−1, vergleiche z.B Fabozzi (2001, Seite 5)

Page 91: Neuronale Netze Optionspreistheorie Und Risikobewertung

7.3 Anwendung KNN 91

berechnet. Die Verteilung der Verluste fur ein Portfolio von Krediten wird weiterhindiskret sein, aber ist deutlich besser mit einer stetigen Verteilung approximierbar unddann ist der Value at Risk nicht automatisch gleich dem maximalen Protfolioverlust.

7.3 Wo kann man in Kreditrisikomodellen neuronale Netze

anwenden?

Im Abschnitt 7.2.2 haben wir die bedingten Ausfall- und Ubergangswahrscheinlichkeiteneingefuhrt. Im einfachsten Modell mit n = 1 Ratingklassen ließen sich diese alsFunktionen gegebener Faktoren wie z.B in den Formeln (7.5) und (7.6) bestimmen. Einegenaue Begrundung, weshalb diese Funktion genau die dort vorgegebene Gestalt habensoll liegt nicht vor. Wir konnten daher versuchen, unseren Ansatz zu verallgemeinern,indem wir forden, daß

P (Yt+1 = 1|Yt = 0) = f(xt1, . . . , xtK) (7.12)

und

P (Yt+1 = 0|Yt = 0) = 1 − f(xt1, . . . , xtK) (7.13)

wobei f : Rk 7→ [0, 1] eine allgemeine Funktion mit Werten im Intervall [0, 1] ist. Zur

Schatzung dieser Funktion konnten wir neuronale Netze einsetzen.

7.4 Fazit

Das hier vorgestellte Modell ist eine sehr starke Vereinfachung des CreditMetricsTM

Modells. Es wird nicht auf die Betrachtung von Portfolios eingegangen und es wirdvorausgesetzt, daß die Werte des Kredits in einem Jahr bekannt sind, wenn bekannt ist,in welcher Ratingklasse der Kredit sich in einem Jahr befinden wird. Eine Abhangigkeitder Ubergangswahrscheinlichkeiten in t von Ubergangswahrscheinlichkeiten in t−1 wirdausgeschlossen. Die Vereinfachungen sind sinnvoll, um die grundlegenede Struktur desCreditMetricsTM Modells darzustellen.

Wir haben auch festgelegt, daß im Prinzip der Einsatz neuronaler Netze imCreditMetricsTM Modell fur die Schatzung der Ubergangswahrscheinlichkeiten sinnvollware. Es bleibt nun zu untersuchen, wie dieses Schatzverfahren umgesetzt werden soll.

Page 92: Neuronale Netze Optionspreistheorie Und Risikobewertung

92 Kreditrisikomodelle und Basel II (Mihnea-Stefan Mihai)

Page 93: Neuronale Netze Optionspreistheorie Und Risikobewertung

Literaturverzeichnis

[BIS 1996] BIS: Amendment to the capital accord to incorporate market risks. Januar1996. – Verfugbar unter : http://www.bis.org/publ/bcbs24.pdf

[BIS 2004a] BIS: Consensus achieved on Basel II proposals.http://www.bis.org/press/p040511.htm. 11Mai 2004

[BIS 2004b] BIS: International Convergence of Capital Measurement and CapitalStandards. A Revised Framework / Basel Committee on Banking Supervision. Juni2004. – Forschungsbericht. Verfugbar unter : http://www.bis.org/publ/bcbs107.htm

[Bluhm u. a. 2003] Bluhm, Christian ; Overbeck, Ludger ; Wagner, Cristoph: AnIntorduction to Credit Risk Modeling. Chapman & Hall, 2003

[Duffie und Singleton 2003] Duffie, Darrell ; Singleton, Kenneth J.: Credit Risk.Pricing, Measurement and Management. Princeton University Press, 2003

[Fabozzi 2001] Fabozzi, Frank J.: The Handbook of Fixed Income Securities. McGraw-Hill, 2001

[Greene 2003] Greene, William H.: Econometric Analysis. 5. PHIPE. Prentice Hall.,2003

[Gupton u. a. 1997] Gupton, Greg M. ; Finger, Cristopher C. ; Bhatia, Mickey:CreditMetrics - Technical Document. The benchmark for understanding credit risk./ Morgan Guaranty Trust Company. 2 April 1997. – Forschungsbericht. available at:http://www.riskmetrics.com/pdf/CMTD1.pdf

[Jorion 1997] Jorion, Philippe: Value at Risk. The new benchmark for controllingderivatives risk. McGraw Hill, 1997

[Nickell u. a. 2000] Nickell, Pamela ; Perraudin, William ; Varotto, Simone: Stabilityof rating transitions. In: Journal of Banking & Finance 24 (2000), Januar, Nr. 1-2,S. 203–227

93

Page 94: Neuronale Netze Optionspreistheorie Und Risikobewertung

94 LITERATURVERZEICHNIS

Page 95: Neuronale Netze Optionspreistheorie Und Risikobewertung

Kapitel 8

Using neural networks to forecast stock

indices

von Christine Kiefer

8.1 Introduction

There is a wide range of applications for neural networks across a large number ofdiscplines, among them speech recognition, industrial orduction, spacecraft engeneeringand medicine. In finance and banking, artificial intelligence has been utilised for theestimation of credit risk and the forecasting of macroeconomic variables.

A very interesting application of neural networks in economics is the forecasting of stockprices. Such a working forcasting model Could yield huge profits for its creator. Butthe creation of neural networks is hard work: Besides the complex theory behind neuralnetworks, the eager scientists will soon feel lost among the large number of possibilitiesto implement a neural network. Even though there are many papers about currentresearch of neural networks for stock price forecasting, few of them reveal all relevantdetails. This chapter describes in detail the process of implementing a neural network,with the purpose to serve as a guide on how to develop, train and evaluate a neuralnetwork for stock price forcasting.

To develop a neural network, a good understanding of the following subjects is necessary:

• The theory of neural networks: How they are built, how they work, and whichtasks they can be used for.

• A neural network simulator: A simulator is a program that implements an artificalneural network. Simulators are used to create, train and visualise neural networks.

95

Page 96: Neuronale Netze Optionspreistheorie Und Risikobewertung

96 Using neural networks to forecast stock indices (Christine Kiefer)

Abbildung 8.1: Jordan network with connections between the output cells and the context cells. The

context cells have direct feedback connections. Source: [Zel94, p. 138.]

• A data processing tool and a programming language: To prepare and to evaluatedata.

It is assumed that the reader disposes of a good understanding of neural networksand therefore limits the theory to introducing partially recurrent networks, a networktopology that is well suited for the processing of time series.

The focus of this chapter lies on the practical aspects, such as the data pre- andpostprocessing and the simulation. The tool used for the simulation is the StuttgartNeural Network Simulator (SNNS). In the last section, the reader is guided throughthe process of preprocessing a time series, creating and training a neural network andmaking forecasts of the underlying time series.

8.2 Partially recurrent networks

Partially recurrent networks are particularly suitable for the recognition andclassification of time dependent patterns and for time series prediction. Mathematically,a time series is a sequence of vectors depending on time t. The components of the vectorscan be any observable variable, such as the temperature in a room or the price of acertain stock. The aspect of time is crucial for the processing, since each state dependsof the previous state. Therefore, not only the pattern itself, but also the position of thepattern in the entire sequence is important.

Partially recurrent networks contain special hidden cells, the so-called context cells.These networks are derived from feedforward-networks but dispose of connectionsbetween the hidden or the output layer and the context cells. The context cells processand save the output of the network and feed these parameters back to the network.The partially recurrent networks have the advantage over the recurrent networks thatthe can be trained with modified feedforward algorithms, which are much more efficientthan the training algorithms for recurrent networks.

Page 97: Neuronale Netze Optionspreistheorie Und Risikobewertung

8.2 Partially recurrent networks 97

Abbildung 8.2: Elman network. The context cells are connected with the cells of the hidden layer and

have no direct feedback connections. Source: [Zel94,p.141].

8.2.1 Jordan networks

Jordan networks are feed-forward networks enhanced by context cells that save theoutput of a training cycle as shown in Figure 8.1 (This figure and the next figuresare taken from [Zel94] 1, probably the best German book about neural networks). Theinput cells and the context cells deliver the input for the hidden layer. Their output istransmitted to the output layer. The output of the output layer is delivered externally asthe result of the training cycle, but is also transmitted to the context cells. The numberof context cells and the number of output cells must be the same. The connectionsbetween them have a fixed, not trainable weight γ, which is mostly equal to 1. Thecontext cells possess direct feedback connections with the weight λ. The parameter λregulates the memory of the network. A small value close to 0 puts the emphasis onrecent states. Hence, the network ’forgets’ quickly, but responds quick to recent changes.A value close to 1 stresses the influence of older outputs. If λ = 1.0, all previous outputsare summed up. A value of λ = 0.5 is therefore a good compromise between old andnew outputs. The weights λ and γ are not trainable. According to [Jor86] 2, this wouldnot increase the performance of the network significantly.

8.2.2 Elman networks

Elman networks are a modification of the Jordan networks. A disadvantage of the Jordannetworks is that they cannot save the internal state of the hidden layer, but only theoutputs. Elman networks are able to do so: In Elman networks, there are connectionsbetween the units of the hidden layer and the context cells (see Figure 8.2). There areno connections between the output cells and the context cells. Also, the context cellsposses no direct feedback. Again, the number of context cells must be equal to thenumber of cells in the hidden layer. The connections between them have a fixed weightof one. The context cells save the activations of the hidden cells of the previous state.

1[Zel94] Zell, A., Simulation neuronaler Netze, Oldenburg Verlag, Munchen, 3. Auflage, 19942[Jor86] Jordan, M. I., Attactor dynamics and parallelism in a connectionist sequential machine, Proceedings of

the Eighth Annual Conference of the Cognitive Science Society, pp. 531-546, Erlbaum, Hillsdale NJ, 1986

Page 98: Neuronale Netze Optionspreistheorie Und Risikobewertung

98 Using neural networks to forecast stock indices (Christine Kiefer)

Abbildung 8.3: Hierarchical Elman network with two hidden layers Source: [Zel94, p.142].

8.2.3 Hierarchical Elman networks

Elman networks are restricted to one hidden layer. Hierarchical Elman networks canhave more than one hidden layer, where each hidden layer is assigned a layer of contextcells with a number of cells equal to the number of cells in the corresponding hiddenlayer (see 8.3).

As in the Jordan networks, the context cells can have direct feedback connections.The parameter λ can be different for each layer of context cells. Hence, they are morepowerful and deliver better results for certain problems than simple Elman networks orJordan networks.

8.2.4 Training of partially recurrent networks

If the connections between the hidden layers (output layers, respectively) and thecontext cells are omitted, the partially recurrent networks change to normal feed-forward networks with additional input cells. Partially recurrent networks can thereforebe trained with a slightly modified version of the backpropagation algorithm or similarlearning algorithms such as SuperSAB, Quickprop or Rprop:

1. Initialise the context cells

2. For every training pattern:

• Process the input pattern and propagate to the output (without consideringthe recurrent connections)

• Compare the real output and the desired output and calculate the error signal

• Backpropagate the error signal from the output cells to the input cells

• Calculate the change of the weights (without considering the recurrentconnections)

Page 99: Neuronale Netze Optionspreistheorie Und Risikobewertung

8.3 Tools for developing neural networks 99

• Adapt the weights

• Calculate the next state of the context cells corresponding to their inputconnections. This is the only step where the recurrent connections areconsidered.

8.3 Tools for developing neural networks

There a various simulators for neural networks that implement different networktopologies and learning methods. Some simulators can be obtained for free, such as theStuttgart Neural Network Simulator, which is used for the case studies of the folloingsections.

Spreadsheet programs allow to perform mathematical, statistical and other calculationson large data sets and offer a toolset to visualize the data in graphs and tables. Thecells are organized in rows and columns, and contain data or formulas with relativeor absolute references to other cells. One of the most popular spreadsheet programs isMicrosoft Excel, which was used for the processing of the data and the evaluation ofthe results.

8.3.1 Stuttgart Neural Network Simulator

The SNNS (Stuttgart Neural Network Simulator) is a simulator for neural networksdeveloped at the Institute for Parallel and Distributed High Performance Systems(Institut fuer Parallele und Verteilte Hoechstleistungsrechner, IPVR) at the Universityof Stuttgart since 1989. The goal of the project is to create an efficient and flexiblesimulation environment for research on and application of neural nets3.

The SNNS can be used under Unix as well as Windows system. If using windows, theuser can decide between the x-windows version that has originally been designed forUnix system but has been ported to windows and the JavaNNS version. JavaNNS is agraphical user interface for windows that is easier and more convenient to use than thex-windows version.

The advantage of the x-windows version is that there are many functionalities thathave not been implemented in JavaNNS. A good example is the BigNet creator: WithBigNet, it is very easy to create all kinds of network topologies. It has been used in thiscase study to create the hierarchical elman network. The SNNS can also be used fromthe comandline without graphical user interface. Figure 8.4 shows a screenshot of theJavaNNS.

The SNNS GUI consists of five windows:

3SNNS manual, can be obtained under http://www-ra.informatik.uni-tuebingen.de/SNNS/

Page 100: Neuronale Netze Optionspreistheorie Und Risikobewertung

100 Using neural networks to forecast stock indices (Christine Kiefer)

Abbildung 8.4: Screenshot of the Stuttgart Neural Network Simulator. There are five control panels:

The display window, the log, the control panel, the error graph and the analyser.

Page 101: Neuronale Netze Optionspreistheorie Und Risikobewertung

8.3 Tools for developing neural networks 101

Abbildung 8.5: Pattern file

1. Display window: Displays the network.

2. Control pane: Within the control panel, the user can choose functions forinitialising, updating and training the network, adjust the parameters for thelearning algorithms, select the training and validation files and prune the network.

3. Log window: Shows the numerical value of the error during training and validation.

4. Error window: Visualises the training and the validation error.

5. Analyser: Shows how the output or the activation of one unit depends from anotherunit. The analyser can be used to visualise the behaviour of the network whenconfronted with new data or to monitor how an output unit behaves when a seriesof patterns is tested.

The command line version of the SNNS offers a simple programming language calledbatchman. Batchman is similar to C and possesses a few data types and controlstructures. Batchman facilitates the training and testing of large sets of nets. For thecase studies, batchman and JavaNNS were used in combination. The SNNS requires acertain file format for the files that contain the training, validation and testing data.

These pattern files have the ending .pat and are structured as in Figure 8.5: The headerspecifies when the file was generated, how many patterns (or datasets) the file containsin total, and how many input and output parameters belong to each data set. Commentsare marked by a ]. When the pattern files are loaded into the simulator kernel, the SNNSchecks if the numbers of input and output patterns agree with the network topology.The SNNS does not offer a function to generate pattern files, so external programs haveto be used to convert the data into the right file format.

Page 102: Neuronale Netze Optionspreistheorie Und Risikobewertung

102 Using neural networks to forecast stock indices (Christine Kiefer)

Abbildung 8.6: The process of building, training and testing a neural network

8.3.2 Microsoft Excel

Microsoft Excel is a spreadsheet program that offers a wide range of functions to processdata sets. The raw data for the case studies was obtained as Microsoft Excel files. Duringthe system development of the case studies, Microsoft Excel was used to difference andscale the data, to perform correlations analysis between time series, and to visualiseresults.

Microsoft Excel contains the programming language Visual Basic. Visual Basic helps toautomate procedures in form of macros. Besides data pre- and post-processing, VisualBasic scripts were used to transforma the datasets into the pattern file format requiredby the SNNS.

8.4 System development process

Figure 8.6 shows the routine of building the neural networks. The process has to berepeated for each set of input variables and for each network topology until the resultsare satisfying.

The steps of the system development process are:

1. Selection of input and output variables: First, the raw data for input and outputhas to be chosen. This choice involves the selection of the columns of the Exceltable that contain the raw data. Important is the logic behind this selection: What

Page 103: Neuronale Netze Optionspreistheorie Und Risikobewertung

8.4 System development process 103

function is the neural network supposed to learn? What might be the relationshipbetween the variables? There must be a function of some sort that connects theinput data and the output data; otherwise, it is impossible for the neural networkto deliver good results. Therefore, it is crucial to have a precise idea, which kindof relationship might underlie the raw data and how the network could learn it.

2. Pre-processing: The selected variables have to be pre-processed, which involvesscaling at least. The transformed variables have to be converted into the patternfile format required by the SNNS.

3. Building the neural network: The network can be built via the BigNet tool of theSNNS or via the graphical user interface of the JavaNNS. The number of units ofthe input and output layers are determined by the number of input and outputvariables that were selected in step one. The rest of the topology, such as thenumber of layers, the number of units per hidden unit and the type of connectionsis are not pre- determined and leave room for experimentation. As such, a setof input variables should be tested with different network topologies to find thenetwork that fits best.

4. Batch program: When the network is built, the program to execute the trainingand testing is written in the batchman programming language of the SNNS.

5. Training and testing: The Batch program is executed and writes the errors of thetraining, validation and testing into a log file.

6. Selection of the best results: The log files allow to compare the errors for differenttopologies and different sets of input variables. The purpose is to filter out thenetworks with the smallest validation and testing errors.

7. Evaluation: The results are extracted to Microsoft Excel to perform a statisticaland visual analysis of the result. This step includes an evaluation of the ability ofthe network to give forecast for the testing period.

8. Change network topology: The evaluation also involves an evaluation of the logic ofthe network, i.e. if the network was able to learn the function. This is documentedby the training error. If the training error remained high during the training, itmight be necessary to change the network topology by adding or deleting layersor units of the hidden layers.

9. Change input variables: If the results are not satisfying, more tests have to beconducted with a large or smaller set of input variables. Alternatively, some of theinput variables could be replaced by other input variables to find the combinationof variables that delivers the best results.

These steps are repeated until the results cannot be improved any further. Finally, thebest network for each module can be selected.

Page 104: Neuronale Netze Optionspreistheorie Und Risikobewertung

104 Using neural networks to forecast stock indices (Christine Kiefer)

8.5 Case study: Forcasting the DAX

In this case study, we train a neural network solely with the values of the DAX, theGerman Stock index. Based on the DAX value of today, we try to train a neural networkso it will return the DAX value of tomorrow.

8.5.1 Obtaining and preprocessing the data

The source for the DAX time series is DataStream. DataStream is an informationprovider for all kinds of economic data, for macroeconomic data, for financial markets,and time series. We obtain the closing price of the DAX from January 1th 1987 untilJune 21 2006. The data is saved as a Microsoft Excel Worksheet.

The DAX values fall into a range between 1000 and 8000 points for this timeframe.We cannot use the raw data as input for the neural network as the activation functionwould always produce an output of 1 for these high values. Therefore, we scale the DAXso all values fall in the intervall [0;1].

We do so by using the formula:

x = DAX−minmax−min

We set the minimum to 1000 points and the maximum to 8000. This new time seriescan be used as input for the JavaNNS. For JavaNNS, we need three types of files:

1. for training

2. for validation

3. for testing.

The training file contains the data that will be used to train the neural network. In total,we have 5080 values for the DAX. 4600 are used for training, the rest for test. Every ncycles, the JavaNNS calculates the error of the network by testing the validation file.The validation file containts every fourth data set of the training file. The testing filecontains the last 480 values of the DAX. When training is finished, we test how thenetwork performs when receiving new input data.

8.5.2 The network

The network is a hierarchical elman network with one input unit, two hidden layerswith 10 hidden units and 10 context units each, and one output unit with one contextcell. The network has been built with the BigNet tool of the x-windows version of the

Page 105: Neuronale Netze Optionspreistheorie Und Risikobewertung

8.5 Case study: Forcasting the DAX 105

Abbildung 8.7: Results of the forcasting

SNNS. Figure 8.4 shows the network in the display window. The network first has to beinitialised under the ’Initializing’ tab of the control panel. There is a special function forinitialising Jordan and Elman networks. We set the value of λ to 0.5. Under ’File’, thepattern file have to be loaded. In the control panel, the corresponding files for trainingand validation can be selected under the ’Patterns’ tab. Learning is started from the’Learning’ tab. The parameters used to train this network are: JE Backprop 0.8 0.01.0. We started with 200 cycles. We then lowered the learning rate to 0.6, increasingat the same time the cycles to 1000 cycles, then decreased both the learning rate andthe cycles to 0.5 and 500. The training has to be stopped when the validation error isminimal. We stopped after 3700 steps when the validation error was close to 1.29.

Next, the network has to be tested with new data. In the control panel, we load thefile containing the test data and open the Analyzer tool. In the Analyzer, we select asfirst value ’time’ or ’pattern’ and unit 22 as second value. Unit 22 is the output unit.The graph displayed by the analyzer should correspond to the graph of the dax for thetime between August 9 2004 and June 21 2006. The output of the network for the testdata can be dumped into a result file: Under ’File’, select ’save data’ and select .res asfile ending.

8.5.3 Postprocessing

The result file can be used for further processing. We used a Visual Basic Script toconvert the result file to an Excel Worksheet. Figure 8.7 shows the graph of the originalDAX values (blue) and the values forcasted by the network (yellow).

The graph shows the scaled data: As the lower bound was set to 1000, the values inJanuary 1988 fall shortly below 0, because the DAx was listed around 980 at thattime. The same is the case for January 2000 where the DAX reached 8000 points. Theaverage error for the forecasted values is 0.0168 with a standard deviation of 0.0179. As

Page 106: Neuronale Netze Optionspreistheorie Und Risikobewertung

106 Using neural networks to forecast stock indices (Christine Kiefer)

the graphs shows, it was possible to train the network to forecast the DAX value of theday with high accuracy.

8.6 Case study: Forcasting the 3-month-development of the

DAX

In this case study, we try to give an estimation of the national economic climate basedsolely on fundamental data. More specifically, we want to predict whether the Daxwill be higher or lower in 3 months as compared to today. For this purpose, we usemacroeconomic variables such as interest rates, inflation rates, exchanges rates andinternational stock indexes to generate a three-month trend prediction of the DAX.Again, the data was obtained from Datastream. The time frame for the data is January1991 until May 2006. The data from January 1991 until December 2003 was used fortraining and validation. These are 156 datasets since the fundamental data was on amonthly basis. For daily data, the last values of each month were used. Every fifthdataset was used for validation, the remaining datasets for training. The remainingdata (29 datasets) were used for testing.

8.6.1 Input/output variables

These time series were selected as input:

1. DAX 30 PERFORMANCE - PRICE INDEX

2. GERMANY-DS Market - TURNOVER BY VOLUME

3. GERMANY-DS Market - PRICE INDEX

4. GERMANY INTERBANK 1 MONTH - OFFERED RATE

5. BD ZEW INTEREST RATE: LONG TERM - GERMANY

6. BD LONG TERM GOVERNMENT BOND YIELD (9-10 YEARS MATURITY)

7. REX GENERAL BOND - PRICE INDEX

8. BD MONEY SUPPLY-GERMAN CONTRIBUTION TO EURO M1

9. BD MONEY SUPPLY- M3 (CONTRIBUTION TO EURO BASIS FROM M0195)

10. BD INFLATION

11. BD ZEW INFLATION RATE - GERMANY

12. BD UNEMPLOYMENT: % CIVILIAN LABOUR

Page 107: Neuronale Netze Optionspreistheorie Und Risikobewertung

8.6 Case study: Forcasting the 3-month-development of the DAX 107

13. BD INDUSTRIAL PRODUCTION: MANUFACTURING VOLA

14. BD MANUFACTURING ORDERS - DOMESTIC SADJ

15. BD BUSINESS CLIMATE INDEX

16. BD BUSINESS EXPECTATIONS

17. BD CONSUMER CONFIDENCE INDICATOR

18. BD BUSINESS TENDENCY SURVEY: BUSINESS CLIMATE

19. Crude Oil - Urals CIF Med. $/BBL

20. Gold Bullion US $/ Troy Ounce

21. EURO TO US $ (BBI) - EXCHANGE RATE

22. S&P 500 COMPOSITE - PRICE INDEX

23. NIKKEI 225 STOCK AVERAGE - PRICE INDEX

24. DJ EURO STOXX 50 - PRICE INDEX

25. US ZEW INFLATION RATE - USA NADJ

26. US TREASURY BILL 3 MONTH - MIDDLE RATE

27. US TREAS.BENCHMARK BOND 30 YR (DS) - RED. YIELD

28. US INTERBANK 1 MTH (LDN:BBA) - OFFERED RATE

These input parameters cover a wide range of national and international fundamentaldata. From these input parameters, only those will be chosen that have a high correlationwith the DAX but a low correlation with other input parameters.

The output variable is the future three-months return of the DAX: 1 indicates a positivereturn, -1 indicates a negative return.

8.6.2 Correlation analysis

The aim of the correlation analysis is to filter out unnecessary and insignificant inputparameters. A visual analysis of the time series shows a possible high correlation betweendifferent parameters. Of two highly correlated time series, only one series is used forinput. There is a high correlation between the four business climate indicators. Of theseindicators, only one or to should be chosen.

The indicator BD BUSINESS TENDENCY SURVEY: BUSINESS CLIMATE has thehighest correlation values with other time series. Unfortunately, the values after 2004are not available. Therefore, BD BUSINESS CLIMATE INDEX (PAN GERMANY) is

Page 108: Neuronale Netze Optionspreistheorie Und Risikobewertung

108 Using neural networks to forecast stock indices (Christine Kiefer)

Abbildung 8.8: Correlation coefficients of business climate indicators

chosen and BD CONSUMER CONFIDENCE INDICATOR as it does not correlate veryhigh with the other parameters.

Furthermore, there are two pairs of highly correlated variables. The correlationcoefficient betweenBD INDUSTRIAL PRODUCTION: MANUFACTURING VOLA

BD MANUFACTURING ORDERS - DOMESTIC

is 0,952318069. Therefore, one of the time series should be left out.

The correlation betweenUS TREASURY BILL 3 MONTH - MIDDLE RATE

US INTERBANK 1 MTH (LDN:BBA) - OFFERED RATE

is 0,993052363, so one of these parameters should be cancelled out as well.

Of the parameters in question, those with the lower correlation with the DAX wereeliminated. Those parameters are:BD MANUFACTURING ORDERS - DOMESTIC

BD BUSINESS EXPECTATIONS (PAN GERMANY)

BD BUSINESS TENDENCY SURVEY: BUSINESS CLIMATE

US TREASURY BILL 3 MONTH - MIDDLE RATE

8.6.3 Transformations

The remaining input parameters have to be differenced and scaled. Cyclic parameters,such as interest rates, inflation rates or unemployment rates are used with their originalvalue.

Page 109: Neuronale Netze Optionspreistheorie Und Risikobewertung

8.6 Case study: Forcasting the 3-month-development of the DAX 109

The differentiated parameters are:

DAX 30 PERFORMANCE - PRICE INDEX

GERMANY-DS Market - TURNOVER BY VOLUME

GERMANY-DS Market - PRICE INDEX

REX GENERAL BOND - PRICE INDEX

BD MONEY SUPPLY-GERMAN CONTRIBUTION TO EURO M1(PAN BD M0690)

BD MONEY SUPPLY- M3 (CONTRIBUTION TO EURO BASIS FROM M0195) CURA

BD INDUSTRIAL PRODUCTION: MANUFACTURING VOLA

Crude Oil - Urals CIF Med. $/BBL

S&P 500 COMPOSITE - PRICE INDEX

NIKKEI 225 STOCK AVERAGE - PRICE INDEX

DJ EURO STOXX 50 - PRICE INDEX

The cyclic parameters that were used with their original value are:

GERMANY INTERBANK 1 MONTH - OFFERED RATE

BD ZEW INTEREST RATE: LONG TERM - GERMANY NADJ

BD LONG TERM GOVERNMENT BOND YIELD (9-10 YEARS MATURITY)

BD INFLATION

BD ZEW INFLATION RATE - GERMANY NADJ

BD UNEMPLOYMENT: % CIVILIAN LABOUR

BD BUSINESS CLIMATE INDEX (PAN GERMANY)

BD CONSUMER CONFIDENCE INDICATOR

Gold Bullion U$/Troy Ounce

EURO TO US $ (BBI) - EXCHANGE RATE

US ZEW INFLATION RATE - USA NADJ

US TREAS.BENCHMARK BOND 30 YR (DS) - RED. YIELD

US INTERBANK 1 MTH (LDN:BBA) - OFFERED RATE

All of the parameters were finally scaled to the range [-1;1]. The minimum andmaximum of each time series were chosen so that at least 90% of the values fell withinthat range.

8.6.4 Time lag analysis

Some parameters have an instant impact on the financial markets, whereas the influenceof other parameters might be higher after a certain time period or time lag. The aimof the time lag analysis is to determine the most significant time lags of the inputparameters with respect to the future three-month return of the DAX. For this purpose,the data series were standardised. A Visual Basic script calculated the correlationcoefficients of each time series up to a time lag of 10 months. The time lag with thehighest correlation coefficient was chosen for input as shown in Figure 8.9.

Page 110: Neuronale Netze Optionspreistheorie Und Risikobewertung

110 Using neural networks to forecast stock indices (Christine Kiefer)

Abbildung 8.9: Time lags with the highest correlation coefficients for each data series

Page 111: Neuronale Netze Optionspreistheorie Und Risikobewertung

8.6 Case study: Forcasting the 3-month-development of the DAX 111

Abbildung 8.10: Results of the neural network for different input sets

8.6.5 Neural network

To find the best network, three types of experiments were conducted:

1. Experiment 1: Use all time series for input (23 input variables)

2. Experiment 2: Use all time series for input where correlation coefficient ≥ 0.1 (17input variables)

3. Experiment 3: Use all time series for input where correlation coefficient ≥ 0.15 (11input variables)

The number of units of the input layers was determined by the number of input variables(11, 17 or 23) and the number of output units was one. For all experiments, the numberof units of the hidden layer varied between 5 and 10 units.

Figure 8.10 shows the networks with the lowest errors for the three experiments.Experiment 2 produces the network with the lowest training and validation error,meaning the network could learn the relationships between the input parameters and thenetwork well and is able to generalize. Therefore, the network 17 10 1 is to be preferredto the network 11 7 1, which produced a low testing error but had high training andvalidation errors.

8.6.6 Final results

The results give an estimation of the economic climate for each month of the testingperiod. If these estimations were turned into a trading strategy such that the DAX isbought on a positive signal and sold on a negative signal, the returns as shown in Figure8.11 and Figure 8.12 result. The index is bought at the date given in column one for theprice given in column two. Three month later, at the date of column three, the index issold at the price of column four. Columns five and six show the gain in absolute valuesand as percentage of the original investment.

The buy signals generated an average return of 5.49%, the sell signals generated anaverage return of 2.93%. In four months of the testing period, the signal is incorrect,resulting in an average loss of 3.23%.

Page 112: Neuronale Netze Optionspreistheorie Und Risikobewertung

112 Using neural networks to forecast stock indices (Christine Kiefer)

Abbildung 8.11: Results of the buy signals

Abbildung 8.12: Results of the sell signals

Page 113: Neuronale Netze Optionspreistheorie Und Risikobewertung

8.7 Summary 113

Abbildung 8.13: 3-month forecast of the DAX: The shading of the background indicates the trend

Figure 8.13 visualises the results: The shading of the background of the graphs indicateswhether the DAX will be higher (green) or lower (red) in three months. The forecastis correct for 25 out of 29 months.

8.7 Summary

This chapter showed how artificial neural networks can be implemented. A goodunderstanding of the theory of neural networks is necessary, as the the tools requiredfor the implementation are difficult to handle without this knowledge. The tools neededfor implementation or a neural network simulator and a spreadsheet program to handlethe data. For the case studies shown in this chapter, the Stuttgart Neural NetworkSimulator and Microsoft Excel were used to build two networks that forecast the DAX.The first case study produced next-day-predictions of the index. The second studyused 23 macroeconomic variables to give a 3-months-estimate of the development ofthe DAX. The purpose of this chapter was to give detailed information on the processof developping neural networks and will hopefully encourage the reader to implementsome networks on his own.