1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement-...

43
1 Einführung in das Reinforcement Learnin g DFG-Forschungsprojekt Einführung in das Reinforcement-Learning

Transcript of 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement-...

Page 1: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

1Einführung in das Reinforcement Learning

DFG-Forschungsprojekt

Einführung in das Reinforcement-Learning

Page 2: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

2Einführung in das Reinforcement Learning

Definition

• Allgemein: Automatisierung der Bepreisung von Internetdienstleistungen im Sinne eines optimalen Ertrags-Managements

• Ziel: Kopplung der Bepreisung von Arbeitsaufträgen an Rechnersysteme mit der Auslastungsoptimierung der Ressourcen

• Instrumentarium: Stochastische Dynamische Programmierung, Reinforcement Learning, Neuronale Netze, Genetische Algorithmen

Page 3: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

3Einführung in das Reinforcement Learning

Beispiel für Auslastungsverteilung

Lastverteilung des Rechenzentrums des Landes Niedersachsen über eine Woche

Page 4: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

4Einführung in das Reinforcement Learning

Praxisbezug

• Grundproblem:– Last auf Rechnersystemen ist – einerseits nichtdeterministisch, (stochastisch

verteilt) – andererseits folgt sie gewissen

Gesetzmäßigkeiten bedingt durch die Verhaltensweisen der Nutzer

– z.B. Abruf von Börsenkursen ab 9 Uhr, oder Video on Demand in den Abendstunden, usw.

– Idee: Einführung einer Preisstaffel nach Angebot und Nachfrage

Page 5: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

5Einführung in das Reinforcement Learning

Resultierende Problemstellungen

Bekannte Problemtypen: • Queueing–Probleme (zeitlich und örtlich)• Scheduling–Probleme (zeitlich und örtlich) • Routing–Probleme (örtlich) • File–Allocation–Probleme (örtlich)• Load–Balancing–Probleme (örtlich und zeitlich)

• Einwand: Diese Anwendungsbereiche sind klassische Forschungsgebiete der Informatik

• Ökonomische Sicht: Für anzufordernde Arbeitspakete werden Preise ausgehandelt

Page 6: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

6Einführung in das Reinforcement Learning

Aufgabenumfeld

• Aufträge treffen stochastisch auf ein Netz von Rechnern und sollen dort möglichst zeitnah verarbeitet werden

• Aufträge tragen Preise (zugewiesen oder ermittelt) und haben bestimmte Ablaufdauer

• Bearbeitung der Aufträge ist in Grenzen zeitlich variabel

• Ziel: Auslastung der Rechnerkapazitäten so, dass der Ertrag maximiert wird

Page 7: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

7Einführung in das Reinforcement Learning

Zuweisungsproblem

• Zeitpunkt des Eintreffens und Größe neuer Aufträge ist nicht bekannt

• Kleine Aufträge können größere Aufträge blockieren, falls sie zu früh angenommen werden und schmälern somit den Ertrag, wenn kein neuer Auftrag eintrifft

• Werden kleinere Aufträge nicht angenommen und kommt kein größerer Auftrag, so entgeht ebenfalls Gewinn

• Assoziiert: Verteilung der Aufträge unter den Rechnersystemen

Page 8: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

8Einführung in das Reinforcement Learning

Lösungsansätze

• Yield-Management (YM) mit dynamischer Programmierung (DP) – Voraussetzung: Teil der zu bearbeiteten Aufträge

steht in einer Warteschleife vor dem Rechnernetz– Vorteil: Problem ist analytisch lösbar durch das

Ermitteln von Restwertfunktionen im Zusammen-hang mit dynamischer Programmierung

– Nachteil: Für größere Probleme nicht mehr in vertretbarer Zeit lösbar (evtl. nicht real-time-fähig)

– Lösung: Formulieren der analytischen Lösung durch Näherungsverfahren (NN, GA) als look-up-Tabelle

Page 9: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

9Einführung in das Reinforcement Learning

Lösungsansätze

• Reinforcement-Learning (RL) mit DP – Voraussetzung: Eingang der Aufträge folgt, neben

der Markov-Eigenschaft auch bestimmten Mustern die sich wiederholen (Bayes-Anteil wird erwartet)

– Vorteil: Bepreisung ist in die Reinforcement-Funktion integrierbar, Problem ist in Echtzeit zu lösen, Zeithorizont der Vorlaufphase ist stufenlos verstellbar, mit steigender Einsatzzeit wächst die Performance des Systems

– Nachteil: Online-Training erforderlich, zuerst schlechtere Performance

– Lösung: Vorbereiten des Systems mit Offline-Daten

Page 10: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

10Einführung in das Reinforcement Learning

Markov-Eigenschaft

• Markov–Eigenschaft

Zustandsübergänge sind unabhängig von den vor-

hergehenden Umweltzuständen und Entscheidungen • Markov–Kette

Kette von stochastischen Ereignissen, die ihre Vergangenheit vergisst, d.h. die Auftrittswahrschein-lichkeit eines neuen Ereignisses einer Markov–Kette (0-ter Ordnung) ist unabhängig von der Auftritts-wahrscheinlichkeit der vorhergehenden Ereignisse

Page 11: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

11Einführung in das Reinforcement Learning

Markovsche Entscheidungsprozesse

• Markovscher Entscheidungsprozess (MDP) besteht aus:– Menge von Zuständen S– Menge von Aktionen A– Ertragsfunktion R – Zustandsübergangsfunktion T– Zustandsübergangsfunktion: Zustände werden auf

Wahrscheinlichkeiten abbildet, wobei (s) die Entscheidungspolitik in Zustand s ist. T(s, a, s’) ist die Wahrscheinlichkeit eines Zustandsübergangs von Zustand s zu Zustand s’ unter Berücksichtigung von Aktion a

Page 12: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

12Einführung in das Reinforcement Learning

Lernen in der KI

• Lernmethoden:– Routinelernen– Lernen durch Anleitung– Lernen am Beispiel und aus Erfahrung– Analogielernen– Lernen durch Entdecken

• Lernkontrolle:– Überwachtes Lernen: Lehrer z.B.: KNN– Bestätigungslernen: Kritiker z.B.: RL– Nicht überwachtes Lernen: Beobachter z.B.: LSE

Page 13: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

13Einführung in das Reinforcement Learning

Entscheidungsbaum

s s‘ s‘‘

a4, r4

a2 , r

2

a3, r3

a5, r5

a 1, r 1

a6, r6

Politik gibt Wahrscheinlichkeiten für Wege an, den Entscheidungsbaum zu durchlaufen

Formalisierung der Ausgangssituation

Page 14: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

14Einführung in das Reinforcement Learning

Reinforcement-Lernen

• Bestätigungs-Lernen: – als Wissenschaft in den letzten 10 Jahren etabliert

• Ursprünge: – Kybernetik, Psychologie, Statistik,

Neurowissenschaften, KI, Robotik

• Ziel: – Programmieren von Agenten durch Belohnung und

Bestrafung ohne die Notwendigkeit der expliziten Festlegung der Aufgabendurchführung

• Methode: – Agent handelt in einem dynamischen Umfeld und lernt

durch trail-and-error

Page 15: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

15Einführung in das Reinforcement Learning

Reinforcement-Lernen

• Reinforcement-Learning (RL)– Agent ist mit der Umwelt durch eine Sensorik

verbunden– In jedem Interaktionsschritt erhält der Agent einen

Input i und Rückmeldung über Umweltzustand s – Agent wählt eine Aktion a als Output, die den

Umweltzustand ändert– Agent bekommt den Wert der Aktion durch

Reinforcement Signal mitgeteilt– Ziel des Agenten ist es längerfristig die Summe

der erhaltenen Reinforcement-Signale zu optimieren

Page 16: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

16Einführung in das Reinforcement Learning

Reinforcement-Learning und Umgebung

Agent

Umgebung

Action

ar

Reward rZu-stand s

rt+1

st+1

Reinforcement-Lernen

Page 17: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

17Einführung in das Reinforcement Learning

RL-Modelleigenschaften

• Annahme: quasistationärer Zustand Zustandsübergänge ändern sich nicht im

Zeitablauf

• Kein überwachtes Lernen wie z.B. beim KNN, da keine Input-Output-Paare

Sammeln von Informationen über mögliche Systemzustände, Aktionen, Übergänge, Erträge

• Verwandtschaft zur KI, jedoch höheres Generalisierungsvermögen als symbolische Verfahren

Page 18: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

18Einführung in das Reinforcement Learning

RL-Modelltypen

• Modelle mit endlichem Horizont– Optimieren des Ertrags über h Schritte:– nichtstationäre Politik, falls der Zeithorizont

h mit t gegen 0 geht, setzt begrenzte Lebensdauer des Agenten voraus

– stationäre Politik, wenn h gleitender Horizont ist

• Diskontierte Modelle mit unendl. Horizont– Optimieren des diskontierte Ertrags über unendlich

viele Schritte:

• Modelle mit durchschnittlichem Ertrag– Optimieren des Durchschnittsertrags:– Grenzfall des diskontierten Modells

h

t trE0

0t tt rE

h

t trhE

0

1

Page 19: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

19Einführung in das Reinforcement Learning

Reinforcement–Lernen und Adaptive–Regelung

• Adaptive Regelung (Adaptive Control) Struktur des dynamischen Modells wird im Gegensatz zum Reinforcement Lernen nicht verändert, Anpassungsproblem werden auf reine Parameterschätzung reduziert (Steuerung, bzw. Regelung)

• Ausbeutung contra Erkundung (Exploitation vs. Exploration) Hauptunterschied zwischen Reinforcement Lernen und überwachtem Lernen ist die Tatsache, dass ein Reinforcement System seine Umwelt erkunden muss um seine Performance zu verbessern

Page 20: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

20Einführung in das Reinforcement Learning

Zustands-Wert-Funktion V einer beliebigen Politik

0kt1kt

ktt ss|rEss|RE)s(V

:

a4, r4

a2 , r

2

a3, r3

a5, r5

a 1, r 1

)'s(V

)''s(V

a6, r6

)s(V

Zustands-Wert-Funktion

Page 21: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

21Einführung in das Reinforcement Learning

:

01 ,|),(

kttkt

k aassrEasQ

a4, r4

a2 , r

2a5, r5

a 1, r 1

a3, r3

a6, r6

)a,s(Q 11

s1

s2

)a,s(Q 32

Aktions-Wert-Funktion Q einer beliebigen Politik

Aktions-Wert-Funktion

Page 22: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

22Einführung in das Reinforcement Learning

Optimale Zustands-Wert-Funktion V* :

)s(Vmax)s(V*

aasssVrEasQ tttt , |)( ),( 1*

1*

Optimale Aktions-Wert-Funktion Q* ausgedrückt über V*:

's

*

a

* )'s(V)a,s(rmax)s(V

Optimale Zustands- und Aktions-Wert-Funktion

Page 23: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

23Einführung in das Reinforcement Learning

Dynamische Programmierung

• Lösung eines Entscheidungsproblems: in einem Entscheidungsbaum durch Ausprobieren aller Möglichkeiten und Ermittlung des besten Wegs

• Off–line Version: Ex-ante werden möglichen Lösungen durchgerechnet und nach Vorlage (look–up-table) entschieden

• On–line Version: Während des Entscheidungs-prozesses werden neue Lösungsvarianten berechnet.

• Zustandsraum: exponentielles Wachstum

• Bellman’s curse of dimensionality: “at high dimensions every object is far to another”

Page 24: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

24Einführung in das Reinforcement Learning

Dynamische Programmierung (DP):

Bellmanns-Optimalitätsgleichung:

'stt1t

*1t

a

* aa,ss|)s(VrEmax)s(V

Optimaler Wert des Zustandes s ist gleich dem abdiskontierten optimalen Wert des nächsten Zustandes addiert zur optimalen erwarteten Belohnung von r in t +1

Dynamische Programmierung

Page 25: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

25Einführung in das Reinforcement Learning

Wertiteration

Algorithmus: Value-Iteration initialisiere V(s) beliebigwiederhole bis Entscheidungspolitik gut genug

wiederhole für wiederhole für

ende

ende ende

SsAa

SssVsasTasRasQ

')'()',,(),(:),(

),(max:)( asQsV a

Page 26: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

26Einführung in das Reinforcement Learning

Wertiteration

• Abbruchbedingung des Greedy–Algorithmus – Bellmansches Residual–Kriterium <

• full-backup (FB)– Value-Iteration nach obigem Beispiel

• sample-backup (SB)– Umformung der Update–Gleichung:

• Komplexität: FB-Algorithmus: O(|S|2|A|) p.It.

)),()','(max(),(:),('

asQasQrasQasQa

Page 27: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

27Einführung in das Reinforcement Learning

Politikiteration

Algorithmus: Policy-Iterationinitialisiere Entscheidungspolitik beliebig

wiederhole berechne die Wertfunktion der Entscheidungspolitik

löse das lineare Gleichungssystem

verbessere die Entscheidungspolitik für jeden Zustand:

bis

' '

SssVsssTssRsV

')'()'),(,())(,(:)(

Ssa sVsssTssRs'

)'()'),(,())(,(maxarg:)(' '

Page 28: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

28Einführung in das Reinforcement Learning

Politikiteration

Eigenschaften:• Wertfunktion der Entscheidungspolitik: unendlicher

diskontierte Ertrag für jeden durch Ausübung der Entscheidungspolitik erreichten Zustand

• Lösung eines linearen Gleichungssystems• Ermittlung jeden Zustandswerts unter der aktuellen

Entscheidungspolitik Versuch die Entscheidungspolitik zu verbessern • Komplexität: Max Entscheidungspolitiken O(|S|

2|A|+|S|3) pro Iteration

SA

Page 29: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

29Einführung in das Reinforcement Learning

Monte-Carlo-Methode

- Lernen durch Erfahrung

- Einteilung in Episoden

- kein kompletter Durchlauf des Entscheidungsbaumes notwendig sample backup

- Generierung von Durchschnitts-Returns zur Bestimmung von V(s)

- Unterteilung: first-visit Monte-Carlo

every-visit Monte-Carlo

Monte-Carlo-Methode

Page 30: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

30Einführung in das Reinforcement Learning

first visit Monte-Carlo-Methode zur Schätzung von V

- generiere eine Episode; wähle eine Politik

- durchlaufe die gesamte Episode, bilde Durchschnittsreturns R für jedes V(s), das besucht wird, verwende dazu alle Returns, die in dieser Episode auf das jeweilige s folgen

- bei erneuten Durchläufen: bilde nur für die V(s) Durchschnittsreturns, die in vorherigen Durchläufen noch nicht besucht wurden

Monte-Carlo-Methode

Page 31: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

31Einführung in das Reinforcement Learning

a2 , r

2

r 1 = 2

Beispiel:

r 3 = 5

r7 = 6

34,4)( sV

5,5)'s(V 6)''s(V

r4 = 4r8 = 9

9)''s(V

Monte-Carlo-Methode

Page 32: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

32Einführung in das Reinforcement Learning

every visit Monte-Carlo-Methode zur Schätzung von V

- generiere eine Episode; wähle eine Politik

- durchlaufe die gesamte Episode, bilde Durchschnittsreturns für jedes V(s), das besucht wird, verwende dazu alle Returns, die in dieser Episode auf das jeweilige s folgen

- bei erneuten Durchläufen: bilde für jedes V(s) neue Durchschnittsreturns nach obigem Muster, egal ob das jeweilige V(s) schon existiert oder nicht

Monte-Carlo-Methode

Page 33: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

33Einführung in das Reinforcement Learning

Beispiel:

r 3 = 5

a2 , r

2

r 1 = 2 r4 = 4

r7 = 6

r8 = 9

Update-Regel: V(st) V(st) + [Rt - V(st)]

9)''s(V 34,4alt)s(V 5,5alt)'s(V 6)''s(V

5,6neu)'s(V 5neu)s(V

Monte-Carlo-Methode

Page 34: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

34Einführung in das Reinforcement Learning

Temporal-Difference-Learning:

- kombiniert Dynamische Programmierung mit Monte-Carlo-Methode

- Einteilung in Episoden

- setzt am Anfang der Durchläufe für jedes V(s) Schätzwerte

- korrigiert Schätzwert für V(st) über Summe aus folgendem Return und folgender Zustands-wertfunktion

Episode muss zur Bildung von Schätzwerten nicht komplett durchlaufen werden !

Temporal-Difference-Lernen

Page 35: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

35Einführung in das Reinforcement Learning

Beispiel:

r 1

r 3

r4

r7

r8

)s(V t

)s(V 1t

)s(V 2t

Update-Regel: )]()( [ )()( 11 ttttt sVsVrsVsV

Temporal-Difference-Lernen

Page 36: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

36Einführung in das Reinforcement Learning

On-policy-Methode:

Politik, mit der das Verhalten im Entscheidungsbaum generiert wird ist mit der, mit der V(s) geschätzt wird, identisch

Off-policy-Methode:

Verhaltenspolitik und Politik, mit der V(s) geschätzt wird, sind nicht identisch: Durchlauf des Entscheidungsbaumes wird bestimmt mit Verhaltenspolitik, V(s) wird geschätzt über Schätzpolitik

On/Off-Policy-Methode

Page 37: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

37Einführung in das Reinforcement Learning

Q-Learning: Off-Policy Temporal-Difference-Learning

- Optimaler Weg wird nicht über Update von V(s), sondern über Update von Q(s,a) bestimmt

- Verhaltenspolitik bestimmt Durchlauf des Entscheidungsbaumes

- Schätzpolitik wird zum Update von Q(s,a) verwendet

- Verhaltenspolitik ist -greedy; Schätzpolitik ist greedy

- Vorteil: globales Optimum wird mit größerer Wahrscheinlichkeit gefunden

Q-Lernen

Page 38: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

38Einführung in das Reinforcement Learning

Vorgehensweise:

Wiederhole für jede Episode:

1. Gehe von einem bestimmten s aus

2. Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy

3. Beobachte Return r und Zustand s‘

4. Erstelle ein Update von Q folgendermaßen:)]a,s(Q)'a,'s(Qmaxr[)a,s(Q)a,s(Q

'a1t

5. Gehe von s zu s‘

Q-Lernen

Page 39: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

39Einführung in das Reinforcement Learning

Generalisierung

• Größere RL–Umgebungen: – unmöglich die Zustandsräume vollständig zu

enumerieren und Werte zu speichern– stetigen Zustandsräume kompakte Darstellung

• Kompressions- und Generalisierungstechniken – subsymbolische Lernverfahren: Neuronale Netze,

Fuzzy-Logik, lineare Regressionsverfahren, Nächster Nachbar Verfahren

– Kompressionsverfahren zur Merkmalsextraktion ist z.B. Hauptkomponentenanalyse (PCA)

Page 40: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

40Einführung in das Reinforcement Learning

Komprimierung

• Abzubildenden Speicherbereiche: – S A (Entscheidungspolitik)– S R (Wertfunktion)– S x A R (Q-Funktion und Erträge)– S x A x S [0,1]

(Übergangswahrscheinlichkeiten)• Meist Abbildung im überwachten Lernverfahren

• Entscheidungspolitik: keine Input-Output Trainingspaare sind vorhanden

Page 41: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

41Einführung in das Reinforcement Learning

Komprimierung

AuswertungNäherung der Wegkosten

von Zustand jNeuronales Netz/Näherungstabelle für

Parameter r

Zustand jJ(j,r)

J(f(i),r)Merkmalsvektor f(i)Zustand i Merkmalsextraktion

Neuronales Netz/Näherungsfkt. fürParametervektor r

J(f(i),r)Merkmalsvektor f(i)Zustand i Merkmalsextraktion

Neuronales Netz/Näherungsfkt. fürParametervektor r

Page 42: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

42Einführung in das Reinforcement Learning

Ausblick

• Bepreisung und Optimierung von Rechnerlast ist nicht gleichzeitig möglich

stufenweise Vorgehensweise

• Evtl. Rückkopplung von Lastoptimierung mit anschließender Bepreisung

• Neuerer Ansatz: Inkorporation der Bepreisung in ein RL-Modell

• Einbeziehung von kombinatorischen Auktionsverfahren

Page 43: 1 Einführung in das Reinforcement Learning DFG-Forschungsprojekt Einführung in das Reinforcement- Learning.

43Einführung in das Reinforcement Learning

Literatur

• D.P.Bertsekas, J.N.Tsitsiklis, Neuro-Dynamic Programming, Athena Scientific, Belmont, MA, 1996

• M.L.Putermann, Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley, New York, 1994

• R.S.Sutton, A.G. Barto, Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA, 1998

• http://interactive.wiwi.uni-frankfurt.de