Sommersemester 2009 Dr. Marco Block -Berlitz 1 · - von Spielbäumen und anderen Wäldern Vom...

- von Spielbäumen und anderen Wäldern

Vom Amateur zum Großmeister

Dr. Marco BlockSommersemester 2009

ProInformatik - Funktionale Programmierung

ProInformatik – Funktionale Programmierung

Freie Universität Berlin

von Spielbäumen und anderen Wäldern -

Vom Amateur zum Großmeister

1Dr. Marco Block-Berlitz

Funktionale Programmierung

1) Es war einmal ... Tic-Tac-Toe!

2) Das unbesiegbare Tic-Tac-Toe-Programm

3) Spiele komplexer als das Weltall?

4) Ohne menschliche Experten geht es nicht

5) Schach ist Tic-Tac-Toe sehr ähnlich

Übersicht zum Inhalt

6) Suche allein genügt nicht - auch das Brett ist wichtig

7) Mensch versus Maschine

8) Das Schachprogramm FUSc#

9) Programme können selbständig Spiele lernen

Sommersemester 2009 Dr. Marco Block



Programm

4) Ohne menschliche Experten geht es nicht

auch das Brett ist wichtig

9) Programme können selbständig Spiele lernen

Dr. Marco Block-Berlitz 2

Zunächst betrachten wir die speziellen Eigenschaften undTic-Tac-Toe.

Tic-Tac-Toe – Eigenschaften und Komplexität

alternierendesZwei-Spieler-Spiel

vollständige Information


Zwei-Spieler-Spielmit Spieler X und O

Spielablauf

x

x

...

x

x O

x O

...x

O



und Spielregeln vom Spielklassiker

Eigenschaften und Komplexität

Information Nullsummenspiel


des einen Gewinn ist des anderen Verlust

Komplexität

Damit ist die Komplexität von Tic-Tac-Toe relativklein und die Lösung sehr einfach.

Mögliche Spielverläufe: 9*8*7*...*2*1 = 9!das entspricht 362.880

Legale Wege gibt es sogar nur 255.168.

Ohne Rotation und Spiegelung gibt es sogar nur 765 unterschiedliche Spielsituationen.

Wir benötigen eine Bewertungsfunktion, die besagt, welcherob eine Partie unentschieden endete.

Tic-Tac-Toe - Bewertungsfunktion

Bewertungsfunktion

-1 0

x OO

O

O xxx x

x O

Ox x


Spieler O gewinnt Unentschieden

Suchbaum

0 -1 -1 1 -1 0Spielbewertungen



welcher Spieler gewonnen hat oder

10

xxO

xx O O

x O

OOxx


Unentschieden Spieler X gewinnt

X am Zug

O am Zug

X am Zug

0 1 1 -1 ?

Betrachten wir die folgende Spielsituation für den Spieler O

Tic-Tac-Toe – lokale Betrachtung für Spieler O

1 0 1 1


1 0 1 1

Spieler O wird sich für den vielversprechendsten Zug entscheiden und wählt das stehenden Möglichkeiten..

1 0 1 1

0



O

lokale Betrachtung für Spieler O

X am Zug

O am Zug

X am Zug ?


?Zug entscheiden und wählt das Minimum der zur Verfügung

X am Zug

O am Zug

X am Zug

Betrachten wir die folgende Spielsituation für den Spieler X

Tic-Tac-Toe – lokale Betrachtung für Spieler X

-1 1 0


-1 1 0

Auch Spieler X wird sich für den vielversprechendsten Zug entscheiden und wählt in diesem Fall das der zur Verfügung stehenden Möglichkeiten..

-1 1 0

1



X

lokale Betrachtung für Spieler X

O am Zug

X am Zug

O am Zug ?


?Zug entscheiden und wählt in diesem Fall das Maximum

O am Zug

X am Zug

O am Zug

Wenn wir davon ausgehen, dass jeder Spieler immer denkönnen wir die MinMax-Strategie (Claude Elwood Shannon

Tic-Tac-Toe – MinMax-Strategie

-1 -1

0X am ZugMaximieren


0 -1 -1 1 -1

-1 -1O am Zug

X am Zug

Minimieren

Formal läßt sich MinMax, wie folgt beschreiben:



für sich aktuell besten Zug spielt, dannShannon 1950) formulieren:

0

Hauptvariante


1 0 1 1 0

0


Formal läßt sich MinMax, wie folgt beschreiben:

maxKnoten(n)

Pseudocode:


maxKnoten(n)

if n ist terminaler Zustand

return eval(n)

w = -∞∞∞∞für jedes Kind m of n

v = minKnoten(m)

if v > w then w = v

return w




minKnoten(n)

if n ist terminaler Zustand

return eval(n)

w = ∞∞∞∞für jedes Kind m of n

v = maxKnoten(m)

if v < w then w = v

return w


Haskell [3]:

maximiere :: (Ord n) => (Baum n) -

maximiere (Knoten x []) = x

maximiere (Knoten x c) = maximum (map minimiere c)

data Baum a = Knoten a [Baum a]

minimiere :: (Ord n) => (Baum n) -

minimiere (Knoten x []) = x


minimiere (Knoten x []) = x

minimiere (Knoten x c) = minimum (map maximiere c)



-> n

maximiere (Knoten x c) = maximum (map minimiere c)

-> n


minimiere (Knoten x c) = minimum (map maximiere c)

Mit Hilfe der MinMax-Strategie können wir für Spiele, mit den

Unbesiegbares Programm

alternierendesZwei-Spieler-Spiel

vollständige Information


Zwei-Spieler-Spielmit Spieler X und O

... ein Programm schreiben, das unbesiegbar ist, wenn das

John Forbes Nash1994 Nobelpreis für Wirtschaftswissenschaften

Spieltheorie: Nash-Equilibrium



den folgenden Eigenschaften ...

Nullsummenspiel Geringe Komplexität


das Spiel ausgeglichen ist.

• Das Spiel Dame (checkers) gilt seit 2007 als „weakly solved“. Chinook ist nicht zu besiegen.

Suchraumkomplexität von Spielen

• Im Schach sind Maschinen den menschlichen Großmeistern seit den 1990‘ern ebenwürdig. Bestes Programm: Rybka

• Go ist die neue Drosophila melanogaster der Künstlichen Intelligenz, aktuelle Programme haben aber nur Amateur


Im Vergleich dazu: Anzahl Atome der Erde (51) und Anzahl Atome im Weltall (78)



als „weakly solved“.

Im Schach sind Maschinen den menschlichen Großmeistern Rybka

der Künstlichen Intelligenz, aktuelle Programme haben aber nur Amateur-Niveau


Im Vergleich dazu: Anzahl Atome der Erde (51) und Anzahl Atome im Weltall (78)

Angenommen ein Spiel hat einen konstanten Verzweigungsfaktor von und eine durchschnittliche Tiefe von 50 Zügen.

Was bedeutet eine hohe Komplexität?

Der entsprechende Suchbaum hätte Knoten.

Angenommen wir hätten 10.000 Computer, die jeweils eine Milliarde und man könnte die Arbeit ohne Verluste auf alle Rechner verteilen, dann beläuft sich die Rechenzeit auf ca.


Dies ist „zum Glück“ nur 1043 mal so lange wie unser Universum alt ist.

Wie kann es dann sein, dass ein Schachcomputer gegen einen menschlichen Weltmeister gewinnt?



Angenommen ein Spiel hat einen konstanten Verzweigungsfaktor von 30 (30 Aktionsmöglichkeiten pro Stellung)

Der entsprechende Suchbaum hätte Knoten.

eine Milliarde Suchschritte pro Sekunde schaffen, und man könnte die Arbeit ohne Verluste auf alle Rechner verteilen, dann beläuft sich die Rechenzeit auf ca.


mal so lange wie unser Universum alt ist.

Wie kann es dann sein, dass ein Schachcomputer gegen einen menschlichen Weltmeister gewinnt?

Die einzige Möglichkeit trotz einer hohen Komplexität einebesteht darin, die Suchtiefe zu begrenzen.

Suchtiefe begrenzen




eine vernünftige Zugauswahl zu treffen,

t fest


Es werden unterschiedliche Bewertungskriterien als Funktionengewichtet aussummiert. Das funktioniert auf Grund derNullsummenspiel handelt.

Allgemeine Bewertungsfunktion

Diese Funktionen werden unabhängig voneinander bestimmt,Weiß. Die Differenz ergibt den Funktionswert.


Weiß. Die Differenz ergibt den Funktionswert.



Funktionen beschrieben und dieseder Tatsache, da es sich um ein

bestimmt, jeweils für Schwarz und für


Aus der Schachliteratur sind viele Muster bekannt,entsprechend bewertet werden.

Bewertungsfunktion im Schach

BishopPair

Knight_Outpost

Supported_Knight_Outpost

Connected_Rooks

Opposite_Bishops

Opening_King_Advance

King_Proximity

Blocked_Knight

Draw_Value


No_Material

Bishop_XRay

Rook_Pos

Pos_Base

Pos_Queenside

Bishop_Mobility

Queen_Mobility

Knight_SMobility

Rook_SMobility

King_SMobility

Threat

Overloaded_Penalty

Q_King_Attack_Opponent

NoQ_King_attack_Opponent

NoQueen_File_Safty

Attack_Value

Unsupported_Pawn



bekannt, diese können nun lokalisiert und

Passed_Pawn_Control

Doubled_Pawn

Odd_Bishop_Pawn_Pos

King_Passed_Pawn_Supported

Passed_Pawn_Rook_Supported

Blocked_EPawn

Pawn_Advance

King_Passed_Pawn_Defence

Pawn_Defence

Bishop_SMobility

Queen_SMobility

Piece_Values

Opponents_Threat

Q_King_Attack_Computer

NoQ_King_Attack_Computer

Queen_File_Safty

Piece_Trade_Bonus

Pawn_Trade_Bonus


Mega_Weak_Pawn

Castle_Bonus

Bishop_Outpost

Supported_Bishop_Outpost

Seventh_Rank_Rooks

Early_Queen_Movement

Mid_King_Advance

Trapped_Step

Useless_Piece

Near_Draw_Value

Mating_Positions

Ending_King_Pos

Knight_Pos

Pos_Kingside

Knight_Mobility

Rook_Mobility

King_Mobility

Adjacent_Pawn

Unstoppable_Pawn

Weak_Pawn

Blocked_Pawn

Passed_Pawn_Rook_Attack

Blocked_DPawn

Pawn_Advance

Pawn_Advance2

Pawn_Pos

Isolated_Pawn

Weak_Pawn_Attack_Value

... und viele mehr!

Die MinMax-Strategie läßt sich auch mit beschränkter Tiefeproblemlos ausführen, um den besten Zug zu bestimmen.

MinMax-Strategie mit Bewertungsfunktion

-8 0

1X am ZugMaximieren


-8 0O am Zug

X am Zug

Minimieren

12 4 -8 9 0



Tiefe und einer Bewertungsfunktion.

Strategie mit Bewertungsfunktion

1


1

10 5 11 1 Bewertungsfunktion

Es gibt jedoch Situationen im Spielbaum, bei denen einzelnewerden müssen, da sie ein Maximum/Minimum am Elternknoten

Das Alpha-Beta-Pruning nutzt dies aus um unnötige Äste

MinMax-Strategie und Alpha-Beta-Pruning

Minimieren


Maximieren



einzelne Zweige nicht mehr betrachtetElternknoten nicht mehr verändern.

im Baum abzuschneiden.

Pruning


Pseudocode:

Alpha-Beta-Pruning

alpha-beta-maxKnoten(n, tiefe, αααα, ββββif (tiefe==0)

return eval(n)

für jedes Kind m of n

wert = alpha-beta-minKnoten(m, tiefe

if wert ≥≥≥≥ ββββreturn ββββ

if wert>αααααααα=wert


αααα=wertreturn αααα

alpha-beta-minKnoten(n, tiefe, αααα, ββββif (tiefe==0)

return eval(n)


wert = alpha-beta-maxKnoten(m, tiefe

if αααα ≥≥≥≥ wert

return ααααif ββββ>wert

beta=wert

return ββββ



ββββ):

minKnoten(m, tiefe-1, αααα, ββββ)

Beta-Cutoff


ββββ):

maxKnoten(m, tiefe-1, αααα, ββββ)}

Alpha-Cutoff

Pseudocode:

Alpha-Beta-Pruning

alpha-beta(n, tiefe, αααα, ββββ):if (tiefe==0)

return eval(n)


wert = -alpha-beta(m, tiefe-

if wert ≥≥≥≥ ββββreturn ββββ

if wert>αααααααα=wert


αααα=wertreturn αααα

Wir können durch vertauschen und negieren der ParameterFunktionen vertauschen.



-1, -ββββ, -αααα)


Parameter alpha und beta, beide

Alpha-Beta-Pruning

[-∞∞∞∞,

[-∞∞∞∞, ∞∞∞∞]

1

0

0

[0,


1 -1

0 5 -2

[-∞∞∞∞, ∞∞∞∞]

1

-2 < α (= 0)

αααα-Cutoff



, ∞∞∞∞]

[αααα, ββββ]

hat blau sicher hat rot sicher

Blau will maximierenRot will minimieren

, ∞∞∞∞]

5

[0, ∞∞∞∞]

1


-5 1 2

[0, ∞∞∞∞]

1

[0, 1]

2 > β (= 1)

ββββ-Cutoff

Alpha-Beta-PruningHaskell [3]:

maximiere = maximum . maximiere‘

maximiere‘ (Knoten x c) = mapmin (map minimiere‘ c)

data Baum a = Knoten a [Baum a]

minimiere = minimum . minimiere‘

minimiere‘ (Knoten x c) = mapmax (map maximiere‘ c)

mapmin, mapmax :: (Ord a) => [[a]]


mapmin, mapmax :: (Ord a) => [[a]]

mapmin (h:t) = (minimum h) : (verwerfeKleinere (minimum h) t)

mapmax (h:t) = (maximum h) : (verwerfeGroessere (maximum h) t)

verwerfeKleinere :: (Ord a) => a -

verwerfeKleinere n [] = []

verwerfeKleinere n (h:t)

| any (n > ) h = verwerfeKleinere n t

| otherwise = (minimum h) : (verwerfeKleinere (minimum h) t)

verwerfeGroessere :: (Ord a) => a

verwerfeGroessere n [] = []

verwerfeGroessere n (h:t)

| any (n < ) h = verwerfeGroessere n t

| otherwise = (maximum h) : (verwerfeGroessere (maximum h) t)



maximiere‘ (Knoten x c) = mapmin (map minimiere‘ c)

minimiere‘ (Knoten x c) = mapmax (map maximiere‘ c)

mapmin, mapmax :: (Ord a) => [[a]] -> [a]

liefert True, wenn min. ein Element die Bedingung erfüllt


mapmin, mapmax :: (Ord a) => [[a]] -> [a]

mapmin (h:t) = (minimum h) : (verwerfeKleinere (minimum h) t)

mapmax (h:t) = (maximum h) : (verwerfeGroessere (maximum h) t)

-> [[a]] -> [a]

| any (n > ) h = verwerfeKleinere n t

| otherwise = (minimum h) : (verwerfeKleinere (minimum h) t)

verwerfeGroessere :: (Ord a) => a -> [[a]] -> [a]

| any (n < ) h = verwerfeGroessere n t

| otherwise = (maximum h) : (verwerfeGroessere (maximum h) t)

Zu einer guten Suche wird eine brauchbare Stellungsrepräsentationbenötigt.

Repräsentation und Zuggenerator

-4 -2 -3 -5 -6 -3 -2 -4

-1 -1 -1 -1 -1 -1 -1 -1

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

8x8-Spielbrett Bitboards

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0


0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

1 1 1 1 1 1 1 1

4 2 3 5 6 3 2 4

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

1 1 1 1 1

0 0 0 0 0

11100

11000

64 BIT-Wort



Stellungsrepräsentation mit schnellem Zuggenerator

0 0 0

0 0 0

0 0 0

0 0 0

ToPiecesBoard


0 0 0

0 0 0

0 0 0 0

1 1 1 1

0 0 0

0 ... 00

1 ... 00

>> 1 =

Es gibt zahlreiche Möglichkeiten, die Suchtiefe von Schachprogrammendamit entsprechend spielstärker zu machen.

Optimierungen der Suche

Eröffnungsbuch undEndspieldatenbank

Transpositions-tabellen


Desweiteren kommen folgende Optimierungen zumHistorieheuristik, Ruhesuche, ...



Schachprogrammen zu erhöhen und sie

Iterative Tiefensuche

t=1

Nullmoves


t=1

t=2

t=3

t=4

Einsatz: Zugsortierungen, Hauptvarianten, Killer- und

Es gab bereits viele Matches zwischen Maschinen undein paar legendäre aufgelistet

Mensch versus Maschine

Kasparov

Kasparov

Kasparov

Kramnik

Deep Blue

Deep(er) Blue

X3D Fritz

Deep Fritz

1996

1997

2003

2006

vs

vs

vs

vs

4 –

2.5

2 –

2 –


Das aktuell stärkste Programm ist Rybka (geschätzt 3200Schach gegen dieses Programm abschneiden wird.

V. Topalov (2813) W. Anand (2788) M. Carlsen (2772)



menschlichen Weltmeistern. Hier sind

– 2

2.5 – 3.5

– 2

– 4

G. Kasparov (2851)


3200 Elo), es bleibt abzuwarten wie die Weltelite im

L. Aronian (2768) W.Kramnik (2759) P. Leko (2756)

G. Kasparov (2851)

Seit 2002 wird das Schachprogramm FUSc# an der Freienhartem Training und vielen Lines-of-Code, ist FUSc# in derSchachpartien zu bezwingen.

So spielte FUSc# im Jahr 2004 gegen FideMeister Ilja Brener

Das Schachprogramm FUSc#




Freien Universität Berlin entwickelt. Nachder Lage, auch deutsche Titelträger in

Brener Remis.

Alpha-Beta-PruningIterative SucheDiverse Pruning-TechnikenTranspositionstabellenNullmovesEröffnung- und Endspielbücher


FM Ilja Brener14 Jahre altElo: 2375

Eröffnung- und Endspielbücher...

Die Bewertungskoeffizienten lassen sich automatisch anpassendem Schachserver von Chessbase.

Nach jeder Partie analysiert das Programm die Stellen derhatte und korrigiert die entsprechenden Parameter.

Bewertungskoeffizienten trainieren

Eine untrainierte FUSc#-Version erreichte nach 120 Partien




anpassen [1]. So geschehen bei FUSc# auf

der Partie, bei denen er falsch bewertet

Koeffizienten lassen sich mit

Partien mehr als 2000 Elo-Punkte.


Koeffizienten lassen sich mit Reinforcement Learningjustieren und optimieren

Mehrspielervarianten

Um Min-Max für mehrere Spieler anwenden zu können, müssen einige vorgenommen werden:

• Für jede Ebene muss gespeichert werden, welcher Spieler an der Reihe ist

• Die Bewertungsfunktion darf nicht mehr einen Wert zurückliefern, sondern erstellen, welche die Bewertungen für alle Spieler aus ihrer Sicht enthalten


Es existieren nun jedoch mehrere Möglichkeiten die beste Alternative zu wählen.



Max für mehrere Spieler anwenden zu können, müssen einige Anpassungen

Für jede Ebene muss gespeichert werden, welcher Spieler an der Reihe ist

Die Bewertungsfunktion darf nicht mehr einen Wert zurückliefern, sondern muss einen Nutzenvektorerstellen, welche die Bewertungen für alle Spieler aus ihrer Sicht enthalten


Es existieren nun jedoch mehrere Möglichkeiten die beste Alternative zu wählen.

Mehrspielervarianten - maxN

Eine Variante wäre, wenn sich alle Spieler optimistisch verhalten und jeweils versuchen eigenen Nutzen im Nutzenvektor stets zu maximieren:




Eine Variante wäre, wenn sich alle Spieler optimistisch verhalten und jeweils versuchen ihren


Mehrspielervarianten - paranoid

Im Gegensatz zu maxN können sich die Spieler aber auch pessimistisch verhalten und Annahme treffen, dass sich alle Gegenspieler zu einer Allianz gegen sich selbst haben. Die Annahme ist, dass sich die Gegner verbünden und vorhaben den stets zu minimieren:




können sich die Spieler aber auch pessimistisch verhalten und die treffen, dass sich alle Gegenspieler zu einer Allianz gegen sich selbst geschlossen

. Die Annahme ist, dass sich die Gegner verbünden und vorhaben den eigenen Nutzen

Selber Suchbaum wie vorhin. Eingetragen ist nur der Nutzenwert vom suchenden Spieler A


Literatur- und Abbildungsquellen

Block M., Bader M., Tapia E., Ramírez M., Gunnarsson K., Cuevas E., Zaldivar D., Rojas R.:

"Using Reinforcement Learning in Chess Engines

Research in Computing Science: Special Issue in Electronics and Biomedical Engineering,

Computer Science and Informatics, ISSN:1870-4069, Vol.35, pp.31

2008

Millington I.: „Artificial Intelligence for Games“, Morgan Kaufmann, Elsevier, 2006

Baur M.: „Lazy Evaluation“, Dezember 2008

http://www.mathematik.uni-ulm.de/~m_baur/pdf/lazy/lazy.pdf

[1]

[2]

[3]


http://www.mathematik.uni-ulm.de/~m_baur/pdf/lazy/lazy.pdf

Vielen Dank für die

Aufmerksamkeit ...



E., Ramírez M., Gunnarsson K., Cuevas E., Zaldivar D., Rojas R.:

Using Reinforcement Learning in Chess Engines", CONCIBE SCIENCE 2008, In Journal

Research in Computing Science: Special Issue in Electronics and Biomedical Engineering,

4069, Vol.35, pp.31-40, Guadalajara/Mexico,

“, Morgan Kaufmann, Elsevier, 2006

ulm.de/~m_baur/pdf/lazy/lazy.pdf


ulm.de/~m_baur/pdf/lazy/lazy.pdf

Sommersemester 2009 Dr. Marco Block -Berlitz 1 · - von Spielbäumen und anderen Wäldern Vom...

Documents

Transcript of Sommersemester 2009 Dr. Marco Block -Berlitz 1 · - von Spielbäumen und anderen Wäldern Vom...