1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

47
1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02

Transcript of 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

Page 1: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

1

Die Information Bottleneck Methode

Theoretische Informatik Seminar ENeumann Gerhard, 16.05.02

Page 2: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

2

Gliederung des Vortrags Wiederholung

grundlegenden Begriffe der Informations- und Wahrscheinlichkeitstheorie

Teil 1: Berechnung der Rate Distortion Funktion Langrange Verfahren Blahut-Arimoto Algorithmus Rate Distortion Theorie

Page 3: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

3

Gliederung des Vortrags Teil 2: Die Information Bottleneck

Methode Idee Berechnung mittels Langrange Verfahren Iterativer Algortihmus

Teil 3: Clustering Algorithmen (mit Bezug auf IB) Deterministic Annealing Agglomeratives Clustering

Page 4: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

4

Wiederholung: Wahrscheinlichkeitstheorie

Conditional Probability:

Produktregel:

Summenregel (Randverteilungen)

)()|()()|(),( xPxyPyPyxPyxP

yy

yPyxPyxPxP )()|(),()(

)(

),()|(

yP

yxPyxP

Page 5: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

5

Wiederholung: Wahrscheinlichkeitstheorie

Bayes Theorem:

Markov Kettenregel: Falls: also

Dann gilt:

x

xPxyP

xPxyP

yP

xPxyPyxP

)()|(

)()|(

)(

)()|()|(

y

zypyxpzxp )|()|()(

XYZ

)|(),|(

)|(),|(

)(),|(

YZPXYZP

XYPZXYP

XPZYXP

Page 6: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

6

Wiederholung: Informationstheorie

Informationsgehalt:

Entropie:

Conditional Entropy

p(x)xh

1log)(

n

i ii ppxhEXH

1

1log:))((:)(

YX

X Y

AAxy

Ax Ay

yxpyxp

yxpyxpypYXH

))|(

1log(),(

))|(

1log()|()()(

Page 7: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

7

Wiederholung: Informationstheorie

Joint-Entropy:

Kettenregel

Kullback-Leibler Divergenz

„Distanz“ zwischen 2 Verteilungen

Axiome:

X YAx Ay yxp

yxpYXH )),(

1log(),(),(

)()|(),( YHYXHYXH

x

KL xq

xpldxpQPD

)(

)()()(

)()(

0)(

PQDQPD

QPD

KLKL

KL

i.d.R

Page 8: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

8

Wiederholung: Informationstheorie

Mutualinformation: Wichtiger Zusamenhang

Andere Axiome

)|()();( YXHXHYXI

0);();( XYIYXI

)|()|(),();( XYHYXHYXHYXI

))(*)(),((),( ypxpyxpDYXI KL

Page 9: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

9

Teil 1: Rate Distortion Theorie Grundaussage:

... Kodeword ... Zuordnungswahrscheinlichkeit D ... Maximal gewünschte Distortion ... Distortionfunktion (Fehler von ) ... Erwartete Distortion:

Relevanze der Daten durch Distortion gegeben)ˆ,()|ˆ()()ˆ,(

ˆ

xxdxxpxpxxdx x

)ˆ;(min)()ˆ,(:)|ˆ(

XXIDRDxxdxxp

)|ˆ( xxpx̂

x̂)ˆ,( xxd)ˆ,( xxd

Page 10: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

10

Rate Distortion Theorie Berechnung der Rate

Distortionfunktion Minimierungsaufgabe über :

Unter der Nebenbedingung:

=> Langrange Verfahren

)|ˆ( xxp

)ˆ;(min)()|ˆ(

XXIDRxxp

Dxxdxxpxpx x

)ˆ,()|ˆ()(ˆ

Page 11: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

11

Wiederholung: Lagrange Verfahren

Definition (mit Gleichungsrestriktionen) Optimiere Unter den Nebenbedingungen

=>Menge der zulässigen Vektoren

Schnittpunkte aller durch die Nebenbedingungen gegebenen Kurven

),...,( 1 nxxf

mnmn cxxhcxxh ),...,(,...,),...,( 1111

})(,...,)(|{ 11 mmh cxhcxhxC

Page 12: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

12

Geometrische Betrachtung

Im 2-dimensionalen Fall mit 1 Nebenbedingung

h(x,y) = c

Höhenlinien von f(x,y)

Maximum : Kurve h wird von Höhenlinie tangiert

Kein Max.

f

Page 13: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

13

Langrange Verfahren Erkenntnisse aus geometrischer Betrachtung:

Gradient der Funktion und der Kurve h(x,y) = c müssen in die gleiche (bzw. entgegengesetzte) Richtung zeigen. =>

Resultierender Langrange Ansatz

Optimierbar mittels Nullsetzen des Gradienten

)()( xhxf

cxxhxxfxxL ),(),(),,( 212121

0),(),( 211

2111

xxx

hxx

x

f

x

L

0),(),( 212

2122

xxx

hxx

x

f

x

L

0),( 21

cxxhL

Page 14: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

14

Langrange Verfahren (Gleichungsrestriktionen)

Verallgemeinerung für den n-dimensionalen fall mit m Nebenbedingungen Ansatz:

Gleichungen:

Vorteil: Einfache Optimierung (grad(L)=0) Nachteil: Einführen von m ( ) neuen Unbekannten

m

iíii cxhxfxL

1

])([)(),(

0),(

,...,0),(

1

nx

xL

x

xL

0),(

,...,0),(

1

n

xLxL

m ...1

Page 15: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

15

Lagrange Verfahren mit Ungleichungen

Definition (mit Ungleichungsrestriktionen) Optimiere

Unter den Nebenbedingungen Bei Maximierung:

Bei Minimierung

),...,( 1 nxxf

nnnn bxxgbxxg ),...,(,...,),...,( 1111

knkn bxxgbxxg ),...,(,...,),...,( 1111

Page 16: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

16

Geometrische Betrachtung Im 2-dimensionalen Fall mit 1

NebenbedingungHöhenlinien von f(x,y)

g(x,y) < bMaximierungsbereich

g(x,y) > b

Minimierungsbereich

Richtung von Gradient von f wichtig:

Bei Maximierung aus der Menge heraus,bei Minimierung in die Menge hinein.

=>Langrange Multiplikator immer positiv!!

Page 17: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

17

Langrange Verfahren (Ungleichungsrestriktionen)

Verallgemeinerung für den n-dimensionalen fall mit k Nebenbedingungen Ansatz:

Gleichungen:

Zusätzliche Einschränkungen

k

iíii bxgxfxL

1

])([)(),(

0),(

,...,0),(

1

nx

xL

x

xL

0)(,...,0)( 11 kk bxgbxg

0,...,01 k

kk bxgbxg )(,...,)( 11

bzw.kk bxgbxg )(,...,)( 11

Page 18: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

18

Minimierung der Rate Distortion Funktion Minimierung bezüglich Nebenbedingung:

Vereinfachter Langrangeansatz)ˆ,()ˆ;()),|ˆ(( xxdXXIxxpL

)|ˆ( xxp

Dxxdxxpxpx x

)ˆ,()|ˆ()(ˆ

Page 19: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

19

Minimierung der Rate Distortion Funktion 2. Nebenbedingung

Einsetzen der Definitionen

xxxpx

1)|ˆ(ˆ

)ˆ(

)|ˆ()|ˆ()())(,),|ˆ((

ˆ xp

xxpldxxpxpxxxpL

x x

)ˆ,()|ˆ()(ˆ

xxdxxpxpx x

x x

xxpxˆ

)|ˆ()(

Mutual Information

Distortion

Normierungsterm

Page 20: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

20

Ableitung bezüglich einer Wahrscheinlichkeitsverteilung Nullsetzen des Gradienten:

Ableitung bezüglich

Betrachtung von als normale Variable (nur für ein bzw. x)

Einsetzen von bekannten Formeln der Wahrscheinlichkeitstheorie um auf die Form zu kommen

0)|ˆ(

))(,),|ˆ((

xxp

xxxpL

)|ˆ( xxp

???)|ˆ(

))(,),|ˆ((

xxp

xxxpL

)|ˆ( xxpx̂

)|ˆ( xxp

Page 21: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

21

Lösung der Langrange Funktion: konsistente Gleichungen

Probleme: Lösung nur für ein , optimales nicht

bekannt. Langrange Multiplikator für eine bestimmte

Distortion D unbekannt.

)ˆ(xp )ˆ(xp

),(

)ˆ(

)'ˆ(

)ˆ()|ˆ(

)ˆ,(

)'ˆ,(

)ˆ,(

xZ

exp

exp

expxxp

xxd

x

xxd

xxd

lungRandverteixxpxpxpx

...)|ˆ()()ˆ(

Page 22: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

22

p*(x) unbekannt: Lösung 1

Mit p(x) Multiplizieren und über alle x aufsummieren.

=>

Für jedes Codewort x eine Gleichung, wenn dann SEHR schwierig lösbar.

^

)'ˆ,(

)ˆ,(

)'ˆ()()ˆ()|ˆ()(

x

xxd

xxd

xx exp

expxpxxpxp

)'ˆ,(

)ˆ,(

)'ˆ()(1

x

xxd

xxd

x exp

exp

^

Page 23: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

23

p*(x) unbekannt, 2. Lösung

Algorithmus in der Geometrie Abwechselndes Minimieren eines Abstandes

mittels 2 Variablen, die sich in convexen Mengen befinden.

^

AB

Page 24: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

24

Blahut-Arimoto Algorithmus Benötigt werden:

2 Variablen, welche Abstand minimieren: Abstandsmaß:

Minimierung bezüglich => Langrangeverfahren

Minimierung bezüglich =>Minimiert Randverteilung I ??

Convexe Mengen von Wahrscheinlichkeitsverteilungen

)|ˆ(),ˆ( xxpxp

))ˆ(*)()|ˆ(*)(( xpxpxxpxpDKL

)|ˆ( xxp

)ˆ(xp

Page 25: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

25

Convexe Mengen von Verteilungen

Definition von convexen Mengen:

Bei Wahrscheinlichkeitsverteilungen: Für jedes Erreignis xi wird ein Intervall von

Wahrscheinlichkeiten festgelegt

XyxXyx )1(:,

Page 26: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

26

Minimierung bezüglich p(x) ^

Wird minimiert wenn ... Randverteilung

))ˆ(*)()|ˆ(*)(( xqxpxxpxpDKL

)ˆ()|ˆ()()ˆ( xpxxpxpxqx

Page 27: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

27

Blahut Arimoto: Iterative Gleichungen

Abwechselnde Optimierung über und

Iterative Gleichungen

Konvergiert zum globalen Minimum Keine Regel für die Codewords bzw.

)ˆ(xp )|ˆ( xxp

)ˆ,()ˆ,(minmin)|ˆ()ˆ(

xxdXXIxxpxp

)|ˆ()()ˆ(1 xxpxpxp tx

t

))ˆ,(exp(),(

)ˆ()|ˆ( xxd

xZ

xpxxp

t

tt

x̂ |ˆ| X

Page 28: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

28

Bedeutung des Langrange Multiplikators

Nicht (oder nur schwer) berechenbar für eine gewünschte Distortion

Bestimmt Steigung der R(D) Kurve:

Durch Variieren von kann die R(D) Kurve bei genügend grossen durchlaufen werden Besondere Werte:

: Codealphabet kollabiert zu einzigen Codeword

: ,Distortion geht gegen 0

D

RxxdXXI

0)ˆ,()ˆ,(

0 X̂

|||ˆ| XX

|ˆ| X

Page 29: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

29

Bedeutung des Lagrange Mutliplikators

SoftMax Verfahren

Bei Erhöhung von Beta werden mit kleiner Distortion bevorzugt.

Durchlaufen der R(D) Kurve

),(

)ˆ()|ˆ(

)ˆ,(

xZ

expxxp

xxd

Page 30: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

30

Zusammenfassung: Rate Distortion Theorie Liefert Optimale Rate für gegebene

Distortion Distortion Funktion FREI wählbar Blahut-Arimoto Algorithmus:

Durchlaufen der R(D) Funktion mittels des Lagrange Multiplikators.

Relevanz der Information wird nur über die Distortion spezifiziert

Page 31: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

31

Teil 2 :Die Information Bottleneck Methode Idee: Komprimierung mit Bezug auf

Relevanz der Daten Relevanz gegeben durch eine andere

Variable Zusätzlich gegebene Verteilung:

Ziel: Komprimiere X und erhalte dabei die

meiste Information von Y minimieren

maximieren

),( YXP

)ˆ;( XXI

);ˆ( YXI

Page 32: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

32

Langrange Ansatz der I.B.M.

Geometrische Betrachtung: Minimierung von f(x,y) und Maximierung von g(x,y):

Beobachtung :

=> gleicher Langrange Ansatz

{x*}

grad(g)-grad(f)

gf

Page 33: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

33

Langrange Ansatz der I.B.M. Vereinfachte Langrange Funktion:

Bedeutung von beta: Tradeoff zwischen Kompression und

Erhaltung der relevanten Daten

siehe Rate Distortion Theory

);ˆ()ˆ;()),|ˆ(( YXIXXIxxpL

Page 34: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

34

Lösung der Langrange Funktion

Formale Lösung

),(

))ˆ|()|(

log)|(exp()ˆ(

)|ˆ(

xZ

xypxyp

xypxp

xxpy

lungRandverteixxpxpxpx

...)|ˆ()()ˆ(

x

x

emBayesTheorxpxxpxypxp

XXYeMarkovkettxxpxypxyp

)...()|ˆ()|()ˆ(

1

ˆ...)ˆ|()|()ˆ(

Page 35: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

35

Vergleich zu Rate Distortion Theorie

Lösung der Rate Distortion Theory

Lösung der Information Bottleneck Method

=>

),(

)ˆ()|ˆ(

)ˆ,(

xZ

expxxp

xxd

),(

)ˆ()|ˆ(

)ˆ|(

)|(log)|(

xZ

expxxp

y xyp

xypxyp

y xyp

xypxypxxd

)ˆ|(

)|(log)|()ˆ,(

Page 36: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

36

Bedeutung der Distortionfunktion

Der begangene Fehler ist der „Abstand“ zwischen den Verteilungen p(y|x) und p(y|x)

)ˆ|(||)|(

)ˆ|(

)|(log)|()ˆ,(

xypxypD

xyp

xypxypxxd

KL

y

^

Page 37: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

37

Der Iterative IB Algorithmus

Die Minimierung wird Unabhängig über die Convexen Mengen von Verteilungen durchgeführt ( , und ), ein allgemeiner BA Algorithmus.

)}ˆ({ xp )}|ˆ({ xxp)}ˆ|({ xyp

)ˆ(xp )|ˆ( xxp

)ˆ|( xyp

Page 38: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

38

Der Iterative IB Algorithmus

Minimierung bei Iterationsschritt t

xtt

tx

t

KLt

tt

xxpxypxyp

xxpxpxp

xypxypDxZ

xpxxp

)ˆ|()|()ˆ(

)|ˆ()()ˆ(

))ˆ|(||)|(exp(),(

)ˆ()ˆ(

1

1

))ˆ|(||)|(()ˆ;(min)|ˆ(),ˆ(),ˆ|(

xypxypDXXI KLxxpxpxyp

Page 39: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

39

Die Informationsebene Das optimale für ein gegebenes

ist eine konkave Funktion),ˆ( YXI

),ˆ( XXI

Possible phase

impossible

),(

),ˆ(

YXI

YXI

)(/),ˆ( XHXXI

1

)ˆ,(

)ˆ,(

XXI

XYI

Page 40: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

40

Zusammenfassung: Information Bottleneck Methode

Relevanz durch eine zusätzliche Variable

Distortionfunktion:

Iteratver Algorithmus zur Berechnung der optimalen Codeword-zuordnung

)ˆ|(||)|( xypxypDKL

Page 41: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

41

Teil 3: Clustering Algorithmen Agglomeratives Clustering

Beginne mit Verschmelze bei jedem Schritt 2 Cluster,

deren Verschmelzung den grössten Verlust der Rate und den kleinsten Zuwachs der Distortion ergibt

Zuordnungwahrscheinlichkeit für Cluster = 1 (hard clustering)

=>nächster Vortrag

XX ˆ

),(

)ˆ()|ˆ(

)ˆ,(

xZ

expxxp

xxd

Page 42: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

42

Clustering Algorithmen Deterministic Annealing

Ansatz: Minimierung der Distortion unter gegebener Unsicherheit T...symbolisiert Temperatur Ableiten nach und Liefert ebenfalls Regel für Adaption der

z.B. für Lage der Codevectoren bei der Squared Error Distortion

)ˆ,()ˆ,( XXHTxxdF

)|ˆ( xxp x̂x̂

Page 43: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

43

Deterministic Annealing: Ableitungen

Ableitung nach

Ableitung nach

Für z.B Squared Error Distortion

)|ˆ( xxp

TTxZTxxd

xpxxp

1

),(

))ˆ,(

exp()ˆ()|ˆ(

lungRandverteixxpxpxpx

...)|ˆ()()ˆ(

ix̂0)ˆ,(

ˆ)|ˆ()( i

x ii xxd

xxxpxp

)ˆ(

)|ˆ()(

ˆi

xi

i xp

xxpxpx

x

Page 44: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

44

Deterministic Annealing: Phasenübergänge

Phasenübergange (Clusterteilung) für bestimmte Cluster Keine Minimierung der Distortion für diesen Cluster

mehr möglich Teile Cluster:

2 Möglichkeiten zur Berechnung Temperatur für jeden Cluster berechenbar

(rechenaufwendig) Für jeden Cluster kann ein zweiter Cluster angelegt

werden, falls diese bei abnehmender Temperatur auseinandergehen, dann Phasenübergang

2/)ˆ()ˆ(,2/)ˆ()ˆ(

ˆˆ

altaltaltneu

altneu

xpxpxpxp

xx

Page 45: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

45

Deterministic Annealing 1) Beginne mit

Nur ein Cluster (bzw. Wahrscheinlichkeit für jeden Cluster gleich)

2)Update für Update Update (für alle x) Bis Konvergenz erreicht (BA-Algorithmus)

3)Abkühlung 4)Überprüfe für jeden Cluster Phasenübergang

Falls Übergang, Teile Cluster 5) Gehe zu 3. Kann jederzeit abgebrochen werden (soft clustering)

T

)1(, TT

ix̂ki ...1

)|ˆ( xxp i

Page 46: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

46

Deterministic Annealing: Beispiel (squared error distortion)

Page 47: 1 Die Information Bottleneck Methode Theoretische Informatik Seminar E Neumann Gerhard, 16.05.02.

47

Deterministic Annealing: Weitere Anwendungsmöglichkeiten

Noisy Channel Coding Entropy Constrained Coding Structural Constrained Coding Supervised Learning Berechnung der R(D) Funktion