Relative Entropie

42
Relative Entropie „Spracherkennung mit zip- Programmen“ aus der Sicht des Physikstudenten Lennart Hilbert

description

Relative Entropie. „Spracherkennung mit zip-Programmen“ aus der Sicht des Physikstudenten Lennart Hilbert. Orientierung an „Language Trees and Zipping“ Benedetto, Caglioti, Loreto 2008. Vergleichsdatenbank mit Referenztexten Französisch Spanisch Englisch Tschechisch …. - PowerPoint PPT Presentation

Transcript of Relative Entropie

Page 1: Relative Entropie

Relative Entropie

„Spracherkennung mit zip-Programmen“

aus der Sicht des Physikstudenten Lennart Hilbert

Page 2: Relative Entropie

Orientierung an

„Language Trees and Zipping“Benedetto, Caglioti, Loreto 2008

Page 3: Relative Entropie

Vergleichsdatenbank mit Referenztexten

• Französisch• Spanisch• Englisch• Tschechisch• …

Textstück unbe-kannter Sprache

• Zu welchem Text besteht größte Ähnlichkeit?

Beispiel Spracherkennung

Page 4: Relative Entropie

Tabelle mit Ähnlichkeits-Werten

Probe En Probe De Probe Fr

Referenz En 0,2853 0,3689 0,3001

Referenz De 0,3585 0,2574 0,3926

Referenz Fr 0,3562 0,3737 0,3072

Page 5: Relative Entropie

Messgröße:Relative Entropie

• Maß für die Unähnlichkeit von Wahrscheinlichkeitsverteilungen

• Grundlegender Begriff der Informationstheorie

Page 6: Relative Entropie

Übersicht

0. Einleitung

• Entropie

• Codierung von Alphabeten / Relative Entropie

• Relative Entropie und .zip-Files

• Beispieluntersuchung

• Ergebnisse und Ausblick

Page 7: Relative Entropie

Entropie (1/5)

Page 8: Relative Entropie

Entropie

• Unordnung wächst• Wahrscheinlichere Zustände

treten auf• Gleichverteilung• Einfachere Strukturen• Weniger freie Energie• Weniger

InformationsübertragungGer

ing

e E

ntr

op

ie Ho

he E

ntro

pie

Page 9: Relative Entropie

Entropie-zunahme

Meine richtige Kamera fiel der Entropie zum Opfer, sorry!

www.madebymark.com

Page 10: Relative Entropie

In der Informationstheorie betrachten wir die Entropie

einer Sequenz.

Page 11: Relative Entropie

Entropie einer Sequenz

Text als wiederholte Ziehung mit Zurücklegen aus dem Alphabet,

Erklärung an der Tafel.

Page 12: Relative Entropie

Die Entropie einer Sequenz ist zweifach beschränkt.

Beide Extremfälle werden an der Tafel erklärt.

Page 13: Relative Entropie

Die Entropie ist zweifach beschränkt:

Maximale Entropie

Minimale Entropie

Page 14: Relative Entropie

Erhöhung der Entropie

40 Stützstellen

sigma = 0.0002

Entropie = 1.1976

Page 15: Relative Entropie

Erhöhung der Entropie

40 Stützstellen

sigma = 0.002

Entropie = 2.8861

Page 16: Relative Entropie

Erhöhung der Entropie

40 Stützstellen

sigma = 0.02

Entropie = 4.5438

Page 17: Relative Entropie

Informationsgehalt eines Elements

Häufigkeit der Buchstaben in einem englischen Text

Viele verknüpft Ereignisse

Geringe Shannon-Information

Wenig verknüpfte Ereignisse

Hohe Shannon-Information

Page 18: Relative Entropie

Codierung von Alphabeten /Relative Entropie (2/5)

Morse-Code für verschiedene Sprachen

Page 19: Relative Entropie

Morsecode

1 Bit 2 Bit 3 Bit 4 Bit

Bildquelle:

Wikipedia.de

Page 20: Relative Entropie

Die Anzahl der verwendeten Bits wird nach

Shannoninformation festgelegt.

Page 21: Relative Entropie

Zuteilung der Bits

Page 22: Relative Entropie

Umso ähnlicher die Häufigkeitsverteilung, desto effizienter ist die Codierung.

Page 23: Relative Entropie

Relative Entropie

• Summe gewichteter inverser Häufigkeiten

• Gibt den „Abstand“ zweier Wahrscheinlichkeitsverteilungen an

• Gutes Maß für die Anpassung einer Codierung

Page 24: Relative Entropie

Relative Entropie

Page 25: Relative Entropie

Relative Entropie

Äquivalent zu Kullback-Leibler-Distanz

Page 26: Relative Entropie

Für die Anwendung brauchen wir eine automatisierte

Methode.

Page 27: Relative Entropie

Praktischer:Chaitin-Kolmogorov-Entropie

„Die Entropie einer Sequenz ist die Länge des kürzesten Programms,

welches sie erzeugen kann.“

Page 28: Relative Entropie

Relative Entropie und .zip-Files (3/5)

Page 29: Relative Entropie

Wie komprimieren wir eine Sequenz?

• Winzip

• gzip

• Zipgenius

• bzip2

• …

Page 30: Relative Entropie

Kompression = Codierung

Ursprüngliche Sequenz:1010010101001101

Wiederkehrende Stücke:

10 1001 010 1001 101

Rückverweise: Startpunkt n, Länge l

101001 010 ( n=3, l=4)101

Page 31: Relative Entropie

Die Entropie entspricht der Länge der komprimierten

Sequenz. Das ist äquivalent zur Dateigröße!

Page 32: Relative Entropie

Feststellen der relativen Entropie Δ

Referenztext A s(A)

Referenztext B s(B)

Referenztext C s(C)

Größe der gezippten Dateien: s(X)

+ t

+ t

+ t

Probetext t

Page 33: Relative Entropie

Feststellen der relativen Entropie Δ

Referenztext A t s(A + t) Δ = s(A + t) – s(A)

Referenztext B t s(B + t) Δ = s(B + t) – s(B)

Referenztext C t s(C + t) Δ = s(C + t) – s(C)

Größe der gezippten Dateien: s(X)

Page 34: Relative Entropie

Vorteile

• Einfach zu handhaben

• Allgemein anwendbar

• Kein Vorwissen über Daten benötigt

• Verlässlich

Page 35: Relative Entropie

Beispieluntersuchung (4/5)

Page 36: Relative Entropie

Beispieluntersuchung

• Drei Referenztexte ( ca. 60 kB)

• Drei Probestücke ( 2, 3 und 4 kB)

• Deutsch, Englisch, Französisch

Page 37: Relative Entropie

Normierte relative Entropien

Probe En Probe De Probe Fr

Referenz En 0,2853 0,3689 0,3001

Referenz De 0,3585 0,2574 0,3926

Referenz Fr 0,3562 0,3737 0,3072

Page 38: Relative Entropie

Ergebnisse (5/5)Benedetto, Caglioti, Loreto 2008

• Spracherkennung: Bei 60 kB Referenztext ab 20 Zeichen sicher

• Autorenschaft Sicherheit 93,3%

Page 39: Relative Entropie
Page 40: Relative Entropie

Ausblick

• DNA-Analyse

• Aktienmärkte

• Geologische Zeitserien

• Medizinische Untersuchungen

Page 41: Relative Entropie

Danke für‘s Durchhalten!

Page 42: Relative Entropie

Quellen

• D Benedetto, E Caglioti, V Loreto, „Language Trees and Zipping“, Phys. Rev. Lett. 88, 048702 (2002)

• D J C MacKay, „Information Theory, Inference, and Learning Algorithms“, Cambridge University Press, 2003