Relative Entropie

Post on 04-Jan-2016

35 views 2 download

description

Relative Entropie. „Spracherkennung mit zip-Programmen“ aus der Sicht des Physikstudenten Lennart Hilbert. Orientierung an „Language Trees and Zipping“ Benedetto, Caglioti, Loreto 2008. Vergleichsdatenbank mit Referenztexten Französisch Spanisch Englisch Tschechisch …. - PowerPoint PPT Presentation

Transcript of Relative Entropie

Relative Entropie

„Spracherkennung mit zip-Programmen“

aus der Sicht des Physikstudenten Lennart Hilbert

Orientierung an

„Language Trees and Zipping“Benedetto, Caglioti, Loreto 2008

Vergleichsdatenbank mit Referenztexten

• Französisch• Spanisch• Englisch• Tschechisch• …

Textstück unbe-kannter Sprache

• Zu welchem Text besteht größte Ähnlichkeit?

Beispiel Spracherkennung

Tabelle mit Ähnlichkeits-Werten

Probe En Probe De Probe Fr

Referenz En 0,2853 0,3689 0,3001

Referenz De 0,3585 0,2574 0,3926

Referenz Fr 0,3562 0,3737 0,3072

Messgröße:Relative Entropie

• Maß für die Unähnlichkeit von Wahrscheinlichkeitsverteilungen

• Grundlegender Begriff der Informationstheorie

Übersicht

0. Einleitung

• Entropie

• Codierung von Alphabeten / Relative Entropie

• Relative Entropie und .zip-Files

• Beispieluntersuchung

• Ergebnisse und Ausblick

Entropie (1/5)

Entropie

• Unordnung wächst• Wahrscheinlichere Zustände

treten auf• Gleichverteilung• Einfachere Strukturen• Weniger freie Energie• Weniger

InformationsübertragungGer

ing

e E

ntr

op

ie Ho

he E

ntro

pie

Entropie-zunahme

Meine richtige Kamera fiel der Entropie zum Opfer, sorry!

www.madebymark.com

In der Informationstheorie betrachten wir die Entropie

einer Sequenz.

Entropie einer Sequenz

Text als wiederholte Ziehung mit Zurücklegen aus dem Alphabet,

Erklärung an der Tafel.

Die Entropie einer Sequenz ist zweifach beschränkt.

Beide Extremfälle werden an der Tafel erklärt.

Die Entropie ist zweifach beschränkt:

Maximale Entropie

Minimale Entropie

Erhöhung der Entropie

40 Stützstellen

sigma = 0.0002

Entropie = 1.1976

Erhöhung der Entropie

40 Stützstellen

sigma = 0.002

Entropie = 2.8861

Erhöhung der Entropie

40 Stützstellen

sigma = 0.02

Entropie = 4.5438

Informationsgehalt eines Elements

Häufigkeit der Buchstaben in einem englischen Text

Viele verknüpft Ereignisse

Geringe Shannon-Information

Wenig verknüpfte Ereignisse

Hohe Shannon-Information

Codierung von Alphabeten /Relative Entropie (2/5)

Morse-Code für verschiedene Sprachen

Morsecode

1 Bit 2 Bit 3 Bit 4 Bit

Bildquelle:

Wikipedia.de

Die Anzahl der verwendeten Bits wird nach

Shannoninformation festgelegt.

Zuteilung der Bits

Umso ähnlicher die Häufigkeitsverteilung, desto effizienter ist die Codierung.

Relative Entropie

• Summe gewichteter inverser Häufigkeiten

• Gibt den „Abstand“ zweier Wahrscheinlichkeitsverteilungen an

• Gutes Maß für die Anpassung einer Codierung

Relative Entropie

Relative Entropie

Äquivalent zu Kullback-Leibler-Distanz

Für die Anwendung brauchen wir eine automatisierte

Methode.

Praktischer:Chaitin-Kolmogorov-Entropie

„Die Entropie einer Sequenz ist die Länge des kürzesten Programms,

welches sie erzeugen kann.“

Relative Entropie und .zip-Files (3/5)

Wie komprimieren wir eine Sequenz?

• Winzip

• gzip

• Zipgenius

• bzip2

• …

Kompression = Codierung

Ursprüngliche Sequenz:1010010101001101

Wiederkehrende Stücke:

10 1001 010 1001 101

Rückverweise: Startpunkt n, Länge l

101001 010 ( n=3, l=4)101

Die Entropie entspricht der Länge der komprimierten

Sequenz. Das ist äquivalent zur Dateigröße!

Feststellen der relativen Entropie Δ

Referenztext A s(A)

Referenztext B s(B)

Referenztext C s(C)

Größe der gezippten Dateien: s(X)

+ t

+ t

+ t

Probetext t

Feststellen der relativen Entropie Δ

Referenztext A t s(A + t) Δ = s(A + t) – s(A)

Referenztext B t s(B + t) Δ = s(B + t) – s(B)

Referenztext C t s(C + t) Δ = s(C + t) – s(C)

Größe der gezippten Dateien: s(X)

Vorteile

• Einfach zu handhaben

• Allgemein anwendbar

• Kein Vorwissen über Daten benötigt

• Verlässlich

Beispieluntersuchung (4/5)

Beispieluntersuchung

• Drei Referenztexte ( ca. 60 kB)

• Drei Probestücke ( 2, 3 und 4 kB)

• Deutsch, Englisch, Französisch

Normierte relative Entropien

Probe En Probe De Probe Fr

Referenz En 0,2853 0,3689 0,3001

Referenz De 0,3585 0,2574 0,3926

Referenz Fr 0,3562 0,3737 0,3072

Ergebnisse (5/5)Benedetto, Caglioti, Loreto 2008

• Spracherkennung: Bei 60 kB Referenztext ab 20 Zeichen sicher

• Autorenschaft Sicherheit 93,3%

Ausblick

• DNA-Analyse

• Aktienmärkte

• Geologische Zeitserien

• Medizinische Untersuchungen

Danke für‘s Durchhalten!

Quellen

• D Benedetto, E Caglioti, V Loreto, „Language Trees and Zipping“, Phys. Rev. Lett. 88, 048702 (2002)

• D J C MacKay, „Information Theory, Inference, and Learning Algorithms“, Cambridge University Press, 2003