Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur...

40
Script zur Vorlesung Kompression multimedialer Daten Institut f¨ ur Informatik der Christian-Albrechts-Universit¨ at zu Kiel Arbeitsgruppe Multimediale Informationsverarbeitung Prof. Dr.–Ing. Reinhard Koch Sommersemester 2006 c Prof. Dr.–Ing. Reinhard Koch 2000-2006 Institut f¨ ur Informatik der Christian-Albrechts-Universit¨ at zu Kiel

Transcript of Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur...

Page 1: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

Script zur Vorlesung

Kompression multimedialer Daten

Institut fur Informatik

der Christian-Albrechts-Universitat zu Kiel

Arbeitsgruppe Multimediale Informationsverarbeitung

Prof. Dr.–Ing. Reinhard Koch

Sommersemester 2006

c© Prof. Dr.–Ing. Reinhard Koch 2000-2006Institut fur Informatik der Christian-Albrechts-Universitat zu Kiel

Page 2: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

ii

Page 3: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

iii

Vorwort

Das vorliegende Vorlesungsskript Kompression multimedialer Daten wurde als Begleitmaterialzur gleichnamigen Vorlesung erstellt. Es dient als Gedankenhilfe, muss allerdings durch eigeneNotizen erganzt werden. Das Skript wird durch Folien sowie durch das Skript “Signalverarbei-tung” zum gleichnamigen Kapitel 5 erganzt.

Uber den Stoff des Grundstudiums hinausgehende Vorkenntnisse und weiterfuhrende Litera-tur sind zum Verstandnis nicht erforderlich. Teile der Vorlesungsinhalte finden sich in folgendenBuchern:

J.R. Ohm: Multimedia Communication Technology - Representation, Transmission and Identi-fication of Multimedia Signals. Springer-Verlag, 2004.ISBN 3-540-01249-4

W. Effelsberg, R. Steinmetz: Video Compression Techniques. dpunkt-Verlag 1998.ISBN 3-920993-13-6

R. Steinmetz: Multimedia-Technologie - Grundlagen, Komponenten und Systeme. 2. Auflage,Springer-Verlag 1999.ISBN 3-540-62060-5

H.D. Luke: Signalubertragung, Springer-Verlag, 1995.

A.V. Oppenheim, R.W. Schafer: Zeitdiskrete Signalverarbeitung, Oldenbourg Verlag, 3. Auflage1999.ISBN 3-486-24145-1

Page 4: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

iv

Page 5: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

Inhaltsverzeichnis

1 Multimediale Informationsverarbeitung 1

1.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 Was ist Multimediale Informationsverarbeitung? . . . . . . . . . . . . . . 1

1.1.2 Komponenten multimedialer informationsverarbeitender Systeme: . . . . 2

2 Reprasentation und Codierung von Daten 5

2.1 Verlustfreie Kompressionsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Zeichenersetzung (Pattern Substitution) . . . . . . . . . . . . . . . . . . . . . . . 5

2.3 Entropie-Codes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3.1 Entscheidungsgehalt H . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3.2 Huffman-Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3.3 Arithmetische Codierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4 Dynamische Codebuch-Kodierung(LZ77) . . . . . . . . . . . . . . . . . . . . . . . 12

3 Schall und psychoakustische Wahrnehmung 15

3.1 Physikalische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1.1 Schall und Wellenausbreitung . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1.2 Reflektionen, Hall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 Physiologisches Modell des Gehors . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.2.1 Peripheres Gehor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.2.2 Zentrales Gehor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.3 Psychoakustische Gehorwahrnehmung . . . . . . . . . . . . . . . . . . . . . . . . 20

3.3.1 Horschwellen und Lautheit . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.3.2 Mithorschwelle und Maskierung . . . . . . . . . . . . . . . . . . . . . . . . 22

v

Page 6: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

vi INHALTSVERZEICHNIS

4 Licht und Psychooptische Wahrnehmung 25

4.1 Licht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1.1 Eigenschaften der elektromagnetischen Wellen . . . . . . . . . . . . . . . . 25

4.2 Das physiologische Modell des Sehsystems . . . . . . . . . . . . . . . . . . . . . . 27

4.2.1 Das periphere Auge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.2.2 Die Retina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.2.3 Der Sehnerv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.3 Psychooptisches Wahrnehmungsmodell . . . . . . . . . . . . . . . . . . . . . . . . 29

4.3.1 Photometrische Großen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.3.2 Wahrnehmungsschwellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.3.2.1 Kontrast - Empfindlichkeit . . . . . . . . . . . . . . . . . . . . . 31

4.3.2.2 Raumliche Kontrastubertragung . . . . . . . . . . . . . . . . . . 31

4.3.2.3 Raumzeitliche Ubertragungsfunktion . . . . . . . . . . . . . . . . 31

4.3.2.4 Machbander und Kontrastverstarkung . . . . . . . . . . . . . . . 31

4.3.3 Farbwahrnehmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.3.3.1 Farbe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.3.3.2 Tristimulus-Experiment . . . . . . . . . . . . . . . . . . . . . . . 32

4.3.3.3 Farbmischung aus Primarfarben . . . . . . . . . . . . . . . . . . 34

4.3.3.4 Spektralkomponenten . . . . . . . . . . . . . . . . . . . . . . . . 34

4.3.3.5 Farbempfinden/Farbahnlichkeit . . . . . . . . . . . . . . . . . . 34

Page 7: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

Kapitel 1

MultimedialeInformationsverarbeitung

1.1 Einleitung

1.1.1 Was ist Multimediale Informationsverarbeitung?

m1 m2sprachlich genauer:Verarbeitung multimedialer Informationen

1. Multimediale Information?

• Information, die auf mehreren unterschiedlichen Medien transportiert wird

• Medien: Vermittler, die Information an die verschiedenen menschlichen Wahrneh-mungsorgane ubermitteln

hier nur betrachtet

{Wahrnehmungssinn Medium

- Gehorsinn Schallwellen- Gesichtssinn Lichtwellen- Tastsinn (haptisch) Kraft- Geruchssinn (olfaktorisch) Partikel- Geschmackssinn Partikel, chemisch- Gleichgewichtssinn Kraftfeld

• menschliche Wahrnehmung der Information:

(a) Transfer von Information auf dem physikalischen Medium (z. B. Schallwellen)

– gehorcht physikalischen Gesetzen

1

Page 8: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

2 KAPITEL 1. MULTIMEDIALE INFORMATIONSVERARBEITUNG

– ist objektiv messbar (z. B. Schalldruck, Schwingungszahl)

– beschreibbar als Signal, welches auf einen Sensor (z. B. Trommelfell undInnenohr) trifft

(b) Wahrnehmung des Signals durch den Menschen

– physikalische Begrenzungen des Sensors (z. B. Frequenzgang, Sensordichte)

– Signalverarbeitungsverhalten des Nervensystems (lokale Verarbeitung, Verkopp-lung der Nerven mit Sinneszellen)

– kognitive Wahrnehmungseffekte des Gehirns

• Wahrnehmung ist nur subjektiv messbar (z. B. Lautheit)

• Wahrnehmung ist in hohem Maße nichtlinear und adaptiv (Licht/Schalladaption)

• nicht alle physikalischen Signale werden bewusst wahrgenommen (Irrelevanzim Signal vorhanden)

2. Informationsverarbeitung

• allgemein: (technische) Systeme zur Verarbeitung von (multimedialer) Information

• speziell: Systeme, die physikalische Signale von den Medien (z. B. Schall, Licht) auf-nehmen, die von den Signalen mitgefuhrte Information

extrahieren, transformieren, speichern︸ ︷︷ ︸(d.h. fur menschliche Wahrnehmung geeignet verarbeiten)

und dann wieder fur die menschlichen Sinne geeignet ausgeben.

1.1.2 Komponenten multimedialer informationsverarbeitender Systeme:

• Signalwandlung (Mikros, Lautsprecher, Kameras, Monitore)

– Wandlung der physikalischen Signale in geeignete diskrete Signale (Abtastung)

– Wandlung der diskreten Signale in physikalische Signale (Rekonstruktion)

• Signalreprasentation und Speicherung

– interne Abstraktion der Signale zu Daten

– Codierung, Speicherung und Transfer der Daten

• Informationsverarbeitung

– Umformung und Transformation der Daten mit dem Ziel, die inharente Informationzu extrahieren (zielgerichtet mit bestimmten Gutekriterien, z. B. die Reduktion derRedundanz, oder Elimination der Irrelevanz)

– Gutekriterien sind zumeist auf die Wahrnehmungseigenschaften der Menschen ange-passt

– Kompromisse zwischen technischen Erfordernissen (z. B. Bandbreite, Speicherplatz)und subjektiven Qualitatsanforderungen mussen gelost werden.

Die speziellen Anforderungen an die Informationsverarbeitung multimedialer Daten sindGegenstand dieser Vorlesung. Die Verarbeitung multimedialer Daten muss immer unterBezug auf das Ziel, namlich eine Interaktion mit oder zumindest die wahrnehmende Be-obachtung durch den Menschen, gesehen werden. Die folgenden Themenbereiche werdenin der Vorlesung besprochen:

Page 9: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

1.1. EINLEITUNG 3

1. Einleitung

2. Representation und Codierung von Daten

3. Schall und psychoakutische Wahrnehmung

4. Licht und psychooptische Wahrnehmung

5. Grundlagen der digitalen Signalverarbeitung

6. Signalverarbeitung fur audiovisuelle Datenkompressionverfahren

Page 10: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

4 KAPITEL 1. MULTIMEDIALE INFORMATIONSVERARBEITUNG

Page 11: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

Kapitel 2

Reprasentation und Codierung vonDaten

• Verfahren zur Verdichtung von digitalen Daten durch:

– Reduktion der Redundanz durch Ausnutzung statistischer Eigenschaften der Quelle(Entropiecodes)

– Nutzung der Korrelation der Daten (Pradikation)

– Nutzung der Wahrnehmungseigenschaften der Sinke (des Beobachters) zur Reduktionvon Irrelevanz

2.1 Verlustfreie Kompressionsverfahren

Ziel: moglichst kompakte Reprasentation von Informationen ohne Informationsverlust

• Weg: Nutzen der statistischen Quelleneigenschaften

– Reduktion der Redundanz der Reprasentation ⇒ Umcodierung der Reprasentationauf kompaktere Darstellung.

2.2 Zeichenersetzung (Pattern Substitution)

• Untersuche Nachricht auf wiederholte Zeichenketten

• Ersetze die Zeichenketten durch Abkurzungen

• Trage Abkurzungen und Zeichenketten in Codebuch ein Problem: Kenntnis des Codebu-ches notwendig (oder es muß ubertragen werden)Einfachste Zeichenketten: wiederholt dasselbe Zeichen ⇒ Kennzeichnung der Wiederho-lung durch Trennsymbol und Anzahl ⇒ Runlength-Code (Lauflangencode)

• gut geeignet bei kleinem Alphabet, z. B. bei Binarbildern (S/W, FAX)

– Kenntnis der Transition s → w, w → s

– nur Lange der Segmente wird ubertragen ⇒ Grundgedanke der Fax-Ubertragung(IBIG, Fax)Statistische Annahme: Transitionen sind selten (lange gleiche Symbolketten s,w)

5

Page 12: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

6 KAPITEL 2. REPRASENTATION UND CODIERUNG VON DATEN

2.3 Entropie-Codes

• Nutzen der Kenntnis der statistischen Eigenschaften der Quelle

• jedes Symbol tritt mit (unterschiedlicher) relativer Haufigkeit in der Nachricht auf ⇒Morse-Code, basiert auf Haufigkeitsverteilung der Buchstaben in englischer Sprache Bei-spiel: A B R A C A D A B R A A = 5, B = 2, R = 2, C = 1, D = 1⇒ Verteilung aus der Nachricht gelernt (gilt nur fur die Nachricht selbst)

2.3.1 Entscheidungsgehalt H

allgemein gilt: Sj sei Zeichen des Alphabets {S1, S2, · · · , SN} mit einer Auftretungswahrschein-

lichkeit von pj,∑N

j=1 pj = 1

Wenn alle Zeichen des Alphabets gleich wahrscheinlich sind, hat ein Zeichen pj = 1N Auftretens-

wahrscheinlichkeit.Die N Zeichen lassen sich mit N = 2K Zustanden in einen k-bit Binarwortcodieren, wobei alle Zeichen gleichwahrscheinlich sind.K = ld N Werte sind zur Darstellung notig.

K = ld 1pj

(maximal), Kj = pjld(

1pj

)ist der relative Anteil an Information, die ein Zeichen

beitragt.

Definition: Entropie

H =∑N

i=1 pjld(

1pj

)= −∑N

j=1 pjldpj[Bit]

ist der mittlere Entscheidungsgehalt je Zeichen

k: Entscheidungsaufwand pro ZeichenH: mittlerer gewichteter Entscheidungsaufwand pro ZeichenBeispiel:N = 2

• Quellen mit gleichwahrscheinlichen Zeichen haben einen maximalen Entscheidungsaufwand(Entropie H = 1bit)

• Symbole mit p = 1 bedeuten: dieses Symbol kommt sicher, alle anderen nie⇒ Entscheidung enthalt keine Information, Entscheidungsgehalt H = 0.

• Wenn einige Symbole mehr oder weniger haufig vorkommen ⇒ zugewiesene Bitzahl ent-sprechend der Auftretenshaufigkeit vergeben!

2.3.2 Huffman-Code

• Aufbau von Codes mit unterschiedlichen Auftretungswahrscheinlichkeiten der Zeichen Sj :

• Zuordnung der Codes zu den Zeichen

1. Sortiere Sj entsprechend

p(min)(S1) ≤ p(S2) ≤ · · · ≤ p(max)(SN )

2. Weise Codewerte zu: (willkurlich, nur nach min. Wortlange):

Page 13: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

2.3. ENTROPIE-CODES 7

S1 →, 0 S2 →, 1 S3 →, 01 S4 →, 10 S5 →, 11⇒ Code 2: A = 0, B = 1, R = 01, C = 10, D = 11 Problem: Codeworte sind unterschied-lich lang ⇒ Trennsymbole notwendig ⇒ Overhead⇒ Einfuhrung der Prafix-Randbedingung;

• Prafix-Code: Kein Codewort wi ist der Anfang eines anderen Codewortes vi, d. h. es gibtkeinen Teilcode u mit v = w · u (Prafix-Bedingung, Fano-Bedingung)

Binarer CodebaumDie Prafix-Bedingung kann einfach durch die Codeerzeugung mittels eines binaren Baumeseingehalten werden:

• Symbole sind Blatter des Baumes

• Durchlaufen von Wurzel zu Blatt bestimmt eindeutig den Code des Symbols

• Kein Code kann ein Prafix eines anderes Codes sein

• Die Baumtiefe bestimmt die Codeeffizienz

Aufbau eines Huffman-Codes

• Huffman-Code verbindet die Prafixbedingung mit optimaler Wahl des Codebaumes durchdie Symbolwahrscheinlichekiten.Prinzip: Die Symbole mit hochster pi bekommen den kurzesten Code, die mit geringsterpi de langsten Code.

Konstruktionsregel

• Sortierung der Symbole nach aufsteigenden pi

• Aufbau des Baumes, bis zur Wurzel

• Vergabe von 1 Bit an pmin, pmin + 1 Zusammenfassen der︷ ︸︸ ︷pmin, pmin + 1

Redundanz des Codes

• Fur beliebigen Codebaum kann die mittlere Codewortlange eines Wortes wi bestimmtwerden

Lz =

N∑

i=1

pili li = |wi| = Lange des Wortes wi

⇒ Lange des Symbols, gewichtet mit p, uber alle Symbole

Codierungtheorem von Shannon

1 Es gilt stets H ≤ Lz < H + 1

2 R = Lz −H kann durch geeignete Wahl des Codes beliebig klein gemacht werden

3 Es gilt immer 0 ≤ R < 1

Page 14: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

8 KAPITEL 2. REPRASENTATION UND CODIERUNG VON DATEN

R heißt Redundanz des Codes und ist ein Maß fur uberflussige Entscheidungen.

Beispiel:p1 = 0, 1, p2 = 0, 1, p3 = 0, 25, ; p4 = 0, 25, ; p5 = 0, 3

5∑

i=1

pi = 1

H = −∑5i=1 pi ld pi = −(2 · 0.1 · ld (0.1) + 2 · 0.25 ld (0.25) + 0.3 · ld 0.3)

mit ld (x) = ld (e) · ln (x) ' 1.44ln (x)⇒ H = 2 · 0.1 · 3.315 + 2 · 0.25 · 1.996 + 0.3 · 1.734H = 2.182 bit

Huffmann-Code:

rrrr

0.3

0.25

0.25

0.1

0.1

0.55

0.2

0.45

1.0

Symbol pi Codeworte Wi Wortlange liZ1 0.1 000 3Z2 0.1 001 3Z3 0.25 01 2Z4 0.25 10 2Z5 0.3 11 2

LZ =

5∑

i=1

pili = (2 · 0.1 · 3 + 2 · 0.25 · 2 + 0.3 · 2)

LZ = 0.6 + 1 + 0.6 = 2.2 bit

LZ = 2.2 bit

Redundanz R = LZ −H = 2.2 − 2.182 = 0.018 bitAufbau des Codes als balancierter Baum (Tabelle)limax = 3 bit→ 8 Blatter (5 Zustande)

Z5

Z5

Z4

Z4

Z3

Z3

Z2

Z1

1 1 1

0 1 1

1 0 1

0 0 1

1 1 0

0 1 0

1 0 0

0 0 0

S1 S2 S3

qqqqqq q 1

0

0Z2

Z1

1

0

qq

qq 0

1

q 1q

Z5

Z5

Z4

Z4

Z3

Z3

1

0

1

0

1

0

Adress-Decodermit 3 bit

Nachfrage: Entropie eines b-adischen Codes

Entropie H = −∑

j

pj logb pj = −∑

pj logb(e) · ln(pj)

Page 15: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

2.3. ENTROPIE-CODES 9

Entropie einer ternaren Quelle mit b = 3

H = −∑

j

pj log3(e) · ln(pj)

Maximaler Entscheidungsgehalt fur pj = 13

z. B. Ternarer Code fur gleich wahrscheinliche Symbole p(Z1) = p(Z2) = p(Z3) = 13

rZ1 Z2 Z3

0 1 2

H3 = −3∑

j=1

1

3· log3

(1

3

)

︸ ︷︷ ︸−1

= B − 1

3− 1 = 1, Lz = 1, R = 0

Die Quelle mit binarem Code: r rrr

Z1 Z2 Z3

0 1

0 1

H2 = −3∑

j=1

1

3· log2

(1

3

)=

3

3· 1.44 · ln

(1

3

)= 1.582 bit

LZ =3∑

j=1

1

3lj =

1

3(2 · 2 + 1) =

5

3= 1.666 bit

R = 1.666 − 1.582 = 0.0846 bit

2.3.3 Arithmetische Codierung

• Huffman-Codes konnen R = 0 nur theoretisch erreichen. Praktisch wird das Codewortdurch ganze Zeichen bestimmt ⇒ li ∈ IN, daher kann LZ −H nicht beliebig klein werden.

Losung 1 zum Problem:

• Zusammenfassen von m Symbolen 〈S1S2....Sm〉 zu Wortcodes (Code-Erweiterung) 〈W1W2.....Wm〉⇒ mehr Flexibilitat bei der Codierung, aber auch langere CodetabellenLZ = 1

mLω Lω =∑n

i=1 pili , li = |ωi|

⇒ LZ =1

m

m∑

j=1

qjnj qj = (p1 · p2..... · pm) unabhangige Symbole

nj =

n∑

i=1

li

Page 16: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

10 KAPITEL 2. REPRASENTATION UND CODIERUNG VON DATEN

⇒ mit steigendem m konvergiert LZ ⇒ 1mLω → H

Losung 2: Verteilung der Information auch auf Bruchteile von Bits⇒ Arithmetische CodesAnsatz: Zeichenkette von Symbolen 〈S1S2....Sj〉 wird durch die Wahrscheinlichkeit der ver-ketteten Symbole resprasentiert (Wahrscheinlichkeitsintervall) Der Code fur eine Symbol-kette wird durch einen Wert (Reprasentanten) des Intervalls als Gleitkommazahl gebildet.

Aufbau des arithmetischen Codes

1. Wahrscheinlichkeiten der Symbole des Alphabets werden im Intervall [0, 1)aufgeteilt. Bei-spiel:

S0 S1 S2 S3

p(00) = 0.1, p(01) = 0.4, p(10) = 0.2, p(11) = 0.3

\\\\\\

�����

�����������

SSSSSSSS

S3 11

S2 10

S1 01

S0 00

0.3

0.2

0.4

0.10.1

0.5

0.7

1.0

S2

0.5 0.5

0.514S0

0.52

S 0.7 0.52 0.52

Zielintervall: [0, 514, 0, 52) fur Zeichenkette S2S0S3.

2. Fur eine zu codierende Nachricht S2S0S3 wird das 1. Symbol gewahlt: S2 = [0.5, 0.7)

3. Das Intervall S2 = [0.5, 0.7) wird durch das nachfolgende Symbol S1 weiter unterteilt inrelative pi, bis alle Symbole der Nachricht bearbeitet sind.

4. Das Zielintervall wird durch einen Reprasentanten dargestellt, der gut zu codieren ist(kurzeste Zahl des Bereichs S2 = [0.514, 0.52) )Algorithmus:

sei si, i ∈ {0, N − 1} das Alphabet mit

pi, i ∈ {0, N − 1} den Haufigkeiten,

N−1∑

i=0

pi = 1

sei 〈Si(0), Si(1), Si(n)〉 die Folge der Symbole Si des Codewortes nach n Schritten.

b(n) = untere Intervallgrenze nach n Symbolen

t(n) = obere Intervallgrenze nach n Symbolen

Page 17: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

2.3. ENTROPIE-CODES 11

dann gilt 〈Si(0), Si(1), Si(n)〉= [b(n), t(n)) mit

b(n) = b(n− 1) +

i(n)−1∑

j=0

α(n− 1)pj

α(n) = α(n− 1) · p1(n) (Intervallgroße)

t(n) = b(n) + α(n)

mit i(n) der Auswahl des i-ten Symbols si im Schnitt n der Sym-bolfolge

b(0) = 0

α(0) = 1

• Das Intervall [b(n), t(n)) beschreibt die Folge 〈Si(0), Si(1), Si(n)〉 mit einem geeigneten Re-prasentanten ZR aus dem Intervall, ZR ∈ [0, 1)

• Die Anzahl der zu codierenden Symbole muß a priori festgelegt werden, um eine eindeutigeDecodierung zu gewahrleisten

Decodierung

• Aufbau der Intervalle ruckwarts aus dem Wert des Reprasentanten ZR

• Auswahl des Intervalls durch testen der Grenzen

ZR ∈ [ b(0), t(0) )Si → Auswahl des Intervalls

• Solange b(n) ≤ Zr < t(n), berechne neue Intervallgrenzen

• Abbruch bei festgelegter Lange der Folge n oder bei festgelegter Anzahl der Stellen vonZR

QQQQQQQQQ

�������

�����������

@@@@@@ �

��������

-

0Si(1) = S2 Si(2) = S0 Si(3) = S3

1

0.5

0.7 0.52

0.5

S0

S1

S2

S3

0.1

0.5

0.7...

0.52

0.514Reprasentant ZR (hier ZR = b(3) = 0.514)

ZR = 0.514

• 0.5 < ZR < 0.7 (n = 1)

• 0.5 < ZR < 0.52 (n = 2)

• 0.514 < ZR < 0.52 (n = 3) Reprasentantenintervall

Page 18: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

12 KAPITEL 2. REPRASENTATION UND CODIERUNG VON DATEN

2.4 Dynamische Codebuch-Kodierung(LZ77)

Idee: Aufbau des Codebuches dynamisch wahrend des Lesens der Nachricht

• Aufbau moglichst langer Teilnachrichten, die noch nicht bekannt sind

• Ersetzen von bekannten Teilnachrichten durch Index auf die Teilnachricht (Codebuchein-trag).Algorithmus

• Initialisiere Verarbeitung mit leerer Nachricht w =

• Initialisiere Codetabelle mit Alphabet C(i)

• Lese Nachricht zeichenweise in k

• Setze Teilnachricht zusammen: w ← w + k, bis w nicht mehr in TabelleDann:

– neue Teilnachricht w + k → Tabelle

– sende Index C(w) [bekannte Teilnachricht]

– neue Teilnachricht ist w = k

Beispiel: Alphabet {A,B,C,D} Initialisierung der Codetabelle:

#1 = A #2 = B #3 = C #4 = D

Nachricht: ABACABA

• Initialisiere w =

1. Lese A: (ist in Tabelle) ⇒ w = A

2. Lese B: ⇒ w = AB (nicht in Tabelle)

⇒ #5 = A|B ,#1→ Kanal , w = B

3. Lese A: ⇒ w = B|A (nicht in Tabelle)

⇒ #6 = BA , #2→ Kanal w = A

4. Lese C: w = AC

⇒ #7 = A|C #1→ Kanal , w = C

5. Lese A: w = CA

⇒ #8 = C|A #3→ Kanal , w = A

6. Lese B: w = AB (bekannt, lese weiter)

7. Lese A: w = ABA (nicht bekannt)

⇒ #9 = AB|A #5→ Kanal , w = AEnde : A| #1→ Kanal , w =

⇒ Codierung : #1#2#1#3#5#1

Page 19: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

2.4. DYNAMISCHE CODEBUCH-KODIERUNG(LZ77) 13

Prinzip: Erweitere String w mit Eingangssymbolen solange bis neue Kette entsteht:

• Speichere neue Kette in Codebuch und ubertrage nur den Index der bekannten Teilnach-richt.

w′ = w + k → speichere w′, sende Index(w) raus

Decodierung aus Indices

• Initialisierung mit Alphabet ist bekannt

• Aufbau der Tabelle wie bei Codierung

#1 A#2 B#3 C#4 D#5 AB#6 BA#7 AC#8 CA#9 ABA

#1 #2 #1 #3 #5 #1↓ ↓ ↓ ↓ ↓ ↓

w = A| B| A| C| AB A

Eigenschaften LZ-Code:

• Keine a priori Kenntnis der Symbolwahrscheinlichkeiten notwendig (universeller Code)

• baut die Statistik von Verbundwahrscheinlichekeiten selber dynamisch auf.

Achtung: Symbole manchmal nur teilweise dekodiert:

Codierung von a b c a b a b a c, {a, b, c}

#1 a#2 b#3 c#4 ab#5 bc#6 ca#7 aba#8 abac

a|b #1b|c #2

c|a #3ab|a #4

aba|c #7c|t #3

Page 20: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

14 KAPITEL 2. REPRASENTATION UND CODIERUNG VON DATEN

Page 21: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

Kapitel 3

Schall und psychoakustischeWahrnehmung

3.1 Physikalische Grundlagen

3.1.1 Schall und Wellenausbreitung

• Schallwellen werden durch Kompression und Dilatation des Mediums Luft(Gas) erzeugt.Schallquelle ist z. B. eine mechanisch oszillieriende Membran (Stimmgabel, Lautsprecher),die plotzliche, impulshafte Kompression der Luft (Klatschen) etc.

• Die Schwankung des Luftdruckes pflanzt sich als Kugelwelle durch das Medium fort mitca. 330 m/s.

• Bei einer periodischen Anregung des Schalldruckes (z. B. mit Stimmgabel) entsteht eineWelle mit konstanter Periode. ⇒ spektral reine Schwingung konstanter Frequenz = reinerTon, stimmhafter Laut

• Der Schalldruck trifft auf Objekte in der Umgebung und regt diese an, wenn sie sichin Resonanz zur Welle befinden (Verstarkung) oder wenn Vielfache der GrundfrequenzResonanzen bilden ⇒ Harmonische Wellen, ObertoneBeispiel Musikinstrumente (Obertone gewollt)Beispiel Werkzeugmaschinen (ungewollte Resonanz)

• Bei einer aperiodischen Anregung entstehen Impulse, die alle moglichen Frequenzanteileenthalten ⇒ Frequenzgemisch, Gerausche (stimmloser Laut).

Nahere Analyse von Signal ←→ Frequenz in Kap. 5.

15

Page 22: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

16 KAPITEL 3. SCHALL UND PSYCHOAKUSTISCHE WAHRNEHMUNG

Je nach Frequenz unterscheidet man verschiedene Bereiche:

Infraschall 0 - 20 Hz (Luftdruckschwankung, vom Korper gefuhlt)Horschall 20 - 20 KHz (vom Gehor aufgenommen)Ultraschall 20 KHz - 1 GHzHyperschall 1 GHz - 10 THz

}nicht wahrnehmbar

Der Horbereich ist hier von Interesse.

Die Amplitude des erregenden Schallkorpers bestimmt die Große der Luftdruckschwankung unddamit die Amplitude der Schallwellen. Der von der Schallquelle ausgestrahlte Schalldruck wirdin W/m2 bestimmt. Unser Gehor ist in der Lage, Schalldruckpegel (Sound Pressure Level, SPL)zwischen 10−12W/m2 und 1 W/m2 wahrzunehmen. Ein derart hoher Dynamikbereich des Si-gnals wird durch ein logarithmisches Wahrnehmungsverhalten des Gehors erreicht. Daher wirdder Schalldruckpegel ebenfalls log. skaliert in Dezibel [dB] angegeben.

Zur Erinnerung: Dezibel (zehntel Bel) druckt das logarithmische Verhaltnis zweier Großen aus:

1 Bel = log10A1A0

1 Bel = 10 Dezibel [dB]A1 ist Meßgroße, A0 ist Referenzgroße

• Die Horschwelle fur ein Signal von 1 Khz ist SPL0 = 10−12 Wm2 und wird als Referenzgroße

(0dB) festgelegt.

• der Schalldruckpegel [dB] eines bestimmten Signals SPL [ Wm2 ] ist

SPL [dB] = 10 · SPL [Bel] = 10 · log10

SPL[Wm2

]

SPL0

[Wm2

]

Beispiel: 1 Wm2 = 10 · log10

[100

10−12

]= 120 dB

Beispiele: Horschwelle : 0 dB 10−12 W/m2

Papiergeraschel : 20 dB 10−10 W/m2

Sprache : 60 dB 10−6 W/m2

dichter Verkehr : 80 dB 10−4 W/m2

Schmerzgrenze: Flugzeugstart : 120 dB 1 W/m2

• Verdoppelung der Leistung: 10 · log10 2SPLSPL = 10 log10 2 ≈ +3dB.

Page 23: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

3.1. PHYSIKALISCHE GRUNDLAGEN 17

3.1.2 Reflektionen, Hall

• Die Schallwelle breitet sich kugelformig aus. Die erste Schallfront, die den Horer trifft, istder “direkte Schall” mit der großten Energie.

• Der Schall wird an den Wanden und Objekten der Umgebung reflektiert und bildet vondort wiederum Schallwellen. Die 1. Reflektion wird als “fruher Schall” bezeichnet. DieseSchallwellen geben wichtige Hinweise uber die Raumcharakteristik.

• Die durch mehrfache Reflektion eintreffenden Schallwellen bilden den “Hall”.

Schall muss daher immer in Verbindung mit seiner Umgebung betrachtet werden. Raume,die alle Reflektionen absorbieren, nennt man schalltot. Der großartige Klang einer Kon-zerthalle wird hauptsachlich durch die Reflektionen bestimmt.

• Menschen konnen zwischen direkter und reflektierter Welle unterscheiden (Ortung)

Hörer

SchallquelleRaum

c)

b)

a)

Abbildung 3.1: Schallausbreitung im Raum a) direkter Schall, b) fruher Schall c) Hall

Page 24: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

18 KAPITEL 3. SCHALL UND PSYCHOAKUSTISCHE WAHRNEHMUNG

3.2 Physiologisches Modell des Gehors

• Gehor ist ein komplexes Sinnesorgan, das sich aus verschiedenen Komponenten zusam-mensetzt1:

1. Peripheres Gehor, bestehend aus

– Außenohr mit Ohrmuschel und Gehorgang

– Mittelohr mit Hammer, Amboss und Steigbugel

– Innenohr mit Cochlea (Schnecke) und Haarzellen

2. Zentrales Gehor, bestehend aus

– Gehorbahnen (Gehornerv)

– Hirnstamm und Zwischenhirn

– Gehorrinde

3.2.1 Peripheres Gehor

1. Außenohr: Schallbundelung, Richtungscharakteristik

2. MittelohrHammer, Amboss, Hufeisen transformieren die Krafte von Trommelfell (Schalldruck)auf die notwendigen hydraulischen Krafte in der Schnecke (Cochlea)→ Impedanzan-passung!

3. Innenohr: Die Cochlea enthalt eine Trennwand, auf der die Sensoren (Haarzellen)angebracht sind. Durch den Druck auf das obere ovale Fenster entsteht eine Wan-derwelle, die zu bestimmten Orten der Trennwand eine Resonanzschwingung erzeugtd.h.: Je nach Frequenz des Signals wird einer anderer Ort der Cochlea schwingen!

• Die Frequenz-Orts-Transformation erlaubt dem Gehor erst die Wahrnehmung verschiede-ner Tonhohen (Pitch). Es findet eine explizite Frequenzzerlegung des Signals statt. (besteMotivation fur Spektralzerlegung in der akustischen Signalverarbeitung)

• Die ortsabhangige Erregung von Tonhohen wird als Tonheit [Bark] bezeichnet und stellteine lineare Abwicklung der Cochlea dar. Der Zusammenhang zur jeweiligen Resonanzfre-quenz ist nichtlinear.

• Fur eine gegebene Tonheit (Position) auf der Cochlea wandelt das Cortische Organ dieAmplitude der Schwingung in Nervenimpulse um.

Cortisches Organ:

• innere Haarzelle IHZ

• außere Haarzelle AHZ

• Membranen (Basilar = Basis, Tektorial = Verschieber)

• Durch Schwingungen der Basilarmembran wird eine Relativbewegung zur Tektorialmem-bran erzeugt.

1siehe auch die Folien zu Kapitel 3

Page 25: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

3.2. PHYSIOLOGISCHES MODELL DES GEHORS 19

• Die Scherbewegung bewegt die Flussigkeit, die die IHZ Haarzellen umspult→ Offnung/Schließungfeiner Ionen-Kanale, die dann Spannungsimpuls freigeben.⇒ Aktivierung von Pulsen nachPulsfrequenz (Ratenmodulation).

• die AHZ sind mit der Tektorialmembran verwachsen und setzen verstarkende Krafte frei.Die AHZ wirken so als aktive Stellglieder.

3.2.2 Zentrales Gehor

Ankopplung an das zentrale Gehor uber Nervenfasern und Synapsen:

Innere Haarzellen:

• ca. 3400 Haarzellen auf 35 mm, d.h. 1 Haarzelle pro 0.1 mm [≈ 0.1 bark]

• Ankopplung an 30.000 - 40.000 Nervenfasern mit 1:N Ankopplung (1 Faser an genau 1Zelle, bis zu 20 Fasern/Zelle) an aufsteigende Gehorbahnen

Außere Haarzellen:

• ca. 13.000 AHZ in Reihen von 3 - 4 je IHZ

• ca. 1000 Nervenfasern der absteigenden Gehorbahnen

• Ankopplung mit M : N (1 Faser an 10 - 50 Zellen, jede Zelle an bis zu 6 Fasern)

• dienen als Ruckkopplung des Gehors (noch wenig erforscht)

⇒ kompliziertes Regelsystem mit hochaufgelostem Sensor [0.1 bark ≈ 5 - 10 Hz] und breit-bandig ruckgekoppeltem Stellglied

• Abbildung der Sensorinformation auf den auditiven Cortex (Horrinde), der ebenfalls eineton-raumliche Verteilung besitzt.

Page 26: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

20 KAPITEL 3. SCHALL UND PSYCHOAKUSTISCHE WAHRNEHMUNG

3.3 Psychoakustische Gehorwahrnehmung

• Direkte Modellierung aller Gehorfunktionen ist nicht moglich, da

1. Modelle zu kompliziert und nichtlinear sind,

2. die Vorgange im zentralen Gehor noch nicht verstanden werden.

• Entwurf von Teilmodellen, die

1. den hydromechanischen Aspekt modellieren

2. die psychoakustische Wahrnehmung uber subjektive Tests empirisch bestimmen.

Subjektiver Test:

• Proband wird in kontrollierte Umgebung gebracht

• Ein Ereignis wird generiert (unter Variation von Parametern)

• Der Proband soll das Ereignis detektieren (da / nicht da)

3.3.1 Horschwellen und Lautheit

Versuchsaufbau:

• Proband in schalltotem Raum

• Kopfhorer zur definierten Schallerzeugung

• Schallereignis wird mit variiertem Schalldruck abgespielt

• Proband soll detektieren, ob das Signal horbar ist (ja / nein) oder sich horbar verandert(ja / nein)

• Detektion der gerade noch wahrnehmbaren Anderung (just noticeable difference thresholdJND)

Lautheitsskala

Die Lautheit definiert eine Skala der subjektiv empfundenen Lautstarke eines Signals [So-ne]:

1 Sone = 1 Khz Signal mit 40 dB SPL.

Die Lautheit wird gemessen, indem man ein Signal als ’doppelt so laut’ oder ’halb so laut’wie das Referenzsignal bestimmt. Dabei ergibt sich: Verdopplung der Lautheit [3 dB] =Verzehnfachung der akustischen Leistung [10 dB SPL]⇒ Dynamikkompression des Signals(⇒ nichtlineare Kennlinie der Schalldruckwahrnehmung)

Page 27: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

3.3. PSYCHOAKUSTISCHE GEHORWAHRNEHMUNG 21

Ruhehorschwelle:

• Identifikation der Wahrnehmungsschwelle des Schalldrucks bei variierter Frequenz

• Charakteristik: Bandpassverhalten mit Mittenfrequenz bei ca. 3 KHz (Resonanz des Gehorganges)

• untere Horschwelle durch korpereigene Gerausche (Blutrauschen) und spontane Impulseder Gehorbahn sowie der spontanen Anregung der AHZ

• personenindividuelle Variation > 10 dB (Schalldruckschwankung mit Faktor 10)

• Die statistisch bestimmte Ruhehorschwelle wird bei 1 KHz mit 10−12W/m2 ≡ 0 dB(SPL0) festgelegt.

⇒ Phon als Maßeinheit fur SPL [dB], 0 Phon =SPL0[dB]

Amplitudenanderung des Signals

Die Dynamik des Ohrs verlauft logarithmisch. Um eine Wahrnehmensanderung herbeizufuhren(lauter/leiser), wird i. A. eine Veranderung von 1 dB SPL benotigt. Die Schwelle verringert sichallerdings mit steigendem SPL, Die Gesamtdynamik des Gehors betragt 120 - 130 dB SPL (d.h.Faktor 1013!), und ca. 350 Stufen des Schalldrucks konnen identifiziert werden.

Frequenzanderung des Signals

Die JND fur Frequenzanderungen liegt bei ca. 3.5Hz fur f < 500Hz und ca. 0.7% · f derFrequenz fur f > 500Hz

Page 28: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

22 KAPITEL 3. SCHALL UND PSYCHOAKUSTISCHE WAHRNEHMUNG

3.3.2 Mithorschwelle und Maskierung

Die Maskierung bezeichnet ein wichtiges psychoakustisches Phanomen, bei dem ein Signal [Mas-kiersignal] die Wahrnehmung eines anderen Signals [Testsignal] unterdruckt.

Hierbei gibt es

1. Zeitliche Maskierung durch Impuls (200 ms, 50dB)

(a) Vorverdeckung (-50 ms)

(b) Overshoot (0 - 30 ms)

(c) Nachverdeckung (-200 ms)

�����������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������

������������������������������������������������������������������

������������������������������������������������������������������

������������������������������������������

������������������������������������������

A[SPL] Maskierer−Signal

zeitliche Maskierung

Zeitverhalten

A [SPL]

t [s]

f [Hz]Frequenzverhalten

verdeckte Amplitude

Spektrum des −Impulsesδ Signal

t 0

δMaskierung durch −Puls

Abbildung 3.2: Maskierung durch δ-Puls

2. Frequenzmaskierung durch

(a) Schmalbandrauschen um Maskierfrequenz

(b) Sinuston mit Maskierfrequenz

Page 29: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

3.3. PSYCHOAKUSTISCHE GEHORWAHRNEHMUNG 23

����������������������������������������������������� � � � � � � � � � � � � � � � � � � � � � � � � � �

�������������������������������������������������������

�������������������������������������������������������

�����������������������������������

�����������������������������������

������������������������������������

������������������������������������

����������������������������

����������������������������

������

Signalamplitude des Sinus

A [SPL]

A[SPL]Maskierer−Signal

Spektrallinie des Sinus

Verdeckter Frequenzbereich

nicht hörbar, verdeckt

f [Hz]

t [s]

Maskierung durch eingeschwungenen Sinus

Abbildung 3.3: Maskierung durch eingeschwungenen Sinus

Verdeckung uber physiologisches Modell nur teilweise erklarbar. Beide Phanomene lassen sich ineinem psychoakustischem Modell formulieren, welches die Verdeckungseigenschaften ausnutzt.Bei Codierungsverfahren wird das Nutzsignal als Maskierer verwendet, und als Testsignal diedurch Signalquantisierung auftretenden Storungen angesehen → Storungen werden von Nutzsi-gnal maskiert!

Page 30: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

24 KAPITEL 3. SCHALL UND PSYCHOAKUSTISCHE WAHRNEHMUNG

Page 31: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

Kapitel 4

Licht und PsychooptischeWahrnehmung

4.1 Licht

Dualitat des Lichtes

1. Partikel (Photon) mit Energie h ·ν beim Energieaustausch mit einem Sensor (CCD-Array,Photorezeptor) gebrauchlich

2. EM-Welle mit Welleneigenschaften

4.1.1 Eigenschaften der elektromagnetischen Wellen

Licht ist ein Teil des elektromagnetischen Spektrums. Es reicht von technischen Langstwellen(einige z. B. 50 Hz) bis zu den γ-Strahlen.Eine EM-Quelle sendet Wellen mit Lichtgeschwindigkeit c ' 300.000 km/s aus. Die Wellen sindcharakterisiert durch

• Die Frequenz ν = 2πλ , λ = Wellenlange (Farbe)

• Die Amplitude (Intensitat) der elektrischen Feldstarke |E| und der magnetischen Feldstarke|H|, wobei E ⊥ H

• Die Ausbreitung in Richtung V = E x H (Richtung)

• Die Polarisation (Richtung des E-Feldes)

Strahlenoptik

Lichtstrahlen lassen sich uber die Brechungsgesetze berechnen.

25

Page 32: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

26 KAPITEL 4. LICHT UND PSYCHOOPTISCHE WAHRNEHMUNG

• Reflektion an Oberflachen

������������������

@@@@@@R

6

�������

Einfall Ausfall

n

ϕ ϕ

• Transmission und Brechung

������������������������

������������������������

@@@@@@R

6

AAAAAA@@@@@R

ϕ1

ϕ2

ϕ1

η2

η1 Brechungsindices (η2 > η1)

n

Snell’s Gesetz: η1 · sinϕ1 = η2 sinϕ2

allgemein: ηi = ηi(λ): Dispersion, wellenlangenabhangige Brechung⇒ Prisma bricht das Licht mit Winkel als f(λ)⇒ Spektral - Orts - Zerlegung (wie bei Cochlea). Die einzelnen Spektrallinien werden aufunterschiedliche Orte abgebildet, ein weißes Spektrum (alle Spektrallienien) erscheint nachprismatischer Brechung als Regenbogen.

Bundelung des Lichtes:

• Snells Brechungsgesetz beschreibt (frequenzabhangige) Strahlbrechung an ebenen Grenz-flachen.

• Strahlbrechung an konvexer Halblinse: Strahlen werden entsprechend der Krummung derOberflache gebrochen → Konzentration des Strahls.

• fur spharische Krummung bei einem Krummungsradius rk � d (Strahlbreite) konvergie-ren alle gebrochenen Strahlen in einem Punkt (Brennpunkt, Fokalpunkt) f. (Dicke Linse:aspharische Krummung besser)

• 2 Halblinsen erzeugen eine “dunne Linse” mit 2 Brennpunkten

1

f=

(ηiηa− 1

)·(

1

re+

1

rr

)

Linsengleichung (Lensmaker Equation) Linsenstarke [Diopter] D =1

f[m−1]

• Abbildungsgleichung: 1|Z0|+

1|Zb| = 1

|f | Gauß Abbildungsgleichung fur dunne Linsen (spharisch)

Page 33: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

4.2. DAS PHYSIOLOGISCHE MODELL DES SEHSYSTEMS 27

• Unscharfe Abbildung fur Z 6= Zb

Unscharfe Abbildung: wenn Abbildungsebene Z 6= Zb, oder (bei gegebenem Zb) Zobjekt 6=Z0!

⇒ Alle Objekte mit Zobjekt 6= Z0 unscharf!

aber: Große der Abbildungsunscharfe von Durchlassbereich D (Apertur, Offnung) abhangig.Und: Menge des gebundelten Lichtes von D abhangig.

⇒ Definition eines bestimmten Scharfebereiches

⇒ Alle diese Beziehungen gelten fur technische Linsen, aber auch fur das Auge!

• Eine gangige Definition fur die Brechungskraft einer Linse ist das Diopter

1 Diopter =1

f[m−1]

4.2 Das physiologische Modell des Sehsystems

Das Sehsystem ist grob in das periphere Auge und das zentrale Sehnervensystem gegliedert. DasAuge hat die Aufgabe, das einfallende Licht zur fokussieren (Linse und Hornhaut), die Lichtmen-ge zu steuern (Iris) sowie die abgebildeten Farbspektren und Intensitaten raumlich und zeitlichabzutasten und and den Sehnerv anzukoppeln (Retina mit Sehzellen)Das zentrale Sehsystem ubernimmt den Transport der Impulse, die Vorverarbeitung (Kontast-verstarkung, stereokopische Fusion (cyclopic vision) und die Vernetzung mit dem visuellen Cor-tex.

4.2.1 Das periphere Auge

Der Weg des Lichtes fuhrt durch

• Cornea (Hornhaut), Fokussierung (43 Dioptrin) fest

• Iris (Blende) zur Lichtmengenkontrolle

• Linse (Glaskorper) mit Accomodation (20 - 30 Dioptrin) flexibel

• Retina mit photosensitiven Zellen

Mittlere Brennweite des Auges ≈ 19 - 22 mm

4.2.2 Die Retina

Die Rezeptoren(Sensoren) der Retina bestehen aus Stabchen und Zapfchen.

Page 34: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

28 KAPITEL 4. LICHT UND PSYCHOOPTISCHE WAHRNEHMUNG

Stabchen:

• 120 Millionen

• nur Intensitat

• Nachtsichtfahig (scotopic), bei Tagsicht gesattigt

• zeitlich schnell (Bewegungserkennung)

• max Dichte auf Ring mit ca 20◦ von Fovea (6mm)

• kleiner als Zapfchen

Zapfchen:

• 6 Millionen

• 3 unterschiedliche Typen von Photorezeptoren

• konzentriert im Foveal-Bereich (2◦),

• nicht so empfindlich (1/10), daher tagadaptiert (photopic)

Spektralverhalten:

Die drei Typen der Zapfchen haben unterschiedliche Spektralbereiche

S (blau) M (grun) L (gelb-grun)420 mm 530 mm 560 mm

im Zentrum der Fovea nur M, L-Zapfchen

• nicht zwingend nur 3 Typen: Vogel haben 5 - 7 verschiedene Farbrezeptoren!

• Die Farbwahrnehmung ist eine Projektion des Spektrums (∞-dim.) auf die drei Photore-zeptorkurven (3-dimensional)

⇒ Projektion ist nicht eindeutig, es gibt unendlich viele Spektren, die dieselbe Farbempfindunghervorrufen

• Die spektrale Verteilung der Zapfchen ist auf das von der Sonne einfallende Spektrumoptimiert.

Intensitatsverhalten:

Stabchen: nichtlinear mit Sattigungsverhalten

• angepasst fur Nachtsicht (scotopic)

• gesattigt bei Tagsicht

Zapfchen: gleiches Sattigungsverhalten, aber

• adaptiert fur Taglicht

• zeitliche Anpassung an mittleren Pegel (Verschiebung der Sattigungskurve) Sensitivitatgut genug, damit 1 photon registriert wird!

Page 35: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

4.3. PSYCHOOPTISCHES WAHRNEHMUNGSMODELL 29

Raumliche Verteilung:

∼ radial-logarithmische Verteilung auf der Retina

• Zapfchen fast nur in Fovea (2◦)

• Stabchen zwischen 10◦ (20◦ max.) - 200◦

• maximale Auflosung der Fovea: 1 mm auf 3 m (≈ 1/60◦)

Zeitliche Auflosung:

Die Photorezeptoren losen eine Pulsfrequenzmodulation (Variation der Anzahl Pulse/Sekunde)an den Synopsen der Nervenfasern aus. Diese Entladung ist mit einer bestimmten Latenzzeitverbunden. Dieses fuhrt zu einer zeitlichen Auflosung von max. 60 Hz (Biene: 300 Hz)

4.2.3 Der Sehnerv

Die ca. 125 Mio. Sensoren werden durch ca. 1 Mio. Fasern des Sehnervs weitergeleitet. Das be-deutet, dass viele lokale Verknupfungen bereits im peripheren Sehsystem (Auge) durchgefuhrtwerden. Daher ist eine klare Modellbildung des physiologischen Sehsystems schwierig. Es wurdenviele psychologische Experimente durchgefuhrt, um die fruhe Wahrnehmung (Aspekte des Augesund der ersten Verarbeitung, die unterbewusst verlauft) von der spaten, bewussten Verarbeitung(Kognition) zu trennen. Diese Experimente fuhren auf ein psychooptisches Wahrnehmungsmo-dell

4.3 Psychooptisches Wahrnehmungsmodell

Die psychooptischen Wahrnehmungsmodelle beruhen auf subjektiven Tests, die ebenso wie inder Akustik verschiedene Wahrnehmungsschwellen bestimmen. Daraus lassen sich statistischfundierte Normkurven herleiten. Es findet immer eine Verkopplung der physiologischen Be-grenzungen (Scharfe, spektrale Verteilung) mit der neuronalen Verarbeitung statt. Die meistenKurven beruhen auf Verhaltnismessungen.

4.3.1 Photometrische Großen

• Die radiometrische Großen beschreiben die energetische Bilanz einer Quelle.

• Die photometrischen Großen sind die entsprechenden, subjektiv wahrnehmbaren Ereignis-se. Die strahlungstechnischen Großen werden dabei durch das Ubertragungssystem desSehsystems gefiltert. Dabei gelten fur Zapfchen (helladaptiert, photopic)und Stabchen(dunkeladaptiert, scotopic) unterschiedliche Ubertragungsfunktionen.

Photometrische Großen

Basis lumen: Lichtstrom Φv[lm]Lichtmenge Qv[lm · s]Lichtstarke Iv [Candela cd] [lm · sr−1]Leuchtdichte Lv[cd/m

2] [lmsr−1m−2]

Page 36: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

30 KAPITEL 4. LICHT UND PSYCHOOPTISCHE WAHRNEHMUNG

Wahrnehmbarer Intensitatsbereich

Stabchen

Zapfchen

{

{

Himmel Leuchtdichte[cd/m2]

Neumond-Nacht (Sterne) 3 · 10−4

Mondschein 3 · 10−2

Dammerung 3 · 100

bewolkter Tag 3 · 102

beleuchtete Wolken, Schnee bis 3 · 104

Faktor zwischen denLeuchtdichten1 : 109

Xv = Km

∫ 830

360Xe(λ) · V (λ) dλ, Km = 683

lm

W(photopic, Tagsicht)

X ′v = K ′m

∫ 830

360Xe(λ)V ′(λ) dλ, K ′m = 1725

lm

W(scotopic, Nachtsicht)

⇒ V (λ), V ′(λ) beschreiben die spektrale Ubertragungsfunktion von Zapfchen und Stabchen

Es ergibt sich eine Farbverschiebung (Purkinje Shift)

• max (V’) bei 505 nm mit 1725 lmW bei Nachtsicht

• max (V) bei 555 nm mit 683 lmW bei Tagsicht

Die photometrischen Großen erhalten eigene Basisgroßen:

Lichtmenge Qv [lumen · sek] (Strahlungsenergie)Lichtstrom Φv Lumen [lm] (Leistung) ← BasisLichtstarke Iv Candela[cd] (Strahlstarke)Leuchtdichte Lv [cd/m2] (Strahldichte)

Definition cd: Lichtstarke einer monochromatischen Strahlungsquelle λ = 555nmmit Strahlstarkevon 1/683 W/sr. [Normierung von V] ⇒ empfundene Wahrnehmung von 1 cd:

Ir = [1cd] =683 lm

W

∫ 555

555

1

683· Wsr· 1dλ = 1

lm

sr

4.3.2 Wahrnehmungsschwellen

Die psychooptischen Eigenschaften konnen am besten durch Wahrnehmungsschwellen festgelegtwerden. Hier werden die “Just noticeable differences” detektiert.

Page 37: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

4.3. PSYCHOOPTISCHES WAHRNEHMUNGSMODELL 31

4.3.2.1 Kontrast - Empfindlichkeit

I + ∆I&%'$

I

Frage: Wann wird ein Helligkeitsunterschied ∆I festgestellt?

-

6

& %Intensitat (normiert mit 8 Bit)

0 255

0.02

∆II

Kontrast

∆II ' konstant

(Weber’sches Gesetz)

Relative Helligkeitsanderung ≈ 0.02

• absolut konnen ca. 250 Stufen gleichzeitig (bei derselben photopischen Adaption) beob-achtet werden.

4.3.2.2 Raumliche Kontrastubertragung

• Der wahrnehmbare Kontrast ist abhangig von der ortlichen Frequenz (Bandpassverhalten)

• speziell: schnell variierende Bereiche haben geringere Kontrastempfindlichkeit (→ Irrele-vanz)

4.3.2.3 Raumzeitliche Ubertragungsfunktion

• Die zeitliche Auflosung des Auges hat ebenfalls Bandpasscharakter (Flimmerschwelle)

• Die zeitliche Auflosung der temporalen Retina (Stabchen) ist großer (Monitorflimmern)als in der nasalen Retina nahe der Fovea (Zapfchen)

• Das raumlich-zeitliche Kontrastverhalten hat daher ebenfalls Bandpassverhalten

4.3.2.4 Machbander und Kontrastverstarkung

Der Machband-Effekt bedeutet, dass an der Kante zwischen zwei konstanten Helligkeiten eineKontrastverstarkung wahrgenommen wird. Dieses ist ein Effekt der neuronalen Vorverarbeitung,den man auch “unsharp masking” nennt.⇒ I(x) = I(x)−I(x−1) +I(x+1) beiI(x−1) < I(x), I(x−1)

Viele weitere Effekte konnen beobachtet werden, die alle auf Verhaltnissen von Intensitatenbasieren.

Page 38: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

32 KAPITEL 4. LICHT UND PSYCHOOPTISCHE WAHRNEHMUNG

4.3.3 Farbwahrnehmung

Die Frequenz des Lichtes bestimmt seine Farbe. Sind mehrere Frequenzen uberlagert, so hatman ein Frequenzspektrum, welches die Farben bestimmt.

Newton fand bereits die spektrale Zusammensetzung des Lichtes heraus. Normalerweise erschei-nen Objekte farbig, weil sie nur einen Teil des Spektrums reflektieren und den Rest absorbieren.D. h. jeder Objektpunkt enthalt ein komplettes Spektrum des Lichtes. Dieses kann mit einemColorimeter oder Spektroskop analysiert werden (Emissions-/Remissionskurven).Bereits Newton fand heraus, dass es moglich ist, verschiedene Farben uber Prismen zu generierenund sogar wieder zu rekonstruieren (additive Farbmischung).

Thomas Young untersuchte dann 1801 die Farbwahrnehmung des Auges und hypothetisier-te, dass das Auge drei verschiedene Spektralanteile unterscheiden muss. Dieses wurde dannvon Helmholtz nachgewiesen. Es muss daher unterschieden werden zwischen den physikalischenSpektren und der wahrnehmbaren Farbe. Dieses wird im psychooptischen Modell des Sehsinnsuntersucht.

4.3.3.1 Farbe

Das Frequenzspektrum des Lichtes wird durch die Zapfchentypen S, M, : (small = blue, middle= green, large = green-yellow) aufgenommen. D. h. das Linienspektrum wird uber jeden derTypen mit einer spezifischen Ubertragungsfunktion integriert. Die integrierte Gesamtenergie desSpektrums erzeugt dann Nervenimpulse, die als Farbwahrnehmung interpretiert werden. Dabeiist es egal, wie die spektrale Zusammensetzung des Lichtes ist, wenn sie nur aquivalente Reizein den Zapfchen erzeugt. Eine bestimmte Farbe entspricht dem entsprechenden Reizmuster.

⇒ Lichtquelle C(λ) erzeugt drei Wahrnehmungen

Ri(c) =

λHi(λ) · C(λ)dλ i = 1, 2, 3 (S, M, L)

Es gilt: 2 Quellen C1(λ), C2(λ), deren Reize Ri identisch ist, werden gleich wahrgenommen!

4.3.3.2 Tristimulus-Experiment

These: Alle Farben lassen sich durch gewichtete Uberlagerung aus drei Primarfarben generieren(Newton/Young)

• Pi sind drei Primarfarbspektren

• mi sind Gewichte (additiv) zur Intensitatsmischung

• Beobachter wahlt Gewichte mi, mi ∈ [−1, 1] so, dass die additive Uberlagerung der Ver-gleichsfarbe entspricht.

• Gewichte teilweise negativ (d. h. nicht darstellbar!) ⇒ erreicht durch Addition bei Ver-gleichsfarbe ⇒ Bewertung der Beobachters: Wann ist Wahrnehmung Ri(C1) = Ri(C2)?

Page 39: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

4.3. PSYCHOOPTISCHES WAHRNEHMUNGSMODELL 33

Tristimulus-Experiment

• Vorgabe einer spektralen Farbe (konstante Intensitat Iv, schmalbandiges Spektrum) C(λ1)

• Mischung der als gleich empfundenen Farbe des C(λ1) aus drei PrimarfarbenC(λ1) =

∑3j=1mjPj

• Test der empfundenen Gleichheit Ri (Response der Zapfchen):

Ri =∫C(λ1)Hi(λ)dλ =

∫ ∑3j=1mjPjHi(λ)dλ

Farbempfinden der einzelnen Zapfchen

⇒ Ri =∑3

j=1mj

︷ ︸︸ ︷∫PjHi(λ)dλ

66

Gewicht der Primeries Pjwahrgenommene Farbe, uber Reize der Zapfchen

• Bewertung des Experimentes

1. Jede Farbe kann durch die Linearkombination der drei (beliebigen, aber unabhangigen)Primarfarben gebildet werden.

2. Nicht jede Farbe ist durch rein additive Mischung erzielbar.

• Normierung der Kurven bzgl. weiß:

– Tristimulus-Experiment fur Standard-Weiß

– Leistung der Primaryquellen Φr : Φg : Φb = 1 : 1.4 : 72.1

⇒ wj = gemischtes Standard-Weiß

Normierung mit wj : R =r

wr, G =

g

wg, B =

f

wb

⇒ RGB-Farbraum R,G,B ≤ 1, aber G < 0 !

⇒ Additive Mischung kann nicht G < 0 erzeugen (einige Farben nicht darstellbar)

Diagonale R = G = B : Grautone schwarz-weiss

Page 40: Script zur Vorlesung Kompression multimedialer Daten Dateien/uni/ScriptKapitel1-4.pdfScript zur Vorlesung Kompression multimedialer Daten Institut f ur Informatik der Christian-Albrechts-Universit

34 KAPITEL 4. LICHT UND PSYCHOOPTISCHE WAHRNEHMUNG

4.3.3.3 Farbmischung aus Primarfarben

• Auswahl der Primarfarben (CIE primaries)

• Farbmischung C(λ) =∑3

j=1mjPj

• Response der Zapfchen Ri(C) =∫λC(λ) ·Hi(λ)dλ

⇒ Ri(C) =

3∑

j=1

mj ·∫

λPjHi(λ)dλ

︸ ︷︷ ︸

li,j konstant, berechenbar fur spezielle Primarfarben Pj

⇒ Ri(C) =

3∑

j=1

mj · li,j (3 x 3 Matrix)

• Ri(c) beschreibt die empfundenen Farbvalenzen (Farbempfindungen) fur drei ausgewahlte Primarfarben

• Wahlt man die Primarvalenzen Rot, Grun, Blau, dann erzeugt das Tristimulus-Experiment dieSpektralwertkurven mit den Gewichten m1 = r,m2 = g,m3 = b

• Die Kurven sind nicht normiert und werden durch weiß normiert: Tj =mjwj

, wj = Mischung von

Standard-Weiß ⇒ Tj = R,G,B, [CIE tristimulus] ⇒ RGB-Colorspace

4.3.3.4 Spektralkomponenten

• Reine Spektralinformation soll keine Helligkeitsinformation mehr erhalten

⇒ Helligkeit rauskurzen (R + G + B)

⇒ r = RR+G+B g = G

R+G+B

⇒ 2 Spektralkomponenten (Chromaticity) Farbinformation in der r-g-Ebene, aber noch neg.Werte moglich

⇒ x-y-Ebene des normierten XYZ-Farbraums durch lineare Abbildung

Rechtfertigung der Spektral/Intensitataufteilung// Untersuchungen am Sehnerv zeigen, dass dievisuelle Vorverarbeitung eine ahnliche Transformation vornimmt. Es gibt die Kanale A (achroma-tisch) Rot/Grun, und Gelb/Blau, die einen 3D-Farbraum aufspannen (wie I - x - y))

4.3.3.5 Farbempfinden/Farbahnlichkeit

• Bestimmung der Farbkontrastschwelle (Bereiche gleicher Wahrnehmung)

1. sehr nichtlinear in r - g (x - y) - Farbraum ⇒ Probleme, da hier die Farbabstande subjektivnichtlinear verlaufen (Footprints) ⇒ Transformation zu besserem Linearitatsverhalten, z. B.Lab

2. x - y - ebene ist nicht intuitiv, daher Farbebene nochmals spezialisieren z. B. in Farbton (Hue)und Farbsattigung (Saturation)

⇒ HSI-Farbraum (Polarkoordination)

Es gibt eine Vielzahl von Farbraumen, je nach Bedarf.