Kommunikationstechnik II - ak.tu-berlin.de · von Sony und Philips entwickelten Compact Disc (CD)...

76
Kommunikationstechnik II Prof. Dr. Stefan Weinzierl Autoren: Stefan Weinzierl & Alexander Lerch Sommersemester 2006

Transcript of Kommunikationstechnik II - ak.tu-berlin.de · von Sony und Philips entwickelten Compact Disc (CD)...

Kommunikationstechnik II

Prof. Dr. Stefan Weinzierl

Autoren: Stefan Weinzierl & Alexander LerchSommersemester 2006

Inhaltsverzeichnis

1 Einleitung 5

2 Grundlagen 92.1 Beschreibung von Zufallssignalen. . . . . . . . . . . . . . . . . . . . . 92.2 Abtastung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .122.3 Quantisierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.4 Dither . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .192.5 Uberabtastung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.6 Noise-Shaping. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.7 Delta-Sigma-Modulation. . . . . . . . . . . . . . . . . . . . . . . . . . 282.8 Zahlendarstellung und Zahlenformat. . . . . . . . . . . . . . . . . . . . 29

2.8.1 Festkomma-Format. . . . . . . . . . . . . . . . . . . . . . . . . 302.8.2 Gleitkomma-Darstellung. . . . . . . . . . . . . . . . . . . . . . 31

3 A/D- und D/A- Wandlung 333.1 A/D-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1.1 Parallel-Wandler. . . . . . . . . . . . . . . . . . . . . . . . . . 333.1.2 SAR-Wandler. . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.1.3 Delta-Sigma-Wandler. . . . . . . . . . . . . . . . . . . . . . . 35

3.2 D/A-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2.1 R-2R-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2.2 Delta-Sigma-DA-Wandler. . . . . . . . . . . . . . . . . . . . . 35

3.3 Kenn- und Messgroßen fur Wandler . . . . . . . . . . . . . . . . . . . . 36

4 Kodierung 414.1 Grundlagen der Informations- und Kodierungstheorie. . . . . . . . . . . 414.2 Kanalkodierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2.1 Einfache Kodes. . . . . . . . . . . . . . . . . . . . . . . . . . . 434.2.2 Gruppenkodes. . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.3 Fehlererkennung - Fehlerkorrektur. . . . . . . . . . . . . . . . . . . . . 454.3.1 Paritat und Hamming-Distanz. . . . . . . . . . . . . . . . . . . 474.3.2 Blockkodes und Faltungskodes. . . . . . . . . . . . . . . . . . . 48

4.4 Interfaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .50

3

4

4.4.1 AES 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.4.2 AES 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.5 Bitratenreduktion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.5.1 Redundanzkodierung. . . . . . . . . . . . . . . . . . . . . . . . 53

4.5.1.1 Lineare Pradiktion . . . . . . . . . . . . . . . . . . . . 544.5.1.2 Entropiekodierung. . . . . . . . . . . . . . . . . . . . 554.5.1.3 Beispiel MPEG-4 ALS. . . . . . . . . . . . . . . . . 56

4.5.2 Irrelevanzkodierung. . . . . . . . . . . . . . . . . . . . . . . . 574.5.2.1 Verdeckung und Frequenzgruppen. . . . . . . . . . . 594.5.2.2 Beispiel MPEG-4 AAC. . . . . . . . . . . . . . . . . 614.5.2.3 Qualitat . . . . . . . . . . . . . . . . . . . . . . . . . 654.5.2.4 Auswahlkriterien von Kodierungsverfahren. . . . . . . 67

Abbildungsverzeichnis 69

Tabellenverzeichnis 71

Literaturverzeichnis 73

Kapitel 1

Einleitung

Seit Ende der 70er Jahre findet im Audiobereich ein grundlegender Systemwandel mitder Ablosung analoger Systeme durch digitale Technologien statt. Wesentliche Grundefur diesen Wandel waren

• die uberwiegenduberlegenen technischenUbertragungseigenschaften digitaler Au-diotechnologie (Frequenzgang, Verzerrungen, Signal-Rauschabstand, Gleichlauf)

• die Moglichkeit verlustlosen Kopierens und Archivierens digitaler Inhalte

• umfangreichere Moglichkeiten der Signalbearbeitung und Editierung

• der Preisverfall digitaler Hard- und Software im Vergleich zu hochwertiger analogerSchaltungstechnik

• die Konvergenz digitaler Medien auf Seiten der Audioindustrie (technologischeKonvergenz) wie auf Seiten der Rezipienten (Konvergenz der Mediennutzung)

Der Umstieg von analogen zu digitalen Aufzeichnungsverfahren im Audiobereich wur-de von den meisten großeren Plattenfirmen Ende der 70er Jahre vollzogen. Das ersteim kommerziellen Einsatz befindliche, Harddisc-gestutzte Aufnahme- und Editierungs-system wurde bereits 1976 von Thomas Stockham unter dem Namen

”Soundstream“ ent-

wickelt. In der Breite setzten sich in der Produktion jedoch zunachst bandgestutzte Sy-steme durch: Sonys PCM 1600 Prozessor (1978), der ein zweikanaliges Digitalsignalso formatierte, daß es auf einem3/4-Zoll Videoband mit Schragspuren (U-matic) auf-gezeichnet werden konnte. Das weiterentwickelte 1610/1630-Format wurde schließlichzum Premaster-Format fur die CD-Fertigung. 1982 erschien Sony’s ursprunglich fur denConsumer-Bereich vorgesehener PCM-F1 Prozessor mit wahlweise 14 oder 16 Bit Wort-breite, der vor einen VCR-Recorder (Beta, VHS oder U-matic) geschaltet werden konnte.Gleichzeitig mit den genannten 2-Spur-Systemen wurde 1978 von der Firma 3M eine di-gitale 16-Spur-Maschine mit 16 Bit- und 50 kHz-Aufzeichnung vorgestellt, auf der 1979die ersten Digitalaufnahmen der Deutschen Grammophon aufgezeichnet wurden. Zu ei-nem Quasi-Standard wurde Sonys 1981 eingefuhrte PCM-3324 Maschine mit 24 Spuren,

5

6 KAPITEL 1. EINLEITUNG

die mit 44.1 kHz Abtastfrequenz auch keine Konvertierungsprobleme bei der Herstellungeines digitalen Premasters fur die CD-Herstellung mehr stellte.

Bereits vor der Einigung auf ein digitales Tontragerformat, das mit Markteinfuhrung dervon Sony und Philips entwickelten Compact Disc (CD) abgeschlossen war, wurde die Pro-duktionstechnik nachhaltig durch digitale Signalverarbeitung verandert. Darunter fallenEntwicklungen wie Digitale Synthesizer, Sampling Keyboards bzw. Standalone-Sampler,Drumcomputer und digital erzeugte Effekte wie Nachhallalgorithmen (Tabelle1.1). 1983wurde mit MIDI (Musical Instrument Digital Interface) ein Format fur den Austauschvon Steuerdaten zwischen Computer, Synthesizern und Samplern geschaffen, das den Pro-duktionsvorgang v.a. bei Aufnahmen von Popularmusik nachhaltig veranderte. Nach derEinfuhrung des Sequenzers war die Studiotechnik nicht mehr nur Mittel zurUbertragungund Abbildung von Audiosignalen (und sei es durch deren Verfremdung), sondern sieerlaubte eine programmgesteuerte Konstruktion des musikalischen Verlaufs selbst.

Hardware Markteinf uhrung Einf uhrungspreisDig. Synth. /Sampling KeyboardSynclavier 1978 100.000 DMFairlight CMI 1979 100.000 DME-mu Emulator 1981 20.000 DMKurzweil 250 1983 30.000 DMYamaha DX7 1983 4.000 DMDig. Effekt / NachhallLexicon Delta-T 101 Digital Delay 1971EMT 250 Digital Reverberation 1976Lexicon 224 Digital Reverberation 1978 7.900 $Lexicon 480 Digital Reverberation 1986Sony DRE-S777 Sampling Reverb 1999DrumcomputerLinn LM-1 1980 5.000 $MIDI Standard 1983EditorenSony DAE-1100 Umkopierschnittplatz 1980 ca. 200.000 DMSony DAE-3000 Umkopierschnittplatz 1987 ca. 200.000 DMSonic Solutions Harddisc Editing 1988

Tabelle 1.1:Einzug digitaler Signalverarbeitung im Tonstudiobereich

Im Consumer-Bereich wurde die Audio CD (CD-A) im Laufe der 80er Jahre zu einerganzen Familie von CD-Formaten erweitert, von denen die Daten-CD fur Computer-Anwendungen (CD-ROM) und ein beschreibbares Format (CD-R) die großte Verbreitungfanden. Das ursprunglich fur den Consumer-Markt entwickelte Digital Audio Tape mitrotierenden Tonkopfen (R-DAT, spater einfach DAT) fand dort nur geringe Akzeptanz,etablierte sich jedoch als 2-kanaliges Speichermedium im Tonstudio-Bereich. Nicht alledigitalen Speicher konnten sich am Markt behaupten: Die Produktion der 1992 als Kon-kurrenz zur MiniDisc von Phillips eingefuhrten Digital Compact Cassette (DCC) wurde1996 wieder eingestellt.

7

Mit der DVD-Video und der DVD-ROM begann 1997 die Einfuhrung der Digital VersatileDisc (DVD) als Nachfolger der CD-Familie.Außerlich kaum von der CD unterscheidbar,besitzt die DVD eine 8-fach hohere Datendichte auf bis zu 4 Datenschichten. Jungster Ver-treter der Familie war die 1999 eingefuhrte DVD-Audio, die seither mit der von Sony undPhillips entwickelten Super Audio CD (SACD) auf dem audiophilen Markt konkurriert(Tabelle1.2).

Tontr ager/Format Markteinf uhrungPCM-1600 (U-matic) 1978PCM-1 (Betamax)Digitale Mehrspurrekorder 1978(3M, Sony PCM 3324)PCM-F1 1982ADAT (Alesis) 1991DA-88 (Tascam) 1993Compact Disc (CD) 1982 (Europa, Japan)

1983 (USA)CD-ROM 1985CD-R 1990Digital Audio Tape (DAT) 1987MiniDisc (MD) 1991Digital Compact Cassette (DCC) 1992 (bis 1996)DVD-Video 1997DVD-ROMDVD-Audio 1999Super Audio Disc (SACD) 1999

Tabelle 1.2:Einfuhrung digitaler Speichermedien

Auch im Bereich des Filmtons konkurrieren seit Mitte der 90er Jahre drei Systeme, dieMehrkanalton in einem datenreduzierten Format zur Verfugung stellen: Dolby Digital undSony Dynamic Digital Sound (SDDS), die als digitaler Lichtton auf der Filmrolle abgelegtsind, sowie das von Digital Theater Systems entwickelte DTS, bei dem sich der Ton aufeiner externen CD-ROM befindet, die mittels einer auf den Film belichteten Timecode-Spur zum Bild synchronisiert wird.

Format Premierenfilm Jahr Kan ale Codec TontragerDTS Jurassic Park 1993 5 apt-X100 CD-ROM (ext.)Dolby Digital Batman Forever 1995 6 AC-3 (Dolby Digital) FilmSDDS Last Action Hero 1993 8 ATRAC Film

Tabelle 1.3:Digitale Filmton-Formate

Aktuelle Entwicklungen im Bereich der digitalen Audiotechnik sind

• die Verlangerung der digitalenUbertragungskette durch die Entwicklung von Mi-

8 KAPITEL 1. EINLEITUNG

krofonen mit digitalen Ausgangssignalen und Lautsprechern, die digitale Eingangs-signale verarbeiten

• die Weiterentwicklung von Wandler-, Kodierungs- und Speichertechnologie hin zuhoheren Wortbreiten und Abtastraten

• die Erschließung neuerUbertragungs- und Vertriebskanale durch digitalen Rund-funk, digitales Fernsehen, lokale Netzwerke und das Internet.

Kapitel 2

Grundlagen

2.1 Beschreibung von Zufallssignalen

Signale, die sich durch analytische Ausdrucke wie Sinus- oder Rechteckfunktionen be-schreiben lassen, nennt mandeterministische Signale, da sie einen vorhersagbaren Ver-lauf besitzen. In der Audiotechnik (ebenso wie in der Bildverarbeitung)hat man es in derRegel mitnicht-deterministischen Signalen(stochastische Signale, Zufallssignale) zu tun,deren Verlauf sich nicht durch einen mathematischen Ausdruck beschreiben lasst.Das Handwerkszeug, mit dem Zufallssignale beschrieben werden, ist die Zuordnung vonstatistischen Mittelwerten zu einem Zufallsprozess. Dies konnen Mittelwerteuber die ver-schiedenen Auspragungen (auchRealisationenoderMusterfunktionen) eines Zufallspro-zesses sein, sog.Scharmittelwerte, oder Mittelwerteuber den Verlauf eines Zufallsignalsentlang der Zeitachse (Zeitmittelwerte). Bei ergodischen Prozessenlassen sich Scharmit-telwerte durch Zeitmittelwerte ersetzen.Die Zuordnung von Mittelwerten zu einem Zufallsprozess setzt die Kenntnis der Wahr-scheinlichkeit voraus, mit der die stochastische VariableX einen Wert bzw. eine Signal-amplitudex annimmt. Fur diskrete Variablen ist dies die Einzelwahrscheinlichkeit

pi = P (X = xi) (2.1)

mit der Bedingung

0 ≤ pi ≤ 1 (2.2)

und der Normierung ∑i

pi = 1 (2.3)

Fur kontinuierliche Variablen X beschreibt dieWahrscheinlichkeitsdichtefunktion(WDF)pX(x) die Wahrscheinlichkeit, dass die Variable X einen Wert zwischen x und x+dx an-nimmt:

9

10 KAPITEL 2. GRUNDLAGEN

pX(x)dx = P (x < X ≤ x + dx) (2.4)

mit der Bedingung

pX(x) ≥ 0 (2.5)

und der Normierung ∫ +∞

−∞pX(x)dx = 1 (2.6)

Auf die doppelte Formulierung fur diskrete und kontinuierliche Variablen X soll in Zu-kunft verzichtet werden, da sich die eine leicht aus der anderen ableiten lasst.

Die WahrscheinlichkeitsdichtefunktionpX(x) lasst sich aus der Messung von einzelnenRealisationen schatzen oder aus theoretischen Annahmenuber den zugrundeligenden Pro-zess ableiten. Mit Hilfe der WDF lassen sich der Zufallsvariablen X sog.Erwartungswertezuordenen mit

Ef(X) =

∫ +∞

−∞f(x)pX(x)dx (2.7)

wobeif(X) eine beliebige Funktion der Zufallsvariable X ist.

Fur f(X) = X ergibt sich der lineare Mittelwert

EX =

∫ +∞

−∞xpX(x)dx = µX (2.8)

Fur f(X) = X2 ergibt sich der quadratische Mittelwert

EX2 =

∫ +∞

−∞x2pX(x)dx (2.9)

Fur f(X) =| X − µX |2 ergibt sich mit

E| X − µX |2 =

∫ +∞

−∞| x− µX |2 pX(x)dx = σ2

X (2.10)

die Varianzσ2X der ZufallsvariablenX.

Die Autokorrelationsfunktion(AKF) eines Signalsx(t) ist definiert durch

ϕxx(t1, t2) = Ex(t1)x(t2) (2.11)

Sie ist ein Erwartungswert 2. Ordnung, da sie von der Signalamplitude zu zwei verschie-denen Zeitpunktent1 und t2 abhangt. Fur stationare Zufallsprozessehangen die Erwar-tungswerte 2. Ordnung nicht von den konkreten Zeitpunktent1 und t2 ab, sondern nur

2.1. BESCHREIBUNG VON ZUFALLSSIGNALEN 11

von der Differenzτ = t1 − t2. Falls diese Bedingung nicht fur alle Erwartungswerte 2.Ordnung, sondern nur fur die AKF erfullt ist, spricht man von einemschwach stationarenProzess. In diesem Fall gilt

ϕxx(τ) = Ex(t− τ) (2.12)

Die Autokorrelationsfunktionen hatte einige charakteristische Eigenschaften. Zum einenhat sie eine gerade Symmetrie, d.h.

ϕxx(τ) = ϕxx(−τ) (2.13)

Dies ergibt sich unmittelbar aus der Definition schwach stationarer Prozesse, wie sichdurch Substitution zeigen lasst:

Ex(t)x(t + τ) = Ex(t′ − τ)x(t′) = Ex(t′)x(t′ − τ) (2.14)

Das bei der Bildung der AKF zu berechnende Produktx(t)x(t − τ) kann bei Wechsel-großen positive oder negative Werte annehmen, ebenso wie der daraus gebildete Erwar-tungswertϕxx(τ). Ihr Maximum nimmt die AKF fur τ = 0 an, wox(t)x(t− τ) = x(t)2.Dies lasst sich zeigen, indem man die sicher postive Große

E(x(t)x(t− τ))2 = ϕxx(0) + 2ϕxx(τ) + ϕxx(0) ≥ 0 (2.15)

betrachtet. Daraus ergibt sich unmittelbar

ϕxx(τ) ≤ ϕxx(0) (2.16)

ϕxx(0) entspricht dem quadratischen Mittelwert der VariablenX und ist damit ein Maßfur die Leistung des ZufallsprozessesX.

Zur Beschreibung von Zufallssignalen im Spektralbereich transformiert man nicht dasSignal selbst in den Frequenzbereich, da das Fourierintegral

X(ω) =

∫ +∞

−∞x(t)e−jωtdt (2.17)

in der Regel nur exisistiert, wennx(t) absolut integrierbar ist, d.h.∫ +∞

−∞| x(t) | dt < ∞ (2.18)

Da dies fur stationare Zufallsprozesse, die fur t → ∞ nicht abklingen, nicht der Fall ist,bildet man zunachst den Erwartungswert im Zeitbereich und transformiert diese - danndeterministische - Große in den Frequenzbereich.

So definiert man dasLeistungsdichtespektrum(LDS) als Fouriertransformierte der Auto-korrelationsfunktion, d.h.

Sxx(ω) = Fϕxx(τ) (2.19)

12 KAPITEL 2. GRUNDLAGEN

Damit ist

ϕxx(τ) = F−1Sxx(ω) =1

∫ +∞

−∞Sxx(ω)e−jωτdω (2.20)

und fur den quadratischen Mittelwert vonx(t) gilt dann

Ex(t)2 = ϕxx(0) =1

∫ +∞

−∞Sxx(ω)dω (2.21)

Das LDS ist eine rein reelle Funktion. Dies lasst sich aus den Symmetrieeigenschaften derAKF ableiten. Bis auf den Faktor1/2π entspricht die Signalleistung dem Integral des LDSuber den gesamten Frequenzbereich. Das LDSSxx(ω) beschreibt somit die Verteilung derLeistung des Signals in unendlich viele infinitesimal kleine Frequenzbander der Breitedω.

2.2 Abtastung

Der Verlauf zeit- und wertekontinuierlicher Signale wie der von einer Schallquelle erzeug-te Schalldruck im Raum oder die von einem Mikrofon abgegebene Spannung wird alsanalogbezeichnet. Um solche Signale in einem Digitalrechner mit begrenztem Speicherablegen und verarbeiten zu konnen, muss der Zeitverlauf diskretisiert, d.h. zu bestimm-ten Zeitpunkten abgetastet werden, so daß nur die einzelnen Amplitudenwerte zum Ab-tastzeitpunkt gespeichert werden mussen. Die Frequenz dieser Abtastung wird Abtastrate(sampling rate) genannt. Abbildung2.1zeigt einen Ausschnitt eines kontinuierlichen (ana-logen) Signals und die resultierende Abtastfolge.Die Frequenzzuordnung eines abgetasteten Signals ist nicht eindeutig; so fuhren beispiels-weise in dem in Abbildung2.2dargestellten Beispiel alle Sinusschwingungen zu der glei-chen Folge von Abtastwerten.Abb. 2.3stellt Sinusschwingungen der Frequenzen 1 kHz, 5 kHz, 7 kHz und 11 kHz unddie dazugehorigen Abtastwerte bei einer Abtastfrequenz von 6 kHz dar: die Frequenz derresultierenden Abtastfolge ist in allen Fallen gleich.Es laßt sich zeigen, daß das Spektrum eines abgetasteten Signals das periodisch mit derAbtastfrequenz wiederholte Spektrum des Originalsignals ist.Abb. 2.4 veranschaulicht diese Periodizitat, aus der sich unmittelbar das sogenannte Ab-tasttheorem ergibt:

Ein abgetastetes Signal lasst sich ohne Informationsverlust rekonstruieren, wenn dieAbtastfrequenzfS mindestens doppelt so hoch ist wie die hochste im Signal vorkom-mende Frequenzfmax.

fS > 2fmax

2.2. ABTASTUNG 13

Abbildung 2.1: Kontinuierliches Signal (oben) und zugehorige Abtastfolge bei einer Abtastfre-quenz von 50 Hz (unten)

Abbildung 2.2: Mehrere Sinusschwingungen unterschiedlicher Frequenz und Phase fuhren zu dergleichen Folge von Abtastwerten

Wird das Abtasttheorem verletzt,uberlappen sich die periodisch fortgesetzten Spektrenund man spricht von Unterabtastung, d.h. es entstehen innerhalb der Bandbreite des Ori-ginalsignals Spiegelfrequenzen. Dieser Effekt wird als Aliasing bezeichnet. Zur Vermei-dung solcher Aliasing-Artefakte muß das Eingangssignal so bandbegrenzt werden, daßdas Abtasttheorem erfullt ist. Daher befindet sich vor jedem A/D-Wandler ein analogesTiefpaßfilter, das alle Frequenzanteile oberhalb der halben Abtastfrequenz abschneidetbzw. moglichst stark dampft. Die Eigenschaften dieses Antialiasing-Filters beeinflussendie Qualitat des A/D-Wandlers.

Ein anschauliches Beispiel einer Unterabtastung im Visuellen findet man invielen Westernfilmen. Die Speichenrader einer Kutsche drehen sich mit der er-warteten Geschwindigkeit und Richtung, solange die Kutsche langsam fahrt.

14 KAPITEL 2. GRUNDLAGEN

Abbildung 2.3: Darstellung von analogem und abgetastetem Zeitverlauf von Sinusschwingungender Frequenzen 1 kHz, 5 kHz , 7 kHz und 11 kHz, die Abtastfrequenz ist 6 kHz; oben: kontinuier-licher Zeitverlauf, unten: abgetasteter Zeitverlauf

Abbildung 2.4: Spektrum des kontinuierlichen Signals (schematisch, links) und der zugehorigenAbtastfolge (rechts) mit Seitenbandern bei Vielfachen der AbtastfrequenzfS . Wird die Bandbreitedes Ausgangssignals nicht auf die Halfte der Abtastfrequenz begrenzt,uberlappen sich die Sei-tenbander (unten)

2.3. QUANTISIERUNG 15

Ubersteigt die Speichengeschwindigkeit allerdings die halbe Abtastfrequenzder Kamera (24 Hz), so nimmt die wahrgenommene Geschwindigkeit des Ra-des wieder ab. Die unterabgetastete Drehung produziert eine Aliasingkompo-nente, die mit zunehmender Drehfrequzenz abnimmt. Wenn die Drehfrequenzdie Abtastfequenz erreicht, scheint das Rad stillzustehen.

Zur Rekonstruktion des analogen Signals aus dem digitalen Signal ist aufgrund der Peri-odizitat des Spektrums ebenfalls ein Tiefpaßfilter (Rekonstruktionsfilter) erforderlich, dasnur Signalfrequenzen unterhalb der halben Abtastfrequenz passieren laßt.

Abbildung 2.5: Notwendige Verarbeitungsschritte vor und nach der Abtastung eines Signals

Theoretisch ist ein unter Berucksichtigung des Abtasttheorems abgetastetes Signal in demin Abb. 2.5 dargestellten Ablauf fehlerfrei rekonstruierbar, wenn Filter und Abtastungideal sind.

2.3 Quantisierung

Ebenso wie ein digitales Signal keinen kontinuierlichen Zeitverlauf haben kann, kannes auch keinen kontinuierlichen Amplitudenverlauf besitzen, da nur diskrete Werte ab-gespeichert werden konnen. Die fur die Digitalisierung notwendige Amplitudendiskre-tisierung (Quantisierung) wird durch die Quantisierungskennlinie beschrieben. Sie ent-spricht einer Treppenfunktion mit der Schrittweite bzw. dem Quantisierungsintervall∆.Bei der Darstellung des Amplitudenwerts durch einen binaren Zahlenwert bestimmt dieWortbreite, d.h. die Zahl der Bits pro Zahlenwert, die Zahl der Quantisierungsstufenund damit die Auflosung des Quantisierers. Bei einer Wortbreite von 16 Bit sind so-mit 216 = 65536 Quantisierungsstufen moglich. Bei einem Aussteuerungsbereich von-2V bis 2V entspricht in diesem Fall ein Quantisierungsintervall∆ einer Spannung von4V/65536 = 61µV .Abb. 2.6 zeigt eine Quantisierungskennlinie und den Quantisierungsfehler inAbhangigkeit des Eingangswertes. Der Quantisierungsfehler hat bei nichtubersteuertenSignalen maximal den Betrag∆/2.

16 KAPITEL 2. GRUNDLAGEN

Abbildung 2.6: links: Kennlinie des Quantisierers, rechts: Quantisierungsfehler in Abhangigkeitder Eingangsamplitude

Im Audiobereich wirdublicherweise eine sogenannte”mid-tread“-Kennlinie verwendet,

die eine Quantisierungsstufe fur die Amplitude 0 besitzt und aus diesem Grund nichtsymmetrisch ist, sondern im negativen Amplitudenbereich eine Quantisierungsstufe mehrbesitzt (bei 16 Bit Wortbreite konnten dann Werte von -32768 bis 32767 dargestellt wer-den). Bei den im Audiobereich typischen, hohen Wortbreiten kann diese Asymmetrievernachlassigt werden.Wahrend sich die bei der Abtastung eines Signals verlorenen Signalanteile unter den ge-nannten Voraussetzungen zumindest theoretisch wieder vollstandig rekonstruieren lassen,ist dies im Falle der Quantisierung nicht moglich. Bei jeder Quantisierung wird unver-meidlich ein Fehler gemacht, der Quantisierungsfehlerq(n). Er ist die Differenz zwischenquantisiertem SignalxQ(n) und Originalsignalx(n) zu einem beliebigen Abtastzeitpunktn. Die Quantisierung lasst sich somit als Addition eines Fehlersignalsq(n) zum Eingangs-signalx(n) beschreiben (s. Abb.2.7).

Abbildung 2.7: Quantisierungsvorgang

Abb. 2.8zeigt den Quantisierungsfehler eines mit 4 Bit quantisierten, optimal ausgesteu-erten Sinussignals.Aus der Kennlinie (Abb.2.6) ergibt sich die Amplitude des Quantisierungsfehlers inAbhangigkeit von der Amplitude des Eingangssignals.Das Ausmaß des durch die Quantisierung induzierten Fehlers wirdublicherweisedurch den Signalrauschabstand (Signal-to-Noise-Ratio SNR) beschrieben, der als Pegel-verhaltnis von SignalleistungWS zu FehlerleistungWF berechnet wird.

2.3. QUANTISIERUNG 17

Abbildung 2.8: links oben: das kontinuierliche Originalsignal; rechts oben: das mit einerAuflosung von 4 Bit quantisierte Signal; unten: der dabei gemachte Quantisierungsfehler

SNR = 10 · log10

WS

WF

(2.22)

Der Quantisierungsfehler ist, ebenso wie das Anregungssignal (Musik, Sprache), durchdas er induziert wird, ein stochastisches Signal. Seine Leistung ergibt sich womit aus derWahrscheinlichkeitsdichtefunktion der Amplitude des Fehlersignals. Sie wird auch alsAmplitudendichteverteilung (ADV) bezeichnet und gibt fur jeden moglichen Amplituden-wert die zugehorige Auftretenshaufigkeit an. Fur einen gut ausgesteuerten Quantisiererskann ein Quantisierungsfehler mit gleichverteilter Amplitudendichteverteilung angenom-men werden, d.h. daß alle moglichen Amplitudenwerte mit gleicher Wahrscheinlichkeitauftreten.

Abbildung 2.9: Amplitudendichteverteilung des Quantisierungsfehlers

18 KAPITEL 2. GRUNDLAGEN

Da der mogliche Wertebereich des Fehlers−∆/2 bis ∆/2 ist und die Summe aller Wahr-scheinlichkeiten den Wert 1 ergeben muß (s.2.3), ist somit die Auftretenswahrscheinlich-keit jedes einzelnen Amplitudenwertes1/∆. Abb. 2.9 zeigt die gleichverteilte ADV desQuantisierungsfehlers. Die ADV eines typischen Audiosignals ist in Abb.2.10dargestellt.

Abbildung 2.10: typische Amplitudendichteverteilung eines Musiksignals (linker und rechter Ka-nal)

Andererseits kann der Quantisierungsfehler als weißes Rauschen angenommen werden,so daß alle Frequenzen gleichstark vertreten sind. Die Leistung des Fehlersq laßt sich ausseiner ADVuber das in Glg.2.23angegebene Integral berechnen:

WQ =

+∞∫−∞

q2pQ(q)dq =1

−∆/2∫∆/2

q2dq =∆2

12(2.23)

Legt man als Nutzsignal ein vollausgesteuertes Sinussignal zugrunde mit der resultieren-den Leistung

WS =(∆ · 2w−1)2

2(2.24)

so ergibt sich fur den Signalrauschabstand (SNR) ein Wert von

SNR = 10 · log10(WS

WF

)

= 10 · log10(∆2 · 22w−2

2· 12

∆2)

= 10 · log10(3

2· 22w)

= 6.02 · w + 1.76 [dB] (2.25)

Somit ergibt sich ein theoretischer SNR aufgrund des Quantisierungsfehlers von etwa 98dB (16 bit), 122 dB (20 bit) bzw. 146 dB (24 bit). Ein vollausgesteuertes Sinussignal wirdz.B. als Testsignal zur Messung des SNR von realen Wandlern benutzt. Abweichungen

2.4. DITHER 19

des Messwerts (der auch bei 24-bit-Wandlern real selten hoher als 100 dB liegt) von dennach Glg. (2.25) berechneten Werten weisen dann auf Fehler des Wandlers hin.Bezieht man den Quantisierungsfehler nicht auf ein sinusformiges Testsignal, sondern aufdie Amplitudenverteilung eines Musiksignals, die typischerweise eine annahernd gauß-oder laplaceverteilte ADV aufweist (Abb.2.10), liegt auch der theoretische SNR um etwa10 dB unter dem nach Glg. (2.25) berechneten Wert.

Abbildung 2.11: theoretisch erreichbarer Signalrauschabstand eines Quantisierers mit der Wort-breite 16 Bit in Abhangigkeit von der Aussteuerung eines sinusformigen Eingangssignals

Der oben hergeleitete SNR ist der maximale SNR bei Vollaussteuerung. Abb.2.11zeigtden bei einer Wortbreite von 16 Bit theoretisch erreichbaren SNR in Abhangigkeit derAmplitude eines sinusformigen Eingangssignals. Unter den genannten Bedingungen kannder Quantisierungsfehler als weißes Rauschen angenommen werden, d.h. jede Frequenzist in dem Fehlersignal gleichstark vertreten.Ubersteigt der Maximalwert des zu quan-tisierenden Signals allerdings die Maximalaussteuerung des Quantisierers, so tritt eineUbersteuerung (Clipping) auf, das zu einer drastischen Verschlechterung des SNR und zunichtlinearen Verzerrungen fuhrt, die in Abb.2.12fur ein sinusformiges Signal dargestelltsind.

2.4 Dither

Eine niedrige Aussteuerung des Eingangssignals fuhrt nicht nur zu einem geringeren Si-gnalrauschabstand, sondern kann einen weiteren unerwunschten Effekt haben: Das Rau-schen ist nicht mehr weiß wie bei guter Aussteuerung, sondern ist korreliert mit dem Ein-gangssignal. Dieser Effekt ist besonders deutlich bei niedriger Aussteuerung und tiefenEingangssignalfrequenzen. Die oben erwahnten Voraussetzungen fur eine gleichformigverteilte ADV des Quantisierungsfehler sind dann nicht mehr gegeben.Abbildung2.13zeigt ein mit drei Stufen quantisiertes Signal und dessen Quantisierungs-fehler. Der hier eingefuhrte Quantisierungsfehler ist kein Rauschen mehr, sondern eineVerzerrung, die bei niedrig ausgesteuertem Wandler (etwa im Ausklang von Musiksigna-len) horbar ist.

20 KAPITEL 2. GRUNDLAGEN

Abbildung 2.12: nichtlineare Verzerrungen beiUbersteuerung eines Quantisierers, links oben:optimal ausgesteuertes Sinussignal, rechts oben: dazugehoriges Spektrum (dB), links mitte:ubersteuertes Sinussignal (ursprungliche Amplitude 1.4), rechts mitte: dazugehoriges Spektrum(dB), links unten:ubersteuertes Sinussignal mit Wrap-Around, rechts unten: dazugehoriges Spek-trum (dB)

Die Korrelation zwischen Signal und Quantisierungsfehler kann aufgehoben werden, in-dem vor dem Quantisierungsprozeß ein Zufallssignal, z.B. weißes Rauschen addiert wird.Dieses Rauschen wird Dither genannt. Zunachst naheliegend scheint die Annahme, diesesRauschen mußte so stark sein, daß es die o.g. Verzerrungen akustisch verdeckt; das mußaber nicht der Fall sein. Vielmehr genugt ein schwaches Rauschen, das zu einer nichtmehr deterministischen, gleichbleibenden Abfolge der ausgewahlten Quantisierungsstu-fen fuhrt, sondern zu einer zufalligen. Liegt beispielsweise am Eingang des Quantisiererseine Gleichspannung von 1.3mV, und wird das Signal in 1mV-Schritten quantisiert, dannwird das Ausgangssignal bei einem ungeditherten Eingang konstant bei 1mV liegen. Wirddas Eingangssignal hingegen gedithert, so wird es manchmal bei 2mV, haufiger bei 1mVund sehr selten bei anderen Quantisierungswerten liegen. Tatsachlich wird aber der Mit-

2.4. DITHER 21

Abbildung 2.13: oben: Originalsignal, mitte: 3-stufig quantisiertes Signal, unten: Quantisierungs-fehler

telwert des Ausgangssignals 1.3mV betragen; im zeitlichen Mittel ist also die geditherteQuantisierung genauer, da beliebige Quantisierungswerte moglich gemacht werden.Abbildung 2.14 zeigt das obige Beispiel mit einem hinzugefugten Dithersignal. Abbil-dung 2.15 zeigt die Spektren des quantisierten Signals und des gedithert quantisiertenSignals. Verwendet wurde ein Dither mit dreiecksformiger ADV.

Abbildung 2.14: oben: gedithertes Originalsignal, mitte: grob-stufig quantisiertes Signal, unten:Quantisierungsfehler bei gedithertem Eingang

22 KAPITEL 2. GRUNDLAGEN

Abbildung 2.15: Spektrum eines mit und ohne Dither quantisierten Signals; oben: gleichformiggedithert quantisiertes Signal, unten: ungedithert quantisiertes Signal

Die Wirkung des Dithering laßt sich leicht anhand eines Beispiels veranschau-lichen. Halt man sich eine Hand mit leicht geoffneten Fingern vor die Augen,so wird ein Großteil des Gesichtsfeldes von den Fingern abgedeckt, und nurdurch die Zwischenraume laßt sich etwas erkennen. Bewegt man diese Handallerdings sehr schnell, so lassen sich - wenn auch etwas undeutlich - auchdie Bereiche erkennen, die zuvor von den Fingern verdeckt waren.

Die durch die Nichtlinearitat der Quantisierungskennlinie hervorgerufenen Verzerrungentreten sowohl bei der Analog-Digital-Wandlung auf, als auch bei der Requantisierung digi-taler Signale, wie sie bei Formatwandlung, Speicherung oder bei Signalverarbeitungspro-zessen vorkommt. Da er mathematisch leichter zu modellieren ist, beschranken wir unsim folgenden auf digital erzeugten Dither, auch wenn die Ergebnisse ohne weiteres aufanalog erzeugte Dithersignaleubertragbar sind. Auf digitaler Ebene wird das Ditheringdurch Addition einer Zufallsfolged(n) zum Eingangssignalx(n) vor der Quantisierungvorgenommen.

Abbildung 2.16: links: Requantisierung mit Dithering durch eine Zufallsfolge d(n), rechts: Wort-breitenkonvention

2.4. DITHER 23

Fur die in Abb.2.16definierten Wortbreiten, einen Amplitudenbereich fur das Gesamt-signal von[−1 . . . 1] und ein (Re)Quantisierungsintervall von∆ = 2−(w−1) gilt f ur diemoglichen Dither-Amplituden

dk = k · 2−s ·∆ mit −2s−1 ≤ k ≤ 2s−1 − 1 (2.26)

Der Index k ist eine vonN = 2s moglichen Zahlen mit der Auftretenswahrscheinlichkeit

P (dk) =

2−s −2s−1 ≤ k ≤ 2s−1 − 10 sonst

(2.27)

Bei einer EingangsamplitudeV und einer (re)quantisierten Amplitudeg(V ) gilt f ur denmittleren Ausgangswertgm(V )

gm(V ) =∑

k

g(V + dk)P (dk) (2.28)

Der mittlere quadratische Ausgangswertg2m(V ) betragt

g2m(V ) =

∑k

g2(V + dk)P (dk) (2.29)

und fur die Varianzd2R(V ) gilt

d2R(V ) =

∑k

g(V + dk)− gm(V + dk)2P (dk)

= g2m(V )− gm(V )2 (2.30)

Abb. 2.17verdeutlicht die Linearisierung der Kennlinie durch Addition der Zufallsfolged(n): Die treppenformige Kennlinie mit der Stufenhohe∆ wird durch eine feinere Abstu-fung fur den mittleren Ausgangswertgm(V ) ersetzt. Die quadratische Abweichung vommittleren Ausgangswertd2

R(V ) bezeichnet man alsRauschmodulation. Fur gleichverteil-tes Dither ist die Rauschmodulation abhangig von der EingangsamplitudeV . Sie gehtgegen Null an den

”Ecken“ der Quantisierungskennlinie und ist maximal in der Mitte zwi-

schen zwei Quantisierungsubergangen. Sieaußert sich durch eine amplitudenabhangigeRauschintensitat, die vor allem bei niedrigen Pegeln horbar werden kann, z.B. im Aus-klang von Musiksignalen. Die Rauschmodulation lasst sich unterdrucken durch Dithermit dreieckformig verteilter Amplitudenhaufigkeit (zur Erzeugung s.u.). Bei Dither mitdreieckformiger ADV ist die Varianz konstant, es tritt keine Rauschmodulation auf.Das Dithersignal lasst sich auf digitaler Ebene durch einen Zufallszahlengenerator er-zeugen. Durch Zufallszahlen mit gleichverteilter Amplitudenhaufigkeit ergibt sich ein

24 KAPITEL 2. GRUNDLAGEN

Abbildung 2.17: links: Requantisierung mit RECT Dither, rechts: Requantisierung mit TRI Dither

Signal mit rechteckformiger Amplitudendichteverteilung (Rectangular Dither). Durch Ad-dition zweier unabhangiger, gleichverteilter Zahlenfolgen ergibt sich ein Signal mit drei-eckformiger ADV (Triangular Dither). Die Subtraktion zweier gleichverteilter Zahlenfol-gen ergibt eine Hochpassfilterung, die in den meisten Fallen zu einer subjektiven Qua-lit atsverbesserung fuhrt, da die Rauschleistung etwas aus dem Horbereich herausgescho-ben wird.

dRECT (n) = d(n) (2.31)

dTRI(n) = d1(n) + d2(n) (2.32)

dHP (n) = d(n)− d(n− 1) (2.33)

Abbildung 2.18 zeigt die Zeitverlaufe und die Amplitudendichteverteilungen vongleich- und dreieckformig verteiltem Rauschen. Analoge Rauschsignale weisen einegaußformige ADV auf.Die Verwendung unterschiedlicher Ditherformen fuhrt auch zu unterschiedlichem Pegeldes in das Signal eingefugten Rauschens. Der Rauschpegel von RECT-Dither hat eineADV, die dem Quantisierungsfehler selbst entspricht und dementsprechend eine Leistungvonσ2 = ∆2/12. Bei dreieckformigem TRI-Dither addiert sich die Leistung zweier gleich-verteilter Rauschsignale und die Gesamtleistung ergibt sich als∆2/6. Entsprechend verrin-gern sich die Signal-Rauschabstande bei der (Re)Quantisierung gemaß Glg. (2.34)

SNRRect = 6.02 · w − 1.24 [dB] RECT Dither (2.34)

SNRTri = 6.02 · w − 3 [dB] TRI Dither (2.35)

2.5. UBERABTASTUNG 25

Abbildung 2.18: Zeitverlaufe (links) und Amplitudendichteverteilungen (rechts) von Rauschen;oben: gleichverteilt, unten: dreieckformig verteilt

2.5 Uberabtastung

Um die Qualitat einer Digitalisierung zu verbessern, wird oftmals mit sog.Uberabtastung(Oversampling) gearbeitet.Uberabtastung bedeutet, daß das Audiosignal zunachst miteiner hoheren Frequenz abgetastet wird als nach dem Abtasttheorem gefordert und an-schließend auf die am Ausgang des Wandlers geforderte Abtastfrequenz konvertiert wird.Es existieren zwei Grunde fur diese Verfahrensweise. Der erste Grund ist die effizientetechnische Realisierung: um maximale Audiobandbreite bis nah an die halbe Abtastfre-quenz ohne aufwendiges Antialiasingfilter realisieren zu konnen, wird die Abtastrate sohochgesetzt, daß ein einfaches, nicht steiles Antialiasingfilter ausreicht, um das Abtast-theorem zu erfullen. Anschließend wird das Signal im digitalen Bereich tiefpaßgefiltert,so daß es die Anforderungen des Abtasttheorems fur die eigentlich gewollte Abtastfre-quenz erfullt.Dieses Vorgehen hat einen erwunschten Nebeneffekt, welcher der zweite Grund fur dietemporare Erhohung der Abtastfrequenz ist: der Signal-Rauschabstand (SNR) kann ver-bessert werden. Das ist zunachstuberraschend, da die Abtastrate im Grunde lediglich dieBandbreite des digitalisierten Signals beeinflußt, nicht den SNR. Zwei wichtige Eigen-schaften des Quantisierungsrauschens helfen jedoch bei einer Erklarung:

• Die Gesamtleistung des Quantisierungsrauschens ist unabhangig von der Abtastfre-quenz.

26 KAPITEL 2. GRUNDLAGEN

• Das Quantisierungsrauschen ist naherungsweise weißes Rauschen, dessen Leistunguber die gesamte Bandbreite des Signals gleichmaßig verteilt ist.

Wenn also die Gesamtleistung des Quantisierungsfehlers gleich bleibt, obwohl die Ab-tastfrequenz erhoht wird, dann wird bei Erhohung der Abtastfrequenz die durchschnitt-liche Leistung des Fehlers in einem festen Frequenzbereich sinken, da das Quantisie-rungsrauschen sichuber einen großeren Frequenzbereich erstrecken kann. Wendet mananschließend das oben genannte digitale Antialiasingfilter an, so wird der Anteil des Quan-tisierungsrauschenuber der endgultigen halben Abtastfrequenz

”herausgefiltert“, und der

SNR steigt. Man gewinnt mit solchen Oversamplingverfahren pro Frequenzverdopplungca. 3 dB Signal-Rauschabstand. Abb.2.19zeigt die Leistung des Quantisierungsfehlersim Normalfall und bei einem Oversamplingfaktor L.

Abbildung 2.19: Quantisierungsfehlerleistung ohne Oversampling (hellgrau) und nach L-fachemOversampling und Tiefpassfilterung (dunkelgrau)

2.6 Noise-Shaping

Noise-Shaping ist wie das Dithering eine Methode, die Qualitat eines Wandlers oder einerWortbreitenkonvertierung zu erhohen. Der Quantisierungsfehler, der bei normaler Quanti-sierung naherungsweise ein weißes Spektrum hat, wird dabei spektral geformt. Idealerwei-se wird die Rauschleistung von Frequenzbereichen hoher Gehorempfindlichkeit (wie z.B.2-4 kHz) in Bereiche geringerer Empfindlichkeit verschoben (zumeist hohe Frequenzbe-reiche). Diese Frequenzverschiebung wird durch eine Ruckkopplung (und Filterung) desQuantisierungsfehlers erreicht. Je nachdem, wieviele Koeffizienten das Filter fur dieseRuckkopplung hat, spricht man von Noise-Shaping verschiedener Ordnungen.Im Fall von Noise-Shaping erster Ordnung (s. Abb.2.20) wird der Quantisierungsfehlerfestgestellt und vom darauffolgenden Sample subtrahiert, es handelt sich also um eineeinfache Ruckkopplung ohne dedizierte Filterung des Quantisierungsfehlers. Durch dieRuckkopplung entsteht eine Verschiebung des Quantisierungsfehlers hin zu hoheren Fre-quenzen.

2.6. NOISE-SHAPING 27

z−1

- - -

-

6

?m+ m+m+r r

--

Quantisierer

e(n)

x(n) y(n)

Abbildung 2.20: Noise-Shaping 1. Ordnung

Jeder Ausgangswerty(n) ist daher die quantisierte Differenz von aktuellem Eingangswertx(n) und vorhergehendem Quantisierungsfehlerq(n). Dadurch ergibt sich ein Filter mitder Differenzengleichung

y(n) = [x(n)− e(n− 1)]Q

= x(n)− e(n− 1) + e(n) (2.36)

Die Ubertragungsfunktion laßt sich aus der Differenzengleichung mit der z-Transformation (s. z.B. Skript: Einfuhrung in die digitale Signalverarbeitung) bestimmten.Mit dieser ergibt sich im z-Bereich die Gleichung

Y (z) = X(z)− z−1 ·Q(z) + Q(z)

= X(z) + (1− z−1) ·Q(z) (2.37)

und somit eine RauschubertragungsfunktionHQ(z) = 1− z−1. Der sinusformige Ver-lauf des Betragsfrequenzgangs dieser spektralen Formung des Quantisierungsrauschensist in Abb. 2.21 dargestellt. DieUbertragungsfunktion des Nutzsignalsx(n) ist so-wohl in Betrag als auch Phase konstant. Wird das einzelne Verzogerungsglied imRuckkopplungszweig in Abb.2.20durch eine kompliziertere Funktion ersetzt, so erhaltman Noise-Shaping hoherer Ordnungen. Im einfachsten Fall handelt es sich bei hohererOrdnung ebenfalls um ein Hochpaßfilter, dessen Steilheit mit der Ordnung zunimmt. Abb.2.21zeigt die Betragsfrequenzgange fur Noise-Shaping erster bis vierter Ordnung.Bei hoheren Ordnungen lassen sich auch spezielle Rauschubertragungsfunktionen bilden,die komplexere spektrale Verschiebungen des Quantisierungsfehlers ermoglichen; auf die-se Weise ist die unterschiedliche Gewichtung verschiedener Frequenzbereiche denkbar.Manche Systeme formen beispielsweise die Rauschubertragungsfunktion so, daß sie diefrequenzabhangige Empfindlichkeit des menschlichen Gehors nachbildet.Noise-Shaping wird meistens in Zusammenhang mit Dither verwendet, um unerwunschteEffekte bei der Ruckkopplung des Quantisierungsfehlers zu vermeiden. Hierbei wird dasDitherrauschen direkt vor der Quantisierung eingefugt.

28 KAPITEL 2. GRUNDLAGEN

Abbildung 2.21: Betragsfrequenzgang Noise-Shaping verschiedener Ordnungen

2.7 Delta-Sigma-Modulation

Bei der Delta-Sigma-Modulation wird der entstehende Quantisierungsfehler wie beimNoise-Shaping spektral geformt. Dies geschieht durch Integrierung der Differenz zwi-schen Eingangssignal und quantisiertem Signal. Das Modell eines Delta-Sigma-Modula-tors 1. Ordnung ist in Abb.2.22dargestellt.

∫z−1

- - - -

6

?m+ m+ r-

Quantisierer

q(n)

x(n) y(n)

Abbildung 2.22: Delta-Sigma Modulator 1. Ordnung

Die Ubertragungsfunktion laßt sich in Abhangigkeit von derUbertragungsfunktion desIntegrierersH(z) wie folgt bestimmen:

2.8. ZAHLENDARSTELLUNG UND ZAHLENFORMAT 29

Y (z) =[X(z)− z−1 · Y (z)

]·H(z) + Q(z)

=H(z)

1 + z−1 ·H(z)︸ ︷︷ ︸Signal-Ubertragungsfunktion

·X(z) +1

1 + z−1 ·H(z)︸ ︷︷ ︸Rausch-Ubertragungsfunktion

·Q(z) (2.38)

Ist dieUbertragungsfunktion des Integrierers:

H(z) =1

1− z−1, (2.39)

so ergibt sich fur die SignalubertragungsfunktionHx(z) = 1 und damit eine konstan-te Ubertragungsfunktion, wahrend sich die Rauschubertragungsfunktion fur das Quanti-sierungsrauschen zuHQ(z) = 1− z−1 ergibt. Diese Rauschubertragungsfunktion gleichtder von Noise-Shaping 1. Ordnung und ist in Abb.2.21dargestellt.Die Gute eines Delta-Sigma-Modulators laßt sich direkt durch den Oversamplingfaktorund die Art bzw. Ordnung des Noise-Shaping beeinflussen. Je großer der Oversampling-faktor ist, desto mehr Signal-Rausch-Abstand kann erzielt werden, da mehr Anteile desQuantisierungsfehlers in nicht verwendete Frequenzbereiche verschoben werden. Da derQuantisierungsfehler spektral geformt ist, ist der SNR-Gewinn schon im Falle des Delta-Sigma-Modulators 1. Ordnung nicht nur wie beim

”einfachen“ Oversampling (vgl. Ab-

schnitt2.5) 3dB, sondern9dB pro Verdopplung des Oversamplingfaktors (s. Glg. (2.40).Delta-Sigma-Modulatoren hoherer Ordnung zeichnen sich durch starkere Filterung desQuantisierungsrauschens aus. Die Rauschubertragungsfunktion eines einfachen Delta-Sigma-Modulators der Ordnungn ist HQ(z) = (1− z−1)n (vgl. Abb.2.21).Durch die veranderteUbertragungsfunktion in Abhangigkeit der Ordnungn andert sichauch der Einfluß des Oversampling auf den Signal-Rauschabstand:

SNR = 6.02 · w + (2n + 1) · 10 · log10(L) + const(n) [dB] (2.40)

Abb. 2.23veranschaulicht der SNR-Gewinn abhangig vom OversamplingfaktorL.Wie es schon beim Noise-Shaping der Fall war, verwenden Delta-Sigma-Modulatoren hoherer Ordnung im allgemeinen nicht die obige hochpaßartigeRauschubertragungsfunktion, sondern beeinflussen die Verschiebung des Quantisie-rungsfehlers auf andere Art und Weise.

2.8 Zahlendarstellung und Zahlenformat

Zur Speicherung und Verarbeitung von digitalen Werten gibt es zwei grundsatzliche For-mate, das Festkomma- und das Gleitkomma-Format. Beim Festkomma-Format ist derAbstand einer Zahl zur nachsthoheren gleichbleibend, wahrend er beim Gleitkomma-Format mit dem Zahlenwert zunimmt. Das Festkomma-Format wird bei der Speicherung,Ubertragung und Bearbeitung von Audiosignalen eingesetzt, das Gleitkomma-Formatsetzt sich allerdings bei der Bearbeitung immer starker durch.

30 KAPITEL 2. GRUNDLAGEN

Abbildung 2.23: SNR-Gewinn durch verschiedene Oversamplingfaktoren fur Delta-Sigma-Modulatoren der Ordnungen 1-3

2.8.1 Festkomma-Format

Im Audiobereich hat sich die Darstellung einer Festkomma-Zahl im sogenannten 2er-Komplement durchgesetzt. Bei einer Wortbreitew stellt die erste Halfte der Binarwerteden Zahlenbereich0 bis 1 − 2−(w−1) dar, die folgenden Binarwerte den Zahlenbereich−1 bis−2−(w−1). Abb. 2.24zeigt die Zuordnung der quantisierten Amplitudenwerte zuBinarwerten der 2er-Komplement-Darstellung im Fall einer Wortbreitew von vier Bit.Das links notierte Bitbw−1 ist das Vorzeichenbit und somit das wichtigste,Most Signi-ficant Bit (MSB). Veranderungen im rechts notierten Bitb0 beeinflussen den Wert amgeringsten, daher handelt es sich hier um dasLeast Significant Bit(LSB).Als Alternative zur 2er-Komplementdarstellung wird in seltenen Fallen auch eine vorzei-chenlose Darstellung gewahlt. Tabelle2.1zeigt diese beiden Darstellungen im Vergleich.Statt der Normierung des Zahlenbereichs auf−1 bis1 ist manchmal auch die Darstellung0 bis 2w−1 − 1 und von−2w−1 bis−1 (vorzeichenbehaftet) respektive von0 bis 2w − 1(ohne Vorzeichen)ublich.

Format Bitzuweisung Wertebereich2er-Komplement xQ = −bw−1 +

∑w−2i=0 bi2−(w−i−1) −1 ≤ xQ ≤ 1− 2−(w−1)

Dualzahl ohne Vorzeichen xQ =∑w−1

i=0 bi2−(w−1) 0 ≤ xQ ≤ 1− 2−w

Tabelle 2.1:Festkomma-Darstellung mit Bitzuweisung und Wertebereich

2.8. ZAHLENDARSTELLUNG UND ZAHLENFORMAT 31

Abbildung 2.24: Zuweisung von Amplitudenwerten zur 2er-Komplement-Darstellung einer 4 Bit-Quantisierung

2.8.2 Gleitkomma-Darstellung

Werte im Gleitkomma-Format haben die Form

xQ = MG · 2EG (2.41)

Dabei istMG: Normalisierte Mantisse mit0.5 ≤ MG < 1EG: Exponent

Durch die Normalisierung der Mantisse wird eine Mehrdeutigkeit vermieden, die sichdaraus ergibt, dass etwa24 und42 auf den selben Zahlenwert fuhren. Das genormte Stan-dardformat (IEEE single precision mit 32 bit) benutzt folgende Aufteilung:

Vorzeichen (Bit 31) Exponent (Bits 30-32) Mantisse (Bits 22-0)s e7 ... e0 m22 ... m0

Tabelle 2.2:Bitzuweisung in der Gleitkomma-Darstellung

Der ExponentEG wird mit 8 Bit dargestellt und ist eine ganze Zahl zwischen -126 und+127. Die MantisseMG wird mit einer Wortbreite von 23 bit dargestellt und bildet einefraktionale Darstellung im Festkomma-Format. Dabei gelten folgende Sonderfalle:

32 KAPITEL 2. GRUNDLAGEN

Typ Exponent Mantisse Zahlenwertnormal 1 ≤ EG ≤ 254 beliebig (−1)s(0.m)2EG−127

NAN (not a number) 255 6= 0 undefiniertInfinity 255 = 0 ∞Zero 0 0 0

Tabelle 2.3:Sonderfalle bei der Gleitkomma-Darstellung

Kapitel 3

A/D- und D/A- Wandlung

3.1 A/D-Wandler

3.1.1 Parallel-Wandler

Bei Parallel-Wandlern (Flash Converter) der Wortbreitew wird eine Referenzspannungdurch2w Widerstande in eine entsprechende Anzahl von Intervallen geteilt und mit dervon der Abtast-Halte-Schaltung gelieferten EingangsspannungUE uber2w−1 Spannungs-komparatoren verglichen. Die Ausgange der Komparatoren werdenuber eine Kodierlogikin ein w-bit Datenwort umgesetzt. Da fur jede Umsetzung intern nur ein Rechenzyklusnotwendig ist, sind Abtastraten bis zu 500 MHz erreichbar. Aufgrund der hohen Anzahlan Komparatoren sind Auflosungen bis zu einer Wortbreite von 10 bit ereichbar.

Abbildung 3.1: Parallel-Wandler

Eine Variante des Parallel-Wandlers ist der Subranging-Wandler. Er fuhrt die Wandlung inzwei Schritten durch: In einem ersten Schritt wird die gehaltene Eingangsspannung einemm-bit A/D-Wandler zu. In einem zweiten Schritt wird die um den Faktor2m verstarkte Dif-ferenzspannung zwischen der Eingangsspannung und der durch einenm-bit D/A-Wandler

33

34 KAPITEL 3. A/D- UND D/A- WANDLUNG

ruckgefuhrten Spannung demm-bit A/D-Wandler erneut zugefuhrt. Die durch das zwei-stufige Verfahren erhohte Auflosung geht auf Kosten der Umsetzungsgeschwindigkeit, sodass Abtastraten bis 40 MHz und Auflosungen bis 16 bit moglich sind.

Abbildung 3.2: Subranging-Wandler

3.1.2 SAR-Wandler

A/D-Wandler mit sukzessiver Approximation (Successive approximation register, SAR)wandeln die Eingangsspannung innerhalb vonw Umsetz-Zyklen in einw-bit Wort um (s.Abb. 3.3 und 3.4). Im ersten Schritt wirduberpruft, ob UE positiv oder negativ ist, imersteren Fall wird das MSB auf 0 gesetzt. Im nachsten Schritt wird das zweite bit auf1 gesetzt, die zugehorige Spannung von+0.5UR uber einen D/A-Wandler ruckgefuhrtund durch einen Komparatoruberpruft, ob die Eingangsspannung großer oder kleiner alsdieser Wert ist. FallsUE großer ist, wird die

”1“ beibehalten und das nachste bit gesetzt.

Dadurch nahert sich Ausgangsspannung inw Zyklen schrittweise der Eingangsspannungan und fuhrt auf einw-bit Ausgangswort.

Abbildung 3.3: SAR-Wandler Abbildung 3.4: Spannungsverlauf

3.2. D/A-WANDLER 35

3.1.3 Delta-Sigma-Wandler

Der Delta-Sigma-Wandler besteht aus einem als Delta-Sigma-Modulator ausgelegten 1-bit-Wandler mitL-facherUberabtastung und einem Dezimationsfilter. Letzteres bestehtaus einem digitalen Tiefpassfilter, welches das 1-bit-Eingangssignal durch ein linearpha-siges, nichtrekursives FIR-Filter mit Filterkoeffizienten der Wortbreitew in einw-bit Aus-gangssignaluberfuhrt, aus dem ein Abwartstaster nur jedesL-te Wort entnimmt.

Abbildung 3.5: Delta-Sigma-Wandler

3.2 D/A-Wandler

3.2.1 R-2R-Wandler

Der R-2R-Wandler ist ein Widerstandsnetzwerk, dessen Zweige wie geschaltete Strom-quellen wirken, deren Ausgange aufsummiert auf einen Strom-Spannungs-Wandler ge-hen. Jeder Knoten

”sieht“nach rechts einen Widerstand vonR + 2R ‖ 2R = 2R. Somit

teilt sich der Strom an jedem Knoten in zwei gleiche Anteile.Wenn jeder Schalter durch eines derw bits gesteuert wird, ergibt sich eine binare Gewich-tung der Strome mit

UA = −RI = −R(b1

2R+

b2

4R+

b3

8R+ . . . +

bw

2w−1R) (3.1)

= −UR(b12−1 + b22

−2 + b32−3 + . . . + bw2−w) (3.2)

3.2.2 Delta-Sigma-DA-Wandler

Der Delta-Sigma-DA-Wandler unterzieht die eingelesenenw-bit Datenworte zunachst ei-ner Abtastratenerhohung durch einen Aufwartstaster und einen digitalen Tiefpassfilter.

36 KAPITEL 3. A/D- UND D/A- WANDLUNG

Abbildung 3.6: R-2R-Wandler

Der Delta-Sigma-Modulator (s. Kap.2.7) fuhrt eine Requantisierung vonw bit auf einen1 bit-Datenstrom durch, der anschließend durch einen 1-bit-D/A-Wandler mit nachfolgen-dem Rekonstruktionsfilter in ein analoges Signal umgesetzt wird. Der analoge Tiefpassbenotigt aufgrund der hohen Abtastrate - beifA = 44.1 kHz und 64-fachem Oversamp-ling etwa 2.8 MHz - nur eine geringe Flankensteilheit.

Abbildung 3.7: Delta-Sigma-DA-Wandler

3.3 Kenn- und Messgroßen fur Wandler

Abweichungen vom Verhalten des idealen Wandlers entstehen durch bei A/D- und D/A-Wandlung auftretende

• Amplitudenfehler

• Zeitfehler (Jitter)

3.3. KENN- UND MESSGROSSEN FUR WANDLER 37

Amplitudenfehler ergeben sich aus Abweichungen von der idealen Treppenform derWandlerkennlinie (s. Abb.3.8). Differentielle Nichtlinearit aten außern sich in Abwei-chungen von der idealen Stufenbreite (Stufenbreitenfehler), also des Eingangsspannungs-Intervalls zwischen zwei aufeinanderfolgenden Ausgangskodes.Integrale Nichtlinea-rit atensind das Ergebnis der kumlierten Stufenbreitenfehler, d.h. die Abweichung desquantisierten Werts vom idealen kontinuierlichen Wert. Fehler entstehen außerdem ausNulldurchgangsverschiebungen (Offset-Fehler) der Kennlinie und Abweichungen vonder idealen Steigung der Kurve (Verstarkungsfehler). Die in Abb. 3.8 fur die A/D-Wandlung dargestellten Fehler konnen in gleicher Weise bei der D/A-Wandlung auftreten,nur dass die Kodewerte (y-Achse) in diesem Fall das Eingangssignal bilden, die Spannun-gen (x-Achse) das Ausgangssignal.

Abbildung 3.8: Abweichungen von der idealen Wandlerkennlinie. A: Differentielle Nichtlinea-ritaten, B: Integrale Nichtlinearitaten, C: Verstarkungsfehler, D: Offset-Fehler

Zeitfehler, wie sie durch Variationen des Abtastzeitpunktes um den idealen Wert entste-hen, werden als Jitter bezeichnet. Jeder Zeitfehler bei der A/D- oder D/A-Wandlung hatseinerseits einen Amplitudenfehler zur Folge, der umso großer ausfallt, je hoher die Si-gnalfrequenz ist (Abb.3.9).Wenn der Zeitversatz bei der Abtastung auf digitaler Ebene korrigiert wird, verbleibt derdurch den Jitter induzierte Amplitudenfehler als Storsignal im System. Fur ein 16-bit Sy-stem mit216 Quantisierungsintervallen Q betragt die maximale Steigung des Signals beieiner Frequenz von 20 kHz20000 × π × 216Q pro Sekunde. Der durch Jitter bedingte

38 KAPITEL 3. A/D- UND D/A- WANDLUNG

Abbildung 3.9: Amplitudenfehler durch Sampling-Jitter

Amplitudenfehler sei vernachlassigbar, wenn er weniger alsQ2

betragt. Der zulassige Zeit-fehler betragt fur diesen Fall

tJ =1

2 · 20000 · π · 216= 121ps (3.3)

Abb. 3.10 zeigt die Auswirkungen eines Jitters auf den Signal-Rauschabstand inAbhangigkeit von Zeitfehler und Signalfrequenz.Da Amplitudenfehler, die durch Jitter entstehen ebenso wie Amplitudenfehler in Folgevon Nichtlinearitaten der Kennlinie zu einer Verringerung des Signal-Rauschabstandsfuhren, ist esublich, den Jitter nicht direkt zu messen, sondernuber eine Messung derSNR mitzuerheben. In Datenblattern von Wandlern sindublicherweise folgende Messwer-te mit jeweils unterschiedlichen Messverfahren aufgefuhrt:

Klirrfaktor (Total Harmonic Distortion, THD)Durch ein Testsignal, das den A/D-Wandler voll aussteuert (X1 = 0 dBFS), werden amAusgang des Wandlers die Klirrkomponenten (Klirrfaktoren n-ter Ordnung) gemessen.Dabei gilt

kn = 10Xn20 (3.4)

kn: Klirrfaktor n-ter Ordnung (dimensionslos)Xn: Amplitude der n-ten harmonischen Oberwelle in dBFSFur den Gesamtklirrfaktor gilt somit

3.3. KENN- UND MESSGROSSEN FUR WANDLER 39

Abbildung 3.10: Auswirkung von Sampling Jitter auf den Signal-Rauschabstand in Abhangigkeitvon Zeitfehler und Signalfrequenz in Bezug zum theoretischen Signal-Rauschabstand von 16- und18-bit Systemen

k =

√√√√ ∞∑n=2

k2n (3.5)

und fur das Klirrdampfungsmaßak:

ak = 20 log1

k(3.6)

Als Testsignal wirdublicherweise ein Sinussignal von 1000 Hz oder 997 Hz verwendet.Der THD wird entweder als Klirrfaktor in % oder als Klirrdampfungsmaß in [dB] ange-geben.

Klirrfaktor plus Rauschen (Total Harmonic Distortion plus Noise, THD+N)Bei der Messung des Klirrfaktors plus Rauschen wird ausgangsseitig lediglich das Test-signal durch ein Notch-Filter unterdruckt. Die Messung berucksichtigt somit nicht nurharmonische Oberwellen, sondern das gesamte Storspektrum einschließlich unharmoni-scher Anteile, Einstreuungen, Brummen, Rauschanteile u.a..

Dynamik (Dynamic Ratio, DR)Messverfahren wie THD+N, allerdings mit einem niedrig ausgesteuerten Testsignal, typi-scherweise ein Sinussignal bei -60 dBFS. Da die Amplituden der nichtlinearen Verzerrun-gen proportional zur Amplitude des Eingangssignals sind, wird bei Messung derDynamiknur der Rauschpegel erfasst, da die Amplituden einzelner nichtlinearer Verzerrungenspro-dukte bei Anregung mit -60 dB bereits im Rauschteppich verschwinden.

40 KAPITEL 3. A/D- UND D/A- WANDLUNG

Kapitel 4

Kodierung

Bei der Ubertragung und Speicherung digitaler Audiosignale wird das vom A/D-Wandler generierte Signal, das in der Regel aus linear quantisierten Abtastwerten in 2er-Komplement-Darstellung besteht, mehrfach umkodiert. Ziel dieser Kodierungen ist die

• Anpassung des elektrischen Signalverlaufs an Eigenschaften (Bandbreite,Storanfalligkeit) des Ubertragungskanals bzw. des Speichermediums (Kanalko-dierung)

• Erzeugung zusatzlicher Daten, die beim Empfanger eine Erkennung und Korrekturvon Ubertragungsfehlern zulassen

• moglichst effiziente Nutzung vorhandenerUbertragungsraten und Speicherkapa-zitat durch einen

”dicht gepackten“ Kode bei Verzicht auf redundante Information

(Redundanzkodierung) oder auf Daten, deren Verlust nur eine vertretbare Beein-trachtigung des Horereignisses zur Folge hat (Irrelevanzkodierung)

• Herstellung einheitlicher, standardisierter Datenformate fur die Verbindung ver-schiedener Gerate (Interfacing)

4.1 Grundlagen der Informations- und Kodierungstheo-rie

Eine theoretische Grenze fur die Konstruktion moglichst effizienter Kodes liefert die In-formationstheorie, wie sie auf die Formulierung durch Hartlay (1888-1970) und Shannon(1916-2001) zuruckgeht. Darin ist

Hi = log2

1

p(xi)= − log2 p(xi) (4.1)

ein Maß fur die Unbestimmtheit des Ereignissesxi ∈ x1, x2, . . . , xN mit der Auftritts-wahrscheinlichkeitp(xi). Somit enthalt das sichere Ereignis (p(xi) = 1) keine Unbe-stimmtheit. WennInformation als beseitigte Unbestimmtheit verstanden wird, giltHi als

41

42 KAPITEL 4. KODIERUNG

Maß sowohl fur die (vor dem Auftreten vonxi vorhandene) Unbestimmtheit als auch furdie (nachdem Auftreten vonxi vorhandene) Information.Dieses zunachst nur postulierte Informationsmaß hat sich als mathematisch elegantund (insbesondere durch die Verwendung des 2er-Logarithmus) fur den Bereich derInformations- und Kodierungstheorie in binaren Systemen alsaußerst geeignet erwiesen.Es berucksichtigt allerdings nur den statistischen, nicht jedoch semantische und pragmati-sche Aspekte von Information und Kommunikation.Im Sinne der Informationstheorie sind digitale Audiosignale Ereignisse einer diskretenQuelle mit dem AlphabetX = x1, x2, . . . , xN und den zugehorigen Auftrittswahr-scheinlichkeitenp(xi) = pi. Fur die mittlere Unbestimmtheit der Quelle und damit auchfur ihren mittleren Informationsgehalt gilt

Hm =N∑

i=1

piHi (4.2)

Hm wird als Entropie oder Quellenentropie bezeichnet mit der Maßeinheitbit/Zeichenoder einfacherbit, wenn klar ist auf welche Ereignisse sichHm bezieht. Die Quellenentro-pie ist maximal, wenn alle Ereignisse gleichwahrscheinlich sind (Beweis z.B. [KPS03]).In diesem Fall ist

Hmax = log2 N (4.3)

Was als Menge der moglichen Ereignisse aufgefasst wird, hangt konkret vom Vorgangder Kodierung ab. Dies kann ein einzelnes Bit, eine Signalamplitude mit 16 oder 24 bitWortbreite oder eine noch großere Einheit sein.UnterKodierung wird allgemein ein Vorgang verstanden, bei dem Elemente eines Quel-lalphabetsxi auf Elemente eines anderen Alphabets abgebildet werden. Jedes Quellsignalbzw. Quellereignis wird eindeutig einem Element des KanalalphabetsU bzw. einem WortuberU zugeordnet. Bei binaren Kodierungen ist

U = 0, 1 (4.4)

Ein Wort a ∈ 0, 1l wird als Kodewort der Langel bezeichnet. Das AlphabetA =0, 1l, d.h. die Menge aller Kodeworter, die einem Quellenalphabet eindeutig zuge-ordnet sind, bildet einen Kode. Wenn alle Kodeworter gleich lang sind, spricht manvon einem gleichmaßigen Kode, ein Kode mit ungleicher Kodewortlange wird als un-gleichmaßiger Kode bezeichnet. Die Differenz zwischen der der mittleren Kodewortlangelm (bei gleichmaßigen Kodes gleich der Kodewortlangel) und dem mittleren Informati-onsgehalt der Quelle wird als KoderedundanzRK bezeichnet:

RK = lm −Hm ≥ 0 (4.5)

4.2. KANALKODIERUNG 43

4.2 Kanalkodierung

Bei der Quellkodierung geht es um eine Kodierung von Audiosignalen, die zum einendie vom A/D-Wandler gelieferte Auflosung darstellen kann, dabei moglichst redundanz-arm ist und zum anderen ein geeignetes Format fur die Weiterverarbeitung durch Hard-und Software zur Signalverarbeitung bildet. Am weitesten verbreitet ist die Darstellung inlinearer Pulskode-Modulation (Linear PCM) mit Zahlendarstellung als 2er-Komplement.Fur den in jungster Zeit im Zusammenhang mit der Super Audio CD (SACD) favorisiertenDirect Stream Digital (DSD) Kode gibt es dagegen (noch) keine Signalverarbeitungsbau-steine.Bei der Kanalkodierung geht es darum, den zuubertragenden Zeichen fur dieUbertragungund Speicherung in realen Kanalen geeignete Signale zuzuordnen. Bei digitalen Audiosi-gnalen sind vor allem eine moglichst effiziente Ausnutzung der vorhandenen spektralenBandbreite, Gleichspannungsfreiheit, ein selbsttaktender Signalverlauf und Unempfind-lichkeit gegenuber Interface Jitter von Bedeutung. Fur die Leistungsfahigkeit von Kanal-kodes werden folgende Kenngroßen verwendet:

• Tmin, Tmax: Minimale/maximale Dauer zwischen elektrischen Potentialwechseln inEinheiten der Bitperiode des Quellkodes.Tmin ist gleichzeitig ein Maß fur die Min-destanzahl der pro Potentialwechselubertragbaren Datenrate (Density Ratio,DR)und damit fur die Kodeeffizienz.

• Window MarginTw: Minimale Differenz der Zeitdauer zwischen zwei Potential-wechseln bei zu unterschiedlichen Datenfolgen gehorenden Signalverlaufen.Tw istsomit ein Maß fur die Robustheit des Kodes gegenuber Interface-Jitter, d.h. einerVerschiebung der Signalflanken und daraus resultierender, falscher Dekodierung.

• Figure of Merit,FoM = DR · Tw: Produkt aus Kodeeffizienz und Robustheit ge-genuber Jitter als Maß fur die Leistungsfahigkeit des Kodes.

4.2.1 Einfache Kodes

Einfache Kodes bilden eine logische”0“ und

”1“ auf einen zugehorigen Signalverlauf ab.

Im Fall eines return to zero Kodes (RZ) wird nur fur jede logische”1“ ein Puls erzeugt,

fur eine”0“ bleibt das Signal auf dem

”low“-Potential. Ein nonreturn to zero (NRZ) Kode

bildet eine”1“ und eine

”0“ direkt als hohes oder niedriges Potential ab, ohne dazwischen

auf ein niedriges Potential zuruckzukehren. Der nonreturn to zero inverted (NRZI) Kodebildet jede

”1“ auf einen Potentialwechsel ab (egal in welche Richtung), wahrend eine

”0“ keinen Potentialwechsel auslost. Der Biphase Mark Kode (auch: Frequenzy Modula-

tion, FM) bildet jede”0“ auf einen Potentialwechsel ab und erzeugt fur jede

”1“ einen

zusatzlichen Potentialwechsel in der Mitte der Bitperiode. Der Manchester Kode (auchPhase Encoding, PE) bildet jede

”1“ auf einen Potentialwechsel in positive Richtung, jede

”0“ auf einen Potentialwechsel in negative Richtung ab, sodass aufeinanderfolgende 1en

oder 0en einen zusatzlichen Potentialwechsel erforderlich machen.

44 KAPITEL 4. KODIERUNG

Abbildung 4.1: Einfache Kanalkodes

4.2.2 Gruppenkodes

Durch Gruppenkodes lasst sich Effizienz und Robustheit der Kanalkodierung gegenubereinfachen Kodes erhohen. Dabei werden Gruppen vonm Quellbits durch eine Zuwei-sungstabelle auf jeweilsn Kanalbits abgebildet, wobein > m. Dadurch erhoht sich dieKanalbitrate gegenuber dem Quellkode um den Faktorn/m. Die hohere Effizienz wirddadurch erzielt, dass von den2n Kanalkodewortern nur diejenigen2m Worter ausgewahltwerden, die mindestens d und hochstens k 0en zwischen zwei 1en aufweisen, wodurchdie fur die Ubertragung notwendige Bandbreite reduziert bzw. vorhandene Bandbreitendurch eine hohere Anzahl verschiedener Kodeworter

”gefullt“ werden konnen. Solche

Kodes werden auch als (d,k) Run-Length-limited (RLL) Kodes bezeichnet.Beispiel ist der 4/5 Modified NRZI (MNRZI) Kode (auch Group Coded Recording Kode,GCR), der Blocke von 4 Quellbits auf jeweils 5 Kanalbits abbildet. Benachbarte 1en sinderlaubt, aber maximal 2 0en zwischen zwei 1en, sodass sich eine (0,2) RLL Kodierungergibt. Tab.4.1zeigt das zugehorige Abbildungsschema. Der GCR Kode wird z.B. bei derMADI-Schnittstelle fur digitale, mehrkanalige Audiosignale eingesetzt.

Quellbits Kanalbits Quellbits Kanalbits0000 11001 1000 110100001 11011 1001 010010010 10010 1010 010100011 10011 1011 010110100 11101 1100 111100101 10101 1101 011010110 10110 1110 011100111 10111 1111 01111

Tabelle 4.1:Abbildungstabelle fur den GCR (4/5 MNRZI) Kode

Weitere Kodevarianten im Audiobereich zeigt Tab.4.2

4.3. FEHLERERKENNUNG - FEHLERKORREKTUR 45

Kode m n d k AnwendungGCR (Group Coded Recording) 4 5 0 2 MADI Interface8/10 Kode 8 10 0 3 DATEFM (Eight-to-fourteen modulation) 8 14 (+3) 2 10 CDEFMPlus 8 16 2 10 DVD

Tabelle 4.2:Verschiedene Gruppenkodes im Audiobereich

Der bei der CD eingesetzte EFM-Kode (Eight-to-fourteen modulation) bildet 8 Quell-bits auf 14 Kanalbits und fugt am Ende jedes Kanlkodeworts 3 zusatzlicheMerging Bitshinzu, um einen gleichspannungsfreien Signalverlauf herzustellen. Bei der DVD kommtein modifizierter Kode (EFMPlus) zum Einsatz, der aufMerging Bitsverzichtet, bei derAbbildung von 8 auf 16 Kanalbits jedoch eine von 4 Zuweisungstabellen so auswahlt,dass sich ein gleichspannungsfreies Signal ergibt. Im Anschluss an die Kanalkodierungwird das Signal in eine NRZI-kodierte Abfolge vonpitsund lands, d.h. Vertiefungen undErhohungen auf der Oberflache der CD umgesetzt.Bezogen auf die Quellbitrate ergibt sich fur Gruppenkodes ein Window Margin vonTw =mn

, eine Density Ratio vonDR = Tmin = (d+1)mn

und eine Figure of Merit vonFoM =(d + 1)m

n2. Tab.4.3 zeigt die Kennzahlen gangiger einfacher Kodes und Gruppenkodes

im Vergleich.

RZ NRZ NRZI FM PE GCR EFM EFMPlusgleichspannungsfrei nein nein nein ja ja nein ja jaselbsttaktend nein nein nein ja ja ja ja jaTmin 0.5 1 1 0.5 0.5 0.8 1.41 1.5Tmax ∞ ∞ ∞ 1 1 2.4 5.18 5.5DR 0.5 1 1 0.5 0.5 0.8 1.41 1.5Tw 1 1 1 0.5 0.5 0.8 0.471 0.5FoM 0.5 1 1 0.25 0.25 0.64 0.66 0.75

Tabelle 4.3:Kennzahlen verschiedener einfacher Kodes und Gruppenkodes im Audiobereich

4.3 Fehlererkennung - Fehlerkorrektur

Im Gegensatz zur analogen Audioubertragung kann bereits ein geringfugigerUbertragungsfehler eine große Signalverzerrung bewirken. Bereits ein einzelnes falschubertragenes bit kann eine im 2er-Komplement dargestellte Amplitude um den Betrag derSpitzenspannungUs verandern, wenn das MSB davon betroffen ist. Fehlerquellen einergestortenUbertragung konnen sein

• Bandfehler durch Bandabrieb, Selbstentmagnetisierung oder Staubpartikel auf ma-gnetischen Speichermedien

46 KAPITEL 4. KODIERUNG

• Staub, Kratzer und Verzerrungen der Bitgeometrie (Lange, Breite, Tiefe der Pitsund Lands) auf optischen Medien

• elektromagnetische Einstreuungen,Ubersprechen, Jitter bei elektrischerUbertragung.

Hinsichtlich der Verteilung von Fehlern auf dem Kanal/auf dem Medium unterscheidetman

• Einzelfehler (random errors) und

• Bundelfehler (burst errors)

wobei das Design einer Fehlererkennung meist auf die Fehlerstatistik des Kanals zuge-schnitten ist.Kenngroßen fur das Fehlerverhalten von Kanalen sind die

• bit error rate (BER) als Anzahl fehlerhafter bits bezogen auf die Gesamtzahl derubertragenen bits

• block error rate (BLER) als Anzahl der pro subertragenenen fehlerhaften Daten-blocke

Die Fehlerkorrektur optischer Speichermedien (CD, DVD) reduziert eine typische (un-korrigierte) BER von10−5 bis 10−4 auf einen Wert von10−12, der Standard fur Com-puteranwendungen ist. Gleichzeitig gilt eine BLER von 220 fur die CD-Herstellung alsakzeptabel. Bei 7350ubertragenen Blocken pro s entspricht dies einer Blockfehlerratevon 3%.

Abbildung 4.2: Strategie der Fehlerschutz-Kodierung

Jede Fehlerschutz-Kodierung folgt der Strategie in Abb.4.2. Zunachst wird den zuubertragenden Quellkode zur Bildung eines Kanalkodeworts ein overhead an Redundanzhinzugefugt. Beim Empfanger wird das empfangene Datenwort zunachst gepruft. Wird esals fehlerhaft erkannt, kann eine neueUbertragung angefordert werden (automatic repeat

4.3. FEHLERERKENNUNG - FEHLERKORREKTUR 47

request). Dies ist insbesondere bei paketvermittelter, asynchronerUbertragung moglich.Bei synchronerUbertragung muss das System versuchen, den Fehler mit Hilfe der redun-danten Daten selbst zu korrigieren. Wenn eine Fehlerkorrektur nicht moglich ist, kann derFehler durch Stummschaltung (mute), durch Wiederholen des letzten Werts oder durchInterpolation verschleiert werden.

4.3.1 Paritat und Hamming-Distanz

Die Paritat binarer Symbole ergibt sich aus einer Addition modulo 2:

P = A⊕B (4.6)

mit folgender Wahrheitstafel

A B P0 0 00 1 11 0 11 1 0

Tabelle 4.4:Wahrheitstafel fur Addition modulo 2

die schaltungstechnisch durch ein XOR-Gatter realisiert wird.

Abbildung 4.3: XOR Gatter zur Addition modulo 2

Durch Reihenschaltungen von XOR-Gattern lasst sich die Paritat langerer Datensymbolebestimmen. Sie ist immer dann gleich 1, wenn eine ungerade Anzahl von 1en im Da-tenwort auftreten. Zur Bildung eines Paritatskodes wird ein l-stelliges Quellenkodewortui = (ui1ui2 . . . uil) durch ein Paritatsbitui,l+1 mit

ui,l+1 =l∑

j=1

uijmod2 (4.7)

zu einem l+1-stelligen Kanalkodewort erganzt. Zur Fehlererkennung wird ein Prufvektors0 gebildet mit

s0 =l+1∑j=1

uijmod2 (4.8)

48 KAPITEL 4. KODIERUNG

Fur s0 = 0 liegt kein oder ein nicht detektierbarer Fehler vor. Ein einfacher Paritatscheckkann somit eine ungerade Anzahl von Fehlern erkennen, aber nicht korrigieren.Ein Kriterium fur die Robustheit eines Kanalkodes ist die Unterschiedlichkeit der ein-zelnen Kodeworter, da geringfugige Verfalschungen dann mit hoher Wahrscheinlichkeitauf Datenworter fuhren, die nicht Teil des Kodealphabets sind und somit als fehlerhafterkannt werden. Ein Maß fur die Unterschiedlichkeit zweier Kodeworterai undaj ist dieHamming-Distanzdij. Sie gibt die Anzahl der Stellen an, an denen sich die Kodeworterai undaj unterscheiden. Fur binare Kodes ergibt sich die Hamming-Distanz aus der bit-weisen Modulo-2-Addition der Kodeworterai undaj:

dij = d(ai, aj) =n∑

g=1

(aig ⊕ ajg) (4.9)

Die Hamming-Distanz eines einfachen Paritatskodes betragtdmin = 2. Er wird z.B. beider internen Datenubertragung in Rechnern eingesetzt oder bei der Audioubertragungnach AES3 (AES/EBU) als Paritatsbit innerhalb eines 32-bit Subframes.

4.3.2 Blockkodes und Faltungskodes

Wenn die Kodeworter eines Kanalkodes eine feste Lange haben, bezeichnet man den Kodeals Blockkode. Wenn die Kodeworter (und die darauf angewandten Verknupfungen) diealgebraischen Eigenschaften einer Gruppe aufweisen, spricht man von einemlinearenBlockkodeoderLinearkode. Lineare Blockkodes, die zusatzlich die Eingenschaften einesKorpers erfullen, bezeichnet man alszyklische Kodes. Eine guteUbersichtuber verschie-dene Kodierungsverfahren und ihre algebraischen Grundlagen findet man bei [KPS03].Ein einfacher Paritatskode wie in Abschnitt4.3.1beschrieben ist ein Beispiel fur einenBlockkode. Wesentlich leistungsfahiger sind iterierte Kodes, z.B. zweidimensionale Ko-des, bei denen das Quellkodewort in Zeilen und Spalten angeordnet wird. Jede Zeile undjede Spalte erhalt ein Paritatsbit (Abb.4.4). Einfachfehler werden mit Sicherheit erkanntund konnen durch Invertierung korrigiert werden, da sich die Prufvektoren mits0 = 1von Zeile und Spalte im fehlerhaften Element kreuzen. Zweifachfehler und alle ungerad-zahligen Fehlerhaufigkeiten werden mit Sicherheit erkannt, auch wenn sie nicht immerkorrigiert werden konnen. Die minimale Hamming-Distanz eines Kodes nach Abb.4.4istdmin = 4. Iterierte Kodes konnen auf drei- oder mehrdimensionale Verfahren erweitertwerden.Bei Faltungskodes (convolutional codes, blockfreie Kodes) wird die Redundanz kontinu-ierlich in einen Datenstrom, den der Quellkodierer abgibt, eingefugt. Fur die Realisierunggenugt eine einfache Kombination von Schieberegistern und XOR-Gattern. Bei der Va-riante in Abb.4.5 erzeugt ein fehlerhaftubertragenes Datensymbol eine Kodeverletzungin zwei jeweils um drei Zeitpunkte verschobenen Kodewortern. Auf diese Weise kannder Fehler erkannt und korrigiert werden. Faltungskodes benotigen fur die Erkennungund Korrektur von Einzelfehlern weniger Redundanz als Blockkodes, verhalten sich bei

4.3. FEHLERERKENNUNG - FEHLERKORREKTUR 49

Abbildung 4.4: Zweidimensionaler Paritatskode

Bundelfehlern allerdings weniger robust. Sie sind geeignet fur die Kodierung kontinu-ierlicher Datenstrome (Digitaler Rundfunk) mit rauschhaften Storungen. Sie eignen sichaufgrund ihrer blockfreien Struktur nicht fur paketorientierteUbermittlung (Netzwerke,asynchroneUbertragung) oder fur Speichermedien, auf denen vorwiegend Bundelfehlerauftreten.

Abbildung 4.5: Faltungskode

Zu den zyklischen Kodes gehoren auch die auf der CD und DVD eingesetzten Reed-Solomon-Kodes. Sie kommen bei der CD in einem zweistufigen Prozess zur Anwendungmit zusatzlicher Kodespreizung (Interleaving) zwischen den Kodierungsstufen (Cross-Interleave Reed-Solomon Code, CIRC). In einem ersten Schritt werden jeweils 24 8-bit-Symbolen 4 Paritatsworter (Q) hinzugefugt und 28-bit-Kanalkodeworter ausgegeben (C2

50 KAPITEL 4. KODIERUNG

Encoder). Die C2 Kodeworter werden anschließend auf 28 verschiedene Blocke verteilt,die mit einer Distanz von bis zu 109 Blockenuber die CD verteilt werden. In einem zwei-ten Schritt werden jeweils 28 8-bit-Symbolen weitere 4 Paritatsworter (P) hinzugefugtund als 32-bit-Kanalkodeworter auf der CD aufgezeichnet (C1 Encoder). Die Redundanzbetragt somit insgesamt 25%. Jede Dekodierungsstufe kann bis zu 4 fehlerhafte Symbolekorrigieren, wenn der der Fehlerort bekannt ist, und zwei Symbole, wenn der Fehlerortnicht bekannt ist. Durch die Kodespreizung werden Bundelfehleruber einen großerenBereich der CD verteilt, wodurch sie innerhalb jedes Blocks leichter korrigiert werdenkonnen. Dadurch kann das Gesamtsystem bis zu 3874 aufeinanderfolgende, fehlerhaftebits korrigieren, entsprechend einer Spurlange von 2,5 mm auf der CD.

4.4 Interfaces

Schnittstellen (interfaces) definieren sowohl physikalische Eigenschaften (Spannung,Impedanz, Datenrate) als auch logische Eigenschaften (Ubertragungsprotokoll) derubertragenen Daten. Genormte (standardisierte) Schnittstellen bieten durch ihre Kom-patibilitat den Vorteil der leichteren Systemintegration. Digitale Schnittstellen konnenals klassische Punkt-zu-Punkt-Verbindungen oder als Netzwerk-Protkolle ausgelegt sein.Wahrend traditionelle Schnittstellen wie AES/EBU oder MADI zu ersten Gruppe gehoren,werden zunehmend auch Netzwerk-Protkolle oder Bussysteme aus dem Computerbereich(IEEE 1394, USB, TCP/IP) fur dieUbertragung von Audiodaten genutzt.

4.4.1 AES 3

AES3 ist der 1985 eingefuhrte und 1992 und 1997uberarbeitete, wichtigste nicht-proprietare Standard fur die zweikanalige, digitale Audioubertragung. Er definiert furjeden Abtastwert im Audiosignal ein Frame, das aus zwei Subframes fur Kanal 1 mitder Praambel X und Kanal 2 mit der Praambel Y besteht. Insgesamt 192 Frames bildeneinen Block, dessen Beginn durch die Praambel Z markiert wird. Jedes Subframe bestehtaus 32 Bits, von denen 4 fur die Praambel, 24 fur die Audiodaten (2er-Komplement, LSBfirst) und jeweils eines fur Validity (Gultigkeit des Datenworts), User (vom Anwender de-finierbare Information), Channel Status (Informationenuber den Audiodatenstrom) undParity (Paritatsbit zur Fehlererkennung) stehen (Abb.4.6).

Abbildung 4.6: Subframe nach AES 3 (AES/EBU)

Der Datenstrom wird mit einer Biphase-Mark-Kanalkodierungubertragen. DiePraambeln X, Y und Z, die den Anfang eines Frames, eines Subframes und eines

4.4. INTERFACES 51

Blocks markieren, sind als kodeverletzende (im Kanalkode nicht auftretende) Signalmu-ster in den Datenstrom eingesetzt. Fur die Bits U (User) und V (Validity) hat sich keineeinheitliche Verwendung etabliert, verschiedene Varianten der Nutzung findet man bei[RW04]. Die 24 Byte (= 192 Bits) eines Channel Status Blocks entahlten Informationuber Abtastrate und Wortbreite der Audiodaten sowie optional Informationuber Empha-sis, Adressierung und Timecode (s. Tab.4.5). Obligatorisch ist nur die Bereitstellung vonDaten in Byte 0, wahrend die Nutzung der Bytes 1 bis 23 freigestellt ist.

Byte Bedeutung0 Kontrolldaten (Professional/Consumer, Abtastrate, Emphasis)1 Mode, User Bit Management2 Verwendung Aux Bits, Wortbreite, Alignment3 Mehrkanalmodus, Kanalnummer4 Abtastrate5 Reserved6-9 Quellenidentifizierung (4 Byte ASCII)10-13 Zielidentifizierung (4 Byte ASCII)14-17 Lokale Adressierung18-21 Timecode22 Channel status reliability flags23 CRCC

Tabelle 4.5:AES 3 Channel Status Block

Die Consumer-Variante der AES3-Schnittstelle (IEC 60958 oder landlaufig S/PDIF furSony/Philips Digital Interface) wurde bereits 1984 eingefuhrt und ist vermutlich die amweitesten verbreitete digitale Audioverbindung. Sie war als Schnittstelle zur Verbindungvon CD-Playern und den ersten DAT-Recordern vorgesehen und wurde aus Grunden desUrheberrechtsschutzes mit einem Kopierschutz ausgestattet. Bei DAT-Geraten kam dasSCMS (Serial Copy Management System) zum Einsatz, das lediglich eine bestimmteAnzahl von Kopien zuließ und diese Informationenuber das S/PDIF Interface von derQuelle zum Aufnahmegerat weitergab.Das Datenformat der Subframes stimmt mit AES3uberein. Unterschiede gibt es bei denelektrischen Spezifikationen (Tab.4.6)und bei der Verwendung der VUCP-Informationen.Das Interface verwendet eine unsymmetrische Schnittstelle mit einer Impedanz von 75Ohm in Leistungsanpassung. Die Quellimpedanz muss in einem Frequenzbereich von 0,1bis 6 MHz auf±20 Prozent genau eingehalten werden, die Impedanz des Empfangersmuss 75 Ohm mit maximalen Abweichungen von±5 Prozent betragen. Relativ tolerantist man beim Wellenwiderstand des Kabels: Hier durfen die Abweichungen in einem Be-reich von±35 Prozent liegen, was den typischen User-Gepflogenheiten, ”´irgendein“ Ka-bel zu verwenden, vermutlich entgegen kommt. Die Signalspannung liegt bei 0,5 Volt(±20 Prozent), als Steckverbindung kommt eine Cinch-Buchse (RCA/Phono) zum Ein-satz (Rumsey u. Watkinson 2004).

52 KAPITEL 4. KODIERUNG

4.4.2 AES 10

Zur Verbindung mehrkanaliger Signale, etwa zwischen Wandlergruppen, Mischpulten,Aufzeichnungssystemen, kommt die MADI-Schnittstelle (fur Multichannel Audio DigitalInterface) zum Einsatz. Die Kodierung eines Subframes (Abtastwert fur einenKanal)istaus dem AES 3 Protokoll abgeleitet. Allerdings konnen bis zu 64 Kanale fur ein Abtast-intervall gesendet werden, mit entsprechend hoherer Datenrate und Signalfrequenz. AlsKanalkode wird eine 4/5 GCR Kodierung verwendet (s.4.2.2). Da dieUbertragung durcheine separate Wordclockleitung synchronisiert wird, ist eine Praambel zur Synchronisati-on wie bei AES 3 nicht erforderlich und die 4 bits zu Beginn eines Subframes konnen zurAnzeige des Kanalmodus verwendet werden (Abb.4.7).

Abbildung 4.7: Subframe nach AES 10 (MADI)

Die elektrischen Spezifikationen der drei nichtproprietaren Interfaces konnen Tab.4.6entnommen werden.

Interface Impedanz (in/out) Signalamplitude Jitter SteckverbindungAES 3 (AES/EBU) 110Ω 2-7 V (min. 200 mV) max. 20 ns XLR symm.IEC 60958 (S/PDIF) 75Ω 0,5 V± 20% (min. 200 mV) max. 20 ns RCA phonoAES 10 (MADI) 75Ω 0,3-0,7 V (min. 150 mV) max. 2 ns BNC

Tabelle 4.6:Nichtproprietare Audio-Interfaces - Elektrische Spezifikationen

4.5 Bitratenreduktion

Die fur hochqualitative Audioubertragung benotigte Bandbreite bzw. der erforderli-che Speicherplatz ist fur viele Anwendungsbereiche zu hoch. Aus diesem Grund istman bemuht, die Menge der Audiodaten bzw. deren Bitrate ohne (signifikante) Qua-lit atseinbußen zu reduzieren. Dies ist Aufgabe von Audiokodierungsverfahren (auchAu-diokompressionsverfahren1), die in vielen Bereichen in zunehmenden Maße eine bedeu-tende Rolle spielen, auch wenn man dies dem Anwender oft nicht bewußt ist. So sindsie nicht nur im Internet mit ihrem sehr prominenten VertreterMP3 (MPEG-1 layer 3)vertreten, sondern werden z.B. in der Telefonie, beim Rundfunk und im Fernsehen, im

1Nicht zu verwechseln mit Verfahren zur Dynamikkompression!

4.5. BITRATENREDUKTION 53

Kino, auf DVDs, etc. eingesetzt. Durch die weite Verbreitung ist die Auseinandersetzungmit Eigenschaften bzw. Starken und Schwachen der Verfahren sinnvoll.Der Faktor, um den die Bitrate durch ein Kodierungsverfahren verringert werden kann,wird als Kompressionsrate bezeichnet. Je nach Verfahren oder Voreinstellung kann dieKompressionsrate konstant oder variabel sein. Dementsprechend spricht man entwedervon konstanter Bitrate (CBR) oder variabler Bitrate (VBR).Zur Reduzierung der Bitrate versuchen Kodierungsverfahren, redundante und irrelevan-te Anteile des Signals zu entfernen. Als redundant werden Anteile bezeichnet, die beimEmpfanger bzw. Dekoder fehlerfrei rekonstruiert werden konnen. Als irrelevant werdenhingegen Anteile bezeichnet, die fur den Empfanger keine Bedeutung haben und aus die-sem Grund bei der Kodierung ausgeschlossen werden konnen. Die Redundanzkodierungarbeitet somit verlustlos, d.h. das dekodierte Signal entspricht in jedem Bit dem Original-signal, wahrend die Irrelevanzkodierung verlustbehaftet ist, so daß Eingangssignal unddekodiertes Signal sich meßtechnisch unterscheiden, im Idealfall allerdings vom Horerkeine Unterschiede wahrgenommen werden konnen.

4.5.1 Redundanzkodierung

Redundanzkodierungsverfahren arbeiten heutzutage zumeist nach dem Prinzip der li-nearen Pradiktion mit anschließender Entropiekodierung; aufgrund der vorhergehendenAbtastwerte wird versucht, die kommenden Abtastwerte vorherzusagen. Der dabei ge-machte Fehler wird anschließend fur Ubertragung oder Speicherung verlustfrei kodiert,so daß der Bitstream im wesentlichen nur den kodierten Pradiktionsfehler und diePradiktorkoeffizienten enthalt. Abb. 4.8 zeigt den typischen Ablauf eines pradiktionsba-sierten Redundanzkodierungsverfahrens.

Koeffizienten-berechnung

Pradiktor

Entropie-kodierung

Bitstream-Formatierung

-

-

- -

6

6

-

-

-

?

Eingangssignal

Indices

Pradiktionskoeffizienten

kodierterAusgangsbitstream

Abbildung 4.8: typischer Ablauf eines verlustlosen Kodierungsverfahrens, die dicken Pfeile mar-kieren das unveranderte Audiosignal, die dunnen den Fluß der Daten

54 KAPITEL 4. KODIERUNG

Verlustlose Verfahren haben neben dem offensichtlichen Vorteil der Verlustlosigkeit zweiwichtige Nachteile:

• die Kompressionsrate ist mit Faktor1.5 − 3 gering im Vergleich zu verlustlosenVerfahren

• die Ausgangsbitrate ist abhangig von den Eigenschaften des Eingangssignals undkann prinzipbedingt nicht konstant gehalten werden

Gelaufige Beispiele fur verlustlose Verfahren:

• Meridian Lossless Packing (MLP): Dieses bei der DVD-A eingesetzte verlustloseVerfahren erlaubt die Kodierung von mehrkanaligen Audiodaten mit Abtastratenbis 192kHz [SCG+99].

• FLAC: Ein inzwischen vergleichsweise verbreitetes verlustloses Verfahren, dessenQuelltexte als Open-Source zur Verfugung stehen. Das Verfahren unterstutzt biszu acht Audiokanale beliebiger Abtastraten bei einer Bitauflosung von 4-32 Bit imFestkomma-Format [Coa05].

• MPEG-4 ALS (Audio Lossless) ist ein sich im Standardisierungsprozeß befindli-ches verlustloses Kodierungsverfahren, das im folgenden naher beschrieben wird.Der Standard wird vermutlich im Jahr 2005 im Rahmen des MPEG-4 Audiostan-dards verfugbar sein [ISO01].

4.5.1.1 Lineare Pradiktion

Die Grundidee der linearen Pradiktion ist die Vorhersage der kommenden Abtastwerteaus den vorhergehenden. Hierbei wird die Tatsache ausgenutzt, daß aufeinanderfolgendeAbtastwerte sichahnlicher sind bzw. voneinander starker statistisch abhangig sind alsweiter auseinander liegende. Die Pradiktion der Abtastwerte geschieht zumeist mittelseines FIR-Filters, dessen Koeffizienten kontinuierlich an das Signal angepaßt werden. Jehoher die Ordnung des Filters ist, desto mehr in der Vergangenheit liegende Werte werdenbei der Pradiktion berucksichtigt.Die Differenz zwischen Eingangssignal und Ausgangssignal des Filters bzw. Pradiktorsist der Pradiktionsfehler. Der Pradiktionsfehler soll durch geschickte Wahl der Filter-koeffizienten und der Filterordnung moglichst minimiert werden. Um dabei die Zeit-veranderlichkeit des Signals zu berucksichtigen, werden die optimalen Filterkoeffizientenfur jeden Signalblock neu berechnet.Die Effizienz eines Pradiktors hangt von den statistischen Abhangigkeiten der Abtastwer-te des Eingangssignals ab. Stationare, tonale Signale konnen sehr gut vorhergesagt werdenund fuhren zu einem kleinen Pradiktionsfehlersignal, wahrend rauschhafte Signale nichtoder nur schlecht pradiziert werden konnen, da Rauschen keine statistische Bindung zwi-schen einzelnen Abtastwerten aufweist.

4.5. BITRATENREDUKTION 55

4.5.1.2 Entropiekodierung

Bei der Entropiekodierung werden wie auch bei der linearen Pradiktion statistische Eigen-schaften des Signals ausgenutzt. Wahrend allerdings die lineare Pradiktion statistischeAbhangigkeiten in der zeitlichen Abfolge betrachtet, wird bei der Entropiekodierung dieAuftretenswahrscheinlichkeit vonSymbolenbetrachtet. Im Falle eines Audiosignals kanneine Symbol z.B. ein bestimmter Amplitudenwert oder auch eine Folge von Amplituden-werten sein.Die Entropie als mittlerer Informationsgehalt des Signals gibt gleichzeitig das theoretischerreichbare Minimum der fur die Enkodierung benotigten Bits an. Ist das Auftreten allerSymbole gleichwahrscheinlich, so nimmt die Entropie ihren Maximalwert, namlich dieZahl der Bits pro Symbol an. Das bedeutet, wenn die Symbole die Amplitudenwerte einesAudiosignals sind, daß ein konstantes Signal (Gleichanteil) keinerlei Informationsgehalthat, wahrend gleichverteiltes Rauschen maximalen Informationsgehalt besitzt und somitbei der Kodierung keinerlei Bits gewonnen werden konnen.Die Entropiekodierung nutzt die unterschiedlichen Auftretenswahrscheinlichkeiten der zukodierenden Symbole aus. Die Huffmankodierung ist eine typische Entropie-Kodierung,bei der Symbolen mit sehr hoher Auftretenswahrscheinlichkeit kurzere Worte fur dieUbertragung zugeordnet werden als Symbolen, die selten auftreten. Ein simples Beispielist die Kodierung eines Signals mit 3 Symbolen A, B und C mit den jeweiligen Wahr-scheinlichkeitenpA = 0.5, pB = 0.25, pC = 0.25. Die Entropie eines solchen Signalsist 1.5, d.h. im Falle einer optimalen Kodierung werden im Schnitt 1.5 Bit pro Symbolverwendet. Eine mogliche Huffmankodierung ware:

Symbol BitfolgeA 0B 10C 11

Tabelle 4.7:mogliche Huffman-Kodierung eines Signals mit drei Symbolen A,B,C mit den Auf-tretenswahrscheinlichkeitenpA = 0.5, pB = 0.25, pC = 0.25

Ein Signal der SymbolfolgeABCA wird also mit dem theoretischen MinimumZahl der Bits

Zahl der Symbole=6Bits

4Symbole= 1.5 kodiert. Andert man die Auftretenswahrscheinlichkei-

ten der drei Symbole zupA = 0.7, pB = 0.2, pC = 0.1, so erhalt man fur jedes derSymbole die gleiche Bitfolge, aber eine EntropieH ≈ 1.11. Bei der Kodierung einesSignals mit diesen Auftretenshaufigkeiten erhalt man allerdings das Ergebnis, daß ca.1.3Bits pro Symbol verwendet wurden, so daß die theoretisch erreichbare Kompressions-rate nicht erreicht werden konnte. Tatsachlich kann ein Huffmankode nur dann optimalfunktionieren, wenn die Auftretenswahrscheinlichkeiten inverse Zweierpotenzen sind.Bei der Kodierung realer Signale ist die Erstellung einer korrekten Statistik von großer Be-deutung. Oftmals verfugen Huffmankodierer aus diesem Grunduber verschiedene Code-books basierend auf unterschiedlichen Wahrscheinlichkeitsverteilungen und wahlen dann

56 KAPITEL 4. KODIERUNG

das geeignete Codebook aus. In diesem Fall muß allerdings dem Dekoder mitgeteilt wer-den, welches Codebook verwendet wurde.

4.5.1.3 Beispiel MPEG-4 ALS

MPEG-4 ALS ist das erste von der MPEG standardisierte verlustlose Kodierungsverfah-ren. Es unterstutzt als Eingabeformate Bitauflosungen 8-32 Bit Festkomma sowie 32Bit Fließkomma und beliebige Abtastraten. Im Gegensatz zu verlustbehafteten Verfah-ren mussen fur ein verlustloses Verfahren weite Teile des Enkoders standardisiert werden,da der Dekoder das Signal bitgenau rekonstruieren muß.

PradiktionAus dem aktuellen Block von Audiodaten werden die optimale Pradiktorordnung sowie

die Pradiktionskoeffizienten geschatzt. Die Koeffizienten werden quantisiert, um effizientubertragen werden zu konnen.

KodierungDa man im allgemeinen davon ausgehen kann, daß im Pradiktionsfehler kleine Ampli-

tudenwerte sehr viel wahrscheinlicher sind als große Amplitudenwerte, kann das Fehler-signal mittels Entropiekodierung effizient kodiert werden. Bei MPEG-4 ALS wird hierfurein Golomb-Rice-Codec verwendet, ein Spezialfall der Huffmankodierung mit vereinfach-ten Annahmenuber die Wahrscheinlichkeitsverteilung des Auftretens bestimmter Symbo-le.Weiterhin bietet ALS optional die Moglichkeit, fur einen bestimmten Amplitudenbereichdes Pradiktionsfehlers arithmetische Codierung (in diesem Fall Block Gilbert Moore Co-de, BGMC) einzusetzen. Im Gegensatz zur Huffman-Codierung konnen arithmetischeCodierer auch beliebige Auftretenswahrscheinlichkeiten (d.h. nicht nur inverse Zweierpo-tenzen) gut kodieren, so daß sich die Zahl der tatsachlichen verwendeten Bits pro Symboldem durch die Entropie vorgegebenen theoretischen Minimum annahert.

Erweiterungen

• Blocklangen-Switching: Die Blocklange ist nicht fix, sondern kann z.B. inAbhangigkeit der Abtastrate gewahlt werden. Jeder Block der Lange N kann wie-derum in Subblocke der LangenN/2, N/4, N/8, und N/16 aufgeteilt werden. Die Kom-binationen und die Reihenfolge der verschiedenen Subblock-Langen sind beliebig,solange die Summe der Blocklange N entspricht. Die Aufteilung eines Blocks inkurzere Subblocke erlaubt die effizientere Codierung von Transienten. Die Wahlder Subblock-Langen ist nicht durch den Standard vorgegeben, sondern hangt vonder Enkoderimplementierung ab.

• Random Access:Da jeder Block abhangig vom den Ergebnissen des vorhergehen-den Blockes ist, ließe sich jeder Bitstream jeweils nur vom Anfang an dekodie-ren. Um diese Einschrankung zu umgehen, erlaubt ALS das Einfugen sogenannter

4.5. BITRATENREDUKTION 57

Random-Access-Frames zu deren Dekodierung kein Vorwissen aus den vorherge-henden Blocken erforderlich ist. Auf diese Weise wird es moglich, im Bitstream zuspringen, ohne Dekodieren zu mussen.

• Inter-Channel Joint Coding: Zur Ausnutzung von Redundanzen zwischen Ka-nalpaaren bietet ALS einerseits die Moglichkeit, die Differenz zwischen einembeliebigen Kanalpaar zu enkodieren. Andererseits besteht die Moglichkeit, denPradiktionsfehler des einen Kanals zur Schatzung des Fehlers des anderen Kanalszu verwenden.

4.5.2 Irrelevanzkodierung

Die Verfahren der Irrelevanzkodierung versuchen, fur das menschliche Gehor wichtige Si-gnalanteile von unwichtigen Signalanteilen zu trennen, und die unwichtigen Anteile garnicht oder sehr verrauscht zuubertragen. Dabei sind je nach Verfahren und gewunschterQualitat Kompressionsraten von4/1− 30/1 oder mehr erzielbar. Im Gegensatz zu verlustlo-sen Verfahren ist es mit verlustbehafteten Verfahren meistens auch moglich, eine festste-hende Bitrate zu erzielen, was fur die Echtzeitubertragung (Streaming) große Bedeutunghaben kann. Im allgemeinen hat der Dekoder keinen Einfluß auf die Qualitat des enkodier-ten und wieder dekodierten Signals, diese wird ausschließlich von Enkoder bestimmt.Gelaufige Beispiele fur verlustbehaftete Musik-Kodierungsverfahren sind:

• MPEG-1 Layer 2 (MP2), MPEG-1 Layer 3 (MP3), MPEG-2/4 AAC (MP4), hiermit steigender Komplexitat bzw. steigender Kompressionsrate genannt. MPEG-4AAC ist das aktuellste und leistungsfahigste dieser Kodierungsverfahren [ISO01].

• Dolby AC-3 (Dolby Digital) ist ein Kodierungsverfahren fur bis zu 6 Audiokanalebei Abtastraten zwischen 32 und 48 kHz. Der Haupteinsatzbereich ist Kino undDVD. Das Verfahren ist standardisiert [ATS95].

• DTS

• Sony ATRAC, SDDS

Abb. 4.9 zeigt den prinzipiellen Aufbau eines typischen wahrnehmungsangepaßten Ko-dierungsverfahren.Da das Kodierungsverfahren versucht, wichtige (relevante) Signalanteile von unwichtigenzu unterscheiden, ist eine umfassende Analyse des Eingangssignals notig. Diese geschiehtim sogenannten psychoakustischen Modell. Die Analyse sowie die spatere Kodierung wer-den im Frequenzbereich durchgefuhrt, wobei die Transformation mittels einer Filterbankoder Frequenztransformation durchgefuhrt wird. Dabei werden wichtige Eigenschaftendes Gehors wie die aus der Psychoakustik bekannten Verdeckungseffekte und die Frequen-zauflosung des Gehors modelliert. Das psychoakustische Modell teilt dann den anderenKomponenten des Enkoders mit, welche Frequenzbander bzw. -komponenten besonders

58 KAPITEL 4. KODIERUNG

PsychoakustischesModell

Filterbank

SpectralProcessing

Quantisierungund

Noiseless Coding

Bitstream-Formatierung

-

-

-

-

-

-

? ?

?

?

Eingangssignal

kodierterAusgangsbitstream

Abbildung 4.9: typischer Ablauf eines wahrnehmungsangepaßten Kodierungsverfahrens, diedicken Pfeile markieren den Fluß der Audioinformationen, die dunnen den Fluß der Kontrolldaten

wichtig sind, und welche vernachlassigbar sind. Vor der eigentlichen Quantisierung desSignals kommen -abhangig vom jeweils betrachteten Kodierungsverfahren- noch einigeTools, welche die Kodierungseffizienz weiter steigern. Beispiele sind die Ausnutzung vonRedundanzen zwischen zwei Stereokanalen, die Pradiktion von Spektralwerten sowie dieVeranderung der zeitlichen Struktur des Quantisierungsrauschens.Einer der wichtigsten Bearbeitungsschritte ist die Quantisierung. Basierend auf der Ana-lyse des psychoakustischen Modells versucht der Quantisierer, wichtige Spektralanteilehochauflosend zu quantisieren und unwichtigere sehr grob zu quantisieren. Die Quantisie-rung im Zusammenhang mit der nachgeschalteten Redundanzkodierung der quantisiertenWerte resultiert dann in dem Kodierungsgewinn.Bei fast allen Irrelvanzkodierungsverfahren sind -wie z.B. bei den meisten MPEG-Enkodern- wesentliche Bestandteile des Enkoders nicht normiert, wahrend der Dekodervollstandig standardisiert ist. Dies hat den Vorteil, daß die Qualitat eines solchen Verfah-rens nicht mit der Standardisierung unumganglich feststeht, sondern standig weiter opti-miert werden kann, gleichzeitig jedoch die Kompatibilitat mit existierenden Dekodern bei-behalten kann. Andererseits hat dieses Vorgehen aber zur Folge, daß fur die meisten Ver-fahren unterschiedlichste konkurrierende Implementierungen mit teilweise deutlich von-einander abweichender Qualitat existieren; somit kann man nicht mehr von der Qualitat

4.5. BITRATENREDUKTION 59

des Verfahrens selbst sprechen, sondern entweder von der Qualitat einer Implementierungoder von Qualitatspotential eines Verfahrens.

4.5.2.1 Verdeckung und Frequenzgruppen

Ein einzelner Sinuston oder ein schmalbandiges Rauschen kann auf der Frequenzach-se dicht liegende Signalanteile maskieren, so dass sie nicht horbar sind (Simultanver-deckung). Abb.4.10zeigt eine Verdeckungsschwelle im Falle eine sinusformigen Maskie-rers fur unterschiedliche Maskiererpegel. Die unter der Verdeckungsschwelle und somitnicht horbaren Signale werden von einem verlustbehafteten Verfahren als unwichtig bzw.irrelevant eingeordnet.

Abbildung 4.10: Pegel eines Sinustons, der von einem1kHz-Sinuston unterschiedlichen Pegelsmaskiert wird, als Funktion der Frequenz des Testtones (aus [ZF99])

Die Hohe der Verdeckungsschwelle hangt auch von derTonalitat des Maskierers ab. Sokann die Verdeckungsschwelle von rauschhaften Maskierern um bis zu15dB hoher liegenals bei tonalen Maskierern.Das Gehor faßt zur spektralen Analyse Schallereignisse in Frequenzgruppen zusammen[Fle40], [ZF67]. Dieser Effekt laßt sich beispielsweise veranschaulichen, indem man einerVersuchperson ein Bandpaßrauschen konstanter Intensitat aber variabler Bandbreite vor-spielt. Die Bandbreite wird im Laufe des Versuchs langsam erhoht. Die wahrgenommeneLautstarke bleibt bis zu einem gewissen Punkt konstant, dann steigt sie an. An dem Punkt,wo die Bandbreite des Rauschens bei gleichbleibender Lautstarke maximal ist, konnen al-le Frequenzen innerhalb seiner Bandbreite einer Frequenzgruppe zugeordnet werden. Einalternatives Experiment mißt die Verdeckungsschwelle von zwei Schmalbandrauschenim Abstand∆f , die einen dazwischenliegenden Sinuston maskieren. Fur kleine∆f , dasheißt innerhalb einer Frequenzgruppe, bleibt die Verdeckungsschwelle konstant, außer-halb der Frequenzgruppe fallt sie mit zunehmendem∆f ab.

60 KAPITEL 4. KODIERUNG

Fur unterschiedliche Mittenfrequenzen ergeben sich unterschiedliche Bandbreiten der Fre-quenzgruppen, deren Breite nichtlinear mit der Mittenfrequenz zusammenhangt. Zwickergab folgende Naherung fur die Frequenzgruppenbreite∆f in Abhangigkeit der Mittenfre-quenz [ZF99]:

∆f = 25 + 75

[1 + 1.4

(fm

1000

)2]0.69

[Hz] (4.10)

Die Frequenzgruppenuberlappen einander; reiht man sie allerdings nicht-uberlappend aufder Frequenzskala auf, so erhalt man etwa 24 Bander, die sogenannten kritischen Bander.Die so entstehende Tonheitsskala kann linear von 0 bis 24 in die Pseudoeinheit [Bark]unterteilt werden [ZF67]. Ein Modell zur Abbildung der Frequenzf auf den Barkwertzist nach Zwicker [ZF99] gegeben durch (vgl. Abb.4.11):

z = 13 · arctan

(0.76f

1000

)+ 3.5 · arctan

([f

7500

]2)

[Bark] (4.11)

Abbildung 4.11: Bark-Werte nach Zwicker in Abhangigkeit der Frequenz

Die Bark-Skala laßt sich auch als Modell fur die nichtlineare Zuordnung von Frequenz zuOrt auf der Basilarmembran verstehen.Neben den Verdeckungseffekten im Frequenzbereich (Simultanverdeckung) gibt es auchzeitliche Verdeckungseffekte, die Nachverdeckung (auchForward MaskingoderPostmas-king) und die Vorverdeckung auchBackward MaskingoderPremasking). In Abb. 4.12sind die Auswirkungen dieser Effekte dargestellt. Kurz nach einem lauten Maskierer lie-

4.5. BITRATENREDUKTION 61

gende Signalanteile konnen oft nicht wahrgenommen werden. In geringerem Maße kanneine solche Verdeckung auch fur vorangehende Signalanteile stattfinden.

Abbildung 4.12: Bereiche, in denen Pre- und Postmasking auftritt (aus [ZF99])

Die Bedeutung der Simultanverdeckung ist fur verlustbehaftete Kodierungsverfahren al-lerdings von großerer Bedeutung als die Modellierung zeitlicher Verdeckungseffekte.

4.5.2.2 Beispiel MPEG-4 AAC

AAC steht fur Advanced Audio Coding und wurde zunachst in MPEG-2 standardisiert,dann mit leichten Erweiterungen in MPEG-4. AAC ist seinem Vorganger MP3 vomGrundprinzip her sehrahnlich, erlaubt aber neben einigen systematischen Verbesserun-gen und Erweiterungen zur Erhohung der Qualitat bis zu48 Kanale und Abtastraten bis96kHz.Im MPEG-4-Standard sind verschiedene Profiles fur AAC definiert, die fur verschiedeneAnwendungsfalle optimiert sind. Das gangigste Profile ist das AAC-LC (Low Comple-xity). Weiterhin gibt es die Profiles AAC-Main, das sich i.a. durch hohere Qualitat, aberauch hohere Rechenlast auszeichnet, und weitere bisher kaum verbreitete Profiles wie z.B.AAC-LTP und AAC-LD, letzteres zur Minimierung der Encoding/Decoding-Latenz.Neuere Versionen des Standards enthalten daruberhinaus das sogenannte HE-Profile undzusatzliche Erweiterungen zur parametrischen Audiokodierung, die wesentlich niedrigereBitraten bei akzeptabler Qualitat ermoglichen.Durch die offene Standardisierung des Enkoders variiert die Qualitat verschiedener Enko-derimplementierungen.

Psychoakustisches ModellEs ist Aufgabe des psychoakustischen Modells, eine Gewichtung von Signalanteilen

hinsichtlich ihrer Relevanz durchzufuhren. Durch die offene Standardisierung bleibt diepraktische Umsetzung des Modells dem Entwickleruberlassen. Es ist aber ein Vorschlagim Standard enthalten, der den grundsatzlichen Ablauf eines psychoakustischen Modellsverdeutlicht und der hier kurz beschrieben werden soll.Der eingehende Block von Audiodaten wird mittels einer FFT in den Frequenzbe-reich transformiert. Anschließend wird die Tonalitat bzw. Rauschhaftigkeit der ein-zelnen Spektralwerte fur die nachfolgende Bestimmung der Maskierungsschwelle be-stimmt, da die Hohe der Maskierung sich fur tonale und rauschhafte Maskierer unter-

62 KAPITEL 4. KODIERUNG

scheidet. Zur Bestimmung der Maskierungsschwelle wird das Spektrum anschließendin die kritische Bander transformiert. Da die Bander nichtuberlappend sind, ist dietatsachliche Auflosung ungefahr 3 mal so groß wie durch die kritischen Bander im nicht-uberlappenden Fall vorgegeben. Die Maskierungsschwelle berechnet sich dann mit der so-genanntenspreading function, die den Verlauf der Maskierungsschwelle eines einzelnenMaskierers nachbildet. Die Berechnung der Maskierungsschwelle laßt sich vereinfachtals Faltung der spreading function mit dem Bark-Spektrum vorstellen. Tatsachlich wirdallerdings die absolute Hohe der Spreading function noch mittels der zuvor berechnetenTonalitat bewertet. Zu Bestimmung der endgultigen Maskierungsschwelle wird abschlie-ßend noch die Ruhehorschwelle betrachtet.Aus dem Verhaltnis der berechneten Maskierungsschwelle und des Energiespektrumsschatzt das psychoakustische Modell die Zahl der zur Kodierung erforderlichen Bits, fallskeine Artefakte bzw. Unterschiede zum Original wahrgenommen werden sollen.

Abbildung 4.13: Energieuber der Frequenz unduber Bark mit berechneter Maskierungsschwellefur einen einzelnen Block der Lange 2048 Abtastwerte

FilterbankWahrend das psychoakustische Modell ausschließlich analysierende Funktion hat und

damit im einfachsten Fall eingespart werden kann, fordert AAC die Verwendung eineFrequenztransformation mittels MDCT (Modified Discrete Cosine Transformation). Einzu transformierender Eingangsblock besteht hierbei im Normalfall aus 2048 mit einemsinusformigen Fenster gewichteten Abtastwerten, dieUberlappung zwischen zwei aufein-anderfolgenden Blocken betragt 1024 Abtastwerte. Um die Enkodierqualitat bestimmterSignalausschnitte wie z.B. beim Auftreten starker Transienten zu verbessern, hat der En-

4.5. BITRATENREDUKTION 63

koder die Moglichkeit, statt eines Blocks der Lange 2048 acht Blocke der Lange 256 zuverwenden (vgl. Abb.4.14).

Abbildung 4.14: Fensterfunktionen von aufeinanderfolgenden Blocken bei der Enkodierung desmittleren Blocks mit acht kurzen Blocken

Unabhangig von der verwendeten Fensterlange besteht zusatzlich die Moglichkeit, stattdes dargestellten sinusformigen Fensters ein Kaiser-Bessel-Fenster zu verwenden.

Quantisierung und Noiseless CodingDie Aufgabe des Quantisieres ist es, die Analysedaten des psychoakustischen Mo-

dells auszuwerten und entsprechend dieser Information gewisse Spektralbereiche inAbhangigkeit ihrer

”Horbarkeit“ mit unterschiedlicher Bitauflosung zu quantisieren. Das

Ziel dabei ist, die Leistung des eingefugten Quantisierungsrauschens kleiner als die Mas-kierungsschwelle zu halten. Zudem hat der Quantisierer unter Umstanden ebenfalls dieVorgabe, eine gewisse Zielbitrate erreichen zu mussen.Die zu quantisierenden Spektralwerte werden in Bandern zusammengefaßt, denen jeweilsein Skalierungsfaktor zugeordnet wird. Dieser Faktor wird auf alle Spektralwerte inner-halb des jeweiligen Bandes angewendet, so daß damit der Aussteuerungsbereich des Quan-tisierers justiert werden kann. Die einzelnen Spektralwerte werden nichtlinear quantisiert,d.h. hohe Amplitudenwerte werden mit geringerer Auflosung quantisiert als kleine.Zur zusatzlichen Verminderung der Ausgangsbitrate werden die Scale Factors unddie quantisierten Spektralwerte abschließend mittels verschiedener Huffman-Codebookskomprimiert. Diese Redundanzkodierung wird im MPEG-Kontext alsNoiseless Codingbezeichnet, da kein zusatzliches Quantisierungsrauschen eingefugt wird. Die Verwendungdieses verlustfreien Verfahrens erschwert den Quantisierungsprozeß, da die tatsachlicheAusgangsbitrate vor der Codebook-Zuweisung schwer abzuschatzen ist.

64 KAPITEL 4. KODIERUNG

ToolsAAC erlaubt optional den Einsatz verschiedener Tools zur Verbesserung der Qualitat.

Nicht jedes Tool ist in jedem Profile erlaubt. Die folgende Liste gibt eine kurzeUbersichtuber die moglichen Tools.

• MS (Mid/Side Stereo) und IS (Intensity Stereo): Sowohl das MS-Tool (auch: JointChannel Coding) als auch das IS-Tool betrachten jeweils Kanalpaare. Das MS-Toolversucht hierbei, Redundanzen zwischen den Kanalen auszunutzen, wahrend dasIS-Tool versucht, Irrelevanzen im hohen Frequenzbereich zu detektieren und zuvermeiden.

• PNS (Perceptual Noise Substitution): Rauschhafte Frequenzbander konnen mit Hil-fe dieses Tools durch vom Dekoder kunstlich generiertes Rauschen ersetzt werdenstatt quantisiert und Huffman-kodiert zu werden. Das PNS-Tool ist nur in MPEG-4spezifiziert, soll der Bitstream kompatibel zu MPEG-2 AAC sein, so darf es nichtaktiviert sein.

• Frequency Domain Prediction: Frequency-Domain Prediction erlaubt hohereKodierungs-Effizienz fur tonale Signale durch eine adaptive Pradiktion im Fre-quenzbereich. Dieses Tools kann ausschließlich im Main Profile genutzt werden.

• TNS (Temporal Noise Shaping): Zur Kontrolle der zeitlichen Hullkurve des Quanti-sierungsrauschen innerhalb jedes Fensters wird ein adaptiver Filterungsprozeß aufdie Spektralwerte angewendet. Dadurch wird die Energie im Zeitbereich hin zu Ab-schnitten mit hoher Signalenergie verschoben.

• LTP (Long Term Prediction): Wie die Frequency Domain Prediction ist dieses Toolsspeziell fur tonales Audiomaterial gedacht. Das LTP-Tool wird im allgemeinennicht verwendet; im Gegensatz zur Frequency Domain Prediction scheint der Ge-winn des LTP-tools im Verhaltnis zur erforderlichen Rechenleistung nur gering zusein. LTP kann nur im LD- oder LTP-Profile eingesetzt werden.

BitstreamformatierungDie vorliegenden Daten mussen zurUbertragung in einer standardkonformen Reihen-

folge angeordnet werden und mit entsprechenden Zusatzinformationen versehen werden.Je nach Anwendungsfall bietet MPEG-4 verschiedene Moglichkeiten, die Daten bzw. de-ren Zusatzinformation zu speichern:

• RAW-Format : hier werden nur die reinen Datenubertragen; InformationenuberSamplerate und Profile fehlen. Der Bitstream kann ohne Aufwand nur vom Anfangdekodiert werden (haufig verwendete Dateinamenerweiterung: *.aac, *.raw)

• ADIF-Format : An den Anfang des RAW-Datenstroms wird ein einzelner Hea-der mit Zusatzinformationen eingefugt (haufig verwendete Dateinamenerweiterung:*.aac)

4.5. BITRATENREDUKTION 65

• ADTS-Format: An den Anfang jedes enkodierten Blocks des RAW-Datenstromswird ein Header mit Zusatzinformationen eingefugt, vergleichbar mit dem MP3-Format, somit wird es moglich, im Bitstream zu springen (haufig verwendete Da-teinamenerweiterung: *.aac)

• MP4-Format: Der RAW-Datenstrom wird als Track in eine Datei oder einenStream nach MPEG-4-Dateiformatspezifikation eingebettet. Dies ermoglicht diesynchroneUbertragung z.B. anderer Informationen wie Video, etc. (haufig verwen-dete Dateinamenerweiterung: *.mp4, *.m4a)

4.5.2.3 Qualitat

Die Qualitat von wahrnehmungsangepaßten Signalen ist ein viel diskutiertes Thema, des-sen Kontrahenten sich zwischen den zwei Polen

”die Unterschiede sind unhorbar“ und

”die Unterschiede sind unertraglich“ bewegen.

Tatsachlich ist die Qualitat eines Kodierungsverfahrens nicht leicht meßbar, denn sie istabhangig von

• der verwendeten Enkoderimplementierung, da verschiedene Enkoder unterschied-lich exakte Modelle fur die menschliche Wahrnehmung und unterschiedlich effizi-ente Modelle fur Quantisierung und andere Tools verwenden.

• dem verwendeten Eingangssignal, da es fur jedes Verfahren und jede Implemen-tierung kritische und unkritische Testsignale gibt. Bei unkritischen Testsignalenkann die Qualitat selbst bei niedrigen Ausgangsbitraten sehr gut sein. Zur Qua-lit atsbeurteilung eines Verfahrens sollten jedoch moglichst kritische Testsequenzenausgesucht werden, damit die Starken und Schwachen deutlich hervortreten. In vie-len Fallen zeichnen sich kritische Testsequenzen durch scharfe Transienten und ho-he Frequenzanteile aus.

• den verwendeten Enkodieroptionen. Mit einer Feinanpassung der Enkodieroptionenlaßt sich die Enkodierungsqualitat oftmals signifikant im Hinblick auf das verwen-dete Eingangssignal und die angestrebte Ausgangsbitrate optimieren.

Die naheliegensten und am haufigsten benutzten Enkodieroptionen sindBitrateund/oderQualitatsstufe. Je hoher die Bitrate, desto besser klingt i.a. das enkodierteSignal. Daher beeinflussen sich diese beiden Parameter oft gegenseitig. Viele Enko-der haben einen sog.VBR-Modus, fur den lediglich noch die gewunschte Qualitatselektiert wird und kein direkter Einfluß mehr auf die Ausgangsbitrate genommenwerden kann.

Uber die einstellbare Grenzfrequenz desTiefpaßfilterslaßt sich eine Tiefpaßfilte-rung vor dem eigentlichen Enkodiervorgang durchfuhren. Dies erlaubt dem Enko-der, die verfugbaren Bits auf die tieferen Frequenzanteile zu konzentrieren und ver-meidet unter Umstanden Zwitscherartefakte.

66 KAPITEL 4. KODIERUNG

Uberschreitet ein Enkoder seinen optimalen Kompressionsratenbereich, wird sichdie Qualitat mit sinkender Bitrate rapide verschlechtern. Durch eineAbtastratenkon-vertierungdes Eingangssignals hin zu niedrigen Abtastraten laßt sich die Kompres-sionsrate wieder etwas verringern, so daß die empfundene Qualitat in vielen Fallensteigt.

Bei sehr niedrigen Bitraten sinkt die Qualitat oft so rasch, daß der Verzicht auf dieStereo- oder Multichannelinformation sinnvoller ist als die deutlich horbaren Ko-dierungsartefakte in Kauf zu nehmen. Bei einemDownmixvon Stereo nach Monohalbiert sich die Kompressionsrate, so daß der Enkoder wieder Spielraum zur Qua-lit atsoptimierung hat.

Typische ArtefakteDie typischen bei Irrelevanzkodierungsverfahren entstehenden Artefakte sind:

• Pre-Echo und Verschmierungen: Diese Artefakte sind auf die Blockbasiertheit derVerfahren zuruckzufuhren und insbesondere bei transienten Signalanteilen wahrzu-nehmen. Sie treten insbesondere bei langeren Blocklangen auf. Ein Transient wirdmit dem gesamten Audioblocks quantisiert.

Dadurch kann einerseits das Problem auftreten, dass die kurzzeitig an der zeitli-chen Position des transienten Signals auftretenden hohen Frequenzanteile als zu un-wichtig angesehen werden und daher der wahrnehmbare Schlag zeitlich verschmiertwird.

Bei der Kodierung von transienten Signalen vor allem nach einer stillen Passagekann es auch zum sogenannten Pre-Echo kommen: da sich das vom Quantisierereingefugte Quantisierungsrauschen zeitlich gleichmaßiguber den gesamten Audio-block verteilt und somit auch in der Stille vor dem transienten Signal vorhanden ist,kann dieses Rauschen unter Umstanden vom Horer als

”Vorecho“ wahrgenommen

werden. AAC versucht diese Artefakte v.a. durch das Umschalten der Fensterlangeund das TNS-Tool in den Griff zu bekommen.

• Bandbegrenzung und Zwitschern: um die geforderte Bitrate zu erreichen, wirdoft vor der eigentlichen Kodierung ein Tiefpaßfilter auf das Audiosignal ange-wendet, was auch als Teil des psychoakustischen Modells interpretiert werdenkann. Somit stehen die meisten Bits fur die

”wichtigeren“ tieferen Frequenzen zur

Verfugung. Abhangig vom Signaltyp und der gewahlten Frequenz kann eine solcheTiefpaßfilterung als storend wahrgenommen werden. Bei einer zu hoch gewahltenGrenzfrequenz kann es jedoch zu storenderen Artefakten kommen: dem sogenann-ten Zwitschern oder Blubbern. Dieses Artefakt resultiert aus einer haufigen An-/Ausschaltung der hohen Frequenzbander (wenn noch ausreichend Bits vorhandensind, konnen die als unwichtigere Anteile gesehenen hohen Frequenzen mitkodiertwerden, andernfalls nicht).

4.5. BITRATENREDUKTION 67

• Schwankungen/Verzerrungen des Stereobildes / der Raumlichkeit: die gesonderteKodierung von Stereoinformationen (oder Surroundinformationen) kann zu zeitli-chen Variationen des Sterobildes und der wahrnehmbaren Raumlichkeit eines Au-diosignals fuhren. Dies trifft insbesondere auf die in Zukunft aufkommenden para-metrischen Kodierungsverfahren zu.

• Rauheit/Quantisierungsrauschen: der subjektive Horeindruck der Rauheit kanndurch ein von Block zu Block stark veranderliches Quantisierungsrauschen hervor-gerufen werden.

Qualit atsmessungEin objektiver Vergleich verschiedener Enkoder ist schwer, da die etablierten Verfahren

zur Qualitatsmessung im Zusammenhang mit Kodierungsverfahren versagen. Dies hat v.a.drei Grunde:

• die hohe Zeitinvarianz der Kodierungsverfahren, die ca. alle10 − 20ms ihrUbertragungsverhaltenandern konnen

• die Ausgangsqualitat hangt stark vom Eingangssignal ab,

• durch die intensive Ausnutzung von psychoakustischen Erkenntnissen wird bewußtRauschen insbesondere in verdeckten Frequenzbereichen eingefuhrt; wird der Pegeldieses Rauschens mit einfachen Mitteln wie einer SNR-Messung ermittelt, so wirddie

”Unhorbarkeit“ dieses Rauschens nicht berucksichtigt.

Es existieren zwar Systeme, die versuchen, die Qualitat von Kodierungsverfahren objektivzu messen [ITU01], diese besitzen allerdings bisher nur beschrankte Aussagekraft. Somitbleibt als einzige und letzte Alternative zur Qualitatsbeurteilung von Kodierungsverfahrennur die subjektive Beurteilung. Will man die Ergebnisse dieser subjektiven Beurteilungzumindest ansatzweise objektivieren, so bleibt nur der aufwendige Hortest.Die Qualitat des Dekoders spielt entgegen einer verbreiteten Meinung bei praktisch kei-nem wahrnehmungsangepaßten Verfahren eine Rolle. Die Dekoder konnen nach objekti-ven Kriterien auf ihre Standardkonformitat uberpruft werden. Im Falle der Standardkon-formitat sind die Unterschiede zwischen den Ausgangssignalen verschiedener Dekodervernachlassigbar.

4.5.2.4 Auswahlkriterien von Kodierungsverfahren

Es existiert kein Audiokodierungsverfahren, das in jedem Einsatzbereich uneingeschrankteingesetzt werden kann. Abhangig von Einsatzbereich lassen sich unterschiedliche Krite-rien benennen, die im folgenden stichpunktartig dargestellt und erlautert werden sollen.

• Audioqualit at: Die Qualitat des kodierten und wieder dekodierten Signals ist si-cherlich das wichtigste Kriterium bei der Auswahl des Kodierungsverfahren und

68 KAPITEL 4. KODIERUNG

hangt mehr oder weniger direkt mit vielen der nachfolgenden Punkte zusammen.Die Qualitat ist bei wahrnehmungsangepaßten Verfahren abhangig vom Eingangs-signal, so daß die Wahl des Kodierungsverfahren vom zu kodierenden Signalabhangen kann. Ist die Audioqualitat das einzige Kriterium, so ist einem verlust-losen Verfahren der Vorzug zu geben.

Ein weiterer Aspekt ist unter Umstanden auch die Verschlechterung der Qualitatnach mehrmaligem En- und Dekodieren des gleichen Signals (Tandemkodierung),z.B. wegen dazwischenliegender Bearbeitungsschritte. Die Qualitat nach mehrma-liger Tandemkodierung schwankt von Verfahren zu Verfahren. Tandemkodierungsollte moglichst vermieden werden.

• Bitrate : Bitrate und Qualitat haben direkt aufeinander Einfluß. Im allgemeinensteigt die Qualitat mit zunehmender Bitrate. Verschiedene Verfahren sind immerauf bestimmte Kompressionsraten optimiert und erzielen bei diesen die besten Er-gebnisse; bei abweichenden Kompressionsraten konnen sie schlechter klingen alsandere Verfahren.

Es spielt ebenfalls eine Rolle, ob ein Verfahren die Enkodierung in einerkon-stantenoder variablen Bitrate erlaubt. Beispielsweise sind Verfahren mit varia-bler Bitrate (VBR) fur Streaminglosungen aufgrund der schwankenden benotigtenUbertragungsrate eher ungeeignet, fur Archivierungslosungen hingegen geeignet.

• Komplexit at: Die Komplexitat eines Verfahrens zeigt sich in der erforderlichen Re-chenleistung fur eine Kodierung/Dekodierung. Je komplexer ein Verfahren ist, destomehr steigt die Auslastung des Rechners/Chips. Im Gegenzug steigt allerdings mitder Komplexitat meistens auch die Qualitat.

Im allgemeinen sind die Dekoder wesentlich weniger aufwendig als die Enkoder.Aus diesem Grund sind Dekoder billiger und einfacher zu realisieren (z.B. porta-bel), wahrend Enkoder sowohl in Entwicklung als auch in der Umsetzung hoherenAufwand fordern.

• Delay: In Einzelfallen, insbesondere im Falle zweiseitiger Kommunikation wiez.B. mit dem Telefon ist auch das Enkodierungs-/Dekodierungsdelay ein wichtigesAuswahlkriterium. Wenn dieses Delay groß ist wie z.B. bei den meisten MPEG-Verfahren, leidet der Gesprachsfluß unter dieser Einschrankung. Mit steigendemDelay steigt meistens auch die Qualitat eines Verfahrens durch die umfangreichereMoglichkeiten der Signalanalyse leicht an.

• Verbreitung : Je verbreiteter ein Verfahren ist, desto mehr Menschen konnen ko-dierte Dateien ohne große Probleme abspielen. Will man also z.B. Demodateien furmoglichst viele Horer zuganglich machen, so ist die Wahl eines (je nach Zielmarktin Hardware oder Software) verbreiteten Verfahrens sinnvoll.

• Kosten: Die Kosten fur die Benutzung eines Verfahrens schwanken. Teilweisedurfen Verfahren kostenlos benutzt werden, teilweise muß man vor der Benutzung

4.5. BITRATENREDUKTION 69

eine Lizenz erwerben (meistens im Kaufpreis enthalten). Es kann sogar vorkommen,daß pro enkodiertem Material Lizenzgebuhren an den Rechteinhaber fallig werden.

Beim Hardwaredesign sind auch die Kosten von Enkoder-/Dekoderbausteinen zubeachten.

• Zukunftssicherheit und Rechtssicherheit: Gerade bei der Anwendung von Ko-dierungsverfahren fur Archivierungen spielt die Frage der Zukunftssicherheit einesVerfahrens eine wichtige Rolle, denn funkionsfahige Dekoder mussen auch nochin mehreren/vielen Jahren zur Verfugung stehen. Anhaltspunkte dafur sind zumBeispiel, ob das Verfahren international standardisiert ist, ob es sich um einen defacto-Standard handelt und ob Quelltexte zu dem Verfahren frei verfugbar sind.

Die meisten Verfahren beruhren ein oder mehrere Patente. Es existieren nicht-kommerzielle Kodierungsverfahren, die diese Patente unter Umstanden verletzen,den Anwender aber nicht darauf aufmerksam machen. Auch wenn diese Patentver-letzungen im Moment nicht verfolgt werden, muß das nicht bedeuten, daß dieseVerfahren auch in Zukunft bedenkenlos benutzt werden konnen bzw. durfen.

• technische Kompatibilitat: selbstverstandlich muß das Verfahren auf die Anforde-rungen hinsichtlich der zu kodierenden Eingangssignale wie Abtastrate, Zahl derKanale, Art des Materials, etc. ausgelegt sein

70 KAPITEL 4. KODIERUNG

Abbildungsverzeichnis

2.1 Abtastung eines analogen Signals. . . . . . . . . . . . . . . . . . . . . 132.2 Abtastung mehrerer Sinusschwingungen. . . . . . . . . . . . . . . . . . 132.3 Analoger und abgetasteter Zeitverlauf mehrerer Sinusschwingungen. . . 142.4 Spektrum eines analogen und abgetasteten Signals. . . . . . . . . . . . . 142.5 Ablaufdiagramm Sampling. . . . . . . . . . . . . . . . . . . . . . . . . 152.6 Quantisierungskennlinie. . . . . . . . . . . . . . . . . . . . . . . . . . 162.7 Quantisierungsvorgang. . . . . . . . . . . . . . . . . . . . . . . . . . . 162.8 Quantisierungsfehler eines optimal ausgesteuerten Sinussignals. . . . . . 172.9 Amplitudendichteverteilung des Quantisierungsfehlers. . . . . . . . . . 172.10 Amplitudendichteverteilung eines Musiksignals. . . . . . . . . . . . . . 182.11 Signalrauschabstand eines Quantisierers. . . . . . . . . . . . . . . . . . 192.12 Ubersteuerung eines Quantisierers. . . . . . . . . . . . . . . . . . . . . 202.13 Quantisierungsfehler bei einer 3-stufigen Quantisierung. . . . . . . . . . 212.14 Quantisierungsfehler bei einer leicht geditherten Quantisierung. . . . . . 212.15 Spektrum eines geditherten Signals. . . . . . . . . . . . . . . . . . . . . 222.16 Requantisierung, Dithering und Wortbreitenkonvention. . . . . . . . . . 222.17 Requantisierung mit Dither: Kennlinienlinearisierung und Rauschmodu-

lation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .242.18 Ditherformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.19 Quantisierungsfehlerleistung bei Oversampling. . . . . . . . . . . . . . 262.20 Noise-Shaping 1. Ordnung. . . . . . . . . . . . . . . . . . . . . . . . . 272.21 Frequenzgang Noise-Shaping verschiedener Ordnungen. . . . . . . . . . 282.22 Delta-Sigma Modulator 1. Ordnung. . . . . . . . . . . . . . . . . . . . 282.23 SNR-Gewinn durch Oversampling. . . . . . . . . . . . . . . . . . . . . 302.24 Zuweisung von Amplitudenwerten zur 2er-Komplement-Darstellung. . . 31

3.1 Parallel-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2 Subranging-Wandler. . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.3 SAR-Wandler. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.4 Spannungsverlauf. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.5 Delta-Sigma-Wandler. . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.6 R-2R-Wandler. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.7 Delta-Sigma-DA-Wandler . . . . . . . . . . . . . . . . . . . . . . . . . 36

71

72 ABBILDUNGSVERZEICHNIS

3.8 Abweichungen von der idealen Wandlerkennlinie. . . . . . . . . . . . . 373.9 Jitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .383.10 Auswirkung von Sampling Jitter auf den Signal-Rauschabstand in

Abhangigkeit von Zeitfehler und Signalfrequenz in Bezug zum theo-retischen Signal-Rauschabstand von 16- und 18-bit Systemen. . . . . . . 39

4.1 Einfache Kanalkodes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.2 Strategie der Fehlerschutz-Kodierung. . . . . . . . . . . . . . . . . . . 464.3 XOR Gatter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.4 Zweidimensionaler Paritatskode . . . . . . . . . . . . . . . . . . . . . . 494.5 Faltungskode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.6 Subframe nach AES 3 (AES/EBU). . . . . . . . . . . . . . . . . . . . . 504.7 Subframe nach AES 10 (MADI). . . . . . . . . . . . . . . . . . . . . . 524.8 Redundanzkodierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.9 Irrelevanzkodierung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.10 Mithorschwelle eines Sinustones. . . . . . . . . . . . . . . . . . . . . . 594.11 Bark-Skala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.12 Pre- und Postmasking. . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.13 Maskierungsschwelle eines Audiosignals. . . . . . . . . . . . . . . . . 624.14 Window Length Switching in AAC. . . . . . . . . . . . . . . . . . . . . 63

Tabellenverzeichnis

1.1 Einzug digitaler Signalverarbeitung im Tonstudiobereich. . . . . . . . . 61.2 Einfuhrung digitaler Speichermedien. . . . . . . . . . . . . . . . . . . . 71.3 Digitale Filmton-Formate. . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1 Festkomma-Darstellung. . . . . . . . . . . . . . . . . . . . . . . . . . . 302.2 Bitzuweisung in der Gleitkomma-Darstellung. . . . . . . . . . . . . . . 312.3 Gleitkomma-Format. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.1 GCR Gruppenkode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.2 Gruppenkodes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.3 Kennzahlen von Kanalkodes. . . . . . . . . . . . . . . . . . . . . . . . 454.4 Wahrheitstafel XOR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.5 AES 3 Channel Status Block. . . . . . . . . . . . . . . . . . . . . . . . 514.6 Nichtproprietare Audio-Interfaces - Elektrische Spezifikationen. . . . . . 524.7 Beispiel Huffman-Kodierung. . . . . . . . . . . . . . . . . . . . . . . . 55

73

74 TABELLENVERZEICHNIS

Literaturverzeichnis

[ATS95] ATSC. Atsc a/52, digital audio compression (ac-3). International Standard,1995.

[Bal02] Glen M. Ballou.Handbook for Sound Engineers. Focal Press, 3 edition, 2002.

[Coa05] Josh Coalson. Flac - free lossless audio codec, 2005.

[Dic97] Michael Dickreiter.Handbuch der Tonstudiotechnik. Saur, Munchen, 6 editi-on, 1997.

[Fle40] Harvey Fletcher. Auditory Patterns. InReviews of Modern Physics, volume 12,pages 47–65. The American Physical Society, 1940.

[ISO01] ISO/IEC. Iso/iec 14496-3:2001, information technology - coding of audio-visual objects - part 3: Audio. International Standard, 2001.

[ITU01] ITU. Itu-r bs.1387-1 , method for objective measurements of perceived audioquality. International Standard, 2001.

[KPS03] Herbert Klimant, Rudi Piotraschke, and Dagmar Schonfeld. Informations-und Kodierungstheorie. Teubner Verlag, Munchen, 2 edition, 2003.

[Poh00] Ken C. Pohlmann.Principles of Digital Audio. McGraw-Hill, 4 edition, 2000.

[RW04] Francis Rumsey and John Watkinson.Digital Interface Handbook. FocalPress, 3 edition, 2004.

[SCG+99] J.R. Stuart, P.G. Craven, M.A. Gerzon, M.J. Law, and R.J. Wilson. Mlp los-sless compression. InProc. of the AES 9th Regional Convention, Tokyo, June1999.

[Wat98] John Watkinson.The Art of Sound Reproduction. Focal Press, 1 edition, 1998.

[Wat01] John Watkinson.The Art of Digital Audio. Focal Press, 2001.

[ZF67] Eberhard Zwicker and Richard Feldtkeller.Das Ohr als Nachrichten-empfanger. Hirzel, Stuttgart, 2 edition, 1967.

75

76 LITERATURVERZEICHNIS

[ZF99] Eberhard Zwicker and Hugo Fastl.Psychoacoustics. Facts and Models. Sprin-ger, Heidelberg, 2 edition, 1999.

[Zol02] Udo Zolzer, editor.DAFX. Digital Audio Effects. Wiley, 1 edition, 2002.

[Zol05] Udo Zolzer. Digitale Audiosignalverarbeitung. Teubner, Stuttgart, 3 edition,2005.