JörgCassens - mi.kriwi.demi.kriwi.de/mi/MI-06-Audio-JC-slides.pdf · Schall Wahrnehmung...

84
Schall Wahrnehmung Digitalisierung Kompression Bearbeitung Literatur Audio Jörg Cassens Institut für Mathematik und Angewandte Informatik Medieninformatik WS / WS / Jörg Cassens – Audio /

Transcript of JörgCassens - mi.kriwi.demi.kriwi.de/mi/MI-06-Audio-JC-slides.pdf · Schall Wahrnehmung...

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Audio

Jörg Cassens

Institut für Mathematik und Angewandte Informatik

MedieninformatikWS 2019/2020

WS 2019/2020 Jörg Cassens – Audio 1 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Pingo

+ pingo.coactum.de/596956

WS 2019/2020 Jörg Cassens – Audio 2 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

EinleitungVisuelle Reize vielleicht dominant, Töne aber sehr wichtig

Wir können wegschauen, aber nicht weghören

Einzig steuerbarer Parameter häufig die LautstärkeAkustische Warnsignale deshalb akustisch weil wirksamWahrnehmung o� unbewußt, ungewollt, nebenherBeeinflussung der Wahrnehmung

Filmmusik

Transportiert z.B. Stimmungen anderer PersonenDefinition von Kulturen über die MusikGesellscha�liche Funktion

HymnenKampfliederStadiongesänge

Audiodesign inzwischen wesentlicher Bestandteil der Produktentwicklung

WS 2019/2020 Jörg Cassens – Audio 3 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Lernziele

Physikalische Grundlagen akustischer SignaleSchallwellenAusbreitung

WahrnehmungAufnahmeDigitalisierungKompressionAudiobearbeitung

WS 2019/2020 Jörg Cassens – Audio 4 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Outline

1 Schall

2 Wahrnehmung

3 Digitalisierung

4 Kompression

5 Bearbeitung

WS 2019/2020 Jörg Cassens – Audio 5 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Schall

Mechanische Bewegung eines physikalischen Mediums wie Lu� oder WasserExplosionen im Weltall

Breitet sich als Druckwelle ausUnterschiedliche Ausbreitungsgeschwindigkeit in unterschiedlichen Medien(dichter ist schneller)In Lu� etwa 331 m/s bei 0 Grad Celsius, 343 m/s bei 20 GradZumeist periodische SignaleVom Menschen wahrnehmbar etwa 18 Hz bis 20 kHz (etwa 17 m bis 1,7 cm)

WS 2019/2020 Jörg Cassens – Audio 6 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Grundlegende Größen

WS 2019/2020 Jörg Cassens – Audio 7 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Grundlegende Größen

Amplitude: Maximaler Wert in einer SchwingungPhase: Ein DurchlaufPhasenverschiebung: Verschiebung des Nulldurchgangs (0-360 Grad)Frequenz: Anzahl der Schwingungen pro ZeiteinheitWellenlänge: Der Weg, den das Signal bei gegebenerAusbreitungsgeschwindigkeit zurücklegt

WS 2019/2020 Jörg Cassens – Audio 8 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Longitudinalwelle vs. Transversalwelle

+ Wikipedia – User Debianux

WS 2019/2020 Jörg Cassens – Audio 9 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Longitudinalwelle

+ Wikipedia

WS 2019/2020 Jörg Cassens – Audio 10 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Hörbare Frequenzen

Der vom Menschen hörbare FrequenzraumBeachte: für Sprache reicht ein weitaus kleinerer Teil aus

WS 2019/2020 Jörg Cassens – Audio 11 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Ausbreitung

Konzentrische Ausbreitung um den EntstehungspunktIntensität nimmt mit dem Quadrat der Entfernung abSchallwellen können absorbiert, reflektiert, gebrochen und gebeugt werdenSchallwellen werden an Objekten gebeugt, deren Abmessungen in etwa in derGrößenordnung der Wellenlänge liegenLiegt in Bereichen, bei denen Elemente der Architektur eine Rolle spielenkönnen

Tiefe Frequenzen “fließen” um eine Säule herumHohe Frequenzen werden abgeblockt

WS 2019/2020 Jörg Cassens – Audio 12 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Klangerzeugung

Wesentliche Aspekte lassen sich z.B. bei der Betrachtung vonSaiteninstrumenten erkennenWird eine Saite in Schwingungen versetzt entstehen mehrere TöneEine Saite schwingt zwischen den festen ElementenMit relativ wenig Energiezufuhr kommen Frequenzen aus, die an denFixpunkten einen Nulldurchgang haben

Grund- oder ResonanzfrequenzVielfache dieser Schwingung (Obertöne)

Übertragbar auf andere KlangerzeugerFlächen (Trommeln)Lu�säulen in den Blasinstrumenten

WS 2019/2020 Jörg Cassens – Audio 13 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

ObertöneHarmonische oder Obertöne

WS 2019/2020 Jörg Cassens – Audio 14 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Obertöne: Beispiel

+ demonstrations.wolfram.com/Overtones

WS 2019/2020 Jörg Cassens – Audio 15 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Tonleiter

Westliches Tonsystem mit den zwölf Tönen einer Oktave läßt sichnäherungsweise aus Obertönen konstruierenSei f die Frequenz des Grundtons, dann hat die Oktave darüber die doppelteFrequenz, 2f , die reine Quinte über der Oktave 3f , die große Terz 5f etc.Obertonreihen erzeugen reine StimmungIn der westlichen musikalischen Praxis werden temperierte Stimmungenverwendet (gleich klingende Intervalle) bezüglich der Grundtöne

Gezielt etwas unrein gestimmt, um kleine Tohnhöhenunterschiede zu verteilenNicht-Übereinstimmung von Quinten und Terzen

Verschiedene Tonarten mit 12 TastenZusammenspiel unterschiedlicher Instrumente

J.S. Bach: Das wohltemperierte KlavierBlechblasinstrumente spielen in reiner Stimmung

WS 2019/2020 Jörg Cassens – Audio 16 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

FrequenzspektrumAnalog Histogramm bei Bildern

WS 2019/2020 Jörg Cassens – Audio 17 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Addition

Bei Mischung von 2 Signalen werden diese addiertMischung mit sich selber: konstruktive InterferenzMischung mit invertiertem (180 Grad phasenverschobenem) Signal –destruktive InterferenzMischung zweier nahe beieinander liegenden Signale kann zur Schwebungführen

Nutzbar bei der Stimmung von InstrumentenBei der Mischung zweier Signal kann das eine das andere modulieren

Frequenz, Amplitude, PhaseGrundlage erster Synthesizer

Nicht-periodische Signale (Geräusch)

WS 2019/2020 Jörg Cassens – Audio 18 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Addition

WS 2019/2020 Jörg Cassens – Audio 19 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Addition: Beispiel

+ demonstrations.wolfram.com/SuperpositionOfSoundWaves

WS 2019/2020 Jörg Cassens – Audio 20 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Annäherung: RechteckUngerade Vielfache der Grundfrequenz

WS 2019/2020 Jörg Cassens – Audio 21 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Gibbs

+ demonstrations.wolfram.com/GibbsPhenomenonInTheTruncatedDiscreteTimeFourierTransformOfT/

WS 2019/2020 Jörg Cassens – Audio 22 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Outline

1 Schall

2 Wahrnehmung

3 Digitalisierung

4 Kompression

5 Bearbeitung

WS 2019/2020 Jörg Cassens – Audio 23 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Akustische Wahrnehmung

WS 2019/2020 Jörg Cassens – Audio 24 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Akustische Wahrnehmung (contd.)

WS 2019/2020 Jörg Cassens – Audio 25 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Maskierung

Bei nahe beieinander liegenden Reizen kann ein energiereiches Signal einenahe liegendes, schwächeres Signal maskieren (Frequenzmaskierung)Auch schwache Reize vor oder nach starken Reizen (zeitliche Maskierung)

WS 2019/2020 Jörg Cassens – Audio 26 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Maskierung: Beispiel

+ Audio Demo-Dateien

WS 2019/2020 Jörg Cassens – Audio 27 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Lautstärke

Messung in Dezibel (dB)Logarithmische Skala (6 dB) Verdoppelung des SchalldrucksVerdoppelung der Lautstärke? It’s complicated. . .

Physischer Schalldruckpegel stark abhängig von FrequenzUnterschiede bei ansteigender Lautstärke stärker wahrgenommen als beiabnehmenderGewöhnungse�ekte z.B. bei lauter Musik, dieser E�ekt ist aber nur kurzzeitigwirksamGeht in die Psychoakustik

Hörschwelle: leiseste bei 2 kHz gerade noch hörbare Geräusch = 0 dBCharakteristische Lautstärke

Sprache: 30-70 dBSchmerzwahrnehmung: 120 dB

WS 2019/2020 Jörg Cassens – Audio 28 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Lautstärke: Beispiel

+ Audio Demo-Dateien

WS 2019/2020 Jörg Cassens – Audio 29 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Lautstärke (contd.)

WS 2019/2020 Jörg Cassens – Audio 30 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Lautstärke und Frequenz

+ Wikipedia

WS 2019/2020 Jörg Cassens – Audio 31 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Richtungshören

Interaurale Zeitdi�erenz (ITD): Unterschied der Laufzeit zwischen beidenOhren. Gleiche zeitliche Unterschiede führen bei höheren Frequenzen zuhöheren Phasenverschiebungen, diese sind besser wahrzunehmenInteraurale Intensitätsdi�erenz (IID): Teilweise Abschwächung derLautstärke, vor allem bei hohen FrequenzenHead-Related Transfer Function (HRTF): bei dem Weg um den Kopf werdenbestimmte Frequenzanteile verstärkt, andere verschluckt

WS 2019/2020 Jörg Cassens – Audio 32 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Richtungshören (contd.)

Wir versuchen, zusammen mit ITD, IID und HRTF die Richtung zu bestimmenbesser bei hohen Frequenzen

ITD und IID würden für vor unter hinter uns liegende Geräuschquellen dasgleiche Ergebnis bringenAllein HRTF unterscheidet dieseAuch: Einbringung von Wissen

Flugzeuge sind über unsHilfe durch andere Sinne

Die See ist vor uns

WS 2019/2020 Jörg Cassens – Audio 33 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Richtungshören (contd.)

WS 2019/2020 Jörg Cassens – Audio 34 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Outline

1 Schall

2 Wahrnehmung

3 Digitalisierung

4 Kompression

5 Bearbeitung

WS 2019/2020 Jörg Cassens – Audio 35 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Digitalisierung

Was sind geeignete Werte für Diskretisierung und Quantisierung?Vor der Digitalisierung beschränken auf etwa 20-20.000 Hz

Abtasttheorem sagt aus, wie o� wir messen müssenWahrnehmbare Lautstärke etwa zwischen 0 dB und 120 dB (Schmerzgrenze)

Dynamikumfang etwa 120 dBDa 6 dB einer Verdoppelung der Signalstärke entsprechen ist der Dynamikumfangetwa 2120/6 = 220 : 1Etwa 20 bits reichen aus um den vollen Umfang der menschlichenLautstärkewahrnehmung auszudrücken

Caveat: Was sind die kleinsten wahrnehmbaren Lautstärkeunterschiede?Daumenregel 1 dB

In der Praxis 16 (CD) bis 24 Bit

WS 2019/2020 Jörg Cassens – Audio 36 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Abtasttheorem: Beispiel

+ demonstrations.wolfram.com/PureTonesWithSampleRate

WS 2019/2020 Jörg Cassens – Audio 37 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

PCM

Pulse Code ModulationSamples als Bitfolgen liegen hintereinanderUnkomprimiertes FormatStandard G.711 für die Sprachübertragung

Abtastfrequenz 8 kHzAuflösung 8 BitISDN B-Kanal mit 64 kBit/s

Di�ential PCM: nur die Di�erenz zwischen Samples übertragenAdaptive Di�ential PCM: Auch Anzahl Bit variabel

WS 2019/2020 Jörg Cassens – Audio 38 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Outline

1 Schall

2 Wahrnehmung

3 Digitalisierung

4 Kompression

5 Bearbeitung

WS 2019/2020 Jörg Cassens – Audio 39 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

MPEG

MPEG = Moving Picture Expert GroupGremium der ISO und der IEC (International Electrotechnical Commission)MPEG-1 und MPEG-2 für Video mit integriertem AudioCodierungen für Bild und Ton jeweils getrennt beschriebenAußerdem: Varianten, sogenannte LayerMP3 ist MPEG-1 Layer 3MPEG auch verwendet bei

DAB (Digital Audio Broadcast)DVB (Digital Video Broadcast)DVD

WS 2019/2020 Jörg Cassens – Audio 40 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

PsychoakustikVerlustfreie Verfahren führen zu relativ wenig KompressionMP3 basiert auf einem psychoakustischen Modell der TonwahrnehmungNutzt Maskierungse�ekte ausEmpirisch ermittelt27 so genannte kritische Bänder

Ein kritische Band ist der Bereich, in dem Töne stärker als ein bestimmterGrenzwert miteinander interagierenEine solche Interaktion ist z.B. die Maskierung

WS 2019/2020 Jörg Cassens – Audio 41 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

PsychoakustikMusikalische Betrachtung

Kritische Bänder sind in der Nähe des mittleren C eines Klaviers etwa eine TerzbreitZu den höhen Tönen engerZu den tiefen Tönen weiter

FrequenzbetrachtungAuf linearer SkalaHohe Frequenzen breiterTiefe Frequenzen schmaler

WS 2019/2020 Jörg Cassens – Audio 42 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Kritische BänderAussagen, welche Frequenzen andere Frequenzen maskieren

Zentrale Idee: Maskierte und Unhörbare Anteile nicht übertragenArbeit im Frequenzraum

WS 2019/2020 Jörg Cassens – Audio 43 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

MP3 Standard

Der Standard beschreibt die Codierung relativ abstraktFraunhofer ReferenzimplentierungVerschieden Encoder produzieren unterschiedliche Ergebnisse

Einige Stufen werden definiertBitraten 32-320 kbit/s (MPEG-1)Sampling 32-48 kHz (MPEG-1)

Das Decodieren ist genauer geregeltUnterschiedliche Encoder sollten auf dem gleichen Eingabedaten den gleichenBitstrom erzeugen (modulo Rundungsfehler)

Die Beschreibung des Verfahrens ist vereinfacht

WS 2019/2020 Jörg Cassens – Audio 44 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Prinzipschaltbild

PCM-Audio

Filterbank MDCTQuanti-sierung

Hu�manCodierung

Bitstrom-Generie-

rung

mp3-Audio

FFT 1024Psycho-

akustischesModell

Vereinfachtes Prinzipschaltbild nach Watkinson [2004]

WS 2019/2020 Jörg Cassens – Audio 45 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Sampling

Sehr kurze Zeitabschnitte (36 samples = 0,8 ms)Mit Hilfe einer Filterbank in 32 Bänder zerlegt“Windowing”: Auswahl von Zeitabschnitten (Frames) für die weitere CodierungUnterschiedliche Arten von “Windows” für unterschiedliche Signale

“Long Window” bei wenigen Änderungen“Short Window” bei größeren Änderungen

Danach Modifizierte Diskrete Kosinustransformation (MDCT)Darstellung bzgl. 18 Grundfrequenzen innerhalb der jeweiligen Subbändererreichte Darstellung: 32 (Bänder) * 18 Frequenzen = 576 BasisfrequenzenHohe zeitliche Auflösung

WS 2019/2020 Jörg Cassens – Audio 46 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Frequenzauflösung

Parallel wird das Eingangssignal mittels schneller Fourier-Transformation ineine Frequenzraumdarstellung bzgl. 1024 Bändern überführtWesentlich niedrigere zeitliche Auflösung, aber bessere Information überFrequenz und PhaseDies ist günstiger für die Berechnung der MaskierungAuf Basis dieser Zerlegung wird die Maskierung zwischen einzelnen FrequenzenbestimmtAus den Koe�izienten der FFT und dem psychoakustischen Modell wirdberechnet, welche Frequenzanteile des zerlegten Signals maskiert und somitnicht wahrgenommen wird

WS 2019/2020 Jörg Cassens – Audio 47 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Verlustbeha�ete Codierung

Genauer: aus den Koe�izienten der FFT und dem psychoakustischen Modellwird berechnet,

wie die Quantisierung der Koe�izienten aussieht undwelche Window-Größen angewandt werden sollen

Davon abhängig werden die MDCT-Koe�izienten quantifiziert, wobei vieleNullwerte entstehenDie Quantisierung ist auch davon abhängig, welche Bitrate zur Verfügung stehtDer entstehende Teil wird mit Hu�man kodiert

Anpassung der Quantisierung an die zur Verfügung stehenden Codetabellen

Zusätzlich Ausnutzen der Redundanz zwischen Stereokanälen

WS 2019/2020 Jörg Cassens – Audio 48 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Prinzipschaltbild Revisited

PCM-Audio

Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing

Filterbank

Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen

MDCT

Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite

Quanti-sierung

Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)

Hu�manCodierung

Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt

Bitstrom-Generie-

rung

mp3-Audio

Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit

FFT 1024

Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an

Psycho-akustisches

Modell

Vereinfachtes Prinzipschaltbild nach Watkinson [2004]

WS 2019/2020 Jörg Cassens – Audio 49 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Prinzipschaltbild Revisited

PCM-Audio

Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing

Filterbank

Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen

MDCT

Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite

Quanti-sierung

Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)

Hu�manCodierung

Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt

Bitstrom-Generie-

rung

mp3-Audio

Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit

FFT 1024

Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an

Psycho-akustisches

Modell

Vereinfachtes Prinzipschaltbild nach Watkinson [2004]

WS 2019/2020 Jörg Cassens – Audio 49 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Prinzipschaltbild Revisited

PCM-Audio

Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing

Filterbank

Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen

MDCT

Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite

Quanti-sierung

Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)

Hu�manCodierung

Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt

Bitstrom-Generie-

rung

mp3-Audio

Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit

FFT 1024

Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an

Psycho-akustisches

Modell

Vereinfachtes Prinzipschaltbild nach Watkinson [2004]

WS 2019/2020 Jörg Cassens – Audio 49 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Prinzipschaltbild Revisited

PCM-Audio

Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing

Filterbank

Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen

MDCT

Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite

Quanti-sierung

Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)

Hu�manCodierung

Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt

Bitstrom-Generie-

rung

mp3-Audio

Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit

FFT 1024

Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an

Psycho-akustisches

Modell

Vereinfachtes Prinzipschaltbild nach Watkinson [2004]

WS 2019/2020 Jörg Cassens – Audio 49 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Prinzipschaltbild Revisited

PCM-Audio

Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing

Filterbank

Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen

MDCT

Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite

Quanti-sierung

Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)

Hu�manCodierung

Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt

Bitstrom-Generie-

rung

mp3-Audio

Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit

FFT 1024

Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an

Psycho-akustisches

Modell

Vereinfachtes Prinzipschaltbild nach Watkinson [2004]

WS 2019/2020 Jörg Cassens – Audio 49 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Prinzipschaltbild Revisited

PCM-Audio

Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing

Filterbank

Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen

MDCT

Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite

Quanti-sierung

Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)

Hu�manCodierung

Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt

Bitstrom-Generie-

rung

mp3-Audio

Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit

FFT 1024

Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an

Psycho-akustisches

Modell

Vereinfachtes Prinzipschaltbild nach Watkinson [2004]

WS 2019/2020 Jörg Cassens – Audio 49 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Prinzipschaltbild Revisited

PCM-Audio

Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing

Filterbank

Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen

MDCT

Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite

Quanti-sierung

Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)

Hu�manCodierung

Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt

Bitstrom-Generie-

rung

mp3-AudioParallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit

FFT 1024

Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an

Psycho-akustisches

Modell

Vereinfachtes Prinzipschaltbild nach Watkinson [2004]

WS 2019/2020 Jörg Cassens – Audio 49 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Prinzipschaltbild Revisited

PCM-Audio

Zerlegung des Eingangssignals in 32 (kritische)Frequenzbänder und Windowing

Filterbank

Modifizierte Diskrete Kosinustransformation: Je 18Grundfrequenzen in jedem der 32 Bänder entsprechend576 Basisfrequenzen

MDCT

Anpassung der Koe�izienten der MDCT, z.B. auf Nullsetzen unhörbarer Frequenzanteile und Anpassung anBandbreite

Quanti-sierung

Hu�man-Kompression da der Nachrichtenstrom eineniedrige Entropie hat (z.B. viele Nullelemente)

Hu�manCodierung

Gemäß der Spezifikation wird eine Bitfolge generiert, dieden mp3-Datenstrom darstellt

Bitstrom-Generie-

rung

mp3-Audio

Parallel dazu: Schnelle Fourier-Transformation mitbesserer Auflösung nach Frequenz und Phase,schlechtere Auflösung nach der Zeit

FFT 1024

Psychoakustisches Modell bestimmt mit Hilfe derFFT-Koe�izienten, welche Frequenzanteile maskiert sindund paßt MDCT-Koe�izienten an

Psycho-akustisches

Modell

Vereinfachtes Prinzipschaltbild nach Watkinson [2004]

WS 2019/2020 Jörg Cassens – Audio 49 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Varianten und Weiterentwicklungen

Das MP3-Format hat wesentlich dazu beigetragen, daß Musik online verteiltwerden konnte

Wesentlich reduzierte Dateigrößen bei akzeptabler QualitätNutzen eines psychoakustischen Modells wurde gezeigtUnabhängige Implementierungen, zum Teil als Freie So�ware

Neben MP3 gibt es inzwischen eine Reihe verlustbeha�eter AudioformateAdvanced Audio Coding (AAC)Ogg/VorbisOpus

Auch bei MP3 weitere OptimierungenVariable Bitrate (VBR), durchschnittliche Bitrate (ABR), konstante Bitrate (CBR)Optimierung des psychoakustischen Modells bei der Codierung

WS 2019/2020 Jörg Cassens – Audio 50 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Spektren

+ Wikipedia

WS 2019/2020 Jörg Cassens – Audio 51 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Opus

+ Wikipedia

WS 2019/2020 Jörg Cassens – Audio 52 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Verlustfrei

mp3, Opus, AAC erreichen die hohen Kompressionsraten dadurch, daß sieVerlustbeha�et komprimierenDie direkte Speicherung der Samples (PCM) ist sehr speicherplatzintensivIst eine verlustfreie Speicherung möglich, die e�ektiver in Hinblick auf denSpeicherplatz ist?

Idee: Kombination der Vorteile von verlustbeha�et und verlustfreiSpeichere eine verlustbeha�etes Signal mit Hilfe eines e�ektiven ModellsMerke die Unterschiede zum verlustfreien Signal

WS 2019/2020 Jörg Cassens – Audio 53 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Verlustfrei

mp3, Opus, AAC erreichen die hohen Kompressionsraten dadurch, daß sieVerlustbeha�et komprimierenDie direkte Speicherung der Samples (PCM) ist sehr speicherplatzintensivIst eine verlustfreie Speicherung möglich, die e�ektiver in Hinblick auf denSpeicherplatz ist?

Idee: Kombination der Vorteile von verlustbeha�et und verlustfreiSpeichere eine verlustbeha�etes Signal mit Hilfe eines e�ektiven ModellsMerke die Unterschiede zum verlustfreien Signal

WS 2019/2020 Jörg Cassens – Audio 53 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

FLAC

FLAC: Free Losless Audio CodecKompression darf rechenintensiv sein, die Dekompression muß in Echtzeitablaufen könnenBeschränkung auf Fixpoint-Berechnungen erlaubt Realisierung in HardwareUnterstützt

PCM-Quantisierung von 4-32 BitSampling-Raten von 1Hz bis etwa 655 kHz1-8 Kanäle

FLAC-Datei enthält Metadaten und AudiodatenDaumenregel: während universelle, verlustfreie Kompressionsverfahren beiAudiodaten etwa 10-20% Kompression erreichen können liegt FLAC bei 40-60%

WS 2019/2020 Jörg Cassens – Audio 54 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

FLAC: Vorgehen

1 Zerlegung: Bilden von Blöcken von 1000-6000 Samples2 Dekorrelierung: Ausnutzen von Redundanz zwischen Kanälen (rechts/links bei

Stereo, weitere Kanäle)3 Modellierung: Predictor für das Audiosignal wird erstellt

Verbatim (Kopie)LinearPolynomfunktion oderLinear Predictive Coding

4 Fehlersignal: Der Unterschied des Predictors zum tatsächlichen Signal(Residual Signal) wird codiert

Entropiebasiert, Rice-Kodierung

5 Framing: Alles Kanäle eines Blocks werden mit Metadaten (Fehlererkennung,Timestamps, . . . ) in einen Frame geladen

WS 2019/2020 Jörg Cassens – Audio 55 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

FLAC: Modellierung

VerbatimDas Audiosignal wird ohne Kompression kopiert

LinearDas Signal wird mit einer Linearfunktion angenähertStille, konstante Töne

PolynomfunktionDas Signal wird mittels einer Polynomfunktionen angenähertSchnell, weniger genau als LPC

Linear Predictive CodingVereinfachtes Modell des Klangerzeugers, z.B. des menschlichen Stimmtraktes

Summer am Ende eines RohresDazu Zisch- und Knalllaute

Danach müssen nur die Parameter dieses Modells bestimmt (und übertragen)werden

WS 2019/2020 Jörg Cassens – Audio 56 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

FLAC: Fehlersignal

Das Fehlersignal wird mittels eines Entropiebasierten KompressionsverfahrengespeichertIm Gegensatz zu Hu�man oder dem Arithmetischen Encoding kommt einVerfahren zum Einsatz, welches Annahmen über dieWahrscheinlichkeitsverteilung machtRice-Encoding: Codiere kleine Werte mit möglichst kurzen WortenVerschiedene Parametrisierung möglichGrundsätzlich gut geeignet für geometrische Verteilungen

Hier könne Kompressionsraten im Bereich der bei Hu�man möglichen Ratenerreicht werden

Qualität des Predictors ausschlaggebend für die Verteilung der Werte desFehlersignals

WS 2019/2020 Jörg Cassens – Audio 57 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Outline

1 Schall

2 Wahrnehmung

3 Digitalisierung

4 Kompression

5 Bearbeitung

WS 2019/2020 Jörg Cassens – Audio 58 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Bearbeitung

Neben der Audiobearbeitung auch die AudioverarbeitungTendentielle Unterteilung

Verarbeitung: Automatische VerarbeitungskettenBearbeitung: Interaktive Veränderung von Audiodaten

Ändern der Amplitude (Lautstärke)Wenn benachbarte Signalwerte einbezogen werden, spricht man von FilternWeiterhin kann es sinnvoll sein, Frequenz und Phase zu ändernSimulation von E�ekten wie Echo oder Hall

WS 2019/2020 Jörg Cassens – Audio 59 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Amplitude

Bezugspegel von 0 dBHistorisch aus der analogen Audiotechnik:

0 dB = 1 mW, 600 Ohm, Spannung 0.7775 V

E�ektivwert:

seffektiv =

√1T

∫T

s2(t)dt

Maximalpegel: Höchster darstellbarer SignalwertArbeitspegel sollte genug Abstand halten

WS 2019/2020 Jörg Cassens – Audio 60 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Dynamik

WS 2019/2020 Jörg Cassens – Audio 61 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Pegelanpassung

Übersteuerung: höchste Signalwerte liegen außerhalb des darstellbarenBereichs der Quantisierung

An den Rändern Clipping; starke Änderungen im Signalverlauf (Unstetigkeiten)Wirken sich als hohe Frequenzanteile ausIn analoger Technik nicht so stark ausgeprägt, da der Abfall i.d.R. nicht so steil ist

Untersteuerung: Nutzt nicht den gesamten Darstellungsbereich derQuantisierung aus

Höchste Signalwerte liegen deutlich unter dem größten darstellbaren WertStörungen mit gleicher Amplitude sind also im Verhältnis lauterSignal-Rausch-Abstand schmilzt

Abhilfe: NormalisierungEbenso Kompensation DC-O�set

WS 2019/2020 Jörg Cassens – Audio 62 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Veränderung Hüllkurvez.B. Ein-/Ausblenden

WS 2019/2020 Jörg Cassens – Audio 63 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Filter

Benachbarte Werte sind zeitlich benachbartBilder: räumlich benachbart

Analogtechnik: Verwendung von Bauteilen, die ein zeitabhängiges Verhaltenaufweisen

SpulenKondensatoren

Digitaltechnik: Algorithmisch, z.B. Digital Signal Processor (DSP)

WS 2019/2020 Jörg Cassens – Audio 64 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Frequenzfilter

WS 2019/2020 Jörg Cassens – Audio 65 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Faltungsfilter

Analog zu den Faltungsfilters der BildbearbeitungWeichzeichner und Tiefpaß (Boxcar)

g(x) =13(1, 1, 1) ∗ (f(x − 1), f(x), f(x + 1))

Hochpaß

g(x) = (−1, 3,−1) ∗ (f(x − 1), f(x), f(x + 1))

WS 2019/2020 Jörg Cassens – Audio 66 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Equalizer

Parametrisch oder (hier) grafisch

WS 2019/2020 Jörg Cassens – Audio 67 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Parametrischer Equalizer

Ein oder mehrere parallel geschaltete BandfilterEinzelne Parameter jedes Filters können einzeln manipuliert werden

MittenfrequenzGüte (Steilheit der Flanken)Faktor für Verstärkung/Dämpfung

Benötigen mehr Erfahrung als einfache grafische EqualizerSind in der Lage, komplexere Probleme zu lösen

Resonanzfrequenz eines Raumes

WS 2019/2020 Jörg Cassens – Audio 68 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

DynamikkompressionDynamik läßt sich als Verhältnis von größten und kleinsten Amplitudeninnerhalb eines Zeitfensters quantifizierenJe nach Länge des Fensters unterscheidet man Mikrodynamik(Sekundenbruchteile) und Makrodynamik (Sekunden und Minuten)Mikrodynamik macht z.B. den Charakter eines Instrumentes aus,Makrodynamik den Lautstärkeaufbau eines Musikstücks

WS 2019/2020 Jörg Cassens – Audio 69 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Audacity Compressor

+ Filtering and E�ects

WS 2019/2020 Jörg Cassens – Audio 70 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Video 6.1: Loudness Wars

+ Matt Mayfield Music: Loudness Wars (1:53)

WS 2019/2020 Jörg Cassens – Audio 71 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Weitere

Veränderung von Frequenz/PhaseResampling: andere samplingrate (bewirkt Änderung der Signalfrequenz)Time stretching: Länge des Signals verändern, ohne die Tonhöhe zu beeinflussen– kurze Abschnitte des Signals werden wiederholt (in Grenzen machbar)

Auch umgekehrt, z.B. um vorgeschriebene Hinweise in der Werbung zu verkürzenPhasing/Flanging/Chorus: Analog zu den 3 Saiten eines Klaviers

Echo und HallEcho: Original und zeitversetzte, abgeschwächte ReflexionHall: (mehrfach Reflexion), nachbildbar über Impulsantwort

RestaurationRauschen (Noise, Hiss), Klicken (Clicks), Knistern (Crackle) - Denoising überFingerprint, Declicking über Interpolation des anderen Kanals

WS 2019/2020 Jörg Cassens – Audio 72 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

SchneidenHarter Schnitt: möglichst im Nulldurchgang, in Pausen

Weicher SchnittKreuz- oder Sturzblende

WS 2019/2020 Jörg Cassens – Audio 73 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

Audio

Jörg Cassens

Institut für Mathematik und Angewandte Informatik

MedieninformatikWS 2019/2020

WS 2019/2020 Jörg Cassens – Audio 74 / 74

Schall

Wahrnehmung

Digitalisierung

Kompression

Bearbeitung

Literatur

References I

Alle Abbildungen, wenn nicht anders angegeben, aus Malaka et al. [2009].

Rainer Malaka, Andreas Butz, and Heinrich Hussmann. Medieninformatik – EineEinführung. Pearson Studium, Munich, 2009.

John Watkinson. The MPEG Handbook: MPEG-1, MPEG-2, MPEG-4. Technology &Engineering. Taylor & Francis, 2004.

WS 2019/2020 Jörg Cassens – Audio 75 / 74