09-Digital Audio edit - Michael A. Herzogdi user (zerstreuender) Re exion, der Wellenlänge d.h....

DIGITAL AUDIO

Zu diesem Foliensatz wurden zahlreiche Audiobeispiele gezeigt, die in der PDF-Version nicht enthalten sind.

Was ist Audio?

Eigenschaften von Schallwellen

Das menschliche Ohr

Räumliches Hören, Töne, Klänge & Geräusche

Warum Audio digitalisieren?

Analog zu Digital

Probleme der AD/DA-Wandlung

Psychoakustik

Kompression (MP3)

Übertragung (MIDI)

Audio Retrieval

Übersicht

2AGENDA

physikalische Grundlagen

4

Töne

Sprache

Geräusche

Musik

...

Was ist Audio? I

Was ist Audio?

5

Schall

Schwingungen (Wellen) die sich in einem Träger räumlich ausbreiten (Veränderung des Drucks)

Flüssigkeiten

Festkörpern

Gasen (Schallgeschwindigkeit: 330m/s = 1188 km/h)

periodische Schwingungen (Klänge)

Musikinstrumente

Gesang

Wind

...

nichtperiodische Schwingungen

Sprache

Geräusche

...

Was ist Audio? II

Was ist Audio?

6

Amplitude

objektiv:Energie des Klanges

subjektiv:Lautstärke der Schwingung

Was ist Audio? II

Was ist Audio?

7

Frequenzen

Infraschall: 0 bis 20 Hertz (Hz)

Hörschall: 20 bis 20 kHz

Ultraschall: 20 kHz bis 1 GHz

Hyperschall: 1 GHz bis 10 THz

Was ist Audio? III

Was ist Audio?

Was ist Audio? IV

8Was ist Audio?

Longitudinal- und Transversalwellen

Longitudinalwelle (a):

Oszillatoren schwingen in der Ausbreitungsrichtung

Transversalwelle (b):

Oszillatoren schwingen quer zur Ausbreitungsrichtung

9Eigenschaften von Schallwellen

Wellenlänge

Die Länge einer Welle (d.h. der Abstand bis zur nächsten Wiederholung) bestimmt sich aus der Periodenlänge T und der Ausbreitungsgeschwindigkeit c


Reexion

11

Reexionsgesetz (Einfallswinkel gleich Ausfallswinkel) gilt für Schallwellen nur, wenn die Grenzäche groß genug im Vergleich zur Wellenlänge ist

d.h. in kleineren Räumen keine Reexion tiefer Frequenzen

Rauigkeit der Oberäche führt zu di user (zerstreuender) Reexion, wenn Unebenheiten in der Größenordnung der Wellenlänge

d.h. auch bei zentimetergroßen Unebenheiten wirkt Wand auf tie requenten Schall als "glatt"

Eigenschaften von Schallwellen

Absorption, BrechungEin Teil der Schallenergie wird nicht reektiert

Absorptionsgrad abhängig vom Material und der Schallfrequenz

Dissipation: Umwandlung in Wärmeenergie

Transmission: Weiterleitung im absorbierenden Medium

Aufteilung der absorbierten Energie in Dissipation und Transmission

frequenzabhängig: niedrige Frequenzen höhere Transmission (Körperschall)

Auch Schall wird gebrochen, z.B. bei Luftschichten verschiedener Temperatur


BeugungSchall-"Schatten" entsteht erst, wenn ein Gegenstand groß genug im Vergleich zur Wellenlänge ist

Bei Gegenständen in Größenordnung der Wellenlänge tritt Beugung auf

Wellen iessen "um das Hindernis herum"

Wellen werden von einem Spalt zerstreut


Ton, Klang und GeräuschTon, Klang oder Geräusch sind vom Menschen wahrnehmbare kleine Luftdruckänderungen

Primärempndungen der Tonwahrnehmung:

Tonhöhe (Bsp. verschiedene Klaviertasten)

Lautstärke (Bsp. Trommelanschlag)

Klangfarbe (Bsp. gleicher Ton auf verschiedenen Instrumenten)

Ton:

reine Sinusschwingung

Klang:

Überlagerung von mehreren Sinusschwingungen

alle drei Primärempndungen wahrnehmbar

Geräusch: entsteht durch unregelmäßige Schwingungen einer Schallquelle

nur Lautstärke wahrnehmbar

14Klänge und Geräusche

Anatomie

16

Das menschliche Ohr

Das menschliche Ohr

17

Das menschliche OhrAussenohr:

HRTF = Head Related Transfer Function

Mittelohr:

Trommelfell, Hammer, Amboss, Steigbügel: Verstärkung der Kraftwirkung

Innenohr:

Schnecke (cochlea)

Aufgerollte Röhren (Gänge), gefüllt mit Lymphüssigkeit

Das menschliche Ohr

Schnecke (Cochlea)

18Das menschliche Ohr

Kann ein einseitig tauber Mensch räumlich hören?

Eingeschränkt: ja!

Reexion und Beugung an Umwelt und Ohrmuscheln liefern umfangreiche Information

Frequenzabhängigkeit der Ortung:

Niedrige Frequenzen generell schlechter zu orten

Konsequenz physikalischer Tatsachen (Wellenlänge:Hindernis)

Siehe z.B. �„Subwoofer�“-Technologie

Räumliches HörenStereo-E ekt

Unterschiedliche Lautstärke des Schallereignisses an beiden Ohren

Zeitliche Verzögerung des selben Schallereignisses in seiner Wahrnehmung durch beide Ohren

Verzögerungsmessung liefert Information über Entfernung der Quelle

19Räumliches Hören

Laufzeitdi erenzen


Head Related Transfer Functions (HRTF)

21

Für alle Positionen rund um den Kopf Impulsantwort von der Position zu beiden Ohren messen (HRIR)

Fourier-Transformation davon ist die HRTF

Enthält alle physikalischen cues für die Lokalisierung

HRTF von Mensch zu Mensch verschieden

Sobald HRTF für beide Ohren bekannt ist, kann mit einem Kopfhörer Raumklang (also auch vorne/hinten und oben/unten) erzeugt werden

Räumliches Hören

Digitalisierung

24

Qualität der ReproduktionQualität ist NUR abhängig von der Analog/Digital/Analog-Konvertierung

Qualität ist unabhängig von

Verarbeitung (z. B. Geräte)

Transport (z. B. Kabel)

Speicherung (z. B. Festplatte, Magnetband, CD)

Möglichkeiten der Konvertierung/Bearbeitung

verlustfreies Kopieren

nicht-sequentieller Zugri

nicht-destruktives Editing

platzsparendere Speicherung

...

Warum Digital ?

Warum Digital?

25

PAM (Puls Amplitude Modulation)

Ermittlung von Amplitudenwerten innerhalb eines Zeitintervalls

Analog zu Digital I

Analog zu Digital

PWM (Puls Width Modulation)

Ermittlung von Impulsen, deren Länge die Intensität des analogen Signals wiedergibt

26

Analog zu Digital II

Analog zu Digital

27

PCM (Pulse Code Modulation)

universelles Verfahren zur Digitalisierung von analogen Zeitreihen

Sampling

Abtastung des analogen Signals ineinem festgelegten Zeitintervall

Verwendung von PAM

Quantisierung

Zuordung eines ganzzahligenWertes innerhalb eines festgelegten Zahlenbereiches

Analog zu Digital III

Analog zu Digital

Nyquist Abtast-Theorem

Harry Nyquist (1889 �– 1976)

Mathematisch bewiesen durch Claude E. Shannon und Vladimir Aleksandrovich Kotelnikovdie Abtastrate (Sampling Frequenz) muss doppelt so hoch sein, wie die höchste Frequenz des abzutastenden SignalsFolge: Frequenz-Überlappung (Aliasing)ggf. falsche Rekonstruktion des Signals

28

Probleme der AD/DA-Wandlung I

Nyquist

Shannon

Kotelnikov


29

Quantisierungsrauschen

Fehler durch Rundung bei der Digitalisierung

Probleme der AD/DA-Wandlung II


30

Beispiele

Probleme der AD/DA-Wandlung II


31

Verzerrungen (Clipping)

Übersteuerung des Eingangsignals

Abschneiden der Spitzen eines Signals

Folge von Variablenüberläufen

Probleme der AD/DA-Wandlung III


32

Dynamikkompression

Einsatz nichtlinerarer (logarithmischer) Quantisierung

kleine Signale werden mit niedrigeren Bitwerten kodiert

Reduktion Abtastrate / Reduktion Abtastgenauigkeit

Beispiele: A-law, u-Law

Entropiekodierung

typ. Kompresssionsraten: 2 - 2.5

Beispiele:

LPAC (Losless Predictive Audio Compression)

FLAC (Free Losless Audio Codec)

Apple Losless

Psychoakustische Kompression

Verwendung von Subband-Kodierung & Maskierung

dadurch Entfernung von irrelevanten Daten

Reduktion der Datenrate

Beispiele: MP3, AAC

Audio-Kompression

Kompression

Psychoakustik

Psychakustik - TonhöhenempndungHörbarer Frequenzbereich

Niedrigste Frequenz: 16 Hz

Höchste Frequenz

kein einheitlicher Wert

individuell sehr unterschiedlich

altersabhängig

- junger Mensch / Kinder: bis ca. 20.000 Hz

- alter Mensch: sinkt bis unter 10.000 Hz

Tonfrequenzbereich: 16 Hz - 20.000 Hz

Tonhöhenempnden

Änderung mit Logarithmus der Frequenz (nicht linear)

Lautstärke beeinusst Tonhöhenempndung

34

35Das menschliche Ohr

Psychoakustik - LautstärkeempndenGrenzen des Lautstärkeempndens

untere Grenze: gerade noch wahrnehmbare Lautstärke

Obere Grenze: höchste ohne Schmerzgefühl zu ertragende Lautstärke

Mindestdruck auf Ohr erforderlich

Hörfeld (Höräche, Hörbereich): Bereich, in dem in Abhängigkeit von Frequenz und Schalldruckpegel ein Schallereignis (Reiz) ein Hörereignis auslöst

Altersabhängigkeit

im Alter verschiebt sich Hörschwelle im oberen Frequenzbereich

ca. ab 60 Jahre:

10 kHz: Hörschwelle um ca. 20 dB angehoben

5 kHz: Hörschwelle um ca. 15 kHz angehoben

ca. ab 40 Jahre: Verschiebung etwa halb so groß

keine Beeinträchtigung der allgemeinen Hörfähigkeit:

optimaler Bereich < 4000 Hz

36

Psychoakustik - Hörfeld

37

Hörschwelle

LautstärkePegelwert, relativ zur Lautstärke von 1000 Hz Tönen

Lautstärkepegel eines Tones beliebiger Frequenz errechnet sich aus dem Schall-druck des als gleichlaut empfundenen 1000 Hz Tones.

L = 20 * lgp

p0

[phon]

38

Hörschwelle

unterschiedliche Empndlichkeit (Lautstärkeeindruck) des Gehörs für verschiedene Frequenzbereiche höchste Empndlichkeit im Bereich von 2 kHz bis 4kHz

Psychoakustik

Psychoakustik

39

Überdeckung eines Frequenzbereiches durch ein Störsignal (gleichzeitige Maskierung)

Zeitliche Maskierung verdeckt auch nach Abschalten des Störsignals den betre enden Frequenzbereich(zeitliche Maskierung)

Psychoakustik - Maskierung

Psychoakustik

40


Psychoakustik


41

Psychoakustische Kompression

Entstehung von MPEG Audio

43

Was bietet MPEG

44

Encoder nur hinsichtlich der Bitstrom-Syntax spezifiziert

Bitstrom

Konformer Decoder kann alle„legalen“ MPEG-Bitströme

verarbeiten

...00110101000111001...

A/V A/V

KonformerBitstrom

KonformerBitstrom

KonformerBitstrom

Eigenschaften - ModiUnterschiedliche Kompressionsmodi

Verarbeitung von PCM Audiosignalen mit 32 kHz, 44,1 kHz, 48 kHz

Komprimierter MPEG-Bitstrom hat Datenrate zwischen 32 und 224 kBit/s pro Kanal (Kompressionsrate 2,7 - 24)

3 Kompressionsebenen

Layer I (vereinfachtes Musicam)

Layer II (Musicam)

Layer III (MP3)

Integration zusätzlicher Daten in den Bitstrom

Komprimierter Datenstrom unterstützt 4 Modi:

Single Audio Channel (Monophonic Mode)

2 unabhängige Audio Kanäle (Dual Monophonic Mode)

Stereo Mode

Joint Stereo Mode

45

Eigenschaften - Datenraten

46

Layer I Layer II Layer III

Bitrate < 2*192 kbps < 2*128 kbps < 2 * 96 kbps

CD-Qualitätfast CD-Qualität

2*192 kbps2*96 kbps

2*128 kbps2* 96 kbps

-2*64 kbps

Komplexität gering > Layer I > Layer II

Verzögerung > 19 ms > 35 ms > 59 ms

Applikation CD-IDCC

DAB, DVB, CD-I, ISDN

HQ Audio via ISDN

Kompression MP3 (I) Übersicht

47

Kurzform von MPEG-1 Audio Layer 3

Verwendung der»psychoakustischen Kompression«

Nicht für den Menschen hörbare Informationen werden entfernt

Entfernung von Redundanzen

Kompression von Audiodaten bei vermeintlich geringem Qualitätsverlust

Kanalkopplung (Stereo) �– Di erenzsignalbildung

Entfernung nicht hörbarer Frequenzen und maskierter Audioinformation

Karl-Heinz Brandenburg, Harald Popp: An Introduction to MPEG Layer 3. EBU Technical Review, Juni 2000.

http://www.iis.fhg.de/amm/

Kompression

48

Algorithmus (Übersicht)

Kompression MP3 II

Kompression

49

Algorithmus (1) - Filterbank

Anwendung eines Faltungslters, um ein Signal in 32 Bänder zu unterteilen

Transformation von Zeit- in Frequenzbereich

Aliasing durch überlappen der Frequenzbänder

Unterteilung der Bänder durch modizierte DCT in 18 Teilbänder

Kompression MP3 III

Kompression

50

Algorithmus (2) - Psychoakustisches Modell

erneute Transformation in den FrequenzbereichTransformierung der Frequenzachse

Unterteilung in tonale und nicht-tonale Komponenten

Anwenden der Maskierungsfunktion

nden der minimalen Maskierung für jedes Subband

Berechnung Signal-Maskierungs-Verhältnisses

Kompression MP3 IV

Kompression

51

Algorithmus (3) - Quantisierung

Unterteilung des Datenstromes in Frames

Ein Frame entspricht einem Tonsignal über eine bestimmte Zeiteinheit

Jeder Frame enthält 384 (1152) Samples, die Abtastwerte aus 32 Teilbändern repräsentieren

Aus jedem Teilband stammen 12 (36) Werte

Kompression MP3 V

Kompression

Kompression MP3 VAlgorithmus (3) - Quantisierung

52

Berechnung FFT: Transformation in Frequenzraum

Ermittlung Schalldruckpegel in jedem Subband

Ermittlung der Hörschwelle in jedem Subband

Ermittlung der tonalen und nicht-tonalen Anteile

Bestimmung der relevanten Maskierungstöne

Berechnung individueller Maskierungsschwellen

Berechnung der globalen Maskierungsschwellen

Bestimmung der minimalen Maskierungsschwellen in jedem Subband

Bestimmung des Quantisierungsrauschen in jedem Subband

53

Algorithmus (4) - Format des Datenstroms

Header:

deniert den Layer

Datenrate

Abtastfrequenz

Datenteil:

CRC optional

Side Informations:

- verweis auf Hu mann-Codierung

- Zeiger auf Datenfeld

- Flag, ob CRC verwendet

Hauptdaten:

- Dateblöcke der 1152 Samples

- Hu mann kodiert

Kompression MP3 V

Kompression

Kompression MP3 VAlgorithmus (5) - Kodierung des Stereo-Signals

Bestimmung der Richtung je nach Frequenz

Umwandlung Stereosignal in Mitte/Seite Kodierung

ein Mittensignal (L+R)

ein Seitensignal (L-R)

Seitensignal gut komprimierbar, da weniger Informationen als Monosignal

54Kompression

Kompression MP3 Zusammenfassung

55

PCM-Samples

Transformation in Frequenzraum

Aufteilung in Frequenzbänder(Approximation der critical

bands)

Adaptive Quantisierung(entsprechend PA-Modell)

Entropie-Kodierung

Aufbau Bitstrom

Kompression MP3 VDatenrate von 32 bis zu 320 KBit/s

Samplingrate 32/44,1/48 kHz mit 16 Bit Stereo

Abb. zeigt typische Kompressionsartefakte bei der Fourier-Transformation

56Kompression

Dekomprimierunggeringer Aufwand (asymetrisches Kompressionsverfahren)

Rekonstruktion der kodierten Frequenzsamples

Rückwandlung in Zeitbreich über inverse MDCT und inverse Filterbank

57

Advanced Audio Coding (AAC)Vergleich zu MP3

bessere Qualität bei gleicher Dateigröße

tonale und geräuschhafte Elemente im Eingangssignal e ektiver erkannt und kodiert

Pre-Echo Problem (Kompressionsartefakte) verbessert.

Unterstützung für Multichannel-Audio (bis 48)

Bis zu 96 KHz Abtastfrequenz

DRM-Verfahren »FairPlay« implementiert

EntwicklungStandardisiert bei der ISO MPEG2/MPEG4, EBU-Recommendation

Dolby (AC3), Fraunhofer IIS (MP3), AT&T, Sony, Nokia ...

Erweiterung HE-AAC für niedrige BitratenMPEG-4 High E ciency Advanced Audio Coding,mit Spectral Band Replication (SBR) auch AACplus v1

Mit Parametric Stereo (PS) auch AACplus v2

58Kompression

Hörbeispiele Audiocodecs

59

http://inka.fhtw-berlin.de/Herzog/

Kompression

61

MIDI (Musical Instrument Digital Interface)

standardisiertes Protokoll zur Steuerung elektronischer Musikinstrumente und Musike ektgeräte

physikalische Schnittstelle

Überbegri für die Musik, die diesem Standard genügt

1984 entwickelt

Standardisierung und Weiterentwicklung durch

International Midi Organisation (IMA)

MIDI Manufacturers Association(MMA)http://www.midi.org/

Übertragung - MIDI (I)

Übertragung

62

Komponenten

Sequenzer

Komponieren/Wiedergabe von Musik mit Rechner

MIDI Sequenzen werden in MIDI-Dateien gespeichert

Synthesizer

Synthetische Erzeugung und Manipulation von Klängen

Sampler

Wie Synthesizer, jedoch synthetisiert ein Sampler Töne aus einer Palette von Instrument-Samples

Übertragung - MIDI (II)

Übertragung

63

Datenformatinstrumentenbezogene Kodierung

Lautstärke

Grundfrequenz

Bezeichnung des Instruments

MIDI-Nachrichten bestehen aus einem Statusbyte und bis zu 3 Datenbytes

Statusbyte 1 B B B K K K K

Datenbyte 0 _ _ _ _ _ _ _

Statusbyte kündigen eine Aktion an und gliedern sich in Kanal- und Systembefehle.

Kanalbefehle (BBB) beziehen sich auf der insgesamt 16 Kanäle (KKKK), mit denen jeweils ein angeschlossenes Instrument assoziiert ist

Übertragung - MIDI III

Übertragung

64

Vorteile

MIDI-Dateien sind plattformübergreifend

MIDI-Dateien sind sehr klein: 1 min Musik ca. 15- 30 Kbyte

MIDI Kodierung entspricht der Vorgehensweise beim klassischen Komponieren

Nachteile

Ohne wirklich gute Instrumente kein schöner Klang, da synthetische Klangerzeugung

keine Sprache oder Geräusche

MIDI-Dateien klingen auf unterschiedlichen Systemen, je nach eingesetzten Geräten unterschiedlich

Übertragung - MIDI (IV)

Übertragung

65

General Midi (GM)

Standard-Erweiterung ermöglicht geräteunabhängig möglichst originalgetreue Wiedergabe

Midi über IEEE 1394 (FireWire)

Verwendung aktueller Technologien und Protokolle

Übertragung MIDI V

Übertragung

Exkurs

Audio RetrievalTempoerkennung

Verfahren zur automatischen Schätzung des Rhythmus beschreibenden Elemente Tempo, Taktart und Mikrotime

Query by Humming (QbH)

Melodieerkennung/Musiktitelerkennung auf Grundlage gesungener oder anderer monophoner Melodien

Bsp: http://www.musicline.de/de/melodiesuche/

Statistische Klassikation

Jedes Geräusch hat typische Werte (loudness, pitch, brightness, bandwidth)

Trainingsset von Geräuschen einer Klasse ermöglicht Einordnung (Bsp. Gelächter, Beifall, Kinder)

...

67Audio Retrieval

Film: http://www.celemony.com/

»Taschenbuch Multimedia«

HENNING, PETER A., Fachbuchverlag Leipzig, 2. Auage 2001, gebundene Ausgabe, 603 Seiten, ISBN 3446217517, ca. 20

»Multimedia Technologie«

Grundlagen, Komponenten und SystemeSteinmetz, Henning, Springer Verlag Heidelberg, 3. überarbeitete Auage 2000, gebundene Ausgabe, 968 Seiten, ISBN 3-540-67332-6, ca. 55

»The Art of DIGITAL AUDIO«Watkinson, John, Focal Press Oxford, Third Edition 2001, Hardcover, 752 Seiten, ISBN 0-240-51587-0, ca. 84

69

Literatur

Literatur

70

http://www.ieee.org

http://www.itu.int/ITU-T/

http://www.cs.columbia.edu/~hgs/audio/

http://www.digitalaudioguide.com/glossary.htm

http://www.mp3encoding.de

http://www.midi.org/

http://www.superaudio-cd.com/

Links

Links

09-Digital Audio edit - Michael A. Herzogdi user (zerstreuender) Re exion, der Wellenlänge d.h....

Documents

Transcript of 09-Digital Audio edit - Michael A. Herzogdi user (zerstreuender) Re exion, der Wellenlänge d.h....