09-Digital Audio edit - Michael A. Herzogdi user (zerstreuender) Re exion, der Wellenlänge d.h....
Transcript of 09-Digital Audio edit - Michael A. Herzogdi user (zerstreuender) Re exion, der Wellenlänge d.h....
DIGITAL AUDIO
Zu diesem Foliensatz wurden zahlreiche Audiobeispiele gezeigt, die in der PDF-Version nicht enthalten sind.
Was ist Audio?
Eigenschaften von Schallwellen
Das menschliche Ohr
Räumliches Hören, Töne, Klänge & Geräusche
Warum Audio digitalisieren?
Analog zu Digital
Probleme der AD/DA-Wandlung
Psychoakustik
Kompression (MP3)
Übertragung (MIDI)
Audio Retrieval
Übersicht
2AGENDA
physikalische Grundlagen
4
Töne
Sprache
Geräusche
Musik
...
Was ist Audio? I
Was ist Audio?
5
Schall
Schwingungen (Wellen) die sich in einem Träger räumlich ausbreiten (Veränderung des Drucks)
Flüssigkeiten
Festkörpern
Gasen (Schallgeschwindigkeit: 330m/s = 1188 km/h)
periodische Schwingungen (Klänge)
Musikinstrumente
Gesang
Wind
...
nichtperiodische Schwingungen
Sprache
Geräusche
...
Was ist Audio? II
Was ist Audio?
6
Amplitude
objektiv:Energie des Klanges
subjektiv:Lautstärke der Schwingung
Was ist Audio? II
Was ist Audio?
7
Frequenzen
Infraschall: 0 bis 20 Hertz (Hz)
Hörschall: 20 bis 20 kHz
Ultraschall: 20 kHz bis 1 GHz
Hyperschall: 1 GHz bis 10 THz
Was ist Audio? III
Was ist Audio?
Was ist Audio? IV
8Was ist Audio?
Longitudinal- und Transversalwellen
Longitudinalwelle (a):
Oszillatoren schwingen in der Ausbreitungsrichtung
Transversalwelle (b):
Oszillatoren schwingen quer zur Ausbreitungsrichtung
9Eigenschaften von Schallwellen
Wellenlänge
Die Länge einer Welle (d.h. der Abstand bis zur nächsten Wiederholung) bestimmt sich aus der Periodenlänge T und der Ausbreitungsgeschwindigkeit c
10Eigenschaften von Schallwellen
Reexion
11
Reexionsgesetz (Einfallswinkel gleich Ausfallswinkel) gilt für Schallwellen nur, wenn die Grenzäche groß genug im Vergleich zur Wellenlänge ist
d.h. in kleineren Räumen keine Reexion tiefer Frequenzen
Rauigkeit der Oberäche führt zu di user (zerstreuender) Reexion, wenn Unebenheiten in der Größenordnung der Wellenlänge
d.h. auch bei zentimetergroßen Unebenheiten wirkt Wand auf tie requenten Schall als "glatt"
Eigenschaften von Schallwellen
Absorption, BrechungEin Teil der Schallenergie wird nicht reektiert
Absorptionsgrad abhängig vom Material und der Schallfrequenz
Dissipation: Umwandlung in Wärmeenergie
Transmission: Weiterleitung im absorbierenden Medium
Aufteilung der absorbierten Energie in Dissipation und Transmission
frequenzabhängig: niedrige Frequenzen höhere Transmission (Körperschall)
Auch Schall wird gebrochen, z.B. bei Luftschichten verschiedener Temperatur
12Eigenschaften von Schallwellen
BeugungSchall-"Schatten" entsteht erst, wenn ein Gegenstand groß genug im Vergleich zur Wellenlänge ist
Bei Gegenständen in Größenordnung der Wellenlänge tritt Beugung auf
Wellen iessen "um das Hindernis herum"
Wellen werden von einem Spalt zerstreut
13Eigenschaften von Schallwellen
Ton, Klang und GeräuschTon, Klang oder Geräusch sind vom Menschen wahrnehmbare kleine Luftdruckänderungen
Primärempndungen der Tonwahrnehmung:
Tonhöhe (Bsp. verschiedene Klaviertasten)
Lautstärke (Bsp. Trommelanschlag)
Klangfarbe (Bsp. gleicher Ton auf verschiedenen Instrumenten)
Ton:
reine Sinusschwingung
Klang:
Überlagerung von mehreren Sinusschwingungen
alle drei Primärempndungen wahrnehmbar
Geräusch: entsteht durch unregelmäßige Schwingungen einer Schallquelle
nur Lautstärke wahrnehmbar
14Klänge und Geräusche
Anatomie
16
Das menschliche Ohr
Das menschliche Ohr
17
Das menschliche OhrAussenohr:
HRTF = Head Related Transfer Function
Mittelohr:
Trommelfell, Hammer, Amboss, Steigbügel: Verstärkung der Kraftwirkung
Innenohr:
Schnecke (cochlea)
Aufgerollte Röhren (Gänge), gefüllt mit Lymphüssigkeit
Das menschliche Ohr
Schnecke (Cochlea)
18Das menschliche Ohr
Kann ein einseitig tauber Mensch räumlich hören?
Eingeschränkt: ja!
Reexion und Beugung an Umwelt und Ohrmuscheln liefern umfangreiche Information
Frequenzabhängigkeit der Ortung:
Niedrige Frequenzen generell schlechter zu orten
Konsequenz physikalischer Tatsachen (Wellenlänge:Hindernis)
Siehe z.B. �„Subwoofer�“-Technologie
Räumliches HörenStereo-E ekt
Unterschiedliche Lautstärke des Schallereignisses an beiden Ohren
Zeitliche Verzögerung des selben Schallereignisses in seiner Wahrnehmung durch beide Ohren
Verzögerungsmessung liefert Information über Entfernung der Quelle
19Räumliches Hören
Laufzeitdi erenzen
20Räumliches Hören
Head Related Transfer Functions (HRTF)
21
Für alle Positionen rund um den Kopf Impulsantwort von der Position zu beiden Ohren messen (HRIR)
Fourier-Transformation davon ist die HRTF
Enthält alle physikalischen cues für die Lokalisierung
HRTF von Mensch zu Mensch verschieden
Sobald HRTF für beide Ohren bekannt ist, kann mit einem Kopfhörer Raumklang (also auch vorne/hinten und oben/unten) erzeugt werden
Räumliches Hören
22Räumliches Hören
Digitalisierung
24
Qualität der ReproduktionQualität ist NUR abhängig von der Analog/Digital/Analog-Konvertierung
Qualität ist unabhängig von
Verarbeitung (z. B. Geräte)
Transport (z. B. Kabel)
Speicherung (z. B. Festplatte, Magnetband, CD)
Möglichkeiten der Konvertierung/Bearbeitung
verlustfreies Kopieren
nicht-sequentieller Zugri
nicht-destruktives Editing
platzsparendere Speicherung
...
Warum Digital ?
Warum Digital?
25
PAM (Puls Amplitude Modulation)
Ermittlung von Amplitudenwerten innerhalb eines Zeitintervalls
Analog zu Digital I
Analog zu Digital
PWM (Puls Width Modulation)
Ermittlung von Impulsen, deren Länge die Intensität des analogen Signals wiedergibt
26
Analog zu Digital II
Analog zu Digital
27
PCM (Pulse Code Modulation)
universelles Verfahren zur Digitalisierung von analogen Zeitreihen
Sampling
Abtastung des analogen Signals ineinem festgelegten Zeitintervall
Verwendung von PAM
Quantisierung
Zuordung eines ganzzahligenWertes innerhalb eines festgelegten Zahlenbereiches
Analog zu Digital III
Analog zu Digital
Nyquist Abtast-Theorem
Harry Nyquist (1889 �– 1976)
Mathematisch bewiesen durch Claude E. Shannon und Vladimir Aleksandrovich Kotelnikovdie Abtastrate (Sampling Frequenz) muss doppelt so hoch sein, wie die höchste Frequenz des abzutastenden SignalsFolge: Frequenz-Überlappung (Aliasing)ggf. falsche Rekonstruktion des Signals
28
Probleme der AD/DA-Wandlung I
Nyquist
Shannon
Kotelnikov
Probleme der AD/DA-Wandlung
29
Quantisierungsrauschen
Fehler durch Rundung bei der Digitalisierung
Probleme der AD/DA-Wandlung II
Probleme der AD/DA-Wandlung
30
Beispiele
Probleme der AD/DA-Wandlung II
Probleme der AD/DA-Wandlung
31
Verzerrungen (Clipping)
Übersteuerung des Eingangsignals
Abschneiden der Spitzen eines Signals
Folge von Variablenüberläufen
Probleme der AD/DA-Wandlung III
Probleme der AD/DA-Wandlung
32
Dynamikkompression
Einsatz nichtlinerarer (logarithmischer) Quantisierung
kleine Signale werden mit niedrigeren Bitwerten kodiert
Reduktion Abtastrate / Reduktion Abtastgenauigkeit
Beispiele: A-law, u-Law
Entropiekodierung
typ. Kompresssionsraten: 2 - 2.5
Beispiele:
LPAC (Losless Predictive Audio Compression)
FLAC (Free Losless Audio Codec)
Apple Losless
Psychoakustische Kompression
Verwendung von Subband-Kodierung & Maskierung
dadurch Entfernung von irrelevanten Daten
Reduktion der Datenrate
Beispiele: MP3, AAC
Audio-Kompression
Kompression
Psychoakustik
Psychakustik - TonhöhenempndungHörbarer Frequenzbereich
Niedrigste Frequenz: 16 Hz
Höchste Frequenz
kein einheitlicher Wert
individuell sehr unterschiedlich
altersabhängig
- junger Mensch / Kinder: bis ca. 20.000 Hz
- alter Mensch: sinkt bis unter 10.000 Hz
Tonfrequenzbereich: 16 Hz - 20.000 Hz
Tonhöhenempnden
Änderung mit Logarithmus der Frequenz (nicht linear)
Lautstärke beeinusst Tonhöhenempndung
34
35Das menschliche Ohr
Psychoakustik - LautstärkeempndenGrenzen des Lautstärkeempndens
untere Grenze: gerade noch wahrnehmbare Lautstärke
Obere Grenze: höchste ohne Schmerzgefühl zu ertragende Lautstärke
Mindestdruck auf Ohr erforderlich
Hörfeld (Höräche, Hörbereich): Bereich, in dem in Abhängigkeit von Frequenz und Schalldruckpegel ein Schallereignis (Reiz) ein Hörereignis auslöst
Altersabhängigkeit
im Alter verschiebt sich Hörschwelle im oberen Frequenzbereich
ca. ab 60 Jahre:
10 kHz: Hörschwelle um ca. 20 dB angehoben
5 kHz: Hörschwelle um ca. 15 kHz angehoben
ca. ab 40 Jahre: Verschiebung etwa halb so groß
keine Beeinträchtigung der allgemeinen Hörfähigkeit:
optimaler Bereich < 4000 Hz
36
Psychoakustik - Hörfeld
37
Hörschwelle
LautstärkePegelwert, relativ zur Lautstärke von 1000 Hz Tönen
Lautstärkepegel eines Tones beliebiger Frequenz errechnet sich aus dem Schall-druck des als gleichlaut empfundenen 1000 Hz Tones.
L = 20 * lgp
p0
[phon]
38
Hörschwelle
unterschiedliche Empndlichkeit (Lautstärkeeindruck) des Gehörs für verschiedene Frequenzbereiche höchste Empndlichkeit im Bereich von 2 kHz bis 4kHz
Psychoakustik
Psychoakustik
39
Überdeckung eines Frequenzbereiches durch ein Störsignal (gleichzeitige Maskierung)
Zeitliche Maskierung verdeckt auch nach Abschalten des Störsignals den betre enden Frequenzbereich(zeitliche Maskierung)
Psychoakustik - Maskierung
Psychoakustik
40
Psychoakustik - Maskierung
Psychoakustik
Psychoakustik - Maskierung
41
Psychoakustische Kompression
Entstehung von MPEG Audio
43
Was bietet MPEG
44
Encoder nur hinsichtlich der Bitstrom-Syntax spezifiziert
Bitstrom
Konformer Decoder kann alle„legalen“ MPEG-Bitströme
verarbeiten
...00110101000111001...
A/V A/V
KonformerBitstrom
KonformerBitstrom
KonformerBitstrom
Eigenschaften - ModiUnterschiedliche Kompressionsmodi
Verarbeitung von PCM Audiosignalen mit 32 kHz, 44,1 kHz, 48 kHz
Komprimierter MPEG-Bitstrom hat Datenrate zwischen 32 und 224 kBit/s pro Kanal (Kompressionsrate 2,7 - 24)
3 Kompressionsebenen
Layer I (vereinfachtes Musicam)
Layer II (Musicam)
Layer III (MP3)
Integration zusätzlicher Daten in den Bitstrom
Komprimierter Datenstrom unterstützt 4 Modi:
Single Audio Channel (Monophonic Mode)
2 unabhängige Audio Kanäle (Dual Monophonic Mode)
Stereo Mode
Joint Stereo Mode
45
Eigenschaften - Datenraten
46
Layer I Layer II Layer III
Bitrate < 2*192 kbps < 2*128 kbps < 2 * 96 kbps
CD-Qualitätfast CD-Qualität
2*192 kbps2*96 kbps
2*128 kbps2* 96 kbps
-2*64 kbps
Komplexität gering > Layer I > Layer II
Verzögerung > 19 ms > 35 ms > 59 ms
Applikation CD-IDCC
DAB, DVB, CD-I, ISDN
HQ Audio via ISDN
Kompression MP3 (I) Übersicht
47
Kurzform von MPEG-1 Audio Layer 3
Verwendung der»psychoakustischen Kompression«
Nicht für den Menschen hörbare Informationen werden entfernt
Entfernung von Redundanzen
Kompression von Audiodaten bei vermeintlich geringem Qualitätsverlust
Kanalkopplung (Stereo) �– Di erenzsignalbildung
Entfernung nicht hörbarer Frequenzen und maskierter Audioinformation
Karl-Heinz Brandenburg, Harald Popp: An Introduction to MPEG Layer 3. EBU Technical Review, Juni 2000.
http://www.iis.fhg.de/amm/
Kompression
48
Algorithmus (Übersicht)
Kompression MP3 II
Kompression
49
Algorithmus (1) - Filterbank
Anwendung eines Faltungslters, um ein Signal in 32 Bänder zu unterteilen
Transformation von Zeit- in Frequenzbereich
Aliasing durch überlappen der Frequenzbänder
Unterteilung der Bänder durch modizierte DCT in 18 Teilbänder
Kompression MP3 III
Kompression
50
Algorithmus (2) - Psychoakustisches Modell
erneute Transformation in den FrequenzbereichTransformierung der Frequenzachse
Unterteilung in tonale und nicht-tonale Komponenten
Anwenden der Maskierungsfunktion
nden der minimalen Maskierung für jedes Subband
Berechnung Signal-Maskierungs-Verhältnisses
Kompression MP3 IV
Kompression
51
Algorithmus (3) - Quantisierung
Unterteilung des Datenstromes in Frames
Ein Frame entspricht einem Tonsignal über eine bestimmte Zeiteinheit
Jeder Frame enthält 384 (1152) Samples, die Abtastwerte aus 32 Teilbändern repräsentieren
Aus jedem Teilband stammen 12 (36) Werte
Kompression MP3 V
Kompression
Kompression MP3 VAlgorithmus (3) - Quantisierung
52
Berechnung FFT: Transformation in Frequenzraum
Ermittlung Schalldruckpegel in jedem Subband
Ermittlung der Hörschwelle in jedem Subband
Ermittlung der tonalen und nicht-tonalen Anteile
Bestimmung der relevanten Maskierungstöne
Berechnung individueller Maskierungsschwellen
Berechnung der globalen Maskierungsschwellen
Bestimmung der minimalen Maskierungsschwellen in jedem Subband
Bestimmung des Quantisierungsrauschen in jedem Subband
53
Algorithmus (4) - Format des Datenstroms
Header:
deniert den Layer
Datenrate
Abtastfrequenz
Datenteil:
CRC optional
Side Informations:
- verweis auf Hu mann-Codierung
- Zeiger auf Datenfeld
- Flag, ob CRC verwendet
Hauptdaten:
- Dateblöcke der 1152 Samples
- Hu mann kodiert
Kompression MP3 V
Kompression
Kompression MP3 VAlgorithmus (5) - Kodierung des Stereo-Signals
Bestimmung der Richtung je nach Frequenz
Umwandlung Stereosignal in Mitte/Seite Kodierung
ein Mittensignal (L+R)
ein Seitensignal (L-R)
Seitensignal gut komprimierbar, da weniger Informationen als Monosignal
54Kompression
Kompression MP3 Zusammenfassung
55
PCM-Samples
Transformation in Frequenzraum
Aufteilung in Frequenzbänder(Approximation der critical
bands)
Adaptive Quantisierung(entsprechend PA-Modell)
Entropie-Kodierung
Aufbau Bitstrom
Kompression MP3 VDatenrate von 32 bis zu 320 KBit/s
Samplingrate 32/44,1/48 kHz mit 16 Bit Stereo
Abb. zeigt typische Kompressionsartefakte bei der Fourier-Transformation
56Kompression
Dekomprimierunggeringer Aufwand (asymetrisches Kompressionsverfahren)
Rekonstruktion der kodierten Frequenzsamples
Rückwandlung in Zeitbreich über inverse MDCT und inverse Filterbank
57
Advanced Audio Coding (AAC)Vergleich zu MP3
bessere Qualität bei gleicher Dateigröße
tonale und geräuschhafte Elemente im Eingangssignal e ektiver erkannt und kodiert
Pre-Echo Problem (Kompressionsartefakte) verbessert.
Unterstützung für Multichannel-Audio (bis 48)
Bis zu 96 KHz Abtastfrequenz
DRM-Verfahren »FairPlay« implementiert
EntwicklungStandardisiert bei der ISO MPEG2/MPEG4, EBU-Recommendation
Dolby (AC3), Fraunhofer IIS (MP3), AT&T, Sony, Nokia ...
Erweiterung HE-AAC für niedrige BitratenMPEG-4 High E ciency Advanced Audio Coding,mit Spectral Band Replication (SBR) auch AACplus v1
Mit Parametric Stereo (PS) auch AACplus v2
58Kompression
Hörbeispiele Audiocodecs
59
http://inka.fhtw-berlin.de/Herzog/
Kompression
MIDI
61
MIDI (Musical Instrument Digital Interface)
standardisiertes Protokoll zur Steuerung elektronischer Musikinstrumente und Musike ektgeräte
physikalische Schnittstelle
Überbegri für die Musik, die diesem Standard genügt
1984 entwickelt
Standardisierung und Weiterentwicklung durch
International Midi Organisation (IMA)
MIDI Manufacturers Association(MMA)http://www.midi.org/
Übertragung - MIDI (I)
Übertragung
62
Komponenten
Sequenzer
Komponieren/Wiedergabe von Musik mit Rechner
MIDI Sequenzen werden in MIDI-Dateien gespeichert
Synthesizer
Synthetische Erzeugung und Manipulation von Klängen
Sampler
Wie Synthesizer, jedoch synthetisiert ein Sampler Töne aus einer Palette von Instrument-Samples
Übertragung - MIDI (II)
Übertragung
63
Datenformatinstrumentenbezogene Kodierung
Lautstärke
Grundfrequenz
Bezeichnung des Instruments
MIDI-Nachrichten bestehen aus einem Statusbyte und bis zu 3 Datenbytes
Statusbyte 1 B B B K K K K
Datenbyte 0 _ _ _ _ _ _ _
Statusbyte kündigen eine Aktion an und gliedern sich in Kanal- und Systembefehle.
Kanalbefehle (BBB) beziehen sich auf der insgesamt 16 Kanäle (KKKK), mit denen jeweils ein angeschlossenes Instrument assoziiert ist
Übertragung - MIDI III
Übertragung
64
Vorteile
MIDI-Dateien sind plattformübergreifend
MIDI-Dateien sind sehr klein: 1 min Musik ca. 15- 30 Kbyte
MIDI Kodierung entspricht der Vorgehensweise beim klassischen Komponieren
Nachteile
Ohne wirklich gute Instrumente kein schöner Klang, da synthetische Klangerzeugung
keine Sprache oder Geräusche
MIDI-Dateien klingen auf unterschiedlichen Systemen, je nach eingesetzten Geräten unterschiedlich
Übertragung - MIDI (IV)
Übertragung
65
General Midi (GM)
Standard-Erweiterung ermöglicht geräteunabhängig möglichst originalgetreue Wiedergabe
Midi über IEEE 1394 (FireWire)
Verwendung aktueller Technologien und Protokolle
Übertragung MIDI V
Übertragung
Exkurs
Audio RetrievalTempoerkennung
Verfahren zur automatischen Schätzung des Rhythmus beschreibenden Elemente Tempo, Taktart und Mikrotime
Query by Humming (QbH)
Melodieerkennung/Musiktitelerkennung auf Grundlage gesungener oder anderer monophoner Melodien
Bsp: http://www.musicline.de/de/melodiesuche/
Statistische Klassikation
Jedes Geräusch hat typische Werte (loudness, pitch, brightness, bandwidth)
Trainingsset von Geräuschen einer Klasse ermöglicht Einordnung (Bsp. Gelächter, Beifall, Kinder)
...
67Audio Retrieval
Film: http://www.celemony.com/
»Taschenbuch Multimedia«
HENNING, PETER A., Fachbuchverlag Leipzig, 2. Auage 2001, gebundene Ausgabe, 603 Seiten, ISBN 3446217517, ca. 20
»Multimedia Technologie«
Grundlagen, Komponenten und SystemeSteinmetz, Henning, Springer Verlag Heidelberg, 3. überarbeitete Auage 2000, gebundene Ausgabe, 968 Seiten, ISBN 3-540-67332-6, ca. 55
»The Art of DIGITAL AUDIO«Watkinson, John, Focal Press Oxford, Third Edition 2001, Hardcover, 752 Seiten, ISBN 0-240-51587-0, ca. 84
69
Literatur
Literatur
70
http://www.ieee.org
http://www.itu.int/ITU-T/
http://www.cs.columbia.edu/~hgs/audio/
http://www.digitalaudioguide.com/glossary.htm
http://www.mp3encoding.de
http://www.midi.org/
http://www.superaudio-cd.com/
Links
Links