Post on 26-Jun-2015
Aktivitäten des Instituts
Signaltrennung
Independent Component Analysis Zeit-Frequenzmaskierung
Robuste Spracherkennung
Missing-Data Techniken zur Erkennung gestörter Sprachsignale
Anwendung zur Fehlerdetektion
Signalaufbereitung + HMM- oder DTW-Klassifikation
Überblick
Spracherkennung in gestörten Umgebungen leidet besonders unter Überlagerung des erwünschten Sprachsignals mit anderen Sprechersignalen
Mikrofone zeichnen nur gefaltete Mischungen von Sprechersignalen auf
Ziel: Rekonstruktion einzelner Sprechersignale
Mischungen
Independent Component Analysis
Sprechertrennung mit ICA
Independent Component Analysis (ICA) schätzt optimale Entmischungsmatrix im Sinn der maximalen statistischen Unabhängigkeit der Signale
Rekonstruktionen mit linearen ICA-Methoden
A()-1A()
gefalteteMischung
S1()
S2()
X1()
X2()
Y1()
Y2()
Max. Unab-hängigkeit für
alle
Erlaubt im Idealfall fast perfekte Trennung aus nur einem Mikrophonsignal
Sprachsignale
Mischung
Maskierungs-funktion
Zeit-Frequenzmaskierung
ICA + Zeit-Frequenzmaskierung
Independent Component Analysis kann genutzt werden, um Signale linear zu trennen und um die Berechnung einer zusätzlichen Zeit-Frequenz-Maske zu ermöglichen.
Ohne Maskierung:
Mit Maskierung:
Zeit-Frequenzmaskierung verbessert ICA-Ergebnisse und bietet
Durchschnittliche Verbesserung des Signal-Störverhältnisses von
3.4dB gegenüber ICA allein
Geringen Rechenaufwand
Robustheit gegenüber Störgeräuschen Aber verbessertes SNR verbessert Spracherkennung nur wenig
Das liegt wahrscheinlich an veränderten
Merkmalen, aber die menschliche Erkennung
von zeigt, dass auch im gestörten Signal
genug Information für die Erkennung präsent ist.
Mögliche Lösung: Einsatz von Missing-Data Techniken
Zeit-Frequenzmaskierung
Eingesetzte Methoden zur Verwendung der Unsicherheitsinformation:
Uncertainty Decoding
„Data Imputation“
Modified Imputation
S()
Quellen-Trennung
HMM-Spracherkennung
Punkt-schätzungx1(t)
x2(t)
Quellen-Trennung
HMM-Spracherkennung
Unsicherheits-informationx1(t)
x2(t) S(), S())
Missing-Data Techniken
Ergebnisse Spracherkennung
0
10
20
30
40
Fehlerrate 32,5 15,4 16 8,4 6,8
Aufnahme nur ICAICA +
MaskeMissing
DataReferenz
Anwendung zur Fehlerdetektion
Independent Component Analysis kann genutzt werden, um Signale linear zu trennen und die Berechnung einer optionalen Zeit-Frequenz-Maske zu ermöglichen.
Anschliessende Erkennung kann sowohl mit DTW als auch mit HMMs zur Musterklassifikation und Fehlererkennung eingesetzt werden.
Vielen Dank!