Robuste Mehrsprecher-Spracherkennung mit ICA

10
Aktivitäten des Instituts Signaltrennung Independent Component Analysis Zeit-Frequenzmaskierung Robuste Spracherkennung Missing-Data Techniken zur Erkennung gestörter Sprachsignale Anwendung zur Fehlerdetektion Signalaufbereitung + HMM- oder DTW- Klassifikation Überblick

Transcript of Robuste Mehrsprecher-Spracherkennung mit ICA

Page 1: Robuste Mehrsprecher-Spracherkennung mit ICA

Aktivitäten des Instituts

Signaltrennung

Independent Component Analysis Zeit-Frequenzmaskierung

Robuste Spracherkennung

Missing-Data Techniken zur Erkennung gestörter Sprachsignale

Anwendung zur Fehlerdetektion

Signalaufbereitung + HMM- oder DTW-Klassifikation

Überblick

Page 2: Robuste Mehrsprecher-Spracherkennung mit ICA

Spracherkennung in gestörten Umgebungen leidet besonders unter Überlagerung des erwünschten Sprachsignals mit anderen Sprechersignalen

Mikrofone zeichnen nur gefaltete Mischungen von Sprechersignalen auf

Ziel: Rekonstruktion einzelner Sprechersignale

Mischungen

Independent Component Analysis

Page 3: Robuste Mehrsprecher-Spracherkennung mit ICA

Sprechertrennung mit ICA

Independent Component Analysis (ICA) schätzt optimale Entmischungsmatrix im Sinn der maximalen statistischen Unabhängigkeit der Signale

Rekonstruktionen mit linearen ICA-Methoden

A()-1A()

gefalteteMischung

S1()

S2()

X1()

X2()

Y1()

Y2()

Max. Unab-hängigkeit für

alle

Page 4: Robuste Mehrsprecher-Spracherkennung mit ICA

Erlaubt im Idealfall fast perfekte Trennung aus nur einem Mikrophonsignal

Sprachsignale

Mischung

Maskierungs-funktion

Zeit-Frequenzmaskierung

Page 5: Robuste Mehrsprecher-Spracherkennung mit ICA

ICA + Zeit-Frequenzmaskierung

Independent Component Analysis kann genutzt werden, um Signale linear zu trennen und um die Berechnung einer zusätzlichen Zeit-Frequenz-Maske zu ermöglichen.

Ohne Maskierung:

Mit Maskierung:

Page 6: Robuste Mehrsprecher-Spracherkennung mit ICA

Zeit-Frequenzmaskierung verbessert ICA-Ergebnisse und bietet

Durchschnittliche Verbesserung des Signal-Störverhältnisses von

3.4dB gegenüber ICA allein

Geringen Rechenaufwand

Robustheit gegenüber Störgeräuschen Aber verbessertes SNR verbessert Spracherkennung nur wenig

Das liegt wahrscheinlich an veränderten

Merkmalen, aber die menschliche Erkennung

von zeigt, dass auch im gestörten Signal

genug Information für die Erkennung präsent ist.

Mögliche Lösung: Einsatz von Missing-Data Techniken

Zeit-Frequenzmaskierung

Page 7: Robuste Mehrsprecher-Spracherkennung mit ICA

Eingesetzte Methoden zur Verwendung der Unsicherheitsinformation:

Uncertainty Decoding

„Data Imputation“

Modified Imputation

S()

Quellen-Trennung

HMM-Spracherkennung

Punkt-schätzungx1(t)

x2(t)

Quellen-Trennung

HMM-Spracherkennung

Unsicherheits-informationx1(t)

x2(t) S(), S())

Missing-Data Techniken

Doko
applied mainly by greene, barker and cookebut droppo, acero and deng have done it for their splice algorithm, also
Page 8: Robuste Mehrsprecher-Spracherkennung mit ICA

Ergebnisse Spracherkennung

0

10

20

30

40

Fehlerrate 32,5 15,4 16 8,4 6,8

Aufnahme nur ICAICA +

MaskeMissing

DataReferenz

Doko
masking changes energy,therefore, using rec without c0 feature profits much more from masking.what this also showed was that variance computation was really too ad hoc
Page 9: Robuste Mehrsprecher-Spracherkennung mit ICA

Anwendung zur Fehlerdetektion

Independent Component Analysis kann genutzt werden, um Signale linear zu trennen und die Berechnung einer optionalen Zeit-Frequenz-Maske zu ermöglichen.

Anschliessende Erkennung kann sowohl mit DTW als auch mit HMMs zur Musterklassifikation und Fehlererkennung eingesetzt werden.

Page 10: Robuste Mehrsprecher-Spracherkennung mit ICA

Vielen Dank!