Neuronale Netze in der modernen Spracherkennungdnt.kr.hsnr.de/ASR17/neuralnets_gref.pdf ·...

1/87

Einleitung und MotivationGrundlagen und Wiederholung

Long short-term memory neural networksState-of-the-art ASR-Systeme

Ausblick auf zukunftige AnsatzeLiteratur

Neuronale Netze in der modernenSpracherkennung

Michael Gref

7. Februar 2018

Michael Gref Neuronale Netze in der modernen Spracherkennung

2/87




Agenda

Einleitung und Motivation

Grundlagen und Wiederholung

Long short-term memory neural networks

State-of-the-art ASR-Systeme

Ausblick auf zukunftige Ansatze


3/87




EinleitungZielsetzung der Kurseinheit

Motivation I

Abbildung: Verlauf der besten erreichten WER fur verschiedene Domanen(Huang u. a. (2014), Microsoft)


4/87





Motivation II

Abbildung: Verlauf der besten erreichten WER fur die Switchboard-Taskim Verlaufe der Zeit (Quelle: Twitter, Oktober 2017, awnihannun)


5/87





Motivation III

I Unter Einsatz komplexer Architekturen kunstlicher neuronalerNetze erreichen ASR-Systeme bei der Switchboard EnglishConversational Telephone Speech Recognition Task 2017erstmals Wortfehlerraten von ∼ 5.5%

I Kontroverse Diskussion, ob ASR-Systeme inzwischenmenschliche Wortfehlerraten erreichen!

I Bspw. IBM Watson (Saon u. a. (2017)),I vs. Microsoft AI and Research (Stolcke u. Droppo (2017))

I Gleichzeitig tun sich neue Herausforderungen auf. Bspw.erfreuen sich Sprachassistenten wie Alexa, Google Home oderSiri enormer Beliebtheit


6/87





Motivation IV

Abbildung: There’s no data like more data (Huang u. a. (2014),Microsoft)


7/87





Das Ziel der Kurseinheit:

I Ein tieferes Verstandnis fur die Funktionsweise vonkunstlichen neuronalen Netzen die zur akustischenModellierung verwendet werden

I Insbesondere von sogenannten LSTMs und TDNNs


8/87




Kunstliches NeuronDense-LayerTraining neuronaler NetzeRekurrente Strukturen neuronaler Netz

Grundlagen und Wiederholung


9/87





Kurze Wiederholung von:

I Aufbau und Funktionsweise einfacher kunstlicher neuronalerNetze (MLP)

I Notation als Funktionen und mit Strukturen der linearenAlgebra

I Training kunstlicher neuronaler Netze

I Einfache rekurrente Netze


10/87





Grundbaustein neuronaler Netze

Basis-Element jedes kunstlichen neuronalen Netzes ist das Neuron.Funktion, die eine endliche Folge oder einen Vektor reellerZahlenwerte auf eine reelle Zahl abbildet.


11/87





Schematischer Aufbau

wj,1

wj,2

wj,3

wj,D

x1

x2

x3

xD

wj,0

Σ h(⋅)zj

Abbildung: Schematischer Aufbau eines kunstlichen Neurons


12/87





Mathematische Beschreibung

In Anlehnung an (Bishop, 2006, S. 227) lasst sich das Verhalteneines einzelnen Neurons mit Index j ∈ N wie folgt modellieren:

zj : RD → R, x 7→ h

(D∑i=1

wj,i · xi + wj,0

)(1)

I x := (x1, ..., xD)T ∈ RD ein Eingangsvektor mit

I D ∈ N Eingangswerten und

I h eine (differenzierbare) Aktivierungsfunktion.

(Bezeichnung: Forward-Pass)


13/87





Anordnung von Neuronen zu Layern

I Neuronen innerhalb des neuronalen Netzes sind im einfachstenFall in sogenannten Dense-Layern angeordnet

I Alle Neuronen innerhalb eines Layers werden stets auf diegleichen Eingangsvektoren angewendet und haben stets diegleiche Aktivierungsfunktion.

I Die verwendeten Aktivierungsfunktionen sind je nachAnwendungsfall ublicherweise - jedoch nicht ausschließlich -die Identitatsfunktion (sog. lineare Aktivierung), dieSigmoidfunktion oder der Tangens-Hyperbolicus.


14/87





Mathematische Modellierung

Ein Layer mit Index l ∈ N der Große M ∈ N bestehend aus MNeuronen und kann als Funktion

RD → RM ,x 7→ z(l) (x) :=(z(l)1 (x) , ..., z

(l)M (x)

)T(2)

aufgefasst werden.Bezeichnung:

I Dense-Layer (in moderner Terminologie)

I oder Fully-Connected Layer


15/87





Kompakte Notation I

Das Verhalten des Layers lasst sich in Anlehnung an (Yu u. Deng,2015, S. 57) durch Matrix-Multiplikation kompakt schreiben als

z(l) (x) = h(l)(W(l) · x+w0

(l))

(3)

wobei h(l) die, auf einen Vektor elementweise angewendeteAktivierungsfunktion h(l) ist.


16/87





Kompakte Notation II

Es wirdw0

(l) := (w(l)1,0, ..., w

(l)M,0)

T (4)

als Bias-Vektor und

W(l) :=

w(l)1,1 · · · w

(l)1,i · · · w

(l)1,D

......

...

w(l)j,1 · · · w

(l)j,i · · · w

(l)j,D

......

...

w(l)M,1 · · · w

(l)M,i · · · w

(l)M,D

(5)

als Ubergangsmatrix des Layers definiert.


17/87





Anmerkung zur Notation

Wichtig: Sofern nicht anders angegeben, wird fur die

Ubersichtlichkeit im weiteren Verlauf bei Modellierung neuronalerNetze immer diese Notation verwendet.


18/87





Multi-Layer Perceptron I

Im Falle eines einfachen Feed-Forward-Netzes mit L ∈ Nhintereinander verbundenen Layern, lasst sich das Verhalten desgesamten neuronalen Netzes modellieren durch Komposition dereinzelnen Layer-Funktionen. Das heißt, dass der Ausgangswerteines neuronalen Netzes fur einen Eingangsvektor x durch

nnet (x) :=(z(L) ◦ · · · ◦ z(2) ◦ z(1) ◦ idRD

)(x) (6)


19/87





Multi-Layer Perceptron II

x0

x1

xD

z0

z1

zM

y1

yK

w(1)MD w

(2)KM

w(2)10

hidden units

inputs outputs

Abbildung: Multilayer perceptron mit einem Hidden-Layer1

1Bishop (2006)Michael Gref Neuronale Netze in der modernen Spracherkennung

20/87





Training neuronaler Netze

Supervised-Learning:

I Trainingsdaten bestehen aus einer Menge Tupeln (x,y) mitx ∈ RD und einem Target-Vektor y ∈ RN .

I Ziel ist die Bestimmung der Gewichte aller Neuronen im Netz,so dass das Netz fur x eine

”beste“ Schatzung von y liefert.

(Was”beste“ bedeutet, wird durch eine Zielfunktion definiert)


21/87





Zielsetzung

Zielfunktion / Objective Function:

I Zu optimierende Funktion. Bei neuronalen Netzen der Fehlerzwischen Schatzung und Zielwert

I Verschiedene Varianten je nach Art der Aufgabenstellung.Bekannteste Beispiele:

I Fehlerquadrat, Betragsquadrat fur RegressionsaufgabenI Cross-Entropy fur Schatzung von Wahrscheinlichkeiten


22/87





Back-Propagation (Grundidee)

Ziel: Anpassung der Gewichtsmatrizen und Bias-Vektoren durch eininkrementelles Gradienten-Verfahren bspw. Stochastic GradientDescent (SGD).

I (Analytische) Differentiation der Zielfunktion nach denGewichten im neuronalen Netz

I Forward Pass: Berechnung der Schatzung des Netzes fur einTrainings-Tupel

I Berechnung des Fehlers mittels der Objective-Function

I Backward Pass: Aktualisierung der Gewichte (inAbhangigkeit ihres jeweiligen Beitrags)


23/87





Moglichkeiten zur Verbesserung des Trainings

I (Mini-)Batch-Training

I Shuffeling

I Adaptive Lernrate

I MomentumI Moderne Erweiterungen von SGD fur die Back-Propagation:2

I AdagradI AdadeltaI RMSpropI AdamI AdaMax

2Vergleich und Visualisierung: http://ruder.io/optimizing-gradient-descent/Michael Gref Neuronale Netze in der modernen Spracherkennung

24/87





Einfache rekurrente Layer

I Elman network

ht = σh(Whxt +Uhht−1 + bh) (7)

yt = σy(Wyht + by) (8)

I Jordan network

ht = σh(Whxt +Uhyt−1 + bh) (9)

yt = σy(Wyht + by) (10)


25/87





Anmerkung zur Notation

I Man beachte: Die Addition der Ausgange zweier Dense-Layerohne Aktivierungsfunktion

f(x,h) = (W · x+ a1) + (U · h+ a2) (11)

kann durch”Aneinanderreihung“ der Vektoren mit nur einem

Dense-Layer realisiert werden:

f

([xh

]):=[W,U

] [xh

]+ (a1 + a2)︸︷︷︸

:=b

(12)

I Wir nutzenI in Formeln separate Gewichtsmatrizen fur jeden

Eingangsvektor (besseres Verstandnis).I in Skizzen Zusammenfassung zu einem Dense-Layer

(Ubersichtlichkeit).Michael Gref Neuronale Netze in der modernen Spracherkennung

26/87





Aufbau einfacher rekurrenter Layer

Elman-RNN

Jordan-RNN

ht ytxth

T

y

Abbildung: Schematischer Aufbau einfacher rekurrenter Layer

Grune Boxen modellieren jeweils einen (vollverbundenen)Dense-Layer.


27/87





Back-Propagation Through Time I

Das Training rekurrenter Netze erfolgt mittels Back-PropagationThrough Time:

I Entfaltung der Ruckkopplung im Netz entlang der Zeit fur dieLange der jeweiligen Trainingssquenz

I Auf diese Struktur wird dann derBack-Propagation-Algortihmus angewendet


28/87





Back-Propagation Through Time II

Abbildung: Schematische Funktionsweise von BPTT3


29/87





Back-Propagation Through Time III

Abbildung: Schematische Darstellung von Verarbeitungsvarianten furSequenzen4

3Quelle: wikimedia.org4Quelle: http://karpathy.github.io/2015/05/21/rnn-effectiveness/


30/87





Problem: Rechenzeit

Zu beachten:

I Kann fur lange Training-Sequenzen sehr rechenintensivwerden! Vergleichbar mit sehr tiefen Feed-Forward-DNN

I Sequentielle Verarbeitungsschritte unvermeidbar.Parallelisierung nicht in dem Maße moglich, wie beiFeed-Forward-Netzen - insbesondere mit GPUs.


31/87





Probleme rekurrenter Strukturen Anfang der 90er

nach Hochreiter u. Schmidhuber (1997):

I Bei klassischen rekurrenten Strukturen neigen Fehler-Signalebeim Training dazu im Verlauf der Zeit (bezogen auf eineTrainingssequenz) schnell gegen Null zu konvergiert oder zudivergieren

I Fuhrt zu oszillierenden Matrix-Gewichten oder gar zurDivergenz

I Zusammenhange bei langen Sequenzen konnen kaum gelerntwerden. Nur fur Kurzzeit-Gedachtnis (Short-Term Memory)geeignet (ublicherweise 5 bis 10 diskrete Zeitschritte)


32/87




Ursprungliches KonzeptHeutiges VerstandnisVariationen von LSTMs

Long short-term memory neural networks


33/87





LSTM nach Hochreiter u. Schmidhuber (1997) I

Modellierung eines LSTM-Layers nach (ursprunglicher) Idee vonHochreiter u. Schmidhuber (1997). Erweiterung des rekurrentenAnsatzes um:

I ein constant error carousel (CEC),

I ein multiplikatives Input-Gate, das Speichern von irrelevantenInformationen im CEC schutzen soll,

I ein multiplikatives Output-Gate, das die Ausgabe vonInformationen im CEC unterdrucken soll, die zum aktuellenZeitpunkt nicht relevant sind (aber spater relevant werdenkonnten)


34/87





LSTM nach Hochreiter u. Schmidhuber (1997) II

Die Grundidee in Formeln:

ot = σo(Wouo,t + bo) (13)

it = σi(Wiui,t + bi) (14)

ct = ct−1 + it · σc(Wcuc,t + bc) (15)

ht = ot · σh(ct) (16)

Mit der”Multiplikation von Vektoren“ ist die punktweise bzw.

elementweise Multiplikation der Eintrage gemeint.


35/87





LSTM nach Hochreiter u. Schmidhuber (1997) III

ht

T

ot

it

ctct-1

c~

i

o

×

+

×

σh

[CEC]

uc,t

ui,t

uo,t

Abbildung: Grundidee des ursprunglichen LSTM-Konzepts von 1997


36/87





LSTM nach Hochreiter u. Schmidhuber (1997) IV

I Durch das CEC soll bei der Back-Propagation der propagierteFehler entlang der Zeit konstant bleiben (Herleitung s. Paper)

I uo,t, ui,t und uc,t werden von Hochreiter nicht explizitdefiniert. Der Nutzer sollte selbst die passendeNetzwerk-Topologie festlegen

I Ublicherweise werden Eingangswerte (bzw. Ausgangswerte vonvorhergehenden Layern) xt und der gepufferte Ausgang desaktuellen Layers ht−1 als Eingangswerte fur die Gatesverwendet.


37/87





LSTM nach Hochreiter u. Schmidhuber (1997) V

Das heißt mit

uo,t := ui,t := uc,t :=

[xt

ht−1

](17)

erhalten wir fur das LSTM:

ot = σo(Woxt +Uoht−1 + bo) (18)

it = σi(Wixt +Uiht−1 + bi) (19)

ct = ct−1 + it · σc(Wcxt +Ucht−1 + bc) (20)

ht = ot · σh(ct) (21)


38/87





LSTM nach Hochreiter u. Schmidhuber (1997) VI

ht

T

ot

it

ctct-1

xt

ht-1

c~

i

o

×

+

×

σh

[CEC]

Abbildung: Bekannteste Variante des ursprunglichen LSTM-Konzepts


39/87





LSTM nach Hochreiter u. Schmidhuber (1997) VII

I LSTMs konnten erstmals Informationen fur bis zu 1000diskrete Zeitschritte speichern

I Problem: Werte konnen zwar additiv ins CEC gespeichertwerden, uberlagern sich jedoch irgendwann

I Fur jede Berechnung muss der Speicher im LSTMzuruckgesetzt werden


40/87





Learning to Forget (Gers u. a. (2000)) I

Erweiterung des Konzepts um ein multiplikatives Forget-Gate:

ot = σo(Woxt +Uoht−1 + bo) (22)

it = σi(Wixt +Uiht−1 + bi) (23)

ct = ft · ct−1 + it · σc(Wcxt +Ucht−1 + bc) (24)

ft = σf (Wfxt +Ufht−1 + bf ) (25)

ht = ot · σh(ct) (26)


41/87





Learning to Forget (Gers u. a. (2000)) II

ht

T

ot

it

ctct-1

xt

ht-1

c~

i

f

o

×

× +

×

σh

ft

[CEC]

Abbildung: Aufbau LSTM-Layer mit Forget-Gate


42/87





Zunachst einige Uberlegungen zur Komplexitat I

I Ein LSTM-Layer besteht im Prinzip aus 4 verschiedenenDense-Layern

I Wir definieren die Große des Input-Vektors

I = dim(xt) (27)

und die Große des Cell-Vektors

H = dim(ct) (28)

und erhalten die Anzahl der Parameter im LSTM-Layer:

4 · (I +H + 1) ·H (29)


43/87





Zunachst einige Uberlegungen zur Komplexitat II

I Bei H >> I skaliert die Anzahl der Gewichte quadratisch zurGroße des Ausgangs.

I Bspw. mit H = 2000 und I = 257 sind 18.064.000 Parameterzu trainieren

I Zum Vergleich Parameter eines Dense-Layer mit gleicherInput- und Output-Dimension:

(I + 1) ·H = 516.000 (30)


44/87





LSTM Variationen

I LSTMs mit Forget-Gates sind im Grunde das, was wirheutzutage mit LSTMs meinen

I CEC ermoglicht das Speichern von Informationen uber langeZeitraume (long) und das schnelle, dynamische Abrufen dieser(short-term memory)

I Es existieren weitere unterschiedliche LSTM-Variationen, diefur verschiedene Probleme beheben sollen.

I Variation sind beispielsweise durch die Wahl der Eingange derdrei Gates moglich oder durch Kombination mit Variation derVerarbeitungsreihenfolge.

I Nachfolgend drei Beispiele.


45/87





LSTMs lernen Zahlen I

I Die bisherige LSTM-Struktur kann zwar uber lange ZeitraumeInformationen speichern, jedoch nicht exakt Zahlen

I Beispiel zum Problemverstandnis:I Am Eingang liegt ein konstanter Wert anI Das LSTM soll alle t · 100 (mit t ∈ N ∪ {0}) Zeitschritte 1 am

Ausgang zeigen, ansonsten 0.I Was kann im LSTM passieren?


46/87





LSTMs lernen Zahlen II

Gedankenexperiment: Wir nehmen an das LSTM ist trainiert underfullt die Anforderung in hinreichendem Maße.

I Bei t = 0 hat das Netz den Ausgangswert 1

I Der Ausgangwert 1 wird bei t = 1 als Eingangswertverwendet. Informationen konnen uber die Gates in das CECgeschrieben werden.

I Idealerweise ist fur t ∈ {1, ..., 99} der Ausgang immer 0 (odersehr nah dran).

I Daraus folgt:[xt,ht−1]

T (31)

ist (nahezu) konstant fur 1 << t < 99


47/87





LSTMs lernen Zahlen III

I Cell-State bleibt nahezu unverandert, da Zugang zum CECnur uber Gates moglich ist

I Es existiert keine Moglichkeit im CEC uber lange Zeitraumehinweg zu zahlen, da nur Layer-Ausgang und Layer-EingangCEC beeinflussen.

I Widerspruch zur Annahme. ⇒ LSTM kann nicht ausreichendtrainiert werden.


48/87





LSTMs lernen Zahlen IV

Von Gers u. Schmidhuber (2000) eingefuhrte Peepholes erlaubtden Gates in das CEC zu blicken:

ot = σo(Woxt +Uoht−1 +Voct + bo) (32)

it = σi(Wixt +Uiht−1 +Vict−1 + bi) (33)

ct = ft · ct−1 + it · σc(Wcxt +Ucht−1 + bc) (34)

ft = σf (Wfxt +Ufht−1 +Vfct−1 + bf ) (35)

ht = ot · σh(ct) (36)

(Bzw. erlauben dem CEC den Zustand uber die Gates”aus sich

heraus“ zu beeinflussen)


49/87





LSTMs lernen Zahlen V

ht

T

ot

it

ctct-1

xt

ht-1

c~

i

f

o

×

× +

×

σh

ft

[CEC]

Abbildung: Aufbau LSTM-Layer mit Peepholes


50/87





Verringerung der Komplexitat I

I Wie bereits gezeigt, konnen LSTMs sehr rechenintensivwerden und eine hohe Anzahl Parameter aufweisen.

I Mit Peepholes steigt die Zahl der Parameter weiter an:

4 · (I +H + 1) ·H + 3 ·H ·H (37)

I Fur das Beispiel mit H = 2000 und I = 257 steigt die Zahlder Parameter von 18.064.000 auf 30.064.000

I Projection-Layer nach Sak u. a. (2014) konnen da Abhilfeschaffen


51/87





Verringerung der Komplexitat II

ot = σo(Woxt +Uort−1 +Voct + bo) (38)

it = σi(Wixt +Uirt−1 +Vict−1 + bi) (39)

ct = ft · ct−1 + it · σc(Wcxt +Ucrt−1 + bc) (40)

ft = σf (Wfxt +Ufrt−1 +Vfct−1 + bf ) (41)

ht = ot · σh(ct) (42)

rt = Wrht (43)


52/87





Verringerung der Komplexitat III

ht

T

ot

it

ctct-1

xt

rt-1

c~

i

f

o

×

× +

×

σh

ft

[CEC]

rrt

Abbildung: Aufbau LSTM-Layer mit Peepholes und Projection-Layer


53/87





Verringerung der Komplexitat IV

I Projection-Layer entkoppeln Große des Ausgangs und desSpeichers

I Anzahl Parameter fur LSTM mit Peepholes undProjection-Layer:

4 · (I +R+ 1) ·H + 3 ·H ·H +H ·R (44)

I Hierbei wird dim(rt) =: R kleiner als H gewahlt.


54/87





Verringerung der Komplexitat V

Rechenbeispiel (Wieder mit H = 2000 und I = 257):

I Bspw. nach Cheng u. a. (2017) wird R = 14 ·H gewahlt.

I Zahl der Parameter sinkt von 30.064.000 auf 19.064.000.

I Nur 1.000.000 Parameter mehr als Standard-LSTM ohnePeepholes.


55/87





Bi-Direktionale rekurrente Layer I

I Bei der Spracherkennung liegt i.d.R. das Sprachsignal alsganzes Segment vor. Warum daher nur in die Vergangenheitoder (mittels Delay) hochstens ein Stuckchen in die Zukunftschauen?

I Bi-Direktionale rekurrente Layer ermoglichen den gesamtenzeitlichen Kontext in beide Zeit-Richtungen einzubeziehen.

I Voraussetzung: Endliche Lange von Eingangsvektoren!


56/87





Bi-Direktionale rekurrente Layer II

I Grundidee fur bi-direktionale rekurrente Netze wurde (u.A.) inSchuster u. Paliwal (1997) vorgestellt.

I Es werden pro Layer zwei (interne) Recurrent-Layer (bspw.LSTMs) verwendet. Einer fur die linken Werte der Zeitachsezum Zeitpunkt t, einer fur die rechten Werte.

I Funktionsweise zu normalen RNN bleibt im Grunde gleich.Lediglich die Reihenfolge der Berechnungen wird nun relevant.


57/87





Bi-Direktionale rekurrente Layer III

Abbildung: Schematischer Aufbau eines Bi-Direktionalen RNN5


58/87





Bi-Direktionale rekurrente Layer IV

Gegeben sei eine Training-Sequenz (z0, z1, ..., zT ) wobeizt := (xt, yt) das Tupel aus Eingangs- und Zielwerten ist.

I Forward-Pass:1. Berechnung der Ausgangswerte vom

I Forward-Recurrent-Layer fur die Folge (x0, ..., xT )I Backwards-Recurrent-Layer fur die Folge (xT , ..., x0)

und speichere die Werte zu jedem Zeitpunkt t ∈ (0, ..., T ).2. Fur jeden t ∈ (0, ..., T ):

Setze die gespeicherten Ausgangswert vom Forward-RNN undvom Backwards-RNN zusammen und gebe sie an denAusgangslayer weiter.

I Backward-Pass fur die Back-Propagation erfolgt analog.

5Schuster u. Paliwal (1997)Michael Gref Neuronale Netze in der modernen Spracherkennung

59/87




Renaissance von LSTMsTime-Delay Neural NetworksState-of-the-art Systeme in Kaldi

LSTMs als Komponenten in state-of-the-art ASR-Systemen


60/87





Renaissance von LSTMs I

Warum liefert ein 20 Jahre altes Verfahren erst heute, in denmodernsten ASR-Systemen herausragende Ergebnisse?

I Rechenleistung! Heutige Grafikkarten ermoglichen damalsUndenkbares:

I Deep-Learning. Training von Netzen mit mehrerenverketteten, großen LSTM-Layern sowie Kombinationenanderen komplexen Strukturen

I Verarbeitung enormer Datenmengen. Bspw. Googletrainiert ASR-Systeme mit (Grid-)LSTMs auf 18.000 StundenSprach-Daten (Li u. a. (2017)). Fur die Forschung mancheVerfahren sogar mit 125.000h (Soltau u. a. (2017))!


61/87





Renaissance von LSTMs II

I Open-Source! Kostenloser Zugang zu simpel verwendbarenDeep-Learning-Framesworks schafft eine hohe Reichweite. DiePopularitat des Themas bereichert im Gegenzug dieForschung und Open-Source-Entwicklung.


62/87





Alternative zu LSTMs

I Wie bei Deep-Learning ublich gilt: tiefe Netze (mit vielenSchichten) erreichen i.d.R. bessere Ergebnisse als breite flacheNetze

I Deep-Learning mit LSTMs ist auf Grund des Rechenaufwandsab einer gewissen Tiefe nicht mehr sinnvoll handhabbar

I Ein alternativer Ansatz zu rekurrenten Strukturen stammt von1989


63/87





Time-Delay Neural Networks

I Nicht-rekurrente Architektur eines neuronalen Netzes fur dieVerarbeitung zeitlicher Merkmalsfolgen

I Erstmal in Waibel u. a. (1989) zur Phonem-Erkennungvorgestellt

I Soll Informationen aus zeitlichen Kontext nutzen ohnezeitvariant zu sein


64/87






Abbildung: TDNN-Architektur6

6Quelle: wikimedia.orgMichael Gref Neuronale Netze in der modernen Spracherkennung

65/87






Kann wie ein Spezialfall eines Convolutional-Neural-Networkaufgefasst werden:

I Lediglich Feed-Forward Operationen

I Hohe des Faltungskerns uber gesamte Anzahl der Merkmale⇒ 1-dimensionaler Output in diese Richtung

I Breite des Faltungskerns uber den gewahlten zeitlichenKontext (Delay: 3 im Beispiel)

I Ausgangsdimension (TDNN-Units) entspricht der Anzahl vonFaltungskernen in einem CNN


66/87






TDNN ist, ahnlich wie LSTMs, in der Lage Informationen beivariablen zeitlichen Kontext zu erlernen

I Unteren Layer fuhren initiale Transformationen durch

I Oberen Layer lernen Informationen aus langerem zeitlichenKontext

I Langzeit-Speicherung limitiert durch gesamten resultierendenDelay aller Schichten

I Reduktion der Komplexitat durch sogenanntes sub-samplingmoglich (Peddinti u. a. (2015))


67/87





Das Kaldi-ASR-Toolkit I

I OpenSource Toolkit zum Training und Anwendung vonSpracherkennungssystem

I Erstmals vorgestellt in Povey u. a. (2011)

I Zusammenstellung zahlreicher Binaries und Skripte, u.a.:I Akustische Modellierung (mit HMM und DNN-Modellen)I Sprachmodellierung (klassisch und LSTM-Rescoring)I Decoding und Evaluation


68/87





Das Kaldi-ASR-Toolkit II

Abbildung: Vergleich Anzahl Zitationen des Kaldi-Paper und demHTK-Book im laufe der Jahre (nach Google Scholar Statistik)


69/87





Das Kaldi-ASR-Toolkit III

I Seit 2011 wurde das Kaldi-Paper laut Google Scholar 1869zitiert

I Das HTK-Book (in allen Version) bisher 6315 - seit 1993.

I Zitationen des HTK-Books seit 2015 rucklaufig.

I Kaldi ist aktuell das wahrscheinlich beliebteste ASR-Toolkit.

I In der aktuellsten Version sind verschiedenste Topologien undTrainingsalgorithmen fur ASR implementiert


70/87





Ubersicht Wortfehlerraten

Word-Error-Rate mit Kaldi auf eval2000 furSwitchboard-Trainingsdaten und Decoding mit FisherSprachmodell:

I TDNN: 11.6%

I 6 Layer mit 1024 Dim

I LSTM: 11.6%

I 3 Layer mit 1024 Cell-Dim, 256 Projection-Dim

I BiLSTM: 10.3%


71/87





Wortfehlerraten bei Chain-Training

Sogenanntes Chain-Training nach Povey u. a. (2016):I TDNN: 9.8%

I 7 Layer mit 625 Dim

I LSTM: 10.5%I 3 Layer mit 1024 Cell-Dim, 256 Projection-Dim

I Gemischte Topologie: 8.8%I 3 × TDNN-Layer + 1 LSTM-LayerI + 2 × TDNN-Layer + 1 LSTM-LayerI + 2 × TDNN-Layer + 1 LSTM-Layer


72/87





TDNN-LSTM-Model

Abbildung: Aufbau Chain-TDNN-LSTM-Model (Cheng u. a. (2017))Michael Gref Neuronale Netze in der modernen Spracherkennung

73/87




Connectionist Temporal Classification I

Klassische HMM-DNN Ansatze:

I DNNs ersetzt die Schatzung derEmissionswahrscheinlichkeiten der Tied-States fur diebeobachteten Features

I Zeitliche Modellierung erfolgt weiterhin durch HMMs(Ubergangswahrscheinlichkeiten)

I Wozu braucht man noch HMMs, wenn LSTMs eigenstandigZahlen und Zeit modellieren konnen?


74/87




Connectionist Temporal Classification II

I Bisher besprochene Art des Trainings minimiert ZielfunktionFrame-Weise (unabhangig von vorherigen und nachfolgendenOutput)

I Zielfunktion ungeeignet zum Training vonzusammenhangenden Zeitfolgen

I Graves u. a. (2006) stellen eine Zielfunktion vor, diestattdessen auf Klassifikation ganzer zusammenhangenderFolgen von Beobachtungen abzielt


75/87




Connectionist Temporal Classification III

LSTM wird nicht mehr als Abbildung der Gestalt nnet : RD → RN

aufgefasst sondern als

nnet :(RD)T → (

RN)T

(45)

fur T ∈ N als Lange einer Sequenz.CTC erlaubt dem Netz das Wiederholen einer Klassifikation sowiedas Einfugen eines blank label ε. Beispiel: (X, ε, ε, Y, Y, Y, Z, Z, ε)ist ein gultiger Pfad (X,Y, Z). Kein Fehler wird zuruckpropagiert.


76/87




Connectionist Temporal Classification IV

Abbildung: Framewise and CTC networks classifying a speech signal(Graves u. a. (2006))


77/87




Connectionist Temporal Classification V

I CTC vereinfacht das Training und Decoding deutlich!

I Training von GMM-HMMs und Anwendung vonForced-Alignment entfallt.

I CTC funktioniert nicht nur auf Phonem-Ebene sondern auchfur Grapheme und Worte!

I Problem: Es scheint, dass deutlich mehr Trainingsdatennotwendig sind und die WER i.d.R. etwas hoher ist als beivergleichbaren DNN-HMM Ansatzen.


78/87




Connectionist Temporal Classification VI

CTC erlaubt neue Ansatze von LSTMs zur Spracherkennung!

I Google (Soltau u. a. (2017)) hat ein Akustik-zu-WortCTC-LSTM trainiert, das die Wahrscheinlichkeit ganzer Worteschatzt

I Phonem-Lexikon wird nicht mehr benotigt.

I Sprachmodell ist optional anwendbar.

I Ohne Sprachmodell denkbar einfachstes Decoding moglich.

I Erreicht ohne Sprach-Modell 12% WER bei einem Vokabularvon 82.473 ganzen Worten

I Mit 125.000 Stunden Youtube-gecrawlten Trainingsdaten


79/87




Literatur I

[Bishop 2006] Bishop, Christopher M.: Pattern recognition andmachine learning. New York, NY : Springer, 2006 (Informationscience and statistics). – ISBN 978–0387–31073–2

[Cheng u. a. 2017] Cheng, Gaofeng ; Peddinti, Vijayaditya ;Povey, Daniel ; Manohar, Vimal ; Khudanpur, Sanjeev ;Yan, Yonghong: An Exploration of Dropout with LSTMs. In:Proc. Interspeech 2017, 2017, S. 1586–1590


80/87




Literatur II

[Gers u. Schmidhuber 2000] Gers, F. A. ; Schmidhuber, J.:Recurrent nets that time and count. In: Proceedings of theIEEE-INNS-ENNS International Joint Conference on NeuralNetworks. IJCNN 2000. Neural Computing: New Challenges andPerspectives for the New Millennium Bd. 3, 2000. – ISSN1098–7576, S. 189–194 vol.3

[Gers u. a. 2000] Gers, F. A. ; Schmidhuber, J. ; Cummins, F.:Learning to Forget: Continual Prediction with LSTM. In: NeuralComputation 12 (2000), Oct, Nr. 10, S. 2451–2471. – ISSN0899–7667


81/87




Literatur III

[Graves u. a. 2006] Graves, Alex ; Fernandez, Santiago ;Gomez, Faustino: Connectionist temporal classification:Labelling unsegmented sequence data with recurrent neuralnetworks. In: In Proceedings of the International Conference onMachine Learning, ICML 2006, 2006, S. 369–376

[Hochreiter u. Schmidhuber 1997] Hochreiter, Sepp ;Schmidhuber, Jurgen: Long Short-Term Memory. In: NeuralComputation 9 (1997), November, Nr. 8, S. 1735–1780. – ISSN0899–7667

[Huang u. a. 2014] Huang, Xuedong ; Baker, James ; Reddy,Raj: A Historical Perspective of Speech Recognition. 57 (2014),01, S. 94–103


82/87




Literatur IV

[Li u. a. 2017] Li, Bo ; Sainath, Tara N. ; Narayanan, Arun ;Caroselli, Joe ; Bacchiani, Michiel ; Misra, Ananya ;Shafran, Izhak ; Sak, Hasim ; Pundak, Golan ; Chin, Kean; Sim, Khe C. ; Weiss, Ron J. ; Wilson, Kevin W. ; Variani,Ehsan ; Kim, Chanwoo ; Siohan, Olivier ; Weintraub,Mitchel ; McDermott, Erik ; Rose, Richard ; Shannon,Matt: Acoustic Modeling for Google Home. In: Proc.Interspeech 2017, 2017, S. 399–403


83/87




Literatur V

[Peddinti u. a. 2015] Peddinti, Vijayaditya ; Povey, Daniel ;Khudanpur, Sanjeev: A time delay neural network architecturefor efficient modeling of long temporal contexts. In:INTERSPEECH 2015, 16th Annual Conference of theInternational Speech Communication Association, Dresden,Germany, September 6-10, 2015, 2015, S. 3214–3218

[Povey u. a. 2011] Povey, Daniel ; Ghoshal, Arnab ;Boulianne, Gilles ; Burget, Lukas ; Glembek, Ondrej ;Goel, Nagendra ; Hannemann, Mirko ; Motlicek, Petr ;Qian, Yanmin ; Schwarz, Petr ; Silovsky, Jan ; Stemmer,Georg ; Vesely, Karel: The Kaldi Speech Recognition Toolkit.


84/87




Literatur VI

In: IEEE 2011 Workshop on Automatic Speech Recognition andUnderstanding (2011)

[Povey u. a. 2016] Povey, Daniel ; Peddinti, Vijayaditya ;Galvez, Daniel ; Ghahremani, Pegah ; Manohar, Vimal ;Na, Xingyu ; Wang, Yiming ; Khudanpur, Sanjeev: PurelySequence-Trained Neural Networks for ASR Based onLattice-Free MMI. In: Interspeech 2016, 2016, S. 2751–2755

[Sak u. a. 2014] Sak, Hasim ; Senior, Andrew W. ; Beaufays,Francoise: Long Short-Term Memory Based Recurrent NeuralNetwork Architectures for Large Vocabulary Speech Recognition.In: CoRR abs/1402.1128 (2014)


85/87




Literatur VII

[Saon u. a. 2017] Saon, George ; Kurata, Gakuto ; Sercu, Tom; Audhkhasi, Kartik ; Thomas, Samuel ; Dimitriadis,Dimitrios ; Cui, Xiaodong ; Ramabhadran, Bhuvana ;Picheny, Michael ; Lim, Lynn-Li ; Roomi, Bergul ; Hall,Phil: English Conversational Telephone Speech Recognition byHumans and Machines. In: Proc. Interspeech 2017, 2017, S.132–136

[Schuster u. Paliwal 1997] Schuster, M. ; Paliwal, K. K.:Bidirectional recurrent neural networks. In: IEEE Transactionson Signal Processing 45 (1997), Nov, Nr. 11, S. 2673–2681. –ISSN 1053–587X


86/87




Literatur VIII

[Soltau u. a. 2017] Soltau, Hagen ; Liao, Hank ; Sak, Hasim:Neural Speech Recognizer: Acoustic-to-Word LSTM Model forLarge Vocabulary Speech Recognition. In: Proc. Interspeech2017, 2017, S. 3707–3711

[Stolcke u. Droppo 2017] Stolcke, Andreas ; Droppo, Jasha:Comparing Human and Machine Errors in Conversational SpeechTranscription. In: Proc. Interspeech 2017, 2017, S. 137–141


87/87




Literatur IX

[Waibel u. a. 1989] Waibel, A. ; Hanazawa, T. ; Hinton, G. ;Shikano, K. ; Lang, K. J.: Phoneme recognition usingtime-delay neural networks. In: IEEE Transactions on Acoustics,Speech, and Signal Processing 37 (1989), Mar, Nr. 3, S.328–339. http://dx.doi.org/10.1109/29.21701. – DOI10.1109/29.21701. – ISSN 0096–3518

[Yu u. Deng 2015] Yu, Dong ; Deng, Li: Automatic speechrecognition: A deep learning approach. London : Springer, 2015(Signals and Communication Technology). – ISBN978–1–4471–5778–6


http://dx.doi.org/10.1109/29.21701

Neuronale Netze in der modernen Spracherkennungdnt.kr.hsnr.de/ASR17/neuralnets_gref.pdf ·...

Documents

Transcript of Neuronale Netze in der modernen Spracherkennungdnt.kr.hsnr.de/ASR17/neuralnets_gref.pdf ·...