Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich...

33
KRIEG IM AETHER Vorlesungen an der Eidgenössischen Technischen Hochschule in Zürich im Wintersemester 1977/1978 Leitung: Abteilung für Übermittlungstruppen, Divisionär A. Guisolan Die menschliche Sprache: Digital analysiert und optisch dargestellt Referent: Dr. P. Meier Diese Vorlesung wurde durch die Stiftung HAMFU digitalisiert und als PDF Dokument für www.hamfu.ch aufbereitet.

Transcript of Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich...

Page 1: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

KRIEG IM AETHER

Vorlesungen an der Eidgenössischen Technischen Hochschule in Zürichim Wintersemester 1977/1978

Leitung: Abteilung für Übermittlungstruppen, Divisionär A. Guisolan

Die menschliche Sprache:Digital analysiert und optisch dargestellt

Referent: Dr. P. Meier

Diese Vorlesung wurde durch die Stiftung HAMFU digitalisiert und alsPDF Dokument für www.hamfu.ch aufbereitet.

Page 2: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 1

3-1

DIE MENSCHLICHE SPRACHEDIGITAL ANALYSIERT UND OPTISCH DARGESTELLT

Dr. P. Meier

Inhalt

1. Einleitung

2. Die menschliche Sprache: Merkmale und Informationsgehalt

3. Digitale Sprachverarbeitung: Anwendung und Grundlagen

3.1. Anwendungen der digitalen Sprachverarbeitung

3.2. Synthetische Sprache

3.3. Sprachanalyse

4. Bedeutung und Aussagekraft optischer Darstellungen der Sprache resp. von Sprachanalyse-Parametern

4.1. Grundlagen der optischen Darstellung der Sprache

4.2. Grautonbilder der menschlichen Sprache

5. Schlussfolgerungen

Abstrakt

Das Ziel dieses Vortrages-besteht darin, die Möglichkeiten der modernen digitalen Sprachanalyse-Metho-den aufzuzeigen. Der Schwerpunkt des Vortrages liegt in der Erläuterung und Präsentation optischer Dar-stell ungsmethoden der menschlichen Sprache.

1. Einleitung

Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile:

1- Die menschliche Sprache, wie sie sich ausgehend von ihrer psychologischen Bedeutung und ihreminformationstheoretischen Aspekt der maschinellen Verarbeitung anbietet.

2. Die Möglichkeiten und Anwendungen der digitalen Sprachverarbeitung: Es wird gezeigt, wie manausgehend von einem physikalischen Modell der Spracherzeugung die Sprache durch Analyse para-metrisieren kann und wie man dann mit diesen Parametern synthetische Sprache herstellt.

3- Die bildhafte Darstellung der Sprache oder deren Parameter: Betrachtet man den Menschen alsInformationsverarbeitungssystem, so findet man, dass der Input hauptsächlich aus Bildern undakustischen Signalen besteht, während der aktive Output vorwiegend über die Sprache erfolgt.

pür die Informationsverarbeitung sind Bilder das stärkste Mittel der menschlichen Vorstellung.Für Forschungsarbeiten auf dem Gebiet der digitalen Sprachverarbeitung ist deshalb die bild-hafte Darstellung der bearbeiteten Sprache für die Vorstellung ein unentbehrliches Werkzeug.Sie werden in diesem Vortrag einen Eindruck von den diesbezüglichen neuartigen Möglichkeitenunseres Sprachanalyse-Labors erhalten.

"Krieg im Aether", Folge XVII

Page 3: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 2

3-2

Auf Grund dieser Ueberlegung besteht das Ziel dieses Vortrages darin, Ihnen ein lebendiges Bildder Arbeitsmethoden und Anwendungen der digitalen Sprachverarbeitung zu vermitteln. Ich binsicher, dass Sie dabei eine neue Dimension im Wunderwerk der menschlichen Sprache entdeckenwerden. Ausgehend von der psychologischen Bedeutung der Sprache wollen wir uns deren zukünftigeRolle in der Technik ansehen.

2. Die menschliche Sprache

Je mehr man auf dem Gebiet der digitalen Sprachverarbeitung Fortschritte gemacht hat - Fortschrittein der Einbeziehung der Sprache in die Mensch-Maschine Beziehung - desto mehr zeigte es sich, dassman die Sprache nicht nur als akustisches Phänomen rein technisch betrachten kann: dies einerseitswegen ihrer Komplexität und anderseits, um diese neue Art, Maschinen zu steuern, menschlich zugestalten. Wir haben die Bedeutung der Sprache als Ausdrucksmittel schon hervorgehoben: Vom psy-chologischen Standpunkt aus kann die Sprache, gemäss dem Rhetoriker 0. Schellbach, als "Mittlersich innerlich offenbarender Bilder" gesehen werden.

Für deren informationstheoretische Aspekte sei auf die Arbeiten von Dreyfus, Ref. (1) verwiesen:

Merkmal E in he i t Sprache Hand

In format ionskapaz i tä t ( B i t / s e c ) 160 000 (16)

L inguis t ische Informat ion ( B i t / s e c ) 10

Phonetische Informat ion ( B i t / s e c ) 50

Entscheide / sec 16 ( 3 , 2 )

Mögliche Signale ( B i t ) 10 000

Spektren ( B i t ) 2 000

Dynamik ( B i t ) 7 000

Melodie ( B i t ) 1 000

Alphabet ( B i t ) 5

Tab. 1: Die informationstheoretischen Aspekte der menschlichen Sprache.

Page 4: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 3

Was der Mensch durch die Sprache ausdrückt sind "sich innerlich offenbarende Bilder":

Objektiv gesehen will der Sprechende Information vermitteln, Information, welche innerhalb der ange-nommenen Konventionen für den Empfänger sinnvoll ist. Quantifiziert man die akustische Informationder Sprache, so kommt man auf ca 160 kBit/sec - davon werden meistens nur die 10 bit/sec an 1ingui-stischer Information bewusst wahrgenommen. Was liegt nun alles zwischen den inneren Bildern und den10 bit/sec ?

Kurz gesagt der Mensch: seine individuelle Sprechweise, sein Gefühlszustand sowie die für dieVerständlichkeit auch unter schlechtesten Bedingungen notwendige Redundanz.

Mit diesen üeberlegungen sind wir auf die erste fundamentale Zielsetzung der digitalen Sprach-analyse gestossen.

Nämlich der Extraktion der je nach Anwendung erwünschten Informationskomponente (alsoz.B. Sprechercharakteristik oder phonetische Information) aus dem riesigen Datenflussvon 160 000 bit/sec.

Sie sehen in Tab. 1 den Vergleich der menschlichen Sprache mit der Hand beim Schreibmaschinen-schreiben. Der Datenfluss ist also beim Sprechen rund 10 000 mal grösser als beim Schreibma-schinenschreiben, die Entscheidungsgeschwindigkeit bei der Lautbildung ca 5 mal grösser als bei-der Wahl der Anschläge auf der Schreibmaschine. Beim Schreibmaschinenschreiben stehen ca 32 = 2Zeichen, also 5 Bit zur Verfügung, währenddem der menschliche Sprechapparat etwa 2 1 0 0 0 0 verschie-dene Laute produzieren kann. Im Vergleich mit dem Maschinenschreiben heisst dies nun, dass derMensch beim Sprechen quasi über 2000 Hände verfügt, die er allerdings nicht alle bewusst kontrol-lieren kann.

3. Digitale Sprachverarbeitung: Anwendung und Grundlagen

3.1. Anwendungen der digitalen Sprachverarbeitung

Bevor wir uns den Grundlagen der digitalen Signalverarbeitung zuwenden, möchte ich Ihnen einenUeberblick über deren Anwendungen geben und kurz darlegen, welche Bedeutung diese für uns haben:

1. Sprachübertragung : - Codierung

- Parametri sierung

- Verschlüsselung

- Verschleierung

2. Mensch - Maschine : - Sprach-Synthese

- Sprach-Erkennung

- Künstliche Sprache

3. Sicherheit : - Sprecher-Verifikation

- Emotionaler Zustand

- Ueberwachung

4. Gestörte Sprache : - Objektives Verständlichkeitsmass

- Diagnose

- Audiologie

- Künstliches Ohr

- Erhöhung der Sprachqualität

- Sprechertrennung

Tab. 2: Anwendungen der digitalen Sprachverarbeitung (siehe Ref. 2)

Im Kryptologie-Labor der AüEM arbeiten wir unter anderem auf dem Gebiet der Sprachverschleierung:

Wir wollen daher kurz auf die Problematik bei der Beschaffung von Sprachverschi eierungsgeräteneingehen. Wie bei jeder Beschaffung sind die Kosten für den Kauf und den Unterhalt und die opera-tionellen Anforderungen im Rahmen der technischen Möglichkeiten und der Entwicklungstendenzen zuberücksichtigen. Der wichtigste Faktor bei Sprachverschleierungsgeräten ist aber die Sicherheit,die sie gegen unbefugtes Abhören bieten; Fig. 2 gibt ein Bild dieser Probleme. Im weitern sei aufdie in diesem Gebiet nicht klassifizierte Literatur Ref. (4) - (10), (18) verwiesen.

Page 5: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 4

3

Si cherhei t

Bedrohung Kostengrenze

BeschaffungBet r ieb +Unterha l t

MinimaleAnforderungen Opera t ione l l e Anforderungen

V e rs tand! ichke i ts reduk t ion

Fig. 2: Kosten-Nutzen Analyse von Sprachverschleierungsgeräten.

Beim "objektiven Verständlichkeitsmass" geht es darum, den Einfluss von Uebertragungskanälen aufdie subjektiv empfundene Sprachqualität mit einem Gerät bestimmen zu können. Hier haben wir dieerste Software-Lösung der sich langsam durchsetzenden Methode des Enveloppen-Spektrums von Hout-gast und Steeneken Ref. (21) realisiert.

Bei schlechter Uebertragung kann es notwendig sein, Verfahren wie z.B. Herausfiltern von Neben-geräuschen zur Verbesserung der Sprachqualität anzuwenden. Ref. (3).

Bei der Codierung und Parametrisierung oder Vocodern geht es um die optimale digitale Sprachdar-stellung. Verschlüsselung wird für geheime Uebertragungen angewandt. Ein Funkkanal kann nachSprache, Sprecher oder Stichworten überwacht werden, Sprechertrennung kann bei gleichzeitigerAufnahme mehrerer Sprecher zur Verständlichkeit erforderlich sein.

Im Zusammenhang mit Sprechererkennung sei auf einige Unterscheidungsmerkmale wie Verifikation,Identifikation, kooperative- und nicht kooperative Sprecher, textabhängige/-unabhängige Er-kennung hingewiesen. Im weitern ist es von Bedeutung, ob die Verbindung Mensch-Maschine zumSystem gehört, und daher optimiert werden kann, oder ob ein Teil davon sich über das Telephon-netz abspielt. (Ref. 2, 18, 19).

Die folgenden Gebiete können in Zukunft für uns von Bedeutung sein: Es wird z.B. im Ausland da-ran gearbeitet, es Piloten zu ermöglichen, gewisse Funktionen mit ihrer Stimme zu steuern. Fürdiese Art Anwendungen der Spracherkennung möchte ich auf das kommerziell erhältliche Gerät vonEMI, ehemals Threshold Technology, hinweisen sowie auf die Arbeiten des schon erwähnten HerrnDreyfus in Genf. Herr Dreyfus hat Pionierarbeit in der Schaffung einer künstlichen, maschinen-gerechten Sprache geleistet.

Ferner sind am Biomedizinischen Institut der ETH Bestrebungen im Gange, diese modernen Sprachver-arbeitungs-Techniken bei sprachgestörten oder gehörgestörten Menschen anzuwenden. Ref. (24). Essoll auch Forscher geben, die versuchen,aus dem akustischen Signal auf den emotionellen Zustanddes Sprechers zu schliessen, z.B. im Sinne eines Lügendetektors. So soll die Rede Sadats vor demisraelischen Parlament in diesem Sinne analysiert worden sein.

Page 6: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 5

3-5

3.2. Synthetische Sprache

Wir rufen uns die Datenflut von 160'000 bit/sec in Erinnerung, welche akustisch in der Sprachevorhanden ist, und machen uns klar, dass wir bei der maschinellen Verarbeitung primär meist nuran den 50 bit/sec der phonetischen Information interessiert sind. Um zu dieser Datenreduktionvon 1:3200 zu kommen, benötigen wir ein möglichst einfaches physikalisches Model 1 der menschli-chen Spracherzeugung, dessen Parameter wir dann durch entsprechende Analysemethoden finden. DiesesVorgehen kann mit der Feature Selection, wie man sie allgemein bei Pattern Recognition Verfahrenanwendet, verglichen werden.

Mensch

Linear Prediction Modell

PULSGENERATOR

Fig. 3: Physikalisches Modell für die Spracherzeugung (Ref. 11, 12)

In Fig. 3 sehen Sie den menschlichen Spracherzeugungsapparat mit den beiden Elementen Stimmbänderund Stimmtrakt. Für dessen Simulation nehmen wir an, dass der Oberteil beim Sprechen unbeweglichbleibt. Dessen Form kann durch Röntgenaufnahmen bestimmt werden. Die Bewegung beim Sprechen er-folgt hauptsächlich mit der Zunge und den Lippen. Im Linear Prediction Modell werden die Stimm-bänder für stimmhafte Laute, also z.B. für die Vokale a, e etc. durch einen Pulsgenerator simu-liert. Dessen Frequenz wird Pitchfrequenz genannt. Für stimmlose Laute wie z.B. s wird auf einenRauschgenerator umgeschaltet.

Die Bewegungen des Stimmtraktes werden durch dieses aus 3 - 1 5 Zylindern variabler Durchmesserbestehende Modell simuliert. Zur Anschauung gebe ich Ihnen den etwas groben Vergleich mit einemAuspuffrohr, wo es ja darum geht, die innern Töne des Motors umweltfreundlich abzugeben. Siesehen, worauf ich hinaus will: Der Stimmtrakt wirkt als Filter, welcher die Laute formt.

Page 7: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 6

3

Wir wollen uns die Funktion der Stimmbänder genauer ansehen. Als Grundlage dient uns das folgen-de Tonbeispiel :

" Bundesrat Brugger führte aus, dass in der Schweiz der Arbeitgeber verantwortlich sei fürden Schutz der Arbeitnehmer und auch für den Schutz der Umwelt um eine Fabrik "

Aus diesem akustischen Signal haben wir die Pitchfrequenz durch eine Analyse auf unserem Sprach-analysator bestimmt, in Fig. 4 sehen Sie deren zeitlichen Verlauf.

P i t c h f r e q u e n z ( H z )

3 0 0 -

2 0 0 -

1 0 0 -

s t i m m l o s

. . .

• l

t ( s e c ) 10

Fig. 4: Pitchfrequenzvariation einer männlichen Stimme (M) erhalten aus der Analyse desakustischen Signales. Für die Synthese wurde der Pitchverlauf (W) genommen, waseine weibliche Stimme ergibt.

Wir haben nun diese Pitchfrequenzen mit 2.2 multipliziert und die Sprache damit wieder zusammen-gesetzt. Mit anderen Worten, wir haben dem männlichen Nachrichtensprecher weibliche Stimmbändereingesetzt.

In Ref. 20 sind ähnliche Experimente im Zusammenhang mit "Computer Musik" beschrieben. Die Be-deutung der Pitchfrequenz-Variation auf den natürlichen Klang der Sprache wurde dadurch demon-striert, dass die oben analysierte Stimme des Nachrichtensprechers mit einer konstanten Pitch-frequenz von 125 Hz synthetisiert wurde, was einen typischen mechanischen Klang der Stimme er-gibt.

Wir wenden uns nun der Stimmtraktänderung bei der Lautbildung zu:

Sie sehen in Fig. 5 die Form des Stimmtraktes zu verschiedenen Zeiten, wie sie aus der Analysedes akustischen Signals und mit dem aus Röntgenbildern bestimmten fixen Oberteil bestimmt wurde:

Die Stimmbänder erzeugen die Pitchfrequenz, und deren Oberwellen. Diese werden im Stimmtrakt ge-filtert, was bestimmte Laute ergibt.

Page 8: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 7

3-7

Fig. 5: Aus dem akustischen Signal berechnete Stimmtraktformen.

Die Berechnung dieser Stimmtraktformen geht von unserem Zylindermodell aus, dessen zeitlicheVariation Sie in Fig. 6 sehen.

Fig. 6: 3D-Darstellung der zeitlichen Variation des Stimmtrakt-Modelles (siehe Fig. 3).

Page 9: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 8

3-8

Mit diesen Vorstellungen wollen wir uns die Spracherzeugung anhand des Black-Box-Diagramres inFig. 7 etwas genauer ansehen:

SPRACH-OUTPUT

i \

STIMM-TRAKT

i \

STIMMQUELLE -

FREQUENZ

LUFTSTROM

Fig- 7: Schematische Darstellung der Spracherzeugung. (Ref. 25)

Bei einem stimmhaften Laut produziert der durch die Stimmbänder durchfliessende Luftstrom einakustisches Signal, das aus den Oberwellen der Pitchfrequenz besteht, was das unterste Spektrumergibt. Im Gegensatz dazu hätte ein stimmloser Laut ein rauschähnliches Spektrum.

Der Stimmtrakt wirkt als Filter, weicher für einen bestimmten Laut die mittlere Charakteristikhaben kann. Die mit Fl -F3 bezeichneten Maxima werden Formanten genannt: diese bestimmen imWesentlichen, wie wir einen Laut hören. Daraus resultiiFTdàTTberste Sprachspektrum in Fig 7

Page 10: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 9

3-9

Zum Verständnis der Formantbildung vergleichen wir in Fig. 8 den Stimmtrakt mit einer offenenPfeife. Je nach Form kommen gewisse Oberwellen stärker durch, was die Formant-Struktur desSprachspektrums ergibt. Die Stellen der Knotenbildung sind markiert.

Fig. 8: Oberwellen-Bildung im Stimmtrakt. (Ref. 251

Page 11: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 10

3

In Fig. 9 wollen wir uns noch den Zusammenhang zwischen Formantfrequenzen und Sprachlauten an-sehen:

2400 Hz

1800

F2

1 2 0 0 ^

600

0

1000 2000 3000 4000FREQUENZ (HERTZ)

5000

HEED

HARD*

200 400 600 800 Hz•F1

R g - .9: Seperation der Laute "e" in HEED und "a" in HARD in der Ebene Formant Fl - Formant F2(Ref. 24)

In Fig. 9 sehen Sie den ersten Ansatz, den man bei der automatischen Spracherkennunq qewöhnlichgemacht hat. 3 3

Dazu ist zu bemerken, dass die Lautbestimmung der kontinuierlichen Sprache wesentlich schwierigerist, als es in diesem Bild scheint, weil die Sprachlaute sich auf Grund des akustischen Signalsnicht sauber trennen lassen, da sie ineinander liberf 1 iessen.

Page 12: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 11

2

Der Stand der heutigen Forschung ist in Ref. 2 beschrieben. In Fig. 10 ist angedeutet, wie man dieFormanten aus den durch Analyse bestimmten Filtertraktkurven bestimmt, Fig. 11 zeigt die zeit-liche Veränderung dieser Filterkurven.

F, W ü l i i Hft iL J '.11 . Mf | M1 / 1 V i , k Ji

J11\ J|]W M a s z S 4—

till. 1 jy|' [W^ M i M 1 i1 1 1 Ü F 4 ' ÏW f r I M

f m<| 1i

0 1 2 3 ( k H z )

Fig. 10: Frequenzspektrum mit Stimmtraktfilter.

Page 13: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 12

3 - 1 2

Fig. 11: 3D-Darstel lung der Stimmtraktfilter-Kurven, welche die zeitliche Veränderungder Formanten (Fl, F2, F3) zeigt.

Für die folgende Diskussion möchte ich Ihnen erklären, was das sogenannte Fehler-Signal ist. Fürdie mathematische Formulierung verweise ich auf den nachfolgenden Vortrag von Herrn Dr. Horvath.

Das Fehler-Signal entspricht in folgender Weise dem durch die Stimmbänder erzeugten Signal: Regtman der dem Stimmtraktfilter entsprechenden digitalen Filter an, so entsteht das ursprünglicheSprach-Signal. Mit andern Worten, es existiert ein mathematisches Verfahren, Linear Prediction ge-nannt, durch welches das akustische Signal in das den Stimmbändern entsprechende Fehler-Signalund der dem Stimmtrakt entsprechenden Stimmtraktfilter zerlegt werden kann.

Page 14: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 13

3 - 1 3

In Fig. 12 sehen wir uns einen Ausschnitt der Zeitfunktion des obigen Sprachbeispiels an undvergleichen dies mit dem entsprechenden synthetischen Sprachsignal und den Fehlersignal; inFig. 12b wurde zudem der Effekt der diskutierten Pitcherhöhuna auf das Zeit-Signal dargestellt.

v / v - > — • A . .. • „ * -• » ^ y v ^ - y v ^ v - - • —

Fig. 12: Zeitsignalausschnitte.

a) Orginal-Sprachsignal

b) Synthetisches Sprachsignal mit einer um 2.2 erhöhten Pitchfrequenz

c) Synthetisches Sprachsignal

d) Fehlersignal

Page 15: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 14

3 - 1 4

Für diese Fälle wurden Tonbeispiele gegeben. Anhand der in Ref. 22 gegebenen Schallplatte wurdeder heutige Stand der Sprachanalyse-Synthese-Technik mit den um 1944 erfolgten Anfängen in diesemGebiet verglichen.

Man hörte also den Fortschritt in der synthetischen Sprachherstellung. Nachdem wir in der Lagesind, synthetische Sprache zu erzeugen, können wir auch deren Komponenten getrennt anhören oderdiese gezielt verändern (siehe Fig. 3).

Ich möchte Ihnen auch noch ein Beispiel geben, bei dem die Stimmtrakt-Parameter modifiziert wur-den. Wir sehen uns diese Modifikation zuerst anhand von Fig. 13 an:

Or ig ina i-S t immtrak t

Sie sehen einen Ausschnitt des Original-Signals sowie das modifizierte Signal. Wie sie sehen,sind die Zylinder 2-5 starr, was einem Sprecher entspricht, bei dem der vordere Teil derZunge steif ist.

Page 16: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 15

3 - 1 5

Was lehren uns nun diese Beispiele:

1) Rufen wir uns das Fehlersignal (Fig. 12) nochmals in Erinnerung, so sehen wir, dass eseigentlich sehr wenig mit dem Sprachsignal gemein hat. Dass wir es trotzdem noch einiger-massen verstanden haben, zeigt die bis heute noch nicht nachvollziehbare Fähigkeit desmenschlichen Gehörsinnes.

3.3.

Bei der Diskussion von Fig. 3 haben wir unser LP-Modell des Stimmtraktes mit einem Auspuffverglichen. In diesem groben Vergleich entspricht also das Fehler-Signal dem Motorengeräuschohne Auspuff.

2) Das Stimmtrakt-modifizierte Signal unterschied sich nur unwesentlich vom nicht modifiziertenSignal, trotzdem hörte man aber einen deutlichen Unterschied. Das heisst nun, dass das aku-stische Sprachsignal sehr wenig über das subjektive Gehörempfinden aussagt - ein weitererGrund, warum es wichtig ist, Bilder aus der Sprache machen zu können und zwar Bilder, welchee m e n Zusammenhang mit dem subjektiven Gehörempfinden haben. Solche Bilder werden z.B. alsFeedback bei Therapiebehandlungen von sprachgeschädigten Menschen angewandt.

Ich habe Ihnen nun die Möglichkeiten der Herstellung von künstlicher Sprache demonstriert. Ichwerde nun noch etwas Uber das Wie und die Analyse zur Bestimmung der Syntheseparameter sagenHier möchte ich aber auf den nächsten "Krieg im Aether"-Vortrag von Herrn Dr. Horvath hinweisen,w o d l e theoretischen Aspekte und die praktische Realisierung von Sprachanalyse/synthese behandeltwerden. Ich mochte hier nur soweit gehen, wie es zum Verständnis der im letzten Teil dieses Vor-trages zu behandelnden Bilder der Sprache erforderlich ist.

Sprachanalyse

Ich zeige Ihnen nun in Fig. 14 die drei Schritte, die zur digitalen Sprachanalyse fuhren:

Analog-Signal

Z e i t ( t )

s(kT) =

Q-s

s(k )

h~T(ms)

IP1

D i g i t a l i s i e r u n g

n rll.t., j î î .

s (n -2 )

J *

.tîttt.

s(n-M)

s ( n - l )

p ( n ) J

p ms (n -3 )

> Z e i t (kT)

Fig. 14: Digitale Sprachverarbeitung. (Ref. 12)

Page 17: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 16

3-16

Wir gehen von einem beliebig langen akustischen Sprachsignal aus, welches als eine zeitlichkontinuierlich variierende Spannung, also als Analog-Signal vom Computer zu verarbeiten ist.Ein Computer kann aber nur eine beschränkte Menge von Zahlen verarbeiten, weshalb wir in einemersten Schritt einen endlichen Ausschnitt aus dem Analog-Signal, im folgenden Frame genannt, aus-wählen müssen. In einem zweiten Schritt wird dieses Frame in die Zahl en S(n) verwandelt; S(n)ist dabei die Spannung zur Zeit nT, wobei V t die Abtastfrequenz ist. Diesen Vorgang nennt manDigitalisierung. Im dritten Schritt können wir dann mit diesen Zahlen S(n) digitale Signal-analysemethoden ausführen und dann z.B. die so erhaltenen Zahlen wieder in ein Analog-Signalverwandeln, um es anzuhören, oder um daraus Grauwerte für ein Bild der Sprache zu bestimmen.

In Fig. 15 erhalten Sie einen Eindruck, welche Software-Struktur es braucht, um diese drei Schrit-te interaktiv durchführen zu können. Es handelt sich hier um eine Uebersicht der Befehlsstruk-tür des ILS, d.h. des Interactive Laboratory System, welches wir von Speech Communication ResearchLaboratory in Santa Barbara USA übernehmen konnten. Diese ursprünglich für RSX (DEC-Betriebssystem)geschriebene Software haben wir unter beträchtlichem Aufwand auf RT 11 adaptiert. Mit einem Soft-ware-Management-System ermöglichten wir die Anpassung an die verschiedenen DEC-Hardware-Systemesowie an die Time Data Software (TSL) und der dazugehörigen Hardware. Wir haben dieses ca. 20 Mann-jahre umfassende Software-Paket unserem Time Data PDP 11/35-Sprachanalysator angepasst. Die wichtig-sten Elemente sind herausgehoben: wir haben Programme für Analog Input und Output, zur Segmentierung,zur Sprachanalyse und -synthese, statische Verfahren, Klassifikations-Algorithmen z.B. für Sprach-erkennung und, was sehr wichtig ist, interaktive Display-Programme.

C O M M O NF I L E

F I L T E R P R I N T E R

E S . : F I : ̂ ; R A

/ / / a x x x * >

P t W L

A N A L Y S I SF I L E

L A B E LF I L E

R E C O R DF I L E

C R , M P

; * M O * M R * 0P R I N T E RD I S P L A Y *

C U R S O RH a r d

C o p yV A v K K . P L

E L R ̂ A n a l y s i s = | F o r m a n tp A n a I y s i s p ^ ^ ^ e g m e p t ' a t l ̂ ̂ ' é ó l u ̂ ̂ s é l e ' c t t ̂

« l l l i M I É i l i i l i i l i l f i i 1•Filtering* t i l t Modificdtion.ïProcessirïgï List.°.°°: : : : : : : : i : : i t : î

Fig. 15: Struktur der ILS Befehle

Page 18: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 17

3-17

Die Input/Output Struktur des ILS Paketes und dessen Programme und Subroutinen ermöglichen aufdem Gebiet der digitalen Signalanalyse eine "integrierte Programmierung". Dieser Ausdruck istim Sinne der integrierten Schaltungen in der Elektronik zu verstehen, d.h. für ein neues, nichtdurch ILS abgedecktes Problem kann meistens schnell eine Lösung durch Zusammenfügen von vor-handenen Programmteilen gefunden werden.

Erläuterungen zu Fig. 15: Anwendung des ILS

1. Sprach-Analyse

Linear Prediction A :

AC :

AP :

VA :

PA :

SI :

ES :

RA :

Display FD :

F :

SP :

AR :

FP :

X :

VT :

CP :

Formant Analysis KK :

RS :

FT :

FU :

Autocorrelation Method

Covariance Method

A with Pitch Extraction

Variable Window Using Covariance Method

Pitch Synchronous Analysis

Pitch Extraction Using SIFT Algorithm

Error Signal Using STREAK Algorithm

Residue Analysis (autocorrelation or covariance)

Frequency Spectrum

Linear Prediction Spectrum

3D-Display of Linear Prediction Spectrum

Area Function Plot

3D-Display of Area Functions

Inverse Filter

Vocal Tract Plot

Cepstrum Plot

Spectral Peak Processing

Root Solving Formant Finder

Tracker Algorithm I

Tracker Algorithm II

2. Sprach-Synthese

SN : Synthesis from the Reflection Coefficients

PN : Pitch Synchronous Synthesis

3. Segmentation

CL : Cursor Label for Pitch Synchronous Analysis

LB : Label a Segment

C : Cursor

SL : Sort Label Files

M : Move Frames

T : Transfer Frames

TT : Transfer Speech Segments with or without Labeling

Page 19: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 18

3 - 1 8

Verarbeitung der Speech Files

MO : Modification of Frames

XP : Zero Insertion for Filtering

RV : Reversal of Data (for non-casual filtering)

ST : Saturation Test

TF : Generation of Test Signal, Filter Curve Plotting GR : Grid

FI : Digital Filtering EF : Elliptic Filter Design

LF : Linear Phase Filter Design

NS : Noise Simulation

Display der ResultateDP Display Parameters from Analysis File (DG : with a grid)

DR Display Records

PL Record Plot Program

HI Histograms from Record File

D : Display Frames

ER Erase

CO Hardcopy ME : Print Message

LR List Records

P : List Frames

LL List Label File RL : Read Label

Statistik

Feature Selection Q : Analysis and Feature Extraction from Label File

PG : Transfer of Pitch and Gain into Record File

DF : Distance Finder

DI : Distance Measure from Frame to Frame

Statistical Analysis SM : Statistics of Records

CS : Statistics of Speech

XT : Find Extremes

PC : Principal Component Analysis

DA : Discriminant Analysis

Sorting SE : Sort Records by Environmental Code

SL : Sort Label File

CIassification B : Euclidian Pattern Classification

VD : Variable Distance Threshold

BY : Bayes Classification

Analysen- und I/O-Parameter-Organisation

V : Verify Analysis Conditions

CT : Modify Context

HE : Modify Length of File Header

SC : Modify Sector Number

S : Modify Sample Frequency

AS : Assign Logical Unit Number

MP : Modify Parameters in Analysis or Record File

Page 20: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 19

3

8. File-Organisation

ILS : Initialise ILS Common File

ID : Initialise Data in Common Area

W : Select, Create, Delete WD Files

WL : Select a Label File

0 : Open File for Records

I : Initialise File for Analysis

UP : Unlock File

CR : Convert Record Data

MO : Modify ILS Files

MR : Move Records

Auf was hin analysieren wir nun die menschliche Sprache? Eine Antwort ist: auf die zur Sprach-synthese notwendigen Parameter.

Sie sehen in Fig. 16 nochmals ein Black-Box-Diagramm für die Sprach-Synthese und zwar in einerForm, wie sie für unsere Tonbeispiele auf dem Computer realisiert wurde. Sie sehen den Fulsgene-rator und den Rauschgenerator zur Simulation der Stimmbänder, den stimmhaft/stimmlos-Schalterund das digitale Stimmtrakt-Filter. Die Parameter dieses Systems sind:

- Stimmhaft / Stimmlos-Schalter

- Pitch-Frequenz

- Verstärkungsfaktor für die Lautstärke G

- Filterkoeffizienten a.

• : Frequenzbereich b: Zeitbereich

Fig. 16: Diskrete Sprachsynthese. (Ref. 12)

Bekanntlich arbeiten digitale Filter mit einer Rückführung des verzögerten Signals, wie hier an-gedeutet. Darin können wir die Parallele zu unserem mechanischen Auspuff-Modell des Stimmtraktessehen: an den Seitenwänden der Zylinder werden ja die Schallwellen reflektiert, was einer aku-stischen Rückführung entspricht. ~ ~

Wir sind am Anfang des Vortrages auf die erste Zielsetzung der digitalen Sprachanalyse gestossen,nämlich der Extraktion der gewünschten Informationskomponente. Ich habe Ihnen soeben die zweiteZielsetzung klargemacht - sie besteht darin, aus dem akustischen Sprachsignal die genannten-

Synthese-Parameter zu finden. Hier existieren verschiedene Theorien und noch viele ungelösteProbleme, die zum Teil, wie eingangs erwähnt wurde, nur in einem umfassenden Vorstellungsbildder Sprache gelöst werden können.

Page 21: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 20

3 - 2 0

Sie sehen, wir kommen jetzt zu Bildern, welche die genannten Ziel Setzungen klar machen sollenund welche zeigen sollen, wie gut mit gewissen Methoden und Theorien diese Ziele verwirklichtwerden können. Zu deren Verständnis werden wir uns kurz ansehen, wie man aus den in Zahlen ver-wandelten akustischen Signalen Bilder macht.

4. Bedeutung und Aussagekraft optischer Darstellungen der Sprache resp. von Sprachanalyse-Parametern

4.1. Grundlagen der optischen Darstellung der Sprache

Die Umwandlung der digitalisierten Werte Sn in die Grauw.erte eines Streifens eines "Sprachbildes"erfolgt in drei Schritten, welche in Fig. 17 ersichtlich sind.

i . i Win dow in g , i T r a n s fo r m at i o ni S n l P re emp h as i s ! X n l

H a m m i n g W i n d o w : x'n = sn 0.54 + 0.46 cos

P r e e m p h a s i s : x n = x n"cx ' n 1 ; ce(o,l)

T ransformat ionen

Fourier:N - 1 , N

ym = 2 xn exp C- j2 j tmn/N 5 m = 0,1,... ,-̂ rn = 0 ^

ym = DFT xn

W alsh -Four ier : ym =

Ceps t rum: Y m =

ï xn [ca l Cm,n) + j sal (m,n ) ]

DFT [ log j DFT [xn] |]

Autokorrelat ion : ym =N-12 xn xr

n= 0m = 0,1. . . N-1

Fig. 17: Umwandlung eines Sprachsignals S n in Grauwerte y

1. Signalaufbereitung: Ich gebe Ihnen hier zwei Beispiele, wie sie im Zusammenhang mit derFourier-Transformation meistens angewendet werden.

- Um mit der diskreten Fourier-Transformation (DFT) des Sprach-Frames ein möglichst derFiltrierung entsprechendes Resultat zu erhalten, wird wegen dem Abtasttheorem das Framemit einer Fensterfunktion, z.B. dem Hamming Window, gewichtet.

- Um die Abstrahlungscharakteristik der Sprache z.B. bei der Berechnung der Stimmtraktform zukompensieren, wird eine Aufbereitung durch Preemphasis angewandt. Für c = 1 entspricht dieseiner Differenzierung im Zeitbereich, was einer linearen Anhebung der höheren Frequenzenim Frequenzbereich entspricht.

Page 22: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 21

3 - 2 1

2. Wird mit dem aufbereiteten Signal eine Transformation durchgeführt. Dabei werden meistensdie sich schnell ändernden Signalwerte S n in sich langsamer ändernde Parameter Ym transformiert.Zum Beispiel verändert sich die Pitchfrequenz oder der Stimmtraktfilter nicht so schnell wie

das Sprach-Signal.

3. Wird jedem Y-Wert ein Grauwert an der entsprechenden Stelle im Bild zugeordnet.

Wir sehen uns in Fig. 17 noch einige für die Sprachanalyse übliche Transformationen an:Fourier : entspricht im Analogen der Zerlegung in die Frequenzkomponenten

durch Filterung. (Ref. 14)

Walsh : Statt sin/cos Eigenfunktionen wird ein orthogonales System von0/1 Funktionen verwendet. Dies hat den Vorteil, dass bei derBerechnung nur Additionen auftreten. (Ref. 15)

Cepstrum : Indem man von der Fourier-Transformation die Fourier-Trans-formation macht, bekommt man die periodische Struktur desSprach-Spektrums, die durch das Logarithmieren noch hervor-gehoben wird. Rufen wir uns in Erinnerung, (Fig. 7), dass fürstimmhafte Laute das Sprachspektrum aus den Oberwellen derPitch-Frequenz besteht, so erkennen wir, dass die Cepstrum-Transformation zur Pitch-Bestimmung führt. Der Logarithmushebt die Pitch-Periode deutlich hervor. (Ref. 16)

Autokorrelation : Wir haben gesehen, dass bei stimmhaften Lauten sich die Sprach-signale pitchperiodisch sehr ähnlich sind, d.h. die Autokorre-lation bei einer Verschiebung m, welche der Pitchperiode ent-spricht, ist hoch. Wir bekommen aber auch hohe Werte von denPitch-Oberwellen, weshalb die Pitchbestimmung mit der Auto-korrelationsmethode nicht immer eindeutig ist. (Ref. 17)

In Fig. 18a sehen Sie ein Sprachsignal-Frame, Fig. 18b zeigt dessen Gewichtung mit einem Hamming-Window. In Fig. 18c sehen Sie dessen Fourier-Transformation, Fig. 18d zeigt die Fourier-Transfor-mation des mit Preemphasis aufbereiteten Signales: Sie sehen die Anhebung der hohen Frequenzen,Fig. 18e zeigt das Cepstrum, woraus Sie deutlich die Pitchperiode ablesen können und in Fig. 18fsehen Sie noch die Autokorrelation. Fig. 18g zeigt die Walsh-Hadamard Transformation; es bestehteine gewisse Aehnlichkeit zur Fourier-Transformation (Fig. 18c).

Page 23: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 22

3 - 2 2

a: S p ra ch s ig na l -F ra me

b : Gewichtung mitHamm ing - Window

- ^ A A

Vi AA/i i i / \ / \ _A "i •

V r v vV \\ /yi \ j v v - Z e i :

c : Four ier -T rans format iondes Frames inFig. 18 b

d : F o ur ie r - T r an s fo r ma t i o nmit Preemp hasi s

e : C e ps t r u m

f : Autokor relat ion des

Frames in Fig. 18a

g : W a l s h - H a d a m a r d -T ransformat ion ( v e r -g le ichbar mit F ig. 18 c ) 1 r

Frequenz

Fig. 18: zeigt ein Sprachsi gnal-Fra me m i t seinen diversen Trans form atio nen

Page 24: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 23

3 - 2 3

Die Umwandlung der so transformierten Sprachsignal-Frames in die Grauwerte des entsprechendenStreifens im gewünschten Bild (z.B. Fig. 20) erfolgt nach der bei Bell Lab entwickelten Methode(Ref. 13, Fig. 19): dabei wird eine 8x8 Matrix über die berechneten Grauwerte gelegt, ein Ver-gleich mit den Schwellwerten der Matrix gibt den Entscheid, ob ein bestimmter Punkt schwarz oderweiss ist. Diese Methode hat den grossen Vorteil, dass durch die Aenderung dieser Schwellwert-matrix die Grauwertzuteilung verändert werden kann. Ein interaktives Programm ermöglicht es uns,auf Grund der Verteilung der transformierten Werte, durch Modifikation dieser Schwellwertmatrixjede gewünschte Grauwertverteilung zu erhalten, um so eine optimale Bilddarstellung zu erreichen.Die Bilder wurden auf einem Varian Statos 3111 hergestellt, die Auflösung beträgt 100 Punkte/Inch,d.h. ca. 4 Punkte/mm.

Grauwerte

48 47 5 27 52 53 53 52 52 52 53 5312 14 32 9 51 53 53 52 52 52 53 548 39 51 21 28 52 53 53 53 53 53 54

35 15 53 36 8 48 53 53 53 53 54 5450 14 37 51 20 29 52 52 53 53 54 5453 36 14 50 35 8 49 52 53 53 53 5353 51 20 35 51 20 28 52 53 53 53 5353 52 40 20 52 24 9 49 52 52 53 5253 52 51 12 44 8 3 30 52 52 52 5253 53 52 34 4 4 3 14 50 52 53 5353 53 53 48 5 45 38 8 45 53 54 5354 54 53 52 20 33 53 31 28 53 54 53

Schwel lwer tmat r ix

0 32 8 40 2 34 10 42 0 32 8 4048 16 56 24 50 18 58 26 48 16 56 24

12 44 4 36 14 46 6 38 12 44 4 3660 28 52 20 62 30 54 22 60 28 52 203 35 11 43 1 33 9 41 3 35 11 4351 19 59 27 49 17 57 25 51 19 59 27

15 47 7 39 13 45 5 37 15 47 7 39

63 31 55 23 61 29 53 21 63 31 55 230 32 8 40 2 34 10 42 0 32 8 4048 16 56 24 50 18 58 26 48 16 56 24

12 44 4 36 14 46 6 38 12 44 4 36

60 28 52 20 62 30 54 22 60 28 52 20

• •

C \Vergleich

Grautonb i ld

Fig. 19: Grauwertzuteilung mit Hilfe einer periodisch angewandten 8x8 Matrix, was die Grauton-stufen 0, 1, 2, , 6 4 ergibt. (Ref. 13)

Page 25: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 24

3 - 2 4

2. Grautonbi1 der der menschlichen Sprache

Wir wollen uns jetzt die Grautonbilder der besprochenen Transformationen ansehen und etwas Uberdie Aussagekraft solcher Bilder sagen. In Fig. 20 sehen Sie ein durch Fourier-Transformation ent-standenes Bild unserer bekannten Sprachprobe; Sie sehen darin die besprochenen Merkmale dermenschlichen Sprache.

Fig. 20: Fouriertransformation (FFT) der Sprachprobe "Bundesrat Brugger führte aus, dass in derSchweiz ...". Die entsprechenden Vokale sind auf der horizontalen Zeitachse angegeben.P = Pitchfrequenz, PO = Pitchoberwellenstruktur bei stimmhaften Lauten, Fl, F2 = Fre-quenzverlauf der ersten beiden Formanten.

Page 26: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 25

4 - 2 5

In Fig. 21 sehen Sie einen Vergleich mit den bisher üblichen Sonogrammen. Der zugrundeliegendeText ist: "Orion von Nora ". Weil die Sonogramme mit einem analogen Gerät gemacht werden,das einen analogen Filter enthält, dessen Frequenz verändert wird, ist der Signalausschnitt be-schränkt und es muss ein Kompromiss zwischen Zeit- und Frequenzauflösung getroffen werden. Beider Computeranalyse fallen diese Einschränkungen dahin und zudem kann jede beliebige Transfor-mation angewendet werden. '

Fl'g- 2 1 : Vergleich zwischen mit einem Sonograph (Ref. 23) hergestellten Sonogramm und einem aufdem Computer hergestellten Grautonbild der Fouriertransformation.

Page 27: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 26

4 - 2 6

In Fig. 22 sehen wir uns den durch Analyse bestimmten Stimmtraktfilter an. Im Vergleich zum Fourier-Spektrum fehlt hier die Pitch-Oberwellen-Struktur und die Formanten sind deutlicher sichtbar.

S T f M M T R A K T - F I L T E RnrU

1sec JR. O V V

- 2

-1

2

-1

• -î. s 'T^ - ,

Fig. 22: Grautonbild des Stimmtraktfilters im Vergleich zur Fourier-Transformation.

Fig. 23 gibt einen Vergleich der Walsh-Hadamard-Transformation mit der Fourier-Transformation.Eine gewisse Aehnlichkeit ist erkennbar, die Walsh-Transformation gibt aber die charakterischenSprachmerkmale nur schlecht wieder.

Fig. 23: Vergleich zwischen Walsh-Hadamard- und Fouriertransformation.

Page 28: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 27

4 - 2 7

Wir wenden uns jetzt der Problematik der Pitchbestimmung zu und sehen uns in Fig. 24 das Grauton-bild der Autokorrelation an. Sie sehen, dass die Pitch-Bestimmung wegen den Oberwellen nicht immerganz eindeutig ist. Deshalb sehen wir uns in Fig. 25 die Autokorrelation des Fehler-Signales an.

Fig. 24: Autokorrelation der Sprachprobe von Fig. 20. Die Grauzonen entsprechen einer kleinenAutokorrelation A ( t ) ~ o , was stimmlosen (d.h. rauschähnlichen) Lauten entspricht.Weiss entspricht einem A ( t ) - = o , schwarz einem A (t )

Wir haben in Kap. 3.2. festgestellt, dass das Fehler-Signal dem durch die Stimmbänder erzeugtenakustischen Signal (Fig. 12) entspricht, welches also für stimmhafte Laute vor allem aus der Pitch-frequenz besteht. Die Autokorrelation dieses Signales gibt daher eine eindeutige Pitchbestimmung,wie das in Fig. 25 gezeigt ist. (siehe Markierungspfeile)

Fig. 25: Autokorrelation des Fehler-Signales im Vergleich zur Autokorrelation des Sprach-Signales.

Page 29: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 28

4 - 2 8

Und als weitere Methode der Pitchbestimmung zeige ich Ihnen in Fig. 26 ein Cepstrum. Der Aufwandzur Berechnung des Cepstrum ist relativ gross, dafür erhält man eine gute Pitchbestimmung"

FigJL__26: Pitchbestimmung mit der Cepstrum-Methode: Das für stimmhafte Laute der Pitchperiodeentsprechende Maximum ist mit einem Pfeil markiert.

Page 30: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 29

4 - 2 9

Schliesslich wollen wir in Fig. 27 noch natürliche mit synthetischer Sprache vergleichen: Sie sehendeutlich, dass die Pitch-Oberwellen-Struktur bei der synthetischen Sprache klarer ist, wie das jaaus der Synthese-Prozedur zu erwarten ist. Bei der Optimierung von Vocodern sind solche Bilder einnützliches Hilfsmittel, um den Einfluss der Parameter-Codierung auf die synthetische Sprache ab-zuschätzen.

• M M

Fig- 27: Vergleich der synthetischen Sprache (oben) mit der natürlichen Sprache (gleicher Aus-schnitt wie in Fig. 20). Die Pitchoberwellenstruktur (PO) ist bei der synthetischenSprache ausgeprägter.

Abschliessend sei noch darauf hingewiesen, dass die totale Analysezeit (inkl. Bildumwandlung nachFig. 19) für ein A4 Bild (768 x 1000 Punkte), welches 2.5 sec Sprache entspricht ca. 14 Minutenbeträgt.

Page 31: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 30

4 - 3 0

Schlussfolgerungen

Mit dieser Grautonbilder-Serie haben wir zusätzlich zur bisher üblichen Sonogrammdarstellung einigeneuartige Darstellungsmöglichkeiten der menschlichen Sprache kennengelernt; daraus möchte ich nunmeine erste Schlussfolgerung ableiten:

- In der Kriminalistik spricht man im Zusammenhang mit Sprecher-Identifikation in Analogie zu"finger prints" von "voice prints", womit Sonogramme gemeint sind. Ueber deren Wert entstandbei der Ende Juli in Oxford stattgefundenen "2nd International Conference on Crime Countermeasures"(Ref. 18) eine heftige Diskussion, weil einige US-Staaten die Voice Prints vor Gericht anerkennen.

Dabei entstand die Idee, mit unseren Möglichkeiten weitere Darstellungsarten, so wie ich Sie Ihnenvorgeführt habe, zu entwickeln. Nach meiner Meinung muss aber auf diesem Gebiet noch sehr vielArbeit geleistet werden, bevor man Sprecher-Identifikation in diesem Rahmen vertreten kann; einVergleich mit Fingerabdrücken scheint mir wegen der Komplexität und der Veränderlichkeit dermenschlichen Sprache nicht angebracht. In diesem Zusammenhang möchte ich auf den fortgeschrittenenStand der Arbeiten im Phi 1ips-Forschungslaboratorium in Hamburg hinweisen, wo ein System für dieautomatische Sprecher-Verifikation in Erprobung steht.

- Die zweite Schlussfolgerung lässt sich aus dem präsentierten Material herauslesen:

Forschungsarbeiten auf dem Gebiet der digitalen Sprachverarbeitung sind nur auf der Basis desheutigen schon hohen Standes der Forschung und mit einer entsprechenden Hard- und Software sinn-voll. Dies bedingt eine enge Koordination und Zusammenarbeit der auf diesem Gebiet tätigenForschungsgruppen. In den USA ist dies in idealer Weise durch das ARPA-Net gegeben. Das erwähnteILS stellt eine solche Software-Basis dar, die uns den Anschluss an die internationale Forschungermöglicht hat.

- Wie ist nun die Situation in der Schweiz?Mein persönlicher Eindruck ist, dass in der Schweizer Industrie schon früh, d.h. in einer Zeit,als die Technologie eigentlich noch nicht so recht reif war für die digitale Sprachverarbeitung,mit guten Ideen in diesem Gebiet begonnen wurde.

Angesichts der steigenden Bedeutung der digitalen Sprachverarbeitung und der enormen Anstrengun-gen, welche hier im Ausland unternommen werden, scheint es mir, dass in der Schweiz eine bessereKoordination und Zusammenarbeit wünschenswert wäre. Diesbezügliche Bestrebungen sind im Gangeund die AUEM wird mit ihren Möglichkeiten ihren Beitrag dazu leisten. Zum Schluss danke ich allen,die bei der Gestaltung und Technik zu diesem Vortrag mitgeholfen haben, ein besonderer Dank giltDr. H. Wakita vom Speech Communications Research Laboratory in Santa Barbara (USA) für seine Be-mühungen bei unserer Uebernahme der ILS-Software und Herrn Dr. E. Bunge vom Philips-Forschungs-laboratorium in Hamburg für den wertvollen Informations- und Programmaustausch.

Page 32: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 31

4 - 3 1

Li teratur

(1) Jean A. Dreyfus-Graf, "Machines actionnées par la parole",A.I.M., Liège, No 3 - 1972, p.137 - 155.

(2) B. Beek, E.P. Neuberg and D.C. Hodge, "An Assessment of the Technology of Automatic SpeechRecognition for Military Applications".IEEE ASSP - 24, No. 4, Aug. 1977, p. 310 - 322.

(3) B. Widrow et al., "Adaptive Noise Cancelling: Prinicples and Applications", Proceedings ofthe IEEE, Vol. 63, No. 12, Dec. 1975, p. 1692 - 1716.

(4) R.C. French, "Speech Scrambling",Electronics and Power, July 1972, p. 263 - 264.

(5) Arnold Mc Calmont "How to Select and Apply Various Voice Scrambling Techniques",Communications News, January 1974.

(6) V.J. Philips and J.K. Watkins, "Speech Scrambling by the Matrixing of Amplitude Sample",The Radio and Electronics Engineer, 43 (8).

(7) George R. Sugar, "Voice Privacy Equipment for Law Enforcement Communication Systems"(Nat. Bur. of Standards, NBSIR 73 - 324).

(8) H. Charles Baker, "Voice privacy transmission techniques",Telectronics, Aug. 1972, p. 8.

(9) J.U. Bayless, S.J. Campanella, & A. J. Goldberg,"Voice signals: bit-by-bit, IEEE Spectrum, Oct. 1973, p. 28.

(10) R.C. French, "Speech scrambling", "Electronics and Power", July 1972p. 263 - 264.

(11) G. Fant, "Acoustic Theory of Speech Production",1970 Mouton The Hague - Paris.

(12) J.D. Markel and A.H. Gray, Jr., "Linear Prediction of Speech",Communication and Cybernetics 12, 1976 Springer-Verlag.

(13) W.H. Ninke et al. "An Experimental Display Telephone",1976 Int. Zurich Seminar on Digital Communications, B 6.1 - B 6.6.

(14) A.V. Oppenheim, "Speech Spectrograms using the Fast Fourier Transform",IEEE Spectrum, 1970, p. 57 - 62.

(15) N.M. Blackman, "Sinusoids versus Walsh Functions",Proceedings of IEEE, Vol. 62, No. 3, March 1974, p. 346 - 354.

(16) A.M. Noll, "Cepstrum Pitch Determination", The Journal of the Acoustical Society of America,Vol. 41, No 2, 1967, p. 293 - 309.

(17) L.R. Rabiner, "On the Use of Autocorrelation Analysis for Pitch Detection",IEEE ASSP - 25, No. 1, Feb. 1977, p. 24 - 33

(18) Proceedings of the 1977 International Conference on Crime Countermeasures -Science and Engineering:

- Henry M. Truby, "The Application of Voice Print Analysis to Speaker Individuation.

- Harry Hollien, "Status Report of 'Voiceprint' Identification in the United States.

- E. Bunge. "Automatic Speaker Recognition System AUR0S for Security Systems and ForensicVoice Identification.

(19) J.D. Markel, B.T. Oshika and A.H. Grey, Jr., "Long-Term Feature Averaging for SpeakerRecognition", IEEE ASSP - 25, No. 4, Aug. 1977, p. 330 - 337.

(20) J.A. Moover "Signal Processing Aspects of Computer Music:A Survey", Proceeding of the IEEE, Vol. 65, No. 8, Aug. 1977, p. 1108 - 1137.

Page 33: Die menschliche Sprache Digital analysiert und optisch ... · Dem Titel entsprechend gliedert sich der Vortrag in 3 Teile: 1- Die menschliche Sprache, wie sie sich ausgehend von ihrer

Die menschliche Sprache: Digital analysiert und optisch dargestellt - Vorlesung Krieg im Aether 1977/1978 (ETH Zürich) HAMFU History

© HAMFU - www.hamfu.ch Seite 32

4 - 3 2

T. Houtgast, H.J.M. Steeneken, "Envelope Spectrum and Intelligibility of Speech inEnclosures", IEEE - AFCRL (1972), Speech Conference, K2, p. 392.

Some Reminiscences on Speech Research, IEEE Transactions on Audio and Electroacoustics,Vol. AU - 21, No. 3, p. 144.

W. Koenig, H.K. Dunn and L.Y. Lacy, "The Sound Spectrograph", The Journal of theAcoustical Society of America, Vol. 18, No. 1, July 1946, p. 19 - 49.

J. Guentensperger und B. Wenk, "Sprachanalyse und Sprachsynthese im Hinblick auf dieEntwicklung einer Gehörsprothese für Patienten mit neurosensorischer Gehörlosigkeit",Diplomarbeit des Institutes für Biomedizinische Technik der ETH Zürich, 23. Dez. 1977.

Johan Sundberg, "The Acoustics of the Singing Voice"Scientific American, Vol. 236, Nr. 3, p. 8 2 - 9 1 .