PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

16
PSICOMT Psychoakustisches Interface für Computerunterstützte s Musik-Training Jubiläumsfondsprojekt Nr. 6007 der Oesterreichischen Nationalbank ÖSTERREICHISCHE AKADEMIE DER WISSENSCHAFTEN Forschungsstelle für Schallforschung psicompt1.ppt

description

ÖSTERREICHISCHE AKADEMIE DER WISSENSCHAFTEN Forschungsstelle für Schallforschung. PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training. Jubiläumsfondsprojekt Nr. 6007 der Oesterreichischen Nationalbank. psicompt1.ppt. PSICOMT: - PowerPoint PPT Presentation

Transcript of PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

Page 1: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

Jubiläumsfondsprojekt Nr. 6007 der Oesterreichischen Nationalbank

ÖSTERREICHISCHE AKADEMIE DER WISSENSCHAFTENForschungsstelle für Schallforschung

psicompt1.ppt

Page 2: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: Psychoakustisches Interface für Computerunterstützes Musik-Training

INHALTSÜBERSICHT:

(1) Allgemeines.................................................................................................... 3

(2) Problemstellung, Psychoakustische Funktionen............................................ 4

(3) Echtzeit-Visualisierung von akustischen Signalen (3.1) Wellenformdarstellungen, Zeitfunktion................................................ 5 (3.2) Darstellungen von Amplitudenspektren............................................... 6 (3.3) Cepstrum-Methode, geglättete Amplitudenspektren........................... 7 (3.4) Spektrale Differenz, Differenzspektren................................................ 8 (3.5) Interpretationsvergleich mittels Spektrogrammen............................... 9

(4) Digitales Schallarchiv und Datenbank...........................................................10 (4.1) Digitale Tonaufnahme, Speicherung und Archivierung......................11 (4.2) Soundfile-Editor, Nachbearbeitung, Signalanalyse (Frequenz und Amplitude), Parameter-, Meßwert- Statistik.............. 12 (4.3) Systemfunktion, Bildschirm des Soundfile-Editors, Sectioner.......... 13

(5) Ausblick und Zusammenfassung................................................................. 14

(6) Danksagung................................................................................................. 15

(7) Literaturhinweise.......................................................................................... 16

Page 3: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (1) Psychoakustisches Interfacefür Computerunterstützes Musik-Training: Allgemeines

(1) Allgemeines:

Computerunterstützte Lernprogramme werden in zunehmendem Ausmaß sowohl an traditionellen Schulen und Ausbildungsstätten als Ergänzung zum Normal-Unterricht als auch in mit Hilfe moderner Telematik-Technologien effektiven Fernkursen eingesetzt. Die Rolle des Fernunterrichts ist in Anbetracht des künftig zu bewältigenden Bildungsaufwandes etwa für ländliche, außerhalb der Kultur- und Bildungszentren gelegene Gebiete von größter Bedeutung. Die Kombination von Lern- und Übungsprozessen unter Aufsicht des Lehrers an den Schulen mit solchen unter programmgesteuerter Kontrolle hat sich für Fähigkeiten, die über Text und Bildinhalte erworben werden können, bestens bewährt. Weitgehend ausgeschlossen waren bisher musikalische und textlich schwer vermittelbare Inhalte bzw. Lern- und Übungsprozesse, die auf nichtverbaler Ebene erfolgen müssen. Dazu zählen u.a. ausgewählte Bereiche des Instrumental- und Gesangsunterrichts.

Mit Hilfe moderner digitaler, allerdings kostspieliger Signalprozessorsysteme konnten schon bisher musikalische Singale in Echtzeit analysiert und als Ergebnis eines Lern- oder Übungsdurchganges in einem Feedback-System eingesetzt werden. Primäre Aufgabe des vorliegenden Projektes ist die Entwicklung und Implementierung von Visualisierungsverfahren für akustische Signale, die auf Standard- PC-Systemen lauffähig sind und damit einer breiteren Öffentlichkeit zugänglich werden.

Page 4: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (2) ProblemstellungPsychoakustisches Interface für Computerunterstützes Musik-Training

(2) Problemstellung: Psychoakustische Funktionen

Die akustische Analyse nach Frequenz, Amplitude und Zeit entspricht nicht oder nur teilweise der auditiven Wahrnehmung. Die unmittelbaren Beziehungen zwischen den vom Schüler produzierten akustischen Signalen und den qualitativen Bewertungen eines Musik-Lehrers, sowie den daraus folgenden Anweisungen für weitere Lernfortschritte und Training sind dem Schüler vorerst weitgehend unbekannt.

Zur Lösung dieser Problemstellung bieten sich zwei Hauptlinien an, die eine schrittweise Objektivierung der Lehr- und Lernsituation ermöglichen:

• im bottom up approach erfolgt die Umwandlung der technischen Analyseergebnisse in psychoakustisch und psychologisch relevante Informationsparameter, die dem Schüler in akustisch-visueller Form geboten, unmittelbar einsichtig werden,

• im top down approach erfolgt die Bereitstellung von technischen Werkzeugen, die den Lehrer in die Lage versetzen, seine Anweisungen zu objektivieren und Routineübungen, Lernerfolgsbeobachtungen usw. unter akustisch-visueller Kontrolle teilweise zu automatisieren.

Page 5: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (3) Echtzeit-Visualisierungvon akustischen Signalen: (3.1) Wellenformdarstellungen, Zeitfunktion

(3.1) Wellenformdarstellungen: Echtzeitdarstellungen der digitalisierten Wellenform (Zeitfunktion x(t)) erfolgen in zweifacher Weise:

• als kontinuierlich laufendes Oszillogramm mit in weitem Bereich wählbarer Zeitbasis von ca. 5 ms bis ca. 185 ms, • als Darstellung der Wellenform-Enveloppe (Spitzenwerte) in Kombination mit Spektrogrammen mit einer Zeitbasis von etwa 2 s bis ca. 10 s und wahlweise beliebig darüber .

Die Abbildungen der Wellenform werden üblicher-weise in Kombination mit einer Spektraldarstellung synchronisiert, können aber auch wahlweise allein vorgenommen werden. Beide Darstellungsarten sind für Kanal A und/oder B verfügbar. Die Amplitude der linearen Wellenformdarstellung ist auf +/-1.0 standardisiert und entspricht im Normalfall einem Dynamikbereich von +/- 215 = ca. 96 dB. An Standard-Sampling-Raten stehen abhängig von der verfügbaren Soundkarte 32 kHz, 44.1 und 48 kHz zur Verfügung.

Page 6: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (3) Echtzeit-Visualisierung von akustischen Signalen: (3.2) Amplitudenspektrum

(3.2) Darstellung von Amplitudenspektren: Echtzeitdarstellungen von Amplitudenspektren (Zwei-Kanal Fast Fourier Transformation) erfolgen in zweifacher Weise:

• als kontinuierlich laufendes Kurzzeit-Amplituden-spektrum mit in weitem Bereich wählbarer Frequenz-auflösung von 5.3 Hz bei einer Länge des Zeit-fensters (Frame Length) von ca. 185 ms bis ca. 170 Hz bei 5 ms (Sampling-Rate: 44.1 kHz).• als kontinuierlich laufendes, exponentiell gewichte-tes und gemitteltes Amplitudenspektrum mit einstell-barer Abfallkonstante, Mittelung und Überlappung.

Die exponentielle Gewichtung und Mittelung der Amplitudenspektren über die Zeit ergibt eine dem Hörereignis besser entsprechende Darstellung. Im nebenstehenden Beispiel wurde über 4 mit 50% Überlappung berechnete Amplitudenspektren gemittelt. Die Frequenzachse wurde der Verteilung der Frequenzpunkte im Innenohr entsprechend in die Tonheitsskala (Bark) transformiert: z f Bark f kHz f kHz( ) / arctan( , / ) , arctan( / , ) 13 0 76 3 5 7 5 2

Page 7: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (3) Echtzeit-Visualisierung von akustischen Signalen: (3.3) Cepstrum-Methode

(3.3) Geglättete Amplitudenspektren: Echtzeit-Amplitudenspektren können mit Hilfe der Cepstrum-Methode geglättet werden und repräsen-tieren den von der Grundfrequenz eines Signals un-abhängigen, psychoakustisch relevanten Klangfar-benanteil. Das „Spektrum“ eines log Spektrums wird Cepstrum genannt, seine horizontale Achse wird mit „Quefrenz“ bezeichnet. Das „Cepstrum“ erhält man durch Fourier-Transformation eines log Amplituden-spektrums. Der Grad der Glättung hängt von der Anzahl der im Quefrenz-Bereich zur Rücktransfor-mation in den Frequenzbereich ausgewählten Koeffizienten ab. Der „Filter“-Vorgang im Quefrenz-bereich wird „Lifter“ genannt. Das geglättete Amplitu-denspektrum kann als Enveloppe des Spektrums angesehen werden. Nach dem Modell der homo-morphen Deconvolution entspricht das geglättete Spektrum etwa dem Frequenzgang eines an eine Klangquelle gekoppelten Resonator-Systems.

FFT LOG INVERSE FFT

CEPSTRUM

TIEFPASS FILTER

CEPSTRUM

„LIFTERED“FFT GEGLÄTTETES

SPEKTRUM KLANGFARBE

RESONATOR

Page 8: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (3) Echtzeit-Visualisierungvon akustischen Signalen: (3.4) Spektrale Differenz, Differenzspektren

(3.4) Differenzspektren:Der Frequenzgang eines beliebigen Systems (Input-Output) oder der Vergleich zwischen zwei beliebigen Klängen kann durch die Subtraktion zweier log Amplitudenspektren (Kanal A - Kanal B) beschrieben werden. Die Berechnung des Differenzspektrums zweier synchronisierter Quellen erfolgt in Echtzeit und kann auch an gemittelten und geglätteten Spektren vorgenommen werden. Auf diese Weise ist der Vergleich von Soll- und Istwerten im Spektral-bereich kontinuierlich verfolgbar. Ein Soll-Spektrum kann iterativ an ein vorgegebenes „Ziel“-Spektrum angenähert werden.Der nebenstehende Vergleich zeigt oben die Lang-zeitspektren eines stationären Tones einer Arie, gesungen von zwei verschiedenen Tenören mit unterschiedlicher Stimmgebung, unten ein ähnlicher Vergleich anhand von geglätteten Spektren.

FFTKanal A

LOG

FFTKanal B

LOG *-1

+FREQUENZGANG

SPEKTRALE DIFFERENZ

Page 9: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (3) Echtzeit-Visualisierungvon akustischen Signalen: (3.5) Spektrogramme

(3.5) Interpretations-vergleich mittels Spektrogrammen:Zur Visualisierungvon zeitvariantenSignalen werdenSpektrogramme he-rangezogen. Das Beispiel zeigt die unterschiedliche Interpretation einer Arie durch zwei Te-nöre in Stimmklang und Timing. Im Ver-gleich zu dem kraft-voll gestalteten Aus-druck der Probe un-ten klingt der Tenor oben deutlich ly-risch. Die unter-schiedliche Stimm-gebung ist auch an der Amplituden-En-veloppe erkennbar.

Page 10: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (4) Systemfunktion Digitales Schallarchiv und Datenbank

(4) Digitales Schallarchiv: Vor dem Einsatz der Digitaltechnik im Tonarchivwesen war das Ergebnis aus zu den in vorgenannten Aktivitäten vergleichbaren Unternehmen, physikalisch gesehen, immer eine gewisse Anzahl von Tonaufnahmen (in analoger Tonbandtechnik oder digitale Audio-Streaming-Aufzeichnungen) mit entsprechend genauer Dokumentation, zumeist schriftlicher Protokollierung und mit angeschlossenem Text- und Bildmaterial. Zunächst entsprachen die Tonaufnahmen in ihrer Chronologie den jeweiligen Aufnahmesituationen und waren häufig nach den Schallquellen orientiert (Instrument, Musiker, Sänger/in, Sprecher/in, Tier, Maschine, schwingendes Objekt). Je nach Applikation waren Musikdarbietungen, einzelne Lieder, Instrumentalklänge, Wortlisten, Sätze, freie Rede, Rufserien von Fröschen, Lärmereig-nisse usw. nur sequentiell vom Tonträger abrufbar. Weder ein auditiver A/B-Vergleich noch vergleichende psychoakustische Analysen waren ohne zeitraubende und qualitätsmindernde Umkopierung möglich. Das Umkopieren zerstörte ferner den Originalkontext, womit die Möglichkeit für spätere, die akustische Umgebung einschließende Abfragen verhindert wurde. Durch die Zerstörung des Originalkontexts wurden die Daten zu erratischen, empirischen Datenblöcken, die bloß einer einmalig aktuellen Fragestellung genügten und nach kurzer Zeit allzuoft nutzlos wurden, nämlich dann, wenn eine neue (z.B. diachrone) Fragestellung entstand, die mit dem zerschnittenen Material nicht mehr beantwortet werden konnte.

Im Gegensatz dazu wurde u.a.für das vorliegende Projekt eine speziell entwickelte Segmentie-rungs- und Archivierungsmethode implementiert, die den Kontext der Originalaufnahme erhält. Sie gestattet die enge Transkription von Tonaufnahmen mit Segmenten von wenigen Milli-sekunden aufwärts und ermöglicht den für moderne psychoakustische und lerntheoretische Verfahren unmittelbar notwendigen, völlig frei gestaltbaren Zugriff auf sämtliche in einem Schallarchiv mittlerer Größe (bis ca. 2500 Stunden) verfügbaren Tonsegmente (Schüler- und Lehrerdaten) in beliebiger Sequenz auch über Internet-Zugang.

Page 11: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (4) Digitales Schallarchiv: (4.1) Digitale Tonaufnahme, Speicherung und Archivierung

Aktion: Funktion: Ergebnis:

Beginn: Tonaufnahme - Standby,Aussteuerungskontrolle,Echtzeit-FFT-Analyse

Programm-Start

Default

Tonaufnahme-Menue, Echtzeit-FFT-Analyse,Echtzeit-Spektrogramm, Signal-Ringbuffer.

Aufnahme-TasteRecord Start, Aussteuerungs-

kontrolle, Zeitanzeige,Echtzeit-FFT-Analyse

Beginn der Signalspeicherung auf Festplatte,Setzen von Tags und Labels „on the fly“,

Tagging

Aufnahme STOP

START

Zeitanzeige, Soundfile-DirectorySegment-Menue, Attribute

Fortsetzung der Tonaufnahmeneues Item

Tags generiert, Segmente generiert,Soundfile wird inkrementell geschrieben,Technische und qualitative Beschreibung der Aufnahme,Aufnahmeprotokoll,File(s) geschlossen.

Soundfile aufFestplatte

zurNachbearbeitung

Durch die Einführung von Soundfile-Directories kannjedes einzelne Soundfile eine beliebige Anzahl von Ton-segmenten und Subsegmenten beinhalten, auf die inabsoluter oder relativer Adressierung für Wiedergabe oder Analyse der Tonproben zugegriffen werden kann.

Page 12: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (4.2) Soundfile-Editor, Nachbearbeitung, Signalanalyse (Frequenz und Amplitude), Parameter-, Meßwert- Statistik

Aktion: Funktion: Ergebnis:

Beginn: Nachbearbeitung,Sectioner,

Zeitfunktion, FFT-Analyse

Nachbearbeitung

Default

Wiedergabe-MenueEditor-Fenster

WiedergabeInteraktiver Spektrogramm- und Wellenform-Editor, Zeitanzeige,

Echtzeit-FFT-Analyse

Setzen von Tags und Labels „on the fly“ und Off-Line

Tagging

Wiedergabe STOP

START

Zeitanzeige, Soundfile-DirectorySegment-Menue, Attribute

Fortsetzung der Nachbearbeitungneues Item

Signalkonditionierung,Tags generiert,Segmente generiert,Technische und qualitativeFeinsegmentierung,enge Transkription,Beschreibung der Aufnahme,Aufnahmeprotokoll,

Datenbank-Eintragungen,Links zu weiteren Dokumenten,File(s) geschlossen.

Soundfile(s) aufFestplatte

Inkrementeller UpdateDatenbank und Archiv

Textfenster zu Sectioner (Spektrogramm- und Wellenform-Editor) auf der nächsten Seite:t= Position des Cursors (1), f(1) Frequenzwert des Cursors (1) im Amplitudenspektrum-Fenster(rechts oben) berechnet an t, f(2) Frequenzwert des Cursors (2) im Amplitudenspektrum, (d) Differenz zwischen (1) und (2), a(1) a(2) zugehörige Amplitudenwerte, r=Referenz-frequenz (zB. 440 Hz), fx/fy: Verhältniswerte (1/r) (2/r) (1/2), auch in Cents auswertbar,Spectrogram (1) (2) (D) und Waveform (1) (2) (D) referenzieren auf die Cursorpositionen (1)und (2) sowie die Differenz zwischen beiden, die synchron oder nichtsynchron gesetzt werden.

Page 13: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (4.3) Digitales Schallarchiv:Systemfunktion, Bildschirm des Soundfile-Editors, Sectioner

Page 14: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (5) Ausblick und Zusammenfassung

Die im Rahmen des Projektes entwickelten Softwarekomponenten ermöglichen die Anwendung von Verfahren der digitalen Signalverarbeitung im Musik-Lehr- und Übungsbetrieb. Besondere Sorgfalt wurde auf die Entwicklung der Graphikkomponenten gelegt, die die Echtzeitvisualisie-rung von akustischen Signalen mit ihren Analyseergebnissen bewerkstelligen. Die zeitsynchrone Darstellung von Wellenform und Amplitudenspektrum bzw. Spektrogramm und Wellenform-Enveloppe sind für interaktiven Übungsbetrieb bestens geeignet.

Das angestrebte Ziel, die erforderlichen Programme in ein größeres Paket zur akustischen Signalverarbeitung (S_TOOLS) einschließlich Tonarchiv und Datenbank zu integrieren und unter den Betriebssystemen Windows 98 / NT zu implementieren, konnte erreicht werden. Damit ist es gelungen bisher nur auf teuren Workstations verfügbare Signalverarbeitungsalgorithmen einer breiten PC-Öffentlichkeit zugänglich zu machen. Die Software ist im Prinzip auf jedem PC lauffähig, der mit einer Soundkarte ausgestattet ist. Für Echtzeitanwendungen wird eine Hardwarekonfiguration Pentium II, 300 MHz oder schneller mit AGP (Accelerated Graphic Port) empfohlen. Die zum Zeitpunkt dieses Berichts bereits angekündigten 400 MHz-Systeme werden die interakitven Möglichkeiten der Software erhöhen. Eine Testversion des Programmes S_TOOLS X kann vom Server der Forschungsstelle für Schallforschung der ÖAW (http://www.kfs.oeaw.ac.at/S_TOOLS/stx/index.html) geladen werden. Die Benützungsdauer dieser Version ist auf ca. 1Monat begrenzt, es wird gebeten sich nach Ablauf dieser Frist eine neue ver-besserte Version abzuholen. Fehlerberichte, Rückmeldungen über Anwendungen, Kommentare und Ergänzungen sind herzlichst willkommen ([email protected]). Benützer, die ein eigenes Tonarchiv anlegen wollen, werden gebeten sich ebenfalls an obige Email-Adresse zu wenden.

Page 15: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (6) Danksagung

Die Forschungsstelle für Schallforschung dankt dem Jubiläumsfonds der Oesterreichischen Nationalbank für die Bereitstellung der Mittel zur Durchführung dieses Projektes.

Ferner wird herzlich gedankt:

Herrn Univ.Prof.Dr. Erich Vanecek, Abteilung für Musikpsychologie am Institut für Psychologie der Universität Wien für die bereitwillige Kooperation und Unterstützung sowohl in theoretischen Fragen als auch bei praxisbezogenen Testläufen.

Frau cand. phil. Cynthia O´Brien für Probespiel (Geige) und Testläufe.

Herrn Dr. Helmut Kowar, Phonogrammarchiv der Österrreichischen Akademie der Wissenschaften für wertvolle praktische Hinweise und Probespiel (Geige).

Schließlich ist den Urhebern des Quellencodes (C++), Herrn Ing. Anton Noll und Herrn cand. DIng. Patrik Peck, beide Forschungsstelle für Schallforschung, für ihren unermüdlichen Einsatz bei der Entwicklung der Software und bei der Fehlerbeseitigung zu danken, ohne den das Projektziel nicht erreichbar gewesen wäre.

Kontaktadresse: Dr. Werner A. Deutsch, Forschungsstelle für Schallforschung der Österrreichischen Akademie der Wissenschaften, Liebiggasse 5, A-1010 Wien, Tel. +43-1/4277 29500, Fax: +43-1/4277 9296, Email: [email protected]; http://www.kfs.oeaw.ac.at

Page 16: PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training

PSICOMT: (7) Literaturhinweise

Bogert B.P., M.J.R. Healy, and J.W. Tukey (1963): The Frequency Analysis of Time Series for Echoes: Cepstrum, Pseudo-Autocovariance, Cross-Cepstrum and Shape Cracking. In M. Rosenblatt, (Ed.), Proceedings of the Symposium on Series Analysis. New York: Wiley, 209-243.

Deutsch, W.A., R. Vollmann, A. Noll & S. Moosmüller (1998): An Open Systems Approach for an Acoustic-Phonetic Continuous Speech Database: The S_TOOLS Database-Management System (STDBMS). In: Linguistic Databases. John Nerbonne, ed. CSLI Publications, Center for the Study of Language and Information, Stanford; 77-92.

Deutsch W.A. (1997): Interaktives Musiktraining zur Optimierung von Isntrumentalklängen - Ein Interdisziplinäres Projekt zwischen Musikpsychologie und Schallforschung. Internationales Symposium: Angewandte Musikpsychologie im Instrumentalunterrricht - „Verwissenschaftlichung“ oder echte Hilfe. Mürzzuschlag; Nov. 14.-16.1997.

Födermayr, F. & W.A.Deutsch (1993): „Parmi veder le legrime“: One Aria, three Interpretations. Proceedings of the Stockholm Music Acoustics Conference, July 29-August 1. 1993, 96-107.

Noll, A.M. (1964): Short-time Spectrum and Cepstrum Techniques for Vocal Pitch Detection. Journal of the Acoustical Society of America, 36, 296-302.

Vanecek E. (1997): Der Körper als wichtigstes Instrument der Instrumentalisten. Internationales Symposium: Angewandte Musikpsychologie im Instrumentalunterrricht - „Verwissenschaftlichung“ oder echte Hilfe. Mürzzuschlag; Nov. 14.-16.1997.