4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von...
-
Upload
brickel-lederle -
Category
Documents
-
view
107 -
download
3
Transcript of 4. 10. 04: Voice 2004 1 G.-U. Tolkiehn, Tolkiehn & Partner Trends und aktuelle Entwicklungen von...
4. 1
0. 0
4: V
oice
200
4 1
G.-U. Tolkiehn, Tolkiehn & Partner
Trends und aktuelle Entwicklungen von Sprachdialogsystemen
Einführungsvortrag von Prof. Dr. G.-U. Tolkiehn IIR-Konferenz „Voice 2004“ am 4. 10. 2004 in
Frankfurt/M.
4. 1
0. 0
4: V
oice
200
4 2
G.-U. Tolkiehn, Tolkiehn & Partner
Inhalte des Vortrags:
Stand der Technik, aktuelle Entwicklungen: Voice-Portale - mehr als nur Automatisierung zur Senkung der Kontaktkosten im Call Center: Ergänzung und/oder Alternative zu Web-Portalen Spracherkennung und –synthese: Perfektionierung, z. B. durch phonetische Transskriptionsverzeichnisse, Grammatiken, KI Konzentration bei den großen Basistechnologie-Anbietern: Wenig Hoffnung auf Preissenkungen
Trends und Perspektiven: Wachstum: V-Commerce soll wesentlichen Anteil an e-Commerce erobern Neue Anwendungsgebiete: Gewinnspiele, e-mail-reading und Überweisungen - Sprachtechnologie kann viel mehr Immer wichtiger für innovative Lösungen: Software- und Systemhäuser Wie steht es mit plug-and-play-Lösungen für KMU’s?
4. 1
0. 0
4: V
oice
200
4 3
G.-U. Tolkiehn, Tolkiehn & Partner
Stand der Technik: IVR, Voice-PortaleQuelle: GartnerGroup„The Implicationsof the 2001 CRMHype Cycle“vom 3. 4. 2001
4. 1
0. 0
4: V
oice
200
4 4
G.-U. Tolkiehn, Tolkiehn & Partner
Kleine Systematik: Elemente von Sprachsystemen Sprachaufnehmende Systeme
Sprache Sprachdaten (Mikrofon, ADC, Codec)
Sprachübermittelnde Systeme (PBX, PSTN, ISDN, LAN, Internet) Sprachdaten Übertragung Sprachdaten
Sprachspeicherung Sprachdaten Speichersystem/-medium Sprachdaten
Sprachanalysierende Systeme Sprache Sprachdaten Text Daten Bedeutung (Spracherkennung (Worte), Sprachverständnis, Sprechererkennung, Sprecherverifikation) Geräusche Daten (DTMF-, Pausen-Erkenner, grunt-detection, AB-, Besetzt-Erkenner, noise-reduction)
Sprache erzeugende Systeme Daten Text Sprachdaten Sprache (sprechende Systeme, TTS, Reading)
Sprachausgabesysteme Sprachdaten Sprache (Codec, DAC, Lautsprecher)
4. 1
0. 0
4: V
oice
200
4 5
G.-U. Tolkiehn, Tolkiehn & Partner
Sprachaufnehmende und -ausgebende Systeme
„der“ Standard: „Telefonqualität“ (digital: ITU G.711, 300 Hz –3,4 kHz) oder neuerdings: GSM-Qualität Endgerät „knochenförmig“, schnurgebunden oder schnurlos Zifferntastatur 0-9, *, #, plus mehr oder weniger verständliche Funktionstasten, meist kleines alphanumerisches Display, andere Bauformen sind möglich (Headset, Speakerphone, Soundkarte), jedoch bisher nur in Nischen verbreitet Umwandlung von Sprache in Sprachdaten und umgekehrt
besondere Qualitäten: Höhere Bandbreiten, zusätzliches Video, Außenmikrophone ...
4. 1
0. 0
4: V
oice
200
4 6
G.-U. Tolkiehn, Tolkiehn & Partner
Bereiche der Sprachqualität
Quelle: „Leitfaden VoIP“, Swyx Communications AG, 2000
GSM
Voice over Internet
ISDN
4. 1
0. 0
4: V
oice
200
4 7
G.-U. Tolkiehn, Tolkiehn & Partner
Sprachspeicher, Verwendung in Systemen
ADC DEE DÜE DEE DACNetz
DÜE
Sprachspeicher
Sprachspeicher speichern Sprachdaten. Es gibt sie analog, digital, mit VoIP, als Komponenten von:• Voice-Logging-Systemen teilnehmerseitig (simplex/duplex, an Endgerät, PBX, LAN)
• Voice-Logging-Systemen im (öffentlichen) Netz • Voice-Message-Systemen im (öffentlichen) Netz• Voice-Message-Systemen auf der Teilnehmerseite• Anrufbeantwortern (analog und digital, beim B-Teilnehmer)• Benachrichtigungssystemen (outbound)• Ansagesystemen, IVR-Systemen, auto-attendants, voice portals
E/A-Elementeund UI
E/A-Elementeund UI
4. 1
0. 0
4: V
oice
200
4 8
G.-U. Tolkiehn, Tolkiehn & Partner
Sprachanalysierende Systeme (ASR) Spracherkennung
• Diktiersysteme (Sprache Text, großer Wortschatz, i.d.R. sprecherabhängig, großer Ressourcenverbrauch, hohe Fehlerraten)
• Sprach-Bedienung von Dialog-Systemen heute i.w. wortweise: – Sprache Text Daten oder – Sprache Text einfache Grammatik Daten,
• meist sprecherunabhängig, mittlerer Wortschatz, ladbar, einstellbare Fehlerrate, wordspotting und barge-in, Ziel „natural language understanding“
Sprach-Authentifizierung• Sprecherverifikation (sicher in Größenordnung 1 aus einige 1000)• Sprechererkennung (ebenfalls 1 aus einige 1000)
Geräuschanalyse• DTMF-Erkennung für Dialogsysteme mit Sprachausgabe• Pausen-Erkenner zur Datenkompression• grunt-detection, AB-Erkennung, Besetzt-Erkenner• noise- und distortion-Analyse und -Reduktion
4. 1
0. 0
4: V
oice
200
4 9
G.-U. Tolkiehn, Tolkiehn & Partner
Spracherzeugende Systeme
Umwandlung von Textdaten oder anderen nicht-Sprachdaten in Sprachdaten Anwendung:
Reading (TTS, Vorlesen von gespeichertem Fließtext) Ansagen von generiertem Text (Zeit, Börsenkurse, Auskunft)
Funktionen: ggf. Textgenerierung (Komponente von NL-Dialogsystemen, erfordert semantische und grammatische Synthese) Umwandlung von Text in Phonem-Fluss, heute mit Betonung und Tonhöhenverlauf (erfordert eine „relativ einfache“ Grammatikevaluation) Umwandlung des Phonemflusses in Sprachdaten
4. 1
0. 0
4: V
oice
200
4 10
G.-U. Tolkiehn, Tolkiehn & Partner
Top-View:
Was will der Betreiber? Kosten sparen durch Verlagerung von so viel Dialog wie möglich vom live agent in die Maschine. Die Schallmauer 1€/Call durchbrechen V-Commerce: Mit Sprache neue Geschäftsmöglichkeiten schaffen – aber zu geringen Kosten. Webserver können viel, sind aber nicht immer das Optimum.
Was will der User? In erster Linie, dass er
• das bekommt, was er haben will, • dann, wenn er es haben will, • ohne Risiken und • zu bekannten und akzeptablen Kosten.
Einfach, verfügbar, klar, verlässlich, preiswert, sicher.
4. 1
0. 0
4: V
oice
200
4 11
G.-U. Tolkiehn, Tolkiehn & Partner
Vergleich mit Webserver und Call Center
Also: Call Center-Funktionalität zu Transaktionskosten von Webservern. In USA wurden vor Jahren Webserver (Shops und Helpdesks) mit der Dialogstruktur der bereits erprobten IVR-Systeme ausgestattet. Ein Fehlschlag. Wer heute versucht, Voice-Portale mit der Dialogstruktur von Web-Shops aufzubauen begibt sich ebenfalls in Gefahr. Die Dialogstruktur von IVR-Systemen tut es natürlich auch nicht mehr Ist das alles? Gute Dialoge aus den Call Center Erfahrungen ableiten und gute Technik einsetzen? Sollte doch gehen. Oder?
4. 1
0. 0
4: V
oice
200
4 12
G.-U. Tolkiehn, Tolkiehn & Partner
Gefahrenpotentiale
Lehrsatz: Automatisierung senkt Kosten zu Risiken und Nebenwirkungen fragen Sie Ihren
Vertriebsleiter oder Unternehmensberater
Negativ-Beispiel: Geldautomaten der Banken Kommunikation mit Menschen ist eine komplexe Angelegenheit. Sachebene - Beziehungsebene Was kommuniziert Ihr Voice-Portal eigentlich auf der Beziehungsebene? a b Selbst für eine „relativ einfache“ Kommunikation auf der Sachebene benötigen wir aber bereits
4. 1
0. 0
4: V
oice
200
4 13
G.-U. Tolkiehn, Tolkiehn & Partner
Komplexe integrierte Systeme
Quelle: Philips (www.speech.philips.com)
Grammatik-Analyse
4. 1
0. 0
4: V
oice
200
4 14
G.-U. Tolkiehn, Tolkiehn & Partner
Komplexe integrierte Systeme
„Alte Technik“: IVR-Systeme (Interactive Voice Response oder VRU), auto attendant, UM: Meist nur DTMF-Erkennung und Konservenausgabe, Sprachspeicher, spezielle einfache Transaktionen „Neue Technik“: Voice-portals, integrativer Ansatz
ASR: Word-spotting, barge-in, Grammatik, Sprachmodelle? Welcher Erkenner? Gutes Wörterbuch mit effizienter Erweiterungsfunktion? Welche Sprachen? Wieviel simultane Kanäle? Sprachausgabe aus Konserven? TTS? DTS? Welche Lösung? Guter Dialoggenerator? Auswertungen und Änderungen der Dialoge während der Laufzeit einfach durch Anwender möglich? Interoperabilität mit TK-Anlage? ISDN? VoIP? CTI (z.B. Vermittlung, Bedienung VM-System, e-Mail-Abruf)? Datenschnittstelle für Transaktionssysteme und Webserver Brauchbare Voice-Message-Funktionen, auch ACD-fähig? Contact Center und CRM-Integration?
4. 1
0. 0
4: V
oice
200
4 15
G.-U. Tolkiehn, Tolkiehn & Partner
IVR-Technik in deutschen Contact Centern 2002
Quelle: Marktstudie PartnerConsulting & TFH Wildau Juni, 2003
Summe: 47%
4. 1
0. 0
4: V
oice
200
4 16
G.-U. Tolkiehn, Tolkiehn & Partner
Investitionsabsichten in Contact Centern 2002
17,6% der befragten Unternehmen planten in 2002 bis 2004 in IVR-Technologie investieren 5,9% der befragten Unternehmen planten in 2002 bis 2004 in Voice-Logging-Systemen zu investieren Keiner der Teilnehmer wollte in Voice-Mail Systeme investieren Die Studie wird ab Oktober erneut durchgeführt. Wir werden dann auch explizit nach Voice-Portalen fragen
4. 1
0. 0
4: V
oice
200
4 17
G.-U. Tolkiehn, Tolkiehn & Partner
Voice-Portal-taugliche Bereiche identifizieren!
Quelle: White Paper von Concerto Software
4. 1
0. 0
4: V
oice
200
4 18
G.-U. Tolkiehn, Tolkiehn & Partner
Was können wir demnächst erwarten?
Trotz aller Schwierigkeiten: V-Commerce erhält durch Automatisation „zweite Luft“ als wesentliche Komponente von e-commerce. Einige Einzelbelege:
steigende Anzahl von Webseiten zu v-commerce (26. 9. in Google allein auf deutsch 410 Treffer!) Nuance hat seinen Webauftritt in www.v-commerce.com umbenannt, nicht zu verwechseln mit www.vcommerce.com Gegenwärtiges Voice Event Revival ca. 5 Jahre nach dem Absterben vieler „alter“ Voice Events
Aber es dauert! Wer hat schon mal in einem vollautomatisierten v-shop eingekauft? Wo bleiben v-government und v-administration?
4. 1
0. 0
4: V
oice
200
4 19
G.-U. Tolkiehn, Tolkiehn & Partner
Was können wir demnächst erwarten?
Weitere Perfektionierung der Basis-Technologie, auch neue kleine Anbieter beachten! Weiterentwicklung der SW-Komponenten (Grammatik, KI, Dialoggeneratoren etc.) Neue Hardware (Hochleistungsfähige, preiswerte CAPI und VoIP-Komponenten) SW- und Systemhäuser spezialisieren sich auf Voice-Portal-Lösungen und Anwendungsintegration Weitere Verbesserung der Flexibilität und Handhabbarkeit der Lösungen durch den Anwender Kleine Ready-to-Run-Lösungen out-of-the-box Preissenkungen für SW leider eher nicht
4. 1
0. 0
4: V
oice
200
4 20
G.-U. Tolkiehn, Tolkiehn & Partner
Gartner Hype Cycle 2003
Trough ofDisillusionment
Slope ofEnlightenment
Plateau ofProductivity
Maturity
TechnologyTrigger
Peak of Inflated
Expectations
VisibilityKey: Time to “Plateau”
Less than two years
Two to five years
Five to 10 years
Beyond 10 years
Wireless LANs/802.11Text-to-
Speech
VPN
Grid ComputingBiometrics
WAP/ WirelessWeb
Location Sensing
P2P
Web Services
PDA Phones
Speech Recognition on Desktop
PersonalFuel Cells
Identity Services
E-Tags
Natural Language Search
Nanocomputing
VoIPBluetooth
Speech Recognition in Call Center
PKI
E-Payments
4. 1
0. 0
4: V
oice
200
4 21
G.-U. Tolkiehn, Tolkiehn & Partner
Fazit: Es wird sich noch einiges tun
in den nächsten fünf Jahren sind für Voice-Portale also noch
erhebliche technische Weiterentwicklungen die Erprobung neuer Einsatzgebiete und erhebliche Zunahme der Marktdurchdringung zu erwarten
Wir bleiben dran. Tun Sie es auch!
4. 1
0. 0
4: V
oice
200
4 22
G.-U. Tolkiehn, Tolkiehn & Partner
Vielen Dank für Ihre Aufmerksamkeit!
Fragen und Anmerkungen bitte!
Datenversion anfordern von:
4. 1
0. 0
4: V
oice
200
4 23
G.-U. Tolkiehn, Tolkiehn & Partner
Einfaches Beispiel für eine Grammatik
Quelle: Philips (www.speech.philips.com