Voice Business; Voice business;

6
1 Einfu ¨hrung Unter der șberschrift „Profitable Mehr- wertdienste“ fand Anfang dieses Jahres ei- ne Veranstaltung des Voice Solution Center statt, in der Gescha ¨ftsmodelle fu ¨ r sprach- gesteuerte Dienste im Mittelpunkt standen [VSC02]. Allein die Deutsche Telekom AG betreibt ca. 400 telefonisch abrufbare auto- matisierte Informationsdienste. Geplant sind so genannte Multi-Access-Portale, in denen per Telefon personalisierte In- formationen aus verschiedenen Quellen zusammengefasst werden ko ¨nnen: das Vor- lesen der E-Mails durch Text-to-Speech, die automatisierte Ansage abonnierter In- formationen wie beispielsweise Bo ¨ rsenkur- se, die Teilnahme an Videokonferenzen, das Versenden einer E-Mail vom Telefon aus durch automatische Spracherkennung, die Steuerung des Terminplaners, die Ab- wicklung von Einka ¨ufen u. v. a. m. Die Referenten gingen u ¨ bereinstimmend davon aus, dass der Durchbruch sprach- gestu ¨ tzter Dienste in den na ¨chsten zwei Jahren erfolgen wird oder, noch etwas emphatischer: „In our opinion, voice is the next killer application, poised at the start of a major new technology investment cycle“ [Clar02]. Dafu ¨ r sprechen drei Gru ¨ nde: 1. Die Basistechnologien fu ¨ r die Sprach- erkennung sind vorhanden und werden kontinuierlich weiter verbessert; 2. innovative IT-Systeme fu ¨ r die Integrati- on kommen versta ¨rkt auf den Markt, und 3. Gescha ¨ftsmodelle, die den Einsatz von Sprachtechnologien bei einer wachsen- den Dichte von Mobiltelefonen und der hohen Bedeutung des Telefons fu ¨r die Kundenkommunikation profitabel ma- chen, entstehen. In diesem Beitrag sollen die Basistechnolo- gien, die fu ¨ r Sprachanwendungen erforder- lich sind, kurz umrissen und am Beispiel eines konkreten Produktes der Aufbau ei- nes Sprachportals dargestellt werden. 2 Voice Business als Teilmenge des E-Business Unter E-Business (Electronic Business) wird die elektronische Unterstu ¨ tzung aller Gescha ¨fts-, Interaktions- und Kommuni- kationsprozesse zwischen den verschiede- nen Marktteilnehmern u ¨ ber elektronische Netze verstanden. Der Begriff M-Business (Mobile Business) betont, dass diese Pro- zesse auch durch die mobilen Netze und mobile Zugangsgera ¨te mo ¨ glich sein sollen. Der Begriff V-Business (Voice Business) betont, dass die Prozesse durch den Ein- satz von Sprachtechnologien unterstu ¨ tzt werden, sofern dies einen Mehrwert fu ¨ r ei- nen der Teilnehmer am Markt darstellt. V-Business ist damit wie M-Business eine Teilmenge des E-Business. 3 Basistechnologien fu ¨r Sprachportale Man unterscheidet je nach Einsatzgebiet & die Sprachausgabe zur Verwandlung von Text in mo ¨ glichst natu ¨ rlich klin- gende Sprache (Text-to-Speech, TTS), WIRTSCHAFTSINFORMATIK 44 (2002) 3, S. 261 266 Die Autoren Rainer Bamberger Anne Ko ¨nig Dr. Rainer Bamberger, Infoman AG, Vaihinger Straße 169, D-70567 Stuttgart, Tel. (07 11) 6 79 71-0, Fax (07 11) 6 79 71-10, E-Mail: [email protected], http://www.infoman.de; Prof. Dr. Anne Ko ¨nig, Technischen Fachhochschule Berlin, FB Wirtschafts- und Gesellschafts- wissenschaften, Luxemburger Straße 10, D-13353 Berlin, Tel. (0 30) 45 04-21 45, Fax (0 30) 45 04-20 01, E-Mail: [email protected], http://www.anne-koenig.de. Voice Business Aufbau von Sprachportalen mit dem Phone Manager WI – Innovative Produkte

Transcript of Voice Business; Voice business;

Page 1: Voice Business; Voice business;

1 Einfuhrung

Unter der �berschrift „Profitable Mehr-wertdienste“ fand Anfang dieses Jahres ei-ne Veranstaltung des Voice Solution Centerstatt, in der Geschaftsmodelle fur sprach-gesteuerte Dienste im Mittelpunkt standen[VSC02]. Allein die Deutsche Telekom AGbetreibt ca. 400 telefonisch abrufbare auto-matisierte Informationsdienste. Geplantsind so genannte Multi-Access-Portale,in denen per Telefon personalisierte In-formationen aus verschiedenen Quellenzusammengefasst werden konnen: das Vor-lesen der E-Mails durch Text-to-Speech,die automatisierte Ansage abonnierter In-formationen wie beispielsweise Borsenkur-se, die Teilnahme an Videokonferenzen,das Versenden einer E-Mail vom Telefonaus durch automatische Spracherkennung,die Steuerung des Terminplaners, die Ab-wicklung von Einkaufen u. v. a. m.

Die Referenten gingen ubereinstimmenddavon aus, dass der Durchbruch sprach-gestutzter Dienste in den nachsten zweiJahren erfolgen wird – oder, noch etwasemphatischer: „In our opinion, voice is thenext killer application, poised at the start ofa major new technology investment cycle“[Clar02]. Dafur sprechen drei Grunde:

1. Die Basistechnologien fur die Sprach-erkennung sind vorhanden und werdenkontinuierlich weiter verbessert;

2. innovative IT-Systeme fur die Integrati-on kommen verstarkt auf den Markt,und

3. Geschaftsmodelle, die den Einsatz vonSprachtechnologien bei einer wachsen-den Dichte von Mobiltelefonen und der

hohen Bedeutung des Telefons fur dieKundenkommunikation profitabel ma-chen, entstehen.

In diesem Beitrag sollen die Basistechnolo-gien, die fur Sprachanwendungen erforder-lich sind, kurz umrissen und am Beispieleines konkreten Produktes der Aufbau ei-nes Sprachportals dargestellt werden.

2 Voice Business alsTeilmenge des E-Business

Unter E-Business (Electronic Business)wird die elektronische Unterstutzung allerGeschafts-, Interaktions- und Kommuni-kationsprozesse zwischen den verschiede-nen Marktteilnehmern uber elektronischeNetze verstanden. Der Begriff M-Business(Mobile Business) betont, dass diese Pro-zesse auch durch die mobilen Netze undmobile Zugangsgerate moglich sein sollen.Der Begriff V-Business (Voice Business)betont, dass die Prozesse durch den Ein-satz von Sprachtechnologien unterstutztwerden, sofern dies einen Mehrwert fur ei-nen der Teilnehmer am Markt darstellt.V-Business ist damit – wie M-Business –eine Teilmenge des E-Business.

3 Basistechnologienfur Sprachportale

Man unterscheidet je nach Einsatzgebiet

& die Sprachausgabe zur Verwandlungvon Text in – moglichst naturlich klin-gende – Sprache (Text-to-Speech, TTS),

WIRTSCHAFTSINFORMATIK 44 (2002) 3, S. 261–266

Die Autoren

Rainer BambergerAnne Konig

Dr. Rainer Bamberger,Infoman AG, Vaihinger Straße 169,D-70567 Stuttgart,Tel. (07 11) 6 79 71-0,Fax (07 11) 6 79 71-10,E-Mail: [email protected],http://www.infoman.de;Prof. Dr. Anne Konig,Technischen Fachhochschule Berlin,FB Wirtschafts- und Gesellschafts-wissenschaften,Luxemburger Straße 10,D-13353 Berlin,Tel. (0 30) 45 04-21 45,Fax (0 30) 45 04-20 01,E-Mail: [email protected],http://www.anne-koenig.de.

Voice BusinessAufbau von Sprachportalenmit dem Phone Manager

WI – Innovative Produkte

Page 2: Voice Business; Voice business;

& die Spracherkennung zur Verwandlungvon naturlich gesprochener Sprache inText (Automatic Speech Recognition,ASR),

& die Sprechererkennung zur Identifikati-on von Sprechern und

& die Sprachsteuerung zur Steuerung vonz. B. Computerprogrammen per Sprach-eingabe.

Die Sprachausgabe ist dabei technologischim Vergleich zur Spracherkennung daskleinere Problem (vgl. Bild 1): Die Appli-kation, z. B. eine Datenbank, stellt demSystem den zu verarbeitenden Text zurVerfugung. Das System konvertiert denText und generiert daraus einen digitalenAudio-Stream. Die Soundkarte konvertiertdiesen und gibt ihn uber ein Ausgabegerataus.

Die Sprachausgabe kann entweder uber dieAuswahl kleiner, naturlich gesprochenerund vorweg aufgezeichneter Sprachein-heiten (Voice Prompts) erfolgen, wie wir esz. B. bei Hinweistexten in telephonieba-sierten Dienstleistungen kennen („Wenn SieHilfe brauchen, dann drucken Sie die 3“),oder uber die so genannte Sprachsynthese.Wahrend die Voice Prompts von Sprechernjeweils gesprochen werden mussen, erlaubtdie Sprachsynthese ein unbeschranktes Vo-kabular, da auf Verfahren zuruckgegriffenwird, die den Text in kleinste Lauteinheiten(Phoneme) zerlegen und diese dann wiederzu Wortern und Satzen zusammenfugen.Die Phoneme werden aufgrund der sog.

Diphon-Technik meist nicht mehr kunst-lich erzeugt, sondern basieren auf auf-genommener menschlicher Sprache.

Nun wurde die reine Aneinanderreihungvon Phonemen – trotz der Diphon-Tech-nik – wegen der fehlenden Sprachmelodieund des fehlenden Sprachrhythmus (Pro-sodie) fur praktische Anwendungen quali-tativ nicht ausreichen – der Kunde ware obder monotonen und schlecht verstandli-chen Ansage wohl zurecht entnervt.

Einfachere Verfahren ermoglichen eine ge-wisse Sprachmelodie durch die Klassifizie-rung einzelner Worter in Inhalts- oderFunktionsworter, die dann unterschiedlichbetont werden. Komplexe Verfahren mitextrem hohen Anforderungen an die Rech-nerleistung analysieren ganze Satze, um de-ren Syntax und Morphologie fur die Melo-diebildung zu nutzen. Dazu wird der zusynthetisierende Text sowohl in eine pho-netische Darstellung konvertiert (Letter-to-Sound) als auch eine Prosodiebeschrei-bung generiert (Prosody Generation). Beider Berechnung der Prosodie sind daten-bankbasierte und algorithmische Verfahrenim Einsatz [vgl. Burk01a].

Die Herausforderung bei der Sprachaus-gabe ist also, wie man zusatzlich zu derAneinanderreihung von Phonemen eine alsangenehm empfundene Sprachmelodie er-zielen kann. „Angenehm“ heißt dabei nichtunbedingt „so menschlich wie moglich“.Nutzbarkeitsstudien zeigen, dass je nach

Einsatzgebiet eine „zu menschliche“ syn-thetische Sprache als verwirrend empfun-den wird [Peis01]. Bei der Auswahl dereinzusetzenden Technologie ist also ein an-wendungsbezogener Vergleich angeraten.Eine Online-Marktubersicht mit Testtex-ten, der von Felix Burkhard im Rahmen ei-nes Forschungsprojektes zusammengetra-gen wurde, ist im Internet abrufbar[Burk01b].

Die Spracherkennung (vgl. Bild 2) funktio-niert, vereinfacht dargestellt, umgekehrtzur Sprachausgabe. Das eingehende Signalwird uber ein Mikrofon mit Hilfe derSoundkarte digitalisiert. Dann wird es aufcharakteristische Merkmale wie Lautstarke,Tonhohe und Frequenzverteilung ana-lysiert. Die sich ergebenden Muster werdenmit Hilfe eines hochkomplexen Spracher-kenners mit dort gespeicherten Musternverglichen und als Text ausgegeben.

Die Leistungsfahigkeit eines Spracherken-nungssystems wird u. a. nach folgendenFaktoren beurteilt:

& Umfang des richtig erkannten Vokabu-larsDabei konnen Faktoren wie Umge-bungsgerausche, Wechsel der sprechen-den Person und die Verwendung vonUmgangssprache und Dialekten die Er-kennungsleistung deutlich beeinflussen.

& Unterscheidung, ob zur Spracherken-nung eine diskrete Sprechweise erfor-derlich ist, also jedes Wort fur sich ge-sprochen werden muss, oder ob derText kontinuierlich diktiert werdenkann, wie es beim normalen Sprechenublich ist.Bei Letzterem ist eine wesentlich hohereRechenleistung erforderlich, und Prob-leme bei Wortern, die auch zusammen-gesetzt einen Sinn ergeben, wie etwa bei„mehr wert“ und „Mehrwert“ sindkaum ganz vermeidbar.

& Unterscheidung, ob kontextsensitiveVerfahren bereits genutzt werdenKontextsensitive Technologien besitzeneinen gewissen Grad an Merkfahigkeit.Das bedeutet, dass der Fragesteller nichtin jedem Satz alle Fakten wiederholenmuss. Mochte ein Anrufer beim Wetter-dienst z. B. wissen, wie das Wetter an ei-nem bestimmten Ort wird, kann er dieFrage in naturlicher Sprache formulie-ren: „Wie wird nachste Woche das Wet-ter in Paris?“. Damit wird eine Daten-bankabfrage ausgelost, in der das Systemdie gewunschten Parameter wie Ort und

WIRTSCHAFTSINFORMATIK 44 (2002) 3, S. 261–266

Montag

Termin

Firma Jahn

MontagTermin

Firma Jahn

Laut-sprecher

Sound-Karte

Sprach-synthese

Sprach-ausgabe

Text-eingabe

Bild 1 Funktionsprinzip der Sprachausgabe (Text-to-Speech (TTS))

Gibt es

Neuigkeiten

aus Berlin?

Gibt esNeuigkeitenaus Berlin?

Sprecher-eingabe

MikrofonSound-Karte

Sprach-erkennung

Textausgabe

Bild 2 Funktionsprinzip der Spracherkennung (Automatic Speech Recognition (ASR))

262 Rainer Bamberger, Anne Konig

Page 3: Voice Business; Voice business;

Zeit erkennt. Durch die Kontextsensiti-vitat sind auch Anschlussfragen wie:„Und in London?“ zu verarbeiten, dadas System den Kontext erkennt und„weiß“, dass das Wetter und die nachsteWoche gemeint ist. Durch die Kontext-sensitivitat (Natural Language Under-standing) werden wesentlich komplexereund verschiedenartigere Nutzereingabenvom System akzeptiert.

& Unterscheidung, ob das Ablaufmodelldes Diktier- oder Dialogsystems zurAnwendung kommtDiktiersysteme konnen auf den Nutzertrainiert werden und sind damit „lernfa-hig“, wahrend Dialogsysteme von ver-schiedenen Anrufern genutzt werden.Damit wird die Große des hinterlegtenVokabulars mit moglichst vielenSprechvarianten entscheidend fur dieNutzerfreundlichkeit. Manche Dialog-systeme verwenden eine Kombinationaus Spracheingabe und der Ziffernein-gabe im Dual-Tone-Multi-Frequency(DTMF)- oder Touch-Tone-Verfahren.

Ebenfalls mit hinterlegten Mustern arbeitetdie Sprechererkennung. Dabei geht es da-rum zu erkennen, wer spricht. Wie bei derSpracherkennung wird versucht, eine aktu-ell gesprochene Sprachaußerung mit einergespeicherten �ußerung zu vergleichen.Dabei unterscheidet man zwischen derSprecherverifikation und der Sprecheriden-tifikation.

& Bei der Sprecherverifikation geht es da-rum zu erkennen, ob es sich um einenbestimmten Sprecher handelt oder nicht.Dieses Verfahren kann eingesetzt wer-den, um die Identitat eines Nutzers beieiner Anmeldung (z. B. in einem Bank-system) festzustellen. Hierzu legt derSprecher eine Sprachstichprobe in demVerifizierungssystem ab. Durch eineSprachaußerung, u. U. in Zusammen-hang mit einem Passwort, versucht sichder Sprecher dem System gegenuber zuverifizieren. Das System vergleicht dieseSprachaußerung mit den hinterlegtenSprachstichproben und verifiziert so dieIdentitat des Sprechers.

& Bei der Sprecheridentifikation geht esdarum, einen bislang unbekannten Spre-cher zu erkennen, um ihn beispielsweisezu begrußen. Ein weiterer Anwen-dungsfall ist die Kriminalistik. Bei die-sem Verfahren wird die Sprachaußerungmit allen vorhandenen gespeichertenSprachstichproben verglichen und soversucht, das großtmogliche Maß an�hnlichkeit zu finden.

Die Sprechererkennung kann in biometri-schen Zugangskontrollsystemen oder alsZugangsschutz fur Computer eingesetztwerden. Hier gibt es auch bereits Systemefur den privaten Gebrauch, wie etwa dieVoice Security Card.

Die Sprachsteuerung basiert technologischebenfalls auf den ASR-Verfahren. Grund-idee ist, Computerprogramme zusatzlichzu Menu und Maus uber die Sprache zusteuern. Der Mehrwert wird vor allemdann ersichtlich, wenn man die Weiterent-wicklung der Spracherkennung durch um-fangreiche Synonymworterbucher und dieweiter verbesserte Kontextsensitivitat be-trachtet. So brauchte man z. B. die Bedie-nungsanleitung des Videorecorders nichtmehr auswendig zu lernen, sondern ihmeinfach zu sagen, wann er welchen Filmaufnehmen soll. Forschungsarbeiten in derAutomobilindustrie setzen stark auf Spra-che als Steuerungsmittel, da Hande, Augenund Beine ja durch das Fahren bereits be-schaftigt sind [Ihm02].

Viele der heutigen Anwendungen arbeiteninteraktiv, also mit einer Kombination ausden Verfahren Spracherkennung undSprachausgabe. Losungen wie etwa Inter-active-Voice-Response (IVR)-Systeme ge-ben Informationen an den Benutzer ausoder erfragen selbst Informationen vonihm. Diese Informationen werden dannentweder einzelfallabhangig aus einer Da-tenbank herausgezogen, oder es liegt ledig-lich eine begrenzte Menge an Informatio-nen vor, die man vorher aufgezeichnet hat.Eingaben des Benutzers konnen in der Da-tenbank gespeichert werden.

4 Integration von Sprachein E-Business-Anwendungen

Bei den Voice-Business-Anwendungen un-terscheidet man zwischen

& reinen Sprachportalen, die ausschließlichuber das Telefon genutzt werden kon-nen,

& Spracheingangsportalen, die einem per-sonlichen Telefonkontakt vorgeschaltetwerden, und

& integrierten Losungen, in denen der Zu-griff auf Informationen und die Kom-munikation uber verschiedene Medienerfolgen kann.

Ein reines Sprachportal ist beispielsweisedas Informationsportal 0190-055555 derDeutschen Telekom. Er verbindet unter ei-ner Telefonnummer und mittels dyna-mischer Tarifierung die klassischen Dienstewie Zeitansage, Wetter und Borse mitneueren Informationsdiensten wie Nach-richten und Freizeitangebote.

Neuere Funktionen in reinen Sprachporta-len sind

& Personalisierungen, wie sie z. B. in Formdes sprachgesteuerten Anlegens und Ab-fragens von selbst hinterlegten Telefon-nummern – inklusive des sprachgesteu-erten Verbindens – inzwischen bei allenMobilfunkanbietern erhaltlich sind und

& Lokalisierungen (Location-Based Ser-vices), also die Verknupfung vonInformationsdienstleistungen mit demjeweiligen Standort, an dem sich derMobilfunknutzer befindet.

WIRTSCHAFTSINFORMATIK 44 (2002) 3, S. 261–266

Kernpunkte fur das Management

Mit dem Phone Manager werden komplexe Sprachdialoge, sog. „Call Flows“, generiert. MitHilfe einer intuitiven browserbasierten Nutzeroberflache konnen die verschiedenen Kom-ponenten innerhalb eines Sprachdialogs, wie der Ablauf von Sprachprompts (vorher auf-genommene Texte), Text-to-Speech, Automatic Speech Recognition, Voice Mails, Fax-on-de-mand, direkte Verbindung in das Call-Center oder zu einzelnen Sachbearbeiten u. a. m.aufgaben- und kundenspezifisch erstellt werden. Außerdem ermoglicht der Phone Managerdie Verknupfung von Festnetz, mobilen Diensten, Datenbanken und anderen computerba-sierten Anwendungen. Durch die Einhaltung des ECTF-Standards kann die Anwendung inpraktisch jede technische Infrastruktur integriert werden.

Stichworte: mobile Dienste, CTI Computer Telefony Integration, Sprachportale, TTS Text toSpeech, ASR Automatic Speech Recognition

Voice Business 263

Page 4: Voice Business; Voice business;

Sprachportale werden auch haufig einemCall-Center vorgeschaltet, um den Anruferzu identifizieren, Hilfedienste abzurufenund um den Anrufer mit Hilfe des Skill-Based Routing in die richtige Gruppevon Sachbearbeitern weiterzuleiten. DieseSpracheingangsportale konnen bei �berlastoder außerhalb der Geschaftszeiten auchals intelligente Anrufbeantworter genutztwerden, indem der Anrufer eine Voice Mailhinterlasst, die dann per Spracherkennungam nachsten Morgen dem richtigen Sach-bearbeitern als Text und als angehangteSprachdatei zur Verfugung steht.

5 Funktionsumfangdes Phone Managers

Als Beispiel fur den Funktionsumfang ei-nes Systems zur Erstellung reiner Sprach-portale und Spracheingangsportale wird imfolgenden der „Phone Manager“ der Info-man AG beschrieben. Dieses Out-of-the-box-Produkt baut auf der Plattform „Cor-porate Info Center“ auf, die u. a. von derDeutschen Telekom AG eingesetzt wirdund auf den Standards des EnterpriseComputer Telephony Forums ECTF ba-siert. Das ECTF ist ein Non-Profit-Zu-sammenschluss von uber 100 Firmen (u. a.Intel, Siemens, Philips, Alcatel) zur Sicher-stellung der Offenheit der Computer-Tele-fonie. Der Phone Manager ist praktisch injede vorhandene hardware- und software-technische Infrastruktur integrierbar.

Mit dem Phone Manager werden die Tele-fondialoge, also die Prozesse, die bei Anru-fen erfolgen sollen („Call Flows“), ubereine Weboberflache generiert und adminis-triert.

Die Komplexitat einer solchen Softwarewird deutlich, wenn man sich die unter-

schiedlichen Einsatzmoglichkeiten ver-gegenwartigt. So soll eine solche System-konfiguration und Software nicht nur alsreines Sprachportal mit automatisierten in-teraktiven Sprachdialogen fungieren, son-dern auch als Eingangsportal von Call-Centern und Telefonzentralen. Auf derSeite des einsetzenden Unternehmens dientes damit der Rationalisierung eingehenderAnrufe (Inbound). Zusatzlich soll die Soft-ware und Hardware die Prozesse bei aus-gehenden Anrufen (Outbound), und hierinsbesondere bei großeren Marketingkam-pagnen, unterstutzen.

Auf der Seite des Anrufers soll der Zugangzu automatisierten Sprachdiensten mog-lichst schnell und einfach sein. Dies erfor-dert ein System, das z. B. bei Neunutzerneinen anderen Sprachdialog nutzt als beiNutzern, die bereits mit dem Sprachportalvertraut sind (Power User). Damit Nutzereinen bereits bekannte Ansage- oder Aus-wahltexte abbrechen konnen, gehort das sogenannte „Gegensprechen“ (Barge-in) zurUnterbrechung des laufenden Ansagetextesebenfalls zu den Grundanforderungen in-novativer Sprachportalsoftware.

Zur Erlauterung einiger Funktionalitatendes Phone Managers soll ein Anwendungs-beispiel vorangestellt werden:

Ein Reiseveranstalter will die Dienstleis-tungsqualitat seines Call-Centers erhohen– ohne Erweiterung der Personalkapazita-ten, aber mit erhohter Kundenzufrieden-heit. Einige Anforderungen sind:

& Bestimmte Typen von Anfragen, z. B.die Bestellung eines Kataloges, sollen sohaufig wie moglich ohne personlichenKontakt vom Kunden durchgefuhrtwerden konnen. Dabei soll der Kundeaber keine aufwandigen telefonischenAbfragen beantworten mussen. Fur die-se Anforderung mussen zum einen dieTelefontasten mit verschiedenen CallFlows hinterlegt werden. Nach der Be-grußung stellt das System dem Nutzerdie Funktionalitaten vor: „Fur die direk-te Bestellung eines Kataloges druckenSie bitte die vier“. Wenn der Kunde diesgemacht hat, wird ein weiterer CallFlow abgearbeitet, der den Kunden –nach entsprechender Erlauterung – aufeinen virtuellen Anrufbeantworterschickt und die „Voice Mail“ aufnimmt.Diese vom Kunden frei besprocheneSprachdatei wird dann – als Spracheoder mit ASR als Text – direkt zum

Versand weitergeleitet (vgl. Bilder 4und 5).

& Der Kunde kommt uber drei Tochter-unternehmen mit unterschiedlichemMarkenauftritt auf das Call-Center zu –nennen wir die drei Tochter „ReisenPer-fekt“, „JugendReist“ und „ReisenBil-det“. Die Begrußung muss also – je nachvom Kunden gewahlter Telefonnummer– unterschiedlich sein (vgl. Bild 6).

& Im Call-Center bearbeiten alle Mitarbei-ter alle Tochterunternehmen. Aus-gewahlte Mitarbeiter sind aber beson-ders gut fur einzelne Anbieterqualifiziert. Ruft ein Kunde z. B. mitder Telefonnummer von „JugendReist“an, soll er in erster Prioritat an die kom-petentesten Mitarbeiter gelangen underst bei deren �berlast in die gesamteGruppe. Dies ist eine klassische Auf-gabenstellung fur das „Skill-BasedRouting“.

& Bestimmte Informationen soll der Kun-de auch direkt per Fax anfordern kon-nen. Ein entsprechender Sub-Call-Flowfuhrt ihn also durch die Auswahlmog-lichkeiten von Fax-Infoseiten zum di-rekten Abruf (Fax-on-demand).

Bild 3 zeigt schematisch die Arbeitsweisedes Phone Managers.

Nach einem eingegangenen Anruf (oderauch einem eingegangenen Fax) wird an-hand der vom Kunden gewahlten Telefon-nummer ein entsprechender Call Flow aus-gewahlt. Der erste Einstieg fur denKunden ist meist, nach dem Begrußungs-text Eingaben uber die Telefontastatur zumachen oder Steuerungsansagetexte zusprechen. Die im Bild 3 dargestellte ersteEbene besteht hier aus neun Auswahlmog-lichkeiten. Hier werden entweder bereitsden Call Flow abschließende Aktionenausgefuhrt – z. B. das direkte Durchstellenan einen Sachbearbeiter – oder es erfolgtein Untermenu, z. B. die Auswahl derForm der Ansage bis hin zur Voice Mailoder zum Fax.

Bild 4 zeigt die Oberflache des PhoneManagers. Geoffnet ist das Menu „CallFlows“, in dem die Telefontastenbelegungdefiniert wird. Druckt der Kunde dieTaste 1, ist eingestellt, dass er weitergeleitetwird in das Call-Center selbst. Druckt erdie Taste 2, wird der Call Flow fur die Ak-tivierung der Voice Mail gestartet usw. AufWunsch konnen statt des Druckens derTasten mit dem DTMF-Tonwahlverfahrenauch Spracheingaben des Kunden erfolgen.

WIRTSCHAFTSINFORMATIK 44 (2002) 3, S. 261–266

Anruf, Fax

Kundenzugang (Telefonnummer)

Call Flow: Menüs

FaxboxVoicemailCall Center/Warteschlange

Bild 3 Grundprinzip von Call-Flow-Strukturen

264 Rainer Bamberger, Anne Konig

Page 5: Voice Business; Voice business;

Bild 5 zeigt mogliche Einstellungen derVoice Mailbox. Durch den Typ „Ticket“wird festgelegt, dass die Nachricht spaterper E-Mail – versehen mit einer Auftrags-nummer und ggf. bereits verknupft mit derKundendatenbank (wenn die Telefonnum-mer des Kunden uber ISDN erkannt wer-den konnte) – an einen dafur zustandigenSachbearbeiter im Versand weitergeleitetwird.

Bild 6 zeigt die Oberflache zum Einstellendes unterschiedlichen Kundenzugangs.Kunden, die mit dem Reiseveranstalter„JugendReist“ sprechen wollen und dessenTelefonnummer 030-5677899 wahlen, er-halten den entsprechenden Begrußungstextsowie den dann folgenden speziellen CallFlow.

Weitere Funktionalitaten des Phone Mana-gers sind u. a.:

& Unterstutzung von Outbound-Kampa-genen durch Power Dialing (Einrich-tung zum automatischen Aufbau vonabgehenden Telefongesprachen – derCall-Center-Agent wird erst dann kon-taktiert, wenn der Angerufene abge-hoben hat) und deren Weiterentwick-lungen durch Predictive Dialing(Anpassung der Kapazitaten von Agen-ten an die hergestellten Verbindungen)sowie Preview Dialing (die Kunden-informationen werden auf dem Bild-schirm als Preview vor der eigentlichenKonnektierung des Angerufenen mitdem Anrufer automatisch bereitgestellt),

& Statistiken uber das Anrufverhalten imCommunication Center,

& Unterstutzung von innerbetrieblichenVorgangen wie Wiedervorlage, Auf-tragsgenerierung und -verfolgung inForm von Tickets.

& Integrationsmoglichkeiten fur Internet-,SMS- und WAP-Dienstleistungen,

Ein Anwendungsbeispiel fur eine mehrereMedien integrierende Losung wurdekurzlich von DeTeMedien in Kooperationmit Immobilien24 in Berlin vorgestellt:der sprachgesteuerte Inseratservice„Call þ Find“ [Gole01]. Aufbauend auf ei-nem internetbasierten Immobilienangebotkann ein Wohnungssuchender per Internetoder jetzt eben auch per Telefon sein Such-profil eingeben – dies erfolgt nicht mitendlosen Tastenkombinationen oder demWarten auf Eingabebefehle, sondernsprachgesteuert. Sind alle Eingaben ge-macht, erhalt der Kunde eine PIN, diegleichzeitig auch die Kundennummer fest-

legt. Die Objektsuche ist unmittelbar mitder Inserate-Datenbank von Immobilien24verbunden und sucht nun passende Ob-jekte nach den Angaben des Nutzers he-raus.

Auf welche Weise der Interessent benach-richtigt werden will, legt er ebenso selbstfest wie die Intervalle und die Art, in denener neue Informationen empfangen mochte– per SMS, per Anruf mit Vorleseservice

WIRTSCHAFTSINFORMATIK 44 (2002) 3, S. 261–266

Bild 4 Der Phone Manager – Ansicht „Call Flow“ [Info02]

Bild 5 Der Phone Manager – Einstellungsmoglichkeiten einer Voice Mailbox als Teileines Call Flows

Voice Business 265

Page 6: Voice Business; Voice business;

oder auch per Fax. Letzteres kann er zu-satzlich fur die Zusendung des Grundrissesnutzen.

6 Ausblick

„Sprache ist die naturlichste Formmenschlicher Kommunikation“. Mit die-sem Satz beginnen viele euphorische Zu-kunftsszenarien, die von einer hohen Ak-zeptanz von sprachgesteuertenAnwendungen fur Endverbraucher, aberauch im B2B-Bereich, ausgehen und eineebenso hohe Zahlungsbereitschaft fursprachgesteuerte Dienste unterstellen.Sieht man sich die Zugangsbeschrankun-gen zum Internet an und berucksichtigt,dass eine Tastatureingabe einfach zwin-gend dem Trend zur Miniaturisierung vonmobilen Endgeraten entgegensteht, istman geneigt, dem Glauben zu schenken.Die Qualitat und der Funktionsumfangder heute erhaltlichen Produkte fur dieComputer-Telefonie-Integration, fur dieSpracherkennung, Sprachsteuerung undSprachausgabe setzen der Phantasie furinteressante Anwendungen kaum Gren-zen. Fur die Entwickler von sprach-

gesteuerten Losungen kommen aber neueergonomische Herausforderungen hinzu:Ergonomiestudien des Fraunhofer-IAOzeigen, dass im Umgang mit ihrer natur-lichsten Kommunikationsform „Sprache“Menschen sehr wenig tolerant gegenubernutzerunfreundlichen Losungen sind

[Peis01]. Die Gestaltung von Call Flowskann ein zukunftstrachtiges Arbeitsfeldund ausschlaggebend fur die Akzeptanzder Losungen werden.

Literatur

[Burk01a] Burkhardt, Felix: Simulation emotiona-ler Sprechweise mit Sprachsyntheseverfahren.Dissertation an der TU Berlin, Shaker Verlag2001.

[Burk01b] Burkhardt, Felix: Demonstrationendeutschsprachiger text-to-speech (TTS) Systeme,Stand 2001-10-23, http://www.kgw.tu-berlin.de/~felixbur/ttsDemos_ger.html, Abruf am2002-02-24.

[Clar02] Clarity AG: Mission, http://www.clarity-ag.net/unternehmen.php?sm=ja, Abruf am2002-02-24.

[Gole01] Golem.de IT-News fur Profis: Abfragevon Web-Daten per Telefon. Meldung vom01. 11. 01, http://www.golem.de/0111/16682.html, Abruf am 2002-03-15.

[Ihm02] Ihm, Harry: Das große Spracherken-nungsbuch, http://www.spracherkennung.de/service/sebuch.htm, Abruf am 2002-02-24.

[Info02] Infoman AG: Customer CommunicationPortal Phone Manager, Technical White Paper,http://www.infoman.de, und Demonstrations-server, http://demo02.infoman.de/CcpWeb/,Abruf am 2002-03-09.

[Peis01] Peissner, Matthias: Erfolgsfaktor Usability– User-Centered Design als Basis profitablerMehrwertdiente. Vortrag auf der Tagung desVoice Solution Centers, 2002-02-07, Stuttgart.

[VSC02] Voice Solution Center, http://www.voice-solution.de, Abruf am 2002-02-24.

[Zbor02] Zboril, Daniel: Einfuhrung in die Sprach-synthese, http://www.phonetik.uni-muenchen.de/Lehre/Skripten/Seminare/HS/Synthese.html,Abruf am 2002-02-24.

WIRTSCHAFTSINFORMATIK 44 (2002) 3, S. 261–266

Bild 6 Der Phone Manager – Ansicht „Kundenzugang“ [Info02]

Abstract

Voice business – establishing speech portals using Phone Manager

Phone Manager is a system that generates and manages speech dialogues, so-called callflows. With the help of a browser based interface the different components within a linguisticdialogue can be created in a task-specific and customer-specific way. Examples are the flowof speech prompts (previously recorded phrases), text-to-speech, automatic speech recogni-tion, voice mails, fax on demand, direct connection to the call center or to separate opera-tors, and many more. Additionally, the Phone Manager enables the combination of fixedtelephone network, mobile services, data base and other computer based applications. Theapplication can be integrated into virtually every technical infrastructure by compliance withthe ECTF-standard.

Keywords: mobile services, CTI computer telephony integration, voice portal, TTS text tospeech, ASR automatic speech recognition

266 Rainer Bamberger, Anne Konig