Sprachbedienung im Automobil Teilautomatisierte Entwicklung benutzerfreundlicher Dialogsysteme
Stefan W. Hamerich
Sprachbedienung im Automobil Teilautomatisierte Entwicklung benutzerfreundlicher Dialogsysteme
ABC
Stefan W. Hamerich Harman/Becker Automotive Systems GmbH Söflinger Str. 100 89077 Ulm
[email protected]
ISBN 978-3-642-01615-8 e-ISBN 978-3-642-01616-5 DOI 10.1007/978-3-642-01616-5 Springer Heidelberg Dordrecht London New York Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Springer-Verlag Berlin Heidelberg 2009 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandentwurf: eStudio calamar S.L., Figueres/Berlin Gedruckt auf säurefreiem Papier Springer ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.com)
Danksagung
Das vorliegende Buch resultiert aus meiner langen Leidenschaft f¨ ur das Thema der automatischen Sprachverarbeitung und entstammt meiner Dissertation in der Informatik an der Universit¨ at Hamburg. Da die Erstellung dieser Schrift viel Zeit und Arbeit erfordert hat, m¨ ochte ich an dieser Stelle einigen Personen danken, die einen gr¨ oßeren Beitrag zum Gelingen meines Promotionsprojekts und zur vorliegenden Ver¨ offentlichung geleistet haben. An erster Stelle danke ich meinem Betreuer und Doktorvater Walther von Hahn von der Universit¨ at Hamburg. Er hat noch zu Studienzeiten mein Interesse am Thema der Sprachverarbeitung geweckt und nach Abschluss meines Studiums und Wechsel in die Industrie mein Promotionsvorhaben von Anfang an sehr unterst¨ utzt. Er gab mir wertvolle Hinweise und war mir ein großer Motivator in den Sinnkrisen der Dissertation. Und obwohl ich als externer Doktorand selten pers¨ onlich in Hamburg anwesend war, f¨ uhlte ich mich stets allerbestens betreut und danke f¨ ur E-Mails und Telefonate aus dem Urlaub und nach Feierabend sehr herzlich. Meinem selbst erkorenen zweiten Beteuer Wolfgang Minker von der Universit¨ at Ulm danke ich f¨ ur seine hilfreichen Anmerkungen und Tipps, stete Nachfragen und f¨ ur die Vermittlung wertvoller Diplomanden. F¨ ur seine Unterst¨ utzung in der Vorbereitung meiner Disputation danke ich ebenfalls herzlich. Außerdem danke ich ihm sehr f¨ ur die nicht nachlassende Motivation dieses Buchprojekts und die Herstellung des Kontakts mit dem Springer-Verlag. Ich bedanke mich ausdr¨ ucklich bei Wolfgang Menzel von der Universit¨at Hamburg daf¨ ur, dass er sich ohne vorherige Absprachen als dritter Gutachter meiner Arbeit zur Verf¨ ugung gestellt hat. Es hat mich gefreut, auf diese Art mit einem mir wohlbekannten Professor aus Studententagen wieder in Kontakt zu treten. F¨ ur die wohlwollende Unterst¨ utzung und F¨orderung meines Promotionsvorhabens neben meiner Berufst¨ atigkeit bei Harman/Becker bin ich Marcus Hennecke, Gerhard Hanrieder und Udo Haiber sehr dankbar. Ein großer Dank f¨ ur administrative Unterst¨ utzung geht an Karin Jarck und Cristina Vertan von der Universit¨ at Hamburg.
VI
Des Weiteren danke ich meinen Kollegen von Harman/Becker f¨ ur ihren Anteil am Gelingen meines Promotionsvorhabens, besonderen Dank f¨ ur großen Einsatz und Unterst¨ utzung schulde ich dabei: Dirk Aicher, Dirk B¨ uhler, Rainer Gruhn, Viola Hoff, Bernd Iser, Thomas Krippgans, Patrick Langer, Volker Schleß, Lena Wang, Rita Winter und Stefan Zimmermann. Ein tiefer Dank gilt meinen Eltern f¨ ur ihre stete Unterst¨ utzung und nicht nachlassende Motivation. F¨ ur ihre Unterst¨ utzung, ihr Verst¨ andnis und ihre Geduld danke ich meiner Frau Sandra. Die Erstellung der Dissertation hat uns in den letzten Jahren unz¨ ahlige gemeinsame Tage und Stunden gekostet. Ich freue mich sehr darauf, k¨ unftig mehr Zeit mit ihr und unserer kleinen Familie zu verbringen. Schlussendlich danke ich Frau Eva Hestermann-Beyerle vom SpringerVerlag f¨ ur ihr Interesse am Thema und dieser Ver¨offentlichung.
Ulm im Fr¨ uhjahr 2009 Stefan Hamerich
Inhaltsverzeichnis
1
Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Rahmenbedingungen dieses Buches . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Dialogsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Das Schichtenmodell der Sprachdialogmodellierung . . . . . . . . . . 4 1.4 Motivation und Zielsetzung des Buches . . . . . . . . . . . . . . . . . . . . . 6 1.5 Sprachdialogsysteme im Automobil . . . . . . . . . . . . . . . . . . . . . . . . 7 1.6 Das Werkzeug DiaGen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.7 Der proaktive TMC-Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.8 Aufbau des Buches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2
Grundlagen der Dialogtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 2.1 Dialog und Außerung .................................... 2.2 Dialogregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Dialogakte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Dialogmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Zustandsbasierte Modellierung . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Regelbasierte Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Planbasierte Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.4 Statistische Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.5 Dialogmodellierung in automobilen Systemen . . . . . . . . . 2.5 Dialogsteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Dialogstrategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.1 Direktive Dialogstrategie . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.2 Reaktive Dialogstrategie . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.3 Kooperative Dialogstrategie . . . . . . . . . . . . . . . . . . . . . . . . 2.6.4 Mischformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Dialogdom¨ ane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8 Dialogziel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 Dialogparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 Dialogdesign . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.11 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13 13 14 15 16 17 17 18 18 19 21 22 22 22 22 23 23 24 24 25 26
VIII
Inhaltsverzeichnis
3
Sprachdialogsysteme im Automobil . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Warum Sprache im Automobil? . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Systemdefinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Sprachdialogsystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Sprachbediensystem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Systemanforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Hardwareanforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Spezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Integration in automobiles HMI . . . . . . . . . . . . . . . . . . . . . 3.3.4 Bedienbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Systemarchitektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Spracheingabe und akustische Vorverarbeitung . . . . . . . . 3.4.2 Spracherkennung und Parsing . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Dialogmanager . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.4 Headunit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.5 R¨ uckmeldungen des Systems . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Systemintegration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Funktionalit¨ aten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Nummernwahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.2 Namenswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.3 Zieleingabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.4 Radiosteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.5 Steuerung des Medienspielers . . . . . . . . . . . . . . . . . . . . . . . 3.6.6 Internetzugriff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.7 Funktionszuw¨ achse am Beispiel Linguatronic . . . . . . . . . . 3.7 Vergleich mit serverbasierten Dialogsystemen . . . . . . . . . . . . . . . 3.7.1 Anwendungsdom¨ anen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.2 Systemarchitektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.3 Beispielsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.4 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 Dialogsysteme im Alltag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27 27 31 31 32 32 32 33 34 35 35 36 37 39 39 40 41 44 44 45 46 47 48 48 49 49 50 51 54 56 56 58
4
Benutzerfreundliche Sprachdialoge im Automobil . . . . . . . . . . 4.1 Benutzerfreundlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Benutzerfreundlichkeit von Sprachdialogen . . . . . . . . . . . . . . . . . . 4.3 Evaluation von Sprachdialogen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Performanzevaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Benutzerevaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Vergleichende Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Evaluationsm¨ oglichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Wizard of Oz Versuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 4.4.2 Uberwachte Systembenutzung . . . . . . . . . . . . . . . . . . . . . . . 4.4.3 Simulierte Benutzertests . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61 61 62 67 67 68 68 69 69 69 70
Inhaltsverzeichnis
IX
4.4.4 Besonderheiten f¨ ur die Dom¨ ane der Sprachbedienung im Automobil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Ans¨ atze f¨ ur benutzerfreundliche Sprachdialoge . . . . . . . . . . . . . . 4.5.1 Nat¨ urliche Sprache als Problem? . . . . . . . . . . . . . . . . . . . . 4.5.2 Adaptive Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.3 Dialogstrategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.4 Pr¨ asentation von Ergebnislisten . . . . . . . . . . . . . . . . . . . . . 4.5.5 Sprachausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70 71 71 73 75 76 76 77
5
Beschreibung von Sprachdialogen . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Programmierung von Dialogen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Dialogbeschreibungssprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 GDML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Weitere Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 Vergleich GDML und VoiceXML . . . . . . . . . . . . . . . . . . . . 5.3 Grammatikbeschreibungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 BNF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 JSGF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.3 GSL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.4 SRGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79 79 80 81 86 90 95 96 96 97 98 99
6
Teilautomatisierte Modellierung von Dialogen . . . . . . . . . . . . . 101 6.1 Graphischer Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.1.1 CSLU-Toolkit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.1.2 REWARD-Projekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.1.3 DiaMod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.1.4 GUIDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.1.5 VoiceObjects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.2 Textueller Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 6.2.1 GEMINI-Projekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
7
Das Entwicklungswerkzeug DiaGen . . . . . . . . . . . . . . . . . . . . . . . . 111 7.1 Anforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 7.1.1 Betriebssystem und Programmiersprache . . . . . . . . . . . . . 112 7.1.2 Zielgruppe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 7.1.3 Einsatzszenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 7.1.4 Dialogbeschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 7.1.5 Dialogmodellierungsart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 7.1.6 Editierbarer Dialogquellcode . . . . . . . . . . . . . . . . . . . . . . . . 113 7.1.7 Beschleunigung der Dialogerstellung . . . . . . . . . . . . . . . . . 114 7.1.8 Schnelles Aufsetzen von neuen Projekten . . . . . . . . . . . . . 114 7.1.9 Unterst¨ utzung von Codebibliotheken . . . . . . . . . . . . . . . . . 114
X
Inhaltsverzeichnis
7.2 7.3
7.4 7.5
7.1.10 Einfachere Integration von neuen Schnittstellen . . . . . . . 115 7.1.11 Einbindung von Compiler und Ablaufumgebung . . . . . . . 115 7.1.12 Konsistenz zwischen Grammatik und Dialog . . . . . . . . . . 115 7.1.13 Zukunftssicherheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 7.1.14 Softwarequalit¨ at . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Entwicklung von DiaGen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Eigenschaften von DiaGen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7.3.1 Systemanforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7.3.2 Wartung und Erweiterbarkeit . . . . . . . . . . . . . . . . . . . . . . . 117 7.3.3 Nutzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7.3.4 Quellcodeeditor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7.3.5 Kontextmen¨ u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 7.3.6 Projektbearbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 7.3.7 Schnittstellenerweiterung . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 7.3.8 Dialoge kompilieren und testen . . . . . . . . . . . . . . . . . . . . . . 122 7.3.9 Konsistenz zwischen Grammatik und Dialog . . . . . . . . . . 123 7.3.10 Erstellung benutzerfreundlicher Dialoge . . . . . . . . . . . . . . 125 Evaluation von DiaGen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
8
Proaktiver TMC-Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 8.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 8.1.1 Proaktiver Dialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 8.1.2 TMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 8.2 Stand der Technik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 8.3 Idee f¨ ur proaktive TMC-Dialoge . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 8.4 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 8.5 Szenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 8.6 Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 8.7 Konstruktion des Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 8.7.1 Spezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 8.7.2 Dialogerstellung mit DiaGen . . . . . . . . . . . . . . . . . . . . . . . . 135 8.7.3 TMC-Service Komponente . . . . . . . . . . . . . . . . . . . . . . . . . . 135 8.7.4 Konstruktionsaufwand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.8 Evaluation des Sprachdialogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.8.1 Versuchsaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.8.2 Evaluation des TMC-Dialogs . . . . . . . . . . . . . . . . . . . . . . . . 138 8.8.3 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 8.8.4 Bewertung der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . 145 8.9 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
9
Zusammenfassung und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 9.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 9.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Inhaltsverzeichnis
XI
DiaGen Benutzerprotokoll . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 Beispieldialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 B.1 Ohne Umleitungsalternativen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 B.2 Mit Umleitungsalternativen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 Fragebogen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 Abbildungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 Tabellenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 Abk¨ urzungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
1 Einleitung
Die nat¨ urlichsprachliche dialogische Kommunikation mit Maschinen ist bereits seit langer Zeit ein Traum der Menschheit. Nie mehr m¨ ussten Gebrauchsanleitungen gelesen werden; Videorekorder, Waschmaschinen und andere n¨ utzliche Helfer w¨ urden ganz einfach auf die per Sprache vorgetragenen W¨ unsche ihrer Benutzer reagieren und gegebenenfalls nachfragen, wenn sie etwas nicht verstanden haben. Im Idealfall sollte dann auch irgendwann die Kommunikation mit dem eigenen PC so einfach sein, wie die mit dem legend¨aren Bordcomputer auf dem Raumschiff Enterprise. Seit mehr als dreißig Jahren gibt es Bestrebungen, diesem Idealziel m¨oglichst nahe zu kommen. So ist seit den 1970er Jahren das Grundprinzip der statistischen Spracherkennung bekannt [Jelinek 1976] und an der Universi¨at Hamburg wurde mit HAM-RPM eines der ersten Dialogsysteme vorgestellt [von Hahn et al. 1978]. Schon in den 1980er Jahren stellte die IBM einen Spracherkenner vor, der auf einem handels¨ ublichen PC arbeitete [Averbuch et al. 1986]. Fast gleichzeitig wurden erste gesprochen-sprachliche Dialogsysteme vorgestellt [Allen et al. 1982, Niedermair 1987]. Diktiersysteme f¨ ur den heimischen PC sind mittlerweile in jedem Kaufhaus erh¨ altlich und in der Telekommunikation sind sprachgesteuerte Auskunftsysteme – wie die automatische Fahrplanauskunft der Bahn (vgl. Abschnitt 3.7.3) – schon lange nicht mehr ungew¨ohnlich. Selbst im Automobil ist die Sprache inzwischen angekommen: 1996 wurde das Sprachbediensystem Linguatronic zum ersten Mal Kunden von Mercedes-Benz angeboten (siehe Abschnitt 3.6.7). Inzwischen ist die Sprachsteuerung im Kfz nicht mehr auf einen Fahrzeughersteller beschr¨ ankt; fast jeder große Hersteller bietet eine Sprachsteuerung, zumindest f¨ ur das Telefon, an [Hanrieder 2004]. Dass Sprachtechnologie nicht mehr nur ein reines Forschungsthema ist, belegen Studien [Rademacher 2004] und Unternehmens¨ ubernahmen (v.a. durch Nuance/Scansoft und Microsoft) in den letzten Jahren. Es gibt mehrere Firmen, die ausschließlich oder zu einem großen Teil mit dieser Technologie ihr Geld verdienen. Angefangen von der akustischen Vorverarbeitung, u ¨ber Spracherkennung, Dialogbeschreibungen und Dialogmodellierungswerkzeuge,
2
1 Einleitung
bis hin zur Sprachsynthese. Zus¨ atzlich gibt es mehrere Komplettanbieter, welche die gesamte Sprachsteuerung einer Telefonzentrale anbieten. Doch auch wenn die Grundlagen von Sprachdialogsystemen seit mehreren Jahren bekannt sind, sie als Produkte bereits verkauft werden und Benutzererfahrungen vorliegen, gibt es noch gen¨ ugend Forschungsbedarf. Dieser Bedarf ist besonders hoch im Bereich der automobilen Sprachsysteme, die als eingebettete Systeme eine wenig beachtete, aber durchaus bemerkenswerte, Rolle unter den Dialogsystemen einnehmen. Die Besonderheit der automobilen Systeme liegt allerdings nicht nur in ihrer Einbettung ins Automobil, sondern auch darin, dass sie als Nebenaufgabe (engl. secondary task ) zur haupts¨achlich wichtigen Fahraufgabe lediglich die geteilte Aufmerksamkeit des Fahrers haben. Damit unterscheiden sie sich deutlich von den telefonbasierten Systemen, welche in der Regel die alleinige Aufmerksamkeit des Nutzers genießen. Auf Grund dieser Besonderheiten widmet sich das vorliegende Werk den automobilen Sprachsystemen. Insbesondere geht es dabei um das Dilemma der Modellierung von Dialogen f¨ ur den automobilen Einsatz.
1.1 Rahmenbedingungen dieses Buches Das vorliegende Buch entstand als Hintergrundforschung aus der beruflichen Praxis des Autors in der Forschung und Produktentwicklung von automobilen Sprachbediensystemen bei der Firma Harman/Becker Automotive Systems (HBAS) in Ulm. Dabei sind die Ergebnisse jedoch nicht produktgebunden und daher der Produktentwicklung weit voraus. Die grundlegende Idee f¨ ur das Thema dieses Werkes entstammt der Mitarbeit im EU-gef¨ orderten Forschungsprojekt GEMINI, welches sich mit der semiautomatischen Generierung von telefonischen Sprachdialogapplikationen aus einer Datenbankbeschreibung besch¨ aftigte (mehr dazu in Abschnitt 6.2.1). Da jedoch aus Sicht des Autors im Projekt GEMINI einige grundlegende Punkte nicht bearbeitet wurden, entstand der Gedanke, diese innerhalb des vorliegenden Buches zu vertiefen. Bedingt durch die berufliche Orientierung auf automobile Systeme und die gr¨ oßeren Herausforderungen an die Dialogmodellierung f¨ ur diese Systeme wurde diese Ausarbeitung dann auf die Anwendungsform der Kfz-Systeme u ¨bertragen. Der Autor konnte dabei sowohl auf die Erfahrungen des GEMINI-Projekts, wie auch auf die technische Infrastruktur von HBAS zur¨ uckgreifen. Letzteres bot vor allem die M¨oglichkeit ein im Rahmen des vorliegenden Werkes erstelltes prototypischen Dialogsystem in einem Demonstrationsfahrzeug einzusetzen.
1.2 Dialogsysteme Aufbauend auf der Sprechakttheorie (siehe Abschnitt 2.3) bedeutet ein Dialog im Rahmen dieses Werkes eine zielorientierte sprachliche Interaktion. Wenn
1.2 Dialogsysteme
3
ein kommunikatives Ziel im Dialog mit einem sprachverarbeitenden System erreicht werden kann, heißt dieses System Dialogsystem. Verarbeitet dieses System gesprochene Sprache, wird es auch gesprochen-sprachliches Dialogsystem genannt.1 Wenn in diesem Buch von einem Sprachdialogsystem (SDS) die Rede ist, ist immer der Systemtyp gemeint, wie er im folgenden dargestellt wird. Die einzelnen Komponenten eines solchen Systems sind schematisch auf Abbildung 1.1 dargestellt.
Abbildung 1.1. Schematischer Aufbau eines Dialogsystems
Die Spracheingabe erfolgt in ein Mikrofon, welches anschließend das aufgenommene Signal an den Spracherkenner weitergibt. Dieser f¨ uhrt die eigentliche Erkennung durch und errechnet aus dem Sprachsignal eine Wortfolge. Die Wortfolge wird anschließend syntaktisch und semantisch analysiert. In Abh¨ angigkeit des Analyseergebnisses wird dann eine Aktion ausgef¨ uhrt (diese kann auch außerhalb des Dialogsystems stattfinden, wenn beispielsweise eine Datenbank abgefragt oder ein Navigationssystem gesteuert wird). Basierend auf der Aktion wird im n¨ achsten Schritt eine R¨ uckgabe ermittelt und aus dieser z.B. mittels einer Sprachsynthese eine sprachliche Antwort generiert. Eine detailliertere Darstellung dieser Komponenten erfolgt in Abschnitt 3.4. Vor einigen Jahrzehnten gab es wenige Spezialisten, welche ein solches System entwickeln konnten und die zugrundeliegende Technologie u ¨berblickten. Die zunehmende Forschung und technologische Weiterentwicklung f¨ uhrten zu einer Spezialisierung in einzelnen Teilaspekten der Sprachverarbeitung. Vor allem der große Erfolg der statistischen Spracherkennung f¨ uhrte zu einer ersten Auftrennung von Spezialgebieten. Mathematiker und Ingenieure betrieben eine konsequente Weiterentwicklung der Verarbeitung der gesprochenen Sprache (engl. speech), w¨ ahrend Informatiker der k¨ unstlichen Intelligenz 1
In diesem Werk wird meist nur der Terminus Dialogsystem“ verwendet, gemeint ” sind aber immer gesprochen-sprachliche Systeme.
4
1 Einleitung
zusammen mit Psychologen und Linguisten die Verarbeitung geschriebener Sprache (engl. language) weiterentwickelten. Damit entstand das Dilemma der Teilung des Entwicklungsprozesses von Sprachdialogsystemen in die Signalebene auf der einen und die Dialogebene auf der anderen Seite. In Abh¨angigkeit der Systemdom¨ ane, der fachlichen Kenntnisse und M¨oglichkeiten, aber auch der Pr¨ aferierung von speech oder language wurde die grammatikalische Analyse (also das Parsing) zum einen oder anderen Teil hinzugerechnet. Die Spezialisierung ging innerhalb dieser beiden Gebiete2 weiter, so dass sich die Spracherkennung u.a. in akustische Vorverarbeitung, Signalverarbeitung, phonetische Verarbeitung und statistische Verarbeitung aufgesplittet hat. Auf der Dialogseite ist eine Spezialisierung in linguistische Verarbeitung, sprachtechnologische Verarbeitung, Wissensverarbeitung und Ergonomie3 erfolgt. Dieses Dilemmas ist sich die Forschergemeinschaft inzwischen bewusst geworden. Die Einsicht, dass die Modellierung einer wirklich intelligenten Maschine f¨ ur nat¨ urlichsprachliche Dialoge nur mit vereinten Kr¨aften von Linguisten und Ingenieuren zum Ziel gelangen kann, ist erfolgt. Das Verst¨andnis f¨ ur einen u ¨bergreifenden Ansatz zur Modellierung von Sprachdialogen ist allerdings noch nicht komplett vorhanden.
1.3 Das Schichtenmodell der Sprachdialogmodellierung Als L¨ osungsansatz f¨ ur das im vorherigen Abschnitt angesprochene Dilemma wird in diesem Buch erstmals ein Schichtenmodell der Sprachdialogmodellierung propagiert. Dieses Modell bildet ebenfalls die n¨otige Interdisziplinarit¨at in strukturierter Form ab und dient als Grundlage f¨ ur das vorliegende Werk. Zus¨ atzlich ordnet das Modell von oben nach unten die einzelnen Themen von abstrakten Konzepten zur konkreten Implementierung. Damit kann auch der Modellierungsprozess insgesamt veranschaulicht werden. Die schematische Darstellung des Modells kann Abbildung 1.2 entnommen werden. Ein Sprachdialog als Mensch-Maschine-Schnittstelle wird von menschlichen Benutzern bedient. F¨ ur diese ist die Benutzerfreundlichkeit einer solchen Schnittstelle das Wichtigste u ¨berhaupt. Eine Sprachschnittstelle muss ergonomisch sinnvoll und benutzbar ausgef¨ uhrt werden, dies gilt insbesondere bei Einsatz im Automobil, da ein System dort trotz geteilter Aufmerksamkeit 2
3
Zu manchen Zeiten konnte schon fast von einer Glaubensrichtung gesprochen werden. Das schwierige Miteinander von Statistikern und Linguisten illustriert sehr gut der ber¨ uhmte Ausspruch von Frederick Jelinek, der ab Ende der 70er Jahre einer der Pioniere der statistischen Spracherkennung bei der IBM war: Whenever I fire a linguist our system performance improves.“. Auf der anderen ” Seite hielt der ber¨ uhmte Linguist Noam Chomsky Statistik f¨ ur ein illegitimes Mittel in der Sprachverarbeitung. [Jelinek 2005] Auch als psychologische Komponente oder unter usability oder Mensch-Maschine Schnittstelle bekannt.
1.3 Das Schichtenmodell der Sprachdialogmodellierung
5
Abbildung 1.2. Schematischer Aufbau des Schichtenmodells der Sprachdialogmodellierung
m¨ oglichst perfekt benutzbar sein sollte. Um dies grunds¨atzlich zu erm¨oglichen, bildet die Kenntnis des Begriffs Usability und der dahinter stehenden Konzepte der (kognitiven) Ergonomie eine der wichtigsten Grundlagen f¨ ur die Modellierung von Sprachdialogen. Daher stellt die Benutzerfreundlichkeit die oberste Schicht im skizzierten Schichtenmodell dar. Bei der Benutzung eines Sprachdialogs spielt selbstverst¨andlich auch die Kommunikation eine wichtige Rolle. Ohne Kenntnis der Kommunikationsregeln und deren Grundlagen kann kein guter Sprachdialog entstehen. Sehr wichtig ist vor allem, nach welchen Regeln Kommunikation zwischen Partnern abl¨ auft. Eine Antwort bieten die Grice’schen Maximen an, welche als wichtige Grundlage in Kapitel 2 behandelt werden. Diese Kommunikationsregeln sind Bestandteil der zweiten Ebene des genannten Schichtenmodells. F¨ ur die folgende dritte Ebene des Modells spielt die sprachliche Kommunikation eine besondere Rolle, damit sind Erkenntnisse der Linguistik relevant. F¨ ur die Modellierung von Sprachdialogen ist es sehr wichtig, zumindest die Grundlagen der, dem Dialogsystem zugrundeliegenden nat¨ urlichen Sprache, ¨ sowie die Begrifflichkeiten Dialog und Außerung zu kennen. Ebenso erlauben nur Erkenntnisse der Linguistik eine korrekte Interpretation von Sprache und deren Bedeutung. Nach diesen theoretischen Grundlagen erfolgt in der n¨achsten Schicht die technische Umsetzung. Wenn ein System hinsichtlich der in den oberen drei ¨ Schichten angestellten Uberlegungen skizziert wird, muss als n¨achstes dessen technische Struktur bzw. der Systemaufbau definiert werden. F¨ ur dieses Thema sind die Grundlagen der Informatik und Ingenieurswissenschaften von Bedeutung, um aus verschiedenen Einzelkomponenten ein funktionierendes Dialogsystem erstellen zu k¨ onnen. Nach dem Systemaufbau folgt auf der untersten Schicht die softwaretechnische Umsetzung der in den h¨ oheren Schichten erstellten Konzepte in einen maschinenlesbaren Dialogablauf. F¨ ur den Sprachdialog bedeutet dies die Umsetzung dieser Konzepte in eine Programmier- oder Beschreibungssprache.
6
1 Einleitung
Grunds¨ atzlich gilt, dass die dargestellten Themengebiete bei jeder Modellierung von Sprachdialogsystemen beteiligt sind, unabh¨angig davon, ob ein solches System manuell oder semiautomatisch, f¨ ur die Benutzung am Telefon oder im Automobil konzipiert wird. Allerdings werden die genannten Bereiche nicht f¨ ur jede Konzeption in ihrer vollen Bandbreite ben¨otigt. F¨ ur das vorliegende Werk gilt daher, dass die beschriebenen Schichten lediglich in der Bandbreite bekannt sein m¨ ussen, wie sie zur Erstellung kommunikativ und kognitiv sinnvoller Dialoge im Automobil ben¨ otigt werden. Entsprechend werden daher die jeweiligen Themengebiete im Verlaufe des Buches eingegrenzt. Die Besonderheit dieses Werkes ist dabei, dass sich der vorgeschlagene Modellierungsweg nicht nur auf eine oder wenige der beteiligten Schichten konzentriert, sondern alle Ebenen ber¨ uhrt.
1.4 Motivation und Zielsetzung des Buches Wie in den vorherigen Abschnitten beschrieben wurde, erfordert die Modellierung eines Sprachdialogsystems die detaillierte Kenntnis verschiedener Methoden und Forschungsgebiete. Es wurde auch dargestellt, dass sich die Forschung auf dem Gebiet der Dialogsysteme immer weiter spezialisiert hat, dabei ist die Spezialisierung aktuell f¨ ur so unterschiedliche Themen wie unter anderem Erkennung von Emotionen [Boufaden und Dumouchel 2008], Sprechererkennung [Shriberg und Stolcke 2008], Sprachsynthese [Ding et al. 2008], Bandbreitenextrapolation [Iser et al. 2008], Dialogannotation [Colman et al. 2008] oder automatisches Zusammenfassen [Liu und Liu 2008] erfolgt. Diese einzelnen Themen finden alle ihre Anwendung in einem Dialogsystem, ben¨otigen zu ihrer Integration in ein solch komplexes System allerdings einen fundierten Gesamt¨ uberblick u ¨ber die Methoden der jeweiligen Fachgebiete aus dem Schichtenmodell. Das erforderliche Methodenwissen aus dem Schichtenmodell und der einzelnen Spezialdisziplinen der Dialogsystemforschung ist allerdings so vielf¨altig, dass die sichere intellektuelle Beherrschung durch eine Person nicht mehr gew¨ ahrleistet ist. Dieses Problem der Beherrschbarkeit stellt sich grunds¨atzlich immer ¨ ofter bei modernen komplexen Softwaresystemen und auch f¨ ur den Bereich der Sprachdialogsysteme. Bei der Entwicklung entsprechender Dialogsysteme kann daher in der Praxis der aktuelle Kenntnisstand aus der Wissenschaft nicht immer umgesetzt werden oder es kann zu mangelhaften Systementw¨ urfen kommen. Bei Teaml¨ osungen entsteht außerdem ein hoher Kommunikationsaufwand, welcher zu mangelnder Passgenauigkeit der L¨osungen sowie unverh¨ altnism¨ aßig großen Entwicklungszeiten f¨ uhren kann. Da Sprachdialoge f¨ ur den Anwendungsbereich im Automobil besondere Anforderungen hinsichtlich der ergonomischen Beschaffenheit, der Ressourcennutzung und der Integration stellen und zudem in der wissenschaftlichen Dikussion eher eine Randerscheinung sind, wurden automobile Dialogsysteme als Betrachtungsgegenstand des vorliegenden Werkes ausgew¨ahlt.
1.5 Sprachdialogsysteme im Automobil
7
F¨ ur diesen definierten Anwendungsbereich soll im vorliegenden Buch eine L¨ osung der skizzierten Problematik der Beherrschbarkeit der wissenschaftlichen Grundlagen gefunden werden. Es ist daher das Ziel des vorliegenden Werkes, die Methoden der in unterschiedlichen Ebenen des dargestellten Schichtenmodells repr¨asentierten Disziplinen zusammenzuf¨ uhren, um die Erstellung von benutzerfreundlichen und kommunikativ sinnvollen Dialogsystemen in einem einheitlichen Design- und Entwicklungsprozess zu erm¨ oglichen. Dabei sollen die verschiedenen Ans¨atze von speech und language genauso zusammengef¨ uhrt werden, wie die unterschiedlichen Methoden und Erkenntnisse von Informatik, Ingenieurswissenschaften, Linguistik und Ergonomie. Zur Erm¨oglichung eines solchen integrierten Entwurfs werden in diesem Buch zuerst die Grundlagen f¨ ur die Entwicklung automobiler Sprachdialogsysteme dargestellt und darauf aufbauend die Implementierung eines umfassenden Entwicklungswerkzeugs geleistet. Als Vorbild f¨ ur dieses Werkzeug dient die klassische Softwareentwicklung, in der immer mehr integrierte Entwicklungsumgebungen eingesetzt werden. Das aus diesem Buch resultierende Werkzeug soll dabei die Erstellung von benutzerfreundlichen und kommunikativ sinnvollen Sprachdialogen auf innovative Art und Weise unterst¨ utzen. Die Erforschung, Planung, Implementierung und experimentelle Validierung einer solchen Umgebung, welche die im Schichtenmodell repr¨asentierten Methoden vereint, stellt einen erheblichen wissenschaftlichen Fortschritt dar, der außerdem in seiner Anwendung einen effizienten Vorteil bieten kann.
1.5 Sprachdialogsysteme im Automobil Sprachdialogsysteme im Automobil unterscheiden sich in vielf¨altiger Hinsicht von den etablierten und bekannten serverbasierten Anwendungen. Ein wesentlicher Unterschied ist dabei die Modellierungsart f¨ ur das Dialogmodell. Grunds¨ atzlich enth¨ alt ein Dialogmodell Antwort- bzw. Aktionsbeschreibungen f¨ ur von der Erkennung und Analyse gelieferte semantische Konzepte. Diese Abbildung von semantischen Konzepten auf Antworten ben¨otigt außerdem noch Wissen u ¨ber den gesamten Dialogablauf und die Dialogdom¨ane. Dialogmodelle k¨ onnen konzeptuell auf sehr unterschiedliche Arten modelliert werden. Der klassische Ansatz ist die Modellierung mittels deterministischer endlicher Automaten [Hopcroft und Ullman 1979] und wird zustandsbasierte Dialogmodellierung genannt. Dieser Ansatz f¨ uhrt u ¨blicherweise zu sehr statischen Dialogen. Die explizite Modellierung aller Transitionen bietet jedoch den Vorteil, dass eine genaue Spezifikation und Testbarkeit des Dialogflusses m¨ oglich ist. Daneben k¨ onnen Dialogmodelle auch als Regeln [Peckham 1993] formuliert werden, der Ansatz wird regelbasierte Dialogmodellierung genannt. Diese Modellierungsart erm¨oglicht flexiblere Dialoge und kompaktere Modelle, da Transitionen nicht explizit modelliert werden m¨ ussen.
8
1 Einleitung
Allerdings sind entsprechende Modelle nur schwer komplett spezifizier- und testbar. Aus der k¨ unstlichen Intelligenz stammt die Idee, Dialoge planen zu k¨onnen [Cohen et al. 1990]. Die planbasierte Dialogmodellierung f¨ uhrt teilweise zu nicht vorhersagbarem Dialogverhalten, was f¨ ur die Spezifizier- und Testbarkeit einen großen Nachteil darstellt. Es gibt außerdem noch die statistische Dialogmodellierung [Torres et al. 2005]. Dieser Ansatz kann zu unterschiedlichem Dialogverhalten bei identischer Ausgangsvoraussetzung f¨ uhren und ist ebenso nicht komplett spezifizier- und testbar. Da es f¨ ur die Modellierung von automobilen Sprachdialogen immanent wichtig ist, Dialoge komplett spezifizieren und testen zu k¨onnen, wird f¨ ur diese Dialogart immer noch auf die zustandsbasierte Dialogmodellierung zur¨ uckgegriffen. Dies stellt eine Besonderheit der automobilen Dialogsysteme dar, da telefonbasierte Systeme bereits seit einiger Zeit regel- oder planbasiert modelliert werden. Stochastische Systeme sind bereits in der Forschung weit verbreitet. Neben der Modellierung sind die Anforderungen an einen Sprachdialog im Automobil ganz andere als f¨ ur ein telefonisches Auskunftssystem. So ist der Funktionsumfang von automobilen Sprachbediensystemen sehr viel gr¨oßer als der eines Auskunftssystems. Erstere erlauben die Durchf¨ uhrung eines breiteren Aufgabenspektrums; so kann eine Telefonnummer gew¨ahlt werden, ein Ziel in das eingebaute Navigationssystem eingegeben oder auch nur ein anderer Radiosender eingestellt werden. Dagegen kann ein Auskunftssystem in der Regel nur eine Art von Aufgaben erledigen, wie beispielsweise die Auskunft u ¨ber Zugverbindungen. Im Gegensatz zum Aufgabenumfang ist allerdings die Aufgabentiefe bei Auskunftssystemen signifikant gr¨oßer. So m¨ ussen z.B. f¨ ur die Ermittlung einer Bahnverbindung mehrere vordefinierte Informationen vom Benutzer in beliebiger Reihenfolge mitgeteilt werden. Die Sprachsteuerung im Automobil erfordert in der Regel aber nur eine einzige Information, wie z.B. anrufen bei Sandra“ oder Frequenz 103,6“. ” ” Außerdem unterscheiden sich die Systeme im Automobil durch ihre Integration und die zur Verf¨ ugung stehenden Ressourcen von herk¨ommlichen serverbasierten Telefonsystemen [Hamerich 2005]. Dies bedingt weitere technische Unterschiede. So sind die Sprachdialoge fest ab Werk ins Fahrzeug integriert und k¨ onnen nicht einfach ge¨ andert oder ausgetauscht werden. Auch muss die, f¨ ur diese Systeme ben¨ otigte Hardware bei jeder Temperatur und Luftfeuchtigkeit rund um die Welt funktionieren. Dazu ist handels¨ ubliche Hardware, die beispielsweise im PC zu finden ist, nicht in der Lage. Schlussendlich darf ein Dialogsystem im Automobil niemals die komplette Aufmerksamkeit des Fahrers fordern, da dieser jederzeit in der Lage sein muss, das Automobil der Verkehrssituation und den Verkehrsregeln entsprechend zu f¨ uhren.
1.6 Das Werkzeug DiaGen
9
1.6 Das Werkzeug DiaGen Die im vorherigen Abschnitt genannten Faktoren beeinflussen in ganz besonderem Maße die Modellierung eines automobilen Sprachsystems. Bedingt durch diese Besonderheiten wiegt die in Abschnitt 1.3 dargestellte Problematik der unterschiedlichen Disziplinen und Methoden zur Entwickklung eines automobilen Sprachdialogs schwer. Insbesondere die Tatsache, dass ein Dialogsystem im Automobil nicht die komplette Aufmerksamkeit des Fahrers beanspruchen darf, zeigt die Bedeutung von ergonomischen Methoden bei der Modellierung von Sprachdialogen f¨ ur den automobilen Einsatz. Aus diesem Grund widmet sich das vorliegende Buch der Verkn¨ upfung der unterschiedlichen Methoden zur Modellierung eines Sprachdialogs, wie bereits in Abschnitt 1.4 dargelegt wurde. Im Detail wurde mit dem Blick auf automobile Systeme und deren Notwendigkeit ergonomischer Methoden entschieden, dass sich das vorliegende Werk ausschließlich der Modellierung von Sprachdialogen f¨ ur den Einsatz im Automobil widmen soll. Zur Modellierung von Sprachdialogen werden Entwicklungsumgebungen (vgl. Kapitel 6) eingesetzt. Diese erlauben zwar eine beschleunigte Erstellung von Dialogbeschreibungen, konzentrieren sich allerdings nur auf die softwaretechnische Umsetzung von Dialogmodellen und den Systemaufbau, u ¨berdecken daher nicht die komplexe und wissenschaftlich vieldimensionale Modellierung der Sprachdialoge f¨ ur den automobilen Einsatz. Um dieses offene Problem zu l¨ osen, wurde im vorliegenden Buch DiaGen4 entwickelt, ein Werkzeug f¨ ur die Modellierung spezieller Sprachdialoge im Automobil. Dieses Werkzeug vereinfacht und beschleunigt nicht nur die reine Codierung von Sprachdialogen f¨ ur die Dom¨ ane der Anwendung im Automobil, sondern unterst¨ utzt ebenfalls die Erstellung ergonomisch, kognitiv und kommunikativ sinnvoller, sowie korrekter und konsistenter Sprachdialoge im Automobil. Damit werden alle Schichten des vorgenannten Schichtenmodells von dem Werkzeug abgedeckt. Zus¨ atzlich lag das Augenmerk darauf, die Arbeit der eigentlichen Codierung zu minimieren und somit dem Dialogdesigner mehr M¨oglichkeit zu geben, sich um die grunds¨ atzlichen ergonomischen und kommunikativen Aspekte des Dialogdesigns zu k¨ ummern. Damit steigert eine Nutzung des Werkzeugs die Effektivit¨ at und Effizienz der Dialogentwickler erheblich. Die Entwicklung von DiaGen ist dabei nur mit Kenntnis der Grundlagen der bereits im Rahmen des Schichtenmodells erw¨ahnten Fachgebiete m¨oglich gewesen. Damit stellt das Modell nicht nur die Grundlage f¨ ur die Modellierung von Sprachdialogen dar, sondern auch die Basis f¨ ur die Entwicklung des Dialogentwicklungswerkzeugs DiaGen. Der Name DiaGen leitet sich von einem ebenfalls vom Verfasser dieses Werkes entwickelten Werkzeug ab, welches im Rahmen des EU-gef¨orderten Forschungsprojekts GEMINI entwickelt wurde (mehr dazu in Kapitel 6). Dieses Werkzeug war ein intelligenter Quellcodeeditor f¨ ur eine Dialogbeschreibungs4
Sprich /daI2|Ãen/.
10
1 Einleitung
sprache und hieß urspr¨ unglich DialogGenerator. Daraus wurde im Laufe der Zeit DiaGen. Da dieses Werkzeug immer nur ein Hilfswerkzeug war und kein offizieller Bestandteil der Werkzeugsammlung des Projekts GEMINI, wurde der Name f¨ ur das im Rahmen des vorliegenden Buches entwickelte Werkzeug u ¨bernommen. Dabei geht das im Rahmen dieses Werkes entwickelte System aber weit u ahigkeit seines namensgleichen Vorg¨angers hin¨ber die Leistungsf¨ aus. Die Leistungsf¨ ahigkeit und Funktionalit¨ at des f¨ ur die Modellierung von Sprachdialogen in der Automobildom¨ ane entwickelten Werkzeugs DiaGen konnten bereits kurz vor Fertigstellung des vorliegenden Buches erfolgreich pr¨ asentiert werden [Hamerich 2008]. Ein weiterer Nachweis der Leistungsf¨ahigkeit des Werkzeugs wurde mit der Modellierung und Evaluation einer Beispielapplikation erbracht, die kurz in Abschnitt 1.7 beschrieben wird. Da es f¨ ur die Anwendung des Werkzeugs DiaGen keine repr¨asentative Gruppe von entsprechend informierten Benutzern gab, welche die notwendigen Kenntnisse f¨ ur die Erstellung von Sprachdialogen im Automobil hatten und damit das Tool sinnvoll einsetzen konnten, war eine direkte Evaluation des Werkzeugs leider nicht m¨ oglich. Daf¨ ur wurde die mit DiaGen entwickelte und im n¨ achsten Abschnitt beschriebene Beispielapplikation einer Evaluation unterzogen, welche sogar neue Erkenntnisse f¨ ur die Arbeit an Sprachdialogen allgemein aufzeigte, wie in Kapitel 8 ausf¨ uhrlich dargelegt wird. Mit der Erstellung dieses Dialogs mit DiaGen konnte daher gleichzeitig die Zukunftssicherheit des Entwicklungswerkzeugs demonstriert werden.
1.7 Der proaktive TMC-Dialog Um die Leistungsf¨ ahigkeit des im Rahmen dieses Buches entwickelten Werkzeugs DiaGen zu validieren, wurde eine Beispielapplikation erstellt. Diese Applikation ist f¨ ur den Einsatz in einem Automobil mit Navigationssystem gedacht: Wenn bei laufender Navigation auf der eigenen Fahrtroute beispielsweise ein Unfall eine Umleitung n¨ otig macht, kann dies per Verkehrsfunk an die Verkehrsteilnehmer gemeldet werden. Mittels digitaler dynamischer Verkehrsmeldungen, die per Traffic Message Channel (TMC) von Radiosendern ausgestrahlt werden (vgl. Abschnitt 8.1.2), kann das Navigationssystem im Fahrzeug die Routenf¨ uhrung automatisch ¨ andern und die Unfallstelle umgehen. Aufgabe der Beispielapplikation ist dabei, eintreffende dynamische Verkehrsmeldungen vorzulesen und m¨ ogliche Umleitungsempfehlungen per Sprachdialog mit dem Fahrer zu kl¨ aren. Dabei wird der Dialog nicht vom Fahrer gestartet, sondern proaktiv vom Navigationsger¨at bei Vorliegen einer Verkehrsst¨ orung initiiert. Die Nutzung eines proaktiven Sprachdialogs f¨ ur dynamische Verkehrsmeldungen ist bisher weder in der Forschung noch im Produkt bekannt und in Teilen sogar vom Autor als Patent angemeldet worden. Proaktive Sprachdialoge sind bisher in der Forschung nicht erw¨ ahnt. Der Terminus proaktiver ”
1.8 Aufbau des Buches
11
Dialog“ wird dort bislang f¨ ur Dialogsysteme verwendet, die einem laufenden Gespr¨ ach folgen und sich beim richtigen Stichwort automatisch in dieses einschalten k¨ onnen [Minker et al. 2006] oder wie bei [Baudoin et al. 2005] beschrieben, automatisch bei mehreren Optionen die naheliegendste (basierend auf vorangegangenen Aktionen) vorschlagen. Der Grund f¨ ur die wissenschaftliche Nichtbeachtung mag in der geringen Bekanntheit von automobilen Dialogsystemen liegen: bei einem telefonischen Dialogsystem macht ein proaktives Verhalten keinen erkennbaren Sinn. In einigen neueren Kfz sind Systeme verbaut, die proaktiv einen Sprachdialog starten, wenn auf das angebundene Mobiltelefon ein Anruf erfolgt. Dabei wird der Fahrer gefragt, ob er das Gespr¨ ach annehmen m¨ochte. Da proaktive Dialoge bisher nicht systematisch evaluiert wurden, wird dies im vorliegenden Werk erstmals getan. Daher kann mit diesem Werk auch die grunds¨atzliche Frage der Akzeptanz von proaktiven Sprachdialogen im Automobil zumindest mit ersten Antworten hinterlegt werden. Des Weiteren sollen Antworten darauf gefunden werden, wie Autofahrer auf proaktive Sprachdialoge reagieren, ob diese Dialogform die Fahrsicherheit beeintr¨achtigt und ob eine entsprechende Funktionalit¨ at f¨ ur dynamische Verkehrsmeldungen als n¨ utzlich bzw. hilfreich angesehen wird.
1.8 Aufbau des Buches Zun¨ achst werden in Kapitel 2 die Grundlagen der Dialogtheorie gekl¨art. Dabei wird der Begriff Dialog“ definiert und weitere wichtige Begriffe, wie ” Dialogmodell, Dialogstrategie und Dialogdesign eingef¨ uhrt. Dieses Kapitel schafft damit das theoretische Fundament dieses Werkes und den Rahmen f¨ ur die im Schichtenmodell enthaltenen Ebenen drei und vier. Damit wird der Stand der Forschung auf der Dialogebene dargestellt. Im anschließenden Kapitel 3 werden auf Basis der Grundlagen detailliert Sprachdialogsysteme im Automobil behandelt. Dabei werden unter anderem die Gr¨ unde f¨ ur den Einsatz solcher Systeme er¨ortert, sowie ihre Anforderungen, Architektur, Integration und Funktionalit¨aten dargestellt. Des Weiteren wird der Begriff Sprachdialogsystem“ definiert und eine Gegen¨ uber” stellung mit Telefoniesystemen vorgenommen. Das Kapitel behandelt damit den Systemaufbau, also die zweite Ebene des Schichtenmodells. Hier wird der Stand der Forschung auf der technischen Systemebene und die speech-Sicht dargestellt. Aufbauend auf den theoretischen Grundlagen und dem Systemaufbau werden in Kapitel 4 benutzerfreundliche Dialoge im Automobil behandelt. Es wird er¨ ortert, was Benutzerfreundlichkeit bedeutet und was einen benutzerfreundlichen Sprachdialog ausmacht. In diesem Kapitel werden auch verschiedene Ans¨ atze f¨ ur benutzerfreundliche Sprachdialoge aus der aktuellen Forschung aufgegriffen und ihre Anwendbarkeit auf das automobile Umfeld
12
1 Einleitung
diskutiert. Auf das Schichtenmodell bezogen geht es dabei um die oberste und f¨ unfte Ebene. Nachdem in den vorherigen Kapiteln die Ebenen f¨ unf bis zwei behandelt wurden, wird in Kapitel 5 die Beschreibung von Sprachdialogen thematisiert. Konkret geht es um eine maschinenlesbare Beschreibung solcher Dialoge, wie sie in Sprachdialogsystemen verwendet werden. Es werden dabei verschiedene Ans¨ atze und Standards zur Beschreibung von Sprachdialogen vorgestellt. Ebenfalls werden auch kurz Formate und Formalismen von Grammatiken zur Spracherkennung vorgestellt. Aus Sicht des Ebenenmodells geht es bei dieser Thematik um die softwaretechnischen Grundlagen der Dialogerstellung (Ebene 1). Hier mischen sich auch bereits Dialog- und Signalsicht. Mit den bisherigen Kapiteln ist das Schichtenmodell komplett gef¨ ullt worden. Daher kann in Kapitel 6 die teilautomatisierte Modellierung von Dialogen besprochen werden. Konkret wird analysiert, inwieweit die vorhandenen Werkzeuge das Schichtenmodell abdecken und der Bedarf f¨ ur ein neues Werkzeug untersucht. Basierend auf der Bedarfsanalyse wird in Kapitel 7 das Entwicklungswerkzeug DiaGen vorgestellt, welches im Rahmen dieses Werkes entwickelt wurde. Das Werkzeug wird im Detail dargestellt und auf dessen Besonderheiten hingewiesen. Anschließend wird in Kapitel 8 der proaktive TMC-Dialog behandelt. Dabei wird der im Rahmen dieses Werkes und mit Hilfe des in Kapitel 7 vorgestellten Werkzeugs DiaGen entwickelte proaktive Navigationsdialog pr¨asentiert. Zus¨ atzlich werden auch die f¨ ur den Prototypen ben¨otigten Komponenten vorgestellt. Es folgt die Evaluation des Prototypen. Zuletzt erfolgen in Kapitel 9 die Zusammenfassung des Buches und ein Ausblick. Im Anhang wird ein Evaluationsprotokoll des Werkzeugs DiaGen vorgestellt, sowie ein ausf¨ uhrlicher Beispieldialog der beschriebenen TMC-Dialoganwendung. Außerdem wird der f¨ ur die Dialogevaluation verwendete Fragebogen pr¨asentiert.
2 Grundlagen der Dialogtheorie
In diesem Kapitel werden die theoretischen Grundlagen dieses Werkes gelegt. Dabei werden die grundlegenden Begriffe der Dialogtheorie, wie sie in diesem Buch Verwendung finden, definiert. Diese Definitionen dienen den nachfolgenden Kapiteln als Basis.
¨ 2.1 Dialog und Außerung Die Definition des Begriffs Dialog“ ist nicht einfach, da in der allgemeinen ” Linguistik mathematisch motivierte Definitionen kaum verwendet werden. In ¨ den folgenden Abs¨ atzen wird daher zuerst ein Uberblick u ¨ber die verschiedenen Verwendungen des Begriffs in den unterschiedlichen Disziplinen gegeben, um abschließend eine Definition zu erm¨ oglichen. In der allgemeinen Linguistik werden Dialoge als Sonderform des Gespr¨ achs angesehen und ihre Betrachtung somit als Gegenstand der Gespr¨achsanalyse verstanden [Linke et al. 1994]. Da alle im vorliegenden Werk behandelten Systeme jedoch ausschließlich Zwiegespr¨ ache erlauben, wird im Folgenden der Terminus Dialog“ als gleichberechtigt zum Gespr¨ach“ angesehen. ” ” Ein Dialog (engl. dialogue) ist laut [Drosdowski 1990] ein Gespr¨ ach, das zwischen zwei Gruppierungen gef¨ uhrt wird, um sich und die gegenseitigen Standpunkte kennenzulernen oder eine von zwei Personen abwechselnd gef¨ uhrte Rede und Gegenrede. [Lewandowski 1979] definiert einen Dialog als partnerbezogenes Zwiegespr¨ ach, eine Form der interaktionalen Kommunikation, bei ¨ der thematisch und/oder situativ bestimmte, intentional gesteuerte Außerungen an einen Partner gerichtet und beantwortet werden. Im vorliegenden Buch soll in Anlehnung an [M¨oller 1999] unter einem Dialog eine zielorientierte Interaktion zwischen zwei Partnern verstanden werden. Diese Interaktion muss nicht notwendigerweise rein sprachlicher Natur sein; in diesem Werk wird unter einem Dialog grunds¨atzlich eine sprachliche Interaktion verstanden. Dies wird in Definition 2.1 wiedergegeben:
14
2 Grundlagen der Dialogtheorie
Definition 2.1. Ein Dialog ist eine zielorientierte sprachliche Interaktion zwischen zwei Partnern. Eine solche sprachliche Interaktion basiert in einem gesprochen-sprach¨ lichen Dialog auf einer Menge von sprachlichen Außerungen zweier Partner. ¨ Der Begriff der Außerung“ wird in diesem Buch wie folgt definiert: ” ¨ Definition 2.2. Als Außerung wird der Beitrag eines Gespr¨ achsteilnehmers ¨ zu einem Dialog bezeichnet. Eine Außerung wird durch einen Sprecherwechsel begrenzt. Um Kommunikationszyklen in Dialogen beschreiben zu k¨onnen, wurde der englischsprachige Begriff Turn“ eingef¨ uhrt, dessen Definition hier folgt: ” Definition 2.3. Ein Turn bezeichnet einen Kommunikationszyklus zwischen ¨ zwei Dialogpartnern und besteht aus je einer Außerung der beiden Partner. F¨ ur Dialoge mit Dialogsystemen gilt, ein Turn besteht aus einer System- und einer Benutzer¨ außerung. ¨ Mehrere Außerungen k¨ onnen auch u ¨ber die Grenzen eines Turns hinweg zusammengefasst werden. In diesem Fall wird in zwischenmenschlichen Dialogen laut [Jekat-Rommel 1994] von Dialogsequenzen gesprochen. Um entsprechende semantisch zusammengeh¨ orende Einheiten in Dialogen mit einem Dialogsystem zu kennzeichnen, wurde in [Hamerich 2000] der Begriff des Dialogsegments genutzt, der auch in diesem Werk Verwendung findet.
2.2 Dialogregeln Um einen Dialog als zielorientierte Interaktion (vgl. Definition 2.1) ausf¨ uhren zu k¨ onnen, bedarf es einiger Regeln. Diese gelten als sehr wichtig f¨ ur die Kommunikation mit einem Partner (und als ein solcher sollte auch ein Dialogsystem m¨oglichst angesehen werden). Grice stellte in [Grice 1975] vier Maximen f¨ ur die kooperative Kommunikation auf, welche sich als Dialogregeln sehr gut eignen: •
die Maxime der Qualit¨ at besagt, dass nur wahre Informationen kommuniziert werden sollten. Sollte der Wahrheitsgehalt vom Sprecher nicht u uft werden k¨ onnen, muss er seine Zweifel entsprechend ausdr¨ ucken, ¨berpr¨ um den anderen Kommunikationsteilnehmer nicht zu verwirren. • die Maxime der Quantit¨ at definiert, dass Kommunikationsbeitr¨age so informativ wie n¨ otig sein sollten, aber auch nicht detaillierter als n¨otig. Es sollte also die richtige Menge an Informationen transportiert werden. • die Maxime der Relevanz regelt den Inhalt von Beitr¨agen. So sollten Kommunikationsbeitr¨ age inhaltlich zum aktuellen Thema des Dialogs passen und relevant sein.
2.3 Dialogakte
•
15
die Maxime der Modalit¨ at besagt, dass Unklarheiten oder Mehrdeutigkeiten in Kommunikationsbeitr¨ agen zu vermeiden sind. Außerdem sollten Beitr¨ age geordnet sein und nicht zu weit vom Thema wegf¨ uhren.
¨ Diese Maximen sollten in allen Außerungen von Dialogteilnehmern m¨oglichst immer beachtet werden, um eine Erreichung der Dialogziele zu gew¨ahrleisten. Vor allem aber f¨ ur die Kommunikation mit einem Dialogsystem sollten die Grice’schen Maximen gelten. Wenn Benutzer von Dialogsystemen immer ein kooperatives Verhalten zeigen und sich an diese vier Maximen orientieren, kann ein sinnvoller Dialog zur Erreichung eines Dialogziels gew¨ ahrleistet werden. Ebenso stellen diese Regeln eine Erwartung von Dialogteilnehmern an den jeweiligen Dialogpartner dar, dies gilt insbesondere f¨ ur Menschen im Dialog mit einem System. Wenn sich beide Partner (unabh¨ angig davon, ob sie Mensch oder Maschine sind) an diese Regeln halten, ist eine zielorientierte Interaktion im Sinne der Dialogdefinition durchf¨ uhrbar.
2.3 Dialogakte ¨ Wie bereits dargestellt, besteht ein Dialog aus Turns, die wiederum aus Auße1 ¨ onnen allerdings auch weiter unrungen bestehen. Einzelne Außerungen k¨ terteilt werden. Allgemein gibt es dabei neben der syntaktischen Ebene (in welcher die grammatische Struktur untersucht wird) und der Semantik (in welcher es um die Bedeutung des Gesagten, also den Inhalt, geht), noch die ¨ Pragmatik (besch¨ aftigt sich mit dem Sinn von Außerungen und den Absichten eines Sprechers). Seit [Austin 1962] und [Searle 1969] wird in der Linguistik ¨ auf der pragmatischen Ebene eine Außerung einem Sprechakt (engl. speech act) zugewiesen. Diese Theorie der Sprechakte beruht auf der Annahme, dass Aussagen nicht nur zur Beschreibung der Welt dienen k¨onnen, sondern auch zur Aus¨ ubung von kommunikativen Handlungen. Damit wurde der semanti¨ sche Wahrheitswert, auch Proposition genannt, einer Außerung um folgende zus¨ atzliche Ebenen erweitert: • die Lokution, die grammatische Wahrheit, zu deren Analyse die gramma¨ tische Struktur einer Außerung herangezogen wird; • die Illokution, welche die Absichten eines Sprechers beim T¨atigen einer ¨ Außerung ausdr¨ uckt und deren Bewertung vom Verst¨andnis des Dialogpartners abh¨ angig ist; • und die Perlokution, bei welcher die beabsichtigte Wirkung des Sprechers und deren Verst¨ andnis beim Dialogpartners beachtet wird.
1
Dar¨ uberhinaus gibt es in multimodalen Systemen bzw. Dialogen nat¨ urlich noch weitere Ausdrucksm¨ oglichkeiten, wie z.B. Gesten oder taktile Interaktionen, die allerdings f¨ ur dieses Buch nicht relevant sind.
16
2 Grundlagen der Dialogtheorie
F¨ ur Dialogsysteme ist der illokution¨ are Akt der wichtigste. Denn ein Dialogsystem sollte die Absichten eines Sprechers (also die Illokution) m¨oglichst perfekt verstehen und eine entsprechende passende Reaktion initiieren, also eine erfolgreiche Perlokution gew¨ ahrleisten. ¨ Da Sprechakte nur f¨ ur einzelne Außerungen existieren, wird f¨ ur Dialoge eine entsprechende Klassifikation ben¨ otigt. Diese sollte auch logische Paare ¨ von Außerungen zusammenfassen, wie eine erwiderte Begr¨ ußung oder eine beantwortete Frage. Diese Paare kann man in Dialogen zu Dialogakten kombinieren. Einfache Beispiele von Dialogakten sind ,Vorschlag‘, ,Akzeptanz‘ oder ,Ablehnung‘ (vgl. [Jekat et al. 1995]). Im Kontext einer speziellen Dialogdom¨ ane (vgl. Abschnitt 2.7) k¨ onnen so auch Dialogakte wie z.B. ,Abfrage einer Hausnummer‘, ,Best¨ atigung einer Telefonnummer‘ oder ,Eingabe eines Ziels‘ vorkommen. Damit stellen Dialogakte die Beziehung zwischen einzelnen Sprechakten dar, so kann nach einer Abfrage eine Eingabe erfolgen oder nach einem Vorschlag eine Ablehnung. Dialogakte sind von großer Wichtigkeit in der Designphase eines Dialogsystems, denn die Summe aller Dialogakte muss zum Dialogziel (siehe Abschnitt 2.8) f¨ uhren. Des Weiteren h¨ angt die Verwendung von Dialogakten in einem Dialogsystem von der Dialogstrategie (siehe Abschnitt 2.6) ab.
2.4 Dialogmodell Ein Dialogmodell dient der Beschreibung des Dialogflusses in einem Dialogsystem. Unter dem Dialogfluss wird dabei der gesamte m¨ogliche Dialogverlauf von Beginn des Dialogs bis zur Zielerreichung mit allen m¨oglichen Pfaden verstanden. Das Dialogmodell besteht aus Dialogsegmenten und Verkn¨ upfungen dieser Segmente. Es werden aber nicht alle denkbaren Segmente in Modell aufgenommen, sondern nur die, welche vom jeweiligen Entwickler als relevant angesehen werden. Meist sind das die Segmente, welche der Erreichung des Dialogziels (siehe Abschnitt 2.8) des jeweiligen Dialogsystems dienen.2 Im Interesse der Bedienbarkeit kann ein Dialogentwickler dem Modell noch zus¨atzliche Segmente hinzuf¨ ugen, etwa um Hilfestellungen bei auftretenden Fehlern zu geben. Grunds¨ atzlich kann damit festgestellt werden, dass das Dialogmodell die Wissensbasis der Dialogsteuerung in einem Dialogsystem darstellt. Die oben erw¨ ahnte Beschr¨ ankung der Dialogsegmente repr¨asentiert die Einschr¨ ankung der Dialogdom¨ ane, auf die noch in Abschnitt 2.7 eingegangen wird. Ein Dialogsegment im Dialogmodell wird einer Benutzer¨außerung basierend auf dessen illokution¨ aren Akt und der Semantik zugeordnet. Allgemein 2
Allerdings kann es vorkommen, dass bei der Entwicklung Segmente oder Verkn¨ upfungen vergessen werden, in diesem Fall liegt ein sogenannter Designfehler vor.
2.4 Dialogmodell
17
wird dieser zugeordnete illokution¨ are Akt zusammen mit der Semantik auch semantische Repr¨asentation oder auch semantisches Konzept genannt. Jedes Dialogsegment enth¨ alt je nach Modellierungsform und Dialogstrategie eine implizite oder explizite Zuordnung der Systemreaktion auf die Benutzereingabe. Folgt der Dialogablauf den Grice’schen Maximen, sollte dabei jede Benutzer¨ außerung zusammen mit der Systemreaktion ein Paar von zusammenpassenden Dialogakten ergeben (zumindest wenn die Systemreaktion auf der sprachlichen Ebene erfolgt). Wenn ein Dialogmodell implementiert wird, werden in aktuellen Dialogsystemen diese u ¨blicherweise in einer Dialogbeschreibungssprache beschrieben. Kapitel 5 widmet sich diesem Thema. Zur Dialogmodellierung existieren verschiedene Ans¨atze, die im Folgenden n¨aher beschrieben werden. 2.4.1 Zustandsbasierte Modellierung Bei der zustandsbasierten (engl. state-based ) Modellierung werden Dialoge mit Hilfe von deterministischen endlichen Automaten [Hopcroft und Ullman 1979] modelliert. Diese Herangehensweise ist die ¨ alteste und wird auch heute noch genutzt. Die Verwendung von Zustandsmodellen f¨ uhrt zu einem verh¨altnism¨aßig ¨ großen Entwicklungsaufwand, da alle Transitionen (also die Uberg¨ ange von einem Segment zum n¨ achsten) explizit modelliert werden m¨ ussen. Daher sind zustandsbasierte Dialoge im Ablauf h¨ aufig sehr statisch und wenig flexibel. Allerdings hat die explizite Modellierung auch Vorteile. So erlaubt diese Modellierungsart eine hundertprozentig genaue Spezifikation des Dialogablaufs. Auch kann diese sehr einfach nachvollzogen werden, da alle m¨oglichen Dialogpfade ausimplementiert werden. Zudem erlaubt diese Modellierung eine minimalistische Ausf¨ uhrung der Dialogsteuerung, da diese zur Ausf¨ uhrung von zustandsbasierten Dialogbeschreibungen keine zus¨atzliche interne Ablauflogik ben¨ otigt. 2.4.2 Regelbasierte Modellierung F¨ ur die regelbasierte (engl. rule-based ) Modellierung werden keine expliziten ¨ Uberg¨ ange des Zustandsgraphen definiert, sondern Vorbedingungen, Regeln und Ziele formuliert (siehe z.B. [Peckham 1993]). Teilweise wird diese Modellierungsform in der Literatur auch als frame-based bezeichnet [McTear 2004]. Dies bezeichnet eine Auspr¨agung von regelbasierten Dialogmodellen, f¨ ur die es im industriellen Umfeld einen Implementationsstandard gibt (vgl. Abschnitt 5.2.2). Mit diesem Ansatz sind viel flexiblere Dialoge m¨oglich, als mit der zustandsbasierten Modellierung. Die angesprochenen Bedingungen und Regeln werden zur Laufzeit eines Dialogs ausgewertet und k¨onnen je nach Ergebnis zu weiteren Unterdialogen verzweigen. Diese zus¨atzliche Flexibilit¨at kann eine
18
2 Grundlagen der Dialogtheorie
Minimierung des Entwicklungsaufwands bedeuten. Sie wird allerdings mit einer komplexeren Dialogsteuerung erkauft, da diese nun eine zus¨atzliche interne Ablauflogik ben¨ otigt. Da die Regeln in diesem Fall immer zur Dialoglaufzeit ausgewertet werden, kann die Spezifikation des Dialogablaufs komplex werden. In einfachen F¨allen, wenn das Dialogmodell explizit gehalten ist, ist die Spezifikation ¨ahnlich der eines zustandsbasierten Dialogs. Der Dialogablauf ist jedoch auch bei dieser Modellierungsart einfach nachzuvollziehen. Wenn die Anzahl der Regeln allerdings hoch ist, kann die Dialogmodellierung sehr un¨ ubersichtlich werden. Zus¨ atzlich kann auch die Wartung und das Debugging sehr schwierig werden, da bei einer durchgef¨ uhrten Dialogaktion die aktivierten Regeln nicht sofort erkenntlich sein k¨onnen. 2.4.3 Planbasierte Modellierung Bei der planbasierten (engl. plan-based ) Modellierung werden die Absichten eines Sprechers in einem Dialog modelliert, um im Dialogverlauf automatisch erkannt zu werden [Cohen et al. 1990]. Bei diesem Vorgehen ben¨ otigt die Dialogsteuerung neben einer komplexen Logik den Zugriff auf eine Planungskomponente, welche die einzelnen Pl¨ane ausarbeitet. Dabei ist ein Dialogablauf aus dem Modell sehr schwer herauszulesen. Die Spezifikation von solchen Dialogen ist komplexer, als von regelbasierten Modellen. Ein entscheidender Nachteil dieser Technik ist zudem, dass hierbei nicht gew¨ ahrleistet ist, dass bei semantisch identischen Benutzereingaben eine identische Dialogreaktion auftritt. So kann die Planungskomponente Pl¨ane unterschiedlich gewichten oder Absichten werden unterschiedlich interpretiert. Die Kontrolle des Dialogablaufs ist daher sehr schwierig. Daf¨ ur eignet sich dieser Ansatz f¨ ur hochkomplexe Aufgaben, bei denen einzelne Teildialoge miteinander konkurrieren oder viele Vorbedingungen f¨ ur eine Dialogreaktion erf¨ ullt werden m¨ ussen. Die Flexibilit¨ at des Ansatzes ist sehr hoch und die Dialoge werden von Benutzern als intelligent angesehen. Ein Beispiel f¨ ur ein planbasiertes Dialogsystem wird in [Ludwig 2004] vorgestellt. Eine Implementation von planbasierten Dialogen ist der information state approach, bei dem alle im Laufe eines Dialogs anfallenden Daten, sowohl von Ein- und Ausgaben, vom Dialogmanager, als auch vom Backend (also der Datenbank) in einen gemeinsamen Informationszustand geschrieben werden und aus diesem Pl¨ ane f¨ ur die n¨ achsten Dialogschritte abgeleitet werden. Mehr Informationen dar¨ uber sind zu finden bei [Traum und Larsson 2003]. 2.4.4 Statistische Modellierung Die statistische Modellierung beschreibt die Idee, Dialogmodelle aus Dialogdaten zu erlernen [Levin und Pieraccini 1997]. Das Vorgehen ¨ahnelt dem Prinzip der statistischen Spracherkennung. Bei diesem Ansatz werden sehr große Da¨ tenmengen gebraucht, um eine korrekte Klassifizierung von Außerungen f¨ ur
2.4 Dialogmodell
19
das jeweilige Dialogmodul zu erhalten. Genau diese Datenmengen sind aber auch das Problem des Ansatzes. Der Aufwand f¨ ur das Sammeln von entsprechenden Dialogkorpora ist sehr viel h¨ oher, als wenn ein Dialogmodell auf klassischem Wege erstellt und getestet wird. Dieser Ansatz wird daher vor allem f¨ ur Telefonsysteme eingesetzt, bei denen Daten gesammelt werden und das System immer wieder nachtrainiert werden kann. Ein telefonbasiertes statistisches Dialogsystem wird beispielsweise in [Torres et al. 2005] vorgestellt. Bei [M¨ oller 1999] wird ein Werkzeug zur Unterst¨ utzung der Erstellung von statistischen Dialogmodellen pr¨ asentiert. Der im Rahmen der Arbeit von M¨ oller verwendete Trainingskorpus basierte auf Daten aus dem Forschungsprojekt Verbmobil [Wahlster 2000]. Um den Aufwand der Datensammlung zu minimieren wurde in [Chung 2004] ein Dialogsystem basierend auf simulierten Daten erstellt. Um Dialogstrategien aus simulierten Daten lernen zu k¨onnen, wurde dieser Ansatz bei [Georgila et al. 2006] und [Rieser und Lemon 2006] auf unterschiedliche Arten weiterentwickelt. Durch die automatische Transkription von Daten soll der Aufwand f¨ ur die Erstellung eines statistischen Sprachdialogsystems weiter gesenkt werden. F¨ ur ein telefonbasiertes System wird ein solcher Ansatz bei [Syed und Williams 2008] vorgestellt. 2.4.5 Dialogmodellierung in automobilen Systemen Grunds¨ atzlich gelten f¨ ur kommerziell genutzte Dialogsysteme gewisse Besonderheiten f¨ ur die Dialogmodellierung. Dieses Charakteristikum wird von [Pieraccini und Huerta 2008] mit dem Begriff VUI Completeness 3 betitelt und bezeichnet die Notwendigkeit einer vollst¨ andigen und expliziten Spezifikation des Dialogverhaltens eines Dialogsystems in jeder m¨oglichen Situation eines Dialogverlaufs. Ziel dieser Anforderung ist der Ausschluss von ungewollten Endzust¨ anden oder Schleifen im Dialogverlauf, sogar bei komplett undenkbaren oder unsinnigen Eingaben. Es muss daher gegen¨ uber dem Auftraggeber garantiert werden, dass keine Eingabe zu einem undefinierten Systemzustand f¨ uhren kann. Um diese Vollst¨ andigkeit zu gew¨ ahrleisten, wird eine komplette ¨ Spezifikation aller m¨ oglichen Dialogzust¨ ande und der jeweiligen Uberg¨ ange gefordert, um damit den Nachweis zu erbringen, dass alle Dialogschritte zu einem definierten n¨ achsten Zustand f¨ uhren. Zus¨ atzlich zu dieser Spezifikation werden ausf¨ uhrliche Tests verlangt, die Vorlage der resultierenden Testprotokolle wird h¨ aufig ebenfalls erwartet. All dies begr¨ undet sich auch mit den sehr viel h¨ oheren Qualit¨ atsforderungen in der Automobilindustrie, welche aus der faktischen Unm¨ oglichkeit resultieren, nach Auslieferung eines Fahrzeugs mit eingebettetem Dialogsystem, dieses mittels Updates zu korrigieren. Grunds¨atzlich besteht zwar die M¨ oglichkeit des R¨ uckruf eines Automobils in die Werk¨ statt umd dabei Anderungen an ausgelieferten Fahrzeugen durchzuf¨ uhren. 3
Die Abk¨ urzung VUI steht dabei f¨ ur Voice User Interface.
20
2 Grundlagen der Dialogtheorie
Dies Vorgehen ist jedoch extrem teuer, aufw¨ andig und schadet zudem stark dem Image eines Herstellers. Aus diesem Grund erfolgt dies ausschließlich zur Behebung sicherheitskritischer M¨ angel. F¨ ur die im Fokus des vorliegenden Werkes liegenden automobilen Dialogsysteme (vgl. Kapitel 3), gilt die Forderung nach einer VUI Completeness erst recht. Denn schließlich stellen zum einen die Automobilhersteller als Auftraggeber der Systeme entsprechende Anforderungen an die Spezifikation und zum anderen muss das System von Autofahrern w¨ ahrend der Fahrt bedient werden. Das heißt, die Dialogsituationen und -¨ uberg¨ ange m¨ ussen f¨ ur einen Benutzer immer eindeutig sein, auch wenn die Konzentration zum großen Teil f¨ ur die Fahraufgabe ben¨ otigt wird. Eine weitere Einschr¨ankung bedeutet, dass Automobilhersteller zwar genaue Anforderungen an eine Sprachbedienung haben, Nutzerdaten aber u ugung stellen. Dies liegt zum ¨blicherweise nicht zur Verf¨ einen daran, dass echte Benutzerdaten aus Datenschutz- und Speichergr¨ unden nicht mitgeschnitten werden und zum anderen eine Datensammlung extrem aufw¨ andig und teuer ist. Die genannten Einschr¨ ankungen disqualifizieren damit einige der oben vorgestellten Dialogmodellierungsans¨ atze f¨ ur den Einsatz in automobilen Sprachbedienungen. Im Einzelnen bedeutet dies: •
Ohne initiale Nutzerdaten ist der Aufwand f¨ ur die Erstellung eines statistischen Dialogmodells nahezu unbezahlbar. Da zudem jeder Automobil¨ hersteller eine andere Bedienphilosophie vertritt, ist auch die Ubertragbarkeit von gewonnenen Daten nicht gew¨ahrleistet. Außerdem wird von einem Sprachbediensystem eine immer gleiche Systemreaktion erwartet, daher bietet auch der Mitschnitt von Nutzerdaten w¨ahrend des Betriebes keine Vorteile. Und noch dazu w¨ are eine Datensammlung aus Speicherplatzgr¨ unden gar nicht durchf¨ uhrbar, wie in Kapitel 3 ausf¨ uhrlich dargestellt wird. Daher scheidet die statistische Dialogmodellierung aus. • Da bei der Verwendung eines Dialogplaners eine exakte Spezifikation des Dialogflusses nicht m¨ oglich ist und außerdem identische Systemreaktionen nicht garantiert werden k¨ onnen, eignet sich auch der planbasierte Ansatz nicht zur Modellierung von Dialogsystemen im Automobil. • Eine regelbasierte Modellierung kann die verlangte Testbarkeit von Sprachdialogen erschweren. Zus¨ atzlich ist eine u ¨bersichtliche Spezifikation eines regelbasierten Ansatzes nur mit sehr hohem Aufwand zu erstellen. Damit ist der regelbasierte Ansatz zwar durchaus m¨oglich, wird allerdings in der Praxis ebenfalls nicht verwendet. • Die vom Auftraggeber erwartete lesbare Spezifikation des Dialogablaufs wird u ¨blicherweise als Ablaufdiagramm (engl. flowchart) geliefert. Um diese Spezifikation wirklich lesbar zu halten, ist eine zustandsbasierte Modellierung perfekt geeignet. Zudem ist diese Modellierungsform die einzige, die eine nachweisbare Testbarkeit des gesamten Ablaufs erlaubt. Damit spricht die Spezifizierbarkeit und Testbarkeit f¨ ur diese Modellierungsform,
2.5 Dialogsteuerung
21
obwohl der Implementierungsaufwand gegen¨ uber den anderen Formen sehr viel h¨ oher ist. Aus diesen Gr¨ unden werden Sprachbediensysteme im Automobil mittels Zust¨ anden modelliert. Es gibt sogar Werkzeuge f¨ ur die Spezifikation und Simulation von Sprachbediensystemen basierend auf Zustandsmodellen, wie in Abschnitt 6.1.4 dargestellt wird. Die Modellierung ist zwar – wie bereits dargestellt – aufw¨ andiger, daf¨ ur sprechen aber die lesbare Spezifikation, gute Testbarkeit und einfach zu implementierende Dialogausf¨ uhrung f¨ ur den Ansatz. Daher stellt die zustandsbasierte Modellierung das Mittel der Wahl in diesem Kontext und damit auch f¨ ur das vorliegende Buch dar.
2.5 Dialogsteuerung Wie bereits angesprochen, muss ein Dialogmodell auch ausgewertet und Aktionen initiiert werden. Diese Aufgabe u ¨bernimmt die Dialogsteuerung, die auch Dialogmanager oder Dialogkontrolle genannt wird. Sie ist die ausf¨ uhrende Komponente in einem Dialogsystem. Sie besteht aus dem Dialogmodell und den darauf fußenden Interpretationsvorschriften. In [Traum und Larsson 2003] werden die wichtigsten Funktionen f¨ ur eine Dialogsteuerung wie folgt definiert: • • • •
Aktualisierung des Dialogkontextes auf Basis des Dialogverlaufs; Zur Verf¨ ugungsstellung von kontextabh¨ angigen Dialogzust¨anden; Kommunikation mit weiteren Komponenten (z.B. Datenbank, Planer, zu steuerndes Ger¨ at); Entscheidung u ¨ber den weiteren Dialogfluss.
Folgende zus¨ atzliche Aufgaben nimmt die Dialogsteuerung außerdem noch wahr: • • •
Interpretation des Dialogmodells; Kommunikation mit Sprachein- und -ausgabeger¨aten (z.B. ASR, TTS); Aufruf von Unter- und Teildialogen.
Bei Verwendung einer Dialogbeschreibungssprache kann die Interpretation dieser Sprache in der Dialogsteuerung erfolgen, sie kann aber auch in eine weitere Komponente ausgelagert werden. In Sprachbediensystemen stellt der Dialogmanager die einzige aktive Komponente dar. Alle anderen Komponenten (Spracherkennung, Sprachausgabe, etc.) sind solange passiv, bis der Benutzer den Dialogstart durch Druck auf den entsprechenden Knopf oder Hebel ausf¨ uhrt. In diesem Fall leitet der Dialogmanager die Befehle weiter und sorgt f¨ ur die Abarbeitung der anstehenden Aufgaben.
22
2 Grundlagen der Dialogtheorie
2.6 Dialogstrategie Als Dialogstrategie wird die Strategie eines Dialogs bezeichnet, um das jeweilige Dialogziel (vgl. Abschnitt 2.8) zu erreichen. In der Literatur werden verschiedene Strategien unterschieden, im Folgenden werden die drei wichtigsten aufgef¨ uhrt. 2.6.1 Direktive Dialogstrategie Bei der direktiven Dialogstrategie ist das zugrundeliegende System rein passiv und wird nur durch einfache Kommandos gesteuert. Entsprechend heißen die Dialoge dieser Strategie auch Kommandodialoge (engl. command and control dialogues). Diese Dialoge zeichnen sich durch ein sehr kleines Vokabular aus und werden meist nur f¨ ur sehr stark eingegrenzte Dom¨anen eingesetzt. Das Dialogmodell von Kommandodialogen wird meist basierend auf endlichen Automaten in einem zustandsbasierten Dialogmodell (vgl. Abschnitt 2.4.1) formuliert. Ein Beispiel sind die ersten Programme zur sprachlichen Steuerung der Arbeitsfl¨ ache auf Computern. Als einzige Reaktion wurde dabei die gew¨ unschte Handlung ausgef¨ uhrt (wenn der Befehl korrekt erkannt wurde), eine andere R¨ uckmeldung gaben diese Systeme nicht. 2.6.2 Reaktive Dialogstrategie Eine Dialogstrategie heisst reaktiv, wenn auf jede Benutzeranfrage genau eine Antwort folgt. Im Unterschied zur direktiven Strategie ist das Vokabular eines solchen Systems sehr viel breiter angelegt. Dialoge dieser Strategie sind gesteuert und heißen daher systemgesteuert (engl. system driven dialogues). 4 ¨ Da diese Systeme meist nicht in der Lage sind, Uberbeantwortungen zu verarbeiten, werden u uebenen bis ¨blicherweise mehrere Dialogschritte bzw. Men¨ zur Erreichung des Dialogziels durchschritten. Auch in diesem Fall werden endliche Automaten zur Dialogmodellierung genutzt (vgl. 2.4.1). Ein klassisches Beispiel f¨ ur ein Dialogsystem mit einer reaktiven Dialogstrategie ist die automatische Fahrplanauskunft der Deutschen Bahn AG (vgl. Abschnitt 3.7.3). 2.6.3 Kooperative Dialogstrategie Dialoge dieser Strategie zeichnen sich durch eine Mischung von aktiven und passiven Phasen aus, beide Dialogpartner k¨ onnen also die Initiative u ¨bernehmen. Allerdings m¨ ussen in diesem Fall immer die Benutzerabsichten erkannt 4
¨ Uberbeantwortung heißt, dass mehr Informationen gegeben werden, als zu diesem Zeitpunkt verlangt wurden. Mehr dazu siehe in [Wahlster et al. 1983].
2.7 Dialogdom¨ ane
23
¨ werden, dazu ist tlw. auch Uberbeantwortung zul¨assig. Dialoge dieser Strategie heißen gemischt initiativ (engl. mixed initiative dialogues). F¨ ur diese Dialogstrategie werden regelbasierte (siehe Abschnitt 2.4.2), planbasierte (vgl. Abschnitt 2.4.3) oder auch statistische (siehe Abschnitt 2.4.4) Dialogmodelle verwendet. Die Philips Bahnauskunft (vgl. Abschnitt 3.7.3) ist eines der bekanntesten Beispiele f¨ ur ein Dialogsystem mit gemischter Initiative. 2.6.4 Mischformen Es ist durchaus u ur eine Dialoganwen¨blich, verschiedene Dialogstrategien f¨ dung zu nutzen. Die Auswahl einer konkreten Strategie kann dabei z.B. am Erfahrungsgrad des aktuellen Benutzers (Benutzermodellierung) oder vom aktuellen Dialogschritt abh¨ angen. So ist es u ¨blich, weniger erfahrene Benutzer mit einer reaktiven und z.T. sogar direktiven Dialogstrategie durch einen Dialog zu f¨ uhren, um ein Dialogziel schnell zu erreichen und ein Scheitern des Dialogs m¨oglichst zu verhindern. Erfahrene Benutzer, die bereits wissen, welche Angaben ein Dialogsystem ben¨ otigt, k¨ onnen dann einen Dialog mit gemischter Initiative vorfinden. In diesem Fall k¨ onnen Benutzer m¨ oglichst viele Angaben auf einmal machen und das System fragt eventuell fehlende Daten nach. Bei den meisten Sprachsteuerungen f¨ ur Kfz (vgl. Abschnitt 3.6.7) wird f¨ ur die reine Ansteuerung von Ger¨ aten, wie z.B. Audioger¨aten, auf eine direktive Strategie zur¨ uckgegriffen. Hauptgrund daf¨ ur ist, dass dies eine Verk¨ urzung des Dialogs erlaubt. Zudem wurde in internen Untersuchungen nachgewiesen, dass Benutzer bei der Steuerung von Audioger¨ aten kein zus¨atzliches akustisches Feedback des Sprachsystems h¨ oren m¨ ochten, ein Umschalten der Audioquelle ist ebenso klar h¨ orbar und reicht als Best¨ atigung daher meist aus. F¨ ur komplexere Aufgaben, wie z.B. die Eingabe einer Telefonnummer wird dagegen gerne eine kooperative Strategie eingesetzt. Dies hat den Grund, einem Benutzer bei der Eingabe einer Telefonnummer freie Wahl bei der Art der Eingabe zu lassen – so kann er entweder die komplette Nummer auf einmal oder aber blockweise eingeben.
2.7 Dialogdom¨ ane Eine wichtige Rolle bei jedem Dialogsystem spielt die zugrundeliegende Dom¨ane. Von ihr h¨ angt z.B. die Dialogstrategie und die dazu passende Dialogmodellierungsart ab. Beides hat direkte Auswirkungen auf das Vokabular des Dialogsystems, welches wiederum die Dom¨ ane abbildet. Dieses Vokabular ist im Gegensatz zum Vokabular der normalen zwischenmenschlichen Dialoge sehr eingeschr¨ ankt und kann daher auch als eine Fachsprache [von Hahn 1980] bezeichnet werden.
24
2 Grundlagen der Dialogtheorie
Diese Dom¨ anenbeschr¨ ankung ist der Grund, dass beispielsweise ein Fahrplaninformationssystem keine Wetterausk¨ unfte geben kann. Der Hintergrund f¨ ur Dom¨ anenbeschr¨ ankungen ist vor allem in der Spracherkennung zu finden. Denn je eingeschr¨ ankter das Vokabular eines Spracherkenners ist, desto gr¨oßer ist die Wahrscheinlichkeit einer guten Spracherkennrate. Dies gilt allerdings nur dann, wenn Benutzer auch nur das tats¨ achlich m¨ogliche Vokabular verwenden. Ansonsten treten sehr h¨ aufig sogenannte out of vocabulary Fehler auf. Um diesen Effekt zu minimieren, sollte daher beim Design eines Sprachdialoges (vgl. Abschnitt 2.10) dem Benutzer die Beschr¨ankung des Vokabulars m¨ oglichst gut vermittelt werden. Zudem sollten Benutzer immer kooperativ auftreten (vgl. Abschnitt 2.2), von einem im Grice’schen Sinne kooperativen Benutzer kann eine Einhaltung der Dialogdom¨ane erwartet werden.
2.8 Dialogziel Wie bereits in Definition 2.1 formuliert wurde, ist ein Dialog eine zielorientierte Interaktion, also wird jeder Dialog immer mit einem Ziel gef¨ uhrt. F¨ ur den zwischenmenschlichen Smalltalk trifft dies vielleicht nur indirekt zu, f¨ ur die Interaktion mit Sprachdialogsystemen aber ist dies durchweg zutreffend. Je nach Art des Systems ist das Ziel entweder die Erteilung einer Auskunft oder die Durchf¨ uhrung einer Aktion. Das Dialogziel ist grunds¨ atzlich unabh¨ angig von der verwendeten Dialogstrategie und sollte in einem Dialogsystem immer erreichbar sein.5 Daher m¨ ussen alle in einem Dialogsystem verwendeten Dialogakte zu diesem Ziel hinf¨ uhren.
2.9 Dialogparameter Um mit einem Dialogsystem das entsprechende Dialogziel zu erreichen, werden in der Regel Dialogparameter ben¨ otigt. Dies k¨ onnen Angaben vom Benutzer sein, wie z.B. ein Zielort in einem Navigationsdialog. Die Dialogparameter sind unabh¨ angig von der gew¨ahlten Dialogstrategie. Sie k¨ onnen allerdings je nach verwendeter Strategie mit unterschiedlichen Kombinationen von Dialogakten vom Benutzer angefordert werden. Damit kann jeder Dialogakt, der vom Benutzer ausgeht, ein Dialogparameter sein. Allerdings muss nicht jeder dieser Dialogparameter direkt zum Dialogziel f¨ uhren. Wenn z.B. der Benutzer die Wiederholung der letzten System¨außerung w¨ unscht, f¨ uhrt dies bei der Zielerreichung nicht zu einem Fortschritt. 5
Die Erreichbarkeit eines Dialogziels muss bei kommerziellen Systemen i.d.R. durch Testprotokolle nachgewiesen werden und wird mit dem Begriff VUI Completeness beschrieben. Vgl. 2.4.5.
2.10 Dialogdesign
25
2.10 Dialogdesign Unter Dialogdesign wird allgemein die Arbeit des Erstellens eines Sprachdialogs verstanden. Grunds¨ atzlich ist mit dem Dialogdesign daf¨ ur Sorge zu tragen, dass das resultierende Dialogsystem den Grice’schen Maximen, wie in Abschnitt 2.1 vorgestellt, so weit wie m¨ oglich gen¨ ugt. Des Weiteren existiert mit DIN EN ISO 9241 eine international anerkannte Industrienorm f¨ ur die Ergonomie der Mensch-System-Interaktion. Insbesondere Teil 110 (fr¨ uher Teil 10) ist hier erw¨ ahnenswert, da er die Grunds¨atze der Dialoggestaltung in diesem Bereich festschreibt. Die Norm bezieht sich zwar auf Dialoge mit graphischen Benutzeroberfl¨ achen, allerdings lassen sich die Inhalte auf die sprachliche Interaktion u ¨bertragen [Salmen 2002]. Das spezielle Augenmerk eines Dialogdesigners sollte auf dem Dialogfluss liegen. Schließlich soll ein Sprachdialog eine ergonomische Mensch-MaschineSchnittstelle mit einem einpr¨ agsamen und intuitiven Dialogverhalten darstellen. Im Dialogdesign werden daher sowohl die groben Linien eines Dialogs, wie die Dialogspezifikation, als auch die Details bearbeitet. Als entscheidende Details werden vor allem die Wortwahl (engl. wording) f¨ ur System¨außerungen, auch Prompts genannt, und die jeweiligen Gegenst¨ ucke im Sprachmodell bzw. der Grammatik angesehen. Eine sehr wichtige Bedingung f¨ ur das Dialogdesign ist dabei die Konsistenz. So sollten Begriffe, welche in den Prompts verwendet werden, auch von der Spracherkennung verstanden werden. Da Spracherkenner immer noch keine hundertprozentigen Erkennungsraten haben, ist es u.a. Aufgabe des Dialogdesigns, die Systemprompts entsprechend so zu gestalten, dass nur bestimmte Benutzer¨außerungen des Benutzers darauf folgen k¨ onnen und so die Grammatik an dieser Stelle m¨oglichst wenige Alternativen aufweist. So macht es z.B. einen großen Unterschied, ob der Eingangsprompt in einem Navigationsdialog der in Abbildung 2.1 dargestellten Version 1 oder der Version 2 entspricht.
(Version 1)
Wohin m¨ ochten sie navigieren?
(Version 2)
Bitte sprechen sie den Zielort.
Abbildung 2.1. Verschiedene Eingangsprompts f¨ ur einen Navigationsdialog
Bei Version 1 kann es z.B. auch Benutzer¨ außerungen wie nach Hamburg“ ”¨ oder sogar nach Ulm in die S¨ oflinger Straße“ geben. Beide Außerungen er” fordern eine entsprechend komplexe Grammatik, die potentiell zu vermehrten Erkennfehlern f¨ uhren kann. Version 2 hingegen fordert explizit nur zur Nennung eines Ortsnamens auf, Straßennamen und ¨ahnliches sollten hier nicht gesprochen werden. Die Verwendung solcher spezifischen Prompts ist bei kommerziellen Systemen g¨ angige Praxis (vgl. [Pieraccini und Huerta 2005]).
26
2 Grundlagen der Dialogtheorie
Da Fehlerkennungen trotzdem nicht ausgeschlossen werden k¨onnen, liegt ein weiterer Schwerpunkt des Dialogdesigns auf der Fehlerbehandlung. Dieses umfasst sowohl die Behandlung von Benutzerfehlern, als auch das Angebot einer Hilfestellung u onnen sogar h¨aufige Fehlerf¨alle spe¨ber Hilfedialoge. Es k¨ ziell modelliert werden, um eine entsprechende Behandlung zu erm¨oglichen [Wang et al. 2003]. Zusammengefasst ergeben sich folgende Punkte, die f¨ ur ein gutes Dialogdesign zu beachten sind (nach DIN EN ISO 9241-110 und [Salmen 2002]): • Dialoge sollten so gestaltet sein, dass sie einen Benutzer bei seiner Aufgabe unterst¨ utzen ohne zus¨ atzliche Belastung zu erzeugen (Aufgabenangemessenheit); • Dialoge sollten unmittelbar verst¨ andlich sein oder wenigstens eine Hilfefunktionalit¨at beinhalten, um den Benutzer zu f¨ uhren (Selbstbeschreibungsf¨ ahigkeit); • Dialoge sollten konsistent gestaltet werden, um den Ablauf f¨ ur Benutzer durchschaubar und vorhersehbar erscheinen zu lassen (Erwartungskonformit¨at); • Benutzerfehler und Fehlerkennungen der Spracherkennung sollten f¨ ur Benutzer erkennbar sein und mit m¨ oglichst wenig Aufwand behoben werden k¨ onnen (Fehlerrobustheit). F¨ ur weitere Informationen u ¨ber Dialogdesign sei an dieser Stelle auf folgende Literatur verwiesen [Bernsen et al. 1998, Suhm 2003, Boros 2004, Tomko und Rosenfeld 2004c].
2.11 Zusammenfassung In diesem Kapitel wurden die grundlegenden Begriffe der Dialogtheorie eingef¨ uhrt. Dabei wurde die spezielle Dom¨ ane der Sprachdialogsysteme im Automobil, welche die Grundlage dieses Werkes darstellen, beachtet. Da diese Anwendung einen absoluten Spezialfall darstellt und u ¨blicherweise in der klassischen Lehre oder Literatur nicht vertreten ist, wurde an allen wichtigen Stellen in diesem Kapitel auf die Besonderheit dieser Anwendungsform Bezug genommen. Die auf diese Art eingef¨ uhrten Begriffe werden in den folgenden Kapiteln wieder aufgegriffen und ggf. weiter ausgef¨ uhrt, um die Einzelheiten eines kompletten Dialogsystems darzustellen. Die in diesem Kapitel erw¨ahnten Begrifflichkeiten stellen die Basis f¨ ur die bereits in Abschnitt 1.3 erw¨ahnten Schichten der Kommunikation und Linguistik dar. Im n¨ achsten Abschnitt wird auf die erste technische Entwicklungsebene der Systemstruktur n¨aher eingegangen.
3 Sprachdialogsysteme im Automobil
Dieses Werk besch¨ aftigt sich mit Sprachdialogsystemen im Automobil, die (wie bereits in Abschnitt 2.4.5 erw¨ ahnt wurde) eine absolute Sonderform unter den Sprachdialogsystemen darstellen. Da Dialogsysteme im Kfz zudem in der Lehre und Literatur kaum betrachtet werden, wird in diesem Kapitel der Stand der Technik von Dialogsystemen im Automobil beschrieben. Damit schafft dieses Kapitel die technischen Grundlagen dieses Werkes. Zuerst wird im Folgenden auf die Frage eingegangen, warum Sprachsysteme u ¨berhaupt im Auto eingesetzt werden. Anschließend wird der Begriff des Dialogsystems, wie er in diesem Buch Verwendung findet, definiert. Im Anschluss werden die grunds¨ atzlichen Anforderungen an Sprachdialogsysteme im Automobil von Seiten der Kfz-Hersteller beschrieben. Anschließend wird die Architektur und Funktionsweise von Dialogsystemen im Automobil dargestellt. Dabei wird auch auf die einzelnen Komponenten eines solchen Systems im Detail eingegangen. Danach wird die Integration von Sprachdialogsystemen in ein Automobil beschrieben. Weiterhin werden die wichtigsten Funktionalit¨aten existierender Ger¨ ate dargestellt. Abschließend werden die eingebetteten Sprachdialogsysteme, wie sie in Automobilen vorkommen, den serverbasierten Dialogsysteme gegen¨ ubergestellt. Es werden die Gemeinsamkeiten und Unterschiede der beiden Systemarten diskutiert.
3.1 Warum Sprache im Automobil? Die Anzahl der Funktionen im Fahrzeug steigt seit Jahren stetig an [Hassel 2006]. Vor allem im Bereich der sogenannten Infotainmentsysteme 1 hat in den letzten Jahrzehnten ein großer Funktionszuwachs stattgefunden. Alles fing mit dem Radio an, welches 1922 erstmals in ein Automobil verbaut wurde und das heute in fast jedem Kfz zu finden ist [GFU 2006]. Hinzu kamen 1
Als Infotainmentsystem wird dabei die Summe aus Audio- und Navigationsger¨ aten zusammen mit einer Telefonsteuerung im Kfz angesehen.
28
3 Sprachdialogsysteme im Automobil
Audioabspielger¨ ate, wie Kassettenspieler und CD-Player, dann Autotelefone (urspr¨ unglich Festeinbauten, jetzt in der Regel per Freisprecheinrichtung angeschlossene Mobiltelefone) und schlussendlich seit Mitte der Neunziger Jahre des letzten Jahrhunderts Navigationsger¨ ate. Daneben gibt es inzwischen in fast jedem Automobil (zumindest optional) weitere Ger¨ate, wie Bremsassistent, Klimaanlage, Bordcomputer, Tempomat, Einparkhilfe, Abstandsradar, etc. Bei dieser Summe von Ger¨ aten gibt es Bef¨ urchtungen, dass es im Automobil zu einem u ¨berfrachteten Armaturenbrett kommen kann, welches ¨ mehr Ahnlichkeit mit dem Cockpit eines Flugzeugs habe als mit einem Kfz [Labiale 1997]. Dieses Szenario kann aber auch Vorteile haben: So ist es laut [Nielsen 1993] f¨ ur die optimale Bedienbarkeit wichtig, dass f¨ ur jede Funktion ein eigenes Bedienelement existiert.2 Allerdings verdeutlicht die leicht u ¨bertriebene Illustration in Abbildung 3.1, dass diese Ansicht f¨ ur den Einsatz im Automobil nicht tauglich ist. Schließlich soll der Fahrer sich vor allem um das Fahren k¨ ummern, die Augen auf die Straße vor sich und die H¨ande am Lenkrad haben. Denn im Vergleich zum Flugzeug gibt es im Kfz (noch) keinen Autopiloten, der den Fahrer von Routineaufgaben entlastet.
¨ Abbildung 3.1. Uberfrachtetes Armaturenbrett im Kfz. (Quelle: HBAS)
Neben dem Autopiloten werden in einem Flugzeug entsprechend viele Funktionen auch ben¨ otigt, um von A nach B zu gelangen. In einem Automobil dient dagegen ein Großteil der Zusatzfunktionen ausschließlich der Unterhaltung oder dem Komfort w¨ ahrend der Fahrt und nicht dem unmittelbaren Zweck der Fortbewegung. Daher waren die Automobilhersteller gezwungen, f¨ ur die immer neuen Funktionen eine neue Bedienphilosophie zu entwickeln, welche benutzerfreundlich, bedienbar und komfortabel war, aber nicht an ein Flugzeug erin2
Nat¨ urlich hat sich Nielsen bei dieser Aussage nicht auf automobile Ger¨ ate bezogen.
3.1 Warum Sprache im Automobil?
29
nerte. Die L¨ osung dieses Problems ist das Fahrerinformationssystem (FIS), in welchem die verschiedenen Komfort- und Infotainmentfunktionen geb¨ undelt wurden. Gemeinsam ist all diesen Systemen, dass sie die Anzahl der Kn¨opfe und Schalter f¨ ur nicht fahrrelevante Aufgaben minimieren, indem eine zentrale Anzeige- und Bedieneinheit verwendet wird. Diese erlaubt den Zugriff auf alle Funktionen u ustruktur. Da jedoch jeder Hersteller seine eigene ¨ber eine Men¨ Bedienphilosophie verfolgt, gibt es hier sehr unterschiedliche Ans¨atze. So variiert die Bedieneinheit stark je nach Automobilhersteller. Zur besseren Illustration werden in Abschnitt 3.5 die unterschiedlichen Infotainmentsysteme der deutschen Premiumhersteller beschrieben. Das Prinzip der Men¨ usteuerung, wie es in allen FIS zum Einsatz kommt, wurde von graphischen Benutzeroberfl¨ achen u ¨bernommen. Ebenso wie bei letzteren werden auch im Automobil Funktionen u ¨ber mehr oder weniger einfache Men¨ ustrukturen erreicht. Dazu wird neben einem grunds¨atzlichen Verst¨ andnis f¨ ur Men¨ ustrukturen auch ein visuelles Feedback ben¨otigt. Dies ist vor allem aus Gr¨ unden der Sicherheit ein klarer Nachteil. So wurde z.B. bei [Rockwell 1972] nachgewiesen, dass w¨ ahrend der Fahrt die r¨aumliche und visuelle Wahrnehmung extrem beansprucht werden. Wenn nun diese Modalit¨aten noch zus¨ atzlich durch die haptische Bedienung von Ger¨aten ausgelastet werden, kann sich dies nachteilig auf das Fahrverhalten auswirken. Nach der Theorie der multiplen Ressourcen von [Wickens und Hollands 1999] sollten daher besser die nicht mit der Hauptaufgabe besch¨aftigten Modalit¨aten f¨ ur fahrfremde Aufgaben, wie sie die Steuerung von Infotainment-Ger¨aten darstellt, genutzt werden. Es bleiben die sprachliche und auditive Modalit¨at, die w¨ ahrend der Fahrt kaum genutzt werden und sich daher gut zur Kontrolle von Infotainment-Ger¨ aten eignen [Akyol et al. 2001]. Auch [Merat 2003] hat nachgewiesen, dass eine auditive Zweitaufgabe w¨ahrend der Fahrt das Fahrverhalten nicht systematisch beeintr¨ achtigt. Dies wird von [Boer 2001] unterst¨ utzt, der das Lenkverhalten von Probanden untersucht hat. In dieser Studie wurde nachgewiesen, dass Aufgaben, welche r¨aumliche Ressourcen beanspruchen, zu einem 90 %igen Anstieg von unvorhersehbarem, ineffizientem Lenkverhalten beitragen, dagegen f¨ uhren Aufgaben mit Nutzung der sprachlichen Ressourcen nur zu einer Zunahme von 10%. Auch bei der Reaktionszeit gilt ¨ ahnliches: bei Nutzung der sprachlichen Ressourcen wird 26% mehr Reaktionszeit ben¨ otigt, bei r¨ aumlichen Ressourcen nimmt die Reaktionszeit um 74% zu. Das bedeutet zwar, dass auch eine Sprachbedienung die Reaktionszeit verl¨ angert, allerdings ist der Anstieg der Reaktionszeit bei der haptischen Bedienung sehr viel st¨ arker vorzufinden. Den Effekt der Belastung durch Sprechen erkl¨ art [Vollrath 2005] mit der emotionellen oder kognitiven Belastung von Gespr¨ achen. Normale sachliche Gespr¨ ache - wie sie mit einer Sprachbedienung u ¨blich sein sollten - wirken sich hier sehr viel weniger nachteilig aus. Das heißt, wenn eine Sprachbedienung einfach verst¨andlich ist, kann sie den Fahrer sinnvoll w¨ ahrend der Fahrt unterst¨ utzen und zur Sicherheit des Fahrers beitragen. Damit kann der Einsatz von Sprache im Automobil klar mit Sicherheitsaspekten begr¨ undet werden.
30
3 Sprachdialogsysteme im Automobil
Doch der Einsatz einer Sprachbedienung bietet noch weitere Vorteile. So erlaubt sie auch einen komfortablen und teilweise sogar schnelleren Zugriff auf einzelne Funktionen als eine haptische Bedienung. Dies gilt umso mehr, je problematischer einem Benutzer die Verwendung von Men¨ ustrukturen eines FIS f¨ allt. Zus¨ atzlich bieten auch sogenannte Shortcuts den gezielten direkten Zugriff auf h¨ aufig genutzte Funktionen der Sprachbedienung. Damit k¨onnen in sehr kurzer Zeit mehrere haptische Bedienschritte auf einmal erledigt werden. So kann beispielsweise die Eingabe eines Ziels im Navigationssystem per Sprache einfach und schnell erledigt werden, wie in Abschnitt 3.6.3 beschrieben. Haptisch m¨ ussen dagegen die Buchstaben eines Orts- oder Straßennamens einzeln mit dem Dreh-/Dr¨ ucksteller am Ger¨ at eingegeben werden. Ein sehr umst¨andlicher, zeitraubender und w¨ ahrend der Fahrt mitunter sogar gef¨ahrlicher Vorgang.3 Und schlussendlich ist eine Sprachbedienung immer noch ein innovatives Ausstattungsdetail, welches modern und auf dem neuesten Stand der Technik ist. Dies stellt f¨ ur viele K¨ aufer ein wichtiges Kriterium dar. Zusammengefasst heißt das, eine Sprachbedienung bietet eine sichere, komfortable und innovative M¨ oglichkeit, Infotainmentger¨ate w¨ahrend der Fahrt zu bedienen. Damit verbindet die Sprachsteuerung Sicherheit, Komfort und Innovation in einem Ger¨ at. Bleibt die Frage, ob ein Sprachdialogsystem im Automobil auch vom Fahrer genutzt wird. [Cameron 2000] stellte fest, dass Nutzer Spracheingabe sehr wahrscheinlich verwenden, wenn wenigstens eins der folgenden Kritieren zutrifft: • Der Nutzer hat keine andere Wahl. • Die Verwendung eines Sprachdialogsystems verletzt nicht die Privatsph¨are des Nutzers. • H¨ ande oder Augen sind mit anderen T¨ atigkeiten besch¨aftigt. • Das Sprachdialogsystem bietet eine schnellere Interaktion als jede andere Alternative. Der Einsatz einer Sprachbedienung im Auto macht demnach sehr viel Sinn. Denn bis auf das erste Kriterium sind alle Punkte hier zutreffend. In der Regel befinden sich die meisten Fahrer alleine in ihrem Automobil, die Privatsph¨are wird also bei der Nutzung eines Sprachsystems nicht verletzt. Daneben sollten beim Autofahren die H¨ ande am Steuer und die Augen auf die Straße gerichtet sein, wie auch bereits oben dargestellt wurde. Und schlussendlich ist die Verwendung von Sprachbefehlen in vielen F¨ allen durchaus schneller, als die Bet¨ atigung verschiedener haptischer Kontrollen. Damit kann Sprachbedienung im Kfz wirklich als eine Erfolgsgeschichte [Hanrieder 2004] bezeichnet werden: die Systeme bieten Sicherheit und Komfort, gelten gleichzeitig als hochgradig innovativ und werden zudem von den 3
Daher wird in einigen Fahrzeugen die haptische Bedienung des Navigationsger¨ ats w¨ ahrend der Fahrt deaktiviert.
3.2 Systemdefinition
31
Benutzern auch akzeptiert und gekauft. Dies f¨ uhrt dazu, dass Sprachbedienungen bei immer mehr Automobilherstellern verf¨ ugbar sind. Außerdem sind die Systeme nicht mehr ausschließlich auf die Oberklasse beschr¨ankt, auch in der Mittelklasse haben sich die Systeme bereits durchgesetzt. Und als sprachbediente Freisprecheinrichtung ist die Sprachsteuerung sogar optional f¨ ur Kleinwagen erh¨ altlich.
3.2 Systemdefinition Nachdem die Gr¨ unde f¨ ur den Einsatz einer Sprachbedienung im Automobil dargestellt wurden, werden in diesem Abschnitt die Begriffe Sprachdialogsystem und Sprachbediensystem definiert. 3.2.1 Sprachdialogsystem Dialogsysteme sind sprachverstehende Systeme, d.h. Systeme, welche eine nat¨ urlichsprachliche Eingabe erlauben. Letzteres bedeutet dabei, dass Eingaben entweder u ¨ber gesprochene oder geschriebene Sprache erfolgen k¨onnen. Da sich dieses Werk ausschließlich auf gesprochen-sprachliche Dialogsysteme konzentriert, wird der Begriff Dialogsystem“ synonym mit dem Begriff des ” gesprochen-sprachlichen Dialogsystems“ genutzt. ” Laut [Bußmann 2002] unterhalten sich nat¨ urlich-sprachliche Dialogsysteme mit einem Benutzer in einem erw¨ unschten Dialog, um dem Benutzer einen m¨oglichst nat¨ urlichen Zugang zu einem Softwaresystem anzubieten, z.B. einer Datenbank oder einem Expertensystem. Diese Systembenutzung m¨oglichst erfolgreich durchzuf¨ uhren, kann daher als das Ziel des gegenseitigen Dialogs (vgl. Definition 2.1) angesehen werden. Also muss ein Sprachdialogsystem (SDS) oder auch kurz Dialogsystem zun¨achst einmal ein sprachverste¨ hendes System sein, es muss also in der Lage sein, Außerungen eines Benutzers zu analysieren, zu verstehen und darauf zu reagieren. Da es sich bei aktuellen Dialogsystemen in der Regel um speziell f¨ ur eingeschr¨ankte Dom¨anen erstellte Systeme handelt (vgl. Abschnitt 2.7), sollte ein gutes Dialogsystem (allerdings auch der Benutzer) sich immer an die bereits in Abschnitt 2.1 eingef¨ uhrten Grice’schen Maximen halten. Diese Maximen k¨onnen somit als Grundregeln f¨ ur die Erstellung von Dialogsystemen gelten, da nur bei einem entsprechenden Verhalten der Dialogteilnehmer auch gew¨ ahrleistet werden kann, das gemeinsame Dialogziel auch wirklich zu erreichen. Allerdings sollte ein Dialogsystem auch Hilfemechanismen aufweisen, um auch unge¨ ubten Benutzern die Verwendung zu erm¨ oglichen. Zusammengefasst kann gesagt werden: Definition 3.1. Ein Sprachdialogsystem ist ein sprachverstehendes System, das dem Erreichen von Zielen im gegenseitigen kooperativen Dialog dient, daf¨ ur muss es Benutzer¨ außerungen ad¨ aquat verarbeiten und darauf sinnvoll reagieren k¨ onnen.
32
3 Sprachdialogsysteme im Automobil
3.2.2 Sprachbediensystem Sprachdialogsysteme im Automobil dienen aktuell ausschließlich der Steuerung von angeschlossenen Ger¨ aten, sie werden daher auch Sprachbediensysteme (SBS) genannt. Grunds¨ atzlich werden im Automobil keine sicherheitsrelevanten Funktionen sprachgesteuert. Die SBS stehen auch nicht im Zentrum der Aufmerksamkeit von Benutzern, vielmehr erm¨oglichen sie es ¨ dem Benutzer, mit knappen und kurzen Außerungen zum Ziel zu kommen. Auf Grund dieser Besonderheiten spielt nat¨ urlichsprachliches Sprachverstehen gegenw¨ artig keine (¨ ubergeordnete) Rolle f¨ ur solche Systeme, vgl. [Hamerich et al. 2005]. Grunds¨ atzlich gilt damit: Definition 3.2. Ein Sprachbediensystem ist ein Sprachdialogsystem, welches zur Steuerung von Ger¨ aten per Sprache genutzt wird. Eine Anwendungsdom¨ ane solcher Systeme ist die sprachliche Kontrolle von Ger¨ aten im Automobil, wie z.B. Telefon oder Navigationssysteme.
3.3 Systemanforderungen Wie bereits in Abschnitt 2.4.5 angemerkt, gibt es f¨ ur kommerzielle Dialogsysteme spezielle Anforderungen bez¨ uglich der Vollst¨andigkeit der Spezifikation. Doch neben diesen Anforderungen gibt es noch eine Reihe technischer Rahmenbedingungen, die automobile Systeme stark von anderen Sprachsystemen unterscheiden. In diesem Abschnitt werden alle Anforderungen an ein Sprachbediensystem im Automobil ausf¨ uhrlich dargestellt. Die Reihenfolge der Aufz¨ahlung erfolgt nach Priorit¨ aten f¨ ur die Entwicklungsphase eines SBS, beginnend mit den wichtigsten Punkten. 3.3.1 Hardwareanforderungen In der Automobilindustrie werden sehr hohe Anforderungen an die in einem Fahrzeug verwendete Hardware gestellt. Die in heutigen Automobilen eingesetzte Hardware ist daher nicht mit handels¨ ublichen Festplatten und Speicherbausteinen vergleichbar. Dies ist zum einen in den verschiedenen klimatischen Gegebenheiten auf der Welt, denen ein Automobil im Betrieb ausgesetzt ist, begr¨ undet. Zum anderen d¨ urfen Ersch¨ utterungen w¨ahrend der Fahrt die Elektronik und ihre Bausteine nicht besch¨ adigen. Daneben gibt es f¨ ur alle in einem Kfz eingesetzten Eleketronikkomponenten einevorgeschriebene ausfallsichere Mindestlebensdauer, die in MTBF (engl. mean time between failure) ausgedr¨ uckt wird und der Komponenten f¨ ur den Endverbraucher in der Regel nicht gen¨ ugen. Selbstverst¨ andlich muss auch in umfangreichen EMV-Tests
3.3 Systemanforderungen
33
(Elektromagnetische Vertr¨ aglichkeit) nachgewiesen werden, dass die zu verbauenden Komponenten keine St¨ orungen durch elektrische oder elektromagnetische Effekte verursachen k¨ onnen. Zuletzt muss ein Zulieferer von Elektronikkomponenten eine garantierte vorgeschriebene minimale Lieferf¨ahigkeit von identischen Teilen u ¨ber mindestens zehn bis zw¨olf Jahre garantieren. Aus diesen Gr¨ unden werden in Kfz keine Magnetspeicher, sondern relativ teure Flash-Bausteine eingesetzt. Die genannten Einschr¨ankungen f¨ uhren daher zu einer Beschr¨ ankung des Speicherplatzes in Automobilapplikationen. Dies ist im kurzlebigen Consumer-Gesch¨ aft ganz anders. Da Automobilhersteller ihre Produkte in großen St¨ uckzahlen fertigen und aus wirtschaftlichen Gr¨ unden h¨ aufig auf das Gleichteileprinzip zur¨ uckgreifen, stellen die Anschaffungskosten f¨ ur Speicherbausteine in der Summe erhebliche Geldbetr¨ age dar. Um hier finanzielle Mittel nicht zu verschwenden, ist daher ein sparsamer Umgang mit Speicherplatz eine der wichtigsten Forderungen u ¨berhaupt. Dieses Kriterium hat daher in der Regel oberste Priorit¨at und bei der Einf¨ uhrung von neuen Funktionen f¨ ur ein SBS ist deren Speicherbedarf eine entscheidende Gr¨ oße. Zuletzt sind die Geschwindigkeit und Leistungsaufnahme von Prozessoren ein wichtiges Kriterium. Strom steht in einem Kfz nicht unbegrenzt zur Verf¨ ugung, daher werden sehr sparsame Hardwarebausteine verwendet. Diese zeichnen sich meist durch hohe Lebensdauer und Ausfallsicherheit aus, k¨onnen aber von der Leistung nicht mit PC-Prozessoren mithalten. 3.3.2 Spezifikation Wie bereits in Abschnitt 2.4.5 dargstellt wurde, ist eine vollst¨andige Spezifikation des Dialogablaufs bei kommerziellen Dialogsystemen unerl¨asslich. Dies ist f¨ ur den Bereich von serverbasierten Dialogsystemen u.a. bei [Pieraccini und Huerta 2005] dargestellt und mit Begriff VUI Completeness bezeichnet worden. Gleiches gilt prinzipiell auch f¨ ur SDS im Automobil. Wie bereits in [Hamerich et al. 2005] beschrieben wurde, gibt es verschiedene Aspekte bei der Spezifikation eines SBS: •
Der wesentliche Aspekt ist die bereits angesprochene Vollst¨ andigkeit der Spezifikation. Dies ist umso wichtiger, da der Auftraggeber anhand der Spezifikation den kompletten Funktionsumfang eines SBS feststellen und außerdem seine Bedienphilosophie genau daraus ablesen k¨onnen sollte. Um den Dialogfluss m¨ oglichst gut verst¨ andlich darzustellen, haben sich Flussdiagramme zur Beschreibung durchgesetzt. Diese basieren auf endlichen Automaten, die auch zur Modellierung des Dialogablaufs verwendet werden, wie es bereits in Abschnitt 2.4.1 und 2.4.5 vorgestellt wurde. • Wichtig ist ferner die Konsistenz eines Dialogsystems, wie auch schon in Abschnitt 2.10 begr¨ undet wurde. Auch diese Eigenheit sollte bereits in der Spezifikation abgebildet sein, um sp¨ ater eine effiziente Implementierung zu erm¨ oglichen.
34
3 Sprachdialogsysteme im Automobil
• Zus¨ atzlich wird eine aussagekr¨ aftige Spezifikation auch als Grundlage f¨ ur ¨ die Uberpr¨ ufung des fertigen Systems verwendet. So m¨ ussen grunds¨atzlich alle Dialogabl¨ aufe durchgetestet und deren erfolgreiche Erledigung f¨ ur den Kunden protokolliert werden. Wenn eine Spezifikation all diese Punkte erf¨ ullt, kann die Entwicklung des SBS beginnen. 3.3.3 Integration in automobiles HMI Ein SBS im Automobil stellt heute nur eine alternative Bedienungsmodalit¨at dar. Das heißt s¨ amtliche Funktionen4 k¨ onnen auch haptisch ausgef¨ uhrt 5 werden. Bedingt dadurch orientiert sich die Sprachbedienung h¨aufig an der Logik und dem Design der haptischen Bedienung. Auch die Schnittstellen zu angeschlossenen Ger¨ aten wie z.B. einem Navigationssystem werden f¨ ur beide Modalit¨ aten ausgef¨ uhrt. Eventuell zus¨ atzlich f¨ ur die Sprache ben¨otigte Daten oder Funktionen m¨ ussen daher in den Entwicklungsprozess der haptischen Bedienung mit einfließen. Daher erfolgt die Definition und Entwicklung der beiden Bedienmodalit¨ aten zusammen in einem gemeinsamen Prozess, damit das finale HMI (engl. human machine interface) konsistent ist und zusammenpasst. Um dies zu gew¨ ahrleisten, erfolgt die bereits angesprochene Integration der Sprachbedienung in die graphisch-haptischen Schnittstellen und Systeme eines Automobils. Auf Grund dieser engen Verzahnung der Modalit¨aten werden automobile HMI-Systeme speziell f¨ ur einen Automobilhersteller und eine Fahrzeugreihe entwickelt. Diese Integration der Sprachbedienung bietet allerdings auch die M¨ oglichkeit, das HMI f¨ ur den Sprachdialog zu nutzen und damit eine multimodale Anwendung zu erstellen. Abh¨angig von der jeweiligen Bedienphilosophie des Automobilherstellers gibt es daher zum Beispiel die M¨ oglichkeit, m¨ ogliche Kommandos im aktuellen Systemzustand anzuzeigen oder eine erforderliche Disambiguierung durch die graphische Darstellung zu unterst¨ utzen. Bedingt durch den hohen Integrationsgrad von SBS und der Abh¨angigkeit von den r¨ aumlichen und technologischen Gegebenheiten im jeweiligen Automobil, ist eine enge Kooperation mit dem jeweiligen Fahrzeughersteller bei der Entwicklung von Spachbediensystemen notwendig. Außerdem kann eine solche Entwicklung nur von einem gr¨ oßeren Personenkreis geleistet werden, da verschiedene Spezialisten ben¨ otigt werden. So werden alleine f¨ ur die Erstellung 4
5
Als Funktion wird hier die Steuerung der angeschlossenen Ger¨ ate, wie beispielsweise Radio, Medienspieler, Navigationssystem und Telefonsteuerung bezeichnet. Mehr zum Funktionsumfang eines SBS weiter unten in Abschnitt 3.6. Es ist allerdings durchaus m¨ oglich, dass sprachlich mehrere haptische Bedienschritte auf einmal ausgef¨ uhrt werden k¨ onnen, in diesem Fall spricht man von einem shortcut der Bedienung. Nichtsdestotrotz sind (wenn auch manchmal sehr umst¨ andlich) alle sprachlichen Bedienungen auch haptisch nachvollziehbar.
3.4 Systemarchitektur
35
einer Bedienphilosophie in einem Automobil neben Ingenieuren und Technikern u ¨blicherweise immer auch Psychologen und Designer ben¨otigt. Der zeitliche Aufwand f¨ ur die Entwicklung eines kompletten neuen Systems wird u ¨blicherweise in mehreren Jahren gerechnet, dabei werden laufend Musterst¨ande erstellt, integriert und getestet. 3.3.4 Bedienbarkeit Neben den o.g. technischen Anforderungen soll eine Sprachbedienung nat¨ urlich auch von Nutzern bedient werden k¨ onnen. Daf¨ ur werden neue Technologien und Funktionalit¨aten regelm¨ aßig durch Benutzerbefragungen und -tests evaluiert, wie z.B. bei [Hamerich 2005] dargestellt. Daneben k¨onnen auch komplette Produktsysteme evaluiert werden. Ergebnisse von fr¨ uhen Designevaluationen k¨ onnen w¨ahrend der Spezifikati¨ onsphase eines neuen Systems zu wichtigen Anderungen f¨ uhren. Allerdings kann nicht ausgeschlossen werden, dass sich Auftraggeber bedingt durch ei¨ gene Uberzeugungen, Erfahrungen und/oder Bedienphilosophien nicht f¨ ur den – laut Evaluationsergebnissen – optimalen Weg entscheiden. In diesem Fall w¨ urde die Bedienbarkeit (engl. usability) den Einschr¨ankungen des Auftraggebers untergeordnet. Daher ist die Produktversion eines SBS immer ein Kompromiss zwischen optimaler Bedienbarkeit, m¨ oglichst niedrigen Hardwarekosten und den Designanforderungen des Kfz-Herstellers. Das Thema Bedienbarkeit wird in Kapitel 4 wieder aufgegriffen.
3.4 Systemarchitektur In diesem Abschnitt werden die wichtigsten Komponenten eines automobilen Dialogsystems dargestellt. Damit sollen die Grundlagen der den einzelnen Komponenten zugrundeliegenden Technologien und Ans¨atze erkl¨art werden, um anschließend das Zusammenspiel der Komponenten verstehen zu k¨onnen. ¨ Dieser Uberblick ist allgemein gehalten und nur als Einf¨ uhrung in die entsprechenden Bereiche zu verstehen. Um die Besonderheit der automobilen Systeme gegen¨ uber den bekannteren serverbasierten Sprachdialogsystemen auch vor dem Hintergrund der Systemarchitektur herauszustellen, sei bereits jetzt auf Abschnitt 3.7 hingewiesen, in dem Architektur und Merkmale von Serversystemen dargestellt werden. Die schematische Architektur eines Sprachbediensystems ist in Abbildung 3.2 dargestellt. Das eigentliche SBS besteht in einem Kfz nur aus dem Dialogmanager, der Spracherkennung (ASR) und dem Prompter. Alle anderen Ger¨ ate sind an das graphisch-haptische HMI gebunden und sind daher auch in einem Automobil vorzufinden, in dem kein SBS installiert ist. Zur besseren ¨ Ubersicht werden in den folgenden Abschnitten allerdings alle Komponenten, die f¨ ur ein funktionierendes SBS ben¨ otigt werden, beschrieben.
36
3 Sprachdialogsysteme im Automobil
Abbildung 3.2. Schematische Systemarchitektur eines SBS
3.4.1 Spracheingabe und akustische Vorverarbeitung Die Spracheingabe erfolgt bei gesprochen-sprachlichen Systemen grunds¨atzlich in ein Mikrofon. Dieses ist in Fahrzeugen meist im R¨ uckspiegel, der Dachbedieneinheit, im Dachhimmel oder der A-S¨aule eingebaut. Dabei k¨onnen sowohl einzelne Mikrofone verbaut werden, wie auch Mikrofonarrays zum Einsatz kommen. In letzterem Fall werden zwei bis vier Mikrofone nebeneinander installiert, um ein besseres akustisches Sprachsignal zu erhalten [Brandstein und Ward 2001]. Mikrofone geh¨oren nicht ausschließlich zum SBS, da sie ebenfalls f¨ ur die in einem Fahrzeug installierte Freisprecheinrichtung (FSE) genutzt werden, um damit die Spracheingabe f¨ ur das angeschlossene Mobiltelefon zu verarbeiten. ¨ Ublicherweise sind Dialogsysteme im Automobil nicht permanent aktiv, d.h. das Mikrofon muss gezielt aktiviert werden, um Fehlerkennungen und eine permanente Auslastung der Rechenleistung des FIS f¨ ur das SBS zu vermeiden. Daher muss ein Benutzer (dieser ist im Regelfall identisch mit dem Fahrer) das System aktivieren.6 Um das System zu starten, muss der sogenannte PTT-Knopf (engl. push to talk ) bet¨ atigt werden, der je nach Automobilhersteller und Modell entweder als Bedienhebel an der Lenks¨aule, Taste am Multifunktionslenkrad (MFL) oder Knopf in der Mittelkonsole ausgef¨ uhrt ist. Der PTT-Knopf ist damit der einzige haptische Bestandteil einer Sprachbedienung.7 Aus Gr¨ unden des Gleichteileprinzips wird der PTT in der Mittelkonsole oder auf dem MFL auch bei nicht installiertem SBS installiert, hat dann aber keine Funktion. 6
7
Ausgenommen proaktive Dialoge, wie z.B. die Ansage eines auf dem Mobiltelefon ankommenden Anrufs oder die im Rahmen dieses Werkes entwickelte Funktionalit¨ at f¨ ur Verkehrsnachrichten. In einigen Ausf¨ uhrungen, wie z.B. beim SBS in der aktuellen Mercedes C-Klasse (W204) gibt es auch einen separaten Abbruch-Knopf, welcher die Sprachbedienung abbricht.
3.4 Systemarchitektur
37
Bei gesprochen-sprachlichen Eingaben in ein Dialogsystem ist besonders auf die Akustik zu achten. So gibt es je nach r¨aumlicher Gegebenheit unterschiedliche Arten von Umgebungsger¨ auschen, die zur Erreichung einer besseren Spracherkennrate aus dem Sprachsignal gefiltert werden m¨ ussen. In Automobilen muss st¨ anding mit hohen St¨ orger¨ auschen von Wind, Regen, Scheibenwischern, unebener Fahrbahn etc. gerechnet werden. Zus¨atzlich k¨onnen ge¨offnete Fenster oder ein laufendes Gebl¨ ase weitere Ger¨ausche verursachen. Die Ger¨ ausche werden vor der eigentlichen Spracherkennung aus dem Signal gefiltert, um dessen Qualit¨ at zu verbessern. Die dabei angewandten Verfahren sind u.a. bei [H¨ ansler und Schmidt 2004] beschrieben. Sind mehrere Mikrofone verf¨ ugbar, werden neben der einkanaligen Echound St¨ orreduktion h¨ aufig beam former Verfahren eingesetzt, um die Qualit¨at des erkannten Sprachsignals weiter zu verbessern und auch in unterschiedlichen Sitzpositionen des Fahrers ein gutes Signal erkennen zu k¨onnen [Nordholm et al. 2001]. Im Gegensatz zu den bekannten PC-basierten Diktiersystemen m¨ ussen die Systeme im Kfz sofort von jedem bedienbar sein. Eine eigene Trainingsphase sollte allenfalls optional verf¨ ugbar, nicht jedoch erforderlich sein. Dar¨ uber hinaus k¨ onnen keine Nahbesprechungsmikrofone (Headsets) verwendet werden, da der Fahrer sich frei und ohne Kabel bewegen k¨onnen muss. Daher muss die akustische Vorverarbeitung auch die Entfernung des Fahrers vom Mikrofon mit beachten. Bereits bei den im Automobil vorfindbaren Abst¨anden kommen Effekte der Weitbereichsakustik ins Spiel, die zu einer zus¨atzlichen Kanalverzerrung f¨ uhren. Daher ist eine akustische Vorverarbeitung absolut notwendig f¨ ur ein automobiles SBS. ¨ Ublicherweise ist die akustische Vorverarbeitung im Mikrofon oder in der Spracherkennung integriert. Daher ist die Vorverarbeitung in der Architektur in Abbildung 3.2 auch nicht als eigene Komponente abgebildet worden. 3.4.2 Spracherkennung und Parsing Nachdem St¨ orger¨ ausche und Echos aus dem Signal gefiltert wurden, wird das gefilterte Sprachsignal an die Spracherkennung weitergegeben. Die automatische Spracherkennung (engl. automatic speech recognition) bildet das Sprachsignal auf eine Wortkette ab. Daf¨ ur wird das Sprachsignal abgetastet und aus diesem mittels der Fourier-Transformation Spektralparameter gewonnen. Aus letzteren werden Merkmalsvektoren errechnet, die mit Referenzmustern verglichen werden. Diese Muster sind Phonemfolgen, die sich zu Wortfolgen addieren. Die wahrscheinlichste Wortfolge stellt das Ergebnis der Spracherkennung dar. Die Grundlagen der Sprachsignalerkennung sind bei [Vary et al. 1998] ersch¨ opfend dargestellt. Detailliertes zur Spracherkennung kann bei [Jelinek 1998] gefunden werden. Die grunds¨ atzlichen Mechanismen der Spracherkennung, wie sie f¨ ur PCbasierte Systeme z.B. bei [Bahl et al. 1993] beschrieben werden, finden auch im Automobil Verwendung. Hervorzuheben ist aber der deutlich geringere
38
3 Sprachdialogsysteme im Automobil
Speicherverbrauch von automobilen Spracherkennern, der sich v.a. aus den in Abschnitt 3.3.1 beschriebenen Hardwareanforderungen erkl¨art. Daneben hat es sich wegen der bereits angesprochenen besonderen akustischen Bedingungen, welche im Auto herrschen, als sinnvoll herausgestellt, die f¨ ur das Training der Spracherkennung ben¨ otigten Daten auch in einem Kfz aufzunehmen. Damit sind akustische St¨ orungen und Umgebungsl¨arm im Trainingsmaterial ¨ ahnlich repr¨ asentiert wie es sp¨ ater im laufenden Betrieb der Fall sein wird. Da die Sammlung solcher Sprachdaten sehr teuer und aufw¨andig ist, wurden Daten zum Beispiel im Rahmen des Projekts SPEECON gesammelt [Iskra et al. 2002]. Daneben existieren weitere Bestrebungen zur Sammlung von Korpora in Automobilumgebungen, wie z.B. bei [Kato et al. 2008] beschrieben. Neueren Datums sind Untersuchungen, welche den besonderen Einfluss der kognitiven Belastung durch die Fahrt¨ atigkeit auf den Fahrer und die Erkennung seiner Sprache thematisieren, [Lindstr¨ om et al. 2008] haben dabei festgestellt, dass sich die Sprache des Fahrers unter unterschiedlichen Fahrbelastungen ¨ andern kann. Diese Studien werden Einfluss auf sp¨atere Generationen von Spracherkennern zum automobilen Einsatz haben. Um aus den Zeichenketten, die aus dem Spracherkennungsvorgang hervorgehen, eine Bedeutung herauszulesen, m¨ ussen die Wortfolgen interpretiert werden. Dies geschieht beim Parsing. Dort werden allgemein syntaktische Strukturen und semantische Beziehungen innerhalb der erkannten Wortfolge ¨ herausgearbeitet. Ublicherweise werden Grammatiken f¨ ur das Parsing verwendet, es gibt jedoch auch statistische Verfahren, die ohne eine Grammatik auskommen. In kommerziellen Systemen werden keine syntaktischen Analysen vom Parser ben¨ otigt, daher wird nur mit der semantischen Ebene gearbeitet.8 Der Parser weist in diesem Fall jeder Wortkette eine semantische Repr¨asentation zu. Synonymen k¨ onnen dabei die gleichen Repr¨asentationen zugewiesen werden. Dies funktioniert auch zwischen unterschiedlichen Sprachen. So werden die S¨ atze Ich m¨ ochte Gerhard anrufen“ und I would like to call Gerhard“ ” ” und Dial Gerhard“ alle auf die gleiche Repr¨ asentation abgebildet. F¨ ur den ” Dialog ist ausschließlich die Semantik essentiell, da nur bei Kenntnis der semantischen Repr¨ asentation eine Benutzer¨ außerung korrekt interpretiert und eine entsprechende Reaktion ausgel¨ ost werden kann. Konkrete Beispiele und weitere Informationen u ¨ber die verwendeten Grammatikalgorithmen werden in Abschnitt 5.3 dargestellt. F¨ ur Sprachdialogsysteme im Kfz ist der Parser in der Regel direkt in die Spracherkennungskomponente integriert, daher wurde er nicht als separate Komponente in der Systemarchitektur erw¨ ahnt.
8
Die semantische Ebene ist dabei in der Regel eine Kombination aus Semantik und einem Dialogakt, vgl. Abschnitt 2.3.
3.4 Systemarchitektur
39
3.4.3 Dialogmanager Die Kontrolle in einem Dialogsystem wird vom Dialogmanager (DM) ausge¨ ubt. Der DM ist die steuernde Komponente in einem Dialogsystem und f¨ uhrt die in Abschnitt 2.5 bezeichneten Funktionen der Dialogsteuerung aus. Wie bereits in Abschnitt 2.4.5 dargestellt wurde, eignet sich f¨ ur Sprachsysteme im Automobil vor allem die zustandsbasierte Dialogbeschreibung. Diese bietet auf der einen Seite die M¨ oglichkeit einer exakten Spezifikation und kommt zudem mit einem einfachen Dialogmanager aus, der wenig Funktionalit¨ at aufweisen muss und daher wenig Speicherplatz ben¨otigt.9 Aus diesen Gr¨ unden ist der verwendete DM in Automobilen analog zu einem endlichen Automaten aufgebaut, er arbeitet die Dialogbeschreibung ab und steuert entsprechend alle anderen Komponenten eines SDS. So ist die Dialogsteuerung z.B. daf¨ ur zust¨ andig, den Spracherkenner zu o¨ffnen, wenn der PTT-Knopf bet¨ atigt wurde. 3.4.4 Headunit Die Headunit ist prinzipiell ein eingebetteter Computer. Sie enth¨alt ein Motherboard mit Speicherbausteinen und Prozessor10 , daneben kann f¨ ur die Audioverarbeitung ein separater DSP (engl. digital signal processor ) genutzt werden, in einigen Systemen wird sogar f¨ ur das SBS ein eigener DSP verwendet. Aus den bereits erw¨ ahnten Hardwareanforderungen (Abschnitt 3.3.1) folgt, dass die Bausteine keine Consumer-Produkte sind, sondern explizit f¨ ur den Einsatz in eingebetteten Systemen spezifiziert und entwickelt wurden. Als Betriebssystem auf Headunits wird ein Echtzeitsystem wie beispielsweise QNX verwendet. Dialogsysteme im Automobil dienen ausschließlich zur Steuerung von anderen Ger¨ aten, wie z.B. CD-Player, CD-Wechsler, Radio, MP3-Player, Telefon, Adressbuch, Klimaanlage und Navigationssystem. Die Headunit u ¨bt u ¨ber diese Ger¨ ate die Systemkontrolle aus. Wenn das Display des Navigationssystems auf der Headunit montiert ist, wird die Headunit in die Mittelkonsole von Kfz integriert. In Abbildung 3.3 ist eine Headunit der Mercedes-Benz E-Klasse (W211) abgebildet. Um die Kontrolle u ¨ber alle angeschlossenen und verbauten Ger¨ate u ¨bernehmen zu k¨ onnen, sind die Infotainmentger¨ ate u ¨ber den Entertainment-Bus mit der Headunit verbunden. Dieser Bus wird u ¨blicherweise als MOST-Bus ausgef¨ uhrt. Dabei handelt es sich um ein serielles Bussystem, welches speziell ¨ f¨ ur die Ubertragung von Audio-, Video- und Sprachdaten entwickelt wurde. 9 10
Die Notwendigkeit von geringem Speicherverbrauch folgt den in Abschnitt 3.3.1 formulierten Hardwareanforderungen. In aktuellen Systemen von HBAS werden u ¨blicherweise SH4 Mikroprozessoren eingesetzt, 32-bit RISC-Prozessoren mit 200 bis 600 MHz der Firma Renesas Technology (Stand 2006/2007).
40
3 Sprachdialogsysteme im Automobil
Abbildung 3.3. Headunit der Mercedes-Benz E-Klasse (Ausstattungsvariante COMAND)
Der Bus wird im Automobil immer in einer Ringtopologie ausgef¨ uhrt und zur ¨ Ubertragung werden Lichtwellenleiter eingesetzt. Um beispielsweise das Navigationssystem mit Daten des Tachometers versorgen zu k¨ onnen, wird dieser ebenfalls an die Headunit angebunden. Daf¨ ur wird mit CAN oder D2B allerdings ein anderer Bus eingesetzt. Beide Systeme wurden fr¨ uher ebenfalls f¨ ur die Kommunikation mit den Multimediager¨aten eingesetzt, sind jedoch weniger leistungsf¨ ahig als der MOST-Bus. Wenn die Sprachbedienung als separates Hardwaremodul ausgef¨ uhrt ist, kommunizert sie ebenfalls u ¨ber den MOST-Bus mit der Headunit. Bei einer Softwareintegration residiert das SBS im Speicher der Headunit. 3.4.5 R¨ uckmeldungen des Systems Sprachliche R¨ uckmeldungen des Systems werden als Prompts bezeichnet. Die Ausgabe erfolgt dabei entweder per bereits vorab aufgenommener Audiodaten (engl. prerecorded speech) oder die Prompts werden in Textform an die Sprachsynthese (engl. text to speech) u ur bestm¨ogliche Sprachqualit¨at ¨bergeben. F¨ werden u ¨blicherweise ausschließlich aufgenommene Sprachprompts verwendet [Jeschke 2008]. Diese werden von professionellen Sprechern im Tonstudio aufgenommen und verf¨ ugen u ¨ber eine exzellente Sprachqualit¨at. Da Speicherplatz f¨ ur diese eingebetteten Systeme aber knapp ist, werden die Prompts komprimiert. Außerdem werden aus finanziellen Gr¨ unden und speicherplatzbedingt nur die wichtigsten Systemmeldungen aufgenommen. Weitere Texte, insbesondere Straßennamen oder Adressbucheintr¨ age sind allerdings viel zu zahlreich und dynamisch, um u ¨ber vorab aufgenommene Sprachprompts ausgegeben zu werden. Daher werden f¨ ur diese F¨ alle seit einiger Zeit Sprachsynthesen eingesetzt. In der aktuellen Mercedes C-Klasse (interne Bezeichnung W204) ist beispielsweise eine TTS im Einsatz, um TMC-Meldungen (siehe Abschnitt 8.1.2) vorzulesen.
3.5 Systemintegration
41
Wichtig ist die Auswahl der Stimme und auch die Qualit¨at der verwendeten TTS. Dies belegen auch Studien, in denen nachgewiesen wurde, dass die Auswahl der Stimme Auswirkungen auf das Fahrverhalten von Probanden hat [Harbluk und Lalande 2005, Jonsson et al. 2005]. In jedem Fall erfolgen Sprachausgaben des Systems u ¨ber die Bordlautsprecher des Fahrzeugs. Gleichzeitig laufende Audioausgaben werden je nach System von der jeweiligen Headunit w¨ ahrend der Promptausgabe leiser oder auch stumm geschaltet. Allerdings beschr¨ ankt sich ein SBS nicht ausschließlich auf akustische R¨ uckmeldungen. In einem vollintegrierten System werden je nach Dialogzustand auch die Displayanzeigen umgeschaltet und aktualisiert. Dies wird u.a. bei der sprachlichen Eingabe von Navigationszielen ben¨otigt, wie in Abschnitt 3.6.3 ausf¨ uhrlich dargelegt wird.
3.5 Systemintegration Die Besonderheit von Sprachbediensystemen ist ihre feste Integration in das Fahrerinformationssystem des Kfz ab Werk.11 Diese Systeme werden als Originalzubeh¨ or im Auftrag eines Automobilherstellers gefertigt und daher auch als OEM-Systeme (engl. original equipment manufacturer ) bezeichnet. Um ein System mit der im vorherigen Abschnitt beschriebenen Architektur in ein Kfz zu integrieren, ist ein erheblicher Aufwand notwendig. Zum einen existieren die bereits angesprochenen akustischen Bedingungen (vgl. Abschnitt 3.4.1), welchen durch Schallmessungen bereits in einem fr¨ uhen Stadium eines automobilen Prototypen Rechnung getragen wird, indem optimale Mikrofonpositionen ausgemessen werden. Zum anderen bestehen die bereits in Abschnitt 3.3.1 angesprochenen Hardwareanforderungen. Aus diesen Gr¨ unden werden SBS in Automobilen immer noch als eingebettete (engl. embedded ) Systeme ausgef¨ uhrt und entweder als separate Hardware oder als Software innerhalb von Infotainmentsystemen realisiert. Die Besonderheit bei diesen Systemen ist, dass ein Sprachbediensystem direkt auf die zu steuernden Ger¨ ate zugreift, also in direkter Kommunikation mit diesen steht. Dies bedeutet, dass in der Sprachsteuerung die Protokolle und Schnittstellen des gesamten Infotainmentsystems abgebildet werden m¨ ussen. Dies ist auch eine der Hauptschwierigkeiten der Integration von Sprachbedienungen in ein Kfz, da hier sehr hardwarenah und mit wenig Speicherplatz programmiert werden muss. Es gibt aktuell zwei M¨ oglichkeiten f¨ ur die Ausf¨ uhrung von Sprachbedienungen in einem Automobil. Die preisg¨ unstigere und weniger leistungsf¨ahige Alternative ist die Ausf¨ uhrung in Hardware. In diesem Fall sind die Anforderungen an den Speicher absolut minimal, der Spracherkenner wird auf 11
Es gibt allerdings auch Nachr¨ ustsysteme, die hier aber nicht thematisiert werden.
42
3 Sprachdialogsysteme im Automobil
einem Chip integriert und die gesamte Dialogapplikation muss mit maximal 128 KB Speicher auskommen. In Abbildung 3.4 ist ein exemplarisches Hardware-Modul einer solchen Sprachbedienung abgebildet. Wenn eine Hardware-Realisierung vorgenommen wird, muss das entsprechende Modul di¨ rekt an den Entertainment-Bus des Fahrzeugs angeschlossen werden.12 Uber diesen l¨ auft dann die gesamte Kommunikation mit der Headunit und den anderen Systemkomponenten. Das Sprachmodul wird in einem Fahrzeug u ¨blicherweise entweder unter der R¨ uckbank oder im Kofferraum montiert und dort an den Bus angeschlossen. Wenn eine Software-Integration vorgenommen werden soll, sind die einfache Portierbarkeit auf die verschiedenen genutzten Echtzeit-Betriebssysteme (v.a. QNX), sowie flexible Ger¨ ate-Schnittstellen f¨ ur die Kommunikation mit externen Komponenten die wichtigsten Faktoren. In diesem Fall werden Erkenner und Dialog in einen Flash-Speicher geschrieben. Aber auch in diesem Fall stehen u ur das komplette SDS nicht mehr als zwei bis vier ¨blicherweise f¨ MB zur Verf¨ ugung.13 Zwar weisen einige Speicher im Kfz schon erheblich gr¨ oßere Kapazit¨ aten auf, allerdings wird der Großteil des Speichers von der Navigation zur Routenberechnung ben¨ otigt.
Abbildung 3.4. Hardwaremodul eines SDS aus dem Audi A8
Die Ausf¨ uhrung eines SBS ist in einem Kfz ¨außerlich nicht zu erkennen. Grunds¨ atzlich ist das Vorhandensein einer Sprachsteuerung kaum auff¨allig. Die einzig sichtbaren Komponenten sind das Mikrofon und der PTT-Knopf. Einige Kfz-Hersteller haben in allen Modellen einer Baureihe aus Gr¨ unden des Gleichteileprinzips Mikrofone montiert, die tlw. auch zum Freisprechen verwendet werden. Auch der PTT-Knopf ist, wenn im Multifunktionslenkrad integriert, immer vorhanden. Da die Bedienphilosophien zwischen den 12 13
Dieser Bus ist separat vom Bus f¨ ur die Motoren und Steuerger¨ ate eines Automobils ausgef¨ uhrt. Zahlen und Gr¨ oßenangaben Stand 2006/2007.
3.5 Systemintegration
43
einzelnen Automobilherstellern stark differieren, gibt es sehr unterschiedliche Auspr¨ agungen der Headunit und des PTT-Knopfes. Im Folgenden werden drei sehr prominente Beispiele illustriert. Bei Mercedes-Benz in der aktuellen EKlasse (interne Bezeichung W211) ist das graphisch/haptische HMI in einem Ger¨ at geb¨ undelt, Display und Taster bilden eine Einheit, wie auf Abbildung 3.5 zu erkennen ist. Es gibt jedoch auch die M¨oglichkeit, das Display von den Tasten zu trennen, wie bei Audi im A8 (D3) zu finden (vgl. Abb. 3.6). Dagegen hat BMW mit dem iDrive nur einen zentralen Dreh-/Dr¨ ucksteller platziert und damit die Anzahl der Taster im Fahrzeugcockpit massiv reduziert. In Abbildung 3.7 ist das iDrive-System im BMW 7er (E65) dargestellt.
Abbildung 3.5. Headunit und PTT-Hebel (links, tlw. vom Lenkrad verdeckt) in der Mercedes-Benz E-Klasse. (Ausstattungsoption COMAND APS mit Linguatronic.)
Abbildung 3.6. Headunit im Audi A8 (aufgetrennt in Tasten und Display) mit PTT im Lenkrad. (Ausstattungsoption MMI mit Sprachdialogsystem.)
44
3 Sprachdialogsysteme im Automobil
Abbildung 3.7. Headunit im BMW 7er (mit zentralem Dreh-/Dr¨ ucksteller und Display) und PTT im Lenkrad. (Ausstattungsoption MMI mit iDrive und Sprachdialogsystem.)
3.6 Funktionalit¨ aten Nachfolgend werden die wichtigsten F¨ ahigkeiten eines automobilen Sprachbediensystems dargestellt. Dabei wird vor allem die Funktionalit¨at eines heute auf dem Markt als OEM-Ger¨ at erh¨ altlichen Systems illustriert. Die Beispieldialoge haben dabei nur exemplarischen Charakter, gegen¨ uber Seriensystemen kann es zum hier dargestellten Dialogablauf zu Abweichungen kommen, da f¨ ur jeden Automobilhersteller andere Varianten existieren. Diese unterscheiden sich typischerweise in den Systemausgaben (Prompts) und/oder den einzelnen Sprachbefehlen. Ein komplett einheitliches Vorgehen u ¨ber verschiedene Marken ist bisher nichtvorhanden und wird auch aus Gr¨ unden der unterschiedlichen Bedienphilosophien der Hersteller nicht angestrebt. Neben der Vorstellung der wichtigsten Funktionalit¨aten eines aktuellen Systems werden auch einige Ausblicke in die n¨ahere Zukunft gegeben. Abschließend wird am Beispiel der Linguatronic die Weiterentwicklung der SBS in den letzten zw¨ olf Jahren aufgezeigt. 3.6.1 Nummernwahl Die einfache Wahl einer Telefonnummer per Sprache ist eine der bekanntesten Funktionalit¨ aten eines SBS und in Abbildung 3.8 exemplarisch abgebildet. Dieser Dialog beginnt klassisch in systemgesteuerter (reaktiver) Dialogstrategie (vgl. Abschnitt 2.6.2). Die Eingabe der Nummer erfolgt dann in einer kooperativen Strategie (siehe Abschnitt 2.6.3), denn die Anzahl der Ziffern kann der Benutzer hier jeweils variieren. Das System fragt selbstt¨atig nach, ob weitere Ziffern hinzugef¨ ugt werden sollen. Der Dialog mag mit den Wiederholungen der Eingabe lang erscheinen, aber durch m¨ ogliche Spracherkennungsfehler und mangelndes Benutzervertrauen macht ein erneutes Vorlesen Sinn. Sollte ein Erkennfehler vorliegen
3.6 Funktionalit¨ aten (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys)
45
Nummer w¨ ahlen Bitte sprechen Sie die Nummer. 0-7-3-1 0 - 7 - 3 - 1 und weiter? 3-9-9-4-0 3 - 9 - 9 - 4 - 0 und weiter? W¨ ahlen Die Nummer wird gew¨ ahlt. <W¨ ahlton>
Abbildung 3.8. Nummerndialog eines aktuellen Sprachbediensystems
(oder sich der Benutzer versprochen haben) kann die Nummer per Sprachkommando korrigiert werden. Ansonsten kann auch jederzeit der Sprachdialog abgebrochen werden. Mit dem W¨ ahlen der Nummer ist der Sprachdialog zu Ende und die Freisprechfunktion des Telefons wird aktiviert. Wenn die Sprachbedienung erneut gestartet werden soll, muss wieder der PTT-Knopf bet¨atigt werden. Um das Telefonat zu beenden, kann das Dialogsystem nicht verwendet werden. In der Regel gibt es aber einen Knopf im Multifunktionslenkrad, der diese Funktionalit¨ at bietet. 3.6.2 Namenswahl Viele aktuelle SBS bieten bereits die M¨ oglichkeit, die Telefonbucheintr¨age auf der SIM-Karte oder im Speicher des Mobiltelefons als dynamisches Vokabular der Spracherkennung zur Verf¨ ugung zu stellen. Diese Technologie wird als G2P (engl. grapheme to phoneme) bezeichnet. Ein mit G2P ausgestattetes System kann damit auch die Namen aus dem mittels Bluetooth verbundenen Mobiltelefon erkennen. Damit wird der sprachliche Zugriff auf das Telefon stark vereinfacht und verk¨ urzt. Ein Beispieldialog f¨ ur diesen Fall ist in Abbildung 3.9 dargestellt.
(Ben) (Sys) (Ben) (Sys) (Ben) (Sys)
Namen w¨ ahlen Bitte sprechen Sie den Namen. Sandra Die Nummer von Sandra wird gew¨ ahlt <W¨ ahlton>
Abbildung 3.9. Namensdialog eines aktuellen Sprachbediensystems
46
3 Sprachdialogsysteme im Automobil
F¨ ur die Namenswahl gilt das gleiche, wie f¨ ur die Nummernwahl: ab dem W¨ahlzeitpunkt ist der Sprachdialog beendet. 3.6.3 Zieleingabe Mit dem Erscheinen der Mercedes-Benz E-Klasse (W211) 2003 war es erstmalig m¨ oglich, die 600 gr¨ oßten Orte eines Landes zur Navigation als Ganzwort zu sprechen, statt sie buchstabieren zu m¨ ussen. Der Honda Acura14 war 2005 das erste Modell, das eine komplette Ganzworteingabe in der Navigation auf Englisch erm¨ oglichte. Mit Erscheinen des neuen 5er BMW (E60) im September 2006 und wenig sp¨ ater der Mercedes C-Klasse (W204) 2007 ist diese Funktion auch in deutschen Automobilen m¨ oglich.15 Bei den meisten vorherigen Systemen m¨ ussen die Orts- und Straßennamen buchstabiert werden und nur die gr¨ oßten Ortsnamen sind direkt sprechbar. Die Problematik der Ganzwort¨ Navigation ist die Vielzahl der m¨ oglichen Außerungen und die große Anzahl an phonetisch ¨ ahnlichen Namen. So gibt es in Deutschland u ¨ber 68.000 verschiedene Orte und dabei z.B. 32 mal den Ort Neustadt. Um die Problematik von ahnlichen Ortsnamen und Verwechslungen in den Griff zu bekommen, pr¨asen¨ tiert das System dem Benutzer eine Liste der ¨ ahnlichsten Namen zur Auswahl. Ein exemplarischer Navigationsdialog ist in Abbildung 3.10 dargestellt. Weitere Beispieldialoge auch f¨ ur den Buchstabieransatz k¨onnen [Jeschke 2007] entnommen werden. ¨ Wenn das System eine Außerung nicht disambiguieren kann, fragt es zur¨ uck, ob die erste L¨ osung korrekt ist, gleichzeitig wird eine Liste der anderen m¨ oglichen Namen angezeigt (im Beispieldialog z.B. Hamburg und Hom¨ burg). Wenn eine Außerung eindeutig ist, wird der Name nur noch akustisch best¨ atigt, jedoch keine Nachfrage mehr angestoßen. Dieser Fall der Disambiguierungsliste ist ein klassisches Beispiel f¨ ur einen Fall, bei dem eine multimodale Ausgabe Sinn macht. Wenn das System ausschließlich per Sprache antworten w¨ urde, m¨ usste es entweder weitere Angaben des Benutzers erfragen, wie bei [Minker et al. 2004], oder aber die Liste komplett vorlesen. Letzteres w¨ are allerdings wenig komfortabel. Daher macht hier die Anzeige der Ergebnisse durchaus Sinn. Die Auswahl aus der Liste kann dann wieder per Sprache oder auch multimodal per haptischer Selektion geschehen. Letzterer Ansatz wird laut [Mischke et al. 2007] h¨ aufiger gew¨ ahlt. Wenn die Zielf¨ uhrung gestartet wird, endet der Sprachdialog und das Navigationssystem wird aktiviert. Dort wird die Routenberechnung erfolgen und die Zielf¨ uhrung gestartet. Letzteres bedeutet, dass auf dem Display der Headunit die Richtungs- oder Kartenanzeige (je nach aktueller Systemeinstellung) 14 15
Acura ist die Luxusmarke von Honda und wird nur in Nordamerika verkauft. In Europa wird der Acura seit Herbst 2006 als Honda Legend vermarktet. Es gibt inzwischen auch einige nachr¨ ustbare Navigationsger¨ ate, die per Spra¨ che bedient werden k¨ onnen, einen Uberblick u ¨ber deren Funktionsumfang bietet [Wiegand 2008].
3.6 Funktionalit¨ aten (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys)
47
Ziel eingeben Bitte sprechen Sie den Ortsnamen. Hamburg Ist Hamburg richtig? Ja Hamburg wurde eingestellt. M¨ ochten Sie einen Straßennamen eingeben? Ja Den Straßennamen bitte. Jungfernstieg Jungfernstieg wurde u ¨bernommen. M¨ ochten Sie eine Hausnummer eingeben? Nein M¨ ochten Sie die Zielf¨ uhrung starten? Ja Die Zielf¨ uhrung wird gestartet.
Abbildung 3.10. Navigationsdialog eines aktuellen Sprachbediensystems
aktiviert wird und die Ansagen der Navigation (z.B. Demn¨achst rechts ab” biegen.“) folgen. Eine zuk¨ unftige Erweiterung der Navigationszieleingabe wird die komfortable sprachliche Eingabe von Sonderzielen (wie Restaurants, Tankstellen etc.) sein, die in einem ersten Prototypen bei [M¨ uller und Hamerich 2007] vorgestellt wurde. ¨ Das Fernziel der Navigation w¨ are sicher ein System, das eine Außerung wie folgende verarbeiten k¨ onnte: Ich m¨ ochte zum Little Garden Restaurant, aber ” vorher bitte noch ein Zwischenstopp in meinem B¨ uro“. Das Demonstrationssystem CHAT von Bosch, der Uni Stanford und VW of America kann dies in der Dom¨ ane einer Stadt mit 50 Straßen bereits leisten [Weng et al. 2007]. Bis allerdings ein komplettes eingebettetes System mit einer Navigationsdatenbank von u adtenamen oder u ¨ber 68.000 deutschen St¨ ¨ber 200.000 Straßennamen alleine in Kalifornien eine solche Eingabe komplett verarbeiten kann, wird es noch einiger Jahre Forschung und billigerer Hardware bed¨ urfen. 3.6.4 Radiosteuerung Zur Steuerung des Radios k¨ onnen die folgenden Funktionen dieses Ger¨ats ebenfalls per Sprache gesteuert werden: • Senderwechsel ( N¨ achster/Vorheriger Sender“) ” • Frequenzeingabe ( Frequenz 103,6 Megahertz“) ” • Verkehrsfunk ( Verkehrsfunk an/aus“) ”
48
3 Sprachdialogsysteme im Automobil
• Direkte Senderwahl per VoiceTag ( Sender ’mein Lieblingssender’“) ” • Direkte Senderwahl per G2P der RDS-Sendernamen ( Sender SWR3“) ” Da die Funktionen wenig Interaktion bed¨ urfen, sind sie meist in direktiver oder reaktiver Dialogstrategie ausgef¨ uhrt. Da diese Dialoge entsprechend kurz und ¨ ahnlich verlaufen, wird auf eine exemplarische Darstellung verzichtet. 3.6.5 Steuerung des Medienspielers Aktuelle Kraftfahrzeuge haben neben dem Radio weitere Medienger¨ate an Bord. Dies k¨ onnen heute CD-Spieler, CD-Wechsler, DVD-Spieler und MP3Spieler sein. Hier gibt es ebenso Steuerkommandos, wie f¨ ur das Radio (z.B. N¨ achste CD“, N¨ achster/vorheriger Titel“, CD 2“). ” ” ” Noch ein Forschungsgegenstand ist die Sprachwahl von Musiktiteln. Mit den in aktuellen Kompressionsformaten (z.B. AAC, MP3, WMA) enthaltenen Metadaten, den sogenannten ID3-Tags, kann diese Funktionalit¨at bereitgestellt werden. Ein erster Forschungsansatz dazu wurde in [Wang et al. 2005] ¨ pr¨ asentiert. Die Idee dabei ist, direkt Außerungen wie Spiele Album ’Bad’ ” von Michael Jackson“ ausf¨ uhren zu k¨ onnen. Wie bei [Schulz und Donker 2006] nachgewiesen wurde, k¨ onnen Benutzer mit diesem Prototypen umgehen. Daher wird dieser Ansatz bei Harman/Becker zur Serienreife gebracht, eine ausf¨ uhrlichere Beschreibung ist bei [Wang und Hamerich 2008] zu finden. Der Nachteil dieses Ansatzes ist allerdings, dass Benutzer immer den Namen der entsprechenden Kategorie (Album, K¨ unstler, Titel) sprechen m¨ ussen. [Mann et al. 2007] haben daher einen Prototypen vorgestellt, der mit einer kategoriefreien Suche arbeitet. Alle Ans¨ atze ¨ahneln sich dahingehend, dass bei den großen Datenmengen (¨ ahnlich wie bei der Zieleingabe) h¨ aufig Disambiguierungslisten erscheinen k¨onnen. Bei [Schulz et al. 2007] wurde daher vorgeschlagen, zur Unterscheidung der verschiedenen Listentypen ein auditives Signal, ein earcon, zu spielen. 3.6.6 Internetzugriff Aktuell sind SBS ausschließlich geschlossene Systeme. Das Telefon kann zwar bedient werden, wenn eine Verbindung aber aufgebaut ist, wird der Sprachdialog beendet. In der Forschung befindet sich aktuell der sprachliche Zugriff auf Internet und E-Mails. Erste Prototypen wurden bereits vorgestellt [Berton et al. 2007, Fischer et al. 2007]. Neben der technischen Machbarkeit ist jedoch bei diesem Thema auch darauf hinzuweisen, dass durch eine intensive Besch¨aftigung mit Texten oder E-Mails die Fahrsicherheit leiden kann, wie es bei [Harbluk und Lalande 2005] nachgewiesen wurde.
3.7 Vergleich mit serverbasierten Dialogsystemen
49
3.6.7 Funktionszuw¨ achse am Beispiel Linguatronic Die Linguatronic ist die Sprachbedienung von Mercedes-Benz und war 1996 das weltweit erste Sprachbediensystem in einem Kfz u ¨berhaupt [Heisterkamp 2001]. Das System war das erste Produkt der Firma Temic SDS, die heute zu Harman/Becker geh¨ ort, und ist seit Erscheinen der neuen C-Klasse im Jahr 2007 (interne Bezeichnung W204) in der f¨ unften Generation erh¨ altlich. Im Folgenden werden die verschiedenen Features der einzelnen Generationen vorgestellt: 1. Generation erh¨ altlich ab 1996 ausschließlich in der S-Klasse (W140). Das System erlaubte die Sprachsteuerung des festeingebauten Autotelefons. Es verf¨ ugte u angige Erkennung und erlaubte eine ¨ber eine sprecherunabh¨ Zifferneingabe, sowie die Speicherung von h¨aufig gew¨ahlten Nummern in einem internen Adressbuch. 2. Generation erh¨ altlich ab 1998 mit Einf¨ uhrung der neuen S-Klasse (W220) und sp¨ ater f¨ ur fast alle Modellreihen von Mercedes-Benz, erlaubte zus¨atzlich zum Telefon die Sprachsteuerung von Radio, CD-Player und CDWechsler. 3. Generation erh¨ altlich ab 2002 f¨ ur die E-Klasse (W211) und nachfolgend f¨ ur die Baureihen der C-, CL-, M-, R-, SL-Klasse, den Maybach sowie die Modellpflege der S-Klasse (W220). Neue Funktionalit¨at war die sprachgesteuerte Zieleingabe von 800 Orten per Ganzwort, die restlichen Orte mussten anbuchstabiert werden (mehr dazu in [Hanrieder 2004]). Daneben kann das interne Adressbuch sprachgesteuert werden. 4. Generation erh¨ altlich seit 2005 mit Einf¨ uhrung der neuen S-Klasse (W221). Erlaubt zus¨ atzlich die erweiterte Steuerung des Medienspielers (MP3 und Speicherkarten). 5. Generation seit 2007 mit Vorstellung der neuen C-Klasse (W204) auf dem Markt. Dort k¨ onnen alle Ortsnamen per Ganzwort, also ohne Buchstabieren eingegeben werden. Daneben erlaubt G2P die Eingabe von Eintr¨agen aus dem Adressbuch ohne vorheriges Training. Außerdem ist erstmalig eine TTS verbaut, welche das Vorlesen von TMC-Meldungen erm¨oglicht. 6. Generation wird ab 2009 erh¨ altlich sein. ¨ Ein sehr ausf¨ uhrlicher Uberblick der Sprachbediensysteme bei BMW kann bei [Hassel 2006] gefunden werden.
3.7 Vergleich mit serverbasierten Dialogsystemen Sprachbediensysteme im Automobil gelten wegen der bereits beschriebenen Hardwareeinschr¨ ankungen als eingebettete Systeme. Im Gegensatz dazu stehen die serverbasierten Systeme, welche auf Servern mit nahezu unbeschr¨ankten Systemressourcen zum Einsatz kommen.
50
3 Sprachdialogsysteme im Automobil
In diesem Abschnitt werden automobile SDS mit weiteren Dialogsystemen verglichen. Dieser Vergleich gliedert sich in zwei Punkte (Anwendungsdom¨ane und Architektur), denen jeweils ein eigener Unterabschnitt gewidmet ist. Zur Illustration werden außerdem einige typische und bekannte Beispielsysteme vorgestellt. 3.7.1 Anwendungsdom¨ anen Je nach Anwendungsdom¨ ane werden unterschiedliche Arten von Dialogsystemen verwendet. Eingebettete Systeme Eingebettete Systeme sind nur als Bediensysteme ausgef¨ uhrt, diese geben dem jeweiligen Nutzer Kontrollm¨ oglichkeiten u ber angeschlossene Systeme. ¨ Ein im Rahmen dieses Buches sehr wichtiges Beispiel daf¨ ur sind Sprachbediensysteme im Auto. Diese Systeme erleichtern dem Fahrer die Bedienung z.B. des Telefons, der Audio- und Navigationsger¨ate w¨ahrend der Fahrt (siehe z.B. [Pieraccini et al. 2003, Hanrieder 2004, Hamerich et al. 2005]). Der a¨lteste Vertreter dieser Gattung ist das System Linguatronic, welches in Abschnitt 3.6.7 detailliert vorgestellt wurde. Doch es gibt auch Bediensysteme in Haushaltsger¨ aten, wie beispielsweise in einer Waschmaschine [Rieser 2003]. Telefonbasierte Systeme Telefonische Dialogsysteme haben in der Regel eine andere Zielsetzung. So k¨ onnen sie zum einen als Auskunftssysteme eingesetzt werden. Dabei ist eine typische Anwendungsform die der Fahrplanauskunft [Peckham 1993, Aust et al. 1995]. Zum anderen k¨ onnen Dialogsysteme aber auch f¨ ur andere Dom¨ anen Ausk¨ unfte erteilen, wie z.B. Wetterberichte [Zue et al. 2000], Verkehrsstaus (vgl. Abschnitt 3.7.3) oder Hotels [Mast et al. 2000]. Diese Systeme m¨ ussen auf großen leistungsf¨ ahigen Servern betrieben werden, da sie meist auf sehr große Datenmengen in Echtzeit zugreifen m¨ ussen. Wenn ein solches Auskunftssystem auch noch die Reservierung von z.B. Hotelbetten oder Fahrkarten zul¨ asst, wird es auch als Buchungssystem bezeichnet. Ebenfalls nur als telefonbasierte Systeme ausgef¨ uhrt sind Dialogsysteme, die zur Sprach¨ ubersetzung eingesetzt werden. Diese Systeme ben¨otigen beson¨ ders leistungsf¨ ahige Server, da die Ubersetzung – welche im Allgemeinen sehr aufw¨ andig ist – auch in Echtzeit durchgef¨ uhrt werden muss. Ein bekanntes Beispiel f¨ ur ein System dieser Kategorie ist Verbmobil [Wahlster 2000]. Eine ¨ Besonderheit solcher Systeme ist die Modellierung der Sprache. Da f¨ ur Ubersetzungen die Semantik einer Sprache sehr genau bekannt sein muss, erfordern ¨ Ubersetzungssysteme eine detaillierte Repr¨ asentation linguistischer Konzepte, die f¨ ur andere Zwecke in der Regel nicht gebraucht wird.
3.7 Vergleich mit serverbasierten Dialogsystemen
51
Weitere Arten von Dialogsystemen Des Weiteren k¨ onnen SDS auch zur reinen Unterhaltung dienen, wie diverse Weiterentwicklungen des ber¨ uhmten Systems Eliza (vgl. [Weizenbaum 1966]). Diese Systeme sind meist als Chatanwendungen im Internet zu finden und verarbeiten dort meist nur geschriebene Sprache. Es gibt allerdings auch unterhaltende Systeme, welche mit gesprochener Sprache arbeiten k¨onnen. Der Hauptzweck dieser Systeme ist dabei meist die Wissensvermittlung. Daher werden diese Systeme als Konversationsagenten bezeichnet. Solche Systeme, wie z.B. das ’Hans-Christian Andersen’-System [Bernsen und Dybkjær 2005] stehen in Museen oder auf Messen und sollen auf unterhaltende Art informieren. Die Systeme residieren meist auf handels¨ ublichen Computern, die in eine Stele integriert sind. Eine weitere Art der Dialogsysteme stellen die sogenannten Unterst¨ utzungsoder Handlungssysteme dar. Diese Systeme werden u blicherweise auf einem ¨ PC oder Server ausgef¨ uhrt, die Spracheingabe erfolgt dabei entweder per Tastatur oder Mikrofon. Da sehr komplexe Interaktionen von diesen Systemen zu bew¨ altigen sind, macht eine telefonische Bedienung hier auch keinen Sinn, da meist weitere Modalit¨ aten neben der sprachlichen gebraucht werden. Ein sehr fr¨ uhes Beispiel f¨ ur ein solches System war SHRDLU16 [Winograd 1972]. Das System bot eine nat¨ urlichsprachliche Schnittstelle zu einem simulierten Roboter in einer simulierten Kl¨ otzchenwelt. Mit Hilfe des Systems konnte ein Benutzer dem Roboter per Sprachkommando Gegenst¨ande aufheben oder umsetzen lassen. Es waren auch allgemeine Fragen zur simulierten Umwelt m¨oglich. Das bei [Peters 1999] vorgestellte Dialogsystem ist eine realistische Umsetzung und Weiterentwicklung von SHRDLU. In [Toptsis 2005] wurde dieses System wiederum weiterentwickelt und als eine multimodale Ansteuerung f¨ ur einen echten Roboter ausgef¨ uhrt. Damit handelte es sich schließlich um ein Robotersystem. Neben der Roboterdom¨ ane gibt es eine sehr komplexe Dom¨ane in dem Dialogsystem TRAINS. Dieses unterst¨ utzt einen Benutzer bei der Routenplanung einer amerikanischen Eisenbahngesellschaft [Allen et al. 1996]. 3.7.2 Systemarchitektur Im Gegensatz zu automobilen Sprachdialogsystemen sind Serversysteme nicht in ihre Umgebung eingebettet. Da telefonische Dialogsysteme sich von allgemeinen server-/PC-basierten Systemen kaum unterscheiden (einzige Ausnahme sind die Sprachausgabe und -eingabe u ¨ber ein Telefon anstatt PCLautsprecher bzw. Mikrofon), werden sie in diesem Abschnitt zusammen der Architektur eines SBS gegen¨ ubergestellt. Die schematische Systemarchitektur eines u ¨blichen serverbasierten Dialogsystems ist in Abbildung 3.11 dargestellt. 16
Der Name SHRDLU leitet sich von der H¨ aufigkeit des Auftretens der Buchstaben in der englischen Sprache ab, diese beginnt mit ETAOINSHRDLU.
52
3 Sprachdialogsysteme im Automobil
Abbildung 3.11. Schematische Systemarchitektur eines serverbasierten SDS
Im Folgenden werden die grundlegenden Architekturkomponenten eines serverbasierten Telefonsystems der Systemarchitektur eines automobilen Systems (wie bereits in 3.4 beschrieben) gegen¨ ubergestellt. Spracheingabe und akustische Vorverarbeitung Allen Systemarten gemein ist die Spracheingabe u ¨ber ein Mikrofon. Telefoniesysteme werden angerufen und ben¨ otigen daher keinen PTT-Knopf mehr. Bei ihnen ist die Spracherkennung entweder permanent aktiv (heutzutage die Regel) oder nur nach Ende eines Systemprompts. PC-basierte Systeme k¨onnen auch u ugen, meist werden sie jedoch per Schl¨ ussel¨ber einen PTT-Knopf verf¨ wort aktiviert. Umgebungsger¨ ausche k¨ onnen auch bei telefonischen Dialogsystemen auftreten. Da sich das eingebaute Mikrofon des Telefons in der Regel aber nahe am Mund befindet, ist der m¨ ogliche Einfluss solcher Umgebungsger¨ausche sehr viel kleiner als im Automobil. Der Aufwand der Signalerkennung ist f¨ ur Telefonsysteme insgesamt eher niedrig, daher reichen meist einfachere Algorithmen, welche in den Spracherkenner integriert werden. SDS auf einem PC k¨ onnen allgemeinen St¨ orger¨ auschen einer B¨ uroumgebung ausgesetzt sein. Daher wird hier meist ein einfaches Filterungsverfahren benutzt. Spracherkennung und Parsing Die Spracherkennung und das Parsing im Kfz unterscheiden sich prinzipiell u ¨berhaupt nicht von entsprechenden Komponenten auf Servern. Da aber auf Servern nicht so sehr auf Systemressourcen geachtet werden muss, wie in eingebetteten Systemen, kann die Spracherkennung hier sehr viel leistungsf¨ahiger sein und ausgefeiltere Algorithmen nutzen. Dialogmanager In telefonischen Dialogsystemen gibt es keine haptische Kontrolle u ¨ber das System. D.h. es entfallen sowohl der PTT-Knopf als auch die Displayausgaben, die auf dem Bildschirm der Headunit im Auto dargestellt werden k¨onnen. Daf¨ ur gibt es die Systemkontrolle, welche Telefonverbindungen erstellen und
3.7 Vergleich mit serverbasierten Dialogsystemen
53
beenden kann. Bei fr¨ uheren wenig komplexen Systemen u ¨bernahm diese Komponente auch die Aufgaben des Dialogmanagers und hieß daher IVR (engl. interactive voice response). Heute werden die Aufgaben der Telefoniekomponente vom Dialogmanager mit¨ ubernommen, da seine Aufgaben sehr viel komplexer geworden sind. Es gibt aber auch durchaus noch Architekturen mit einer Trennung zwischen Telefonsteuerung und Dialogmanager. Residiert ein Dialogsystem auf einem PC, entf¨allt die Verbindungskontrolle, die Dialogsteuerung ist also etwas einfacher. Daf¨ ur stehen h¨aufig ein Monitorbild oder andere zus¨ atzliche Ausgabemodalit¨aten zur Verf¨ ugung. Tlw. gibt es sogar die M¨ oglichkeit verschiedener Eingabemodalit¨aten. In beiden F¨allen kann ein Dialog von den zus¨ atzlichen M¨oglichkeiten profitieren, allerdings ist die Dialogkontrolle ungleich komplexer, da in diesem Fall Widerspr¨ uche vermieden werden m¨ ussen und eine Synchronisation der verschiedenen Modalit¨ aten durchgef¨ uhrt werden muss. Headunit / Backend Da es bei serverbasierten Systemen nicht um die Steuerung angeschlossener Ger¨ ate geht, ist auch keine Headunit vorhanden. Stattdessen werden telefonische Systeme zur Informationsabfrage eingesetzt. Dementsprechend sind sie entweder an eine einfache Datenbank, das Internet oder ein anderes System angeschlossen. Diese Systeme werden allgemein als Backend bezeichnet. In der Regel k¨ onnen diese Systeme auch ohne ein Sprachdialogsystem betrieben werden, der gr¨ oßte Aufwand f¨ ur die Anbindung eines solchen Systems stellt in diesem Fall die Datenaufbereitung f¨ ur die Modalit¨at Sprache dar. Diese Funktionalit¨ at wird in der Regel vom Backend u ¨bernommen. Es gibt aber bereits kommerzielle Dialogsystemplattformen, bei denen auch der Dialogmanager einzelne Aufbereitungen durchf¨ uhren kann. F¨ ur PC-gest¨ utzte Systeme gilt dies entsprechend. R¨ uckmeldungen des Systems R¨ uckmeldungen des Dialogsystems k¨ onnen bei Telefonsystemen nur u ¨ber die Modalit¨ at Sprache geschehen, andere Kan¨ ale stehen nicht zur Verf¨ ugung.17 Bedingt durch die Vielzahl von telefonischen Dialogsystemen, vor allem als Auskunftssysteme mit dynamischen Daten, wird meist eine Sprachsynthese f¨ ur die Systemr¨ uckmeldungen verwendet. Da auf einem Telefonieserver allerdings auch sehr große Systemressourcen zur Verf¨ ugung stehen, kommen hier sehr gute Synthesen zum Einsatz, die einen entsprechenden Ressourcenbedarf von u ¨ber 100 MB haben. Damit klingen auch Sprachprompts u ¨ber eine TTS sehr nat¨ urlich. 17
In Zukunft wird mit moderneren Telefonprotokollen auch eine gleichzeitige graphische Ausgabe auf einem Display im Endger¨ at m¨ oglich sein.
54
3 Sprachdialogsysteme im Automobil
3.7.3 Beispielsysteme In diesem Abschnitt werden einige typische Dialogsysteme exemplarisch vorgestellt, um einen Eindruck des Funktionsumfangs solcher Systeme zu geben. Stauinformation Um die Arbeits- und Funktionsweise eines telefonischen Dialogsystems besser zu illustrieren, wird in diesem Abschnitt das Stauinformationssystem ISA vorgestelllt, die IBM Stau Applikation. Dieses System ist vom Autor des vorliegenden Werkes im Rahmen eines Praktikums im Sommer 1999 bei der IBM entwickelt worden. Im Jahr 2000 wurde es in einer erweiterten Version erst¨ mals der Offentlichkeit pr¨ asentiert [G¨ unther et al. 2000].
Abbildung 3.12. Die Systemarchitektur von ISA
ISA l¨ auft auf einem handels¨ ublichen PC, der mit einer Telefoniekarte best¨ uckt ist. Das System wurde mit Entwicklungstools der IBM entwickelt, n¨ aheres bei [Hamerich 2000]. Bei dieser Systemarchitektur existiert ein Telefonie-Interface, welches auf der Telefoniekarte ankommende Sprachsignale direkt an den Spracherkenner weiterleitet. Die Systemarchitektur von ISA ist in Abbildung 3.12 dargestellt. Das System erm¨ oglicht eine Stauabfrage f¨ ur alle deutschen Autobahnen und ist daher ein typisches Auskunftssystem. Die Daten der jeweils aktuellen Verkehrssituationen werden dabei in regelm¨ aßigen Abst¨anden vom Backend aus dem Internet geladen und f¨ ur die Sprachausgabe aufbereitet. Neben den sprachlichen R¨ uckmeldungen bietet ISA zus¨ atzlich die M¨oglichkeit, die einzelnen Meldungen als SMS auf ein Mobiltelefon zu senden. Da zur Zeit der Implementation die Technologie f¨ ur Sprachsynthesen noch nicht ausgereift genug war, wurden statische Systemr¨ uckmeldungen von einem Sprecher aufgezeichnet, um eine m¨ oglichst gute Sprachqualit¨at zu gew¨ahrleisten. Zur Ausgabe der dynamischen Stauinformationen wird allerdings kom-
3.7 Vergleich mit serverbasierten Dialogsystemen (Sys) (Ben) (Sys)
(Ben)
55
Willkommen bei ISA dem Stauinformationssystem der IBM. Von welchem Bundesland oder welcher Autobahn m¨ ochten sie Staumeldungen? Gibt es Staus in Hamburg? ¨ Letzte Anderung: 15:33 Uhr, es gibt eine Meldung: A7 Flensburg in Richtung Hannover zwischen HH-Schnelsen-Nord und Elbtunnel 11 Kilometer Stau. Wor¨ uber m¨ ochten sie als n¨ achstes Staumeldungen h¨ oren? ... Abbildung 3.13. Beispieldialog mit ISA
plett auf TTS zur¨ uckgegriffen. Anders w¨ are eine Ausgabe der dynamischen Anteile auch nur mit unverh¨ altnism¨ aßigem Aufwand realisierbar gewesen. Das Dialogmodell von ISA ist zustandsbasiert und besteht aus einem einzigen Zustand. Dabei k¨ onnen allerdings mehrere Anfragen hintereinander an das System gestellt werden, die alle vollst¨ andig sein m¨ ussen. Nachfragen von Seiten des Systems sind nicht vorgesehen. Die Dialogstrategie des Systems ist reaktiv. Die Dialogsteuerung ist als IVR-System ausgef¨ uhrt, welche alle anderen Systemkomponenten steuert. Die Steuerung selbst besteht aus einem erweiterten Tcl-Interpreter. Die eingef¨ ugten Erweiterungen dienen der Kontrolle der Telefonschnittstelle und der Spracherkennung. Die Dialogbeschreibung besteht aus einem IVR Script, das in der Skriptsprache Tcl implementiert ist und von der Dialogsteuerung ausgef¨ uhrt wird. Weiteres dazu siehe bei [Davies et al. 1999, Papineni et al. 1999]. Ein kurzer Beispieldialog mit ISA ist in Abbildung 3.13 dargestellt. Bahnauskunft Es gibt ein offizielles Sprachdialogsystem der Deutschen Bahn AG, welches bereits seit 1998 besteht und in den letzten Jahren sogar beworben wurde. Das System wurde von Nortel Networks konzipiert, die eingesetzte Spracherkennung stammt von Temic SDS. Die Auskunft kann aus dem Festnetz kostenlos18 angerufen werden und gilt als das bekannteste Sprachdialogsystem in Deutschland. Die Dialoge erfolgen stark systemgetrieben, wie im Beispiel auf Abbildung 3.14 zu ersehen ist. Philips Speech Processing (jetzt zu Nuance geh¨orend) hat in Deutschland seit langer Zeit eine prototypische Bahnauskunft am Telefonnetz.19 Dieses System ist mit einer gemischten Initiative ausgestattet und erlaubt auch die Verarbeitung vollst¨ andiger Anfragen. Gleichzeitig wird eine implizite Verifikationsstrategie verwendet (im Gegensatz zur expliziten Verifikation bei der 18 19
Die Rufnummer ist die 0800 / 150 70 90. Dieses System ist unter 0241 / 60 40 20 zu erreichen.
56
3 Sprachdialogsysteme im Automobil
offiziellen Bahnauskunft). Das System wurde bereits 1995 vorgestellt und war damals bereits sehr revolution¨ ar [Aust et al. 1995]. Ein Beispieldialog, der die andere Dialog- und Verifikationsstrategie illustriert, ist in Abbildung 3.15 zu sehen. Es ist klar zu erkennen, dass f¨ ur erfahrene Benutzer diese Dialogstrategie ein schnelleres Erreichen des Dialogziels erlaubt. Allerdings ist es umstritten, ob Novizen mit dieser Strategie ebenfalls gut zurechtkommen. Aus diesem Grund werden kommerzielle Systeme sehr h¨ aufig mit dieser langwierigen Dialogstrategie entwickelt. Zur Abk¨ urzung der Dialoge kann barge-in verwendet werden. Diese Technologie erlaubt eine Unterbrechung der Systemausgaben durch den Nutzer, was sehr zur Beschleunigung eines Dialogdurchlaufs beitragen kann. 3.7.4 Bewertung Neben den Hardwarevoraussetzungen unterscheiden sich Telefonie- und Automobilsysteme vor allem in ihrer Anwendungsdom¨ane. W¨ahrend am Telefon Systeme u uhrung von ¨berwiegend zur Informationsgewinnung oder sogar Ausf¨ Aktionen eingesetzt werden, dienen automobile Systeme der Steuerung angeschlossener Ger¨ ate.
3.8 Dialogsysteme im Alltag Sprachdialogsysteme sind heutzutage immer noch mehrheitlich ein Gegenstand der Forschung. Durchgesetzt haben sich diese Systeme bisher eigentlich nur am Telefon (vor allem in den USA wurden in den letzten Jahren zahlreiche Callcenter und Telefonausk¨ unfte durch Dialogsysteme ersetzt) und im Automobil. Auf dem Telefonmarkt gibt es zahlreiche Firmen im internationalen Gesch¨ aft, die auf diesem Gebiet t¨ atig sind. Dabei gibt es nur noch sehr wenige Komplettanbieter, welche das gesamte Portfolio von der Spracherkennung u ¨ber die Synthese bis zur Dialogerstellung anbieten. Der mit Abstand gr¨oßte ist dabei wohl das US-Unternehmen Nuance. Andere Firmen beschr¨anken sich auf die Implementation von Sprachdialogen und kaufen die daf¨ ur n¨otige Technologie ein. In Deutschland ist der Trend zu telefonischen Dialogsystemen bisher nicht so stark zu beobachten. Es gibt die telefonische Bahnauskunft (siehe Abschnitt 3.7.3), Telefonbanking und einige weitere, vgl. z.B. [Haas et al. 2004]. Doch insgesamt werden Telefoniesysteme in Deutschland nicht sehr erfolgreich angenommen. Dies liegt vor allem an der Bedienbarkeit der Systeme, wie in [Peissner et al. 2004] berichtet wurde. Sprachbediensysteme im Auto haben sich seit 1996 stark durchgesetzt und sind inzwischen als Ausstattungsoption in fast jedem Fahrzeug der Ober- und Mittelklasse zu finden [Hanrieder 2004].
3.8 Dialogsysteme im Alltag (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys)
57
Herzlich willkommen beim Reiseservice der Deutschen Bahn. (...) Bitte nennen sie jetzt ihren Abfahrtsbahnhof. Wenn sie Hilfe zu unserem Service ben¨ otigen, sagen sie ’Anleitung’. Ulm M¨ ochten sie von Ulm Hauptbahnhof abfahren? Ja Wohin m¨ ochten sie fahren? Hamburg Die Hansestadt Hamburg, korrekt? Ja Bitte w¨ ahlen sie oder sagen sie ’Neueingabe’: Hamburg Hauptbahnhof, Altona, Dammtor, Harburg oder weitere Bahnh¨ ofe. Hauptbahnhof Sie m¨ ochten also nach Hamburg Hauptbahnhof fahren? Ja Bitte w¨ ahlen sie jetzt die Art der Verbindungssuche und sagen sie ’Ankunftszeit’ oder ’Abfahrtszeit’. Abfahrtszeit An welchem Tag m¨ ochten sie fahren? morgen Sie m¨ ochten also morgen am 15. April fahren? Ja Um welche Uhrzeit m¨ ochten sie fahren? Um acht Uhr Sie m¨ ochten also um acht Uhr morgens fahren? Ja Es gibt die folgende Verbindung: (...) Abbildung 3.14. Beispieldialog mit Bahnauskunft der DB AG
(Sys) (Ben) (Sys) (Ben) (Sys) (Ben) (Sys)
Guten Abend. Sie k¨ onnen Zugverbindungen zwischen 1.000 Bahnh¨ ofen in Deutschland erfragen. Von wo nach wo m¨ ochten sie fahren? Von Ulm nach Hamburg Wann m¨ ochten sie von Ulm Hauptbahnhof nach Hamburg Hauptbahnhof fahren? Morgen um Acht Sie m¨ ochten also morgen um acht Uhr morgens fahren? Ja Es gibt die folgende Verbindung: (...) Abbildung 3.15. Beispieldialog mit der Philips-Bahnauskunft
58
3 Sprachdialogsysteme im Automobil
Grunds¨ atzlich macht die Benutzung der Modalit¨at Sprache nur Sinn, wenn ihre Verwendung schneller ist, als andere Modalit¨aten oder andere Modalit¨ aten ausscheiden [Cameron 2000]. Dies spricht f¨ ur die Sprachbedienung im Auto. Grunds¨ atzlich wird es auch als Argument f¨ ur telefonische Auskunftssysteme ins Feld gef¨ uhrt. Allerdings wird dabei meist u ¨bersehen, dass hier durchaus bessere Alternativen existieren. Die Bahnauskunft, welche als eines der ¨ altesten Themenfelder f¨ ur Sprachdialogsysteme gilt (siehe z.B. [Mast 1993, Peckham 1993]) ist vom sprachlichen Umfang f¨ ur die Eingabe gesehen zwar hoch attraktiv, wenn es allerdings um die Auswahl einer Zugverbindung mit Umstiegsoptionen geht, ist eine visuelle Auflistung sehr viel aussagekr¨ aftiger, als eine vorgelesene Liste. Sprache als fl¨ uchtige Modalit¨at ist an dieser Stelle im Nachteil. Da außerdem bei vielen Benutzern eine gewisse Scheu vor diesen Systemen besteht und tlw. auch bereits schlechte Erfahrungen in der Vergangenheit gemacht wurden, werden sie von unerfahrenen Benutzern ungern benutzt. Eines der gr¨ oßten Probleme f¨ ur Sprachdialogsysteme ist daher ihre Akzeptanz beim Benutzer (wie auch schon mehrfach, z.B. in [Boros 2004] oder bei [Peissner et al. 2004] festgestellt wurde). Zwar sollte jeder Benutzer in der Lage sein zu sprechen, aber richtig mit einem System zu sprechen vermag leider nicht jeder. Dies kann an der Spracherkennung liegen (z.B. an ung unstigen Umgebungsbedingungen, Dialekten oder der Lautst¨arke des Sprechers), auch am schlechten Design der Applikation (vgl. Abschnitt 2.10), f¨ ur einen Benutzer ist es jedoch immer das gesamte System, welches versagt. Vielleicht hat auch die Erwartungshaltung vieler Benutzer damit zu tun, schließlich sind Systeme aus dem Kino, wie HAL oder der Bordcomputer vom Raumschiff Enterprise sehr vielen bekannt. Auch gibt es viele Benutzer, die gerne austesten, wieviel ein System versteht ohne eine sinnvolle Anfrage stellen zu wollen. Dies entspricht zwar nicht dem Verhalten eines kooperativen Benutzers, wie ihn Grice fordert (vgl. Abschnitt 2.2), aber daf¨ ur umso mehr der menschlichen Neugierde. Von daher wird noch viel Forschung in der Schaffung sprachlicher Benutzerschnittstellen und die Verbesserung der Spracherkennung n¨otig sein, um diese noch unrealistischen Fernziele auch erreichen zu k¨onnen.
3.9 Zusammenfassung Basierend auf den theoretischen Grundlagen in Kapitel 2 wurde in diesem Abschnitt die grundlegende Architektur und Funktionsweise eines automobilen Sprachdialogsystems eingef¨ uhrt. Außerdem wurde der Begriff des Sprachdialogsystems definitorisch gekl¨ art. Ferner wurde die Integration dieser Systeme in das Automobil thematisiert und die wichtigsten Funktionalit¨aten exemplarisch vorgestellt. Insbesondere die Notwendigkeit einer speicheroptimierten Dialogbeschreibung wurde in diesem Rahmen dargestellt. F¨ ur das allgemeine
3.9 Zusammenfassung
59
Verst¨ andnis wurden die automobilen Sprachsysteme den serverbasierten gegen¨ ubergestellt und miteinander verglichen. Mit diesem Kapitel ist damit die Basis f¨ ur die zweite Ebene des in Abschnitt 1.3 eingef¨ uhrten Schichtenmodells gelegt. In Kapitel 5 wird der Dialogmanager behandelt und die verschiedenen Alternativen zur Erstellung einer Dialogbeschreibung vorgestellt. Dabei wird auch darauf hingewiesen, wie bereits die Implementierung eines Sprachdialogs durch die Umgebungsbedingungen beeinflusst wird. Damit wird die unterste Ebene der softwaretechnischen Umsetzung des Schichtenmodells genauer illustriert. Aufbauend auf den grundlegenden Darstellungen dieses Kapitels wird allerdings zuerst im n¨ achsten Kapitel gekl¨ art, wie ein Sprachdialog im Automobil aussehen und funktionieren sollte. Damit wird die oberste Schicht des Schichtenmodells dargestellt.
4 Benutzerfreundliche Sprachdialoge im Automobil
Nachdem nun die theoretischen Grundlagen f¨ ur Sprachdialoge dargestellt sind und auch die technischen Rahmenbedingungen f¨ ur serverbasierte und eingebettete Dialogsysteme eingef¨ uhrt wurden, geht es in diesem Kapitel um die Benutzung dieser Systeme. Da Dialogsysteme als Mensch-Maschine-Schnittstelle gedacht sind, m¨ ussen sie auch von Menschen bedient werden k¨onnen. Es sollte also das Ziel sein, eine m¨ oglichst gut benutzbare Schnittstelle f¨ ur den Menschen zu schaffen, also eine hohe Benutzerfreundlichkeit zu erreichen. Da dieser Begriff allerdings sehr allgemein erscheint, wird in diesem Abschnitt zuerst eine genaue Definition des Begriffs f¨ ur die weitere Verwendung in diesem Buch vorgenommen. Anschließend werden verschiedene Ans¨atze f¨ ur benutzerfreundliche Dialoge diskutiert und deren Einsatzm¨oglichkeit im Feld der Sprachbedienung er¨ ortert. Abschließend werden verschiedene Maximen f¨ ur benutzerfreundliche Dialoge im Automobil definiert.
4.1 Benutzerfreundlichkeit Intuitiv hat jeder Mensch ein eigenes Verst¨ andnis des Begriffs benutzerfreundlich, daher wird im Folgenden eine Definition des Begriffs vorgenommen. Grunds¨ atzlich beschreibt der Begriff die Bedienbarkeit technischer Systeme1 durch menschliche Benutzer und nicht die Freundlichkeit oder Kooperativit¨ at des Benutzers oder des Systems. Neben dem Begriff Benutzerfreundlichkeit werden auch die Begriffe Nutzerfreundlichkeit, Bedienbarkeit oder Gebrauchstauglichkeit (engl. usability) verwendet. Im Prinzip beschreiben alle diese Begriffe dieselbe Eigenschaft eines technischen Systems, n¨amlich das Maß f¨ ur die Nutzungsqualit¨ at der Mensch-Maschine-Schnittstelle des betreffenden technischen Systems. 1
Um diesen Text m¨ oglichst allgemein zu halten, wird in diesem Abschnitt nur noch von Systemen gesprochen; gemeint sind damit jedoch technische Systeme, Produkte, Ger¨ ate oder Vorrichtungen allgemein, ohne R¨ ucksicht auf bestimmte Einsatzbereiche.
62
4 Benutzerfreundliche Sprachdialoge im Automobil
Laut [Nielsen 1993] gilt ein System als benutzerfreundlich, wenn es einfach zu erlernen, einpr¨ agsam, nicht fehlerintensiv, sowie angenehm und effizient zu bedienen ist. Die internationale Normenreihe ISO 9241, welche als europ¨aische Norm umgesetzt und auch vom DIN u ¨bernommen wurde (daher korrekt DIN EN ISO 9241 genannt), beschreibt die Ergonomie von Mensch-System-Interaktion.2 Teil 11 dieser Norm formuliert die Gebrauchstauglichkeit als das Ausmaß, in dem ein System durch bestimmte Benutzer in einem bestimmten Nutzungskontext genutzt werden kann, um bestimmte Ziele effektiv, effizient und zufriedenstellend zu erreichen. In diesem Werk soll die Benutzerfreundlichkeit aus der Gebrauchstauglichkeit nach DIN EN ISO 9241-11 abgeleitet werden. Des Weiteren sollen die Begriffe Gebrauchstauglichkeit, Usability und Benutzerfreundlichkeit synonym verwendet werden. Es gilt Definition 4.1. Definition 4.1. Die Benutzerfreundlichkeit ist ein Maß, welches die Nutzungsqualit¨at eines technischen Systems durch einen (menschlichen) Benutzer beschreibt. Das Ausmaß der Benutzerfreundlichkeit wird bestimmt aus der Effektivit¨at, der Effizienz und der Zufriedenheit der Zielerreichung bei Benutzung des Systems. Unabh¨ angig von dieser Definition gilt f¨ ur die Auswertung der Benutzerfreundlichkeit, dass diese nur durch Tests und anschließende Befragungen erfolgen kann. Dabei werden subjektive Elemente in die Bewertung der einzelnen Benutzer unvermeidlich mit einfließen. Dies erschwert allerdings einen Vergleich von verschiedenen Systemen, umso mehr, wenn nicht gleiche Benutzergruppen ausgew¨ ahlt werden.
4.2 Benutzerfreundlichkeit von Sprachdialogen Die Auseinandersetzung mit der Benutzerfreundlichkeit von Sprachdialogen ist per se ein großer Hinweis auf den Reifegrad der Technologie und damit auch als ein Erfolg zu werten. Denn es geht aktuell bei Sprachdialogsystemen nicht darum, ob diese grunds¨ atzlich funktionieren, sondern um die Bedienbarkeit f¨ ur eine gr¨ oßere Zielgruppe. Allgemein gilt, wenn ein neues Produkt entwickelt wurde, welches einigen technologischen Fortschritt in sich vereint, wird dieses zuerst f¨ ur sogenannte fr¨ uhzeitige Anwender (engl. early adopters) vermarktet. Diese Zielgruppe ist vor allem an neuen Technologien bzw. Ger¨aten interessiert und nimmt auch unausgereifte Produkte gern in Kauf, wenn die Produkte nur interessant und/oder auff¨ allig genug sind. F¨ ur diese Zielgruppe ist die Benutzerfreundlichkeit eines Produkts daher unwichtig. Eine hohe Benutzerfreundlichkeit ist f¨ ur die breite Akzeptanz eines Produkts entscheidend, denn je mehr 2
Diese Norm enth¨ alt unter anderem einen Teil 110 (ersetzt den fr¨ uheren Teil 10), welcher die Grunds¨ atze der Dialoggestaltung behandelt (vgl. Abschnitt 2.10).
4.2 Benutzerfreundlichkeit von Sprachdialogen
63
durchschnittliche Benutzer ein Produkt bedienen k¨onnen, desto mehr Absatz kann es finden. Mit gutem Marketing kann nat¨ urlich ein Produkt auch aus anderen Gr¨ unden am Markt erfolgreich sein, dies ist im Rahmen dieses Werkes allerdings nicht wichtig. Aber die Tatsache, dass Sprachdialoge mit einem Automaten nicht mehr nur Science Fiction oder reine Forschungsthemen sind, sondern inzwischen mit dieser Technologie Geld verdient werden kann, bedeutet einen wichtigen Schritt zur weiteren Verbreitung der Technologie. Im Telefoniebereich ist Sprachtechnologie inzwischen allgemein verbreitet und auch akzeptiert (siehe u.a. [Matzer und Frisch 2003, Hottelet 2004]), Gartner hat bereits vor einiger Zeit der Spracherkennung f¨ ur Telefonie und Callcenter den Produktivit¨atsstatus zugewiesen [Rademacher 2004]. Zu guter Letzt ist auch die Verwendung von Sprachtechnologie in mobilen Anwendungen inzwischen recht verbreitet [Heim und Schw¨ ogler 2006]. Das heißt, insgesamt ist es f¨ ur das Feld der Sprachdialogsysteme ein großer Fortschritt, Benutzerakzeptanz und Benutzerfreundlichkeit in den Vordergrund zu stellen. Die Notwendigkeit dessen wurde bereits mehrfach betont, u.a. bei [Frisch 2004, Peissner et al. 2004]. Die Frage ist allerdings, wie man ein Sprachdialogsystem grunds¨ atzlich benutzerfreundlich machen kann. Was liegt an dieser Stelle n¨ aher, als sich einen m¨oglichst perfekten Dialog als Vorbild zu w¨ ahlen? Der denkbar benutzerfreundlichste Dialog ist der mit einem menschlichen Partner. Bei dieser Art von Dialogen treten u ¨blicherweise keine typischen Anwenderfehler auf, bei denen ein Partner entweder gar nicht spricht, keine Information u ¨ber sein Dialogziel liefert oder auf Fragen nicht antwortet. Diese Fehler sind laut [Heisterkamp 2003] beim Dialog mit einer Maschine sehr typisch. Menschliche Dialogpartner k¨onnen in diesen Situationen sehr viel besser reagieren, da die Aufl¨ osung von Missverst¨andnissen und eine inh¨ arente Fehlerkorrektur ein Teil der zwischenmenschlichen Kommunikation sind und teilweise sogar unbewusst ablaufen. Damit ist allerdings das Vorbild der zwischenmenschlichen Kommunkation sehr schwer zu erreichen. Dies gilt umso mehr, wenn f¨ ur die Implementierung eines Dialogsystems nur beschr¨ ankte Hardwareressourcen zur Verf¨ ugung stehen, wie z.B. im Automobil (vgl. Kapitel 3). Bis also der Mensch als Vorbild voll erreicht werden kann, sollte wenigstens eine inzwischen als sehr benutzerfreundlich bekannte Technologie als Vorbild dienen. Einen sehr guten Vorschlag macht hier [Heisterkamp 2003] mit seinem aufgestellten Vergleich des Lichtschalters. Wenn es bei Betreten eines Raumes dunkel ist, wird jeder Mensch intuitiv nach dem Lichtschalter suchen. Jedes Kind lernt heute die Bedeutung von Lichtschaltern, doch dies war nicht immer so. Heisterkamp zeigt in seinem Beitrag ein Schild vom Ende des 19. Jahrhunderts, welches besagt, dass der jeweilige Raum mit elektrischem Licht ausgestattet sei und zum Einschalten nur der Schalter bet¨atigt werden m¨ usse und kein Streichholz ben¨ otigt w¨ urde. Aus heutiger Sicht erscheint dieser Hinweis unn¨ otig und geradezu albern, aber als das Prinzip der elektrischen Beleuchtung noch neu war, war dieser Hinweis absolut notwendig.
64
4 Benutzerfreundliche Sprachdialoge im Automobil
Das Beispiel mit dem Lichtschalter zeigt eindrucksvoll, wie eine Technologie in den Alltag von Menschen eindringen und als nahezu selbstverst¨andlich angesehen werden kann. Ist diese Technologie damit auch als benutzerfreundlich zu bezeichnen? Nach Definition 4.1 ist eine Technologie nutzerfreundlich, wenn sie eine effektive, effiziente und zufriedenstellende Erreichung des Benutzerziels erm¨ oglicht. Im Allgemeinen ist die Bet¨atigung des Lichtschalters hochgradig effektiv, Ausnahmen sind eine defekte Gl¨ uhbirne oder nicht vorhandener Strom am Leuchtmittel. Auch ist der Vorgang des Lichteinschaltens sehr effizient, da nur ein Handgriff zum Einschalten getan werden muss. Zuletzt ist die Nutzung des Lichtschalters auch sehr zufriedenstellend, da in der Regel der vorher dunkle Raum sofort hell erleuchtet ist. Damit kann die Kom” munikation“ mit dem elektrischen Licht u ¨ber den Lichtschalter eindeutig als benutzerfreundlich bezeichnet werden. Mit dem Beispiel der Gl¨ uhbirne konnte illustriert werden, dass auch eine rein technische Kommunikation – in dem Fall die haptische Bet¨atigung eines Lichtschalters – sehr benutzerfreundlich sein und von jedem Menschen einfach durchgef¨ uhrt werden kann. Da nun die sprachliche Interaktion sehr viel nat¨ urlicher und in der Regel auch einfacher ist, als eine haptische, ist dies eine sehr gute Voraussetzung f¨ ur benutzerfreundliche Sprachdialoge. Problematisch ist hierbei lediglich die Erwartungshaltung vieler Benutzer, welche fast intuitiv die volle Leistungsf¨ ahigkeit eines Menschen hinter einem Dialogsystem vermuten. Welche Eigenschaften sollte also ein benutzerfreundliches SDS haben und was unterscheidet ein solches SDS von einem normalen“ SDS? Insbesondere ” Benutzerfehler sind ein Problem f¨ ur SDS, wie u.a. bei [Eckert et al. 1995, Bernsen et al. 1997] berichtet. Daneben kann es aber auch Fehler im SDS geben. Zusammengefasst k¨ onnen grunds¨ atzlich folgende drei Arten von Fehlern auftreten: Eingabefehler werden von Benutzern verursacht, die h¨aufigsten Fehler dabei sind: zu fr¨ uhes Sprechen beschreibt die Situation, dass der Benutzer spricht, bevor der Audiokanal f¨ ur den Spracherkenner ge¨offnet wird. In diesem Fall kann der Anfang des Sprachsignals nicht richtig verarbeitet werden, eine Fehlerkennung ist damit unvermeidlich. falsche Wortwahl auch als OOV-Fehler (engl. out of vocabulary) bezeichnet. In diesem Fall hat der Benutzer ein Wort benutzt, welches nicht im Vokabular des Spracherkenners vorhanden ist und deshalb in der Regel nicht erkannt werden kann. keine Eingabe – auch timeout genannt – liegt vor, wenn der Benutzer zu lange mit seiner Spracheingabe wartet. Da nach einem festgeschriebenen Zeitintervall der Spracherkenner den Audioeingang schließt, tritt in diesem Fall ein sogenannter Timeout-Fehler auf, um eine entsprechende Reaktion vom Dialogmanager ausl¨osen zu lassen.
4.2 Benutzerfreundlichkeit von Sprachdialogen
65
Interne Fehler k¨ onnen auftreten, wenn Benutzer¨außerungen intern falsch oder gar nicht weiterverarbeitet werden. Ersteres kann vor allem bei statisti¨ schen Grammatikformalismen auftreten. Wenn eine Außerung gar nicht weiterverarbeitet wird, liegt ein klassischer Designfehler vor, d.h. der Dialogdesigner hat f¨ ur einen Fall keine Reaktion vorgesehen. Ausgabefehler sind auf Fehler im Dialogskript zur¨ uckzuf¨ uhren. In diesem Fall wird auf eine richtig verarbeitete Eingabe mit einem falschen Konzept geantwortet. Ein benutzerfreundliches SDS sollte m¨ oglichst robust gegen diese Fehler sein. Daher ist es wichtig festzuhalten, in welchen der bereits in Abschnitt 3.4 vorgestellten Komponenten eine entsprechende Robustheit eingebaut werden sollte. Die meisten Benutzerfehler bereiten bereits bei der Spracheingabe Probleme. Hier ist vor allem die Spracherkennung betroffen. Timeout-Fehler und zu fr¨ uhes Sprechen k¨ onnen zumindest von den meisten u ¨blichen Spracherkennern identifiziert werden, so dass der Dialogmanager eine entsprechende Reaktion einleiten kann und die Anfrage leicht ver¨ andert wiederholt an den Benutzer stellt. Schwieriger ist Erkennung von OOV-Fehlern. Denn bedingt durch das Prinzip der statistischen Spracherkennung wird vom Erkennungsalgorithmus auch im Fall einer falschen Eingabe versucht, die Eingabe auf ein sinnvolles Ergebnis abzubilden. Allerdings gibt es auch f¨ ur dieses Problem verschiedene L¨ osungsvorschl¨ age, wie u.a. bei [Boros et al. 1997, Bazzi und Glass 2000, Scharenborg und Seneff 2005, Huang et al. 2006] dargestellt wird. Grunds¨atzlich ist jedoch die Gefahr von OOV-Fehlern bei den doch sehr beschr¨ankten Dialogdom¨ anen im Automobil eher gering und tritt haupts¨achlich bei dynamischem Vokabular ( anrufen bei Kartoffelsalat“) auf, mit den genannten ” L¨ osungsvorschl¨ agen kann dieses Problem aber entsch¨arft werden. Sehr viel gr¨ oßer ist die M¨ oglichkeit eines solchen Fehlers bei Serveranwendungen mit großen Vokabularien z.B. zur Suche in Datenbanken. Interne Fehler tauchen in der Regel im Zusammenspiel zwischen Spracherkennung, Parsing und Dialogmanager auf und sollten soweit wie m¨oglich durch intensives Testen und sorgf¨ altige Entwicklung vermieden werden. Wenn zudem eine handgeschriebene Grammatik verwendet wird, sind keine Fehler bei der Zuweisung von semantischen Konzepten an Worte zu erwarten. Ausgabefehler k¨ onnen bei zustandsbasierten Dialogmodellen nur durch Implementations- oder Designfehler auftreten. Hier ist eine sorgf¨altige und fachm¨ annische Dialogentwicklung umso wichtiger. Nachdem die internen und Ausgabefehler vor allem durch Entwicklungsfehler auftreten k¨ onnen, ist eine Fehlerbehandlung im laufenden System nur schwer m¨ oglich. Dagegen gibt es f¨ ur alle genannten Eingabefehler M¨oglichkeiten zur Behandlung innerhalb eines Dialogsystems. Das bedeutet, dass zumindest die Kommunikation mit dem System immer zum Dialogziel gef¨ uhrt werden kann. Es ist im Allgemeinen daher keine Frage der technischen Machbarkeit einer Fehlerbehandlung, sondern eher eine Frage des Aufwands f¨ ur atzlich ist der Aufwand zur Fehlerdie Umsetzung dieser Behandlung. Grunds¨
66
4 Benutzerfreundliche Sprachdialoge im Automobil
behandlung in einem Sprachdialogsystem n¨ amlich fast genauso groß, wie der Aufwand zur Entwicklung der eigentlichen funktionellen Applikation. Daher kann man am Vorhandensein und der Qualit¨ at einer Fehlerbehandlung auch die G¨ ute eines Dialogsystems erkennen. Wie dargestellt, werden die meisten dieser Fehler entweder im Dialogmanager bzw. Dialogskript verhindert oder dort zumindest gemeldet. Das heißt, dass an dieser Stelle fast alle der genannten Fehler abgearbeitet werden k¨onnen und vor allem diese Stelle elementar wichtig f¨ ur robuste und auch benutzerfreundliche Sprachdialoge ist. Was genau sollte also am Dialog beachtet werden? Wie bereits in Kapitel 2 definiert wurde, ist ein Dialog eine zielorientierte sprachliche Interaktion zwischen zwei Partnern. Im Umfeld von Dialogsystemen werden die Partner klar als menschlicher Benutzer und automatisiertes Dialogsystem gesehen. Weiter wurde bereits bei der allgemeinen Vorstellung des Dialogdesigns in Abschnitt 2.10 auf die grundlegenden Prinzipien hingewiesen, welche f¨ ur die Erstellung eines kooperativen Dialogs im Grice’schen Sinne (siehe Abschnitt 2.1) relevant sind. Das Dialogdesign ist damit der Schl¨ ussel zum benutzerfreundlichen Dialog. Ebenfalls in Abschnitt 2.10 wurde bereits auf Teil 110 der Norm DIN EN ISO 9241 eingegangen. Da dies ein sehr wichtiger Teil ist, wird er an dieser Stelle nochmal kurz wiedergegeben. Dieser Teil der Norm besch¨aftigt sich mit den Grunds¨ atzen der Dialoggestaltung. Zwar richtet sich die Norm grunds¨ atzlich eher an graphische Dialoge mit Bildschirmger¨aten, aber prinzipiell k¨ onnen die Anforderungen auch f¨ ur Sprachdialoge u ¨bernommen werden. Teil 110 der Norm beschreibt folgende Grunds¨atze f¨ ur die Gestaltung einer Mensch-Maschine-Schnittstelle: Aufgabenangemessenheit bedeutet, ein Dialog sollte eine geeignete Funktionalit¨ at f¨ ur den gew¨ unschten Zweck darstellen und unn¨otige Interaktionen minimeren. Selbstbeschreibungsf¨ ahigkeit steht f¨ ur eine hohe Verst¨andlichkeit des Systems durch R¨ uckmeldungen oder sogar Hilfen. Steuerbarkeit des Dialogs: der Benutzer sollte den Dialog steuern k¨onnen. Erwartungskonformit¨ at steht f¨ ur einen konsistenten und f¨ ur den Benutzer durchschaubaren Dialogablauf. Fehlerrobustheit – also eine Robustheit des Dialogs gegen¨ uber Benutzerfehlern – hier wird insbesondere eine fehlervermeidende Dialoggestaltung gefordert, ansonsten sollen erkannte Fehler nicht das Erreichen des Dialogziels verhindern. Individualisierbarkeit bedeutet die Anpassbarkeit an den Benutzer. Lernf¨ orderlichkeit steht f¨ ur eine minimale Erlernzeit der Anwendung. Wenn also ein Sprachdialog m¨ oglichst viele dieser Punkte m¨oglichst gut erf¨ ullt, dient dies ebenfalls der Benutzerfreundlichkeit. Denn ein der Aufgabe angemessener, verst¨ andlicher, konsistenter und fehlerrobuster Sprachdialog sollte die Effektivit¨ at, die Effizienz und auch die Zufriedenheit eines Benutzers
4.3 Evaluation von Sprachdialogen
67
steigern. Damit w¨ urde ein solcher Dialog im Sinne der Definition 4.1 als benutzerfreundlich gelten. Aus diesem Grunde sind die aufgef¨ uhrten Grunds¨atze der Gestaltung von Mensch-Maschine-Schnittstellen eine wichtige Grundlage f¨ ur eine erfolgreiche Dialogentwicklung. Der Punkt der Individualisierbarkeit ist in automobilen Sprachdialogen bisher im Produkt noch nicht umgesetzt worden. Es gibt jedoch Studien u ¨ber sogenannte adaptive Dialoge, wie z.B. die ausf¨ uhrliche Darstellung von [Hassel 2006].
4.3 Evaluation von Sprachdialogen Grunds¨ atzlich kann mit der Evaluation eines Dialogsystems sowohl dessen Leistungsf¨ ahigkeit gemessen werden, als auch die Akzeptanz des Systems bei Benutzern. W¨ ahrend sich die Performanzevaluation allerdings ausschließlich an messbaren objektiven Kriterien orientiert, basiert eine Benutzerevaluation bedingt durch den Einfluss menschlicher Nutzer auf subjektiven Kriterien. 4.3.1 Performanzevaluation Eine Performanzevaluation kann auf verschiedene Arten durchgef¨ uhrt werden. Die aufw¨ andigere Methode besteht darin, die einzelnen Komponenten eines Dialogsystems zu evaluieren. Dieses Evaluierungsverfahren wird auch glassbox evaluation genannt [Gibbon et al. 1997]. Grunds¨atzlich wird bei dieser Evaluationsmethode jede einzelne Komponente eines Dialogsystems evaluiert. Maßgeblich sind dabei die jeweils ein- und ausgehenden Daten. F¨ ur einige Komponenten ist es durchaus einfach m¨ oglich, deren einzelne Performanz zu messen, so gibt es f¨ ur die Spracherkennung mit der Erkennungsrate und der Wortkorrektheit sogar sehr etablierte Maße f¨ ur eine standardisierte Evaluation [Gibbon et al. 1997]. Eine andere Methode zur Performanzevaluation von Dialogsystemen ist, das System als Ganzes zu betrachten und zu evaluieren. In diesem Fall spricht man von der black-box evaluation [Gibbon et al. 1997, Hanrieder et al. 1998], dabei werden die Eingabedaten mit den Ausgaben verglichen und diese evaluiert. M¨ ogliche Messungen dieser Art von Evaluation k¨onnen z.B. die bei [Gibbon et al. 1997] definierten Maße sein: • • •
¨ Außerungsdauer – die durchschnittliche L¨ ange von Benutzer¨außerungen Dialogdauer – die durchschnittliche Dialogdauer in Sekunden Kontextuelle Angemessenheit – die Angemessenheit von Dialog¨außerungen in Anbetracht der vorhergehenden Benutzer¨außerungen • Transaktionserfolg (engl. task success) – gibt den Erfolg der Zielerreichung bei Dialognutzung an
68
4 Benutzerfreundliche Sprachdialoge im Automobil
4.3.2 Benutzerevaluation Die Benutzerevaluation fragt nach der Benutzerfreundlichkeit des Dialogsystems. In Abschnitt 4.1 wurde die Benutzerfreundlichkeit definiert als Maß, welches aus der Effektivit¨ at, der Effizienz und der Zufriedenheit bei der Zielerreichung der Systembenutzung bestimmt wird. Das bedeutet, dass f¨ ur die Benutzerevaluation genau diese drei Datenarten bestimmt bzw. erfragt werden m¨ ussen. Da diese Maße jedoch nicht einfach nur durch Beobachtung bestimmt werden k¨ onnen, ist die Befragung der Probanden hier unerl¨asslich [Nielsen 1993, Shneiderman 2002]. Die Befragung von Probanden bei der Untersuchung von Sprachdialogsystemen kann sich laut [Larsen 2003] allerdings nur zum Teil an vorhandenen Standardss f¨ ur die Messung der Benutzerfreundlichkeit von graphischen Dialogsystemen orientieren. Schließlich ist Sprache ein fl¨ uchtiges Medium, das Interface grunds¨ atzlich fehleranf¨ alliger als ein graphisches Pendant und außerdem ist das Vergessen von Kommandos [Hof et al. 2006] nur bei Sprachschnittstellen von so großer Bedeutung. Von daher ist die Auswahl der Fragen und deren Auswertung hochgradig abh¨ angig vom jeweilig zu evaluierenden System. 4.3.3 Vergleichende Evaluation Aus der obigen Darstellung folgt, dass die Vergleichbarkeit von Systemevaluationen nur sehr eingeschr¨ ankt m¨ oglich ist. Wenn die Frageb¨ogen systemabh¨ angig variiert werden, ist ein Vergleich der subjektiven Merkmale kaum m¨ oglich. Auch bei einer glass-box Evaluation kann ein Vergleich verschiedener Systeme ebenfalls nicht sinnvoll vorgenommen werden [Gibbon et al. 1997]. Allerdings liefert auch eine black-box Evaluation eine Reihe von verschiedenen Werten, die einzeln mit anderen Systemen vergleichbar und anwendbar sein m¨ ussen. Basierend auf dieser Problematik haben [Walker et al. 1997] mit PARADISE (PARAdigm for DIalogue System Evaluation) einen Ansatz entwickelt, objektive und subjektive Evaluationsfaktoren unter einer Funktion zusammenzufassen. Dies erlaubt nicht nur eine ganzheitliche Beurteilung der Systembedienbarkeit sondern zus¨ atzlich auch den Vergleich von unterschiedlichen Dialogstrategien und sogar unterschiedlichen Systemen. Allerdings hat dieser Ansatz auch einige Schwachstellen, die u.a. bei [Hassel 2006] aufgezeigt wurden. Ein wesentlicher Kritikpunkt ist dabei, dass bei Untersuchungen von Sprachbediensystemen im Automobil die Grundannahme von PARADISE u ¨ber einen Zusammenhang zwischen der Nutzerzufriedenheit auf der einen und Dialogkosten und Dialogerfolg auf der anderen Seite nicht best¨atigt werden konnte. Aus diesen Gr¨ unden wird f¨ ur die Dom¨ ane der Sprachbedienung im Automobil auch in diesem Buch ein Evaluationsergebnis aus mehreren Einzelergebnissen zusammengesetzt sein und nicht auf PARADISE zur¨ uckgegriffen.
4.4 Evaluationsm¨ oglichkeiten
69
4.4 Evaluationsm¨ oglichkeiten Bevor allerdings konkrete Ans¨ atze f¨ ur benutzerfreundliche Dialoge besprochen werden, muss gekl¨ art werden, wie unterschiedliche Ans¨atze evaluiert werden k¨onnen. Grunds¨ atzlich gibt es daf¨ ur verschiedene M¨oglichkeiten, die im folgenden kurz dargestellt werden. 4.4.1 Wizard of Oz Versuche Bevor u ur ein funktionsf¨ahiges System existiert, ¨berhaupt die Infrastruktur f¨ kann bereits in einer sehr fr¨ uhen Entwicklungsphase ein Wizard of Oz Versuch (WOZ) durchgef¨ uhrt werden. Diese Art von Versuchen hat sich insgesamt als brauchbar und sinnvoll durchgesetzt [Dahlb¨ ack et al. 1993]. Bei einem WOZ wird ein uninformierter Benutzer vor ein Ger¨ at gesetzt, welches er per Sprache bedienen soll. Dieses Ger¨ at wird allerdings von einem im Nebenraum sitzenden Menschen (dem Wizard ) gesteuert. Das bedeutet, weder der Dialogmanager noch der Spracherkenner sind echte Systeme, ihre Funktion wird vielmehr von einem Menschen u onnen auch sehr aufw¨andige oder ¨bernommen. Damit k¨ sogar noch nicht machbare Sprachdialoge simuliert und getestet werden. Auch f¨ ur die Erprobung von Sprachdialogen im Automobil haben sich WOZ Versuche durchgesetzt, wie unter anderem bei [Geutner et al. 2002, Cheng et al. 2004, Petrik et al. 2005] nachgelesen werden kann. Grunds¨ atzlich dient ein WOZ nicht nur der Evaluation, sondern bietet auch eine M¨ oglichkeit, Daten f¨ ur die Erstellung eines neuen Dialogdesigns zu liefern. Dies wurde z.B. bei [Schulz und Donker 2006] f¨ ur die Erstellung eines sprachbedienten MP3-Players genutzt. ¨ 4.4.2 Uberwachte Systembenutzung Wenn allerdings die Infrastruktur eines laufenden Dialogsystems bereits vorhanden ist, macht die Durchf¨ uhrung eines WOZ Versuchs keinen Sinn. Dieser ist in einer solchen Situation zu aufw¨ andig in der Konzeption und Durchf¨ uhrung, zudem ist die Qualit¨ at eines Dialogmanagers oder einer Spracherkennung mit einem WOZ nicht messbar. Wenn daher Dialogkomponenten von Benutzern getestet werden sollen, bleibt die Erstellung eines Prototypen, welcher dann von Benutzern evaluiert werden kann. In sp¨ ateren Entwicklungsschritten kann dieser Prototyp nach und nach verbessert und erneut evaluiert werden, so dass eine iterative Evaluation durchgef¨ uhrt wird. Gegen Ende der Entwicklungsphase wird daher der Prototyp u ¨blicherweise immer mehr zum finalen System. Bei ur einen sprachbedien[Schulz und Donker 2006] wurde ein solches Vorgehen f¨ ten MP3-Player im Automobil illustriert. Der Vorteil bei der u ur die Eva¨berwachten Systembenutzung ist, dass f¨ luation nur eine Betreuungsperson ausreicht, da der Wizard wegf¨allt. Zudem werden keine speziellen Komponenten f¨ ur eine Untersuchung verwendet, sondern der aktuelle Implementationsstand zur Evaluation herangezogen.
70
4 Benutzerfreundliche Sprachdialoge im Automobil
4.4.3 Simulierte Benutzertests Insbesondere bei der Verwendung von statistischen Dialogmodellen bietet sich auch die Durchf¨ uhrung von simulierten Benutzertests an. Voraussetzung daf¨ ur ist eine entsprechend große Menge an Daten, die nicht zum Training des Dialogmanagers verwendet wurde. Eine Beschreibung dieses Ansatzes kann z.B. bei [Georgila et al. 2006] gefunden werden. Wie bereits in Abschnitt 2.4.5 dargestellt wurde, kann eine statistische Dialogmodellierung nicht f¨ ur die Entwicklung von Sprachbediensystemen im Automobil herangezogen werden. Aus diesen Gr¨ unden liegen auch nicht gen¨ ugend Daten vor, eine datenbasierte Evaluation durchf¨ uhren zu k¨onnen. 4.4.4 Besonderheiten f¨ ur die Dom¨ ane der Sprachbedienung im Automobil Wie bereits ausf¨ uhrlich in Abschnitt 3.1 dargestellt wurde, sollen Sprachbediensysteme im Automobil grunds¨ atzlich auch immer w¨ahrend der Fahrt bedient werden k¨ onnen. Dies geht allerdings nur, wenn die Systeme vom Fahrer nicht zu viel Aufmerksamkeit fordern und entsprechend die kognitive Belastung gering halten. Um zu gew¨ ahrleisten, dass auch bei der Evaluation von neuen Dialogans¨ atzen der Benutzer nicht einer zu hohen kognitiven Belastung ausgesetzt wird und gleichzeitig auch das System bedienen kann, ohne st¨andig auf das System zu achten, m¨ ussen auch Evaluationen grunds¨atzlich anders angelegt werden, als f¨ ur serverbasierte Dialogsysteme. Es ist daher u ¨blich, den Benutzer auch w¨ ahrend einer Evaluation eines Sprachsystems einer der Fahraufgabe m¨ oglichst ¨ ahnlichen Belastung auszusetzen. Der nat¨ urliche Vorgang ist die Durchf¨ uhrung der kompletten Evaluation im fahrenden Automobil, wie z.B. bei [G¨artner et al. 2001], [Minker et al. 2004] und [Hassel und Hagen 2005] beschrieben. Diese Methode liefert sehr realistische Ergebnisse, allerdings darf die Sicherheit im Straßenverkehr unter den Versuchsbedingungen nicht leiden. In den oben zitierten Versuchen wurde daher sogar ein Automobil mit zwei Pedals¨atzen verwendet, um Unf¨ alle zu vermeiden.3 So realistisch die Evaluation in einem fahrenden Automobil auch ist, so groß ist allerdings auch der Aufwand zur Durchf¨ uhrung. Zuerst muss ein entsprechend geeignetes Fahrzeug zur Verf¨ ugung stehen. Dann muss das Dialogsystem in dieses funktionsf¨ ahig installiert werden und schließlich muss die Anbindung des Systems auch realistisch sein. Letzteres bedeutet, dass der Dialogstart durch den nachtr¨ aglichen Einbau eines entsprechenden PTT-Knopfes nicht zu aufw¨ andig oder unrealistisch sein sollte.
3
F¨ ur kleinere und seriennahe Evaluationen wird manchmal auch auf diese zus¨ atzliche Sicherheitsmaßnahme verzichtet.
4.5 Ans¨ atze f¨ ur benutzerfreundliche Sprachdialoge
71
Etwas einfacher ist daher die Durchf¨ uhrung entsprechender Versuche in einem Fahrsimulator. Die Sicherheitsprobleme des echten Straßenverkehrs werden ausgeblendet und zudem ist in der Regel die Messung von Fahrfehlern sehr viel einfacher. Auch die Integration eines Dialogsystems ist hier einfacher, da ein Simulator kein komplett realistisches Armaturenbrett verlangt. Zudem kann ein Dialog sogar einfach auf einem handels¨ ublichen PC laufen, station¨ are Stromversorgung ist hier kein Problem. Der gr¨oßte Nachteil einiger Fahrsimulatoren ist, dass Personen hier St¨ orungen des Gleichgewichtssinns erleiden k¨ onnen (¨ ahnlich der Seekrankheit) und als Probanden ausscheiden. Allerdings sind Fahrsimulatoren sehr teuer und aufw¨andig zu betreiben, daher gibt es Bestrebungen, eine billigere und einfachere Art der Simulation zu finden. Ein einfaches und probates Mittel ist die Erstellung eines Fahrsimulators am PC mittels eines f¨ ur Computerspiele entwickelten Lenkrads mit Pedalen. Handels¨ ubliche Computerspiele k¨onnen realistisch genug sein, hier als Ablenkungsaufgabe zu dienen. Bei [Cheng et al. 2004] wurde dieser Ansatz gew¨ ahlt. Allerdings eigenen sich Computerspiele weder zur genauen Analyse der durchgef¨ uhrten Fahrt noch ist ihre kognitive Belastung wirklich realistisch mit einer echten Fahraufgabe im Automobil zu vergleichen. Aus diesem Grund wurde bei Daimler mit der Software LCT (Lane Change Task) ein Werkzeug zur Bewertung der Fahrerablenkung entwickelt, welches nachgewiesener Maßen eine der echten Fahraufgabe ¨aquivalente kognitive Belastung darstellt [Mattes 2003, Harbluk et al. 2007]. Diese Software hat sich inzwischen zum Quasi-Industriestandard bei der Messung der Fahrablenkung etabliert und bietet die M¨ oglichkeit, realistische Tests s¨amtlicher Arten von Fahrerinformationssystemen im Automobil auch in einer einfachen B¨ uroumgebung durchf¨ uhren zu k¨ onnen.
4.5 Ans¨ atze fu ¨ r benutzerfreundliche Sprachdialoge Es gibt grunds¨ atzlich verschiedene Ans¨ atze einen Sprachdialog besonders benutzerfreundlich zu gestalten. Problematisch bei den meisten Ans¨atzen ist, neben der technischen Umsetzbarkeit in ein, mit den bereits in Kapitel 3 formulierten Einschr¨ ankungen versehenes eingebettetes Automobilsystem, auch die Akzeptanz bei Auftraggebern und Benutzern. Die wichtigsten und aktuellsten Vorschl¨ age und Ideen zu benutzerfreundlichen Sprachdialogen werden nachfolgend aufgegriffen und ihre Umsetzbarkeit beurteilt. 4.5.1 Nat¨ urliche Sprache als Problem? Laut Definition 4.1 gilt ein Dialog als benutzerfreundlich, wenn ein Benutzer sein jeweiliges Dialogziel besonders effektiv, effizient und zufrieden erreicht. Mathematisch gesprochen gilt also: U =P ◦E◦S
72
4 Benutzerfreundliche Sprachdialoge im Automobil
wobei U f¨ ur die Benutzerfreundlichkeit steht, P f¨ ur die Effektivit¨at, E f¨ ur die Effizienz und S f¨ ur die Zufriedenheit. Fraglich ist nun, ob die Maximierung einer der Parameter eine Maximierung von U bedeuten w¨ urde. Konkret geht es um die Idee, die Effizienz eines Dialogs zu maximieren, indem der menschliche Benutzer eine eingeschr¨ anktere Sprache verwendet. Diese Idee ist bereits vor l¨ angerer Zeit von [Shneiderman 1980] verfolgt worden. Die damaligen Gr¨ unde ¨ f¨ ur diesen Ansatz waren u.a. Angste, die fortschrittlichen Kommunikationsformen (gemeint war hiermit vor allem die haptische Kommunikation u ¨ber Maus oder Joystick) mit einem Computer w¨ urden nicht weiterentwickelt, die Computersysteme zur Analyse w¨ urden viel zu komplex werden. Diese Gr¨ unde sind heutzutage sicherlich u ¨berholt. Allerdings auch aus heutiger Sicht stichhaltig ist die Aussage, dass die nat¨ urlichsprachliche Kommunikation zu langwierig f¨ ur erfahrene Benutzer ist, die von einem Computer die Ausf¨ uhrung eines Kommandos in schnellstm¨ oglicher Zeit erwarten. An genau diesem Punkt kann man mit einer vereinfachten Sprache ansetzen, um eine h¨ ohere Effizienz und ein standardisiertes Sprachinterface zu erreichen [Tomko 2006]. Zudem kann man mit einer vereinfachten Sprache (Tomko spricht von Speech Graffiti, bei [Schiel et al. 2006] heißt der Ansatz Lingua Machinae) die Problematik von Fehlerkennungen stark minimieren. [Tomko und Rosenfeld 2004a] haben nachweisen k¨onnen, dass Benutzer die Grammatik einer vereinfachten Sprache schnell erlernen k¨onnen. In einem Vergleich von nat¨ urlichsprachlicher Spracheingabe und vereinfachter Spracheingabe konnte nachgewiesen werden, dass f¨ ur ein telefonisches Auskunftssystem eine Mehrheit der Benutzer die vereinfachte Eingabe pr¨aferierte [Tomko und Rosenfeld 2004b]. Zudem konnte gezeigt werden, dass Benutzer sogar nur mit minimaler Information und u ¨ber gezielte Prompts dazu gebracht werden k¨ onnen, ein Dialogsystem zur Datenabfrage lediglich mit vereinfachter Sprache zu bedienen (Tomko spricht von shaping) [Tomko und Rosenfeld 2004c]. ur ein Sprachdialogsystem Der Ansatz einer vereinfachten Anfragesprache f¨ ist daher sicherlich als erfolgreich zu bezeichnen. Aber wie steht es mit der ¨ Ubertragbarkeit f¨ ur den Automobilbereich? Grunds¨atzlich verbietet es sich, im Automobil den Benutzer vor Anwendung der Sprachbedienung umst¨andlich u ¨ber die zu verwendende Sprache zu informieren. Es ist das Ziel, eine Benutzung des Bediensystems ohne vorherige Schulung zu gew¨ahrleisten. Zudem gibt es in jeder Sprachbedienung gewisse identische Kommandow¨orter (z.B. Hilfe“, Abbruch“) die immer zur Verf¨ ugung stehen und dem Benutzer ” ” eine gewisse Orientierung sind. Damit ist ein St¨ uck der von [Schiel et al. 2006] geforderten Standardisierung bereits umgesetzt. Da aber die Dom¨ane der Sprachbedienung eine sehr viel engere und kleinere ist, als die Dom¨ane bei der Abfrage von Datenbanken, ist auch die Problematik von falschem oder außerhalb der Dom¨ ane liegendem Vokabular (also Eingabefehlern) sehr viel kleiner. Weil aber auch aktuelle Systeme keine vollst¨ andige Abdeckung der nat¨ urlichsprachlichen Anfragem¨ oglichkeiten aufweisen, muss der Benutzer sich auch an ein etwas eingeschr¨ ankteres Vokabular gew¨ ohnen. Mittels Hilfeprompts und
4.5 Ans¨ atze f¨ ur benutzerfreundliche Sprachdialoge
73
gezielt formulierten Prompts (vgl. Abschnitt 2.10) wird daher im Prinzip auch eine Art shaping im Tomko’schen Sinne betrieben. Bedingt durch die kleinere Dom¨ ane wirkt die resultierende Anfragesprache aber im Stil noch eher nat¨ urlichsprachlich, als einige Beispiele von speech graffiti. Aus der Sicht des Entwicklers ist hier bei der Wahl des Vokabulars zwischen Effizienz und Benutzerfreundlichkeit abzuw¨ agen. Im Zweifelsfall kann eine Einzelfallentscheidung dann nur durch eine Evaluation mit echten Benutzern gekl¨art werden. Dies bedeutet aber auch, dass eine Maximierung nur einer der Werte Effizienz, Effektivit¨ at oder Benutzerzufriedenheit nicht m¨oglich ist. Zusammenfassend kann gesagt werden, dass nat¨ urlichsprachliche Anfragen an Dialogsysteme im Automobil auch ein Problem darstellen k¨onnen, allerdings mit den vorhandenen Bordmitteln der Hilfedialoge durchaus ein l¨ osbares. 4.5.2 Adaptive Systeme Wie bereits in Abschnitt 4.2 beschrieben wurde, fordert DIN EN ISO 9241110 f¨ ur eine Mensch-Maschine Schnittstelle auch eine Individualisierbarkeit. Konkret heißt es dazu in der Norm: Ein Dialog ist individualisierbar, wenn ” das Dialogsystem Anpassungen an die Erfordernisse der Arbeitsaufgabe sowie an die individuellen F¨ ahigkeiten und Vorlieben des Benutzers zul¨asst“. Von vielen bildschirmbasierten Dialogen bekannt ist die Frage, ob eine Dialogbox beim n¨ achsten Mal wieder erscheinen soll oder die Einstellungen gespeichert werden sollen, wie zum Beispiel auf Abbildung 4.1 dargestellt. In diesen F¨allen adaptiert sich ein Softwaresystem an seinen Benutzer.
Abbildung 4.1. Dialogbox mit Individualisierungsm¨ oglichkeit
Auch im Automobil sind adaptive Systeme bekannt. Das bekannteste adaptive System ist das Autoradio mit geschwindigkeitsabh¨angiger Lautst¨arkeanpassung. Bei einem solchen System wird bei steigender Geschwindigkeit die Wiedergabelautst¨ arke angehoben, um vor dem Hintergrund von lauteren Fahr- und Motorenger¨ auschen subjektiv die Musik in gleicher Lautst¨arke h¨ oren zu k¨ onnen. Daneben sind auch bei FIS Adaptionen denkbar. So wird bei [Bachfischer et al. 2007] ein Prototyp eines adaptiven Navigationssystems
74
4 Benutzerfreundliche Sprachdialoge im Automobil
vorgestellt, welches z.B. bei vollem Tank keine Tankstellen als Sonderziel oder POI (engl. Point of Interest) anzeigt, bei leerem Tank allerdings ausschließlich M¨ oglichkeiten zum Tanken anzeigt. [Akyol et al. 2001] stellen ein multimodales FIS mit unterschiedlichen Adaptionsm¨ oglichkeiten vor. Bei [Hassel 2006] wird ein komplettes sprachbedientes FIS pr¨asentiert, welches sich an den Erfahrungsgrad eines Benutzers adaptiert. Wenn ein Benutzer in einer Applikation Experte ist, bekommt er im Sinne der gesteigerten Effizienz k¨ urzere Systemprompts zu h¨ oren als wenn er Anf¨anger ist. F¨ ur letzteren gibt es l¨ angere Prompts, um die verschiedenen M¨oglichkeiten aufzuzeigen. Hassel konnte zeigen, dass die Verwendung eines solchen adaptiven Systems schneller und effizienter gelang, als die Verwendung eines Referenzsystems. Allerdings konnte bei der Analyse nach dem PARADISE-Ansatz [Walker et al. 1997] (mehr dazu in Abschnitt 8.8) keine lineare Korrelation zwischen der Nutzerzufriedenheit und dem Erfolgsmaß gefunden werden. Basierend auf der Arbeit von Hassel hat [Hof 2007] diese um ein adaptives Hilfesystem erweitert. Dabei wurde auch eine Studie zum Vergessen von Sprachkommandos durchgef¨ uhrt [Hof et al. 2006]. Diese Studie erlaubte die adaptive Konfiguration des Hilfesystems; so wurden seltener verwendete Kommandos an den Anfang der Hilfetexte gesetzt, h¨aufiger verwendete an das Ende. Wie Hof berichtet, wurde dieses System von den Benutzern subjektiv besser bewertet als ein nicht adaptives System. Adaptive (also individualisierbare Systeme im Sinne von DIN EN ISO 9241-110) k¨ onnen damit insgesamt die Benutzerzufriedenheit st¨arken und sogar in vielen Situationen den Dialogfluss verk¨ urzen. Allerdings ben¨otigen adaptive Systeme Kenntniss des aktuellen Benutzers, um sein Profil korrekt zuordnen und den Sprachdialog entsprechend adaptieren zu k¨onnen. Genau diese Stelle ist aktuell der Schwachpunkt von adaptiven Systemen im Fahrzeug. Zuverl¨ assig ist eine Zuordnung bisher leider nicht m¨oglich. Zwar k¨onnen individualisierte Schl¨ ussel vergeben werden, aber ein Austausch innerhalb der Familie l¨ asst sich nicht vermeiden. Eine sprachliche Identifikation ist nur durch Zusatzaufwand des Fahrers m¨ oglich, was bisher von den Automobilherstellern abgelehnt wird. Bliebe die Identifikation u ¨ber Video oder das in der FSE eingesteckte Handy. Eine Stimmanalyse bei Verwendung des SBS w¨are zwar m¨ oglich, allerdings k¨ onnte hier die Adaption erst nach der ersten Verwendung greifen und zudem gibt es die Problematik von Stimmenver¨anderung durch z.B. Heiserkeit. Die Identifikation per Mobiltelefon w¨are zwar machbar, allerdings m¨ ussten mehrere Telefone pro Benutzer unterst¨ utzt werden und zudem ein Modellwechsel dem System vermittelt werden. Aus den genannten Gr¨ unden stellen adaptive Systeme daher durchaus einen Beitrag zu noch benutzerfreundlichen Systemen dar, allerdings sind diese Mechanismen f¨ ur Sprachsysteme immer noch ein Forschungsgegenstand.
4.5 Ans¨ atze f¨ ur benutzerfreundliche Sprachdialoge
75
4.5.3 Dialogstrategie Bereits in Abschnitt 2.6 wurde der Begriff der Dialogstrategie eingef¨ uhrt und verschiedene Strategien vorgestellt. Dort wurde auch beschrieben, dass f¨ ur ein Sprachbediensystem im Automobil vor allem direktive und nur in Einzelf¨allen eine kooperative Strategie verwendet wird. Diese Beschr¨ankung auf eine wenig aktive Dialogstrategie tr¨ agt zwar nicht zu einem linguistisch ausgefeilten Dialog bei, allerdings erlaubt diese Strategie einen effizienten und effektiven Dialogablauf, da das stark eingeschr¨ ankte Vokabular kaum Erkennfehler gestattet. Die Einschr¨ ankung des Vokabulars durch geschlossene Prompts (vgl. Abschnitt 2.10) dient sogar unmittelbar auch einer h¨oheren Verkehrssicherheit. So wurde z.B. bei [Kun et al. 2007] nachgewiesen, dass eine schlechte Erkennrate das Fahrverhalten negativ beeinflusst. Auch [Hof 2007] belegt, dass eine schlechte Erkennleistung des Spracherkenners zu einer stark erh¨ohten mentalen Belastung f¨ uhrt, was zu nachlassender Konzentration bei der Fahrt¨atigkeit f¨ uhren kann. Nun kann es aber sein, dass ein linguistisch eingeschr¨ankter Dialog zwar effizient und effektiv ist, aber vielleicht den Benutzer nicht zufriedenstellt. Aus diesem Grund haben [Ackermann und Libossek 2006] in einem WOZ untersucht, ob in einem Navigationsdialog ein freierer Dialog hilfreich und f¨ ur den Benutzer zufriedenstellend ist. Dabei kam heraus, dass es Benutzer im Automobil in der Tat sehr sch¨ atzen, explizit um eine konkrete Eingabe gebeten zu werden. Von daher kann der in Abschnitt 3.6.3 dargestellte Dialogablauf als sehr benutzerfreundlich gelten. Diese Punkte belegen die auch aus internen Versuchen bei Harman/Becker bekannte Tatsache, dass eine Sprachbedienung sehr konkrete und enge Sprachprompts ben¨ otigt, um den Fahrer m¨ oglichst wenig kognitiv zu belasten und die Fahrt¨ atigkeit nicht zu beeintr¨ achtigen. Damit sind also direktive und reaktive Dialogstrategien das Mittel der Wahl im Automobil, um eine sichere Fahrt und einen benutzerfreundlichen Dialog zu gew¨ahrleisten. Trotz dieser Erkenntnisse gibt es immer wieder Ans¨atze, komplett nat¨ urlichsprachliche und freie Dialoge auch im Automobil zu installieren. Ein solches System wurde z.B. bei [Weng et al. 2004] vorgestellt. Grunds¨atzlich gibt es entsprechende Ideen immer wieder. Dieser Ansatz ist ein wenig kontr¨ar zum oben formulierten Ansatz eingeschr¨ ankter Vokabularien. Solche gegens¨atzlichen Ans¨ atze gibt es vor allem im Prototypenstadium, wo es in der Regel nur auf die technische Machbarkeit ankommt, Fahrszenarien wurden beim zitierten System beispielsweise mit einem Computerspiel getestet (vgl. auch Abschnitt 4.4). Daneben spielen auch kulturelle Unterschiede eine große Rolle. Insbesondere in Japan sind zum Beispiel Systeme mit sehr ausf¨ uhrlichen Systemprompts sehr beliebt. Von daher kann die Aussage zu benutzerfreundlichen und effizienten Dialogen mit geschlossenen Systemprompts nur f¨ ur Europa wirklich fundiert belegt werden.
76
4 Benutzerfreundliche Sprachdialoge im Automobil
4.5.4 Pr¨ asentation von Ergebnislisten Sprache als fl¨ uchtiges Medium ist grunds¨ atzlich wenig dazu geeignet, Ergebnislisten von Anfragen aufzubereiten. Bereits [Miller 1956] hat in Studien herausgefunden, dass Menschen sich von einer Liste von Dingen im Schnitt sieben (plus/minus zwei) Dinge im Kurzzeitged¨ achtnis merken k¨onnen. Dies belegt die Fl¨ uchtigkeit der Sprache und das Problem, bei l¨angeren Listen einzelne Teile zu behalten. Das bedeutet, dass es beispielsweise bei einer sprachgesteuerten Restaurantsuche, wie mit dem bei [Weng et al. 2006] vorgestellten System m¨oglich, bei gr¨ oßeren St¨ adten schnell zu mehreren hundert Ergebnissen kommen kann. Diese kann man per Sprache und insbesondere im Automobil nicht erfassen, daher macht das Vorlesen hier keinen Sinn. F¨ ur diesen Fall hat eine Studie von [Pon-Barry et al. 2006] ergeben, bevorzugen Benutzer die konkrete Nennung von Einschr¨ ankungsm¨ oglichkeiten, um die Anzahl der Ergebnisse weiter zu reduzieren. Das bedeutet, f¨ ur die Benutzerfreundlichkeit sollten lange Listen von Eintr¨ agen oder Kommandos m¨ oglichst vermieden werden und stattdessen f¨ ur den Benutzer nachvollziehbar in entsprechende Unterkategorien sortiert und zugreifbar gemacht werden. 4.5.5 Sprachausgabe Wenn nicht ausschließlich eine direktive Dialogstrategie angewandt wird, gibt es sprachliche R¨ uckmeldungen des Systems. In einer Studie mit ¨alteren Fahrern (ab 55 Jahren) von [Jonsson et al. 2005] wurde dabei herausgefunden, dass die Stimme der Sprachausgabe einen Effekt auf die Geschwindigkeit und Unfallh¨ aufigkeit hat. So konnte nachgewiesen werden, dass eine h¨orbar junge Stimme die Fahrsicherheit und das subjektive Fahrgef¨ uhl deutlich verbessert. Dieser Test zeigt die Bedeutung der Qualit¨ at der Sprachausgabe sehr deutlich. Mit wachsendem Funktionsumfang der Sprachbediensysteme ist allerdings die reine Verwendung einer Studiostimme4 kaum noch m¨oglich. Schließlich sind in so vielen F¨ allen dynamische Antworten wichtig, wie zum Beispiel zur Best¨ atigung eines Ortsnamens, beim Vorlesen von Verkehrsmeldungen oder zur Aussprache eines Namens aus dem Adressbuch. Aus diesem Grund wird in zeitgem¨ aßen SBS nicht nur eine qualitativ hochwertige Stimme verwendet, sondern auch eine m¨ oglichst gute Sprachsynthese. Insbesondere bei der subjektiven Bewertung der Zufriedenheit mit einem Sprachsystem ist daher die Qualit¨ at der Sprachausgabe wichtig.
4
Die Sprachprompts werden offline in einem Studio aufgenommen und dann auf das Zielsystem portiert.
4.6 Zusammenfassung
77
4.6 Zusammenfassung In diesem Kapitel wurden benutzerfreundliche Sprachdialoge im Automobil behandelt. Dabei wurde zuerst der Begriff der Benutzerfreundlichkeit definiert und anschließend mit dem Vorbild des Lichtschalters ein sehr gutes Beispiel f¨ ur eine benutzerfreundliche Kommunikation zwischen Mensch und Technik vorgestellt. Noch ist die Technologie der Sprachbediensysteme allerdings nicht so weit entwickelt, dieses Idealziel zu erreichen. Um diesem Ziel aber m¨oglichst nah zu kommen, wurden die h¨ aufigsten Fehler bei der Benutzung von Sprachsystemen analysiert und deren Vermeidbarkeit diskutiert. Ferner wurden die wichtigsten Grunds¨ atze f¨ ur die Gestaltung einer Mensch-Maschine-Schnittstelle laut DIN EN ISO 9241-110 aufgef¨ uhrt. Basierend hierauf wurde dargestellt, wie Sprachdialoge evaluiert werden k¨ onnen und welche Maße dabei von Wichtigkeit sind. Es wurden die Begriffe Performanz- und Benutzerevaluation vorgestellt und deren jeweilige Ans¨atze diskutiert. Des Weiteren wurde auch die schwierige Vergleichbarkeit von Evaluationsergebnissen behandelt. Weiter wurde beschrieben, wie die Benutzerfreundlichkeit eines Dialogverfahrens evaluiert werden kann. Es wurde auch die Besonderheit der Integration in ein Automobil hervorgehoben. Anschließend wurden einige Ans¨ atze f¨ ur benutzerfreundliche Sprachdialoge vorgestellt. Dabei wurde auf die Problematik von freien nat¨ urlichsprachlichen Eingaben hingewiesen und die Chancen von adaptiven Systemen dargestellt. Außerdem wurden die optimale Dialogstrategie besprochen, die Fl¨ uchtigkeit von Sprache behandelt und die Wichtigkeit einer qualitativ guten Sprachausgabe illustriert. All diese Punkte werden sp¨ ater in diesem Werk wieder aufgegriffen, da sie eine Grundlage f¨ ur das Werkzeugsystem DiaGen bilden. Die in diesem Kapitel erw¨ ahnten Konzepte und Begriffe formen die oberste Ebene des bereits zu Beginn in Abschnitt 1.3 eingef¨ uhrten Schichtenmodells. Diese Ebene ist ebenso wichtig, wie die vorhergehende, um benutzerfreundliche Sprachdialoge zu entwickeln. Dabei spielt es keine Rolle, ob diese Entwicklung manuell oder teilautomatisiert geschieht. Bevor es allerdings im Detail mehr um das Entwicklungswerkzeug geht, wird im n¨ achsten Kapitel die technische Seite der Dialogbeschreibung n¨aher beschrieben. Dabei geht es darum, wie u ¨berhaupt ein Sprachdialog maschinenlesbar umgesetzt werden kann. Nach dem zitierten Schichtenmodell wird daher als n¨ achstes die unterste Ebene der softwaretechnischen Umsetzung illustriert.
5 Beschreibung von Sprachdialogen
Wie bereits in Abschnitt 2.4 erw¨ ahnt, wird der Ablauf eines Sprachdialogs in einem Dialogmodell festgehalten. Um aber Sprachdialoge mit einem Dialogsystem ablaufen zu lassen, muss dieses Dialogmodell in maschinenlesbarer ¨ Form vorliegen. Ublicherweise wird daher das Dialogmodell mittels einer Programmiersprache erstellt und dann von einem Interpreter oder Compiler interpretiert bzw. ausgef¨ uhrt. Urspr¨ unglich wurden f¨ ur Sprachdialoge normale, bereits vorhandene Sprachen verwendet, bevor auch hier eine Spezialisierung einsetzte und spezielle Dialogbeschreibungssprachen entwickelt wurden.1 In diesem Kapitel werden daher zuerst die wichtigsten allgemeinen Programmiersprachen, welche zur Programmierung von Sprachdialogen verwendet wurden, vorgestellt. Anschließend werden die sp¨ater entwickelten speziellen Dialogbeschreibungssprachen vorgestellt. Danach folgt eine Darstellung der wichtigsten Grammatikbeschreibungsformate, die zur Beschreibung von Grammatiken f¨ ur die Spracherkennung bei Sprachdialogsystemen verwendet werden.
5.1 Programmierung von Dialogen Die wesentliche allgemeine Programmiersprache, die zur Implementation von Sprachdialogen eingesetzt wurde, war PROLOG [Gazdar und Mellish 1989]. Das System Speedis, das basierend auf den Erkenntnissen aus dem EU gef¨ orderten Projekt SUNDIAL [Peckham 1993] aufgebaut wurde, arbeitet mit einem PROLOG-Dialekt f¨ ur die semantische Beschreibung des Dialogwissens [Heisterkamp und McGlashan 1996]. Da PROLOG als logische Programmiersprache aber sehr schwer zu erlernen 1
Grunds¨ atzlich wird - wie auch bereits einschr¨ ankend in Abschnitt 2.4.5 dargestellt - in diesem Werk von einer zustands- oder regelbasierten Modellierung von Sprachdialogen ausgegangen. F¨ ur planbasierte oder statistische Dialogmodelle m¨ ussen die hier get¨ atigten Angaben daher nicht gelten.
80
5 Beschreibung von Sprachdialogen
ist, erfordert seine Benutzung eine hohe Fachkenntniss. Daher wird die Sprache heute nur noch sehr selten f¨ ur die Beschreibung von Sprachdialogen verwendet. Zus¨ atzlich existieren verschiedene Ans¨ atze, Dialogabl¨aufe f¨ ur Experimente oder Prototypen auszuprogrammieren, so wurde beispielsweise bei der IBM f¨ ur diesen Zweck die Sprache Tcl mit einigen Erweiterungen verwendet [Papineni et al. 1999, Hamerich 2000]. Und auch f¨ ur die quelloffene Dialogumgebung von [Denecke 2002] werden mit C++ und JavaScript u ¨bliche Programmiersprachen verwendet. Als sehr verbreitete Programmiersprache wurde auch C sehr h¨aufig zur Programmierung von Sprachdialogen eingesetzt. F¨ ur eingebettete Umgebungen gilt dies bis heute, da C sehr geringe Anforderungen an seine Laufzeitumgebungen stellt. Grunds¨ atzlich kann jede beliebige Programmiersprache zur Erstellung eines Sprachdialogs verwendet werden, Voraussetzung ist lediglich eine Anbindung der ben¨ otigten Ein- und Ausgabekan¨ ale.
5.2 Dialogbeschreibungssprachen Ein Problem aller allgemeinen Programmiersprachen ist, dass diese f¨ ur die Beschreibung von Sprachdialogen besonderer Anpassungen bed¨ urfen. Die Ansteuerung der Schnittstellen von Spracherkennung und Sprachausgabe m¨ ussen daher von einem Anwender komplett selbst entwickelt werden, was als wenig komfortabel gilt [McTear 2004]. Da alle Elemente in diesem Fall auch hart“ ” kodiert werden m¨ ussen und nicht durch einen allgemeinen Ansatz beschrieben werden, sind Dialoge aus allgemeinen Programmiersprachen in der Regel auch nicht gut wartbar oder gar wiederverwendbar. Zu guter Letzt erfordert die Benutzung von allgemeinen Programmiersprachen eine gewisse Vorbildung, die sich nur in kleinsten Teilen f¨ ur die Entwicklung von Sprachdialogen nutzen l¨ asst. So ist es f¨ ur die Entwicklung von guten Sprachdialogen viel wichtiger, die Grundprinzipien des Dialogdesigns und die Ergonomie von Sprachdialogen zu verstehen (wie bereits in Abschnitt 2.10 dargestellt), als richtig mit Zeigern und Strukturen umgehen zu k¨ onnen. Aus diesen Gr¨ unden gab es bei vielen Firmen und Institutionen der Sprachverarbeitungsbranche Bestrebungen, f¨ ur die Beschreibung von Sprachdialogen einen allgemeinen Ansatz mittels einer eigenen Beschreibungssprache zu entwickeln. Diese neuen Dialogbeschreibungssprachen (engl. dialogue description languages (DDL)) bieten u.a. den Vorteil, dass Schnittstellen f¨ ur Ein- und Ausgabe bereits fest vorgesehen sind, die Programmierung kann damit auf einer h¨ oheren Ebene geschehen und der Entwickler bleibt von der low le” vel“ Programmierung verschont. Damit bieten DDLs einen Geschwindigkeitsvorteil bei der Implementation und ein Unterscheidungsmerkmal gegen¨ uber Konkurrenten. Außerdem erlauben sie auch einen flexibleren Personaleinsatz, da der Schulungsaufwand f¨ ur diese Sprachen durch den allgemeinen Ansatz
5.2 Dialogbeschreibungssprachen
81
gegen¨ uber den u ¨blichen Programmiersprachen sehr viel geringer ist. Insbesondere Markup-Sprachen (XML-Dialekte) haben sich dabei als sehr vorteilhaft herausgestellt, da sie besonders einfach und schnell zu erlernen sind. Im Folgenden wird zuerst GDML vorgestellt, eine Eigenentwicklung von Harman/Becker, die prim¨ ar f¨ ur den Einsatz der Dialogbeschreibung von automobilen Sprachsystemen entwickelt wurde. Diese Sprache wurde auch f¨ ur den im Rahmen des vorliegenden Werkes entwickelten Prototypen verwendet. Nachfolgend werden noch kurz weitere bedeutende Sprachen gew¨ urdigt, um die allgemeine Bedeutung von Dialogbeschreibungssprachen besser nachvollziehen zu k¨ onnen. 5.2.1 GDML GDML (Generic Dialog Modelling Language) ist die Dialogbeschreibungssprache von Harman/Becker Automotive Systems. Sie wurde bei der Temic Sprachverarbeitung entwickelt, welche 2002 von Harman/Becker u ¨bernommen wurde. Erste Konzepte von GDML wurden bei [Hennecke und Hanrieder 2000] vorgestellt. Der produktive Einsatz der Sprache wurde erstmals bei [Hamerich und Hanrieder 2004] beschrieben. Entwicklung Als Ende der Neunziger Jahre in der gesamten Sprachverarbeitungsbranche Bestrebungen f¨ ur Dialogbeschreibungssprachen einsetzten, wurden auch ¨ bei Daimler-Benz2 Uberlegungen in diese Richtung angestellt. In den beiden EU-gef¨ orderten Forschungsprojekten ACCeSS [Ehrlich et al. 1997] und IDAS [Lehtinen et al. 2000] wurden dabei erste Erfahrungen gesammelt. Basierend auf diesen verschiedenen Ans¨ atzen und Ideen definierten Andreas L¨ ow und Gerhard Hanrieder GDML. Der selbstentwickelte Dialogmanager GDM (Generic Dialog Manager) war urspr¨ unglich f¨ ur telefonische und automobile Dialogsysteme gedacht und beherrscht neben systemgetriebenen Dialogen auch bereits gemischt-initiative [Hanrieder 1998]. Wie bereits in Kapitel 3 angef¨ uhrt wurde, unterscheiden sich Sprachdialogsysteme im Automobil erheblich von telefonischen Systemen. Daher wird f¨ ur diese Systeme auch eine andere Dialogbeschreibung ben¨otigt. Als GDML definiert wurde, lag zwar bereits VoiceXML (vgl. Abschnitt 5.2.2) Version 0.9 vor, allerdings erwies es sich als ungeeignet, dessen Konzepte zu u ¨bernehmen. Daher wurde mit GDML eine komplett neue Dialogbeschreibungssprache erschaffen. Aber ebenso wie VoiceXML ist auch GDML ein XML-Dialekt. Wie bereits bekannt, besteht die prim¨ are Aufgabe von Dialogsystemen innerhalb eines Automobils aus der Steuerung von angeschlossenen Ger¨aten, welche 2
Die Wurzeln der Sprachverarbeitung in Ulm lagen bei der AEG-Telefunken, die von Daimler-Benz u aten wurden unter dem ¨bernommen wurde. Die Sprachaktivit¨ Dach von Daimler-Benz bei der Temic weitergef¨ uhrt und 2002 an Harman/Becker verkauft [Hamerich 2005].
82
5 Beschreibung von Sprachdialogen
keine dynamische Verbindung mit dem Internet ben¨otigen. Stattdessen ist es elementar, eine flexible und einfach zu nutzende Schnittstelle zwischen Dialog und angeschlossenen externen Ger¨ aten zu besitzen. Da Sprachdialogsysteme im Automobil immer als eingebettete Systeme ausgef¨ uhrt werden, war es f¨ ur GDML sehr wichtig, die verschiedenen Bus-Systeme der Automobilindustrie anzubinden und eine einfache Portierbarkeit auf die verschiedenen genutzten Echtzeit-Betriebssysteme3 zu gew¨ ahrleisten. Außerdem war es wichtig, dass GDML den bereits in Abschnitt 3.5 angesprochenen Hardwarebeschr¨ankungen gen¨ ugt. So wurde mit GDML schließlich eine Dialogbeschreibungssprache entwickelt, welche allen diesen Anspr¨ uchen gen¨ ugt und trotzdem flexible Dialogabl¨ aufe erm¨ oglicht. GDML war bereits 2001 so ausgereift, dass die Produktentwicklung bei der Temic begann. Konzepte Auf Grund der beschr¨ ankten Ressourcen in einem Automobil wurde GDML als kompilierte Sprache ausgef¨ uhrt. Aus dem gleichen Grund ist GDML im Gegensatz zu VoiceXML als getypte Sprache ausgef¨ uhrt. Um außerdem eine m¨ oglichst einfache Portierung eines Dialogs in andere nat¨ urliche Sprachen zu erlauben, werden Prompts im GDML-Dialog nur als Konzepte referenziert und die sprachliche Realisierung in einer separaten Datei verwaltet. Grammatiken m¨ ussen in GDML im JSGF-Format (vgl. Abschnitt 5.3.2) in einer eigenen Datei vorliegen. Der GDC (Generic Dialog Compiler) liest die GDML- und Prompt-Konzepte ein und erstellt daraus eine sprachunabh¨angige Bin¨ar-Datei f¨ ur den Dialog, sowie eine sprachabh¨ angige Datei f¨ ur die Sprachausgaben, welche beide sowohl auf dem PC als auch auf der Zielplattform ausgef¨ uhrt werden k¨ onnen. Grammatiken werden mit dem GDS (Grammar Development System) kompiliert. Der Spracherkenner ist bei Harman/Becker in das SSS (Speech Service System) zusammen mit dem Dialogmanager GDM und dem Prompter, der sowohl Audio-Dateien abspielen als auch vorgegebene Texte per TTS synthetisieren kann, integriert. W¨ ahrend der Entwicklung k¨onnen Dialoge mit dem DDS (Dialog Development Studio) getestet und debuggt werden. Die einzelnen Werkzeuge zur Entwicklung von GDML-Dialogen sind in schematischer Reihenfolge in Abbildung 5.1 wiedergegeben. Neben den beschriebenen Werkzeugen ist ein wichtiger Bestandteil dieses Pakets auch der Harman/Becker eigene Spracherkenner StarRec DSR. Dieser ist voll in die beschriebenen Werkzeuge integriert. Um eine bestm¨ogliche Erkennungsleistung bei beschr¨ ankten Ressourcen zu erlauben, wurden die akustischen Modelle im Erkenner mittels diskriminativen Trainings m¨oglichst kompakt trainiert [Willett 2004]. Zus¨ atzlich zu den selbstverst¨andlich sehr guten Erkennraten werden einem Dialogentwickler mit Konfidenz- und OOVMaßen (dazu mehr in Abschnitt 4.2) zahlreiche M¨oglichkeiten geboten, Be3
In der Automobilindustrie werden v.a. QNX und VxWorks eingesetzt.
5.2 Dialogbeschreibungssprachen
83
Abbildung 5.1. Werkzeuge zur Erstellung eines GDML-Dialogs
nutzeranfragen bestm¨ oglich zu verarbeiten. Die f¨ ur einige Anwendungen auch ben¨ otigten M¨ oglichkeiten der multilingualen Erkennung4 runden das Bild ab. Ein GDML-Dialog besteht aus mindestens zwei Dateien, der eigentlichen Dialogdatei und den Prompt-Konzepten. Es k¨ onnen jedoch beliebig mehr Dialogdateien sein. Da Produktdialoge sehr umfangreich sind, wird u ¨blicherweise f¨ ur jedes zu steuernde Ger¨ at eine eigene Datei angelegt. Funktionen werden ebenfalls gekapselt, so dass eine komplette Dialogbeschreibung u ¨blicherweise u ¨ber 50 GDML-Dateien umfasst. Wie bereits angesprochen, war es eine Anforderung an GDML, eine M¨ oglichkeit zur Steuerung von externen Ger¨ aten, wie z.B. Telefon oder Radio, zu bieten. Diese Schnittstelle wurde in GDML als eigenes Konzept ausgef¨ uhrt und Systemcall genannt. Diese Systemcalls passen sich komplett an die Syntax von GDML an, k¨ onnen Argumente aufnehmen und R¨ uckgabewerte liefern. Externe Ger¨ ate, welche mit dem Dialog u ¨ber Systemcalls verbunden werden sollen, ben¨ otigen ein Systemcall-Interface, welches den Call parst, bearbeitet und beantwortet. Die Ansteuerung des Spracherkenners erfolgt u ¨ber ein Interface, welches dem der Systemcalls sehr ¨ ahnlich ist. Damit wird dem Dialogdesigner eine sehr große Freiheit gegeben, weil beim Aufruf des Erkenners nicht nur die jeweilige Grammatik mit ihren Regeln aktiviert werden kann, sondern auch sehr genaue Einstellungen der verschiedenen timeout- und Konfidenzwerte vorgenommen werden k¨ onnen. Bedingt durch die Vielf¨ altigkeit der m¨ oglichen Konzepte ist GDML damit als sehr explizite Sprache ausgef¨ uhrt. Dies gilt vor allem, wenn Dialoge 4
Dabei kommt es vor allem darauf an, Eingaben von Nicht-Muttersprachlern gut erkennen zu k¨ onnen. Details dazu k¨ onnen bei [van Compernolle 2000, Gruhn et al. 2004] gefunden werden.
84
5 Beschreibung von Sprachdialogen
zustandsbasiert modelliert werden. Weiterhin erm¨oglicht GDML auch eine regelbasierte Dialogmodellierung, dies wird allerdings bisher nicht in Kundenprojekten eingesetzt, da es von den Kunden explizit nicht erw¨ unscht ist. Ein Dialog in GDML besteht in der Regel aus mehreren Teildialogen, die in GDML mit Abbildung 5.3. Demo-Dialog in GDML
In Abbildung 5.3 ist ein GDML-Beispieldialog zu sehen. Klar zu erkennen sind die beiden Dialogzust¨ ande, in GDML auch als <step> bezeichnet. Die expliziten Zustands¨ uberg¨ ange werden grunds¨ atzlich durch das Element definiert. Wie bereits gesagt, m¨ ussen Variablen in GDML deklariert und einem Typen zugewiesen werden. Es gibt in GDML dabei neben den u ¨blichen Standardtypen einer Programmierspache zwei besondere Typen:
86
5 Beschreibung von Sprachdialogen
•
recres list ist ein Typ, welcher die n-besten geparsten Erkennergebnisse aufnimmt • enum ist ein Aufz¨ ahlungstyp Aussichten GDML wird bei Harman/Becker bereits seit 2001 f¨ ur die Entwicklung von Kundenprojekten verwendet. Im Jahre 2003 kamen mit den Sprachdialogsystemen im Audi A8 (D3) und in der Mercedes-Benz E-Klasse (W211) die ersten Produkte basierend auf dieser Technologie auf den Markt. Seitdem wird GDML f¨ ur die Entwicklung s¨ amtlicher Dialogsysteme verwendet. Da die Sprache und s¨ amtliche zu ihrer Verarbeitung notwendigen Werkzeuge komplett selbst entwickelt wurden, k¨ onnen eventuell notwendige Erweiterungen der Sprache ohne große Absprachen mit externen Partnern vorgenommen werden. Dies wird vor allem dann der Fall sein, wenn neue Anwendungsf¨ alle entstehen oder die Ansteuerung des Spracherkenners ge¨andert wird. Eine - auch langfristige - Abl¨ osung von GDML durch andere Sprachen oder Konzepte ist aktuell nicht geplant, da keine andere Sprache den Erfordernissen des Marktes und der Kunden soweit entspricht wie GDML. Selbst multimodale Erweiterungen k¨onnen mit dem Konzept der Systemcalls umgesetzt werden, ¨ ohne große grundlegende Anderungen an der Sprache durchzuf¨ uhren. GDML gilt damit als absolut zukunftssicher, wenn auch kleinere Erweiterungen nicht ausgeschlossen werden k¨ onnen. 5.2.2 Weitere Sprachen Neben GDML existiert eine Vielzahl weiterer Dialogbeschreibungssprachen, von denen im Folgenden die wichtigsten kurz dargestellt werden. VoiceXML VoiceXML steht f¨ ur Voice Extensible Markup Language. Es ist eine DDL, welche f¨ ur die einfache Umsetzung von Sprachdialogen im Telefoniebereich geschaffen wurde. Entwicklung Die Sprache geht zur¨ uck auf gemeinsame Bestrebungen der Firmen AT&T, IBM, Lucent und Motorola, die sich 1999 im VoiceXML-Forum zusammentaten, um eine standardisierte DDL zu entwickeln. Alle Partner hatten vorher bereits eigene DDLs spezifiziert, erkannten jedoch die Notwendigkeit eines Standards, um der Sprachtechnologie zu einem Durchbruch zu verhelfen. Daher wurde noch 1999 VoiceXML Version 0.9 ver¨offentlicht. [Sharma und Kunins 2002]
5.2 Dialogbeschreibungssprachen
87
Im Interesse einer komplett u ¨bergreifenden und herstellerunabh¨angigen Standardisierung wurden die Rechte an VoiceXML im Jahre 2000 vom VoiceXML-Forum an das World Wide Web Consortium (W3C) u ¨bertragen.5 [Maracke 2003] Die derzeit neueste Version von VoiceXML ist Version 2.1 [Oshry et al. 2007], welche eine minimale Weiterentwicklung von Version 2.0 [McGlashan et al. 2004] darstellt. Es wird auch an einer Version 3.0 gearbeitet, die bislang allerdings nicht ver¨ offentlicht wurde. Konzepte Da HTML die Definition von VoiceXML maßgeblich mit beeinflusst hat, wurde VoiceXML ebenfalls als Interpretersprache angelegt. Dabei besitzt VoiceXML, ebenso wie HTML, keine eigenen Konstrollstrukturen, stattdessen wird ECMA-Script6 verwendet. Variablen in VoiceXML sind grunds¨atzlich ungetypt. Ferner wird als Schnittstelle nach außen immer das HTTP verwendet. Zur Anbindung externer Informationsquellen, wie z.B. Datenbanken werden CGI-Skripte benutzt. Grammatiken k¨ onnen in VoiceXML vielf¨ altig in ein Dialogskript eingebunden werden. Sie d¨ urfen in JSGF (vgl. Abschnitt 5.3.2) und SRGS (siehe Abschnitt 5.3.4) vorliegen, sowie alternativ auch in einfacher BNF (vgl. Abschnitt 5.3.1) im VoiceXML-Skript selbst enthalten sein. Desweiteren bieten alle VoiceXML-Plattformen auch fest eingebaute vordefinierte Grammatiken. Ein VoiceXML-Skript wird vom VoiceXML-Interpreter (VXI) interpretiert und ausgef¨ uhrt. Die gr¨ oßte konzeptionelle Einheit in einem solchen Skript ist ein Formular, das in VoiceXML als