Quality Engineering
Sebastian Möller
Quality Engineering Qualität kommunikationstechnischer Systeme
1C
Prof. Dr.-Ing. Sebastian Möller Quality and Usability Lab Deutsche Telekom Laboratories TU Berlin Ernst-Reuter-Platz 7 10587 Berlin Deutschland
[email protected]
ISBN 978-3-642-11547-9 e-ISBN 978-3-642-11548-6 DOI 10.1007/978-3-642-11548-6 Springer Heidelberg Dordrecht London New York Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Springer-Verlag Berlin Heidelberg 2010 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandentwurf: WMXDesign GmbH, Heidelberg Gedruckt auf säurefreiem Papier Springer ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.com)
Vorwort
Der Begriff der Qualit¨at und der Gebrauchstauglichkeit (engl. Usability) hat eine herausragende Bedeutung in der Informations- und Kommunikationstechnik sowie der Informatik erlangt. In allen Phasen der Planung, Konzeption, Implementierung und Optimierung technischer Systeme und Dienste m¨ussen Qualit¨atsaspekte ber¨ucksichtigt werden, damit ihre Benutzer eine optimale Qualit¨at und Gebrauchstauglichkeit erfahren k¨onnen. Im vorliegenden Buch soll die Qualit¨at und Gebrauchstauglichkeit kommunikationstechnischer Systeme grundlegend behandelt werden. Dazu werden zun¨achst die notwendigen Begriffe eingef¨uhrt, und es werden Grundlagen der Psychophysik (d.h. des Zusammenhangs zwischen physikalischen Gr¨oßen und menschlichen Wahrnehmungen) und der Psychometrie (d.h. der Messung von Wahrnehmungsgr¨oßen) geschaffen. Darauf aufbauend wird der Kreislauf einer am Menschen orientierten Systementwicklung, das sog. Usability Engineering, vorgestellt. Die Messung und Vorhersage von Qualit¨at und Gebrauchstauglichkeit werden dann anhand praktischer Beispiele kommunikationstechnischer Systeme veranschaulicht. Hierbei werden insbesondere Systeme zur Informations¨ubertragung (Telefonie, Internetbasierte Sprach- und Video¨ubertragung), Sprachdialogsysteme sowie multimodale Dialogsysteme behandelt. Abschließend werden Modelle zur Sch¨atzung von Qualit¨at und Gebrauchstauglichkeit in der Entwicklungsphase solcher Systeme vorgestellt. Es schließt sich somit der Kreis der konsequent auf eine optimale Qualit¨at abzielenden Systementwicklung, des sog. Quality Engineering. Das Buch richtet sich vorrangig an Leser mit einem technischen Hintergrund, beispielsweise in der Informatik, der Informationstechnik oder der Elektrotechnik. Dar¨uber hinaus sind aber gleichermaßen auch Leser aus den Sprach- und Kommunikationswissenschaften, der Akustik, der Soziologie, dem Bereich Human Factors sowie aus anderen Wissensgebieten angesprochen. Es setzt keine besonderen Vorkenntnisse voraus. Berlin, im Dezember 2009
Sebastian M¨oller
v
Danksagung
Das vorliegende Buch basiert auf einer Vorlesung, die ich seit drei Jahren an der TU Berlin halte. Weite Teile des Inhalts verdanke ich jedoch meinen Kollegen und wissenschaftlichen Mentoren, Herrn em. Prof. Dr.-Ing. Dr. techn. h.c. Jens Blauert vom Institut f¨ur Kommunikationsakustik der Ruhr-Universit¨at Bochum und Frau Prof. Dr. phil. Ute Jekosch vom Institut f¨ur Akustik und Sprachkommunikation der TU Dresden. Auf dem Gebiet der Qualit¨atsbeurteilung und -vorhersage arbeite ich seit u¨ ber 10 Jahren sehr intensiv mit Herrn Prof. Dr.-Ing. Alexander Raake zusammen, mit dem ich viele der hier vorgestellten Konzepte intensiv diskutiert und ausgearbeitet habe. Diesen Kollegen bin ich zu großem Dank verpflichtet! Von den vielen weiteren Kollegen meiner wissenschaftlichen Heimat, dem Quality and Usability Lab der Deutschen Telekom Laboratories, TU Berlin, die die Arbeit am Buch inhaltlich unterst¨utzt haben, m¨ochte ich insbesondere folgenden ganz herzlich danken: Marcel W¨altermann, Nicolas Cˆot´e und Dr. rer. nat. Anja Naumann f¨ur die Beitr¨age zur Qualit¨atsmessung und -vorhersage von Sprach- und Audio¨ubertragungssystemen, Benjamin Belmudez und Marie-Neige Garcia f¨ur die Unterst¨utzung beim Kapitel u¨ ber Video¨ubertragungssysteme, und Klaus-Peter-Engelbrecht, Christine K¨uhnel, Dr. phil. Robert Schleicher, Ina Wechsung und Dr. phil. Benjamin Weiss f¨ur die Beitr¨age zur Psychophysik sowie zur Evaluierung sprachbasierter und multimodaler Dialogsysteme. Marc Hanisch unterst¨utzte mich ganz hervorra¨ gend bei der Uberarbeitung der Abbildungen sowie bei vielen weiteren Arbeiten des Schriftsatzes und des Literaturverzeichnisses. Euch allen gilt mein ganz besonderer Dank! Dr. Christoph Baumann vom Springer-Verlag danke ich f¨ur die positive Begutachtung des Manuskriptes und die freundliche Unterst¨utzung bei der Produktion des Buches. Die Reproduktion der Abbildungen 1.5 und 9.18 erfolgt mit freundlicher Genehmigung der VDI Verlag GmbH, D¨usseldorf, und Dr. Guido Beier; Abbildungen 2.5, 4.4–4.6, 4.9 und 4.12 mit freundlicher Genehmigung der Elsevier Inc. und Prof. Dr. Jakob Nielsen; Abb. 1.8 mit freundlicher Genehmigung der Elsevier Inc.; Abb. 4.10 mit freundlicher Genehmigung von Prof. Dr. Jakob Nielsen; Abbildungen 1.4, 2.4 und 8.1 mit freundlicher Genehmigung von Wiley-Blackwell, Oxford; Abbildungen
vii
viii
Danksagung
2.2 und 2.3 mit freundlicher Genehmigung von The MIT Press, Cambridge MA; Abbildungen 6.5 und 6.10 mit freundlicher Genehmigung von Wikimedia Deutschland – Gesellschaft zur F¨orderung Freien Wissens e.V., Berlin; Abbildungen 1.2–1.3, 1.6–1.7, 3.3, 5.2–5.3, 5.5–5.6 und 7.4 mit freundlicher Genehmigung der Springer Science+Business Media Inc., Heidelberg; Abb. 3.5 mit freundlicher Genehmigung von Prof. em. Dr. Gummar Borg, Stockholm; Abb. 2.7 mit freundlicher Genehmigung der Sinus Sociovision GmbH, Heidelberg; Abb. 9.11 mit freundlicher Genehmigung des DIN Deutsches Institut f¨ur Normung e.V. und der Beuth Verlag GmbH, Berlin; Abb. 9.10 mit freundlicher Genehmigung von em. Prof. Dr.-Ing. Dr. techn. h.c. Jens Blauert, Bochum; Abb. 9.13 mit freundlicher Genehmigung von Dr. Marcus Barkowsky, Nantes; und Abbildungen 3.1, 5.1, 5.7–5.8, 6.1–6.2, 6.7–6.9, 6.11–6.22, 7.3 und 9.16 mit freundlicher Genehmigung der International Telecommunication Union, Genf. Berlin, im Dezember 2009
Sebastian M¨oller
Inhaltsverzeichnis
1
Motivation und Zielsetzung, Qualit¨at und Gebrauchstauglichkeit . . . . 1 1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3 Wahrnehmungs- und Beurteilungsprozesse . . . . . . . . . . . . . . . . . . . . . 9 1.4 Taxonomie von Qualit¨atsaspekten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2
Grundlagen der Psychophysik und Psychometrie . . . . . . . . . . . . . . . . . . 2.1 Eigenschaften von Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Psychophysikalische Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Messung von Qualit¨at und Usability . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Nutzertypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Psychometrische Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Versuchsplanung und Versuchsdesign . . . . . . . . . . . . . . . . . . . . . . . . . . Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19 20 23 25 28 32 35 39
3
Skalierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Skalentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Ratio-Skalierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Kategorie-Skalierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Kategorie-Ratio-Skalierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Multidimensionale Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 3.5.1 Ahnlichkeitsbewertung und multidimensionale Skalierung . . 3.5.2 Semantisches Differential und Hauptkomponentenanalyse . . 3.5.3 Pr¨aferenz-Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Auswertung skalierter Messergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41 41 42 43 46 48 48 50 50 51 55
4
Usability Engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.1 Usability Engineering Lifecycle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.2 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
ix
x
Inhaltsverzeichnis
4.3 Design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Prototyping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Experten-Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 Empirisches Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7 Iteratives Design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8 Feedback aus den Feld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62 64 65 68 71 72 73 74
5
¨ Qualit¨at von Sprach- und Audio-Ubertragungssystemen ............ ¨ 5.1 Qualit¨atselemente von Sprach-Ubertragungssystemen ............ ¨ 5.2 Qualit¨atsmerkmale von Sprach-Ubertragungssystemen ........... 5.3 Grunds¨atzliches zur Messung der Sprachqualit¨at . . . . . . . . . . . . . . . . 5.4 Verst¨andlichkeitstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Messung der Sprachqualit¨at im H¨orversuch . . . . . . . . . . . . . . . . . . . . . 5.6 Messung der Audioqualit¨at im H¨orversuch . . . . . . . . . . . . . . . . . . . . . 5.7 Multidimensionale Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.8 Konversationsversuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9 Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75 76 80 83 84 86 87 88 89 90 94
6
¨ Qualit¨at von Video-Ubertragungssystemen . . . . . . . . . . . . . . . . . . . . . . . . 97 ¨ 6.1 Qualit¨atselemente von Video-Ubertragungssystemen . . . . . . . . . . . . . 99 ¨ 6.2 Qualit¨atsmerkmale von Video-Ubertragungssystemen . . . . . . . . . . . . 104 6.3 Grunds¨atzliches zur Messung der Videoqualit¨at . . . . . . . . . . . . . . . . . 106 6.4 Bewertung visueller Sequenzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 6.5 Bewertung audiovisueller Sequenzen . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.6 Konversationsversuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.7 Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
7
Qualit¨at von Sprachdialogsystemen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.1 Qualit¨atselemente von Sprachdialogsystemen . . . . . . . . . . . . . . . . . . . 124 7.2 Qualit¨atsmerkmale von Sprachdialogsystemen . . . . . . . . . . . . . . . . . . 127 ¨ 7.3 Ubersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 7.4 Leistung der Systemkomponenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 7.4.1 Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 7.4.2 Sprachverstehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 7.4.3 Dialogmanagement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 7.4.4 Sprachausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 7.5 Qualit¨atsmessung von Gesamtsystemen . . . . . . . . . . . . . . . . . . . . . . . . 137 7.5.1 Annotation von Interaktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 138 7.5.2 Messung von Interaktionsparametern . . . . . . . . . . . . . . . . . . . . 139 7.5.3 Qualit¨atsmessung mittels Frageb¨ogen . . . . . . . . . . . . . . . . . . . 148 7.5.4 Wizard-of-Oz-Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Inhaltsverzeichnis
xi
7.6 Standards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 8
Qualit¨at multimodaler Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 8.1 Qualit¨atselemente multimodaler Dialogsysteme . . . . . . . . . . . . . . . . . 156 8.2 Bestimmung der Leistung multimodaler Systemkomponenten . . . . . 158 8.3 Qualit¨atsmessung bei multimodalen Dialogsystemen . . . . . . . . . . . . . 160 8.4 Messung weiterer Qualit¨atsaspekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
9
Qualit¨atsvorhersage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 9.1 Modelle zur Vorhersage von Sprach¨ubertragungsqualit¨at . . . . . . . . . . 170 9.1.1 Modelltypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 9.1.2 Signalbasierte Vergleichsmaße . . . . . . . . . . . . . . . . . . . . . . . . . 171 9.1.3 Parametrische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 9.1.4 Betriebsmessung von Qualit¨at . . . . . . . . . . . . . . . . . . . . . . . . . . 177 9.1.5 Vorhersage der Sprachverst¨andlichkeit . . . . . . . . . . . . . . . . . . 178 9.2 Modelle zur Vorhersage von Video¨ubertragungsqualit¨at . . . . . . . . . . . 181 9.2.1 Signalbasierte Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 9.2.2 Parametrische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 9.3 Modelle zur Vorhersage von Interaktionsqualit¨at . . . . . . . . . . . . . . . . . 187 9.3.1 Regressionsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 9.3.2 Simulation von Benutzerverhalten . . . . . . . . . . . . . . . . . . . . . . 189 9.4 Zusammenfassung und Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Kapitel 1
Motivation und Zielsetzung, Qualit¨at und Gebrauchstauglichkeit
1.1 Motivation Die Mehrzahl der Systeme und Dienste, die die Informatik, die Elektro- und die Informationstechnik bereitstellen, richten sich letztendlich an einen menschlichen Nutzer. F¨ur den Erfolg solcher Systeme und Dienste ist es daher unerl¨asslich, sich mit dem Benutzer und seinem Verhalten bei der Interaktion mit dem System oder Dienst zu befassen. Daraus k¨onnen Gestaltungsprinzipien f¨ur Mensch-MaschineSchnittstellen abgeleitet und Anforderungen an die dem System zugrunde liegenden Technologien definiert werden. Umgekehrt ergeben sich aus den zur Verf¨ugung stehenden Technologien aber auch neue M¨oglichkeiten der Schnittstellen-Gestaltung, und daraus neuartige Interaktionsformen. Ein zentraler Begriff f¨ur die menschengerechte Gestaltung ist derjenige der Qualit¨at, d.h. die Frage, f¨ur wie gut oder schlecht der Mensch die ihm angebotene Technologie erachtet. Wir werden noch sehen, dass Qualit¨at ein recht komplexes Konstrukt ist, welches einen Wahrnehmungs- und einen Beurteilungsprozess voraussetzt. Das bez¨uglich der Qualit¨at zu bewertende Konstrukt muss also zun¨achst wahrgenommen werden. Dabei k¨onnen wir aus erkenntnistheoretischen Betrachtungen postulieren, dass nur die wahrgenommene Realit¨at die wahre“ Realit¨at ist; die ” physikalische Welt – und noch mehr die mathematisch beschriebene – ist dann stets nur ein Modell der wahren“ Welt, welche sich in unserer Wahrnehmung abspielt. ” Zur Bestimmung von Qualit¨at m¨ussen wir uns also mit der Wahrnehmung und ihrem Zusammenhang mit der physikalischen Welt befassen. Diesem Zusammenhang widmet sich der Wissenschaftsbereich der Psychophysik, dessen Grundlagen in Kapitel 2 gelegt werden. Das Wahrgenommene wird nun in Bezug auf die Anforderungen und Erwartungen beurteilt. Die Beurteilung findet meist anonym statt, d.h. innerhalb des Menschen. Um Aufschluss u¨ ber den Beurteilungsprozess und das Ergebnis zu bekommen, muss daher versucht werden, diesen Prozess seiner Anonymit¨at zu berauben; dies geschieht u.a. durch die Befragung von Probanden vor, w¨ahrend oder nach der Konfrontation mit dem zu beurteilenden System oder Dienst. Solche psycho-
1
2
1 Motivation und Zielsetzung, Qualit¨at und Gebrauchstauglichkeit
metrischen Messungen lassen optimalerweise quantitative Aussagen u¨ ber den Zusammenhang zwischen physikalischen Gr¨oßen, Wahrnehmungsgr¨oßen und Beurteilungsgr¨oßen zu. Dazu bedient man sich des Mittels der Skalierung, d.h. der Zuordnung von (physikalischen oder perzeptiven) Gr¨oßen zu Zahlen nach vorher definierten Regeln. Methoden der Skalierung werden in Kapitel 3 beleuchtet. Bei interaktiven Systemen interssiert man sich – als Teil der Qualit¨at – h¨aufig f¨ur den Aspekt der Usability, d.h. der Gebrauchstauglichkeit. Sie ist nach ISO Standard 9241 Teil 11 (1999) definiert als das Ausmaß, in dem ein Produkt durch bestimmte ” Benutzer in einem bestimmten Nutzungskontext genutzt werden kann, um bestimmte Ziele effektiv, effizient und zufriedenstellend zu erreichen“. Sowohl Qualit¨at als auch Gebrauchstauglichkeit m¨ussen bereits bei der Konzeption von Systemen und Diensten und bei der Gestaltung von Interaktionen mit diesen Systemen und Diensten ber¨ucksichtigt werden. Daraus folgt, dass sich zuk¨unftige Gestalter von informations- und kommunikationstechnischen Systemen – insbesondere aus den Gebieten der Elektrotechnik, der Technischen Informatik und der Informatik – mit Qualit¨at und Gebrauchstauglichkeit auf mindestens drei Ebenen befassen m¨ussen: • Der Ebene der Prinzipien des menschlichen Verhaltens und der menschlichen Wahrnehmung, die die Interaktion bestimmen werden; • der Ebene der Gestaltung der Schnittstelle zwischen Benutzer und System; und • der Ebene der Basistechnologien, die einer Interaktion zugrunde liegen.
Nutzer
Abb. 1.1 Betrachtungsebenen von Qualit¨at und Gebrauchstauglichkeit
InterfaceDesign Technologie
Auf allen Ebenen k¨onnen jeweils unterschiedliche Medien bzw. Modalit¨aten und Kombinationen derselben betrachtet werden; f¨ur die Anwendung relevant sind hier vor allem die akustische, die visuelle und die taktile Interaktion. Wir betrachten dabei vorwiegend zwei Interaktionsszenarien: 1. Die zwischenmenschliche Interaktion u¨ ber ein technisches System (Sprach¨ und Multimedia-Dienste u¨ ber leitungsgebundene oder drahtlose Netze, Uberset¨ zungssysteme, etc.), wobei wir dabei explizit den Ubertragungskanal und seinen Einfluss auf Qualit¨at und Gebrauchstauglichkeit betrachten wollen; sowie 2. Die Interaktion zwischen Mensch und Maschine, z.B. bei sprachbasierten Schnittstellen, Web-Interfaces, Interaktionen mit Avataren und in virtuellen Umgebungen. Beispiele f¨ur beide Szenarien sowie dabei wichtige Einflussfaktoren sind in Abb. 1.2 und 1.3 skizziert. Wir werden vorwiegend folgende Einflussfaktoren auf Qualit¨at und Gebrauchstauglichkeit betrachten:
1.1 Motivation
3
Abschwächung / lineare Verzerrung
PSTN / ISDN Mobilfunknetz IP-basiertes Netz
Akustische Kopplung Hintergrundgeräusch
Akustische Kopplung Reflexionen Hintergrundgeräusch
Coder/Decoder Unkorr. Rauschen
Sprecher-Echo Hörer-Echo
Verzögerung
Sprecher-Echo
Übertragungsfehler Rahmen- / Paketverluste Sprach-Pausen-Detektion
Abb. 1.2 Zwischenmenschliche Kommunikation u¨ ber einen Telefonkanal (M¨oller, 2005b)
Abschwächung / lineare Verzerrung Sprachverstehen Dialogmanagement
Spracherkennung
Sprachdialogsystem
Antwortgenerierung
Sprachsynthese
PSTN / ISDN Mobilfunknetz IP-basiertes Netz
Akustische Kopplung Reflexionen Hintergrundgeräusch
Coder/Decoder Unkorr. Rauschen Verzögerung
Sprecher-Echo Hörer-Echo
Übertragungsfehler Rahmen- / Paketverluste Sprach-Pausen-Detektion
Abb. 1.3 Mensch-Maschine-Interaktion u¨ ber einen Telefonkanal (M¨oller, 2005b)
• • • •
Das Verhalten des menschlichen Kommunikationspartners Das Verhalten des maschinellen Interaktionspartners ¨ Die Eigenschaften des Ubertragungskanals Die Kommunikationssituation, Zweck der Kommunikation, Motivation, Erfahrung, etc.
Zur optimalen Gestaltung der genannten Systeme muss deren Qualit¨at und Gebrauchstauglichkeit konsequent messtechnisch erfasst und analysiert werden. Usability wird daher als das Ergebnis einer Mess- und Vorhersageaufgabe verstanden, bei der die Eigenschaften des Systems mit den Anforderungen des Benutzers in Beziehung gesetzt werden. Hierzu m¨ussen zum einen die Leistungen des Systems und seiner Bestandteile quantitativ erfasst werden. Zum anderen m¨ussen aber auch die
4
1 Motivation und Zielsetzung, Qualit¨at und Gebrauchstauglichkeit
Wahrnehmungen und Anforderungen des Benutzers im Zusammenspiel mit dem System quantifiziert werden. Letzteres l¨asst sich z.B. durch auditive oder visuelle Experimente mit menschlichen Versuchspersonen bewerkstelligen, bei denen die Eigenschaften der betrachteten Systeme kontrolliert eingestellt und die Urteile sowie das Verhalten des Benutzers erfasst werden. Entsprechende Methoden werden im Bereich der interaktiven Systeme h¨aufig mit dem Begriff Usability Engineering u¨ berschrieben, wobei man allgemeiner eher vom Quality Engineering spre¨ chen m¨usste; hierzu wird ein Uberblick in Kapitel 4 gegeben. Diese Methoden lassen sich dann auf unterschiedliche Systeme und Dienste anwenden. Hierbei betrachten wir vor allem solche ¨ • zur Ubertragung von Sprach-, Audio- und Videosignalen (Telefonie, Sprachu¨ bertragung u¨ ber das Internet-Protokoll (Voice-over-IP), Rundfunk, IP-basiertes Fernsehen, Telekonferenzen, etc.), • zur multimodalen Mensch-Maschine-Interaktion (Sprachdialogsysteme, Webbasierte Dienste, multimodale Dialogsysteme, etc.), • sowie im erweiterten Sinne zur multimodalen Interaktion zwischen Mensch, Maschine und Umwelt (Virtual Environments, Augmented Environments, kontextsensitive Systeme, etc.). Verfahren zur Messung der Qualit¨at von Sprach- und Audio¨ubertragungssystemen werden in Kapitel 5 vorgestellt, solche f¨ur Video¨ubertragungssysteme in Kapitel 6. Kapitel 7 und 8 widmen sich dann der Qualit¨atsmessung von interaktiven Sprachdialogsystemen bzw. von multimodalen Dialogsystemen. Die Systemeigenschaften lassen sich mit den Wahrnehmungen von Benutzern korrelieren, und es lassen sich Gestaltungsprinzipien f¨ur die Systeme ableiten. Im Idealfall kann die Qualit¨at und Gebrauchstauglichkeit eines Systems schon w¨ahrend der Planung und Entwicklung vorhergesagt werden. Die hierzu notwendigen Modelle m¨ussen Qualit¨at valide und zuverl¨assig so quantifizieren k¨onnen, wie es dem Urteil eines menschlichen Benutzers des Systems (als direktem Qualit¨atsmesswert) entspricht. Durch Kombination von Messung und Vorhersage von Qualit¨at und Ge¨ brauchstauglichkeit lassen sich Systeme und Ubertragungsnetze gezielt und o¨ konomisch an die Anforderungen der Benutzer anpassen, und somit die Akzeptanz und der Erfolg technischer Systeme betr¨achtlich steigern. Im Bereich der durch Technik vermittelten zwischenmenschlichen Kommunikation wurden in den vergangenen Jahren sowohl bei der Qualit¨atsbeurteilung als auch deren instrumenteller Vorhersage deutliche Fortschritte erzielt. Insbesondere wurden neue Modelle zur Qualit¨atsvorhersage von Sprach- und Audiosignal¨ubertragung entwickelt, vgl. M¨oller (2000) und Raake (2006). Demgegen¨uber sind Me¨ thoden zur Qualit¨atsmessung und -vorhersage visueller und audiovisueller Ubertragung (z.B. f¨ur IP-basiertes Fernsehen oder Videokonferenzen) noch recht begrenzt. Dies gilt umso mehr im Bereich der multimodalen Mensch-Maschine-Interaktion: Zwar wurden bereits erste Qualit¨atssch¨atzverfahren f¨ur sprachbasierte Systeme entwickelt, aber deren Validit¨at und Zuverl¨assigkeit ist bislang zu stark eingeschr¨ankt. Deshalb wird in Kapitel 9 zun¨achst der Fokus auf Modelle zur Vorhersage von ¨ Ubertragungsqualit¨ at gelegt, und es werden dar¨uber hinaus verschiedene Modell-
1.2 Definitionen
5
typen f¨ur Videoqualit¨at vorgestellt. Im Bereich der Interaktion mit Dialogdiensten werden vor allem einfache Regressionsmodelle sowie Verfahren zur Simulation von Benutzerverhalten diskutiert; validierte Modelle zur Vorhersage von Qualit¨at sind in diesem Bereich noch nicht verf¨ugbar. F¨ur Anwender aus den Bereichen der Elektrotechnik, der Informatik und der Informationstechnik bieten das Thema und die beschriebene Herangehensweise den Vorteil, dass sie die Auswirkungen der von ihnen entwickelten Systeme auf den Benutzer absch¨atzen k¨onnen. Es wird gezeigt, wie • Messmethoden f¨ur die Qualit¨at und Gebrauchstauglichkeit informations- und kommunikationstechnischer Systeme entwickelt werden, • diese mit Systemeigenschaften in Zusammenhang gebracht werden, • daraus Anforderungen an die Systemgestaltung abgeleitet werden, • Qualit¨at und Gebrauchstauglichkeit auf Basis von Systemeigenschaften vorhergesagt werden, und • die beschriebenen Verfahren im Usability-Kreislauf von Spezifikation, Planung, ¨ Design, Implementierung, Optimierung und Uberwachung eingesetzt werden.
1.2 Definitionen Fr¨uhere Definitionen betrachteten Qualit¨at als Gesamtheit aller Charakteristika einer Einheit bez¨uglich ihrer Eignung, festgelegte und vorausgesetzte Bed¨urfnisse zu erf¨ullen, vgl. DIN 55350 Teil 11 (1987). Heute geht man hingegen von einem Mensch-bezogenen Qualit¨atsmodell aus (Blauert und Jekosch, 2007). Qualit¨at wird dabei wie folgt definiert: Ergebnis eines Wahrnehmungs- und eines Beurteilungsprozesses, bei dem der/die Beurteilende die wahrgenommenen Merkmale einer Einheit vergleicht mit individuellen Erwartungen, sachgerechten Erfordernissen oder gesellschaftlichen Forderungen. (Definition a¨ hnlich Jekosch (2000), Jekosch (2005) und ITU-T Rec. P.851 (2003)) Dabei verstehen wir unter der wahrgenommenen Beschaffenheit nach Jekosch (2000) die Gesamtheit der Merkmale einer Einheit. F¨ur den Wahrnehmenden Kennung ” f¨ur die Identit¨at der Einheit.“ ¨ und unter der erwunschten Beschaffenheit (Jekosch, 2000):
6
1 Motivation und Zielsetzung, Qualit¨at und Gebrauchstauglichkeit
Gesamtheit der Merkmale von individuellen Erwartungen und/oder sachge” rechten Erfordernissen und/oder gesellschaftlichen Forderungen.“ Hierbei sind Merkmale (Jekosch, 2000): Erkannte und benennbare Eigenschaft einer Einheit.“ ” und Einheiten (DIN 55350 Teil 11, 1987): Materieller oder immaterieller Gegenstand der Betrachtung.“ ” Qualit¨atsmerkmale m¨ussen also erkannt und benennbar sein, d.h. es wird ein Reflexionsprozess durch den Benutzer angenommen, wenn er Qualit¨at bewertet. Qualit¨at ergibt sich also aus einem Vergleich zwischen dem Wahrgenommenen und dem Erwarteten oder Erw¨unschten. Dieser Vergleich (und damit Qualit¨at) wird beeinflusst von der wahrnehmenden und beurteilenden Person (Subjekt) und der Wahrnehmungs- und Beurteilungssituation. Dies hat zwei weit reichende Konsequenzen: 1. Qualit¨at l¨asst sich nur mit wahrnehmenden und beurteilenden Personen (Subjekten) messen; Qualit¨at kann nicht objektiv – ohne direktes oder indirektes Zutun von Subjekten – gemessen werden, auch wenn der Messvorgang soweit wie m¨oglich objektiviert werden kann (zu den Begriffen subjektiv“ und ” objektiv“ vgl. Kapitel 2). ” 2. Qualit¨at ist ein Ereignis ( Qualit¨atsereignis“, analog zu einem Wahrnehmungser” eignis, vgl. ebenfalls Kapitel 2); als solches h¨angt es immer von der Wahrnehmungs- und Beurteilungssituation ab. Wir besch¨aftigen uns in diesem Buch mit der Qualit¨at von informations- und kommunikationstechnischen Systemen und den qualit¨atsbeeinflussenden Faktoren ¨ ¨ • des Ubertragungskanals (Ubertragungsqualit¨ at) • der Benutzers bzw. des menschlichen Kommunikationspartners • eines maschinellen Interaktionspartners (z.B. eines Dialogsystems) und zwar aus zweierlei Sichtweise: 1. Der Perspektive der wahrnehmenden und beurteilenden Person (Wahrnehmung und Beurteilung von Qualit¨at) 2. Der Perspektive des Planers und Gestalters von informations- und kommunika¨ tionstechnischen Systemen (z.B. von IP-Ubertragungsstrecken oder von Dialogsystemen; Planung und Vorhersage von Qualit¨at) Hierzu sollen die folgenden Begriffe unterschieden werden: Qualit¨atsmerkmal (Jekosch, 2004):
1.2 Definitionen
7
Ein erkanntes Merkmal einer Einheit, welches benannt werden kann und re” levant f¨ur die Qualit¨at der Einheit ist.“ Qualit¨atselement (Jekosch, 2004): Beitrag zur Qualit¨at eines immateriellen oder materiellen Produkts und/oder ” einer T¨atigkeit oder eines Prozesses in wenigstens einer Phase des Qualit¨atszyklus.“ Diese Unterscheidung ist wichtig f¨ur die Entwicklung von Mess- und Vorhersagemethoden zur Qualit¨at, und letztendlich zur Gestaltung qualitativ hochwertiger informations- und kommunikationstechnischer Systeme. Diese beiden Betrachtungsweisen spiegeln sich auch in der Terminologie der betrachteten Qualit¨atsaspekte wider. Aus Sicht des Systementwicklers ist die Qualit¨at eines (telefonbasierten) Dienstes wie folgt definiert (ITU-T Rec. E.800, 1994): Quality of Service: “The collective effect of service performance which determines the degree of satisfaction of the user of a service.” Die Qualit¨at eines Dienstes wird also – nach dieser Definition – durch die Leistung der unterschiedlichen am Dienst beteiligten Qualit¨atselemente bestimmt und ist auf die Zufriedenheit des Benutzers ausgerichtet. ITU-T Rec. E.800 (1994) erl¨autert weiterhin vier grobe Qualit¨atsaspekte: Service Support (Indikator daf¨ur, wie gut der Anbieter in der Lage ist, den Dienst anzubieten und seine Bedienung zu unterst¨utzen); Service Operability (Indikator daf¨ur, wie gut der Dienst auf eine erfolgreiche und einfache Bedienung durch den Benutzer ausgelegt ist); Serveability (Indikator daf¨ur, zu welchem Grade der Benutzer den Dienst anfordern und f¨ur einen gew¨unschten Zeitraum aufrecht erhalten kann, ohne exzessive Beeintr¨achtigung); sowie Service Security (Indikator f¨ur den Schutz, den ein Dienst gegen unautorisierte Aufzeichnung, Missbrauch, etc. bietet). Aus Sicht des Benutzers muss dieser Begriff notwendigerweise zu kurz greifen, denn die Leistung (Performance) der einzelnen System- oder Dienstkomponenten sagt leider nicht unbedingt etwas dar¨uber aus, wie der Benutzer den Dienst tats¨achlich erf¨ahrt, d.h. wahrnimmt. Deshalb wurde der Quality of Service eine sog. Quality of Experience beiseite gestellt, die wie folgt definiert ist (ITU-T Rec. P.10, 2007): Quality of Experience: “The overall acceptability of an application or service, as perceived subjectively by the end-user.” Dabei werden folgende Nebenbemerkungen gemacht:
8
1 Motivation und Zielsetzung, Qualit¨at und Gebrauchstauglichkeit
“NOTE 1 – Quality of Experience includes the complete end-to-end system effects (client, terminal, network, services infrastructure, etc.). NOTE 2 – Overall acceptability may be influenced by user expectations and context.” Obwohl diese Definition nicht wirklich zufriedenstellend ist (vgl. weitere Definitionen zu einzelnen Qualit¨atsaspekten sp¨ater in diesem Kapitel) so wollen wir uns insofern anschließen, dass wir als Quality of Service nur die Qualit¨atselemente aus Planersicht bezeichnen, und als Quality of Experience die Qualit¨atsaspekte und -merkmale aus Benutzersicht. Besser erscheint aber eine Arbeitsdefinition, die die Teilnehmer des Dagstuhl-Seminars 09192 “From Quality of Service to Quality of Experience” (Schloss Dagstuhl – Leibniz-Zentrum f¨ur Informatik GmbH, Wadern) im Mai 2009 aufgestellt haben: Quality of Experience: “Degree of delight of the user of a service. In the context of communication services, it is influenced by content, network, device, application, user expectations and goals, and context of use.” Daneben soll noch kurz auf den zweiten zuvor erl¨auterten Begriff eingegangen werden, n¨amlich die Usability (Gebrauchstauglichkeit). Darunter versteht man lt. ISO Standard 9241 Teil 11 (1999): Usability: “The extent to which a product can be used by specified users to achieve specified goals with effectiveness, efficiency and satisfaction in a specified context of use.” Die Gebrauchstauglichkeit wird dabei auf den drei folgenden Ebenen definiert und gemessen: Effectiveness: “The accuracy and completeness with which specified users can achieve specified goals in specified environments.” Efficiency: “The resources expended in relation to the accuracy and completeness of the goals achieved.” Satisfaction: “The comfort and acceptability of the system to its users and other people affected by its use.” Offensichtlich h¨angt die Gebrauchstauglichkeit eines technischen Systems oder eines Dienstes ebenfalls von der Wahrnehmung des Benutzers ab. Usability ist also genau genommen nur ein Aspekt der Qualit¨at eines Systems oder eines Dienstes, wobei man sich hier meist auf interaktive Systeme und Dienste bezieht. Daneben
1.3 Wahrnehmungs- und Beurteilungsprozesse
9
wird in diesem Zusammenhang gern noch der Begriff Ergonomie verwendet (vgl. www.wikipedia.de): Ergonomie: Die Ergonomie ist die Wissenschaft von der Gesetzm¨aßigkeit ” menschlicher Arbeit. Der Begriff setzt sich aus den griechischen W¨ortern ergon (Arbeit, Werk) und nomos (Gesetz, Regel) zusammen. Zentrales Ziel der Ergonomie ist die Schaffung geeigneter Ausf¨uhrungsbedingungen f¨ur die Arbeit des Menschen und die Nutzung technischer Einrichtungen und Werkzeuge, wobei neben der menschgerechten Gestaltung des Arbeitssystems (genauer des Arbeitsraumes) vor allem die Verbesserung der Mensch-MaschineSchnittstelle zwischen Benutzer und Operateur (Mensch) und Objekt (Maschine) in einem Mensch-Maschine-System eine besondere Bedeutung besitzt.“ Bevor wir insbesondere die Begriffe der Qualit¨at und der Gebrauchstauglichkeit weiter ausdifferenzieren sollen im folgenden Abschnitt einige Ideen dazu illustriert werden, wie man sich die Wahrnehmungs- und Beurteilungsprozesse vorstellen kann, die zu Qualit¨at f¨uhren.
1.3 Wahrnehmungs- und Beurteilungsprozesse Weil die Prozesse, die bei der Wahrnehmung und Beurteilung von Qualit¨at eine Rolle spielen, weitgehend anonym innerhalb des Menschen stattfinden, lassen sie sich nur schwer mit Hilfe von mathematischen Zusammenh¨angen erfassen und beschreiben. Aus diesem Grunde gehen Informatiker und Ingenieure gern einer Konfrontation mit Qualit¨at aus dem Wege und beschr¨anken sich darauf, Qualit¨atselemente als (scheinbar einfach) messbare Konstrukte zu erfassen. Dies ist nur scheinbar ein Ausweg: Wie eingangs dargestellt sagen diese Elemente nur sehr beschr¨ankt etwas u¨ ber die Qualit¨at und Gebrauchstauglichkeit eines Systems oder Dienstes aus. Deshalb ist es notwendig, sich auch mit der subjektiven“ – und damit angenommenerma” ßen ungenauen – Seite von Qualit¨at zu besch¨aftigen (zu den Begriffen Subjektivit¨at, Objektivit¨at und Zuverl¨assigkeit mehr in Kapitel 2). Im Idealfall k¨onnen n¨amlich zumindest die relevanten Aspekte der Qualit¨atswahrnehmung und -beschreibung f¨ur bestimmte Szenarien mit mathematischen Formeln beschrieben werden, aus denen sich dann angenommene Qualit¨at sch¨atzen l¨asst. Dazu ist nat¨urlich ein eingehenderes Verst¨andnis der Wahrnehmungs- und Beurteilunsgprozesse notwendig. Derzeit geht man von einem einfachen Modell aus, welches den o.a. Definitionen zugrunde liegt, vgl. Abb. 1.4. Dabei setzt Qualit¨at zumeist ein physikalisches Ereignis (z.B. einen Schall, ein Bild, etc.) voraus. Dieses Ereignis wird vom Menschen wahrgenommen; es wird zum Wahrgenommenen. Der wahrnehmende Mensch kann dieses Wahrnehmungsereignis mittels Introspektion (Selbst-Reflexion) ergr¨unden, es wird dann zu einer beschreibbaren Eigenschaft, einem sog. Merkmal (engl. Fea-
10
1 Motivation und Zielsetzung, Qualit¨at und Gebrauchstauglichkeit Response Modifying Factors
Adjustment
Physical Signal (Physical Nature)
Anticipation
Perception
Desired Nature
Perceived Nature
Reflexion
Reflexion
Desired Quality Features
Perceived Quality Features Comparison and Judgment
Perceived Quality
Encoding Perceiver Quality Rating (Description)
Abb. 1.4 Schematische Darstellung des Wahrnehmungs- und Beurteilungsprozesses von Qualit¨at (Jekosch, 2004; Raake, 2004)
¨ ture; vorher spricht man von der wahrgenommenen Natur, engl. Nature). Ahnliche Prozesse passieren auch mit den Erfahrungswerten, welche im Gehirn der wahrnehmenden Person abgelegt sind; auch hier gibt es eine erwartete Natur und erwartete Merkmale. Zwischen den wahrgenommenen und den erwarteten Merkmalen wird anschließend ein Vergleich durchgef¨uhrt. Als Resultat dieses Vergleiches entsteht ein Qualit¨atsereignis. Wie auch das Wahrnehmungsereignis liegt das Qualit¨atsereignis innerhalb der wahrnehmenden Person. M¨ochte man qualitative oder quantitative Aussagen u¨ ber dieses Qualit¨atsereignis erhalten, so muss man die Person bit-
1.3 Wahrnehmungs- und Beurteilungsprozesse
11
ten, dieses zu beschreiben; es wird damit zum Beschreibungsereignis. Wie das Wahrnehmungs- und das Qualit¨atsereignis h¨angt auch das Beschreibungsereignis vom Kontext ab. Dabei k¨onnen die Antwort modifizierende Faktoren die Ereignisse von außen her beeinflussen; dies gilt nicht nur f¨ur die Beurteilung und Beschreibung, sondern auch f¨ur die Wahrnehmung. Bislang sind nur einige (wenige) der angesprochenen Prozesse tats¨achlich im Detail verstanden. So wurde in der Vergangenheit insbesondere die Wahrnehmung – und hier besonders die H¨orwahrnehmung – untersucht, und es liegen Modelle zur Beschreibung der periph¨aren Wahrnehmung vor. Modelle der Reflexionsprozesse und insbesondere des Vergleiches gibt es bislang noch nicht. Sofern Beschreibungen der wahrgenommenen und der erw¨unschten Merkmale vorliegen kann hier z.B. von einem gewichteten Abstand zwischen diesen Merkmalen ausgegangen werden. Anschließend muss noch der Beschreibungsprozess selbst modelliert werden. Hierbei ist man h¨aufig an einer ein- oder mehrdimensionalen Beschreibung auf einer oder mehreren Skalen interessiert. Hierzu kann man eine monotone oder nichtmonotone Abbildungsfunktion vom Qualit¨ats- auf das Beschreibungsereignis annehmen. Modell der Referenz
Bewertungsmodell
Perzeptives Modell
Beschreibungsmodell
Subjektives Qualitätsurteil
Interaktives System
Modell der Ziele Aussagemodell
Verhaltens modell Modell der Erfahrungen
Abb. 1.5 Modell der Wahrnehmungs-, Beurteilungs und Aktionsprozesse bei der Interaktion mit einem Dialogsystem (M¨oller et al., 2007)
Bislang haben wir uns auf den passiven, wahrnehmenden Menschen beschr¨ankt. Bei einem interaktiven Benutzer eines Systems oder Dienstes kommen weitere Faktoren hinzu, vgl. Abb. 1.5. So wird der Benutzer seinen Zielen entsprechend handeln. Zur Beschreibung der Aktionen des Benutzers sind daher Modelle seiner Ziele sowie seiner Erfahrungen notwendig. Diese Modelle bestimmen – zusammen mit den (Re-) Aktionen des Systems – das Verhalten des Benutzers. Das Verhalten a¨ ußert sich dann in konkreten Aktionen, wie z.B. Aussagen gegen¨uber dem System, Gesten, etc. Auch die Modellbestandteile im unteren Teil der Abbildung sind bislang nur wenig erforscht. Allerdings gibt es Ans¨atze, Benutzerverhalten regelbasiert
12
1 Motivation und Zielsetzung, Qualit¨at und Gebrauchstauglichkeit
oder datenbasiert zu simulieren, um damit Dialogsysteme effizient zu evaluieren. Entsprechende Verfahren sind in Kapitel 9 beschrieben.
1.4 Taxonomie von Qualit¨atsaspekten Eine Definition von Qualit¨at wurde bereits oben gegeben. Dort wurde auch zwischen Qualit¨atsmerkmalen – d.h. wahrnehmbaren und benennbaren Eigenschaften – und Qualit¨atselementen – d.h. physikalischen oder algorithmischen Bestandteilen des Dienstes – unterschieden. Dar¨uber hinaus soll folgende Terminologie verwendet werden:
• Qualit¨atsaspekte: Diese sind einzelne Kategorien der Qualit¨at des betrachteten Dienstes. Sie umfassen jeweils ein oder mehrere Qualit¨atsmerkmale. • Qualit¨atsfaktoren: Dies sind einzelne Kategorien von Eigenschaften des Dienstes, welche relevant f¨ur seine Qualit¨at sind. Sie umfassen jeweils ein oder mehrere Qualit¨atselemente. Wir wollen nun f¨ur die zwei oben beschriebenen Szenarien – n¨amlich die technik-vermittelte zwischenmenschliche Kommunikation und die Mensch-Maschine-Interaktion – die interessierenden Einflussfaktoren (Qualit¨atselemente) und die daraus resultierenden Wahrnehmungsaspekte (Qualit¨atsaspekte) genauer aufschl¨usseln. ¨ F¨ur das erste Szenario gehen wir stellvertretend von einem Sprachubertragungsdienst aus, z.B. Telefonie oder Voice-over-IP, vgl. Abb. 1.6. F¨ur diesen Dienst l¨asst sich die Qualit¨at zun¨achst in drei Klassen von Faktoren zerlegen, die im Folgenden dargestellt sind: 1. Speech Communication Factors: Umfassen Qualit¨atselemente des Dienstes, die das H¨orereignis beeinflussen, weitere Elemente, die die kommunikativen Eigenschaften des Systems betreffen, sowie Elemente, die den Kommunikationspartner betreffen. 2. Service Factors: Diese umfassen alle Elemente des Dienstes, die keinen direkten Einfluss auf die Sprachkommunikation nehmen, z.B. die Art und Gestaltung ¨ des Endger¨ates (mit Ausnahme seiner Ubertragungseigenschaften), die Ergonomie und das Design des Dienstes, die Verf¨ugbarkeit, die Zeit, die zum Aufbau des Dienstes ben¨otigt wird, sowie die Zuverl¨assigkeit und Kompatibilit¨at des Dienstes. Diese Faktoren sind weitgehend identisch mit den in ITU-T Rec. E.800 (1994) zitierten. 3. Contextual Factors: Diese betreffen das nicht-physikalische Umfeld, in dem der Dienst benutzt wird, wie bspw. die damit verbundenen Kosten oder Vertragsbedingungen.
1.4 Taxonomie von Qualit¨atsaspekten
Attitude
Emotions
13
Experience
User Factors
Motivation, Goals
Quality’Factors
Quality of Service
Speech Communication Factors Auditory’Event’Related’Factors System’s’Conversational’Capabilities Communication’Partner’Related’Factors
Voice Transmission Ease of Quality Communication
Quality Aspects
Service Factors
Conversation Effectiveness
Communication Efficiency
Type of Terminal Ergonomics Design Availability Set-up Time Response Time Reliability Compatibility
Service Efficiency
Contextual Factors Investment Costs Operation Costs Account Conditions
Economical Benefit
Usability
User Satisfaction
Utility
Acceptability Abb. 1.6 Taxonomie der Qualit¨at eines telefonbasierten Sprachdienstes (M¨oller, 2005a)
14
1 Motivation und Zielsetzung, Qualit¨at und Gebrauchstauglichkeit
Daneben ist noch eine vierte Klasse von Faktoren zu nennen, n¨amlich diejenigen, die den Benutzer charakterisieren (User Factors). Diese umfassen z.B. die Einstellung des Benutzers, seine Erfahrung mit diesem und mit anderen Diensten, die Motivation und Ziele, die er mit der Benutzung des Dienstes verfolgt, sowie generelle Emotionen, die sich auf die Qualit¨at auswirken k¨onnen. Diese benutzerabh¨angigen Faktoren u¨ ben – laut unserer Definition von Qualit¨at – einen Einfluss auf alle nachfolgenden Qualit¨atsaspekte aus; im Bild ist dies dadurch angedeutet, dass sie ver” teilt“ oberhalb des Bildes angeordnet sind. Sie beeinflussen also auch direkt globale Qualit¨atsaspekte wie die Benutzbarkeit (Usability) oder die Akzeptanz (Acceptability). Bei den Qualit¨atselementen sind nat¨urlich insbesondere diejenigen von Interesse, welche einen direkten Einfluss auf die Kommunikation aus¨uben. Die daraus resultierenden (perzeptiven) Qualit¨atsaspekte lassen sich – wie bereits angedeutet – in drei Teile zerlegen: Die Sprach¨ubertragungsqualit¨at (Voice Transmission Quali¨ ty), die den Einfluss des Ubertragungskanals auf das H¨orereignis umfasst; die Ge¨ spr¨achstauglichkeit (Conversation Effectiveness), die die F¨ahigkeit, u¨ ber das Ubertragungssystem eine Konversation zu f¨uhren, beschreibt; und die KonversationsAnstrengung (Ease of Communication), die vom sprachlichen Verhalten des Gespr¨achspartners abh¨angt. Die genannten Qualit¨atsaspekte f¨uhren zun¨achst zu einer effizienten Kommunikation (Communication Efficiency) und beeinflussen – im Zusammenhang mit den Eigenschaften des Dienstes und des Benutzungs-Kontexts, die einen effizienten Dienst kennzeichnen – die Gebrauchstauglichkeit des Dienstes (Usability). Diese wiederum ist verantwortlich f¨ur die Zufriedenheit des Benutzers (User Satisfaction). Die Benutzbarkeit im Zusammenspiel mit den Kosten kennzeichnet den Nutzen, den ein Benutzer aus dem Dienst zieht. Nur wenn dieser Nutzen stimmt, wird der Dienst letztendlich vom Benutzer akzeptiert. Die Akzeptanz ist dabei eine rein o¨ konomische Gr¨oße. Sie l¨asst sich ermitteln, wenn man die tats¨achlichen Benutzer eines Dienstes z¨ahlt und zur Gr¨oße der Zielgruppe ins Verh¨altnis setzt. F¨ur das zweite Szenario soll hier stellvertretend die Interaktion mit einem Sprachdialogsystem untersucht werden, vgl. Abb. 1.7. Hierbei ist die Dienstequalit¨at zun¨achst in f¨unf Qualit¨atsfaktoren gegliedert: 1. Gespr¨achspartner-Faktoren (Agent Factors), welche die Eigenschaften des maschinellen Partners umfassen (z.B. Dialogstrategie, Flexibilit¨at oder im System gespeichertes Wissen) 2. Umgebungsfaktoren (Environmental Factors), d.h. die physikalischen Eigen¨ schaften der Interaktionsumgebung (bspw. Ubertragungskanal, Raumakustik oder Hintergrundger¨ausche) 3. Aufgabenbezogene Faktoren (Task Factors) wie die Funktionalit¨at des Systems, die Abdeckung der Dom¨ane, etc. 4. Nicht-physikalische Kontext-Faktoren (Contextual Factors), etwa die Kosten, ¨ Zugriffsm¨oglichkeiten oder Offnungszeiten 5. Benutzer-Faktoren (User Factors) wie die Einstellung des Benutzers, Motivation, Erfahrung im Umgang mit Systemen, etc. Wie im ersten Schema enth¨alt diese Klasse Faktoren, welche sich auf alle Qualit¨atsaspekte des Systems beziehen, da
1.4 Taxonomie von Qualit¨atsaspekten
Quality Factors
Linguistic Backgr. Attitude
User Experi- Task / Domain Motivation, Knowledge Goals Factors ence
Emotions Flexibility
Quality of Service
Agent Factors
Environmental Factors
Dialogue Cooperativity
Intelligibility Naturalness Listening-Effort System Underst.
Speed / Pace Dialogue Conciseness Dialogue Smoothness
Task Coverage Domain Cov. Task Flexibility Task Difficulty
Costs Availability Opening Hours Access
Dialogue Symmetry Initiative Interaction Control Partner Asymmetry
Informativeness Truth & Evidence Relevance Manner Backgr. Know. Meta-Comm. Handl.
Communication Efficiency
Contextual Factors
Task Factors
System Knowledge Dialogue Strategy Dialogue Flexibility
Transm. Channel Backgr. Noise Room Acoustics
Speech I/O Quality
Quality Aspects
15
Task Efficiency
Comfort
Task Success Task Ease
Personality Cognitive Demand
Service Efficiency
Usability Ease of Use
Enjoyability
User Satisfaction
Economical Benefit
Service Adequacy Added Value
Utility
Valuability Perc. Helpfulness
Acceptability
Future Use
Abb. 1.7 Taxonomie der Qualit¨at bei der Interaktion mit einem telefonbasierten Sprachdialogsystem (M¨oller, 2005a)
16
1 Motivation und Zielsetzung, Qualit¨at und Gebrauchstauglichkeit
Qualit¨at – wie dargelegt – immer die Wahrnehmung des Benutzers voraussetzt. Diesem Zusammenhang wurde wiederum durch die separate Anordnung oberhalb der anderen Einflussfaktoren und Qualit¨atsaspekte Rechnung getragen. Ausgehend von den f¨unf Einflussfaktoren k¨onnen die davon abh¨angigen Aspekte wahrgenommener Qualit¨at aufgezeigt werden. Diese gliedern sich auf unterschiedlichen Ebenen des Schemas und umfassen • die Qualit¨at der Spracheingabe und -ausgabe (Speech Input/Output Quality) • die Kooperativit¨at des Systems (Dialogue Cooperativity); zum Begriff der Kooperativit¨at vgl. insbesondere Bernsen et al. (1998) • die Symmetrie der Interaktion (Dialogue Symmetry); diese wird i. Allg. von der Initiative beeinflusst, die das System dem Benutzer l¨asst • die Effizienz der Kommunikation (Communication Efficiency) • die Effizienz bei der L¨osung der Aufgabe, die der Dienst anbietet (Task Efficiency) • die Effizienz des Dienstes insgesamt (Service Efficiency) • der vom Benutzer erfahrene Komfort; dieser wird bestimmt durch die notwendige Anstrengung (Cognitive Demand) sowie durch die Pers¨onlichkeit“ des ma” schinellen Gespr¨achspartners • die Gebrauchstauglichkeit des Systems (Usability) • die daraus resultierende Zufriedenheit des Benutzers (User Satisfaction) • die Akzeptanz des Dienstes (Acceptability) Einige dieser Aspekte sind identisch mit denjenigen, die beim zwischenmenschlichen Sprachdienst auftauchten; andere sind spezifisch f¨ur die Interaktion mit sprachtechnologischen Systemen, wie z.B. die Qualit¨at der Spracheingabe und Sprachausgabe. Die meisten der angesprochenen Aspekte sind auch f¨ur multimodale Dienste von Bedeutung. So ist bei einem Dienst mit Sprach- und Gestenerkennung neben der Sprachein- und -ausgabequalit¨at nat¨urlich auch die Qualit¨at der Gestenerkennung von Bedeutung. Abb. 1.8 zeigt die bei der Interaktion mit einem multimodalen Dienst relevanten Qualit¨atsaspekte in einer leicht abgewandelten Darstellung. In der obersten Ebene sind wiederum die Qualit¨atsfaktoren dargestellt. Hier wird grob zwischen den Faktoren, die der Benutzer einbringt, denen des Systems, sowie denen des Benutzungskontextes unterschieden. Bei den Benutzerfaktoren wird grob unterschieden zwischen denen, die quasi-statisch und konstant sind (Alter, Geschlecht, Einstellung, etc.) sowie solchen, die sich von Interaktion zu Interaktion oder auch w¨ahrend einer Interaktion a¨ ndern k¨onnen (Emotionen, Motivation, etc.). Auf der Systemseite sind neben den (technischen) Agent Factors auch das a¨ ußerliche Erscheinungsbild des Systems (Appearance) ber¨ucksichtigt. Die Task Factors sind hier mit anderen funktionalen Aspekten (Functional Factors) zusammengefasst. Auf der mittleren Ebene findet die Interaktion zwischen Benutzer und System statt. Diese ist durch zwei Kreisl¨aufe angedeutet, bei denen jeweils alle Schritte von der Informationseingabe u¨ ber die Informationsverarbeitung bis hin zur Informationsausgabe dargestellt sind. F¨ur jeden der beteiligten Schritte k¨onnen Leistungsindikatoren angegeben werden. Beim System decken sich diese h¨aufig mit Leistun-
1.4 Taxonomie von Qualit¨atsaspekten
17
Quality factors
User Static factors
Environmental factors
Interaction performance aspects
Perceptual effort Cognitive workload
System
Context Dynamic factors
Service factors
Form appropriatness
User
Agent factors
Output modality appropriatness
Functional factors
Contextual appropriateness
System
Input performance Input modality appropriatness
Response effort
Output quality
Cooperativity
Dialog management performance
Interpretation performance
Input quality
Interactionquality Aesthetics
Quality aspects
Learnability Effectiveness Efficiency
System Personality
Appeal
Joy of use
Ease of use
Utility
Intuitivity
Usability Usefulness
Hedonic
Acceptability
Pragmatic
Abb. 1.8 Taxonomie der Qualit¨at bei multimodaler Interaktion (M¨oller et al., 2010)
gen einzelner Systemkomponenten; beim Benutzer wird dabei der Verarbeitungsaufwand – z.B. in Form von kognitiven Belastungen oder Einschr¨ankungen seines Verhaltens – erfasst. Auf der unteren Ebene werden die schon zuvor besprochenen Qualit¨atsaspekte zusammengefasst. Im Bereich der Interaktionsqualit¨at wird hier zwischen Eingabequalit¨at, Ausgabequalit¨at und Kooperativit¨at unterschieden. Das Ergebnis der Interaktion kann hinsichtlich der Effektivit¨at, Effizienz, aber auch der Erlernbarkeit sowie der Intuitivit¨at der Interaktion beschrieben werden. Diese beiden Aspekte f¨uhren zur Usability, d.h. zur Gebrauchstauglichkeit. Hierbei werden zwei Aspekte der Gebrauchstauglichkeit betrachtet: Die interaktions-bezogenen (Ease of Use) sowie affekt-bezogene (Joy of Use). Diese Aspekte wirken dann wieder auf die Akzeptanz eines Dienstes. Es ist nicht unbedingt sofort ersichtlich, warum eine solche Vielzahl von Qualit¨atsfaktoren und Qualit¨atsaspekten notwendig ist, um Qualit¨at ad¨aquat zu beschreiben. Beispiele zeigen jedoch schnell, dass die Akzeptanz im Extremfall von einzelnen Faktoren komplett bestimmt werden kann. Bei der Interaktion mit einem telefonbasierten Sprachdienst k¨onnen z.B. der ¨ Ubertragungskanal oder die Hintergrundger¨ausche (Environmental Factors) die Spracheingabequalit¨at so stark beeintr¨achtigen, dass das System den Benutzer nicht versteht“ und deshalb der Benutzer das Gespr¨ach beendet. Die Erkennungsleistung ” h¨angt nat¨urlich auch vom System selbst ab (Leistung des Spracherkenners, also ein Agent Factor). Agent Factors bestimmen auch die Sprachausgabequalit¨at (Qualit¨at
18
1 Motivation und Zielsetzung, Qualit¨at und Gebrauchstauglichkeit
und Verst¨andlichkeit der nat¨urlichen oder synthetischen Stimme, etc.). Die aufgabenbezogenen Faktoren (Task Factors) k¨onnen ebenfalls dar¨uber bestimmen, ob ein System benutzt wird oder nicht: Wenn eine Bahninformation nur die M¨oglichkeit bietet, eine Fahrplanauskunft einzuholen, und nicht eine Fahrkarte zu bestellen oder einen Platz zu reservieren, so wird der Benutzer u.U. lieber ein Web-Portal benutzen. Auch die Kosten (Contextual Factors) k¨onnen dar¨uber entscheiden: Ein Benutzer mag einen automatischen Dienst gegen¨uber einem mit einem Menschen besetz¨ ten bevorzugen, wenn er billiger ist oder l¨angere Offnungszeiten hat.
Literaturverzeichnis Bernsen NO, Dybkjær H, Dybkjær L (1998) Designing Interactive Speech Systems: From First Ideas to User Testing. Springer, Berlin Blauert J, Jekosch U (2007) Auditory quality of performance spaces for music – The problem of the references. In: Proc. 19th Int. Congress on Acoustics (ICA 2007), Madrid DIN 55350 Teil 11 (1987) Begriffe zur Qualit¨atssicherung und Statistik. Grundbegriffe der Qualit¨atssicherung. Deutsches Institut f¨ur Normung, Beuth Verlag, Berlin ISO Standard 9241 Teil 11 (1999) Ergonomic Requirements for Office Work with Visual Display Terminals (VDTs). Part 11: Guidance on Usability. International Organization for Standardization, Genf ITU-T Rec. E.800 (1994) Terms and Definitions Related to Quality of Service and Network Performance Including Dependability. International Telecommunication Union, Genf ITU-T Rec. P.10 (2007) Vocabulary for Performance and Quality of Service. International Telecommunication Union, Genf ITU-T Rec. P.851 (2003) Subjective Quality Evaluation of Telephone Services Based on Spoken Dialogue Systems. International Telecommunication Union, Genf Jekosch U (2000) Sprache h¨oren und beurteilen: Ein Ansatz zur Grundlegung der Sprachqualit¨atsbeurteilung. Habilitationsschrift (unver¨offentlicht), Universit¨at/Gesamthochschule, Essen Jekosch U (2004) Basic concepts and terms of “quality”, reconsidered in the context of productsound quality. Acta Acustica united with Acustica 90(6):999–1006 Jekosch U (2005) Voice and Speech Quality Perception. Assessment and Evaluation. Springer, Berlin M¨oller S (2000) Assessment and Prediction of Speech Quality in Telecommunications. Kluwer Academic Publ., Boston MA M¨oller S (2005a) Communication Acoustics, Springer, Berlin, Kapitel Quality of Transmitted Speech for Humans and Machines, S 163–192 M¨oller S (2005b) Quality of Telephone-based Spoken Dialogue Systems. Springer, New York NY M¨oller S, Naumann A, Schleicher R (2007) Qualit¨atsplanung und -¨uberwachung interaktiver Telekommunikationsdienste. In: R¨otting M, Wozny G, Klostermann A, Huss J (Hrsg) Prospektive Gestaltung von Mensch-Technik-Interaktion, Fortschritt-Berichte VDI Reihe 22, Vol 25, S 407–416 M¨oller S, Engelbrecht KP, K¨uhnel C, Wechsung I, Weiss B (2010) Human-Centric Interfaces for Ambient Intelligence, Elsevier, Amsterdam, Kapitel Evaluation of Multimodal Interfaces for Ambient Intelligence, S 347–370 Raake A (2004) Assessment and Parametric Modelling of Speech Quality in Voice-over-IP Networks. Dissertation (unver¨offentlicht), Ruhr-Universit¨at, Bochum Raake A (2006) Speech Quality of VoIP: Assessment and Prediction. John Wiley & Sons Ltd., Chichester, West Sussex
Kapitel 2
Grundlagen der Psychophysik und Psychometrie
In diesem Kapitel sollen einige Grundlagen der Messung mit menschlichen Versuchspersonen behandelt werden. Ziel ist es, eine quantitative Beschreibung von Wahrnehmungsgr¨oßen zu bekommen, z.B. von H¨orereignissen, Sehereignissen, oder von Qualit¨atsereignissen. Da Qualit¨at Ergebnis eines Wahrnehmungs- und Beurteilungsprozesses ist, sind solche Messungen unerl¨asslich, wenn die Qualit¨at kommunikationstechnischer Systeme bestimmt werden soll. Das Kapitel orientiert sich in großen Teilen an den Ausf¨uhrungen von Blauert (1994) und Jekosch (2000). Das Gebiet der Psychophysik befasst sich mit den Zusammenh¨angen zwischen physikalischen Gr¨oßen und deren Wahrnehmung durch den Menschen. Die hier interessierenden physikalischen Gr¨oßen sind z.B. die Schallwelle, die das Ohr des Menschen erreicht, oder die elektromagnetische Welle, die auf das Auge des Betrachters trifft1 . Diese physikalischen Gr¨oßen sind r¨aumlich, zeitlich und eigenschaftlich bestimmt; man bezeichnet sie deshalb auch als physikalische Ereignisse (z.B. Schallereignis). Das physikalische Ereignis kann zu einem Wahrnehmungsereignis f¨uhren, z.B. zu einem H¨orereignis oder einem Sehereignis. Das Wahrnehmungsereignis ist das Wahrgenommene; im Akustischen wird es auch als H¨orgegenstand oder H¨orempfindung bezeichnet. Es ist – wie alles Wahrgenommene – ebenfalls r¨aumlich, zeitlich und eigenschaftlich bestimmt. R¨aumliche Merkmale sind z.B. die Entfernung, die Richtung oder die Ausdehnung von H¨orereignissen; eigenschaftliche Merkmale sind z.B. die Farbe, die Klangfarbe, die Tonh¨ohe, die Lautheit oder die Rauigkeit. Ein Wahrnehmungsereignis ist eindeutig mit einem physiologischen Zustand des wahrnehmenden Menschen verkn¨upft. Ein Wahrnehmungsereignis ist auch mit einem physikalischen Ereignis verkn¨upft, und dieser Zusammenhang l¨asst sich z.B. durch eine Funktion beschreiben. Allerdings gibt es auch Wahrnehmungsereignisse, die nicht durch physikalische Ereignisse hervorgerufen werden (z.B. beim Tinnitus). 1
Wir beschr¨anken uns in diesem Kapitel meist auf die H¨or- und Sehwahrnehmung, weil sie f¨ur derzeitige informations- und kommunikationstechnische Systeme weitaus am relevantesten ist. ¨ Ahnliche Betrachtungen gelten aber auch f¨ur die taktile, die olfaktorische oder die gustatorische Wahrnehmung.
19
20
2 Grundlagen der Psychophysik und Psychometrie
Wenn wir Wahrnehmungsereignisse untersuchen wollen, m¨ussen wir den Wahrnehmungsvorgang unter kontrollierten Bedingungen nachvollziehen. Dies kann z.B. in einem H¨orversuch oder Sehversuch geschehen, bei dem Versuchspersonen mit physikalischen Ereignissen konfrontiert werden, und ihre Wahrnehmungsereignisse beschreiben sollen. Die Kommunikation besteht aber nicht nur aus H¨oren und Sehen, sondern auch aus Sprechen bzw. Agieren, und dem Zusammenspiel zwischen Wahrnehmen und Agieren. Information u¨ ber dieses Zusammenspiel l¨asst sich ¨ z.B. in Konversationsversuchen oder allgemein (bei Ubertragung auf die MenschMaschine-Interaktion) in Interaktionsversuchen gewinnen, bei denen zwei (oder mehrere) Versuchspersonen unter kontrollierten Bedingungen interagieren und anschließend (oder w¨ahrenddessen) eine Beurteilung der Interaktion liefern. H¨or-, Seh- und auch Interaktionsversuche k¨onnen als Selbstversuch (Versuchsperson und Beobachter sind identisch) durch sog. Introspektion“ oder als Fremdversuch (Ver” suchsperson und Beobachter sind nicht identisch) durchgef¨uhrt werden. Im letzteren Fall ist der Beobachter auf eine Beschreibung der Versuchsperson oder seine eigene Beobachtung angewiesen. Beide Arten von Versuchen sind subjektiv, d.h. sie bedienen sich menschlicher Versuchspersonen (Subjekte) als Messorgane. Subjektiv hat hier allerdings nicht die Bedeutung von individuell“ oder gar ungenau“. Es ist insbesondere nicht mit ob” ” jektiv kontrastiert, in dem Sinne, dass eine physikalische Messung immer objek” tiv“ und eine psychophysikalische Messung immer subjektiv“ sei. Die Objektivit¨at ” einer Messung ergibt sich aus ihrer Allgemeing¨ultigkeit; dies kann sowohl f¨ur physikalische als auch f¨ur psychophysikalische Messungen der Fall sein. Wir sprechen deshalb im Folgenden von subjektiven Messungen, wenn daran menschliche Versuchspersonen als Messorgane beteiligt sind. Wenn wir ausdr¨ucken wollen, dass eine Messung ohne Zutun von menschlichen Versuchspersonen zustande kommt (d.h. mit Messinstrumenten), so sprechen wir von einer instrumentellen Messung.
2.1 Eigenschaften von Messungen Das Messen ist lt. Definition des Deutschen Instituts f¨ur Normung (DIN) das ” Ausf¨uhren von geplanten T¨atigkeiten zum quantitativen Vergleich der Messgr¨oße mit einer Einheit“ (DIN 1319 Teil 1, 1995). Die Messgr¨oße wird dabei als die phy” sikalische Gr¨oße, der die Messung gilt“ definiert. Teilaufgabe des Messvorgangs ist die Skalierung, d.h. die Zuordnung von Zahlen zu Objekten nach festgelegten Regeln. Diese Definition von Messung l¨asst sich auch auf die Psychophysik u¨ bertragen. Hierbei will man Beziehungen zwischen physikalischen Ph¨anomenen und Wahrnehmungsph¨anomenen quantitativ erfassen und verwendet dabei u.a. ebenfalls h¨aufig eine Skala als Mittel der Beschreibung des Wahrgenommenen. Zu diesem Zweck werden im Folgenden die modifizierten Definitionen von Jekosch (2000) verwandt:
2.1 Eigenschaften von Messungen
21
Messung (Jekosch, 2000): Gesamtheit aller T¨atigkeiten in der gesamten ” Messkette zur Bestimmung des Wertes einer Messgr¨oße.“ Messgr¨oße (Jekosch, 2000): Merkmal des Messobjektes, welches im Zuge ” der Messung zahlenm¨aßig beschrieben wird.“ Skalierung (Jekosch, 2000): Gesamtheit aller T¨atigkeiten, die sich konkret ” auf den Vorgang der Zuordnung eines Wertes einer Messgr¨oße, dessen Tr¨ager das Messobjekt ist, zu einem entsprechenden Skalenwert (Messwert) nach vorgegebenen Regeln beziehen.“ Die Skalierung ist also Teil des Messvorgangs. Hierauf wird in Kapitel 3 noch weiter eingegangen. Damit Messungen gute“ und sinnvolle Ergebnisse liefern m¨ussen sie mehrere ” Kriterien erf¨ullen (Lienert, 1989): • Validit¨at: Die Validit¨at gibt die Eignung eines Messverfahrens bzgl. seiner Zielsetzung an: Misst das Verfahren wirklich das, was es messen soll? • Reliabilit¨at: Die Reliabilit¨at gibt die Zuverl¨assigkeit einer Messung an: Ist das Messergebnis bei erneuter Durchf¨uhrung der Messung stabil? Man unterscheidet hierbei zwischen – Paralleltest-Reliabilit¨at: Wie stark korrelieren die Ergebnisse, wenn mit einer Stichprobe von Versuchspersonen zwei streng miteinander vergleichbare Messungen durchgef¨uhrt werden? – Retest-Reliabilit¨at: Wie stark korrelieren die Ergebnisse, wenn mit ein und derselbe Stichprobe von Versuchspersonen zweimal die gleiche Messung durchgef¨uhrt wird? – Innere Konsistenz: Diese kann z.B. ermittelt werden, indem man die Messwerte eines Tests aufteilt (splittet) und die Teilergebnisse miteinander vergleicht. ¨ • Objektivit¨at: Die Objektivit¨at gibt den Grad der interpersonellen Ubereinstimmung von Messungen an: Ist das Messergebnis abh¨angig von demjenigen, der die Messung durchf¨uhrt? ¨ Daneben gibt es noch weitere Nebeng¨utekriterien, wie z.B. die Okonomie, Normierbarkeit, N¨utzlichkeit und Vergleichbarkeit von Messungen. Der Unterschied zwischen Validit¨at und Reliabilit¨at ist in Abb. 2.1 skizziert. Besonders bei der Messung mit Versuchspersonen stellt sich die Frage der Verallgemeinerbarkeit von Messungen – allerdings nicht in Bezug auf die Abh¨angigkeit vom Versuchsleiter, sondern in Bezug auf die Abh¨angigkeit vom Messorgan, d.h. von der Versuchspersonengruppe, die f¨ur die Messung verwendet wird. Hierbei ist der sog. Analogieschluss wichtig: Die physiologisch-psychologische Parallelit¨at der Vorg¨ange, die ich an mir selbst beobachte, berechtigen mich zu dem Schluss, dass ein Mitmensch, dessen physiologischen und psychologischen Verh¨altnisse den meinen analog sind, bei den gleichen physiologischen Geschehen auch Analoges erlebt wie ich (Lorenz, 1963). Dieser Analogieschluss ist niemals beweisbar, da ich
22
2 Grundlagen der Psychophysik und Psychometrie
hohe Reliabilität, hohe Validität
niedrige Reliabilität , hohe Validität
hohe Reliabilität, niedrige Validität
niedrige Reliabilität , niedrige Validität
Abb. 2.1 Zur Reliabilit¨at und Validit¨at von Messungen
¨ nicht die gleichen Wahrnehmungsereignisse haben kann wie ein Mitmensch. Uber die Wahrnehmungsereignisse kann deshalb nur auf dem Umweg der Beschreibungen geschlossen werden. Dennoch sollen viele Messungen generalisierbar sein, d.h. die Messergebnisse sollen nicht nur f¨ur die betrachtete Gruppe von Versuchspersonen g¨ultig sein, sondern auch f¨ur eine andere Gruppe von Personen (z.B. die Nutzer eines kommunikationstechnischen Systems, die aber nicht befragt werden k¨onnen). Hierzu ist es notwendig, dass die Gruppe der Versuchspersonen repr¨asentativ ist, d.h. dass sie bzgl. aller Eigenschaften, die f¨ur das Messobjekt relevant sind (hier z.B. H¨or- oder Sehverm¨ogen, kommunikative F¨ahigkeit, Erfahrung mit dem betrachteten System, Motivation, etc.) m¨oglichst gut mit dem interessierenden Personenkreis u¨ bereinstimmen, f¨ur den die Messung gelten soll. Je nach dem zu bestimmenden Messobjekt und der Messgr¨oße kann eine Messung als Beobachtungsverfahren, als Beurteilungsverfahren, als instrumentelles Verfahren, als Berechnungsverfahren oder als statistisches Sch¨atzverfahren realisiert werden (Jekosch, 2000). Ein reines Beobachtungsverfahren liegt z.B. bei der Untersuchung der Reaktion einer Versuchsperson auf H¨orereignisse vor, oder bei der Untersuchung des Verhaltens einer Versuchsperson in einer Konversationssituation. Ein Beurteilungsverfahren wird z.B. bei der Bestimmung der Sprachqualit¨at im H¨orversuch oder der Bildqualit¨at im Sehversuch angewendet, bei dem die Versuchspersonen die Qualit¨at dargebotener Proben quantitativ beschreiben m¨ussen (z.B. auf einer Skala). Ein instrumentelles Verfahren wird z.B. zur Bestimmung physikalischer Messgr¨oßen eingesetzt (z.B. Zeitmessung oder L¨angenmessung). Ein Berechnungsverfahren kann z.B. zur Berechnung des gewichteten Schalldruckpegels (in dB(A)) eingesetzt werden; hierbei ist die physikalische Messung (des Mikrophonsignals) mit einer Berechnung verbunden.
2.2 Psychophysikalische Messungen
23
2.2 Psychophysikalische Messungen Wir wollen nun genauer betrachten, was in einer Versuchsperson w¨ahrend einer psychophysikalischen Messung vorgeht, um daraus Anforderungen an den Messprozess abzuleiten. Dabei soll zun¨achst davon ausgegangen werden, dass die Versuchsperson sich in einer rein passiven“ Wahrnehmungssituation befindet, d.h. nicht in einer ” Interaktion. In dieser Situation wird ihr vom Versuchsleiter ein physikalisches Ereignis pr¨asentiert. Die Versuchsperson empf¨angt dieses physikalische Ereignis s0 2 , welches das interessierende, zu messende Merkmal aufweist. Dieses physikalische Ereignis f¨uhrt zu einem Wahrnehmungsereignis h0 3 , welches allerdings innerhalb der Versuchsperson liegt – nicht unbedingt im Sinne der r¨aumlichen Eigenschaften des Wahrnehmungsereignisses, aber im Sinne der Zug¨anglichkeit. Das Wahrnehmungsereignis ist also der direkten Messung durch den Versuchsleiter nicht zug¨anglich. Die Versuchsperson wird nun aufgefordert, eine Beschreibung des Wahrnehmungsereignisses zu geben, und sie liefert ein Beschreibungsereignis b0 . Diese Situation ist in Abb. 2.2 gezeigt.
Wahrnehmungsereignis h0
Physikalisches Ereignis s0
Versuchsperson
Beschreibung b0
Abb. 2.2 Schema einer Versuchsperson in einer psychophysikalischen Messung, in Anlehnung an Blauert (1997), S. 6
Die Boxen deuten an, dass zwischen dem Wahrnehmungsereignis und dem Beschreibungsereignis ein Umsetzungsprozess stattfindet. Wahrnehmungsereignis und Beschreibungsereignis sind also i. Allg. nicht identisch. Trotzdem ist man auf das Beschreibungsereignis angewiesen, um das Wahrnehmungsereignis qualitativ (bzgl. des Inhaltes) und quantitativ (bzgl. der mengenm¨aßigen Auspr¨agung der interessierenden Merkmale) zu erfassen. Wenn man den Wahrnehmungs- und Beurteilungsvorgang wiederholt durchf¨uhrt (z.B. mit verschiedenen Versuchspersonen) so erh¨alt man Mengen von physikalischen Ereignissen, Wahrnehmungsereignissen und Beschreibungsereignissen. In Anlehnung an das zuvor gezeigte einfache Schema der Versuchsperson kann man diese Mengen wie in Abb. 2.3 angegeben darstellen. 2 3
Definiert urspr¨unglich von Blauert (1997) f¨ur das Schallereignis Definiert urspr¨unglich von Blauert (1997) f¨ur das H¨orereignis
24
2 Grundlagen der Psychophysik und Psychometrie S 0 {s0}
H0 {h0}
B 0 {b0}
S {s}
H {h}
B {b}
Abb. 2.3 Zusammenhang der bei psychophysikalischen Messung auftretenden Ereignisse und Skalen, in Anlehnung an Blauert (1997), S. 8
Auf der linken Seite sind die Grundmengen der Ereignisse dargestellt: S0 als die Menge der physikalischen Ereignisse s0 , H0 als die Menge der Wahrnehmungsereignisse h0 , und B0 als die Menge der Beschreibungsereignisse b0 . Auf der rechten Seite befinden sich die Skalen: Physikalische Skala S mit den Elementen s, Wahrnehmungsskala H mit den Elementen h, und Beschreibungsskala B mit den Elementen b. Zwischen den Elementen der Grundmengen wie auch zwischen den Elementen der Skalen bestehen funktionale Zusammenh¨ange, die man als psychophysikalische Funktionen bezeichnet. Zwischen den Grundmengen und den jeweiligen Skalen bestehen ebenfalls Zusammenh¨ange, die man als Skalierungsfunktionen bezeichnet. In einem psychophysikalischen Experiment interessieren wir uns meist f¨ur den Zusammenhang zwischen s und h, d.h. f¨ur die Funktion h = f (s). Bei einem anliegenden physikalischen Ereignis s0 kann s z.B. mit einem physikalischen Messinstrument gemessen werden, d.h. s = f (s0 ). Wir gehen nun davon aus, dass das physikalische Ereignis s0 mit einem Wahrnehmungsereignis h0 verkn¨upft ist. Da h0 nicht direkt messbar ist, instruiert man die Versuchsperson, eine entsprechende Beschreibung b0 zu geben, die eine zahlenm¨aßige Beschreibung des Wahrnehmungsereignisses h0 , also h darstellt. Man kann deshalb sagen, dass b0 = h. Somit l¨asst sich der Zusammenhang zwischen s und h indirekt mittels zweier Messungen bestimmen: einer physikalischen Messung s = f (s0 ), und einer psychophysikalischen Messung b0 = f (s0 ), wobei die Versuchsperson gleichzeitig den Wahrnehmungszusammenhang h0 = f (s0 ) beinhaltet. Die Versuchsperson wirkt also gleichzeitig als wahrnehmendes und beurteilendes Messorgan. In diesem Messsystem k¨onnen dreierlei Arten von Messfehlern auftreten, vgl. Blauert (1997): • die Messungenauigkeit des physikalischen Messger¨ates • die Messungenauigkeit des psychophysikalischen Messorgans • Schwankungen im wahrnehmenden Messorgan Unter der Annahme, dass das physikalische Ereignis mit recht hoher Genauigkeit erzeugt und gemessen werden kann (also konstant ist), und dass das beschreibende Systemelement invariant gegen¨uber Versuchswiederholungen ist (was man z.B.
2.3 Messung von Qualit¨at und Usability
25
durch eine gute Planung des Experimentes und eine genaue Instruktion der Ver¨ suchspersonen erreichen kann), k¨onnen die Anderungen des Wahrnehmungsereig¨ nisses und des damit verbundenen Beschreibungsereignisses vorwiegend mit Anderungen des wahrnehmenden Elementes erkl¨art werden. Diese Schwankungen im Wahrnehmungsprozess sind jedoch einer Kontrolle oder Vorhersage nicht zug¨anglich; man muss deshalb von einer Zufallsvariablen ausgehen, die die Messergebnisse beeinflussen kann. Voraussetzung daf¨ur ist allerdings, dass die psychophysikalischen Methoden und die Instruktionen der Versuchspersonen derart gestaltet sind, dass sich hierbei keine Messfehler ergeben.
2.3 Messung von Qualit¨at und Usability Die Wahrnehmungs- und Beurteilungsprozesse, die bei der Bildung von Qualit¨at eine Rolle spielen, wurden bereits in Abschnitt 1.3 erl¨autert. Dort wurde insbesondere gezeigt, dass ein Vergleich zwischen dem Wahrgenommenen und dem Erwarteten stattfindet, wenn Qualit¨at bestimmt werden soll. Diesen Vergleich kann man in einem erweiterten Schema der Versuchsperson ber¨ucksichtigen, wie es in folgender Abb. 2.4 dargestellt ist.
Wahrnehmungsereignis h 0
Qualitätsereignis q0 Versuchsperson
Beschreibung Qualitätsmerkmal ?0
Physikalisches Ereignis s0
Erwünschte Beschaffenheit r0
Beschreibung Qualität b0
Abb. 2.4 Erweitertes Schema einer Versuchsperson in einer psychophysikalischen Messung, in Anlehnung an Raake (2006)
Bis zum Wahrnehmungsereignis sind beide Schemata zun¨achst identisch. Aufbauend auf das Wahrnehmungsereignis findet nun die Bestimmung der Qualit¨at statt. Dabei wird zun¨achst eine Unterscheidung zwischen Qualit¨atsmerkmalen, d.h. einzelnen erkannten und benennbaren Eigenschaften von Qualit¨at, sowie der Qualit¨at als Ganzes (Qualit¨atsereignis) gemacht. Beide sind wiederum durch Prozesse vom Wahrnehmungsereignis getrennt, die sich im Innern der Versuchsperson abspielen.
26
2 Grundlagen der Psychophysik und Psychometrie
Neben dem Wahrnehmungsprozess ist f¨ur die Bewertung von Qualit¨at vor allem die interne Referenz der Versuchsperson (erw¨unschte Beschaffenheit) wichtig, vgl. Abb. 2.4. In dieser Referenz werden alle Aspekte der individuellen Erwar” tungen, sachgerechten Erfordernisse oder gesellschaftlichen Forderungen“ (vgl. die Definition von Qualit¨at in Abschnitt 1.2) abgebildet. Die Referenz umfasst insbesondere individuelle Pr¨aferenzen der wahrnehmenden Person, besondere F¨ahigkeiten oder Wissen, Emotionen, aufgabenbezogene Aspekte und Funktionalit¨at, sowie Gew¨ohnung und Tradition. Aufgrund der Individualit¨at dieser Referenz muss die Messung von Qualit¨at mit Versuchspersonen gleichen Hintergrunds durchgef¨uhrt werden, wenn man zu validen Ergebnissen kommen m¨ochte. Dieses Ziel ist oft nur schwer zu erreichen, insbesondere, wenn die Eigenschaften der Referenz nicht komplett bekannt sind. Offensichtlich ist aber, dass bspw. trainierte Experten eine andere Referenz aufweisen k¨onnen als normale“ Benutzer eines Systems oder Dienstes. ” Aus diesem Grunde liefern Evaluierungen mit Experten, wie sie h¨aufig in der Entwicklungsphase von neuen Diensten und Systemen durchgef¨uhrt werden, meist nur begrenzt valide Ergebnisse. Im Gegenzug k¨onnen die Ergebnisse aber sehr analytisch sein, da die Experten darauf trainiert werden k¨onnen, einzelne Qualit¨atsmerkmale zu erfassen und zu unterscheiden. Je nach interessierendem Merkmal kann der Vergleich zwischen Wahrnehmungsereignis und Referenz auf verschiedenen Ebenen stattfinden. Interessiert man sich nur f¨ur die Eigenschaften des physikalischen Ereignisses (bspw. f¨ur den Lautst¨arkepegel eines Ger¨ausches), so kann man physikalische Messger¨ate zur Hilfe nehmen. Mit ihrer Hilfe kann man bestimmen, ob der Lautst¨arkepegel unterhalb eines bestimmten Grenzwertes bleibt. Interessiert man sich hingegen f¨ur die formbezogenen Merkmale des Wahrnehmungsereignisses (bspw. eines H¨orereignisses), so k¨onnen psychophysikalische Merkmale zur Hilfe genommen werden, wie die Lautheit, die Rauigkeit, etc. Auch diese Merkmale lassen sich zu einem Teil in neutralisierter ” Form“ betrachten. Bspw. kann die Lautheit von Schallen in einem standardisierten H¨orversuch ermittelt werden. Ob ein H¨orereignis dann tats¨achlich als zu laut“ ” wahrgenommen wird h¨angt daneben aber auch von der Bedeutung des Ger¨ausches sowie von der H¨orsituation ab, die in der Referenz mit erfasst werden. Man hat etwa herausgefunden, dass Schienenfahrzeugl¨arm i. Allg. als angenehmer empfunden wird als Flugl¨arm gleicher subjektiver Lautheit. Tritt der L¨arm w¨ahrend der Ruhephase (Schlafzeit) auf, so wird er als deutlich unangenehmer empfunden als w¨ahrend der Aktivit¨atsphasen. Neben der Qualit¨at des physikalischen und des Wahrnehmungsereignisses liegt das Interesse aber meist in der Qualit¨at des Systems oder des darauf beruhenden Dienstes. Um diese Qualit¨at ad¨aquat zu erfassen, muss der Vergleich auf psychologische, semantische und funktionale Aspekte erweitert werden. Die Bestimmung eines dazu passenden Anforderungsprofiles ist nicht einfach, da dieses Profil die interne Referenz der Versuchsperson vollst¨andig abdecken m¨usste. Eine weitgehende Bestimmung ist aber notwendig, um im Rahmen einer System-Qualit¨atsmessung valide Ergebnisse zu erzielen. Bislang wurde von passiven“ Versuchspersonen ausgegangen, die uns nach er” folgter Selbst-Introspektion eine Auskunft u¨ ber das Wahrnehmungsereignis bzw.
2.3 Messung von Qualit¨at und Usability
27
das Qualit¨atsereignis liefern. Versuchspersonen sind aber in den seltensten F¨allen wirklich passiv. So zeigen sie k¨orperliche Ver¨anderungen bspw. des Pulsschlages oder des Hautleitwertes, und sie reagieren auf Stimuli bspw. durch Blickbewegungen. Solche Reaktionen k¨onnen ebenfalls als Indikatoren f¨ur Wahrnehmungsereignisse oder Qualit¨atsereignisse herangezogen werden. Dar¨uber hinaus kann versucht werden, Hirnaktivit¨aten auf verschiedenen Ebenen zu bestimmen, und diese Informationen ebenfalls mit Qualit¨atsaspekten wie Komfort, Stress oder Joy-of-Use in Verbindung zu bringen. Diese indirekten Messungen von Wahrnehmungsereignissen stehen noch am Anfang ihrer Entwicklung; sie k¨onnten jedoch von großem Nutzen sein, da der Reflexionsprozess weitgehend u¨ bergangen wird, und unmittelbare Reaktionen vielleicht auf tieferliegende Wahrnehmungsprozesse schließen lassen. Reaktionen von Versuchspersonen k¨onnen nat¨urlich auch in Interaktionssituationen zur Messung von Wahrnehmungs- und Qualit¨atsereignissen herangezogen werden. Dabei sind zwei F¨alle zu unterscheiden: • Innerhalb der normalen“ Benutzung eines interaktiven Systems oder Dienstes ” agiert die Versuchsperson, und ihre Aktionen beeinflussen die Interaktion – und somit das Wahrnehmungsereignis und die Qualit¨at. Die Versuchsperson wird also – neben ihrer Rolle als Messorgan – selbst zum handelnden Subjekt innerhalb des Qualit¨atsmessvorganges. Dabei werden die Aktionen der Versuchsperson von mindestens drei Dingen abh¨angen: Der Pers¨onlichkeit der Versuchsperson (z.B. introvertiert vs. extrovertiert), dem Ziel, das die Versuchsperson mit der Interaktion verfolgt, sowie von den Reaktionen des Systems. Man kann nun versuchen, die Handlungen der Versuchsperson quantitativ zu erfassen, und aus diesen Metriken Indikatoren f¨ur die Qualit¨at abzuleiten. Entsprechende Methoden sind in Kapitel 7 bis 9 beschrieben. Bei der Interpretation der Ergebnisse muss dann allerdings unterschieden werden zwischen den oben genannten Einfl¨ussen. • Der Versuchsperson k¨onnen speziell auf den Beurteilungsprozess zugeschnittene Aufgaben gestellt werden. Bspw. kann die Versuchsperson aufgefordert werden, bestimmte Aufgaben schnell mit dem System zu l¨osen, oder ihr werden parallel zur Interaktion weitere Aufgaben (sog. Parallel Tasks) gestellt, vgl. z.B. Chateau et al. (2006). Der Erfolg bei der L¨osung dieser Aufgaben kann dann als Indikator f¨ur die Qualit¨at herangezogen werden. Bspw. k¨onnte man zwei Versuchspersonen auffordern, bestimmte Informationen so schnell wie m¨oglich u¨ ber eine gest¨orte Telefonverbindung auszutauschen; die Effizienz des Informationsaustausches (quantifiziert z.B. durch die Anzahl der Einzelinformationen pro Zeiteinheit) k¨onnte als Indikator f¨ur die Qualit¨at der Verbindung herangezogen werden. Es ist offensichtlich, dass dabei auch die Pers¨onlichkeit der Versuchsperson sowie ihre (im Test u.U. k¨unstlich gegebene) Motivation eine Rolle spielt. Mit Hilfe solcher Messungen erh¨alt man allerdings nur indirekte Indikatoren f¨ur die Qualit¨at und Gebrauchstauglichkeit eines interaktiven Dienstes; direkte Qualit¨atsmesswerte verlangen das Urteil der Versuchsperson. Eine genaue Kenntnis der Einflussfaktoren auf die vom Menschen erfahrene Qualit¨at ist aus zweierlei Gr¨unden wichtig. Zum einen m¨ussen die Einflussfaktoren bei der Definition eines geeigneten Messaufbaus ber¨ucksichtigt werden. Will
28
2 Grundlagen der Psychophysik und Psychometrie
¨ man bspw. den Einfluss von Sprachkodierern und Paketverlusten auf die Ubertragungsqualit¨at einer Voice-over-IP-Verbindung messen, so k¨onnte man einen H¨orversuch mit naiven Versuchspersonen der interessierenden Zielgruppe durchf¨uhren. Je nach Realismus der H¨orsituation w¨urde man einen Qualit¨atsmesswert (z.B. in Abh¨angigkeit von der IP-Konfiguration) erhalten, der mehr oder weniger repr¨asentativ f¨ur die Gesamtqualit¨at in der H¨orsituation ist. M¨ochte man hingegen eine genaue Aufschl¨usselung der verschiedenen St¨orungen (Rauschhaftigkeit, Klangverf¨arbung, Unterbrochenheit) haben, so sind u.U. trainierte Versuchspersonen besser geeignet, denen man speziell ausgew¨ahltes Sprachmaterial in einer idealisierten (z.B. extrem ruhigen) Situation vorspielt. Hierdurch kann man sehr analytische Aussagen u¨ ber einzelne St¨orquellen erhalten. M¨ochte man hingegen den Einfluss der Paketverluste auf die Effizienz der Verbindung testen, so sollte man einen Konversationsversuch in einer realistischen Nutzungssituation (z.B. am Rechner) durchf¨uhren, bei dem Versuchspersonen z.B. bestimmte Aufgaben mit Hilfe der VoIP-Verbindung l¨osen m¨ussen. In solchen Versuchen lassen sich allerdings keine analytischen Informationen u¨ ber die Quelle der St¨orungen abfragen. Neben der Bestimmung des Messaufbaus ist Wissen u¨ ber die bei der Qualit¨atsmessung beteiligten Prozesse und Einflussfaktoren auch zur Definition von geeigneten Vorhersagemodellen wichtig. So kann man versuchen, im Idealfall alle beteiligten Prozesse individuell algorithmisch zu beschreiben, und daraus einen Sch¨atzwert f¨ur das Qualit¨atsurteil zu berechnen. Auch wenn ein solches komplettes Modell bislang nicht vorliegt, so beruhen doch viele der in Kapitel 9 vorgestellten Verfahren darauf, einzelne Prozesse mehr oder weniger detailliert nachzuvollziehen. Aufgrund der Komplexit¨at der beteiligten Vorg¨ange erzielt man leider nicht immer optimale Ergebnisse, wenn man einzelne Prozesse m¨oglichst exakt abbildet; h¨aufig kann man mittels einfacher Interpolation kurzfristig zu L¨osungen kommen, welche bessere Sch¨atzwerte liefern. Solche kurzfristigen L¨osungen sind jedoch meist sehr speziell und wenig verallgemeinerbar. Wissen u¨ ber die Wahrnehmungs- und Beurteilungsprozesse zahlt sich also langfristig meist aus.
2.4 Nutzertypen Offensichtlich spielt die Versuchsperson eine große Rolle bei einer psychophysikalischen Messung. Leider steht f¨ur eine Qualit¨atsmessaufgabe praktisch nie die gesamte Zielgruppe vollst¨andig zur Verf¨ugung (mit Ausnahme von sehr speziellen Nutzungskontexten und Systemen). Aus diesem Grunde m¨ussen alle f¨ur die Messung relevanten Eigenschaften der Versuchspersonen bekannt sein, sodass im Sinne eines validen und reliablen Ergebnisses eine optimale Auswahl von Versuchspersonen getroffen werden kann. F¨ur kommunikations- und informationstechnische Systeme sind dabei die folgenden Eigenschaften interessant: • Wahrnehmungseigenschaften: In Abschnitt 2.2 sind wir bislang von zuf¨alligen Schwankungen des wahrnehmenden Systemelementes ausgegangen. Dies trifft aber nicht f¨ur alle m¨oglichen Nutzer zu. Bspw. nehmen die Wahrneh-
2.4 Nutzertypen
•
•
•
•
29
mungsleistungen normalerweise mit dem Alter ab (Einschr¨angung des H¨or- und Sehverm¨ogens, ersteres insbes. bei hohen Frequenzen), oder spezielle Gruppen (bspw. Jugendliche) weisen verhaltensbedingte Wahrnehmungseinschr¨ankungen auf (H¨orverluste durch laute Diskothekbeschallung). Es kann sinnvoll sein, Versuchspersonen nach solchen Kriterien auszuw¨ahlen, oder ihre Wahrnehmungsleistungen zumindest vor dem Versuch zu u¨ berpr¨ufen. Verhaltenseigenschaften: Aufgrund von Erfahrungen, aus genetischen wie auch aus anderen (teilweise nicht erforschten) Gr¨unden weisen bestimmte Versuchsgruppen besondere Verhaltensweisen auf, die f¨ur die Qualit¨at eine Rolle spielen k¨onnen. So kann es bspw. f¨ur ein interaktives System von Bedeutung sein, ob es von Rechts- oder Linksh¨andern bedient wird. Der regionale und soziale Hintergrund wird bspw. die sprachliche Ausdrucksweise beeinflussen. Sowohl Wahrnehmung als auch Verhalten a¨ ndern sich mit dem Alter und k¨onnen dar¨uber hinaus geschlechtsspezifisch ausgepr¨agt sein; dabei kann es notwendig sein, zwischen dem biologischen (Sex) und dem (sozialen/psychologischen) Identit¨atsgeschlecht (Gender) zu unterscheiden. Erfahrung: Bei der Bildung der Referenz spielen individuelle Erfahrungen eine besondere Rolle. So bilden sich durch Gew¨ohnung spezielle Erfahrungen heraus, die dann als Referenz im Qualit¨atsbeurteilungsprozess dienen k¨onnen. Die Erfahrungen k¨onnen sich auf das betrachtete System (Messobjekt) oder auf andere vergleichbare Systeme beziehen, die eine a¨ hnliche Funktionalit¨at besitzen. Dar¨uber hinaus sind auch Erfahrungen mit der Dom¨ane des Systems (bspw. Erfahrung mit dem o¨ ffentlichen Verkehr bei einer Bahnauskunft) wichtig f¨ur die Beurteilung eines Systems. Erfahrungen entwickeln sich bei der l¨angeren Benutzung eines Systems. Daher ist es wichtig zu wissen, ob es sich bei den Versuchspersonen um erfahrene Benutzer des betrachteten Systems, um mit a¨ hnlichen Systemen erfahrene Benutzer oder um mit der Dom¨ane erfahrene Benutzer handelt. Man bezeichnet einzelne dieser Gruppen h¨aufig ungenau als Experten“ ” (im Gegensatz zu Novizen“), leider ohne jedoch anzugeben, um welche Exper” tise es sich dabei handelt. Motivation: Wichtig f¨ur die Beurteilung der Qualit¨at eines informations- oder kommunikationstechnischen Systems ist es, aus welchem Grunde es benutzt wird. Dabei kann unterschieden werden zwischen beruflicher oder privater Nutzung, sporadischer oder regelm¨aßiger Nutzung, und es kann die Wichtigkeit der Benutzung klassifiziert werden (bspw. bei Notrufen oder bei finanziellen Transaktionen). Individuelle Pr¨aferenzen, F¨ahigkeiten und Wissen: Diese k¨onnen ebenfalls einen Einfluss auf die Qualit¨atsbeurteilung haben, lassen sich aber in den wenigsten F¨allen gut klassifizieren und bei der Auswahl der Versuchspersonen ber¨ucksichtigen. Ein Beispiel hierf¨ur ist die Auswahl von Musikern oder Tonmeistern zur analytischen Beurteilung von H¨orproben; hierbei wird neben einer h¨oheren Erfahrung und Wissen u¨ ber Harmonien auch davon ausgegangen, dass diese Personen eine besondere Affinit¨at zum analytischen H¨oren besitzen, u.U. sogar ein sog. absolutes Geh¨or“, welches f¨ur manche Beurteilungsaufgaben von Vorteil ” sein kann.
30
2 Grundlagen der Psychophysik und Psychometrie
Um Versuchspersonen bzgl. der o.g. Eigenschaften einzuordnen, bedient man sich verschiedener Klassifikationsschemata. Gebr¨auchlich sind bspw. Klassifikationen nach: • Nutzerexpertise: Nielsen (1993) unterscheidet bspw. 3 Arten von Expertise in seinem User Cube: Erfahrung mit dem System, mit Computern im Allgemeinen, sowie mit der Aufgaben-Dom¨ane, vgl. Abb. 2.5. Knowledge about Domain
Minimal Computer Experience
Abb. 2.5 Klassifikation von Nutzern nach Expertise, nach Nielsen (1993), basierend auf Cotterman und Kumar (1989)
Novice User of System
Expert User of System
Extensive Computer Experience
Ignorant about Domain
• Annahmebereitschaft von Innovationen: In der Innovationsforschung bedient man sich dabei h¨aufig eines Diffusionsmodells. Man geht davon aus, dass sich eine Innovation in Form einer s-f¨ormigen Kurve in einem Nutzerkreis durchsetzt. Dabei nehmen unterschiedliche Gruppen von Nutzern die Innovation allerdings zu unterschiedlichen Zeitpunkten an. Man unterscheidet deshalb zwischen 1. Innovators, einer kleinen Gruppe von Nutzern, die neue Produkte schnell kaufen und neue Technologien bereitwillig annehmen; hierbei handelt es sich h¨aufig um Menschen mit h¨oherem Einkommen, h¨ohere beruflicher Stellung, und um sozial mobile Menschen; 2. Early Adaptors, d.h. eine gr¨oßere Gruppe von Nutzern, die den Innovatoren folgen; auch sie kaufen ein Produkt recht schnell, sind aber st¨arker in ihren sozialen Gruppen verankert und den darin bestehenden Normen verhaftet; 3. Early Majority, d.h. eine gr¨oßere Mehrheit (ca. 1/3 der gesamten Nutzer), die erst danach in den Markt eintreten und weniger bereit sind, Risiken in Kauf zu nehmen; 4. Late Majority, eine gr¨oßere Gruppe von Nutzern, die die Nutzung erst beginnen, wenn die Neuheit eines Produktes bereits wieder abnimmt; sie sind weniger durch Gruppennormen beeinflusst und k¨onnen bspw. durch Werbung u¨ berzeugt werden; sowie die 5. Laggards, d.h. die Nachz¨ugler, die ein Produkt erst annehmen wenn es bereits vollst¨andig am Markt etabliert ist. Diese Gruppen sind in Abb. 2.6 skizziert. • Kaufverhalten: Je nach interessierendem System lassen sich Nutzergruppen als K¨aufergruppen identifizieren. Diese Klassifikation ist naturgem¨aß sehr stark
2.4 Nutzertypen
31 Diffusion Curve
No. of users
Time
% Adopters
(1)
(2)
(3)
(4)
Adopter Categories (5)
Time
Abb. 2.6 Diffusionsmodell f¨ur die Annahmebereitschaft von Innovationen, vgl. z.B. Rogers (1983)
dom¨anenabh¨angig. F¨ur die Telekommunikation hat sich bspw. eine Klassifikation bew¨ahrt, bei der Nutzer zun¨achst eingesch¨atzt werden nach ihrem sozialen Status und ihren Werten (traditionelle Werte, Modernit¨at und Experimentierfreude). Aus dieser Einsch¨atzung lassen sich ca. 10 verschiedene Nutzergruppen ableiten, die sich in Bezug auf ihr Alter, Bildung, Einkommen, zur Verf¨ugung stehendes Budget, Affinit¨at zu Innovationen und zu Technik im Allgemeinen, sowie in ihrem Kaufverhalten unterscheiden. Solche Klassifikationen sind i. Allg. von wirtschaftlicher Bedeutung und deshalb nicht o¨ ffentlich zug¨anglich; ein o¨ ffentlich zug¨angliches Beispiel ist die Klassifikation der sog. Sinus-Milieus der Fa. Sinus Sociovision, welche in Abb. 2.7 gezeigt ist. F¨ur bestimmte Untersuchungen ist es notwendig, diese Gruppen weiter zu unterteilen; Feinstrukturierungen bis hin zu 40–50 Nutzergruppen sind keine Seltenheit. • Verhalten im Umgang mit Systemen: F¨ur die Bestimmung von Qualit¨at und Gebrauchstauglichkeit ist insbesondere eine Klassifikation n¨utzlich, bei der Nutzer nach ihrem Verhalten im Umgang mit einem informations- oder kommunikationstechnischen System unterschieden werden. Hierzu stellten Naumann et al. (2008) einen Klassifikationsansatz vor. Auf Basis eines Expertenworkshops, einer Literaturrecherche und einer sog. User Clinic wurden zun¨achst Faktoren identifiziert und gewichtet, die voraussichtlich wichtig f¨ur den Umgang eines Nutzers mit informations- und kommunikationstechnischen Systemen (IKTSystemen) sind. Hierbei wurden Erfahrung mit und Affinit¨at zu IKT-Systemen, sowie generelle Arbeitsmethoden und F¨ahigkeiten (kognitive F¨ahigkeiten, Probleml¨osungsstrategien, Zielstrebigkeit, etc.) als wichtigste Einflussfaktoren identifiziert, daneben (weniger wichtig) auch das Dom¨anenwissen, Sprachkompetenz, Alter, und die Orientierung nach sozialen Normen. Auf Basis dieser Eigenschaften wurden 7 Nutzertypen definiert, die durch ihre Grundeinstellung zu sowie ihre Erfahrung mit IKT-Systemen charakterisiert sind, vgl. Tabelle 2.1. Obwohl diese Typisierung bislang nicht vollst¨andig validiert wurde scheint sie insbesondere f¨ur die Usability-Forschung von besonderer Bedeutung zu sein.
32
2 Grundlagen der Psychophysik und Psychometrie
Abb. 2.7 Unterteilung von Kundengruppen in Deutschland 2009 – Soziale Lage und Grundorientierung. Kategorisierung der Fa. Sinus Sociovision
2.5 Psychometrische Methoden In diesem Abschnitt sollen nun einige generelle Eigenschaften von psychometrischen Methoden diskutiert werden – also Methoden, mit deren Hilfe man quantitative Aussagen zur Wahrnehmung von Versuchspersonen erhalten kann. Beispiele f¨ur die Anwendung einzelner Methoden bei der Beurteilung der Qualit¨at kommunikationstechnischer Systeme werden in den Kapiteln 5 bis 8 gegeben.
Tabelle 2.1 Klassifizierung von Nutzertypen nach ihrem Verhalten im Umgang mit IKT-Systemen, vgl. Naumann et al. (2008). Benutzertyp ¨ Der IKT-Angstliche Der vertrauende IKT-Benutzer Der interessierte Amateur-IKT-Benutzer Der erfahrene IKT-Benutzer Der pragmatische, inspirierte IKT-Nutzer Der spielerische IKT-Benutzer Der funktionsliebende IKT-Benutzer
Einstellung gegen¨uber IKT gering gering bis mittel gering bis mittel hoch mittel hoch mittel bis hoch
Erfahrung mit IKT gering gering mittel hoch mittel hoch mittel
2.5 Psychometrische Methoden
33
Psychometrische Methoden lassen sich nach einer Reihe von Kriterien klassifizieren (Blauert, 1994). Gebr¨auchlich sind insbesondere folgende Kriterien: 1. Nach der Skalierungsmethode und dem sich daraus ergebenden Skalenniveau: • Methoden der Ratio-Skalierung: Magnitude Estimation (ME), Ratio Estimation, Magnitude Production, Ratio Production, etc. • Methoden der Ordinal- oder Intervallskalierung: Kategorienzuordnung, ¨ Herstellung von Kategorien, Paarvergleich, Ahnlichkeitsskalierung, etc. • Methoden der Nominalskalierung: Bestimmung von Wahrnehmbarkeitsschwellen, Identifikationstests wie z.B. Verst¨andlichkeitstests, etc. Zur Skalierung und den hier erw¨ahnten Skalen vgl. auch Kapitel 3. 2. Nach der Pr¨asentationsmethode: Herstellungsmethoden vs. Konstanzmethoden. • Herstellungsmethode: Voraussetzung hierf¨ur ist, dass sich das interessierende Stimulusmerkmal kontinuierlich ver¨andern l¨asst. Dabei wird das Stimulusmerkmal solange eingeregelt, bis eine bestimmte Bedingung erf¨ullt ist (bspw. etwas ist genauso laut oder genauso hell wie ein Referenzstimulus). Es spielt dabei keine Rolle, ob der Versuchsleiter oder die Versuchsperson selbst die Regelung vornimmt. • Konstanzmethode: Hierbei ist das Stimulusmerkmal w¨ahrend der Darbietungsdauer konstant, und die Versuchsperson wird aufgefordert, aus einem Vorrat von Urteilen das jeweils passendste herauszusuchen – bspw. mittels einer Skala. Der Versuch wird mit einer Vielzahl von Stimuli wiederholt. 3. Nach der Modalit¨at“ des Versuchs: H¨orversuche, Sprechversuche, Sehversu” che, Konversationsversuche, Interaktionsversuche, etc.: • H¨orversuche, Sehversuche: Hierbei bekommt die Versuchsperson Stimuli auditiv oder visuell dargeboten und beurteilt das interessierende Stimulusmerkmal. • H¨or- und Sehversuche: Hierbei werden den Versuchspersonen audio-visuelle Stimuli angeboten, die anschließend beurteilt werden sollen. • Sprechversuche: Hierbei wird die Versuchsperson aufgefordert, selbst zu sprechen (z.B. einer anderen Person ins Wort zu fallen oder gegen ein Ger¨ausch anzusprechen), und anschließend die Sprecherfahrung und Merkmale des dabei wahrgenommenen H¨orereignisses zu beurteilen. • H¨or- und Sprechversuche: Hierbei werden die Versuchspersonen wiederum in eine kontrollierte Situation gebracht, in der sie Sprechen und H¨oren m¨ussen, um anschließend die dabei gemachte Erfahrung zu beurteilen. • Konversationsversuche: Hierbei werden zwei oder mehr Versuchspersonen in eine Konversationssituation gebracht, entweder in kontrollierter Form (z.B. durch Verteilen einer Aufgabe, eines sog. Konversationsszenarios) oder in einer freien Konversation. Nach Abschluss der Konversation sollen dann Aspekte der Konversation beurteilt werden. Die Konversation kann entweder direkt
34
2 Grundlagen der Psychophysik und Psychometrie
(unvermittelt) ablaufen, oder u¨ ber eine Sprach- oder audiovisuelle Verbindung (technikvermittelt). • Interaktionsversuche: Hierbei interagieren die Versuchspersonen mit einem technischen System, im Sinne einer Mensch-Maschine-Interaktion. Die Interaktionen k¨onnen wiederum szenariobasiert oder frei sein, und es k¨onnen verschiedene Aspekte der Interaktion beurteilt werden. 4. Nach der Mittelbarkeit der Messung: Direkte vs. indirekte Messungen (Blauert, 1994). • Indirekte Messungen: Diese bestimmen zun¨achst Schwellen bzw. Punkte gleicher Wahrnehmung. Sie lassen allerdings ohne zus¨atzliche Annahmen keine Punkt-zu-Punkt-Zuordnung zwischen den physikalischen und den Wahrnehmungsereignissen zu. Dieses Verfahren wird bei Jekosch (2000) als mittelbare Messung bezeichnet. • Direkte Messungen: Dabei werden direkte – also unmittelbare – Zuordnungen zwischen physikalischen und Wahrnehmungs-Ereignisskalen gefordert. Jekosch (2000) bezeichnet dies als unmittelbare Messung. Neben der Mittelbarkeit u¨ ber Wahrnehmungsschwellen und Punkte gleicher Wahrnehmung l¨asst sich aber noch eine weitere Mittelbarkeit in Betracht ziehen. Beispielsweise ist es denkbar, dass die Versuchsperson kein direktes Urteil u¨ ber den Wahrnehmungsgegenstand f¨allt, sondern dass nach (instrumentell) messbaren Korrelaten des Wahrnehmungsereignisses gesucht wird. Die Korrelate k¨onnten z.B. physiologische Parameter wie die Pulsfrequenz, der Blutdruck, die Atmungsfrequenz oder der Widerstand der Hautoberfl¨ache sein, oder (z.B. bei Konversationsversuchen) kann als Korrelat der Erfolg einer Haupt- oder Nebenaufgabe verwendet werden, vgl. Abschnitt 2.3. In der sogenannten klassischen Psychophysik“ kommen meist Messungen auf ” Nominal- bzw. Ordinalniveau zum Einsatz. Damit k¨onnen z.B. Wahrnehmbarkeitsschwellen, Unterschiedsschwellen oder Punkte gleicher Wahrnehmung bestimmt werden. Wahrnehmbarkeitsschwellen werden meist so definiert, dass 50% der Versuchspersonen sagen, das betreffende Merkmal sei da (wahrnehmbar), und die andere H¨alfte sagt, es sei nicht da (nicht wahrnehmbar); das Urteil hat also Nominalniveau. Unterschiedsschwellen k¨onnen entweder auf Nominalniveau bestimmt werden (50% der Versuchspersonen sagen, die Stimuli sind gleich, 50% sagen, sie sind ungleich) oder als Ordinalurteile (Punkt A, bei dem 75% sagen, Stimulus 1 sei gr¨oßer und Stimulus 2 sei kleiner, vs. Punkt B, bei dem 75% sagen, Stimulus 2 sei gr¨oßer und Stimulus 1 sei kleiner; die Unterschiedsschwelle befindet sich in der Mitte zwischen diesen beiden Punkten). Punkte gleicher Wahrnehmung werden auf Ordinalniveau bestimmt: 50% der Versuchspersonen sagen, die Merkmalsauspr¨agung ist gr¨oßer bei Stimulus 1, 50% sagen, sie sei gr¨oßer bei Stimulus 2. Die genannten Verfahren k¨onnen als Herstellungs- oder Konstanzmethoden implementiert werden. Bei der Herstellungsmethode ist zu beachten, dass die Richtung, aus der eingeregelt wird, das Ergebnis beeinflussen kann. Deshalb l¨asst man
2.6 Versuchsplanung und Versuchsdesign
35
das Merkmal meist in beide Richtungen variieren und bildet einen Mittelwert aus beiden Ergebnissen. Bei der Konstanzmethode ist zu beachten, dass die Reihenfolge, mit der die Stimuli vorgespielt werden, das Ergebnis beeinflussen kann. Man verwendet deshalb entweder eine randomisierte Pr¨asentationsreihenfolge, oder die Reihenfolge der Stimuli im Test wird so ausbalanciert, dass alle Einflussfaktoren ¨ (z.B. Sprach- oder Bildmaterial, Ubertragungsweg, Umgebungssituation, etc.) in m¨oglichst allen Positionen vorkommen, vgl. den folgenden Abschnitt.
2.6 Versuchsplanung und Versuchsdesign M¨ochte man die Qualit¨at und Gebrauchstauglichkeit eines informations- oder kommunikationstechnischen Systems quantitativ bestimmen, so ist die Durchf¨uhrung eines Versuches mit menschlichen Versuchspersonen meist unumg¨anglich. In den folgenden Abs¨atzen sollen deshalb einige praktische Hinweise zur Planung und Durchf¨uhrung solcher Versuche gegeben werden. Allerdings kann das Thema hier nicht ersch¨opfend behandelt werden; zu einzelnen Themen gibt es umfangreiche Literatur, in der Details beschrieben sind. Vor der Planung eines Versuches sollte zun¨achst das Ziel der Messung genau festgelegt werden. Dabei reicht es nicht aus, dass man allgemein die Qualit¨at eines ” Systems“ messen m¨ochte. Eine erste Einschr¨ankung ergibt sich meist schon aus der Anwendungssituation. Man unterscheidet hier in der englischen Literatur zwischen (Jekosch, 2000; Hirschman und Thompson, 1997): • Assessment (oder auch Performance Evaluation): Messung der Leistungen des Systems oder einzelner Komponenten bez¨uglich eines oder mehrerer festgelegter Kriterien. Wird verwendet, wenn man unterschiedliche Implementierungen eines Systems (oder einzelner Komponenten) miteinander vergleichen m¨ochte. • Evaluation (oder auch Adequacy Evaluation): Untersucht, ob ein System die Anforderungen eines bestimmten Nutzungskontextes erf¨ullt. Hierbei wird typischerweise mit zuk¨unftigen Nutzern in realistischen Situationen getestet. • Diagnosis (oder auch Diagnostic Evaluation): Hierbei werden die Leistungen eines Systems diagnostisch und systematisch bez¨uglich eines Profiles erfasst. Ziel ist es, Systemeigenheiten und Probleme aufzudecken und ihre Ursachen zu ergr¨unden. Neben dem Messziel muss auch das Messobjekt genau spezifiziert werden. Da¨ bei kann es sich um ein interaktives System oder ein Ubertragungssystem handeln, einzelne Komponenten solcher Systeme, oder auch Kombinationen solcher Systeme (bspw. eine Telefonauskunft umfasst meist eine Datenbank, ein Dialogsystem ¨ und ein Ubertragungssystem). W¨ahrend der Systementwicklung sind meist noch nicht alle Komponenten verf¨ugbar; in diesem Fall kann man sich mit Ersatzkomponenten, Simulationen oder sog. Wizard-of-Oz-Systemen (vgl. Kapitel 7) behelfen, muss allerdings die Abweichungen vom realen“ Fall in Kauf nehmen und bei der ” Versuchsplanung und der Analyse der Ergebnisse ber¨ucksichtigen. Auch ist von Be-
36
2 Grundlagen der Psychophysik und Psychometrie
deutung, ob das System in Echtzeit“ (online) verf¨ugbar sein muss, oder ob Offline” Varianten ausreichen; letztere sind meist einfacher zu erhalten, schr¨anken aber die M¨oglichkeit der Interaktion beim Test weitgehend ein. Sobald das Messziel und das Messobjekt feststehen kann man die interessierenden Messgr¨oßen festlegen. Hierbei k¨onnen Taxonomien von Leistungs- und Qualit¨atsaspekten, wie sie in Abschnitt 1.4 vorgestellt wurden, helfen. Die Taxonomien zeigen auch Einflussfaktoren (Quality Factors), welche bei der Auswahl der Messmethode ber¨ucksichtigt werden sollten. Die Messgr¨oßen h¨angen dar¨uber hinaus von der Zug¨anglichkeit des Systems sowie seiner Komponenten ab. Man unterscheidet hier i. Allg. zwischen sog. Glass-Box-Tests, bei denen das Innenleben des Systems bekannt und (zumindest teilweise) zug¨anglich ist, und Black-Box-Tests, bei denen das Innenleben unbekannt und/oder unzug¨anglich ist. Ein besonderer Einflussfaktor ist die Messumgebung. So muss in Abh¨angigkeit vom Messziel, von der Messgr¨oße und von den a¨ ußeren Rahmenbedingungen zun¨achst entschieden werden, ob eine Messung im Labor oder in Feld durchgef¨uhrt werden soll. Laborversuche zeichnen sich i. Allg. durch eine bessere Kontrollierbarkeit der Versuchsbedingungen aus, was die Messung im Prinzip zuverl¨assiger (Kriterium Reliabilit¨at) macht. Allerdings ist die Motivation und u.U. auch das Verhalten der Versuchspersonen nicht realistisch, was das Messziel (Kriterium Validit¨at) verf¨alschen kann. Einige Qualit¨atsaspekte (z.B. die Akzeptanz) lassen sich u¨ berhaupt nur im realen Anwendungszusammenhang (d.h. im Feld) messen. Auf Basis dieser umfangreichen Analyse kann nun eine Messmethode ausgew¨ahlt werden. Hierzu k¨onnen die Kriterien aus Abschnitt 2.5 zu Rate gezogen werden, wie auch die Taxonomien aus Abschnitt 1.4. Gern verwendet man instrumentelle Messungen, allerdings lassen sich damit allenfalls Leistungsindikatoren erfassen, keine Qualit¨atsaspekte. Aus diesem Grunde werden h¨aufig Kombinationen unterschiedlicher Methoden im gleichen Versuch parallel angewandt. Bspw. kann man w¨ahrend eines Interaktionsversuches mit einem Sprachdialogsystem den Nutzer mit einem System interagieren lassen, und ihn nach jeder Interaktion mittels eines Fragebogens u¨ ber die wahrgenommenen Qualit¨atsaspekte befragen. Parallel kann man das Benutzerverhalten aufzeichnen (Audio- Video-, Logdateien), und daraus quantitative Indices f¨ur sein Verhalten bestimmen, welche – u.U. nach erfolgter Transkription und Annotation – mit einzelnen Systemleistungen in Verbindung gebracht werden k¨onnen (bspw. Wortfehlerrate). Aus der Vielzahl der so erhaltenen Resultate l¨asst sich ein relativ genaues diagnostisches Profil des Systems ableiten, welches sowohl zur Systemoptimierung verwendet werden kann als auch ein detailliertes Bild der vom Benutzer erfahrenen Qualit¨at zeichnet. Je nach ausgew¨ahlter Messmethode m¨ussen Details des Versuches genauer bestimmt werden. Entscheidet man sich bspw. f¨ur einen H¨orversuch, um die Qualit¨at ¨ eines Ubertragungssystems zu bestimmen, so m¨ussen zun¨achst Stimuli ausgew¨ahlt werden, welche repr¨asentativ f¨ur das System (Messobjekt) sind und die realen Nutzungssituationen (bspw. unterschiedliche Sprecher) widerspiegeln. Die Anzahl der Stimuli wird durch die Anzahl der zu testenden Systemkonfigurationen bestimmt, wobei allerdings jede Konfiguration mit unterschiedlichem Sprachmaterial getestet ¨ werden sollte, da letzteres einen Einfluss auf die Ubertragungsqualit¨ at haben wird.
2.6 Versuchsplanung und Versuchsdesign
37
Auch m¨ussen die Versuchspersonen (Messorgane) ausgew¨ahlt werden, z.B. nach den in Abschnitt 2.4 aufgelisteten Kriterien. Je nach erforderlicher Testst¨arke (statistische Signifikanz der Ergebnisse) muss die Anzahl der notwendigen Versuchspersonen bestimmt werden. Diese ist jedoch meist stark durch den m¨oglichen Aufwand begrenzt; Tests mit Versuchspersonen sind teuer und zeitaufw¨andig, sodass meist nur eine minimale Anzahl von ihnen zum Test eingeladen wird. Der genaue Ablauf des Versuches muss geplant werden. Er besteht normalerweise aus vier bis f¨unf Phasen: • Vorbereitung: Umfasst die Vorbereitung f¨ur jede einzelne Versuchsperson, Akquise der Versuchspersonen, Versuchsleiter, Testr¨aume, Bereitstellung von Frageb¨ogen, etc. ¨ • Einfuhrung: Begr¨ußung und Instruktion der Versuchsperson(en), Aufkl¨arung u¨ ber m¨ogliche Risiken, Verwendung der Daten, Abbruchm¨oglichkeiten, etc. • Optionale Trainingsphase: Wenn ein Training des Benutzers mit dem betrachteten System oder Testaufbau f¨ur notwendig oder w¨unschenswert erachtet wird, so kann dies zu Beginn des Tests oder auch zwischen einzelnen Testphasen eingebaut werden. ¨ • Durchfuhrung des eigentlichen Tests, z.B. Pr¨asentation und Bewertung der Stimuli, Durchf¨uhrung der Interaktionen, etc. • Testabschluss: Abfrage von auf den gesamten Test bezogenen Urteilen, Interview, Nachfragen zu einzelnen Ereignissen des Testablaufes, Sicherung der Ergebnisse, etc. Jede dieser Phasen muss genau vorbereitet und geplant werden. So muss z.B. die Aufteilung der Testobjekte (Stimuli, Systemkonfigurationen, Testaufgaben) auf die Versuchspersonen im Versuchsplan m¨oglichst so vorgenommen werden, dass keine systematischen Beeinflussungen entstehen. Dies kann im Rahmen eines Between-Subjects oder eines Within-Subjects Design geschehen. Bei Between Subjects testet jede Versuchsperson nur ein System (eine Systemvariante, eine Gruppe von Varianten oder Stimuli). F¨ur jedes System (Variante, Stimulus, etc.) wird eine neue Gruppe von Versuchspersonen ben¨otigt. Die Zuordnung der Systeme zu den Versuchspersonen sollte zuf¨allig oder balanciert bez¨uglich aller m¨oglichen Einflussfaktoren der Versuchspersonen erfolgen. Bei Within Subjects testet jede Versuchsperson alle zur Verf¨ugung stehenden Systeme (Varianten, Stimuli). Dies hat den Vorteil, dass sich individuelle Unterschiede zwischen den Versuchspersonen herausmitteln. Allerdings ist die Versuchsperson bei wiederholten Tests nicht mehr naiv“ in dem Sinne, dass sie eine Erfahrung mit dem Testgegenstand und ” ablauf aufbaut. Daher muss die Reihenfolge der Pr¨asentation variiert werden, um diesen Einflussfaktor herauszumitteln. Detailliertere Hinweise zur Gestaltung von Versuchspl¨anen findet man z.B. bei Bortz (2005) und bei Bortz und D¨oring (2002). Dar¨uber hinaus gibt es weitere Einflussfaktoren, die ebenfalls m¨oglichst herausgemittelt werden sollen. So ist bei einem Interaktionstest bspw. die Versuchsauf¨ gabe entscheidend, oder bei einem H¨orversuch das zur Ubertragung verwendete Sprachmaterial. Um keine zu starke Erfahrung aufzubauen und eine gewisse Allgemeing¨ultigkeit zu erlangen, verwendet man u¨ blicherweise unterschiedliche Auf-
38
2 Grundlagen der Psychophysik und Psychometrie
gaben und Sprachmaterialien. Die Aufteilung der Aufgaben / Sprachmaterialien zu den einzelnen Systemkonfigurationen sollte zwischen den Versuchspersonen variieren, ebenso wie ihre Reihenfolge im Test. Wenn die Anzahl der Stimuli und Einflussfaktoren gering ist kann man versuchen, ein Full-Factorial Design umzusetzen, bei dem alle Einflussfaktoren (inkl. Position im Test) miteinander kombiniert werden. Man geht davon aus, dass sich diese Einfl¨usse dann herausmitteln. Abb. 2.8 zeigt ein sogenanntes griechisch-lateinisches Quadrat, was hierzu verwendet werden kann. Wo dies nicht m¨oglich ist kann man ein Partial-Factorial Design verwenden, bei denen nur einzelne Faktoren komplett kombiniert werden; andere Faktoren werden nicht betrachtet, oder nur vereinfacht (z.B. in Gruppen) gemittelt.
Abb. 2.8 Griechisch-lateinisches Quadrat der Ordnung 12 zum Design eines H¨orversuches. R¨omische Ziffern: Versuchsperson; arabische Ziffern: Position innerhalb des Versuches; lateinische Buchstaben: System (-konfiguration); griechische Buchstaben: Sprachmaterial
Um eine gleichm¨aßige Instruktion aller Versuchspersonen zu gew¨ahrleisten, sollten schriftliche Anleitungen verwendet werden. Dar¨uber hinaus mag aber auch eine m¨undliche Instruktion notwendig sein. Die Instruktion sollte darauf zielen, dass den Versuchspersonen die Aufgabenstellung vollst¨andig klar ist, ohne sie allerdings in ihrem Verhalten oder ihrem Urteil zu beeinflussen (außerhalb dedizierter Trainingsphasen). Die im Versuch gesammelten Ergebnisse m¨ussen anschließend analysiert wer¨ den. Hierzu sind verschiedene statistische Verfahren verf¨ugbar. Einen kurzen Uber-
Literaturverzeichnis
39
blick u¨ ber die statistische Auswertung skalierter Urteile oder Indices findet sich in Abschnitt 3.6. Nicht skalierte Daten werden meist aggregiert (z.B. durch manuelle Klassifikation) und dann bzgl. ihrer H¨aufigkeit und Wichtigkeit f¨ur das Evaluationsziel ausgewertet. So k¨onnen bspw. die Ergebnisse eines strukturierten Interviews anhand der Interviewfragen zu Klassen a¨ hnlicher Versuchspersonen-Aussagen zusammengefasst und mit einer Nennungsh¨aufigkeit versehen werden. Die am h¨aufigsten genannten Aspekte werden dann als besonders auff¨allig oder als besonders wichtig eingestuft, und daraus Konsequenzen abgeleitet.
Literaturverzeichnis Blauert J (1994) Kommunikationsakustik 2. Skriptum (unver¨offentlicht) zur Vorlesung and der Ruhr-Universit¨at, Bochum Blauert J (1997) Spatial Hearing: The Psychophysics of Human Sound Localization. The MIT Press, Cambridge MA Bortz J (2005) Statistik f¨ur Sozialwissenschaftler. Springer, Berlin Bortz J, D¨oring N (2002) Forschungsmethoden und Evaluation f¨ur Human- und Sozialwissenschaftler. Springer, Heidelberg Chateau N, Gros L, Durin V, Mac´e A (2006) Redrawing the link between customer satisfaction and speech quality. In: M¨oller S, Raake A, Jekosch U, Hanisch M (Hrsg) Proc. 2nd ISCA/DEGA Tutorial and Research Workshop on Perceptual Quality of Systems, Berlin, S 88–94 DIN 1319 Teil 1 (1995) Grundlagen der Meßtechnik. Teil 1: Grundbegriffe. Deutsches Institut f¨ur Normung, Beuth Verlag, Berlin Hirschman L, Thompson HS (1997) Survey of the State of the Art in Human Language Technology, Cambridge University Press and Giardini Editori, Pisa, Kapitel Overview of Evaluation in Speech and Natural Language Processing, S 409–414 Jekosch U (2000) Sprache h¨oren und beurteilen: Ein Ansatz zur Grundlegung der Sprachqualit¨atsbeurteilung. Habilitationsschrift (unver¨offentlicht), Universit¨at/Gesamthochschule, Essen Lienert GA (1989) Testaufbau und Testanalyse. Verlag Julius Beltz, Weinheim Lorenz K (1963) Das sogenannte B¨ose. Borotha-Schoeler, Wien Naumann AB, Hermann F, Peissner M, Henke K (2008) Interaktion mit Informations- und Kommunikationstechnologie: Eine Klassifikation von Benutzertypen. In: Herczeg M, Kindsm¨uller MC (Hrsg) Mensch & Computer 2008: Viel Mehr Interaktion, Oldenbourg Wissenschaftsverlag, M¨unchen, S 37–45 Nielsen J (1993) Usability Engineering. Academic Press, Boston MA Raake A (2006) Speech Quality of VoIP: Assessment and Prediction. John Wiley & Sons Ltd., Chichester, West Sussex Rogers EM (1983) Diffusion of Innovations. Free Press, New York NY
Kapitel 3
Skalierung
Wie bereits beschrieben bezeichnet die Skalierung die Zuordnung von Zahlen zu Objekten nach festgelegten Regeln. Diese Zuordnung sollte so gestaltet sein, dass die sich dabei ergebenden Messergebnisse die gew¨unschten Eigenschaften (insbes. Validit¨at, Objektivit¨at und Reliabilit¨at) aufweisen. Da die Messgr¨oßen (z.B. Merkmale von Wahrnehmungsereignissen) aber h¨aufig verschieden sind ist es nicht ausreichend, eine bestimmte Skala f¨ur alle Messaufgaben zu definieren; die Skala muss stattdessen der aktuellen Messaufgabe angepasst werden. Im Folgenden sollen einige grunds¨atzliche Eigenschaften von Skalen vorgestellt werden. Aufgrund der Vielzahl in Gebrauch befindlicher Skalen ist diese Beschreibung nicht vollst¨andig. Wir beginnen in Abschnitt 3.1 mit einer grundlegenden Klassifizierung, welche auf Stevens (1946) zur¨uckgeht, und stellen dann in den Abschnitten 3.2 bis 3.4 einzelne Skalentypen vor, die zur Qualit¨atsbeurteilung von Sprach- und Video¨ubertragungssystemen sowie von interaktiven Systemen, aber auch zur Skalierung von Anstrengung oder Schmerzen gebr¨auchlich sind. Abschnitt 3.5 widmet sich der multidimensionalen Analyse von Wahrnehmungsereignissen. Auch dazu sind unterschiedliche Skalierungsverfahren notwendig, deren Ergebnisse aber einer speziellen Nachbereitung bed¨urfen, damit aussagekr¨aftige Di¨ mensionen extrahiert werden k¨onnen. Abschnitt 3.6 gibt einen kurzen Uberblick u¨ ber m¨ogliche statistische Analysen der bei der Skalierung erhaltenen Zahlenwerte.
3.1 Skalentypen Eine grundlegende Klassifizierung von Skalen wurde von Stevens (1946) eingef¨uhrt. Danach werden vier Klassen von Skalen unterschieden: • Nominalskalen: Die Skalenelemente repr¨asentieren Identit¨aten, aber es sind keine Relationen zwischen den Identit¨aten definiert. Bspw. lassen sich zwischen den Skalenelementen 1 = rot“, 2 = blau“ und 3 = gr¨un“ keine sinnvollen Verh¨alt” ” ” nisse bilden (wie etwa rot“ < blau“). ” ”
41
42
3 Skalierung
• Ordinalskalen: Die Skalenelemente besitzen eine Identit¨at und Rangordnung; die R¨ange sind jedoch nicht notwendigerweise a¨ quidistant. Bspw. besitzt die Einlaufreihenfolge beim Pferderennen ein Ordinalniveau, aber die R¨ange sagen nichts u¨ ber den Abstand zwischen den Einlaufzeitpunkten aus. • Intervallskalen: Die Skalenelemente besitzen neben der Identit¨at und Rangordnung auch die Additivit¨atseigenschaft; d.h. der Abstand zwischen den Elementen 1 und 2 ist genauso groß wie zwischen den Elementen 2 und 3. Allerdings ist auf dieser Skala kein absoluter Nullpunkt vorhanden. Beispiel: Die Temperaturskala in Celsius. • Ratioskalen: Neben den Eigenschaften der Intervallskala besitzt die Skala auch einen absoluten Nullpunkt. Dadurch lassen sich auf dieser Skala Verh¨altnisse (z.B. doppelt so laut“ oder halb so laut“) bilden, bei der eine Verdopplung des ” ” Skalenwertes einer Verdopplung des Wahrnehmungsmerkmals entspricht. Da die bei einer Messung ermittelten Zahlenwerte so informativ wie m¨oglich sein sollten ist man bestrebt, m¨oglichst viele der angegebenen Skaleneigenschaften zur Verf¨ugung zu haben. Deshalb versucht man, eine Skala mit m¨oglichst hohem Skalenniveau – bei allerdings vertretbarer Messaufgabe f¨ur die Versuchspersonen – zu verwenden. Eine Ratioskala ist also generell einer Nominalskala vorzuziehen, wenn nicht nur die Identit¨at der Messergebnisse von Interesse ist. Dennoch haben sich f¨ur viele Anwendungsf¨alle Intervall- oder Ordinalskalen als brauchbare Alternative erwiesen. Ihr Vorzug liegt in der einfachen Beschriftung und damit Verankerung der Skalenwerte; man bekommt also Hinweise auf die Interpretation der bei der Skalierung erhaltenen Zahlenwerte, was bei Ratioskalen zun¨achst nicht der Fall ist. Die Beschriftung f¨uhrt allerdings h¨aufig dazu, dass die Skalen ein niedrigeres Niveau haben – meist nur Ordinalniveau. Deshalb gibt es seit l¨angerem Bestrebungen, die Vorteile der Ratio- und der Intervall/Ordinalskalierung zu kombinieren, in sog. Kategorie-Ratio-Skalen. Ein Beispiel hierzu wird in Abschnitt 3.4 gezeigt.
3.2 Ratio-Skalierung Menschliche Messorgane sind im Allgemeinen gut in der Lage, die Intensit¨at oder Amplitude eines angebotenen Stimulus (z.B. eines akustischen oder visuellen Reizes) zu skalieren. Diese F¨ahigkeit beschr¨ankt sich nicht nur auf einen (relativen) Vergleich zwischen zwei angebotenen Stimuli, sondern auch auf die absolute Bestimmung der Gr¨oße einer Wahrnehmung, die ebenfalls zu einem gewissen Grade auf andere Versuchspersonen generalisierbar ist. Dabei hilft uns unser Weltwissen und unsere Erfahrung im Umgang mit Dingen. Wenn Messergebnisse zu etwas anderem als zum direkten Vergleich zwischen zwei oder mehreren Alternativen herangezogen werden sollen, ist ein solches absolutes“ Urteil vorzuziehen. Allerdings ” sollte nicht vernachl¨assigt werden, dass auch (und vor allem) absolute“ Urteile von ” einer Reihe von Faktoren beeinflusst werden.
3.3 Kategorie-Skalierung
43
Zur Skalierung auf einer Ratio-Skala hat sich als einfachstes Verfahren die sog. Magnitude Estimation (ME) etabliert. Bei dieser Messung haben Versuchspersonen die Aufgabe, Nummern dergestalt den Messobjekten zuzuordnen, dass sie Verh¨altnisse zwischen den Wahrnehmungs-Intensit¨aten darstellen. Bspw. kann einer Versuchsperson zun¨achst ein Ton dargeboten werden, dem die Lautheit 10“ vorgege” ben wird. Die Aufgabe der Versuchsperson ist es nun, weiteren T¨onen Zahlen so zuzuordnen, dass doppelt so laute T¨one die Zahl 20“ zugewiesen bekommen, halb ” so laute T¨one dagegen nur die Zahl 5“. ” Die Skalierung kann auch als Summe konstanter Verh¨altnisse angegeben werden, oder als L¨ange einer Linie, die die Versuchspersonen zeichnen m¨ussen. Die ME produziert zwar nicht genau eine Ratio-Skala, ist jedoch bei weitem die am h¨aufigsten angewendete Methode, wenn die Intensit¨at von Wahrnehmungen direkt bestimmt werden soll. Allerdings ist es schwierig, die Skalen zu verankern, da neben der zahlenm¨aßigen Beschreibung keine weiteren Hilfsmittel zur Verf¨ugung stehen.
3.3 Kategorie-Skalierung Eine absolute“ Verankerung der Wahrnehmungen – das heißt eine Verankerung, die ” am Weltwissen und der Erfahrung der Versuchspersonen orientiert ist, wie bspw. eine gute Telefonverbindung“ oder ein sehr lautes Ger¨ausch“ – gelingt besser, wenn ” ” man der Versuchsperson zur Beschreibung der Skalenwerte Attribute an die Hand gibt. Dies ist z.B. der Fall bei der absoluten Kategorien-Zuordnung, engl. Absolute Category Rating, ACR. Hierbei werden die Stimuli in Kategorien eingeordnet, die jeweils verbal mittels Attributen beschrieben sind. Abb. 3.1 zeigt solche Skalen, wie sie zur Beurteilung der Qualit¨at u¨ bertragener Sprache verwendet werden. Zu diesen Skalen existieren viele Varianten, die sich durch die Aufgabenstellung oberhalb der Skala, durch die Anzahl der zur Verf¨ugung gestellten Kategorien, durch die beschreibenden Attribute und/oder durch die Zahlenwerte an den Kategorien unterscheiden. Die Skalen sind sehr popul¨ar, da sie ohne große Schwierigkeiten auch von untrainierten Versuchspersonen benutzt werden k¨onnen. Untersuchungen haben gezeigt, dass die Anzahl der Kategorien, die von Versuchspersonen unterschieden werden k¨onnen, begrenzt ist (McKelvie, 1978); f¨unf bis sieben Kategorien sind gel¨aufig, mehr als 11 Kategorien bringen i.a. keinen zus¨atzlichen Informationsgewinn. Die auf diesen Skalen erhaltenen Urteile weisen jedoch einige Nachteile auf: • Versuchspersonen sind sich in der Interpretation der Kategorien-Attribute nicht unbedingt einig; dies f¨uhrt dazu, dass ein Stimulus, der von einer Versuchsperson als d¨urftig“ (“poor”) bezeichnet wird, bei einer anderen unter die ” Kategorie schlecht“ (“bad”) f¨allt. Untersuchungen zeigen, dass somit jede Ver” suchsperson ihre eigene Interpretation der Skala ausbildet; sie ist dann ein Messorgan mit einem sog. Bias, der u.U. korrigiert werden muss. Allerdings ist die Korrektur problematisch, da hierf¨ur eine wohl definierte Referenz ben¨otigt wird.
44
3 Skalierung
Quality of the speech : Excellent
C
Good
A
Fair
M
Poor
C
Bad
N
P
Abb. 3.1 Skalen zur Beurteilung der Qualit¨at u¨ bertragener Sprache, nach ITU-T Rec. P.800 (1996)
• Das Urteil eines bestimmten Stimulus h¨angt nicht nur vom Stimulus selbst, sondern auch von den vorangegangenen Stimuli ab. So wird ein m¨aßiger Stimulus, der direkt einem hochqualitativen folgt, i.a. schlechter beurteilt, als wenn er einem sehr schlechten folgt. Man bezeichnet dies als Kontext-Effekt. • Die Intervalle, die durch die Kategorien aufgespannt werden, sind meist nicht a¨ quidistant. So zeigt eine Einordnung der Attribute, die die oben stehende Skala verwendet, auf einem Kontinuum, dass die Attribute “poor” und “bad” sehr nahe beieinander liegen, die Attribute “fair” und “poor” jedoch weit auseinander ¨ liegen. Die Position der Attribute ist dar¨uber hinaus auch von der Ubersetzung der Attribute (aus oder in andere Sprachen) abh¨angig, vgl. Abb. 3.2. • Versuchspersonen tendieren dazu, die a¨ ußeren Kategorien seltener zu benutzen, da sie nicht sicher sind, ob noch extremere Stimuli pr¨asentiert werden. Auf der anderen Seite k¨onnen Stimuli u.U. nicht richtig einsortiert werden, wenn sie den Bereich des vorher Geh¨orten u¨ berschreiten, vorher aber schon die extreme Skalenposition verwendet wurde. In diesem Fall tritt eine S¨attigung ein. S¨attigung und Vermeidung der extremen Kategorien sind zwar einander gegenl¨aufige Effekte, allerdings k¨onnen sie insgesamt zu einer Verzerrung der Zahlenwerte auf der Skala f¨uhren. Es wurden daher Skalen entwickelt, die einige der Nachteile zu vermeiden suchen. Eine solche Skala ist in Abb. 3.3 skizziert. Durch die Darstellung als Meter” maß“ soll den Versuchspersonen suggeriert werden, dass die Attribute gleich weit voneinander entfernt sind. An den Enden der Skala gibt es einen d¨unn gezeichneten Bereich, den die Versuchspersonen verwenden sollen, wenn sie noch extremere Wahrnehmungen haben, als sie den End-Attributen im dick gezeichneten Bereich
3.3 Kategorie-Skalierung
45
ottimo
best imaginable
best imaginable
best imaginable
excellent imperceptible
buono good perceptible, but not annoying discreto
fair
slightly annoying
annoying
mediocre cattivo
poor bad
very annoying
worst imaginable
worst imaginable
worst imaginable
Abb. 3.2 Position der Attribute auf einer kontinuierlichen Skala, nach Jones und McManus (1986)
bereits zugewiesen haben. Im Gegensatz zu den in Abb. 3.1 gezeigten KategorienSkalen kann die Skala kontinuierlich benutzt werden; dies soll die Versuchspersonen veranlassen, genauer u¨ ber ihr Urteil nachzudenken. Ob diese Skala tats¨achlich wie beabsichtigt funktioniert ist allerdings noch nicht hinreichend nachgewiesen.
extremely bad
bad
poor
fair
good
excellent
ideal
Abb. 3.3 Kontinuierliche Beurteilungsskala nach Bodden und Jekosch (1996), siehe M¨oller (2000)
Die Urteile, die auf einer Kategorien-Skala gesammelt werden, besitzen also streng genommen nur Ordinalniveau. Deshalb m¨ussten als Ergebnis einer Datenanalyse eigentlich H¨aufigkeiten angegeben werden, mit denen eine bestimmte Kategorie verwendet wurde. Dennoch ist es u¨ blich, die Skalenwerte zu mitteln und einen arithmetischen Mittelwert als mittleres Urteil“ u¨ ber alle Versuchspersonen ” anzugeben. Bezogen auf die oberste in Abb. 3.1 angegebene von der ITU-T empfohlene f¨unfstufige Qualit¨ats-Kategorienskala bezeichnet man diesen Mittelwert als Mean Opinion Score, abgek¨urzt MOS. Man bezeichnet die Skala deshalb auch als MOS-Skala. Neben einer direkten Attributierung der Skalenwerte verwendet man in der Psychologie und empirischen Sozialforschung h¨aufig sog. Likert-Skalen. Dies sind
46
3 Skalierung
Skalen, auf denen pers¨onliche Einstellung durch Zustimmung oder Ablehnung strikt positiv oder negativ formulierter Behauptungen (Items) abgefragt wird. Der Skala liegt die Annahme zugrunde, dass die Versuchsperson die Aussage eines Items umso deutlicher ablehnt, je mehr sie von ihrer pers¨onlichen Einstellung abweicht. Das Urteil kann dabei auf einer kontinuierlichen Skala oder einer einfachen KategorienSkala abgegeben werden. Diese Skalen sind dann wiederum mit Attributen und/oder Zahlen beschriftet. Unten stehende Abbildung zeigt einige Beipiele hierzu. Das System konnte alle meine Fragen beantworten:
trifft zu
trifft nicht zu
Missverständnisse konnten leicht ausgeräumt werden:
trifft zu
trifft nicht zu
trifft zu
trifft nicht zu
trifft zu
trifft nicht zu
Das System hat den Gesprächsverlauf bestimmt: Sie konnten ohne Probleme mit dem System umgehen:
Abb. 3.4 Likert-Skala zur Skalierung der Zustimmung oder Ablehnung zu einer Behauptung
3.4 Kategorie-Ratio-Skalierung Neben der Ratio- und der Kategorie-Skalierung gibt es Ans¨atze, die Vorteile beider Verfahren (Ratio-Eigenschaft auf der einen, einfache absolute“ Skalierung auf ” der anderen Seite) miteinander zu kombinieren. Man gelangt dann zu den von Borg (1982) vorgeschlagenen Category-Ratio-Skalen (CR-Skalen). Diese Skalen assoziieren Zahlenwerte mit verbalen Attributen so, dass zwischen beiden ein ann¨ahernd logarithmischer Zusammenhang entsteht. Die Skala besitzt einen absoluten Nullpunkt (keine Intensit¨at) und einen Maximalpunkt, der die maximale Intensit¨at darstellen soll, die sich die Versuchspersonen vorstellen k¨onnen; dabei wird angenommen, dass dieser Punkt der maximalen Intensit¨at bei allen Versuchspersonen (interindividuell) gleich ist. Die am h¨aufigsten verwendete Borg CR10 Scale ist in Abb. 3.5 gezeigt, sollte aber nicht ohne genauere Instruktionen verwendet werden; Informationen hierzu in der Abbildungsunterschrift. Es sei angemerkt, dass die Category-Ratio-Skala bislang haupts¨achlich zur Skalierung von Anstrengungen und Schmerzen verwendet wurde. Erste Anwendungen zur Skalierung von Qualit¨at oder (invers) Beeintr¨achtigung“ von Telefonkan¨alen ” wurden ebenfalls vorgestellt (M¨oller, 2000), sind aber noch nicht endg¨ultig abgesichert.
3.4 Kategorie-Ratio-Skalierung 0
47
Gar nichts
0,3 0,5
Extrem schwach
K aum merkbar
0,7 1
Sehr schwach
1,5 2
Schwach
L eicht
2,5 3
Mä ß ig
4 5
Stark
S chwer
6 7
Sehr stark
8 9
10
Extrem stark
"Maximal"
11
•
Absolutes Maximum
Höchst
möglich
Borg CR10 skalan® © Gunnar Borg, 1982, 1998, 2004 Deutsch German
Abb. 3.5 Category-Ratio-Skala (Borg CR10 Scale) nach Borg (1982, 1998, 2004). Informationen zur Konstruktion, Benutzung etc. der Skala finden sich bei Borg (1998). Skalen und Instruktionen zur Nutzung der Skala k¨onnen gegen einen Unkostenbeitrag direkt von Dr. G. Borg erhalten werden. E-mail:
[email protected]
48
3 Skalierung
3.5 Multidimensionale Analyse Wenn die interessierenden Qualit¨atsmerkmale noch nicht bekannt sind, so ist es m¨oglich, die perzeptiv relevanten Dimensionen mittels einer multidimensionalen Analyse zu bestimmen. Hierzu werden zwei unterschiedliche Ans¨atze verfolgt oder miteinander kombiniert, die jeweils spezifische Vor- und Nachteile haben. Beide Verfahren bestehen aus einer Verbindung eines Datenerhebungsverfahrens ¨ (Ahnlichkeitsbewertung bzw. Semantisches Differential) mit einem Datenverarbeitungsverfahren (Multidimensionale Skalierung bzw. Hauptkomponentenanalyse), durch welches der Wahrnehmungsraum durch einen Beschreibungsraum niedriger Dimensionalit¨at angen¨ahert wird. Dadurch wird die Vielfalt der Dimensionen des Wahrnehmungsereignisses reduziert und handhabbar. Im Folgenden werden beide Verfahren zun¨achst kurz beschrieben. Im Abschnitt 3.5.3 wird gezeigt, wie man die dabei erhaltenen Dimensionswerte auf integrale Beurteilungswerte abbildet. Eine spezielle Auspr¨agung des Verfahrens zur analytischen Bestimmung der Sprach¨ubertragungsqualit¨at, das sog. Diagnostic Acceptability Measure, wird in Abschnitt 5.7 diskutiert.
¨ 3.5.1 Ahnlichkeitsbewertung und multidimensionale Skalierung Hierbei werden zun¨achst Paare von Stimuli bzgl. ihres perzeptiven Abstandes bewertet. D.h. den Versuchspersonen wird die Aufgabe gestellt, den Abstand zweier Stimuli zu skalieren, z.B. auf einer bipolaren Skala mit den Attributen a¨ hnlich“ und ” un¨ahnlich“, oder durch Angabe eines Zahlenwertes. Die Abst¨ande werden nun mit” tels eines iterativen Prozesses in einem Raum m¨oglichst geringer Dimensionalit¨at abgebildet. Dabei wird versucht, die perzeptiven Un¨ahnlichkeiten zwischen den Stimuli in Euklidische Distanzen eines Beschreibungsraumes zu transformieren. Man bezeichnet dieses Verfahren als Multidimensionale Skalierung, MDS. Die Dimensionalit¨at des Raumes h¨angt dabei stark von Stimulusmaterial ab. Als G¨utekriterium daf¨ur, wie gut die Stimuli in den Raum der entsprechenden Dimensionalit¨at passen, ohne dass die Abst¨ande der Stimuli untereinander verzerrt werden, werden der Anteil an abgedeckter Varianz der experimentellen Daten oder der sog. Stress verwendet. Der Raum ist bis auf Rotationen, Spiegelungen und Verschiebungen fixiert. D.h. umgekehrt auch, dass er zur Vereinfachung der Interpretation noch gedreht werden kann, sodass er die Stimuli m¨oglichst gut beschreibt. Als Ergebnis erh¨alt man eine Anordnung der Stimuli im Raum, zusammen mit ihren Faktorladungen“, d.h. den Koordinaten entlang der Dimensionen des Raumes. ” Die Aufgabe des Versuchsleiters ist es nun, die Dimensionen zu interpretieren, und dies kann nur mit Hilfe der Stimuli selbst geschehen, da die Achsen (Dimensionen) selbst keine Namen tragen. Dies kann eine komplizierte Aufgabe sein. Abb. 3.6 zeigt ein Beispiel einer solchen Anordnung, welche sich f¨ur verschiedenartig gest¨orte Sprachstimuli ergab, sowie eine m¨ogliche Interpretation der drei extrahierten Dimensionen.
3.5 Multidimensionale Analyse
49 F : Direktheit / 1 Frequenzgehalt CN
F : Kontinuierlichkeit 2
Noisy
F 3 : Rauschhaftigkeit
2 HN 1
C2
F3 H
0
HNR2
FL HNR1
C4 C3 C1
I3
I1
-1
Not noisy Continuous
BP
I2
1
2
0
F2
1 -1
Interrupted
0 -1
-2 -2
Direct, bright
F1
Indirect, dark
Abb. 3.6 Ergebnis einer MDS von verschiedenartig gest¨orten Sprachstimuli, nach W¨altermann et al. (2006). BP: Bandpass; C1-C4: Codecs; CN: Leitungsrauschen (Circuit Noise); FL: flache ¨ Ubertragungsfunktion; H: Freisprecher (Hands Free Terminal); HN: Freisprecher mit Hintergrundger¨ausch (Noise); HNR1-2: Freisprecher mit Hintergrundger¨ausch und St¨orger¨auschunterdr¨uckung (Noise Reduction); I1-I3: Unterbrechungen (Interruptions).
Die Dimensionen k¨onnen von der Versuchsperson abh¨angen. Deshalb verwendet man oftmals das sog. INDSCAL (INDividual SCALing) zur Bestimmung der Faktoren unter Ber¨ucksichtigung der einzelnen Versuchspersonen. Man erh¨alt dann – zus¨atzlich zur Repr¨asentation der Stimuli im Raum – auch eine Repr¨asentation der Versuchspersonen in einem Raum gleicher Dimensionalit¨at; diese zeigt dann die Wichtigkeit“ der Dimensionen f¨ur die einzelnen Versuchspersonen an. Der Raum ” ist dann allerdings rotations-invariant. Der Vorteil der multidimensionalen Skalierung ist, dass den Versuchspersonen keine Merkmale vorgegeben werden, sondern dass sich diese aus den Stimuli sozusagen selbst entwickeln. Daher kann man (anders als beim zweiten Verfahren) sicher sein, auch alle f¨ur das Stimulusmaterial relevanten Dimensionen zu erfassen. ¨ Die perzeptiven Dimensionen enthalten – da sie aus einer Ahnlichkeitsmatrix gebildet wurden – noch keine Informationen u¨ ber die Pr¨aferenz der Versuchspersonen bzgl. einzelner Dimensionen. Mittels einer Transformation auf Qualit¨atsurteile, die in einem weiteren H¨orversuch (z.B. auf der MOS-Skala, vgl. Abschnitt 3.3) gesammelt wurden, k¨onnen jedoch die Zusammenh¨ange zwischen den perzeptiven Dimensionen der multidimensionalen Skalierung und der Qualit¨at ermittelt werden. Verfahren hierzu finden sich in Abschnitt 3.5.3.
50
3 Skalierung
3.5.2 Semantisches Differential und Hauptkomponentenanalyse Dieses von Osgood et al. (1957) entwickelte Verfahren beruht auf einer vordefinierten Anzahl von Skalen, die die zu untersuchende Messgr¨oße (z.B. die Qualit¨at der angebotenen Sprachstimuli) m¨oglichst gut erfassen. Die entsprechenden Skalen entwickelt man am besten in einem Vorversuch, bei dem man Versuchspersonen die Stimuli vorspielt und nach geeigneten Attributen zu ihrer Beschreibung sucht. Sobald die beschreibenden Attribute festgelegt sind wird f¨ur jedes Attribut eine Skala gebildet. Diese kann z.B. an den Endpunkten mit antonymen (gegens¨atzlichen) Attributen beschriftet sein (z.B. laut-leise), oder es kann sich um einen Begriff (z.B. Lautst¨arke) handeln, der in seiner Auspr¨agung skaliert werden soll. Wichtig ist, dass jede Skala eine eindeutige Dimension enthalten sollte, die von den Versuchspersonen konsistent und eindeutig verstanden wird. Die Aufgabe der Versuchspersonen ist es nun, alle Stimuli auf allen Skalen zu beurteilen, also eine absolute Zuordnung auf der Skala. Die Ergebnisse k¨onnen als sog. Polarit¨atsprofil dargestellt werden, d.h. f¨ur jeden Stimulus kann ein Profil von Urteilen erstellt werden, die den Stimulus charakterisieren. Daneben k¨onnen die Ergebnisse auch einer Hauptkomponentenanalyse (Principle Component Analysis, PCA) unterzogen werden. Dabei entsteht wiederum ein perzeptiver Raum, der den – hier allerdings von den Skalen – aufgespannten Bereich mit einer m¨oglichst geringen Anzahl an Komponenten (Dimensionen) beschreibt. Die Dimensionen k¨onnen hier allerdings besser interpretiert werden, da sie mit beschreibenden Attributen (und nicht mit unbeschrifteten Stimuli) versehen sind. Der Nachteil des semantischen Differentials ist die Tatsache, dass nur solche Qualit¨atsmerkmale erfasst werden k¨onnen, die vorab schon auf Skalen definiert wurden. Deshalb kommt der Skalenauswahl eine besondere Bedeutung zu. Man f¨uhrt deshalb bei unbekannten Stimuli zun¨achst eine Reihe von Vorversuchen durch, um relevante Attribute zur Beschreibung der Stimuli zu finden. Diese Vorversuche k¨onnen durchaus sehr umfangreich sein, vgl. z.B. die Arbeit von Mattila (2001) zur ¨ Analyse der Qualit¨at von Mobilfunk-Ubertragungsstrecken. Genauere Beschreibungen beider Verfahren findet man z.B. bei Sch¨afer (1983) und bei Carroll (1972). Anwendungsbeispiele beider Verfahren finden sich z.B. ¨ bei Mattila (2001, 2002), der damit Mobilfunk-Ubertragungsstrecken untersuchte, oder bei W¨altermann et al. (2009), der den perzeptiven Raum moderner (auch IP¨ basierter) Ubertragungsstrecken analysierte.
3.5.3 Pr¨aferenz-Mapping Mit beiden o.a. Verfahren erh¨alt man f¨ur jeden Stimulus eine Zerlegung in L Dimensionen. Diese Dimensionen sind hilfreich zur Charakterisierung des Wahrnehmungsereignisses, sagen aber noch nichts u¨ ber die Wichtigkeit der Dimensionen bzgl. des Qualit¨atsereignisses aus. Man kann deshalb versuchen, die Ergebnisse der
3.6 Auswertung skalierter Messergebnisse
51
Dimensionsanalyse auf direkte Qualit¨atsurteile abzubilden, wie man sie auf einer Gesamtqualit¨atsskala (bspw. der MOS-Skala) erh¨alt. Man bezeichnet diese Abbildung als externes Pr¨aferenz-Mapping. Es beschreibt die Gewichtung der einzelnen Wahrnehmungs-Dimensionen in Bezug auf das Qualit¨atsereignis. Diese Gewichtung ist vor allem deshalb interessant, weil sie die Bedeutung der Wahrnehmungsdimensionen f¨ur die Qualit¨at beschreibt. Prinzipiell sind unterschiedliche – lineare und nichtlineare – Abbildungsfunktionen denkbar. In der Praxis relevant sind vor allem zwei Modelle, die den Einfluss einer Dimension auf die Qualit¨at beschreiben: • Vektormodell: Bei diesem Modell besteht ein monotoner Zusammenhang zwischen dem Dimensionswert und der Qualit¨at: je mehr desto besser“ oder je ” ” weniger desto besser“. Beispiele f¨ur solche Dimensionen sind z.B. die Rauschhaftigkeit bei Sprachsignalen, oder die Blockbildung bei Videosignalen. • Idealpunktmodell: Bei diesem Modell gibt es f¨ur die betrachtete Dimension einen idealen Punkt, bei dem die Qualit¨at optimal ist. Gr¨oßere und kleinere Dimensionswerte f¨uhren zu einer Qualit¨atsbeeintr¨achtigung. Bspw. gibt es bei der Sprach¨ubertragung eine ideale (oder bevorzugte) Lautheit; zu laute und zu leise ¨ Ubertragungen werden als schlechter eingestuft. Ebenso gibt es f¨ur die Interaktion mit einem Dialogsystem eine ideale Dialogl¨ange; zu kurze oder zu lange Dialoge sind suboptimal. Welches Modell geeignet ist h¨angt nat¨urlich von der betrachteten Dimension ab. In beiden F¨allen k¨onnen lineare oder nichtlineare Zusammenh¨ange angenommen werden. Als Kriterium f¨ur die optimale Wahl der Abbildungsfunktion wird normalerweise der Anteil abgedeckter Varianz in den Qualit¨atsurteilen herangezogen, welcher mit einem Modell minimaler Komplexit¨at (und daher mit minimalen Freiheitsgraden) erzielt werden kann. Obwohl solche multidimensionalen Analysen hoch diagnostische Ergebnisse liefern k¨onnen, so haben sie sich in der Praxis nicht als Standard-Testverfahren durchgesetzt, wohl wegen des hohen Aufwandes. In der wissenschaftlichen Arbeit sind sie dagegen von großer Bedeutung, insbesondere wenn neue Wahrnehmungsereignisse vermessen“ (und nicht unbedingt gemessen“) werden m¨ussen. Dar¨uber hin” ” aus eignen sich dimensionsbasierte Analysen auch als Ansatz der instrumentellen Qualit¨atsbeurteilung; Verfahren hierzu werden in Kapitel 9 angerissen.
3.6 Auswertung skalierter Messergebnisse Die auf den verschiedenen Skalen erhaltenen Ergebnisse m¨ussen analysiert werden, um Aussagen u¨ ber das Wahrnehmungs- und das Qualit¨atsereignis zu treffen. Dazu werden die Urteile der Versuchspersonen zun¨achst in Zahlenwerte umkodiert. Bei einigen Skalen sind diese Werte bereits durch die grafische Gestaltung vorgegeben, bspw. die Zuordnung 5 = ausgezeichnet“, 4 = gut“, 3 = ordentlich“, 2 = d¨urf” ” ” ” tig“ und 1 = schlecht“ bei der MOS-Skala. Bei anderen Skalen ist die Zuordnung ”
52
3 Skalierung
arbitr¨ar und muss vom Versuchsleiter festgelegt werden. Dabei muss auf die Kodierung der Bedeutung geachtet werden. So kann es vorteilhaft sein, wenn positive oder negative Bedeutungen der Urteile jeweils mit denselben (positiven oder negativen) Zahlenwerten belegt werden. Zur Vereinfachung der Analyse werden die Zahlenwerte zun¨achst in Tabellen eingegeben. Diese Tabellen sollten neben den Urteilen auch alle weiteren f¨ur das Urteil relevanten Randbedingungen enthalten. Dies betrifft insbesondere die Eigenschaften der Versuchsperson (Identifizierung, Geschlecht, Alter, Erfahrung, etc.), des Stimulus, auf den sich das Urteil bezieht (Systemkonfiguration, Quellmaterial, etc.) sowie des Tests (Reihenfolge im Test, Szenario, Versuchsleiter, Raum, etc.). All diese Eigenschaften k¨onnen n¨amlich einen Einfluss auf das Ergebnis aus¨uben, und dieser Einfluss muss bei der Datenanalyse u¨ berpr¨uft werden. Die Datenanalyse erfolgt zun¨achst deskriptiv, d.h. man schaut sich die Verteilung der Daten an und u¨ berpr¨uft sie auf inhaltliche Plausibilit¨at (z.B. negative Werte bei Alter?) und ihre Verteilungsform (z.B. Normalverteilung, Gleichverteilung, etc.). F¨ur viele statistische Tests ist n¨amlich eine bestimmte Verteilung der Beobachtungen entscheidend. So lassen sich parametrische Tests i. Allg. nur bei Normalverteilung der interessierenden Variablen sinnvoll anwenden; anderenfalls sollten nichtparametrische Tests verwendet werden. Auch sind manche Kennwerte (Mittel¨ wert, Varianz) nur bei Normalverteilung sinnvoll zu interpretieren. Zur Uberpr¨ ufung der Verteilungsform steht eine Reihe von statistischen Verfahren zur Verf¨ugung; Details finden sich z.B. bei Bortz (2005). Neben der Verteilung werden statistische Kennwerte berechnet, wie der Mittelwert, der Median, die Standardabweichung und Varianz, Minima und Maxima, etc. Eine geeignete Darstellung sind sogenannt Boxplots, mit Hilfe derer sich auch Ausreißer, die ggf. das Ergebnis verf¨alschen, identifizieren lassen. Dieser ersten Datenaufbereitung wird in der Praxis mitunter zu wenig Aufmerksamkeit geschenkt. Da selten die Beurteilungen einzelner Versuchspersonen von Interesse sind verwendet man zur weiteren Analyse gern die Mittelwerte der Urteile, teilweise auch die Mediane. Dies tut man, obwohl die im Versuch verwendeten Skalen in den wenigsten F¨allen ein strenges Intervallniveau zeigen. Bei groben Abweichungen sollte man allerdings lieber H¨aufigkeitsverteilungen der Urteile angeben; diese lassen sich dann leider nur sehr schwer weiter analysieren. In der Praxis interessiert meist, ob eine Eigenschaft der Versuchsperson, des Stimulus oder des Tests einen signifikanten Einfluss auf das Urteil aus¨ubt. Bei normalverteilten Variablen werden dazu die Mittelwerte f¨ur unterschiedliche Auspr¨agungen der interessierenden Variablen miteinander vergleichen. Bei nur zwei Auspr¨agungen der interessierenden Eigenschaft, normalverteilten Urteilen und Gruppen mit homogener Varianz bietet sich der t-Test f¨ur gepaarte oder unabh¨angige Stichproben an. Mit ihm wird anhand einer Pr¨ufgr¨oße t u¨ berpr¨uft, ob die Nullhypothese H0 , dass sich die Urteile der Versuchspersonen bzgl. der zu untersuchenden Eigenschaft nicht unterscheiden, abgelehnt werden kann. Sofern die Irrtumswahrscheinlichkeit p kleiner ist als das gew¨ahlte Signifikanzniveau α (in der Regel 0,05), kann die Nullhypothese H0 abgelehnt werden, d.h. man geht davon aus, dass sich die Urteile der Versuchspersonen f¨ur beide Auspr¨agungen in der Gesamtpopulation
3.6 Auswertung skalierter Messergebnisse
53
(d.h. bei allen Nutzern, auch bei denen, die man nicht befragt hat) wahrscheinlich unterscheiden. p wird aus der Pr¨ufgr¨oße t unter Annahme einer t-Verteilung ermittelt. Stammen die Urteile f¨ur beide Auspr¨agungen von derselben Versuchsperson, so verwendet man den Test f¨ur gepaarte Stichproben, stammen sie von verschiedenen Personen, so verwendet man den Test f¨ur unabh¨angige Stichproben. Bei mehr als einer Auspr¨agung der interessierenden Variablen, oder bei gleichzeitigem Einfluss mehrerer Variablen, verwendet man bei normalverteilten metrischen Variablen mit homogener Varianz die Varianzanalyse (Analysis of Variance, ANOVA). Diese u¨ berpr¨uft, ob (und gegebenenfalls wie) sich die Mittelwerte der verschiedenen Auspr¨agungen (Gruppen) unterscheiden. Die Variable, anhand derer die Gruppen gebildet wurden, z.B. Anf¨anger“ gegen¨uber Experten“, wird ” ” als unabh¨angige Variable bezeichnet, die Messwerte, die u¨ berpr¨uft werden, als abh¨angige Variable (z.B. Qualit¨atsurteil), da die Messwerte sich abh¨angig von der Gruppenzugeh¨origkeit ver¨andern sollten. Mit den Pr¨ufgr¨oßen des Verfahrens wird getestet, ob die Varianz zwischen den Gruppen (Between Groups) gr¨oßer ist als die Varianz innerhalb der Gruppen (Within Group). Dadurch wird ermittelt, ob sich die abh¨angigen Variablen zwischen den Gruppen signifikant unterscheiden oder nicht. Wenn sie sich signifikant unterscheiden, so kann angenommen werden, dass die Gruppenzugeh¨origkeit einen relevanten Einfluss auf die Auspr¨agung der Messwerte hat. Die Art der Gesetzm¨aßigkeit muss allerdings vom Experimentator ermittelt werden. Bspw. k¨onnen sich die Urteile der Versuchspersonen bzgl. des Merkmals System“ unterscheiden, wenn mehrere unterschiedliche Systemvarianten getestet ” wurden. Dies deutet darauf hin, dass das Urteil in der Tat durch das System beeinflusst wurde. Gleichzeitig k¨onnten aber auch ungewollte Effekte auftreten, bspw. dass sich die Urteile bzgl. der Merkmals Versuchsraum“ unterscheiden. Solche Ef” fekte k¨onnen auf Probleme in Versuchsaufbau hindeuten und sollten gr¨undlich ana¨ lysiert werden, bevor weitere Schl¨usse aus den Ergebnissen gezogen werden. Ahnlich bedeutet eine nicht-signifikante Varianzanalyse nicht automatisch, dass der Faktor Systemvariante“ keinen Einfluss hat, sondern es k¨onnten weitere Unterschiede ” innerhalb der Gruppen eine Rolle spielen, die bei der Auswertung nicht ber¨ucksichtigt wurden, etwa der Faktor Geschlecht“. Hier bietet sich die Hinzunahme eines ” weiteren Faktors an, wie im Folgenden erl¨autert wird. Unterschiedliche Formen der Varianzanalyse stehen zur Verf¨ugung. Bei der einfaktoriellen ANOVA wird der Einfluss einer unabh¨angigen Variablen (Faktor) in k Auspr¨agungen auf die abh¨angige Variable (beobachtete Messwerte) u¨ berpr¨uft. Sofern das Ergebnis signifikant ist, weiss man, dass sich die Werte der abh¨angigen Variablen im Prinzip signifikant zwischen den Auspr¨agungen der unabh¨angigen Variablen unterscheiden. Allerdings weiss man nicht, welche Auspr¨agungen sich konkret unterscheiden; dies kann z.B. mittels eines Post-Hoc-Tests u¨ berpr¨uft werden, der einzelne Paare der Auspr¨agungen auf einen signifikanten Unterschied testet. H¨aufig gibt es zu einer abh¨angigen Variablen mehrere unabh¨angige Einflussfaktoren. Man kann dann eine zweifaktorielle oder allgemein mehrfaktorielle ANOVA durchf¨uhren. Dabei kann es zu Interaktionen zwischen den Einflussfaktoren kommen, d.h. der Einfluss kann nur durch eine spezifische Kombination von Faktoren
54
3 Skalierung
gekl¨art werden. Dies wird dann durch ein signifikantes Ergebnis eines Interaktionsterms (z.B. Faktor 1 · Faktor 2) angezeigt. F¨ur mehrere abh¨angige Variablen kann man analog eine Multivariate Analysis of Variance (MANOVA) durchf¨uhren. Zu Vorteilen einer MANOVA gegen¨uber mehreren (univariaten) ANOVAs vgl. Bortz (2005). Man unterscheidet allgemein zwischen festen Faktoren, d.h. Faktoren, bei denen die f¨ur das Experiment erstellten Gruppen als ersch¨opfend gelten k¨onnen (bspw. Geschlecht oder Unterteilung der Stichprobe in j¨unger als 30“ gegen¨uber a¨ lter als ” ” 30“), und zuf¨alligen Faktoren, welche beliebige Auspr¨agungen annehmen k¨onnen und deren konkrete Umsetzung im Versuch als zuf¨allig angesehen wird (bspw. die Wahl des Versuchsleiters). In manchen F¨allen l¨asst sich eine Variable wahlweise als fester oder zuf¨alliger Faktor festlegen, und je nach Festlegung unterscheidet sich die Interpretation der Ergebnisse: Liegt bei einem festen Faktor ein signifikantes Ergebnis vor, so kann man daraus ableiten, dass die konkret untersuchten Auspr¨agungen einen signifikanten Einfluss auf die abh¨angige Variable haben (es macht etwa einen Unterschied, ob der Versuch von Versuchsleiter A oder Versuchsleiter B durchgef¨uhrt wurde). Liegt bei einem zuf¨alligen Faktor ein signifikantes Ergebnis vor, so kann man daraus ableiten, dass dieser Faktor grunds¨atzlich bzw. immer einen Einfluss hat. Sofern Abh¨angigkeiten zwischen Messwerten vorkommen (bspw. weil die Messwerte von derselben Versuchsperson stammen), so sollte man ein Design mit Messwiederholung anwenden. Abh¨angigkeiten zwischen zwei Variablen kann man auch mittels einer Korrelationsanalyse untersuchen. Die Korrelation gibt den Grad der linearen Abh¨angigkeit zwischen zwei Variablen an. Sofern die Variablen intervallskaliert und normalverteilt oder dichotom sind eignet sich der Korrelationskoeffizient nach Pearson; bei ordinalskalierten Variablen kann man stattdessen die Rangkorrelation nach Spearman oder – besser noch – Kendall’s Tau berechnen. Wird eine gleichzeitige (unerw¨unschte) Abh¨angigkeit mehrerer Variablen untereinander angenommen, so k¨onnen stattdessen partielle Korrelationen berechnet werden. Den Einfluss mehrerer unabh¨angiger Variablen auf eine abh¨angige Variable kann man mit Hilfe der Regressionsanalyse untersuchen. Bei der linearen Regression wird eine Gleichung gesucht, die die Werte der abh¨angigen Variablen als Linearkombination der unabh¨angigen Variablen vorhersagt. Sofern die Variablen normiert sind, beschreiben die Vorfaktoren die Wichtigkeit“ der unabh¨angigen Variablen ” f¨ur den Wert der abh¨angigen Variablen (Standardized Coefficients). Die Modellg¨ute wird meist durch den Grad der Varianzabdeckung R2 , h¨aufig korrigiert bzgl. der Anzahl der in die Regressionsgleichung eingegangenen Vorhersagevariablen auch als R2ad justed , angegeben. Gerade bei kleinen Stichproben und einer großen Anzahl m¨oglicher Vorhersagevariablen besteht n¨amlich die Gefahr, dass die Regressionsgleichung weniger generelle, sondern lediglich stichprobenspezifische Zusammenh¨ange abbildet. In der Regel ist man aber an einem generellen Modell, das auch f¨ur neue“ Stichproben gilt, interessiert. ”
Literaturverzeichnis
55
Literaturverzeichnis Bodden M, Jekosch U (1996) Entwicklung und Durchf¨uhrung von Tests mit Versuchspersonen zur Verifizierung von Modellen zur Berechnung der Sprach¨ubertragungsqualit¨at. Projektbericht, Institut f¨ur Kommunikationsakustik, Ruhr-Universit¨at, Bochum Borg G (1982) A category scale with ratio properties for intermodal and interindividual comparisons. In: Geissler HG, Petzold P (Hrsg) Psychophysical Judgment and the Process of Perception, VEB Deutscher Verlag der Wissenschaften, Berlin, S 25–34 Borg G (1998) Borg’s Perceived Exertion and Pain Scales. Human Kinetics, Champaign IL Borg G (2004) Principles in scaling pain and the Borg CR Scales. Psychologica 37:35–47 Bortz J (2005) Statistik f¨ur Sozialwissenschaftler. Springer, Berlin Carroll J (1972) Multidimensional Scaling – Theory and Applications in the Behavioral Sciences, Vol I – Theory, Seminar Press, New York NY, Kapitel Individual Differences and Multidimensional Scaling, S 105–155 ITU-T Rec. P.800 (1996) Methods for Subjective Determination of Transmission Quality. International Telecommunication Union, Genf Jones BL, McManus PR (1986) Graphic scaling of qualitative terms. J Soc of Motion Picture and Television Eng 95:1166–1171 Mattila VV (2001) Perceptual Analysis of Speech Quality in Mobile Communications. Dissertation, Vol. 340, Tampere University of Technology, Tampere Mattila VV (2002) Ideal point modelling of speech quality in mobile communications based on multidimensional scaling. In: Proc. 112th Audio Engineering Society (AES) Convention, M¨unchen, paper 5546 McKelvie SJ (1978) Graphic rating scales – how many categories? Br J Psychol 69:185–202 M¨oller S (2000) Assessment and Prediction of Speech Quality in Telecommunications. Kluwer Academic Publ., Boston MA Osgood CE, Suci G, Tannenbaum P (1957) The Measurement of Meaning. University of Illinois Press, Urbana Sch¨afer B (1983) Enzyklop¨adie der Psychologie, Verlag f¨ur Psychologie Dr. C. J. Hogrefe, G¨ottingen, Kapitel Semantische Differential Technik, S 154–221 Stevens SS (1946) On the theory of scales of measurement. Science 103(2684):677–680 W¨altermann M, Scholz K, Raake A, Heute U, M¨oller S (2006) Underlying quality dimensions of modern telephone connections. In: Proc. 9th Int. Conf. on Spoken Language Processing (Interspeech 2006 – ICSLP), Pittsburgh PA, S 2170–2173 W¨altermann M, Raake A, M¨oller S (2009) Quality dimensions of narrowband and wideband speech transmission. Acta Acustica United with Acustica Zur Ver¨offentlichung angenommen
Kapitel 4
Usability Engineering
Eine Definition von Usability wurde bereits in Abschnitt 1.2 gegeben. Lt. der International Organization for Standardization ISO wurden dort Effektivit¨at, Effizienz und Zufriedenheit als Hauptaspekte benannt, wobei die Zufriedenheit allerdings eher als Konsequenz denn als Voraussetzung guter Gebrauchstauglichkeit gesehen wurde. Dar¨uber hinaus wurde Usability aber auch als einer unter vielen Qualit¨atsaspekten verstanden und in eine Taxonomie m¨oglicher Qualit¨atsaspekte eingeordnet. Grundlagen der Messung und Skalierung von Qualit¨at wurden in den Kapiteln 2 und 3 behandelt. In diesem Kapitel sollen nun Verfahren vorgestellt werden, mit denen Usability oder allgemeiner Qualit¨at bereits bei der Entwicklung neuer Systeme und Dienste ber¨ucksichtigt und optimiert werden kann. Ein solches Vorgehen ist vorteilhaft, da die L¨osung von Usability-Problemen bei einem fertig entwickelten System bestenfalls schwierig und teuer, schlechtestenfalls unm¨oglich ist. Falsche Entscheidungen im Systementwurf lassen sich n¨amlich nur zu einem gewissen Grade sp¨ater wieder korrigieren. Aus diesem Grunde ist es notwending, alle Punkte des Systementwicklungsprozesses dahingehend zu beleuchten, ob dort f¨ur die Usability relevante Entscheidungen getroffen werden, und Methoden anzugeben, mit deren Hilfe diese Entscheidungen im Sinne einer optimalen Usability getroffen werden k¨onnen. Dies f¨uhrt zum sog. Usability Engineering Lifecycle, welcher im folgenden Abschnitt vorgestellt wird. In den weiteren Abschnitten dieses Kapitels gehen wir durch diesen Zyklus und stellen zu jeder Phase Usability-relevante Fragestellungen und Methoden vor. F¨ur dieses Vorgehen hat sich der von Nielsen (1993) vorgeschlagene Begriff Usability Engineering gepr¨agt. Er zeigt, dass richtig verstandene Usability nicht nur eine Frage der Analyse ist, bei der Methoden der Psychologie, Psychophysik und Soziologie zur Anwendung kommen, sondern prim¨ar auch eine Frage der Synthese, d.h. der Planung und Implementierung w¨ahrend des Entwicklungsprozesses informations- und kommunikationstechnischer (IKT-) Systeme. Im Folgenden werden wir die Schritte der Entwicklung anhand des Beispiels interaktiver IKT-Systeme abhandeln; ein a¨ hnliches Vorgehen ist aber auch zur Optimierung der Qualit¨at von ¨ Ubertragungssystemen sinnvoll, weshalb man dort analog von Quality Enginee-
57
58
4 Usability Engineering
ring sprechen k¨onnte. Detaillierte Methoden f¨ur einzelne Systemtypen werden in den Kapiteln 5 bis 9 behandelt. Die folgenden Ausf¨uhrungen basieren weitgehend auf Nielsen (1993).
4.1 Usability Engineering Lifecycle Um eine optimale Usability zu gew¨ahrleisten, m¨ussen bereits vor dem Systementwurf Vorkehrungen getroffen werden. So m¨ussen die augenblickliche Situation, die Anforderungen der Nutzer, ihr Verhalten und das Benutzungsumfeld analysiert werden, und daraus Anforderungen und Ziele bez¨uglich verschiedener UsabilityMetriken festgelegt werden. Diese Ziele dienen nach erfolgter Implementierung ei¨ ner quantitativen Uberpr¨ ufung des Erfolgs. Auch der finanzielle Rahmen f¨ur den Einsatz von Usability-Engineering-Praktiken kann abgesteckt werden; insbesondere vor dem Design sind diese Praktiken sehr preiswert einzusetzen, da noch keine ¨ Anderungen am System notwendig sind. Nach erfolgter Analyse geht es dann in das Systemdesign. Dieses ist von zentraler Bedeutung, werden doch hier die Grundlagen f¨ur eine gute Mensch-Maschine-Interaktion gelegt. Ein oder mehrere DesignVorschl¨age werden anschließend in Prototypen umgesetzt, welche bez¨uglich der Usability evaluiert werden k¨onnen. Hierzu bestehen zwei M¨oglichkeiten: Zum einen verschiedene Methoden der expertenbasierten Evaluierung, zum anderen Tests mit Nutzern. Beide Verfahren werden typischerweise parallel bzw. alternierend eingesetzt und liefern Hinweise auf Usability-Probleme sowie Verbesserungsm¨oglichkeiten. Diese werden im iterativen Design umgesetzt, welches u.U. mehrere Zyklen von Re-Design und Evaluierung umfasst. Anschließend kann das neue System oder der neue Dienst im Feld (d.h. in der Praxis) benutzt werden. R¨uckmeldungen vom Feld gestatten eine weitere iterative Optimierung und liefern Ideen f¨ur zuk¨unftige Generationen dieses und anderer Systeme und Dienste.
Prototyping
Design
Analysis
Expert Evaluation
Feedback from Field
Abb. 4.1 Phasen des Usability Engineering Lifecycle
Empirical Testing Iterative Design
4.2 Analyse
59
Diese Phasen sind in Abb. 4.1 im sog. Usability Engineering Lifecycle dargestellt. In den folgenden Abschnitten werden die f¨ur die Usability wichtigsten Fragestellungen und Methoden, die in den entsprechenden Phasen auftreten, dargestellt.
4.2 Analyse Die Analyse umfasst den Benutzer mit seinen Eigenschaften und Anforderungen, die Aufgabe, die mit Hilfe des Systems oder Dienstes gel¨ost werden soll, das System sowie vergleichbare und traditionelle Systeme und Dienste, sowie das physikalische und soziale Benutzungsumfeld, vgl. Abb. 4.2. Dabei sollte der Benutzer nicht notwendigerweise allein betrachtet werden, sondern innerhalb seines Umfeldes, welches z.B. Systemadministratoren, Support etc. mit einschließen kann.
Physical and Social Environment New System
Tasks
Existing Systems
Users
Traditional Devices
Abb. 4.2 Betrachtete Aspekte in der Analysephase
Wissen u¨ ber individuelle Nutzereigenschaften ist von entscheidender Bedeutung, da diese Nutzereigenschaften die grundlegenden Systemeigenschaften bestimmen. So k¨onnen durch Kenntnis der Erfahrung, des Bildungsstandes und des Alters potentieller Nutzer ihre potentiellen Schwierigkeiten bei der Nutzung antizipiert werden, und die grunds¨atzlich m¨ogliche Komplexit¨at des Systems kann abgesch¨atzt werden. Grundlegende Kenntnisse verlangen u.U. nach grundlegenden Designentscheidungen. Bspw. k¨onnen bei Kindern als Nutzern nicht unbedingt hohe Erwartungen an das Lese- und Sprachverst¨andnis gestellt werden; daher sind f¨ur diese Gruppe u.U. nicht-sprachliche, grafische Schnittstellen von Vorteil. Auch kann abgesch¨atzt werden, wie viel Zeit Nutzer wom¨oglich in das Erlernen der Schnittstelle investieren werden. Bei einem System, welches h¨aufig (z.B. beruflich) eingesetzt wird, ist diese Lernspanne l¨anger als bei einem System, welches nur sporadisch von verschiedenen Personen verwendet wird. Bei der Analyse sollte der Nutzer nicht als statisches System verstanden werden. Durch die Benutzung ver¨andert er sich, er wird vom Novizen“ zum Exper” ” ten“. Diese Entwicklung sollte im Systemdesign ber¨ucksichtigt werden. Bei einem Sprachdialogsystem k¨onnen bspw. Abk¨urzungen“ vorgesehen werden, die erfahre” ne Benutzer nehmen werden, um die Interaktion zu beschleunigen; demgegen¨uber
60
4 Usability Engineering
werden sich unerfahrene Nutzer u.U. lieber vom System leiten lassen. In diesem Beispiel kann das dazu f¨uhren, dass das System Unterbrechungen seiner Prompts durch den Nutzer (sog. Barge-In) erlaubt, und dass der Nutzer mehr Informationen spezifizieren kann, als im Systemprompt abgefragt werden (sog. Mixed-Initiative). Beobachtet man Nutzer, so wird man feststellen, dass sie das System nicht immer so verwenden, wie es vom Designer intendiert war. Z.B. wird eine automatische Ticket-Hotline nicht nur dazu verwendet, Konzertkarten zu kaufen, sondern auch dazu, sich u¨ ber Auftrittsorte und -zeiten zu informieren. W¨ahrend der Analyse sollte daher versucht werden, m¨ogliche alternative Nutzungsszenarien zu antizipieren, oder diese durch Beobachtung existierender Dienste zu ergr¨unden. Der Nutzer bewegt sich in einem physikalischen und sozialen Kontext. Dieser Kontext hat Auswirkungen auf die Benutzung des Systems. Bspw. k¨onnen offene B¨uroumgebungen oder ger¨auschbehaftete Umgebungen die Nutzung eines sprachbasierten Dienstes einschr¨anken. Diese Einschr¨ankung ist nicht nur physikalisch (durch L¨arm) begr¨undet; der Nutzer mag sich auch unwohl dabei f¨uhlen, B¨urokollegen zu st¨oren, oder ihm mag es komisch vorkommen, im Beisein anderer Menschen ein System u¨ ber Sprache zu steuern. Neue Systeme sind nur in den seltensten F¨allen wirklich neu. So kann die Aufgabe, die mit Hilfe eines neuen Systems gel¨ost werden kann, meist auch auf anderem Wege – konventionell – gel¨ost werden. Es ist wichtig, diese konventionellen L¨osungsm¨oglichkeiten zu kennen, da diese u.U. das mentale Modell“, welches ” sich der Nutzer von einem neuen System macht, beeinflussen. Die konventionellen L¨osungsm¨oglichkeiten sind u.U. nicht perfekt, und deshalb kann anhand der Strategien, die der Benutzer dabei einsetzt (einschließlich m¨oglicher Umwege, die er geht) auf notwendige oder w¨unschenswerte Eigenschaften des neuen Systems geschlossen werden. Auch sollten explizit kompetitive Systeme, die gleiche oder a¨ hnliche Aufgaben l¨osen, untersucht werden. Aus den St¨arken und Schw¨achen dieser Systeme k¨onnen wichtige R¨uckschl¨usse f¨ur das neu zu entwickelnde System gezogen werden. Handelt es sich dabei um computerbasierte Systeme, so sollten die entsprechenden Nutzerschnittstellen auf Parallelen zum neuen System untersucht werden; u.U. k¨onnen hieraus Antworten auf wichtige Design-Entscheidungen abgeleitet werden. Aber auch nicht-computerbasierte Systeme eignen sich zum Vergleich. Am Ende der Analyse sollten konkrete Zielanforderungen an das neue System stehen. Diese Anforderungen sollten m¨oglichst viele Aspekte der Qualit¨at und Gebrauchstauglichkeit des Systems umfassen. In Kapitel 1 wurde bereits deutlich, dass eine einzelne Metrik hierzu nicht ausreicht. Daher sollte ein Satz von komplement¨aren Metriken verwendet werden, der zumindest die Aspekte Effektivit¨at, Effizienz und Zufriedenheit umfasst. F¨ur bestimmte Systeme k¨onnen weitere Aspekte hinzukommen, wie die Erlernbarkeit bei einem System mit h¨aufigem Einsatz. F¨ur jede Metrik sollte ein Zielwert gesetzt werden. Abb. 4.3 zeigt beispielhaft eine Zielanforderung in Form eines Tortendiagramms. F¨ur jeden der drei Usability-Aspekte wurden Metriken definiert. Diese sind in sp¨ateren Interaktionsversuchen messbar. Der Winkel eines Tortenst¨ucks“ entspricht der ” Wichtigkeit der entsprechenden Metrik f¨ur das betrachtete System. F¨ur jede Metrik wird dar¨uber hinaus ein Zielwert festgelegt, der grafisch am Kreis festgemacht
4.2 Analyse
61
60 sec
Satisfaction
Efficiency Use Again Mean Time on Task 7 sec Recommend to Friends
Mean Time for Error Correction
User Satisfaction
Task Completion Rate Error Frequency 1/task
Partial Task Completion
95%
95%
Effectiveness
Abb. 4.3 Tortendiagramm zur Definition von Usability-Anforderungen, vgl. auch ITU-T Contr. COM 12-103 (2007)
wird. Sofern das System dieses Ziel u¨ ber-erf¨ullt ragt das Tortenst¨uck u¨ ber den Kreis hinaus und ist hellgrau gef¨arbt; sofern das Ziel nicht erreicht wird liegt das Tortenst¨uck innerhalb des Kreises und ist dunkelgrau gef¨arbt. Auf diese Weise kann die Zielerreichung einfach veranschaulicht werden, und es k¨onnen unterschiedliche Systemvarianten oder Designvorschl¨age auf einen Blick miteinander vergleichen werden. User errors per hour using the system: Unacceptable
5 4.5
Abb. 4.4 Beispiel f¨ur eine Usability-Zielanforderung, aus Nielsen (1993), S. 81
Target
Minimum
Current value
3
2 Planned value
Exceeds 1
0 Optimal value
F¨ur jede Metrik k¨onnen unterschiedliche Zielwerte definiert werden: • Der augenblickliche Wert, den derzeitige Systeme erzielen, • der f¨ur das neue System minimal erforderliche Wert (meist gleich dem augenblicklichen Wert), • der geplante Wert, den das neue System erzielen sollte, sowie
62
4 Usability Engineering
• der theoretische (optimale) Wert, der bestenfalls erzielt werden kann. Abb. 4.4 zeigt die Verh¨altnisse f¨ur diese Werte beim Parameter Nutzerfehler pro ” Stunde Benutzung“. Die genauen Werte k¨onnen von Usability-Experten festgelegt werden, oder sie k¨onnen aus Nutzerbefragungen abgeleitet werden. Letzteres ist allerdings schwierig, da Nutzer ihre Bed¨urfnisse h¨aufig falsch einsch¨atzen; dies kann dazu f¨uhren, dass Systeme, die genau nach den W¨unschen der Benutzer entworfen wurden, letztendlich eine schlechte Gebrauchstauglichkeit zeigen. Deshalb sollte man die Gestaltungsaufgabe nicht dem Benutzer u¨ bertragen. Die unterschiedlichen Anforderungen k¨onnen zu Konflikten im Systemdesign f¨uhren. So kann die Anforderung nach guter Erlernbarkeit dazu f¨uhren, dass die Interaktion weniger effizient ist. Der Usability-Experte muss hier die unterschiedlichen Anforderungen priorisieren, z.B. auf Basis der Nutzer- und Aufgabenanalyse. Obwohl sich gutes Usability Engineering letztendlich meist auszahlt, so bestehen in den meisten F¨allen finanzielle Rahmenbedingungen, die den Wert m¨oglicher Usability-Verbesserungen limitieren. Auch dies kann bereits in der Analysephase abgesch¨atzt werden und in die Zielsetzung einfließen. An zwei Stellen sind die finanziellen Auswirkungen sp¨urbar: • beim Entwickler des Systems; dieser kann den erwarteten Umsatz mit dem neuen System absch¨atzen, und er kann dabei Einsparungen (z.B. durch geringere Servicekosten) mit einrechnen; und • bei den potentiellen Nutzern; insbesondere bei professionell eingesetzten Systemen kann durch eine verbesserte Gebrauchstauglichkeit Arbeitszeit und damit auch Geld eingespart werden. Arbeitgeber k¨onnen daher absch¨atzen, wie hoch diese Einsparung sein wird. Beispielrechnungen hierzu finden sich u.a. in Nielsen (1993).
4.3 Design Die Designphase entscheidet maßgeblich dar¨uber, wie hoch die Qualit¨at und Gebrauchstauglichkeit des Systems tats¨achlich ausf¨allt. Sie setzt auf eine eingehende Analyse auf, jedoch m¨ussen hier die Konsequenzen gezogen werden, d.h. die Anforderungen m¨ussen in konkrete Systementw¨urfe umgesetzt werden. Diese Aufgabe ist nicht immer eindeutig optimal zu l¨osen. Eine M¨oglichkeit besteht darin, zun¨achst parallel unterschiedliche Gestaltungsvorschl¨age zu erarbeiten (sog. Parallel Design). Hierbei arbeiten 3–4 Designer unabh¨angig voneinander vorl¨aufige Designvorschl¨age aus. Diese Vorschl¨age sind nicht unbedingt sehr ausgefeilt; typischerweise sollten nicht mehr als ein paar Arbeitsstunden in jedem Vorschlag stecken. Nur die besten Vorschl¨age werden anschließend weiter verfolgt. Um die unn¨utz verwendete Zeit zu minimieren, kann versucht werden, den Designern unterschiedliche Entwurfsprobleme zu stellen; bspw. kann ein Teil an einer Schnittstelle f¨ur Experten und ein anderer Teil an einer Schnittstelle f¨ur Novizen arbeiten. Somit kann auch aus den anschließend verworfenen
63 Iterative design versions
4.3 Design Released product
Parallel design versions
Original product concept
Abb. 4.5 Zusammenhang zwischen Parallel und Iterative Design, aus Nielsen (1993), S. 86
Designvorschl¨agen noch Nutzen gezogen werden. Anschließend wird nur der beste Designvorschlag weiter iterativ ausgearbeitet. Dieser Prozess ist in Abb. 4.5 angedeutet. Trotz der verworfenen Arbeit ist ein solches Vorgehen g¨unstig, da die Designentscheidungen begr¨undet getroffen werden und nur die guten Ideen weiter verfolgt werden. Beim Design sollte darauf geachtet werden, dass der Entwurf konsistent ist. Die Konsistenz bezieht sich dabei nicht nur auf das tats¨achliche System, sondern auch auf alle hiermit zusammenh¨angenden Dinge wie Dokumentationen, Hilfeseiten, Tutorials, und auch vorangehende Versionen und andere Produkte aus derselben Fa” milie“. Aus all diesen Quellen wird n¨amlich Wissen transferiert, und Inkonsistenzen w¨urden hier zu einem falschen Transfer – und somit zu Usability-Problemen – f¨uhren. Konsistenz kann z.B. durch standardisierte Schnittstellen erreicht werden, oder durch Standards, die innerhalb eines Projektes definiert werden. Dazu ist es notwending, ein gemeinsames Verst¨andnis aller am Projekt beteiligten Personen zu entwickeln. Hierzu kann es vorteilhaft sein, einen Prototypen zu etablieren, an dem Ziele exemplifiziert werden k¨onnen. Auch durch den Einsatz von technischer Infrastruktur (z.B. Werkbank zum Entwurf von Systemen) kann ein konsistenter Entwurf sichergestellt werden. Allerdings sollte beachtet werden, dass Konsistenz kein Selbstzweck ist, sondern letztendlich die Gebrauchstauglichkeit erh¨ohen soll. Wo dies nicht der Fall ist sollte Usability Priorit¨at vor Konsistenz haben. Um die Nutzerfreundlichkeit zu verbessern, kann man versuchen, potentielle Nutzer aktiv in den Gestaltungsprozess einzubinden (sog. Participatory Design). Dazu kann ein Pool repr¨asentativer Nutzer (nicht ihrer nominellen Vertreter) herangezogen werden, welcher regelm¨aßig w¨ahrend des Designs befragt wird. Nutzer sind insbesondere darin gut, Fragen aufzuwerfen, die die Aufgabe betreffen, und die vom Designer u.U. u¨ bersehen wurden: Sie sind Experten auf dem Themengebiet, welches mit dem System abgedeckt werden soll. Auch sind sie gut in der Lage, auf Designvorschl¨age und ihre Probleme zu reagieren. Hierzu m¨ussen
64
4 Usability Engineering
die Designvorschl¨age so konket und sichtbar wie m¨oglich sein; dies l¨asst sich z.B. mit Papier-Prototypen, Simulationen, Animationen etc. erzielen. Im Gegenzug sind Nutzer nicht unbedingt in der Lage, genau zu spezifizieren, was sie m¨ochten oder brauchen. Die Korrelation zwischen ge¨außerten Anspr¨uchen und erfahrener Zufriedenheit ist in vielen F¨allen recht gering, wenn die Anspr¨uche 1:1 umgesetzt werden. Nutzer k¨onnen also nicht Design-Experten ersetzen, sondern nur komplementieren. Da Nutzer eines Participatory Design u¨ ber einen l¨angeren Zeitraum eingesetzt werden m¨ussen ist es notwendig, den Pool regelm¨aßig zu erneuern. Nutzer ver¨andern ihr Verhalten und werden automatisch weniger repr¨asentativ, wenn sie u¨ ber einen l¨angeren Zeitraum in den Design-Prozess eingebunden werden. Allerdings m¨ussen neue Nutzer zun¨achst eingewiesen werden, damit sie den DesignProzess effizient unterst¨utzen k¨onnen. Hier gilt es, einen guten Kompromiss zwischen Naivit¨at und notwendiger Einweisung zu finden.
4.4 Prototyping Wie bereits angedeutet m¨ussen die Design-Vorschl¨age m¨oglichst fr¨uh in Prototypen umgesetzt werden. Prototypen sind notwendig, um Nutzer wie auch Experten mit den Design-Vorschl¨agen zu konfrontieren, damit die Usability-Aspekte u¨ berpr¨uft und u.U. modifiziert werden k¨onnen. Dies gilt insbesondere, wenn tats¨achlich Nutzertests durchgef¨uhrt werden sollen. Je detaillierter ein Prototyp ist, desto bes¨ ¨ ser gelingt die Vorstellung und die Uberpr¨ ufung. Anderungen des Prototypen sind auch weitaus g¨unstiger, als wenn ein fertig entwickeltes System modifiziert werden m¨usste. Dennoch ist die Implementierung eines Prototypen zeit- und kostenintensiv; deshalb bem¨uht man sich, den Implementierungsaufwand soweit m¨oglich zu reduzieren. Drei M¨oglichkeiten bestehen prinzipiell, den Implementierungsaufwand zu reduzieren: • Vertikales Prototyping, bei dem nur ein Teil der Systemmerkmale in aller Tiefe implementiert wird; • Horizontales Prototyping, bei dem die gesamte Breite der Systemmerkmale implementiert wird, aber nur oberfl¨achlich; sowie • Szenario-basiertes Prototyping, bei dem nur ausgew¨ahlte Merkmale oberfl¨achlich implementiert werden. Diese Methoden sind in Abb. 4.6 skizziert. Sie k¨onnen selbstverst¨andlich auch kombiniert werden, um verschiedene Aspekte des finalen Systems m¨oglichst gut u¨ berpr¨ufen zu k¨onnen. Dar¨uber hinaus bestehen weitere M¨oglichkeiten, den Implementierungsaufwand zu reduzieren. Bspw. kann weniger Aufwand in eine effiziente Implementierung gesteckt werden, und es kann weniger guter (z.B. schlechter dokumentierter) Programmkode akzeptiert werden. Algorithmen und Inhalte k¨onnen u.U. vereinfacht werden, sodass sie zwar nicht alle im finalen System notwendigen F¨alle abdecken,
4.5 Experten-Evaluation
65 Different features Scenario
Horizontal prototype Functionality
Abb. 4.6 Methoden des Prototyping, aus Nielsen (1993), S. 95
Vertical prototype
Full system
aber bereits einen guten Eindruck vom Verhalten des Systems liefern. Sofern nicht alle notwendigen Module zur Verf¨ugung stehen kann auch auf sog. Wizard-of-OzSimulationen zur¨uckgegriffen werden. Dabei werden fehlende Komponenten eines Systems durch einen Menschen simuliert. Bspw. kann bei einem Sprachdialogsystem die Spracherkennung durch einen menschlichen Transkribierer (den Wizard) ersetzt werden. Wenn in der Transkription auch Fehler eingebaut werden l¨asst sich damit das Verhalten des sp¨ateren Systems (Spracherkennung mit Erkennungsfehlern) ad¨aquat simulieren. Allerdings ist die Voraussetzung, dass sich der Wizard nur wie das sp¨atere System verhalten darf; ansonsten wird der Prototyp unrealistisch.
4.5 Experten-Evaluation Sobald ein Prototyp erstellt ist sollte er einer Evaluierung unterzogen werden, um festzustellen, ob die zuvor gesetzten Ziele erf¨ullt wurden. Da der Prototyp meist nicht die volle Funktionalit¨at und alle Systemeigenschaften besitzt muss nicht unbedingt mit realen Nutzern getestet werden. In diesem Abschnitt sollen daher zun¨achst Evaluierungsmethoden behandelt werden, welche im weitesten Sinne mit Experten durchgef¨uhrt werden. Eine bekannte Methode ist das sog. Cognitive Walkthrough. Hierbei geht ein Usability-Experte schrittweise anhand einer gestellten Aufgabe durch die Interaktion mit dem System und u¨ berpr¨uft, ob diese Interaktion auch von einem Novizen so erlernt werden kann (Lewis et al., 2000). Hierzu wird zun¨achst ein typischer Nutzungskontext spezifiziert, inkl. der Nutzer, der Aufgabe und des Umfeldes, in dem die Aufgabe durchgef¨uhrt wird. F¨ur die Aufgaben wird dann ein sog. idealer ” L¨osungspfad“ definiert, d.h. der Pfad durch die Interaktion, mit der sich die L¨osung am besten erzielen l¨asst. Dieser Pfad wird nun schrittweise abgegangen und es wird an jeder Stelle untersucht, ob ein unerfahrener Benutzer den richtigen“ n¨achsten ” Schritt finden w¨urde. Hierbei k¨onnen die in Abb. 4.7 angegebenen Fragen Hilfestellung geben. Abweichungen vom Pfad werden notiert, und es werden auch die (angenommenen) Gr¨unde festgehalten, die zu diesen Abweichungen f¨uhren k¨onnten. Im Ergebnis liegt dann f¨ur die betrachtete Aufgabe und Nutzergruppe eine Liste mit Usability-Problemen vor. Dabei kann es vorkommen, dass es nicht nur einen
66
4 Usability Engineering
idealen“ Pfad gibt, sondern dass mehrere alternative L¨osungswege bestehen, die ” getrennt untersucht werden m¨ussen.
Questions to answer at each state
• • • •
Will the users try to achieve the desired effect? Will the users recognize that the correct action could be done? Will the users recognize that the correct action leads to the desired effect? Will the users notice the progress after executing the correct action?
Abb. 4.7 Fragen beim Cognitive Walkthrough und Pluralistic Usability Walkthrough, vgl. Lewis et al. (2000)
Eine Variante dieses Verfahrens ist das sog. Pluralistic Usability Walkthrough. Anstelle eines Usability-Experten werden m¨ogliche L¨osungswege von einer Gruppe – bestehend aus repr¨asentativen Nutzern, Entwicklern und Usability-Experten – gemeinsam untersucht. Durch die Nutzer wird gegen¨uber dem Cognitive Walkthrough zus¨atzliches Dom¨anenwissen eingebracht, w¨ahrend die Entwickler Einschr¨ankungen, die durch das Design entstehen, ber¨ucksichtigen k¨onnen. Auch hier werden die einzelnen Schritte des L¨osungspfades (oder mehrerer L¨osungspfade) separat untersucht, bevor zum n¨achsten Schritt weitergegangen wird. Eine weitere und in der Praxis h¨aufig eingesetzte Methode ist die sog. heuristische Evaluierung (von griechisch heurisko = ich finde“). Hierbei untersucht eine ” Gruppe von Usability-Experten das System anhand einer Liste von sog. Heuristiken und versucht, m¨oglichst viele potenzielle Usability-Probleme zu finden, die Nutzer haben k¨onnten. Jedes der identifizierten Probleme wird einem Punkt der Heuristik zugeordnet, so dass eine Klassifikation der Probleme m¨oglich ist. Die Probleme k¨onnen nach ihrer erwarteten Schwere priorisiert werden; dadurch liefert die heuristische Evaluierung nicht nur Problemlisten, sondern gleichsam Hinweise zu ihrer Behebung. Eine Reihe unterschiedlicher Heuristiken wurde von UsabilityExperten f¨ur verschiedene Anwendungsf¨alle aufgestellt. Die in Abb. 4.8 dargestell¨ ten Listen geben einen Uberblick hierzu. Es ist ersichtlich, dass die Heuristiken unterschiedliche Detailtiefe haben. Die Detailtiefe bestimmt Nutzen und Anwendbarkeit einer Heuristik: • Allgemeine Heuristiken: Sie lassen sich auf alle Arten von Benutzerschnittstellen anwenden. Beispiel: Das System sollte selbsterkl¨arend sein.“ Solche Heu” ristiken existieren in großer Zahl, aber ihre Nutzung setzt eine gute Kenntnis m¨oglicher Probleme voraus. • Kategorie-spezifische Heuristiken: Diese lassen sich nur auf eine bestimmte Kategorie von Benutzerschnittstellen anwenden, bspw. auf grafische Nutzerschnittstellen (Graphical User Interfaces, GUIs) oder auf Sprachdialogsysteme. Beispiel: Erlaube Ins-Wort-Fallen.“ Solche Heuristiken sind meist das Produkt ” sog. kollektiven Wissens“ einer Gruppe oder Forschungs-Community, bei der ”
4.5 Experten-Evaluation
67
Nielsen 1993 (GUIs)
ISO 9241-110 2006 (Software)
Simple and natural dialog Speak the users’ language Minimize user’s memory load Consistency Feedback Clearly marked exits Shortcuts Good error messages Prevent errors Help and documentation
Adequacy for the task Self-descriptiveness Conformity with expectations Learnability Controlability Error tolerance Individualisability
Cohen et al. 2004 (Spoken Dialogue Systems) Minimize cognitive load Accomodate conversational expectations Maximize efficiency Maximize clarity Ensure high accuracy Gracefully recover from errors
Dybkjaer und Bernsen 2000 (Spoken Dialogue Systems)
Fraser 1997 (Prompt Design Guidelines)
Good speech recognition capability Good speech understanding Good output voice quality Adequate output phrasing Adequate feedback Adequate initiative control, domain coverage and reasoning capabilities Sufficient interaction guidance Adequate error handling
Be as brief and simple as possible Use a consistent linguistic style Finish each prompt with an explicit question Allow barge-in Use a single speaker for each function Use a friendly voice Instructions given at the beginning of the dialog might be forgotten In case of re-promnpting, provide additional information and guidance Do not pose as a human as long as the system cannot nderstand as well as a human
Abb. 4.8 Beispiele f¨ur Usability-Heuristiken
die Erfahrungen mit der Erstellung eines Systems generalisiert werden und f¨ur zuk¨unftige Designs nutzbar gemacht werden. • Produkt-spezifische Heuristiken: Diese beziehen sich auf ein individuelles System. Beispiel: Spiele einen Hilfe-Promt immer wenn der Benutzer die vom Sys” tem gestellte Frage nicht direkt beantwortet.“ Diese Heuristiken entstehen meist als Nebenprodukt einer Systementwicklung, z.B. beim Testen von Prototypen. Heuristische Evaluierungen sind i. Allg. sehr kosteng¨unstig, und sie machen sich schnell bezahlt. Deshalb haben sie auch den Ruf als “Discount Usability Engineering Method”. Lt. Nielsen (1994) ist das Kosten-zu-Nutzen-Verh¨altnis bis zu 1:48. ¨ Uberdies lassen sie sich schnell und ohne großen Aufwand durchf¨uhren. Allerdings bieten sie keine Garantie, dass auch alle Usability-Probleme letztendlich entdeckt werden. Um die Effektivit¨at zu steigern – d.h. m¨oglichst viele Probleme zu entdecken – bietet es sich an, dass unterschiedliche Experten unabh¨angig voneinander heuristische Evaluierungen durchf¨uhren. Dabei zeigt sich, dass unterschiedliche Evaluatoren meist jeweils nicht alle, aber unterschiedliche Probleme finden. Ein einzelner Evaluator findet bspw. etwa 35% aller Usability-Probleme. Die Ausbeute kann durch Einsatz weiterer Evaluatoren gesteigert werden, wie Abb. 4.9 zeigt. Allerdings ist auch hierbei die Anzahl der Evaluatoren durch die entstehenden Kosten begrenzt. Die Effizienz h¨angt auch von der Expertise der Evaluatoren ab. F¨uhrt man heuristische Evaluierungen mit Usability-Experten, Dom¨anen-Experten und Usabili-
68
4 Usability Engineering
Proportion of Usability Problems Found
100%
75%
50%
25%
0% 0
5
10
15
Number of Evaluators
Abb. 4.9 Anzahl der gefundenen Probleme in Abh¨angigkeit von der Anzahl der Evaluatoren, nach Nielsen (1993), S. 156
ty+Dom¨anen-Experten durch, so zeigte sich in einem Fall bspw., dass UsabilityExperten 41% der Probleme fanden, Dom¨anen-Experten 22%, w¨ahrend Usability+Dom¨anen-Experten insgesamt 60% der Probleme identifizieren konnten (Nielsen, 1993, S. 161).
4.6 Empirisches Testen Tests mit realen Benutzern sind wahrscheinlich die wichtigste und zuverl¨assigste Methode der Usability-Evaluierung. Reale Benutzer zeigen ein Verhalten, das auch f¨ur erfahrene Usability-Experten h¨aufig nicht komplett vorhersehbar ist. Damit ist diese Methode prinzipiell der expertenbasierten Evaluierung u¨ berlegen, denn hier zeigen sich die wahren – und nicht die angenommenen – Probleme, die Nutzer mit einem System haben. Hinzu kommt, dass man in Interaktionen mit realen Benutzern alle Aspekte von Usability auch quantitativ erfassen kann: Effektivit¨at und Effizienz mittels Log-Daten oder Befragung, Zufriedenheit durch Befragung. Dadurch l¨asst sich der Einfluss von Usability-Problemen auf die Zufriedenheit des Nutzers ermitteln; die beobachteten Probleme werden also bzgl. ihrer Auswirkungen gewichtet. Auch lassen sich Entwickler durch Aufzeichnung des Verhaltens realer Benutzer sehr viel einfacher von Usability-Problemen der von ihnen geschaffenen Systeme u¨ berzeugen. Der Hauptnachteil beim Testen mit realen Benutzern liegt im hohen Aufwand, gleichsam bzgl. der Kosten und der notwendigen Zeit, sowie darin, dass die Bedingungen, unter denen der Test stattfindet, oft nicht realistisch sind (vgl. Abschnitt 4.8). Ein weiteres Problem besteht darin, dass repr¨asentative Nutzer nicht immer leicht zu bekommen sind, und dass sie nach einem Test bereits nicht mehr als naiv angesehen werden k¨onnen. Dennoch sind Tests mit realen Benutzern weit verbrei-
4.6 Empirisches Testen
69
tet und werden von Systementwicklern als sehr n¨utzlich angesehen, wie Abb. 4.10 veranschaulicht. 90% User testing
Proportion of Responents Having Tried the Method
80%
Heuristic evaluation
70%
60%
Consistency inspection Cognitive walkthrough
50% Standards inspection
Feature inspection
40% Heuristic estimantion
Pluralistic walkthrough
30% 3.9
4
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
Mean Usefulness Rating
Abb. 4.10 H¨aufigkeit der Verwendung und empfundener Nutzen verschiedener UsabilityEvaluierungsverfahren, nach Nielsen (1995)
Nutzertests k¨onnen verschiedene Formen annehmen, je nachdem, mit welcher Motivation sie durchgef¨uhrt werden. In der Forschung geht es meist darum, Hypothesen mit Hilfe eines kontrollierten Laborexperimentes zu u¨ berpr¨ufen. Bspw. m¨ochte man wissen, ob ein bestimmtes Interaktionsmanagement zu einer verbesserten Dialogf¨uhrung verhilft, oder ob sich durch Einbringen einer neuen Interaktionsmodalit¨at die Qualit¨at verbessert oder verschlechtert. Ziel ist es, die Hypothese statistisch abgesichert zu st¨utzen oder zu verwerfen; hierzu bedarf es i. Allg. einer recht hohen Zahl an Versuchspersonen, um Signifikanz zu erzielen. In der Praxis kommt es dagegen meist nicht auf Signifikanz an. Stattdessen sollen Probleme im Systemdesign aufgedeckt und behoben werden, bevor die Benutzer unzufrieden sind. Ziel ist hier also die Analyse von Usability-Problemen und ihrer Ursachen. Solche Analysen k¨onnen meist schon mit einer geringeren Zahl an Versuchspersonen durchgef¨uhrt werden; typischerweise reichen 3-6 Teilnehmer, um den gr¨oßten Teil der Probleme zu finden. Allgemeine Hinweise zur Durchf¨uhrung von Nutzertests wurden bereits in Abschnitt 2.6 gegeben. Bei der Durchf¨uhrung von Interaktionstests kommt es besonders darauf an, den Versuchspersonen realistische Interaktionsaufgaben zu stellen. Folgende Fragen m¨ussen vor Testbeginn beantwortet werden: • Welche Aufgaben sollen die Versuchspersonen l¨osen? In welcher Reihenfolge? • Wie werden die Aufgaben den Versuchspersonen pr¨asentiert (Szenario)? • Nach welchem Kriterium wird die Erf¨ullung der Aufgabe bestimmt (Effektivit¨at)?
70
4 Usability Engineering
• Welche Daten werden w¨ahrend der Interaktion erhoben? Wie sollen diese Daten anschließend analysiert werden? • Welche Frageb¨ogen werden verwendet? • Anhand welcher Kriterien wird der Erfolg des Systemdesigns festgestellt? • Wie viele und welche Nutzer sollen den Test durchf¨uhren? • Sind die Tests ethisch vertretbar? Was muss unternommen werden, um ethische Voraussetzungen zu erf¨ullen? Man klassifiziert Nutzertests weiterhin nach der Zielsetzung: • Summative Analyse: Hier soll die Gesamtqualit¨at des Systems ermittelt werden. Hierzu wird eine Anzahl Metriken definiert, die im Test erfasst werden, wie bspw. Interaktionsparameter zur Quantifizierung von Systemleistungen und Verhalten, sowie Frageb¨ogen zur Quantifizierung der wahrgenommenen Qualit¨at. Summative Analysen werden meist zum Ende der Design-Phase durchgef¨uhrt, um ein Gesamtbild des Systementwurfs zu erhalten. • Formative Analyse: Hier sollen Fehler im Systemdesign identifiziert werden. Ziel ist eine Liste von Usability-Problemen zusammen mit L¨osungsvorschl¨agen. Um letztere zu erhalten, befindet sich h¨aufig der Experimentator im Raum und befragt die Versuchspersonen w¨ahrend der Interaktion. Formative Analysen werden w¨ahrend der Design-Phase durchgef¨uhrt, um einen bestm¨oglichen Einfluss auf den Systementwurf zu erhalten. Insbesondere zur formativen Analyse bietet sich die Methode des Lauten Denkens (Thinking Aloud) an. Hierbei sitzt der Versuchsleiter neben der Versuchsperson, w¨ahrend diese mit dem System interagiert, und fordert sie auf, ihre Gedanken verbal kundzutun. Die Aussagen der Versuchspersonen werden dabei in einem Protokoll festgehalten, insbesondere, wenn sie sich auf Usability-Probleme beziehen. Dies hat den Vorteil, dass der Experimentator nicht auf Vermutungen angewiesen ist, wenn er die Ursachen von Nutzungsproblemen ergr¨unden m¨ochte. Im Gegenzug ver¨andert sich das Verhalten der Versuchsperson durch die Verbalisierung. Besonderer Wert sollte daher darauf gelegt werden, dass der Versuchsleiter nicht durch seine Fragen ein bestimmtes Verhalten suggeriert. Auch wird durch die verbale Schilderung der Interaktionsablauf verlangsamt; quantitative Aussagen zur Effizienz lassen sich in solchen Versuchen also nicht erzielen. Zudem l¨asst sich das Verfahren praktisch nicht bei sprachgesteuerten Systemen einsetzen, da das System auf die ¨ zus¨atzlichen Außerungen reagieren w¨urde. Diese Probleme k¨onnen vermieden werden, wenn das laute Denken nachtr¨aglich, also z.B. beim gemeinsamen Durchsehen einer Videoaufzeichnung des Versuches erfolgt. Die Verbalisierung ist dann aber nicht mehr unmittelbar, sodass spontane Gedanken verloren gehen k¨onnen. Auch ist diese Methode sehr zeitaufw¨andig, da sich die Versuchszeit praktisch noch einmal verdoppelt. Speziellere Design-Themen k¨onnen auch in sog. Fokusgruppen analysiert werden. Dabei wird eine Gruppe von ca. 6–9 Nutzern eingeladen, u¨ ber ein Systemdesign zu diskutieren. Die Diskussion wird von einem Moderator geleitet; er hat die Aufgabe, dem Fluss der Ideen freien Lauf zu lassen, jedoch das Thema der Diskussion (den Fokus) zu wahren, und zu vermeiden, dass einzelne Teilnehmer die Dis-
4.7 Iteratives Design
71
kussion zu stark dominieren. Idealerweise verl¨auft die Diskussion scheinbar frei, obwohl sich der Moderator an einem vorbereiteten Skript orientiert, auf dem er die zu diskutierenden Fragestellungen auflistet. Nach Abschluss der Diskussion macht der Moderator eine Auswertung, in der er das Ergebnis der Diskussion in freier Form festh¨alt. Der Vorteil solcher Fokusgruppen ist der freie Fluss von Ideen und eine gewisse Gruppendynamik; der Nachteil liegt in einer Mindestzahl von Teilnehmern, um sinnvolle Ergebnisse zu erhalten. In der Praxis f¨uhrt man auch mehrere Fokusgruppen durch, um repr¨asentative und aussagekr¨aftige Ergebnisse zu erhalten.
4.7 Iteratives Design Es ist anzunehmen, dass beim einmaligen Durchlaufen des Usability Engineering Lifecycle nicht auf Anhieb ein optimales Design gefunden wird. Deshalb ist es meist notwendig, die Schritte Design, Prototyping, Experten-Evaluierung und empirisches Testen mehrfach zu durchlaufen. Der Grund hierf¨ur ist nicht etwa Nachl¨assigkeit in einzelnen Phasen des Zyklus. Vielmehr gibt es prinzipielle Gr¨unde, weshalb ein optimales Design nur iterativ gefunden werden kann: • Eine Ver¨anderung des Designs zur Vermeidung von Usability-Problemen, wie sie die Experten-Evaluierung oder das empirische Testen mit Nutzern induziert, f¨uhrt u.U. nicht zur vollst¨andigen L¨osung des Problems. Sie mag im Gegenzug neue Probleme hervorrufen, welche nur in einem nochmaligen Durchlauf behoben werden k¨onnen. • Eine Verbesserung des Designs f¨ur eine Nutzergruppe (bspw. Novizen) mag eine Verschlechterung f¨ur eine andere Nutzergruppe (z.B. Experten) nach sich ziehen. Iterativ muss nun ein Kompromiss gefunden werden, welcher f¨ur alle Nutzergruppen wenigstens partiell optimal ist. • Durch die Beseitigung der dringendsten Probleme treten h¨aufig neue Probleme zutage, die bisher maskiert“ waren. Bspw. wird bei einem Sprachdialogsystem ” mit schlechter Erkennungsrate zun¨achst die Spracherkennung der begrenzende Faktor sein. Sobald die Erkennungsleistung akzeptabel ist treten andere Probleme zutage, welche durch die schwache Erkennung verdeckt wurden; diese m¨ussen nun in der n¨achsten Iteration beseitigt werden. In der Praxis zeigt sich, dass mehrere Iterationen notwending sind, um ein zufriedenstellendes Ergebnis zu erhalten. Auch nach der 2. oder 3. Iteration finden sich h¨aufig noch Probleme, u.U. sogar solche, die bei der vorhergehenden Version nicht zu finden waren. Daher sollte die M¨oglichkeit bestehen, weiter zu iterieren. Um den Aufwand zu begrenzen, muss nicht jede Ver¨anderung des Designs mit empirischen Tests untermauert werden; h¨aufig reichen hier einfache Experten-Evaluierungen, z.B. heuristische Evaluierungen, aus. Empirische Tests mit realen Benutzern k¨onnen ¨ deshalb auf gr¨oßere Anderungen und Eckpunkte des Designs beschr¨ankt bleiben. Dies vermeidet außerdem, dass Versuchspersonen in einer zu großen Zahl an Tests schnell verschlissen werden.
72
4 Usability Engineering
In l¨angeren Iterationszyklen, und insbesondere auch bei verschiedenen SoftwareVersionen, ist es ratsam, die Grundlagen f¨ur Design-Entscheidungen explizit festzuhalten. Nur so kann zu einem sp¨ateren Zeitpunkt nachvollzogen werden, wieso eine bestimmte Entscheidung getroffen wurde, und damit verhindert werden, dass sich ein Fehler wiederholt. Eine Methode hierzu ist Question-Options-Criteria (QOC). Hierbei wird eine Designentscheidung explizit als Frage formuliert. Zu dieser Frage werden mehrere Optionen angegeben, die durch Kriterien begr¨undet werden. Anhand der Kriterien wird nun die optimale Entscheidung gew¨ahlt. Unter Umst¨anden k¨onnen hieraus weitere Entscheidungen erwachsen, welche dann ebenfalls mittels QOC behandelt werden. Ein Beispiel f¨ur eine einfache Designentscheidung mittels QOC ist in Abb. 4.11 skizziert. Question
Options
Criteria
Feasability Single Microphone
What interface will be used in the car?
User Friendliness Microphone Array Handsfree Operation
Headset
Privacy
Robustness
Abb. 4.11 Beispiel f¨ur eine explizite Designentscheidung f¨ur ein sprachgesteuertes System mittels QOC, aus de Ruyter und Hoonhout (2002)
4.8 Feedback aus den Feld Wenn ein System oder Dienst letztendlich auf dem Markt ist, so wird eine Vielzahl von Nutzern mit ihm konfrontiert. Diese Nutzer k¨onnen sehr wertvolle Informationen u¨ ber das System liefern – nicht nur zur Verbesserung des Systems selbst, sondern auch als Grundlage f¨ur zuk¨unftige Entwicklungen und Systeme. Dabei
4.9 Zusammenfassung
73
kann das neu auf dem Markt befindliche System durchaus als erster Prototyp“ f¨ur ” zuk¨unftige Systeme herhalten. Daten aus realen Nutzungssituationen geben Aufschluss u¨ ber Dinge, die in Laborexperimenten nur schlecht oder gar nicht beleuchtet werden k¨onnen. Insbesondere reales Nutzungsverhalten (und damit auch die Akzeptanz) l¨asst sich im Labor n¨amlich kaum abbilden, da Labortests immer zu einem gewissen Grade k¨unstlich sind. Unterschiedliche Formen der Datenerhebung stehen im Feld bereit: • Standard-Marktforschungs-Studien: Hierbei werden Nutzer u.U. regelm¨aßig nach ihrer Zufriedenheit befragt, z.B. mittels Frageb¨ogen, Telefoninterviews, etc. • Spezielle Studien: Diese Studien werden mit speziellen Zielen in Auftrag gegeben. Ein Beispiel k¨onnte eine neue Marketing-Initiative sein, oder ein neues Produkt oder ein neuer Dienst, welcher den Markt ver¨andert. • Analysen von Logdaten: Insbesondere bei Software oder bei Server-basierten Diensten ist es m¨oglich, Aufzeichnungen realer Interaktionen zu erhalten. Bei Standard-Logverfahren erh¨alt man so sehr schnell eine große Datenmenge. Diese muss nun analysiert werden, um die Vielzahl an Informationen, die sich darin befindet, sinnvoll zu extrahieren. Teilweise lassen sich wichtige Informationen automatisch extrahieren; andere Informationen bed¨urfen zun¨achst einer Transkription und Annotation durch einen menschlichen Experten, was die analysierbare Datenmenge stark einschr¨ankt. • Analyse von Sekund¨ardaten, wie bspw. Beschwerden, Anrufe bei einer Hot¨ line, Anderungsanfragen, Erfahrungen von Trainern, etc.: Diese Daten sind oft sehr aufschlussreich, allerdings auch speziell, da bspw. nur schwerwiegende Probleme einer Hotline gemeldet werden, oder da nur weniger Nutzer ein Training in Anspruch nehmen. In realen Nutzungssituationen k¨onnen auch Daten u¨ ber den monet¨aren Einfluss des neuen Systems oder Dienstes gesammelt werden. Dieser kann dann mit der Situation vor der Einf¨uhrung des Systems oder Dienstes verglichen werden, um festzustellen, ob die urspr¨unglichen Annahmen zutreffen oder nicht.
4.9 Zusammenfassung In diesem Kapitel wurde der Usability Engineering Lifecycle beschrieben, und es wurden einzelne Methoden vorgestellt, mit deren Hilfe die Qualit¨at und Gebrauchstauglichkeit eines neuen Systems oder Dienstes bereits bei seiner Entwicklung optimiert werden kann. Bei der Vielzahl von Methoden wurde deutlich, dass keine Methode in allen F¨allen optimal ist. Auch wurden einige (nicht sehr gebr¨auchliche) Methoden ausgelassen, die aber in der angegebenen Literatur, z.B. bei Nielsen (1993), beschrieben sind. Die Auswahl einer geeigneten Methode kann sich an Kriterien orientieren, die hier teilweise diskutiert wurden. Eine kurze Zusammenfassung, die Nielsen (1993), entnommen ist, findet sich in Tabelle 4.12.
74
4 Usability Engineering Method Name
Heuristic evaluation
Lifecycle Stage Early design, „inner cycle“ of iterative design
Performance Competitive analysis, final testing measures
Users Needed
Main Advantage
Main Disadvantage
None
Finds individual usability problems. Can address expert user issues.
Does not involve real users, so does not find „surprises“ relating to their needs.
At least 10
Hard numbers. Results easy to compare.
Does not find individual usability problems.
3-5
Pinpoints user misconceptions. Cheap test.
Unnatural for users. Hard for expert users to verbalize.
Ecological validity; reveals users‘ real tasks. Suggests functions and features.
Appointments hard to set up. No experimenter control.
Thinking aloud
Iterative design, formative evaluation
Observation
Task analysis, follow-up studies
3 or more
Questionnaires
Task analysis, follow-up studies
At least 30
Interviews
Task analysis
Focus groups
Task analysis, user involvment
6-9 per group
Logging actual use
Final testing, follow-up studies
At least 20
User feedback
Follow-up studies
Hundreds
5
Finds subjective user preferences. Easy to repeat. Flexible, in-depth attitude and experience probing.
Pilot work needed (to prevent misunderstandings). Time consuming. Hard to analyze and compare.
Spontaneous reactions and group dynamics.
Hard to analyze. Low validity.
Finds highly used (or unused) features. Can run continuously.
Analysis programs needed for huge mass of data. Violation of users‘ privacy.
Tracks changes in user requirements and views.
Special organization needed to handle replies.
Abb. 4.12 Zusammenfassung wichtiger Usability-Engineering-Methoden, aus Nielsen (1993), S. 224
Literaturverzeichnis Cohen MH, Giangola JP, Balogh J (2004) Voice User Interface Design. Addison-Wesley Longman, Amsterdam de Ruyter B, Hoonhout J (2002) Usage Scenarios, User Requirements and Functional Specifications. Deliverable 1.1, IST-Projekt 2001-32746 INSPIRE (INfotainment management with Speech Interaction via REmote-microphones and telephone interfaces), Philips Research, Eindhoven Dybkjær L, Bernsen NO (2000) A methodology for evaluating spoken language dialogue systems and their components. In: Proc. 2nd Int. Conf. on Language Resources and Evaluation (LREC 2000), Athens, Vol 2, S 183–188 Fraser N (1997) Handbook on Standards and Resources for Spoken Language Systems, Mouton de Gruyter, Berlin, Kapitel Assessment of Interactive Systems, S 564–615 ISO Standard 9241 Teil 110 (2006) Ergonomics of human-system interaction – Part 110: Dialogue principles. International Organization for Standardization, Genf ITU-T Contr. COM 12-103 (2007) One-view Visualization of Usability Measurement Results. International Telecommunication Union, Genf Lewis L, Polson P, Wharton C, Rieman J (2000) Testing a walkthrough methodology for theorybased design of walk-up-and-use interfaces. In: Proc. CHI’90, S 235–242 Nielsen J (1993) Usability Engineering. Academic Press, Boston MA Nielsen J (1994) Cost-justifying Usability, Academic Press, Boston MA, Kapitel Guerrilla HCI. Using Discount Usability Engineering To Penetrate The Intimidation Barrier Nielsen J (1995) Technology transfer of heuristic evaluation and usability inspection. In: 5th International Conference on Human-Computer Interaction (Interact’95), Chapman and Hall, Lillehammer, keynote
Kapitel 5
Qualit¨at von Sprach- und ¨ Audio-Ubertragungssystemen
Nach der Einf¨uhrung in die Grundlagen psychophysikalischer Messungen und des Usability Engineering sollen nun konkrete Verfahren zur Bestimmung der Qualit¨at informations- und kommunikationstechnischer Systeme behandelt werden. Im Mittelpunkt dieses Kapitels stehen dabei Systeme, die mit auditiv wahrnehmbaren Signalen arbeiten. Dabei kommt insbesondere der Modalit¨at gesprochene Sprache“ ” eine besondere Bedeutung zu, da sie die am meisten verwendete Modalit¨at zur zwischenmenschlichen Kommunikation darstellt; dies macht sie auch f¨ur die MenschMaschine-Interaktion besonders interessant. Uns interessiert dabei insbesondere der ¨ Einfluss des Ubertragungskanals, mit dessen Hilfe Sprache (oder andere auditiv wahrnehmbare Signale, wie z.B. Musik, Ger¨ausche) u¨ bertragen werden, und weniger die menschliche Spracherzeugung. Die dabei betrachteten Beurteilungsverfahren lassen sich in a¨ hnlicher Form auch auf andere Problemstellungen anwenden, wie bspw. die Beurteilung der Qualit¨at von Musikkodierungsverfahren. Wir betrachten hier zun¨achst den Telefonkanal, da das Telefon das am h¨aufigsten benutzte kommunikationstechnische System zur Sprach¨ubertragung darstellt. Der Begriff Telefonkanal“ ist hier allerdings allgemein zu sehen; er umfasst neben dem ” leitungsgebundenen oder mobilen Telefonnetz z.B. auch die Sprach¨ubertragung in paketvermittelten Netzen wie dem Internet (Voice-over-IP). Mit Hilfe solcher Systeme k¨onnen unterschiedliche Dienste angeboten werden, vgl. auch Kapitel 1. Hier ist zum einen nat¨urlich der normale“ Sprachdienst zu nennen, der eine Kommu” nikation zwischen zwei menschlichen Gespr¨achspartnern erm¨oglicht. Zum anderen kann sich am anderen Ende des Telefonkanals ein Sprachdialogsystem befinden, mit dessen Hilfe der Benutzer Informationen abfragen oder Transaktionen t¨atigen kann. ¨ Im Folgenden sollen zun¨achst die Qualit¨atselemente von Ubertragungsstrecken vorgestellt werden, die einen Einfluss auf die wahrgenommene Qualit¨at aus¨uben k¨onnen. Die dabei erfahrenen Qualit¨atsmerkmale werden in Abschnitt 5.2 vorgestellt. Daran schließt sich eine Diskussion einzelner Verfahren zur Beurteilung der Qualit¨at oder einzelner Qualit¨atsaspekte an (Abschnitte 5.3 bis 5.8). Das Kapitel ¨ schließt mit einer Ubersicht u¨ ber verf¨ugbare Standards zur Qualit¨atsbeurteilung dieser Systeme in Abschnitt 5.9.
75
¨ 5 Qualit¨at von Sprach- und Audio-Ubertragungssystemen
76
¨ 5.1 Qualit¨atselemente von Sprach-Ubertragungssystemen ¨ Wir wollen nun zun¨achst die Eigenschaften des Ubertragungskanals n¨aher beleuchten, die die Qualit¨at mitbestimmen. Dies sind die Qualit¨atselemente des Dienstes; sie sollten optimal gestaltet sein, damit der Benutzer die h¨ochst-m¨ogliche Qualit¨at erf¨ahrt. In Kapitel 1 wurde bereits eine schematische Darstellung einer Telefon¨ubertragungsstrecke gezeigt. Diese soll nun etwas verfeinert werden, um damit diejenigen Qualit¨atselemente zu identifizieren, die f¨ur telefonbasierte Dienste wichtig sind, und hierf¨ur ad¨aquate Beschreibungen zu liefern. Dabei wird eine parametrische Beschreibung angestrebt, d.h. die einzelnen qualit¨atsbeeinflussenden Elemente werden als (m¨oglichst instrumentell) messbare Parameter erfasst. ¨ Wir wollen uns hierbei an einer vereinfachten Struktur von Telefonubertragungsstrecken orientieren, wie sie von der International Telecommunication Union (ITU-T) zur Qualit¨ats-Planung von Netzen verwendet wird. Diese Struktur ist in Abb. 5.1 gezeigt. Receive side Send side OLR SLR
RLR 0 dBr point
Ds-Factor
Weighted Echo Path Loss WEPL Round-Trip Delay Tr
Room Noise Ps
Coding / Decoding
Dr -Factor Room Noise Pr Sidetone Masking Rating STMR
Equipment Impairment Factor Ie Listener Sidetone Packet-Loss Robustness Factor Bpl Rating LSTR (LSTR = Packet-Loss Probability Ppl STMR + Dr)
Circuit Noise Nc referred to 0 dBr
Mean one-way Delay T Absolute Delay Ta Quantizing Distortion qdu Expectation Factor A
Talker Echo Loudness Rating TELR G/107_F01
Abb. 5.1 Schematische Darstellung einer Telefon¨ubertragungsstrecke zur Netzwerkplanung, vgl. ITU-T Rec. G.107 (2009)
Das Bild zeigt die beiden Kommunikationspartner an Standard-Handapparaten (m¨ussen nicht unbedingt diese Ausf¨uhrung haben). Die Apparate sind mittels einer analogen (wie im Bild dargestellt) oder digitalen Schnittstelle mit dem Telefonnetz verbunden. Bei einem analogen Anschluss wird das hin- und das zur¨ucklaufende Sprachsignal zun¨achst u¨ ber eine gemeinsame Leitung u¨ bertragen (2-Draht-
¨ 5.1 Qualit¨atselemente von Sprach-Ubertragungssystemen
77
Technik). Die Signale werden dann mittels einer Gabelschaltung (engl. Hybrid) voneinander getrennt. Dies ist durch die dick gezeichneten Abzweigungen im Bild angedeutet. An den Verzweigungen kann es zu Reflexionen kommen, die (in Zusammenhang mit den Verz¨ogerungen der Leitung) zu Echos f¨uhren k¨onnen. Bei ¨ einem digitalen Endger¨at entf¨allt dieser 2-Draht-4-Draht-Ubergang normalerweise, aber es k¨onnen akustische Echos (durch R¨uckkopplung des Lautsprechersignals in das Mikrophon) auftreten. ¨ Die einzelnen Ubertragungswege werden in diesem Schema nicht genau u¨ ber ¨ ¨ ihre Ubertragungsfunktion beschrieben. Stattdessen wird eine Ubertragungsfunktion zun¨achst (offline) gemessen und anschließend mittels einer Gewichtungsfunktion zu einem Einzahlwert zusammengefasst, dem sog. Loudness Rating. Loudness Ra¨ tings geben die mittlere Abschw¨achung des betreffenden Ubertragungspfades (in dB) an; die Gewichtungsfunktion beinhaltet ein einfaches Modell der Lautheitswahrnehmung des menschlichen Geh¨ors f¨ur unterschiedliche Frequenzen, vgl. Richards (1973) oder das ITU-T Handbook on Telephonometry (1992). Die Phaseninformationen werden in einer mittleren Verz¨ogerungszeit (in ms) zusammengefasst. ¨ Jeder Ubertragungspfad wird also durch ein Loudness Rating (Abschw¨achung) und eine Verz¨ogerungszeit (Phase) beschrieben. Diese Beschreibung wird ange¨ wendet auf den Ubertragungspfad vom Sprecher zum H¨orer und umgekehrt, auf den Pfad eines Sprecher-Echos (d.h. eines Echos, das zur¨uck zum Sprecher geworfen wird), auf den Pfad eines H¨orer-Echos (d.h. ein Echo, das zwei Reflexionen erf¨ahrt und schließlich beim H¨orer ankommt), sowie auf die sog. R¨uckh¨orpfade, d.h. die R¨uckkopplung der eigenen Stimme im Telefonh¨orer (dient dem Ausgleich der Abschattung am Ohr sowie der Funktionskontrolle; hierbei wird von einer vernachl¨assigbaren Verz¨ogerung ausgegangen). Rauschsignale werden ebenfalls zu frequenzgewichteten Pegeln zusammengefasst: A-bewertete Pegel bei Hintergrundger¨auschen (Pseudo-Einheit dB(A)), und sog. psophometrisch gewichtete Pegel bei Leitungsrauschen (Pseudo-Einheit dBmp). Komplizierter gestaltet sich die vereinfachte Beschreibung der Beeintr¨achtigung, die durch einen Sprachkodierer hervorgerufen wird, da dieser stark nichtlinear ist ¨ und deshalb nicht u¨ ber eine Ubertragungsfunktion beschrieben werden kann. Man verwendet hier ebenfalls Einzahlwerte, die zuvor in einem H¨orversuch bestimmt werden m¨ussen. Man bezeichnet diese Einzahlwerte als Equipment-ImpairmentFaktoren (einheitenlos). ¨ Bei der Ubertragung u¨ ber das Internet wird f¨ur die Signal¨ubertragung keine feste Verbindung (Leitung) geschaltet wie beim Standard-Telefondienst. Stattdessen werden die Sprachsignalinformationen zun¨achst in Datenpakete verpackt“ und ” asynchron – auf unterschiedlichen Wegen – zum Empf¨anger geschickt. Man be¨ zeichnet diese Ubertragungstechnik als paketvermittelt, im Gegensatz zur verbindungsvermittelten Technik des leitungsgebundenen oder mobilen Telefonnetzes ¨ (Global System for Mobile Communcation, GSM). Bei der paketvermittelten Ubertragung k¨onnen Pakete verloren gehen (Packet Loss) oder so sp¨at ankommen, dass sie im Empf¨anger nicht mehr zur Rekonstruktion des Signals ber¨ucksichtigt wer-
78
¨ 5 Qualit¨at von Sprach- und Audio-Ubertragungssystemen
den k¨onnen (Packet Discard). Man beschreibt diese Verluste zusammen genommen durch eine sog. Packet Loss Rate (in %), und die Robustheit des Kodierers (verbunden mit evtl. Korrekturmaßnahmen) mittels eines weiteren Einzahlwertes, des sog. Packet-Loss Robustness Factor, der aus H¨orversuchsergebnissen bestimmt wurde (einheitenlos). Zusammengefasst werden in der schematischen Darstellung also folgende Ein¨ flusse betrachtet: • Abschw¨achung bzw. lineare Verzerrungen auf der Sende- und Empfangsseite, ausgedr¨uckt als Loudness Ratings SLR und RLR, wobei sich die Gesamtabschw¨achung als Summe der beiden Loudness Ratings OLR = SLR + RLR ergibt • Bandpassbegrenzung des Kanals (schmalbandig, 300–3400 Hz, bzw. breitbandig, 50–7000 Hz, dar¨uber hinaus auch noch super-breitbandig bis 14 kHz oder mehr) • nichtlineare Verzerrungen durch Sprachkodierer, beschrieben durch den Equipment-Impairment-Faktor Ie ¨ • Einfl¨usse von Paketverlusten bei paketvermittelter Ubertragung, beschrieben durch die Verlustrate Ppl und die Robustheit des Kodierers Bpl • unkorreliertes Leitungsrauschen, modelliert als weißes Rauschen mit Rauschleistung Nc • unkorreliertes Rauschen auf der Empfangsseite (breitbandig), modelliert als weißes Rauschen mit Rauschleistung N f or • Einfluss des Quantisierungsrauschens, ausgedr¨uckt als Anzahl der Kodierprozesse (Quantizing Distortion Units, qdu), die eine logarithmische Kompandierung nach ITU-T Rec. G.711 (1988) durchf¨uhren • Verz¨ogerung (T ) und Abschw¨achung (Loudness Rating T ELR) eines Sprecherechos bei einfacher Reflexion • Verz¨ogerung (Tr) und Abschw¨achung (Loudness Rating W EPL) eines H¨orerechos bei doppelter Reflexion ¨ • absolute Verz¨ogerung (Ta) auf dem Ubertragungspfad • R¨uckh¨oren u¨ ber das eigene Endger¨at (Loudness Rating ST MR f¨ur das R¨uckh¨oren des Sprachsignals, Loudness Rating LST R f¨ur das R¨uckh¨oren etwaiger Hintergrundger¨ausche) Es ist zu beachten, dass – bis auf den Equipment-Impairment-Faktor Ie und den Packet-Loss Robustness Factor Bpl – alle Beschreibungsparameter instrumentell gemessen werden k¨onnen. Man hat damit eine fast ausschließlich instrumentell er¨ mittelbare Beschreibung des gesamten Ubertragungskanals – in beide Richtungen, d.h. unter Ber¨ucksichtigung der Konversationsf¨ahigkeit – zur Hand. Diese Beschreibung ist noch von Bedeutung, wenn Qualit¨at anhand messbarer Parameter vorhergesagt werden soll, vgl. Kapitel 9. Die Parameter lassen sich auch den einzelnen Qualit¨atsaspekten zuordnen, auf die sie prim¨ar einen Einfluss aus¨uben. Diese Zuordnung ist in Abb. 5.2 eingezeichnet; sie ist aber nicht als 1:1-Zuordnung zu verstehen, da sich einzelne St¨orungen durchaus auf komplexe Weise im Gespr¨ach auswirken k¨onnen. Bspw. kann eine zu starke Abschw¨achung (hohes SLR oder RLR) vom Sender zum Empf¨anger zu einer
¨ 5.1 Qualit¨atselemente von Sprach-Ubertragungssystemen
Attitude
Emotions
79
Experience
User Factors
Motivation, Goals
Quality of Service
Speech Communication Factors
Service Factors
Auditory’Event’Related’Factors System’s’Conversational’Capabilities Communication’Partner’Related’Factors
Voice Transmission Ease of Quality Communication
Loudness Ratings: SLR, RLR Room Noise: Ps, Pr Circuit Noise: Nc Listener Sidetone: LSTR Impulsive Noise Listener Echo: WEPL, Tr Frequency Distortion Codecs: Ie, qdu Transmission Errors: Ppl, Bpl
Conversation Effectiveness
Communication Efficiency
Type of Terminal Ergonomics Design Availability Set-up Time Response Time Reliability Compatibility
Service Efficiency
Interruptions Fading
Contextual Factors Investment Costs Operation Costs Account Conditions
Economical Benefit
Talker Echo: TELR, T Talker Sidetone: STMR Pure Delay: Ta
Usability
User Satisfaction
Utility
Acceptability
Abb. 5.2 Taxonomie der Qualit¨at eines telefonbasierten Sprachdienstes mit zugeordneten Parame¨ tern des Ubertragungskanals (M¨oller, 2005)
80
¨ 5 Qualit¨at von Sprach- und Audio-Ubertragungssystemen
Anhebung des Sprechpegels auf der Empf¨angerseite f¨uhren. Dieser wird im Gegenzug zu einem lauteren Signal auf der Sendeseite f¨uhren, weshalb sich der Sender vielleicht den H¨orer etwas weiter von Kopf entfernt h¨alt, was wiederum den Pegel auf der Empf¨angerseite absenkt, etc.
¨ 5.2 Qualit¨atsmerkmale von Sprach-Ubertragungssystemen In der Taxomonie in Abschnitt 1.4 haben wir drei verschiedene Komponenten der Sprachkommunikationsqualit¨at (Communication Efficiency) unterschieden: Voice Transmission Quality, Ease of Communication und Conversation Effectiveness. Voice Transmission Quality umfasst alle Merkmale des H¨orereignisses, die auch ¨ in einer Einweg-Ubertragungssituation wahrnehmbar sind. Hierzu wurden in der Vergangenheit umfangreiche Tests durchgef¨uhrt, welche zum Ziel hatten, die Dimensionalit¨at des Wahrnehmungsraumes zu ergr¨unden. Beide in Abschnitt 3.5 beschriebenen Verfahren zur multidimensionalen Analyse fanden hierbei ihren Einsatz. Dabei wurden je nach Autor unterschiedliche Dimensionen gefunden, was u.a. ¨ mit dem verwendeten Sprachmaterial und den betrachteten Ubertragungsstrecken ¨ bzw. Verarbeitungsalgorithmen zusammenh¨angt. Altere Untersuchungen kommen hier auf 3–5 Merkmale, die in etwa wie folgt beschrieben werden k¨onnen: • Verst¨andlichkeit oder Klarheit (McGee, 1964; McDermott, 1969; Gleiss, 1970; Nakatani und Dukes, 1973; Bappert und Blauert, 1994) • Nat¨urlichkeit oder Wiedergabetreue oder Sprecher-Erkennbarkeit (McGee, 1964; Rothauser et al., 1968; Gleiss, 1970; Nakatani und Dukes, 1973; Pascal und Boyer, 1990) • Lautheit (Rothauser et al., 1968; McDermott, 1969) • Klangfarbe (Bappert und Blauert, 1994) • Unterscheidung zwischen Hintergrundger¨ausch und Sprachsignalst¨orungen (Gleiss, 1970; McDermott, 1969; Nakatani und Dukes, 1973) In j¨ungerer Zeit wurden einige dieser Untersuchungen wiederholt, mit dem Ziel, ¨ Dimensionen f¨ur moderne Ubertragungssysteme wie Mobiltelefone und/oder Voiceover-IP zu erhalten. Mattila (2001) fokussierte auf St¨orungen, die durch Mobilfunkkan¨ale verursacht werden. W¨altermann et al. (2009) versuchten, auch St¨orun¨ gen paketbasierter Ubertragung, die akustischen Eigenschaften von Handapparaten und Freisprechern sowie Signalverarbeitungsalgorithmen zur St¨orger¨auschunterdr¨uckung und Bandbreitenerweiterung zu betrachten. Dabei ergaben sich meist 3–4 Dimensionen, die durch folgende Attribute beschrieben werden k¨onnen: • Klangverf¨arbung, Frequenzgehalt oder Direktheit: Diese Dimension wird vor al¨ lem von den linearen Ubertragungseigenschaften des Kanals beeinflusst, die dem Kanalbandpass und den Eigenschaften der Endger¨ate zugeordnet werden k¨onnen • Kontinuierlichkeit: Diese Dimension wird bei sporadischen Unterbrechungen des Kanals wie bei Paketverlusten beeinflusst; dar¨uber hinaus findet man hier
¨ 5.2 Qualit¨atsmerkmale von Sprach-Ubertragungssystemen
81
auch sporadisch auftretende Ger¨ausche, wie die durch St¨orger¨auschunterdr¨uckung teilweise hervorgerufenen Musical Tones • Rauschhaftigkeit: Diese umfasst sowohl Hintergrundger¨ausche als auch Leitungsrauschen in analogen Leitungen oder im Endger¨at Daneben ist noch die Lautheit zu beachten, die aber in den o.a. Tests nicht betrachtet wurde. Die Dimensionen finden sich auch in signalbasierten Verfahren zur instru¨ mentellen Sch¨atzung der Ubertragungsqualit¨ at wieder, die derzeit bei der International Telecommunication Union diskutiert werden. Informationen u¨ ber die Wahrnehmungsdimensionen sind n¨amlich sehr n¨utzlich zur Diagnose von St¨orungen. Neben der Voice Transmission Quality sind noch die beiden Aspekte Ease of Communication und Conversation Effectiveness zu betrachten. Ersteres umfasst zumeist auf den Gespr¨achspartner bezogene Aspekte, wie die H¨or- und Sprechanstrengung, die die Dialogpartner erfahren. Die H¨oranstrengung kann z.B. bei zu leisem Signal (zu hohes Loudness Rating des Kanals) u¨ ber dem Normalen liegen, aber z.B. auch, wenn das Gegen¨uber sehr leise spricht, der Sprache nicht m¨achtig ist, etc. Die Sprechanstrengung kann z.B. durch laute Echos erh¨oht werden. Sprech- und H¨oranstrengung kann bspw. in H¨orversuchen mit der sog. Listening-Effort-Skala (vgl. Abschnitt 3.3) oder in dedizierten Gegensprechtests gemessen werden, bei denen eine Versuchsperson aufgefordert wird, gegen ein Echo oder einen anderen Sprecher anzusprechen“. Das Urteil beruht dann wiederum auf der H¨orwahrneh” mung. Conversation Effectiveness kann neben Echos auch durch Verz¨ogerungen beeintr¨achtigt werden, die den normalen Ablauf einer Konversation st¨oren. Der Einfluss von Verz¨ogerungen auf die erfahrene Qualit¨at ist bislang noch nicht komplett gekl¨art. Klar ist aber, dass der Grad der Beeintr¨achtigung stark abh¨angt von • den Gespr¨achspartnern; die Verz¨ogerung wird n¨amlich zun¨achst einer langsa” men Reaktion“ des Gespr¨achspartners angelastet, insbesondere, wenn dieser unbekannt ist, und wird erst in zweiter Hinsicht auf die Leitung zur¨uckgef¨uhrt; • der Gespr¨achssituation; interaktive Situationen werden st¨arker beeintr¨achtigt als weniger interaktive (Monologe); sowie • der Motivation des Gespr¨aches; wenn man in Eile ist wird man st¨arker durch Verz¨ogerungen gest¨ort. Zur Messung des Einflusses wurden spezielle Konversationstests entwickelt, vgl. Abschnitt 5.8. Neben der Communication Efficiency gibt es noch die sog. Service Efficiency, die durch Service Factors und Contextual Factors beeinflusst wird. Erstere sind z.B. die konkrete Ausgestaltung des Dienstes, die verwendeten Endger¨ate, die Verf¨ugbarkeit, Gespr¨achsaufbau- und Abbauzeiten, etc., w¨ahrend letztere z.B. die mit dem Dienst verbundenen Kosten, Vertragsbedingungen, etc. umfassen. All diese Faktoren wirken sich auf die vom Benutzer erfahrene Qualit¨at aus, und dies unabh¨angig von der eigentlichen Sprach¨ubertragung. Bspw. hat man festgestellt, dass Benutzer eines Mobiltelefones das gleiche Sprachsignal als besser einstufen als Benutzer eines leitungsgebundenen Telefons.
¨ 5 Qualit¨at von Sprach- und Audio-Ubertragungssystemen
82
No. of Users
Man nimmt an, dass dies den sog. Advantage of Access widerspiegelt, den der Benutzer eines Mobiltelefons dadurch hat, dass er mobil von u¨ berall aus anrufen kann. Daher ist er im Gegenzug bereit, eine (¨ublicherweise) schlechtere Sprachqualit¨at zu tolerieren, oder aber (wie im Beispiel) er bewertet ein gleiches Sprachsignal als besser. Untersuchungen, die zu Beginn der Mobiltelefonie durchgef¨uhrt wurden, sch¨atzten diesen Qualit¨atsvorsprung als etwa die H¨alfte der notwendigen spezifischen St¨orung ein, die durch das spezielle System inh¨arent hervorgerufen wird. Wenn man also z.B. die St¨orung eines Sprachkodierers im GSM-Mobilfunknetz gegen¨uber dem ISDN-Netz fiktiv mit Ie = 20 quantifiziert, dann geht man in erster N¨aherung davon aus, dass etwa die H¨alfte dieser St¨orung durch den Vorteil der Mobilit¨at gegen¨uber der Festnetztelefonie ausgeglichen wird. Vorhersagemodelle wie das E-Modell, welches in Kapitel 9 vorgestellt wird, f¨uhren hierf¨ur einen sog. Ad¨ vantage of Access A = 10 ein. Ahnliche Berechnungen wurden auch f¨ur schnurlose (DECT-)Telefone (A = 5) sowie f¨ur Gespr¨ache in schwer zug¨angliche Regionen (A = 20; gleicht die H¨alfte der durch die Satellitenverbindung notwendigen Signalverz¨ogerung wieder aus) postuliert.
Diffusion Curve
% Adopters
Time Adopter Categories
(1)
(2)
(3)
(4)
(5)
ISDN mobile
TIPHON 3 TIPHON 1
TIPHON 2
TIPHON 4 Transmission Rating Development
Time Demand on Transmission Quality
Demand
Transmission Rating R
Time
Demand on Functionality
Time
Abb. 5.3 Angenommener Zusammenhang zwischen der Annahmebereitschaft von Innovationen (vgl. Kategorien in Abschnitt 2.4), Serviceklassen (nach TIPHON-Definition), und dem Advantage of Access; nach M¨oller (2000)
In der Praxis sind solche Absch¨atzungen weit verbreitet, aber es darf angenommen werden, dass solche Qualit¨ats-Ab- und Zuschl¨age nicht konstant sind. Bspw. hat sich die Mobiltelefonie in den letzten Jahren so weit verbreitet, dass in manchen L¨andern inzwischen mehr Mobiltelefone als Festnetztelefone existieren. Der Advantage of Access – angenommen als Differenz zwischen dem Anspruch an Funktio¨ nalit¨at und dem Anspruch an die Ubertragungsqualit¨ at – wird also geringer. Dieses angenommene Verhalten ist in Abb. 5.3 skizziert, und es wird in Verbindung mit den Nutzergruppen gebracht, welche schon in Abschnitt 2.4 erl¨autert wurden. Diese
5.3 Grunds¨atzliches zur Messung der Sprachqualit¨at
83
Darstellung sollte aber eher als Hypothese verstanden werden denn als eine pr¨azise quantitative Darstellung. Insbesondere wurde hier nicht der Zuwachs an Funktionalit¨at durch andere parallele Dienste (SMS, E-Mail, mobiles Internet, Telefonbuch, etc.) betrachtet, der einen weiteren Vorteil darstellen wird. Diese Ausf¨uhrungen sollen deutlich machen, dass es zur Bestimmung der Qualit¨at von Systemen zur Sprach- und Audio¨ubertragung h¨aufig nicht ausreicht, einzelne (Sprach- oder Audio-) Beispiele in einem H¨orversuch in einer neutralen Situation bewerten zu lassen. Sofern man weitergehende Aussagen u¨ ber die Qualit¨at und letztendlich die Akzeptanz treffen m¨ochte muss die tats¨achliche Nutzungssituation besser nachgebildet werden. Dies kann zun¨achst durch eine Kommunikationssituation geschehen, u.U. muss aber auch der tats¨achliche Nutzungszusammenhang (Mobilit¨at) mit betrachtet und nachvollzogen werden.
5.3 Grunds¨atzliches zur Messung der Sprachqualit¨at Im Folgenden sollen nun Verfahren vorgestellt werden, mit denen sich einzelne Qualit¨atsaspekte eines Telefondienstes quantitativ erfassen lassen. Diese Verfahren sind psychophysikalische Messungen, d.h. sie bedienen sich menschlicher Versuchspersonen als Messorgane. Da kommunikationstechnische Systeme im weiteren Sinne der (zwischenmenschlichen) Kommunikation oder dem Informationsaustausch (zwischen Mensch und Maschine) dienen sollten aus Gr¨unden der Validit¨at m¨oglichst Konversations- oder Interaktionstests zur Messung der Qualit¨at herangezogen werden. Diese bringen den beurteilenden Menschen (das Messorgan) in eine realistische Situation, die dann m¨oglichst auch eine realistische Erwartungshaltung (Referenz) hervorruft. Um die Umgebungsfaktoren gut kontrollieren zu k¨onnen, werden solche Tests meist im Labor durchgef¨uhrt. Die Testsituation im Labor ist jedoch immer ein St¨uck weit unnat¨urlich. Dies hat vor allem dann einen Einfluss, wenn allgemeine Qualit¨atsaspekte wie die Benutzbarkeit des Dienstes oder die Akzeptanz von Interesse sind. Solche Qualit¨atsaspekte lassen sich valide eigentlich nur in einem Feldversuch bestimmen. Aus Gr¨unden der Praktikabilit¨at und der Aufmerksamkeitslenkung ist es in Konversations- oder Interaktionstests jedoch meist nicht m¨oglich, genauen Aufschluss u¨ ber einzelne Merkmale des H¨orereignisses (bspw. seine Verst¨andlichkeit, seine Nat¨urlichkeit, die H¨oranstrengung) zu bekommen. Solche Qualit¨atsmerkmale, die zum Aspekt der Sprach¨ubertragungsqualit¨at (Voice Transmission Quality) und teilweise auch zur Konversations-Anstrengung (Ease of Communication) geh¨oren, lassen sich also besser in einem reinen H¨orversuch untersuchen, in dem den Versuchspersonen vorgefertigte Sprachproben vorgespielt werden (Konstantmethode). Die Wahl der Beurteilungsmethode im H¨orversuch h¨angt davon ab, ob die Qualit¨atsmerkmale vorher bekannt sind oder nicht, und ob sich die Stimuli in der Auspr¨agung der Merkmale stark unterscheiden oder nicht. Bei sehr a¨ hnlichen Stimuli zeigt ein Paarvergleich eine bessere Aufl¨osung als eine absolute Beurteilung. Sollen die Qualit¨atsmerkmale zun¨achst bestimmt werden, so ist eine multidimensionale
84
¨ 5 Qualit¨at von Sprach- und Audio-Ubertragungssystemen
Analyse notwendig. Einzelne Dimensionen lassen sich u¨ berhaupt nur mittels Nominalurteilen erfassen, bspw. die Verst¨andlichkeit. In den folgenden Abschnitten werden einige typische Testverfahren dem Prinzip nach vorgestellt. Der folgende Abschnitt besch¨aftigt sich zun¨achst mit der Messung der Verst¨andlichkeit. Abschnitt 5.5 gibt Beispiele f¨ur H¨orversuche zur Bestimmung der Sprach¨ubertragungsqualit¨at, bei denen Urteile in absoluten Kategorien oder (relativ) im Paarvergleich gesammelt werden. Abschnitt 5.6 zitiert vergleichbare Verfahren zur Bestimmung der Audioqualit¨at. In beiden F¨allen m¨ussen zun¨achst die Qualit¨atsmerkmale bekannt sein. Ist das nicht der Fall, so kann mit Hilfe der multidimensionalen Analyse der Raum m¨oglicher Merkmale bestimmt werden (Abschnitt 5.7). Abschnitt 5.8 zeigt Dinge auf, die bei der Durchf¨uhrung von Konversationstests zu beachten sind.
5.4 Verst¨andlichkeitstests Unter diesem Begriff werden eine ganze Reihe von Verfahren zusammengefasst, die bestimmen sollen, wie gut linguistische Informationen vom H¨orer erfasst und umgesetzt werden. Man unterscheidet zun¨achst zwischen • Verstehbarkeit (Comprehensibility): Beschreibt die F¨ahigkeit des Sprachsignals, Inhalt zu transportieren. Je nach der Gr¨oße der Einheiten unterscheidet man zwischen segmentaler Verstehbarkeit und Silbenverstehbarkeit. ¨ • Verst¨andlichkeit (Intelligibility): Beschreibt, wie gut der Inhalt einer Außerung aufgrund der Form identifiziert werden kann. Verst¨andlichkeit h¨angt – neben der Verstehbarkeit einzelner Einheiten – auch von dem lexikalischen, syntaktischen und semantischen Kontext ab. Beispiele sind die Verst¨andlichkeit von W¨ortern oder von S¨atzen. ¨ • Kommunizierbarkeit (Communicability): Beschreibt, wie gut eine Außerung der Kommunikation dient, d.h. ob sie vom Rezipienten verstanden werden kann, idealerweise so, wie der Sender es beabsichtigt hat. Kommunizierbarkeit setzt ¨ einen gewissen Grad von Verst¨andlichkeit voraus, jedoch kann bspw. ein Ubertragungskanal mit perfekter Verst¨andlichkeit trotzdem eine niedrige Kommunizierbarkeit aufweisen, bspw. wenn lange Verz¨ogerungszeiten auftreten, die den Wechsel der Gespr¨achsf¨uhrung (Turn-Taking) beeintr¨achtigen. • Verst¨andnis (Comprehension): Dies ist das Resultat eines Kommunikationsprozesses. Verst¨andnis setzt Kommunizierbarkeit voraus, und dass der Rezipient willens ist zu verstehen. Der Zusammenhang zwischen diesen Einheiten ist z.B. bei Raake (2006) beschrieben und geht zur¨uck auf die Unterscheidung von Verst¨andlichkeit und Verstehbarkeit, die bereits Jekosch (2000) vorgenommen hat. Zu den einzelnen Aspekten k¨onnen nun Tests durchgef¨uhrt werden. Dabei wird eine Versuchsperson normalerweise instruiert, niederzuschreiben oder anzugeben, was sie gerade geh¨ort hat. Die Tests unterscheiden sich vor allem bzgl.
5.4 Verst¨andlichkeitstests
85
• der Einheiten, die identifiziert werden sollen: Silben, Konsonant-Vokal-Konsonant-Cluster, sinnbehaftete W¨orter, syntaktisch korrekte aber semantisch sinnlose S¨atze, sinnbehaftete S¨atze, etc. • den Antwortm¨oglichkeiten, die vorgegeben werden: Offener Test (keine M¨oglichkeiten vorgegeben) oder geschlossener Test (mehrere Antwortm¨oglichkeiten vorgegeben) Als Ergebnis erh¨alt man dann eine Rate korrekt identifizierter Einheiten (z.B. Clusterverstehbarkeit, Wortverst¨andlichkeit, etc.), oft zusammen mit einer Konfusionsmatrix, welche angibt, wie h¨aufig welche Einheit mit welcher anderen vertauscht wurde. Aus letzterer l¨asst sich u.U. ableiten, welche Teile des Sprachsignals gest¨ort waren. Genauere Erl¨auterungen bekannter Tests finden sich z.B. bei van Bezooijen und van Heuven (1997). Zur Ermittlung der Verstehbarkeit einzelner Segmente werden normalerweise nicht bedeutungstragende W¨orter generiert, die aus einzelnen oder mehreren (Index n ) Konsonanten (K) und Vokalen (V) bestehen, z.B. in der Form KV, VKV oder VK beim SAM Standard Segmental Test, oder der Form Kn V oder Kn VKn bzw. VKn beim CLID-Test. Hierbei wird vorzugsweise eine offene Antwortm¨oglichkeit gegeben, um durch die Ratewahrscheinlichkeit die Aufl¨osung des Tests nicht zu verringern. Zur Ermittlung der Verst¨andlichkeit werden bedeutungstragende W¨orter oder S¨atze verwendet. Hierbei kann versucht werden, einzelne Kontext-Ebenen gezielt auszuschließen. Bspw. werden beim Reimtest und seinen Varianten (Diagnostic Rhyme Test, Modified Rhyme Test) sinnbehaftete Einsilber der Struktur KVK verwendet; es wird also nur lexikalische Kontext-Information zugelassen. Diese Tests arbeiten mit einer geschlossenen Antwortm¨oglichkeit, d.h. die Versuchsperson muss aus einer Auswahl an Verschriftungen diejenige ausw¨ahlen, die sie zu h¨oren glaubt. Beim SUS-Test (Semantically Unpredictable Sentences) werden S¨atze gebildet, die zwar syntaktisch korrekt, aber semantisch unsinnig“ sind (bspw. Der Laut backt ” ” den Keim, der plant“). Hierbei ist wiederum eine offene Antwortm¨oglichkeit gegeben. Zur Ermittlung der Kommunizierbarkeit und des Verst¨andnisses muss man Versuchspersonen in einen Kommunikations-Zusammenhang versetzen. Dabei kann man Versuchspersonen z.B. nach dem Inhalt der Kommunikation fragen oder sie bitten, einen Sachverhalt nachzuerz¨ahlen. Die vorgestellten Tests wurden entweder zur Untersuchung synthetischer oder durch Telefonleitungen u¨ bertragener Sprache entwickelt. Durch die unterschiedlichen Anwendungszusammenh¨ange ergeben sich die unterschiedlichen Stimuli und Testdurchf¨uhrungen. Dar¨uber hinaus gibt es Tests, die die Identifikationsf¨ahigkeit der Versuchsperson – und nicht die Identifizierbarkeit der Sprachprobe – ¨ u¨ berpr¨ufen. Solche Tests werden z.B. in der Audiologie zur Uberpr¨ ufung des H¨orverm¨ogens bzw. einer H¨orger¨ateversorgung angewendet. Eine detaillierte Diskussion unterschiedlicher Verfahren findet sich z.B. bei Jekosch (2000, 2005).
86
¨ 5 Qualit¨at von Sprach- und Audio-Ubertragungssystemen
5.5 Messung der Sprachqualit¨at im H¨orversuch ¨ Bei der Ermittlung der Ubertragungsqualit¨ at wie auch bei der Ermittlung der Qualit¨at synthetischer Sprache spielt die Verst¨andlichkeit eigentlich nur noch eine untergeordnete Rolle. Allerdings interessiert bei synthetischer Sprache umso mehr, wie gut sie in den kommunikativen Zusammenhang passt. Bei u¨ bertragener Sprache ist zwar die Verst¨andlichkeit durch stark gest¨orte Voice-over-IP-Verbindungen sowie durch den Einsatz signalverarbeitender Systeme (Echo-Unterdr¨ucker, Ger¨auschreduktion) wieder etwas wichtiger geworden; trotzdem geht man davon aus, dass die Qualit¨at des H¨orereignisses haupts¨achlich von anderen Merkmalen als der Verst¨andlichkeit abh¨angt. Diese Merkmale lassen sich z.B. in H¨orversuchen quantifizieren, bei denen den Versuchspersonen einzelne Sprachbeispiele vorgespielt werden und sie dann die Auspr¨agung des interessierenden Merkmals skalieren sollen. Dies kann sich zum einen auf die Ermittlung der Gesamtqualit¨at beziehen, oder es k¨onnen Merkmale wie die H¨oranstrengung (Listening Effort), die Lautheit oder die Beeintr¨achtigung durch spezielle St¨orungen (Hintergrundger¨ausche, Echos) sein. Skalen f¨ur diesen Zweck wurden bereits in Abschnitt 3.3 vorgestellt. Details zur Durchf¨uhrung solcher Tests finden sich z.B. in ITU-T Rec. P.800 (1996) oder im ITU-T Handbook on Telephonometry (1992). Das Ergebnis eines solchen absoluten“ Zuordnungstests ist stark von der Qua” lit¨at der angebotenen Stimuli abh¨angig. So kann es sein, dass derselbe Stimulus in einem Test (mit sehr vielen schlechten“ Stimuli) deutlich besser beurteilt wird als ” in einem anderen Test (mit sehr vielen guten“ Stimuli). Deshalb ist es wichtig, im ” Test eine gewisse Qualit¨atsspanne abzudecken, wenn die Ergebnisse nicht nur relative (bez¨uglich der Unterschiede und der Rangfolge) sondern auch absolute (bzgl. der absoluten Auspr¨agung der Merkmale) Aussagekraft haben sollen. Auch die Reihenfolge der Stimuli im Test ist wichtig und sollte bei der Testgestaltung ber¨ucksichtigt werden (vgl. Abschnitte 2.6 und 3.3). Zur Verankerung werden den Versuchspersonen h¨aufig Probestimuli vorgespielt, bevor der eigentliche Test beginnt; damit wird erreicht, dass die zur Verf¨ugung stehende Skala besser ausgenutzt wird, allerdings unter Inkaufnahme einer Beeinflussung der Versuchspersonen. Wenn sich die Stimuli bez¨uglich des zu beurteilenden Merkmals nur gering unterscheiden, so kann man mittels eines Paarvergleiches die Aufl¨osung des Tests erh¨ohen. Hierbei werden die Stimuli in Paaren (2) oder in Triaden (3) vorgespielt, und die Aufgabe der Versuchsperson ist es, denjenigen Stimulus zu benennen, der bzgl. des Merkmals am ausgepr¨agtesten ist. Hieraus gibt sich eine Rangfolge der angebotenen Stimuli, jedoch keine absolute Zuordnung auf einer Intervallskala. Die Methoden unterscheiden sich u.a. in der verwendeten Skala und darin, ob der Vergleich zu einer festen Referenz hergestellt wird, oder ob die Stimuli untereinander verglichen werden. Als Teststimuli werden in der Regel kurze sinnbehaftete S¨atze verwendet, die eine Dauer von etwa 4–8 s haben. Da die S¨atze f¨ur die Versuchspersonen keine inhaltlich interessante Information tragen ist festzustellen, dass sich die Versuchspersonen recht stark auf die Oberfl¨achenform der Sprache und weniger auf den Inhalt
5.6 Messung der Audioqualit¨at im H¨orversuch
87
konzentrieren – weniger, als dies in einer normalen Konversationssituation der Fall w¨are. Man kann diesem Problem begegnen, indem man den Versuchspersonen eine Nebenaufgabe stellt, die den Fokus auf den Inhalt richtet, bspw. indem man eine Frage stellt, die sich auf den Inhalt bezieht, bevor das Qualit¨atsurteil abgefragt wird. Solche Verfahren werden z.B. zur Untersuchung der Qualit¨at synthetisierter Sprache angewendet (ITU-T Rec. P.85, 1994), vgl. Abschnitt 7.4.4. Wenn sich das Augenmerk der Untersuchung nicht auf die entsprechende Stim¨ me (z.B. synthetische Sprache) sondern auf den Einfluss des Ubertragungskanals richtet, so ist darauf zu achten, dass unterschiedliche Sprecher im Stimulusmaterial vorhanden sind. Unterschiedliche Sprecher k¨onnen n¨amlich die Eigenschaften ¨ des Ubertragungskanals unterschiedlich stark herausstellen, bspw. durch ihr Stimmspektrum. Meist verwendet man 4-8 Sprecher beiderlei Geschlechts (2-4 m, 2-4 w).
5.6 Messung der Audioqualit¨at im H¨orversuch Im Prinzip kann man zur Messung der Qualit¨at von Musik- und anderen Audiosignalen a¨ hnliche Verfahren verwenden wie bei der Messung von Sprachqualit¨at. Allerdings befindet man sich dabei meist auf einem anderen Qualit¨atsniveau“. D.h., ” es handelt sich i. Allg. um qualitativ hochwertige H¨orproben, welche breitbanding (nicht durch den Telefonkanal begrenzt) in einer ruhigen Umgebung (z.B. im Studio) aufgezeichnet wurden. Auch die H¨orsituation ist h¨aufig eine andere, z.B. beim Musikh¨oren im heimischen Wohnzimmer oder im Konzertsaal. Um diesen Dingen Rechnung zu tragen, muss ein H¨orversuch zur Messung von Audioqualit¨at in einer ad¨aquaten Umgebung durchgef¨uhrt werden, und den Versuchspersonen muss die Gelegenheit gegeben werden, auch kleine – kaum h¨orbare – Unterschiede zwischen den Stimuli zu bewerten. Dies f¨uhrt zum einen dazu, dass man h¨oher aufl¨osende Skalen bevorzugt. Bspw. kann man kontinuierliche Skalen verwenden, a¨ hnlich derer, die bereits in Abschnitt 3.3 vorgestellt wurde. Auch verwendet man zweistufige Skalen, bei denen zun¨achst eine grobe Klassifikation vorgenommen wird, und danach eine genauere Abstufung. Um die Aufl¨osung zu steigern, bevorzugt man Paarvergleiche gegen¨uber absoulten Beurteilungen. Einfache vollst¨andige Paarvergleiche w¨urden aber h¨aufig zu sehr umfangreichen Testpl¨anen f¨uhren. Man verwendet deshalb spezielle Vergleichsverfahren, wie im Folgenden dargestellt. Bei der Methode nach ITU-R Rec. BS.1116-1 (1997) werden der Versuchsperson bspw. 3 Stimuli (A, B und C) angeboten. Stimulus A stellt die Referenz dar. Das zu beurteilende Testsignal sowie eine weitere versteckte“ Referenz werden in zuf¨alli” ger Reihenfolge als Stimulus B und C angeboten. Man bezeichnet diese Methode deshalb als Double-Blind Triple-Stimulus with Hidden Reference. Die Aufgabe der Versuchsperson besteht nun darin, die Referenz bzw. das zu beurteilende Testsignal zun¨achst zu erkennen, und dann das erkannte Testsignal im Vergleich zur Referenz A anhand einer f¨unfstufigen Kategorienskala (von 5 = nicht wahrnehm”
88
¨ 5 Qualit¨at von Sprach- und Audio-Ubertragungssystemen
bar“/“imperceptible” bis 1 = sehr st¨orend“/“very annoying”, vgl. Abschnitt 3.3) ” zu bewerten. Die MUSHRA-Methode (MUlti Stimulus test with Hidden Reference and Anchor) nach ITU-R Rec. BS.1534-1 (2003) gestattet es, bis zu 12 zeitsynchrone Testsignale bzgl. ihrer Gesamtqualit¨at (allgemeine Audioqualit¨at) zu bewerten. Dabei kann jeweils eines von 12 zeitsynchron abgespielten Testsignalen beliebig von der Versuchsperson ausgew¨ahlt werden, um es zur Beurteilung u¨ ber einen Lautsprecher oder Kopfh¨orer wiederzugeben. Neben den zu testenden Stimuli beinhalten die Stimuli eine gekennzeichnete Referenz (unbeeinflusstes Originalsignal, welches nicht zu beurteilen ist), eine versteckte Referenz (Hidden Reference, die nicht gekennzeichnet ist), und einen versteckten Ankerstimulus (z.B. eine auf 3,5 oder 7 kHz tiefpass-begrenzte Version des Originalsignals). Die beiden nicht gekennzeichneten zus¨atzlichen Signale sind wie die anderen Teststimuli zu beurteilen und dienen lediglich der Verankerung der Methode. Die Beurteilung erfolgt an Hand einer kontinuierlichen Qualit¨atsskala von 0 bis 100, die meist als Schieberegler ausgepr¨agt ist und mit den Attributen mangelhaft“/“bad” bis ausgezeichnet“/“excellent” be” ” schriftet ist. Tests zur Bestimmung der Audioqualit¨at werden h¨aufig mit trainierten Versuchspersonen durchgef¨uhrt. Dies zum einen, weil die Testaufgabe dann komplexer sein kann, zum anderen, weil damit angenommenermaßen eine bessere Unterscheidung der Stimuli getroffen werden kann. Dies geht allerdings zu Lasten der allgemeinen Aussagekraft der Ergebnisse. Sie liefern damit eher relative“ Vergleiche zwischen ” Stimuli als absolute“ Messwerte der von der Zielgruppe erfahrenen Qualit¨at. ”
5.7 Multidimensionale Analyse Methoden zur multidimensionalen Analyse wurden bereits in Abschnitt 3.5 be¨ schrieben. Dort wurden insbesondere die zwei Hauptverfahren vorgestellt: Die Ahnlichkeitsbewertung mit anschließender Multidimensionaler Skalierung (MDS) sowie das Semantische Differential mit Hauptkomponentenanalyse. In Abschnitt 5.2 wurden auch Ergebnisse solcher Analysen in Bezug auf u¨ bertragene Sprache zitiert. F¨ur die Analyse der Sprachqualit¨at wurde dar¨uber hinaus von Voiers (1977) ein spezielles Verfahren entwickelt, das sog. Diagnostic Acceptability Measure, DAM, siehe Abb. 5.4. Dabei handelt es sich im Prinzip um eine ausgefeilte Version eines semantischen Differentials, welches von hoch trainierten Versuchspersonen durchgef¨uhrt wird. Die Versuchspersonen werden danach ausgew¨ahlt, dass sie hohe Korrelationen mit einem Langzeit-Mittelwert eines großen Versuchspersonen-Pools erzielen. Jede Versuchsperson beurteilt alle Stimuli auf 20 Antwortskalen. 10 dieser Skalen beziehen sich auf die Qualit¨at der u¨ bertragenen Sprache, 7 auf die Qualit¨at des Hintergrundger¨ausches, und 3 auf die Gesamtqualit¨at. Die Urteile werden zun¨achst auf erwartete Mittelwerte kalibriert. Die 17 Sprach- und Hintergrundger¨auschbezogenen Skalen werden dann auf 10 Reporting-Skalen transformiert. 2 weitere
5.8 Konversationsversuche
89
Signal Qualities
Background Qualities
Total Effect
Fluttering
Hissing
Intelligibility
Thin
Buzzing
Pleasantness
Rasping
Babbling
Acceptability
Muffled
Rumbling
Interrupted Nasal
Abb. 5.4 Verwendete Attribute des Diagnostic Acceptability Measure, vgl. Voiers (1977)
Skalen beschreiben die Gesamtqualit¨at des u¨ bertragenen Sprachsignals und des Hintergrundger¨ausches. Zu diesen 12 Skalen werden 4 Meta-Skalen hinzugef¨ugt, welche die Verst¨andlichkeit“, die Annehmlichkeit“, die Akzeptanz“, und die soge” ” ” nannte Composite Acceptability beschreiben sollen. Letztere Skala bildet das HauptErgebnis des DAM.
5.8 Konversationsversuche Die bislang behandelten Verfahren beschr¨anken sich auf die H¨orsituation. Damit lassen sich H¨orereignisse recht analytisch untersuchen, allerdings ist die H¨orsituation nicht unbedingt f¨ur die sp¨atere Anwendung repr¨asentativ. Zur validen Bestimmung der Gesamtqualit¨at, die ein Benutzer eines Sprach¨ubertragungssystems erf¨ahrt, sind deshalb Konversationstests notwendig. Konversationstests vermeiden viele Probleme, die sich bei H¨orversuchen ergeben, auf nat¨urliche Weise. So ist die Anzahl der Sprecher normalerweise h¨oher als beim H¨orversuch, die Aufmerksamkeit der Versuchspersonen ist auf den Inhalt (und nicht auf die Form) der Sprache gerichtet, und es lassen sich auch St¨orungen erfassen, die nur in einer Kommunikationssituation auftreten (bspw. Verz¨ogerungszeiten oder Echos). Daf¨ur sind die Ergebnisse der Versuchspersonen meist nicht sehr analytisch; d.h. es l¨asst sich z.B. die Gesamtqualit¨at bestimmen, aber nicht unbedingt einzelne Qualit¨atsmerkmale. Auch lassen sich Konversationstests nur als absolute Beurteilung, nicht aber als Paarvergleich durchf¨uhren. Zur Stimulation einer nat¨urlichen“ Konversation werden den Versuchspersonen ” meist Szenarien vorgegeben. Dies k¨onnen kleine Rollenspiele sein, bei denen zwei Versuchspersonen miteinander eine bestimmte Aufgabe zu l¨osen haben, bspw. ein Ticket zu reservieren oder einen Termin abzustimmen. Dazu bekommen beide Versuchspersonen unterschiedliche Vorgaben, die sie im Dialog miteinander austauschen m¨ussen. In der Literatur sind eine Reihe von Szenarien beschrieben, z.B. • die Diskussion von Bildern u¨ ber das Telefon (sog. Postkarten-Test)
¨ 5 Qualit¨at von Sprach- und Audio-Ubertragungssystemen
90
• ein Suchspiel, bei dem in einem abstrakten Bild Zahlen platziert sind (jedoch bei jeder Versuchsperson etwas anders), und bei dem die Versuchspersonen die u¨ bereinstimmenden Zahlen herausfinden m¨ussen (sog. Kandinski-Test) • sog. kurze Konversationstests (Short Conversation Tests), bei denen die Versuchspersonen leichte Aufgaben im Rollenspiel l¨osen m¨ussen (z.B. Bestellung einer Pizza, Reservierung einer Reise, Absprache eines Termins); diese f¨uhren zu k¨urzeren und dennoch stark strukturierten Dialogen • sog. interaktive Tests, bei denen Versuchspersonen so schnell wie m¨oglich Nummern oder Adressen abgleichen sollen (Raake, 2006) sowie eine Vielzahl weiterer M¨oglichkeiten, vgl. u.a. das ITU-T Handbook on Telephonometry (1992) oder M¨oller (2000). Beispiele f¨ur die Szenarien eines kurzen Konversationstests sind in Abb. 5.5 und 5.6 angegeben, jeweils f¨ur den Anrufer und die angerufene Person. Dar¨uber hinaus besteht nat¨urlich auch die M¨oglichkeit, keine Gespr¨achsvorgaben zu machen (sog. freie Konversation).
Scenario 3: Information on flights Your name: Parker Intended journey: London Heathrow Æ Düsseldorf On June 23th, morning flight, direct flight preferred Departure
: _______________ h
Arrival
: _______________ h
Flight number
: _______________
Reservation
: 1 seat, : Economy Class : 66 Middle Street, Sheffield 21 08 33
Address
From which airport is it easier to get into Cologne city centre: Düsseldorf or Cologne/Bonn? __________________________________________________________________
Abb. 5.5 Szenario f¨ur einen sog. Short Conversation Test, aus M¨oller (2000). Beispiel f¨ur den Anrufer
5.9 Standards Bei der Vielzahl er in den vergangenen Abschnitten vorgestellten Verfahren stellt sich nat¨urlich die Frage, welches Verfahren denn das geeignete f¨ur eine bestimmte Messaufgabe ist. Hier soll zun¨achst wiederholt werden, dass es kein ideales Verfahren gibt, welches alle Messaufgaben optimal l¨osen k¨onnte. Wie bereits in Kapitel 2
5.9 Standards
91
Scenario 3: Information on flights Your name: Heathrow flight information Flight schedule: London Heathrow Æ Düsseldorf Lufthansa
LH 2615
Flight number
London Heathrow
dep.
Brussels Brussels
arr. dep.
Düsseldorf
dep. arr.
Reservation:
6:30
British Airways
BA 381 6:35
Lufthansa
LH 413 8:20
7:35 8:00 7:35
(daily)
9:05
(daily)
9:25
(daily)
Name
: ____________________________
Address
: ____________________________
Telephone number
: ____________________________
Number of seats
: ____________________________
____________________________
Class
Business
Economy
________________________________________________________________
Abb. 5.6 Szenario f¨ur einen sog. Short Conversation Test, aus M¨oller (2000). Beispiel f¨ur die angerufene Person
beschrieben muss ein Messverfahren gem¨aß dem aktuellen Messziel optimal gestaltet werden, und es muss nach Kapitel 3 eine optimale Skala gew¨ahlt werden. Wenn m¨oglich kann auf standardisierte Verfahren zur¨uckgegriffen werden: Dies soll noch einmal betont werden, denn die Verwendung standardisierter Verfahren ist kein Selbstzweck. Standardisierte Verfahren erlauben eine bessere Vergleichbarkeit von Ergebnissen, und gestatten es auch dem Laien, valide und reliable Ergebnisse zu erhalten, ohne die psychophysikalischen Hintergr¨unde komplett zu erfassen. Dies allerdings nur, wenn man sich seines Messziels bewusst ist, und wenn man auch die Nachteile der verschiedenen Verfahren einsch¨atzen kann. ¨ Zur Bestimmung der Qualit¨at von Sprachubertragungssystemen hat der Telecommunication Standardization Sector der International Telecommunication Union (ITU-T, fr¨uher CCITT) eine Reihe von Empfehlungen herausgegeben, die als Quasi-Standards bezeichnet werden k¨onnen. Die wichtigste Empfehlung stellt dabei ITU-T Rec. P.800 (1996) dar, in der allgemeine Dinge zum Testverfahren, den Teststimuli, dem Versuchsablauf, den Skalen, etc. beschrieben sind. Im Annex dieser Empfehlung sind auch 5 Standard-Verfahren beschrieben: Zum einen der sog. Conversation-Opinion Test, d.h. ein Konversationstest mit ACRBeurteilung der Gesamtqualit¨at auf einer 5-stufigen Kategorienskala (von 5 = aus” gezeichnet“/“excellent” bis 1 = schlecht“/“bad”). Ausf¨uhrliche Details zu sol”
¨ 5 Qualit¨at von Sprach- und Audio-Ubertragungssystemen
92
chen Konversationstests, insbes. zu Beurteilungsm¨oglichkeiten, Szenarien, etc. finden sich auch in ITU-T Rec. P.805 (2007). Zum zweiten einen entsprechenden Listening-Only Test mit ACR-Beurteilung der Gesamtqualit¨at auf einer 5-Stufigen Kategorienskala, der sog. MOS-Skala. Dieser Versuch ist der in der Praxis am h¨aufigsten durchgef¨uhrte, gestattet er doch eine einfache und schnelle Beurteilung ¨ einer Vielzahl von Ubertragungssystemen, wenn auch mit wenig analytischer und allgemeiner Aussagekraft. Zum dritten der sog. Quantal Response Detectability Test, bei dem das Vorhandensein und die St¨orhaftigkeit bestimmter (vordefinierter) St¨orungen auf einer 7-stufigen ACR-Skala beurteilt wird. Zum vierten ein Degradation Category Rating (DCR) Test zum Paarvergleich mit einer vordefinierten und bekannten Referenz; die St¨orung des Teststimulus im Vergleich zur Referenz wird auf einer 5-stufigen Kategorienskala beurteilt. Zum f¨unften der Comparison Category Rating (CCR) Test, bei dem zwei Stimuli im Paarvergleich bewertet werden, wobei der zweite Stimulus gegen¨uber dem ersten aber auch besser beurteilt werden darf. Das Urteil wird hier auf einer 5-stufigen bipolaren Skala gesammelt. Verstärkung oder Abschwächung Eingangssignal
Ausgangssignal
+ Filter 100-3400 Hz
Hochpass
X Verstärkung oder Abschwächung Rauschgenerator
Abb. 5.7 Modulated Noise Reference Unit nach ITU-T Rec. P.810 (1996)
Neben dieser Haupt-Empfehlung gibt es noch weitere f¨ur spezielle Fragestellungen. So wird in ITU-T Rec. P.810 (1996) ein Simulationssystem zur Herstellung von signal-korreliertem Rauschen beschrieben, die sog. Modulated Noise Reference Unit, MNRU. Mit ihrer Hilfe k¨onnen Referenzst¨orungen fast beliebiger Gr¨oße hergestellt werden, vgl. Abb. 5.7. Leider ist die dabei entstehende St¨orung perzeptiv sehr un¨ahnlich zu dem, was moderne Sprach¨ubertragungskan¨ale auszeichnet; sie ist eher eine skalierbare Version von Quantisierungsrauschen. In ITU-T Rec. P.830 (1996) werden spezielle Anforderungen an die Messung der Qualit¨at von Sprachkodierern gestellt. ITU-T Rec. P.831 (1998) beschreibt spezielle Verfahren f¨ur EchoUnterdr¨ucker, ITU-T Rec. P.832 (2000) solche f¨ur Freisprecher, und ITU-T Rec. P.840 (2003) solche f¨ur Digitale Multiplexverfahren (DCME). ITU-T Rec. P.835 (2003) erweitert das aus ITU-T Rec. P.800 bekannte Verfahren (Listening-Only Test mit ACR-Beurteilung) auf Hintergrundger¨ausche sowie Ger¨auschunterdr¨uckungsverfahren. Hierbei wird getrennt die Sprachqualit¨at sowie die St¨orhaftigkeit des Hintergrundger¨ausches beurteilt, und anschließend ein Gesamturteil gef¨allt.
5.9 Standards
93
ITU-T Rec. P.880 (2004) beschreibt ein spezielles Verfahren zur Beurteilung der Qualit¨at zeitlich variabel gest¨orter Signale. Da die St¨orung nicht u¨ ber den gesamten Zeitraum des Stimulus konstant ist werden zwei Urteile abgefragt: Eine kontinuierliche Beurteilung (z.B. mit einem Schieberegler auf einer kontinuierlichen Skala) w¨ahrend des H¨orens, und ein ACR-Urteil (5-stufige Gesamtqualit¨atsskala) nach ¨ Abschluss des H¨orens. Andert sich die St¨orung w¨ahrend eines Gespr¨aches, so kann dies – neben einem Konversationsversuch – auch mit Hilfe simulierter Konversationen analytisch untersucht werden. Hierzu wird eine Seite eines Gespr¨aches einer Versuchsperson vorgespielt, und sie muss nach jedem Stimulus (von 6–12 s L¨ange) eine inhaltliche Frage beantworten. Die Beurteilung der Qualit¨at erfolgt dann am Ende des so simulierten Gespr¨aches. Dieses Verfahren wurde von der ETSI (European Telecommunications Standards Institute) standardisiert, vgl. ETSI Technical Report 102 506 (2007). ITU-T Rec. P.85 (1994) beschreibt das schon angesprochene Verfahren zur Messung der Qualit¨at synthetischer Sprache im Anwendungszusammenhang von Sprachdialogdiensten. Hierbei werden applikationstypische Stimuli verwendet, und die Versuchsperson bekommt vor der eigentlichen Beurteilung die Aufgabe, Inhalte des geh¨orten Sprachstimulus wiederzugeben bzw. inhaltliche Fragen zu beantworten. Hierdurch soll die Aufmerksamkeit auf den Inhalt und weniger auf die Form gelenkt werden, und die Versuchsperson somit in eine realistischere Situation gebracht werden (valide Referenz, gegen die beurteilt wird).
Test with picture?
Yes
No Any small impairements?
Any small impairements?
Yes
No
No
Yes No
Yes
Yes
Pre-select? Intermediate audio quality?
Yes
Rec. ITU-R BS. 1285
Pre-select?
Intermediate audio quality?
No
Yes
No
Rec. ITU-R BS. 1286 & Rec. ITU-R BS. 1285
No
Rec. ITU-R BS. 1284
Rec. ITU-R BS. 1534
Rec. ITU-R BS. 1116
Stop
Stop
Stop
Rec. ITU-R BS. 1286 & Rec. ITU-R BS. 1284
Rec. ITU-R BS. 1286 & Rec. ITU-R BS. 1534
Rec. ITU-R BS. 1286 & Rec. ITU-R BS. 1116
Stop
Stop
Stop
¨ Abb. 5.8 Ubersicht der ITU-R-Empfehlungen zur Messung der Audioqualit¨at, nach ITU-R Rec. BS.1283-1 (2003)
94
¨ 5 Qualit¨at von Sprach- und Audio-Ubertragungssystemen
Standards zur Bestimmung der Qualit¨at von Audiosignalen werden von Radiocommunication Sector der ITU (ITU-R) bzw. von der International Electrotechnical Commission (IEC) herausgegeben. Hierzu findet sich in ITU-R Rec. BS.1283¨ 1 (2003) zun¨achst eine Ubersicht und Handreichung zur Anwendung der wei¨ terf¨uhrenden Empfehlungen. Diese Ubersicht ist in Abb. 5.8 dargestellt. ITU-R Rec. BS.1284-1 (2003) gibt zun¨achst die erforderlichen Grundlagen, insbes. in Bezug auf Skalen, Testmethoden und Testaufbauten. ITU-R Rec. BS.1116-1 (1997) beschreibt das schon zitierte Double-Blind-Triple-Stimulus-with-Hidden-ReferenceVerfahren; dieses eignet sich auch f¨ur stereophone und Mulitikanal-Aufnahmen, allerdings nur f¨ur geringe St¨orungen. Das schon erw¨ahnte MUSHRA-Verfahren ist in ITU-R Rec. BS.1534-1 (2003) beschrieben; es kann auch bei etwas deutlicheren St¨orungen angewendet werden. IEC Technical Report 60268-13 (1998) schließlich beschreibt H¨orversuche zur Beurteilung von Lautsprechern.
Literaturverzeichnis Bappert V, Blauert J (1994) Auditory quality evaluation of speech-coding systems. Acta Acustica 2:49–58 ETSI Technical Report 102 506 (2007) Speech Processing, Transmission and Quality Aspects (STQ); Estimating Speech Quality per Call. European Telecommunications Standards Institute, Sophia Antipolis Gleiss N (1970) The effect of bandwidth restriction on speech transmission quality in telephony. In: Proc. 4th Int. Symp. on Human Factors in Telephony (Bad Wiessee, 1968), VDE-Verlag, Berlin, S 1–6 IEC Technical Report 60268-13 (1998) Listening Test on Loudspeakers. International Electrotechnical Commission, Genf ITU-R Rec. BS.1116-1 (1997) Methods for the Subjective Assessment of Small Impairments in Audio Systems Including Multichannel Sound Systems. International Telecommunication Union, Genf ITU-R Rec. BS.1283-1 (2003) A Guide to ITU-R Recommendations for Subjective Assessment of Sound Quality. International Telecommunication Union, Genf ITU-R Rec. BS.1284-1 (2003) General Methods for the Subjective Assessment of Sound Quality. International Telecommunication Union, Genf ITU-R Rec. BS.1534-1 (2003) Method for the Subjective Assessment of Intermediate Quality Levels of Coding Systems. International Telecommunication Union, Genf ITU-T Handbook on Telephonometry (1992) International Telecommunication Union, Genf ITU-T Rec. G.107 (2009) The E-Model: A Computational Model for Use in Transmission Planning. International Telecommunication Union, Genf ITU-T Rec. G.711 (1988) Pulse Code Modulation (PCM) of Voice Frequencies. International Telecommunication Union, Genf ITU-T Rec. P.800 (1996) Methods for Subjective Determination of Transmission Quality. International Telecommunication Union, Genf ITU-T Rec. P.805 (2007) Subjective Evaluation of Conversational Quality. International Telecommunication Union, Genf ITU-T Rec. P.810 (1996) Modulated Noise Reference Unit (MNRU). International Telecommunication Union, Genf ITU-T Rec. P.830 (1996) Subjective Performance Assessment of Telephone-Band and Wideband Digital Codecs. International Telecommunication Union, Genf
Literaturverzeichnis
95
ITU-T Rec. P.831 (1998) Subjective Performance Evaluation of Network Echo Cancellers. International Telecommunication Union, Genf ITU-T Rec. P.832 (2000) Subjective Performance Evaluation of Hands-free Terminals. International Telecommunication Union, Genf ITU-T Rec. P.835 (2003) Subjective Test Methodology for Evaluating Speech Communication Systems That Include Noise Suppression Algorithm. International Telecommunication Union, Genf ITU-T Rec. P.840 (2003) Subjective Listening Test Method for Evaluating Circuit Multiplication Equipment. International Telecommunication Union, Genf ITU-T Rec. P.85 (1994) A Method for Subjective Performance Assessment of the Quality of Speech Voice Output Devices. International Telecommunication Union, Genf ITU-T Rec. P.880 (2004) Continuous Evaluation of Time-varying Speech Quality. International Telecommunication Union, Genf Jekosch U (2000) Sprache h¨oren und beurteilen: Ein Ansatz zur Grundlegung der Sprachqualit¨atsbeurteilung. Habilitationsschrift (unver¨offentlicht), Universit¨at/Gesamthochschule, Essen Jekosch U (2005) Voice and Speech Quality Perception. Assessment and Evaluation. Springer, Berlin Mattila VV (2001) Perceptual Analysis of Speech Quality in Mobile Communications. Dissertation, Vol. 340, Tampere University of Technology, Tampere McDermott BJ (1969) Multidimensional analyses of circuit quality judgments. J Acoust Soc Am 45(3):774–781 McGee VE (1964) Semantic components of the quality of processed speech. J of Speech and Hearing Research 7:310–323 M¨oller S (2000) Assessment and Prediction of Speech Quality in Telecommunications. Kluwer Academic Publ., Boston MA M¨oller S (2005) Communication Acoustics, Springer, Berlin, Kapitel Quality of Transmitted Speech for Humans and Machines, S 163–192 Nakatani LH, Dukes KD (1973) A sensitive test of speech communication quality. J Acoust Soc Am 53(4):1083–1092 Pascal D, Boyer M (1990) Multidimensional perceptive measurement of quality: Comparative performance of two methods. In: Proc. 13th Int. Symp. on Human Factors in Telecommunications, Torino, S 519–520 Raake A (2006) Speech Quality of VoIP: Assessment and Prediction. John Wiley & Sons Ltd., Chichester, West Sussex Richards DL (1973) Telecommunication by Speech. Butterworths, London Rothauser EH, Urbanek GE, Pachl WP (1968) Isopreference method for speech evaluation. J Acoust Soc Am 44(2):408–418 van Bezooijen R, van Heuven V (1997) Handbook on Standards and Resources for Spoken Language Systems, Mouton de Gruyter, Berlin, Kapitel Assessment of Synthesis Systems, S 481–563 Voiers WD (1977) Diagnostic acceptability measure for speech communication systems. In: Proc. Int. Conf. Acoust. Speech and Signal Proc. (ICASSP ’77), IEEE, New York NY, S 204–207 W¨altermann M, Raake A, M¨oller S (2009) Quality dimensions of narrowband and wideband speech transmission. Acta Acustica United with Acustica Zur Ver¨offentlichung angenommen
Kapitel 6
¨ Qualit¨at von Video-Ubertragungssystemen
¨ Als zweiter Anwendungsfall sollen in diesem Kapitel Systeme zur Ubertragung und Speicherung von Video-Signalen betrachtet werden. Dabei handelt es sich z.B. um Anwendungen wie das traditionelle (terrestrisch drahtlose oder kabelgebundene) Fernsehen, Video on Demand, Video Streaming, Video-Telefonie, oder Vi¨ deokonferenzen. Die Ubertragung findet zunehmend u¨ ber IP-basierte Netze statt; dadurch lassen sich Mediendaten jedweden Typs u¨ ber ein einheitliches Netz transportieren, was den Aufwand minimiert und die Anwendungsbreite erh¨oht. Bspw. lassen sich u¨ ber schnelle Digital Subscriber Lines (DSL) neben Daten auch Sprache (Voice-over-IP) und Videos (IP-basiertes Fernsehen) transportieren. Auch wenn ¨ wir in diesen Kapitel vorwiegend von Video-Ubertragungen sprechen, so geht das Videosignal in den meisten F¨allen mit einem Audiosignal einher; wir betrachten daher auch audiovisuelle Signale. Die Beurteilung der Qualit¨at solcher Signale ist von großer praktischer Rele¨ vanz. Uber das traditionelle Fernsehen hinaus befinden sich die genannten Systeme vielfach noch im Aufbau. Um dabei eine adequate Qualit¨at sicher zu stellen, sind ¨ umfangreiche Messungen der Videoqualit¨at notwendig. Zur Ubertragung von Videosignalen sind i. Allg. große Bandbreiten vonn¨oten, weshalb der Einsatz von Kodierverfahren praktisch unumg¨anglich ist. Dieser geht jedoch meist mit einer Verschlechterung des Videosignals einher, die quantifiziert werden muss. Erschwerend kommt hinzu, dass zunehmend neue Nutzer dazustoßen, und dass sich f¨ur viele der genannten Applikationen noch keine feste Qualit¨atsreferenz gebildet hat. Auch verwischen traditionelle Gesch¨aftsfelder (Telekommunikation, Kabelfernsehen) zunehmend, wodurch sich unterschiedliche Anbieter mit der Qualit¨at auseinandersetzen m¨ussen, um dem Kunden ein hochqualitatives Angebot machen zu k¨onnen. Je nach Anwendungen k¨onnen unterschiedliche Klassen von Videodiensten unterschieden werden. Die Tabellen 6.1 und 6.2, die der Empfehlung P.910 der International Telecommunication Union (ITU) entnommen sind, zeigen eine typische Klassifizierung von Videodiensten, sowie die zugeh¨origen Attribute (Bildformat, Rahmenwiederholungsrate, Latenzzeit, Bitrate). Wie im vorangegangenen Kapitel auch sollen in den folgenden Abschnitten 6.1 und 6.2 zun¨achst die Qualit¨atselemente und Qualit¨atsmerkmale von Video¨ubertra-
97
¨ 6 Qualit¨at von Video-Ubertragungssystemen
98 TV 0
Loss-less: ITU-R Rec. BT.601, 8 bit per pixel, video used for applications without compression
TV 1
Used for complete post production, many edits and processing layers, intra-plant transmission. Also used for remote site to plant transmission. Perceptually transparent when compared to TV 0.
TV 2
Used for simple modifications, few edits, character/logo overlays, program insertion, and inter-facility transmission. A broadcast example would be network to affiliate transmission. Other examples are a cable system regional downlink to a local head-end and a high quality videoconferencing system. Nearly perceptually transparent when compared to TV 0.
TV 3
Used for delivery to home/consumer (no changes). Other examples are a cable system from the local head-end to a home and medium to high quality videoconferencing. Low artefacts are present when compared to TV 2.
MM 4
All frames encoded. Low artefacts relative to TV 3. Medium quality videoconferencing. Usually ≥ 30fps.
MM 5
Frames may be dropped at encoder. Perceivable artefacts possible, but quality level useful for designed tasks, e.g. low quality videoconferencing.
MM 6
Series of stills. Not Intended to provide full motion (Examples: Surveillance, Graphics).
¨ Abb. 6.1 Klassen von Video-Ubertragungen, aus ITU-T Rec. P.910 (2008)
Video class
Spatial format
Delivered frame rate (Note 1)
Typical latency delay variation (Note 2)
Nominal video bit rate (Mbit/s)
TV 0
ITU-R Rec. BT.601
Max FR
(Note 2)
270
TV 1
ITU-R Rec. BT.601
Max FR
(Note 2)
18 to 50
TV 2
ITU-R Rec. BT.601
Max FR
(Note 2)
10 to 25
TV 3
ITU-R Rec. BT.601
Max FR occasional Frame report
(Note 2)
1.5 to 8
MM 4a
ITU-R Rec. BT.601
~30 or ~ 25 fps
Delay <≈ 150 ms Variation <≈ 50 ms
~1.5
MM 4b
CIF
~30 or ~ 25 fps
Delay <≈ 150 ms Variation <≈ 50 ms
~0.7
MM 5a
CIF
10-30 fps
Delay <≈ 1000 ms Variation <≈ 500 ms
~0.2
MM 5b
≤CIF
1-15 fps
Delay <≈ 1000 ms Variation <≈ 500 ms
~0.05
MM 6
CIF-16CIF
Limit → 0 fps
No restriction
<0.05, Limit → 0 fps
NOTE 1 - Normally 30 fps for 525 systems and 25 fps for 625 systems NOTE 2 - Broadcast systems all have constant, but not necessarily low, one-way latency and constant delay variation. For most broadcast applications latency will be low, say between 50 and 500 ms for high quality videoconferencing, and conversational types of applications in general, latency should be preferably less than 150 ms (see Recommendation G.114). Delay variations are allowed within the given ranges but should not lead to perceptually disturbing time-warping effects.
Abb. 6.2 Attribute der Video-Klassen aus ITU-T Rec. P.910 (2008)
¨ 6.1 Qualit¨atselemente von Video-Ubertragungssystemen
99
gungsstrecken vorgestellt werden. Bei den Elementen beschr¨anken wir uns auf die Einweg¨ubertragung und stellen die dabei verwendeten Datenformate und Kodierverfahren vor; diese kommen aber auch bei interaktiven Videodiensten zum Einsatz. In Abschnitt 6.3 werden dann grundlegende Betrachtungen zur Bestimmung von Videoqualit¨at angestellt. Dies umfasst die Auswahl von geeignetem Testmaterial (welches bei Videoqualit¨at sehr wichtig ist), die Betrachtungsumgebung und die Auswahl der Versuchspersonen. Methoden zur Bestimmung der Qualit¨at visueller Stimuli werden in Abschnitt 6.4 vorgestellt, solche f¨ur audiovisuelle Stimuli in Abschnitt 6.5. Abschnitt 6.6 beschreibt Verfahren zur Bestimmung der Qualit¨at interaktiver Videodienste, wie bspw. Videotelefonie oder Videokonferenzen. Ein kurzer ¨ Uberblick u¨ ber internationale Standards auf diesem Gebiet findet sich in Abschnitt 6.7.
¨ 6.1 Qualit¨atselemente von Video-Ubertragungssystemen Wie bei Sprach¨ubertragungsstrecken auch betrachten wir Video¨ubertragungsstrecken aus einer Ende-zu-Ende-Perspektive. Dabei besteht das Szenario aus drei Teilen: 1. Dem Sender, welcher den Video- und evtl. Audio-Enkoder, das Multiplexing und die Netz-Schnittstelle umfasst; ¨ 2. dem Ubertragungsnetz, welches i. Allg. IP-basiert ist; und 3. dem Empf¨anger/ Player, welcher die zweite Netzschnittstelle, das De-Multiplexing, die Audio-/Video-Dekodierung, sowie evtl. Video-Verbesserungsverfahren umfasst. Vor dem Sender liegt die Audio- und Videoquelle, hinter dem Empf¨anger/Player die Wiedergabe auf einem Bildschirm. Die Situation ist in Abb. 6.3 gezeigt. Den gr¨oßten Einfluss auf die Video-Qualit¨at haben i. Allg. Sender und Empf¨anger. Das dazwischen liegende Netz dekodiert die Daten meist nicht, es a¨ ußert sich nur in Paketverlusten bzw. -verz¨ogerungen. Eine zentrale Rolle kommt dem Empf¨anger/ Player zu: Er beinhaltet sozusagen die Intelligenz“ des Systems bzgl. der Deko” dierung und der Fehlerkorrektur und -verschleierung. Im Sender kommt es beim Enkodierungsprozess zu einer Kompression. Durch die Reduktion der Rahmenrate (Frame Rate) und des zur Verf¨ugung stehenden Farbbereiches (Color Space) gehen Informationen verloren, die sich in einer Verschlechterung des Videobildes a¨ ußern ¨ ¨ k¨onnen. Im Ubertragungsnetz kann es zu Ubertragungsfehlern kommen, die dazu f¨uhren, dass einzelne Pakete verloren gehen“, d.h. nicht beim Empf¨anger ber¨uck” sichtigt werden k¨onnen (Packet Loss). Ausserdem kann es durch die unterschiedlichen Routing-Wege zu Verz¨ogerungen (Delay) und zu Verz¨ogerungs-Variationen (Delay Jitter) kommen, u.U. soweit, dass die Pakete nicht mehr zur Rekonstruktion verwendet werden k¨onnen (Packet Discard). Verloren gegangene Pakete oder Rahmen k¨onnen am Empf¨anger teilweise rekonstruiert oder verschleiert werden; es
¨ 6 Qualit¨at von Video-Ubertragungssystemen
100
Audio-Enkodierung z. B. AMR NB/WB, G. 723.1
Video-Enkodierung z.B. H.263/H.264, MPEG-4
Audio-Dekodierung
MultiNetzplexing, werkz.B. schnittH.223 B/C stelle H.324
Sender
NetzwerkSchnittstelle
Übertragungsnetz
Demultiplexing
VideoDekodierung
Videoverbesserung
Empfänger / Player
Transfer channel
¨ Abb. 6.3 Schematische Darstellung einer Video-Ubertragungsstrecke
sind hier auch Interaktionen mit dem Sender (z.B. in Form von Update Requests) m¨oglich. Neben diesen Einflußfaktoren ist noch zu ber¨ucksichtigen, dass das Quellmaterial nicht immer eine optimale Qualit¨at besetzt, und dass bei der Anzeige auf dem Bildschirm weitere Beeintr¨achtigungen auftreten k¨onnen, bspw. durch Interpolation von Bildinformationen, durch Skalierung, etc. Je nach Anwendungsfall werden standardm¨aßig unterschiedliche Bildformate verwendet. Im Bereich des Fernsehens finden sich z.B. die in Abb. 6.4 gezeigten Formate. Im Bereich der Multimediadienste (Videotelefonie, Videokonferenzen, mobiles Fernsehen) sind gebr¨auchliche Formate z.B. das CIF (Common Intermediate Format, 352 lines x 288 pixels) und das QCIF (Quarter CIF, definiert in ITU-T Rec. H.261 (1993) f¨ur Videotelefonie, 176 lines x 144 pixels). Zur Darstellung der Werte eines Bildpunktes (Pixels) sind zwei Farbmodelle u¨ blich: (1) Die additive Kombination der Grundfarben Rot, Gr¨un und Blau (RGB oder Composite), sowie (2) die Aufspaltung eines Pixelwertes in Luminanz- und Chrominanz-Komponenten (Y/Cb/Cr, oder Component). Bei letzterem wird der Farbwert in eine Grundhelligkeit Y und zwei Komponenten Cb und Cr aufgeteilt, wobei Cb ein Maß f¨ur die Abweichung von Grau in Richtung Blau (> 0, 5) bzw. in Richtung Gelb als Komplement¨arfarbe von Blau (< 0, 5) ist, und Cr die entsprechende Maßzahl f¨ur Abweichung in Richtung Rot bzw. T¨urkis als Komplement¨arfarbe von Rot. Letztere Darstellung geht auf die Besonderheit des Auges zur¨uck, f¨ur gr¨unes Licht besonders empfindlich zu sein. Die meiste Information u¨ ber den Gr¨unanteil steckt in der Grundhelligkeit Y, und deshalb braucht man die Abweichungen beim Rot/T¨urkis- oder Blau/Gelb-Anteil nur noch mit reduzierter Aufl¨osung darzustellen. Man nennt dies Chroma Subsampling. Abb. 6.5 zeigt eine
¨ 6.1 Qualit¨atselemente von Video-Ubertragungssystemen
101
NTSC (19:9 Decoder) 853x480px PAL-plus 1024x576px HDTV 720p 1280x720px
HDTV 1080i 1920x1080px
Abb. 6.4 Vergleich verschiedener Fernseh-Bildformate
solche Aufspaltung und liefert eine Begr¨undung f¨ur die verringerte Aufl¨osung der Farbkomponenten.
Abb. 6.5 Aufspaltung eines Bildes in Y/Cb/Cr-Teile (aus Wikimedia Commons). Die Unsch¨arfe in den Farbkomponenten Cb und Cr macht anschaulich, warum die Farbinformation in der Aufl¨osung reduziert werden kann (Chroma Subsampling) ohne den Bildeindruck wesentlich zu verschlechtern
Als Studio-Referenz verwendet man meist 24 bit RGB bzw. Y:Cb:Cr = 4:2:2, d.h. nur eine Chrominanz-Information f¨ur jeweils 2 Pixel einer Zeile (Kompression auf 66% der Roh-Datenrate). Daneben ist aber auch Y:Cb:Cr = 4:1:1 bzw. 4:2:0 (Chrominanzinformation f¨ur 4 Pixel einer Zeile, bzw. f¨ur 2 Pixel bei ungeraden
¨ 6 Qualit¨at von Video-Ubertragungssystemen
102
Zeilen, Komression auf 50% der Roh-Datenrate) gebr¨auchlich, insbesondere zur ¨ Ubertragung zum Betrachter. Aufgrund der hohen Datenrate (insbes. im Vergleich zu Audiosignalen) m¨ussen ¨ Videosignale vor der Ubertragung oder Speicherung praktisch immer komprimiert werden. Bei einem Bild von V Zeilen und H Spalten, 8 bit Wortl¨ange pro Pixel und einer Datenrate von f Bildern pro Sekunde ergibt sich f¨ur die Helligkeitsinformation eine Datenrate von Luminance = H ·V · f · 8bit/s (6.1) F¨ur die Farbinformation ergibt sich bei 4:2:0-Chroma-Subsampling Chrominance =
H ·V · f · 8bit/s 2
(6.2)
In der Kombination ergeben sich dadurch recht hohe Gesamt-Datenraten, wie in Tabelle 6.6 dargestellt ist. Zum Beispiel ergibt sich f¨ur die Videotelefonie in 3GNetzen (QCIF mit 10 Bildern pro Sekunde) eine Bitrate von (176 · 144 · 10 · 8) + (176 · 144/2 · 10 · 8) bit/s = 3.041.280 bit/s. Es ist leicht einsehbar, dass man bem¨uht ist, diese Datenrate zu reduzieren. Bildformat
Pixel
Zeilen
SQCIF QCIF CIF 4*CIF 16*CIF
128 176 352 704 1408
96 144 288 576 1152
Bitrate bei Y/Cr/Cb=4:2:0 (in Mbit/s) 10 fps 30 fps Farbe Farbe Graustufen Graustufen 2,95 0,98 1,47 4,42 9,12 2,03 3,04 6,08 8,11 12,17 36,50 24,33 32,44 48,66 145,98 97,32 583,93 129,76 194,64 389,28
Abb. 6.6 Beispielhafte Bitraten bei Video¨ubertragung
Um diese Datenraten zu reduzieren, werden verschiedene Kompressionsverfahren verwendet. Man unterscheidet (wie bei der Audiokodierung auch) zwischen verlustbehafteten und verlustlosen Kompressionen, wobei erstere deutlich bessere Datenreduktionen erzielen. F¨ur die Videokodierung sind insbesondere folgende Verfahren und Standards interessant: • ITU-T Rec. H.261 (1993) f¨ur Video¨ubertragung u¨ ber das ISDN-Netz. Dieser Standard unterst¨utzt Datenraten zwischen 40 kbit/s and 2 Mbit/s, und die Bildformate CIF und QCIF. • MPEG-2 (ISO/IEC 13818-2, 2000) ist ein Kodierer f¨ur AV-Broadcasting, inkl. Satelliten¨ubertragung und Kabelfernsehen. Mit einigen Modifikationen handelt es sich dabei auch um das Format, welches f¨ur handes¨ubliche DVDs verwendet wird. Die MPEG-2-Kodierung beinhaltet eine Abtrennung der Farbinformation vom Schwarz-Weiß-Bild, eine Vergr¨oberung derselben, eine Aufteilung des Bildes in 8x8 Pixel große Bl¨ocke, deren Datenbedarf mittels Diskreter Kosinustransformation (DCT) und anschließender Quantisierung stark verkleinert wird, und eine Zusammenfassung von je vier Bl¨ocken zu 16x16 Pixel großen sog. Makro¨ bl¨ocken, deren Ahnlichkeit zu Makrobl¨ocken in vorhergehenden und/oder nach-
¨ 6.1 Qualit¨atselemente von Video-Ubertragungssystemen
103
folgenden Bildern ebenfalls zur Datenreduktion genutzt wird. Die Bl¨ocke dienen der Ausnutzung der r¨aumlichen Korrelation von Bildpunkten, wodurch sich die Datenrate ebenfalls reduziert. • ITU-T Rec. H.263 (2005) ist der ITU-Standard f¨ur niederbitratige Videokonferenzen und Videotelefonie in verbindungsvermittelten Netzen. Eine erste Version wurde 1996 ver¨offentlicht, und Verbesserungen wurden als H.263+/H.263v2 1998 und H.263++/H.263v3 2000 standardisiert. • MPEG-4 Part 2 (Video), entwickelt von der ISO und beschrieben in ISO/IEC 14496-2 (2004). Es besteht aus mehreren Profilen, von denen das einfache bspw. f¨ur 3G-Videotelefonie verwendet wird. Es existieren verschiedene Implementierungen dieses Kodierers, teilweise propriet¨are, teilweise auch unter GNU Divx 3 bis 6 und Xvid lizensierte. • ITU-T Rec. H.264 (2009) oder MPEG-4 Part 10 (ISO/IEC 14496-10, 2005), definiert 2003 von der Video Coding Experts Group (VCEG) zusammen mit der ISO/IEC Moving Picture Experts Group (MPEG). Im Vergleich zu MPEG-4 Part 2 gestattet dieser Kodierer eine etwa doppelt so hohe Datenreduktion, und er l¨asst sich bzgl. der Bitrate in einem großen Bereich skalieren, sodass er sowohl f¨ur Videotelefonie wie auch f¨ur hoch aufl¨osendes Fernsehen einsetztbar ist. Auch von diesem Kodierer existieren unterschiedliche Implementierungen, die unterschiedlichen Lizenzmodellen unterliegen. MPEG-4 Part 10 und H.264 sind technisch gesehen identisch und werden auch als Advanced Video Coding (AVC) bezeichnet. H.264 wird z.B. f¨ur HD-DVD und Blu-Ray Discs verwendet, sowie f¨ur hochaufl¨osende Fernseh¨ubertragung mittels DVB-S2. Viele Video-Kodierungsverfahren verwenden unterschiedliche Bildtypen. Diese werden unterschiedlich stark komprimiert und zu unterschiedlichen Zwecken genutzt. Man unterscheidet i. Allg. zwischen • I-Bildern (engl. Intra Coded Picture oder I-frame): Ein I-Bild entspricht einem Standbild; es dient als Anker f¨ur den wahlfreien Zugriff, erzielt jedoch nur eine geringe Kompression (¨ahnlich wie bei JPEG, jedoch in Echtzeit). • P-Bildern (Predictive Coded Picture oder P-frame): P-Bilder ben¨otigen Informationen von vorausgegangenen I-Bildern oder P-Bildern; sie erzielen gr¨oßere Kompressionen als I-Bilder. • B-Bildern (Bidirectional Coded Picture oder B-frame): B-Bilder sind abh¨angig von vorausgegangenen und folgenden I-Bildern oder P-Bildern; sie erzielen die gr¨oßte Kompression. I-Bilder werden unabh¨angig von anderen Bildern komprimiert; sie ben¨otigen daher am meisten Speicherplatz, lassen sich im Gegenzug aber unabh¨angig von vorangegangenen Bildern dekodieren. Sie sind notwendig, um (nahezu) beliebig in einem Video springen“ zu k¨onnen, z.B. wenn Bilder verloren gehen oder rekonstruiert ” werden m¨ussen. P- und B-Bilder werden in Abh¨angigkeit von den anderen Bildern im Videostrom kodiert und ben¨otigen dadurch weniger Speicherplatz. Im Abh¨angigkeit vom Enkoder und dessen Einstellungen werden die Bildtypen unterschiedlich h¨aufig verwendet und treten innerhalb des Videostromes als sogenannte Group of
¨ 6 Qualit¨at von Video-Ubertragungssystemen
104
Pictures (GOP) auf. Eine GOP reicht dabei von einem I-Bild zum n¨achsten. GOPs haben h¨aufig eine L¨ange von bis zu einer halben Sekunde.
¨ 6.2 Qualit¨atsmerkmale von Video-Ubertragungssystemen Man unterscheidet zun¨achst zwei grunds¨atzliche Typen von Beeintr¨achtigungen bei der Video¨ubertragung: • R¨aumliche Beeintr¨achtigungen (Spatial Artifacts): Diese k¨onnen in einzelnen separaten Bildern identifiziert werden. Hierzu geh¨oren bspw. die Blockbildung (Blockiness), Unsch¨arfe (Blurring), Edge Noise, Slicing, sowie komplett fehlende Informationen (zu den einzelnen St¨orungen vgl. untenstehenden Abschnitt). • Zeitliche Beeintr¨achtigungen (Temporal Artifacts): Diese lassen sich nur im zeitlichen Verlauf feststellen. Hierzu geh¨oren Ruckeln (Jerkiness durch Rahmenverluste oder Delay Jitter) sowie zeitlich variierende r¨aumliche Beeintr¨achtigungen. ¨ Die Beeintr¨achtigungen entstehen an unterschiedlichen Orten im Ubertragungssystem. Bspw. entstehen Blockiness und Blurring beim Sender (Enkoder), ebenso wie eine Reduktion des Farbraumes. Jerkiness entsteht im Netz, durch Rahmenverluste (Packet Loss) oder zu große Verz¨ogerungen einzelner Rahmen (Packet Discard). Im Empf¨anger entstehen weitere Effekte wie Blurring, Farb-Interpolation und Jerkiness. Ein Teil der St¨orungen geht auf die Datenkompression zur¨uck, d.h. darauf, dass bestimmte Pixel-Werte nicht im Detail dargestellt werden, sondern mit beschr¨ankter Wortl¨ange quantisiert werden. Diese Quantisierung findet – aufgrund der Diskreten Kosinustransformation (DCT), die bei der Bildkodierung meist verwendet wird – im Frequenzbereich statt. Dadurch l¨asst sich keine eindeutige Zuordnung zwischen dem Quantisierungsfehler und der Ver¨anderung eines Pixelwertes bestimmen. Prinzipiell ist ein Pixelwert immer von Fehlern in allen seinen Frequenzkomponenten (DCT-Indices) betroffen. Die durch die Quantisierung hervorgerufene St¨orung wird h¨aufig in Form eines Peak-Signal-to-Noise-Ratio (PSNR) quantifiziert. Zur Berechnung des PSNR wird zun¨achst der mittlere Abstand zwischen zwei Bildern I und K bestimmt, wovon eines die quantisierte (oder generell beeintr¨achtigte) Variante des anderen ist: MSE =
1 m−1 n−1 ∑ ∑ I(i, j) − K(i, j)2 m · n i=0 j=0
(6.3)
Das PSNR ist dann definiert als PSNR = 10 · log10 (
MAXI2 ) MSE
(6.4)
¨ 6.2 Qualit¨atsmerkmale von Video-Ubertragungssystemen
105
wobei MAXI der maximale Pixelwert des Bildes ist (bei 8 bit bspw. 255). Bei einer RGB-Darstellung wird MSE als Summe aller quadrierten Wertdifferenzen berechnet, geteilt durch die Bildgr¨oße und durch 3. Es sein angemerkt, dass sich das PSNR – trotz teilweise anderslautender Behauptungen – nur als ein schlechtes Maß der Videoqualit¨at erweist. Dies liegt an der Vielzahl der perzeptiven Effekte, die z.B. bei Yuen (2006) im Detail beschrieben und im Folgenden aufgelistet sind: • Blockbildung (Blockiness, auch Tiling): Diskontinuit¨at zwischen benachbarten Blocks in einem Bild. Sie entsteht durch eine grobe Quantisierung der r¨aumlichen Komponenten in 8x8-Bl¨ocken bei der Enkodierung, und zwar durch die ungleiche Wortl¨ange zur Quantisierung benachbarter Blocks. Sie ist insbesondere in glatten, leicht strukturierten Bildbereichen sichtbar (Diskontinuit¨aten innerhalb eines Makroblocks), oder in Bereichen mit hoher Bewegung (Diskontinuit¨aten zwischen unterschiedlichen Makroblocks). Blockiness kann z.B. mit Hilfe einer Frequenzanalyse (Fast Fourier Transform, FFT) oder einer statistischen Analyse identifiziert werden. • Unsch¨arfe (Blurring): Unsch¨arfe entsteht bei der Kompression als Kompromiss zwischen der r¨aumlichen und zeitlichen Aufl¨osung, z.B. durch das Weglassen hochfrequenter DCT-Koeffizienten bei der groben Quantisierung. Insbesondere die Sch¨arfe der Kanten und r¨aumlicher Details ist kritisch. Blurring entsteht bereits im Enkodierer, in sog. De-Block-Enhancern, d.h. in Modulen, die die Blockbildung verhindern sollen. Unsch¨arfe kann mit Hilfe von Statistiken r¨aumlicher Gradienten identifiziert werden. ¨ • Auseinanderreißen des Bildes (Slicing): Dieser Artefakt entsteht durch Ubertragungsfehler. Er a¨ ußert sich als eine Verschiebung von Teilbereichen des Bildes (Slices, typischerweise 4 Makrobl¨ocke), in denen das Bild im Kodierprozess organisiert ist. Der Verlust eines Makroblocks f¨uhrt i. Allg. nicht zum Verlust des gesamten Bildes, sondern nur eines Teilbereiches. Je nachdem, ob BewegungsVektoren oder Farbinformationen verlustig sind, entstehen so typische Fehlermuster. • Ruckeln (Jerkiness): Ruckartige Bewegungs-Artefakte werden durch Paketverluste (Packet Loss oder Packet Discard) hervorgerufen. Das Video zerf¨allt dabei in eine Serie einzelner Standbilder: Das augenblickliche Bild wird so lange festgehalten, bis ein neues Bild eingetroffen ist. Je nach Inhalt des Bildes wird das Ruckeln als mehr oder weniger st¨orend empfunden; eine perzeptive Gewichtung ist deshalb sinnvoll. Neben diesen allgemeinen finden sich noch folgende speziellere Effekte: ¨ • Ubertragung von Farbinformationen zwischen Bereichen stark kontrastierender Chrominanz (Color Bleeding): Wie die Unsch¨arfe entsteht auch sie durch das Weglassen hochfrequenter DCT-Koeffizienten. Dadurch werden die ChrominanzInformationen verf¨alscht. Da diese u¨ blicherweies unter-abgetastet werden (Chroma Subsampling) bleiben diese Effekte nicht auf einen 8x8-Block beschr¨ankt, sondern bluten“ in angrenzende Bereiche. ”
106
¨ 6 Qualit¨at von Video-Ubertragungssystemen
• Treppeneffekt (Staircase Effect): Dieser Effekt entsteht bei diagonalen Linien, die (insbesondere bei grober Quantisierung) nicht durch das senkrechtwaagerechte DCT-Raster abgebildet werden k¨onnen. • Ringbildung (Ringing): Auch diese ergibt sich aus der DCT, die bei der Kompression verwendet wird. Um Kanten zu beschreiben, m¨ussen hierbei hochfrequente Komponenten der DCT aktiv sein; diese rufen die genannte Ringbildung hervor. Ringing a¨ ußert sich als eine von der Kante auslaufenden Welle, sowohl der Luminanz- als auch der Chrominanz-Information. • Mosaikmuster (Mosaic Patterns): Wie die Blockbildung entsteht auch das Mosaikmuster durch nicht zueinander passende, benachbarte 8x8-Bl¨ocke. Beide Effekte k¨onnen parallel auftreten, allerdings ist bspw. eine glatte, leicht texturierte Region anf¨allig f¨ur Blockbildung, aber nicht f¨ur Mosaikbildung. • Moskito-Effekt (Mosquito Effect): Ein zeitlicher Artifakt, welcher durch hochfrequente Distorsionen an kontrastreichen Stellen oder bei bewegten Objekten entsteht. Er a¨ ußert sich als Fluktuationen der Luminanz oder Chrominanz in der Umgebung der Kontraste. Die Liste zeigt, dass sich in einer Videosequenz eine Reihe unterschiedlicher visueller Effekte finden k¨onnen, die die Qualit¨at beeintr¨achtigen. Die perzeptive Messung der Qualit¨at ist daher unumg¨anglich, wenn man valide und reliable Messwerte haben m¨ochte. Verfahren zur perzeptiven Messung sind in den folgenden Abschnitten beschrieben.
6.3 Grunds¨atzliches zur Messung der Videoqualit¨at Wie oben gezeigt entstehen durch die Video¨ubertragung eine Reihe perzeptiv unterschiedlicher Effekte, h¨aufig in Kombination miteinander. Zur Beschreibung der Qualit¨at reicht deshalb ein einfaches Maß wie der St¨orabstand (PSNR) nicht aus. Man f¨uhrt deshalb perzeptive Versuche (Sehversuche oder audiovisuelle Versuche) durch, um die Qualit¨at von Video¨ubertragungen und -kodierungen (teilweise in Zusammenhang mit der Audio¨ubertragung und Kodierung) zu quantifizieren. Diese Versuche k¨onnen nach unterschiedlichen Kriterien klassifiziert werden, z.B. nach • der Modalit¨at: Reine Sehversuche (Videoqualit¨at), reine H¨orversuche (Audioqualit¨at, vgl. vorangegangenes Kapitel), H¨or- und Sehversuche (audiovisuelle Qualit¨at) • der Interaktivit¨at: Passiv (H¨or- Seh-, audiovisuelle Versuche) vs. interaktiv (audiovisuelle Konversationsversuche) • der Anwendung: Videokodierung und -speicherung, Video Streaming (IP-TV und Video on Demand), Videotelefonie, Videokonferenzen • dem Bildformat: Fernsehen (Standard Definition, High Definition), Multimedia (VGA, QVGA, CIF, QCIF)
6.3 Grunds¨atzliches zur Messung der Videoqualit¨at
107
• der Pr¨asentationsform (insbes. bei passiven Versuchen): Absolute Beurteilung (ACR, etc.) vs. Paarvergleich, teilweise auch Mischformen dieser beiden In den Abschnitten 6.4 bis 6.6 wird zun¨achst nach der Interaktivit¨at und dabei nach der Modalit¨at unterschieden. Je nach Interaktivit¨at des Versuches (passiv oder interaktiv) muss entweder ein ¨ realzeitf¨ahiges Ubertragungssystem vorliegen, oder es muss Video-Testmaterial vorbereitet werden. Video-Testmaterial wird i. Allg. mit einer hochqualitativen CCD-Kamera aufgezeichnet. Dabei sind die Dynamik der Y:Cb:Cr-Signale, der Gamma-Koeffizient1 , die in die Kamera eingebauten Filter, die Empfindlichkeit der Kamera bei schlechten Lichtverh¨altnissen, sowie der verf¨ugbare St¨orabstand entscheidend. Der nach ITU-T Rec. J.61 (1988) gewichtete St¨orabstand sollte mindestens 45 dB betragen. Es k¨onnen Kameras mit festem oder variablem Fokus verwendet werden. Die Kamera sollte einen (automatischen) Weissabgleich durchf¨uhren. F¨ur die Aufnahme sollte eine angemessene Beleuchtung vorhanden sein; bei k¨unstlichem Licht sollte dieses nicht zum Flackern f¨uhren. Videosequenzen unterscheiden sich bzgl. ihrer r¨aumlichen und zeitlichen Eigenschaften. Diese Eigenschaften sind entscheidend f¨ur die Videoqualit¨at, da sie die m¨ogliche Kompression der Videosequenz (und damit die entstehenden Artefakte) maßgeblich bestimmen. Um dies zu ber¨ucksichtigen, sollte der Raum“ der ” r¨aumlichen und zeitlichen Variabilit¨at von Sequenzen innerhalb eines Versuches komplett ausgesch¨opft werden (im Rahmen der u¨ blichen Repr¨asentativit¨atsbetrach¨ tungen). D.h. jede Ubertragungsbedingung sollte mit mehreren (¨ublicherweise 4–8) Videosequenzen unterschiedlicher r¨aumlicher und zeitlicher Eigenschaften getestet werden. Hierzu ist eine quantitative Beschreibung der r¨aumlichen und zeitlichen Eigenschaften von Videosequenzen notwending. R¨aumliche Eigenschaften k¨onnen z.B. mittels des Spatial Perceptual Information Index (SI) quantifiziert werden. Dieser Index beschreibt das Maximum der Standardabweichungen der Sobel-gefilterten Rahmen x(i, j) innerhalb einer Videosequenz: SI = max{stdspace [Sobel(Fn )]} time
wobei Sobel(x(i, j)) =
[Gv(i, j)]2 + [Gh(i, j)]2
(6.5)
(6.6)
mit Gv(i, j) = −1 · x(i − 1, j − 1) − 2 · x(i − 1, j) − 1 · x(i − 1, j + 1) +0 · x(i, j − 1) + 0 · x(i, j) + 0 · x(i, j + 1)
(6.7)
+1 · x(i + 1, j − 1) + 2 · x(i + 1, j) + 1 · x(i + 1, j + 1) 1
Der Faktor Gamma beschreibt die Nichtlinearit¨at zwischen der Luminanz eines Bildschirms und der Eingangsspannung. Dieses Verh¨altnis ist normalerweise nichtlinear. Um dies zu korrigieren, wird in der Kamera ein Gamma-Korrekturfaktor verwendet, der zu dem des Bildschirms invers sein sollte.
¨ 6 Qualit¨at von Video-Ubertragungssystemen
108
und Gh(i, j) = −1 · x(i − 1, j − 1) + 0 · x(i − 1, j) + 1 · x(i − 1, j + 1) −2 · x(i, j − 1) + 0 · x(i, j) + 2 · x(i, j + 1)
(6.8)
−1 · x(i + 1, j − 1) + 0 · x(i + 1, j) + 1 · x(i + 1, j + 1) Diese Berechnungen werden f¨ur alle 2 ≤ i ≤ N − 1 und 2 ≤ j ≤ M − 1 durchgef¨uhrt, mit N der Anzahl der Zeilen und M der Anzahl der Spalten. Zeitliche Eigenschaften k¨onnen z.B. mittels des Temporal Perceptual Information Index (T I) quantifiziert werden. Dieser Index beruht auf der Differenz zweier aufeinanderfolgender Rahmen bzgl. der Luminanz Mn (i, j) = Fn (i, j) − Fn−1 (i, j)
(6.9)
Dabei ist Fn (i − j) der Wert des Pixels in der i-ten Zeile und der j-ten Spalte des Rahmens F zum Zeitpunkt n. T I wird anschließend berechnet als T I = max{stdspace [Mn (i, j)]}
(6.10)
time
Mehr Bewegung zwischen benachbarten Rahmen f¨uhrt zu einem h¨oheren T I-Wert. Dabei k¨onnen Schnitte (Cuts) weggelassen oder mit eingerechnet werden; es lassen sich also zwei separate Werte von T I (mit und ohne Cuts) angeben. Bez¨uglich dieser Werte k¨onnen nun balancierte Sequenzen in einem Raum aus SI und T I f¨ur einen Test ausgew¨ahlt werden; Abbildungen 6.7 und 6.8 zeigen einen solchen Raum sowie eine Liste von Inhalten, die bspw. im Rahmen der ITU-Tests verwendet wurden. 80
Temoral Information units
60
40
20
0
50
100
150
Spatial Information units
200
250 T1207500-95
Abb. 6.7 R¨aumlich-zeitlicher Plot f¨ur verschiedene Videosequenzen, aus ITU-T Rec. P.910 (2008)
6.4 Bewertung visueller Sequenzen
109
Neben diesen technischen Eigenschaften werden aber bei der professionellen Evaluierung die Sequenzen auch nach ihrer Repr¨asentativit¨at ausgew¨ahlt. Z.B. werden bei VQEG-Tests Sequenzen aus den Bereichen Film“, Sport“, Musik” ” ” Video“, Werbung“, Animation“, Nachrichten“, etc. in einem bestimmten Verh¨alt” ” ” nis zueinander ausgew¨ahlt, vgl. ITU-R Rec. BT.1210-3 (2004).
Category A B C D E
Description One person, mainly head and shoulder, limited detail and motion One person with graphics and/or more detail More than one person Graphics with pointing High object and/or camera motion (examples of broadcast TV)
Scene name and letter vtc1nw(f), susie(j), disguy(k), disgal(1) vtc2mp(a), vtc2zm(b), boblec(e), smity1(m), smity2(n), vowels(w), inspec(x) vtc2mp(a), vtc2zm(b), boblec(e), smity1(m), smity2(n), vowels(w), inspec(x) washdc(c), cirkit(s), rodmap(t), filter(u), yasmite(v), flogar(h), ftball(i), fedas(y)
Abb. 6.8 Beispiele f¨ur verschiedene Videosequenzen, aus ITU-T Rec. P.910 (2008). Buchstaben in der letzten Spalte beziehen sich auf die Sequenzen in Abb. 6.7
Die Stimuli m¨ussen in einem Versuchsraum pr¨asentiert werden, der bzgl. der Betrachtung des Videomaterials und m¨oglicher Audioinformationen neutral ist. Informationen hierzu finden sich z.B. in ITU-R Rec. BT.500-11 (2002) oder in ITU-T Rec. P.910 (2008). Der Raum ist u¨ blicherweise grau ausgestattet (Grauwert D65), mit Tageslichtersatz beleuchtet (hochfrequente, nicht flackernde Leuchten mit der entsprechenden Farbtemperatur) und schallisoliert. Der Betrachtungsabstand wird je nach Anwendung festgelegt. Tabelle 6.9 zeigt einige Parameter der Betrachtungssituation (ITU-T Rec. P.910, 2008). F¨ur die Auswahl der Versuchspersonen gelten analoge Kriterien wie bei Audiotests. Je nach geforderter Validit¨at und Reliabilit¨at sollten Expertise und Anzahl der Versuchspersonen bestimmt werden. Bei Videotests sollte auf Sehst¨orungen geachtet werden. Hierzu k¨onnen Standardtests f¨ur die Sehsch¨arfe und das Farbsehen herangezogen werden. Abb. 6.10 zeigt Beispiele dabei verwendeter Testcharts.
6.4 Bewertung visueller Sequenzen Die Auswahl der Methode zum Testen von visuellen Sequenzen in Sehversuchen ¨ richtet sich nach dem Ziel des Tests. Soll die Ubertragungstreue (Fidelity) getestet werden, so wird eine Referenz ben¨otigt, welche im Vergleich mit der gest¨orten Sequenz pr¨asentiert wird; hierzu bieten sich Verfahren wie das Degradation Category Rating (DCR) oder der Paarvergleich (Paired Comparison, PC) an. Geht es um die Qualit¨at im absoluten Maßstab kann man absolute Urteile abfragen, gem¨aß der bekannten Absolute-Category-Rating-(ACR)-Methode. Allerdings werden dabei f¨ur Videosignale nicht ausschließlich Kategorienskalen verwendet, wie
¨ 6 Qualit¨at von Video-Ubertragungssystemen
110
Setting
Parameter Viewing distance (Note 1)
1-8 H (Note 2)
Peak luminance of the screen
100-200 cd/m (Note 2)
Ratio of luminance of inactive screen to peak luminance
≤ 0.05
Ratio of the luminance of the screen, when displaying only black ≤ 0.1 level in a completely dark room, to that corresponding to peak white Ratio of luminance of background behind picture monitor to peak luminance of picture (Note 3)
≤ 0.2
Chromaticity of background (Note 4)
D65
Background room illumination (Note 3)
≤ 20 lux
NOTE 1 - For a given screen height, it is likely that the viewing distance preferred by the subjects increases when visual quality is degraded. Concerning this point, the preferred viewing distance should be predetermined for qualification tests. Viewing distance in general depends on the applications. NOTE 2 - H indicates the picture height. The viewing distance should be defined taking into account not only the screen size, but also the type of screen, the type of application and the goal of the experiment. NOTE 3 - This value indicates a setting allowing maximum detectability of distortions, for some applications higher values are allowed or they are determined by the application. NOTE 4 - For PC monitors the chromaticity of background may be adapted to the chromaticity of the monitor.
Abb. 6.9 Betrachtungssituation f¨ur Videotests, aus ITU-T Rec. P.910 (2008)
Abb. 6.10 Beispiele von Testcharts zur Bestimmung von Sehsch¨arfe und Farbensehen. Links: Snellen Eye Chart (Quelle: Wikipedia; Urheber: Jeff Dahl; verwendete Lizenzen: “cc-by-sa-3.0” und “GFDL”); rechts: Ishihara test plate (aus Wikimedia Commons)
6.4 Bewertung visueller Sequenzen
111
im Folgenden noch gezeigt wird. DCR ist auch die Standardmethode bei der Beurteilung qualitativ hochwertiger Bilder, wie bei Fernsehbildern (ITU-R Rec. BT.50011, 2002). Der Vorteil ist hierbei die Unterscheidung zwischen nicht wahrnehmbar“ ” und wahrnehmbar“ in den Skalenlabels. Der Vorteil von PC liegt klar in der hohen ” Diskriminanz bei sehr a¨ hnlichen Videosequenzen; dieser Vorteil wird durch einen hohen experimentellen Aufwand (Anzahl der Stimuli) erkauft. Beim Standardverfahren Absolute Category Rating (ACR) werden einzelne Videosequenzen von ca. 10 s Dauer in einem festen Zeitraster den Versuchspersonen in einem ruhigen Raum auf einem Bildschirm vorgespielt. Zwischen den Sequenzen wird f¨ur ca. 10 s ein grauer Bildschirm gezeigt, w¨ahrend dessen die Versuchspersonen ihr Urteil auf einer Skala abgeben sollen. Dabei wird h¨aufig die 5-stufige Qualit¨ats-Kategorienskala (MOS-Skala) mit den f¨unf Attributen ausge” zeichnet“ (“excellent”), gut“ (“good”), ordentlich“ (“fair”), d¨urftig“ (“poor”) ” ” ” und schlecht“ (“bad”) verwendet. Die aus den generellen Betrachtungen (Kapitel ” 3) bekannten Kritikpunkte an dieser Skala bleiben nat¨urlich erhalten; um (potentiell) die Aufl¨osung zu erh¨ohen wurden Alternativen zu dieser Skala vorgeschlagen, welche in Abbildungen 6.11 bis 6.13 gezeigt werden. 9 8 7 6 5 4 3 2 1
Excellent Good Fair Poor Bad
Abb. 6.11 Numerische 9-stufige Skala zur Videoqualit¨atsbeurteilung, aus ITU-T Rec. P.910 (2008)
In den beiden oberen F¨allen k¨onnen die Antworten durch Ankreuzen oder als numerische Werte gegeben werden, wobei Dezimalwerte zul¨assig sind. In einem ACR-Paradigma k¨onnen auch spezielle Eigenschaften der Stimuli – a¨ hnlich einem semantischen Differential – abgefragt werden; Abb. 6.14 zeigt Beispiele hierf¨ur. Die ACR-Methode wird in leicht abgewandelter Form auch zur die Beurteilung von Fernsehbildern eingesetzt; sie heißt dann Double Stimulus Continuous Quality Scale Method (DSCQS). Hierbei werden zwei Stimuli zweimal pr¨asentiert, von denen einer (f¨ur die Testperson nicht identifiziert) die Referenz ist. Die Sequenz ist also Referenz–Test–Referenz–Test–Beurteilung“, jedoch wird die Referenz nicht ” als solche an die Versuchsperson kommuniziert. Die Aufgabe der Versuchsperson ist es, beide Stimuli auf je einer 5-stufigen Qualit¨atsskala zu beurteilen. Man erh¨alt dadurch zwei absolute“ Urteile pro Sequenz, wobei sich das eine Urteil auf die ” Referenz bezieht, und beide Urteile – bedingt durch den direkten Vergleich – eher einen relativen Charakter haben. Die hierbei verwendete Beurteilungsskala ist in Abb. 6.15 gezeigt.
¨ 6 Qualit¨at von Video-Ubertragungssystemen
112 10 9
←{
The number 10 denotes a quality of reproduction that is perfectly faithful to the original. No further improvement is possible. Excellent
8 7
Good
6 5
Fair
4 3
Poor
2 1 0
Bad number 0 denotes a quality of reproduction that has no similarity to the original. ← { The A worse quality cannot be imagined. T0407280-96
Abb. 6.12 11-stufige Skala mit Ankern zur Videoqualit¨atsbeurteilung, aus ITU-T Rec. P.910 (2008)
Bad
Excellent T0407290-96
Abb. 6.13 Kontinuierliche Skala zur Videoqualit¨atsbeurteilung, aus ITU-T Rec. P.910 (2008)
Eine weitere Variante dieser Methode ist das sog. Absolute Category Rating with Hidden Reference Removal (ACR-HRR). Hierbei werden Stimuli im ACRParadigma auf einer f¨unfstufigen Kategorienskala bewertet. Allerdings werden zu allen u¨ bertragenen (beeintr¨achtigten) Stimuli auch die unbeeintr¨achtigten Referenzen im Test bewertet, ohne, dass dies den Versuchspersonen bekannt w¨are. Bei der Auswertung werden f¨ur jeden Stimulus Differenzen zwischen den Bewertungen der beeintr¨achtigten Stimuli und den zugeh¨origen unbeeintr¨achtigten Referenzen gebildet, und f¨unf Punkte dazu addiert: DV (Stimulus) = Rating(Stimulus) − Rating(Referenz) + 5
(6.11)
wobei DV das differenzielle Urteil darstellt (pro Stimulus), und Rating das von der Versuchsperson direkt abgegebene ACR-Urteil. Die Referenz sollte dabei eine hohe Qualit¨at zeigen. Es wird angenommen, dass ACR-HRR-Urteile den Einfluss des Stimulusmaterials reduzieren, und damit Urteile erbringen, welche sich st¨arker auf ¨ den Ubertragungskanal beziehen. Beim Degradation Category Rating (DCR) werden Videosequenzen in Paaren pr¨asentiert. Der erste Stimulus eines Paares stellt die (qualitativ hochwertige) Referenz dar; dies ist der Versuchsperson (im Gegensatz zu DSCQS) bekannt. Beurteilt wird die Beeintr¨achtigung des zweiten Stimulus im Verh¨altnis zum ersten, und zwar auf der aus der Sprachqualit¨atsbeurteilung bekannten 5-stufigen Skala mit den Labels nicht wahrnehmbar“ (“imperceptible”), wahrnehmbar, aber nicht st¨orend“ ” ” (“perceptible but not annoying”), leicht st¨orend“ (“slightly annoying”), st¨orend“ ” ”
6.4 Bewertung visueller Sequenzen
113
Could you kindly answer the following questions about the sequence shown? You can express your opinion by inserting a mark on the scale below. 1)
How would you rate image colours?
Bad
Excellent T0407290-96
2)
How would you rate image contrast?
Bad
Excellent T0407290-96
3)
How would you rate the image borders?
Bad
Excellent T0407290-96
4)
How would you rate the movement continuity?
Bad
Excellent T0407290-96
5)
Did you notice any flicker in the sequence?
Yes
No
Ify you noticed flicker, please rate it on the scale below
Very Annoying
Not Annoying T0414170-00
Did you notice any smearing in the sequence?
Yes
No
Ify you noticed smearing, please rate it on the scale below
Very Annoying
Not Annoying T0414170-00
Abb. 6.14 Beispiele f¨ur diagnostische Fragen beim ACR, aus ITU-T Rec. P.910 (2008)
(“annoying”) und sehr st¨orend“ (“very annoying”). Die beiden zu vergleichenden ” Stimuli werden in schneller Abfolge mit 2 s Abstand (grauer Bildschirm) pr¨asentiert; zwischen den Paaren wird wiederum eine Grausequenz von ca. 10 s L¨ange gespielt, vgl. Abb. 6.16. DCR wird auch bei der Beurteilung von Fernsehbildern eingesetzt und heißt dort Double Stimulus Impairment Scale Method (DSIS), vgl. ITU-R Rec. BT.500-11 (2002). Im Unterschied zu DCR werden dort die Stimulus-Paare allerdings zweimal
¨ 6 Qualit¨at von Video-Ubertragungssystemen
114
A
B
Excellent
Good
Fair
Abb. 6.15 Beurteilungsskala f¨ur die Double Stimulus Continuous Quality Scale Method nach ITU-R Rec. BT.500-11 (2002) Ar
~10 s
Poor
Bad
Grey
Ai
2s
~10 s
Grey
Br
Grey
Bj
≤10 s
~10 s
2s
~10 s
voting
voting T1207470-95
Ai Ar, Br Bj
Sequence A under test condition i Sequence A and B respectively in the reference source format Sequence B under test condition j
Abb. 6.16 Zeitraster der Beurteilungen bei DCR, aus ITU-T Rec. P.910 (2008)
direkt hintereinander pr¨asentiert (also Referenz–Test–Referenz–Test–Beurteilung“). ” Ansonsten sind Skala und Versuchsablauf wie bei DCR angegeben. Beim Paired Comparison (PC) werden ebenfalls Paare von Stimuli abgespielt und miteinander verglichen. Allerdings gibt es keine explizite Referenz, sondern alle n Stimuli bilden n − 1 Paare miteinander, wobei beide Reihenfolgen (also AB und BA) pr¨asentiert werden sollen. Die Aufgabe der Versuchsperson besteht darin, den pr¨aferierten Stimulus zu benennen, also A oder B. Das Zeitraster der Pr¨asentation ist wie beim DCR, allerdings ohne die feste Referenz, vgl. Abb. 6.17. Ai
~10 s
Grey
Aj
2s
~10 s
Grey
Bk
Grey
Bl
≤10 s
~10 s
2s
~10 s
voting
Ai, Aj Bk, Bl
th
th
Sequence A under i and j test condition respectively th th Sequence B under k and l test condition respectively
voting T1207480-95
Abb. 6.17 Zeitraster der Beurteilungen bei PC, aus ITU-T Rec. P.910 (2008)
Auch zu PC gibt es eine vergleichbare Methode f¨ur die Beurteilung von Fernsehbildern, die sog. Comparison Scale Method, siehe ITU-R Rec. BT.500-11 (2002). Sie ist vergleichbar zu PC und CCR bei Sprachqualit¨atstests. Es werden jeweils Paare pr¨asentiert, allerdings wird hier (im Unterschied zu PC) der Qualit¨atsunterschied
6.4 Bewertung visueller Sequenzen
115
auf einer kontinuierlichen Skala beurteilt, wie in Abb. 6.18 gezeigt ist. Die Stimuli werden wieder als doppelte Paare pr¨asentiert, wobei es hier keine Referenz gibt; die Sequenz lautet also A–B–A–B–Beurteilung“. ” A=B A is much better
B is much better
Abb. 6.18 Comparison Rating Scale nach ITU-R Rec. BT.500-11 (2002)
Bei kleinen Bildgr¨oßen und den Methoden DCR und PC ist es (im Gegensatz zum Sprachqualit¨atsbeurteilung) m¨oglich, beide miteinander zu vergleichenden Videosequenzen auf einem Bildschirm simultan zu pr¨asentieren. Dadurch reduziert sich die Testdauer, die Aufmerksamkeit der Versuchspersonen ist wom¨oglich gr¨oßer, und es ist f¨ur die Versuchspersonen u.U. einfacher, die Differenzen zu bewerten. Wichtig ist dann eine synchrone Pr¨asentation beider Sequenzen, mit pr¨aziser Synchronisierung der Start- und Endbilder. Beide Bilder sollten nebeneinander auf dem Bildschirm abgespielt werden, wobei der Hintergrund grau sein sollte, und der Betrachtungsabstand etwa 8x der Bildh¨ohe entsprechen sollte, um die notwendigen Augenbewegungen zu minimieren. Wie bei der Sprachqualit¨at auch ist es zum Vergleich der Ergebnisse unterschiedlicher Tests hilfreich, Referenzbedingungen in den Test einzubauen. Referenzbedingungen sind gezielt gest¨orte Videosequenzen, wobei das Ausmaß der St¨orung kontinuierlich regelbar sein sollte. ITU-T Rec. P.930 (1996) beschreibt eine Vorrichtung zur Generierung solcher Referenzbedingungen, genannt Reference Impairment System for Video (RISV). Dabei ist die exakte Ausf¨uhrung jedoch nicht festgelegt (im Gegensatz zur MNRU zur Generierung von Referenzbedingungen f¨ur Sprachqualit¨atstests), sondern es werden nur Anforderungen definiert, und es wird ein Ausf¨uhrungsbeispiel (ein System von Bellcore) gezeigt. Die Anforderungen besagen, dass die Referenzeinheit zumindest 5 Typen von St¨orungen erzeugen k¨onnen sollte: Blockiness, Blurring, Edge Business (Kanteneffekte, die durch zeitlich variierende Sch¨arfe und r¨aumlich variierendes Rauschen gekennzeichnet ist), Noise (Quantisierungsrauschen oder Mosquito Effect), und Jerkiness. Jede St¨orungsart wird zun¨achst getrennt auf skalierbare Weise erzeugt. Bspw. kann Blockiness erzeugt werden, indem die Luminanzwerte eines Blocks von Pixeln gegen¨uber den benachbarten Bl¨ocken ge¨andert wird. Blurring kann bspw. durch Anwendung eines 2-dimensionalen FIR-Filters auf das einzelne Bild erzeugt werden. Die einzeln erzeugten Beeintr¨achtigungen werden anschließend u¨ berlagert, wobei die Reihenfolge ihrer Erzeugung relevant ist. Abbildungen 6.19 und 6.20 zeigen den Einsatz und die Anordnung der Referenzst¨orungen innerhalb der Referenzeinheit.
¨ 6 Qualit¨at von Video-Ubertragungssystemen
116
Video system under test Video scene
Video monitor RISV Blurring
Jerkiness etc.
T1207520-95
Abb. 6.19 Einsatz einer Referenzeinheit zur Generierung von Videost¨orungen, aus ITU-T Rec. P.930 (1996) Input
Jerkiness
Blurring
Frame rate
Blurring level
Edge busyness
Edge busyness level and displacement
Block distortion
Block distortion Level
Noise
Noise level (sequence dependent based on noise type)
Master control (future addition) T1207530-95
Abb. 6.20 Blockdiagramm einer Referenzeinheit zur Generierung von Videost¨orungen, aus ITU-T Rec. P.930 (1996)
6.5 Bewertung audiovisueller Sequenzen F¨ur die Bewertung audiovisueller Sequenzen gelten zun¨achst die Dinge, die f¨ur Videosequenzen (Abschnitte 6.3 und 6.4) und f¨ur Audiosequenzen (Kapitel 5) gesagt wurden. Wieder kommt es darauf an, ein f¨ur die Gesamt-Applikation passendes Testverfahren zu identifizieren oder zu gestalten, wobei hier an Audio-und Videoqualit¨at unterschiedliche Anforderungen gestellt werden k¨onnen. Das Verfahren muss dann in der Lage sein, beide Anforderungen zu vereinen, oder es muss ein Kompromiss gefunden werden. Zus¨atzlich k¨onnen separate Audio- und Video-Tests durchgef¨uhrt werden. ¨ Ublicherweise werden audiovisuelle Sequenzen von ca. 10 s Dauer pr¨asentiert. Audio und Video sollten zueinander passen“, und die Sequenzen sollten sowohl ” bzgl. des Audiosignals als auch bzgl. des Videosignals alle zu erwartenden Inhalte und Qualit¨atsniveaus umfassen. Tabellen 6.21 und 6.22 zeigen m¨ogliche Klassen
6.5 Bewertung audiovisueller Sequenzen
117
von Audio- und Videomaterial; Details zu diesen Klassen finden sich in ITU-T Rec. P.911 (1998). Category
Description
A
One person, mainly head and shoulders, limited detail and motion
B
One person with graphics and/or more detail
C
More than one person
D
Graphics with pointing
E
High object and/or camera motion beyond the range usually found in video teleconferencing
Abb. 6.21 Klassen von Video-Inhalten f¨ur audiovisuelle Tests, aus ITU-T Rec. P.911 (1998)
Category
Description
I
Speech/one speaker
II
Speech/multiple speakers
III
Speech + background music
IV
Music/single instrument
V
Music/multiple instruments
Abb. 6.22 Klassen von Audio-Inhalten f¨ur audiovisuelle Tests, aus ITU-T Rec. P.911 (1998)
Die Pr¨asentation der Stimuli erfolgt in R¨aumen, welche definierte Audio- und Videoanforderungen erf¨ullen. Zus¨atzlich zu den genannten Video-Anforderungen sollte hier auch der Hintergrundger¨auschpegel begrenzt sein (z.B. < 30 dB(A)), und die Nachhallzeit sollte im betrachteten Frequenzbereich unter 500 ms liegen. Prinzipiell werden f¨ur audiovisuelle Stimuli die im vorangegangenen Abschnitt f¨ur visuelle Stimuli beschriebenen Methoden verwendet, insbesondere ACR, DCR und PC. Bei ACR werden wiederum einzelne Stimuli (ca. 10 s Dauer) pr¨asentiert. Das Urteil wird dann auf einer 5-stufigen oder 9-stufigen Kategorienskala abgefragt. Daneben k¨onnen auch spezielle Eigenschaften der Stimuli – a¨ hnlich einem semantischen Differential – abgefragt werden. Bei DCR wird wiederum die von der Videobeurteilung bekannte Methode verwendet, wobei sich das Urteil nun auf den audiovisuellen Stimulus bezieht; gleiches gilt auch f¨ur den Paarvergleich. Um zeitlich variierende Qualit¨at kontinuierlich zu erfassen, wird in ITU-R Rec. BT.500-11 (2002) f¨ur Fernsehbilder und in ITU-T Rec. P.911 (1998) f¨ur multimodale Anwendungen auch die sog. Single Stimulus Continuous Quality Evaluation (SSCQE) empfohlen. Dabei wird die Qualit¨at l¨angerer Stimuli von 3. . . 30 Minuten Dauer kontinuierlich mittels eines Schiebereglers bewertet. Dies entspricht der ACR-Beurteilung, allerdings zeitlich kontinuierlich. Die Ergebnisse werden dann als Zeitdiagramme pr¨asentiert, in denen der zeitliche Prozentsatz, w¨ahrend dessen das Urteil u¨ ber einem bestimmten Schwellwert liegt, dargestellt ist.
¨ 6 Qualit¨at von Video-Ubertragungssystemen
118
Prinzipiell kann man bei audiovisuellen Versuchen nach der Qualit¨at des visuellen Stimulus, der des auditiven Stimulus, oder nach der des audiovisuellen Stimulus fragen. Dementsprechend wird man mittlere Urteile bez¨uglich der Audioqualit¨at (MOSA ), der Videoqualit¨at (MOSV ) oder der audiovisuellen Qualit¨at (MOSAV ) erhalten. Bei ersteren kann das Urteil sowohl in einem reinen Audio- bzw. Videotest als auch in einem kombinierten audiovisuellen Test erhalten werden. Es stellt sich die Frage, welchen Anteil die Urteile bzgl. der Audio- und der Video-Qualit¨at auf diejenigen der audiovisuellen Qualit¨at haben. Hierzu gibt es keine allgemeing¨ultige Regel; der Beitrag h¨angt vielmehr von der Anwendung ab. Bspw. ist bei einer Videokonferenz mit hoher Wahrscheinlichkeit der Ton entscheidend, w¨ahrend f¨ur die Fernsehqualit¨at auch das Bild sehr wichtig sein d¨urfte. In ITU-T Rec. P.911 (1998) finden sich Ergebnisse von Versuchen mit unterschiedlichen Anwendungen, die an vier unterschiedlichen Laboren durchgef¨uhrt wurden, und die den Einfluss von Qualit¨atsurteilen in reinen Audio- und Video-Tests auf die Qualit¨at audiovisueller Stimuli beleuchten. Die Ergebnisse zeigen, dass in diesen Versuchen • das Videourteil dominant gegen¨uber dem Audiourteil ist; die Varianz der audiovisuellen Qualit¨at wird durch die Varianz der Videoqualit¨at bestimmt, und die Korrelation zwischen Video- und audiovisuellem Urteil ist h¨oher als diejenige zwischen Audio- und audiovisuellem Urteil; • die audiovisuelle Qualit¨at l¨asst sich auf Grundlage der Audio-und Video-Einzelurteile vorhersagen, und zwar in der Form MOSAV = α + β · MOSA · MOSV
(6.12)
Die Koeffizienten α und β wurden in unterschiedlichen Versuchen bestimmt zu α = 1, 1...1, 5 und β = 0, 107...0, 121. Die Korrelation zwischen vorhergesagten und gemessenen MOSAV lag mit diesem Modell bei 0,93...0,99. Diese Korrelationen und die angegebene Formel sollten allerdings nur als Beispiel verstanden werden: Je nach Anwendung wurden auch andere (lineare, quadratische und kubische) Zusammenh¨ange hergeleitet. Das Modell bezieht sich auch nur auf synchronisierte audiovisuelle Signale. Synchronizit¨at ist insbesondere bei Gespr¨achen wichtig (Lippensynchronizit¨at) und kann deshalb auch separat modelliert werden. Ans¨atze hierzu finden sich in Modellen zur Vorhersage audiovisueller Qualit¨at, wie sie in Kapitel 9 angerissen werden.
6.6 Konversationsversuche F¨ur Anwendungen in der Videotelefonie oder bei Videokonferenzen sollte Qualit¨at auch in einer Kommunikationssituation beurteilt werden. Hierzu muss ein realzeitf¨ahiges System vorliegen, damit der Einfluss der Verz¨ogerung ad¨aquat betrachtet werden kann. In solchen Versuchen wird die Eignung eines Systems betrachtet,
6.6 Konversationsversuche
119
¨ eine audiovisuelle Konversation zu f¨uhren; die Video-Ubertragungsqualit¨ at ist dann nur ein Aspekt der Qualit¨at, vgl. die Taxonomien in Kapitel 1. Wie bei entsprechenden Konversationstests f¨ur Sprach¨ubertragungssysteme k¨onnen geeignete Szenarien vorgegeben werden, nach denen die Versuchspersonen interagieren. Diese Szenarien sollten aber die Aufmerksamkeit der Versuchspersonen auch auf den visuellen Teil des Systems lenken, weshalb die Standard-Szenarien f¨ur die Telefonie ungeeignet sind. Die Szenarien sollten stattdessen so gestaltet sein, dass • die Versuchspersonen w¨ahrend der Interaktion auf das audiovisuelle Endger¨at (Bildschirm) schauen, • die Aufgabe zu einem gewissen Grade realistisch ist (Validit¨at der Ergebnisse), • die Aufgabe einigermaßen reproduzierbare Konversationen liefert (Reliabilit¨at der Ergebnisse), und dass • unterschiedliche Klassen von Versuchspersonen ohne Probleme teilnehmen k¨onnen. Im Gegensatz zu Sprachkommunikationstests ist es vorteilhaft, wenn sich die in Paaren teilnehmenden Versuchspersonen kennen. Dies f¨uhrt zu lebendigereren Kommunikationen als bei einander unbekannten Versuchspersonen. Die Aufgaben k¨onnen nach dem Grade der Interaktivit¨at und dem Grade der Involvierung des visuellen Sinnes unterschieden werden. ITU-T Rec. P.920 (2000) schl¨agt hierzu unterschiedliche Aufgaben vor, u.a.: • Name-Guessing: Hierbei soll eine Versuchsperson den Namen einer bekannten Person oder einer Marke in drei Schritten raten. Die dabei entstehenden Konversationen sind hoch strukturiert; bspw. ist die erste Frage Handelt es sich um ” eine Person oder eine Marke?“, und die zweite entweder Um was f¨ur ein Pro” dukt handelt es sich?“ oder Welchen Beruf hat die Person?“, worauf im dritten ” Schritt geraten werden muss. Beispiel: Marke; Zigarette; Camel“. ” • Story-Comparison: Hierbei erhalten beide Versuchspersonen leicht unterschiedliche Versionen einer Kurzgeschichte, die sie vor dem Gespr¨ach lesen m¨ussen. Im Gespr¨ach m¨ussen sie dann die Unterschiede herausfinden. • Picture-Comparison: Hierbei erhalten beide Versuchspersonen vor dem Gespr¨ach Bilder. Sie m¨ussen im Gespr¨ach herausfinden, ob die Bilder gleich sind. Auch hier d¨urfen die Versuchspersonen w¨ahrend des Gespr¨aches nicht auf die Bilder schauen, um den Fokus nicht vom Bildschirm zu lenken. • Building-Blocks: Hierbei erh¨alt eine Versuchsperson eine detaillierte Beschreibung eines Objektes, welches aus Bausteinen (z.B. Lego) hergestellt ist. Sie muss der anderen Versuchsperson beschreiben, wie dieses Objekt aufgebaut ist, sodass die andere Versuchsperson dies w¨ahrend des Gespr¨aches nachbauen kann. ¨ Der Videokanal dient dann gleichzeitig der Uberpr¨ ufung, ob das gebaute Objekt richtig ist. ¨ Die Building-Blocks-Aufgabe benutzt die Video-Ubertragung inh¨arent am besten und bewirkt so, dass die Versuchspersonen regelm¨aßig auf den Bildschirm schauen m¨ussen. Im Gegenzug ist die Interaktion weniger strukturiert als bspw. beim NameGuessing.
120
¨ 6 Qualit¨at von Video-Ubertragungssystemen
Nach der Kommunikation bewerten beide Versuchspersonen unterschiedliche ¨ Aspekte der Qualit¨at. Ublich sind hier insbesondere • • • •
Die audiovisuelle Gesamtqualit¨at (5-Punkte ACR-Skala) Die Videoqualit¨at (5-Punkte ACR-Skala) Die Audioqualit¨at (5-Punkte ACR-Skala) Der Aufwand, um die andere Person zu unterbrechen (Gegensprechen; 5-Punkte Skala mit “no effort”, “minor effort”, “moderate effort”, “considerable effort” und “extreme effort”) • Schwierigkeiten w¨ahrend der Kommunikation (2-stufige Skala ja/nein“) ” • Akzeptanz (2-stufige Skala ja/nein“) ” Zum Zusammenhang zwischen Audio-, Video- und audiovisueller Qualit¨at vergleiche Abschnitt 6.5; die u¨ brigen Fragen entsprechen im Wesentlichen den bei der Sprachkommunikation verwendeten.
6.7 Standards Je nach Anwendungsfall finden sich unterschiedliche Standards zur Evaluierung von Video¨ubertragungssystemen. Diese sind entweder dem Telecommunications Standardization Sector (ITU-T) oder dem Radiocommunication Sector (ITU-R) der ITU zuzurechnen. F¨ur Multimedia-Applikationen (Videotelefonie, Videokonferenz, etc.) beschreibt ITU-T Rec. P.910 (2008) Allgemeines zur Durchf¨uhrung von (passiven) Videoversuchen. Hierbei wird auf die Stimuli, die Testumgebung, den Versuchsablauf und die Versuchsauswertung eingegangen. Beschrieben werden insbesondere ACR, ACR-HRR, DCR und PC; auch beispielhafte Versuchsanleitungen werden gegeben. ¨ ITU-T Rec. P.911 (1998) beschreibt Ahnliches f¨ur audiovisuelle Stimuli; hier findet sich auch die SSCQE-Methode f¨ur die kontinuierliche Beurteilung l¨angerer Stimuli. ITU-T Rec. P.920 (2000) stellt Verfahren zur Beurteilung interaktiver Videosysteme vor, und geht insbesondere auf die Konverstaionsszenarien ein. ITU-T Rec. P.930 (1996) gibt die Anforderungen an ein Referenz-St¨orungssystem f¨ur Video, vgl. Abschnitt 6.4. ¨ F¨ur Fernsehubertragung gibt ITU-R Rec. BT.500-11 (2002) verschiedene Verfahren zur Beurteilung an. Insbesondere finden sich dort die DSCQS-, DSIS- und Comparison-Rating-Methode. Dar¨uber hinaus finden sich dort Informationen zur Betrachtungssituation, den Quellsignalen, der Auswahl der Teststimuli, etc. ITUR Rec. BT.710-4 (1998) beschreibt spezielle Verfahren zur Beurteilung von HighDefinition-(HD)-Fernsehsequenzen, ITU-R Rec. BT.811-1 (1994) f¨ur verbesserte PAL- und SECAM-Fernsehsysteme, und ITU-R Rec. BT.812 (1992) f¨ur Bilder im Teletext und a¨ hnlichen Systemen. Zur Vorbereitung von Versuchen sind u.U. noch ITU-R Rec. BT.814-2 (2007) f¨ur die Spezifikation f¨ur Kontrast und Helligkeit von Bildschirmen sowie ITU-R Rec. BT.815-1 (1994) f¨ur die Spezifikation eines signal-
Literaturverzeichnis
121
basierten Messverfahrens von Kontrast wichtig. Weitere Informationen finden sich auch bei Corriveau (2006).
Literaturverzeichnis Corriveau P (2006) Digital Video Image Quality and Perceptual Coding, Taylor & Francis Group, Boca Raton FL, Kapitel Video Quality Testing, S 125–153 ISO/IEC 13818-2 (2000) Generic Coding of Moving Pictures and Associated Audio Information. Part 2: Video. International Organization for Standardization, Genf ISO/IEC 14496-10 (2005) Coding of Audio-visual Objects. Part 10: Advanced Video Coding. International Organization for Standardization, Genf ISO/IEC 14496-2 (2004) Coding of Audio-visual Objects. Part 2: Visual. International Organization for Standardization, Genf ITU-R Rec. BT.1210-3 (2004) Test Materials to be Used in Subjective Assessment. International Telecommunication Union, Genf ITU-R Rec. BT.500-11 (2002) Methodology for the Subjective Assessment of the Quality of Television Pictures. International Telecommunication Union, Genf ITU-R Rec. BT.710-4 (1998) Subjective Assessment Methods for Image Quality in HighDefinition Television. International Telecommunication Union, Genf ITU-R Rec. BT.811-1 (1994) The Subjective Assessment of Enhanced PAL and SECAM Systems. International Telecommunication Union, Genf ITU-R Rec. BT.812 (1992) Subjective Assessment of the Quality of Alphanumeric and Graphic Pictures in Teletext and Similar Services. International Telecommunication Union, Genf ITU-R Rec. BT.814-2 (2007) Specifications and Alignment Procedures for Setting of Brightness and Contrast of Displays. International Telecommunication Union, Genf ITU-R Rec. BT.815-1 (1994) Specification of a Signal for Measurement of the Contrast Ratio of Displays. International Telecommunication Union, Genf ITU-T Rec. H.261 (1993) Video Codec for Audiovisual Services at p x 64 kbit/s. International Telecommunication Union, Genf ITU-T Rec. H.263 (2005) Video Coding for Low Bit Rate Communication. International Telecommunication Union, Genf ITU-T Rec. H.264 (2009) Advanced Video Coding for Generic Audiovisual Services. International Telecommunication Union, Genf ITU-T Rec. J.61 (1988) Transmission Performance of Television Circuits Designed for Use in International Connections. International Telecommunication Union, Genf ITU-T Rec. P.910 (2008) Subjective Video Quality Assessment Methods for Multimedia Applications. International Telecommunication Union, Genf ITU-T Rec. P.911 (1998) Subjective Audiovisual Quality Assessment Methods for Multimedia Applications. International Telecommunication Union, Genf ITU-T Rec. P.920 (2000) Interactive Test Methods for Audiovisual Communications. International Telecommunication Union, Genf ITU-T Rec. P.930 (1996) Principles of a Reference Impairment System for Video. International Telecommunication Union, Genf Yuen M (2006) Digital Video Image Quality and Perceptual Coding, Taylor & Francis Group, Boca Raton FL, Kapitel Coding Artifacts and Visual Distortions, S 87–122
Kapitel 7
Qualit¨at von Sprachdialogsystemen
Nachdem in den vergangenen beiden Kapiteln Systeme zur technischen Unterst¨utzung zwischenmenschlicher Kommunikation betrachtet wurden, befassen wir uns in diesem und dem folgenden Kapitel mit der Mensch-Maschine-Interaktion. Damit Menschen mit Maschinen interagieren k¨onnen, m¨ussen letztere in der Lage sein, Informationen zu erkennen und zu interpretieren, sowie Informationen an den Menschen auszugeben. Die Informationsein- und -ausgabe kann mit Hilfe von unterschiedlichen Medien erfolgen. Unter dem Begriff Medium verstehen wir ein Kommunikationsmittel (Material oder Ger¨at), welches einen bestimmten physikalischen (z.B. akustischen, optischen) Kanal benutzt, und unter dem Begriff Modalit¨at die Verwendung dieses Mediums zur Kommunikation, z.B. in Form von Intonation (gesprochene Sprache), Blick, Geste, Mimik, etc. Modalit¨aten sprechen verschiedene Sinne an, z.B. bei der visuellen, auditiven, oder der haptischen Wahrnehmung (F¨uhlen; umfasst die taktile Wahrnehmung/Oberfl¨achensensibilit¨at, die kin¨asthetische Wahrnehmung/Tiefensensibilit¨at, die Temparaturwahrnehmung sowie die Schmerzwahrnehmung). In diesem Kapitel beschr¨anken wir uns zun¨achst auf Systeme, die die Modalit¨at gesprochene Sprache“ sowohl zur Informationsein” gabe als auch zur Informationsausgabe verwenden. Neben der reinen Informationsein- und -ausgabe muss auch die Interaktion zwischen Mensch und Maschine so geleitet werden, dass tats¨achlich ein Informationsaustausch stattfindet. Diese Aufgabe kann der Mensch u¨ bernehmen (NutzerInitiative) oder die Maschine (System-Initiative), oder sie kann (wie bei der zwischenmenschlichen Kommunikation auch) zwischen beiden Interaktionspartnern aufgeteilt sein (gemischte Initiative). Gem¨aß der bei Fraser (1997) beschriebenen Klassifikation lassen sich die folgenden 4 Klassen von interaktiven Systemen unterscheiden: • Kommandosysteme: Diese sind durch eine direkte und deterministische Reak¨ tion des Systems gekennzeichnet, d.h. jeder Außerung des Benutzers entspricht genau eine Reaktion des Systems – ohne die Einbeziehung von Vorwissen. ¨ • Menu-orientierte Systeme: Diese bieten dem Benutzer an jeder Verzweigungsstelle ein explizites Men¨u an; dadurch wird der Dialog stark vom System be¨ stimmt. Im Gegensatz zu Kommandosystemen k¨onnen mehrere Außerungen not123
124
7 Qualit¨at von Sprachdialogsystemen
wendig sein, um ein kommunikatives Ziel zu erreichen. Interaktive Systeme wie bspw. Navigationssysteme, Anrufbeantworter, Telefon-Banking, etc. folgen h¨aufig einer solchen Strategie. • Sprachdialogsysteme: Diese Systeme verf¨ugen u¨ ber eine Spracherkennung, eine sprachverstehende Komponente, eine Dialogsteuerung, eine Schnittstelle zum Anwendungssystem, eine Komponente zur Generierung der Systemantwort, und die eigentliche Sprachausgabe. • Multimodale Dialogsysteme: Diese Systeme benutzen neben der Sprache noch eine oder mehrere weitere Modalit¨aten, bspw. Eingabe u¨ ber einen ber¨uhrungssensitiven Bildschirm oder u¨ ber Gestenerkennung, Ausgabe von Videos und Grafiken, etc. Wir wollen uns in diesem Kapitel mit Methoden zur Bestimmung der Qualit¨at und Usability von Systemen der dritten Kategorie – also den Sprachdialogsystemen – als allgemeinstes der mit der Modalit¨at gesprochene Sprache“ arbeitenden inter” aktiven Systeme befassen. Die dabei verwendeten Methoden lassen sich aber ohne Probleme auch auf Kommandosysteme und Men¨u-orientierte Systeme anwenden. Methoden zur Evaluierung multimodaler Systeme werden in Kapitel 8 vorgestellt. Dabei werden – wie in den vorangegangenen Kapiteln auch – zun¨achst die Qualit¨atselemente (Abschnitt 7.1) und Qualit¨atsmerkmale (Abschnitt 7.2) vorgestellt. ¨ Abschnitt 7.3 gibt eine grobe Ubersicht u¨ ber zur Verf¨ugung stehende Methoden. Diese beziehen sich entweder auf die Leistung einzelner Systemkomponenten, oder auf Gesamtsysteme. Methoden f¨ur den ersten Fall werden in Abschnitt 7.4, f¨ur den zweiten Fall in Abschnitt 7.5. vorgestellt. Abschnitt 7.6 listet einige wenige Standards auf, die f¨ur die Evaluierung von Sprachdialogsystemen bereits zur Verf¨ugung stehen.
7.1 Qualit¨atselemente von Sprachdialogsystemen Die Qualit¨atselemente eines Sprachdialogsystems ergeben sich aus seinem Aufbau. Obwohl sich die bekannten Systeme je nach Aufgabe und Anwendungskontext zum Teil deutlich in ihren Details unterscheiden, so l¨asst sich doch eine allgemeine Architektur angeben, der die meisten Systeme dem Prinzip nach folgen1 . Diese Architektur beschreibt sequenziell die Schritte der Informationsverarbeitung innerhalb des Systems und ist in Abb. 7.1 dargestellt. Die vom Benutzer kommende Sprache wird entweder direkt (z.B. bei einem Informationskiosk) oder u¨ ber ein Telefon-Interface an das erste Modul des Systems weitergeleitet, den Spracherkenner. Dieser generiert aus dem Sprachsignal orthografischen Text, wozu ein akustisches Modell (beschreibt die Zuordnung von Merkmalen des Sprachsignals zu Lauten), ein Vokabular (Lexikon) und ein Sprachmodell 1
In dieser Struktur werden allerdings einige Module vernachl¨assigt, wie bspw. eine Sprecheroder Emotionserkennung, die jedoch bei den heutigen kommerziellen Systemen auch nur selten anzutreffen sind. Detailliertere Beschreibungen solcher Systeme finden sich z.B. bei McTear (2002, 2004).
7.1 Qualit¨atselemente von Sprachdialogsystemen
Acoustic Models
Speech Signal
Lexicon
Speech Recognizer
Language Models
Word String
Dialogue History
Grammar
Semantic Analyzer
Database
Semantic Frame Semantic Frame Dialogue Manager
Phone Server
Speech Signal
125
Speech Synthesizer
Unit Dictionary
Text
Response Generator
Database Access Database Info
Rules
Abb. 7.1 Sequenzielle Struktur eines telefonbasierten Sprachdialogsystems, a¨ hnlich Lamel et al. (2000)
(beschreibt die m¨ogliche Abfolge von sprachlichen Einheiten) ben¨otigt werden. Der orthografische Text wird anschließend einer interpretierenden Einheit zugef¨uhrt, dem sog. Sprachverstehen“. Diese versucht, aus dem Text diejenigen Informatio” nen zu extrahieren, die f¨ur den Dialog wichtig sind. Die Informationen werden z.B. als semantische Attribut-Wert-Paare (sog. Slots, vergleichbar mit den Feldern eines Web-Interfaces) abgelegt. Sie dienen der Steuerung des Dialogablaufes im DialogManager. Der Dialog-Manager ist das Herzst¨uck des Systems. Er bestimmt den Ablauf der Interaktion basierend auf den (interpretierten) Benutzer¨außerungen und den Ergebnissen des Anwendungssystems (z.B. einer Datenbank). Daraus werden ad¨aquate System¨außerungen generiert, bspw. um R¨uckfragen zu stellen, um Missverst¨andnisse aufzukl¨aren, oder um letztendlich die gew¨unschten Informationen an den Benutzer auszugeben. Die Antwort kann zun¨achst in Textform generiert und anschließend mit Hilfe einer Sprachsynthese aus Text (sog. Text-To-Speech, TTS) oder aus Konzepten (Concept-To-Speech, CTS) vorgelesen werden, oder es wird direkt auf ¨ vorher aufgezeichnete Außerungen zur¨uckgegriffen (sog. Canned Speech). Das so erzeugte Sprachsignal wird entweder direkt oder u¨ ber das Telefon-Interface an den Benutzer ausgegeben. Die Qualit¨at der sprachlichen Interaktion wird also durch eine Reihe von Modulen im Inneren des Sprachdialogsystems bestimmt. Zur Klassifikation der Einflussgr¨oßen wird auf die Taxonomie von Qualit¨atselementen aus Kapitel 1 zur¨uckgegriffen. Diese umfasst f¨unf Klassen von Faktoren, zu denen im Folgenden beispielhaft konkrete Qualit¨atselemente – wenn m¨oglich getrennt nach Systemmodulen – aufgelistet sind.
126
7 Qualit¨at von Sprachdialogsystemen
Agent Factors • Eigenschaften des Spracherkenners: Gr¨oße und Komplexit¨at des Vokabulars, Art der zu erkennenden Sprache (Einzelwort, kontinuierlich, etc.), Sprache (monolingual, multilingual), Sprecherabh¨angigkeit, Training und Adaption, etc. • Eigenschaften der sprachverstehenden Komponente: Semantische Beschreibung der Aufgabe (z.B. in Form von Slots), syntaktisch-semantische Analyse, kontextuelle Analyse, Einbeziehung von Wissen aus anderen Komponenten, etc. • Eigenschaften des Dialog-Managers: Ged¨achtnis des Dialog-Managers (Dialogue History Model, Task Model, Domain Model, World Knowledge Model, Conversational Model, User Model), Initiative (System-Initiative, Nutzer-Initiative, gemischte Initiative), M¨oglichkeit des Ins-Wort-Fallens (Barge-In), Best¨atigungsstrategie, Korrekturstrategien, Adaptivit¨at, etc. • Eigenschaften der Sprachausgabe: Art und Umfang der ausgegebenen Information, Generierungsstrategie der Antwort, Stimme des Systems (Geschlecht, Anzahl der Stimmen, prosodische Qualit¨at, etc.), Sprache (monolingual, multilingual), Art der Synthetisierung (Text-to-Speech, Concept-to-Speech, Canned Speech), Sprechgeschwindigkeit, Sprechstil, etc.
Task Factors • Struktur der Aufgabe (stark strukturiert vs. schwach strukturiert) • Aufgabengebiet (Dom¨ane) • Komplexit¨at der Aufgabe (Anzahl m¨oglicher Szenarien, Anzahl von Unteraufgaben, Menge der auszutauschenden Informationen, etc.) • H¨aufigkeit, mit der die Aufgabe ausgef¨uhrt wird (bspw. sporadische vs. professionelle Nutzung) • Konsequenzen der Aufgabe (z.B. Sicherheitsaspekte)
User Factors • Anzahl der in Frage kommenden Benutzer • Alter und Geschlecht • Erfahrung mit dem System (unerfahren vs. erfahren, gelegentlicher vs. h¨aufiger Benutzer, beruflicher vs. privater Gebrauch) • Motivation • Zustand des Benutzers (Sprechanstrengung, Sprechgeschwindigkeit, etc.) • Muttersprache, Akzent, Dialekt
7.2 Qualit¨atsmerkmale von Sprachdialogsystemen
127
Environmental Factors • Ein- und Ausgabeger¨at, bspw. ein Informationskiosk oder ein Mobiltelefon, Art und Position des Mikrophons bzw. des Lautsprechers, etc. • Hintergrundger¨ausche, akustische Echos ¨ • Ubertragungskanal (vgl. Kapitel 5)
Contextual Factors • Zugang zum Dienst: Zug¨anglichkeit des Systems, Weiterleitung von/zu anderen Diensten ¨ • Verf¨ugbarkeit (Offnungszeiten, Zugangsbeschr¨ankungen) • Kosten (feste und variable Kosten, Vertragsbedingungen) • Vergleichbare Dienste (z.B. Web-Portal, mit Menschen besetzter Dienst) Dies sind nur Beispiele von Qualit¨atselementen, die bei einem bestimmten Dienst eine Rolle spielen k¨onnen. Die genaue Auswahl muss nach einer eingehenden Analyse des Dienstes sowie seines Benutzungsumfeldes getroffen werden, vgl. Abschnitt 4.2. ¨ Es f¨allt auf, dass sich – anders als bei den Ubertragungsstrecken – viele Qualit¨atselemente nicht quantitativ ausdr¨ucken lassen. Man ist stattdessen meist auf eine qualitative Beschreibung des Systems und seiner Komponenten angewiesen. Dies erschwert die Aufgabe der Vorhersage von Qualit¨at, wie sie in Kapitel 9 beschrieben ¨ wird: F¨ur Ubertragungsstrecken werden dort Modelle zur Vorhersage von mittleren Benutzerurteilen aus einer parametrischen Darstellung der Qualit¨atselemente vorgestellt, die bei Dialogsystemen so nicht definiert werden k¨onnen. Man beschr¨ankt sich deshalb bei letzteren h¨aufig auf die Vorhersage aus Leistungsparametern einzelner Systemkomponenten in einer (simulierten oder beobachteten) Interaktion mit Benutzern.
7.2 Qualit¨atsmerkmale von Sprachdialogsystemen Zur optimalen Gestaltung von Sprachdialogsystemen m¨ussen diese Qualit¨atselemente nun in Verbindung mit den Wahrnehmungen der Nutzer gebracht werden. Dabei ist die Komplexit¨at eines Sprachdialogsystemes zu beachten: Die Auswirkungen einzelner Qualit¨atselemente auf die Gesamtqualit¨at lassen sich i. Allg. nur sehr schwer absch¨atzen. Ein erstes Beispiel: Man kann versuchen, das Vokabular eines Spracherkenners zu optimieren, sodass es m¨ogliche Nutzer¨außerungen weitgehend abdeckt. Wenn das Gesamtvokabular dabei aber zu groß wird, so wird das die Erkennungsrate beeintr¨achtigen, und somit auch die Dialogf¨ahigkeit des Systems. Ein zweites Beispiel: Die explizite Best¨atigung jeder erkannten Information seitens des Systems wird zwar den Dialog verl¨angern, im Gegenzug aber sicherstellen, dass das
128
7 Qualit¨at von Sprachdialogsystemen
System nicht mit falsch erkannten Informationen weiterarbeitet und somit u.U. das Dialogziel verfehlt. Um die komplexen Zusammenh¨ange zwischen Systemkomponenten und wahrgenommener Qualit¨at besser zu erfassen wurden in der Vergangenheit mit unterschiedlichen Systemen umfangreiche Evaluationen durchgef¨uhrt. Dabei wurden meist Frageb¨ogen verwendet, in denen unterschiedliche Aspekte der Systemqualit¨at vom Benutzer zu bewerten waren, vgl. Abschnitt 7.5.3. Aus den mittleren Beurteilungen der Aspekte ergeben sich – a¨ hnlich einem Semantischen Differential – Polarit¨atsprofile. Die Beurteilungen lassen sich auch bzgl. der perzeptiv zu Grunde liegenden Faktoren mittels einer Hauptkomponentenanalyse analysieren. Man folgt hier also dem zweiten Paradigma der multidimensionalen Analyse aus Abschnitt ¨ 3.5, weil die Multidimensionale Skalierung mittels Ahnlichkeitsbestimmung (Abschnitt 3.5.1) durch die L¨ange eines Dialoges – von denen man zwei bzgl. ihrer ¨ Ahnlichkeit vergleichen m¨usste – ungeeignet erscheint. Die Ergebnisse solcher multidimensionalen Analysen unterscheiden sich je nach betrachtetem System, Aufgabenbereich und Nutzergruppe. In M¨oller (2005a) ¨ findet sich eine Ubersicht und Klassifikation verschiedener Ergebnisse. Dabei handelt es sich um folgende Untersuchungen: • Evaluierung eines automatisierten Systems zur Bezahlung von Waren u¨ ber das Telefon, vgl. Love et al. (1994): Es wurden 5 Faktoren extrahiert, die mit Quality of Interface Performance (Efficiency, Reliability, Required Improvement, Future Use, Enjoyment, Frustration, Complexity, Perceived Control), Cognitive Effort and Stress (Speed, Stress, Cognitive Demand, Fluster, Perceived Control, Confusion, Frustration, Enjoyment), User’s Conversational Model (Attitude Towards Voice and Tones, Friendliness, Helpfulness, Comparable Interface, Enjoyment, Complexity), Fluency of the Experience (Voice Clarity, Politeness, Transparency, Complexity), und Transparency of the Interface (Ease of Use, Helpfulness, Fluster, Transparency, Complexity, Confusion) beschrieben wurden. • Evaluierung eines automatischen Systems f¨ur Kreditkartenbezahlung, vgl. Jack et al. (1992): Hierbei wurden 4 Faktoren extrahiert, namentlich ein Cognitive Factor (Required Concentration, Confidence), ein Efficiency Factor (Perceived Reliability, Speed, Accuracy), ein Personality Factor (Friendliness, Politeness, Perceived Control), und ein Technology Factor (Attitude Towards Prompts and Tones, Comparable Interface). • Evaluierung von 8 verschiedenen Sprachapplikationen, die alle eine Spracheingabe, aber nicht alle eine Sprachausgabe aufwiesen, vgl. Hone und Graham (2000). Diese Untersuchungen wurden zur Definition eines einheitlichen Fragebogens f¨ur Sprachdialogsysteme, dem sog. SASSI, durchgef¨uhrt, vgl. Abschnitt 7.5.3. Es ergaben sich 6 Faktoren, n¨amlich System Response Accuracy, Likeability, Cognitive Demand, Annoyance, Habitability, und Speed. • System¨ubergreifende Evaluierung von verschiedenen Sprachapplikationen f¨ur verschiedene Dom¨anen und in verschiedenen Sprachen, die w¨ahrend der Konferenz Eurospeech’97 von den Teilnehmern dieser Konferenz durchgef¨uhrt wurde, die sog. ELSNET Olympics (den Os und Bloothooft, 1998). Es ergaben sich 5 Faktoren, n¨amlich General Appreciation (Task Completion, Error Recovery, Ap-
7.2 Qualit¨atsmerkmale von Sprachdialogsystemen
129
propriate Reactions, Error Messages, Overall Satisfaction), Functional Capabilities (unter Einbezug der Dialogstruktur), System Speech (Intelligibility, Prompt Wording), User’s Language Proficiency, und User’s Familiarity With Dialogue Systems. • Evaluation des telefonbasierten Systems BoRIS f¨ur Restaurantausk¨unfte in Bochum, vgl. M¨oller (2005b). Dabei ergaben sich die Faktoren Overall Impression and Behaviour (inkl. Informativeness, Interaction Capability, Flexibility, User Satisfaction), System Personality (Overall Impression, Intelligibility, Friendliness, Naturalness, Pleasantness), Cognitive Effort/Smoothness, Speed and Conciseness, und Naturalness (Reaction Like a Human). • Evaluierung des INSPIRE-Systems f¨ur die Sprachsteuerung von Hausger¨aten, vgl. M¨oller et al. (2007). Dabei gaben sich die 7 Faktoren Acceptability, Cognitive Demand, Task Efficiency, System Errors, Ease of Use, Cooperativity und Speed of the Interaction; ein achter Faktor konnte nicht interpretiert werden. Es ist offensichtlich, dass sich nicht immer alle Faktoren in eine einheitliche Anzahl von gleich interpretierbaren Dimensionen zerlegen lassen. Allerdings finden ¨ sich große Ahnlichkeiten zwischen den Dimensionen. Deshalb wurde in u.a. Tabelle (aus M¨oller (2005a)) versucht, eine einheitliche Klassifizierung und einheitliche Bezeichner f¨ur die h¨aufigsten in diesen Untersuchungen beobachteten Dimensionen zu finden. Quality Aspects
User fact.
Smoothness Personal- Cognitive itiy effort
Acceptability
Functionality Task success Future use Reliability Control/complex. Enjoyment/frust. Com. efficiency Stress/fluster Cogn. demand Confidence Annoyance User attitude Comp. interface Friendli./Politen. Intellig./Clarity Perc. control Complexity Confusion Transparency Ease of use Cooperativity Language prof. Familiarity
Love et al.
Jack et al.
Home & Graham
den Os & Bloothooft
C2 C2
C1
C1
BoRIS
C1
C3
C1
C1
C6 C3
C2 C2
INSPIRE
C4
C4
C8 C2
C1
C3 C4 C4 C2
C3
C3
C5 C3
C7
C2
C4 C5
C5
C5
C6 C4 C5
Abb. 7.2 Perzeptive Dimensionen der Qualit¨at von Sprachdialogsystemen, vgl. M¨oller (2005a)
Die sich daraus ergebenden Dimensionen wurden wie folgt benannt:
130
7 Qualit¨at von Sprachdialogsystemen
• Akzeptanz: Diese Kategorie umfasst die angenommene weitere Benutzung des Systems, den Erfolg bei der Erreichung des Kommunikationszieles, die Zuverl¨assigkeit, die wahrgenommene Kontrollm¨oglichkeit, sowie den Spaß bzw. die Frustration, die durch die Benutzung hervorgerufen werden. Sie korreliert am st¨arksten mit der Gesamtqualit¨at und der Nutzerzufriedenheit. • Effizienz der Kommunikation: H¨aufig identisch mit der Geschwindigkeit. • Kognitiver Aufwand: Umfasst Faktoren wie Stress, Angespanntheit, kognitive Belastung, Vertrauen in das System, sowie die L¨astigkeit des Systems. • Pers¨onlichkeit: Umfasst H¨oflichkeit, Freundlichkeit, Verst¨andlichkeit und Klarheit der System¨außerungen, die generelle Einstellung gegen¨uber dem System, sowie die Bevorzugung gegen¨uber anderen (vergleichbaren) Schnittstellen. • Glattheit des Dialoges: Wird bestimmt durch die wahrgenommene Kontrollm¨oglichkeit, die Komplexit¨at, die Transparenz sowie die Leichtigkeit der Interaktion. Die anderen noch beobachteten Faktoren treten nur selten zutage, oder auch nur f¨ur bestimmte Nutzergruppen (bsp. die Muttersprachlichkeit des Nutzers, oder die wahrgenommene Kooperativit¨at des Systems). Aus der Vielzahl der Qualit¨atsdimensionen wird offensichtlich, dass ein Benutzer – sofern ihm die Gelegenheit dazu gegeben wird – in der Lage ist, recht detaillierte Informationen u¨ ber das System zu liefern. Allerdings ist er nicht immer in der Lage, die Ursachen seines Urteils zu ergr¨unden. Daher ist es notwendig, verschiedene Evaluierungsmethoden miteinander zu kombinieren, wenn man ein analytisches Bild der Qualit¨at und Gebrauchstauglichkeit eines Sprachdialogsystems zeichnen m¨ochte. Methoden hierzu werden in den folgenden Abschnitten vorgestellt.
¨ 7.3 Ubersicht Evaluierungen von Sprachdialogsystemen werden seit den 1980er und 1990er Jahren durchgef¨uhrt. Dabei wurden – je nach Region und Entwicklungsstand – unterschiedliche Schwerpunkte gesetzt. So konzentrierten sich die ersten Evaluierungen auf die Bestimmung der Leistung einzelner Systemkomponenten, insbes. von Spracherkennern, sprachverstehenden Einheiten, sowie von TTS-Systemen. Daran anschließend wurden erstmalig Komplettsysteme evaluiert, h¨aufig f¨ur einheitliche, vorher definierte Aufgabenstellungen. In den USA wurden seit den 1980er Jahren kompetitive Kampagnen von der (Defense) Advanced Research Project Agency (ARPA/DARPA) organisiert. Man konzentrierte sich zun¨achst auf sprachverstehende Komponenten und die Flug-Informations-Dom¨ane (Air Travel Information Systems, ATIS), sp¨ater kamen interaktive Systeme hinzu, sowie auch Module f¨ur Information Retrieval, Summarization, etc. In Europa wurde die Evaluierung eher kollaborativ angegangen, jedoch in a¨ hnlich großen Projekten wie bspw. SAM (Multi-Lingual Speech Input/Output Assessment, Methodology and Standardization; ESPRIT-Projekte 2589 und 6819), EAGLES (Expert Advisory Group on Language
¨ 7.3 Ubersicht
131
Engineering Standards), Aupelf-Uref, Sqale, Class, und DISC. Literaturreferenzen hierzu finden sich z.B. in M¨oller (2005b). Bei der Evaluierung m¨ussen zwei Dinge auseinander gehalten werden: • Die Leistung einzelner Systemkomponenten • Die Qualit¨at eines Gesamtsystems, mit dem der Benutzer interagieren kann. Dabei sprechen wir von Leistung, wenn wir die die F¨ahigkeit eines Systems oder Systemmoduls untersuchen, die f¨ur dieses System vorgesehene Aufgabe zu erf¨ullen. Die Leistung stellt dann den Grad der Aufgabenerf¨ullung dar. Leistung l¨asst sich einfach messen, wenn die Aufgabe des Systems oder Systemmoduls klar definiert ist und eine Metrik existiert, die die Aufgabenerf¨ullung quantitativ beschreibt. Einfach ist dies z.B. bei einem Spracherkenner: Er hat die Aufgabe, Sprachsignale in orthografischen Text zu transkribieren. Unter der Annahme, dass eine Referenz¨ Transkription existiert, l¨asst sich der Grad der Aufgabenerf¨ullung als Grad der Ubereinstimmung zwischen der Transkription des Spracherkenners und der Referenz¨ Transkription definieren. Diese Ubereinstimmung l¨asst sich bspw. als Wortfehlerrate oder Satzfehlerrate quantifizieren. Schwieriger ist es schon, die Leistung eines Sprachsynthese-Moduls oder eines gesamten Sprachdialogsystem zu quantifizieren. Bei ersterem ist die Aufgabe klar – n¨amlich einen vorgegebenen Text in ein korrespondierendes Sprachsignal umzusetzen; allerdings l¨asst sich der Grad der Aufgabenerf¨ullung nur schwer quantifizieren: Die G¨ute der Umsetzung h¨angt stark vom dabei verwendeten Kriterium ab (z.B. Verstehbarkeit, Verst¨andlichkeit, Verst¨andnis, Nat¨urlichkeit, Effizienz), und viele dieser Kriterien lassen sich nur schwer in allgemeine quantitative Indices fassen. Im zweiten Fall ist auch die Aufgabe nur grob umrissen: Das Sprachdialogsystem soll eine zielgerichtete und qualitativ hochwertige Interaktion mit dem Benutzer f¨uhren; welche Aufgaben das im Einzelfall umfasst (Begr¨ußung, Initiative, Aufgabenerf¨ullung, Informationsausgabe, F¨ahigkeit zur Meta-Kommunikation, etc.) bleibt unklar und kann deshalb auch nur schlecht mittels Leistungs-Indikatoren quantifiziert werden. Methoden zur Erfassung der Leistung einzelner Systemkomponenten werden in Abschnitt 7.4 zusammengefasst. Bei Gesamtsystemen stellt sich eher die Frage der Qualit¨at, d.h. der Erf¨ullung der Anforderungen des Benutzers. Diese l¨asst sich nur in Interaktionen beantworten, bei denen das System wahrgenommen und beurteilt werden kann. Die Bestimmung der Systemqualit¨at und ihrer Einzelaspekte (Effektivit¨at, Effizienz, Komfort, Gebrauchstauglichkeit, Zufriedenheit des Benutzers, etc.) erfordert also die Durchf¨uhrung von Interaktionstests. Solcher Tests sind in Abschnitt 7.5 beschrieben. Beide Arten der Evaluierung lassen sich in neutralisierter Form (als Assessment) oder in einem realistischen Anwendungszusammenhang (als Evaluation) durchf¨uhren. Ein Assessment in neutralisierter Form bietet sich z.B. an, wenn man die Leistung einzelner Komponenten im Detail analysieren m¨ochte, um sie mit Hilfe der Ergebnisse zu optimieren. Auch k¨onnen mit neutralisierten AssessmentKampagnen verschiedene Systeme miteinander verglichen werden, etwa um den Entwicklungsstand zu dokumentieren oder Forschungsbedarf festzustellen. Eine
132
7 Qualit¨at von Sprachdialogsystemen
Evaluierung im Anwendungszusammenhang bietet sich z.B. an, wenn man feststellen m¨ochte, ob eine bestimmte Komponente bereits ausreichend leistungsf¨ahig ist, um in der Zielapplikation eingesetzt zu werden. Dar¨uber hinaus ist eine Evaluierung im Anwendungszusammenhang notwendig, wenn man das Zusammenspiel unterschiedlicher Systemkomponenten und ihre Auswirkungen auf die vom Benutzer erfahrene Qualit¨at analysieren und quantifizieren m¨ochte. In folgenden Abschnitt sollen zun¨achst Methoden zur Evaluierung einzelner Systemkomponenten vorgestellt werden. Viele der dabei verwendeten Methoden und Metriken sind unabh¨angig vom Anwendungszusammenhang; sie lassen sich also auch auf andere Systeme u¨ bertragen, bspw. auf Diktiersysteme (bei der Spracherkennung) oder auf Question-Answering-Systeme (beim Sprachverstehen). Allerdings lassen sich bei der Sprachsynthese auch anwendungsnahe Leistungsindikatoren finden; dies entspricht dann einer Evaluation der Synthesekomponente, w¨ahrend das Ergebnis f¨ur das Gesamtsystem eher als Assessment gesehen werden kann.
7.4 Leistung der Systemkomponenten Wir orientieren uns hierbei an der in Abschnitt 7.1 vorgestellten Architektur und befassen uns mit den f¨unf Komponenten Spracherkennung, Sprachverstehen, Dialogmanagement, Antwortgenerierung und Sprachausgabe. In vielen Systemen lassen sich Antwortgenerierung und Sprachausgabe allerdings nicht leicht trennen, weshalb diese beiden Module in der folgenden Darstellung zusammengefasst werden. Der in Abb. 7.1 gezeichnete Phone-Server stellt lediglich die Schnittstelle zum Telefonnetz her; er kann prinzipiell die in Kapitel 5 diskutierten St¨orungen einf¨ugen, welche sich normalerweise in einer Verringerung der Erkennungsrate des Spracherkenners sowie einer Verschlechterung der Qualit¨at der vom System ausgegebenen Sprache a¨ ußern. Dieser Einfluss wird bspw. in M¨oller (2005b) im Detail untersucht. Das eingezeichnete Anwendungssystem (Datenbank) soll ebenfalls nicht behandelt werden, da dies von Aufgabe zu Aufgabe variieren kann und keine direkte InterfaceKomponente darstellt.
7.4.1 Spracherkennung Obwohl die Leistungsmessung eines Spracherkenners klar definiert erscheint – n¨amlich die Hypothese, die der Erkenner erzeugt, mit einer von einem Menschen erzeugten Referenz-Transkription zu vergleichen – so existieren in der Praxis doch eine Reihe von Faktoren, die diese Art der Leistungsmessung beeinflussen (Pallett und Fourcin, 1997). So unterscheiden sich die Ergebnisse gem¨aß unterschiedlicher linguistischer Kategorien (W¨orter, Schl¨usselw¨orter, S¨atze, etc.), der Art der eingehenden Sprache (vorgelesen, spontansprachlich, etc.), der Sprecher, der Aufgabe, f¨ur die der Erkenner vorgesehen ist, sowie f¨ur unterschiedliche akustische
7.4 Leistung der Systemkomponenten
133
Umgebungen (ruhige Umgebung, Telefon, Hintergrundger¨ausche, etc.). Diese Faktoren m¨ussen definiert und konstant gehalten werden, wenn unterschiedliche Systeme bzgl. ihrer Leistungen verglichen werden sollen. Dies war z.B. bei vielen der DARPA-Kampagnen sowie im europ¨aischen Squale-Projekt der Fall. Um die Hypothese des Spracherkenners und die Referenz-Transkription zu vergleichen m¨ussen beide zun¨achst passgenau u¨ bereinander gelegt werden (sog. Alignment). Dabei werden meist Prinzipien der Dynamischen Programmierung angewendet, wobei unterschiedliche Gewichte f¨ur vom Spracherkenner ausgelassene (Deletions), substituierte (Substitutions) und zus¨atzlich eingef¨ugte W¨orter (Insertions) vorzusehen sind. Auf Basis dieses Alignment werden nun die Anzahl der Fehler, getrennt nach den Kategorien Deletions, Substitutions und Insertions gez¨ahlt, und es wird daraus eine Wortfehlerrate (Word Error Rate, W ER) oder – in umgekehrter Wichtung – eine Wort-Akkuratheit (Word Accuracy, WA) berechnet: W ER = bzw. WA = 1 −
sw + iw + dw nw
s w + i w + dw = 1 −W ER nw
(7.1)
(7.2)
Hierbei sind sw , iw und dw die Anzahlen der substituierten, eingef¨ugten und gel¨oschten W¨orter, und nw die Anzahl der W¨orter in der Referenz-Transkription. Bei einem Einzelworterkenner wird anstelle der Insertions eine sog. False-Alarm-Rate angegeben, d.h. dass der Erkenner ein Wort anzeigt, obwohl gar keines gesprochen wurde. ¨ Ahnliche Metriken k¨onnen auch auf Satzebene definiert werden. Man kommt dann zur Sentence Error Rate (SER) bzw. zur Sentence Accuracy (SA). Alternativ k¨onnen auch die mittlere Anzahl der Fehler pro Satz, oder die mittlere Wortfehlerrate pro Satz berechnet werden. Formeln hierzu sind bei den Interaktionsparametern in Abschnitt 7.5.2 angegeben. Normalerweise ist die Satzfehlerrate h¨oher als die Wortfehlerrate, da ein einziges falsch erkanntest Wort die Fehlerrate f¨ur den gesamten Satz beeinflusst. Allerdings wirken sich einzelne Wortfehler im Dialogfluss nicht unbedingt aus, insbesondere dann, wenn anschließend ein robuster Parser verwendet wird, oder wenn keine (von der sprachverstehenden Einheit ben¨otigten) Schl¨usselw¨orter falsch erkannt wurden. In diesem Fall ist eine Wortfehlerrate nur bedingt aussagekr¨aftig; man verwendet dann besser Leistungsindikatoren der sprachverstehenden Einheit, welche im folgenden Abschnitt aufgelistet sind.
7.4.2 Sprachverstehen Die Aufgabe der verstehenden“ Komponente besteht darin, den semantischen In” ¨ halt einer Außerung zu extrahieren. Dies kann entweder auf Basis einer zuvor erstellten Transkription geschehen (sog. Natural Language Understanding), oder
134
7 Qualit¨at von Sprachdialogsystemen
direkt auf Basis des Sprachsignals (sog. Speech Understanding). Die Leistungsmessung besteht in beiden F¨allen aus der Bestimmung der Korrektheit des semantischen Inhalts. Je nach Aufgabe und Anwendungszusammenhang wurden hierf¨ur in der Vergangenheit unterschiedliche Metriken verwendet. In der schon angesprochenen ATIS-Dom¨ane (Air Travel Information System) wurde die Korrektheit anhand des Kriteriums bestimmt, ob das System in der Lage war, aus einer Nutzer¨außerung eine korrekte Datenbankabfrage zu generieren. Hierzu wurden Nutzer¨außerungen zun¨achst dahingehend klassifiziert, ob sie f¨ur sich allein (ohne Zuhilfenahme von Dialog-Kontext) interpretierbar sind, und daraus wurden Datenbank-Abfragen generiert, welche auf ihre Korrektheit untersucht wurden. Aus den Anzahlen der korrekt, teilweise korrekt und inkorrekt beantworteten Anfragen wurden anschließend ein DARPA-Score und ein DARPA-(Weighted)-Error berechnet. Formeln hierzu sind in Abschnitt 7.5.2 angegeben. Dieser Ansatz eignet ¨ sich allerdings nur f¨ur Außerungen, die f¨ur sich allein genommen interpretierbar sind; dies ist in realen Dialogen meist nicht der Fall. ¨ Ein besserer Ansatz ist es, die Anzahl der aus einer Außerung extrahierten Konzepte zu quantifizieren. Diese sind zumeist als Attribut-Wert-Paare (Attribute-Value Pairs, AVPs) erh¨altlich und lassen sich a¨ hnlich wie beim Spracherkenner in korrekt erkannte, vertauschte und ausgelassene AVPs klassifizieren. Daraus lassen sich dann eine Konzept-Akkuratheit (Concept Accuracy, CA) oder eine Konzeptfehlerrate (Concept Error Rate, CER) berechnen. Formeln hierzu sind in Abschnitt 7.5.2 ¨ angegeben. Alternativ kann auch f¨ur jede Außerung bestimmt werden, ob sie korrekt, teilweise korrekt oder falsch geparst wurde, und daraus l¨asst sich anschließend eine Understanding Accuracy (UA) oder eine Understanding Error Rate (UER) – jetzt aber bezogen auf die Satzebene – bestimmen. Andere Metriken sind die von Glass et al. eingef¨uhrte Query Density oder die Concept Efficiency, die das Verstehen auf Dialogebene testen. Definitionen hierf¨ur finden sich ebenfalls in Abschnitt 7.5 und in der in M¨oller (2005b, 2008) angegebenen Literatur.
7.4.3 Dialogmanagement W¨ahrend die Aufgabe eines Spracherkenners gut definiert ist, sind die Aufgaben eines Dialogmanagers vielf¨altig. Sie umfassen bspw. die Sammlung aller zur L¨osung der Aufgabe (Kommunikationsziel) notwendigen Informationen vom Benutzer, die Verteilung der Initiative (vgl. Abschnitt 7.1), die Verwaltung der Wissensquellen w¨ahrend des Dialoges (Dialog-Historie), die R¨uckbest¨atigung der vom Benutzer erhaltenen Informationen, die Bereitstellung von Hilfe w¨ahrend des Dialoges, die Korrektur von Missverst¨andnissen, die Interpretation komplexer Dialogphenom¨ane wie Auslassungen (Ellipsen) oder Referenzen, sowie die Organisation der InformationsAusgabe an den Benutzer. Diese Funktionen bed¨urfen unterschiedlicher Metriken. Die am h¨aufigsten verwendeten Metriken quantifizieren die F¨ahigkeiten des Dialogmanagers zur Meta-Kommunikation, d.h. zur Kommunikation u¨ ber Kommunikation. Auf der Basis zuvor manuell erstellter Transkriptionen von aufgezeich-
7.4 Leistung der Systemkomponenten
135
neten Dialogen werden die Anzahl von Hilfe-Prompts, von Time-Out-Prompts, von R¨uckweisungen des Spracherkenners, oder anderweitiger Fehlermeldungen gez¨ahlt und als absolute oder relative Zahlen (bezogen auf die Gesamtzahl der System¨außerungen) bestimmt. Aus der Nutzerperspektive kommen die Anzahl von Hilfe-Ersuchen sowie von Abbruch-Versuchen hinzu. Auf einer abstrakteren Ebe¨ ne kann Meta-Kommunikation auch als Prozentsatz der Außerungen (von Benutzer und/oder System) quantifiziert werden, die sich in irgendeiner Weise darum drehen, ein Problem“ im Dialog zu l¨osen. Dieser Prozentsatz wird als System Correction ” Rate (SCR) bzw. als User Correction Rate (UCR) bezeichnet. Die F¨ahigkeit des Systems, den Dialog aus diesen Situationen zu befreien, wird durch den Parameter Implicit Recovery (IR) quantifiziert; dieser wird aus der Anzahl der korrekten System¨außerungen bei vorangegangenen Konzeptfehlern berechnet. Entsprechende Formeln finden sich ebenfalls in Abschnitt 7.5.2. Es sei angemerkt, dass sich das Dialogverhalten des Systems nicht allein aus dem Dialogmanager ergibt, sondern aus dem Zusammenspiel dieses Moduls mit Spracherkennung und Sprachverstehen, und teilweise auch mit der dahinter stehenden Applikation und der Sprachausgabe. In den oben genannten Parametern wird sich deshalb auch das Verhalten der anderen Module widerspiegeln.
7.4.4 Sprachausgabe ¨ Um die sprachliche Interaktion am Laufen zu halten m¨ussen sprachliche Außerungen seitens des Systems generiert werden. Dazu sind verschiedene GestaltungsRichtlinien entwickelt worden vgl. Abschnitt 4.5. Der Erfolg der Anwendung dieser Richtlinien spiegelt sich in der Angemessenheit“ der System¨außerungen wi” der, wie sie im Parameter Contextual Appropriateness (ebenfalls h¨aufig mit CA abgek¨urzt, aber nicht zu verwechseln mit der Concept Accuracy) quantifiziert ist. Dabei wird jede System¨außerung dahingehend u¨ berpr¨uft, ob sie die von Grice (1975) aufgestellten Maxime f¨ur menschliches Konversationsverhalten erf¨ullt. Obwohl sich diese Maxime haupts¨achlich auf zwischenmenschliche Dialoge beziehen wurde von Bernsen et al. (1998) gezeigt, dass sie sich ebenfalls auf Mensch-Maschine¨ Interaktionen anwenden lassen. Die Uberpr¨ ufung erfolgt durch einen menschlichen Evaluierer, der das System als Black Box betrachtet, und nur seine Eingabe und Ausgabe bewertet. Zur Bestimmung der Qualit¨at der generierten Sprache sind normalerweise auditive Tests durchzuf¨uhren, a¨ hnlich den in Kapitel 5 diskutierten. Dabei wurde die Sprachsynthese in der Vergangenheit zun¨achst hinsichtlich ihrer Verstehbarkeit bzw. Verst¨andlichkeit u¨ berpr¨uft, und zwar mittels der in Abschnitt 5.4 beschriebenen Methoden. Bei modernen Sprachsynthesesystemen sind diese Methoden – zumindest unter ruhigen Umgebungsbedingungen – nicht mehr sehr aussagekr¨aftig, da vielfach eine hohe Verst¨andlichkeit gew¨ahrleistet ist. Man konzentriert sich deshalb auf andere Qualit¨atsaspekte der Sprachsynthese wie ihre Nat¨urlichkeit, Annehmlichkeit, Passgenauigkeit f¨ur die betrachtete Applikation, etc.
136
7 Qualit¨at von Sprachdialogsystemen Name
Train number
Name of item (1- words) (1-3
To or from Time
Reference number Price
francs
Platform
Availability
weeks
Track
Overall impression How do you rate the quality of the sound of what you have just heard? □ Excellent □ Good □ Fair □ Poor □ Bad Listening effort
Comprehension problems
Articulation
How would you describe the effort you were required to make in order to understand the message?
Did you find certain words hard to understand?
Were the sounds distinguishable?
□ Complete relaxation possible; no effort required
□ Never
□
Yes, very clear
□ Attention necessary; no appreciable effort required □ Moderate effort required
□ Rarely
□
Yes, clear enough
□ Occasionally
□
Fairly clear
□ Effort required
□ Often
□
No, not very clear
□ No meaning understood with any feasible effort
□ All of the time
□
No, not at all
Observations:
Acceptance Do you think that this voice could be used for such an information service by telephone? □ Yes □ No
Abb. 7.3 Szenarien (oben) und Fragebogenvariante (unten) eines Versuches nach ITU-T Rec. P.85 (1994)
Hierzu werden vielfach anwendungsnahe Szenarien verwendet. Eine in ITU-T Rec. P.85 (1994) beschriebene Methode sieht bspw. vor, dass den Versuchspersonen anwendungstypische Sprachproben vorgespielt werden. Die Aufgabe der Versuchsperson besteht zun¨achst darin, 1–2 kurze Fragen zum Inhalt zu beantworten. Dadurch soll der Aufmerksamkeitsfokus der Versuchsperson auf den Inhalt der System¨außerungen – und nicht auf die Oberfl¨achenform – gelenkt werden. Anschließend werden verschiedene Urteile auf kategoriellen oder kontinuierlichen Skalen abgefragt, z.B. bzgl. Akzeptanz, Gesamteindruck, H¨oranstrengung, Verst¨andnisproblemen, Artikulation, Aussprache, Sprechgeschwindigkeit sowie Annehmlichkeit der Stimme. Abb. 7.3 zeigt die dabei verwendeten Frageb¨ogen. Trotz einiger De-
7.5 Qualit¨atsmessung von Gesamtsystemen
137
fizite ist diese Methode sehr hilfreich bei der schnellen Erstellung eines einfachen, anwendungsnahen Qualit¨atsprofiles f¨ur die Sprachgenerierung.
7.5 Qualit¨atsmessung von Gesamtsystemen Indikatoren f¨ur die Leistung einzelner Systemkomponenten sind hilfreich zur Auswahl und zur Optimierung solcher Komponenten; sie liefern allerdings nur wenig Information dar¨uber, wie gut die entsprechende Komponente im Zusammenspiel mit anderen Komponenten funktioniert, und welche Beitrag sie zur Gesamtqualit¨at eines Systems liefert. Aus diesem Grunde sollte die Glass-Box-Evaluierung der einzelnen Komponenten mit einer Black-Box-Evaluierung des Gesamtsystems komplementiert werden, bei der das System im Anwendungszusammenhang getestet wird. Die Evaluierung des Gesamtsystems beruht i. Allg. auf Testinteraktionen, die in einer Laborumgebung oder im Feld – dann aber unter wenig kontrollierbaren Bedingungen – von zuvor ausgew¨ahlten Testbenutzern durchgef¨uhrt werden. Insbesondere in einer Laborumgebung k¨onnen die Interaktionen (z.B. mittels Audio-, Video- und Log-Dateien) aufgezeichnet werden. Zus¨atzlich k¨onnen mit Hilfe von Frageb¨ogen quantitative Daten zu verschiedenen Qualit¨atsaspekten von den Versuchspersonen erhoben werden. Im Gegenzug bietet ein Test im Feld eine realistischere Umgebung, und damit auch realistischere Kontext-Faktoren, welche letztendlich zu realistischerem Verhalten und valideren Urteilen (Ecological Validity) f¨uhren k¨onnen. Typischerweise werden Testinteraktionen durch Szenarien getriggert, welche dem Aufgabenspektrum des Sprachdialogsystems entnommen sind. Dadurch k¨onnen gezielt bestimmte Arten von Aufgaben abgetestet werden, und es k¨onnen Mittelwerte der Leistungsindikatoren je Aufgabe angegeben werden. Im Gegenzug schr¨ankt man durch die Vorgabe der Szenarien aber auch die Art und Anzahl der getesteten F¨alle ein; die Evaluierung wird somit speziell, und es kann nicht ausgeschlossen werden, dass sich das Ergebnis nicht auf andere Aufgaben verallgemeinern l¨asst. Außerdem wird durch k¨unstlich definierte Aufgaben die Motivation der Versuchsperson nicht mehr der realen entsprechen; dies kann z.B. dazu f¨uhren, dass Aufgabenerfolg und Effizienz in derart getriggerten Evaluierungen nur eine untergeordnete Rolle spielen. Die Interaktionen werden aufgezeichnet, und anhand der Aufzeichnungen k¨onnen typische Interaktionsfehler identifiziert und klassifiziert werden. Diese geben direkten Aufschluss u¨ ber Usability-Probleme des Systems. Typische Klassifikationen sind in Abschnitt 7.5.1 angerissen. Durch Transkription und Annotierung der Aufzeichnungen lassen sich dar¨uber hinaus quantitative Beschreibungen der Interaktion – in Form sog. Interaktionsparameter – bestimmen. Diese Parameter wurden zum großen Teil schon in Abschnitt 7.4 im Zusammenhang mit einzelnen Systemkomponenten vorgestellt und werden in Abschnitt 7.5.2 tabellarisch zusammengefasst. Abschnitt 7.5.3 beschreibt Evaluierungen mittels Frageb¨ogen oder Interviews, mit denen direkte Qualit¨atsmesswerte bestimmt werden k¨onnen. Sollte das System noch
138
7 Qualit¨at von Sprachdialogsystemen
nicht vollst¨andig vorliegen kann auf sog. Wizard-of-Oz-Simulationen zur¨uckgegriffen werden, wie sie in Abschnitt 7.5.4 beschrieben sind.
7.5.1 Annotation von Interaktionen Die Annotation von Interaktions-Logs dient der Identifizierung, Typisierung und Analyse problematischer Interaktionssituationen. Hierzu wurden in der Vergangenheit unterschiedliche Schemata verwendet: • Bernsen et al. (1998) beschreiben eine Klassifikation von F¨allen, bei denen sich der Nutzer nicht gem¨aß dem normativen Modell‘ des Systems verh¨alt. Diese ’ F¨alle werden h¨aufig als Nutzerfehler“ bezeichnet, obwohl die Schuld f¨ur den ” Fehler nicht beim Nutzer zu suchen ist – es ist im Gegenteil der fehlerhafte Systementwurf, der den Fehler hervorruft. Die Fehler werden unterschieden bspw. nach dem Ignorieren von klarem System-Feedback‘, Antworten auf eine Fra’ ’ ge, die so nicht vom System gestellt wurde‘, Beantwortung mehrerer Fragen auf ’ ¨ einmal‘, Stellen unvorhergesehener Fragen‘, Anderung einer zuvor get¨atigten ’ ’ Spezifikation mittels eines Kommentars‘, sowie lautes Denken‘. ’ • Oulasvirta et al. (2006) analysieren Nutzerfehler (wiederum in der Wortbedeutung wie oben) auf unterschiedlichen Ebenen: Der Ziel-Ebene (z.B. durch begrenzte Dom¨anen-Abdeckung des Systems), der Aufgaben-Ebene (z.B. indem der Nutzer ein Kommando gibt, welches im derzeitigen Systemzustand unzul¨assig ist, in einem anderen Systemzustand aber richtig w¨are), der KommandoEbene (z.B. durch Verwendung des falschen Vokabulars oder einer zu komplexen Grammatik), sowie der Modellierungs-Ebene (z.B. bei Verwendung eines Kommandos, welches vom System durch eine andere Darstellung der Welt“ inner” halb des Systems nicht verstanden werden kann). Diese Klassifikation ist pheno¨ typisch, d.h. sie l¨asst sich von der Oberfl¨achenform der Außerungen von Nutzer und System ableiten, ohne den Systemaufbau im Detail zu kennen. • Dem gegen¨uber wird in ISO Standard 9241 Teil 110 (2006) eine genotypische Klassifikation vorgeschlagen, bei der die Ursachen der beobachteten Probleme analysiert werden. Damit k¨onnen dem Entwickler Hinweise zur Optimierung des Systems gegeben werden. Gem¨aß dieser Klassifikation werden sog. Critical Incidents annotiert, und es werden die dabei verletzten Dialog-Prinzipien (Heuristiken) kenntlich gemacht. Solche Prinzipien sind z.B. die Angemessenheit des Systems zur L¨osung der gestellten Aufgabe, die Selbstbeschreibungsf¨ahigkeit des Systems, die Kontrollierbarkeit, die Konformit¨at mit Nutzererwartungen, die Fehlertoleranz des Systems, die Individualisierbarkeit, sowie die Erlernbarkeit. Zur genauen Bestimmung der Ursache eines Critical Incident m¨ussen h¨aufig noch weitere Informationen vom Benutzer eingeholt werden, bspw. mittels eines Interviews oder mittels lauten Denkens. • Eine weitere Form der genotypischen (d.h. auf die Ursachen zielenden) Klassifikation wurde von Constantinides und Rudnicky (1999) vorgeschlagen, das sog. Fischgr¨aten-Diagramm. Anhand der Gr¨aten des Diagramms werden m¨ogliche
7.5 Qualit¨atsmessung von Gesamtsystemen
139
Ursachen f¨ur beobachtete Interaktionsfehler – in Form der verursachenden Systemkomponente, z.B. Spracherkennung, Sprachverstehen, Dialogmanagement, Systemausgabe, Aufgabe, oder allgemeiner Systemfehler – identifiziert. Dabei wird je nach identifizierter Komponente weiter nach den zugrunde liegenden Ursachen unterschieden, z.B. beim Spracherkenner nach dem Sprachmodell, dem Vokabular, der Aussprache des Nutzers, oder Hintergrundger¨auschen. Das Diagramm ist in Abb. 7.4 gezeigt.
System Failure
Understanding
System crash
1
Missing script concept
1
Airline information access error
2
3
Task
Missing grammar concept
2
Date / time error
Specification not available
1
Missing grammar rule
3
Interaction Failures 1 2
3
System Output
Inappropriate system response Ungrammatical output Not understandable 3 spoken output
Dialog
1 2
1
Orientation 2 3
Unsupported strategy Turn level confusion
4 5 6
Language model OOV Dictionary OOV User accent Background noise Levels not properly adjusted
Miscellaneous
Recognition
Abb. 7.4 Fishbone-Diagramm zur Klassifikation von Interaktionsfehlern, nach Constantinides und Rudnicky (1999), entnommen aus M¨oller (2005b)
7.5.2 Messung von Interaktionsparametern Interaktionsparameter liefern dem Systementwickler quantitative Daten zur Verbesserung des Systems. Sie beschreiben die Leistung der einzelnen Systemkomponenten (vgl. Abschnitt 7.4) sowie das Verhalten von Nutzer und System w¨ahrend der Interaktion. Durch Interaktionsparameter wird die Systemsicht in der Evaluierung vertreten; sie sind deshalb komplement¨ar zur direkten Qualit¨atsmessung durch Befragung der Nutzer, welche in Abschnitt 7.5.3 beschrieben ist.
140
7 Qualit¨at von Sprachdialogsystemen
Zur Bestimmung von Interaktionsparametern m¨ussen zun¨achst Interaktionen durchgef¨uhrt und aufgezeichnet werden. Aus den Aufzeichnungen lassen sich einige Parameter bereits instrumentell bestimmen, wie bspw. die Dauer der Inter¨ aktionen oder die Anzahl der Außerungen von Nutzer und System. Solche Parameter beziehen sich meist auf die Oberfl¨achenform der zwischen Nutzer und Sys¨ tem ausgetauschten Informationen. Soll dagegen auch der Inhalt der Außerungen betrachtet werden so ist zun¨achst meist eine Transkription und Annotation durch einen menschlichen Experten notwendig. Transkriptionen sind bereits bei der Bestimmung der Erkennerleistung (Wortfehlerrate etc.) wichtig; aber auch alle weiteren Parameter, die semantische Konzepte umfassen, bed¨urfen normalerweise eines menschlichen Experten zur Bestimmung. Auf Basis eine umfangreichen Literaturstudie wurde in der Vergangenheit eine Liste mit bislang verwendeten Interaktionsparametern erstellt und von der International Telecommunication Union (ITU-T) in ITU-T Suppl. 24 to P-Series Rec. (2005) standardisiert. Details zu der dabei verwendeten Literatur finden sich in M¨oller (2005b). Gem¨aß dieser Liste k¨onnen Interaktionsparameter klassifiziert werden in • • • • •
Dialog-bezogene Parameter, Meta-Kommunikations-bezogene Parameter, Kooperativit¨ats-bezogene Parameter, Aufgaben-bezogene Parameter, sowie Spracheingabe-bezogene Parameter.
Definitionen einzelner Parameter sind in den nachfolgenden Tabellen angegeben, wobei die englischen Definitionen beibehalten wurden, wie sie in ITU-T Suppl. 24 to P-Series Rec. (2005) beschrieben sind. Zu jedem Parameter ist angemerkt, ob er sich auf die Wort- (wrd.), Satz- (utt.) oder Dialog-Ebene (dial.) bezieht, und ob er instrumentell (inst.) oder mit Hilfe eines Experten (exp.) bestimmt werden muss.
7.5 Qualit¨atsmessung von Gesamtsystemen
141
Tabelle 7.1 Dialog-bezogene Parameter (1). Abk.
Name
DD
dialogue duration
ST D
system turn duration
UT D
user turn duration
SRD
system response delay
URD
user response delay
# turns
number of turns
# system turns # user turns WPST
number of system turns number of user turns words per system turn words per user turn number of system questions number of user questions query density
WPUT # system questions # user questions QD
Definition
Ebe- Messne meth. Overall duration of a dialogue in ms, see e.g. Fraser dial. instr. (1997). Average duration of a system turn, from the system utt. instr. starting speaking to the system stopping speaking, in ms. A turn is an utterance, i.e. a stretch of speech spoken by one party in the dialogue. (Fraser, 1997) Average duration of a user turn, from the user starting utt. instr. speaking to the user stopping speaking, in ms. (Fraser, 1997) Average delay of a system response, from the user utt. instr. stopping speaking to the system starting speaking, in ms. (Fraser, 1997) Average delay of a user response, from the system utt. instr. stopping speaking to the user starting speaking, in ms. (Fraser, 1997) Overall number of turns uttered in a dialogue. (Walker dial. instr./ et al., 1998) exp. Overall number of system turns uttered in a dialogue. dial. instr./ (Walker et al., 1998) exp. Overall number of user turns uttered in a dialogue. dial. instr./ (Walker et al., 1998) exp. Average number of words per system turn in a dia- utt. instr./ logue. (Cookson, 1988) exp. Average number of words per user turn in a dialogue. utt. instr./ (Cookson, 1988) exp. Overall number of questions from the system per dia- dial. exp. logue. Overall number of questions from the user per dia- dial. exp. logue. (Polifroni et al., 1992; Goodine et al., 1992) Average number of new concepts (slots) introduced per set exp. user query. Being nd the number of dialogues, nq (i) of the total number of user queries in the ith dialogue, and dinu (i) the number of unique concepts correctly “under- al. stood” by the system in the ith dialogue, then QD =
1 nd
nd
nu (i)
∑ nq (i)
i=1
A concept is not counted to nu (i) if the system has already “understood” it from a previous utterance. (Glass et al., 2000)
142
7 Qualit¨at von Sprachdialogsystemen
Tabelle 7.2 Dialog-bezogene Parameter (2). Abk.
Name
Definition
CE
concept efficien- Average number of turns necessary for each concept to cy be “understood” by the system. Being nd the number of dialogues, nu (i) the number of unique concepts correctly “understood” by the system in the ith dialogue, and nc (i) the total number of concepts in the ith dialogue, then 1 nd nu (i) CE = ∑ nc (i) nd i=1
Ebe- Messne meth. set exp. of dial.
A concept is counted whenever it was uttered by the user and was not already “understood” by the system. (Glass et al., 2000) Tabelle 7.3 Meta-Kommunikations-bezogene Parameter (1). Abk.
Name
# help re- number of help quests requests
# system number of diahelp gnostic system help messages # timeout # ASR rejection
number of timeout prompts number of ASR rejections
# system number of diaerror gnostic system error messages
# barge-in number of user barge-in attempts
Definition
Ebe- Messne meth. Overall number of user help requests in a dialogue. A utt. exp. user help request is labeled by the annotation expert if the user explicitly asks for help. This request may be formulated as a question (e.g. “What are the available options?”) or as a statement (“Give me the available options!”). (Walker et al., 1998) Overall number of help messages generated by the sys- utt. instr./ exp. tem in a dialogue. A help message is a system utterance which informs the user about available options at a certain point in the dialogue. Overall number of time-out prompts, due to no respon- utt. instr. se from the user, in a dialogue. (Walker et al., 1998) Overall number of ASR rejections in a dialogue. An utt. instr. ASR rejection is defined as a system prompt indicating that the system was unable to “hear” or to “understand” the user, i.e. that the system was unable to extract any meaning from a user utterance. (Walker et al., 1998) Overall number of diagnostic error messages from the utt. instr./ exp. system in a dialogue. A diagnostic error message is defined as a system utterance in which the system indicates that it is unable to perform a certain task or to provide a certain information. (Price et al., 1992) Overall number of user barge-in attempts in a dialogue. utt. exp. A user barge-in attempt is counted when the user intentionally addresses the system while the system is still speaking. In this definition, user utterances which are not intended to influence the course of the dialogue (laughing, expressions of anger or politeness) are not counted as barge-ins. (Walker et al., 1998)
7.5 Qualit¨atsmessung von Gesamtsystemen
143
Tabelle 7.4 Meta-Kommunikations-bezogene Parameter (2). Abk.
Name
# cancel
number of user cancel attempts
SCT , SCR
number of system correction turns, system correction rate
UCT , UCR
number of user correction turns, user correction rate
IR
implicit recovery
Definition
Ebe- Messne meth. Overall number of user cancel attempts in a dialogue. utt. exp. A user turn is classified as a cancel attempt if the user tries to restart the dialogue from the beginning, or if he/she explicitly wants to step one or several levels backwards in the dialogue hierarchy. (Kamm et al., 1998; San-Segundo et al., 2001) Overall number (SCT ) or percentage (SCR) of all sys- utt. exp. tem turns in a dialogue which are primarily concerned with rectifying a “trouble”, thus not contributing new propositional content and interrupting the dialogue flow. A “trouble” may be caused by speech recognition or understanding errors, or by illogical, contradictory, or undefined user utterances. In case that the user does not give an answer to a system question, the corresponding system answer is labeled as a system correction turn, except when the user asks for an information or action which is not supported by the current system functionality. (Simpson und Fraser, 1993; Gerbino et al., 1993) Overall number (UCT ) or percentage (UCR) of all user utt. exp. turns in a dialogue which are primarily concerned with rectifying a “trouble”, thus not contributing new propositional content and interrupting the dialogue flow (see SCT , SCR). (Simpson und Fraser, 1993; Gerbino et al., 1993) Capacity of the system to recover from user utteran- utt. exp. ces for which the speech recognition or understanding process partly failed. Determined by labeling the partially parsed utterances (see definition of PA:PA) as to whether the system response was “appropriate” or not: IR =
# utt. with appropriate syst. answer PA:PA
For the definition of “appropriateness” see Grice (1975) and Bernsen et al. (1998). (Danieli und Gerbino, 1995)
144
7 Qualit¨at von Sprachdialogsystemen
Tabelle 7.5 Kooperativit¨ats-bezogene Parameter. Abk. CA
Name
Definition
Ebe- Messne meth. contextual appro- Overall number of system utterances which are judged utt. exp. priateness to be appropriate in their immediate dialogue context. Determined by labeling utterances according to whether they violate one or more of Grice’s maxims for cooperativity: – CA:AP: Appropriate, not violating Grice’s maxims, not unexpectedly conspicuous or marked in some way. – CA:IA: Inappropriate, violating one or more of Grice’s maxims. – CA:T F: Total failure, no linguistic response. – CA:IC: Incomprehensible, content cannot be discerned by the annotation expert. For more details see Simpson und Fraser (1993) and Gerbino et al. (1993); the classification is similar to the one adopted in Hirschman und Pao (1993).
Tabelle 7.6 Aufgaben-bezogene Parameter (1). Abk.
Name
TS
task success
Definition
Ebe- Messne meth. Label of task success according to whether the user has dial. exp. reached his/her goal by the end of a dialogue, provided that this goal could be reached with the help of the system. The labels indicate whether the goal was reached or not, and the assumed source of problems: – S: Succeeded (tasks for which solutions exist) – SCs: Succeeded with constraint relaxation by the system – SCu: Succeeded with constraint relaxation by the user – SCuCs: Succeeded with constraint relaxation both from the system and from the user – SN: Succeeded in spotting that no solution exists – Fs: Failed because of the system’s behavior, due to system inadequacies – Fu: Failed because of the user’s behavior, due to non-cooperative user behavior See also Fraser (1997), Simpson und Fraser (1993) and Danieli und Gerbino (1995)
7.5 Qualit¨atsmessung von Gesamtsystemen
145
Tabelle 7.7 Aufgaben-bezogene Parameter (2). Abk.
Name
Definition
κ
kappa coefficient Percentage of task completion according to the kappa statistics. Determined on the basis of the correctness of the result Attribute-Value Matrix (AVM) reached at the end of a dialogue with respect to the scenario (key) AVM. A confusion matrix M(i, j) is set up for the attributes in the result and in the key, with T the number of counts in M, and ti the sum of counts in column i of M. Then P(A) − P(E) κ= 1 − P(E)
Ebe- Messne meth. dial. exp. or set of dial.
with P(A) the proportion of times that the AVM of the actual dialogue and the key agree, P(A) = ∑ni=1 M(i,i) T . P(E) can be estimated from the proportion of times that they are expected to agree by chance, P(E) = t ∑ni=1 ( Ti )2 . (Carletta, 1996; Walker et al., 1997) Tabelle 7.8 Spracheingabe-bezogene Parameter (1). Abk.
Name
Definition
Ebe- Messne meth. WER, WA word error rate, Percentage of words which have been (in-) correctly wrd. instr./ word accuracy recognized, based on the orthographic form of the hyexp. pothesized and the (transcribed) reference utterance, and an alignment carried out with the help of the “sclite” algorithm, see the NIST Speech Recognition Scoring Toolkit (2001). Designating nw the overall number of words from all user utterances of a dialogue, and sw , dw and iw the number of substituted, deleted and inserted words, respectively, then the word error rate and word accuracy can be determined as follows: WER =
sw + iw + dw nw
sw + iw + dw = 1 −WER nw See also Simpson und Fraser (1993); details on how these parameters can be calculated in case of isolated word recognition are given in van Leeuwen und Steeneken (1997). WA = 1 −
146
7 Qualit¨at von Sprachdialogsystemen
Tabelle 7.9 Spracheingabe-bezogene Parameter (2). Abk.
Name
Definition
Ebe- Messne meth. SER, SA sentence error ra- Percentage of entire sentences which have been (in-) utt. instr./ exp. te, sentence accu- correctly identified. Denoting ns the total number of racy sentences, and ss , is and ds the number of substituted, inserted and deleted sentences, respectively, then: SER =
ss + is + ds ns
ss + is + ds = 1 − SER ns (Simpson und Fraser, 1993) number of errors Average number of recognition errors in a sentence. utt. instr./ exp. per sentence Being sw (k), iw (k) and dw (k) the number of substituted, inserted and deleted words in sentence k, and ns the number of sentences, then SA = 1 −
NES
NES(k) = sw (k) + iw (k) + dw (k) The average NES can be calculated as follows: n
NES =
WES
s NES(k) WER · nw ∑k=1 = ns ns
(Strik et al., 2001) word error per Related to NES, but normalized to the number of words wrd. instr./ exp. sentence in sentence k, w(k): WES(k) =
NES(k) w(k)
The average WES can be calculated as follows: n
WES =
AN:CO, AN:IC, AN:PA, AN:FA, %AN:CO, %AN:IC, %AN:PA, %AN:FA
number or percentage of user questions with correct/ incorrect/ partially correct/ failed system answers
s WES(k) ∑k=1 ns
(Strik et al., 2001) Overall number or percentage of questions from the utt. exp. user which are – – – –
correctly (AN:CO) incorrectly (AN:IC) partially correctly (AN:PA) not at all (AN:FA)
answered by the system, per dialogue, see Polifroni et al. (1992), Goodine et al. (1992) and Hirschman und Pao (1993).
7.5 Qualit¨atsmessung von Gesamtsystemen
147
Tabelle 7.10 Spracheingabe-bezogene Parameter (3). Abk.
Name
Definition
Ebe- Messne meth. DARPAs , DARPA score, Measures according to the DARPA speech understan- utt. exp. DARPAme DARPA modified ding initiative, modified by Skowronek (2002) to acerror count for partially correct answers: AN :CO − AN : IC # user questions AN : FA + 2 · (AN : IC + AN : PA) = # user questions
DARPAs = DARPAme
(Polifroni et al., 1992; Goodine et al., 1992; Skowronek, 2002) PA:CO, number of cor- Evaluation of the number of concepts (attribute-value utt. exp. rectly/ partially pairs, AVPs) in an utterance which have been extracted PA:PA, correctly/ incor- by the system: PA:FA, %PA:CO, rectly parsed user – PA:CO: All concepts of a user utterance have been %PA:PA, utterances correctly extracted by the system. %PA:FA – PA:PA: Not all but at least one concept of a user utterance has been correctly extracted by the system. – PA:FA: No concepts of a user utterance have been correctly extracted by the system. Expressed as the overall number or percentage of user utterances in a dialogue which have been parsed correctly/ partially correctly/ incorrectly. (Danieli und Gerbino, 1995) CA, CER concept accuracy, Percentage of correctly understood semantic units, per utt. exp. concept error rate dialogue. Concepts are defined as attribute-value pairs (AVPs), with nAV P the total number of AVPs, and sAV P , iAV P and dAV P the number of substituted, inserted and deleted AVPs. The concept accuracy and the concept error rate can then be determined as follows: sAV P + iAV P + dAV P nAV P sAV P + iAV P + dAV P CER = nAV P CA = 1 −
UA
understanding accuracy
(Gerbino et al., 1993; Simpson und Fraser, 1993; Boros et al., 1996; Billi et al., 1996) Percentage of utterances in which all semantic units utt. exp. (AVPs) have been correctly extracted: UA = (Zue et al., 2000)
PA : CO # user turns
148
7 Qualit¨at von Sprachdialogsystemen
7.5.3 Qualit¨atsmessung mittels Frageb¨ogen Gem¨aß der in Kapitel 1 gegebenen Definition von Qualit¨at sind direkte Nutzerurteile bislang die einzigen validen Messwerte von Qualit¨at. Zur ihrer Erfassung wurden in der Vergangenheit verschiedene Frageb¨ogen f¨ur unterschiedliche Sprachdialogsysteme konstruiert. Zwei solcher Frageb¨ogen sind herauszuheben, da sich die Autoren explizit um die Validit¨at und Reliabilit¨at ihrer Frageb¨ogen gek¨ummert haben. So entwickelten Hone und Graham (2000) auf Basis des SUMI-Fragebogens (vgl. Abschnitt 8.3) ihr sog. Subjective Assessment of Speech System Interfaces, abgek¨urzt SASSI. SASSI wurde auf Basis von subjektiven Experimenten mit 8 unterschiedlichen Systemen konstruiert; allerdings hatten nicht alle Systeme auch eine Sprachausgabe, weshalb sich die Items auf die Spracheingabe beschr¨anken. Nach einer Iteration enth¨alt der Fragebogen nun 44 Items, die in Form einer Behauptung (z.B. Das System ist einfach zu bedienen“) formuliert sind, zu der die Versuchs” person ihre Zustimmung auf einer 7-stufigen Likert-Skala bewerten muss. Eine Faktorenanalyse von 214 Frageb¨ogen ergab die schon in Abschnitt 7.2 beschriebenen 6 Dimensionen; bei anderen Systemen (z.B. INSPIRE) wurden aber auch andere Zuordnungen der Items zu den Faktoren – und auch andere Faktoren – gefunden. Ein etwas weniger formalisierter Fragebogen wird in ITU-T Rec. P.851 (2003) beschrieben. In dieser auf telefonbasierte Spachdialogsysteme ausgelegten Empfehlung finden sich neben grunds¨atzlichen Anforderungen an den Testentwurf und die Versuchsbedingungen auch beispielhafte Frageb¨ogen f¨ur 3 Phasen des Experimentes: 1. einen initialen Fragebogen, mit dem am Eingang des Experimentes Hintergrunddaten der Versuchspersonen erhoben werden; 2. einen Fagebogen, mit dem einzelne Interaktionen bewertet werden k¨onnen; dieser Fragebogen orientiert sich stark an SASSI, aber es werden auch Fragen zur Sprachausgabe und weiteren Systemaspekten gestellt; sowie 3. einen post-experimentellen Fragebogen, mit dem der Gesamteindruck des Nutzers am Ende des Tests festgehalten wird. F¨ur jeden dieser Frageb¨ogen sind Themen angegeben, zu denen bei Bedarf Fragebogen-Items formuliert werden k¨onnen. Beispiele hierzu werden angegeben, entweder in Form von kontinuierlichen Rating-Skalen, oder in Form von Behauptungen, die anhand der bekannten Likert-Skalen bewertet werden m¨ussen.
7.5.4 Wizard-of-Oz-Tests Sprachdialogsysteme m¨ussen h¨aufig schon beurteilt werden, wenn sie sich noch im Entwicklungsstadium befinden. Zu diesem Zeitpunkt sind jedoch noch nicht alle Systemkomponenten verf¨ugbar, oder sie weisen eine zu geringe Leistung auf, als dass sie sinnvoll im Dialog eingesetzt werden k¨onnten. In diesem Falle kann man
Literaturverzeichnis
149
einzelne Module des Systems (z.B. die Spracherkennung, aber auch das DialogManagement) durch eine Person – den sog. Wizard – ersetzen. Man bezeichnet diese Art der Evaluierung einen Wizard-of-Oz-Test (nach Baum’s Novelle Der Zauberer ” von Oz“). Zur sinnvollen Beurteilung des Systems – und nicht des Verhaltens des Wizards – ist es jedoch notwendig, dass dem Wizard genug Vorgaben gemacht werden, damit er sich m¨oglichst genau so wie das sp¨atere System verh¨alt. Auch sollte die Versuchsperson im Unklaren dar¨uber gelassen werden, dass sie (zumindest teilweise) mit einem Wizard und nicht mit einem System interagiert, damit sie sich so verh¨alt, wie sie das auch bei einem automatischen System tun w¨urde. Dazu m¨ussen bei fehlender Sprachausgabe z.B. vorher gespeicherte Sprach-Prompts abgespielt oder synthetisiert werden, oder es muss zumindest die Stimme des Wizard maschinen” haft“ ver¨andert werden. Auch in Wizard-of-Oz-Experimenten lassen sich Frageb¨ogen verwenden, und es lassen sich auch Interaktionsparameter bestimmen. Allerdings sollten die dabei erhaltenen Daten vorsichtiger interpretiert werden, da ja Teile des Systems simuliert wurden. Detaillierte Informationen zu solchen Experimenten finden sich z.B. bei Fraser (1997) und M¨oller (2005b).
7.6 Standards Obwohl Sprachdialogsysteme bereits kommerziell angewandt werden gibt es bislang nur wenige standardisierte Evaluierungsmethoden. Die erste – und bislang umfangreichste – Sammlung standardisierter Methoden findet sich im sog. EAGLESHandbuch, welches zum Abschluss des bereits erw¨ahnten SAM-Projektes fertiggestellt wurde (Gibbon et al., 1997). In ihm finden sich u.a. Kapitel zur Evaluierung von interaktiven Systemen (Fraser, 1997), von Spracherkennern (van Leeuwen und Steeneken, 1997), von Sprechererkennern (Bimbot und Chollet, 1997), sowie von Sprachsynthesesystemen (van Bezooijen und van Heuven, 1997). Eine zweite Ausgabe dieses Handbuches besch¨aftigt sich mit multimodalen Systemen, Consumeroff-the-shelf Products und Diensten (Gibbon et al., 2000). Im Rahmen der International Telecommunication Union wurden bislang die schon erw¨ahnten beiden Empfehlungen zur Evaluierung von Sprachausgabesystemen (ITU-T Rec. P.85, 1994) und zur Evaluierung von Gesamtsystemen (ITU-T Rec. P.851, 2003), sowie ein weiteres Supplement mit Definitionen von Interaktionsparametern (ITU-T Suppl. 24 to P-Series Rec., 2005) verabschiedet.
Literaturverzeichnis Bernsen NO, Dybkjær H, Dybkjær L (1998) Designing Interactive Speech Systems: From First Ideas to User Testing. Springer, Berlin
150
7 Qualit¨at von Sprachdialogsystemen
Billi R, Castagneri G, Danieli M (1996) Field trial evaluations of two different information inquiry systems. In: Proc. 3rd IEEE Workshop on Interactive Voice Technology for Telecommunications Applications (IVTTA’96), Basking Ridge NJ, S 129–134 Bimbot F, Chollet G (1997) Handbook on Standards and Resources for Spoken Language Systems, Mouton de Gruyter, Berlin, Kapitel Assessment of Speaker Verification Systems, S 408–480 Boros M, Eckert W, Gallwitz F, G¨orz G, Hanrieder G, Niemann H (1996) Towards understanding spontaneous speech: Word accuracy vs. concept accuracy. In: Bunnell H, Idsardi W (Hrsg) Proc. 4th Int. Conf. on Spoken Language Processing (ICSLP’96), IEEE, Piscataway NJ, Vol 2, S 1009–1012 Carletta J (1996) Assessing agreement on classification tasks: The kappa statistics. Computational Linguistics 22(2):249–254 Constantinides PC, Rudnicky AI (1999) Dialog analysis in the Carnegie Mellon Communicator. In: Proc. 6th Europ. Conf. on Speech Communication and Technology (Eurospeech’99), Budapest, Vol 1, S 243–246 Cookson S (1988) Final evaluation of VODIS – Voice Operated Database Enquiry System. In: Proc. of SPEECH’88, 7th FASE Symposium, Edinburgh, Vol 4, S 1311–1320 Danieli M, Gerbino E (1995) Metrics for evaluating dialogue strategies in a spoken language system. In: Empirical Methods in Discourse Interpretation and Generation. Papers from the 1995 AAAI Symposium (Stanford CA), AAAI Press, Menlo Park CA, S 34–39 den Os E, Bloothooft G (1998) Evaluating various spoken dialogue systems with a single questionnaire: Analysis of the ELSNET Olympics. In: Proc. 1st Int. Conf. on Language Resources and Evaluation (LREC’98), Granada, Vol 1, S 51–54 Fraser N (1997) Handbook on Standards and Resources for Spoken Language Systems, Mouton de Gruyter, Berlin, Kapitel Assessment of Interactive Systems, S 564–615 Gerbino E, Baggia P, Ciaramella A, Rullent C (1993) Test and evaluation of a spoken dialogue system. In: Proc. Int. Conf. Acoustics Speech and Signal Processing (ICASSP’93), IEEE, Piscataway NJ, Vol 2, S 135–138 Gibbon D, Moore R, Winski R (Hrsg) (1997) Handbook on Standards and Resources for Spoken Language Systems. Mouton de Gruyter, Berlin Gibbon D, Mertins I, Moore R (Hrsg) (2000) Handbook of Multimodal and Spoken Dialogue Systems: Resources, Terminology and Product Evaluation. Kluwer Academic Publ., Boston MA Glass J, Polifroni J, Seneff S, Zue V (2000) Data collection and performance evaluation of spoken dialogue systems: The MIT experience. In: Proc. 6th Int. Conf. on Spoken Language Processing (ICSLP 2000), Beijing, Vol 4, S 1–4 Goodine D, Hirschman L, Polifroni J, Seneff S, Zue V (1992) Evaluating interactive spoken language systems. In: Proc. 2nd Int. Conf. on Spoken Language Processing (ICSLP’92), Banff, Vol 1, S 201–204 Grice HP (1975) Syntax and Semantics, Vol 3: Speech Acts, Academic Press, New York NY, Kapitel Logic and Conversation, S 41–58 Hirschman L, Pao C (1993) The cost of errors in a spoken language system. In: Proc. 3rd Europ. Conf. on Speech Communication and Technology (Eurospeech’93), Berlin, Vol 2, S 1419–1422 Hone KS, Graham R (2000) Towards a tool for the subjective assessment of speech system interfaces (SASSI). Natural Language Engineering 6(3-4):287–303 ISO Standard 9241 Teil 110 (2006) Ergonomics of human-system interaction – Part 110: Dialogue principles. International Organization for Standardization, Genf ITU-T Rec. P.85 (1994) A Method for Subjective Performance Assessment of the Quality of Speech Voice Output Devices. International Telecommunication Union, Genf ITU-T Rec. P.851 (2003) Subjective Quality Evaluation of Telephone Services Based on Spoken Dialogue Systems. International Telecommunication Union, Genf ITU-T Suppl. 24 to P-Series Rec. (2005) Parameters Describing the Interaction with Spoken Dialogue Systems. International Telecommunication Union, Genf Jack MA, Foster JC, Stentiford FWM (1992) Intelligent dialogues in automated telephone services. In: Proc. 2nd Int. Conf. on Spoken Language Processing (ICSLP’92), Banff, Vol 1, S 715–718
Literaturverzeichnis
151
Kamm CA, Litman DJ, Walker MA (1998) From novice to expert: The effect of tutorials on user expertise with spoken dialogue systems. In: Proc. 5th Int. Conf. on Spoken Language Processing (ICSLP’98), Sydney, Vol 4, S 1211–1214 Lamel L, Minker W, Paroubek P (2000) Towards best practice in the development and evaluation of speech recognition components of a spoken language dialogue system. Natural Language Engineering 6(3-4):305–322 Love S, Dutton RT, Foster JC, Jack MA, Stentiford FWM (1994) Identifying salient usability attributes for automated telephone services. In: Proc. 3rd Int. Conf. on Spoken Language Processing (ICSLP’94), Yokohama, Vol 3, S 1307–1310 McTear MF (2002) Spoken dialogue technology: Enabling the conversational interface. ACM Computing Surveys 34(1):90–169 McTear MF (2004) Spoken Dialogue Technology: Toward the Conversational User Interface. Springer, London M¨oller S (2005a) Perceptual quality dimensions of spoken dialogue systems: A review and new experimental results. In: Proc. 4th European Congress on Acoustics (Forum Acusticum Budapest 2005), Budapest, S 2681–2686 M¨oller S (2005b) Quality of Telephone-based Spoken Dialogue Systems. Springer, New York NY M¨oller S (2008) Recent Trends in Discourse and Dialogue, Springer, Dordrecht, Kapitel Evaluating Interactions with Spoken Dialogue Telephone Services, S 69–100 M¨oller S, Smeele P, Boland H, Krebber J (2007) Evaluating spoken dialogue systems according to de-facto standards: A case study. Computer Speech and Language 21:26–53 NIST Speech Recognition Scoring Toolkit (2001) Speech Recognition Scoring Toolkit. National Institute of Standards and Technology, http://www.nist.gov/speech/tools, Gaithersburg MD Oulasvirta A, M¨oller S, Engelbrecht KP, Jameson A (2006) The relationship of user errors to perceived usability of a spoken dialogue system. In: M¨oller S, Raake A, Jekosch U, Hanisch M (Hrsg) Proc. 2nd ISCA/DEGA Tutorial and Research Workshop on Perceptual Quality of Systems, Int. Speech Comm. Assoc. (ISCA), Berlin, S 61–67 Pallett DS, Fourcin A (1997) Survey of the State of the Art in Human Language Technology, Cambridge University Press and Giardini Editori, Pisa, Kapitel Speech Input: Assessment and Evaluation, S 425–429 Polifroni J, Hirschman L, Seneff S, Zue V (1992) Experiments in evaluating interactive spoken language systems. In: Proc. DARPA Speech and Natural Language Workshop, Harriman CA, S 28–33 Price PJ, Hirschman L, Shriberg E, Wade E (1992) Subject-based evaluation measures for interactive spoken language systems. In: Proc. DARPA Speech and Natural Language Workshop, Harriman CA, S 34–39 San-Segundo R, Montero JM, Col´as J, Guti´errez J, Ramos JM, Pardo JM (2001) Methodology for dialogue design in telephone-based spoken dialogue systems: A Spanish train information system. In: Proc. 7th Europ. Conf. on Speech Communication and Technology (Eurospeech 2001 – Scandinavia), Aalborg, Vol 3, S 2165–2168 Simpson A, Fraser NM (1993) Black box and glass box evaluation of the SUNDIAL system. In: Proc. 3rd Europ. Conf. on Speech Communication and Technology (Eurospeech’93), Berlin, Vol 2, S 1423–1426 Skowronek J (2002) Entwicklung von Modellierungsans¨atzen zur Vorhersage der Dienstequalit¨at bei der Interaktion mit einem nat¨urlichsprachlichen Dialogsystem. Diplomarbeit (unver¨offentlicht), Institut f¨ur Kommunikationsakustik, Ruhr-Universit¨at, Bochum Strik H, Cucchiarini C, Kessens JM (2001) Comparing the performance of two CSRs: How to determine the significance level of the differences. In: Proc. 7th Europ. Conf. on Speech Communication and Technology (Eurospeech 2001 – Scandinavia), Aalborg, Vol 3, S 2091–2094 van Bezooijen R, van Heuven V (1997) Handbook on Standards and Resources for Spoken Language Systems, Mouton de Gruyter, Berlin, Kapitel Assessment of Synthesis Systems, S 481–563 van Leeuwen D, Steeneken H (1997) Handbook on Standards and Resources for Spoken Language Systems, Mouton de Gruyter, Berlin, Kapitel Assessment of Recognition Systems, S 381–407
152
7 Qualit¨at von Sprachdialogsystemen
Walker MA, Litman DJ, Kamm CA, Abella A (1997) PARADISE: A framework for evaluating spoken dialogue agents. In: Proc. of the ACL/EACL 35th Ann. Meeting of the Assoc. for Computational Linguistics (Madrid), Morgan Kaufmann, San Francisco CA, S 271–280 Walker MA, Litman DJ, Kamm CA, Abella A (1998) Evaluating spoken dialogue agents with PARADISE: Two case studies. Computer Speech and Language 12(3):317–347 Zue V, Seneff S, Glass JR, Polifroni J, Pao C, Hazen TJ, Hetherington L (2000) Jupiter: A telephone-based conversational interface for weather information. IEEE Trans Speech and Audio Processing 8(1):85–96
Kapitel 8
Qualit¨at multimodaler Systeme
In diesem Kapitel sollen nun Systeme behandelt werden, welche neben gesprochener Sprache weitere Modalit¨aten zum Informationsaustausch mit dem Nutzer verwenden. Die multimodale Mensch-Maschine-Interaktion hat in den vergangenen Jahren zunehmend wissenschaftliches Interesse wie auch wirtschaftliche Bedeutung erlangt. Gr¨unde hierf¨ur sind zum einen die prinzipiellen Vorteile von multimodalen gegen¨uber unimodalen (bspw. rein sprachbasierten) Systemen. Durch die Kombination unterschiedlicher Modalit¨aten k¨onnen Nachteile einzelner Modalit¨aten ausgeglichen und somit der Kommunikationsprozess insgesamt optimiert werden. Zum anderen ist eine multimodale Interaktion f¨ur spezielle Benutzergruppen sinnvoll, bei denen bestimmte Sinne nur eingeschr¨ankt einsetzbar sind, bspw. behinderte oder a¨ ltere Benutzer, vgl. Fellbaum und Hampicke (2006). Dabei sind prinzipiell unterschiedliche Arten von Multimodalit¨at denkbar. So k¨onnen verschiedene Modalit¨aten sich entweder in ihrer Wirkung erg¨anzen oder als Alternativen verwendet werden. Auch ist es von Interesse, ob die Modalit¨aten zeitlich parallel oder sequenziell verwendet werden. Auf Basis dieser Merkmale unterscheiden Coutaz et al. (1995) z.B. die folgenden Arten der Verwendung von multiplen Modalit¨aten: • Complementarity: Mehrere Modalit¨aten m¨ussen f¨ur jeweils sich erg¨anzende Informationen verwendet werden, um ein bestimmtes Ziel zu erreichen. • Assignment: Eine Modalit¨at wird ausgew¨ahlt, und keine andere kann oder soll verwendet werden. Der Ausschluss anderer Modalit¨aten erfolgt entweder durch das System (weil es an einer Stelle der Interaktion keine andere Modalit¨at zur Verf¨ugung stellt) oder durch den Nutzer (weil er oder sie an einer Stelle der Interaktion immer nur eine Modalit¨at tats¨achlich verwendet). • Equivalence: Irgendeine vorhandene Modalit¨at kann verwendet werden; es bestehen keine Anforderungen an die zeitliche Abfolge der Verwendung. • Redundancy: Mehrere Modalit¨aten werden verwendet, sie tragen aber vergleichbare Informationen. Die Verwendung kann zeitlich parallel oder sequenziell erfolgen.
153
154
8 Qualit¨at multimodaler Systeme
Diese unterschiedlichen Interaktionsm¨oglichkeiten f¨uhren zu einem unterschiedlichen Erleben“ von Multimodalit¨at durch den Nutzer. ” Multimodale Dialogsysteme haben inzwischen einen Entwicklungsstand erreicht, der sie reif f¨ur eine kommerzielle Anwendung erscheinen l¨asst (Benoˆıt et al., 2000). Prototypen wurden z.B. auf verschiedenen Dialogsystem-Workshops 19992006 vorgestellt (Dalsgaard et al., 1999; Dybkjær et al., 2002; Minker et al., 2004; Andr´e et al., 2004) und umfassen die Systeme MASK und MATIS zur ZugfahrplanInformation (Lamel et al., 1998; Sturm et al., 2002), AUGUST zur Touristeninformation (Gustafson et al., 1999), SAMMIE zur Steuerung von Musikabspielger¨ate im Auto (Becker et al., 2006), DS-UCAT als Assistent in Bildungsinstitutionen (L´opez-C´ozar et al., 2006), Hans-Christian-Andersen zur dom¨anenspezifischen Unterhaltung und Bildung (Bernsen et al., 2004), SmartKom und INSPIRE zur Bedienung von Hausger¨aten (Wahlster, 2006; M¨oller et al., 2004), sowie SmartWeb als mobiles Interface zu semantischen Web-Diensten (Wahlster, 2004). Auch hat sich eine multimodale Eingabem¨oglichkeit bei vielen mobilen Endger¨aten (Smartphones) inzwischen durchgesetzt, und Webseiten bieten zunehmend multimodale Ausgabem¨oglichkeiten. Grundlegende Qualit¨atselemente solcher multimodalen Systeme werden in Abschnitt 8.1 beleuchtet. Damit diese Systeme dem Menschen optimale Dienste leisten k¨onnen, bed¨urfen sie einer konsequenten Evaluierung und Optimierung. Wie bereits bei den sprach¨ basierten Systemen (vgl. Kapitel 7) darf sich die Evaluierung nicht auf eine Uberpr¨ufung der Leistung einzelner Systemkomponenten beschr¨anken, sondern muss die Qualit¨at der Interaktion zwischen Benutzer und Gesamtsystem messen. Im Idealfall l¨asst sich Qualit¨at schon w¨ahrend der Planung neuer Systeme vorhersagen und somit die Systementwicklung – im Sinne einer hohen Akzeptanz durch den Benutzer – beschleunigen, vgl. Kapitel 9. Hierzu bedarf es wissenschaftlich fundierter Testmethoden und Algorithmen, die bislang nur in ersten Ans¨atzen erforscht sind. In diesem Kapitel werden daher nur erste verf¨ugbare Testmethoden vorgestellt, die bspw. bei den oben genannten Prototypen eingesetzt wurden. Das Kapitel erhebt keinen Anspruch auf Vollst¨andigkeit, sondern verweist auf einen ausgepr¨agten Forschungsbedarf bei diesem Thema. Wir in Kapitel 1 ausgef¨uhrt setzt Qualit¨at einen Wahrnehmungs- und einen Beurteilungsvorgang voraus, der im Benutzer stattfindet. Da bei der multimodalen Mensch-Maschine-Interaktion verschiedene Sinne angesprochen werden ist der Wahrnehmungsraum hochgradig multidimensional. Leider gibt es bislang nur recht wenig Informationen u¨ ber Qualit¨atsmerkmale, die speziell bei multimoda¨ len Systemen eine Rolle spielen; deshalb konnte bislang noch keine Ubersicht u¨ ber Qualit¨atsmerkmale solcher Dienste erstellt werden; ein detaillierter Abschnitt Qua” lit¨atsmerkmale“ fehlt deshalb bislang in diesem Kapitel. Die Qualit¨at des Wahrgenommenen h¨angt neben den Interaktionsmodalit¨aten aber auch vom Benutzer, der Beurteilungssituation und der Evaluierungsmethode ab. Daher l¨asst sich Qualit¨at wieder nur mit Hilfe von menschlichen Benutzern in einer realistischen Situation zuverl¨assig messen. Wie bei sprachbasierten Systemen werden hierzu im Labor oder Feld Interaktionstests durchgef¨uhrt, bei denen Interaktionen aufgezeichnet und mittels Interaktionsparametern quantifiziert werden (vgl. Abschnitt 8.2), und bei denen
8 Qualit¨at multimodaler Systeme
155
Versuchspersonen oder reale Benutzer Urteile u¨ ber verschiedene Qualit¨atsaspekte liefern (z.B. mittels eines Fragebogens oder Interviews). Solche Methoden werden in Abschnitt 8.3 kurz angerissen. Tests mit Versuchspersonen sind sehr aufwendig, und deshalb versuchen Systementwickler, auch auf andere Weise Informationen u¨ ber den Verlauf der Interaktion zu erhalten. Zwischen den Benutzerurteilen und den Interaktionsparametern lassen sich dann Zusammenh¨ange ableiten, die – algorithmisch beschrieben – die Grundlage f¨ur ein Modell zur Vorhersage von Qualit¨at liefern k¨onnen, vgl. Kapitel 9. Bei multimodalen Systemen gestaltet sich eine Vorhersage aus verschiedenen Gr¨unden allerdings noch schwieriger: • Es existieren bislang kaum Parameter, die ad¨aquat die Verwendung unterschiedlicher Medien bei der Interaktion beschreiben. • Es fehlen Informationen u¨ ber die Wichtigkeit der angebotenen Modalit¨aten (vgl. z.B. Untersuchungen von Fellbaum und Ketzmerick (2002) zur Rolle auditiver Modalit¨aten). • Es fehlt dem Benutzer an Vergleichsmaßst¨aben, d.h. an einer stabilen Erwartungshaltung gegen¨uber den F¨ahigkeiten des Systems. Hier m¨ussen auch soziologisch bedingte Unterschiede ber¨ucksichtigt werden, die sich wesentlich st¨arker auf die Erwartungshaltung als auf tats¨achliche Qualit¨atsurteile nach Benutzung eines neuen Systems auswirken (Jokinen und Hurtig, 2006). Ein Grund f¨ur die beschriebenen Unzul¨anglichkeiten bei den Qualit¨atsmessmethoden ist, dass es an grundlegendem Wissen u¨ ber multimodale Interaktionen fehlt. Hierzu m¨ussen zun¨achst fundamentale Fragen beantwortet werden, wie z.B.: • Welche Beitr¨age leisten die einzelnen Modalit¨aten zur Gesamtqualit¨at? Mit welchen Modalit¨aten l¨asst sich eine optimale Gesamtqualit¨at erzielen? • Welche Modalit¨aten beeinflussen sich konstruktiv und welche destruktiv? F¨uhrt die Kombination von unterschiedlichen Modalit¨aten zu einer Steigerung oder Verringerung der Qualit¨at? • Wie wirken sich die Modalit¨aten auf die Vorstellung des Benutzers vom System aus? Welchen Einfluss haben sie auf das Verhalten des Benutzers sowie auf seine Strategie, Aufgaben mit Hilfe des Systems zu l¨osen? • Welche Modalit¨aten eignen sich in bestimmten Dialogsituationen (z.B. Feedback oder Korrektur von Missverst¨andnissen)? • Wie kann eine animierte Person (Avatar) die Interaktion zwischen Benutzer und System unterst¨utzen? Wie wirkt er sich auf die Qualit¨at aus? Zur Beantwortung dieser und weiterer Fragen ist es notwendig, Daten u¨ ber die multimodale Mensch-Maschine-Interaktion zu sammeln und zu annotieren. Anstrengungen wurden in j¨ungerer Zeit unternommen, bspw. im Rahmen des DARPACommunicator-Projektes, des europ¨aischen AMI-Projektes, oder des Schweizer Forschungsschwerpunktes IM2. Solche systematisch erhobenen Daten dienen dem Aufbau von Korpora, die in einigen F¨allen bereits auf Fachkonferenzen vorgestellt wurden, u.a. von Green et al. (2006) und Kruijff-Korbayova et al. (2006). Dar¨uber hinaus wurden Richtlinien zur Anwendung bestimmter Modalit¨aten entwickelt
156
8 Qualit¨at multimodaler Systeme
(Bernsen und Dybkjær, 1999; Reeves et al., 2004). Dennoch sind kaum Daten u¨ ber die Qualit¨at, die menschliche Benutzer bei der Interaktion mit multimodalen Dialogsystemen erfahren, erh¨altlich. So beschr¨ankt sich bspw. ein aktuelles Methodenpaket mit Vergleichsdaten zur Evaluierung von multimedialen Dialogsystemen auf ¨ die rein funktionale Uberpr¨ ufung von Einzelkomponenten (Mostefa et al., 2006). Die f¨ur die sprachbasierten Systeme in Kapitel 7 beschriebenen Methoden lassen sich nat¨urlich im Prinzip auf multimodale Systeme erweitern, vgl. Dybkjær et al. (2004). F¨ur einige Anwendungen wurden bereits Gesamtbewertungen erhoben (Bernsen und Dybkjær, 2005b; Jokinen und Hurtig, 2006) oder Varianten von Einzelkomponenten eines Systems evaluiert, bspw. bei Bernsen und Dybkjær (2005a). Hier sind insbesondere Vorteile adaptiver gegen¨uber statischen Modulen u¨ berpr¨uft worden (Foster und White, 2005; Walker et al., 2004; Hone, 2006). Analysen der Auswirkungen zus¨atzlicher Modalit¨aten oder ihrer Interaktion bez¨uglich ihrer Wirkung beim Benutzer gibt es bislang allerdings nur wenige. Ausnahmen sind die Untersuchung der Informationsausgabe (Sprachausgabe und Avatar) bei einem Web-Service (Qiu und Benbasat, 2005), Untersuchungen zum sog. Persona-Effekt1 bei Avataren (Yee et al., 2007; Dehn und van Mulken, 2000; Lester et al., 1997), Untersuchungen zum Einfluss unterschiedlicher Modalit¨aten bei einem MedienInformationssystem (Naumann et al., 2008), sowie Untersuchungen zur Modalit¨atenwahl bei unterschiedlichen Nutzergruppen (Turunen et al., 2009). Neben der in Kapitel 7 beschriebenen direkten Befragung der Versuchspersonen kann auch versucht werden, durch indirekte Messungen Informationen u¨ ber die wahrgenommene Qualit¨at zu erhalten. Solche Methoden wurden bereits zur Bestimmung der Qualit¨at synthetischer Sprache angewandt, sowie auch zur Evaluierung der Sprach¨ubertragungsqualit¨at (Chateau et al., 2006). Bspw. k¨onnen Indikatoren der perzeptiven und kognitiven Belastung des Benutzers (Reaktionszeiten, Pulsfrequenz, Pupillenerweiterung, Blickrichtungen o.¨a.) zur Messung wichtiger Teilaspekte der Qualit¨at herangezogen werden. Hier k¨onnen durch eine konsequente Anwendung bekannter Methoden der experimentellen Psychologie auf das Problem der multimodalen Mensch-Maschine-Interaktion bessere Informationen u¨ ber diejenigen Aspekte der Interaktion erhalten werden, die tats¨achlich qualit¨atsrelevant sind. Solche und weitere Verfahren zur Bestimmung weiterer Qualit¨atsaspekte werden in Abschnitt 8.4 angerissen.
8.1 Qualit¨atselemente multimodaler Dialogsysteme Die Qualit¨atselemente eines multimodalen Dialogsystems ergeben sich wiederum aus der Architektur solcher Systeme. Unten stehende Abbildung zeigt eine allgemeine Architektur. Das System besteht prinzipiell aus drei Teilen: Der EingabeSchnittstelle, welche eine Reihe unterschiedlicher Eingabe-Modalit¨aten aufweisen 1 Hierunter versteht man den positiven Effekt auf die Qualit¨ atsurteile und die Interaktionsleistung, der in manchen F¨allen durch die Verwendung eines dem Menschen a¨ hnlichen Agenten hervorgerufen wird. Der Effekt ist allerdings von der Aufgabe und der Dom¨ane abh¨angig.
8.1 Qualit¨atselemente multimodaler Dialogsysteme
157
kann; der multimodalen Verarbeitungseinheit, die u.U. auf ein externes Aufgabenmodell und/oder eine Datenbank zugreifen kann; sowie der Ausgabe-Schnittstelle, wiederum mit einer Reihe von Ausgabe-Modalit¨aten. Input interface Microphone Telephone
Keyboard
Aut. speech recognition Nat. lang. processing
Output interface Multimodal processing
Face loc. & track Camera
Gaze tracking
Multimodal data fusion
Dialogue manager
Gesture recognition
Touch-sensitive screen Pen
Handwriting recognition
Task Database
Display
Nat. lang. generation Response generator
Speech synthesis Sound generation
Lip-reading recognition Mouse Data glove
Graphic generation
Multimodal data storage
Tactile/haptic generation
Speaker Telephone Air jet Air pocket Air ring Force Joystick
Abb. 8.1 Allgemeine Architektur eines multimodalen Dialogsystems, nach L´opez-C´ozar Delgardo und Araki (2005)
Auf der Eingabeseite wurden Spracherkenner (Automatic Speech Recognition, ASR) und sprachverstehende Einheit bereits im vorangehenden Kapitel behandelt. Letztere k¨onnte auch direkt Text als Eingabe akzeptieren und wird deshalb hier allgemein als Textverarbeitungs-Einheit (Natural Language Processing) bezeichnet. Daneben finden sich Module zur Lokalisierung und Verfolgung des Gesichtes im Kamerabild (Face Tracking), zur Blickbewegungserkennung (Gaze Tracking oder Eye Tracking), zur Erkennnung der Lippen (Lip-Reading Recognition), zur Erkennung von Gesten (Gesture Recognition), sowie zur Handschrift-Erkennung (Handwriting Recognition). Diese Modalit¨aten werden u¨ ber unterschiedliche physikalische Medien bedient, bspw. u¨ ber das Mikrophon (bei Sprache), u¨ ber eine Tastatur (bei Texteingabe), u¨ ber eine Kamera (bei Gesichts-, Blick-, Lippen- und Gestenerkennung), eine Maus oder einen Datenhandschuh (bei Gestenerkennung), oder durch eine ber¨uhrungssensitive Oberfl¨ache, die direkt durch Hautkontakt oder einen Stift (Stylus) bedient wird. Die genannten Eingabemodule stellen i. Allg. eine Vielzahl von Informationen bereit, welche anschließend korrekt interpretiert werden m¨ussen. Dabei ist es wichtig, die einzelnen Informationskan¨ale nicht getrennt zu betrachten, sondern in ihrer zeitlichen und inhaltlichen Kombination. Nur so lassen sich die oben genannten Interaktionen realisieren. Die erhaltenen Informationen m¨ussen also sinnvoll zusammengef¨uhrt werden; man nennt diesen Prozess Fusion (engl. Fusion). Auf Basis der interpretierten Informationen muss – wie auch beim Sprachdialogsystem – der Dialogfluss gesteuert werden. Hierbei wird auf die Informationen, die durch die Eingabeschnittstellen bereitgestellt werden oder im Interaktionsverlauf bereits bereitgestellt wurden, sowie auf Informationen des Aufgabenmodells und/oder der
158
8 Qualit¨at multimodaler Systeme
Datenbasis zur¨uckgegriffen. Informationen u¨ ber den Dialogverlauf werden im multimodalen Datenspeicher (Multimodal Data Storage) festgehalten. Der Dialogmanager entscheidet u¨ ber den n¨achsten Dialogschritt, d.h. die Antwort“ des Systems. ” Diese muss hier nat¨urlich nicht unbedingt in Textform (durch die Textgenerierung, Natural Language Generation) oder als Sprache (durch die Sprachsynthese, vgl. vorangehendes Kapitel) ausgegeben werden. Zus¨atzlich oder alternativ k¨onnen Grafiken, Bilder, Icons oder Videos generiert werden, oder auch ein animierter k¨unstlicher Agent, ein sog. Embodied Conversational Agent, ECA (hier in der Komponente Graphic Generation zusammengefasst), dar¨uber hinaus auch nicht-sprachliche Audioausgaben, oder taktile bzw. haptische Ausgaben. Dazu werden neben einem Lautsprecher und einem Bildschirm Ger¨ate zur Erzeugung von Kr¨aften (bspw. u¨ ber Luftstrom, elektrische oder magnetische Kraft, Bewegung von Massen, etc.) verwendet. Die Entscheidung dar¨uber, welche Informationen u¨ ber welche Modalit¨at ausgegeben werden, trifft in oben dargestelltem Schema die Response-GenerationKomponente: Sie f¨uhrt die Aufteilung (engl. Fission) der Informationen – also das Gegenst¨uck zur Fusion – durch. Eine genauere Beschreibung der Systemmodule findet man bei L´opez-C´ozar Delgardo und Araki (2005). F¨ur sprachbasierte Systeme wurden dar¨uber hinaus Messverfahren zur Bestimmung der Komponenten-Leistungen und Qualit¨atsmessverfahren bereits in Kapitel 7 definiert. In den folgenden Abschnitten sollen deshalb nur die zus¨atzlichen Komponenten behandelt werden, und zwar zun¨achst bzgl. ihrer Leistungen (Abschnitt 8.2), und anschließend bzgl. ihrer Auswirkungen auf Messverfahren der Gesamtqualit¨at sowie ihrer Einzelaspekte (Abschnitte 8.3 und 8.4).
8.2 Bestimmung der Leistung multimodaler Systemkomponenten Bei der Bestimmung der Systemleistungen orientieren wir uns an der Taxonomie der Qualit¨at multimodaler Interaktion aus Abschnitt 1.4 (Abb. 1.8) sowie an den o.a. Qualit¨atselementen multimodaler Systeme. Dabei betrachten wir hier die Ebene der Interaction Performance, welche durch die zwei Zyklen im oberen Teil des Bildes beschrieben wird. F¨ur jeden der Schritte im System-Zyklus lassen sich Leistungsmessverfahren angeben. Die folgenden Verfahren sind gebr¨auchlich: • Input Performance: Wie bei der Spracherkennung kann diese als Akkuratheit oder Fehlerrate des entsprechenden Erkenners“ angegeben werden, z.B. bei ei” nem Gestenerkenner oder einem Emotionserkenner. Allerdings wird dabei meist davon ausgegangen, dass die Erkenner“ auch tats¨achlich alle Eigenschaften des ” menschlichen Verhaltens erkennen k¨onnen; dies ist nicht unbedingt der Fall, denn der Satz erkennbarer Gesten und Emotionen ist begrenzt – wie auch das Vokabular eines Spracherkenners. Daher kann als zus¨atzliches Kriterium der Grad der Abdeckung des Benutzerverhaltens angegeben werden, sowie die Echtzeitf¨ahigkeit der entsprechenden Module. In Mostefa et al. (2006) finden sich Beispiele
8.2 Bestimmung der Leistung multimodaler Systemkomponenten
•
•
•
•
•
•
159
f¨ur Metriken zu den Eingabemodulen Gesichtserkennung, Personenerkennung und Handerkennung. Bei solchen Modulen wird neben der Rate der richtig erkannten Gesichter/Personen/H¨ande auch eine Rate f¨alschlich erkannter Objekte (False Positives) und f¨alschlich nicht erkannter Objekte (False Negatives) angegeben. Die Wichtung dieser Fehlerraten h¨angt vom Anwendungsfall ab. Input Modality Appropriateness: Die Angemessenheit der Eingabe-Modalit¨aten l¨asst sich z.B. anhand von Modality Properties beschreiben, aber nur auf qualitative Weise. Bernsen (2002) gibt hierf¨ur ein Klassifikationsschema an. Bei der Bestimmung der Angemessenheit muss der situative Kontext des Benutzers ber¨ucksichtigt werden: Bspw. ist Sprache eine effiziente und konfortable Eingabemodalit¨at, aber sie ist bspw. ungeeignet, wenn sicherheitsrelevante Informationen (z.B. eine PIN) u¨ bermittelt werden sollen und der Nutzer sich in einem o¨ ffentlichen Raum befindet. Interpretation Performance: Diese l¨asst sich leicht messen, wenn eine begrenzte Menge semantischer Konzepte (z.B. Attribut-Wert-Paare) zur Beschreibung verwendet werden. In diesem Falle kann man die Korrektheit der semantischen Konzepte (Concept Accuracy) auf Basis einer Experten-Transkription ermitteln, wie dies auch schon beim Sprachverstehen der Fall war. Allerdings wird dies dem Zusammenspiel der Modalit¨aten nicht unbedingt gerecht, welches in der Modality-Fusion-Komponente geschieht. Deshalb sollten Fehlerraten zun¨achst unabh¨angig f¨ur einzelne Modalit¨aten und dann nach der Fusion bestimmt werden. Dialogue Management Performance: In Kapitel 7 wurde bereits die Vielfalt der Funktionen angesprochen, die durch einen Dialogmanager erf¨ullt werden m¨ussen. Dazu geh¨ort nat¨urlich zun¨achst die F¨ahigkeit, den Dialog zum gew¨unschten Ziel zu lenken, was sich z.B. mit Hilfe des Task-Success-Parameters erfassen l¨asst. Die Verteilung von Initiative l¨asst sich z.B. mittels der Aufteilung der Gespr¨achsanteile ermitteln. Die F¨ahigkeit zu Meta-Kommunikation l¨asst sich bspw. durch die Rate der korrigierten Missverst¨andnisse ermitteln; hierzu wurden ebenfalls in Kapitel 7 bereits Metriken beschrieben. Weitere Funktionen sind u.U. schwer zu quantifizieren, sodass spezielle Metriken entworfen werden m¨ussten. ¨ Contextual Appropriateness: Diese kann z.B. durch Uberpr¨ ufung der Grice’schen Konversations-Maxime quantifiziert werden, mithilfe des Parameters Contextual Appropriateness; je weniger Maxime verletzt werden, desto kooperativer verh¨alt sich das System. Zu Details vgl. Kapitel 7. Diese Maxime m¨ussten prinzipiell noch auf multimodale Kommunikationen erweitert werden; Ans¨atze hierzu sind bislang allerdings nicht bekannt. Output Modality Appropriateness: Wie bei der Eingabemodalit¨at kann diese z.B. mit Hilfe der Modality Properties u¨ berpr¨uft werden, vgl. Bernsen (2002). Dabei muss auch das Zusammenspiel verschiedener Modalit¨aten mit ber¨ucksichtigt werden. Form Appropriateness: Diese bezieht sich auf die Oberfl¨achenform der vom System bereitgestellten Ausgabe-Modalit¨aten. Bei gesprochener Sprache l¨asst sich die Angemessenheit z.B. in Form von Verst¨andlichkeit, Nat¨urlichkeit, H¨oranstrengung o.¨a. quantifizieren; Methoden hierzu sind in Kapitel 7 angegeben.
160
8 Qualit¨at multimodaler Systeme
Bei einem animierten Agenten (Embodied Conversational Agent) l¨asst sich die zus¨atzlich erbrachte Leistung z.B. dadurch u¨ berpr¨ufen, dass die F¨ahigkeit zur ¨ Ubermittlung von Emotionen, Backchannels, etc. bestimmt wird. Methoden zur Evaluierung von ECAs befinden sich derzeit noch in der Forschung.
8.3 Qualit¨atsmessung bei multimodalen Dialogsystemen Wie bei sprachbasierten Systemen reichen Metriken f¨ur die Leistung einzelner Systemkomponenten nicht aus, um die vom Benutzer bei der Interaktion erfahrene Qualit¨at quantitativ zu beschreiben. In Kapitel 1 wurde eine Taxonomie angegeben, welche Qualit¨at in verschiedene Qualit¨atsaspekte aufschl¨usselt. Einen wichtigen Punkt dabei stellt die Interaktionsqualit¨at dar. Sie wurde in die drei Teile Eingabequalit¨at (Input Quality), Ausgabequalit¨at (Output Quality) und Kooperativit¨at (Cooperativity) aufgespalten. Die Eingabequalit¨at umfasst, ob sich der Benutzer vom System verstanden“ f¨uhlt, d.h. ob auf seine Eingaben richtig“ ” ” reagiert wird, und ob die Informationseingabe komfortabel ist. Dies h¨angt neben der Erkennungs- und Verstehensleistung des Systems auch von der Angemessenheit der Eingabemodalit¨aten ab. Insbesondere hat sich herausgestellt, dass die Interpretationsleistung nicht direkt mit dem wahrgenommenen Verstehen“ des Systems ” korreliert, vgl. z.B. M¨oller (2006). Deshalb ist es wichtig, neben den Interaktionsparametern auch subjektive Beurteilungen der Versuchspersonen zu sammeln. Auf der Ausgabeseite umfasst die Ausgabequalit¨at, ob die Systemausgaben verst¨andlich sind, und ob die Form ad¨aquat ist, den Inhalt zu transportieren. Hier m¨ussen neben einer Sprachausgabe auch alle weiteren Ausgabemodalit¨aten betrachtet werden. Die Kooperativit¨at umfasst die Verteilung von Initiative zwischen den Interaktionspartnern (welche durchaus unsymmetrisch sein darf, da unterschiedliche Rollen eingenommen werden k¨onnen), die Ber¨ucksichtigung von Hintergrundwissen, sowie die F¨ahigkeit, Unklarheiten und Missverst¨andnisse zu beseitigen. Wie bereits bei den anderen Qualit¨atsaspekten reicht es hier nicht aus, quantitative Metriken f¨ur einzelne Metakommunikations-Ph¨anomene zu bestimmen, sondern es muss die Wahrnehmung des Benutzers erfasst werden. Hierzu sind Frageb¨ogen gebr¨auchliche Hilfsmittel, z.B. Erweiterungen des in ITU-T Rec. P.851 (2003) beschriebenen Ansatzes. Neben der Interaktionsqualit¨at spielen auch Effizienz, Effektivit¨at, Lernbarkeit und Intuitivit¨at eine Rolle. Effektivit¨at (Grad der Zielerreichung) und Effizienz (Aufwand und Ressourcen im Verh¨altnis zum Grad der Zielerreichung) lassen sich wiederum mittels Frageb¨ogen erfassen. Die Lernbarkeit umfasst die Geschwindigkeit und die Leichtigkeit, mit der Benutzer das Gef¨uhl bekommen, das System bedienen zu k¨onnen. Intuitivit¨at beschreibt den Grad, zu dem ein Nutzer in der Lage ist, effektiv mit einem System umzugehen, wobei er unbewusst Wissen anwendet (Naumann et al., 2007). Zur Erfassung all dieser Dimensionen haben sich bei grafischen Nutzerschnittstellen Frageb¨ogen wie der SUMI (Software Usability Measurement Inventory, vgl. Kirakowski und Corbett (1993)) bew¨ahrt; f¨ur sprachbasierte
8.4 Messung weiterer Qualit¨atsaspekte
161
Systeme wurde aus diesem Fragebogen SASSI abgeleitet, vgl. das vorangehende Kapitel. In der o.a. Taxonomie wird Usability in zwei Teilaspekte aufgeteilt: Der sog. Ease of Use, der direkt durch die Interaktionsqualit¨at beeinflusst wird, und der sog. Joy of Use. Bei letzterem spielen neben der Interaktionsqualit¨at auch hedonische Aspekte wie die Attraktivit¨at (Appeal) und die Pers¨onlichkeit“ des Systems eine Rolle, ” vgl. den folgenden Abschnitt. Als Konsequenz ergibt sich letztendlich Nutzerzufriedenheit, wie in der Definition von Usability in Kapitel 1 beschrieben. Neben den schon beschriebenen Frageb¨ogen (SUMI, SASSI, ITU-T Rec. P.851) und den in Kapitel 4 beschriebenen Verfahren bieten sich zur Bestimmung dieser Aspekte auch physiologische Messungen an. Beispiele hierzu finden sich z.B. bei Mandryk et al. (2006). Bei der Vielzahl der angesprochenen Frageb¨ogen stellt sich die Frage nach der Vergleichbarkeit der damit erzielbaren Ergebnisse. Hierzu f¨uhrten Wechsung und Naumann (2008) eine vergleichende Studie unterschiedlicher Frageb¨ogen am Beispiel von zwei multimodalen und einer unimodalen Version eines Medien-Informationssystems durch. Als Ger¨ate standen den Versuchspersonen ein herk¨ommlicher PC mit Maus und Tastatur, ein Tablet-PC mit Sprachsteuerung und ber¨uhrungssensitivem Bildschirm, sowie ein Personal Digital Assistant mit zus¨atzlicher Bewegungssteuerung zur Verf¨ugung. Die verwendeten Frageb¨ogen umfassten die schon beschriebenen SASSI und SUMI, den von Hassenzahl et al. (2003) entwickelten AttrakDiff, sowie den Fragebogen System Usability Scale (SUS), welcher in ¨ Brooke (1996) beschrieben ist. Die gr¨oßte Ubereinstimmung der VersuchspersonenUrteile wurde zwischen AttrakDiff und SASSI beobachtet. Dar¨uber hinaus wurden in M¨oller et al. (2010) die mit den Frageb¨ogen und ihren zugrunde liegenden Teilskalen, die sich z.B. als Faktoren einer multidimensionalen Analyse ergeben, abgedeckten Qualit¨atsaspekte analysiert. Die Ergebnisse in Tabelle 8.1 zeigen, dass keiner der betrachteten Frageb¨ogen alle Aspekte abdeckt. Dies belegt, dass die Methoden zur Evaluierung multimodaler Systeme noch erweitert werden m¨ussen, bis alle relevanten Qualit¨atsaspekte damit valide erfasst werden k¨onnen.
8.4 Messung weiterer Qualit¨atsaspekte Neben den genannten Aspekten finden sich in der Taxonomie noch weitere, die sich nicht nur auf multimodale Systeme beziehen, bislang aber noch nicht erw¨ahnt wurden. Vorl¨aufige Methoden zur ihrer Messung sollen im Folgenden kurz aufgelistet werden: ¨ ¨ • Asthetik, Pers¨onlichkeit und Attraktivit¨at (Appeal): Asthetik umfasst die sensorische Erfahrung beim Umgang mit dem System sowie die Frage, in wie weit diese sensorische Erfahrung die pers¨onlichen Anspr¨uche erf¨ullt. Die Pers¨onlich” keit“ des Systems wird durch die Wahrnehmung des Nutzers von Inhalt und Oberfl¨achenform bei der Informationsausgabe und dem Systemverhalten be¨ stimmt. Attraktivit¨at ist das Ergebnis der Asthetik des Systems, sowohl auf phy-
162
8 Qualit¨at multimodaler Systeme
Tabelle 8.1 Vergleich unterschiedlicher Frageb¨ogen bzgl. der damit erfassbaren Qualit¨atsaspekte, aus M¨oller et al. (2010). : vollst¨andig erfasst; : teilweise erfasst; : nicht erfasst. Teilskalen SUS Learnability Effectiveness Efficiency Intuitivity Aesthetics System Personality Appeal
AttrakDiffa (PQ) (PQ) (PQ)
Frageb¨ogen SUMIb (LEA) (CON, HEL) (EFF)
(HQ-S, ATT) (HQ-S) (HQ-S, HQ-I)
(AFF) (AFF, LIK)
SASSIc (LIK, HAB) (ACC, HAB) (SPE, CD) (ANN, LIK) (ANN, LIK)
a Teilskalen: Attractiveness (ATT), Hedonic Qualities – Identity (HQ-I), Hedonic Qualities – Stimulation (HQ-S), Pragmatic Qualities (PQ). b Teilskalen: Affect (AFF), Control (CON), Efficiency (EFF), Learnability (LEA), Helpfulness (HEL). SUMI wird im Allgemeinen nicht zur Evaluierung multimodaler Systeme empfohlen. c Teilskalen: System Response Accuracy (ACC), Annoyance (ANN), Cognitive Demand (CD), Habitability (HAB), Likeability (LIK), Speed (SPE).
sikalischer Ebene als auch bzgl. der Frage, ob es interessant ist, neuartig oder u¨ berraschend, vgl. Hassenzahl et al. (2000) und Stelmaszweska et al. (2004). Messungen hierzu werden meist mittels Frageb¨ogen (z.B. AttrakDiff, vgl. Hassenzahl et al. (2003)) oder mittels physiologischer Experimente (vgl. Mandryk et al. (2006)) durchgef¨uhrt. ¨ • Nutzen und Nutzlichkeit: Um den Nutzen und die N¨utzlichkeit eines Systems zu bestimmen, m¨ussen die funktionalen Anforderungen des Nutzers mit den M¨oglichkeiten des Systems verglichen werden. Nutzen beantwortet die Frage: Kann ein bestimmter Nutzer eine von ihm gew¨unschte Aufgabe mit Hilfe des Systems l¨osen? N¨utzlichkeit setzt den Nutzen in Verbindung mit der Gebrauchstauglichkeit und fragt, wie gut dieser Nutzen erzielt werden kann (unter Ber¨ucksichtigung des Aufwandes). Solche Aspekte k¨onnen wiederum mit SUMI gemessen werden. • Akzeptanz: Diese ist eine rein o¨ konomische Gr¨oße, die beschreibt, wie bereitwillig m¨ogliche Nutzer das System tats¨achlich verwenden, vgl. z.B. EURESCOM Project P.807 Deliverable 1 (1998). Akzeptanz kann z.B. als Verh¨altnis der tats¨achlichen Nutzer zur Gr¨oße der Zielgruppe dargestellt werden. Sie l¨asst sich in Laborversuchen praktisch nicht ermitteln, da eine nat¨urliche Motivation zur Nutzung fehlt.
Literaturverzeichnis Andr´e E, Dybkjær L, Minker W, Heisterkamp P (Hrsg) (2004) Affective Dialogue Systems, Springer, Heidelberg
Literaturverzeichnis
163
Becker T, Gerstenberger C, Kruijff-Korbayova I, Korthauer A, Pinkal M, Pitz M, Poller P, Schehl J (2006) Natural and intuitive multimodal dialogue for in-car applications: The SAMMIE system. In: Proc. 4th Prestigious Applications of Intelligent Systems (PAIS-2006), Riva del Garda Benoˆıt C, Martin JC, Pelachaud C, Schomaker L, Suhm B (2000) Handbook of Multimodal and Spoken Dialogue Systems, Kluwer Academic Publ., Boston MA, Kapitel Audio-Visual and Multimodal Speech-Based Systems, S 102–203 Bernsen NO (2002) Multimodality in Language and Speech Systems, Kluwer Academic Publ., Dordrecht, Kapitel Multimodality in Language and Speech Systems – From Theory to Design Support Tool, S 93–148 Bernsen NO, Dybkjær L (1999) A theory of speech in multimodal systems. In: Dalsgaard P, Lee CH, Heisterkamp P, Cole R (Hrsg) Proc. ESCA Workshop on Interactive Dialogue in MultiModal Systems, Europ. Speech Comm. Assoc., Kloster Irsee, S 105–108 Bernsen NO, Dybkjær L (2005a) Comparative user evaluation of conversational agent H. C. Andersen. In: Proceedings of the 10th International Conference on Speech and Computer (SPECOM 2005), Patras, S 211–214 Bernsen NO, Dybkjær L (2005b) User evaluation of conversational agent H. C. Andersen. In: Proc. 8th Int. Conf. on Spoken Language Processing (Interspeech 2005), Lisboa, S 2473–2476 Bernsen NO, Dybkjær L, Kiilerich S (2004) Evaluating conversation with Hans Christian Andersen. In: Proc. 4th Int. Conf. on Language Resources and Evaluation (LREC 2004), Lisbon, Vol 3, S 1011–1014 Brooke J (1996) Usability Evaluation in Industry, Taylor & Francis, London, Kapitel SUS: A quick and dirty usability scale, S 189–194 Chateau N, Gros L, Durin V, Mac´e A (2006) Redrawing the link between customer satisfaction and speech quality. In: M¨oller S, Raake A, Jekosch U, Hanisch M (Hrsg) Proc. 2nd ISCA/DEGA Tutorial and Research Workshop on Perceptual Quality of Systems, Berlin, S 88–94 Coutaz J, Nigay L, Salber D, Blandford AE, May J, Young RM (1995) Four easy pieces for assessing the usability of multimodal interaction: The CARE properties. In: Nordby K, Helmersen PH, Gilmore DJ, Arnesen SA (Hrsg) Human-Computer Interaction, Proc. Interact’95, Chapman & Hall, London, S 115–120 Dalsgaard P, Lee CH, Heisterkamp P, Cole R (Hrsg) (1999) Proc. ESCA Workshop on Interactive Dialogue in Multi-Modal Systems, Europ. Speech Comm. Assoc. (ESCA), Kloster Irsee Dehn DM, van Mulken S (2000) The impact of animated interface agents: A review of empirical research. International Journal of Human-Computer Studies 52(1):1–22 Dybkjær L, Andr´e E, Minker W, Heisterkamp P (Hrsg) (2002) Proc. ISCA Tutorial and Research Workshop on Multi-Modal Dialogue in Mobile Environments, Int. Speech Comm. Assoc., Kloster Irsee Dybkjær L, Bernsen NO, Minker W (2004) Evaluation and usability of multimodal spoken language dialogue systems. Speech Communication 43:33–54 EURESCOM Project P.807 Deliverable 1 (1998) Jupiter II – Usability, Performability and Interoperability Trials in Europe. European Institute for Research and Strategic Studies in Telecommunications, Heidelberg Fellbaum K, Hampicke M (2006) Sentha – Seniorengerechte Technik im h¨auslichen Alltag, Springer Verlag, Berlin, Kapitel Digitale Vernetzung – Smart-Home, S 93–115 ¨ Fellbaum K, Ketzmerick B (2002) Uber die Rolle der Audio-Komponente bei der MultimediaKommunikation. In: Hoffmann R (Hrsg) Elektronische Sprachsignalverarbeitung, Studientexte zur Sprachkommunikation 24, w.e.b. Universit¨atsverlag, Dresden, S 331–340 Foster ME, White M (2005) Assessing the impact of adaptive generation in the COMIC multimodal dialogue system. In: Proc. 19th Int. Joint Conf. on Artificial Intelligence (IJCAI 2005), Edinburgh Green A, H¨uttenrauch H, Topp EA, Eklundh KS (2006) Developing a contextualized multimodal corpus for human-robot interaction. In: Proc. 5th Int. Conf. on Language Resources and Evaluation (LREC 2006), Genoa, S 401–406 Gustafson J, Lundeberg M, Liljencrants J (1999) Experiences from the development of August – a multi-modal spoken dialogue system. In: Dalsgaard P, Lee CH, Heisterkamp P, Cole R
164
8 Qualit¨at multimodaler Systeme
(Hrsg) Proc. ESCA Workshop on Interactive Dialogue in Multi-Modal Systems, Europ. Speech Comm. Assoc., Kloster Irsee, S 61–64 Hassenzahl M, Platz A, Burmester M, Lehner K (2000) Hedonic and ergonomic quality aspects determine a software’s appeal. In: Proc. CHI 2000, Den Haag, S 201–208 Hassenzahl M, Burmester M, Koller F (2003) Attrakdiff: Ein Fragebogen zur Messung wahrgenommener hedonischer und pragmatischer Qualit¨at. In: Ziegler J, Szwillus G (Hrsg) Mensch & Computer 2003, Teubner, Stuttgart, S 187–196 Hone KS (2006) Empathic agents to reduce user frustration. The effects of varying agent characteristics. Interacting with Computers 18:227–245 ITU-T Rec. P.851 (2003) Subjective Quality Evaluation of Telephone Services Based on Spoken Dialogue Systems. International Telecommunication Union, Genf Jokinen K, Hurtig T (2006) User expectations and real experience on a multimodal interactive system. In: Proc. 9th Int. Conf. on Spoken Language Processing (Interspeech 2006), Pittsburgh PA, S 1049–1052 Kirakowski J, Corbett M (1993) SUMI: The software usability measurement inventory. British Journal of Educational Technology 24(3):210–212 Kruijff-Korbayova I, Becker T, Blaylock N, Gerstenberger C, Kaisser M, Poller P, Rieser V, Schehl J (2006) The SAMMIE corpus of multimodal dialogues with an MP3 player. In: Proc. 5th Int. Conf. on Language Resources and Evaluation (LREC 2006), Genoa, S 2018–2023 Lamel L, Bennacef S, Gauvain JL, Dartigues H, Temem JN (1998) User evaluation of the MASK kiosk. In: Proc. 5th Int. Conf. on Spoken Language Processing (ICSLP’98), Sydney, Vol 7, S 2875–2878 Lester JC, Stone BA, Converse SA, Kahler SE, Barlow ST (1997) Animated pedagogical agents and problem-solving effectiveness: A large-scale empirical evaluation. In: Proc. World Conference on Artificial Intelligence in Education, S 23–30 L´opez-C´ozar R, Callejas Z, Montoro R (2006) DS-UCAT: A new multimodal dialogue system for an academic application. In: Proc. Interspeech Satellite Workshop: Dialogue on Dialogues Multidisciplinary Evaluation of Advanced Speech-based Interactive Systems, Lisboa L´opez-C´ozar Delgardo R, Araki M (2005) Spoken, Multilingual and Multimodal Dialogue Systems: Development and Assessment. John Wiley & Sons Ltd., Chichester, West Sussex Mandryk RL, Inkpen K, Calvert TW (2006) Using psycho-physiological techniques to measure user experience with entertainment technologies. Behaviour and Information Technology 25(2):141–158 Minker W, B¨uhler D, Dybkjær L (2004) Spoken Multimodal Human-Computer Dialogue in Mobile Environments. Kluwer Academic Publ., Dordrecht M¨oller S, Krebber J, Raake A, Smeele P, Rajman M, Melichar M, Pallotta V, Tsakou G, Kladis B, Vovos A, Hoonhout J, Schuchardt D, Fakotakis N, Ganchev T, Potamitis I (2004) INSPIRE: Evaluation of a smart-home system for infotainment management and device control. In: Proc. 4th Int. Conf. on Language Resources and Evaluation (LREC 2004), Lisboa, Vol 5, S 1603– 1606 M¨oller S (2006) Messung und Vorhersage der Effizienz bei der Interaktion mit Sprachdialogdiensten. In: Fortschritte der Akustik – DAGA 2006, Deutsche Gesellschaft f. Akustik, Braunschweig, S 463–464 M¨oller S, Engelbrecht KP, K¨uhnel C, Wechsung I, Weiss B (2010) Human-Centric Interfaces for Ambient Intelligence, Elsevier, Amsterdam, Kapitel Evaluation of Multimodal Interfaces for Ambient Intelligence, S 347–370 Mostefa D, Garcia MN, Hamon O, Choukri K (2006) CHIL: Evaluation of multimodal technology components. In: Proc. 5th Int. Conf. on Language Resources and Evaluation (LREC 2006), Genoa, S 915–918 Naumann A, Hurtienne J, Israel JH, Mohs C, Kindsm¨uller MC, Meyer HA, Husslein S (2007) Intuitive use of user interfaces: Defining a vague concept. In: Harris D (Hrsg) Engineering Psychology and Cognitive Ergonomics, Proc. HCII 2007, Springer, Heidelberg, LNAI 4562, Vol 13, S 128–136
Literaturverzeichnis
165
Naumann AB, Wechsung I, M¨oller S (2008) Perception in multimodal dialogue systems. In: Andr´e E, Dybkjær L, Minker W, Neumann H, Pieraccini R, Weber M (Hrsg) Factors Influencing Modality Choice in Multimodal Applications, Springer, Springer Lecture Series in Artificial Intelligence 5078, S 37–43 Qiu L, Benbasat I (2005) An investigation into the effects of text-to-speech voice and 3D avatars on the perception of presence and flow of live help in electronic commerce. ACM Transactions on Computer-Human Interaction (TOCHI) 12:329–355 Reeves LM, Lai J, Larson JA, Oviatt S, Balaji TS, Buisine S, Collings P, Cohen P, Kraal B, Martin J, McTear M, Raman T, Stanney KM, Su H, Wang QY (2004) Guidelines for multimodal user interface design. Comm ACM 47(1):57–59 Stelmaszweska H, Fields B, Blandford A (2004) Conceptualising user hedonic experience. In: Reed DJ, Baxter G, Blythe M (Hrsg) Proc. ECCE-12, Living and Working with Technology, EACE, York, S 83–89 Sturm J, Bakx I, Cranen B, Terken J, Wang F (2002) Usability evaluation of a Dutch multimodal system for train timetable information. In: Proc. 3rd Int. Conf. on Language Resources and Evaluation (LREC 2002), Las Palmas, Vol 1, S 255–261 Turunen M, Hakulinen J, Melto A, Hella J, Rajaniemi JP, M¨akinen E, Rantala J, Heimonen T, Laivo T, Soronen H, Hansen M, Valkama P, Miettinen T, Raisamo R (2009) Speech-based and multimodal media center for different user groups. In: Proc. Interspeech 2009, Brighton, S 1439–1442 Wahlster W (2004) SmartWeb: Mobile applications of the semantic web. In: Dadam P, Reichert M (Hrsg) GI Jahrestagung 2004, Vol 1, S 26–27 Wahlster W (2006) SmartKom: Foundations of Multimodal Dialogue Systems. Cognitive Technologies, Springer, Heidelberg Walker M, Whittaker S, Stent A, Maloor P, Moore J, Johnston M, Vasireddy G (2004) Generation and evaluation of user tailored responses in multimodal dialogue. Cognitive Science 28:811– 840 Wechsung I, Naumann A (2008) Evaluation methods for multimodal systems: A comparison of standardized usability questionnaires. In: Perception in Multimodal Dialogue Systems. 4th IEEE Tutorial and Research Workshop on Perception and Interactive Technologies for SpeechBased Systems (PIT 2008), Springer, S 276–284 Yee N, Bailenson JN, Rickertsen K (2007) A meta-analysis of the impact of the inclusion and realism of human-like faces on user experiences in interfaces. In: Proc. Conference on Human Factors in Computing Systems (CHI), S 1–10
Kapitel 9
Qualit¨atsvorhersage
In den vorangegangenen Kapiteln wurden die Qualit¨atselemente verschiedener kommunikationstechnischer Systeme (Sprach¨ubertragungssysteme, Video¨ubertragungssysteme, Sprachdialogsysteme und multimodale Dialogsysteme) identifiziert und Beurteilungsmethoden zur Erfassung des Einflusses der Systemcharakteristika (Qualit¨atselemente) auf die wahrgenommene Qualit¨at und Gebrauchstauglichkeit (Qualit¨atsmerkmale) vorgestellt. Diese Beurteilungsmethoden sind i. Allg. subjektiver Natur und bedienen sich menschlicher Versuchspersonen als Messorgane. Es ist offensichtlich, dass die Durchf¨uhrung eines subjektiven Tests aufwendig ist, sowohl was den Zeitaufwand als auch was die Kosten betrifft. Deshalb versucht man bereits seit l¨angerem, auch auf andere Weise Aufschluss u¨ ber die von Versuchspersonen wahrgenommene und beurteilte Qualit¨at und Gebrauchstauglichkeit zu bekommen. Hierzu bieten sich Rechenmodelle an, die auf Grundlage von quantitativen Beschreibungen der Qualit¨atselemente einen Sch¨atzwert liefern sollen, der m¨oglichst gut mit dem Urteil einer (mittleren) Versuchsperson u¨ bereinstimmt – d.h. z.B. eine hohe Korrelation zwischen Qualit¨atsurteilen und Qualit¨atssch¨atzwerten liefert. Man bezeichnet solche Modelle als Qualit¨ats-Vorhersagemodelle. Je nach betrachtetem System sind die im Folgenden diskutierten Konfigurationen denkbar. ¨ ¨ Ubertragungssysteme Bei einem Vorhersagemodell fur (Abb. 9.1) k¨onnen Beschreibungen der Qualit¨atselemente aus Signalen oder Parametern bestehen, die zumeist durch instrumentelle Messung erhalten werden k¨onnen. Diese Messwerte dienen dann als Eingangswerte f¨ur einen Algorithmus, der einen Qualit¨atssch¨atzwert vorhersagt, welcher m¨oglichst gut mit dem Urteil einer mittleren“ Versuchsper” son korreliert. Dies ist nicht einfach, da das Urteil der Versuchsperson nicht nur durch das physikalische Ereignis beeinflusst wird, welches an ihren Sinnesorganen anliegt, sondern auch durch die interne Referenz, d.h. User Factors im Innern der Versuchsperson. Dies ist im oberen Teil der unten stehenden Abbildung exemplarisch angedeutet. ¨ interaktive Systeme (Sprachdialogsysteme, Bei der Qualit¨atsvorhersage fur multimodale Dialogsysteme; vgl. Abb. 9.2) gestaltet sich die Aufgabe noch schwieriger, da es an quantitativen Beschreibungen der Qualit¨atselemente mangelt. Man geht deshalb u¨ ber zu quantitativen Beschreibungen von Interaktionen mit Hilfe von
167
168
9 Qualit¨atsvorhersage
Erfahrung
Motivation
Einstellung
Emotionen
Nutzerfaktoren
Übertragungssystem
Subjektives Qualitätsurteil
Systemparameter
Geschätzter Qualitätsindex
Modell
¨ Abb. 9.1 Prinzip eines Qualit¨ats-Vorhersagemodells f¨ur Ubertragungssysteme
Interaktionsparametern und versucht, aus diesen mit Hilfe eines Rechenmodells ein mittleres Benutzerurteil vorherzusagen. Dies hat zun¨achst den Nachteil, dass tats¨achlich Interaktions-Daten vorliegen m¨ussen, die quantifiziert werden k¨onnen. Daher kommt man zu¨achst nicht um Interaktionen mit Benutzern herum. Allerdings ist es nicht notwendig, diese Benutzer zu befragen – diese Aufgabe kann dann durch das Vorhersagemodell ersetzt werden. So k¨onnen bspw. auch im laufenden Betrieb Qualit¨atsmessungen – in Form eines sog. Monitoring – durchgef¨uhrt werden, ohne den Benutzer nach seiner Meinung zu befragen. Daneben wurden in j¨ungster Zeit auch Anstrengungen unternommen, Benutzerverhalten im Umgang mit interaktiven Systemen zu simulieren. Sollten diese Anstrengungen erfolgreich sein, so ließen sich Tests mit realen oder Test-Benutzern bei dieser Form der Evaluierung ebenfalls ganz vermeiden.
Linguist. Hintergr.
Einstell.
Emotion
Flexibilit.
Erfahrung
Aufgaben- Motivation, wissen Ziele
Nutzerfaktoren
Subjektives Qualitätsurteil
Dialog system System -
Interaktions -
parameter
parameter
Sprachsignale
Modell
Gesch ätzter Qualitätsindex
Abb. 9.2 Prinzip eines Qualit¨ats-Vorhersagemodells f¨ur interaktive Systeme
9 Qualit¨atsvorhersage
169
Im Folgenden sollen einige Modellans¨atze erl¨autert werden und ihr Einsatzund G¨ultigkeitsbereich abgesteckt werden. Dabei werden wir uns in Abschnitt 9.1 zun¨achst auf Modelle zur Vorhersage der Sprachqualit¨at konzentrieren: Zu diesen Modellen z¨ahlen insbesondere diejenigen, die eine mit einem Telefonkanal erzielbare Gesamt-Sprachqualit¨at in einer H¨or- oder einer Konversationssituation vorherzusagen suchen (Abschnitte 9.1.1 bis 9.1.4). Es handelt sich also um Modelle, die nur den Einfluss des Kanals betrachten sollen, wobei das Sprachsignal als Tr¨ager der Information nat¨urlich ebenfalls einen Einflussfaktor darstellt. Die Modelle beziehen ¨ sich auf einzelne Teile des Ubertragungskanals (z.B. auf Sprachkodierer), oder sie ¨ betrachten die gesamte Ubertragungsstrecke vom Mund des Sprechers zum Ohr des Zuh¨orers (inklusive der Endger¨ate). In Abschnitt 9.1.5 werden zwei kurze Beispiele f¨ur Modelle gegeben, welche ein bestimmtes Qualit¨atsmerkmal – n¨amlich die Verst¨andlichkeit – vorhersagen. Diese Modelle sind aber nicht unbedingt f¨ur einen Telefonkanal optimiert, sondern werden bspw. zur Beurteilung der Sprach¨ubertragung in R¨aumen eingesetzt. In Abschnitt 9.2 werden parallel dazu Modelle vorgestellt, welche die Qualit¨at ¨ von Video-Ubertragungsstrecken vorhersagen. Solche Modelle bedienen sich ebenfalls entweder Signalen oder Parametern zur Beschreibung der Qualit¨atselemente. Da sie insbesondere zur Planung und zum Monitoring von IP-basierten Netzen eingesetzt werden kommt der Beschaffung der Eingabeparameter eine große Bedeutung zu. Von ihnen h¨angt es n¨amlich ab, welche Informationen (z.B. Paketstatistiken, Packet Header, Payload, etc.) zur Vorhersage der Qualit¨at verwendet werden k¨onnen. Dadurch bestimmen sich auch der Anwendungsbereich und die erzielbare Genauigkeit. In Abschnitt 9.3 werden schließlich erste Modellans¨atze zur Vorhersage der Qualit¨at interaktiver Systeme vorgestellt. Dabei konzentrieren wir uns insbes. auf Sprachdialogsysteme, weil hierf¨ur die bislang umfangreichsten Erfahrungen vorliegen. Diese Modelle basieren auf den in Kapitel 7 beschriebenen Interaktionsparametern, welche normalerweise in Test-Interaktionen zwischen Nutzern und dem System aufgezeichnet werden (Log-Daten). Wie oben angedeutet versucht man daneben aber auch, Interaktionen zu simulieren; dazu ist ein Modell vom Nutzer notwendig, das die von ihm avisierten Aufgaben sowie sein (potentielles) Verhalten beschreibt und (im Sinne eines lauff¨ahigen Programms) ausf¨uhrbar macht. Methoden hierzu werden ebenfalls in Abschnitt 9.3 vorgestellt. Abschnitt 9.4 schließt mit einem Ausblick auf die in diesem Bereich noch sehr umfangreichen Forschungsarbeiten. Der Sch¨atzwert oder Vorhersagewert, den die Modelle nach Abschnitt 9.1 bis 9.3 liefern, entspricht im Allgemeinen einem mittleren“ Qualit¨atsurteil (z.B. einem ” MOS), welches von einer mittleren“ Versuchsperson in einer entsprechenden Test” situation gegeben worden sein k¨onnte. Damit ist allerdings nicht gesagt, dass eine Versuchsperson tats¨achlich so urteilen w¨urde – Eigenheiten der Versuchspersonen werden n¨amlich durch die Mittelung u¨ ber eine große Anzahl von Versuchspersonen und Tests, aus denen die Vorhersagemodelle entstanden sind, explizit vermieden (Ausnahmen zur Simulation verschiedener Benutzergruppen werden in Abschnitt 9.3 angerissen). Auch kann nicht ausgeschlossen werden, dass Versuchspersonen
170
9 Qualit¨atsvorhersage
mit unterschiedlichen internen Referenzen (erw¨unschte oder erwartete Beschaffenheit) auch tats¨achlich eine andere Qualit¨at erfahren. Wirkliche Qualit¨atsmesswerte lassen sich also nach wie vor nur mittels subjektiver Verfahren valide ermitteln. Trotzdem haben die hier vorgestellten Modelle einen großen Wert f¨ur die Anwendung. Sie gestatten es einem Systementwickler, schon w¨ahrend der Entwicklung gezielt die Qualit¨at des Systems zu optimieren; das spart Zeit und Kosten gegen¨uber einer sp¨ateren Nachbearbeitung“ eines einmal fertig gestellten Systems. Deshalb ” werden die hier vorgestellten Modelle von Netzwerkbetreibern und Dienstanbietern h¨aufig eingesetzt. Viele Modelle befinden sich allerdings selbst noch in der Optimierungsphase. Kenntnis u¨ ber die zugrunde liegenden Prinzipien ist deshalb von Vorteil, um Modellvorhersagen nicht jenseits des validierten Bereiches anzuwenden.
¨ 9.1 Modelle zur Vorhersage von Sprachubertragungsqualit¨ at Hier sollen in den Abschnitten 9.1.1 bis 9.1.4 zun¨achst verschiedene Modelle klas¨ ¨ sifiziert werden, die die Gesamtqualit¨at von uber Telefonverbindungen ubertra¨ gener Sprache – ausgedruckt als MOS-Wert – vorhersagen. Der MOS-Wert l¨asst sich – je nach Modell – entweder in einer H¨or- oder in einer Konversationssituation messen. Die Modelle sind i.a. darauf optimiert, diesen MOS-Wert vorherzusagen. Dabei bedienen sie sich unterschiedlicher Prinzipien.
9.1.1 Modelltypen Die hier vorgestellten Modelle lassen sich nach folgenden Kriterien unterscheiden, vgl. M¨oller und Raake (2002): 1. Vorhergesagte Qualit¨atsmerkmale: Im Allgemeinen wird unterschieden zwischen Modellen, die sich auf die H¨orsituation beziehen und solchen, die auch Konversationsaspekte (z.B. den Einfluss von Echos oder Verz¨ogerungen) ber¨ucksichtigen. Modelle f¨ur die H¨orsituation sagen die Qualit¨at des H¨orereignisses vorher (Voice Transmission Quality); Modelle f¨ur die Konversationssituation betrachten allgemeiner die Effizienz der Kommunikation (Communication Efficiency), teilweise auch Aspekte des Komforts, welche die Gebrauchstauglichkeit des Systems (Usability) mitbestimmen. Allerdings sind diese Aspekte nicht mit instrumentell messbaren Signalen oder Parametern zu erfassen und deshalb nur sehr rudiment¨ar ber¨ucksichtigt. 2. Eingangsgr¨oßen: Die Vorhersagen der Modelle beruhen entweder auf Signalen, ¨ die auf dem Ubertragungskanal gemessen werden k¨onnen, oder auf einer para¨ metrischen Beschreibung der an der Ubertragung beteiligten Systemkomponenten. Die Signale k¨onnen elektrischer oder akustischer Natur sein; letztere k¨onnen z.B. mit einem Kunstkopf gemessen werden, der dem Schallfeld des Endger¨ates
9.1 Modelle zur Vorhersage von Sprach¨ubertragungsqualit¨at
171
(Telefonapparat oder Freisprecher) ausgesetzt ist. Die Parameter lassen sich wiederum aus (Offline)-Messungen von Signalen bestimmen, oder sie lassen sich in der Planungsphase aus den technischen Daten typischer Systemkomponenten absch¨atzen. 3. Anwendungsbereich: Die notwendigen Eingangsgr¨oßen bestimmen, wann ein Modell eingesetzt werden kann. Modelle, die auf Signalen beruhen, erfordern es, dass diese Signale messbar sind – entweder im laufenden Betrieb eines Netzes, oder in einer (Offline-) Simulation. Solche Modelle eignen sich also in der Planungs- und Implementierungsphase, sofern messbare Signale zur Verf¨ugung ¨ stehen, oder zur Uberwachung des Netzes w¨ahrend des laufenden Betriebes. Parameter k¨onnen wiederum offline bestimmt werden, oder sie k¨onnen gesch¨atzt werden; parametrische Modelle k¨onnen deshalb schon eingesetzt werden, wenn das betreffende Netzwerk noch nicht existiert. 4. Betrachtete Netzwerkkomponenten und -konfigurationen: Die hier beschriebenen Modelle beziehen sich entweder auf den Effekt einer bestimmten Kompo¨ nente des Ubertragungskanals (z.B. auf den Einfluss des Kodierers, vgl. Kapitel ¨ 5), oder auf die gesamte Ubertragungsstrecke Mund-zu-Ohr. Die Grenzen sind allerdings fließend, da einige Modelle inzwischen auf eine Reihe von Komponenten erweitert wurden, f¨ur die sie urspr¨unglich nicht entwickelt worden sind. 5. Gehalt psychoakustisch motivierten bzw. empirisch ermittelten Wissens: Die Modelle unterscheiden sich auch in dem Maße, zu dem sie die Vorg¨ange der menschlichen Wahrnehmung explizit modellieren. Einfache Ans¨atze versuchen nur, ohne eine explizite Betrachtung der Wahrnehmung die empirisch ermittelten Qualit¨atsmesswerte (z.B. aus einem H¨orversuch) zu approximieren. Streng genommen ist allerdings all unser psychoakustisches Wissen irgendwann einmal empirisch (mit Versuchspersonen) ermittelt worden. Nach diesen Kriterien lassen sich drei Typen von Modellen unterscheiden: 1. Signalbasierte Vergleichsmaße 2. Parametrische Modelle zur Netzwerkplanung 3. Modelle zur Betriebsmessung von Sprachqualit¨at Diese Modelle werden in den Abschnitten 9.1.2 bis 9.1.4 detaillierter erl¨autert. Sie lassen sich bez¨uglich der genannten Kriterien wie in Abb. 9.3 dargestellt klassifizieren. Die Zusammenstellung der Unterscheidungskriterien l¨asst bereits erkennen, dass es kein ideales, universelles Qualit¨atsmodell geben kann, welches alle vorhersagbaren Qualit¨atsmerkmale eines Sprach¨ubertragungsszenarios erfasst und f¨ur s¨amtliche vorstellbaren Netzwerkkomponenten und Netzwerkkonfigurationen anwendbar ist.
9.1.2 Signalbasierte Vergleichsmaße Die signalbasierten Vergleichsmaße sind instrumentelle Verfahren, welche die Messung der (Einweg-) Sprach¨ubertragungsqualit¨at erm¨oglichen. Sie beziehen sich
172
9 Qualit¨atsvorhersage Netzwerkkomponen.
Eingangsparameter
Signalbasierte hauptsächl. E/A-Signale Vergleichs- Kodierer eines Teils maße der Übertrag.Strecke Parametrische alle Mund- Planungswerte Modelle zu-Ohr - Einzahlwerte (Handapp.) - Spektren MonitoringModelle
s.o.
Messwerte - intrusive - non-intrusive
Anwend.Bereich
Wissensgehalt psy./emp.
Prädizierte Qualitätsmerkmale
Labor
Einwegübertragungsqualität
Planung
zusätzlich kommunik. Aspekte
Betriebsmessung
s.o.
s.o.
Abb. 9.3 Klassifikation von Vorhersagemodellen zur Sprach¨ubertragungsqualit¨at
auf einzelne Netzwerkkomponenten, vornehmlich auf Kodier/Dekodier-Strecken. Neuere Versionen dieser signalbasierten Modelle eignen sich dabei auch zur Qua¨ lit¨atsvorhersage im Falle von Ubertragungsfehlern und Hintergrundger¨auschen, und zuk¨unftig auch von Signalverarbeitungsalgorithmen wie St¨orger¨auschunterdr¨uckung oder Echo-Unterdr¨uckung. Ihr haupts¨achliches Anwendungsfeld liegt demnach bislang im Vergleich und in der Optimierung verschiedener Kodierer. Sie beziehen sich nur auf die H¨orsituation, d.h. sie versuchen Sprach¨ubertragungsqualit¨at (Voice Transmission Quality) vorherzusagen. x‘(k) x(k) Vorverarb. KodiererDekodierer
Alignment Vorverarb.
y(k)
Interne Repräsent. AbstandsMaß
Mittelung
Transf.
MOS
Interne Repräsent.
y’(k)
Abb. 9.4 Prinzip eines signalbasierten Vergleichsmaßes (Hauenstein, 1997)
Die Grundschaltung eines signalbasierten Vergleichsmaßes ist in oben stehender Abbildung skizziert. Das Modell beruht auf einem Vergleich zwischen einem (ungest¨orten) Eingangssignal und einem (gest¨orten) Ausgangssignal eines Teils ¨ der Ubertragungsstrecke, z.B. eines Kodierers. Die Idee ist, dass eine große Abweichung zwischen Eingang und Ausgang mit einer großen St¨orung gleichzusetzen ist. Allerdings darf der Abstand nicht direkt auf der Signalebene ermittelt werden, da moderne Kodierverfahren nicht direkt versuchen, die Signalform wieder herzustellen. Der Abstand muss deshalb auf einer perzeptiven Ebene berechnet werden. Hierzu werden das Eingangs- und Ausgangssignal zun¨achst in einzelne Abschnitte zer-
9.1 Modelle zur Vorhersage von Sprach¨ubertragungsqualit¨at
173
legt ( gefenstert“) und einer Vorverarbeitung unterzogen, die einen Laufzeitaus” gleich und teilweise einen Pegelausgleich durchf¨uhrt. Dies unter der Annahme, dass Laufzeiten im H¨orversuch nicht wahrzunehmen sind, und dass geringe Pegel¨anderungen die Qualit¨at nicht merkbar beeintr¨achtigen. Beide Signale werden anschließend auf eine sog. perzeptive Ebene transformiert. Diese Transformation modelliert einige Aspekte der menschlichen Wahrnehmung, wie bspw. die nichtlineare Frequenzaufl¨osung des menschlichen Geh¨ores, die zeitliche und spektrale Verdeckung, oder die Kompression (Exponentialgesetz) bei der Bildung der Lautheit. Abb. 9.5 zeigt exemplarisch eine solche Transformation.
Leistung
Erregung
Spezifische Lautheit
x‘(k) Filterbank
2
x
Tiefpass
Spektrale Verdeckung
Kompression
Zeitliche Verdeckung
Abb. 9.5 Transformation auf eine interne Repr¨asentation, vgl. Hauenstein (1997), S. 140
Zwischen den internen Repr¨asentationen des Eingangs- und Ausgangssignals ¨ wird nun ein Abstand oder eine Ahnlichkeit berechnet. Diese Berechnung wird f¨ur jedes Fenster des Eingangssignals wiederholt und dann eine zeitliche Mittelung durchgef¨uhrt, die die unterschiedlichen Abstandsmaße u.U. auch noch gewichten kann. Der mittlere Abstand wird nun auf eine Skala transformiert, die der MOSSkala entspricht. Dies kann z.B. mittels einer S-f¨ormigen Funktion (tanh oder Polynom) geschehen. Es gibt verschiedene Modelle, die diesem Prinzip folgen. Das bekannteste ist das von der ITU-T empfohlene Modell PESQ (ITU-T Rec. P.862, 2001). Andere Ans¨atze wurden von Berger (1998), Hauenstein (1997) oder Hansen (1998) be¨ schrieben. Ahnliche Modelle wurden auch f¨ur Breitband-Sprach- und Audio¨ubertragung vorgestellt, z.B. das zu PESQ analoge Modelle PEAQ (Thiede et al., 2000). Ein Nachteil der signalbasierten Vergleichsmaße liegt darin, dass sie versuchen, ganz unterschiedliche Arten von St¨orungen auf eine einzige Qualit¨atsskala zu transformieren; es wird also implizit eine Gewichtung unterschiedlicher St¨orungen im Sinne einer Gesamtqualit¨at durchgef¨uhrt. Dies ist in der Praxis u.U. gew¨unscht, da somit direkt eine Sch¨atzung der Gesamtqualit¨at erzielt werden kann. Allerdings lassen sich so keine diagnostischen Aussagen u¨ ber Qualit¨at treffen. Bspw. sagt ein solches Modell nichts dar¨uber aus, ob eine Verbindung wegen eines zu lauten Rauschens oder eines unnat¨urlichen Klanges der Stimme einen schlechten Qualit¨ats-
174
9 Qualit¨atsvorhersage
wert erzielt. Solche Informationen sind aber zur Bestimmung geeigneter Abhilfen unumg¨anglich. Man versucht deshalb in j¨ungerer Zeit, Modelle zu definieren, die neben der Gesamtqualit¨at auch einzelne Qualit¨atsdimensionen vorhersagen k¨onnen und diese zu einer besseren Bestimmung der Gesamtqualit¨at heranziehen. Dabei orientiert man sich entweder an Dimensionen, welche durch physikalische Eigenschaften des Kanals vorgegeben sind, oder an perzeptiven Dimensionen, welche als Qualit¨atsmerkmale bereits in Abschnitt 5.2 beschrieben wurden. Man geht davon aus, dass solche Modelle neben ihrer diagnostischen Aussagekraft auch robuster gegen¨uber ¨ ¨ Anderungen an der Ubertragungstechnik sind, d.h. besser verallgemeinern auf (bei der Erstellung der Modelle) unbekannte Technologien. Unten stehende Abbildung zeigt das Prinzip eines solchen Modells. Hörer
Übertragungssystem Raumakustik
Rauschen
Verzerrungen PaketCodec ... verluste
Signalverarbeitung
Qualitätsurteil
Dimensionsmessgerät Dimensionsmessgerät
Qualitätsschätzwert
Modell
Dimensionsmessgerät Messsystem
Abb. 9.6 Prinzip eines dimensionsbasiertes Modell zur Sch¨atzung der Sprach¨ubertragungsqualit¨at, vgl. W¨altermann et al. (2008)
¨ Alle bislang beschriebenen Modelle gehen von einem Ubertragungs-Szenario ¨ aus; sie k¨onnen daher nur die Einweg-Ubertragungsqualit¨ at erfassen. Sie beschr¨anken sich zudem bislang auf die elektrischen Signale; das Endger¨at wird mittels einer einfachen Filter-Funktion beschrieben. Um solche Modelle auch f¨ur andere akustische Schnittstellen nutzbar zu machen, wurden sie um einen zweiten (gest¨orten) Signalzweig erweitert, der die Verarbeitung der einzelnen Ohrsignale bei beidohriger Beschallung (z.B. bei einem Freisprechszenario) modellieren soll, vgl. ITU-T Contr. COM 12-64 (2003) und Abb. 9.7. Jedoch liefern diese Modelle bislang noch keine validen Ergebnisse, die mit hinreichender Genauigkeit mit auditiven Qualit¨atsmessungen u¨ bereinstimmen w¨urden.
9.1 Modelle zur Vorhersage von Sprach¨ubertragungsqualit¨at
175
x’(k) x(k)
Vorverarb.
Übertragungssystem
Interne Repräsent.
Alignment
y(k)
y’(k) Vorverarb.
Abstands Maß
Mittelung
Vergleich
Transf.
MOS
Interne Repräsent.
Maskierung? z(k)
Interne Repräsent.
Vorverarb. z’(k)
Abb. 9.7 Prinzip eines signalbasierten Vergleichsmaßes mit zwei akustischen Schnittstellen, vgl. ITU-T Contr. COM 12-64 (2003)
9.1.3 Parametrische Modelle Von allen hier vorgestellten Modellans¨atzen decken die parametrischen Modelle den gr¨oßten Bereich vorhersagbarer Qualit¨atsmerkmale ab. Sie erm¨oglichen sowohl Vorhersagen der (Einweg-) Sprach¨ubertragungsqualit¨at als auch Aussagen bez¨uglich der Effizienz der Kommunikation sowie in eingeschr¨anktem Maße bez¨uglich der Angemessenheit. Der Anwendungsbereich derartiger Modelle liegt in der Netzwerkplanung noch nicht bestehender Netze. Sie ber¨ucksichtigen alle ¨ auf der Strecke Mund-zu-Ohr vorkommenden Elemente der Ubertragungsstrecke. Einschr¨ankungen bestehen allerdings noch bez¨uglich der Endger¨ate, von denen nur Standard-Handapparate ber¨ucksichtigt werden. Das bekannteste parametrische Modell ist das sog. E-Modell, welches von Johannesson (1997) entwickelt wurde und inzwischen von der ITU-T standardisiert ist (ITU-T Rec. G.107, 2009). Als Eingangsparameter des E-Modells dienen die ¨ in Abschnitt 5.1 vorgestellten Parameter (Qualit¨atselemente der Ubertragungsstrecke), d.h. frequenzgewichtete Einzahlwerte (Loudness Ratings) und Verz¨ogerungszeiten f¨ur die Signal¨ubertragungspfade, gewichtete St¨orger¨auschpegel, EquipmentImpairment-Faktoren zur Beschreibung des Einflusses von Kodierern, sowie Paketverlustraten und Robustness-Faktoren zur Beschreibung von Paketverlusten. Mit zwei Ausnahmen (Ie und Bpl) k¨onnen diese Parameter instrumentell gemessen werden, oder sie ergeben sich aus den Planungswerten der betrachteten Netzwerkkomponenten. Das E-Modell funktioniert wie folgt: Die Eingangsparameter werden zun¨achst einzelnen Klassen von St¨orungen zugeordnet. Diese sind z.B. das mit dem Signal unkorrelierte Rauschen, St¨orungen die zeitgleich zum Signal auftreten (Quantisierungsrauschen, zu lautes oder zu leises Signal), St¨orungen die zeitlich versetzt zum Signal auftreten (Echos, Verz¨ogerungen), sowie der Einfluss von Sprachkodierern. Diese Klassen spiegeln nicht unbedingt perzeptive Dimensionen wider (wie man sie z.B. aus einer multidimensionalen Analyse erh¨alt), haben sich aber f¨ur die Netzwerkplanung als praktisch herausgestellt.
176
9 Qualit¨atsvorhersage
Störungsklasse
unkorr.
Parameter
Nc, Nfor,
Quant.-
qdu
Echo,
T, TELR
nichtlin.
Ie
Transmission Rating
geschätztes Gesamturteil
MOS = f(R)
Abb. 9.8 Prinzip des E-Modells
Der E-Modell-Algorithmus (der hier nicht im Detail wiedergegeben ist) transformiert nun die Parameter, die zu einer St¨orungsklasse“ geh¨oren, auf einen Einzahl” wert, der die Gr¨oße der St¨orung auf einer sog. psychologischen Skala“ angeben ” soll. Diese Transformation ist im Allgemeinen recht kompliziert und beruht auf einer großen Anzahl von Versuchsergebnissen, die m¨oglichst gut abgebildet werden sollten. Auf dieser psychologischen Skala“ sollen nun alle St¨orungen additiv sein: ” D.h. die Gesamtqualit¨at ergibt sich aus der Summe der Einzelst¨orungen, die vom h¨ochstm¨oglichen Wert (Ro) abgezogen werden; Ro wird durch das (zum Signal) unkorrelierte Rauschen bestimmt. Das Ergebnis ist ein Gesamt-Qualit¨atsindex (das sog. Transmission Rating R), welches wiederum mittels einer S-f¨ormigen Funktion auf einen Sch¨atzwert f¨ur den MOS abgebildet wird. Details der Berechnung sind in ITU-T Rec. G.107 (2009) beschrieben. Obwohl die Existenz der psychologischen Skala“ nicht nachgewiesen werden ” kann (es handelt sich ja nicht um eine Skala, die man einer Versuchsperson zur Beurteilung anbieten k¨onnte) und obwohl sich bei genaueren Untersuchungen die Additivit¨at als nicht ganz gew¨ahrleistet herausstellt (z.B. kann Rauschen andere St¨orungen maskieren“), so liefert das E-Modell doch recht brauchbare Ergebnisse, die in ” der Planung von Telefonnetzen eingesetzt werden k¨onnen. Gegen¨uber einem signalbasierten Vergleichsmaß hat das E-Modell zwei entscheidende Vorteile: Es liefert Vorhersagen f¨ur die Konversationssituation (ber¨ucksichtigt also auch Echos und Verz¨ogerungen), und es l¨asst sich bereits rein auf dem Papier anwenden, noch bevor das Netzwerk implementiert oder simuliert worden ist und Signale gemessen werden k¨onnen. Das E-Modell ber¨ucksichtigt im Gegenzug nur in sehr eingeschr¨anktem Maße psychoakustisches Grundlagenwissen, haupts¨achlich bei der Berechnung der Loudness Ratings und der gewichteten Ger¨auschpegel. Das Modell ist auf eine Vielzahl von H¨or- und Konversationstests optimiert worden und ber¨ucksichtigt ebenfalls langj¨ahrige Erfahrungen der Planer von Telefonnetzen.
9.1 Modelle zur Vorhersage von Sprach¨ubertragungsqualit¨at
177
9.1.4 Betriebsmessung von Qualit¨at Wenn sich ein Kommunikationsnetz im Betrieb befindet, so m¨ochte der Betreiber Aufschluss u¨ ber die korrekte Funktionsweise des Netzes haben. Dies erfolgt idealerweise so, dass er Sch¨atzwerte der Qualit¨at erh¨alt, die seine Kunden bei der Benutzung des Netzes erfahren. Auch dies ist eine Qualit¨ats-Vorhersageaufgabe: Mittels verschiedener Gr¨oßen (Signale und/oder Parameter), die instrumentell w¨ahrend des Netzbetriebes gemessen werden k¨onnen, soll die Qualit¨at aus Benutzersicht vorhergesagt werden. Hierzu bestehen eine Reihe von Ans¨atzen, die sich teilweise erg¨anzen und kombiniert werden k¨onnen. Als Eingangsgr¨oßen sind zun¨achst die schon beschriebenen Signale oder Parameter denkbar. Diese lassen sich – zumindest zum Teil – auf zwei Arten bestimmen: • Mittels nicht-intrusiver, d.h. nicht-eingreifender Messung: Dabei werden die Signale an einem im Betrieb befindlichen Netz gemessen, bei normalen Gespr¨achen, die u¨ ber das Netz gef¨uhrt werden, ohne dass diese Gespr¨ache gest¨ort werden. Solche Messungen sind f¨ur Netzbetreiber zul¨assig, solange der Inhalt der Nachrichten nicht aufgezeichnet wird. Man bezeichnet die entsprechenden Ger¨ate als In-servive Non-intrusive Measurement Devices, abgek. INMD; ihre Funktionalit¨at ist in ITU-T Rec. P.561 (2002) beschrieben. • Mittels intrusiver, d.h. eingreifender Messung: Dazu werden u¨ ber das entsprechende Netzwerk dezidierte Messverbindungen aufgebaut, in denen Messsignale zwischen zwei Punkten im Netzwerk ausgetauscht werden. Damit lassen sich ¨ z.B. Ubertragungsfunktionen (und daraus Loudness Ratings) recht genau bestimmen. Neben der Messung der Signale und der daraus berechneten Parameter stehen bei digitalen Netzen noch Protokollinformationen zur Verf¨ugung, die ebenfalls ausgewertet werden k¨onnen. Bspw. lassen sich anhand von IP-Headern verloren gegangene Pakete feststellen und sich daraus eine Paketverlustrate berechnen. Mit Hilfe der gemessenen Gr¨oßen k¨onnen nun wiederum die schon bekannten signalbasierten Vergleichsmaße (bei Vorliegen des Eingangs- und Ausgangssignals) oder die parametrischen Modelle (wie das E-Modell) zur Vorhersage von Qualit¨at verwendet werden. Insbesondere das E-Modell bietet sich hier an, da es eine Vielzahl von unterschiedlichen St¨orungen auf recht einfache Weise zu einem GesamtQualit¨atswert (additiv) u¨ berlagern kann. Allerdings lassen sich nicht alle Eingangsgr¨oßen des E-Modells, wie z.B. das Ie oder das Bpl, instrumentell bestimmen. Hier kommen nun die signalbasierten Vergleichsmaße zum Einsatz. Mit ihrer Hilfe kann ein Beeintr¨achtigungswert f¨ur den Kodierer gesch¨atzt werden, der dann wiederum in das E-Modell eingesetzt und zur Berechnung des MOS-Wertes verwendet werden kann. Dieses Verfahren ist in ITU-T Rec. P.834 (2002) beschrieben. Signalbasierte Vergleichsmaße ben¨otigen ein ungest¨ortes Eingangssignal zur Ermittlung der Qualit¨at. Wo dieses nicht vorliegt (bspw. weil nur eine Messung des gest¨orten Signals m¨oglich ist) kann man versuchen, sich ein Eingangssignal als Re-
178
9 Qualit¨atsvorhersage
ferenz aus dem gest¨orten Signal zu generieren. Dieses Verfahren ist in nachfolgender Abbildung gezeigt. Die Generierung erfolgt mit einem einfachen Modell der menschlichen Spracherzeugung, welches auf einer LPC-Analyse und -Synthese beruht. Dabei k¨onnen jedoch Probleme auftreten (vor allem, wenn die St¨orung“ durch ” den Kodierer ebenfalls eine LPC-Analyse enth¨alt); diese lassen sich durch eine externe Behandlung minimieren. x’(k) Erzeugung Interne d. Referenz Repräsent.
x(k) unbekannt KodiererDekodierer
Abstands Maß
LPC-Koeff.
y’(k)
LPC-Analyse
MOS
Behandlung bekannter Probleme
VokaltraktModell
mod. LPC -Koeff.
Restsignal
y(k)
Transf.
Interne Repräsent.
Vorverarb. y(k)
Mittelung
+
+ -
LPCSynthese
x’(k)
Abb. 9.9 Signalbasiertes Modell ohne Referenzsignal (zu Details vgl. ITU-T Rec. P.563 (2004)). Oben: Prinzip; unten: Generierung der Referenz
Durch Kombination von unterschiedlichen Modellans¨atzen lassen sich also w¨ahrend des Betriebs von Kommunikationsnetzen Sch¨atzwerte der vom Benutzer erfahrenen Qualit¨at ermitteln. Gegenw¨artige Forschungsarbeiten zielen auf eine Erweiterung der einzelnen Modelle auf bisher nicht erfasste St¨orungen. So sollen zuk¨unftige Versionen des E-Modells auch andere Endger¨ate als Handapparate umfassen, und es ¨ sollen breitbandige (50-7000 Hz) Ubertragungen betrachtet werden.
9.1.5 Vorhersage der Sprachverst¨andlichkeit Die bislang behandelten Modelle versuchen, einen Sch¨atzwert f¨ur die Gesamtqualit¨at zu liefern, wie sie mittels eines H¨or- oder Konversationstests und absoluter Kategorien-Beurteilung auf der MOS-Skala bewertet wird. Daneben ist man jedoch auch bestrebt, einzelne Qualit¨atsmerkmale vorherzusagen, vgl. erste Ans¨atze in Ab-
9.1 Modelle zur Vorhersage von Sprach¨ubertragungsqualit¨at
179
schnitt 9.1.2. Dies versucht man auch seit langem bei der – f¨ur die Kommunikation sehr wichtigen – Sprachverst¨andlichkeit bzw. ihrer Varianten (Verstehbarkeit, etc.). Der Anwendungsfall solcher Modelle ist meist nicht der Telefonkanal (bei dem bislang eine ausreichende Verst¨andlichkeit vorausgesetzt wurde), sondern eine allgemeine Sprach¨ubertragungssituation; insbesondere werden die akustischen Eigenschaften von R¨aumen ber¨ucksichtigt. Das traditionelle Verfahren zur Vorhersage der Silben-, Wort- und Satzverst¨andlichkeit ist der Artikulationsindex (AI). Er wurde entwickelt von French und Steinberg (1947) f¨ur Sprache, die mit moderaten linearen Verzerrungen und additivem Ger¨ausch gest¨ort wurde; nichtlineare Sprachkodierer wurden nicht betrachtet. Der AI geht aus von einem mittleren Sprachspektrum, das im sog. Normalsprache” Toleranzband“ liegt. Diese Sprachspektrum wird auf einer nichtlinearen Skala (die ann¨ahernd der Frequenzaufl¨osung des Geh¨ores entspricht) aufgetragen und kann durch D¨ampfung (lineare Verzerrungen) und ein Rauschspektrum beeintr¨achtigt werden. Die Situation ist grafisch in Abb. 9.10 veranschaulicht.
Übersteuerungsgrenze
100 dB
60
Spra
40
mittl
ch-M erer
Spra
20 0
Hörs
axim
Peg
ch-M
chw
a
el
inim
a
elle
630
2130 1570
Testvokabular von 1000 Wörtern
60
Logatorne (1000 Silben) Diese Beziehungen gelten nur näherungsweise und sind abhängig von der Art des Testmaterials und vom Training von Sprechern und Zuhörern
40 20 0
1070
Sätze Testvokabular von 256 Wörtern
80
-20 270
Testvokabular von 32 Wörtern
100 %
Verständlichkeit
Leistungsdichtepegel
80
4650 3000 Hz
0
04 02 06 Artikulationsindex
08
10
Frequenz
Abb. 9.10 Grafische Ermittlung des Artikulationsindex (AI), aus Blauert (1994). Links: Spektren; rechts: Umrechnungsfunktionen in Verst¨andlichkeiten
Das Normalsprache-Toleranzband wird entsprechend der D¨ampfung des betrach¨ teten Ubertragungskanals und etwaiger St¨orger¨ausche reduziert. Die verbleibende Fl¨ache wird als Maß f¨ur die Verst¨andlichkeit herangezogen. Die Fl¨achenanteile, die durch St¨orschall und D¨ampfung vom Normalsprache-Toleranzband abgezogen werden, beeintr¨achtigen den maximalen Artikulationsindex von 100%. Umrechnungsfunktionen werden zur Bestimmung der einzelnen Verst¨andlichkeiten (Wort-, Satzund Silbenverst¨andlichkeit) angegeben. Das zweite h¨aufig angewandte Verfahren zur instrumentellen Vorhersage der Sprachverst¨andlichkeit ist der sog. Speech Transmission Index, abgek. STI. Beim STI wird in Frequenzb¨andern untersucht, wie die Einh¨ullende von amplitudenmodulierten Testsignalen verzerrt (ged¨ampft) wird. Diesem Ansatz liegt die Idee zu-
180
9 Qualit¨atsvorhersage
grunde, dass die Sprachinformation sich vor allem in der H¨ullkurve der Sprachsignale befindet, die durch die Lautformung im Vokaltrakt bestimmt ist. Die Idee des Verfahrens ist grafisch in Abb. 9.11 gezeigt. Eingang
Ausgang
Echos Nachhall Geräusch
1/F
1/F
X
Zeit /i (1+ mi cos 2xFt)
O
Zeit /0 (1+ m0 cos 2xF(t+r))
Modulations-Übertragungsfunktion m(F) 1,0 0,8 m m = m0 i
0,6 0,4 0,2 0 0
0,5
1
2
4
8
16
Modulationsfrequenz F in Hz
¨ Abb. 9.11 Modulations-Ubertragungsfunktionen zur Bestimmung des STI, aus EN 6026816:1998-04 (1998). Wiedergegeben mit Erlaubnis des DIN Deutsches Institut f¨ur Normung e.V. Maßgebend f¨ur das Anwenden der DIN-Norm ist deren Fassung mit dem neuesten Ausgabedatum, die bei der Beuth Verlag GmbH, Burggrafenstraße 6, 10787 Berlin erh¨altlich ist.
Das Pr¨ufsignal wird von einer an der Sprecherposition angeordneten Schallquelle zu einem Messmikrophon an der H¨orerposition u¨ bertragen und aufgezeichnet. ¨ Aus der D¨ampfung der Einh¨ullenden wird eine Modulations-Ubertragungsfunktion (Modulationsgrad abh¨angig von der Frequenz) bestimmt, welche wiederum in einen scheinbaren St¨orabstand (SNR) bei der betreffenden Frequenz umgerechnet wird. Dieses scheinbare SNR wird auf den Bereich -15...+15dB begrenzt und daraus schließlich der STI berechnet. In EN 60268-16:1998-04 (1998) sind der STI sowie mehrere Abwandlungen beschrieben, die sich auf St¨orungen in Telekommunikationssystemen (STITEL, auch aussagekr¨aftig bzgl. nichtlinearer Verzerrungen) bzw. auf St¨orungen im Zeitbereich (RASTI, f¨ur Ger¨auschst¨orungen und Echo/Nachhall) konzentrieren.
9.2 Modelle zur Vorhersage von Video¨ubertragungsqualit¨at
181
¨ 9.2 Modelle zur Vorhersage von Videoubertragungsqualit¨ at ¨ Wie bei der Sprach¨ubertragung ist es auch f¨ur die Ubertragung visueller oder audiovisueller Signale w¨unschenswert, Indikatoren der Qualit¨at auf Basis von Signalen oder Parametern zu erhalten, ohne direkt einen visuellen oder audiovisuellen Test durchzuf¨uhren. Ziel ist es dabei wiederum, die Ergebnisse eines potentiellen Tests mit m¨oglichst hoher Genauigkeit (d.h. hoher Korrelation und geringen Abweichungen, also einem geringen Pr¨adiktionsfehler) vorherzusagen. Als Zielwerte bieten sich die in Kapitel 6 genannten Benutzerurteile an, insbes. der Mean Opinion Score, MOS. Dabei muss hier allerdings danach unterschieden werden, in welcher Situation (auditiv, visuell, audiovisuell) der Wert erhalten wird, und wonach (Audioqualit¨at, Videoqualit¨at, audiovisuelle Qualit¨at) gefragt wurde. ¨ Ahnlich der in Abschnitt 9.1 get¨atigten Unterscheidung k¨onnen auch Videoqualit¨atsmodelle (hier als Oberbegriff f¨ur Vorhersagemodelle zur Videoqualit¨at, Audioqualit¨at, und audiovisueller Qualit¨at) nach mehreren Kriterien unterschieden werden. Raake et al. (2008) verwenden z.B. die Folgenden: • Dienst, f¨ur den das Modell bestimmt ist: Art des Dienstes, z.B. analoges oder IPbasiertes Fernsehen (IPTV), Video on Demand (VoD), mobiles Fernsehen, etc.; verwendete Aufl¨osung, z.B. Fernsehen in Standard-Aufl¨osung (Standard Definition, SD) oder hochaufl¨osendes Fernsehen (High Definition, HD), CIF, QCIF, etc. • Modelltyp: Hier wird vor allem nach der Anwesenheit einer (hochqualitativen) Referenz unterschieden, auf die die Vorhersage des Modells fußen kann; man unterscheidet dabei zwischen Full Reference (FR), bei dem das ungest¨orte Eingangssignal in voller Aufl¨osung vorhanden ist, Reduced Reference (RR), bei dem nur eine reduzierte Variante des Eingangssignals (z.B. eine vereinfachte Variante u¨ bertragen u¨ ber einen Seitenkanal) zur Qualit¨atsvorhersage zur Verf¨ugung steht, sowie No Reference (NR), bei dem keinerlei Referenz zur Verf¨ugung steht.1 • Anwendungsbereich: Hierbei wird unterschieden nach Modellen zum Testen unterschiedlicher Kodierer, Modellen zur Netzwerkplanung, oder Modellen zur Betriebsmessung (Monitoring) im Betrieb befindlicher Netze. • Eingangsinformationen des Modells: Diese bestehen z.B. in einer parametri¨ schen Beschreibung der Ubertragungsstrecke, Protokollinformationen des u¨ bertragenen IP-Stromes (u.U. mit zus¨atzlichen Informationen u¨ ber die IP Payload), kodierten oder dekodierten Videosignalen, Kombinationen dieser Informationen, ¨ oder auch aus Planungswerten, nach denen ein Ubertragungsnetz aufgebaut werden soll. • Ausgangsinformationen des Modells: Als Zielwerte verwendet man meist einen Mean Opinion Score (MOS), wobei unterschieden wird zwischen einem MOS f¨ur die Audioqualit¨at (MOSA ), einem MOS f¨ur die Videoqualit¨at (MOSV ), und einem MOS f¨ur die audiovisuelle Qualit¨at (MOSAV ). Bei ersteren kann wei1 Gem¨ aß dieser Nomenklatur w¨are ein signalbasiertes Vergleichsmaß nach Abb. 9.4 ein FullReference-Modell, ein signalbasiertes Modell ohne Referenzsignal nach Abb. 9.9 ein NoReference-Modell.
182
9 Qualit¨atsvorhersage
ter unterschieden werden, ob der MOS beim Abspielen von reiner Audio-oder Video-Information erhalten wurde (MOSA|A , MOSV|V ), oder bei gleichzeitigem Abspielen audiovisueller Informationen, wobei nur nach der Audio- oder Videoqualit¨at gefragt wurde (MOSA|AV , MOSV|AV ). Dar¨uber hinaus k¨onnen auch andere (diagnostische) Ausgangswerte als Zielwerte verwendet werden, bspw. Indikatoren f¨ur Blockiness, Blurring, Freezing, etc. Gem¨aß diesen Kriterien lassen sich nun verschiedene Modellans¨atze definieren. Unten stehende Tabelle (aus Raake et al. (2008)) zeigt bereits definierte oder noch in der Definitionsphase befindliche Modellans¨atze, welche innerhalb der International Telecommunication Union (ITU-T) und im Rahmen der Video Quality Experts Group (VQEG) diskutiert werden. Eingangsinformation
Modelltyp Audio
Videosignal Parameter (Planung) Parameter (aus Bitstream) Hybrid
RR / NR FR NR RR / NR FR/RR/NR
PEAQ
Ausgangsinformationen Video Audiovisuell VQEG (in Diskussion) J.MMVOFR J.144 G.OMVS P.NAMS VQEG (in Diskussion)
Abb. 9.12 Modellans¨atze zur Vorhersage von Audioqualit¨at, Videoqualit¨at und audiovisueller Qualit¨at
In Folgenden sollen einige Beispiele f¨ur signalbasierte und parametrische Videoqualit¨atsmodelle vorgestellt werden. Im Gegensatz zur Sprachqualit¨at sind viele dieser Ans¨atzen noch in der Diskussion, weshalb nur der vorl¨aufige Stand exemplarisch behandelt werden kann. Dies ist jedoch bereits sehr informativ, zeigt es ¨ doch grunds¨atzliche Ahnlichkeiten und Unterschiede zwischen Modellen f¨ur die Sprach¨ubertragung und solchen f¨ur die Video¨ubertragung.
9.2.1 Signalbasierte Modelle Auch bei der Videoqualit¨at beruhen die bislang verf¨ugbaren signalbasierten Modelle auf einem Vergleich zwischen einem ungest¨orten Eingangssignal und einem ¨ gest¨orten Ausgangssignal der Ubertragungsstrecke. Allerdings m¨ussen – aufgrund der Zweidimensionalit¨at des Bildes – sowohl r¨aumliche als auch zeitliche Vergleiche und Mittelungen durchgef¨uhrt werden. Eine allgemeine Struktur solcher Modelle zeigt unten stehende Abbildung. Wie bei der Sprach¨ubertragung auch werden Eingangs- und Ausgangssignal zun¨achst angepasst und einer Vorverarbeitung unterzogen. Die Anpassung bezieht sich auf die zeitliche Zuordnung einzelner Rahmen sowie einer Zuordnung von Farben, die im u¨ bertragenen Bild wom¨oglich eingeschr¨ankt kodiert sind. Die Vorverarbeitung umfasst hier vor allen die r¨aumlichen Effekte wie Skalierung und r¨aumliche
9.2 Modelle zur Vorhersage von Video¨ubertragungsqualit¨at
183 Pooling
x(k)
Alignment
Räumliche Vorverarb. Vergleich
Übertragung Räumliche Vorverarb. Alignment Frame Rate Pause/Skip Zeitliche Analyse
Räumliche Differenz
Räumliche Verarbeitung
Räumliche Summation Zeitliche Summation
Mapping
MOS
Linearisierung
Abb. 9.13 Prinzip eines signalbasierten Modells zur Vorhersage der Videoqualit¨at (Barkowsky, 2009)
Verschiebungen; eine genaue Modellierung der menschlichen visuellen Wahrnehmung wird bislang meist nicht vorgenommen. Dies ist ein wichtiger Unterschied zu den signalbasierten Vergleichsmaßen, wie sie zur Vorhersage der Sprach¨ubertragungsqualit¨at verwendet wurden! Zwischen den so vorverarbeiteten Rahmen wird nun ein Vergleich durchgef¨uhrt und daraus eine r¨aumliche Distanz f¨ur jeden Rahmen gebildet. Diese r¨aumliche Distanz wird u¨ ber alle Orte des Bildes (r¨aumlich) und anschließend u¨ ber alle Bilder einer Videosequenz (zeitlich) gemittelt. Der daraus entstehende integrale Abstand kann nun auf eine Beurteilungsskala transformiert werden, z.B. auf einen gesch¨atzten MOS-Wert. Das bereits in Kapitel 6 eingef¨uhrte Peak-Signal-to-Noise-Ratio PSNR stellt dem Prinzip nach eine vereinfachte Realisierung dieses Maßes dar. Das Alignment und die Vorverarbeitung entfallen, und beim Vergleich wird ein mittlerer quadratischer Abstand gebildet. Dieser wird anschließend r¨aumlich und zeitlich gemittelt; eine Transformation erfolgt nur in Bezug auf die Normierung auf den Spitzenwert und die Umrechnung auf eine logarithmische Skala. In diesem Modell wurden zeitliche St¨orungen bislang nur unzureichend ber¨ucksichtigt. Dazu f¨ugt man eine zeitliche Analyse hinzu, die eine eingeschr¨ankte Rahmenrate (Framerate) oder ein Pausing oder Skipping (Weglassen einzelner Rahmen) detektiert und bei der Integration im letzten Schritt mit ber¨ucksichtigt. Kompliziertere Modelle ber¨ucksichtigen weiterhin die Betrachtungsdauer m¨oglicher St¨orungen (weniger ausgepr¨agte Urteile bei kurzer Betrachtungsdauer, volles Ausnutzen der Skala bei l¨angerer Betrachtungsdauer) sowie den Aufmerksamkeits-Fokus des Betrachters. Die (nicht nachgewiesene) Annahme dabei ist, dass der Betrachter sich auf die am st¨arksten gest¨orte Bildregion konzentrieren wird, und dass andere St¨orungen dabei u.U. u¨ bersehen“ werden. Details hierzu finden sich z.B. bei Barkowsky ” (2008). Von der ITU-T wird in ITU-T Rec. J.144 (2001) ein solches Modell f¨ur gest¨orte digitale Fernsehkan¨ale empfohlen; es ber¨ucksichtigt allerdings allein die Videoqua-
184
9 Qualit¨atsvorhersage
lit¨at. Dar¨uber hinaus arbeitet die VQEG an einem audiovisuellen Modell (zuk¨unftige Empfehlung ITU-T Rec. J.MMVOFR); die oben dargestellte Struktur k¨onnte f¨ur den Video-Qualit¨atssch¨atzwert dieses Maßes verwendet werden. F¨ur die Audiokomponenten steht bislang das (signalbasierte) Modelle PEQA (Thiede et al., 2000) zur Verf¨ugung. In ITU-T Rec. J.148 (2003) finden sich Anforderungen an ein audiovisuelles Modell, und es wird auch eine generelle Struktur zur Integration von Video- und Audio-Informationen vorgeschlagen. In der Vergangenheit wurden vor allem drei unterschiedliche Integrationsfunktionen zwischen Video- und Audioqualit¨at untersucht: MOSAV = c1 · MOSA + c2 · MOSV + c3 MOSAV = c1 · MOSA · MOSV + c2 MOSAV = c1 · MOSA + c2 MOSV + c3 · MOSA · MOSV + c4
(9.1)
Die mittlere dieser Varianten findet man z.B. in ITU-T Rec. P.911 (1998) beschrieben; sie wurde auch bereits in Abschnitt 6.5 (vgl. Gleichung 6.12) diskutiert. Je nach Experiment und Anwendungsszenario findet man andere Zusammenh¨ange und Koeffizienten; eine einheitliche Integrationsfunktion ist bislang noch nicht definiert worden.
9.2.2 Parametrische Modelle Auch im parametrischen Bereich werden derzeit Modelle zur Qualit¨atsvorhersage ¨ audiovisueller Ubertragungen definiert. Modelle mit Parametern als Eingabeinformationen k¨onnen prinzipiell zwei unterschiedlichen Zielen dienen: Verwendet man Planungswerte f¨ur die Parameter, so kann man Qualit¨at bereits in der Planungsphase vorhersagen. Die Planungswerte sind allerdings meist nicht sehr detailliert, sodass der Qualit¨atssch¨atzwert recht grob bleibt. Ist bereits ein lauff¨ahiges Netz vorhanden, so kann man die Parameter auch w¨ahrend des laufenden Betriebs bestimmen; man kann ein solches Modell dann zum Monitoring einsetzen. Die Genauigkeit richtet sich dann nach der extrahierbaren Information. Zun¨achst kann man bspw. Informationen der Paket-Header auswerten, die anzeigen, ob ein Paket ankommt, und wenn ja mit welcher Verz¨ogerung. Aus diesen Informationen kann man dann (bei Annahme eines bestimmten Jitter Buffer) ableiten, wann welche Paketverluste auftreten. Ist dar¨uber hinaus noch Information u¨ ber die Payload des Paketes bekannt, so kann bspw. bestimmt werden, auf welchen Rahmentyp (IFrame, P-Frame, B-Frame) sich ein Verlust auswirkt; die Auswirkungen sind bei einem I-Frame sehr viel gravierender, da dadurch ja alle nachfolgenden P-Frames (bis zum n¨achsten I-Frame) noch in Mitleidenschaft gezogen werden. Mit Hilfe solcher Modelle lassen sich dann schon recht genaue Vorhersagen treffen. Noch genauer geht es, wenn die Video-Informationen tats¨achlich ausgepackt und dekodiert werden k¨onnen; dann lassen sich wiederum die zuvor besprochenen signalbasierten Modelle anwenden.
9.2 Modelle zur Vorhersage von Video¨ubertragungsqualit¨at
185
Coding info
Client buffer state or parameters Packet information
Core Model
MOSV MOSAV
Parameter extraction
MOSA
Coding info Client buffer state or parameters
Planning assumptions
Core Model
MOSV MOSAV MOSA
Abb. 9.14 Allgemeine Struktur parametrischer Modelle zur Vorhersage audiovisueller Qualit¨at, nach Raake et al. (2008). Oben: Monitoring-Modell; unten: Planungsmodell
Da Video-Qualit¨atsmodelle auch bei unterschiedlichen Anwendungsszenarien m¨oglichst zu dem gleichen Sch¨atzwert kommen sollen ist man bestrebt, eine einheitliche Struktur f¨ur alle parametrischen Modelle zu erarbeiten. Abb. 9.14 zeigt eine solche Struktur, welche innerhalb der ITU-T diskutiert wurde. Im oberen Teil findet sich eine Anordnung f¨ur ein Monitoring-Modell, welches in Zukunft als Empfehlung ITU-T Rec. G.OMVS definiert werden soll. Es extrahiert seine Eingangsparameter aus Informationen zu den verwendeten (Audio- und Video-) Kodierern, dem aktuellen Zustand des Buffers beim Empf¨anger, sowie Paketinformationen. Aus diesen Informationen werden nun die Eingangsparameter des Kernmodells (Core Model) berechnet. Im Planungsfall (welcher als ITU-T Rec. P.NAMS empfohlen werden soll und im unteren Teil der Abbildung dargestellt ist) m¨ussen Annahmen u¨ ber die Werte dieser Parameter gemacht werden, welche dann ebenfalls dem Core Model zugef¨uhrt werden. Eine Implementierungsm¨oglichkeit f¨ur das dabei verwendete Kernmodell ist in Abb. 9.15 gezeigt (aus Raake et al. (2008)). Es besteht aus vier Teilen: 1. Einem Modell zur Vorhersage der Videoqualit¨at; 2. einem Modell zur Vorhersage der Audioqualit¨at; 3. einem Modell, welches die Audio- und die Video-Qualit¨atssch¨atzungen zu einem audiovisuellen Qualit¨atssch¨atzer zusammenf¨uhrt; sowie 4. einem Modell, welches die Interaktion zwischen Audio- und Videosignalen – bspw. bzgl. der Lippensynchronizit¨at – beschreibt. Aus all diesen Sch¨atzungen wird abschließend ein Sch¨atzwert f¨ur die Gesamtqualit¨at (Multimedia Quality Integration Model) abgeleitet.
186
9 Qualit¨atsvorhersage
Send Audio Video Audio/ / quality Video Video Quality model Quality
Impairment factor 1 Impairment factor 2
Core model Video quality
Audio / video quality interaction
Transport Audio Audi o/ / Audio quality Video Video model Quality Quality Interaction Receive Audio/ video interaction model
Impairment factor 1 Impairment factor 2
Multimedia quality integration model
Audio quality
(Overall ) Multimedia quality AV interaction quality
Abb. 9.15 Kernmodell zur Vorhersage audiovisueller Qualit¨at (Raake et al., 2008)
Die Modellteile (1) und (2) beruhen im Prinzip auf dem E-Modell, vgl. Abschnitt 9.1. St¨orungen des Audio- und Videokanals werden zun¨achst auf ImpairmentFaktoren transformiert, welche sich additiv zu Sch¨atzwerten f¨ur die Videoqualit¨at und die Audioqualit¨at zusammensetzen lassen. F¨ur die Videoqualit¨at wird dabei zun¨achst (¨ahnlich dem Transmission Rating R) ein Qualit¨atssch¨atzwert Qv im Bereich [0; 100] wie folgt abgeleitet: Qv = Qvo − Ires − Icod − Itra − Idis
(9.2)
Hierbei ist Qvo die optimal m¨ogliche Videoqualit¨at, welche durch die in den ¨ Ubertragungskanal eingespeiste Videoquelle bestimmt wird. Ires, Icod, Itra und ¨ Idis sind Beeintr¨achtigungen, die durch die Aufl¨osung, die Kodierung, die Ubertragung (Paketverluste, etc.) sowie den zur Verf¨ugung stehenden Bildschirm bestimmt werden. Wie beim E-Modell geht man davon aus, dass sich diese St¨orungen additiv auf der Qv-Skala u¨ berlagern. F¨ur das Audio-Qualit¨atsmodell verwendet man ebenfalls einen dem E-Modell sehr a¨ hnlichen Ansatz. F¨ur die Qualit¨atsintegration k¨onnen z.B. die in Abschnitt 9.2.1 definierten Ans¨atze verwendet werden, sofern man die R- bzw. Qv-Werte zun¨achst auf die jeweilige MOS-Skala transformiert. Ans¨atze f¨ur das Audio-Video Interaction Model sind bislang noch nicht dokumentiert. ¨ Auch f¨ur die Qualit¨at interaktiver Videoubertragungen (z.B. Videotelefonie) wurde bereits ein parametrisches Modell entwickelt, welches von der ITU-T in ITUT Rec. G.1070 (2007) empfohlen wurde. Die prinzipielle Struktur dieses Modells ist in unten stehender Abbildung angedeutet. Es besteht wieder aus einem Teil f¨ur die Videoqualit¨at und einem Teil f¨ur die Audio- (hier Sprach-) Qualit¨at. Daneben fließt auch die Ende-zu-Ende-Verz¨ogerung mit ein, da sie die Interaktion beeinflussen kann, vgl. Abschnitt 9.1.
9.3 Modelle zur Vorhersage von Interaktionsqualit¨at Video-related assumptions Terminal type Terminal characteristics Monitor size Monitor resolution Ambient illuminance
187
Video quality parameters End-to-end delay Video codec Codec type Video format Key frame interval Video display size Bit rate Frame rate Packet-loss rate
End-to-end delay
Video quality estimation function
Common assumptions
Video-alone quality Vq Video quality Vq(Sq)
Conversational task Packet-loss pattern
Multimedia quality integration function
Coefficient database
Speech quality estimation function Speech-related assumptions Terminal factors Loudness rating etc. Environmental factors Ambient noise Network factors Packet-loss pattern
Multimedia quality MMq Speech quality Sq(Vq)
Speech-alone quality Sq
Speech quality parameters End-to-end delay Speech codec Codec type Bit rate Packet-loss rate TELR
Coefficient database End-to-end delay
Abb. 9.16 Parametrisches Modell zur Vorhersage audiovisueller Qualit¨at in einer interaktiven Situation, z.B. f¨ur Videotelefonie (ITU-T Rec. G.1070, 2007)
Es muss angemerkt werden, dass sich die meisten dieser Modellans¨atze noch in der Forschung befinden. Erste Vergleiche bzgl. der Videoqualit¨at zeigen aber, dass man auf einzelnen Datenbanken Korrelationen u¨ ber 0,98 mit subjektiv bestimmten Urteilen erhalten kann (Raake et al., 2008). In wie weit diese Vorhersagen dann auch f¨ur andere Datenbanken valide sind bleibt noch zu zeigen.
9.3 Modelle zur Vorhersage von Interaktionsqualit¨at ¨ Im Gegensatz zur Ubertragungsqualit¨ at gestaltet sich die Vorhersage von Interaktionsqualit¨at schwieriger. Dies liegt zum einen daran, dass sich viele der Qualit¨atselemente von interaktiven Systemen nicht quantitativ bestimmen lassen. Zum anderen ist der Benutzer handelnder Teil der Interaktion; von seinem Verhalten wird die Qualit¨at der Interaktion also maßgeblich mit abh¨angen. Aus diesem Grunde sollte das Verhalten von Benutzer und System als Eingangsinformation f¨ur ein Vorhersagemodell zur Verf¨ugung stehen. Dies kann z.B. in Form der schon in Kapitel 7 beschriebenen Interaktionsparameter geschehen. Sie quantifizieren dar¨uber hinaus auch die Systemleistungen, welche f¨ur die Qualit¨at ebenfalls relevant sind. Die ent-
188
9 Qualit¨atsvorhersage
sprechenden Vorhersagemodelle sch¨atzen dann auf Basis von in realen Interaktionen gesammelten Interaktionsparametern ein (oder mehrere) Urteile der Qualit¨at. Als zweiten Schritt kann man dazu u¨ bergehen, Interaktionen zu simulieren, anstelle reale Interaktionen mit Benutzern aufzuzeichnen. Zu beiden Schritten werden die wichtigsten Verfahren im Folgenden kurz umrissen.
9.3.1 Regressionsmodelle Das vermutlich bekannteste Modell zur Vorhersage der Interaktionsqualit¨at von Sprachdialogsystemen ist das PARADISE-Modell (PARAdigm for DIalogue System Evaluation), welches von Walker et al. (1997) vorgestellt wurde. Vereinfacht dargestellt werden dabei verschiedene Interaktionsparameter als gewichtete Summe zusammengefasst, um einen Sch¨atzwert f¨ur die Benutzerzufriedenheit (User Satisfaction, US) vorherzusagen. Letztere wird von Walker et al. definiert als Mittelwert von 8-9 Benutzerurteilen zu unterschiedlichen Fragestellungen wie die Qualit¨at der Sprachausgabe, wahrgenommenes Verst¨andnis des Systems, Geschwindigkeit der Interaktion, Transparenz, etc. n
US = α · N(T S) − ∑ wi · N(ci )
(9.3)
i=1
Hierbei ist T S ein Interaktionsparameter zur Beschreibung von Task Success (d.h. ob die gew¨unschte Aufgabe mit Hilfe des Systems gel¨ost werden konnte), ci sind weitere Interaktionsparameter, und N() eine Z-Normierungsfunktion (bringt die Parameterwerte auf den Mittelwert 0 und die Standardabweichung 1). α und wi sind Gewichtungsfaktoren, welche sich mittels einer multivariaten linearen Regression aus experimentellen Daten bestimmen lassen. Zum Training der Regressionsgleichung m¨ussen zun¨achst komplette Datens¨atze (Interaktionsparameter und Benutzerurteile) vorhanden sein. Auf diesen Daten wird die Gleichung 9.3 dann im Sinne eines minimalen quadratischen Fehlers optimiert. Anschließend kann sie zur Vorhersage von Benutzerurteilen aus Interaktionsparametern verwendet werden, ohne dass weitere Befragungen der Benutzer notwendig w¨aren. Mit Hilfe des PARADISE-Modells lassen sich ungef¨ahr 50% der Varianz in der Qualit¨atseinsch¨atzung bestimmen (Walker et al., 2000). Allerdings beruhen einige Variablen der Vorhersagegleichung auf einem Benutzerurteil (z.B. verwendet Walker f¨ur Task Success ein Urteil des Nutzers anstelle eines Experten-annotierten Parameters). Des Weiteren sind viele der anderen Interaktionsparameter nur mit Hilfe eines Experten – und nicht instrumentell – bestimmbar; die Anwendbarkeit wird dadurch weiter einschr¨ankt. Die Vorhersagekraft verschlechtert sich u¨ blicherweise, wenn ein anderes System als das, auf das die Vorhersagegleichung trainiert wurde, bewertet werden soll. Die Verwendung anderer statistischer Verfahren als der von Walker et al. eingesetzten linearen Regression, etwa Entscheidungsb¨aume, scheint
9.3 Modelle zur Vorhersage von Interaktionsqualit¨at
189
daran nicht viel zu a¨ ndern (M¨oller et al., 2008). Sollen jedoch nicht individuelle Benutzerurteile, sondern der Mittelwert der Bewertung mehrerer Nutzer bez¨uglich eines neuen Systems vorhergesagt werden – ein Kennwert, der bei der Entwicklung eines neuen Systems in der Regel mehr interessiert –, so lassen sich mit dem beschriebenen Ansatz durchaus brauchbare Ergebnisse erzielen.
9.3.2 Simulation von Benutzerverhalten In fr¨uhen Phasen der Produkt- oder Anwendungsentwicklung kann eine modellgest¨utzte Evaluation von Gebrauchstauglichkeit erheblich Zeit und Kosten sparen. Ein Beispiel f¨ur die Umsetzung der Modellierung des Benutzers ist die MeMo(Mental Models)-Werkbank (M¨oller et al., 2006). Ziel ist es hierbei, Benutzerverhalten bei der Interaktion mit sprachbasierten und grafischen Benutzerschnittstellen zu simulieren, um sowohl systembedingte Fehler als auch Benutzungsfehler vorherzusagen. Letztere k¨onnen beispielsweise durch System-inkonsistente mentale Repr¨asentationen von Interaktionsabl¨aufen oder spezifische Eigenschaften der Benutzer entstehen. Prototypische Nutzereigenschaften und ihre Auswirkungen auf den Umgang mit unterschiedlichen Anwendungen k¨onnen vom Entwickler in Form von einfachen Wenn...Dann-Regeln spezifiziert werden. Diese Regeln modifizieren die Wahrscheinlichkeiten, dass die simulierten Benutzer bestimmte Aktionen ausf¨uhren. Sowohl Modelle des zu testenden Systems als auch Benutzermodelle liefern Informationen f¨ur die Werkbank, welche dann in einem automatischen Testzyklus Interaktionen simuliert. Dabei sind vier Modelltypen involviert, vgl. Abb. 9.17: 1. Das System-Aufgaben-Modell beschreibt die Aufgaben, die ein Benutzer mit Hilfe des Systems ausf¨uhren kann; es kann aus der Systemspezifikation abgeleitet werden. 2. Das System-Interaktions-Modell beschreibt den Interaktionsfluss innerhalb des Systems und kann ebenfalls aus der Systemspezifikation abgeleitet werden. 3. Das Benutzer-Aufgaben-Modell beinhaltet eine Sammlung potentieller Aufgaben, die der Benutzer mit dem System ausf¨uhren w¨urde; es basiert auf Daten aus Nutzertests. 4. Das Benutzer-Interaktions-Modell ist eine Simulation, die automatisch Benutzereingaben generiert. In den automatischen Testl¨aufen der MeMo-Werkbank werden die Benutzerund Systemmodelle gegeneinander laufen gelassen und Abweichungen zu idea” len“ oder intendierten L¨osungswegen erkannt. Die dabei entstehenden Log-Dateien mit m¨oglichen Fehlern werden von der Werkbank benutzt, um am Ende automatisch ein Profil der Gebrauchstauglichkeit des Produktes zu erstellen, welches die Gewichtung der Fehler in Bezug auf Performanz- und Qualit¨atsindikatoren beinhaltet. Diese Bewertung hilft beispielsweise dem Entwickler des Produktes, zwischen mehreren von ihm gestalteten Varianten der Benutzungsoberfl¨ache zu entscheiden. Die Werkbank insgesamt funktioniert halb-automatisiert, da der Entwickler meist
190
9 Qualit¨atsvorhersage
System-Aufgabenmodell
System-Interaktionsmodell
SimulationsSimulationsEinheit Einheit Nutzer-Aufgabenmodell
Nutzer-Interaktionsmodell
Kontrolleinheit Kontroll-Einheit
ProblemProblemIdentifikation Identifikation Gewichtung &&Gewichtung
UsabilityUsabilityVorhersage Vorhersage
Automatisches Testen
NutzerVerhaltensmodell
UsabilityProfil
Abb. 9.17 MeMo-Werkbank zur Simulation von Nutzerverhalten und zur Vorhersage von Usability-Profilen (M¨oller et al., 2006)
selbst noch Eingaben vornimmt, so z.B. Zus¨atze zur Systemspezifikation oder bestimmte Benutzereigenschaften. Neben dieser teilweise regelbasierten Simulation verwendent man auch statistische Simulationen von Benutzerverhalten. Dazu werden statistische Verfahren wie Partially Observable Markov Decision Processes (POMDPs) oder Reinforcement Learning verwendet. Die Idee ist es, Nutzerverhalten aus vorher aufgezeichneten Dialogen automatisch zu erlernen. Die dabei entstehenden Modelle lassen dann aber keine Aussagen u¨ ber die Gr¨unde des so simulierten Verhaltens zu. Beispiele hierzu finden sich in Publikationen der SIGdial-Workshops.
9.4 Zusammenfassung und Ausblick Um valide Qualit¨atsvorhersagen f¨ur unterschiedliche Systeme zu liefern, m¨ussen Qualit¨atsvorhersagemodelle eine Reihe von F¨ahigkeiten eines menschlichen Benutzers nachbilden. Anderenfalls besteht die Gefahr, dass das Modell einfach auf einen begrenzten Satz von Trainingsdaten angepasst wird, und dass es bei Extrapolation auf unbekannte Daten und Systeme versagt. Die notwendigen F¨ahigkeiten sind in unten stehender Abbildung skizziert, und die folgenden Betrachtungen sind weitgehend aus M¨oller et al. (2007) entnommen. Zur Nachbildung der rein passiven“ Beurteilung von Qualit¨at muss zun¨achst ein ” perzeptives Modell vorhanden sein, welches die Wahrnehmung der f¨ur die Qualit¨at interessierenden Modalit¨aten beschreibt. Insbesondere f¨ur die auditive Wahrnehmung gibt es hier bereits detaillierte Ans¨atze. Bspw. werden in Modellen zur Vorhersage der Sprach¨ubertragungsqualit¨at die Frequenzanalyse des menschlichen Innenohres, die Kompression und die spektrale Maskierung bei der Bildung der spe-
9.4 Zusammenfassung und Ausblick Modell der Referenz Perzeptives Modell
191
Bewertungsmodell
Beschreibungsmodell
Subjektives Qualitätsurteil
Sprachdi alogsystem
Modell der Ziele Aussagemodell
Verha ltensmodell
Modell der Erfahrungen
Abb. 9.18 Modellkomponenten zur Vorhersage von Interaktionsqualit¨at (M¨oller et al., 2007)
zifischen Lautheit, sowie teilweise die Nervenimpulsbildung in den Haarzellen modelliert (Beerends et al., 2002; Hauenstein, 1997), vgl. auch Abschnitt 9.1. Bei der Vorhersage von Bild- oder Videoqualit¨at ist die Modellierung der visuellen Wahrnehmung weitaus weniger detailliert, vgl. Abschnitt 9.2. Die wahrgenommenen Merkmale der eingehenden akustischen und visuellen Stimuli werden mit einer internen Referenz verglichen. Vereinfacht lassen sich mit dieser Referenz alle individuellen und situativen Eigenschaften der Qualit¨atsbewertung erfassen (Blauert und Jekosch, 2007). Eine differierende Qualit¨atsbewertung bei gleichem Wahrgenommenem l¨asst sich dann durch den Austausch der Referenz beschreiben. Allerdings bestehen nach wie vor Probleme bei der Bestimmung und Modellierung der Referenz. Eine M¨oglichkeit – die insbesondere bei den signalbasierten Modellen zur Vorhersage der Sprach¨ubertragungsqualit¨at angewandt wird – besteht darin, die Referenz explizit zu machen: Man f¨uhrt einen Vergleich zwischen einem u¨ bertragenen, gest¨orten Sprachsignal und einem nicht u¨ bertragenen, ungest¨orten Quellsignal durch. Schwieriger ist die Situation, wenn die Referenz nicht (wie bei der Sprach¨ubertragung) verf¨ugbar ist. Man kann sich hier z.B. damit behelfen, eine Referenz aus dem (gest¨orten) Wahrgenommenen zu rekonstruieren, wobei im o.a. Fall z.B. ein Modell der menschlichen Spracherzeugung zur Hilfe genommen wird (vgl. Abschnitt 9.1.4). Ebenfalls schwierig ist es, die Erwartungshaltung des Benutzers innerhalb der Referenz abzubilden. Beispielsweise wird ein und dasselbe Sprachsignal (Schallereignis) in einer Mobilfunksituation besser beurteilt wird als in einer Festnetzsituation (M¨oller, 2002). Hier muss also die Referenz (das ungest¨orte Quellsignal) an die entsprechende Telefoniersituation angepasst werden. Wahrgenommenes und Referenz m¨ussen nun bzgl. der f¨ur die Qualit¨at relevanten Merkmale – und nur bez¨uglich dieser Merkmale! – miteinander verglichen werden. ¨ Dies kann z.B. durch ein einfaches Ahnlichkeitsoder Abstandsmaß geschehen. Leider ist nicht immer im Vorhinein bekannt, welche Merkmale tats¨achlich relevant
192
9 Qualit¨atsvorhersage
f¨ur die Qualit¨at sind. Außerdem ist zu ber¨ucksichtigen, dass die Merkmale und u.U. auch die Referenz nicht u¨ ber eine komplette Interaktion konstant bleiben m¨ussen. Daher muss die Bewertung i. Allg. auch eine zeitliche Bewertungsfunktion enthalten. Diese Funktion muss z.B. ber¨ucksichtigen, dass sich negative Ereignisse“ ” (also negative Abweichungen des Wahrgenommenen von der Referenz) am Ende der Interaktion normalerweise st¨arker auf das Gesamturteil auswirken als solche zu Beginn der Interaktion (sog. Recency Effect). Dar¨uber hinaus wiegen negative Ereignisse im Allgemeinen deutlich schwerer als positive Ereignisse. Entsprechende Effekte werden bspw. bei der Beschreibung der Qualit¨at zeitlich variabler Sprach¨ubertragungsqualit¨at bereits zutreffend modelliert (ETSI Technical Report 102 506, 2007). Zur Bildung eines Qualit¨atsindices fehlt nun noch ein Modell der Beschreibung, die eine Versuchsperson in der Mess-Situation gibt. Wie in Kapitel 3 ausgef¨uhrt werden Qualit¨atsmesswerte normalerweise auf einer kontinuierlichen oder diskreten Skala erfasst, die an ihren Enden begrenzt ist. Zur Abbildung des (in ei¨ ne Richtung unbegrenzten) Abstandes oder der Ahnlichkeit auf diese (an beiden Enden begrenzte) Skala verwendet man der Einfachheit halber oft eine S-f¨ormige Funktion. Eine solche Funktion muss die Charakteristika der Skala widerspiegeln: Sie muss z.B. die Semantik der Skalen-Labels ber¨ucksichtigen, die in verschiedenen Sprachen und Kulturr¨aumen unterschiedlich sein kann. Die bislang beschriebenen Module dienen ausschließlich der Modellierung der Qualit¨atswahrnehmung und -beurteilung. Allerdings agiert der Benutzer eines interaktiven Dienstes auch, und seine Aktion bestimmt das Verhalten des Systems – und somit wiederum die Qualit¨atsbewertung. M¨ochte man diesen Einfluss ohne Zutun menschlicher Versuchspersonen erfassen so muss man auch das Verhalten des Benutzers modellieren. Zur Vereinfachung kann meist davon ausgegangen werden, dass der Benutzer gewisse Ziele bei der Interaktion verfolgt. Daneben verf¨ugt er u¨ ber Erfahrungen im Umgang mit diesem oder mit anderen Systemen, u¨ ber Hintergrundwissen bzgl. der Dom¨ane und Aufgabe, etc. Ziele und Erfahrungen beeinflussen maßgeblich das Interaktionsverhalten des Benutzers. Letzteres kann z.B. in Form von Elementarinteraktionen wie Sprechakten spezifiziert werden. Die Elementarinteraktionen werden nun in benutzerspezifischer Weise in eine Oberfl¨achenform“ u¨ berf¨uhrt, z.B. ” in eine Benutzeraussage, einen Tastendruck, einen Mausklick, eine Bewegung, etc., die das System verarbeiten kann. Es reagiert entsprechend dem implementierten Systemmodell und der Wahrnehmungsprozess beginnt von neuem.
Literaturverzeichnis Barkowsky M (2008) Temporal aspects of video quality measurement in low-bitrate multimedia scenarios. Eingeladener Vortrag (unver¨offentlicht), Forschungskolloquium Usability, Deutsche Telekom Laboratories, TU Berlin Barkowsky M (2009) Subjective and Objective Video Quality Measurement in Low-Bitrate Multimedia Scenarios. PhD Thesis, Verlag Dr. Hut, M¨unchen
Literaturverzeichnis
193
Beerends J, Rix A, Hollier M, Hekstra A (2002) Perceptual evaluation of speech quality (PESQ), the new ITU standard for end-to-end speech quality assessment. Part II – Psychoacoustic model. J Audio Engineering Soc 50:765–778 Berger J (1998) Instrumentelle Verfahren zur Sprachqualit¨atssch¨atzung – Modelle auditiver Tests. Dissertation, Christian–Albrechts–Universit¨at Kiel (Arbeiten u¨ ber Digitale Signalverarbeitung No. 13, U. Heute, Hrsg.), Shaker Verlag, Aachen Blauert J (1994) Kommunikationsakustik 2. Skriptum (unver¨offentlicht) zur Vorlesung and der Ruhr-Universit¨at, Bochum Blauert J, Jekosch U (2007) Auditory quality of performance spaces for music – The problem of the references. In: Proc. 19th Int. Congress on Acoustics (ICA 2007), Madrid EN 60268-16:1998-04 (1998) Elektroakustische Ger¨ate. Objektive Bewertung der Sprachverst¨andlichkeit durch den Sprach¨ubertragungsindex. Deutsches Institut f¨ur Normung, Beuth Verlag, Berlin ETSI Technical Report 102 506 (2007) Speech Processing, Transmission and Quality Aspects (STQ); Estimating Speech Quality per Call. European Telecommunications Standards Institute, Sophia Antipolis French NR, Steinberg JC (1947) Factors governing the intelligibility of speech sounds. J Acoust Soc Am 19:90–119 Hansen M (1998) Assessment and Prediction of Speech Transmission Quality with an Auditory Processing Model. Dissertation, Carl-von-Ossietzky-Universit¨at, Oldenburg Hauenstein M (1997) Psychoakustisch motivierte Maße zur instrumentellen Sprachg¨utebeurteilung. Dissertation, Christian-Albrechts-Universit¨at Kiel (Arbeiten u¨ ber Digitale Signalverarbeitung No. 10), Shaker Verlag, Aachen ITU-T Contr. COM 12-64 (2003) Draft Recommendation P.AAM. International Telecommunication Union, Genf ITU-T Rec. G.107 (2009) The E-Model: A Computational Model for Use in Transmission Planning. International Telecommunication Union, Genf ITU-T Rec. G.1070 (2007) Opinion Model for Videophone Applications. International Telecommunication Union, Genf ITU-T Rec. J.144 (2001) Objective Perceptual Video Quality Measurement Techniques for Digital Cable Television in the Presence of a Full Reference. International Telecommunication Union, Genf ITU-T Rec. J.148 (2003) Requirements for an Objective Perceptual Multimedia Quality Model. International Telecommunication Union, Genf ITU-T Rec. P.561 (2002) In-service, Non-intrusive Measurement Device -– Voice Service Measurements. International Telecommunication Union, Genf ITU-T Rec. P.563 (2004) Single-ended Method for Objective Speech Quality Assessment in Narrow-band Telephony Applications. International Telecommunication Union, Genf ITU-T Rec. P.834 (2002) Methodology for the Derivation of Equipment Impairment Factors from Instrumental Models. International Telecommunication Union, Genf ITU-T Rec. P.862 (2001) Perceptual Evaluation of Speech Quality (PESQ): An Objective Method for End-to-end Speech Quality Assessment of Narrowband Telephone Networks and Speech Codecs. International Telecommunication Union, Genf ITU-T Rec. P.911 (1998) Subjective Audiovisual Quality Assessment Methods for Multimedia Applications. International Telecommunication Union, Genf Johannesson NO (1997) The ETSI computation model: A tool for transmission planning of telephone networks. IEEE Communications Magazine Jan.:70–79 M¨oller S (2002) Towards quantifying the influence of user expectation on the quality of mobile services. In: Proc. ISCA Tutorial and Research Workshop on Multi-Modal Dialogue in Mobile Environments, Kloster Irsee, S 1–15 M¨oller S, Raake A (2002) Telephone speech quality prediction: Towards network planning and monitoring models for modern network scenarios. Speech Communication 38:47–75 M¨oller S, Englert R, Engelbrecht KP, Hafner V, Jameson A, Oulasvirta A, Raake A, Reithinger N (2006) MeMo: Towards automatic usability evaluation of spoken dialogue services by user
194
9 Qualit¨atsvorhersage
error simulations. In: Proc. 9th Int. Conf. on Spoken Language Processing (Interspeech 2006 – ICSLP), Pittsburgh PA, S 1786–1789 M¨oller S, Naumann A, Schleicher R (2007) Qualit¨atsplanung und -¨uberwachung interaktiver Telekommunikationsdienste. In: R¨otting M, Wozny G, Klostermann A, Huss J (Hrsg) Prospektive Gestaltung von Mensch-Technik-Interaktion, Fortschritt-Berichte VDI Reihe 22, Vol 25, S 407–416 M¨oller S, Engelbrecht KP, Schleicher R (2008) Predicting the quality and usability of spoken dialogue services. Speech Communication 50:730–744 Raake A, Garcia MN, M¨oller S, Berger J, Kling F, Listand P, Johann J, Heidemann C (2008) TV-Model: Parameter-based prediction of IPTV quality. In: Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Process. (ICASSP 2008), Las Veags NV, S 1149–1152 Thiede T, Treurniet WC, Bitto R, Schmidtmer C, Sporer T, Beerends JG, Colomes C, Keyhl M, Stoll G, Brandenburg K, Feiten B (2000) PEAQ – the ITU-T standard for objective measurement of perceived audio quality. J Audio Eng Soc 48:3–29 Walker M, Kamm C, Litman D (2000) Towards developing general models of usability with PARADISE. Natural Language Engineering 6(3-4):363–377 Walker MA, Litman DJ, Kamm CA, Abella A (1997) PARADISE: A framework for evaluating spoken dialogue agents. In: Proc. of the ACL/EACL 35th Ann. Meeting of the Assoc. for Computational Linguistics (Madrid), Morgan Kaufmann, San Francisco CA, S 271–280 W¨altermann M, M¨oller S, Raake A, Scholz K, Huo L, Heute U (2008) An instrumental measure for end-to-end speech transmission quality based on perceptual dimensions: Framework and realization. In: Proc. Interspeech 2008 incorporating SST 2008, Brisbane, S 61–64
Sachverzeichnis
Absolute Category Rating, 43, 111 Advantage of Access, 82 ¨ Ahnlichkeitsbewertung, 48 ¨ Asthetik, 161 Agent Factors, 14, 16, 17, 126 Aktionsprozess, 11 Akzeptanz, 14, 16, 162 Analogieschluss, 21 Analyse, 59 Anleitung, 38 Annotation, 138 Anwendung, 106 Artikulationsindex, 179 Assessment, 35, 131 Attraktivit¨at, 161 Audioqualit¨at, 87, 94, 118, 120, 181, 184 audiovisuelle Qualit¨at, 118, 120, 181, 184, 186, 187 audiovisueller Test, 116 Beschaffenheit erw¨unschte, 5 wahrgenommene, 5 Beschreibungsereignis, 11, 23 Betriebsmessung, 171, 177 Beurteilungsprozess, 11 Bildformat, 100, 106 Bildtypen, 103 Black-Box-Test, 36 Blockbildung, 105 Cognitive Demand, 16 Cognitive Walkthrough, 65 Communication Efficiency, 14, 16 Contextual Factors, 12, 14, 18, 81, 127 Conversation Effectiveness, 14, 81
Degradation Category Rating, 112 Design, 62 Diagnosis, 35 Diagnostic Acceptability Measure, 88 Dialogmanagement, 134 Dialogmanager, 158 Dialogue Cooperativity, 16 Dialogue Symmetry, 16 Diffusionsmodell, 31 Double-Blind Triple-Stimulus with Hidden Reference, 87 E-Modell, 175, 177 EAGLES-Handbuch, 149 Early Adaptors, 30 Early Majority, 30 Ease of Communication, 14, 81 Ease of Use, 17, 161 Effektivit¨at, 8, 160 Effizienz, 8, 160 Empirisches Testen, 68 Environmental Factors, 14, 17, 127 Erfahrung, 29, 192 Ergonomie, 9 Evaluation, 35, 131 Experten-Evaluation, 65 Expertise, 30 Farbmodell, 100 Feldversuch, 83 Fernseh¨ubertragung, 120 Fission, 158 Fokusgruppe, 70 formative Analyse, 70 Fusion, 157 generalisierbar, 22
195
196 Glass-Box-Test, 36 H¨oranstrengung, 86 H¨orereignis, 19 H¨orversuch, 20, 33, 83, 86, 87 Hauptkomponentenanalyse, 50 Herstellungsmethode, 33, 34 Heuristik, 66, 67 heuristische Evaluierung, 66 Idealpunktmodell, 51 Innovationen, 30 Innovators, 30 Interaktionsparameter, 137, 139, 140, 188 Interaktionsqualit¨at, 160, 187 Interaktionsszenarien, 2 Interaktionsversuch, 20, 34, 83 interaktives System, 123, 167, 168 Interaktivit¨at, 106 Intervallskala, 42 Intervallskalierung, 33 Intuitivit¨at, 160 Iteratives Design, 63, 71 Joy of Use, 17, 161 Kategorie-Ratio-Skalierung, 46, 47 Kategorie-Skalierung, 43 Kaufverhalten, 30 Kodierung, 102 Kommunizierbarkeit, 84, 85 Konsistenz, 63 Konstanzmethode, 33, 35 Kontext, 44, 60 Konversationsversuch, 20, 33, 83, 89, 118 Konzeptfehlerrate, 134 Korrelationsanalyse, 54 Laggards, 30 Late Majority, 30 Lautes Denken, 70 Leistung, 7, 131, 158 Lernbarkeit, 160 Likert-Skala, 45, 46 Loudness Rating, 77, 78, 176 Magnitude Estimation, 43 Marktforschung, 73 Medium, 123 Mensch-Maschine-Interaktion, 123, 153, 154 Merkmal, 6, 9 Messaufbau, 27 Messfehler, 24 Messgr¨oße, 20, 21, 36
Sachverzeichnis Messmethode, 36 Messobjekt, 35 Messumgebung, 36 Messung, 20, 21, 25 direkt, 34 indirekt, 27, 34, 156 instrumentell, 20 intrusiv, 177 nicht-intrusiv, 177 psychophysikalisch, 23–25 Ziel der, 35 Meta-Kommunikation, 134 Modalit¨at, 33, 106, 123, 155 Modelltyp, 181 Modulated Noise Reference Unit, 92 Monitoring, 168, 169, 184 Motivation, 29 multidimensionale Analyse, 48, 88, 128 multidimensionale Skalierung, 48 Multimedia-Anwendungen, 120 multimodale Interaktion, 17 multimodaler Dienst, 16 multimodales Dialogsystem, 124, 153, 154, 156, 157, 160 Multimodalit¨at, 153 MUSHRA, 88 N¨utzlichkeit, 162 Netzwerkplanung, 171, 175 Nominalskala, 41 Nominalskalierung, 33 Nutzen, 162 Nutzer, 28, 59 Objektivit¨at, 20, 21 Ordinalskala, 42 Ordinalskalierung, 33 Paarvergleich, 86 Packet Loss, 78, 99, 105 PARADISE, 188 Parallel Design, 62 parametrisches Modell, 171, 175, 184 Participatory Design, 63, 64 Peak-Signal-to-Noise-Ratio, 104, 183 PEAQ, 173 PESQ, 173 physikalisches Ereignis, 9, 19, 23 Pluralistic Usability Walkthrough, 66 Polarit¨atsprofil, 50 Pr¨aferenz, 29 Pr¨aferenz-Mapping, 50 Pr¨asentationsmethode, 33 Prototyping, 64
Sachverzeichnis horizontales, 64 Szenario-basiertes, 64 vertikales, 64 Psychophysik, 1, 19, 20 Qualit¨at, 5, 6, 25, 131 Qualit¨atsaspekt, 12 Qualit¨atsdimension, 174 Qualit¨atselement, 7, 12, 76, 99, 124, 156 Qualit¨atsereignis, 10, 25 Qualit¨atsfaktor, 12 Qualit¨atsmerkmal, 6, 12, 25, 80, 104, 127, 170 Qualit¨atsmessung, 160 Qualit¨atsvorhersage, 167 Quality Engineering, v, 4, 58 Quality of Experience, 7, 8 Quality of Service, 7, 8 Question-Options-Criteria, 72 r¨aumliche Beeintr¨achtigungen, 104 Ratio-Skalierung, 33, 42 Ratioskala, 42 Rauschen, 77, 78 Reference Impairment System for Video, 115 Referenz, 26, 191 Regression, 188 Regressionsanalyse, 54 Reliabilit¨at, 21 repr¨asentativ, 22 Ruckeln, 105 SASSI, 148, 161 Satisfaction, 8 Sehversuch, 20, 33 semantisches Differential, 50, 111 Service Efficiency, 16, 81 Service Factors, 12, 81 Short Conversation Test, 90, 91 signalbasiertes Vergleichsmaß, 171, 172 Simulation von Benutzerverhalten, 189 Sinus-Milieus , 31 Skala, 24, 44, 45, 51 Skalentypen, 41 Skalierung, 20, 21, 33, 41 Slicing, 105 Speech Communication Factors, 12 Speech Input Quality, 16 Speech Output Quality, 16 Speech Transmission Index, 179 Sprach¨ubertragung, 12, 75, 76, 80, 91 Sprachausgabe, 135 Sprachdialogsystem, 14, 123–125, 127 Spracherkennung, 132 Sprachkodierer, 77, 78
197 Sprachqualit¨at, 83, 86, 91, 169, 170, 172 Sprachsynthese, 93, 125 Sprachverstehen, 133 Sprecher, 87 Subjektivit¨at, 20 SUMI, 148, 160, 161 summative Analyse, 70 Szenario, 89, 119, 137 Task Factors, 14, 16, 18, 126 Telefon¨ubertragung, 76 Telefonie, 12 Teststimulus, 86 Thinking Aloud, 70 Transmission Rating, 176 ¨ Ubertragungsfehler, 99 ¨ Ubertragungskanal, 75 ¨ Ubertragungssystem, 168 Umgang mit Systemen, 31 Unsch¨arfe, 105 Unterschiedsschwelle, 34 Usability, 2, 3, 8, 14, 16, 17 Usability Engineering, v, 4, 57 Usability Engineering Lifecycle, 57, 58, 73 User Factors, 14, 126 User Satisfaction, 14, 16 Validit¨at, 21 Varianzanalyse, 53 Vektormodell, 51 Verankerung, 86 Verhaltenseigenschaften, 29 Verst¨andlichkeit, 84, 85, 135, 169, 178 Verst¨andnis, 84, 85 Verstehbarkeit, 84, 85, 135 Versuchsablauf, 37 Versuchsdesign, 35 Versuchsperson, 23, 28, 109 Versuchsplan, 37 Versuchsplanung, 35 Versuchsraum, 109 Verz¨ogerung, 77, 78, 99 Video¨ubertragung, 97, 99, 100, 104, 181 Videoqualit¨at, 118, 120, 181, 182, 184 Videotest, 109 Voice Transmission Quality, 14, 80 Voice-over-IP, 12, 75, 80 Vorhersagemodell, 28, 167, 168 Wahrnehmbarkeitsschwelle, 34 Wahrnehmungseigenschaften, 28 Wahrnehmungsereignis, 9, 19, 23, 26 Wahrnehmungsprozess, 11
198 Wizard-of-Oz, 65, 148, 149 Wortfehlerrate, 133 zeitliche Beeintr¨achtigungen, 104
Sachverzeichnis Zielanforderungen, 60