Martin Weichbold · Johann Bacher · Christof Wolf (Hrsg.) Umfrageforschung
Österreichische Zeitschrift für Soziologie Sonderheft 9/2009 Herausgeber: Vorstand der Österreichischen Gesellschaft für Soziologie: Christian Fleck, Monika Kronberger, Sonja Laubichler, Beate Littig, Johanna Muckenhuber, Joachim Nemella, Harald Rohracher, Katharina Scherke
Martin Weichbold Johann Bacher Christof Wolf (Hrsg.)
Umfrageforschung Herausforderungen und Grenzen
Österreichische Zeitschrift für Soziologie Vierteljahresschrift der Österreichischen Gesellschaft für Soziologie 34. Jahrgang, Sonderheft 9, Juni 2009 Herausgeber: Vorstand der Österreichischen Gesellschaft für Soziologie: Christian Fleck, Monika Kronberger, Sonja Laubichler, Beate Littig, Johanna Muckenhuber, Joachim Nemella, Harald Rohracher, Katharina Scherke. Redaktion: Eva Buchinger, Hubert Eichmann, Eva Flicker, Johanna Hofbauer, Lorenz Lassnigg, Heinz-Jürgen Niedenzu, Franz Ofner, Dieter Reicher, Martin Weichbold, Angelika Wetterer, Meinrad Ziegler. Redaktionssprecher: Franz Ofner (Universität Klagenfurt,
[email protected]), Meinrad Ziegler (Universität Linz,
[email protected]) und Heinz-Jürgen Niedenzu für die eingehenden Manuskripte (Universität Innsbruck,
[email protected]). Rezensionsredakteur: Dieter Reicher, (Universität Graz,
[email protected]) Redaktionelle Zuschriften bitte nur an die Redaktion senden. Unverlangt eingesandte Rezensionsexemplare können nicht zurückgeschickt werden. VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH Abraham-Lincoln-Straße 46 | 65189 Wiesbaden | www.vs-verlag.de Geschäftsführer: Dr. Ralf Birkelbach (Vors.), Albrecht F. Schirmacher Gesamtleitung Anzeigen: Thomas Werner Gesamtleitung Produktion: Christian Staral Gesamtleitung Vertrieb: Gabriel Göttlinger Leserservice: Martin Gneupel, Telefon (06 11) 78 78-151; Telefax (06 11) 78 78-423; E-Mail:
[email protected] Marketing: Ronald Schmidt-Serrière M.A.,Telefon (06 11) 78 78-2 80; Telefax (06 11) 78 78-4 40; E-mail:
[email protected] Anzeigenleitung: Yvonne Guderjahn, Telefon (06 11) 78 78-155; Telefax (06 11) 78 78-4 30; E-mail:
[email protected] Anzeigendisposition: Monika Dannenberger, Telefon (06 11) 78 78-1 48; Telefax (06 11) 78 78-4 43; E-mail:
[email protected] Es gilt die Sammelpreisliste vom 01. 01. 2009. Produktion/Layout: Frieder Kumm, Telefon (06 11) 78 78-1 75; Telefax (06 11) 78 78-4 68; E-mail:
[email protected] Bezugsbedingungen 2009: Jährlich erscheinen 4 Hefte. Jahresabonnement / privat (print+online) € 65,–; Jahresabonnement / privat (nur online) € 39,–; Jahresabonnement / Bibliotheken/Institutionen (nur print) € 117,–; Jahresabonnement Studenten/Emeritus (print+online) – bei Vorlage einer Studienbescheinigung € 29,–. Alle Print-Preise zuzüglich Versandkosten. Alle Bezugspreise und Versandkosten unterliegen der Preisbindung. Kündigungen der Abonnements müssen spätestens 6 Wochen vor Ablauf des Bezugszeitraumes schriftlich mit Nennung der Kundennummer erfolgen. © VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2009 VS Verlag für Sozialwissenschaften ist Teil der Fachverlagsgruppe Springer Science+Business Media. Alle Rechte vorbehalten. Kein Teil dieser Zeitschrift darf ohne schriftliche Genehmigung des Verlages vervielfältigt oder verbreitet werden. Unter diesen Vorbehalt fällt insbesondere die gewerbliche Vervielfältigung per Kopie, die Aufnahme in elektronischen Datenbanken und die Vervielfältigung auf CD-ROM und allen anderen elektronischen Datenträgern. Satz: Laudenbach, Sigmundsgasse 14, A-1070 Wien Druck und buchbinderische Verarbeitung: Krips b.v., Meppel Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier. Printed in the Netherlands ISSN 1011-0070 Gedruckt mit Unterstützung des Bundesministeriums für Wissenschaft und Forschung in Wien GESIS – Leibniz-Institut für Sozialwissenschaften Stiftungs- und Förderungsgesellschaft der Paris-Lodron-Universität Salzburg Linzer Hochschulfonds (LHF) ISBN 978-3-531-16319-2
Inhaltsverzeichnis Martin Weichbold, Johann Bacher, Christof Wolf Herausforderungen und Grenzen der Umfrageforschung. Zur Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
9
Methodeneffekte
Tino Schlinzig, Götz Schneiderat Möglichkeiten zur Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk. Zum Potenzial von Warmkontakt und randomisierter Geburtstagsauswahl . . . . . . . . . . . .
21
Michael Häder, Mike Kühne, Tino Schlinzig Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk: Auswirkungen auf die Datenqualität . . . . . . . . . . . . . . . . .
45
Julia Simonson Klassenzimmerbefragungen von Kindern und Jugendlichen: Praktikabilität, Potentiale und Probleme einer Methode . . . . . . . . . . .
63
Monika Taddicken Methodeneffekte von Web-Befragungen: Soziale Erwünschtheit vs. Soziale Entkontextualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 2
Computerbasierte Befragungen
Joachim Gerich Multimediale Elemente in der Computerbasierten Datenerhebung. Der Einfluss Auditiver und Visueller Elemente auf das Antwortverhalten in Befragungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Albert Greinöcker Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen . . . 131 Jörg Blasius, Maurice Brandt Repräsentativität in Online-Befragungen . . . . . . . . . . . . . . . . . . . . . . . 157
3
Stichproben
Sabine Häder, Matthias Ganninger, Siegfried Gabler Die Stichprobenziehung für den European Social Survey: Prinzipien und Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 Folkert Aust, Helmut Schröder Sinkende Stichprobenausschöpfung in der Umfrageforschung – ein Bericht aus der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Volker Hüfken Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“. „Drop-off“-Erhebungen im Rahmen der Allgemeinen Bevölkerungsbefragung (ALLBUS) 2004 . . . . . . . . . . . . . . . . . . . . . . . 213 Siegfried Gabler, Sabine Häder Die Kombination von Mobilfunk- und Festnetzstichproben in Deutschland . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 Johann Bacher Analyse komplexer Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 4
Spezielle Zielgruppen und ihre Inklusion
Bettina Stadler Die Befragung von MigrantInnen in Stichprobenerhebungen . . . . . . . 275 Wolfgang Aschauer Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 Angela Wroblewski Berücksichtigung der Situation von Personen mit gesundheitlichen Beeinträchtigungen in Umfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 Marek Fuchs Item-Nonresponse in einer Befragung von Alten und Hochbetagten. Der Einfluss von Lebensalter und kognitiven Fähigkeiten . . . . . . . . . . 333 6
5
Herausforderungen der Großforschung
Anja Kettner, Michael Stops Europäische Betriebsbefragungen über offene Stellen: Ist das Gleiche wirklich gleich? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 Michael Ruland, Marcel Raab, Benno Schönberger, Hans-Peter Blossfeld, Dirk Hofäcker, Sandra Buchholz, Paul Schmelzer GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 Christof Wolf, Paul Lüttinger Verteilung von Proxy-Interviews im deutschen Mikrozensus . . . . . . . 395
6
Alternative Befragungstechniken
Stefanie Eifler, Daniela Thume, Rainer Schnell Unterschiede zwischen subjektiven und objektiven Messungen von Zeichen öffentlicher Unordnung („Signs of Incivility“) . . . . . . . . . 415 Georgios Papastefanou Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 Henrik Kreutz Fortschritte bei der Auflösung der ceteris-paribus-Klausel: Was leistet die Quasi-experimentelle Frageform im Vergleich zu Vignetten? Eine methodologische Erörterung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469 Andreas Quatember Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten und Antwortausfällen bei heiklen Themen . . . . 499
7
7
Methodologische Grundfragen
Reinhard Bachleitner, Wolfgang Aschauer Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515 Markus Pausch Eurobarometer und die Konstruktion eines europäischen Bewusstseins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 539 Martin Weichbold Zur Bestimmung und Sicherung der „Qualität“ von Umfragen . . . . . . 553
Autorinnen und Autoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
8
Martin Weichbold, Johann Bacher, Christof Wolf
Martin Weichbold, Johann Bacher, Christof Wolf
Herausforderungen und Grenzen der Umfrageforschung. Zur Einleitung Vor mehr als einem halben Jahrhundert wagte René König die Prophezeiung, dass „das Interview in seinen verschiedenen Formen doch immer der Königsweg der praktischen Sozialforschung bleiben“ (1952, 27) werde. Die empirische Sozialforschung befand sich in Europa damals „in der Gründungsphase“ (Weischer 2004, 37), und die Situation ist mit jener von heute nur schwer vergleichbar. Dennoch scheint die Prognose von König noch immer Gültigkeit zu haben. Die Nachfrage nach Daten aus der Markt- und Sozialforschung ist enorm gewachsen und heute auch ein wichtiger ökonomischer Faktor. Das Umsatzvolumen für (kommerzielle) Markt- und Sozialforschung in Deutschland für 2007 wird auf mehr als 2 Milliarden Euro geschätzt1, davon macht die Umfrageforschung nach wie vor den Löwenanteil aus. Doch es wäre zu kurz gegriffen, nur quantitative Indikatoren für die Entwicklung der Umfrageforschung zu sehen, in den letzten Jahren haben sich auch die Rahmenbedingungen geändert, unter denen Sozialforschung heute stattfindet, aber auch die Methode selbst hat sich weiter entwickelt. Betrachtet man die Rahmenbedingungen, so ist zunächst festzustellen, dass die Anforderungen an die Umfrageforschung anders geworden sind: Ergebnisse müssen in immer kürzerer Zeit vorliegen, zumal auch ökonomische oder politische Entscheidungen rascher getroffen werden. Nationalstaatliche Grenzen werden in einem zusammenwachsenden Europa immer öfter irrelevant, und so muss auch die Umfrageforschung zusehends international und vergleichend arbeiten (vgl. Pfau-Effinger & Sakac Magdalenic & Wolf, 2009). Dabei wandeln sich die Gesellschaft(en) in Europa beständig. Neben demografischen Änderungen (wie gesellschaftliche Alterung, Migration oder Änderungen in den Lebensformen und Haushaltsstrukturen) sind es Phänomene wie zunehmende Mobilität oder eine abnehmende Bereitschaft zur Teilnahme an Umfragen (vgl. Kaase 1999, 28), die hier neue Herausforderungen schaffen. 9
Martin Weichbold, Johann Bacher, Christof Wolf
Veränderungen betreffen aber nicht zuletzt die Methode selbst. In den letzten Jahren und Jahrzehnten sind neue Befragungsformen entstanden. König bezog sich in seinen Ausführungen auf das persönliche Interview (heute würde man sagen: das Face-to-face-Interview), das in der Zwischenzeit vom Telefoninterview überflügelt wurde – zumindest was die Häufigkeit seiner Anwendung betrifft.1 Die voranschreitende Nutzung von Mobiltelefonen bringt es mit sich, dass hierbei insbesondere die Auswahlverfahren wieder zu überdenken sind. Seit einigen Jahren haben sich zudem, trotz mancher ungeklärter Fragen (etwa zur Repräsentativität), Onlinebefragungen etabliert. Generell ist die Entwicklung der empirischen Sozialforschung durch eine Technisierung und insbesondere Computerisierung geprägt (vgl. Weichbold 2005, 55). Der Einsatz von Computern als Befragungsinstrument ist nur ein letzter Schritt, auch alle anderen Phasen empirischer Sozialforschung, von der Konzeption über die Stichprobenziehung bis hin zur Datenanalyse erfolgen computergestützt, was neue Möglichkeiten mit sich bringt, aber auch eine gewisse Determination bedeutet. Besonders deutlich wird diese Veränderung im Bereich der Datenanalyse. Mit dem Computereinsatz sind neue Analyseformen wie etwa Clusteranalysen, komplexe Strukturgleichungsmodelle oder multivariate Analysen kategorialer Daten nicht nur möglich geworden, mit dem Ausmaß ihrer Anwendung werden sie auch zu Standards der Datenanalyse (vgl. Scheuch 1999, 10). Neue Forschungsdesigns bringen neue Perspektiven; Netzwerkanalysen, eine stärkere Berücksichtigung der zeitlichen Perspektive (Paneldaten, Ereignisanalysen) oder eine zunehmende Flut an prozessproduzierten Daten betreffen die Umfrageforschung zwar nicht im engeren Sinne, markieren aber relevante Entwicklungen in ihrem Umfeld (vgl. Weischer 2004, 415). Auch wenn die Befragung nach wie vor als ,Königsweg‘ der empirischen Sozialforschung gelten mag, bilden die skizzierten Veränderungen immer wieder neue Herausforderungen. Diese betreffen nicht nur die Praxis der Umfrageforschung, sondern insbesondere auch die Methodenforschung. Die Grenzen der Umfrageforschung sind dabei nicht starr, sondern verändern sich; aber wie alle Methoden hat auch die Umfrageforschung ihre Grenzen. Der vorliegende Band vereint ausgewählte Beiträge von zwei einschlägigen Tagungen, die 2008 stattgefunden haben, nämlich jener der Sektion ,Methoden der Empirischen Sozialforschung‘ der Deutschen Gesellschaft für Soziologie und jene der Sektion ,Soziologische Methoden und Forschungsdesigns‘ der österreichischen Gesellschaft für Soziologie. Nicht nur 10
Herausforderungen und Grenzen der Umfrageforschung. Zur Einleitung
am Umfang des Buches wird die Vielfalt der Herausforderungen für die Umfrageforschung sichtbar, auch die abgehandelten Themen zeigen die Breite der Fragestellungen und geben einen Einblick in die aktuelle Diskussion und den Forschungsstand. Bereits im ersten Block Methodeneffekte wird eine zentrale Fragestellung angesprochen: Welchen Einfluss hat die Entscheidung für eine bestimmte Befragungsform auf die Ergebnisse? Angesichts neuer Erhebungsformen (z. B. Onlinebefragungen) oder modifizierter Befragungsbedingungen hat diese Frage besondere Aktualität. Die ersten beiden Beiträge greifen diese Thematik für Telefonbefragungen, konkret für die aktuelle Problematik von Mobilfunkbefragungen auf. Tino Schlinzig und Götz Schneiderat gehen der Frage nach, wie sinkenden Ausschöpfungsraten begegnet werden kann. Dabei untersuchen sie die Teilnahmebereitschaft an Mobilfunkbefragungen und zeigen, dass eine Vorankündigung per SMS die Teilnahmebereitschaft erhöhen kann. Zudem überprüfen sie die Praktikabilität und die Effekte eines neuen Auswahlverfahrens auf Haushaltsebene – der randomisierten Geburtstagsauswahl – für Festnetzbefragungen. Michael Häder, Mike Kühne und Tino Schlinzig untersuchen Mode-Effekte bei Festnetz- und Mobilfunkbefragungen anhand von Item-Nonresponse und Erinnerungsfragen und kommen zum Schluss, dass unter Berücksichtigung bestimmter Umstände beide Verfahren durchaus parallel eingesetzt werden können. Eine andere Methode stellt Julia Simonson vor, nämlich die vor allem für die Befragung von Kindern und Jugendlichen eingesetzte Klassenzimmerbefragung. Besondere Aufmerksamkeit schenkt die Autorin dabei Fragen der Datengüte, konkret der Validität und der sozialen Erwünschtheit beim Antwortverhalten. Schließlich beschäftigt sich Monika Taddicken in ihrem Beitrag mit Methodeneffekten von Web-Befragungen im Vergleich zu schriftlicher Befragung bzw. CATI. Die festgestellten Effekte interpretiert sie dabei als Folge der eingeschränkten Kommunikationskanäle bei der computervermittelten Kommunikation im Spannungsfeld zwischen sozialer Erwünschtheit und sozialer Entkontextualisierung. Die Beiträge des zweiten Blocks, Computerbasierte Befragungen, beschäftigen sich mit den Möglichkeiten und Grenzen, die Befragungen am Computer und dabei vor allem Online-Befragungen bieten. Joachim Gerich zeigt die Möglichkeiten und Folgen der Einbindung multimedialer Elemente in der Datenerhebung. Er vergleicht den Einsatz auditiver und visueller Elemente in der computergestützten Befragung mit ,konventionellen‘ Onlinebefragungen, wobei er eine Verbesserung der Datenqualität feststellt und diese mit der höheren Zahl an Kommunikationskanälen bzw. 11
Martin Weichbold, Johann Bacher, Christof Wolf
,Social Cues‘ begründet. Albert Greinöcker präsentiert die Ergebnisse seiner Experimente mit unterschiedlichen Gestaltungsformen von Skalenfragen (und dabei insbesondere visueller Analogskalen), wobei nicht nur Unterschiede im Antwortverhalten untersucht werden, sondern über das Abbruchverhalten, die Messung von Antwortdauern sowie die Bewertung der verschiedenen Formen durch die Befragten auch deren Einsatz in der Praxis evaluiert wird. Einem zentralen Einwand gegen Online-Befragungen, nämlich der fehlenden Repräsentativität, widmen sich Jörg Blasius und Maurice Brandt. Sie schlagen für Online-Panels vor, nicht wie bisher oft üblich, Daten nachträglich zu gewichten, sondern eine geschichtete Stichprobe zu ziehen, und untermauern ihren Vorschlag durch einen Vergleich mit ALLBUS-Daten. In den fünf Beiträgen des dritten Blocks geht es um Stichproben. Sabine Häder, Matthias Ganninger und Siegfried Gabler fragen, wie die bestmögliche Stichprobe für eine allgemeine Bevölkerungsumfrage in Europa aussieht, und stellen den im European Social Survey gewählten Ansatz dar. Die AutorInnen argumentieren, dass die optimale Stichprobenstrategie für einen länderübergreifenden Survey nicht in der Wahl des gleichen Stichprobenplanes in jedem Land bestehen kann, sondern in der Wahl der für jedes Land besten Zufallsstichprobe. Der Beitrag zeigt, wie die durch unterschiedliche Stichprobendesigns entstehenden Unterschiede in den Auswahlwahrscheinlichkeiten durch Design-Gewichte ausgeglichen und wie aus diesen vergleichbare „effektive“ Stichprobenumfänge berechnet werden können. Die internationale Perspektive wird ergänzt durch einen intertemporalen Vergleich, den Folkert Aust und Helmut Schröder vorlegen. Sie untersuchen das Phänomen sinkender Ausschöpfungsquoten in der Umfrageforschung. Dazu können sie auf einen Fundus von 132 Studien zurückgreifen, die infas – Institut für angewandte Sozialwissenschaft in Bonn seit den 1990er Jahren im Bereich Sozialforschung durchgeführt hat. Die Autoren untersuchen, ob tatsächlich ein Rückgang der Ausschöpfung beobachtet werden kann und mit welchen Merkmalen der Studien die Ausschöpfungsquote variiert. Wie so häufig zeigen die Ergebnisse ein differenziertes Bild: So bestätigt sich zwar insgesamt der Befund rückläufiger Ausschöpfungsquoten, allerdings zeigt sich auch, dass dies insbesondere für allgemeine Bevölkerungsumfragen gilt, während bei Erhebungen in spezifischen Zielgruppen nach wie vor eine gute Ausschöpfung realisiert werden kann. Mit der Teilnahme an Befragungen beschäftigt sich auch Volker Hüfken. Er untersucht am Beispiel des deutschen Teils des International Social Survey Programmes (ISSP) die Bereitschaft, sog. Drop-off-Fragebögen zu beantworten, also Fragebögen, die dem Befragten im Anschluss an ein 12
Herausforderungen und Grenzen der Umfrageforschung. Zur Einleitung
Face-to-face-Interview ausgehändigt werden. Seine Analysen belegen u. a., dass der Item-nonresponse in der vorangegangenen Face-to-face-Befragung ein guter Prädiktor für die Nichtbeantwortung des Drop-off-Fragebogens ist. Einer ganz anders gearteten Fragestellung gehen Sabine Häder und Siegfried Gabler nach. Sie stellen sich die Frage, wie angesichts einer tendenziell sinkenden Abdeckung der Bevölkerung mit Festnetzanschlüssen und einer entsprechenden Zunahme von Personen, die ausschließlich über einen mobilen Telefonanschluss erreicht werden können, zukünftig Zufallsstichproben für telefonische Befragungen realisiert werden können. Sie zeigen in ihrem Beitrag, wie zwei Stichprobenrahmen, einer für Telefonnummern aus dem Festnetz, einer für Telefonnummern mobiler Anschlüsse, miteinander verbunden werden können. Der letzte Beitrag aus dem Block Stichproben bezieht sich nicht auf die Datenerhebung, sondern auf die Auswertung von Daten. Johann Bacher stellt in seinem Beitrag dar, wie die Eigenschaften der in der Praxis ganz überwiegend verwendeten „komplexen“ Stichprobenverfahren – also Abweichungen von einfachen Zufallsauswahlen – bei der Analyse von Daten, genauer bei der statistischen Inferenz, angemessen berücksichtigt werden können. Da die Verwendung der bis heute üblichen Standardverfahren bei Abweichungen von der Annahme einfacher Zufallsauswahlen zu Fehlschlüssen führen kann, geht es nicht einfach nur um statistische Finesse. Bacher zeigt, wie die heute in gängigen Standardstatistikprogrammen zur Verfügung stehenden Verfahren zur Berücksichtigung des Stichprobendesigns praktisch eingesetzt werden können. Der Frage, welche Probleme bei der Befragung von spezifischen Zielgruppen auftreten und wie diese gelöst werden können, widmen sich die Beiträge des vierten Blocks. Die bis vor einigen Jahren noch oft gepflegte Praxis, Personen ohne ausreichende Deutschkenntnisse aus Untersuchungen einfach auszuschließen, wird zunehmend als problematisch wahrgenommen. Von daher ist es verständlich, dass versucht wird, MigrantInnen in Umfragen einzubeziehen, auch wenn sie keine ausreichenden Deutschkenntnisse haben. Welche Anforderungen sich aus dieser Zielsetzung ergeben, erörtert Bettina Stadler am Beispiel des österreichischen Mikrozensus. Aufgrund bisheriger Erfahrungen vertritt sie die These, dass keine neuen zusätzlichen Probleme auftreten, dass aber die bekannten Probleme von Umfragen besonders deutlich sichtbar werden, wie eine sorgfältige Definition der Grundgesamtheit, die Frageformulierung und die Gestaltung der Interviewsituation. Der Beitrag von Wolfgang Aschauer geht von einer etwas anderen Ausgangssituation aus. Basis seines Beitrages ist eine Befragung von ZuwanderInnen mit Problemen am Arbeitsmarkt. Dabei untersucht er die 13
Martin Weichbold, Johann Bacher, Christof Wolf
Schwierigkeiten und Besonderheiten, die bei der Befragung von MigrantInnen auftreten können und kommt zum Vorschlag, speziell zugeschnittene Forschungsdesigns zu entwickeln. Mit der Erfassung der Situation von Personen mit gesundheitlichen Beeinträchtigungen (Behinderungen, chronischen Krankheiten oder sonstigen gesundheitlichen Beeinträchtigungen) im Rahmen von standardisierten Umfragen setzt sich der Beitrag von Angela Wroblewski auseinander. Eine besondere Herausforderung sieht sie dabei neben der Frage nach Zugangsbarrieren für bestimmte Gruppen von behinderten oder gesundheitlich beeinträchtigten Personen in der adäquaten Erfassung der Formen der Beeinträchtigungen, insbesondere aufgrund des hohen Anteils von Mehrfachbeeinträchtigungen. Dabei spielt auch das Wording für die Akzeptanz der Befragung eine besondere Bedeutung. Auf einen speziellen Aspekt der Datenqualität konzentriert sich schließlich in diesem Block der Beitrag von Marek Fuchs. Untersucht wird das Auftreten von ItemNonresponse bei Befragungen von Alten und Hochbetagten. Datenbasis ist die Berliner-Altersstudie (BASE). Die Analysen bestätigen die Ergebnisse anderer Studien dahingehend, dass mit dem Alter der Item-Nonresponse steigt. An der oft vertretenen These, dass der Alterseffekt primär durch ein rückläufiges Arbeitsgedächtnis erklärt werden kann, sind nach den Ergebnissen von Fuchs aber Zweifel angebracht. Der fünfte Block widmet sich spezifischen Herausforderungen der Großforschung, wo man vor der Notwendigkeit steht, Daten aus unterschiedlichen Erhebungskontexten miteinander zu kombinieren. Anja Kettner und Michael Stopps weisen in ihrem Beitrag auf ein großes Problem der international vergleichenden Forschung hin: Gleich bezeichnete Größen, z. B. ,Arbeitslosigkeit‘ oder ,Bruttosozialprodukt‘, werden in verschiedenen Ländern unterschiedlich definiert und operationalisiert. Am Beispiel der europäischen Statistik zur Anzahl und Struktur offener Stellen zeigen die Autoren, dass die von Eurostat veröffentlichten Angaben für Vergleiche nationaler Arbeitsmärkte und nationaler Arbeitsmarktpolitiken derzeit kaum geeignet sind. Ihre Analyse zeigt, dass nicht nur die statistischen Definitionen und die eingesetzten Methoden beträchtlich zwischen Ländern variieren, sondern auch die Qualität der erhobenen Daten. Indem die Autoren detailliert beschreiben, wo die Unterschiede zwischen Ländern liegen, leisten sie gleichzeitig einen entscheidenden Beitrag zur Harmonisierung der Datengewinnung, Datenaufbereitung und Datenanalyse für den Gegenstandsbereich „offene Stellen“. Einen anderen Aspekt von Großforschung thematisieren Sandra Buchholz, Michael Ruland, Benno Schönberger, Hans-Peter Bloßfeld, Dirk Hofäcker und Marcel Raab. Sie sehen eine der wesentlichen Herausforderungen bei der Analyse international vergleichender Umfrage14
Herausforderungen und Grenzen der Umfrageforschung. Zur Einleitung
daten in der angemessenen Integration länderübergreifender Makrotrends, und hier insbesondere von Prozessen länderübergreifenden sozialen Wandels („Globalisierung“). In ihrem Beitrag berichten die Autoren über die Konstruktion eines Globalisierungsindex, der als Zeitreihe auf Länderebene verfügbar ist, und zeigen, wie er als Kontextmerkmal mit Daten aus der Umfrageforschung kombiniert werden kann. Aber auch innerhalb einer Erhebung kann es notwendig sein, unterschiedliche Daten zu kombinieren: Bei Befragungen werden mitunter Fremdauskünfte durch nahe stehende Personen eingeholt. So können z. B. sowohl im deutschen als auch im österreichischen Mikrozensus andere Haushaltsmitglieder Auskünfte über nicht anwesende Haushaltsmitglieder geben. Ein Rückgriff auf Fremdauskünfte kann auch im Fall der Nichtbefragbarkeit, z. B. aufgrund von Krankheit, erforderlich sein. Ob diese Fremdauskünfte, die als Proxy-Interviews bezeichnet werden, zu Antwortverzerrungen führen, behandeln Paul Lüttinger und Christof Wolf in ihrem Beitrag am Beispiel des deutschen Mikrozensus. Sie gehen der Frage nach, wer bzw. für wen Fremdauskünfte gegeben werden. Dabei zeigen sich systematische Muster, die nahe legen, dass systematische Verzerrungen auftreten können. Alternative Befragungstechniken behandelt der sechste Block. Basis des Beitrages von Stefanie Eifler, Daniela Thume und Rainer Schnell ist das DEFECT-Projekt. Hauptziel dieser Studie war die empirische Untersuchung von Standardfehlern bei komplexen Stichproben. Inhaltlich wurden kriminalsoziologische Aspekte erfasst. In der Analyse wird auf zwei Datenquellen zurückgegriffen, nämlich Befragungs- und Beobachtungsdaten der Wohnumgebung. Untersucht wird, wie Unterschiede in diesen beiden Datenquellen erklärt werden können, wobei sich zeigt, dass verschiedene Formen der Viktimisierung dafür verantwortlich sind. Georgios Papastefanou gibt in seinem Beitrag einen systematischen Überblick über die Einsatzmöglichkeiten von ambulatorischem Assessment in der empirischen Sozialforschung. Ziel des ambulatorischen Assessments ist die objektive Erfassung von Befindens- und Verhaltensdaten durch den Einsatz von technischen Hilfsmitteln. Dadurch sollten Probleme der retrospektiven Befragung vermieden werden. In der empirischen Sozialforschung existieren bereits erste Anwendungsbeispiele, über die der Autor ebenfalls informiert. Henrik Kreutz stellt in seinem Beitrag die von ihm in den 1970er Jahren entwickelte quasi-experimentelle Befragungsmethode dar. Sie ist der Vignettentechnik ähnlich, unterscheidet sich von dieser aber elementar. Jede Person beantwortet alle Vignetten und zu jeder Vignette werden unterschiedliche Reaktionen erfasst. Dadurch ist es möglich, für jede Person eine individuelle Varianzanalyse durchzuführen, die eine Trennung von Situation und Verhal15
Martin Weichbold, Johann Bacher, Christof Wolf
tensabsichten ermöglicht. Besonderes Gewicht wird auf Interaktionseffekte von Person und Situation gelegt. Das Verfahren ermöglicht die Bestimmung homogener Teilpopulationen. Dargestellt wird auch eine Möglichkeit, Ambivalenzen sinnvoll zu untersuchen. Eine bisher wenig beachtete, statistisch aber reizvolle Methode für heikle Fragen zeigt Andreas Quatember in seinem Beitrag auf, nämlich die Methode von randomisierten Fragedesigns. Dabei zieht der Befragte nach einem vorgegebenen Designplan eine Frage – im einfachen Fall: „Gehören Sie der Gruppe A an?“ oder „Gehören Sie nicht der Gruppe A an?“ – und beantwortet diese. Dem Interviewer/der Interviewerin ist die Frage nicht bekannt, so dass ein Rückschluss auf das Verhalten oder auf Merkmale der befragten Person nicht möglich ist. Es ist also maximale Anonymität gegeben. Der Autor stellt von ihm vorgenommene Weiterentwicklungen der Methode dar und behandelt die Frage nach optimalen Befragungsdesigns. Die Beiträge im siebenten und letzten Block dieses Bandes beschäftigen sich mit methodologischen Grundfragen der Umfrageforschung. Reinhard Bachleitner und Wolfgang Aschauer fragen, inwieweit Umfrageergebnisse von der Situation, genauer von Raum, Zeit und Befindlichkeit der beteiligten Personen abhängen. Um das zu zeigen, präsentieren die Autoren ein Analyseraster, das nicht auf die Analyse soziodemographischer und sozioökonomischer Einflüsse auf die Antwortwahl abzielt, sondern mögliche Einflüsse für die getroffene Antwortentscheidung auf der Situationsebene erfasst. Das Ziel der Untersuchung ist, zu einer Theorie der Befragung beizutragen, die auf Grundlage der Frame-Selektion-Theorie (Esser, 2006) die Ergebnisse der Bias-Forschung umfassend integriert. Markus Pausch geht es in seinem Beitrag um die Funktion des Eurobarometers für die Schaffung eines europäischen Bewusstseins. Der Fokus des Beitrags liegt daher weniger auf den methodischen Details des Eurobarometers, sondern auf den für die politische Debatte relevanten Interpretationen und den Veröffentlichungen der Europäischen Kommission. Im abschließenden Beitrag geht Martin Weichbold der Frage nach, wie die Qualität einer Umfrage beurteilt werden kann. Dabei werden unterschiedliche Ansätze diskutiert, die in der Konzeption von Qualität und in der Umsetzung dieser Konzeption differieren. Der Autor stellt verschiedene Kataloge von Qualitätskriterien vor und zeigt, dass sich diese mit dem Konzept des Total Survey Error, das inhaltliche und prozessorientierte Qualitätskonzeptionen verbindet, integrieren lassen. Unser Dank gilt allen, die zum Gelingen dieses Bandes beigetragen haben. Für die finanzielle Unterstützung danken wir dem Bundesministerium für Wissenschaft und Forschung in Wien, GESIS – Leibniz-Institut für Sozialwis16
Herausforderungen und Grenzen der Umfrageforschung. Zur Einleitung
senschaften, der Stiftungs- und Förderungsgesellschaft der Paris-LodronUniversität Salzburg sowie dem Linzer Hochschulfonds (LHF). Besonderer Dank für die tatkräftige und kompetente Unterstützung bei den redaktionellen Arbeiten gebührt Frau Heidemarie Pöschko sowie Frau Sonja Schinwald, die auch die Tagung in Salzburg in hervorragender Weise organisatorisch betreut hat.
Anmerkung 1
Quelle: Arbeitskreis deutscher Sozial- und Marktforschungsinstitute,www.adm-ev.de/ zahlen.html.
Literatur Esser, H. (2006). Affektuelles Handeln: Emotionen und das Modell der Frame-Sektion. In Schützeichel, R. (Hg.), Emotionen und Sozialtheorie. Disziplinäre Ansätze (143–174). Frankfurt am Main: Campus. Kaase, M. (Hg.) (1999). Deutsche Forschungsgemeinschaft: Qualitätskriterien der Umfrageforschung. Quality Criteria for Survey Research. Berlin: Akademie Verlag. König, R. (1952). Praktische Sozialforschung. In Ders. (Hg.), Das Interview. Formen Technik Auswertung. Köln: Kiepenheuer & Wietsch. Pfau-Effinger B., & Sakac Magdalenic, S., & Wolf, C. (Hg.) (2009). International vergleichende Sozialforschung. Ansätze und Messkonzepte unter den Bedingungen der Globalisierung. Wiesbaden: VS Verlag. Scheuch, E. K. (1999). Die Entwicklung der Umfrageforschung in der Bundesrepublik Deutschland in den siebziger und achtziger Jahren. ZUMA-Nachrichten, 45, 7–22 Weischer, C. (2004). Das Unternehmen ,Empirische Sozialforschung‘. Strukturen, Praktiken und Leitbilder der Sozialforschung in der Bundesrepublik Deutschland. München: Oldenbourg. Weichbold, M. (2005). Touchscreen-Befragungen. Neue Wege in der empirischen Sozialforschung. Frankfurt am Main: Lang.
17
1 Methodeneffekte
Tino Schlinzig, Götz Schneiderat
Tino Schlinzig, Götz Schneiderat
Möglichkeiten zur Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk Zum Potenzial von Warmkontakt und randomisierter Geburtstagsauswahl Zusammenfassung Telefoninterviews nehmen mit einem Anteil von etwa 41 Prozent an allen Befragungen in der Markt- und Sozialforschung eine bedeutsame Stellung im sozialwissenschaftlichen Methodenarsenal ein. Die Vorzüge dieses Modes gegenüber beispielsweise postalischen Befragungen sind in der Literatur hinlänglich besprochen worden. Allerdings haben Telefoninterviews ähnlich wie andere Modes mit dem Problem sinkender Ausschöpfungsquoten zu kämpfen. Insbesondere die Zunahme der über Telefon geführten kommerziellen Verkaufsgespräche leistet diesem Trend bei Befragungen über das Festnetz Vorschub. Im Folgenden werden zwei Möglichkeiten vorgestellt, dem Trend rückläufiger Responseraten entgegenzuwirken. Die Daten hierzu entstammen zwei Vorstudien und der Haupterhebung eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts zu Möglichkeiten einer parallelen CATIBefragung über Festnetz und Mobilfunk. Insgesamt wurden hierfür bundesweit knapp 3.500 Personen zufällig befragt. Zentral für dieses Projekt waren auch die Fragen nach möglichen Mode-Effekten (vgl. Häder & Kühne & Schlinzig in diesem Band) und der Ergründung eines Dual-Frame-Approaches zur Stichprobenziehung bei gleichzeitiger Nutzung von telefonischen Befragungen über das Festnetz und über den Mobilfunk (vgl. Gabler & Häder in diesem Band). Der vorliegende Beitrag referiert zum einen die Ergebnisse zur Wirkung eines Warmkontakts via Ankündigungs-SMS bei Befragungen über das Mobilfunknetz und zum anderen das Potenzial eines neuen Auswahlverfahrens auf Haushaltsebene bei Festnetzbefragungen als Alternative zu Last-/Next-Birthday-Methode und Kish-Selection-Grid. Die Befunde zeigen, dass der für die Befragung über Mobilfunk realisierte Warmkontakt und die für die Befragung auf Festnetz eingesetzte Randomisierte Geburtstagsauswahl (RGA) praktikabel sind und die Teilnahme an Telefonumfragen steigern können.
21
Tino Schlinzig, Götz Schneiderat
Abstract Possibilities to Improve Response Rates in Landline and Mobile Telephone Surveys On Effects of Prior Notices and an Alternative Within Household Respondent Selection Technique In empirical social science and market research, up to 41 per cent of all surveys are conducted via telephone. There is a broad corpus of literature that extensively discusses the advantages of this mode. However, interviews conducted by telephone as well as other modes are faced with declining response rates. Especially increasing numbers of commercial surveys and sales via telephone promote this trend. This article focuses on the potential of two instruments to increase response rates. For one thing a split ballot was deployed to examine effects of warm contacts in a mobile phone survey and for another thing alternatively to last-/next-birthday-method and kish-selection-grid a new withinhousehold respondent selection-method was introduced in a telephone survey conducted via landline. Data collected in a project financed by the German Research Foundation (DFG) concerned with telephone interviews conducted both by landline and mobile phone provide evidence that both instruments mentioned above do have the potential to increase response rates. This approach investigated a dual-frame-design (see Gabler & Häder this volume). Respondents were contacted both via mobile phone and landline. Altogether – pre-studies and main study – about 3.500 interviews could be realised. Furthermore the project focused on possible mode effects by parallel using of telephone surveys via landline phones and mobile phones (see Häder & Kühne & Schlinzig this volume).
1 Einleitung und Problemstellung Verschiedenste gesellschaftliche Akteure stützen ihre Argumentationen und Interventionen auf Daten aus sozialwissenschaftlichen Erhebungen. Dabei wird fast jede zweite Studie (etwa 41%) im Bereich der Marktforschung und Sozialwissenschaft über das Telefon realisiert.1 Die Güte dieser Daten ist daher von zentraler Bedeutung. Sie ergibt sich unter anderem aus der Qualität der realisierten Stichprobe. Als ein Indikator hierfür gilt die Höhe der Ausschöpfung als Anteil der erreichten Stichprobe am Nettoansatz (Bruttoausschöpfung). Umso problematischer ist, dass die Responseraten differenziert nach eingesetztem Mode in den letzten Jahren sinken (vgl. Curtin & Presser & Singer 2005; Däubler 2002; de Heer 1999; Schnell 1997). Besonders von Interesse ist hierbei der Anteil systematischer Ausfälle, die zu einer Verzer22
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
rung der Stichprobe führen können. Die Qualität, insbesondere von Befragungen der Allgemeinbevölkerung, leidet neben dem Anteil an nicht erreichbaren Personen sowie Personen, die nicht in der Lage sind, an einer Befragung teilzunehmen, unter einem zunehmenden Anteil von Kontaktierten, die eine Teilnahme verweigern (Non-Response). Etliche Ansätze versuchen dieser Entwicklung etwas entgegenzusetzen. So untersuchten unter anderem Blasius und Reuband (1995) das Ausschöpfung steigernde Potenzial verschieden häufiger Kontaktversuche. Hüfken (2000) diskutierte in seinem Beitrag die Konsequenzen von Kalt- und Warmkontakten für das Kooperationsverhalten. Den in den Einleitungstexten genannten Auftraggeber variierten Meier und Kollegen (2005) und reicherten diese in einem Split durch eine einfach zu beantwortende Eingangsfrage an und erreichten darüber eine signifikante Steigerung der Teilnahme. Aus der Methodendiskussion um Telefonumfragen ist bekannt (vgl. exemplarisch Meier et al. 2005; Fuchs 1994), dass die Entscheidung der Befragten, an einer Umfrage teilzunehmen, in der ersten Phase des Interviews – in der des ersten Kontaktes – fällt. Wurde in ein Interview eingewilligt, ist eine Verweigerung eher unwahrscheinlich. Große Bedeutung kommt daher Strategien zu, welche die kritische Phase zu entschärfen, Verweigerungen zu vermeiden und damit die Ausschöpfung potenziell zu erhöhen vermögen. Zwei Möglichkeiten wurden im Rahmen des hier vorgestellten DFG-Projekts erprobt. Eine mögliche Strategie stellt die vor der Erhebung versandte Ankündigung der Untersuchung dar. Üblicherweise werden hierzu ein paar Tage vor den ersten Kontaktversuchen postalisch Informationsschreiben versandt. Die neben der Befragung über Festnetz parallel erfolgte Befragung über Mobilfunk bot hierzu allerdings technisch die Möglichkeit, neue Wege zu gehen und zur Ankündigung der Studie Textmitteilungen (SMS) über Handy an potentielle Befragte zu versenden (vgl. Steeh & Buskirk & Callegaro 2007; Steeh & Piekarski 2008, 439 ff.). Der dabei eingesetzte Split sollte die Frage beantworten, ob und falls ja, in welchem Ausmaß sich Unterschiede hinsichtlich der Responseraten durch den Einsatz eines solchen Warmkontaktes bei den beiden Handy-Substichproben ergeben und wie dies ggf. zu erklären ist. Eine weitere Strategie, von der vermutet werden kann, dass sie die prekäre Einstiegssituation zu entschärfen und darüber hinaus die Ausschöpfung tendenziell zu erhöhen vermag, stellt eine alternative Methode zur Auswahl der Zielperson auf Haushaltsebene dar. Erstmalig eingesetzt wurde die von Siegfried Gabler (GESIS-Mannheim) entwickelte sogenannte ,Randomisierte Geburtstagsauswahl‘ (RGA). Diese berührt einen Problemkreis, der innerhalb der Methodendiskussion um Telefonumfragen über das Festnetz be23
Tino Schlinzig, Götz Schneiderat
kannt ist, nämlich die Auswahl auf Haushaltsebene bei Zufallsstichproben (vgl. Gaziano 2005; Salmon & Nicols 1983; Kish 1949, 1965; Troldahl & Carter 1964). Die bisher bekannten Verfahren, Last- und Next-Birthday-Methode sowie Kish-Selection-Grid u. a., sind stichprobentheoretisch problematisch vor allem für Surveys, die in regelmäßigen Abständen in gleichen Zeiträumen Erhebungen durchführen. Darüber hinaus provozieren sie Verweigerungen der kontaktierten Personen. Den Befragten wird der Hintergrund einer zusätzlichen Auswahl auf Haushaltsebene offenbar nicht deutlich bzw. werden Nachfragen des Interviewers nach Haushaltsinterna – etwa nach der Anzahl der Personen im Haushalt, deren Alter und dergleichen – von den Kontaktierten als Zumutung betrachtet (vgl. Fuchs 1994, 167). Diese Problematik kann die RGA sicherlich nicht gänzlich ausräumen. Ihr entscheidender Vorteil ist jedoch, dass sie unterschiedliche Inklusionswahrscheinlichkeiten der Stichprobenelemente besser ausgleicht als bisher verwendete Methoden. Dieser Aspekt ist für die folgende Diskussion jedoch von untergeordneter Bedeutung. Im Fokus dieses Artikels steht vielmehr die Frage, ob dieses auf den ersten Blick komplexe Verfahren praktisch einsetzbar ist, d. h. mehr Abbrüche befördert oder gar eine Ausschöpfung steigernde Wirkung entfalten kann. Letzteres ist wahrscheinlich, wenn davon ausgegangen wird, dass vergleichsweise komplexe Eingangsfragen eher stimulierend als abschreckend auf die Befragten wirken und die Bindung der Kontaktierten an die Interaktion mit dem Interviewer steigern.
2 Untersuchung Die hier vorgestellten Ergebnisse entstammen dem von der Deutschen Forschungsgemeinschaft (DFG) von 2006 bis 2008 geförderten und durch den Lehrstuhl für Methoden der empirischen Sozialforschung der Technischen Universität Dresden in Zusammenarbeit mit der GESIS-Mannheim ausgeführten Projekt ,Telefonbefragungen in der Allgemeinbevölkerung über das Mobilfunknetz‘ (vgl. Häder & Häder 2009). Ausgangspunkt ist die seit 2003 rückläufige Ausstattung der Haushalte mit Festnetzanschlüssen in Deutschland, während der Anteil der exklusiven Mobilfunknutzer steigt (vgl. Glemser 2007, 11). Dieser Anteil wurde beim ersten Treffen der Arbeitsgruppe Mobilsample im Jahre 2005 auf sieben bis acht Prozent geschätzt (vgl. Mobilsample 2005). Eine aktuelle Erhebung im Rahmen des EUROBAROMETER (2008) weist bereits einen Anteil von 11 Prozent aus.2 Erfahrungen aus anderen europäischen Ländern, etwa aus Finnland (61 Prozent) oder der 24
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
Tschechischen Republik (64 Prozent), lassen vermuten, dass sich in Deutschland die Verdrängung des Festnetzes zugunsten der mobilen Telekommunikation in Zukunft eher beschleunigen wird. Die Aussagekraft von Bevölkerungsumfragen, deren Ergebnisse ausschließlich über das Festnetz gewonnen werden, muss daher immer mehr infrage gestellt werden. Ausgehend von dieser Problematik beschäftigt sich dieses Projekt mit der Möglichkeit, Telefonbefragungen in einem Mixed-Mode-Ansatz aus Mobilfunkund Festnetzanschlüssen durchzuführen und damit ein entsprechendes Design zu ergründen. Dies berührt verschiedene Problemkreise. Neben der Konstruktion eines geeigneten Auswahlrahmens für Handynummern, der im Gegensatz zum Festnetzanschluss nicht auf ein Listenverzeichnis aufbauen kann, und der Analyse von Modeeffekten zwischen Mobilfunk- und Festnetzbefragungen (vgl. hierzu die Beiträge von Gabler & Häder und Häder & Kühne & Schlinzig in diesem Band sowie eine detaillierte Darstellung bei Häder & Häder 2009) wendeten sich die Untersuchungen dem Problem sinkender Ausschöpfungsquoten bei Telefonumfragen zu.
2.1 Theoretischer Ausgangspunkt Etliche Untersuchungen haben Maßnahmen zum Gegenstand, welche die Bereitschaft der kontaktierten Personen zur Teilnahme an Befragungen beeinflussen sollen (vgl. Groves et al. 2006, 2004). Neben beispielsweise der Rolle der Thematik der Untersuchung, dem Einfluss des Auftraggebers, der Bedeutung von Kontaktzeiten, der Anzahl der Kontaktversuche und dem Einfluss geschulter Interviewerinnen und Interviewer ist bekannt, dass eine vorab getätigte schriftliche Ankündigung einer Studie die Teilnahmebereitschaft der Befragten zu beeinflussen vermag (vgl. Schneiderat & Schlinzig 2009; Steeh & Buskirk & Callegaro 2007; Mann 2005; Goldstein & Jennings 2002; Hüfken 2000, 11 ff.; Friedrichs 2000, 171 ff.; Frey & Kunz & Lüschen 1990; Groves & Snowden 1987; Dillman & Gallegos & Frey 1976). Die Teilnahme an einer Befragung und die Verweigerung lassen sich im Sinne der sozialen Austauschtheorie als Orientierung an individuellen Nutzen und Kosten modellieren (vgl. Gouldner 1960). Die Entscheidungsfindung für eine Handlungsalternative wird hierbei durch einen Ausgleich von Individualnutzen im Austausch der Akteure begriffen. Gleichsam wird das Teilnahmeverhalten der Befragten auch hierbei als ein Abwägungsprozess konzeptualisiert zwischen wahrgenommenen Vorteilen, Kosten und der Erwartung, dass längerfristig der Nutzen die Kosten übersteigt (vgl. Dillman 1991, 2000). Ziel muss daher sein, die wahrgenommenen Kosten zu verringern 25
Tino Schlinzig, Götz Schneiderat
und den erwarteten Nutzen zu steigern. Einen gangbaren Weg stellt dabei die Stärkung des Vertrauens der Befragten in die Erhebung und den Auftraggeber und das Angebot, auf zusätzliche Informationen bereits vor der Befragung zurückgreifen zu können, dar. Die Ankündigung einer Studie mittels Übermittlung einer SMS an die potentiellen Befragten als positiver, nichtmonetärer Anreiz vermag dies zu leisten. Der Vorkontakt und die Möglichkeit, weitere umfassende Informationen zu erhalten, können eine reziproke Verpflichtung seitens der Zielpersonen evozieren. Zu erwarten ist, dass die Kontaktierten der Bitte der Interviewerinnen und Interviewer um Teilnahme an der betreffenden Studie eher nachkommen, als dies ohne einen Warmkontakt der Fall wäre. Zudem kann eine Ankündigungs-SMS die Teilnahme an einer Befragung insofern begünstigen, als dass bei dem Kontaktversuch durch eine Interviewerin oder einen Interviewer – und damit verknüpft die Nennung des ausführenden Instituts und des Titels der Studie – die vorab erhaltenen und dadurch memorierten Informationen durch die Kontaktierten aktualisiert werden. Anderseits ist die Teilnahme an einer Befragung nicht in jedem Falle an bewusst geführte Abwägungsprozesse gebunden. Aufgrund der kurzen Einleitungsphase eines telefonischen Interviews wird bei der Informationsverarbeitung durch die Befragten schnell und effizient auf Urteilsheuristiken zurückgegriffen (Stroebe & Jonas & Hewstone 2002, 147). Die Wahrscheinlichkeit der Anwendung solcher Heuristiken ist auch in der Tendenz begründet, sich konsistent zu verhalten (vgl. Meier et al. 2005, 41). Das Abschlagen der Bitte um ein Interview nachdem bereits Fragen beantwortet wurden, würde ein inkonsistentes Verhalten bedeuten. Meier und Kollegen (2005) haben sich diesen Fakt zu Nutze gemacht, indem sie Einleitungstexten leicht zu beantwortende Fragen hinzufügten. Es ist zu erwarten, dass die Beantwortung dieser Frage zu Beginn des Interviews das Commitment an die Teilnahme erhöhen kann, sodass weniger Personen verweigern (vgl. ebd., 50). Ein solches Verhalten könnte durch die Befragten auch dann gezeigt werden, wenn bereits in der Kontaktphase des Interviews eine kleine, kognitiv vergleichsweise anspruchsvolle Aufgabe durch die kontaktierten Personen gelöst wird, wie dies bei der Ermittlung der Zielperson auf Haushaltsebene für Befragungen über das Festnetz notwendig ist. Gemäß der Theorie rationalen Handelns entscheiden sich Akteure in bestimmten Situationen für eine Handlungsoption, wenn – verglichen zu anderen Handlungsmöglichkeiten – die Kosten dieser, die sich ihrerseits aus Transaktions- und Opportunitätskosten zusammensetzen, relativ geringer ausfallen als der vermutete Nutzen (vgl. Esser 1986, 41). Diese Kalkulation fällt bei vielen Personen denkbar knapp aus, was zur Konsequenz hat, dass 26
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
diese Personen hinsichtlich ihrer Teilnahme indifferent sind und diese unter anderem von externen Faktoren abhängig machen. Neben der Erfüllung von Höflichkeitsnormen gegenüber dem Anrufenden sowie der höheren Bereitschaft, wissenschaftlichen Auftraggebern von Telefonumfragen Auskunft zu geben, steigern vor allem Abwechslung und neuartige Erfahrungen das Interesse an Befragungen (vgl. Esser 1986, 39). Anders als bei Festnetzbefragungen ist bei der Befragung über Handy mit geringerem Unit-Non-Response zu rechnen. Diese Annahme scheint insofern nahe liegend, als dass Befragungen über das Mobilfunknetz – abgesehen von Werbeanrufen des eigenen Mobilfunkanbieters – eher selten vorkommen, wie unsere Ergebnisse weiter unten zeigen können. Ein Over-Surveying und damit eine gewisse Sättigung, wie es aus Befragungen über das Festnetz bekannt ist, kann hier zunächst ausgeschlossen werden. Es ist zu vermuten, dass die Bitte um ein Interview via Handy ein gewisses Überraschungsmoment in sich birgt. Telefonbefragungen über das Handy sind vergleichsweise neu und versprechen damit einen Grad an Exklusivität und Verbindlichkeit seitens der befragenden Forschungseinrichtung. Hinzukommt, dass Mobilfunknummern in den aller wenigsten Fällen in öffentlich einsehbaren Listen eingetragen und damit zugänglich sind. In der Regel werden Handynummern durch die Nutzerinnen und Nutzer selbst an Dritte weitergereicht, d. h. die anrufenden Teilnehmerinnen und Teilnehmer sind zumeist bekannt. Insofern ist auch der Anruf einer unbekannten Interviewerin beziehungsweise eines unbekannten Interviewers – zumindest bisher – eher die Ausnahme und daher für die Angerufene oder den Angerufenen unerwartet. Es ist zu vermuten, dass das Interesse der Zielpersonen an der Umfrage durch dieses ,Versprechen‘ auf Abwechslung und Neuigkeit befördert wird und damit (zur Zeit) zu höheren Ausschöpfungen führen kann.
2.2 Studiendesign des DFG-Projektes Die diesem Artikel zugrunde liegenden Daten speisen sich außerdem aus zwei Vorstudien mit Pretest-Charakter. Die beiden Vorstudien, die von Oktober 2006 bis Juni 2007 im Feld waren, beschränkten sich ausschließlich auf bundesweite Befragungen über das Festnetz (Vorstudie 1: n = 920 und Vorstudie 2: n = 399). Für die Hauptstudie wurden im Telefonlabor des Zentrums für Sozialwissenschaftliche Methoden der Technischen Universität Dresden (ZSM) parallel über Mobilfunk und das Festnetz CATI-Interviews geführt. Die Interviews wurden sowohl für die beiden Vorstudien als auch für die Hauptstudie vorwiegend durch Studierende der Technischen Univer27
Tino Schlinzig, Götz Schneiderat
sität Dresden durchgeführt.3 Bevor die Studie ins Feld ging, erhielten die Interviewerinnen und Interviewer durch Personal des ZSM eine umfangreiche Schulung zur Durchführung von Telefoninterviews mit dem CATISystem. Die Befragten der Hauptstudie wurden für diese Dual-Frame-Erhebung aus zwei verschiedenen Auswahlrahmen rekrutiert (vgl. Gabler & Häder in diesem Band; Häder & Gabler & Heckel 2009). Die Ziehung der Stichprobe für die Festnetzbefragung erfolgte auf der Grundlage des an der GESISMannheim entwickelten und in der Literatur als Gabler-Häder-Design bekannten Auswahlrahmens für Telefonstichproben (vgl. Gabler & Häder 2002; Gabler & Häder 1999). Für die Entwicklung einer Handystichprobe wurde ein modifiziertes RDD-Design eingesetzt (vgl. Häder & Gabler & Heckel 2009). Insgesamt konnten im Rahmen der Haupterhebung 1.009 Interviews über Festnetz und 1.162 Befragungen über Mobilfunk realisiert werden.
2.3 Die eingesetzten Instrumente Um die ausschöpfungssteigernde Wirkung eines Warmkontaktes bei Mobilfunkbefragungen auszuloten, wurden im Voraus SMS-Textnachrichten an einen Teil der Nummern des Samples versandt. Die Prüfung der Praktikabilität und Wirkung eines neu entwickelten Auswahlverfahrens zur Bestimmung der Zielperson auf Haushaltsebene der Festnetzstichprobe erfolgte mittels eines Splits über die Feldzeit der Vorstudien und der Hauptstudie des DFG-Projekts hinweg.
Mixed-Mode-Ansatz Bekannt ist, dass je nach eingesetztem Mode unterschiedliche Ausschöpfungsraten erzielt werden können (vgl. Fuchs 2002; Porst 1998, 17; Schnell 1997; Fuchs 1994). Wenngleich der parallele Einsatz von Mobilfunk und Festnetz für bundesweite Befragungen im Rahmen dieses Projektes primär zur Lösung von Noncoverage- und Sampling-Errors (vgl. Gabler & Häder in diesem Band) und zur Ergründung möglicher Mode-Effekte (vgl. Häder & Kühne & Schlinzig in diesem Band) eingesetzt wurde, galt es mit diesem Mixed-Mode auch mögliche Differenzen hinsichtlich des Response-Verhaltens der Befragten zu ergründen. 28
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
Warmkontakt Studien zur Steigerung der Ausschöpfung konnten zeigen, dass – im Unterschied zu ,kalt‘ kontaktierten Personen – signifikant mehr Personen an der Befragung teilnehmen, wenn diese im Voraus durch eine Ankündigung über das Forschungsvorhaben und den bevorstehenden Kontaktversuch informiert wurden (vgl. Goldstein & Jennings 2002; Hüfken 2000; Frey & Kunz & Lüschen 1990; Dillman & Callegos & Frey 1976). Inwiefern die durch einen Vorkontakt erzielte Ausschöpfungssteigerung mit einer Erhöhung der Datenqualität einhergeht, steht auf einem anderen Blatt (vgl. Stoop 2005; Hüfken 2000, 11 ff.) und kann an dieser Stelle nicht weiter diskutiert werden. Ein postalischer Vorabkontakt im Rahmen von Telefonumfragen setzt voraus, dass die Adressen der Elemente des Samples bekannt sind. Das angewandte Design für Festnetzstichproben nach Gabler & Häder (2002, 1999) bietet diese Möglichkeit nicht bzw. nur für einen Teil der im Auswahlrahmen enthaltenen Nummern. Auch das genutzte RDD-Verfahren im Falle der Mobilfunkstichprobe erlaubt keinen Zugang zu den Adressdaten der potentiellen Befragten. Allerdings bot sich hier die Möglichkeit, im Voraus via SMS (Short Message Service) über die Studie zu informieren. Eingesetzt wurde ein Split, bei dem etwa 2/3 der Mobilfunknummern des Samples eine solche Ankündigung erhielten. Der Wortlaut der SMS folgte diesem Text: Das Institut für Soziologie der Technischen Universität Dresden wird Sie bald zum Mobilfunk befragen und dankt vorab für Ihre Teilnahme. www.tu-dresden.de/ handy. Die Mitteilungen waren auf 160 Zeichen begrenzt. Der Versand der SMS wurde über einen Internet-Dienstleister realisiert. Als Absenderkennung wurde eine Mobilfunknummer übermittelt. Dies bot den kontaktierten Personen die Möglichkeit, Anmerkungen und Fragen zurückzusenden. Die Ankündigung der Studie gab der Zielperson zudem die Gelegenheit, sich über die angegebene URL vor der eigentlichen Erhebung mit zusätzlichen Informationen auseinander zu setzen.4 Dort konnten Interessierte weiterführende Hinweise zur Stichprobenziehung, zu den Zielen, zum Thema der Befragung, zur Projektleitung und Kontaktdaten für eventuelle Nachfragen erhalten. Die Teilnahme konnte vor diesem Hintergrund insofern im Voraus abgewogen werden. Dies kann sich vorteilhaft auf die Bereitschaft zur Teilnahme auswirken. Genauso so gut kann jedoch eine solche Abwägung auch zuungunsten der Teilnahme ausfallen. So bietet eine Ankündigung für die potenziellen Befragten auch die Möglichkeit, Kontaktversuche abzuwehren und die Teilnahme an einer Umfrage zu verweigern. Dies wird insbesondere dann möglich, wenn die Telefonnummer der anrufenden Interviewerin oder des anrufenden Interviewers übermittelt wird, wie im Fall der hier diskutier29
Tino Schlinzig, Götz Schneiderat
ten Studie geschehen (Rufnummernübermittlung)5. Allerdings lässt sich vermuten, dass die Kontaktierten eine Teilnahme eher selten aufgrund der identifizierten Rufnummer verweigern (vgl. hierzu auch Curtin & Presser & Singer 2005, 92). Zudem sind die übermittelte Nummer der Ankündigungs-SMS und die der Interviewerin oder des Interviewers nicht identisch. Insofern konnte dieses Problem umgangen werden. Unklar bleibt jedoch, ob alle per SMS angesprochenen Handys technisch in der Lage waren, die versandten SMS anzuzeigen. Dies konnte im Rahmen der hier besprochenen Studie nicht eruiert werden. Die Übertragungsberichte des SMS-Providers hierzu sind in Teilen widersprüchlich. Der Erhalt der Textnachricht konnte ausschließlich durch die Nachfrage der Interviewerin oder des Interviewers verifiziert werden.6 Die Interviewerinnen und Interviewer waren vor den Erhebungen über den Versand der SMS informiert. Allerdings erhielten sie vor den eigentlichen Interviews keine Informationen darüber, ob die zu kontaktierende Person bereits durch die Ankündigung über den bevorstehenden Anruf im Bilde war. Insofern kann vermutet werden, dass die Verbesserung der Teilnahmebereitschaft der Respondentinnen und Respondenten nicht auf ein verändertes Verhalten der Interviewerinnen und Interviewer zurückzuführen ist. Dem Vorteil einer möglichen Ausschöpfungssteigerung stehen allerdings auch Kosten gegenüber. Der Preis pro SMS betrug in alle deutschen Netze 0,08 EUR. Bei einer Anzahl von 14.060 versandten SMS bedeutet das Mehrkosten in Höhe von etwa 1.125,– EUR. Ins Verhältnis gesetzt mit postalischen Vorankündigungen, fällt die Bilanz wiederum zugunsten des SMS-Versands aus. Für den Versand einer solchen Kurznachricht spricht zudem ihr Potenzial, den Handy-Auswahlrahmen um Rufnummern zu verringern, die aufgrund des Übertragungsberichtes zweifelsfrei als ,nicht geschaltet‘ identifiziert werden können (vgl. auch Steeh & Piekarski 2008; Steeh et al. 2007). Dies würde schlussendlich die Effizienz von Umfragen über Mobilfunk positiv beeinflussen, da weniger Kontaktversuche ins Leere verlaufen und damit weniger Versuche auf ein realisiertes Interview entfallen würden. Hierzu besteht allerdings noch Forschungsbedarf (vgl. Häder et al. 2009).
Randomisierte Geburtstagsauswahl Bei der verwandten Festnetzstichprobe handelt es sich zunächst um eine Haushaltsstichprobe. Auf Ebene der kontaktierten Haushalte muss die Zielperson in der Einleitungsphase des Interviews ermittelt werden, da Kontaktperson und Zielperson nicht notwendigerweise identisch sein müssen. Alternativ zu den gängigen Verfahren wurde in der Hauptstudie des Projektes 30
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
ein neues Verfahren erprobt, die Randomisierte Geburtstagsauswahl (RGA) (vgl. Schneiderat & Schlinzig 2009). Hierbei werden die Kontaktpersonen in der Screeningphase der Interviews zunächst darum gebeten, anzugeben, welche Person in dem betreffenden Haushalt vor bzw. nach einem randomisierten Geburtsdatum, welches der Telefonnummer im Sample zufällig zugeordnet wurde, als letztes oder als nächstes Geburtstag hat.7 Diese Abfrage hat einen entscheidenden Vorteil. Bei der Last- oder Next-Birthday-Methode haben etliche Personen der Grundgesamtheit keine positive Auswahlwahrscheinlichkeit. Eine Zufallsauswahl innerhalb des Haushalts ist damit nicht mehr gegeben. Dies ist insbesondere von Bedeutung für Studien wie dem European Social Survey (ESS), die in einem bestimmten Zyklus zu einem sich wiederholenden Zeitraum Befragungen durchführen. Eine mögliche Lösung wäre die Variation der Frage, wer als nächster Geburtstag hat oder als letzter Geburtstag hatte. In einem Zweipersonenhaushalt wäre hierüber die Zufälligkeit der Auswahl hergestellt. Anders sieht es jedoch bei Haushalten mit mehr als zwei Mitgliedern aus. Von denen hätten wiederum nur zwei eine positive Auswahlwahrscheinlichkeit. Mit der RGA hat zumindest jede Person im Haushalt eine positive Wahrscheinlichkeit, in die Auswahl zu gelangen. Die auf den ersten Blick recht aufwändige Prozedur lässt vermuten, dass die kontaktierten Personen bereits in der besonders prekären Einleitungsphase des Interviews ihre Teilnahme verweigern. Von Interesse dürften daher mögliche Differenzen in den Ausschöpfungen zwischen der in den Vorstudien verwendeten Last-Birthday-Methode und der RGA sein. Unterschiede können auch im direkten Vergleich zwischen Vor- und Hauptstudie beobachtet werden. Leider liegen an dieser Stelle keine Erkenntnisse darüber vor, inwiefern auf Grundlage dieses Verfahrens zum einen zuverlässige Angaben durch die Befragten gemacht worden sind und zum anderen die Auswahl korrekt verstanden wurde. Hierzu besteht noch Forschungsbedarf. Denkbar wäre es, hierzu Informationen über die Zusammensetzung der Haushalte mit den durch die Zielpersonen angegebenen Daten zu vergleichen (vgl. hierzu Fuchs 1994, 167).
3 Ergebnisse Im Folgenden werden die Befunde zur Kooperationsbereitschaft beim Warmkontakt und der Randomisierte Geburtstagsauswahl dargestellt. Die Kooperationsbereitschaft stellt nach Koch (1997) nur eine Art von Non-Response dar. Bei den Analysen soll davon ausgegangen werden, dass die ver31
Tino Schlinzig, Götz Schneiderat
wendeten Verfahren Warmkontakt durch SMS und Randomisierte Geburtstagsauswahl nur Einfluss auf den persönlichen Kontakt zwischen Interviewerin oder Interviewer und Kontaktperson bzw. Zielperson haben, nicht aber auf die anderen Arten der systematischen Ausfälle (mangelnde) Erreichbarkeit und Befragungsfähigkeit.8 Wie bereits diskutiert, stellen die ersten Sekunden des Telefonates den stärksten Indikator für die Teilnahme am Interview bzw. den Abbruch dar. Während die Zielperson durch die Ankündigungs-SMS schon vorinformiert ist, kann die Randomisierte Geburtstagsauswahl die Bereitschaft der Kontaktperson sensibilisieren und möglicherweise eher den Zugang zur Zielperson eröffnen. Aus den oben genannten Gründen werden daher die Erreichbarkeit und die Befragungsfähigkeit bei den Darstellungen der Befunde nicht berücksichtigt. Ein Einwand gegen dieses Vorgehen wäre, dass Personen, nachdem sie die SMS bekommen haben, die Dresdner Vorwahl recherchieren (unsere Rufnummer wurde bei der Befragung übermittelt) und nach der Zustellung der SMS ankommende Anrufe mit der besagten Vorwahl wegdrücken, nicht abnehmen oder das Gerät ganz ausschalten. Diese Annahme findet sich aber in unseren Daten nicht bestätigt.
Warmkontakt Die Ankündigung der Befragung per SMS wurde jeweils am Vortag eines Erhebungstags an 1.000 Telefonnummern versendet, die dann ins CATI-System eingespielt und abtelefoniert wurden. Durch diese Methode wurde ein zeitnaher Anrufversuch ermöglicht. Falls die Person nicht erreichbar war, ist die Telefonnummer entsprechend den Dispositionsvorgaben im System administriert worden (Wiedervorlage oder Ablage). Wie aus der Tabelle 1 ersichtlich, steigert die SMS-Ankündigung die Kooperationsbereitschaft um etwa 7,5 Prozent. Insofern unterscheiden sich diese Befunde von denen, die bei Steeh und Piekarski (2008) diskutiert werden. Es wurde auch untersucht, wie lange die Kontaktaufnahme dauert, also die Zeit, die zwischen der Begrüßung am Telefon und dem Start des Interviews vergeht. Die Dauer der Kontaktaufnahme ist im Mittel bei den Personen, die eine Ankündigungs-SMS erhalten haben, um etwa 10 Sekunden gegenüber dem Kaltkontakt kürzer. Die vergleichsweise lange Kontaktaufnahme im Festnetz kann mehrere Aspekte haben. Ein wichtiger Grund könnte in der dem Interview vorgeschalteten Haushaltsauswahlstufe liegen. 32
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
Tabelle 1: Kooperationsbereitschaft mit und ohne SMS-Ankündigung in der Hauptstudie (Angaben in Prozent) und Dauer der Kontaktphase (Mittelwerte) Zugangsmode
Handy
Handy mit SMS
Festnetz
Kooperationsbereit Nicht kooperationsbereit
34,90 65,10
42,25 57,75
29,50 70,50
n gesamt
1.189
1.768
3.420
Dauer der Kontaktphase Mittelwerte in Sekunden
49,73
38,68
87,37
Die Qualität einer jeden sozialwissenschaftlichen Erhebung ist die Frage nach einer möglichst genauen Abbildung der Gesamtpopulation. Damit anhand der erhobenen Daten Rückschlüsse auf und zuverlässige Aussagen über die Grundgesamtheit der untersuchten Population gemacht werden können, sollte die Zufallsstichprobe die Grundgesamtheit in allen Merkmalen möglichst adäquat abbilden. Ziel des Dual-Frame-Ansatzes aus Festnetz und Handystichprobe ist es, die Grundgesamtheit besser abzubilden als mit nur einer Substichprobe. Im Folgenden wird aber nur der Split mit und ohne Ankündigungs-SMS in der Handysubstichprobe gegenüber den Referenzdaten Mikrozensus 2006 dargestellt, nicht die Kombination beider Substichproben, die erwartungsgemäß eine bessere Abbildung der Gesamtpopulation hat (Befunde hierzu in Graeske & Kunz 2009). Tabelle 2: Randverteilungen demographischer Variablen im Mikrozensus 2006 und in der Hauptstudie bei Split mit und ohne Ankündigungs-SMS (in Prozent)
Geschlecht Weiblich Männlich n
Mikrozensus 2006
Handy
Handy mit SMSAnkündigung
Festnetz
51,2 48,8 70.786
42,4 57,6 415
41,8 58,2 747
57,8 42,2 1.009
33
Tino Schlinzig, Götz Schneiderat
Alter 16–19 Jahre 20–29 Jahre 30–39 Jahre 40–49 Jahre 50–59 Jahre 60–69 Jahre 70+ n Schulabschluss Hauptschulabschluss (8. Klasse) POS/Realschule (10. Klasse) Fachabitur/ Abitur ohne allgemeinen Schulabschluss n
5,9 15,3 17,1 20,4 16,4 15,3 15,5 66.819
6,5 26,9 19,9 26,2 15,8 8,5 2,6 386
3,3 25,7 22,9 26,2 16,2 6,3 2,8 717
4,7 14,6 18,0 23,6 17,6 15,0 11,3 951
42,8 28,6 25,2
17,1 30,9 51,3
18,4 39,0 41,4
21,2 33,2 45,0
3,4 68.082
0,8 392
1,3 713
0,7 912
Familienstand verheiratet, mit Ehepartner/in zusammenlebend verheiratet, von Ehepartner/in getrennt lebend ledig geschieden verwitwet n
53,3
42,2
42,8
55,2
2,1 29,3 7,1 8,2 70.786
2,4 43,0 9,8 2,7 377
3,5 43,1 9,4 1,1 712
1,7 26,8 8,4 7,9 1.063
1 Person 2 Personen 3 Personen 4 Personen 5 und mehr Personen n
22,0 36,9 18,6 15,7 6,7 70.786
19,4 29,2 21,8 21,5 8,0 376
20,1 32,4 19,8 18,0 10,3 716
16,8 35,1 21,0 16,5 10,6 1.063
Gewichteter Datensatz; ohne: Schüler, keine Angabe, weiß nicht.
Während hier keine Alters- und Geschlechtsunterschiede zwischen den Teilpopulationen warmer und kalter Erstkontakt festzustellen sind, unterscheiden sich die Teilpopulationen bei Schulabschluss und Haushaltsgröße. Dabei wird bei Warmkontakt die Grundgesamtheit hinsichtlich des Merkmales Schulabschluss und Haushaltsgröße etwas besser abgebildet. 34
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
Randomisierte Geburtstagsauswahl Die Randomisierte Geburtstagsauswahl wurde erstmalig auf der Mobilsample-Tagung der GESIS in Mannheim am 21. 11. 2006 vorgestellt. Von den dort vertretenen akademischen und kommerziellen Sozialforscherinnen und Sozialforschern wurde vehemente Kritik an der Implementierung dieses Auswahlverfahrens geübt. Auch wenn die RGA aus statistischen Motiven begründbar sei, könne sie aber weder Interviewer/innen noch Befragten zugemutet werden, so die einhellige Diskussionsmeinung. Im Zeitraum vom 13. November 2006 bis zum 29. Januar 2007 wurde im Rahmen des DFG-Projekts eine erste Vorstudie, eine bundesweite Befragung von 940 Personen über das Festnetz, durchgeführt. Insgesamt konnten 920 vollständige Interviews realisiert werden. Ab Januar 2007 wurde testweise der Split von RGA und Last-Birthday implementiert, so dass für die folgenden Analysen nur ein Teil der Daten der ersten Vorstudie zur Verfügung stehen. Der Split9 sollte Lerneffekte bei der Rekrutierung von Interviews ausschließen und uns zuverlässige Daten liefern, ob diese neue Haushaltsauswahl überhaupt praktikabel ist.10 Zunächst zeigt sich, dass weder die Interviewerinnen und Interviewer noch die Befragten besondere Probleme mit der neuen Haushaltsauswahl hatten. Dies spiegelt sich dann auch in den Daten wider. Überraschenderweise schien die neue Methode sogar zu einer besseren Ausschöpfung zu führen, wie die Steigerung von knapp 2 Prozentpunkten in Tabelle 3 belegt. Auch wenn die Steigerung bei den Fallzahlen nicht signifikant ist, führt die Randomisierte Geburtstagsauswahl nicht, wie zuvor befürchtet, zum zahlenmäßigen Einbruch bei den Interviews. Tabelle 3: Kooperationsbereitschaft bei Split Last-Birthday und RGA (Vorstudie 1)
Zugangsmode: Festnetz
Kein Split 13. 11. bis 18. 12. 2006
Split (50 : 50) 4. 1. 2007 bis 29. 1. 2007
Last-Birthday
Last-Birthday
RGA
Kooperationsbereit Nicht kooperationsbereit
28,10 71,90
28,32 71,68
30,20 69,80
n gesamt
2.327
452
457
Ungewichteter Datensatz
35
Tino Schlinzig, Götz Schneiderat
Der Kontaktperson wird in der Einleitung eine kognitiv anspruchsvollere Frage gegenüber dem Last-Birthday-Verfahren gestellt. Bei Last-Birthday muss sie vom gegenwärtigen Zeitpunkt zurückdenken, während sie bei dem gestellten willkürlich über das Jahr verteilten Datum, die Geburtstage und -monate aller Haushaltsmitglieder gedanklich durchgehen und dann die jeweilige Zielperson ermitteln muss. Durch die aufwendigere Informationssuche wird die Kontaktperson länger beschäftigt und kann weniger schnell das Telefonat abbrechen. Somit wird die Interaktion über die ersten kritischen Sekunden gehalten. Gleichzeitig hat die komplexere Geburtstagsfrage eine Tür öffnende Funktion (Foot-in-the-door technique). Die Kontaktperson wird aufgewertet und vermittelt eher den Zugang zur Zielperson. In diesem Zusammenhang stellt sich die Frage, ob sich die Daten innerhalb der RGA verändern, wenn die Kontaktperson gleich die Zielperson ist oder wenn die Kontaktperson nur vermittelt, selbst aber nicht am Interview teilnehmen darf. Die Daten zeigen, dass es keine Rolle spielt, ob die Zielperson die Kontaktperson ist oder nicht. Kontrolliert man Geschlecht und Alter hinsichtlich unterschiedlicher Ausschöpfung bei der Randomisierten Geburtstagsauswahl und der Last-Birthday-Auswahl, zeigen sich keine signifikanten Veränderungen. Auch bei der Bildung unterscheiden sich die Merkmale zwischen den Auswahlmethoden nicht signifikant, bei der RGA sind die Haupt- und Realschüler besser abgebildet und bei der Last-Birthday-Methode die Abiturienten. Als Referenz dient jeweils der Mikrozensus. Tabelle 4: Randverteilungen demographischer Variablen im Mikrozensus 2006 und in der Vorstudie 1 bei Last-Birthday und RGA (in Prozent)
Mikrozensus 2006
Kein Split 13. 11. bis 18. 12. 2006
Split (50 : 50) 4. 1. 2007 bis 29. 1. 2007
Last-Birthday
Last-Birthday
RGA
Geschlecht Weiblich
51,2
59,9
60,0
57,3
Männlich
48,8
40,1
40,0
42,7
70.786
669
140
131
n Alter
36
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
16–19 Jahre 20–29 Jahre 30–39 Jahre 40–49 Jahre 50–59 Jahre 60–69 Jahre 70+ n
Schulabschluss Hauptschulabschluss (8. Klasse) POS/ Realschule (10. Klasse) Fachabitur/Abitur ohne allgemeinen Schulabschluss n
5,9 15,3 17,1 20,4 16,4 15,3 15,5 66.819
6,1 18,6 18,5 18,6 14,4 12,5 11,3 639
4,4 14,0 17,6 19,1 22,8 8,1 14,0 136
2,4 13,7 21,8 21,0 17,7 14,5 8,9 124
42,8
18,9
20,0
19,5
28,6 25,2
33,1 46,5
26,9 50,8
42,4 35,6
3,4 68.082
1,5 593
2,3 130
2,5 118
Familienstand verheiratet, mit Ehepartner/in zusammenlebend verheiratet, von Ehepartner/in getrennt lebend ledig geschieden verwitwet n
53,3
44,7
50,0
44,9
2,1 29,3 7,1 8,2 70.786
3,9 36,3 8,0 7,2 640
0,0 36,6 3,7 9,7 134
10,2 30,7 8,7 5,5 127
1 Person 2 Personen 3 Personen 4 Personen 5 und mehr Personen n
22,0 36,9 18,6 15,7 6,7 70.786
27,3 32,5 16,1 17,3 6,6 639
29,1 29,9 21,6 14,2 6,7 136
22,8 41,7 21,3 9,4 3,9 126
Ungewichteter Datensatz; ohne: Schüler, keine Angabe, weiß nicht.
37
Tino Schlinzig, Götz Schneiderat
4 Diskussion Warmkontakt Ankündigungen haben Ausschöpfung steigernde Wirkung, so auch in der hier vorgestellten Studie. Den Gesprächen zwischen Interviewer/innen und Befragten in der Kontaktphase war zu entnehmen, dass viele Befragte bereits informiert waren, sich die Internetseite zum Projekt angesehen hatten oder es beabsichtigten. Aber durch die Ankündigung, so die Erfahrung unserer Interviewerinnen und Interviewer, waren auch die Argumente für Verweigerung bereits im Vorfeld zurechtgelegt. Es ist zu vermuten, dass die Entscheidung für Teilnahme und Nichtteilnahme reflektierter als beim Kaltkontakt sind. Dies wurde aber nicht getestet. Vorab getätigte Versuche, eine solche finanziell vergleichsweise günstige Lösung für das Festnetz zu realisieren, scheiterten. Vor allem die begrenzten technischen Möglichkeiten der meisten (älteren) Telefonapparate sprachen gegen den Einsatz eines solchen Instruments, da in diesem Fall der Empfang der Kurzmitteilungen über eine computererzeugte Sprachausgabe erfolgt. Die Qualität dieser Ausgabe ist zum jetzigen Stand nicht zufrieden stellend. Anders bei moderneren SMS-fähigen Endgeräten: Diese ermöglichen die Übertragung und den Empfang von Kurzmitteilungen in Textform. Mit steigendem Verbreitungsgrad dieser Technologien könnte es sich hierbei um einen gangbaren Weg für den Warmkontakt bei Telefonstudien über Festnetz handeln. Nachdem man bei telefonischen Befragungen bedingt durch den Auswahlrahmen weder Vorabbriefe noch materielle Incentives per Post mehr verschicken kann, bieten die neuen Kommunikationstechnologien wieder bessere Möglichkeiten für die Umfragepraxis. Die SMS ist im Mobilfunk flächendeckend verbreitet. Multimedia Messaging Service (MMS) und Bezahlsysteme am Handy können zukünftig bei telefonischen Befragungen den Warmkontakt ggf. gekoppelt mit kleinen monetären Incentives zu verbessern helfen. Mobilfunkbefragungen erreichen nach den derzeitigen Erkenntnissen höhere Ausschöpfungen als die Festnetzbefragungen (siehe Tabelle 1). Dies hat mehrere Gründe; neben der Möglichkeit des Warmkontaktes ist besonders der Überraschungsmoment hervorzuheben: Da es in Deutschland bisher kaum Umfragen über das Mobilfunknetz gab, wird diese Art der Kontaktaufnahme nicht sofort abgewehrt, sondern eher mit Erstaunen und positiver Resonanz quittiert. Schließlich entfällt im Handybereich die nicht ganz unproblematische Haushaltsauswahl. 38
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
Randomisierte Geburtstagsauswahl Ausgangspunkt war die von Siegfried Gabler entwickelte Haushaltsauswahl. Da statistische Erwägungen für den Einsatz sprechen, jedoch die Praktikabilität von Experten stark bezweifelt wurde, zielte der Split in der Vorstudie 1 auf den Vergleich beider Auswahlverfahren, d. h. auf die erwartete Verschlechterung der Ausschöpfung, nicht aber auf eine möglicherweise signifikante Verbesserung. Daher lässt sich mit Hilfe von 273 Interviews noch kein Nachweis einer Verbesserung der Ausschöpfung durch den Einsatz der RGA führen. Ein Split mit entsprechend größeren Fallzahlen müsste dies weiterverfolgen. Auch wenn die Randomisierte Geburtstagsauswahl bei diesem Test zu keiner signifikanten Steigerung der Ausschöpfung führte, hat sie jedoch neben den auswahltheoretischen Erwägungen auch praktische Vorzüge. Sie ist als neue Auswahlmethode eine Abwechslung für die Interviewerinnen und Interviewer, die jeweils den Einleitungstext immer neu anpassen müssen, und stellt eine Aufwertung für die Kontaktperson (kognitiv anspruchsvoller) dar. Sie ist, so die Erwartung, durch das Nachdenken weniger auf Verweigerung eingestimmt. Auch in der Vorstudie 2 und in der Hauptstudie konnte die Randomisierte Geburtstagsauswahl erfolgreich nun als alleinige Auswahlmethode angewendet werden.
Anmerkungen 1 2
3
Laut ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e. V. In der Hauptstudie wurden 14,5 Prozent exklusive Mobilfunknutzerinnen beziehungsweise Mobilfunknutzer ermittelt, die aber zum Teil über eine virtuelle Festnetznummer, wie sie von mehreren Mobilfunkanbietern vermarktet wird, erreichbar sind, so dass der Anteil von Personen, die auch über über keine Festnetznummer erreichbar sind, bei 11,7 Prozent liegt. Für die Vorstudien I und II telefonierten ausschließlich Studierende der Soziologie unentgeltlich im Rahmen eines Methodenpraktikums. An der Vorstudie I waren insgesamt 46 Interviewer/innen beteiligt. 27 davon waren weiblich und 19 männlich. Die Vorstudie II wurde von 22 Interviewer/innen bestritten – 15 Frauen und 7 Männer. Die Interviewerpopulationen der Vorstudien und der Hauptstudien waren bis auf wenige Ausnahmen rein personell nicht identisch. Für die Hauptstudie wurden sowohl Studierende verschiedener Fachrichtungen als auch bereits graduierte Soziologinnen und Soziologen und universitätsexterne Interviewerinnen und Interviewer rekrutiert. Insgesamt telefonierten hierfür entgeltlich 26 Frauen und 8 Männer. 27 davon befanden sich noch im Studium. Ein Interviewer hatte gerade sein Abitur abgelegt. Drei Frauen waren bereits im Fach Soziologie diplomiert. Der Interviewerstab war über die gesamte Feldzeit betrachtet häufig personellen Wechseln unterworfen.
39
Tino Schlinzig, Götz Schneiderat
4
5
6 7
8
9
10
40
Zum einen ist dies darauf zurückzuführen, dass etliche studentische Interviewerinnen und Interviewer kurzfristig ihre Tätigkeit aufgrund zeitlicher Engpässe aufgeben mussten. Zum anderen war für die Gruppe der Nicht-Studierenden die Höhe der Entlohnung (4,– EUR/Std. + 2,– EUR/Interview) maßgeblich. Etwa ein Drittel der Interviewerinnen und Interviewer der Hauptstudie gab an, erste Erfahrungen mit Telefoninterviews gesammelt zu haben. Über den Erfahrungsgrad der Interviewerinnen und Interviewer der Vorstudien liegen keine Informationen vor. Alle drei Interviewergruppen wurden gleichermaßen vor den Erhebungen und während der Feldzeit durch Mitarbeiter und studentische Hilfskräfte des Lehrstuhls geschult. Die Ausgabe der Zugriffsstatistiken der Seiten weisen für die Feldzeit allerdings einen zu vernachlässigenden Traffic aus. Insofern würde eine Ausschöpfungssteigerung weniger für die weiterführenden Informationen selbst sprechen, als vielmehr für die Möglichkeit, diese abzurufen, und damit auf den vertrauensbildenden Charakter dieser Option. Den Interviewerplätzen im CATI-Labor sind jeweils einzelne Apparatenummern zugeordnet. Rückrufe durch Befragte wurden automatisch an die Supervisorin oder den Supervisor weitergeleitet. Die Wiedervorlage der Telefonnummern der Samples erfolgte nicht stringent an ein und dieselbe Interviewerin beziehungsweise an ein und denselben Interviewer, sondern an den jeweils nächst freien Interviewerplatz. Insofern ist es möglich, dass bei mehrmaligen Kontaktversuchen verschiedene Nummern auf dem Display der kontaktierten Personen erscheinen. Allein die Vorwahl für Dresden (0351) bleibt konstant. Dies würde eine Identifikation des befragenden Instituts für die Kontaktierten erleichtern und eine Verweigerung ggf. begünstigen. Indikator im Fragebogen: Haben Sie vor dieser Befragung eine Ankündigungs-SMS erhalten, die über unsere Studie informiert? Einleitungstext der Hauptstudie über Festnetz: Guten Tag/Abend, mein Name ist . . . Ich rufe von der Technischen Universität Dresden an. Die Universität führt eine wissenschaftliche Befragung zum Thema Telefoniergewohnheiten durch und Ihr Haushalt wurde dafür zufällig ausgewählt. Es dauert nur wenige Minuten. Wegen des Prinzips der Zufallsauswahl müsste ich diejenige Person in Ihrem Haushalt befragen, die [randomisiert] vor/nach dem TT.MM. als letztes/als nächstes Geburtstag hat und mind. 16 Jahre alt ist. Sind Sie das? Einleitungstext der Vorstudie I – Split (50–50) Last-Birthday und RGA über Festnetz: Guten Abend, mein Name ist . . . Ich rufe von der Technischen Universität Dresden an. Die Universität führt eine wissenschaftliche Befragung zum Thema Telefoniergewohnheiten durch und Ihr Haushalt wurde dafür zufällig ausgewählt. Es dauert nur wenige Minuten. Wegen des Prinzips der Zufallsauswahl müsste ich diejenige Person in Ihrem Haushalt befragen, die als letztes bzw. [randomisiert] vor/nach dem TT.MM. als letztes/ als nächstes Geburtstag hat und mind. 16 Jahre alt ist. Sind Sie das? Eine differenzierte Ausschöpfungsübersicht kann hier aus Platzgründen nicht gegeben werden. Die Ausschöpfung zur Vorstudie findet sich bei: Schneiderat & Schlinzig 2009 und zur Hauptstudie bei: Häder & Häder & Graeske & Kunz & Schneiderat 2009. Alle Telefonnummern ab Januar 2006 wurden zufällig geteilt (50% Last-Birthday/ 50% als letztes oder nächstes + randomisierte Geburtstage) und der Interviewerin beziehungsweise dem Interviewer mit dem Einleitungstext eingespielt. Falls der Test nicht funktioniert, würde die RGA nicht in der Hauptstudie angewendet werden. Aus: unveröffentlichtes Protokoll zur Tagung Mobilsample.
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
Literatur AAPOR Cell Phone Task Force (2008). Guidelines and considerations for survey researchers when planning and conducting RDD and other telephone surveys in the U. S. with respondents reached via cell phone numbers. New Orleans: 63th Annual Conference. AAPOR (2006). Standard definitions: Final dispositions of case codes and outcome rates for surveys. 4th edition. Lenexa, Kansas: AAPOR. ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e. V. (2008). Zahlen über den Markt für Marktforschung, Ausgabe 3/2008. Abgerufen am 03.11.2008, Website: http://www.adm-ev.de/zahlen.html. Blasius, J., & Reuband, K.-H. (1995). Telefoninterviews in der empirischen Sozialforschung: Ausschöpfungsquoten und Antwortqualität. ZA-Informationen, 37, 64–87. Curtin, R., & Presser, S., & Singer, E. (2005). Changes in telephone survey nonresponse over the past quarter century. Public Opinion Quarterly, 69(1), 87–98. Däubler, T. (2002). Nonresponseanalysen der Stichprobe F des SOEP. Abgerufen am 22.04.2008, von DIW Materialien Berlin Website: http://www.diw-berlin.de/documents/publikationen/73/38830/diw_rn02-05-15.pdf. de Heer, W. (1999). International response trends: Results of an international survey. Journal of Official Statistics, 15(2), 129–142. Deutschmann, M., & Häder, S. (2002). Nicht-Eingetragene in CATI-Surveys. In S. Gabler & S. Häder (Hg.), Telefonstichproben. Innovative Entwicklungen und Anwendungen in Deutschland (68–84). Münster: Waxmann. Dillman, D. A. (1991). The design and administration of mail surveys. Annual Review of Sociology, 17(1), 225–249. Dillman, D. A. (2000). Mail and internet surveys. The tailored design method. New York: Wiley. Dillman, D. A., & Callegos, J. G., & Frey, J. H. (1976). Reducing refusal rates for telephone interviews. Public Opinion Quarterly, 40(1), 66–78. Esser, H. (1986). Über die Teilnahme an Befragungen. ZUMA-Nachrichten, 18, 38–47. Eurobarometer (2008). E-Communications Household Survey. Special Eurobarometer 293/Wave 68.2 – TNS opinion & social. Abgerufen am 30.06.2008, Website: http:// ec.europa.eu/public_opinion/archives/ebs/ebs_293_full_en.pdf. Frey, J. H., & Kunz, G., & Lüschen G. (1990). Telefonumfragen in der Sozialforschung. Opladen: Leske + Budrich. Friedrichs, J. (2000). Effekte des Versands des Fragebogens auf die Antwortqualität bei einer telefonischen Befragung. In V. Hüfgen (Hg.), Methoden der Telefonumfragen (171–182). Wiesbaden: Westdeutscher Verlag. Fuchs, M. (1994). Umfrageforschung mit Telefon und Computer. Weinheim: Psychologie Verl. Union.
41
Tino Schlinzig, Götz Schneiderat Fuchs, M. (2002). Eine CATI-Umfrage unter Handy-Nutzern. Methodische Erfahrungen aus einem Vergleich mit einer Festnetzstichprobe. In S. Gabler & S. Häder (Hg.), Telefonstichproben. Methodische Innovationen und Anwendungen in Deutschland (121–137). Münster: Waxmann. Gabler, S., & Häder, S. (1999). Erfahrungen im Aufbau eines Auswahlrahmens für Telefonstichproben in Deutschland. ZUMA-Nachrichten, 44, 45–61. Gabler, S., & Häder, S. (2002). Idiosyncrasies in telephone sampling – The case of Germany. International Journal of Public Opinion Research, 14(3), 339–345. Gaziano, C. (2005). Comparative analysis of within-household respondent selection techniques. Public Opinion Quarterly, 69(1), 124–157. Glemser, A. (2007). Mobilfunknutzung in Deutschland. Eine Herausforderung für die Stichprobenbildung in der Markt- und Sozialforschung. In S. Gabler & S. Häder (Hg.), Mobilfunktelefonie – Eine Herausforderung für die Umfrageforschung. ZUMA-Nachrichten Spezial, 13, 7–24. Goldstein, K. M., & Jennings, M. K. (2002). The effect of advance letters on cooperation in a list sample telephone survey. Public Opinion Quarterly, 66(4), 608–617. Gouldner, A. W. (1960). The norm of reciprocity: A preliminary statement. American Sociological Review, 25(2), 161–178. Graeske, J., & Kunz, T. (2009). Stichprobenqualität der Cella-Studie unter Berücksichtigung der Mobile-onlys. In M. Häder & S. Häder (Hg.), Telefonumfragen über das Mobilfunknetz. Wiesbaden: VS Verlag, 57–70. Groves, R. M., & Snowden, C. (1987). The effects of advance letters on response rates in linked telephone surveys. In American Statistical Association (Ed.), Proceedings of the survey research methods section (633–638). Alexandria, VA: American Statistical Association. Groves, R.M., & Fowler, F. Y. Jr., & Couper, M., & Lepkowsky, J. M., & Singer, E., & Tourangeau, R. (2004). Survey Methodology. New Jersey: Wiley. Groves, R. M., & Couper, M. P., & Presser, S., & Singer, E., & Tourangeau, R., & Acosta, G. P., & Nelson, L. (2006). Experiments in producing non-response bias. Public Opinion Quarterly, 70(5), Special Issue 2006, 720–736. Häder, M., & Häder, S. (Hg.) (2009). Telefonumfragen über das Mobilfunknetz. Wiesbaden: VS Verlag. Häder, S., & Häder, M., & Graeske, J., & Kunz, T., & Schneiderat, G. (2009). Realisierung der Stichprobe. In M. Häder & S. Häder (Hg.), Telefonumfragen über das Mobilfunknetz. Wiesbaden: VS Verlag, 71–82. Häder, S., & Gabler, S., & Heckel, C. (2009). Stichprobenziehung für die CELLA-Studie. In M. Häder & S. Häder (Hg.), Telefonumfragen über das Mobilfunknetz. Wiesbaden: VS Verlag, 21–49. Hüfken, V. (2000). Kontaktierung bei Telefonumfragen. In: V. Hüfken (Hg.), Methoden in Telefonumfragen (11–31). Opladen: Leske + Budrich.
42
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk Kish, L. (1949). A procedure for objective respondent selection within the household. Journal of American Statistical Association, 44, 380–387. Kish, L. (1965). Survey sampling. New York: John Wiley & Sons. Koch, A. (1997). Teilnahmeverhalten beim ALLBUS 1994. Soziodemographische Determinanten von Erreichbarkeit, Befragungsfähigkeit und Kooperationsbereitschaft. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 49(1), 98–122. Mann, Ch. B. (2005). Do advance letters improve preelection forecast accuracy? Public Opinion Quarterly, 69(4), 561–571. Meier, G., & Schneid, M., & Stegemann, Y., & Stiegler, A. (2005). Steigerung der Ausschöpfungsquote von Telefonumfragen durch geschickte Einleitungstexte. ZUMANachrichten, 57, 37–56. Mitteilung über die Gründung der Arbeitsgruppe MOBILSAMPLE (2005). ZUMA-Nachrichten, 56, 111–116. Abgerufen am 22.09.2005, Website: http://www.gesis.org/Publikationen/Zeitschriften/ZUMA_Nachrichten/documents/pdfs/56/13_gabler.pdf. Porst, R. (1998). Im Vorfeld der Befragung. Planung, Fragebogenentwicklung, Pretesting. ZUMA-Arbeitsberichte, 98/02. Salmon, C.T., & Nicols, J.S. (1983). The next-birthday method of respondent selection. Public Opinion Quarterly, 47(2), 270–276. Schneiderat, G., & Schlinzig, T. (2009). Teilnahmebereitschaft und Teilnahmeverhalten bei Telefonumfragen der Allgemeinbevölkerung über das Mobilfunknetz. In M. Häder & S. Häder (Hg.), Telefonumfragen über das Mobilfunknetz. Wiesbaden: VS Verlag, 83–97. Schnell, R. (1997). Non-Response in Bevölkerungsumfragen. Opladen: Leske + Budrich. Statistisches Bundesamt Wiesbaden (2007). Abgerufen am 12.03.2007, Website: https:// www-genesis.destatis.de. Steeh, C., & Buskirk, T. D., & Callegaro, M. (2007). Using text messages in U. S. mobile phone survey. Field Methods, 19(1), 59–75. Steeh, C., & Piekarski, L. (2008). Accomodating new technologies: Mobile and VoIP communication. In J. L. Lepokowski (Ed.), Advances in telephone survey methodology (423–448). Hoboken, New Jersey: John Wiley & Sons. Stroebe, W., & Jonas, K., & Hewstone, M. (2002). Sozialpsychologie: Eine Einführung. 4. Auflage. Berlin: Springer. Troldahl, V., & Carter, R. (1964). Random selection of respondents within households in phone surveys. Journal of Marketing Research, 1(2), 71–76.
43
Michael Häder, Mike Kühne, Tino Schlinzig
Michael Häder, Mike Kühne, Tino Schlinzig
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk: Auswirkungen auf die Datenqualität Zusammenfassung Der Artikel schildert ausgewählte Ergebnisse eines Projektes, bei dem es um die Implementierung von Mobilfunkbefragungen in das sozialwissenschaftliche Methodenarsenal geht. Dazu wurde ein Mixed-Mode-Design mit gleichzeitiger Nutzung von telefonischen Befragungen über das Festnetz und über den Mobilfunk entwickelt und bei etwa 2.100 Personen umgesetzt. Der Fokus des Artikels liegt auf der Suche nach Mode-Effekten. Als Grundlage wird ein kognitionspsychologisches Paradigma zur Erklärung des Antwortverhaltens bei Befragungen herangezogen. Mode-Effekte werden vor allem mit Hilfe von Item-Non-Response sowie mittels Erinnerungsfragen aufzuspüren versucht. Aber auch die Anwesenheit Dritter während der Befragung sowie die Nähe des erfragten Sachverhalts zur Befragungssituation finden Beachtung. Es zeigt sich schließlich, dass eine parallele Anwendung beider Modes nicht zu unüberbrückbaren Differenzen im Antwortverhalten der Zielpersonen führen.
Abstract Mode Effects in Telephone Surveys via Landline Phones and Mobile Phones: Effects on the Quality of Data The article presents selected results of a project that dealt with the establishment of mobile phone surveys as a data gathering method in social science. For that purpose a mixed-mode design was developed that implied parallel use of telephone surveys via landline phones and mobile phones. About 2.100 people participated. The article focuses on mode effects. A paradigm of cognition psychology was used as the basis to explain response behaviour in surveys. The authors attempt to discover mode effects with the help of item-non-response and memory questions. The presence of a third person during the survey as well as the similarity between question content and question mode of a survey are considered by the authors. Results show that the parallel use of both modes does not lead to insurmountable differences in the response behaviour of the target group.
45
Michael Häder, Mike Kühne, Tino Schlinzig
1 Einleitung und Fragestellung1 Telefonische Befragungen, die Mobilfunknutzerinnen und Mobilfunknutzer ausschließen, sind inzwischen nicht mehr dazu geeignet, empirische Aussagen zur Allgemeinbevölkerung der Bundesrepublik zu liefern (vergleiche dazu auch die Beiträge von S. Häder & Gabler und von Schlinzig & Schneiderat in diesem Band sowie die zusammenfassende Darstellung bei Häder & Häder 2009). Diese Tatsache sowie die zahlreichen Möglichkeiten, die telefonische Interviews nach wie vor bieten, führten zu dem Versuch, Befragungen auch über das Mobilfunknetz im sozialwissenschaftlichen Methodenarsenal zu implementieren. Dazu kommt ein Mixed-Mode-Ansatz zum Einsatz. Eng mit dieser neuen Strategie verbunden ist die Frage nach der Vergleichbarkeit der mit zwei unterschiedlichen Instrumenten gewonnenen Daten. Es ist bereits seit längerem bekannt, dass zwei Befragungen, die sich an dieselbe Grundgesamtheit richten und die dabei dieselben Frageformulierungen benutzen, nicht zwingend auch zu denselben Befunden führen müssen, vor allem dann, wenn sie sich verschiedener Erhebungsmodes bedienen. Dies wurde erstmals bei einer Untersuchung festgestellt, bei der 44 Prozent der Respondentinnen und Respondenten bei einem persönlichmündlichen Interview ihre Gesundheit als „exzellent“ einschätzten. Dem stehen nur 37 Prozent der Befragten gegenüber, die diese Antwort im Rahmen eines telefonischen Interviews gaben. Noch geringer war dieser Wert – mit nur 30 Prozent – bei den postalischen Befragungen (vergleiche Hochstim 1967). Die Problematik der Mode-Effekte wurde bisher vor allem in Bezug auf persönlich-mündliche, telefonische, postalische und für über das Internet abgewickelte Befragungen diskutiert. Mittlerweile existieren für diese Erhebungsverfahren zahlreiche Befunde – vergleiche unter anderem Srinivasan & Hanway (1999), Dillman (2000, 217 ff.), Tourangeau & Smith (1996), Groves et al. (2004), Christian & Dillman & Smyth (2008), Béland & St-Pierre (2008, 298 f.) Tucker & Lepkowski (2008, 6 ff.) sowie zahlreiche weitere Arbeiten. Inwieweit sich Unterschiede in den Daten zwischen telefonischen Befragungen über das Festnetz und über den Mobilfunk innerhalb eines Mixed-Mode-Designs mit ansonsten identischen Instrumenten erwarten lassen, ist jedoch ein noch weitgehend unbearbeitetes Problem. Bei Mixed-Mode-Erhebungen stellt sich konkret die Frage, ob sich Unterschiede im Antwortverhalten als Folge von unterschiedlichen Bedingungen bei der Datenerhebung zwischen den verwendeten Verfahren ergeben. Da46
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
mit stellt sich weiterhin die Frage, welche Mode-Effekte bei der parallelen telefonischen Befragung über das Festnetz und über den Mobilfunk vermutet werden können. Es wird also zu untersuchen sein, welche Unterschiede zwischen den beiden Modes, vermittelt über welche Instanzen, zu welchen Unterschieden im Antwortverhalten der Zielpersonen führen. Der vorliegende Beitrag nimmt auf der Basis von Ergebnissen eines Mixed-Mode-Designs verschiedene Analysen vor (weitere Befunde finden sich bei Häder & Kühne 2009, 165 ff.). Dazu ist den Zielpersonen ein identischer Fragebogen sowohl über das Festnetz als auch über den Mobilfunk präsentiert worden. Bevor die Studie sowie ausgewählte empirische Ergebnisse dargestellt und diskutiert werden, soll beschrieben werden, aufgrund welcher Aspekte mit dem Auftreten von Mode-Effekten gerechnet werden kann und ebenso, welche Aspekte gegen ein solches Auftreten sprechen.
2 Vergleich der beiden Modes Unter Berücksichtigung der aktuellen Trends in der Nutzung von Telefonen – unter anderem ist ein steigender Anteil an Haushalten zu verzeichnen, die ausschließlich über ein Mobilfunktelefon zu erreichen sind und über keinen Festnetzanschluss verfügen (Glemser 2007) – müssen in Ergänzung zu Festnetzbefragungen auch Befragungen über Mobilfunk geführt werden, um einen möglichst großen Teil der Bevölkerung erreichen zu können. Allerdings sind damit, wie oben bereits angesprochen, unter Umständen Modeeffekte verbunden. Modeeffekte zwischen den Befragungen am Festnetz bzw. per Mobilfunk waren bisher kaum Gegenstand empirischer Forschung. Grundlage für einen systematischen Zugang zur Analyse der Modeeffekte sind insbesondere die spezifischen Unterschiede und Gemeinsamkeiten beider Modes, die im Folgenden kurz dargestellt werden.
2.1 Unterschiede in der Datenerhebung Einschränkungen in der Vergleichbarkeit von Daten, die mit unterschiedlichen Erhebungsmodes gewonnen wurden, waren bereits häufiger Gegenstand der Umfrageforschung. Für Unterschiede insbesondere zwischen Festnetz- und Mobilfunkbefragungen existieren bisher allerdings kaum empirische Befunde. Die Analyse dieser Mode-Effekte stellt deshalb momentan ein noch weitgehend unerforschtes Feld dar (vergleiche Tucker & Lepkowski 47
Michael Häder, Mike Kühne, Tino Schlinzig
2008, 19 f.). Prospektiv lassen sich einige unterschiedliche Voraussetzungen für die Befragungen benennen: • Festnetz- und Mobilfunkbefragungen können jeweils in unterschiedlichen räumlichen und sozialen Umgebungen stattfinden. Dies stellt zunächst nur eine Möglichkeit dar, da Mobilfunkbefragungen prinzipiell auch in der Wohnung der Zielperson erfolgen können. Denkbar und wahrscheinlich ist jedoch, dass die Zielpersonen am Mobilfunktelefon in sehr verschiedenen Räumen beziehungsweise Umgebungen erreicht werden. • Bei beiden Modes muss mit unterschiedlichen technischen Voraussetzungen für die Kommunikation gerechnet werden. So dürften Festnetzbefragungen in der Regel technisch ohne Probleme vonstatten gehen. Bei Mobilfunkbefragungen sind beispielsweise Probleme mit der Netzabdeckung (relevant vor allem bei Befragungen während Auto- und/oder Zugfahrten), mit der Energieversorgung des Mobilfunkgerätes und mit der Sprachqualität nicht völlig unwahrscheinlich. • Auch die Erreichbarkeit der Zielperson unterscheidet sich danach, ob diese über das Festnetz oder über den Mobilfunk kontaktiert worden ist. Während ein Festnetzkontakt die Zielperson in der Regel nur zuhause erreichen kann, ist es prinzipiell weltweit möglich, jemanden auf seinem Mobiltelefon zu kontaktieren. • Die Auswahl der Zielperson im Haushalt kann bei den Befragungen über das Festnetz randomisiert erfolgen (zum Beispiel mit Hilfe der Last-BirthdayMethode). Bei der Mobilfunkbefragung wird die kontaktierte Person auch um eine Teilnahme an der Befragung gebeten. Hier sind Kontakt- und Zielperson identisch. Die fehlende Randomisierung in der Kontaktphase bei der Befragung über Mobilfunk könnte ebenfalls zu Unterschieden zwischen den Modes führen. • Die Grundgesamtheit, aus der die Stichprobe für beide Modes gezogen wurde, ist unter Umständen nicht völlig identisch. Befragungen über das Festnetz richten sich an Personen, die in Privathaushalten leben. Bei Mobilfunkbefragungen können beispielsweise auch Anstaltsbewohnerinnen und Anstaltsbewohner befragt werden. Auch dies kann allerdings wiederum zu Effekten führen.
2.2 Gemeinsamkeiten in der Datenerhebung Neben den Unterschieden bei der Nutzung beider Modes lässt sich eine Reihe von Argumenten anführen, die für eine relativ gute Vergleichbarkeit der Ergebnisse sprechen. Dies gilt vor allem vor dem Hintergrund von 48
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
Mode-Effekten, die bei telefonischen, postalischen und persönlich-mündlichen Befragungen zu erwarten sind. Folgende Prämissen lassen vermuten, dass die Unterschiede zwischen telefonischen Befragungen über das Festnetz und über den Mobilfunk nicht allzu groß ausfallen: • Dieselben Interviewerinnen und Interviewer werden sowohl für die Befragung über das Festnetz als auch über den Mobilfunk eingesetzt. Sie können damit – anders als etwa bei telefonischen versus persönlich-mündlichen Befragungen – als Quelle für unterschiedliche Effekte ausgeschlossen werden. • Beide Modes unterliegen den gleichen Supervisionsprinzipien im Labor. Alle Interviews werden vom gleichen Erhebungsinstitut durchgeführt. • Effekte, die durch unterschiedliche Sponsoren auf das Teilnahme- und/ oder auf das Antwortverhalten wirken können, sind damit zu negieren. • Der Fragebogen ist in beiden Modes identisch. Die Indikatoren werden den Zielpersonen jeweils in der gleichen Reihenfolge präsentiert. Es besteht für sie beispielsweise nicht die Möglichkeit, den Fragebogen zunächst durchzublättern und sich über die verschiedenen Fragestellungen vorab zu informieren. • Die Bemühungen, potenziell ausgewählte Personen zur Teilnahme an einem Interview zu bewegen, sind in beiden Modes nahezu identisch. Für mögliche Rückrufe und für die erforderlichen Konvertierungsversuche gelten jeweils dieselben Regeln in den beiden Modes. • Die Feldzeit ist in beiden Modes ebenfalls nahezu identisch. Unterschiede durch den besonderen Einfluss zwischenzeitlicher tagespolitischer Ereignisse auf nur einen der beiden Modes sind deshalb äußert unwahrscheinlich. • Schließlich handelt es sich um nur einen Kommunikationskanal, über den alle Befragungen abgewickelt wurden. Unter Berücksichtigung der genannten Aspekte sowie auf der Basis einer größtmöglichen Standardisierung können Unterschiede zwischen den beiden Modes zwar nicht völlig ausgeschlossen werden, jedoch ist zu erwarten, dass deren Umfang begrenzt ist. Daraus ergibt sich wiederum eine größere Vergleichbarkeit der erhobenen Daten sowie nicht zuletzt eine Legitimation des gesamten Ansatzes.
2.3 Unterschiede im Antwortverhalten Die bereits genannten Unterschiede zwischen telefonischen Befragungen über den Mobilfunk und über das Festnetz ziehen möglicherweise Mechanismen nach sich, die auf das Antwortverhalten der Zielpersonen wirken 49
Michael Häder, Mike Kühne, Tino Schlinzig
können. Es besteht mittlerweile Konsens darüber, dass Befragte vier Schritte durchlaufen, um eine geschlossene Frage zu beantworten: das Verstehen der Frage, das Abrufen der für die Beantwortung der Frage notwendigen Informationen aus dem Gedächtnis, das Beurteilen der abgerufenen Informationen und das Kommunizieren des Ergebnisses der Urteilsbildung anhand der Selektion einer der vorgegebenen Antwortoptionen (vergleiche zum Beispiel Sudman & Bradburn & Schwarz 1996; Schwarz 2008, 374 ff.). Allerdings verweisen zahlreiche empirische Befunde darauf, dass es neben diesem idealen Phasenmodell auch alternative Modelle zur Beschreibung der Antwortgenerierung gibt (Tourangeau & Rips & Rasinski 2005). Vor dem Hintergrund der Komplexität des Antwortprozesses und des damit für die Zielperson verbundenen Aufwands erscheint es unrealistisch, dass die Befragten tatsächlich stets alle Schritte der Antwortgenerierung für jede Frage eines Fragebogens durchlaufen. Das Auftreten von Response-Sets wie beispielsweise Zustimmungstendenzen und die Tendenz zur Wahl der Mittelkategorie deuten auf sogenannte Abkürzungen bei der Antwortfindung hin (Tourangeau 2005, 254). Zur Beschreibung und Erklärung eben dieser Abkürzungen schlagen Krosnick und Alwin (1987) im Rückgriff auf das psychologische Modell paralleler Verarbeitungswege (Petty & Cacioppo 1986; Chaiken & Yaacov 1999) das Konzept des Optimizing beziehungsweise des Satisficing vor. Während beim Optimizing alle erforderlichen Schritte für die Bildung einer Antwort unternommen werden, kommt es beim Satisficing bei den Zielpersonen zu einer nur oberflächlichen, kognitiven Bearbeitung der Frage. Dies hat wiederum einen Einfluss auf die Qualität der Antwort. Die Hypothese liegt nahe, dass vor allem bei ungünstigen Bedingungen im Umfeld der Zielperson infolge von Zeitdruck oder bei technischen Problemen solche Satisficing-Strategien eingesetzt werden. Insgesamt lässt sich beim Satisficing im Vergleich zum Optimizing eine geringere Datenqualität aufgrund einer höheren Anfälligkeit beispielsweise gegenüber Kontexteffekten erwarten. Es ist deshalb unter anderem mit folgenden Effekten zu rechnen: • Vor allem wenn es darum geht, Mode-Effekte beim Einsatz von persönlich-mündlichen und telefonischen Befragungen zu diskutieren, werden Unterschiede in den Erinnerungsleistungen und damit in der Antwortqualität thematisiert (vergleiche Noelle-Neumann, & Petersen 2000, 183 ff.). Aber auch in diesem Kontext ist nicht auszuschließen, dass es beispielsweise aufgrund einer stärkeren Ablenkung durch die Umgebung bei Mobilfunkbefragungen oder durch die Anwesenheit Dritter zu schlechteren Erinnerungsleistungen kommen kann. 50
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
• Zu Item-Non-Response kann es – ähnlich wie bei anderen Befragungsmodes – auch bei telefonischen Befragungen kommen, wenn sich die Zielpersonen noch keine Meinung zu einem Sachverhalt gebildet haben und den weniger aufwendigen Weg des Satisficing vorziehen. Als Ursachen für Item-Non-Response gelten: ein ungenügendes Verständnis des Anliegens der jeweiligen Frage, fehlende Informationen bei den Zielpersonen, um eine Antwort zu generieren, ein Mangel an Motivation, um entsprechende Informationen aus dem Gedächtnis abzurufen (vergleiche Krosnick 2002) oder auch schlicht ein Fehler der Interviewerin oder des Interviewers, die beziehungsweise der eventuell vergessen hat, der Zielperson eine Frage zu stellen. Folgt man beispielsweise Groves und Kollegen, so kann auch das Phänomen der sozialen Erwünschtheit zum Item-Non-Response führen (vergleiche Groves et al. 2004, 189). 3 Forschungsfrage Da Mobilfunkbesitzer potentiell häufiger in komplizierten Situationen um ein Interview gebeten werden, liegt die Vermutung nahe, dass sie bei der Antwortfindung häufiger zu Satisficing-Strategien greifen. Insofern sind bei Personen, die über den Mobilfunk befragt wurden, schwächere Erinnerungsleistungen, höhere Quoten von Item-Non-Response sowie eine stärkere Ablenkung durch die Anwesenheit Dritter während des Interviews zu erwarten beziehungsweise zumindest nicht auszuschließen. Außerdem lässt sich vermuten, dass unter Verwendung von Satisficing-Strategien bei der Antwortfindung Kontexteffekte stärker wirken. Das sollte unter anderen dazu führen, dass Einstellungsfragen mit einem direkten Bezug (zum Beispiel zur Mobilfunknutzung oder zum Handykauf) systematisch anders beantwortet werden als Fragen ohne direkten Bezug zum Sachverhalt (zum Beispiel Einstellungsfragen zum Freizeitverhalten, zu Hobbys oder allgemeiner Zufriedenheit).
4 Empirische Untersuchung Grundlage der hier vorgestellten Ergebnisse ist das durch die Deutsche Forschungsgesellschaft geförderte Projekt „Telefonbefragungen in der Allgemeinbevölkerung über das Mobilfunknetz“. Innerhalb dieses Projektes wurde sowohl über das Festnetz als auch über den Mobilfunk eine Umfrage zum 51
Michael Häder, Mike Kühne, Tino Schlinzig
Thema „Telefoniergewohnheiten“ durchgeführt (das Projekt wird ausführlich dargestellt in Häder & Häder 2009). Ein Schwerpunkt des Projekts war die Analyse von Modeeffekten bei Mobilfunk- und Festnetzbefragungen. Im Mittelpunkt stand dabei die Analyse von Unterschieden des Antwortverhaltens von Personen, die am Festnetz oder die via Mobilfunk befragt wurden (eine Beschreibung dieser Befunde geben Häder & Kühne 2009, 165 ff.). Zur Beantwortung der Fragestellung wurden diverse Split-Ballots in beiden Modes benutzt, um mögliche Effekte ausmachen zu können. Einige davon wurden aus in der Literatur bekannten Arbeiten entlehnt. Die Bemühungen gingen prinzipiell dahin, ein Design zu entwickeln, dass es erlaubt, sowohl das Vorhandensein als auch die Stärke möglicher Effekte zwischen den beiden Modes aufzudecken.
4.1 Erhebungsdesign und Stichprobe Beide Befragungen erfolgten mit Hilfe des CATI-Systems am Sozialwissenschaftlichen Methodenzentrum der Technischen Universität Dresden mit denselben Interviewerinnen und Interviewern und den gleichen Supervisionsprinzipien. Die Nummernfolgen der zu kontaktierenden Personen wurden auf dem gleichen Weg rekrutiert. Auch die Feldzeit der Datenerhebung war für beide Modes nahezu identisch. Es wurden schließlich 1.009 zufällig ausgewählte Personen über das Festnetz und 1.162 Respondenten über den Mobilfunk mit den gleichen Instrumenten befragt. Grundlage der Stichprobenziehung für die Befragung über das Festnetz war das Gabler-Häder-Design (Gabler & Häder 1998). Für die Auswahl der Teilnehmerinnen und Teilnehmer für die Mobilfunkbefragung wurde ein modifiziertes RDD-Verfahren verwendet (siehe dazu Hädler & Gabler & Heckel 2009, 21 ff.).
4.2 Operationalisierung Die Beantwortung der Forschungsfragen erfolgt erstens über das Abfragen von vergangenen Ereignissen, zweitens mit Hilfe der Auswertung der aufgetretenen Antwortverweigerung und drittens anhand von Unterschieden im Antwortverhalten zwischen den Modes bei Fragen mit und ohne Nähe zum Sachverhalt Mobilfunk. Zusätzlich wird kontrolliert, inwieweit die Anwesenheit Dritter einen Einfluss auf die Befunde hat. Dabei sind die folgenden Wege eingeschlagen worden. 52
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
Erinnerungsleistung: Um die Erinnerungsleistungen der Zielpersonen in beiden Modes zu vergleichen, wurde folgendes an die Methode des Paraphrasing angelehnte Vorgehen praktiziert: Die Personen wurden zu neun verschiedenen Aspekten befragt.2 Sie sollten jeweils angeben, ob sie diese entweder als verzichtbar oder als unverzichtbar ansehen. Jedes Item wurde einzeln abgefragt. Um das für Telefonbefragungen typische Response-Set des Recency-Effektes zu neutralisieren, wurde die Reihenfolge der neun Items permutiert. Im Anschluss an diese neun Fragen wurden die Befragten gebeten, sich zu erinnern und diejenigen der neun Aspekte zu nennen, an die sich noch erinnern können. Die Erinnerungsleistung beträgt damit im Maximum neun und im Minimum null. Item-Non-Response: Item-Non-Response wurde ebenfalls anhand dieser neun Fragen gemessen. Wurde von den Befragten explizit keine Angabe gemacht oder auf die weiß-nicht-Kategorie3 ausgewichen, ging die Antwort als Item-Non-Response in die Auswertung ein. Der Index für den Item-Non-Response beträgt damit ebenfalls im Maximum neun und im Minimum null.4 Nähe zum Thema Mobilfunk: Um den Bezug zum Thema variieren zu können, wurde auf die Items der Erinnerungsleistung zurückgegriffen. Dabei wird allen Items außer v18_5 kein direkter Bezug unterstellt. Differenzen im Antwortverhalten zwischen den Modes sollten sich also nur bei dem Item mit der Frage zum Handykauf (v18_5) ergeben. Anwesenheit Dritter: Es wurde erfragt, ob sich andere Personen während der Befragung in unmittelbarer Nähe der jeweils befragten Person befanden. Außerdem wurde erhoben, ob es sich bei diesen Personen um Verwandte, Freunde und Bekannte oder Fremde gehandelt hat. Diese Differenzierung wird in den folgenden Analysen keine weitere Beachtung finden. Es wird nur unterschieden, ob Dritte während der Befragung anwesend waren (dichotom: ja oder nein).
5 Ergebnisse 5.1 Deskriptive Darstellung zur Erinnerungsleistung In Tabelle 1 werden die deskriptiven Ergebnisse zur Erinnerungsleistung dargestellt. Für jedes Item ist aufgeführt, wie viele der befragten Personen sich je Mode an die einzelnen Aspekte erinnern konnten. Am häufigsten wurde sich in beiden Modes an den Sachverhalt erinnert, ein neues Auto kaufen zu können. Am seltensten konnten sich die Befragten an die Frage er53
Michael Häder, Mike Kühne, Tino Schlinzig
innern, ob sie es für verzichtbar oder unverzichtbar halten, finanzielle Rücklagen für das Alter schaffen zu können. Tabelle 1: Erinnerungsleistungen der Befragten (in Prozent) Fragegegenstand . . .
Festnetz
Mobilfunk
Wie oft erinnert (n)
Wie oft erinnert (n)
Zweiwöchige Urlaubsreise pro Jahr
59,1
(619)
56,3
(633)
Abgenutzte Möbel durch neue ersetzen zu können
50,8
(532)
52,1
(585)
Markenartikel kaufen zu können
28,2
(295)
31,6
(355)
Bei Lebensmitteln auf Qualität und nicht auf den Preis achten zu können
47,5
(497)
44,5
(500)
Ein neues Handy zu kaufen
58,9
(616)
62,9
(707)
Finanzielle Rücklagen für das Alter schaffen zu können
16,6
(173)
14,7
(165)
Einmal im Jahr Verwandte/ Bekannte zum Essen einladen zu können
55,0
(576)
62,8
(706)
Ein neues Auto kaufen zu können
62,8
(657)
68,0
(764)
Hobbys ausüben zu können
15,7
(164)
19,4
(218)
5
gewichteter Datensatz
Insgesamt wurde sich im Durchschnitt an vier erfragte Sachverhalte erinnert (Mittelwert = 4,1). 120 Personen konnten sich an keinen der Sachverhalte erinnern und fünf der 2.171 Personen erinnerten sich an alle abgefragten Aspekte. Es wurde auch erfasst, ob Personen andere als die genannten Sachverhalte anführten. Insgesamt haben sieben Personen mindestens einen Aspekt genannt, der nicht Gegenstand der vorangegangenen neun Fragen war. 128 Personen haben diese Frage komplett verweigert.
5.2 Deskriptive Darstellung des Item-Non-Response Eine Übersicht zum Auftreten von Item-Non-Response bei dieser Fragebatterie veranschaulicht die Tabelle 2. 54
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
Tabelle 2: Item-Non-Response bei den Fragen zu verzichtbaren und unverzichtbaren Dingen im Leben (in Prozent) Fragegegenstand . . .
Festnetz
Mobilfunk
Item-NR (n)
Item-NR (n)
Zweiwöchige Urlaubsreise pro Jahr
1,1
(11)
0,9
(10)
Abgenutzte Möbel durch neue ersetzen zu können
1,8
(19)
2,8
(31)
Markenartikel kaufen können
1,8
(19)
1,7
(20)
Bei Lebensmitteln auf Qualität und nicht auf den Preis achten zu können
4,0
(42)
4,9
(55)
Ein neues Handy zu kaufen
0,3
(3)
0,8
(9)
Finanzielle Rücklagen für das Alter schaffen zu können
2,0
(21)
1,5
(17)
Einmal im Jahr Verwandte/ Bekannte zum Essen einladen zu können
0,4
(4)
1,1
(12)
Ein neues Auto kaufen zu können
1,8
(19)
1,7
(20)
Hobbys ausüben zu können
0,7
(7)
1,1
(13)
gewichteter Datensatz
Am häufigsten fehlen die Antworten auf das Item „bei Lebensmitteln auf Qualität und nicht auf den Preis achten zu können“ in beiden Modes. Im Durchschnitt wurde eine der neun Fragen verweigert (der Mittelwert beträgt 1,3 und der Median liegt bei 1). Insgesamt werden sowohl bei der Erinnerungsleistung als auch beim Item-Non-Response Unterschiede zwischen den Modes sichtbar. Insgesamt erscheint der Anteil an Verweigerungen am Mobilfunk etwas höher.
5.3 Effekte des Erhebungsmodes auf die Erinnerungsleistung Es ist anzunehmen, dass es Unterschiede im Teilnahmeverhalten zwischen beiden Erhebungsmodes gibt. Damit muss weiterhin in Rechnung gestellt werden, dass Unterschiede zwischen den Modes nicht aufgrund eines tat55
Michael Häder, Mike Kühne, Tino Schlinzig
sächlichen Mode-Effekts entstehen, sondern auf die unterschiedliche Struktur der Befragten zurückzuführen sind. Damit ist es erforderlich, eine Kontrolle solcher Größen mit Hilfe multivariater Verfahren vorzunehmen. Als Kontrollvariablen finden Alter, Geschlecht und Bildung6 als klassische soziodemographische Variablen sowie die Anwesenheit Dritter in den Modellen Berücksichtigung. Erinnerungsleistung In einem Modell werden verschiedene Indikatoren zur Kontrolle des Befundes zur Erinnerungsleistung herangezogen, unter anderem auch die Anwesenheit Dritter während der Befragung (siehe Tabelle 3). Tabelle 3: Ergebnisse einer linearen Regression zur Erklärung der Anzahl erinnerter Gegenstände aus den vorangegangenen neun Fragen, unstandardisierte Regressionskoeffizienten (standardisierte Regressionskoeffizienten7) Konstante Modus (RK = Festnetz) Anwesenheit Dritter (RK = Dritte anwesend) Bildungsjahre Geschlecht (RK = männlich) Alter
3,52*** –0,04 –0,01 0,10 (0,18)*** 0,42*** –0,03 (–0,27)***
R2 n
0,1 2.071
* p = 0,1, ** p = 0,05, *** p = 0,01; gewichteter Datensatz
Wie zu sehen ist, besitzt der Modus keine Erklärungskraft für die Anzahl der erinnerten Aspekte aus den vorangegangenen Fragen. Die Erinnerungsleistungen werden lediglich vom Alter, der Bildung – dies ist bis hierhin kaum eine Überraschung – und dem Geschlecht (Frauen zeigen eine bessere Erinnerungsleistung!) beeinflusst. Auch die Anwesenheit Dritter bleibt – als zunächst kritisch bewerteter Umgebungsindikator – ohne eine signifikante Wirkung. Grundlegende mit der Mobilfunkbefragung gegenüber der Festnetzbefragung einhergehende Probleme – wie sie eingangs nicht ausgeschlossen werden konnten – sind damit auch an dieser Stelle nicht empirisch festzustellen gewesen. 56
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
Man muss davon ausgehen, dass bei einem Verzicht auf Mobilfunkbefragungen ein bestimmter Personenkreis (vor allem jüngere und höher gebildete Personen) für sozialwissenschaftliche Umfragen gar nicht oder nicht mehr ohne weiteres erreicht werden könnten (Glemser 2007). Weiterhin muss man in Rechnung stellen, dass gerade dieser Personenkreis bei einer Umfrage besondere Erinnerungsleistungen zu vollbringen in der Lage ist. Dies schließlich würde bedeuten, dass der Umfrageforschung bei einem (weiter andauernden) Verzicht auf Mobilfunkbefragungen eine besonders attraktive Subpopulation verloren ginge. Item-Non-Response Ein ähnliches Vorgehen wird nun bei der näheren Betrachtung des ItemNon-Response‘ gewählt. Die Ergebnisse werden in Tabelle 4 gezeigt. Tabelle 4: Ergebnisse einer linearen Regression (Beta) zur Erklärung der Häufigkeit des Item-Non-Response bei neun ausgewählten Indikatoren, unstandardisierte Regressionskoeffizienten (standardisierte Regressionskoeffizienten) Konstante
0,03
Modus (RK = Festnetz)
0,03
Anwesenheit Dritter (RK = Dritte anwesend)
–0,01
Bildungsjahre
0,01 (0,02)
Geschlecht (RK = männlich)
–0,12***
Alter
0,01 (0,10)***
R
0,01
2
n
2.071
* p = 0,1, ** p = 0,05, *** p = 0,01; gewichteter Datensatz
Die Beta-Koeffizienten signalisieren, dass bei den Mobilfunkbefragungen – unter der Kontrolle weiterer Indikatoren – nicht mit mehr Non-Response zu rechnen ist als bei den Festnetzbefragungen. Die Anwesenheit Dritter bleibt ebenfalls ohne einen Effekt. Ein gewisser Effekt geht vom Alter aus: Die NonResponserate steigt mit dem Alter an. Auch das Geschlecht zeigt eine Wirkung (Frauen beantworten die Fragen vollständiger). 57
Michael Häder, Mike Kühne, Tino Schlinzig
5.4 Einstellungsfragen mit und ohne direkten inhaltlichen Bezug An dieser Stelle erscheint im Rahmen der Suche nach Mode-Effekten noch ein anderer Aspekt nennenswert. So könnte die im Moment der Befragung ausgeführte Tätigkeit – bei den Mobilfunkbefragungen das augenblickliche Handytelefonieren – einen Einfluss auf das Antwortverhalten haben, wenn sich der Gegenstand der Frage mehr oder weniger direkt auf eben diese Tätigkeit bezieht. Es wird also im Mobilfunkmodus wiederum ein Kontexteffekt nicht ausgeschlossen, der bewirkt, dass sich aufgrund der momentanen Tätigkeit an jene Informationen stärker beziehungsweise vorrangig erinnert wird, die mit der eben ausgeübten Tätigkeit in Verbindung stehen. Dies betrifft in unserem Zusammenhang die Vorgabe „ein neues Handy zu kaufen“ (v18_5). Dass sich ein solcher Effekt ebenfalls am Festnetz ergibt, kann nicht ausgeschlossen werden. Allerdings ist davon auszugehen, dass aufgrund der „traditionellen“ Telefonbefragung über das Festnetz ein solcher Effekt eher gering ist. Mithilfe eines Regressionsmodells wird überprüft, ob an dieser Stelle ein solcher Einfluss vorliegt. Alle anderen acht Vorgaben besitzen einen solchen Bezug nicht, weshalb auch kein Einfluss erwartet wird. Das Ergebnis zeigt Tabelle 5. Tabelle 5: Ergebnisse binär logistischer Regressionen – Exp(B) – zur Erklärung des Antwortverhaltens bei Einstellungs-Items mit und ohne inhaltlichen Bezug zum Mobilfunk Variablen
8
V18_1 V18_2 V18_3 V18_4 V18_5 V18_6 V18_7 V18_8 V18_9
Konstante
0,81
0,58
0,61
0,84
0,50
2,39
1,07
0,76
4,78**
Mode
0,97
1,04
0,99
0,90
1,60** 1,02
1,01
0,89
0,86
Bildungsjahre
1,04** 0,95** 0,94** 1,09*** 0,90*** 1,08** 1,01
0,95*** 1,07**
Geschlecht
0,82
0,82*
0,95
0,70** 1,07
0,62*** 1,40*
0,87
0,94
1,01
1,16
0,86
0,97
1,04
1,35**
1,00
1,01** 1,01*
1,01** 1.00
1,00
1.00
1,01*
0,97***
0,01
0,04
0,02
0,00
0,02
0,05
Anwesenheit Dritter Alter
0,01
Nagelkerkes R
2
0,02
0,90
0,05
0,90
1,35**
n: 2.171 * p = 0,1, ** p = 0,05, *** p = 0,01; gewichteter Datensatz
Tatsächlich tritt an dieser Stelle der erwartete Effekt auf: Bei der Einstellungsfrage, die einen direkten Bezug zur gegenwärtigen Tätigkeit der be58
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
fragten Person aufweist (v18_5), tritt auch ein Mode-Effekt auf. Bei allen anderen Einstellungsfragen kann kein solcher Einfluss nachgewiesen werden. Weiterhin ist interessant, dass bei der Anwesenheit Dritter lediglich in einem Fall ein Effekt aufgetreten ist. Dieser Effekt wirkt allerdings unabhängig vom Erhebungsmodus. Mit anderen Worten: Hier hat die Anwesenheit dritter Personen sowohl bei der Festnetzbefragung als auch bei der Mobilfunkbefragung eine Wirkung auf das Antwortverhalten.
6 Diskussion Der Anteil an Personen, die telefonisch ausschließlich über Mobilfunk erreichbar sind, ist in den letzten Jahren stark gestiegen. Der Anteil dieser Gruppe an Mobilfunknutzerinnen und Mobilfunknutzern führte zu dem Versuch, telefonische Befragungen ebenfalls über den Mobilfunk durchzuführen. Eng verbunden mit der Befragung über den Mobilfunk ist die Frage nach der Vergleichbarkeit der Daten mit Befragungen, die über das Festnetz geführt wurden. In dieser Arbeit wurden Ergebnisse eines solchen MixedMode-Designs vorgestellt. Zunächst lassen sich anhand des empirischen Materials durchaus Unterschiede zwischen den Modes ausmachen. Diese kommen aber – das zeigen die multivariaten Analysen – vor allem aufgrund des Einflusses von Drittvariablen zustande. Diese – und nicht etwa wahre Mode-Effekte – können dann für Unterschiede im Antwortverhalten verantwortlich gemacht werden. Die Erinnerungsleistung wird vom Mode nicht signifikant beeinflusst. Die Stärke der Erinnerung an abgefragte Sachverhalte ist in dem vorgestellten Modell von Alter, Geschlecht und Bildung abhängig. Bei der Analyse des Item-Non-Response ergeben sich neben Alters- und Geschlechtseffekten ebenfalls keine Mode-Effekte. Personen, die am Handy befragt wurden, verweigerten bei den analysierten Fragen genauso häufig wie Personen, die am Festnetz befragt wurden. Nicht unerwartet wurde ein Zusammenhang zwischen dem Inhalt einer Frage und dem Befragungsmode sichtbar, wenn sich die Einstellungsfrage auf den Mobilfunk bezog. Aus einigen Ergebnissen ergibt sich weiterer Forschungsbedarf. Einstellungsfragen ohne Bezug zur Thematik Mobilfunk erwiesen sich beispielsweise als resistent gegenüber dem Einfluss der Erhebungsmodi. Etwas anders sahen die Ergebnisse bei Fragen aus, die – mehr oder weniger direkt – das Thema Mobiltelefonieren aufgriffen. Hierzu besteht auch aus theoreti59
Michael Häder, Mike Kühne, Tino Schlinzig
scher Sicht noch ein gewisser Erklärungsbedarf. Die gesamte Befundlage kann aber prinzipiell die Bemühungen bestärken, telefonische Befragungen über das Mobilfunknetz in das sozialwissenschaftliche Methodenarsenal aufzunehmen. Zu Beginn des zugrunde liegenden Projektes war es weitgehend unklar, ob telefonische Befragungen über den Mobilfunk überhaupt einen sozialwissenschaftlich gangbaren Weg darstellen könnten. Aufgrund verschiedener Überlegungen schien hier Skepsis durchaus angebracht zu sein. Diese Befürchtungen können in dieser Pauschalität nun als widerlegt angesehen werden. Die Befunde unserer Studie belegen, dass telefonische Befragungen auch über den Mobilfunk durchaus zu einem probaten sozialwissenschaftlichen Instrument entwickelt werden können.
Anmerkungen 1 2
3
4
5
6 7
8
60
Wir danken den Herausgebern und einem anonymen Gutachter für die konstruktive Kritik und die hilfreichen Anmerkungen. Im Einzelnen wurden abgefragt v18_1: eine zweiwöchige Urlaubsreise pro Jahr, v18_2: abgenutzte Möbel durch neue ersetzen zu können, v18_3: Markenartikel kaufen zu können, v18_4: bei Lebensmitteln auf Qualität und nicht auf den Preis achten zu können, v18_5: ein neues Handy zu kaufen, v18_6: finanzielle Rücklagen für das Alter schaffen zu können, v18_7: einmal im Jahr Verwandte/Bekannte zum Essen einladen zu können, v18_8: ein neues Auto kaufen zu können sowie v18_9: Hobbys ausüben zu können. Die Kategorie „weiß nicht“ wurde den Zielpersonen bei keiner Frage als Antwortoption explizit angegeben. Erst wenn die Befragten keine substantielle Antwort geben konnten oder wollten, wurde diese Option offeriert. Die Antwortoption „weiß nicht“ wurde während der Befragung nicht explizit als potentielle Antwortoption angeboten, aber bei Nennung durch die Befragten als „weiß nicht“ codiert. Die Untersuchungsanlage der Studie macht eine Designgewichtung der Daten erforderlich, unter anderem zum Ausgleich der unterschiedlichen Inklusionswahrscheinlichkeiten. Diese ist im Einzelnen beschrieben bei Häder & Häder. Die Bildung wurde über die absolvierten Bildungsjahre operationalisiert. Ob weitere Personen außer den Befragten anwesend waren, wurde bei der Erhebung ermittelt. Die standardisierten Regressionskoeffizienten werden nur für die metrischen Variablen ausgewiesen. Die Interpretation für dichotome Variablen wäre statistisch nicht sinnvoll, da Dummy-Variablen nicht um eine Standardabweichung erhöht werden können. Die Aufschlüsselung der Variablennamen befindet sich in der Fußnote 2.
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
Literatur Béland, Y., & St-Pierre, M. (2008). Mode effects in the Canadian community health survey: A comparision of CATI and CAPI. In J. M. Lepkowski et al. (Eds.), Advances in telephone survey methodology (297–314). New York: John Wiley & Sons. Chaiken, S., & Yaacov, T. (1999). Dual-process theories in social psychology. New York: Guilford Press. Christian, L. M., & Dillman, D. A., & Smyth, J. D. (2008). The effects of mode and format on answering to scalar questions in telephone and web surveys. In J. M. Lepkowsky et al. (Eds.), Advances in telephone survey methodology (250–274). New York: John Wiley & Sons. Dillman, D. A. (2000). Mail and internet survey: The tailored design method. New York: John Wiley & Sons. Glemser, A. (2007). Mobilfunknutzung in Deutschland. Eine Herausforderung für die Stichprobenbildung in der Markt- und Sozialforschung. In S. Gabler & S. Häder (Hg), Mobilfuntelefonie – Eine Herausforderung für die Umfrageforschung. Spezialband 13 (25–37). Mannheim: GESIS-ZUMA. Groves, R. M., & Fowler, F. Y. Jr., & Couper, M., & Lepkowsky, J. M., & Singer, E., & Tourangeau, R. (2004). Survey methodology. New York: John Wiley & Sons. Häder, S., & Gabler, S. (1998). Ein neues Stichprobendesign für telefonische Umfragen in Deutschland. In S. Gabler & S. Häder & J. H. P. Hoffmeyer-Zlotnik (Hg.), Telefonstichproben in Deutschland (69–88). Opladen: Westdeutscher Verlag. Häder, M., & Häder, S. (Hg.) (2009). Telefonbefragungen über das Mobilfunknetz. Theoretisches Konzept, Design und Umsetzung einer neuen Strategie zur Datenerhebung. Wiesbaden: VS Verlag für Sozialwissenschaften. Häder, M., & Kühne, M. (2009). Mode-Effekte. In M. Häder & S. Häder (Hg.), Telefonbefragungen über das Mobilfunknetz. Theoretisches Konzept, Design und Umsetzung einer neuen Strategie zur Datenerhebung (165–251). Wiesbaden: VS Verlag für Sozialwissenschaften. Häder, S., & Gabler, S., & Heckel, C. (2009). Der Auswahlrahmen. In M. Häder & S. Häder (Hg.), Telefonbefragungen über das Mobilfunknetz. Theoretisches Konzept, Design und Umsetzung einer neuen Strategie zur Datenerhebung (21–49). Wiesbaden: VS Verlag für Sozialwissenschaften. Hochstim, J. R. (1967). A critical comparison of three strategies of collecting data from households. Journal of the American Statistical Association, 62, 976–989. Krosnick, J., & Alwin, D. F. (1987). An evaluation of a cognitive theory of response-order effects in survey measurement. Public Opinion Quarterly, 51, 201–219. Noelle-Neumann, E., & Petersen, T. (2000). Das halbe Instrument, die halbe Reaktion. Zum Vergleich von Telefon- und Face-to-Face Umfragen. In V. Hüfken (Hg.), Methoden in Telefonumfragen (183–200). Opladen: Westdeutscher Verlag. Petty, R. E., & Cacioppo, J. T. (1986). Communication and persuasion: Central and peripheral routes to attitude change. New York: Springer.
61
Michael Häder, Mike Kühne, Tino Schlinzig Schwarz, N. (2008). The psychology of survey response. In W. Donsbach & M. W. Traugott (Eds.), The SAGE handbook of public opinion research (374–387). California: Sage. Srinivasan, R., & Hanway, S. (1999). A new kind of survey mode difference: Experimental results from a test of inbound voice recognition and mail surveys. St. Pete Beach, Florida: Meeting of the American Association for Public Opinion Research. Sudman, S., & Bradburn, N. M., & Schwarz, N. (1996). Thinking about answers: The application of cognitive processes to survey methodology. San Francisco: Jossey-Bass. Tourangeau, R., & Rips, L. J., & Rasinski, K. (2005). The psychology of survey response. Cambridge: Cambridge University Press. Tourangeau, R., & Smith, T. (1996). Asking sensitive questions: The impact of data collection, question format, and question context. Public Opinion Quarterly, 60, 275–304. Tucker, C., & Lepkowski, J. M. (2008). Telephone survey methods: Adapting to change. In J. M. Lepkowsky et al. (Eds.), Advances in telephone survey methodology (3–26). New York: John Wiley & Sons.
62
Julia Simonson
Julia Simonson
Klassenzimmerbefragungen von Kindern und Jugendlichen: Praktikabilität, Potentiale und Probleme einer Methode* Zusammenfassung Thema des Beitrags ist die Methode der Klassenzimmerbefragung bei Kindern und Jugendlichen. Einleitend werden zunächst einige Besonderheiten von Klassenzimmerbefragungen im Vergleich zu anderen Befragungsformen betrachtet. Im Anschluss daran wird mit der KFN-Schüler/innenbefragung 2005 eine Beispielstudie vorgestellt, anhand derer zwei zentralen Punkten der Datengüte nachgegangen wird: der Validität von Befragtenangaben am Beispiel von Schulnoten sowie dem Ausmaß sozial erwünschten Antwortverhaltens.
Abstract Classroom Surveys among Children and Adolescents: Practicability, Potentials, and Problems of a Survey Method This paper deals with the method of classroom surveys among children and adolescents. Introductory, some distinctive features of classroom surveys in comparison to other survey modes are considered. Subsequently, with the KFN School Survey 2005 an example is presented and two key points of data quality are examined: First, the validity of the answers of respondents exemplified by school grades and second, the extent of social desirability.
1 Einleitung Von Klassenzimmerbefragungen spricht man in der Regel, wenn mehrere Personen, die sich wie eine Schulklasse in einem Raum befinden, simultan an einer Befragung teilnehmen (Planck 1959). Meist werden die Befragungen schriftlich durchgeführt, aber auch computergestützte Varianten sind prinzi63
Julia Simonson
piell möglich. Anwesend ist normalerweise eine Person, die Fragebögen verteilt, die Befragung anleitet, Ausfüllhinweise gibt und für Rückfragen zur Verfügung steht. Die Klassenzimmerbefragung kann damit als Hybridform zwischen schriftlicher und mündlicher Befragung angesehen werden, wobei die Gemeinsamkeiten mit der schriftlichen Befragung überwiegen und sie deswegen häufig auch als Unterform von dieser verstanden wird. Ihr besonderes Potential entfalten Klassenzimmerbefragungen bei der Befragung von Gruppen, die sich ohnehin an einem Ort befinden bzw. leicht zu einem solchen eingeladen werden können, wie Schulklassen, Seminarteilnehmer/innen in Universitäten oder Mitarbeiter/innen in Abteilungen eines Unternehmens.1 Häufig wird die Methode zur Befragung von Kindern und Jugendlichen und hier insbesondere zur Erforschung von Jugenddelinquenz und -gewalt eingesetzt (Baier & Pfeiffer & Windzio & Rabold 2006; Fuchs 1997; Fuchs & Lamnek & Lüdtke 1996; Mansel 2001; Mansel & Hurrelmann 1998; Oberwittler & Blank & Köllisch & Naplava 2001; Steffgen & Russon 2003; Tillmann & Holler-Nowitzki & Holtappels & Meier & Popp 1999). Einzelne methodische Aspekte dieser Erhebungsform wurden dabei zwar mehrfach thematisiert (so z. B. von Köllisch & Oberwittler 2004; Kreuzer & Görgen & RömerKlees & Schneider 1992; Naplava & Oberwittler 2002; Oberwittler & Naplava 2002), in den einschlägigen Lehrbüchern zur empirischen Sozialforschung sowie zu Befragungen wird die Methode allerdings allenfalls am Rande erwähnt (z. B. Diekmann 1998; Schnell & Hill & Esser 2005; Scholl 2003). Im folgenden Beitrag sollen zunächst einige Besonderheiten von Klassenzimmerbefragungen bei Kindern und Jugendlichen im Vergleich zu anderen Befragungsformen betrachtet werden. Im Anschluss daran wird mit der vom Kriminologischen Forschungsinstitut Niedersachsen (KFN) 2005 durchgeführten Schüler/innenbefragung eine Beispielstudie vorgestellt, anhand derer mit der Validität von Befragtenangaben sowie dem Ausmaß sozial erwünschten Antwortverhaltens zwei zentralen Punkten der Datengüte nachgegangen wird.
2 Methodische Besonderheiten von Klassenzimmerbefragungen bei Kindern und Jugendlichen Ein Vorteil von Klassenzimmerbefragungen gegenüber anderen Befragungsformen ist zunächst die gute Erreichbarkeit der Kinder und Jugendlichen: Wird die Befragung während der Schulzeit durchgeführt, können in der Regel alle am Befragungstag anwesenden Schüler/innen angesprochen wer64
Klassenzimmerbefragungen von Kindern und Jugendlichen
den. D. h., auch sonst schwer erreichbare Gruppen, wie Kinder oder Jugendliche aus bildungsfernen Familien, können befragt werden (Oberwittler & Naplava 2002). Durch die simultane Befragung mehrerer Schüler/innen ergeben sich darüber hinaus hohe Einsparpotentiale hinsichtlich Zeit und Kosten. Als ein weiterer Vorzug sind die in der Regel verhältnismäßig hohen Ausschöpfungsquoten zu nennen, da die Motivation der Schüler und Schülerinnen während der Schulzeit an einer Befragung teilzunehmen verständlicherweise deutlich höher ist als wenn die Befragung in der Freizeit stattfindet. Kosten und Nutzen von Teilnahme bzw. Verweigerung verteilen sich damit grundsätzlich anders als bei vielen anderen Befragungsformen: Während z. B. bei haushaltsbasierten Befragungen aus Sicht der Befragten durch die zur Verfügung gestellte freie Zeit Kosten der Teilnahme anfallen, entstehen bei Klassenzimmerbefragungen eher Kosten durch die Nichtteilnahme, da diese in der Regel nicht nur gegen die Erwartungen des/der Interviewers/ in, sondern auch die der Lehrkraft und Mitschüler/innen durchgesetzt werden muss (Oberwittler & Naplava 2002). Schul- und Klassenlisten ermöglichen die Ziehung mehrstufiger Zufallsauswahlen. Darüber hinaus besteht die Möglichkeit, neben den Informationen der Schüler/innen auch Informationen über die Schule oder die Klasse durch Lehrkräfte oder andere Befragungspersonen zu erheben und diese später mit den Schüler/innendaten zu verknüpfen. Natürlich sind diese Vorzüge nicht ohne gleichzeitige Einschränkungen zu haben: Zu berücksichtigen ist zunächst, dass Befragungen im Schulkontext in der Regel vorab von den zuständigen Kultusministerien genehmigt werden müssen. Auch für die Benachrichtigung bzw. Erlaubnis der Eltern ist eine gewisse Zeit einzuplanen. Darüber hinaus ist es zwar möglich, die Stichprobengröße aufgrund der Befragung ganzer Klassen bei ähnlichem Kostenaufwand gegenüber anderen Befragungsvarianten deutlich zu steigern, allerdings muss damit auch die Clusterung der Daten in Kauf genommen werden. Wird diese bei der Analyse nicht berücksichtigt, kann es durch falsch geschätzte Standardfehler zu verzerrten Ergebnissen, insbesondere bei der Interpretation von Signifikanztests, kommen (vgl. z. B. Snijders & Bosker 1999). Durch den Einsatz von Mehrebenenmodellen oder speziellen Routinen für komplexe Auswahlen, wie sie mittlerweile in einigen Statistikprogrammen wie z. B. Stata implementiert sind, lässt sich dieses Problem aber weitgehend lösen. Ein Problem können mit dem Zugang verbundene selektive Ausfälle von Befragungspersonen sein. Auch wenn durch Klassenzimmerbefragungen an Schulen generell eine hohe Befragtenzahl erreicht werden kann und die 65
Julia Simonson
Ausschöpfungsquote meist höher als bei anderen Befragungsformen ist, werden nur diejenigen Schüler und Schülerinnen angesprochen, die am Befragungstag die Schule besuchen. Wer häufig krank ist oder oft die Schule schwänzt, gelangt also mit geringerer Wahrscheinlichkeit in die Stichprobe. Gerade wenn es wie im später vorgestellten Beispiel um abweichende Verhaltensweisen von Schülern/innen geht, ist der Ausfall der letzteren Gruppe jedoch problematisch, da Schuleschwänzen zum einen selbst eine Form niedrigschwelligen abweichenden Verhaltens darstellt, dessen Ausmaß in der Stichprobe damit unterschätzt werden dürfte, und andererseits nachweislich mit anderen Formen jugendlicher Devianz korreliert ist. Notwendig ist also eine Überprüfung des Anteils der durch Schwänzen ausfallenden Personen und – bei hohem Ausfall – eine Nachbefragung derselben, sofern davon ausgegangen wird, dass die zu untersuchenden Sachverhalte mit Schuleschwänzen korrelieren. Weitere Einschränkungen ergeben sich aus der Befragungssituation, die Raum für von der Anwesenheit einer Lehrkraft und Mitschülern/innen ausgehende Effekte bietet. Durch die gleichzeitige Befragung mehrerer Personen kann im Vergleich zur Einzelbefragung eine Beschränkung der Anonymitätswahrnehmung gegeben sein. Diese Problematik kann durch das Auseinandersetzen der Befragten oder das Aufstellen von Sichtblenden (z. B. Schulranzen), zwar entschärft werden,2 ganz lösen lässt es sich wohl aber nicht, so dass insbesondere bei heiklen Fragen sozial erwünschte Antworten oder Antwortverweigerungen möglich sind (Beebe & Harrison & McRea & Anderson & Kerson 1998; Oberwittler & Naplava 2002). Allerdings deuten bisherige Befunde (Köllisch & Oberwittler 2004; Naplava & Oberwittler 2002; Oberwittler & Naplava 2002) darauf hin, dass Prävalenzraten selbstberichteter Delinquenz bei Klassenzimmerbefragungen höher ausfallen als bei persönlich-mündlichen Interviews, soziale Erwünschtheit also eine vergleichsweise geringe Rolle spielt. Ausgehend von den dargestellten Überlegungen soll im folgenden Erfahrungsbericht auf der Grundlage der KFN-Schüler/innenbefragung zwei zentralen Punkten der Datengüte nachgegangen werden. Zum einen wird untersucht, inwieweit die Angaben der Schüler/innen als valide gewertet werden können. Hierfür werden Angaben zu den Schulnoten von Viertklässlern/innen den Angaben ihrer Lehrkräfte gegenübergestellt. Zum anderen wird überprüft, in welchem Maße sozial erwünschtes Antwortverhalten ein Problem darstellt.
66
Klassenzimmerbefragungen von Kindern und Jugendlichen
3 Die KFN-Schüler/innenbefragung: Anlage und Durchführung der Befragung Das KFN führt seit 1998 wiederholt Befragungen von Schülern und Schülerinnen durch, um Informationen über das Ausmaß und die Struktur devianten Verhaltens zu gewinnen. Auch im Jahre 2005 wurden Kinder (Viertklässler/innen, N = 6.142) und Jugendliche (Neuntklässler/innen, N = 17.021) befragt. Dabei wurden unterschiedliche ländliche und städtische Gebiete Deutschlands sowie ein Bundesland (Thüringen) einbezogen (Baier & Pfeiffer & Windzio & Rabold 2006; Baier & Rabold & Pfeiffer & Windzio 2006). Dieses Vorgehen bietet die Möglichkeit, Vergleiche zwischen den einbezogenen Gebieten zu ziehen. Da diese allerdings nicht im Rahmen einer Zufallsauswahl gezogen wurden, sind über die Gebiete hinaus, also z. B. auf Bundesebene, keine verallgemeinernden Aussagen möglich.3 Da für das Aufzeigen methodischer Besonderheiten ebenso wie für den Nachweis genereller Zusammenhänge keine repräsentative Stichprobe zwingend ist, erscheint diese Einschränkung im vorliegenden Fall jedoch vernachlässigbar. Innerhalb der Befragungsgebiete wurden entweder auf der Basis von Schullisten nach Schulformen geschichtete, zweistufige Klumpenauswahlen (1. Stufe: Schulen, 2. Stufe: Klassen) gezogen, oder es erfolgte eine Vollerhebung. Im Rahmen der Befragungen in den vierten Klassen wurden in Dortmund, Kassel, München, Oldenburg, Peine, Stuttgart und Thüringen Klumpenstichproben und in Schwäbisch-Gmünd, Soltau-Fallingbostel, Belm und Wallenhorst Vollerhebungen, bezogen auf die neunte Jahrgangsstufe in Dortmund, München, Stuttgart und Thüringen Klumpenstichproben, in Kassel, Oldenburg, Peine, Schwäbisch-Gmünd, Soltau-Fallingbostel und Lehrte Vollerhebungen angestrebt. In Lehrte wurde nur in neunten Klassen, in Belm und Wallenhorst nur in vierten Klassen erhoben. Die Erhebungen fanden von Februar bis April 2005 statt. Die Befragung wurde im Klassenverband in standardisierter Weise durch eine geschulte Interviewperson durchgeführt. Um eine möglichst anonyme Erhebungssituation zu schaffen, wurden die Befragten – wenn möglich – auseinander gesetzt. Darüber hinaus wurde auf die Freiwilligkeit der Teilnahme und die Anonymität der Befragung hingewiesen. Alle Schüler/innen bekamen einen schriftlichen Fragebogen (neunte Klasse: 27 Seiten, vierte Klasse: 16 Seiten). In den neunten Klassen wurden die ersten fünf Seiten des Fragebogens von der Interviewperson nacheinander als Overhead-Folie aufgelegt, die Fragen laut vorgelesen und den Jugendlichen jeweils Zeit gegeben, die Fragen für sich zu beantworten. Die restlichen Seiten sollten sie dann alleine ausfüllen. 67
Julia Simonson
In den vierten Klassen wurden alle Seiten des Fragebogens als Folie aufgelegt und die Fragen laut vorgelesen. Die Kinder bekamen dabei jeweils im Anschluss an eine Frage genügend Zeit zum Ausfüllen. Insgesamt nahm die Befragung in beiden Jahrgangsstufen durchschnittlich zwei Schulstunden in Anspruch. In der Regel war der Klassenlehrer oder die Klassenlehrerin während der Befragung anwesend, hielt sich jedoch zurück und griff nur ein, wenn es zu Disziplinproblemen kam. Darüber hinaus sollten die Lehrkräfte einen speziellen Lehrer/innenfragebogen ausfüllen, in dem u. a. nach nicht anwesenden Schülern/innen und Charakteristika der Schule gefragt wurde. Einsicht in die ausgefüllten Schüler/innenfragebögen bekamen die Lehrkräfte nicht. Hauptthemen der Befragung waren abweichende Verhaltensweisen, Opfererfahrungen, Freizeitgestaltung, Medienkonsum sowie die schulische Einbindung. Da es bei allen Fragen auch darum ging, möglichen Ursachen nachzugehen, wurden außerdem Fragen zum Erziehungsverhalten der Eltern, zur Herkunft und zum Bildungsniveau der Eltern sowie zu Persönlichkeitseigenschaften und Einstellungen in die Fragebögen aufgenommen. Insbesondere bei dem in vierten Klassen eingesetzten Fragebogen wurde auf eine kindgemäße Formulierung der Fragen und Antwortvorgaben geachtet. Um das Ausmaß sozial erwünschter Antworttendenzen abschätzen zu können, wurde in den Fragebogen der neunten Klassen eine Kurzskala zur Messung sozialer Erwünschtheit integriert. Tabelle 1 gibt einen Überblick über die Ausfälle und Rückläufe. Der Anteil der Absagen von Schulen bzw. Klassen ist bei beiden Befragungen mit jeweils über 15% recht hoch. Allerdings kann vermutet werden, dass diese Absagen nicht zu inhaltlichen Verzerrungen führen, da die Nichtteilnahme nicht von den Befragten selbst ausging. Ausschlaggebend waren meist organisatorische Gründe (Überschneidungen mit Projektwochen, Prüfungen, Klassenfahrten, Pflichtpraktika etc.), die nicht systematisch mit den Befragungsinhalten zusammenhängen. Diese Ausfälle wurden somit als stichprobenneutral gewertet. Problematischer scheinen die Ausfälle durch am Befragungstag abwesende Schüler/innen, da diese sich unter Umständen systematisch von den Anwesenden unterscheiden. Hier sind die Anteile in beiden Klassenstufen annähernd gleich groß. Die gleichzeitige Befragung der Lehrkräfte ergab, dass jene bei etwa jedem/r zehnten fehlenden Schüler/in angaben, dass es sich um ein unentschuldigtes Fehlen handelte. Die Verzerrung dürfte also eher gering sein. Einen deutlichen Unterschied zwischen beiden Befragungen gibt es bei den Teilnahmeverweigerungen. Hier ist der Anteil in den 68
Klassenzimmerbefragungen von Kindern und Jugendlichen
vierten Klassen, bei denen die Eltern anders als in den neunten Klassen explizit der Befragung zustimmen mussten, deutlich höher. Der Ausfall durch nicht verwertbare Fragebögen ist bei beiden Klassenstufen sehr gering. Insgesamt konnten in beiden Klassenstufen sehr hohe Ausschöpfungsquoten erreicht werden. Tab01 Tabelle 1: Rücklaufquoten 4. Klasse
Personen
9. Klasse
Anteil an Anteil an Bruttostich- bereinigter Bruttostichprobe (in %) probe (in %)
Personen
Anteil an Anteil an Bruttostich- bereinigter Bruttostichprobe (in %) probe (in %)
Bruttostichprobe
8.568
100,00
–
22.572
100,00
–
Absagen von Klassen/Schulen
1.334
15,57
–
3.436
15,22
–
Bereinigte Bruttostichprobe
7.234
84,43
100,00
19.136
84,78
100,00
am Befragungstag abwesende Schüler/innen
624
7,28
8,63
1.727
7,65
9,02
Teilnahmeverweigerung (Eltern/ Schüler/innen)
462
5,39
5,97
283
1,25
1,48
6
0,07
0,08
105
0,47
0,55
6.142
71,69
84,90
17.021
75,41
88,95
Nicht verwertbare Fragebögen Nettostichprobe
Eine hohe Ausschöpfungsquote ist allerdings noch keine hinreichende Bedingung für eine unverzerrte Stichprobe. Zu fragen ist darüber hinaus, ob die Stichprobe die Grundgesamtheit in relevanten Merkmalen, z. B. hinsichtlich der besuchten Schulformen abbilden kann. In Tabelle 2 ist die Verteilung der befragten Neuntklässler/innen auf die unterschiedlichen Schulformen den Anteilen gegenübergestellt, die laut Angaben der Schulämter die jeweilige Schulform besuchen. Da sich die vorhandenen Schulformen zwischen den westdeutschen Befragungsgebieten und dem einzigen ostdeutschen Befragungsgebiet Thüringen stark unterscheiden, werden diese an dieser Stelle gesondert aufgeführt.4 Deutlich wird, dass die in der Stichprobe erreichte Verteilung auf die Schulformen die Verteilung in der Grundgesamtheit jeweils relativ gut widerspiegelt. Schüler/innen von Gesamt69
Julia Simonson
schulen sind in beiden Gebieten leicht überrepräsentiert, wohingegen Gymnasiasten/innen in den Stichproben etwas schwächer vertreten sind, als es eigentlich zu erwarten wäre. Tab02 Tabelle 2: Verteilung der Neuntklässler/innen auf Schulformen in Stichprobe und Grundgesamtheit (in %) Westdeutsche Befragungsgebiete
Thüringen
SP
GG
SP
GG
Hauptschule Realschule Gymnasium Gesamtschule Haupt- und Realschule/Regelschule Schule in freier Trägerschaft
20,60 24,24 27,55 14,82 4,61 8,17
22,71 23,89 30,60 11,51 2,72 8,57
– – 31,21 4,41 62,32 2,06
– – 33,59 2,48 61,46 2,47
N
14.301
28.418
2.720
27.524
SP: Nettostichprobe, GG: Grundgesamtheit
Sowohl bei den Viert- als auch bei den Neuntklässlern/innen konnte eine annähernde Gleichverteilung der Geschlechter innerhalb der Stichproben erreicht werden (Viertklässler: 49,84% Jungen, Neuntklässler: 49,29% Jungen). Das durchschnittliche Alter entspricht mit 10,32 bzw. 15,09 Jahren dem für die einbezogenen Jahrgangsstufen erwartbaren Alter.
4 Validität der Angaben der Viertklässler/innen am Beispiel der Schulnoten Im Folgenden soll die Gültigkeit der Angaben anhand der von den Viertklässlern/innen angegebenen Schulnoten überprüft werden. Da in der vierten Klasse für alle Kinder die Schulnoten des letzten Zeugnisses in den Fächern Deutsch, Mathematik, Sachkunde und Sport sowohl aus der Perspektive der Kinder als auch der Lehrkräfte erhoben wurden, ergibt sich die Möglichkeit des direkten Vergleichs beider Angaben. Unterstellt wird, dass die Angaben der Lehrkräfte korrekt sind, da diesen bereits im Vorfeld der Befragung mitgeteilt wurde, dass sie die Noten der Schüler/innen in den angege70
Klassenzimmerbefragungen von Kindern und Jugendlichen
benen Schulfächern berichten sollten und daher ein Klassenbuch, Notenverzeichnis oder Ähnliches dabei haben sollten. Im Ergebnis sind die Übereinstimmungen in allen vier Fächern relativ hoch.5 Bezogen auf die Deutschnote gab es zu 85,84% Übereinstimmungen zwischen den Angaben der Lehrer/innen und Kinder. Selbst wenn man die zufällig deckungsgleichen Angaben berücksichtigt, ist noch eine hohe Übereinstimmung zu verzeichnen (Cohens Kappa: 0,80).6 9,91% der Schüler/innen geben eine bessere Deutschnote an, 4,25% eine schlechtere. Insgesamt 1,11% „verschätzen“ sich um mehr als eine Note nach oben oder unten. Ganz ähnlich ist das Bild im Fach Mathematik. Hier gab es zu 87,88% Übereinstimmungen (Kappa: 0,83), 8,89% der Schüler/innen gaben eine bessere Note an, 3,23% eine schlechtere. Auch hier wich bei 1,11% die selbst angegebene Note um mehr als eine ganze Note von der Angabe der Lehrer/innen ab. In den Fächern Sachkunde und Sport gab es 84,34% bzw. 88,10% Übereinstimmungen (Kappa: 0,77 bzw. 0,81), 10,39% (7,91%) der Schüler/innen gaben bessere Note an, 5,27% (3,99%) eine schlechtere. 1,29% (0,79%) „verschätzen“ sich um mehr als eine Note. Die Ergebnisse zeigen zwar, dass es insgesamt ein hohes Maß an Übereinstimmungen gibt, diese aber offenbar nicht zufällig sind. Wäre dies der Fall, müssten in etwa gleich viele Kinder bessere bzw. schlechtere Schulnoten berichten. Tatsächlich werden aber von den Kindern häufiger bessere Noten angegeben. Zu fragen ist, ob sich Kinder, die bessere Schulnoten berichten, systematisch von anderen unterscheiden. Im Rahmen multivariater logistischer Mehrebenenmodelle wurde überprüft, wie sich verschiedene Eigenschaften der Kinder auf die Wahrscheinlichkeit, eine bessere Schulnote zu berichten, auswirken.7 Dabei werden zwei Annahmen geprüft. Versteht man das Berichten besserer Schulnoten als eine Form sozial erwünschten Antwortverhaltens, so kann vermutet werden, dass insbesondere Personen mit Anerkennungsdefiziten zum Berichten besserer Noten neigen. Angenommen werden kann, dass Kinder, die bereits Deprivationserfahrungen wegen ihrer ethnischen oder sozialen Herkunft machen mussten, aufgrund daraus resultierender Anerkennungsdefizite eher anfällig für sozial erwünschte Antworten sind. Eine Voraussetzung ist allerdings, dass die Befragten bereits bestimmte Normen hinsichtlich der sozialen Erwünschtheit internalisiert haben (Reinecke, 1991). Angenommen wird, dass Kinder höher gebildeter Eltern schulbezogene Leistungsnormen in stärkerem Maße internalisiert haben und daher eher bessere Noten angeben. Als Indikator für die Bildung der Eltern wurde in die vorliegenden Modelle eine auf der Grundlage der Lehrer/inneneinschätzung gebildete Variable einbezogen, die angibt, ob die Eltern über eine niedrige (unter 71
Julia Simonson
zehn Jahre Schulbesuch) oder höhere Bildung verfügen. Da nicht für alle Kinder solche Lehrer/inneneinschätzungen vorliegen, ist der Ausfall durch fehlende Werte hier mit 23,3% sehr hoch.8 Als Indikator für den sozialen Status wurde die aus Schüler/innenangaben generierte Information einbezogen, ob derzeit mindestens ein Elternteil von Arbeitslosigkeit betroffen ist. Tab03 Tabelle 3: Erklärungsmodell für das Berichten besserer Schulnoten (binär logistisches Mehrebenenmodell, abgebildet: Effektkoeffizienten eb) Deutsch
Mathematik
Sachkunde
Sport
Note der Lehrkraft (z) Geschlecht: männlich ethnische Herkunft: türkisch ehemalige Sowjetunion andere deutsch Alter in Jahren (z) positive Schuleinstellung (z) Arbeitslosigkeit der Eltern niedrige Bildung der Eltern
2,71*** 1,05
2,65*** 1,84***
4,10*** 1,02
3,61*** 1,25†
0,73 0,99 0,98 Ref. 0,92 1,17* 0,82 0,92
0,79 1,28 1,04 Ref. 0,97 1,07 0,74 1,04
0,72 0,78 0,93 Ref. 0,92 1,12† 0,90 1,07
0,95 1,18 1,01 Ref. 1,19 0,97 1,15 0,91
Varianz Ebene 2 Pseudo R2 (Maddala) Ni (Schüler/innen) Nj (Klassen)
0,40 0,07 4.458 273
0,38 0,08 4.470 273
0,63 0,10 4.405 271
0,46 0,06 4.424 272
abhängige Variable: Berichten besserer Schulnote (1 = ja, 0 = nein), z: am Klassenmittelwert zentriert, unter Kontrolle der Erhebungsgebiete, *** signifikant p<0,001, ** signifikant p<0,01, * signifikant p<0,05, † signifikant p<0,1
Zusätzlich wurde die von der Lehrkraft vergebene Note im betreffenden Fach zur Kontrolle eines Deckeneffekts einbezogen, da es für Kinder mit sehr guten Leistungen schwierig bis unmöglich ist, eine noch bessere Note anzugeben. Darüber hinaus besteht für Kinder mit einer guten Note eine geringere „Notwendigkeit“, diese im Fragebogen nochmals zu „verbessern“. Erwartungsgemäß geht von der Note ein deutlicher positiver Effekt aus, d. h., die Wahrscheinlichkeit, eine bessere Note anzugeben, ist für Kinder, die von der Lehrkraft eine schlechte (= hohe) Note bekommen haben, höher. Signifikante positive Effekte sind darüber hinaus in Mathematik und Sport für 72
Klassenzimmerbefragungen von Kindern und Jugendlichen
das Geschlecht festzustellen: Jungen berichten hier mit größerer Wahrscheinlichkeit eine bessere Schulnote, was darauf zurückzuführen sein könnte, dass diese Fächer bei Jungen einen höheren Stellenwert haben als bei Mädchen. Der Status der Eltern sowie die ethnische Herkunft haben dagegen ebenso wie das Alter keinen signifikanten Einfluss. Einen signifikanten positiven Effekt in den Fächern Deutsch und Sachkunde hat das Vorhandensein einer positiven Einstellung der Schule gegenüber, was sich über den Rückgriff auf internalisierte Normen erklären lässt: Nur wenn die Schule (und damit auch die schulische Leistung) als etwas Positives angesehen wird, besteht ein Anreiz, diesbezüglich sozial erwünscht zu antworten. Zugleich könnte sich hierin eine Strategie zur Dissonanzreduktion niederschlagen: Eine positive Schuleinstellung bei gleichzeitigem Ausbleiben guter Noten erzeugt ein Spannungsverhältnis, welches durch das Korrigieren der Note nach oben verringert wird (Baier & Pfeiffer & Windzio & Rabold 2006, 93). Insgesamt lassen sich somit hinsichtlich des Berichtens besserer Schulnoten lediglich für das Geschlecht sowie für eine positive Schuleinstellung inhaltlich interpretierbare Effekte berichten. Allerdings wirken diese nicht auf alle betrachteten Fächer gleichermaßen.
5 Soziale Erwünschtheit in der Befragung der neunten Klassen Als soziale Erwünschtheit wird gemeinhin die Tendenz von Befragten bezeichnet, Angaben zum eigenen Verhalten oder eigene Meinungen in Richtung auf (vermeintlich) sozial erwartete Verhaltensweisen oder Meinungen zu verzerren. Befragte geben also Antworten, die ihnen gesellschaftlich akzeptabel erscheinen (Mühlenfeld 2004, 28). Dieses Verhalten kann sowohl persönlichkeits- als auch situationsbezogen erklärt werden (Schnell & Hill & Esser 2005, 355) und tritt insbesondere bei normativ aufgeladenen Themen auf, bei denen angenommen wird, dass die wahrheitsgemäße Preisgabe eines Verhaltens oder einer Einstellung zu missbilligenden Reaktionen führen kann (Stocké 2004). Zur Messung sozial erwünschter Antworttendenzen wurden verschiedene Skalen entwickelt. Eine erste eindimensionale Skala zur Überprüfung sozialer Erwünschtheit stammt von Edwards (1957), eine weitere von Crowne und Marlowe (1960). In Anlehnung an die gekürzte deutsche Version letzterer Skala (Lück & Timaeus 1969) wurde 1980 vom ZUMA eine Kurzform mit vier Items entwickelt, die auch im ALLBUS 1980 verwendet 73
Julia Simonson
wurde. Wie in der ausführlichen Skala werden dabei die im Sinne der Skala positiven Antworten aufsummiert; der resultierende Wert soll Aufschluss über den Grad der sozialen Erwünschtheit geben, wobei ein eindimensionales Konstrukt unterstellt wird.9 An der Reliabilität und Validität dieser Skala wurde allerdings mehrfach Kritik geübt. Winkler, Kroh und Spiess (2006) ermittelten eine sehr geringe interne Konsistenz der Skala (Cronbachs Alpha = 0,31) sowie eine mittlere Inter-Item-Korrelation von nur 0,11. Zudem deuteten Faktorenanalysen der Autoren darauf hin, dass die Items eher zwei Dimensionen abbilden, es sich somit nicht um ein eindimensionales Konstrukt handelt.10 Es ist also durchaus fraglich, ob die Skala ein geeignetes Instrument zur Erfassung sozialer Erwünschtheit ist. Sehr wenige Hinweise gibt es darüber hinaus zur Eignung der Skala für jugendliche Befragte. Aufgrund ihrer Kürze wurde die auf die vier Items „Ich sage immer, was ich denke“, „Ich bin manchmal ärgerlich, wenn ich meinen Willen nicht bekomme“, „Ich bin immer gewillt, einen Fehler, den ich mache, auch zuzugeben“, „Ich habe gelegentlich mit Absicht etwas gesagt, was die Gefühle des anderen verletzen könnte“ basierende Skala dennoch im Rahmen der KFN-Befragung verwendet. Tabelle 4 zeigt, dass das Ausmaß sozial erwünschter Antworttendenzen bei den befragten Jugendlichen geringer ist als in der zum Vergleich herangezogenen ALLBUS-Erhebung.11 Dennoch weisen auch in der vorliegenden Befragung fast 10% ein deutliches (vier Items) und etwa 60% ein mittleres (zwei Items) bis stärkeres (drei Items) sozial erwünschtes Antwortverhalten auf. Tabelle 4: Ausmaß sozial erwünschten Antwortverhaltens
Ausmaß des sozial erwünschten Antwortverhaltens kein (kein Item sozial erwünscht beantwortet) gering (ein Item sozial erwünscht beantwortet) mittel (zwei Items sozial erwünscht beantwortet) stärker (drei Items sozial erwünscht beantwortet) stark (vier Items sozial erwünscht beantwortet) Gesamt
74
Befragung der zum Vergleich: neunten Klassen ALLBUS 1980 2005 %
%
6,85 23,06 34,68 25,67 9,74
1,46 13,40 40,03 32,89 12,22
100,00 N = 16.968
100,00 N = 2.955
Klassenzimmerbefragungen von Kindern und Jugendlichen
Welche Jugendlichen sind nun besonders anfällig für sozial erwünschtes Antwortverhalten? Denkbar ist, dass höher gebildete Personen bzw. Personen mit höherem Reflexionsvermögen eher über die soziale Erwünschtheit ihrer Antworten reflektieren und in der Folge auch ihre Antworten eher an dieser vermuteten Norm ausrichten. Andererseits wäre möglich, dass Jugendliche, die bereits Deprivationserfahrungen aufgrund ihrer Herkunft erleben mussten, vermittelt über ein höheres Anerkennungsbedürfnis stärker zu sozial erwünschtem Antwortverhalten neigen. Im Folgenden werden zunächst einige bivariate Zusammenhänge zwischen soziodemographischen Charakteristika und sozial erwünschtem Antwortverhalten dargestellt, bevor anschließend multivariate Modelle zur Erklärung des Antwortverhaltens diskutiert werden.12 Da die meisten Daten, die über die Schüler/innen vorliegen, auf Selbstaussagen der Befragten beruhen, ergibt sich ein Problem: So ist bei einem Zusammenhang größer als null zwischen positiv konnotierten Merkmalen und sozial erwünschtem Antwortverhalten nicht zweifelsfrei auszuschließen, dass auch die fraglichen Variablen sozial erwünscht beantwortet wurden, und der Zusammenhang gerade dadurch zustande kommt bzw. verstärkt wird. Gleiches gilt vice versa für negativ belegte Eigenschaften oder Verhaltensweisen. In einem ersten Schritt werden daher zunächst Merkmale einbezogen, von denen angenommen wird, dass sie mit großer Wahrscheinlichkeit wahrheitsgemäß berichtet werden (Geschlecht, ethnische Herkunft, Alter) bzw. die durch externe Quellen abgesichert sind (Schulform der besuchten Schule). Tabelle 5 weist für alle einbezogenen Merkmale einen hochsignifikanten, aber schwachen Zusammenhang mit dem Ausmaß sozial erwünschten Antwortverhaltens aus (p<0,001, Cramérs V: 0,03–0,07). Zu erkennen ist, dass Mädchen etwas häufiger ein mittleres und stärkeres sozial erwünschtes Antwortverhalten aufweisen als Jungen.13 Darüber hinaus neigen ältere Jugendliche eher zu sozial erwünschtem Antwortverhalten. Ein weiterer Zusammenhang lässt sich hinsichtlich der ethnischen Herkunft feststellen. Hier sind es insbesondere türkischstämmige sowie südeuropäische Jugendliche, die häufig in starkem Maße sozial erwünscht antworten. Hinsichtlich der besuchten Schulform lässt sich feststellen, dass an Gymnasien am wenigsten und an Hauptschulen am häufigsten sozial erwünscht geantwortet wird. Die Schüler/innen an Real- und Gesamtschulen liegen hinsichtlich ihres Antwortverhaltens dazwischen. Tab05
75
Julia Simonson
Tabelle 5: Bivariate Zusammenhänge zwischen Soziodemographie und sozial erwünschtem Antwortverhalten stärkeres/starkes mittleres sozial kein/geringes sozial erwünschtes erwünschtes sozial erwünschtes Antwortverhalten Antwortverhalten Antwortverhalten % % %
N
Gesamt
29,91
34,68
35,41
16.968
Geschlecht (V: 0,03***): weiblich männlich
28,51 31,37
35,67 33,68
35,81 34,94
8.592 8.357
Alter (V: 0,05***): bis 15 Jahre über 15 Jahre
31,03 26,35
34,82 34,22
34,15 39,43
12.903 4.038
ethnische Herkunft (V: 0,06***): deutsch eh. Sowjetunion osteuropäisch türkisch eh. Jugoslawien südeuropäisch andere
31,27 26,27 35,25 20,92 24,52 21,48 26,09
34,76 37,00 34,35 32,94 36,77 32,22 33,94
33,97 36,73 30,40 46,14 38,71 46,30 39,96
13.129 727 556 1.257 465 270 548
Schulform (V: 0,07***): Hauptschule Realschule Gymnasium Gesamtschule
23,51 29,81 33,46 29,34
33,21 34,37 35,91 34,28
43,29 35,82 30,63 36,38
2.927 6.014 5.798 2.229
V: Cramérs V, *** signifikant p<0,001
Zu vermuten ist, dass sich die betrachteten bivariaten Zusammenhänge überlagern. So könnte der Zusammenhang zwischen ethnischer Herkunft und sozial erwünschtem Antwortverhalten teilweise darauf zurückzuführen sein, dass ausländische Jugendliche verstärkt auf Hauptschulen zu finden sind. Sowohl der Effekt der ethnischen Herkunft als auch der Schulform könnten aber auch durch Hintergrundmerkmale wie das kulturelle und soziale Kapital im Elternhaus hervorgerufen werden. Um dieser Frage nachzugehen, wurden die betrachteten Merkmale im Rahmen einer ordinalen logistischen Mehrebenenregression simultan einbezogen (vgl. Tabelle 6). Zu76
Klassenzimmerbefragungen von Kindern und Jugendlichen
sätzlich wurden in Modell 1 das Bildungsniveau der Eltern (mindestens ein Elternteil hat Abitur) und in Modell 2 mit dem Ausmaß der Risikosuche, des Temperaments und der Impulsivität drei Dimensionen mangelnder Selbstkontrolle einbezogen.14 In den multivariaten Modellen bestätigen sich in der Tendenz die bereits in der bivariaten Betrachtung offensichtlich gewordenen Zusammenhänge. Darüber hinaus findet man einen schwachen negativen Effekt der elterlichen Bildung: Jugendliche, die aus einem vergleichsweise hoch gebildeten Elternhaus stammen, neigen mit geringerer Wahrscheinlichkeit zu einem stärker sozial erwünschten Antwortverhalten. Für die Risikosuche lässt sich kein Effekt feststellen. Hohe Werte auf der Temperaments- und Impulsivitätsskala verringern dagegen die Wahrscheinlichkeit eines stark sozial erwünschten Antwortverhaltens. Insgesamt weisen die Ergebnisse darauf hin, dass eher diejenigen Schüler und Schülerinnen, die über ein geringeres eigenes und elterliches Bildungsniveau verfügen und nicht aus Deutschland stammen, anfällig für ein sozial erwünschtes Antwortverhalten sind. Die eingangs getroffene Annahme, dass es eher die höher Gebildeten sind, die sozial erwünscht antworten, kann somit nicht bestätigt werden. Tab06 Tabelle 6: Einflussfaktoren sozial erwünschten Antwortverhaltens (ordinal logistisches Mehrebenenmodell, abgebildet: Effektkoeffizienten eb) Modell 0
Modell 1
Modell 2
Alter in Jahren (z) Geschlecht: männlich Bildung der Eltern: Abitur
– – –
1,07** 0,89*** 0,96
1,09*** 0,89*** 0,95
ethnische Herkunft: eh. Sowjetunion osteuropäisch türkisch eh. Jugoslawien südeuropäisch andere deutsch
– – – – – – –
1,16† 0,87 1,42*** 1,13 1,50** 1,22* Ref.
1,15† 0,94 1,54*** 1,19† 1,60*** 1,19† Ref.
Schulform: Gymnasium Realschule Gesamtschule Hauptschule
– – – –
0,65*** 0,80*** 0,79*** Ref.
0,63*** 0,78*** 0,77*** Ref.
77
Julia Simonson
mangelnde Selbstkontrolle: Risikosuche (z) Temperament (z) Impulsivität (z) Konstante Schwelle T1 Konstante Schwelle T2 Konstante Schwelle T3 Konstante Schwelle T4
– – – –2,64*** –0,86*** 0,63*** 2,29***
– – – –2,95*** –1,16*** 0,33*** 2,00***
1,00 0,64*** 0,91*** –3,09*** –1,24*** 0,34*** 2,08***
Varianz Ebene 2:
0,06
0,03
0,04
R2
– 14.335 776
0,01 14.335 776
0,09 14.335 776
(Maddala) Pseudo Ni (Schüler/innen) Nj (Klassen)
abhängige Variable: sozial erwünschtes Antwortverhalten, z: am Klassenmittelwert zentriert, *** signifikant p<0,001, ** signifikant p<0,01, * signifikant p<0,05, † signifikant p<0,1
Die Vermutung, dass Personen die aufgrund ihrer Herkunft mit Deprivationserfahrungen zu kämpfen haben, verstärkt sozial erwünscht antworten, wird durch die Ergebnisse dagegen (zumindest in Hinsicht auf die ethnische Herkunft) bestätigt. Wobei natürlich nicht ausgeschlossen werden kann, dass hierfür auch andere Mechanismen als der unterstellte (wie z. B. kulturelle Prägungen) eine Rolle spielen könnten. Abschließend soll noch einmal überprüft werden, inwieweit das Ausmaß sozial erwünschten Antwortverhaltens mit den Selbstangaben zu delinquentem Verhalten korrespondiert. Tabelle 7 verdeutlicht, dass es einige Unterschiede insbesondere zwischen den stark sozial erwünscht Antwortenden und den anderen Gruppen gibt, die Zusammenhänge insgesamt jedoch eher gering sind (Cramérs V: 0,04 bis 0,09). Festzustellen ist, dass Jugendliche, die ein starkes sozial erwünschtes Antwortverhalten aufweisen, jeweils zu geringeren Anteilen angeben, innerhalb der letzten Monate eine Körperverletzung, Vandalismus oder einen Ladendiebstahl begangen zu haben bzw. ohne Fahrschein in öffentlichen Verkehrsmitteln oder ohne Führerschein Auto gefahren zu sein als andere. Zu vermuten ist, dass die hier gefundenen Zusammenhänge zumindest teilweise auch Effekte der sowohl das abweichende Verhalten als auch das sozial erwünschte Antwortverhalten beeinflussenden soziodemografischen Faktoren sind. Allerdings blieb auch in (hier nicht vorgestellten) Erklärungsmodellen zu unterschiedlichen Formen devianten Verhaltens, in denen sowohl sozial erwünschtes Antwortverhalten als auch soziodemografische 78
Klassenzimmerbefragungen von Kindern und Jugendlichen
Eigenschaften einbezogen werden, ein schwacher, aber signifikanter Einfluss sozialer Erwünschtheit bestehen, so dass zumindest von einem leichten Zusammenhang auszugehen ist. Über die Frage, inwieweit sich bei anderen Erhebungsformen stärkere oder schwächere Zusammenhänge zwischen sozialer Erwünschtheit und abweichenden Verhaltensweisen zeigen, kann hier aufgrund mangelnder Vergleichszahlen nur spekuliert werden. Bisherige Befunde (Köllisch & Oberwittler 2004; Naplava & Oberwittler 2002; Oberwittler & Naplava 2002) deuten aber darauf hin, dass Prävalenzraten selbstberichteter Delinquenz bei Klassenzimmerbefragungen höher ausfallen als bei persönlich-mündlichen Interviews, was als Hinweis auf geringere Effekte sozialer Erwünschtheit bei ersteren verstanden werden kann. Tab07 Tabelle 7: Zusammenhänge zwischen sozial erwünschtem Antwortverhalten und abweichendem Verhalten (Spaltenprozente)
mind. einmal in den letzten 12 Monaten getan (Mehrfachnennungen): Körperverletzung (V: 0,06***) Vandalismus (V: 0,09***) Ladendiebstahl (V: 0,07***) Schwarzfahren (V: 0,09***) Fahren ohne Führerschein (V: 0,04***)
kein/geringes starkes sozial mittleres sozial sozial erwünschtes erwünschtes erwünschtes Antwortverhalten Antwortverhalten Antwortverhalten Nmin = 4.893
Nmin = 5.644
Nmin = 5.782
17,43 18,00 18,73 66,75
16,29 16,10 17,94 64,79
12,13 10,70 12,84 57,11
22,48
22,77
18,94
V: Cramérs V, *** signifikant p<0,001
6 Abschließende Betrachtung Im vorliegenden Beitrag wurden Besonderheiten von Klassenzimmerbefragungen bei Kindern und Jugendlichen im Vergleich zu anderen Befragungsformen betrachtet. Im Anschluss daran wurde mit der KFN-Schüler/innenbefragung 2005 eine Beispielstudie vorgestellt, anhand derer zwei zentrale Punkte der Datengüte untersucht wurden: Zum einen wurde die Validität der Angaben zu den Schulnoten von Viertklässlern/innen überprüft, zum anderen wurde dem Ausmaß sozial erwünschten Antwortverhaltens nachgegangen. 79
Julia Simonson
Ein Vorteil der Klassenzimmerbefragung bei Kindern und Jugendlichen liegt in der deutlichen Einsparung von Zeit und Kosten gegenüber anderen Befragungsvarianten. Darüber hinaus ermöglichen Schul- und Klassenlisten die Ziehung mehrstufiger Zufallsauswahlen. Schließlich sind Jugendliche und Kinder deutlich leichter zur Teilnahme an einer Befragung zu motivieren, wenn diese während der Schulzeit stattfindet, was sich in deutlich höheren Ausschöpfungsquoten im Vergleich zu anderen Befragungsformen niederschlägt. Zugleich sind aber auch einige Nachteile zu benennen: So reduziert die mit der Stichprobenziehung unweigerlich verbundene Klumpung die effektive Stichprobengröße. Zu berücksichtigen sind darüber hinaus nicht nur Interviewer- und Interviewerinneneffekte, sondern auch durch die Anwesenheit von Mitschüler/innen und Lehrer/innen möglicherweise hervorgerufene Antwortverzerrungen. Anhand der vom KFN durchgeführten Befragungen konnte gezeigt werden, dass die Angaben der Schülerinnen und Schüler der vierten Klassen zu deren Schulnoten überwiegend als zuverlässig betrachtet werden können. Zwar berichteten mehr Schüler eine bessere als eine schlechtere Schulnote; das Risiko hierfür scheint allerdings nur wenig systematisch mit anderen Befragteneigenschaften zu variieren. In den neunten Klassen wurde der Problematik sozial erwünschten Antwortverhaltens mit Hilfe einer Kurzskala nachgegangen. Hier zeigte sich, dass immerhin ein Drittel der Befragten ein stärkeres oder starkes sozial erwünschtes Antwortverhalten aufwiesen. Darüber hinaus konnten Zusammenhänge der sozialen Erwünschtheit sowohl mit soziodemografischen Charakteristika als auch mit Formen der selbst berichteten Delinquenz aufgezeigt werden. Die Möglichkeit der Verzerrung der Angaben zu sensitiven Themen, wie sie bei Fragen zur Delinquenz unzweifelhaft gegeben sind, durch sozial erwünschte Antworttendenzen sollte bei der Interpretation der Ergebnisse daher immer bedacht werden. Dennoch sollten die Effekte sozial erwünschten Antwortverhaltens nicht überbewertet werden, da die gefundenen Zusammenhänge nur schwach und teilweise auch durch soziodemografische Merkmale zu erklären sind. Darüber hinaus sind sozial erwünschte Antworttendenzen natürlich kein „Privileg“ von Klassenzimmerbefragungen. Bisherige Ergebnisse, wie z. B. die von Köllisch und Oberwittler (2004) sowie Oberwittler und Naplava (2002) aufgezeigten höheren Prävalenzraten selbst berichteter Delinquenz bei Klassenzimmerbefragungen im Vergleich zu Haushaltsbefragungen weisen vielmehr darauf hin, dass erstere zumindest im Vergleich zu mündlichen Befragungen hinsichtlich sozialer Erwünschtheitseffekte einen Vorteil bieten. 80
Klassenzimmerbefragungen von Kindern und Jugendlichen
Stellt man abschließend die mit Klassenzimmerbefragungen verbundenen Potentiale den Problemfeldern gegenüber, so lässt sich feststellen, dass diese Form der Befragung bei Kindern und Jugendlichen durchaus eine sinnvolle (und daher auch häufig eingesetzte) Alternative zu anderen Methoden der Datenerhebung darstellt. Anmerkungen *
Für hilfreiche Anmerkungen danke ich Susann Rabold, Judith Werther, Johann Bacher sowie dem/r Verfasser/in des anonymen Gutachtens. 1
2
3
4
5 6
7
8
Generell ist es natürlich auch möglich, andere Personen im Rahmen von Klassenzimmerbefragungen zu interviewen, allerdings entfallen dann einige der spezifischen Vorteile der Klassenzimmerbefragung. So erscheint es wenig sinnvoll, eine bevölkerungsrepräsentative Stichprobe von Personen erst schriftlich oder telefonisch zu einer Klassenzimmerbefragung einzuladen und dann im Rahmen einer solchen zu befragen. Hier wäre eine schriftlich-postalische oder telefonische Befragung sicherlich erfolgversprechender. Allerdings birgt auch dieses Vorgehen wieder eine Gefahr in sich, wenn nämlich durch die so entstehende Klassenarbeitsatmosphäre der Eindruck entsteht, es handele sich bei der Befragung um einen Test, bei dem richtige und falsche Antworten möglich seien. Dies könnte dann wiederum zu einer erhöhten Tendenz, sozial erwünschte Antworten zu geben, führen. Solche verallgemeinernden Aussagen lassen sich erst auf der Basis der 2007/08 vom KFN durchgeführten bundesweit repräsentativen Schülerbefragung treffen (vgl. Baier & Pfeiffer & Simonson & Rabold 2009). Auch zwischen den westdeutschen Bundesländern gibt es Unterschiede hinsichtlich der vorhandenen Schulformen. Auf eine ausführliche Darstellung der Verteilungen wird an dieser Stelle jedoch verzichtet. Sie ist nachzulesen in Baier & Pfeiffer & Windzio & Rabold 2006. Schulen in freier Trägerschaft wurden nicht einbezogen, da hier überwiegend keine Notenvergabe erfolgte; Notenangaben mit Dezimalstellen wurden gerundet. Cohens Kappa ist ein häufig genutztes statistisches Maß für die Interrater-Reliabilität der Einschätzungen von Beurteilern (Cohen 1960). Bei kompletter Übereinstimmung nimmt Kappa theoretisch einen Wert von 1 an, positive Werte unter 1 geben das Ausmaß der überzufälligen Übereinstimmungen an, bei negativen Werten ist die tatsächliche Übereinstimmung kleiner als eine zufällige Übereinstimmung. Allerdings wird Kappa auch kritisch diskutiert, da es mit der jeweils gegebenen Randverteilung variiert und in Einzelfällen auch bei relativ geringer Übereinstimmung hohe Werte aufweist (vgl. z. B. Lantz & Nebenzahl 1996; Feinstein & Cicchetti 1990; Cicchetti & Feinstein 1990). Alle Mehrebenenmodelle wurden mit der in Stata implementierten Prozedur gllamm berechnet (vgl. Rabe-Hesketh & Skrondal 2005). Für ein umfangreiches Erklärungsmodell ohne Mehrebeneneinbezug vgl. Baier & Pfeiffer & Windzio & Rabold 2006, 91. Dieser Ausfall scheint zumindest für die vorliegende Fragestellung unmaßgeblich zu sein: Modelle, die ohne Einschluss dieser Variablen und damit auf der Grundlage ei-
81
Julia Simonson
9
10
11
12
13
14
ner höheren Fallzahl berechnet wurden, unterschieden sich hinsichtlich der Effekte der anderen einbezogenen Variablen nicht substanziell von den vorliegenden. Darüber hinaus konnten zwischen Kindern mit und ohne Angabe zur Bildung der Eltern keine signifikanten Unterschiede hinsichtlich zentraler Variablen wie Geschlecht und Arbeitslosigkeit der Eltern festgestellt werden. Lediglich bei der ethnischen Herkunft war ein geringer Unterschied derart zu finden, dass deutsche Kinder etwas häufiger einen fehlenden Wert in der Bildungsvariablen aufwiesen. Eine zweidimensionale Skala zur Messung sozialer Erwünschtheit mit den Dimensionen Selbst- und Fremdtäuschung stammt von Paulhus (1984); eine deutschsprachige Kurzversion für das SOEP entwickelten darauf aufbauend Winkler, Kroh und Spiess (2006). Auch in der vorliegenden Stichprobe ist die Reliabilität der Skala äußerst gering (Cronbachs Alpha: 0,25), so dass stark bezweifelt werden muss, dass die hier verwendete Skala tatsächlich einen einzigen Faktor sozialer Erwünschtheit abbildet. Auf der Grundlage der vier einbezogenen Items ließ sich allerdings auch keine sinnvolle Zwei-Faktoren-Lösung finden, so dass hier trotz aller Vorbehalte eine eindimensionale Struktur unterstellt wird. Dabei muss eigentlich die unterschiedliche Altersstruktur in beiden Erhebungen berücksichtigt werden. Für den ALLBUS konnte auf der Grundlage einer Regressionsanalyse ein schwacher negativer Effekt des Alters nachgewiesen werden. Für die im Rahmen der KFN-Befragung untersuchte Altersgruppe von durchschnittlich 15-Jährigen wäre somit eigentlich ein noch höheres Ausmaß sozial erwünschten Antwortverhaltens zu erwarten als in der ALLBUS-Gesamtstichprobe. Für die bivariate Betrachtung wurden zur anschaulicheren Darstellbarkeit aus den Werten der Kurzskala drei Kategorien gebildet: „kein/geringes sozial erwünschtes Antwortverhalten“ (kein oder ein Item sozial erwünscht beantwortet), „mittleres sozial erwünschtes Antwortverhalten“ (zwei Items sozial erwünscht beantwortet) und „starkes sozial erwünschtes Antwortverhalten“ (drei oder vier Items sozial erwünscht beantwortet). Für die Berechnung der multivariaten Modelle wurde dagegen die ursprüngliche Skala verwendet. Auf der Grundlage des Allbus 1980 ist dagegen festzustellen, dass weibliche Befragte seltener mittel (39,8%) oder stark (43,3%) sozial erwünscht antworten als männliche Befragte (40,3% bzw. 47,2%). Eine Beschreibung der Skalen ist in Baier & Pfeiffer & Windzio & Rabold 2006, 160 zu finden.
Literatur Baier, D., & Pfeiffer, C., & Windzio, M., & Rabold, S. (2006). Schülerbefragung 2005: Gewalterfahrungen, Schulabsentismus und Medienkonsum von Kindern und Jugendlichen. Abschlussbericht über eine repräsentative Befragung von Schülerinnen und Schülern der 4. und 9. Jahrgangsstufe. Hannover: KFN. Baier, D., & Pfeiffer, C., & Simonson, J., & Rabold, S. (2009). Jugendliche in Deutschland als Opfer und Täter von Gewalt: Erster Forschungsbericht zum gemeinsamen Forschungsprojekt des Bundesministeriums des Inneren und des KFN (KFN-Forschungsbericht Nr. 107). Hannover: KFN.
82
Klassenzimmerbefragungen von Kindern und Jugendlichen Baier, D., & Rabold, S., & Pfeiffer, C., & Windzio, M. (2006). Schülerbefragung 2005: Gewalterfahrungen, Schulabsentismus und Medienkonsum von Kindern und Jugendlichen in Thüringen. Abschlussbericht über eine repräsentative Befragung von Schülerinnen und Schülern der 4. und 9. Jahrgangsstufe. Hannover: KFN. Beebe, T., & Harrison, P., & McRea, J., & Anderson, R., & Kerson, J. (1998). An evaluation of computer-assisted self-interviews in a school setting. Public Opinion Quarterly, 62, 623–632. Cicchetti, D. V., & Feinstein, A. R. (1990). High agreement but low kappa: II. Resolving the paradoxes. Journal of Clinical Epidemiology, 43(6), 551–558. Cohen J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20, 37–46. Crowne, D. P., & Marlowe, D. (1960). New scale of social desirability independent of psychopathology. Journal of Consulting Psychology, 24, 349–354. Diekmann, A. (1998). Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen (4. Auflage). Reinbek: Rowohlt. Edwards, A. L. (1957). The social desirability variable in personality assessment and research. New York: Dryden. Feinstein, A. R., & Cicchetti, D. V. (1990). High agreement but low kappa: I. The problems of two paradoxes. Journal of Clinical Epidemiology, 43(6), 543–549. Fuchs, M. (1997). Ausländische Schüler und Gewalt an Schulen. Ergebnisse einer Lehrerund Schülerbefragung. In H. G. Holtappels & W. Heitmeyer & W. Melzer & K.-J. Tillmann (Hg.), Forschung über Gewalt an Schulen. Erscheinungsformen und Ursachen, Konzepte und Prävention (119–136). Weinheim: Juventa. Fuchs, M., & Lamnek, S., & Lüdtke, J. (1996). Schule und Gewalt. Realität und Wahrnehmung eines sozialen Problems. Opladen: Leske + Budrich. Köllisch, T., & Oberwittler, D. (2004). Wie ehrlich berichten männliche Jugendliche über ihr delinquentes Verhalten? Kölner Zeitschrift für Soziologie und Sozialpsychologie, 56, 708–735. Kreuzer, A., & Görgen, T., & Römer-Klees, R., & Schneider, H. (1992). Auswirkungen unterschiedlicher methodischer Vorgehensweisen auf die Ergebnisse selbstberichteter Delinquenz. Monatsschrift für Kriminologie und Strafrechtsreform 75(2/3), 91–104. Lantz, C. A., & Nebenzahl, E., (1996). Behavior and interpretation of the kappa statistic: Resolution of the two paradoxes. Journal of Clinical Epidemiology, 49(4), 431–434. Lück, H. E., & Timaeus, E. (1969). Skalen zur Messung Manifester Angst (MAS) und sozialer Wünschbarkeit (SDS-E und SDS-CM). Diagnostica, 15, 134–141. Mansel, J., & Hurrelmann, K. (1998). Aggressives und delinquentes Verhalten Jugendlicher im Zeitvergleich. Befunde der Dunkelfeldforschung aus den Jahren 1988, 1990 und 1996. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 50(1), 78–109. Mansel, J. (2001). Angst vor Gewalt: Eine Untersuchung zu jugendlichen Opfern und Tätern. Weinheim: Juventa.
83
Julia Simonson Mühlenfeld, H.-U. (2004). Der Mensch in der Online-Kommunikation. Zum Einfluss webbasierter, audiovisueller Fernkommunikation auf das Verhalten von Befragten. Wiesbaden: DUV. Naplava, T., & Oberwittler, D. (2002). Methodeneffekte bei der Messung selbstberichteter Delinquenz von männlichen Jugendlichen. Ein Vergleich zwischen schriftlicher Befragung in der Schule und mündlicher Befragung im Haushalt. Monatsschrift für Kriminologie und Strafrechtsreform, 85(6), 401–423. Oberwittler, D., & Naplava, T. (2002). Auswirkungen des Erhebungsverfahrens bei Jugendbefragungen zu ,Heiklen‘ Themen – Schulbasierte Schriftliche Befragung und Haushaltsbasierte Mündliche Befragung im Vergleich. ZUMA-Nachrichten, 51, 49–75. Oberwittler, D., & Blank, T., & Köllisch, T., & Naplava, T. (2001). Soziale Lebenslagen und Delinquenz von Jugendlichen. Ergebnisse der MPI-Schülerbefragung 1999 in Freiburg und Köln. Freiburg: Iuscrim. Paulhus, D. L. (1984). Two-component models of social desirable responding. Journal of Personality and Social Psychology, 46(3), 598–609. Planck, U. (1959). Zur Methode der Klassenzimmerbefragung. Zeitschrift für Markt- und Meinungsforschung, 2, 511–516. Rabe-Hesketh, S., & Skrondal, A. (2005). Multilevel and longitudinal modeling using stata. College Station, Texas: Stata Press. Reinecke, J. (1991). Interviewer- und Befragtenverhalten. Theoretische Ansätze und methodische Konzepte. Opladen: Westdeutscher Verlag. Schnell, R., & Hill, P. B., & Esser, E. (2005). Methoden der empirischen Sozialforschung (7. Auflage). München: Oldenbourg. Scholl, A. (2003). Die Befragung. Sozialwissenschaftliche Methode und kommunikationswissenschaftliche Anwendung. Konstanz: UVK. Snijders, T., & Bosker, R. (1999). Multilevel analysis. An introduction to basic and advanced multilevel modelling. London: Sage. Steffgen, G., & Russon, C. (2003). Luxembourg: First official Steps to deal with violence in school. In P. Smith (Ed.), Violence in schools. The response in Europe (49–64). London: Routledge. Stocké, V. (2004). Entstehungsbedingungen von Antwortverzerrungen durch soziale Erwünschtheit. Ein Vergleich der Prognosen der Rational-Choice Theorie und des Modells der Frame-Selektion. Zeitschrift für Soziologie, 33, 303–320. Tillmann, K.-J., & Holler-Nowitzki, B., & Holtappels, H. G., & Meier, U., & Popp, U. (1999). Schülergewalt als Schulproblem. Verursachende Bedingungen, Erscheinungsformen und pädagogische Handlungsperspektiven. Weinheim: Juventa. Winkler, N., & Kroh, M., & Spiess, M. (2006). Entwicklung einer deutschen Kurzskala zur zweidimensionalen Messung von sozialer Erwünschtheit. DIW-Diskussionspapier Nr. 579. Berlin.
84
Monika Taddicken
Monika Taddicken
Methodeneffekte von Web-Befragungen: Soziale Erwünschtheit vs. Soziale Entkontextualisierung Zusammenfassung Die Bedeutung der Online-Forschung hat seit ihrer Entstehung stetig zugenommen. Jedoch können Potenziale einer neuen Befragungsmethode erst dann vorbehaltlos ausgeschöpft werden, wenn die Methodenforschung ,ihre Arbeit gemacht hat‘. Dazu bedarf es sowohl theoretischer als auch empirischer Analysen darüber, welchen Einfluss die Verwendung der Web-Befragung auf die Güte der so erhobenen Daten hat. Insbesondere erscheint eine Betrachtung der potenziellen Methodeneffekte von Web-Befragungen notwendig. Dabei handelt es sich um eine Unterart der Messfehler, die durch die Verwendung einer bestimmten Befragungsmethode verursacht werden. Sie stellen insofern die bedeutsamste Form potenzieller Messfehler dar, als dass es sich um eine systematische und der Methode immanente Fehlerquelle handelt. Um Methodeneffekte zu evaluieren, ist auf die der Befragungsmethode zugrunde liegende Kommunikationsform abzustellen. Im Falle der Web-Befragung ist dies die computervermittelte Kommunikation. Diese verfügt über relativ wenige Kommunikationskanäle, so dass insbesondere visuelle und auditive Informationen kaum bzw. überhaupt nicht übertragen werden. Diese Reduktion der übertragenen Informationen beeinflusst die Wahrnehmung der Kommunikationssituation. So kommt es zu einer verminderten sozialen Präsenz, aber erhöhten ,perzipierten Anonymität‘. Dadurch können einerseits offenere und ehrlichere Antworten der Probanden in der Befragung erwartet werden. Die Effekte der sozialen Erwünschtheit werden minimiert. Insofern ist die Web-Befragung insbesondere für sensible Fragestellungen vorteilhaft. Andererseits sind auch negative Auswirkungen zu befürchten. So kann eine verminderte Orientierung der Probanden an sozialen Werten und Normen in der Befragungssituation angenommen werden. Diese möglichen methodischen Einflüsse werden als ,Effekte der sozialen Entkontextualisierung‘ bezeichnet.
85
Monika Taddicken
In diesem Beitrag wird ein empirischer Methodenvergleich vorgestellt, der den Nachweis der bislang unbeachteten Effekte der sozialen Entkontextualisierung erbringt. Die Ergebnisse des Vergleichs zeigen, dass Probanden in einer WebBefragung tatsächlich weniger an der sozialen Norm ,Ablehnung von Ladendiebstahl‘ orientiert geantwortet haben als in einer telefonischen oder postalischen Befragung. Es wird diskutiert, inwiefern die Effekte der sozialen Entkontextualisierung das Gegenstück der Effekte der sozialen Erwünschtheit bilden.
Abstract Mode Effects of Web Surveys: Social Desirability vs. Social De-Contextualisation The significance of online research has steadily increased since its beginnings. But full potentials of a new interview technique cannot be tapped implicitly until method research “has completed its job”. Therefore, theoretical as well as empirical analysis about the influences exerting on the quality of data, collected by the means of a web survey, is necessary. Especially a treatment of the potential mode effects of web surveys is needed. Mode effects represent a sub-category of measurement errors which are caused by the utilization of a certain interview technique. It is insofar the most important form of measurement errors as it is a matter of systematic and intrinsic error source of the mode. For evaluating mode effects, the underlying communication mode of the interview is substantial. In case of the web survey, this is the computer-mediated communication. Here, a limitation of communication channels, in particular the disappearance of visual and auditory information, involves a reduced social presence, but increased ‘perceived anonymity’ of the communicators. On the one hand, more open and honest responses in interviews are the consequence. The effects of social desirability are minimized. Thus, the web survey is beneficial for sensitive questions. On the other hand, negative effects must be feared: A lower orientation of respondents regarding social values and norms in the situation of web surveys than in other modes can be suspected. These potential effects are called the ‘effects of social de-contextualisation’. This article presents an empirical mode comparison which approves that these effects actually exist. It will show that respondents of a web survey answered less orientated at a social norm regarding the rejection of shop lifting than in telephone or postal surveys. It will be discussed if the effects of social de-contextualisation can be seen as the counterpart of the effects of social desirability.
86
Methodeneffekte von Web-Befragungen
1 Problemstellung Die Bedeutung der Online-Forschung hat seit ihrer Entstehung stetig zugenommen. Dabei hat sich in den vergangenen Jahren insbesondere die WebBefragung etabliert. So ist inzwischen mehr als jedes vierte Interview, das von deutschen Markt- und Sozialforschungsinstituten durchgeführt wird, eine Web-Befragung (vgl. ADM 2008). Die Potenziale einer neuen Befragungsmethode können aber erst dann vorbehaltlos ausgeschöpft werden, wenn die Methodenforschung ,ihre Arbeit gemacht hat‘. Dazu bedarf es sowohl theoretischer als auch empirischer Analysen darüber, welchen Einfluss die Verwendung der Web-Befragung auf die Güte der so erhobenen Daten hat. Die Qualität von Daten der Umfrageforschung bemisst sich nach ihrem Fehleranteil insgesamt. Fehler können auf verschiedenen Stufen und Ebenen des Befragungsprozesses entstehen. In der methodologischen Forschung werden diese Fehlerquellen unter dem Label ,Total Survey Error‘ zusammengefasst (vgl. Költringer 1993, 4; Biemer & Lyberg 2003, 35; Groves et al. 2004, 49). Dieses Konzept berücksichtigt sowohl Fehler auf Ebene der Repräsentativität der Daten als auch Fehler auf Ebene der Messung der Daten (vgl. Groves et al. 2004, 48). Während – v. a. in der Anfangszeit der OnlineForschung – die Frage der mangelnden Repräsentativität von Web-Befragungen umfangreich diskutiert wurde, wurde die Frage der Messfehler eher vernachlässigt. Dieses Versäumnis ist nachzuholen. Insbesondere scheint eine Betrachtung der potenziellen Methodeneffekte (,Mode Effects‘) von Web-Befragungen notwendig. Dabei handelt es sich um eine Unterart der Messfehler (,Measurement Error‘), die durch die Verwendung einer bestimmten Befragungsmethode verursacht wird. Sie stellt insofern die bedeutsamste Form von Messfehlern dar, als dass es sich um eine systematische und der Methode immanente Fehlerquelle handelt (vgl. Fiske 1982, 78; Cote & Buckley 1987, 315). Aus diesem Grund setzt dieser Beitrag hier an. Eine Beschäftigung mit den Methodeneffekten von Web-Befragungen erfolgt dabei sowohl auf theoretischer als auch auf empirischer Ebene.
2 Der Begriff des Methodeneffekts Ein Methodeneffekt entsteht durch die Verwendung einer bestimmten Befragungsmethode. Er kann bezeichnet werden als „Auswirkung der Datenerhebungsmethode auf die Ergebnisse der Messung“ (Schnell et al. 2005, 160). 87
Monika Taddicken
Eine präzisere Definition findet sich in der Literatur nicht. Dies ist – auch im Hinblick auf die Abgrenzung zu anderen Messfehlern – problematisch. Grundsätzlich ist bei der Analyse von Methodeneffekten auf die Charakteristika der jeweiligen Befragungsmethode abzustellen (vgl. Groves et al. 2004, 146). Da eine Befragung eine systematische, zielgerichtete und kontrollierte Kommunikation mit klar definierten Frager- und Antworterrollen ist, ist die der Befragung zugrunde liegende Kommunikationsform wesentlich (vgl. Sudman et al. 1996, 55). Aus diesem Grund ist die Analyse der jeweiligen Kommunikationsmethode fundamental. Dabei ist v. a. auf die Art und Anzahl der vorhandenen Kommunikationskanäle abzustellen (vgl. Fuchs 2003, 22 f.; Groves et al. 2004, 141–145). Die in einer Kommunikation zur Verfügung stehenden Kanäle determinieren, welche Informationen übertragen werden. Dadurch wird bestimmt, wie reichhaltig die kommunizierten Botschaften sind. Die Grundlage aller Kommunikationsformen bildet die Sprache, die auch als Textkanal bezeichnet wird. Hierüber findet der überwiegende Teil der Verständigung und Bedeutungsvermittlung statt. Doch auch nicht-sprachliche Elemente einer Kommunikation dienen dem (bewussten und unbewussten) Informationsaustausch. Diese para- oder nonverbalen Botschaften können prinzipiell über alle fünf menschlichen Sinne vermittelt werden. So bestehen neben dem inhaltlichen Textkanal weiterhin ein visueller Kanal, ein auditiver, taktiler, olfaktorischer Kanal sowie gustatorischer Kanal. Aus der Anzahl verfügbarer Kommunikationskanäle lässt sich der Grad der ,sozialen Präsenz‘ einer Kommunikationssituation ableiten. Soziale Präsenz bezeichnet das Gefühl, dass andere Personen in eine gemeinsame kommunikative Interaktion involviert sind, die ,Salienz‘ der Kommunikationspartner (vgl. Short et al. 1976, 65). Dieses Konstrukt ist hier bedeutsam, da die Wahrnehmung der Kommunikations- bzw. Befragungssituation durch den Probanden entscheidend für sein Antwortverhalten ist. Die gefühlte Anwesenheit ist umso stärker, je intensiver eine Kommunikation verläuft, aber auch umso mehr Kommunikationskanäle verwendet werden (vgl. Short et al. 1976, 65). Short et al. messen den nonverbalen Kommunikationskanälen eine hohe Bedeutsamkeit bei. Sie argumentieren, dass die Kommunikation umso vertrauter und unmittelbarer ablaufen kann, je mehr Kanäle verwendet werden. Damit berücksichtigen sie sowohl die physische als auch die psychische Distanz in einer Kommunikation (vgl. Short et al. 1976, 72 f.). Ebenfalls lässt sich aus der Anzahl der Kommunikationskanäle – in Verbindung mit dem Konstrukt der sozialen Präsenz – die subjektiv wahrgenommene Anonymität ableiten. Auch bezüglich der Anonymität ist auf die Perspektive des Probanden abzustellen; relevant ist nicht, wie anonym eine 88
Methodeneffekte von Web-Befragungen
Befragung tatsächlich stattfindet, sondern wie anonym sie vom Befragten wahrgenommen wird. Insofern kann hierfür auch der Begriff der ,perzipierten Anonymität‘ verwendet werden. Diese beeinflusst unmittelbar, wie frei sich der Proband in seinem Antwortverhalten fühlt. Sie hängt stark von der gefühlten Anwesenheit anderer, also von der sozialen Präsenz ab (vgl. Weisband/Atwater 1999, 633; Mühlenfeld 2004, 60): Sofern eine niedrige soziale Präsenz gegeben ist, also auch die Vertrautheit und Unmittelbarkeit einer Kommunikationssituation niedrig ist, ist das subjektive Empfinden der Kommunikationspartner, ,für sich‘ und nicht-identifizierbar zu sein, hoch. Insgesamt sind damit drei Merkmale von zur Befragung eingesetzten Kommunikationsformen identifiziert worden, die eine nähere Beschäftigung mit den jeweilig verursachten Methodeneffekten erlauben. Somit lassen sich Methodeneffekte konkret definieren als Effekte in Befragungen, die durch die jeweilige Anzahl an verwendeten Kommunikationskanälen und dem dadurch entstehenden Grad an sozialer Präsenz und subjektiv wahrgenommener bzw. perzipierter Anonymität das Antwortverhalten der Probanden beeinflussen (vgl. ausführlich Taddicken 2008a). Damit ist es nun möglich, sich auf theoretischer Ebene mit den Methodeneffekten von Web-Befragungen zu beschäftigen.
3 Methodeneffekte der Web-Befragung 3.1 Web-Befragung als computervermittelte Kommunikation Der Web-Befragung liegt die computervermittelte Kommunikation, kurz: cvK zugrunde. Diese kann definiert werden als Kommunikation, „bei der mindestens zwei Individuen in einer nicht Face-to-face-Situation durch die Anwendung eines oder mehrerer computerbasierter Hilfsmittel miteinander in Beziehung treten“ (Köhler 2003, 18 f.). Die cvK umfasst eine Vielzahl verschiedener online-, aber auch offline-Kommunikationen (vgl. Beck 2006, 29). Die Web-Befragung ist nur eine dieser zahlreichen Formen, in denen cvK auftreten kann, hier jedoch die relevante. Die Web-Befragung kann als eine asynchrone Form der cvK bezeichnet werden, die zeitverzögert abgerufen wird und monologische Inhalte aufweist.1 Sie findet folglich zeitlich ungebunden statt. Zudem besteht eine räumliche Ungebundenheit der Kommunikatoren. Die Kommunikatoren treffen nicht körperlich aufeinander. Dies hat Auswirkungen auf die Verfügbarkeit der Kommunikationskanäle. So können in der cvK, wie sie in der 89
Monika Taddicken
Web-Befragung verwendet wird, lediglich der Textkanal und eingeschränkt der visuelle Kanal genutzt werden. Es werden zwar das Wort und damit der Kommunikationsinhalt visualisiert, visuelle Informationen über die Kommunikationspartner (z. B. Gestik, Mimik, Blickverhalten, Körperhaltung) und deren Umgebung werden jedoch nicht übertragen. Damit entfällt auch die Vermittlung von (unbewussten) Gefühlsregungen.2 Im Vergleich zu den anderen Kommunikationsformen (persönlich, telefonisch, schriftlich) verfügt die cvK insgesamt über die geringste Anzahl an Kommunikationskanälen. Sie bildet in der Bandbreite der Kommunikationsformen das eine Extrem, während die persönliche Kommunikation, in der alle Kommunikationskanäle verwendet werden können3 (vgl. Pürer 2003, 65), das andere Extrem darstellt. Weiterhin besteht ein deutlicher Unterschied zur telefonischen Kommunikation, bei der der auditive Kanal zur Verfügung steht. Über diesen werden gleichfalls emotionale Hinweise gesendet und empfangen (z. B. Lachen, Räuspern, ironische Stimmführung). Im Vergleich zur schriftlichen Kommunikation mangelt es der cvK (lediglich) am taktilen Kanal, sodass auch hierüber (z. B. durch die Wahl eines besonderen Papiers oder Schreibgeräts) keine Informationen vermittelt werden. Insofern kann eine Rangfolge der Kommunikationsformen hinsichtlich der Anzahl verfügbarer Kommunikationskanäle bestimmt werden: 1. persönliche Kommunikation, 2. telefonische Kommunikation, 3. schriftliche Kommunikation und schließlich 4. computervermittelte Kommunikation. Der Abstand zur persönlichen, aber auch zur telefonischen Kommunikation ist dabei stärker ausgeprägt als die Differenz zwischen schriftlicher und computervermittelter Kommunikation. Wie beschrieben beeinflusst dies auch die beiden weiteren hier relevanten Merkmale der sozialen Präsenz und der perzipierten Anonymität. Analog der Einordnung hinsichtlich der verfügbaren Kommunikationskanäle ist die cvK in Bezug auf die soziale Präsenz die Kommunikationsform mit dem geringsten Ausmaß. Der Unterschied zwischen schriftlicher und computervermittelter Kommunikation ist hier jedoch nicht allzu stark ausgeprägt. Allerdings erfordert das Lesen am Bildschirm eine höhere kognitive Anstrengung als das Lesen von Schriftstücken (vgl. Fuchs 2000, 72). So ist für die cvK ein gewisses Maß an Konzentration auf Monitor, Tastatur und Maus notwendig. Insofern kann das papierbasierte Lesen auch unproblematischer in verschiedenen sozialen Settings erfolgen als das Lesen am Bildschirm. Damit verbunden ist die perzipierte Anonymität, die bei geringer sozialer Präsenz stark ausgeprägt ist. In der cvK wird dieser Effekt dadurch verstärkt, dass hier keine realen Personen aufeinander treffen, sondern vielmehr „mediale Präsentationen des Selbst“ (Höflich 1999, 147). Es handelt sich um 90
Methodeneffekte von Web-Befragungen
konstruierte Identitäten, die keine sensorischen Prüfungen erlauben. Somit besteht eine gewisse Unverbindlichkeit der Selbstdarstellung (vgl. ebd. 148 ff.). Das führt dazu, dass Fehlverhalten kaum sanktioniert werden kann. Dies gilt sowohl für direkte Sanktionen, die in anderen Kommunikationsformen häufig nonverbal ablaufen (z. B. durch Kopfschütteln, böse Blicke, Androhung körperlicher Gewalt), als auch für zeitlich verzögerte Sanktionen, da es an Wissen über den zu Sanktionierenden (z. B. seine äußere Erscheinung, Postadresse) fehlt. Insofern kann für die cvK angenommen werden, dass eine relativ hohe perzipierte Anonymität gegeben ist. Zusammenfassend ist festzuhalten, dass in der cvK im Vergleich zu anderen Kommunikationsformen die Anzahl der Kommunikationskanäle z. T. drastisch reduziert ist und dass dies eine vergleichsweise niedrige soziale Präsenz und eine relativ hohe perzipierte Anonymität bedingt. Welche Folgen sich daraus für die Erhebungsmethode Web-Befragung ergeben, wird nachfolgend behandelt.
3.2 Folgen für die Web-Befragung Aus den vorgestellten Eigenarten der cvK ergeben sich eine Reihe an Konsequenzen für die Umfrageforschung. Diese betreffen z. B. die konkrete Umsetzung einer Befragung oder die Eignung für komplexe Untersuchungsgegenstände. In diesem Beitrag geht es jedoch um die Frage, welche methodischen Effekte bedingt werden. Für eine Befragungssituation sind eine geringe soziale Präsenz und eine hohe perzipierte Anonymität zunächst vorteilhaft. Das Antwortverhalten der Probanden bleibt unbeeinflusst von der (physischen, verbalen oder auch nur gefühlten) Anwesenheit eines Interviewers oder Forschers. Betrachtet man als Gegensatz das persönliche Interview als Befragungsmethode mit der höchsten sozialen Präsenz und der geringsten perzipierten Anonymität, so fällt auf, dass dieses aufgrund eben dieser Eigenschaften unter einer Vielzahl von Fehlerquellen leidet. Beispielhaft sind hier Antwortverweigerungen, Zustimmungstendenzen und insbesondere Effekte der sozialen Erwünschtheit zu nennen, die v. a. durch die Sorge über die soziale Bewertung der gegebenen Antworten bedingt werden. Diese Sorge ist bei einer nur geringen Wahrnehmung anderer in die Befragungssituation involvierter Personen und einer gleichzeitigen hohen perzipierten Anonymität und damit Folgenlosigkeit von (Antwort-)Verhalten gering ausgeprägt. Es kommt zu einem Zustand verminderter Bewertungsangst, der auch als ,Enthemmung‘4 bezeichnet werden kann (vgl. Joinson 1998, 44; Sassenberg 1999, 10). Die91
Monika Taddicken
ser enthemmte Zustand bedingt einen Effekt der Selbst-Enthüllung, nämlich eine erhöhte Offenheit bzw. Auskunftsbereitschaft über persönliche und private Informationen (vgl. z. B. Levine et al. 1989; Locke & Gilbert 1995; Joinson 2001). Dadurch können offenere und ehrlichere Antworten in einer Befragung erhoben werden. Verzerrungen als Folge sozialer Bewertungsmechanismen bzw. deren Befürchtung werden aufgehoben. Hier besteht somit ein ausgesprochen positiver Effekt der Methode Web-Befragung. Eine Reihe von Forschungsergebnissen bestätigt, dass die Web-Befragung geringere Effekte der sozialen Erwünschtheit generiert (z. B. Mühlenfeld 2004; Duffy et al. 2005). Entsprechend der abgestuften Rangfolge hinsichtlich der Kriterien soziale Präsenz und perzipierte Anonymität sind dabei die Unterschiede zwischen der Web-Befragung und der persönlichen, aber auch der telefonischen Befragung am größten. Dagegen zeigen sich bei Vergleichen der Web-Befragung mit der schriftlichen Befragung unregelmäßige Ergebnisse. So finden einige Autoren keine unterschiedlichen Grade an sozialer Erwünschtheit (vgl. z. B. Booth-Kewley et al. 1992; Hancock & Flowers 2000; Fuchs 2003), andere weisen sogar höhere Effekte sozialer Erwünschtheit in der Web-Befragung nach (z. B. Lautenschlager & Flaherty 1990; Rosenfeld et al. 1996). Somit zeigt sich zwar insgesamt auch empirisch die Vorteilhaftigkeit der Web-Befragung bezüglich sozialer Erwünschtheit, jedoch ist zu beachten, dass dies v. a. im Vergleich zu den ,persönlicheren‘ Befragungsmethoden persönlich und telefonisch gilt (vgl. umfassend Taddicken 2008b, 2008c). Daneben ist allerdings auch ein negativer Effekt zu befürchten. Diese Befürchtung kann auf den Ansatz der reduzierten sozialen Kontexthinweise von Sproull & Kiesler (1986, 1991) zurückgeführt werden. Im Mittelpunkt steht hier die mit der Reduktion verfügbarer Kommunikationskanäle einhergehende drastische Minderung von Informationen über die Kommunikationspartner und die gemeinsame Kommunikationssituation, sog. ,sozialer Kontexthinweise‘. Die Reduktion derartiger sozialer Kontexthinweise hat nicht nur Einfluss auf die Reichhaltigkeit der übertragbaren Informationen, sondern gleichfalls auf eine Vielzahl an psychischen Zuständen und Prozessen. So konstatieren Sproull/Kiesler, dass sich der Aufmerksamkeitsfokus der Kommunikatoren verschiebt, nämlich weg von den wenig(er) präsenten Kommunikationspartnern hin zum Ziel der Kommunikation bzw. auf die eigene Person. Es kommt somit zu einer stärkeren Ich-Fokussierung der Kommunikatoren (vgl. Sproull & Kiesler 1986, 405). Ebenfalls verringert sich die soziale Orientierung (vgl. Kiesler et al. 1984, 1123). Dabei argumentieren die Autoren nicht direkt, jedoch analog mit dem Zustand der Enthemmung (vgl. Siegel et al. 1986, 182). Sie ziehen daraus insgesamt die Schlussfolge92
Methodeneffekte von Web-Befragungen
rung, dass die soziale Konformität der Kommunikatoren generell geringer ist und dass enthemmte, nonkonforme Verhaltensweisen nicht nur ermöglicht, sondern sogar bedingt werden (vgl. Sproull & Kiesler 1986, 1497 f.; Siegel et al. 1986: 182 f.). Es muss somit befürchtet werden, dass die Orientierung der Probanden an sozialen Werten und Normen in der Situation einer Web-Befragung schwächer ist als in alltäglichen Situationen und auch als in anderen Befragungen. Sollte dies der Fall sein, wäre somit zum einen fraglich, inwieweit die erhobenen Antworten auf das soziale Alltagshandeln übertragbar wären, und zum anderen, wie vergleichbar die Ergebnisse mit denen anderer Befragungsmethoden wären. In Anlehnung an Kiesler/Sproull werden diese potenziellen Effekte als ,Effekte der sozialen Entkontextualisierung‘ bezeichnet (vgl. Taddicken 2008a). Bislang ist jedoch nicht empirisch nachgewiesen, ob derartige Effekte in Web-Befragungen auftreten. Die empirische Prüfung der Existenz erfolgt im nächsten Teil.
4 Empirischer Methodenvergleich: Design Um zu überprüfen, ob in Web-Befragungen Effekte der sozialen Entkontextualisierung auftreten, bedarf es eines empirischen Methodenvergleichs. Auf Basis der obigen Überlegungen zur Rangfolge der Kommunikationsformen und entsprechenden Befragungsmethoden erscheint es sinnvoll, diesen nicht – wie üblich – auf einen Vergleich mit einer anderen Methode zu beschränken, sondern mindestens zwei Alternativmethoden zur Web-Befragung zu integrieren. Aus diesem Grund wird hier die Web-Befragung mit der telefonischen und der schriftlichen Befragung5 verglichen. Dadurch werden die einzelnen Abstufungen hinsichtlich der Kommunikationskanäle und entsprechend der sozialen Präsenz und perzipierten Anonymität berücksichtigt. Für die Umsetzung des empirischen Methodenvergleichs wird das Test-Retest-Design gewählt, also die zweimalige Befragung derselben Probanden. Um den Test-Retest-Ansatz mit drei Befragungsmethoden zu realisieren, werden zwei verschiedene Experimentalgruppen gebildet: ,CATI vs. Web‘ und ,Schrift vs. Web‘. Die Probanden werden jeweils zweimal befragt, einmal mittels einer Web-Befragung und einmal telefonisch oder schriftlich. Um Reihenfolgeeffekte auszuschließen, werden die Gruppen gesplittet, sodass die eine Hälfte zunächst per Web befragt wird und die andere Hälfte zunächst mit der Alternativmethode. Zusätzlich wird eine Kontrollgruppe eingeführt, die 93
Monika Taddicken
zweimal online befragt wird. Um Erinnerungseffekten vorzubeugen, wird mit vier bis fünf Wochen ein vergleichsweise langer zeitlicher Abstand zwischen den beiden Befragungen gewählt (vgl. van Meurs, & Saris 1989, 146). Für die Operationalisierung wird ein Instrument zur Messung der Normintensität von Diekmann (1980) verwendet. Anhand von acht Items wird geprüft, inwieweit normabweichendes Verhalten anderer Personen von den Probanden akzeptiert wird (vgl. Diekmann 1980, 2004). Das Instrument lässt sich auf verschiedene inhaltliche Gegenstandsbereiche anpassen. Hier wird die ,Ablehnung von Ladendiebstahl‘ gewählt, weil es sich dabei um eine allgemeine soziale Norm handelt. Abgefragt werden die acht Items mittels einer fünfstufigen Ratingskala (,stimme stark zu‘ bis ,lehne stark ab‘).6 Diekmann dokumentiert die Güte des Instruments mit der Split-Half-Reliabilität, diese ist mit rel = .90 sehr hoch (vgl. Diekmann 1980, 61). Die auf das verwendete Instrument angepassten Forschungshypothesen lauten: H1: In Web-Befragungen werden Verletzungen der Norm ,Ablehnung von Ladendiebstahl‘ stärker geduldet als in telefonischen Befragungen. H2: In Web-Befragungen werden Verletzungen der Norm ,Ablehnung von Ladendiebstahl‘ stärker geduldet als in schriftlichen Befragungen. Die Teilnehmer der Studie wurden über ein kommerzielles Online-AccessPanel rekrutiert.7 Insgesamt registrierten sich 799 Interessierte, die zufällig, also unabhängig von methodischen Vorlieben der Teilnehmer, auf die Experimentalgruppen verteilt wurden. Beide Befragungswellen wurden von 585 Probanden durchlaufen. Personen, die nur an einer Befragung teilgenommen haben, wurden nicht berücksichtigt.8 Weiterhin wurden Ausreißer anhand von Mahalanobis D2 eliminiert. Es wurde eine Netto-Stichprobe von n = 563 erreicht. Diese ist zu 43% männlich und zu 57% weiblich. Es ist darauf hinzuweisen, dass mit der hier realisierten Stichprobe kein Anspruch auf Repräsentativität erhoben werden kann und soll. Im Folgenden werden die Ergebnisse vorgestellt.
5 Empirischer Methodenvergleich: Ergebnisse Für eine Bewertung der Ergebnisse sind zunächst die mittleren Antwortdifferenzen zwischen den jeweils verglichenen Befragungsmethoden zu betrachten. Grundsätzlich wäre zu erwarten, dass nur sehr geringe Mittelwertdifferenzen auftreten, da dieselben Personen mit demselben Instrument befragt wurden. Da jedoch befürchtet wird, dass in der Web-Befragung Effekte 94
Methodeneffekte von Web-Befragungen
der sozialen Entkontextualisierung zu einer geringeren Normintensität der Probanden in der Befragungssituation führen, werden signifikante Unterschiede vermutet. Tabelle 1 bestätigt diese Vermutung und zeigt, dass im Vergleich CATI vs. Web insgesamt eine sehr signifikante Mittelwertdifferenz besteht. Es gilt, dass die gemessene Normintensität der Probanden umso geringer war, je kleiner die Antwortwerte sind. Damit ist zu erkennen, dass die Normintensität insgesamt in der Web-Befragung sehr signifikant geringer war als in der telefonischen Befragung. Tabelle 1: Mittelwertdifferenz der Summenindices im Vergleich CATI vs. Web Methode
N
MW
SD
CATI
201
32,61
4,724
Web
201
31,69
5,331
Δ MW
T
Sig.
0,92
2,993
0,003
Betrachtet man die Mittelwertdifferenzen der einzelnen Items, so zeigt sich, dass drei der acht Items über signifikant verschiedene Mittelwerte verfügen (ni3, ni6, ni8) (vgl. Tab. 2). Die Unterschiede bei ni6 und ni8 weisen auf eine geringere Normintensität im Web hin. Dagegen wurde das Item ni3 am Telefon weniger normintensiv beantwortet. Diese Auffälligkeit kann vermutlich darauf zurückgeführt werden, dass ni3 eine Fakteneinschätzung verlangt, während die anderen Items eher auf eine Bewertung von Verhaltensweisen abzielen (vgl. Itemliste im Anhang). Tabelle 2: Mittelwertdifferenzen einzelner Items im Vergleich CATI vs. Web Variable
ni1 ni2 ni3 ni4 ni5 ni6 ni7 ni8
N
205 205 201 205 205 205 205 203
Δ MW
Δ SD
CATI – Web
CATI – Web
0,088 0,141 –0,179 0,117 0,156 0,176 0,068 0,192
1,185 1,190 1,228 1,127 1,345 1,150 0,849 1,168
T
Sig.
1,061 1,702 –2,068 1,487 1,662 2,187 1,152 2,344
0,290 0,090 0,040 0,139 0,098 0,030 0,251 0,020 95
Monika Taddicken
Insgesamt aber zeigen sich die befürchteten Tendenzen der geringeren Normintensität im Web. Auch im Vergleich der Web-Befragung mit der schriftlichen Befragung werden diese Tendenzen sichtbar. So zeigt der Mittelwertvergleich der Summenindices wiederum, dass in der Web-Befragung eine sehr signifikant geringere Normintensität der Probanden bestanden hat (vgl. Tab. 3). Tabelle 3: Mittelwertdifferenz der Summenindices im Vergleich Schrift vs. Web Methode
N
MW
SD
Schrift
233
32,38
5,443
Web
233
31,68
5,727
Δ MW
T
Sig.
0,70
3,182
0,002
Auch auf Ebene der einzelnen Items bestätigt sich dieses Bild. Die Items ni1, ni5 und ni7 weisen signifikante Differenzen auf, die jeweils eine geringere Ablehnung von Ladendiebstählen in der Web-Befragung zeigen (vgl. Tab. 4). Tabelle 4: Mittelwertdifferenzen einzelner Items im Vergleich Schrift vs. Web Variable
ni1 ni2 ni3 ni4 ni5 ni6 ni7 ni8
N
233 233 233 233 233 232 233 233
Δ MW
Δ SD
CATI – Web
CATI – Web
0,129 0,060 0,021 0,060 0,167 0,094 0,146 0,017
0,965 0,874 1,161 0,869 1,092 0,798 0,796 0,793
T
Sig.
2,036 1,050 0,282 1,056 2,340 1,805 2,798 0,330
0,043 0,295 0,778 0,292 0,020 0,072 0,006 0,741
Damit zeigt sich also auch im Vergleich Schrift vs. Web, dass sich die Befürchtung einer (situationalen) geringeren Normbindung im Web bestätigt. Um die Größenordnung der festgestellten Antwortdifferenzen zwischen den einzelnen Befragungsmethoden und damit ihre empirische Relevanz besser beurteilen zu können, wird außerdem für alle Mittelwertvergleiche 96
Methodeneffekte von Web-Befragungen
das Effektmaß ,Cohen’s d‘ berechnet.9 Cohen’s d ermöglicht neben den Aussagen über einen statistisch signifikanten Zusammenhang die Einschätzung der Größe eines aufgetretenen Effekts und seiner Bedeutsamkeit (vgl. Biemer 1988, 276). Cohen selbst hat für eine Einschätzung der Effektstärken folgende Klassifizierung vorgenommen: Ein kleiner Effekt liegt bei d = 0,2, ein mittlerer Effekt bei d = 0,5 und ein großer Effekt bei d = 0,8 vor (vgl. Cohen 1988, 25). Da es sich bei Methodeneffekten jedoch um systematische Effekte handelt, wird in der Literatur ein nennenswerter Effekt bereits ab d = 0,1 angenommen (vgl. Carini et al. 2003, 9 f., 11 ff.). Wird diese Klassifizierung auf die vorliegenden Daten angewendet, zeigt sich das in Tabelle 5 dargestellte Ergebnis: In beiden Experimentalgruppen bestehen mehrere beachtenswerte Effektstärken. Dies gilt sowohl jeweils für die Indices als auch für die Mittelwertdifferenzen einzelner Items. Tabelle 5: Effektstärken der Mittelwertdifferenzen Skala/Item Normintensität ni1 ni2 ni3 ni4 ni5 ni6 ni7 ni8
Cohens d CATI – Web Schrift – Web 0,183 0,075 0,112 0,116 0,129 0,113 0,184 0,083 0,367
0,125 0,112 0,049 0,015 0,063 0,132 0,117 0,168 0,016
Damit kann abschließend festgehalten werden, dass den eingangs formulierten Forschungshypothesen, dass in Web-Befragungen Verletzungen der Norm ,Ablehnung von Ladendiebstahl‘ stärker geduldet werden als in telefonischen Befragungen (H1) bzw. als in schriftlichen Befragungen (H2), zugestimmt werden muss. Es haben sich jeweils signifikante Mittelwertdifferenzen gezeigt, die eine geringere Normintensität in der Web-Befragung bestätigen. Dabei handelt es sich um zwar vergleichsweise geringe Differenzen, die jedoch als beachtenswert einzustufen sind.
97
Monika Taddicken
6 Diskussion und Fazit Insgesamt hat der vorgestellte empirische Methodenvergleich damit bestätigt, dass tatsächlich Effekte der sozialen Entkontextualisierung im Web bestehen, zumindest für den Bereich der Normintensität hinsichtlich der Ablehnung von Ladendiebstählen. In der Web-Befragung wurde jeweils weniger an dieser sozialen Norm orientiert geantwortet als am Telefon oder in der schriftlichen Befragung. Dabei bilden die Effekte der sozialen Entkontextualisierung quasi das Gegenstück zu den Effekten der sozialen Erwünschtheit: Die Ursache beider Fehlerquellen liegt in einer ,unnatürlichen‘ Orientierung an gesellschaftlichen Maßstäben. Soziale Erwünschtheiten entstehen dadurch, dass soziale Werte und Normen in der Befragung stärker beachtet werden als im alltäglichen Handeln, was zu Verzerrungen der Antworten in Richtung gesellschaftliche Wunschvorstellung führt (vgl. Zerbe & Paulhus 1987, 250). Dagegen sorgen Effekte der sozialen Entkontextualisierung für eine verminderte Beachtung sozialer Werte und Normen. Insofern sind diese beiden Fehlerquellen nicht unabhängig voneinander. Grundsätzlich könnten die hier aufgetretenen Effekte sozialer Entkontextualisierung also gleichbedeutend sein mit der Abwesenheit sozialer Erwünschtheiten, was bessere Ergebnisse der Web-Befragung bedeuten würde. Gegen diese Annahme sprechen v. a. zwei Aspekte: Erstens fragt die verwendete Skala zur Erfassung der Normintensität nicht das eigene Verhalten ab, sondern die Einschätzung genereller Verhaltensweisen. Die Antworten sind daher nicht so stark beeinflusst von möglichen Tendenzen der Probanden, sich selber gut darstellen zu wollen. Zweitens wurde dargelegt, dass niedrigere Effekte der sozialen Erwünschtheit in Web-Befragungen v. a. gegenüber den intervieweradministrierten und wesentlich sozial präsenteren Methoden persönlich und telefonisch gegeben sind. Dagegen sind die Unterschiede zur selbstadministrierten und damit ähnlicheren Methode schriftliche Befragung geringer (vgl. Kap. 3.1, außerdem grundlegend Tourangeau & Smith 1996). Für die Effekte der sozialen Entkontextualisierung hat sich hingegen gezeigt, dass sowohl im Vergleich zur telefonischen als auch zur schriftlichen Befragung eine verminderte Normintensität anzunehmen ist. Es ist zu vermuten, dass sich die Effekte der sozialen Erwünschtheit und der sozialen Entkontextualisierung in unterschiedlichen Phasen des Informationsverarbeitungsprozesses der Probanden auswirken. Dieser Prozess kann prinzipiell in vier verschiedene Phasen unterteilt werden: 1. Frage 98
Methodeneffekte von Web-Befragungen
interpretieren, 2. Meinung generieren, 3. Antwort formatieren, 4. Antwort formulieren (vgl. Strack & Martin 1987, 125 ff.; Atteslander 1991, 136; Sudman et al. 1996, 58). Die Effekte der sozialen Erwünschtheit beeinflussen v. a. die Phasen der Antwortformatierung und -formulierung (vgl. Strack & Martin 1987, 138 f.; Sudman et al. 1996, 74 f.). Dagegen ist anzunehmen, dass sich die Effekte der sozialen Entkontextualisierung bereits früher auf die kognitive Verarbeitung auswirken, nämlich auf der Stufe der Meinungsgenerierung. Hier findet das Abgleichen des Fragegegenstands mit Werten und Normen des Probanden statt (vgl. Strack & Martin 1987, 136). Welche Standards dabei als relevant bzw. nicht relevant angesehen werden, hängt zum einen davon ab, welche aktiviert sind (z. B. aufgrund häufiger und/oder zeitnaher Verwendung), zum anderen vom gegebenen Kontext (vgl. Strack & Martin 1987, 134 ff.; Sudman et al. 1996, 59 ff.). Im Falle der Web-Befragung führt dieser – wie ausgeführt – zu einer situativ verminderten Orientierung an soziales Normen. Insgesamt verursachen die Effekte sozialer Entkontextualisierung moderate Antwortdifferenzen, trotzdem dürfen diese systematischen Verzerrungen nicht außer Acht gelassen werden. So bleibt offen, inwiefern diese Effekte auch die Erhebung anderer inhaltlicher Fragestellungen beeinflussen. Dies muss zukünftig überprüft werden. Dabei ist nicht nur an verwandte Konstrukte wie Werthaltungen zu denken, sondern gleichfalls an soziale Einstellungen bzw. Verhaltensabsichten. Inwiefern die hier angenommene erhöhte Ich-Fokussierung der Probanden im Web auch vorteilhaft für die empirische Sozialforschung sein kann, bleibt dabei zunächst offen. Hinsichtlich dieser Studie bleibt fraglich, welchen Einfluss die Rekrutierung von Online-Access-Panel-Mitgliedern auf die vorgestellten Ergebnisse gehabt hat. Ob die Web-Befragungshistorie der Probanden hier eher zu einer Schwächung oder Verstärkung von Methodeneffekten geführt hat oder keinen Einfluss gehabt hat, kann an dieser Stelle nicht beantwortet werden. Es hat sich somit gezeigt, dass akuter Forschungsbedarf besteht. Die hier vorgelegte Studie kann ,nur‘ der Anfang der empirischen Forschung in dieser Richtung sein. Es wird insgesamt deutlich, dass die methodische Grundlagenforschung zur Web-Befragung noch lange nicht als abgeschlossen erklärt werden darf.
99
Monika Taddicken
Anmerkungen 1 2 3 4 5 6 7
8 9
Andere Formen der Online-Forschung, z. B. Online-Focus-Groups, sind hier nicht angesprochen. Sofern diese nicht symbolisch über ,Emoticons‘ visualisiert werden. Wenngleich der gustatorische Kanal allenfalls beim Küssen bedeutsam ist. Der Begriff der Enthemmung wird hier wertfrei verwendet. Die schriftliche Befragung wird dabei als postalische Befragung umgesetzt. Der Eingangstext hierzu lautete: „Nun geht es um die Zustimmung zu einigen Aussagen zum Thema Ladendiebstahl.“ Die Studie wurde dabei als universitäres Projekt vorgestellt. Als Incentivierung für den insgesamt etwa achtminütigen Fragebogen wurde ein Gewinnspiel mit Sachpreisen angeboten. Die Rücklaufquoten der einzelnen Experimentalgruppen waren jeweils vergleichbar hoch (annähernd 75%). Es bezeichnet die Differenz zwischen den Mittelwerten zweier Stichproben dividiert durch die Wurzel aus der mittleren Varianz (vgl. Cohen 1988, 44).
Literatur ADM (2008). Zahlen über den Markt für Marktforschung. Ausgabe 2/2008. Abgerufen am 06.06.2008, Website: http://www.adm-ev.de/. Atteslander, P. (1991). Methoden der empirischen Sozialforschung. Berlin: Walter de Gruyter. Beck, K. (2006). Computervermittelte Kommunikation im Internet. München: Oldenbourg. Biemer, P. P. (1988). Measuring data quality. In R. M. Groves & P. P. Biemer & L. E. Lyberg & J. T. Massey & W. L. Nicholls & J. Waksberg (Eds.), Telephone survey methodology (273–282). New York: Wiley. Biemer, P. P., & Lyberg, L. E. (2003). Introduction to survey quality. Hoboken: Wiley. Booth-Kewley, S., & J. E. Edwards & P. Rosenfeld (1992). Impression management, social desirability, and computer-administration of attitude questionnaires: Does the computer make a difference? Journal of Applied Psychology, 77(4), 562–566. Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56(2), 81–105. Carini, R. M., & Hayek, J. C., & Kuh, G. D., & Kennedy, J., M., & Ouimet, J. A. (2003). College student responses to web and paper surveys: Does mode matter? Research in Higher Education, 44(1), 1–19. Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Erlbaum.
100
Methodeneffekte von Web-Befragungen Cote, J. A., & M. R. Buckley (1987). Estimating trait, method, and error variance: Generalizing across 70 construct validation studies. Journal of Marketing Research, 24(3), 315–318. Diekmann, A. (1980). Die Rolle von Normen, Bezugsgruppen und Sanktionen bei Ladendiebstählen. Forschungsbericht Nr. 156 des Instituts für Höhere Studien, Wien. Diekmann, A. (2004). Normintensität. In A. Glöckner-Rist (Hg.), ZUMA-Informationssystem. Elektronisches Handbuch sozialwissenschaftlicher Erhebungsinstrumente. ZIS Version 8.00. Mannheim. Duffy, B., & Smith, K., & Terhanian, G., & Bremer, J. (2005). Comparing data from online and face-to-face surveys. International Journal of Market Research, 47(6), 615–639. Fiske, D. W. (1982). Convergent – discriminant validation in measurements and research strategies. In D. Brinberg & L. H. Kidder (Eds.), Forms of validity in research (77–93). San Francisco: Jossey-Bass. Fuchs, M. (2000). Interviewsituation in computergestützten Befragungen – zur Wirkung von Technologie-Effekten. In Statistisches Bundesamt (Hg.), Neue Erhebungsinstrumente und Methodeneffekte. Spektrum Bundesstatistik, Band 15 (71–92). Stuttgart: Metzler-Poeschel. Fuchs, M. (2003). Kognitive Prozesse und Antwortverhalten in einer Internet-Befragung. Österreichische Zeitschrift für Soziologie, 4, 19–45. Groves, R. M., & Fowler, F. J., Jr., & Couper, M. P., & Lepkowski, J. M., & Singer, E., & Tourangeau, R. (2004). Survey methodology. Hoboken: Wiley. Hancock, D. R., & Flowers, C. P. (2000). Social desirability responding on world wide web and paper-administered surveys. Annual Proceedings of Selected Research and Development Papers Presented at the National Convention of the Association for Educational Communications and Technology, 1–2, 173–179 (ERIC Document Reproduction Service No. EJ 626735). Höflich, J. R. (1999). ,Sex, Lügen und das Internet‘ – Identität und Glaubwürdigkeit in computervermittelten Beziehungen. In P. Rössler & W. Wirth (Hg.), Glaubwürdigkeit im Internet. Fragestellungen, Modelle, empirische Befunde (141–156). München: Fischer. Joinson, A. N. (1998): Causes and implications of disinhibited behavior on the internet. In J. Gackenbach (Ed.), Psychology and the Internet. Intrapersonal, interpersonal, and transpersonal implications (43–60). Burlington: academic press. Joinson, A. N. (2001). Self-disclosure in computer-mediated communication: The role of self-awareness and visual anonymity. European Journal of Social Psychology, 31, 177–192. Kiesler, S., & Siegel, J., & McGuire, T. (1984). Social psychological aspects of computermediated communication. American Psychologist, 39(10), 1123–1134. Köhler, T. (2003). Das Selbst im Netz. Die Konstruktion sozialer Identität in der computervermittelten Kommunikation. Wiesbaden: Westdeutscher Verlag. Költringer, R. (1993). Gültigkeit von Umfragedaten. Wien: Böhlau.
101
Monika Taddicken Lautenschlager, G. J., & Flaherty, V. L. (1990). Computer administration of questions: More desirable or more social desirability? Journal of Applied Psychology, 75(3), 310–314. Levine, S., & Ancill, R. J., & Roberts, A. P. (1989). Assessment of suicide risk by computerdelivered self-rating questionnaire: Preliminary findings. Acta Psychiatrica Scandinavica, 80(3), 216–220. Locke, S. D., & Gilbert, B. O. (1995). Method of psychological assessment, self-disclosure, and experiential differences: A study of computer, questionnaire, and interview assessment formats. Journal of Social Behavior and Personality, 10, 255–263. Mühlenfeld, H.-U. (2004). Der Mensch in der Online-Kommunikation. Zum Einfluss webbasierter, audiovisueller Fernkommunikation auf das Verhalten von Befragten. Wiesbaden: VS Verlag. Pürer, H. (2003). Publizistik- und Kommunikationswissenschaft. Ein Handbuch. Konstanz: UTB Wissenschaft. Rosenfeld, P., & Booth-Kewley, S., & Edwards, J. E., & Thomas, M. D. (1996). Responses on computer surveys: Impression management, social desirability, and the Big Brother syndrome. Computers in Human Behavior, 12(2), 263–274. Sassenberg, K. (1999). Sehen und gesehen werden: Normorientierung unter Anonymität. Lengerich: Pabst Science Publishers. Schnell, R., & Hill, P. B., & Esser, E. (2005). Methoden der empirischen Sozialforschung. München: Oldenbourg. Siegel, J., & Dubrovsky, V., & Kiesler, S., & McGuire, T. W. (1986). Group processes in computer-mediated communication. Organizational Behaviour and Human Decision Processes, 37, 157–187. Short, J., & Williams, E., & Christie, B. (1976). The social psychology of telecommunications. London: Wiley. Sproull, L., & Kiesler, S. (1986). Reducing social context cues: Electronic mail in organizational communication. Management Science, 32(11), 1492–1512. Sproull, L., & Kiesler, S. (1991). Two-level perspective on electronic mail in organizations. Journal of Organizational Computing, 2(1), 125–134. Strack, F., & Martin, L. L. (1987). Thinking, judging, and communicating: A process account of context effects in attitude surveys. In H.-J. Hippler & N. Schwarz & S. Sudman (Eds.), Social information processing and survey methodology (123–148). New York: Springer. Sudman, S., & Bradburn, N. M., & Schwarz, N. (1996). Thinking about answers: The application of cognitive processes to survey methodology. San Francisco: Jossey-Bass. Taddicken, M. (2008a). Methodeneffekte bei Web-Befragungen: Einschränkungen der Datengüte durch ein ,reduziertes Kommunikationsmedium‘?. Köln: Halem. Taddicken, M. (2008b). Die Bedeutung von Methodeneffekten der Online-Befragung in der empirischen Sozialforschung: Zusammenhänge zwischen computervermittelter Kommunikation und erreichbarer Datengüte. In N. Jackob & H. Schoen & T. Zerback (Hg.), Sozialforschung im Internet. Methodologie und Praxis der Online-Befragung. In Druck.
102
Methodeneffekte von Web-Befragungen Taddicken, M. (2008c). Über die Bedeutung des Effekts sozialer Erwünschtheit in der Web-Befragung. GfK Jahrbuch, 2, 136–155. Tourangeau, R., & Smith, T. W. (1996). Asking sensitive questions. The impact of data collection mode, question format and question context. Public Opinion Quarterly, 60(2), 275–304. van Meurs, A & Saris, W. E. (1989). Memory effects in MTMM studies. In W. E. Saris & A. van Meurs (Eds.), Evaluation of measurement instruments by meta-analysis of multitrait multimethod studies (134–146). Amsterdam: Royal Netherlands Academy of Arts and Sciences. Weisband, S., & Atwater, L. (1999). Evaluating self and others in electronic and face-toface groups. Journal of Applied Psychology, 84(4), 632–639. Zerbe, W. J., & Paulhus, D. L. (1987). Socially desirable responding in organizational behavior: A reconception. Academy of Management Review, 12(2), 250–264.
103
Monika Taddicken
Anhang
Itemliste Normintensität Item
Itemformulierung
ni1
Die Unternehmen verdienen so viel, dass es gar nicht ins Gewicht fällt, wenn einmal etwas gestohlen wird.
ni2
Es ist durchaus verständlich, wenn jemand, der zu den sozial schlechter gestellten Bevölkerungsschichten zählt, einen Ladendiebstahl begeht.
ni3 (n)
In unserer Wohlstandsgesellschaft gibt es niemanden mehr, der so arm ist, dass er stehlen muss.
ni4
Es wird so viel Geld für Werbung ausgegeben, dass es gar nichts mehr ausmacht, wenn man in einem Geschäft mal etwas ‚mitgehen‘ lässt.
ni5
Bei den heutigen Preisen muss man sich nicht wundern, wenn Leute Ladendiebstähle begehen.
ni6
Bei den Gewinnen der Unternehmen ist Ladendiebstahl kein Verbrechen mehr.
ni7
Wenn Leute arbeitslos oder in der Ausbildung sind und ab und zu etwas ‚mitgehen‘ lassen, sollte man schon mal ein Auge zudrücken.
ni8 (n)
Wer einen Ladendiebstahl begeht, müsste eigentlich ein schlechtes Gewissen haben.
(n) = negative Formulierung Quelle: Diekmann 1980: 10.
104
2 Computerbasierte Befragungen
Joachim Gerich
Joachim Gerich
Multimediale Elemente in der Computerbasierten Datenerhebung Der Einfluss Auditiver und Visueller Elemente auf das Antwortverhalten in Befragungen Zusammenfassung Die Entwicklungen im Bereich der computerbasierten Erhebungsmethoden haben in den letzten Jahrzehnten zu einer Ausdifferenzierung möglicher Erhebungsarten geführt. Insbesondere durch die Nutzung multimedialer Elemente besteht die Möglichkeit, ein unterschiedliches Ausmaß an „Human Interfaces“ unter Ausnutzung verschiedener Kommunikationskanäle in Erhebungsinstrumenten zu kombinieren. Der Frage, welche Auswirkungen diese multimedialen Elemente auf das Antwortverhalten haben, wird im Rahmen dieses Beitrages anhand der Ergebnisse zweier Methodenexperimente nachgegangen. Erste Ergebnisse legen nahe, dass die Datenqualität in selbstadministrierten Erhebungen durch die Nutzung von „Human Interfaces“ verbessert werden könnte.
Abstract Multimedia Features in Computer Based Data Collection The Influence of Auditory and Visual Features on Response Behavior in Surveys Developments of computer based methods have brought a more diverse spectrum of data collection modes within the recent decades. Especially the implementation of multimedia elements allows the inclusion of human interfaces to a different extent, facilitated by the combination of various communication channels. The question, in which way response behavior is affected by these multimedia features, is focused by means of two experimental studies. First results suggest improved data quality with the implementation of human interfaces.
107
Joachim Gerich
1 Einleitung In den vergangenen Jahrzehnten ist eine zunehmende Diversifizierung von Erhebungsmethoden zu beobachten. Neben verschiedenen Entwicklungspfaden beschreiben Groves et al. (2004, 140) eine „Evolution“ der SurveyTechnologie vom Ausgangspunkt der Face-to-Face-Befragung hin zu unterschiedlichen Techniken der selbstadministrierten Befragung (SAQ). Beginnend mit der Papier-und-Bleistift-Variante wurden durch die Nutzung von Computern zur Datenerhebung und den verfügbaren technischen Möglichkeiten zur Implementierung multimedialer Elemente verschiedene Formen computerbasierter SAQ’s entwickelt. Damit erweiterte sich der Entwicklungsstrang von textbasierten CASI1-Befragungen zu Audio-unterstützten (A-CASI) bis hin zu Video-gestützten (V-CASI) Computer-Befragungen. Durch diese Entwicklungen wurde die ursprüngliche Dichotomie von Interviewer- versus Selbstadministration durch ein breites Spektrum möglicher Erhebungsformen in Kombination unterschiedlicher Kommunikationskanäle und unter Nutzung verschiedener „Human Interfaces“ (z. B. menschliche Stimme oder Videoaufnahmen) aufgelöst. Dabei stellt sich zunehmend die Frage, welche Auswirkungen auf das Antwortverhalten mit diesen neuen Möglichkeiten verbunden sind und inwiefern sich Forschungserkenntnisse, welche sich auf die ursprüngliche Dichotomie von Interviewer- und Selbstadministration bezogen, auf neuere Entwicklungen anwenden lassen (Cassell & Miller 2007 betiteln dazu beispielsweise ihren Beitrag mit „Is it selfadministration if the computer gives you encouraging looks?“). Als Argumente, welche für die Anwendung einer Face-to-Face-Befragung angeführt werden, gelten u. a. das höhere Ausmaß an Situationskontrolle und Unterstützungsmöglichkeiten (z. B. Erläuterung von Frageinhalten und Antwortmöglichkeiten, Entlastung der Befragten durch InterviewerInnen). Weiterhin wird vermutet, dass durch die soziale Interaktionssituation Aufmerksamkeit und Befragungsmotivation gesteigert und daher Satisficingstrategien2 reduziert werden können, was zuweilen unter dem Konzept des Rapports subsumiert wird (Cassell & Miller 2007; Groves et al. 2004; Dykema et al. 1997; Sproull et al. 1996). Als Argumente gegen Anwendung einer Face-to-Face-Befragung (und damit in der Regel Argumente zur Durchführung von SAQ) werden soziale Einflüsse der InterviewerInnen auf das Antwortverhalten (d. h. Interviewereffekte aufgrund der Variabilität im Verhalten der InterviewerInnen, wahrgenommener Personenmerkmale der InterviewerInnen oder einfach aufgrund sozialer Präsenz), aber auch die Beeinträchtigung der kognitiven Bearbeitung der Fragen aufgrund der Fremd108
Multimediale Elemente in der Computerbasierten Datenerhebung
steuerung des Interviewprozesses angeführt (De Leeuw et al. 2003; Krysan & Couper 2003; Dillman 2000; Tourangeau & Smith 1996; Sudman & Bradburn 1974). In einer Reihe bisheriger Untersuchungen konnte bei der Anwendung von CASI- und insbesondere A-CASI-Methoden eine verbesserte Datenqualität (z. B. höhere Antwortbekennung, geringere Wünschbarkeit, geringeres Ausmaß an Item-Nonresponse) im Vergleich zu Paper & Pencil sowie Faceto-Face festgestellt werden (De Leeuw 2002; De Leeuw et al. 1995). Als Hauptgrund dafür wird neben technischen Gründen (z. B. automatisierte Antwortkontrolle und Filtersteuerung) die, im Vergleich zur Papierbefragung, nochmals erhöhte Privatheit der Erhebungssituation (höhere Selbstaufmerksamkeit bei gleichzeitig geringerem Umgebungseinfluss) angeführt (O’Reilly et al. 1994; Weisband & Kiesler 1996; De Leeuw et al. 1997; Nicholls et al. 1997; Turner et al. 1998; Richman et al. 1999; Schneider & Edwards 2000; Hewitt 2002). Zu Erweiterung von CASI-Befragungen durch Videoelemente gibt es bisher noch wenige Untersuchungen (Gerich 2008; Fuchs & Funke 2008, 2007 im Rahmen von Web-Befragungen). In den beiden nachfolgend dargestellten Methodenexperimenten sollen insbesondere die Eigenschaften von V-CASI im Kontrast zu anderen Erhebungsformen untersucht werden. Einerseits ist die sukzessive Erweiterung selbstadministrierter Erhebungen durch Audio- und Videoelemente mit einer Wiedereinführung sozialer Präsenz (Social Cues) in SAQ’s verbunden. Entsprechend den oben angeführten Argumenten könnte durch ein höheres Ausmaß an Social Cues die soziale Präsenz wiederum erhöht werden und damit „virtuelle“ Interviewereffekte auftreten (Couper 2005; Nass et al. 1997; Sproull et al. 1996; Walker et al. 1994). Auf der anderen Seite könnte vermutet werden, dass durch die „Natürlichkeit“ der Kommunikationssituation auf Grund eines stärkeren Ausmaßes an Social Cues die Motivation der Befragten und die Konzentration auf den Frage- und Antwortprozess unterstützt wird (Joinson et al. 2007). D. h., dass die Befragten bei den – im Zuge der Beantwortung der Fragen nötigen – kognitiven Leistungen (wie comprehension, retrieval, judgement, formatting, vgl. Tourangeau et al. 2000) besser unterstützt werden und daher die Wahrscheinlichkeit der Antwortverzerrung aufgrund von Satisficing reduziert wird. Ähnliche Argumente werden auch von Sproull et al. (1996) und Walker et al. (1994) vorgebracht. Weiterhin kann angeführt werden, dass mit zusätzlicher Medienerweiterung die Anzahl der simultan angebotenen Kommunikationskanäle erhöht wird (Channel Richness). Aus kommunikationstheoretischer Sicht wäre daher ebenfalls anzunehmen, dass bei höherer Channel Richness die Aufmerksamkeit und das Frageverständnis zunehmen und die Datenqualität 109
Joachim Gerich
aufgrund geringerem Satisficing erhöht wird (Gerich 2008; Groves et al. 2004; Daft & Lengel 1986). Andere Autoren argumentieren allerdings dagegen, dass – abhängig von personalen Merkmalen – redundant dargebotene multimodale Informationen auch kontraproduktiv für die kognitive Verarbeitung sein können, wenn diese z. B. als unnötige zusätzliche Unterstützung interpretiert werden (Schnotz & Kürschner 2007). Im Folgenden werden die Ergebnisse zweier Methodenexperimente präsentiert. In beiden Experimenten wurden die Auswirkungen der Variation der eingesetzten Kommunikationskanäle und der sozialen Elemente in Befragungen auf bestimmte Aspekte der Datenqualität untersucht. Einerseits beinhaltet dies die grundsätzliche Frage nach Mode-Unterschieden, wenn sich die Erhebungsarten nach dem Ausmaß der eingesetzten Kommunikationskanäle und der Social Cues unterscheiden. Zum anderen sollte die Frage beantwortet werden, in welche Richtung die Datenqualität durch eine Erhöhung der Kommunikationskanäle und der Social Cues beeinflusst wird. Als Aspekt der Datenqualität wird im ersten Experiment das Ausmaß der Antworteditierung durch soziale Wünschbarkeit fokussiert. Im zweiten Experiment wird die Beurteilung der Datenqualität anhand des konkreten Phänomens der Genderdifferenzen bei der Angabe der Anzahl der SexualpartnerInnen vorgenommen.
2 Experiment I Im Rahmen dieses Methodenexperiments soll untersucht werden, in welcher Weise Einflüsse sozialer Wünschbarkeit auf das Antwortverhalten durch den Einsatz unterschiedlicher Kommunikationskanäle und sozialer Elemente in Erhebungen moderiert werden. Das Ausmaß sozialer Wünschbarkeit wird dabei in dreifacher Weise betrachtet. Einerseits anhand des Verteilungsvergleiches direkter Messungen mittels Wünschbarkeitsskala. Andererseits anhand des Verteilungsvergleiches indirekter Messung in Form heikler Fragen (Ausmaß der selbstberichteten Normabweichung), indem davon ausgegangen wird, dass unter dem Einfluss sozialer Wünschbarkeit auf das Antwortverhalten Underreporting zu beobachten ist. Weiterhin wird das Ausmaß der „Social Desirability Contamination“ (Ganster et al. 1983) nach Erhebungsarten überprüft. Damit ist das Ausmaß des Einflusses sozialer Wünschbarkeit auf die Messung und die Assoziation substantieller Variablen gemeint. Wenn beispielsweise die Assoziation zweier Variablen untersucht wird, deren Messungen beide durch 110
Multimediale Elemente in der Computerbasierten Datenerhebung
soziale Wünschbarkeit beeinflusst werden, so ist die beobachtete Korrelation der beiden interessierenden Variablen zu einem bestimmten Anteil durch ihre gemeinsam geteilte Varianz in sozialer Wünschbarkeit begründet. Im Rahmen dieses Experiments soll das Ausmaß dieser Kontaminierung als Funktion der Anzahl der sozialen Elemente bzw. als Funktion der Anzahl der Kommunikationskanäle der eingesetzten Erhebungsmethoden analysiert werden. Als theoretischer Rahmen der Prüfung der Kontaminierung wird die Kontroll-Theorie nach Gottfredson & Hirschi (1990) herangezogen.3 Entsprechend der Kontroll-Theorie wird angenommen, dass das Ausmaß der Normabweichung mit geringer Selbstkontrolle der Personen steigt. Mangelnde Selbstkontrolle wird dabei als Persönlichkeitseigenschaft aufgefasst „that increases the likelihood that individuals will be unable to resist the easy, immediate gratification that crime and analogous behavior seductively, and almost ubiquitously, present in everyday life“ (Pratt & Cullen 2000, 932). Die erwartete Beziehung zwischen Selbstkontrolle und Normabweichung wurde in zahlreichen Untersuchungen bestätigt (Metaanalysen von Pratt & Cullen 2000 bzw. für den deutschsprachigen Raum Bentrup et al. 2001). Es wird jedoch angenommen, dass beide Variablen (Normabweichung und Selbstkontrolle) durch soziale Wünschbarkeit beeinflusst werden. Zur Prüfung des Ausmaßes der Wünschbarkeits-Kontaminierung wird daher die Auswirkung unterschiedlicher Datenerhebungsmethoden hinsichtlich sozialer Wünschbarkeit als Kontrollvariable im Rahmen der Assoziation von Selbstkontrolle und Normabweichung untersucht. Von höherer Kontaminierung wird dann ausgegangen, wenn ein Einfluss sozialer Wünschbarkeit auf Normabweichung festzustellen ist bzw. der partielle Einfluss von Selbstkontrolle auf Normabweichung durch die Kontrolle sozialer Wünschbarkeit reduziert wird. Im Sinne der Grundfrage des vorliegenden Beitrages wird ein geringeres Ausmaß an Kontaminierung und eine stärkere substanzielle Assoziation zwischen Selbstkontrolle und Normabweichung als höhere Datenqualität bezeichnet.
2.1 Methode Drei Skalen (selbst berichtete Normabweichung, Selbstkontrolle und Skala zur Erfassung sozialer Wünschbarkeit4) wurden bei einem Convenience Sample von 350 Studierenden der Universität Linz erhoben. Die Erhebung wurde in einem zentralen öffentlichen Bereich des Universitätscampus (Aufenthaltsräume in der Nähe der Universitäts-Cafeteria) durchgeführt. 111
Joachim Gerich
Rund 52% der Befragten waren männlich, das Durchschnittsalter betrug 24,11 Jahre (SD = 3,92). Die RespondentInnen wurden anhand von Zufallszahlen einer von sieben Erhebungsarten zugeteilt (selbstadministrierte Paper & Pencil-Befragung [PP], Face-to-Face-Befragung [FTF], textbasierte CASI-Befragung [Text-CASI], audio-unterstützte CASI-Befragung ohne Text [A-Only CASI], audio-unterstützte CASI-Befragung mit Text [A-CASI], Video-unterstützte CASI-Befragung ohne Text [V-Only CASI] und Video-unterstützte CASI-Befragung mit Text [V-CASI]). Die Gestaltung der CASI-Instrumente unterscheidet sich bis auf die unterschiedlichen Medienelemente nicht. Eine ausführliche Beschreibung der Erhebungsinstrumente ist in Gerich (2008) dargestellt. In allen Audio- und Videoversionen wurde dieselbe weibliche Interviewerin eingesetzt. Die Experimentalgruppen unterscheiden sich weder signifikant nach dem Alter (F[6,341] = 0,643; p = 0,696) noch nach dem Geschlecht (χ2[6] = 4,017; p = 0,674). Diese sieben Erhebungsarten unterscheiden sich nach der Anzahl der verwendeten Kommunikationskanäle (Text-, Audio- und Videokanal) und nach der Anzahl der eingesetzten sozialen Elemente (auditive Elemente, d. h. menschliche Stimme, visuelle Elemente, d. h. virtuelle oder reale Sichtbarkeit der InterviewerInnen und Elemente [non-]verbaler Feedbackmöglichkeiten, d. h. reale Interaktionsmöglichkeit). tab01 Tabelle 1: Klassifikation der Erhebungsformen Erhebungsart (n = 50)
Anzahl Kommunikationskanäle
Anzahl an Social Cues
PP
1 (Text)
0
T-CASI
1 (Text)
0
A-Only CASI
1 (Audio)
1 (auditiv)
A-CASI
2 (Audio & Text)
1 (auditiv)
V-Only CASI
2 (Video & Audio)
2 (auditiv & visuell)
V-CASI
3 (Video, Audio & Text)
2 (auditiv & visuell)
FTF
2 (Video & Audio)
3 (auditiv, visuell & non-verbales Feedback)
Tabelle 1 zeigt die Klassifikation der sieben Erhebungsarten nach der Anzahl einbezogener Kommunikationskanäle und sozialer Elemente. Die Anzahl der Kommunikationskanäle korreliert zwar mit der Anzahl an Social Cues, 112
Multimediale Elemente in der Computerbasierten Datenerhebung
da soziale Elemente nur durch zusätzliche Kommunikationskanäle einbezogen werden können. Die Klassifikationen sind jedoch nicht redundant, da der Textkanal nicht notwendigerweise mit den übrigen Kanälen kombiniert werden muss. Da beispielsweise die FTF-Befragung ohne schriftliche Unterstützung durchgeführt wurde, weist diese zwar das höchste Ausmaß an sozialen Elementen auf, beinhaltet durch den fehlenden Text jedoch nur zwei Kommunikationskanäle.
2.2 Ergebnisse Tabelle 2 zeigt die Mittelwerte der direkten (Scores der Wünschbarkeitsskala) und indirekten Messung (Ausmaß der selbstberichteten Normabweichung) sozialer Wünschbarkeit getrennt nach der Klassifikation der Erhebungsarten (Social Cues und Anzahl der Kommunikationskanäle). tab02 Tabelle 2: Mittelwerte, Standardabweichung (in Klammern) und Korrelation für soziale Wünschbarkeit und Normabweichung getrennt nach dem Ausmaß der Social Cues und der Anzahl an Kommunikationskanälen Wünschbarkeit Mittelwert (SD)
Norm. abweichung Mittelwert (SD)
Korrelation
0
2,56 (0,38)
0,35 (0,17)
–0,56**
1
2,58 (0,40)
0,33 (0,16)
–0,46**
2
2,56 (0,41)
0,35 (0,15)
–0,35**
3
2,62 (0,44)
0,33 (0,15)
–0,18
Kommunikationskanäle 1
2,58 (0,39)
0,35 (0,17)
–0,55**
2
2,59 (0,41)
0,32 (0,15)
–0,28**
3
2,53 (0,40)
0,39 (0,16)
–0,39**
Klassifikation der Erhebungsarten Social Cues
Wünschbarkeit: Mittlerer Summenscore (1–4), höhere Ausprägungen korrespondieren mit stärkerer Tendenz zu sozialer Wünschbarkeit. Normabweichung: Mittlerer Summenscore selbstberichteten normabweichenden Verhaltens (0–1), höhere Ausprägungen korrespondieren mit stärkerer Normabweichung.
113
Joachim Gerich
Die Ergebnisse zeigen keine signifikanten Differenzen bei Wünschbarkeitsscores und Normabweichung (ausgenommen Anova für Normabweichung nach Kommunikationskanälen: p = 0,016). Darüber hinaus ist bezüglich der Wünschbarkeitsscores und der Normabweichung weder hinsichtlich der Anzahl der Kommunikationskanäle noch hinsichtlich der Social Cues ein monotoner Zusammenhang ersichtlich. Es kann somit auf Basis der Verteilungsvergleiche weder hinsichtlich der Channel-Richness noch hinsichtlich des Ausmaßes der sozialen Elemente in den Befragungsformen ein systematischer Einfluss im Sinne einer Erhöhung oder Reduzierung sozial wünschbarer Antworten bzw. des Underreportings von Normabweichungen festgestellt werden. Anders stellt sich jedoch das Bild bezüglich der Wünschbarkeits-Kontaminierung dar. In Tabelle 2 sind auch die Korrelationen zwischen Wünschbarkeit und Normabweichung getrennt nach dem Ausmaß der Social Cues bzw. der Kommunikationskanäle dargestellt. Insgesamt kann bestätigt werden, dass das Ausmaß der selbstberichteten Normabweichung mit höherer sozialer Wünschbarkeit abnimmt (die Korrelation für das Gesamtsample beträgt r = –0,42). Weiterhin kann anhand der Interaktionseffekten festgestellt werden, dass die Korrelation zwischen Wünschbarkeit und Normabweichung mit dem Ausmaß der Social Cues und der Anzahl an Kommunikationskanälen variiert. Es ist sowohl die Interaktion von Wünschbarkeit und Social Cues (p = 0,001) als auch die Interaktion von Wünschbarkeit mit der Anzahl der Kommunikationskanäle (p = 0,026) signifikant. Es kann zudem in Tabelle 2 festgestellt werden, dass die Stärke des Zusammenhanges zwischen Wünschbarkeit und Normabweichung monoton mit der Anzahl der Social Cues der Erhebungsarten abnimmt. Obwohl die Korrelation zwar auch mit der Anzahl der Kommunikationskanäle variiert (die stärkste Korrelation ist bei den rein textbasierten Erhebungsarten zu beobachten), ist wiederum keine systematisch monotone Abnahme der Korrelation bei höherer Anzahl an Kommunikationskanälen festzustellen. Die Ergebnisse legen somit nahe, dass die Wünschbarkeits-Kontamination mit höherem Ausmaß sozialer Elemente in Befragungen reduziert wird. Die Ergebnisse sprechen in geringerem Ausmaß für die Gültigkeit der Annahme, dass die Wünschbarkeits-Kontaminierung mit der Anzahl an einbezogenen Kommunikationskanälen reduziert werden kann. In Tabelle 3 sind – entsprechend den Annahmen der Kontrolltheorie – die Ergebnisse einer linearen Regression für Normabweichung mit den Prädiktoren Selbstkontrolle und Geschlecht sowie sozialer Wünschbarkeit und Lebensalter als Kontrollvariablen dargestellt. tab03 114
Multimediale Elemente in der Computerbasierten Datenerhebung
Tabelle 3: Regression hinsichtlich Normabweichung getrennt nach Erhebungsmethoden6 PP
FTF
T-CASI
A-only
A-CASI
V-only
V-CASI
Gesamt
Wünschbarkeit
–0,52** (–0,61)
0,07 (–0,18)
–0,46** (–0,53)
–0,48** (–0,54)
–0,30° (–0,38)
–0,13 (–0,31)
–0,22 (–0,39)
–0,30** (–0,42)
Selbstkontrolle
–0,20 (–0,41)
–0,26° (–0,17)
–0,11 (–0,36)
–0,14 (–0,38)
–0,19 (–0,21)
–0,46** (–0,55)
–0,43** (–0,51)
–0,23** (–0,36)
Geschl. (männl.)
0,04
0,61**
0,10
–0,10
0,20
–0,02
0,10
0,11*
Alter
–0,14
–0,06
–0,13
–0,15
–0,17
–0,10
0,18
–0,08°
2
0,41**
0,37**
0,30**
0,34**
0,22*
0,29**
0,33**
0,23**
2
0,21**
<0,01
0,15**
0,17**
0,07°
0,01
0,04
0,07**
49
49
49
49
48
46
45
335
R
R (W) n
Standardisierte Regressionskoeffizienten (OLS). °: p < 0,10, *: p < 0,05, **: p < 0,01 Bivariate Korrelationen in Klammern R2(W): Partielles R2 durch soziale Wünschbarkeit
Für die Gesamtstichprobe zeigt sich erwartungsgemäß ein signifikanter Einfluss von Selbstkontrolle (höheres Ausmaß an selbstberichteter Normabweichung bei geringerer Selbstkontrolle) und ein moderater Einfluss des Geschlechts (Männer berichten häufiger Normabweichungen als Frauen). Wie schon aus den bivariaten Zusammenhängen zu erwarten, ist ein signifikanter Wünschbarkeitseinfluss zu beobachten. Nachdem die bivariate Korrelation zwischen Selbstkontrolle und Normabweichung r = 0,36 beträgt, reduziert sich der direkte Einfluss der Selbstkontrolle bei Kontrolle der Wünschbarkeitsscores. Es zeigt sich somit wie erwartet, dass ein Teil des Zusammenhanges zwischen Selbstkontrolle und Normabweichung durch deren gemeinsame Korrelation mit sozialer Wünschbarkeit zu erklären ist (der Anteil der erklärten Streuung der Normabweichung durch Selbstkontrolle beträgt im bivariaten Fall 0,13 und unter Kontrolle der Wünschbarkeit 0,05). Betrachtet man die Regressionsmodelle getrennt nach den Erhebungsmethoden, zeigen sich allerdings – unter einschränkender Berücksichtigung der geringeren Fallzahlen – deutliche Unterschiede. Die höchste erklärte Gesamtvarianz wird im Rahmen der Paper & Pencil-Befragung erreicht, die jedoch zu mehr als die Hälfte auf den Einfluss sozialer Wünschbarkeit zurückzuführen ist. Kontrastierend dazu ist im Rahmen der FTF-Befragung der geringste Einfluss sozialer Wünschbarkeit zu beobachten. Die Stärke des Einflusses der Selbstkontrolle bewegt sich hier in der Größenordnung des Gesamtsamples. Der höchste Erklärungsanteil geht jedoch von einem überdimensionalen Geschlechter-Effekt aus. Der partielle Einfluss von Selbst115
Joachim Gerich
kontrolle erreicht nur im Rahmen der beiden Videobefragungen das Signifikanzniveau von p < 0,05 (der Einfluss sozialer Wünschbarkeit ist hier nicht signifikant). Umgekehrt zeigt sich bei Text-CASI und den beiden Audio-gestützten CASI-Befragungen ein geringerer (nicht signifikanter) Einfluss von Selbstkontrolle und stärkere Einflüsse von Wünschbarkeit. Die Mode-Unterschiede hinsichtlich des Einflusses sozialer Wünschbarkeit können bestätigt werden: Die Interaktion von Erhebungsmethode und Sozialer Wünschbarkeit ist hinsichtlich der Normabweichung mit p = 0,024 signifikant. Die Interaktion von Selbstkontrolle und Erhebungsarten ist jedoch nicht signifikant (p = 0,708). Werden die Erhebungsarten nach der Anzahl der Social Cues bzw. der Anzahl an Kommunikationskanälen kategorisiert, so zeigt sich für beide eine signifikante Interaktion mit sozialer Wünschbarkeit (p[Social Cues × Wünschbarkeit] = 0,001, p[Kommunikationskanäle × Wünschbarkeit] = 0.024). Die Erhöhung von R2 ist jedoch im Falle der Social Cues höher (ΔR2 = 0,028) als im Falle der Anzahl der Kommunikationskanäle (ΔR2 = 0,012). Der Interaktionseffekt von Selbstkontrolle und Social Cues wie auch jener von Selbstkontrolle und Anzahl an Kommunikationskanälen ist nicht signifikant.
2.3 Diskussion Auf der Basis von Verteilungsvergleichen der direkten und indirekten Messung sozial wünschbarer Antworten zeigen sich kaum Hinweise für ModeUnterschiede. Daher sind auch keine Hinweise dafür zu finden, dass das Ausmaß der sozialen Wünschbarkeit durch die Anzahl der in die Erhebung einbezogenen Kommunikationskanäle oder auch durch das Ausmaß der sozialen Elemente in der Erhebung beeinflusst wird. Insbesondere unter Berücksichtigung der geringen Fallzahl je Erhebungsart ist dieses Ergebnis von daher nicht überraschend, als einerseits auch in zahlreichen anderen Untersuchungen entweder keine Mode-Unterschiede festgestellt oder nur geringe Effektstärken berichtet werden (vgl. Booth-Keweley et al. 2007). Die Prüfung der Wünschbarkeits-Kontamination zeigt jedoch im Rahmen dieser Untersuchung deutliche Hinweise dafür, dass die Video-basierten Erhebungsarten den übrigen dahingehend überlegen scheinen, als hier der stärkste Einfluss von Selbstkontrolle bei gleichzeitig geringem Wünschbarkeits-Bias zu beobachten ist. Weiterhin zeigen sich Hinweise dafür, dass die Wünschbarkeits-Kontamination mit dem Einbezug von Elementen menschlicher Kommunikation reduziert werden kann. Allerdings ist zu berücksichtigen, dass offensichtlich Unterschiede zwischen virtuellen und realen Inter116
Multimediale Elemente in der Computerbasierten Datenerhebung
viewerInnen bestehen. Der überdimensionale Geschlechtereffekt in der Face-to-Face-Befragung ist vermutlich dadurch erklärbar, dass die eingesetzten InterviewerInnen überwiegend weiblich waren und daher von einem geschlechtsspezifischen InterviewerInneneffekt auszugehen ist. Für die Hypothese der Channel-Richness, wonach die Wünschbarkeits-Kontamination durch den Einbezug möglichst unterschiedlicher Kommunikationskanäle reduziert werden könnte, zeigen sich auf der Basis der vorliegenden Untersuchung jedoch keine eindeutigen Hinweise. Es ist allerdings anzumerken, dass die vorliegende Untersuchung klarerweise einen explorativen Charakter aufweist. Eine Verallgemeinerung der Ergebnisse ist nicht nur durch die relativ geringe Stichprobengröße und die spezifische Befragtenpopulation beschränkt. Obwohl auf eine größtmögliche Vergleichbarkeit der Erhebungsinstrumente geachtet wurde, ist die Differenz der Erhebungsarten nach Anzahl der Kommunikationskanäle und Social Cues selbstverständlich auch mit anderen Eigenschaften konfundiert. Beispielsweise ist zu berücksichtigen, dass in den hier präsentierten Analysen etwaige Auswirkungen der Computerisierung der Erhebung, der Verwendung von Kopfhörern (im Rahmen der auditiv unterstützten CASI-Befragungen) oder spezifische Eigenschaften der (konstanten) virtuellen Interviewerin nicht gesondert berücksichtigt wurden.
3 Experiment II In einem zweiten Experiment wurde die Videobefragung detaillierter fokussiert, indem eine weibliche und ein männlicher (virtuelle/r) Interviewer/in im Rahmen der CASI-Befragung eingesetzt wurde. Diese beiden Erhebungsformen wurden zu einer rein textbasierten CASI-Befragung als Referenzmethode kontrastiert. Die zentralen Fragen der Untersuchung richteten sich einerseits wiederum darauf, inwiefern das Antwortverhalten durch die Einführung sozialer Elemente in Form virtueller InterviewerInnen beeinflusst wird. Zudem sollten durch die Variation des Geschlechtes der virtuellen InterviewerInnen mögliche virtuelle Gender-of-Interviewer-Effekte kontrolliert werden. Der Aspekt der Datenqualität wird anhand der Frage nach der (lebenszeitlich bezogenen) Anzahl an SexualpartnerInnen untersucht. Bei der Frage nach der Anzahl an SexualpartnerInnen handelt es sich zunächst um eine Kategorie sensitiver Fragen. Infolge dessen ist bei diesen Fragen (aufgrund des Eindringens in die Privatsphäre der RespondentInnen) mit Antwortverweigerungen oder verzerrten Antworten zu rechnen (z. B. 117
Joachim Gerich
Groves et al 2004, 224 f.; Catania et al. 1996; Tourangeau & Smith 1996). Zum anderen handelt es sich um eine Kategorie der biografischen Faktfragen, welche sich auf bestimmte Ereignisse bezieht, deren korrekte Beantwortung durch Gedächtnisleistungen (Vergessen) beschränkt ist, jedoch jedenfalls mit erhöhten kognitiven Anforderungen verbunden ist, da neben der Aufgabe des Erinnerns auch das Zählen oder Schätzen der Anzahl erforderlich ist. In Abhängigkeit unterschiedlicher Faktoren, insbesondere der Zeitspanne, auf welche sich die zu erinnernden Ereignisse beziehen, ist daher bei diesen Fragen mit Antwortfehlern zu rechnen (Tourangeau et al. 2000). Im Besonderen ist allerdings bei der Frage nach der lebenszeitlichen Anzahl an Sexualpartnern über verschiedenste Studien unterschiedlicher Stichproben und Kulturen hinweg eine Genderdiskrepanz der Antworten festzustellen, in dem Frauen im Vergleich zu Männern in der Regel im Durchschnitt eine geringere Anzahl an SexualpartnerInnen angeben (Wiedermann 1997; Catania 1996; Wadsworth et al. 1996). Setzt man geschlossene Populationen voraus (d. h. heterosexuelle Sexualkontakte finden zwischen Personen statt, die sich in derselben betrachteten Population befinden), dann sollte das Verhältnis der durchschnittlichen Sexualkontakte von Männern und Frauen dem Verhältnis des Anteils von Frauen und Männern in der Population entsprechen (Wadsworth et al. 1996). In den meisten Untersuchungen ist jedoch die Genderdiskrepanz der durchschnittlichen Anzahl der angegebenen SexualpartnerInnen größer, als auf der Basis der Geschlechterverteilung zu erwarten wäre. Erklärungsversuche für diese Genderdiskrepanz beziehen sich einerseits auf Sampling- und andererseits auf Responseaspekte. Zu den Sampling-basierten Erklärungen zählt das Problem, dass Stichproben in der Regel keine geschlossenen Populationen abbilden. Es ist daher die Möglichkeit zu berücksichtigen, dass Personen eines bestimmten Geschlechtes mehr SexualpartnerInnen aus einer Personengruppe akkumulieren, welche in der Stichprobe unterrepräsentiert oder nicht inkludiert ist (Brown & Sinclair 1999; Wiedermann 1997). Im Rahmen Response-basierter Erklärungen der Gender-Differenz wird unter anderem angeführt, dass Männer und Frauen unterschiedliche gesellschaftliche Erwartungen hinsichtlich akzeptierter Normen sexuellen Verhaltens wahrnehmen (Jonason & Fisher 2008; Schmitt 2005). Damit verbunden wird ein kultureller „Double-Standard“ begründet, gemäß dem vermutet wird, dass Frauen eher zu sexuellem Underreporting und Männer stärker zu Overreporting tendieren (Catania et al. 1996; Wadsworth et al. 1996; Wiedermann 1997). Weiterhin scheinen unterschiedliche Recall-Leistungen bzw. unterschiedliche Recall118
Multimediale Elemente in der Computerbasierten Datenerhebung
Strategien als Ursache der Genderdiskrepanzen plausibel, da mit kürzerer Zeitspanne (z. B. Anzahl der SexualpartnerInnen innerhalb des letzten Jahres im Vergleich zu Lebenszeit) die Genderdiskrepanz tendenziell verringert wird (Brown & Sinclair 1999; Wadsworth et al. 1996). Es könnte daher vermutet werden, dass Männer eher zur groben Schätzung tendieren (und daraus folgend eine höhere Anzahl angeben), während Frauen häufiger die Strategie des Zählens zur Beantwortung anwenden (Wiedermann 1997). In den nachfolgenden Analysen soll untersucht werden, ob bzw. inwiefern die Genderdiskrepanz durch die Einführung sozialer Elemente im Rahmen einer selbstadministrierten Befragung beeinflusst wird. Aufgrund der Randomisierung der Befragten auf die unterschiedlichen Erhebungsarten werden mögliche Unterschiede im Ausmaß der Genderdiskrepanz als Response-basierte Effekte interpretiert. Auch in diesem Experiment sind unterschiedliche Hypothesen formulierbar. Einerseits stellten Tourangeau & Smith (1996) fest, dass eine Reduktion der Genderdiskrepanz bei der Erhebung mittels CASI und Audio-CASI im Vergleich zu einer Face-to-Face-Befragung zu beobachten ist. Ihre Schlussfolgerung lautet: „Men appear to report more sex partners and women fewer sex partners when they must report their answers to an interviewer“ (Tourangeau & Smith 1996, 301), wobei sie diesen Effekt der höheren Tendenz zu Selbstpräsentation zuschreiben. Wenn virtuelle InterviewerInnen vergleichbare Auswirkungen auf die Selbstpräsentation ausüben, wie dies bei realen InterviewerInnen der Fall zu sein scheint, dann ist für die Video-gestützte CASI-Befragung im Vergleich zur Text-basierten CASI-Befragung tendenziell eine größere Genderdiskrepanz zu erwarten. Wenn andererseits für virtuelle InterviewerInnen keine oder geringe InterviewerInnen-Effekte erwartet werden und dagegen stärker die kognitive Unterstützung und Motivation der RespondentInnen durch zusätzliche soziale Komponenten der Kommunikation betont werden, sind geringere Genderdiskrepanzen bei Video- im Vergleich zu Text-CASI zu erwarten. Weiterhin soll mit diesem Experiment untersucht werden, inwiefern „virtuelle“ Gender-of-Interviewer-Effekte im Rahmen der Video-Befragung zu beobachten sind. Gender-of-Interviewer-Effekte – speziell bei Fragen nach dem Sexualverhalten – wurden im Rahmen verschiedener Untersuchungen dahingehend festgestellt, dass Interviews mit geschlechtsgleichen Kombinationen von RespondentInnen und InterviewerInnen zu geringerem Underreporting bei Frauen und geringerem Overreporting von Männern führen (vgl. Catania et al 1996).
119
Joachim Gerich
3.1 Methode Die Daten zu dieser Untersuchung wurden grundsätzlich in gleicher Weise wie in Experiment I anhand eines Convenience Samples bei 300 Studierenden der Universität Linz erhoben. Im Unterschied zu Experiment I wurden männliche und weibliche RespondentInnen jeweils hinsichtlich der drei CASI-Erhebungen (Video-CASI mit weiblicher Interviewerin, Video-CASI mit männlichem Interviewer und Text-CASI) getrennt voneinander randomisiert. Dadurch ist ein gleiches Geschlechterverhältnis in allen Erhebungsarten fixiert, die Zuteilung zu den drei Erhebungsarten erfolgte dennoch zufällig (Tabelle 4). Das Lebensalter der Befragten beträgt im Durchschnitt 23,84 Jahre (SD = 3,93). Die Befragten der drei Experimentalgruppen unterscheiden sich nicht signifikant hinsichtlich dem Lebensalter (F[2, 295] = 0,099; p = 0,906). tab04 Tabelle 4: Design Experiment II Erhebungsart CASI Video weiblich CASI Video männlich CASI Text Gesamt
Geschlecht der RespondentInnen weiblich männlich Gesamt 50 50 50
50 50 50
100 100 100
150
150
300
Die Frage nach der Anzahl an lebenszeitlichen Sexualkontakten lautete: „Mit wie vielen Personen hattest Du bisher in Deinem Leben sexuelle Kontakte?“5. Auf diese offene Frage gaben vier Personen eine Anzahl größer als 100 an (darunter beispielsweise eine Angabe mit 999). Diese Angaben wurden in der Analyse nicht berücksichtigt. Die Verteilung der restlichen Angaben zeigt – wie zu erwarten – Häufungspunkte bei runden Zahlenangaben (z. B. 10, 15, 20). Eine letzte Häufung (fünf Personen) ist bei der Angabe von 30 SexualpartnerInnen zu beobachten. Die Ausprägung 40 wurde nicht genannt. Es wurden daher zur Vermeidung von Ausreißern nur Angaben kleiner 40 berücksichtigt, wodurch weitere zwei Angaben (46 und 80) aus der Analyse ausgeschlossen wurden.6 Weitere zehn Personen gaben keine Antwort auf die Frage nach der Anzahl der SexualpartnerInnen. Empirischen Hinweisen für die Gültigkeit des kulturellen Doppelstandards als Ursache von Genderdifferenzen bei der Angabe der Anzahl der SexualpartnerInnen wurde anhand der Korrelationen mit den Scores einer 120
Multimediale Elemente in der Computerbasierten Datenerhebung
Wünschbarkeitsskala (selbe Operationalisierung wie in Experiment I) nachgegangen. Die Hypothese, wonach Genderdifferenzen daraus resultieren, dass die beiden Geschlechter unterschiedliche Antwortstrategien (zählen versus schätzen) bei der Beantwortung der Frage anwenden, wurde anhand der Antwortzeiten auf die Frage nach der Anzahl der SexualpartnerInnen untersucht. Da davon auszugehen ist, dass die kognitive Beanspruchung aufgrund der Notwendigkeit des Erinnerns und des Zählens mit der Anzahl der angegebenen SexualpartnerInnen steigt, ist im Vergleich zu einer Strategie des groben Schätzens eine höhere positive Korrelation zwischen der Anzahl der angegebenen PartnerInnen und der Dauer bis zur Beantwortung der Frage zu erwarten. Da alle drei Erhebungsarten computerbasiert sind, konnten die Antwortzeiten (Latenzzeiten) durch das Erhebungsprogramm für jede Frage als Zeitdifferenz zwischen dem Erscheinen der Frage und der ersten gegebenen Antwort ermittelt werden.
3.2 Ergebnisse Die Geschlechter-Diskrepanz in der Angabe der Anzahl bisheriger SexualpartnerInnen wird auch im Rahmen der vorliegenden Untersuchung auf der Basis des Gesamtsamples bestätigt: Frauen geben im Durchschnitt 5,28 (SD = 5,68) Sexualpartner, Männer im Durchschnitt 8,38 (SD = 7,75) Sexualpartnerinnen an. Die Mittelwertsdifferenz ist mit p < 0,001 signifikant, die Korrelation zwischen Geschlecht und der Anzahl angegebener SexualpartnerInnen beträgt r = 0,23 (Cohen’s d = 0,46)7. In Abbildung 1 sind die durchschnittlichen Angaben zu SexualpartnerInnen getrennt nach Erhebungsart und Geschlecht der RespondentInnen dargestellt. abb01 Die Geschlechterdiskrepanz ist in allen Erhebungsarten – allerdings in unterschiedlicher Stärke – ersichtlich. Die Differenz ist in der textbasierten Erhebungsart deutlich stärker ausgeprägt (signifikante Mittelwertsdifferenz, Korrelation zwischen Geschlecht und der Anzahl angegebener SexualpartnerInnen r = 0,33 bzw. d = 0,70) als in den beiden Videobefragungen (Video-weiblich r = 0,18 bzw. d = 0,35 und Video-männlich r = 0,14 bzw. d = 0,28). Die Unterschiede nach Erhebungsart sind jedoch weder bei Männern noch bei Frauen signifikant (Anova für männliche Befragte: F[2, 136] = 0,885; p = 0,415; für weibliche Befragte: F[2, 142] = 0,719; p = 0,489). Ebenfalls erweist sich die Geschlechterdifferenz, beurteilt anhand der Interaktion von Geschlecht und Erhebungsart, hinsichtlich der Anzahl der angegebenen SexualpartnerInnen als nicht signifikant. 121
Joachim Gerich
Abbildung 1: Durchschnittliche Anzahl an SexualpartnerInnen nach Befragungsart und Geschlecht der RespondentInnen10 10.0 9.0
9.50 (8.39) 8.20 (7.80)
8.0 7.0 6.0 5.0
7.40 (6.99) r=0.18 d=0.35 p=0.096 n=92
r=0.14 d=0.28 p=0.163 n=95
r=0.33 d=0.70 p=0.001 n=97
RespondentInnen weiblich
5.71 (6.41)
5.67 (4.89)
4.0
männlich 4.49 (5.66)
3.0 2.0 1.0 0.0 Video weiblich
Video männlich
Text
Mittelwerte, Standardabweichungen in Klammern. r = Punkt-Biserale Korrelation, p = Signifikanz der Mittelwertsdifferenz, d = Cohen’s d, n = Anzahl gültiger Fälle.
Entsprechend den Annahmen des kulturellen „Double-Standards“ wurde nach Geschlecht getrennt überprüft, ob die Angabe zur Anzahl der SexualpartnerInnen mit den Scores der Wünschbarkeitsskala korreliert. Gemäß der Hypothese des „Double-Standards“ wäre bei männlichen Respondenten eine positive, bei weiblichen Respondentinnen eine negative Korrelation mit sozialer Wünschbarkeit zu erwarten. Die Korrelation erweist sich allerdings bei beiden Geschlechtern als nicht signifikant (p > 0,5). Dagegen finden sich Hinweise für die Unterstützung der Hypothese der unterschiedlichen kognitiven Recall-Leistung nach Geschlecht bei der Beantwortung der Frage. Da davon auszugehen ist, dass die kognitive Beanspruchung aufgrund der Notwendigkeit des Erinnerns und des Zählens mit der Anzahl der angegebenen SexualpartnerInnen steigt, ist eine positive Korrelation zwischen der Anzahl der angegebenen PartnerInnen und der Dauer bis zur Beantwortung der Frage zu erwarten. Für das Gesamtsample (Männer und Frauen gemeinsam) beträgt die Korrelation zwischen Antwortzeit und Anzahl der angegebenen SexualpartnerInnen r = 0,15 122
Multimediale Elemente in der Computerbasierten Datenerhebung
(p = 0,012). Getrennt nach dem Geschlecht der RespondentInnen berechnet, beträgt die Korrelation bei Frauen r = 0,21 (p = 0,013), bei Männern ist die Korrelation nicht signifikant (r = 0,08; p = 0,338). Es zeigen sich jedoch keine wesentlichen Differenzen der Korrelationen zwischen Antwortzeiten und Anzahl an angegeben SexualpartnerInnen zwischen den einzelnen Erhebungsarten. Weiterhin ist weder bei Frauen noch bei Männern eine signifikante Interaktion zwischen Erhebungsart und Antwortzeit zu beobachten.
3.3 Diskussion Zusammenfassend kann festgehalten werden, dass Mode-Unterschiede bezüglich der Genderdiskrepanz auf der Basis einer Interaktion von Geschlecht und Erhebungsart hinsichtlich der Sexualkontakte nicht bestätigt werden können. Dennoch ist ersichtlich, dass Genderdiskrepanzen je nach Erhebungsart in unterschiedlicher Stärke zu beobachten sind: Während in der textbasierten Erhebungsart eine starke und signifikante Genderdifferenz besteht, ist diese bei den beiden Videobasierten Erhebungsformen in deutlich geringerer Stärke und nicht signifikant festzustellen. Die vorliegenden Ergebnisse legen daher nahe, dass das Ausmaß der Genderdiskrepanzen in Bezug auf die Anzahl der angegebenen SexualpartnerInnen zumindest teilweise durch einen Response-Bias hervorgerufen wird, da das beobachtete unterschiedliche Ausmaß der Genderdiskrepanzen nach Erhebungsart aufgrund der Randomisierung kaum durch Sampling-basierte Erklärungen begründbar ist. Für die Annahme des kulturellen Doppel-Standards (wonach es für Frauen sozial erwünschter wäre, weniger Sexualpartner, für Männer hingegen mehr Sexualpartnerinnen anzugeben), lassen sich in der vorliegenden Untersuchung auf Basis der Korrelationen der Angaben mit der Tendenz zu sozialer Wünschbarkeit keine Hinweise finden. Damit können auch keine Hinweise dafür gefunden werden, dass das unterschiedliche Ausmaß der Genderdiskrepanzen je Erhebungsmodus aus einem unterschiedlichen Ausmaß der Wünschbarkeitsbeeinflussung nach Erhebungsart resultiert. Die Ergebnisse der Korrelationsanalyse der Antwortzeiten mit der Anzahl der SexualpartnerInnen sprechen grundsätzlich für die Annahme, dass Genderdiskrepanzen aus einem unterschiedlichen Ausmaß an kognitiven Recall-Leistungen (oder einem unterschiedlichem Ausmaß der Motivation dazu) resultieren bzw. dass Frauen die zeitintensivere Strategie des Zählens und Männer die kürzere Strategie des Schätzens anwenden. Die Unter123
Joachim Gerich
schiede der Genderdiskrepanzen nach Erhebungsart lassen sich damit jedoch nicht erklären. Die Ergebnisse legen weiterhin nahe, dass die Auswirkungen von virtuellen InterviewerInnen mit jenen von realen InterviewerInnen auf das Antwortverhalten hinsichtlich der Angabe der SexualpartnerInnen nicht vergleichbar sind. Obwohl im Rahmen des vorliegenden Experiments kein direkter Vergleich mit einer Face-to-Face-Befragung durchgeführt wurde, so ist dennoch festzuhalten, dass die Genderdiskrepanz bei virtuellen InterviewerInnen im Vergleich zu einer rein textbasierten selbstadministrierten Befragung geringer und jedenfalls nicht höher ausfällt. Auch hinsichtlich jener in anderen Untersuchungen festgestellten Gender-of-Interviewer-Effekte zeigen sich für virtuelle InterviewerInnen in der vorliegenden Untersuchung kaum Hinweise. Zwar zeigen sich bei der Befragung mit männlichem Interviewer etwas geringere Genderdiskrepanzen als in der Befragung mit weiblicher Interviewerin, das Ausmaß dieser Unterschiede ist jedoch gering.
4 Schlussfolgerungen Neuere Entwicklungen im Bereich der Erhebungsmethoden führen zu einer zunehmenden Auflösung der Dichotomie von Interviewer- versus Selbstadministration zugunsten eines breiten Spektrums an Erhebungsmethoden, welche sich hinsichtlich eines mehrdimensionalen Kontinuums unterscheiden. Vorliegende Ergebnisse zeigen erste Anhaltspunkte dafür, dass V-CASI geeignet scheint, Vorzüge von Face-to-Face- und selbstadministrierten Befragungen zu kombinieren. Die Ergebnisse beider Experimente legen nahe, dass V-CASI im Vergleich zu traditionellen Erhebungsmethoden zu einer Verbesserung der Datenqualität beitragen kann. Auf Basis der vorliegenden Ergebnisse wird als Grund dafür angenommen, dass durch Elemente menschlicher Kommunikation (und weniger durch zusätzliche Kommunikationskanäle) die Motivation zur Beantwortung und die – zur Beantwortung von Fragen nötigen – kognitiven Prozesse unterstützt werden. Dagegen finden sich in den vorliegenden Untersuchungen keine Hinweise für „virtuelle“ InterviewerInneneffekte. Nachdem jedoch – insbesondere im Rahmen von Experiment II – noch ungeklärte Fragen zu den genaueren Mechanismen der Mode-Unterschiede bestehen, sind diese Schlussfolgerungen als vorläufig zu bezeichnen. Weiterer Forschungsbedarf ist darüber hinaus nötig, als die Generalisierbarkeit der vorliegenden Untersuchungsergebnisse 124
Multimediale Elemente in der Computerbasierten Datenerhebung
selbstverständlich aus mehreren Gründen beschränkt ist. Einschränkungen ergeben sich einerseits aus der Art der Stichprobenziehung (beide Untersuchungen wurden anhand von Convenience Samples durchgeführt), der geringen Stichprobengrößen und der spezifischen Population (Studierende). Weiterhin ist aufgrund der Begrenzung der realisierbaren Anzahl an Experimentalbedingungen zu berücksichtigen, dass die virtuellen InterviewerInnen nicht variiert wurden und daher spezifische Personeneigenschaften dieser ausgewählten Personen wesentliche Auswirkungen auf Befragungsergebnisse haben können. Anmerkungen 1
2
3
4
5
6
CASI ist die Abkürzung für computer assisted self administered questionnaires. Obwohl auch Web-Befragungen selbstadministrierte Computerbefragungen darstellen, wird der Begriff in der Regel (und auch in diesem Beitrag) als Bezeichnung von offline durchgeführten Erhebungen verwendet. Mit Satisficing (Krosnick 1991) sind „Abkürzungen“ gemeint, bei denen die RespondentInnen nicht alle nötigen kognitiven Stufen des Antwortprozesses durchlaufen, welche für eine valide Antwort nötig wären. Der inhaltliche Rahmen in Form der Kontroll-Theorie wurde dabei weitgehend beliebig gewählt. Das Auswahlkriterium betraf einerseits die einfache Operationalisierbarkeit und die weitgehend abgesicherte Gültigkeit der Annahmen. Andererseits musste der inhaltliche Rahmen so gewählt werden, dass mit Einflüssen sozialer Wünschbarkeit zu rechnen ist. Sieben Items der Deutschen Selbstkontroll-Skala (Seipel 2004) mit den Subskalen temper und risk-seeking, Wünschbarkeitsskala bestehend aus 13 Items der deutschen Lügenskala (Ling 2004) und vier Items einer Kurzform der Crown-Marlowe Scale (Lück & Timaeus 2004), selbstberichtete Normabweichung bestehend aus zehn Items wie z. B. Konsum illegaler Drogen, Ladendiebstahl oder Vandalismus (Johnson et al. 2004). Das Erhebungsinstrument bestand aus insgesamt 52 Items (inklusive demografischer Fragen) mit konstanter Reihenfolge (Wünschbarkeitsskala – Normabweichung – Selbstkontrolle). Das Erhebungsinstrument bestand aus insgesamt 49 Items (inklusive demografischer Fragen). Die Frage nach der Anzahl der Sexualkontakte wurde als Frage 33 gestellt. Obwohl die Frage nicht explizit auf heterosexuelle Kontakte bezogen ist, wird dies vereinfacht angenommen. Es kann jedoch davon ausgegangen werden, dass homosexuelle Kontakte – insbesondere bei jüngeren Personen – für beide Geschlechter annähernd gleich verteilt sind (Butler 2005). Weiterhin ist anzumerken, dass durch die sehr allgemein gehaltene Frage die Möglichkeit besteht, dass Männer und Frauen unterschiedliche Definitionen von „Sexualkontakten“ zur Beantwortung heranziehen. Hinsichtlich der hier zentralen Frage der Mode-Unterschiede scheint es jedoch wenig wahrscheinlich, dass die Interpretation nach Erhebungsarten variiert. Es wurde auch eine alternative Analyse durchgeführt, bei der die Extremwerte mit der Ausprägung 40 ersetzt wurden. Die Ergebnisse werden davon nur unwesentlich beeinflusst.
125
Joachim Gerich 7
Die Signifikanz der Genderdifferenzen wurden in den hier präsentierten Analysen generell anhand des t-test für unabhängige Stichproben berechnet. In Fällen signifikanter Varianzheterogenität wird die korrigierte Signifikanz berichtet. Als Effektstärke der Genderdifferenz kann einerseits die Korrelation nach Pearson verwendet werden, welche hier im Falle eines dichotomen unabhängigen Merkmals auch als Punkt-Biserale Korrelation bezeichnet wird (Nunnally 1978, 120). Die Signifikanz der Korrelation ist identisch mit der des gewöhnlichen t-tests. Alternativ wird die Effektstärke anhand Cohen’s d berichtet. Für den (hier zutreffenden) Fall gleichverteilter Ausprägungen des dichotomen Merkmals kann Cohen’s d auch aus der Korrelation durch d = 2 * r/(1 – r2)1/2 errechnet werden (Cohen 1988, 23).
Literatur Bentrup, Ch., & Hegeler, M., & Porr, Ch. (2001). Self-Control und kriminelles Handeln. In S. Eifler & S. Schmitt & Ch. Bentrup & M. Hegeler & I. Pessara & Ch. Porr & M. Ratzka (Hg.), Gelegenheitsstrukturen und Kriminalität. Bielefeld: Universität Bielefeld. Booth-Keweley, S., & Gerald E. L., & Miyoshi D. K. (2007). Social desirability effects on computerized and paper-and-pencil questionnaires. Computers in Human Behavior, 23, 463–477. Brown, N. R., & Sinclair, R. C. (1999). Estimating number of lifetime sexual partners: Men and women do it differently. The Journal of Sex Research, 36(3), 292–297. Butler, A. C. (2005). Gender differences in the prevalence of same-sex sexual partnering: 1988–2002. Social Forces, 84(1), 417–446. Cassell, J., & Miller P. (2007). Is it self-administration if the computer gives you encouraging looks? In F. G. Conrad & M. F. Schober (Eds.), Envisioning the survey interview of the future (161–178). New York: John Wiley. Catania, J. A., & Binson, D., & Canchola, J., & Pollack, L. M., & Hauck, W., & Coates, T. J. (1996). Effects of interviewer gender, interviewer choice, and item wording on responses to questions concerning sexual behavior. Public Opinion Quarterly, 60(3), 345–375. Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. New Jersey: Erlbaum. Couper, M. P. (2005). Technology Trends in Survey Data Collection. Social Science Computer Review, 23(4), 486–501. Daft, R. L., & Lengel, R. H. (1986). Organizational information requirements, media richness and structural design. Management Science, 32(5), 554–571. De Leeuw, E. (2002). The Effect of Computer-Assisted Interviewing on Data Quality: A Review of the Evidence. In J. Blasius & J. Hox & E. de Leeuw & P. Schmidt (Eds.), Social Science Methodology in the New Millenium. (CD-ROM), Opladen: Leske + Budrich. De Leeuw, & E., Hox, J., & Kef, S. (2003). Computer-assisted self-interviewing tailored for special populations and topics. Field Methods, 15, 1–29.
126
Multimediale Elemente in der Computerbasierten Datenerhebung De Leeuw, E., & Hox J., & Kef S., & Van Hattum M. (1997). Overcoming the Problems of Special Interviews on Sensitive Topics: Computer Assisted Self-Interviewing Tailored for Young Children and Adolescents. Sequim, WA: Sawtooth Software Conference Proceedings. De Leeuw, E., & Hox J., & Snijkers G. (1995). The effect of computer-assisted interviewing on data quality: A review. Journal of the Market Research Society, 37(4), 325–44. Dillman, D. A. (2000). Mail and Internet surveys: The tailored design method. New York: John Wiley. Dykema, J., & Lepkowski, J. M., & Blixt, S. (1997). The effect of interviewer and respondent behavior on data quality: Analysis of interaction coding in a validation study. In L. Lyberg & P. Biemer & M. Collins & E. DeLeeuw & C. Dippo & N. Schwarz & D. Trewin (Eds.), Survey measurement and process quality (221–248). New York: John Wiley. Fuchs, M., & Funke, F. (2008). Die Video-unterstützte Online-Befragung: Soziale Präsenz, soziale Erwünschtheit und Underreporting sensitiver Informationen. In N. Jackob & H. Schoen & T. Zerback (Hg.), Sozialforschung im Internet: Methodologie und Praxis der Online-Befragung. Wiesbaden: VS Verlag (in Druck). Fuchs, M., & Funke, F. (2007). Multimedia Web surveys: Results from a field experiment on the use of audio and video clips in Web surveys. In M. Trotman et al. (Eds.), The challenges of a changing world. Proceedings of the fifth international conference of the association for survey computing (63–80). Berkeley: ASC. Ganster, D. C., & Hennessey H. W., & Luthans F. (1983). Social desirability response effects: Three alternative models. Academy of Management Journal, 26(2), 321–331. Gerich, J. (2008). Real or virtual? Response behavior in video-enhanced self-administered computer interviews. Field Methods (in Druck). Gottfredson, M. R., & Hirschi, T. (1990). A general theory of crime. Stanford, CA: Stanford University Press. Groves, R. M., & Fowler, F. J., & Couper M. P., & Lepkowski, J. M., & Singer E., & Tourangeau, R. (2004). Survey methodology. Hoboken, New Jersey: John Wiley & Sons. Hewitt, M. (2002). Attitudes Toward Interview Mode and Comparability of Reporting Sexual Behavior by Personal Interview and Audio Computer-Assisted Self-Interviewing. Analyses of the 1995 National Survey of Family Growth. Sociological Methods & Research, 31(1), 3–26. Johnson, J. G., & Wilke A., & Weber E. U. (2004). Beyond a trait view of risk-taking: A domain-specific scale measuring risk perceptions, expected benefits, and perceived-risk attitude in German-speaking populations. Polish Psychological Bulletin, 35(3), 153–163. Joinson, A. N., & Woodley, A., & Reips, U. D. (2007). Personalization, authentication and self-disclosure in self-administered Internet surveys. Computers in Human Behavior, 23, 275–285. Jonason, P. K., & Fisher, T. D. (2008). The Power of Prestige: Why Young Men Report Having more Sex Partners than Young Women. Sex Roles (in Druck).
127
Joachim Gerich Krosnick, J. A. (1991). Response strategies for coping with the cognitive demands of attitude measures in surveys. Applied Cognitive Psychology, 5, 213–236. Krysan, M., & Couper M. P. (2003). Race in the Live and the Virtual Interview: Racial Deference, Social Desirability, and Activation Effects in Attitude Surveys. Social Psychology Quarterly, 66(4), 364–383. Ling, M. (2004). Lügen und Leugnen. In A. Glöckner-Rist (Hg.), ZUMA-Informationssystem. Elektronisches Handbuch sozialwissenschaftlicher Erhebungsinstrumente. ZIS Version 8.00. Mannheim: Zentrum für Umfragen, Methoden und Analysen. Lück, H., & Timaeus E. (2004). Soziale Erwünschtheit (SDS-CM). In A. Glöckner-Rist (Hg.), ZUMA-Informationssystem. Elektronisches Handbuch sozialwissenschaftlicher Erhebungsinstrumente. ZIS Version 8.00. Mannheim: Zentrum für Umfragen, Methoden und Analysen. Nass, C., & Moon Y., & Green N. (1997). Are Machines Gender Neutral? Gender-Stereotypic Responses to Computers with Voices. Journal of Applied Social Psychology, 27(10), 864–876. Nicholls, W. L. II, & Baker R. P., & Martin J. (1997). The Effect of New Data Collection Technologies on Survey Data Quality. In L. Lybert & P. Biemer & M. Collins & E. DeLeeuw & C. Dippo & N. Schwarz & D. Trewin (Eds.), Survey Measurement and Process Quality (221–248). New York: John Wiley. Nunnally, J. C. (1978). Psychometric Theory. New York: McGraw-Hill. O’Reilly, J. M., & Hubbard M. L., & Lessler J. T., & Biemer P. P., & Turner Ch. F. (1994). Audio and Video Computer-Assisted Self-Interviewing: Preliminary Tests of New Technologies for Data Collection. Journal of Official Statistics, 10(2), 197–214. Pratt, T. C., & Cullen F. T. (2000). The empirical status of Gottfredson and Hirschi’s general theory of crime: A Meta-Analysis. Criminology, 38(3), 931–964. Richman, W. L., & Weisband S., & Kiesler S., & Drasgow F. (1999). A Meta-Analytic Study of Social Desirability Distortion in Computer-Administered Questionnaires, Traditional Questionnaires, and Interviews. Journal of Applied Psychology, 84(5), 754–775. Schmitt, D. P. (2005). Sociosexuality from Argentina to Zimbabwe: A 48-nation study of sex, culture, and strategies of human mating. Behavioral and Brain Sciences, 28, 247–311. Schneider, S. J., & Edwards B. (2000). Developing Usability Guidelines for Audio-Casi Respondents with Limited Literacy Skills. Journal of Official Statistics, 16(3), 255–271. Schnotz, W., & Kürschner, CH (2007). A Reconsideration of Cognitive Load Theory. Educational Psychology Review, 19(4), 469–508. Seipel, Ch. (2004). Deutsche Version der Self-Control Skala von Grasmick et al. (1993) In A. Glöckner-Rist (Hg.), ZUMA-Informationssytem. Elektronisches Handbuch sozialwissenschaftlicher Erhebungsinstrumente. ZIS Version 8.00. Mannheim: Zentrum für Umfragen, Methoden und Analysen. Sproull, L., & Subramani, M., & Kiesler, S., & Walker, J. H., & Waters K. (1996). When the interface is a face. Human-Computer Interaction, 11(2), 97–124.
128
Multimediale Elemente in der Computerbasierten Datenerhebung Sudman, S., & Bradburn N. M. (1974). Response effects in surveys. Aldine, Chicago. Tourangeau, R., & Rips, L. J., & Rasinski, K. (2000). The psychology of survey response. Cambridge, UK: Cambridge University Press. Tourangeau, R., & Smith T. W. (1996). Asking sensitive questions: The impact of data collection, question format, and question context. Public Opinion Quarterly, 60, 275–304. Turner, Ch. F., & Ku L., & Rogers S. M., & Lindberg L. D., & Pleck J. H., & Sonenstein F. L. (1998). Adolescent Sexual Behaviour, Drug Use, and Violence: Increased Reporting with Computer Survey Technology. Science, 280, 867–873. Wadsworth, J., & Johnson, A. M., & Wellings, K., & Field, J. (1996). What’s in a mean? – an examination of the inconsistency between men and women in reporting sexual partnerships. Journal of the Royal Statistical Society, 159(1), 111–123. Walker, J. H., & Sproull L., & Subramani R. (1994). Using a Human Face in an Interface. In B. Adelson & S. Dumais & J. Olson (Eds.), Human Factors in Computing Systems: CHI’94 Conference Proceedings (85–91).Boston: ACM. Weisband, S., & Kiesler S. (1996). Self Disclosure on Computer Forms: Meta-Analysis and Implications. Paper presented at the conference on Human Factors in Computing Systems, April 1996, Vancouver. Abgerufen am 22.10.2008, Website: http:// www.acm.org/sigchi/chi96/proceedings/papers/Weisband/sw_txt.htm Wiederman, M. W. (1997). The truth must be in here somewhere: examining the gender discrepancy in self-reported lifetime number of sex partners. Journal of Sex Research, 34(4), 375–386.
129
Albert Greinöcker
Albert Greinöcker
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen Zusammenfassung Gegenstand des Artikels sind die Einflüsse visueller Effekte auf Befragte in Online-Studien. In einer vergleichenden Analyse werden Effekte von unterschiedlichen Aufbereitungen von Skalenfragen und Visuellen Analogskalen (VAS) dargestellt: In drei unabhängigen Studien wurden den Befragten sechs Steuerbzw. Kontrollelemente vorgelegt, um Einstellungen, Eindrücke bzw. Meinungen einzustufen. Dabei handelt es sich um einen Schieberegler (200 Skalenpunkte), eine VAS, bei der man für die Positionierung in eine durchgängige Fläche klicken muss (20 Skalenpunkte), ein Textfeld, in das eine Nummer einzugeben war, die einer Position auf der Skala entspricht, eine Dropdown-Liste, aus der die entsprechende Position auf der Skala auszuwählen ist, sowie RadioButtons und einfache HTML-Buttons ohne Beschriftung (je 10 Skalenpunkte). Untersucht werden Unterschiede im Ausfüllverhalten (Mittelwerte sowie Wahl von Extrempunkten auf der Skala bzw. Tendenz zur Mitte), Abbruch und Ausfülldauer. Zusätzlich wurde eine Evaluation am Ende jeder Befragung durchgeführt, um eine Einschätzung der Skalentypen von den Befragten zu erhalten.
Abstract The Application of Visual Analog Scales (VAS) in Online Surveys A lot of research has already been completed within the field of visual design effects on respondents in online surveys. However, in some cases these studies have produced contradictory findings. In this article the focus will be on experiments dealing mainly with Visual Analogue Scales (VAS) amongst other things. Three main studies with the same experimental design (to ensure that the effects are reproducible) were used and the interviewees were presented with 6 different scale types. Namely: a slider (200 scale points), a VAS, for which one must click on a continuous surface to position oneself on the scale (20 scale points), a text input field, for which one must enter a numeric value which corresponds to a position on the scale, a dropdown list, offering the possibility to select a certain position on the scale, as well as radio buttons and simple HTML buttons without labels (10 scale points each).
131
Albert Greinöcker
A VAS is an instrument that tries to measure a characteristic or attitude that is believed to range across a continuum of values and is verbally anchored on each end („strongly agree“ vs. „strongly disagree“ as such anchors). In survey research, the use of VAS has been relatively rare, in part because of operational difficulties. Hence a detailed view of technical possibilities and pitfalls will be given. It will be examined whether differences in response behaviour as well as dropout and fillout duration can be found (by comparing mean values and a selection of extreme points on the scale). Additionally, the interviewees were asked to give an evaluation at the end of each questionnaire, to get an impression of the subjective attitude towards the different scale designs. To run these experiments, software was developed which focuses on providing good support for experimenting on web surveys.
1 Einleitung Mit der kontinuierlichen Zunahme des allgemeinen Zugangs zum Internet1 werden auch vermehrt Onlinebefragungen durchgeführt. Da sich nicht alle Erkenntnisse aus Paper&Pencil-Befragungen direkt auf die Erhebung im Internet übertragen lassen2 und die zusätzlichen Möglichkeiten3 auch neue Probleme mit sich bringen können, sind Untersuchungen von methodischen Aspekten dieses Modus besonders wichtig, um Datenqualität nicht auf Kosten ökonomischer oder zeitlicher Vorteile zu opfern. Es sind bis zum jetzigen Zeitpunkt bereits eine Menge an Experimenten, etwa zur visuellen Aufbereitung von Onlinebefragungen, durchgeführt worden, jedoch nur relativ wenige, die sich mit unterschiedlichen Eingabeformen für semantische Differentiale beschäftigen, wo auch Visuelle Analogskalen (VAS) eingesetzt werden. Darunter versteht man eine grafisch gestaltete Eingabemöglichkeit, mit deren Hilfe Einstellungen oder Bewertungen auf einer durchgängigen oder vielfach abgestuften Skala erhoben werden sollen. In der Regel sind die Pole dabei mit verbalen Ankern (z. B. „sehr gut“ bzw. „sehr schlecht“) versehen. Ein Grund für die bislang geringe Verbreitung könnte in der relativ aufwändigen technischen Umsetzung liegen. Ziel des vorliegenden Beitrages ist die Tauglichkeit von VAS für webbasierte Befragungen zu überprüfen, indem diese mit anderen Eingabeformaten bzw. Skalentypen verglichen werden. Weiters wird von zusätzlichen Effekten, die bei der Durchführung der Experimente aufgetreten sind, berichtet, aus denen sich Schlussfolgerungen für die Auswahl und Gestaltung von Skalentypen ableiten lassen. 132
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen
Konkret sollen folgende Fragestellungen untersucht werden: Wirken sich unterschiedliche Skalentypen bzw. Eingabeformate auf das Antwortverhalten bei semantischen Differentialen aus? Lassen sich bei bestimmten Formen spezifische Antwortmuster feststellen, etwa dass manche Kategorien bei einem oder mehreren Skalentypen häufiger gewählt werden als bei anderen? Dabei soll auch untersucht werden, ob sich die Abbrecherrate bei den verwendeten Skalentypen unterscheidet, was auf unterschiedliche Belastung der Befragten hindeuten würde; diese soll zudem über die Ausfülldauer pro Frage kontrolliert werden. Schließlich werden die Ergebnisse dem subjektiven Empfinden der Befragten zur Handhabung der Skalentypen gegenübergestellt.
2 Beschreibung der Skalentypen Zunächst eine Kurzbeschreibung der im Experiment verwendeten Skalentypen bzw. Eingabeformate:4
2.1 Radio-Button-Skala [radio] Die Skala, die in Online-Befragungen nach wie vor wohl am meisten eingesetzt wird, besteht aus aneinander gereihten Radio-Buttons. Ein Nachteil der Radio-Buttons ist die relativ kleine Darstellung, die eine exakte Positionierung des Mauszeigers erfordert. In Welker (2005, 21) wird auch auf einen möglichen Einfluss des Schatteneffektes des Radio-Buttons hingewiesen. Dieser wird je nach Browser unterschiedlich dargestellt, was Befragte in eine bestimmte Richtung tendieren lassen könnte. abb01 Abbildung 1: Skalentyp radio
2.2 Button-Skala [button] Als Alternative zu den kleinen Radio-Buttons wurden größere Buttons in Form von Rechtecken gestaltet, die zueinander einen Abstand aufweisen 133
Albert Greinöcker
und mit CSS5 aufbereitet wurden. Diese Buttons sind wie die Radio-Buttons einfache HTML-Elemente. Klickt man einen Button an, nimmt er eine andere Farbe (z. B. rot) an. abb02 Abbildung 2: Skalentyp button
2.3 Klickbare Skala ohne Abstände [click-VAS] Die Abstände zwischen den Buttons können auch weggelassen werden. Optisch entsteht eine durchgängige Fläche, die aus aneinander gereihten Bildern (Rechtecken) besteht (ebenso viele wie Skalenpunkte, hier 20; ein Skalenpunkt ist 5 Pixel breit). Beim Anklicken ändert sich die Farbe und zeigt so die gewählte Position. In den bereits durchgeführten Experimenten mit VAS deckt sich kein verwendeter Skalentyp mit dieser, der technologische Hintergrund ähnelt jedoch der VAS, die in allen Experimenten von Funke & Reips verwendet wurden.6 abb03 Abbildung 3: Skalentyp click-VAS
2.4 Schieberegler [slider-VAS] Während die click-VAS zwar wie eine durchgängige Skala aussieht, aber nur eine relativ geringe Zahl an Skalenpunkten ermöglicht, kommt der Schieberegler einer kontinuierlichen Skala deutlich näher. Das hier verwendete Steuerelement bietet 200 Skalenpunkte, wobei ein Skalenpunkt einem Pixel entspricht, was vom User als stufenlose Regelungsmöglichkeit wahrgenommen wird. Im Gegensatz zu den oben genannten Formen ist es notwendig, einen bestimmten Skalenwert als Startwert auszuwählen (Ausgangsposition: Schieberegler in der Mitte), er musste von den Befragten allerdings bewegt werden, um einen gültigen Wert zu liefern. Dieser Ansatz hatte ungünstige Nebeneffekte (siehe Ergebnisse unter „Antwortvertei134
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen
lung“). Alternativ könnte der Schieberegler erst beim Klick auf die Linie eingeblendet werden (wie bei den Experimenten von Couper et al. 2006, die einen ansonsten ähnlichen Schieberegler verwendeten), was es aber den Befragten schwieriger macht, den Umgang mit dem Steuerelement zu verstehen. Technisch wurde die Umsetzung mit einem Java-Applet7 gelöst. abb04 Abbildung 4: Skalentyp slider-VAS
2.5 Textinput-Skala [text] Hier wurde ein einfaches Textfeld bereitgestellt, in das eine Zahl zwischen 1 und 108 einzugeben war. abb05 Abbildung 5: Skalentyp text
2.6 Dropdown-Skala [dropdown] Hier ist ein Wert zwischen 1 und 10 aus einer Dropdown-Liste auszuwählen. Wie bei der Textinput-Skala ist auch hier jeder wählbare Skalenwert als Zahl dargestellt, was bei den zuvor erläuterten Typen nicht der Fall ist. Als Initialzustand wird ein leerer Eintrag angezeigt, zudem ist im Vollbildmodus kein Scrollen notwendig, um alle Alternativen (also die Werte zwischen 1 und 10) sehen zu können. In anderen Experimenten wurden dennoch Probleme mit diesem Eingabeformat beobachtet (vgl. z. B. Healey 2007), was längere Antwortzeiten und eine höhere Beanspruchung der Befragten erwarten lassen. Abbildung 6: Skalentyp dropdown
135
Albert Greinöcker
Alle experimentellen Fragen wurden als Fragebatterien organisiert, wobei die Anzeige so gestaltet wurde, dass pro Bildschirmseite eine Fragebatterie erscheint („paging“ im Gegensatz zu „scrolling“, vgl. Peytchev 2006). Dadurch lässt sich das Befragtenverhalten besser beobachten, z. B. in Bezug auf die Zeitmessung und das Abbruch-Verhalten. Die Beantwortung aller Fragen war verpflichtend, und es wurde in keinem Fall eine Vorauswahl eingestellt, um zu verhindern, dass einfach die Voreinstellung als Antwort an den Server geschickt wird. Eine Ausnahme war slider-VAS, wo jedoch die Initialposition verändert werden musste, um einen gültigen Wert zu generieren. Weiters wurde beim Entwurf der einzelnen Aufbereitungen darauf geachtet, dass bei üblichen Bildschirmauflösungen die vollständige Skala sichtbar ist und ggf. die Abstände zwischen den einzelnen Skalen-Items identisch sind. Die Breite der gesamten Skala variiert, weil die einzelnen Steuerelemente unterschiedlich viel Platz benötigen. Für jeden Skalentyp wurde ein kurzer Beschreibungstext zu dessen Handhabung eingeblendet.
3 Terminologie Die Definition einer VAS ist in der Literatur teilweise widersprüchlich: Bei Funke & Reips (2007a, S. 70) fallen Schiebereglerskalen nicht darunter, weil wegen des breiten Schiebereglers Ungenauigkeiten entstehen können. In Couper et al. (2006) wird die Bezeichnung VAS jedoch genau für den in den Experimenten verwendeten Schieberegler verwendet. Weiters schränken Funke & Reips (2007a, S. 70) ein, dass nur Skalen als VAS bezeichnet werden sollen, die tatsächlich kontinuierliche Variablen messen und die Skala pixel-genau auslesen. Da ein Pixel, obwohl es die kleinste darstellbare Einheit am Bildschirm darstellt, doch ein diskreter Abtastwert ist, sind Zweifel an dieser Definition angebracht. Es ist unklar, wie ein tatsächlich kontinuierliches Messinstrument in Onlinebefragungen technisch realisiert werden kann. Aus diesem Grund bietet sich der Terminus „quasi-kontinuierlich“ für pixelgenaue Messungen an. Wichtig ist in jedem Fall, dass bei einer VAS verbale Anker nur an den beiden Polen gegeben sind und die Skala möglichst ein Kontinuum darstellt (also keine Zwischenräume zwischen den Skalenpunkten vorhanden sind und keine definierten Punkte erkennbar sind, auch nicht der Mittelpunkt). Eine mit VAS eng verwandte Skala ist die Grafische Rating-Skala (GRS), die jedoch verbale Beschreibungen an einzelnen Skalenpunkten hat (siehe Couper et al. 2006). 136
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen
Für die gegenständlichen Experimente werden die Eigenschaften einer VAS wie folgt definiert: • Es gibt kein Feedback über die aktuelle Position am VAS; eine Ausnahme stellt die Initialposition im slider-VAS (in der Mitte) dar. • Es muss nicht auf Pixel genau gemessen werden. • Es dürfen jedoch keine Abstände zwischen den Skalenpunkten gegeben sein. • Beschriftungen an der Skala dürfen sich nur an den beiden Polen befinden. • Die Art der Bedienung (also „Klicken“ oder „Ziehen“) schränkt die Definition nicht ein. Radio und button werden in der Folge als „Button-Skala“ (angelehnt an Funke & Reips 2008), bezeichnet. Als Visuelle Analogskalen gelten clickVAS und slider-VAS.
4 Aktueller Forschungsstand In den letzten Jahren wurden bereits vereinzelt Experimente mit VAS in WebBefragungen durchgeführt. Couper et al. (2006) verglichen den Einsatz einer VAS mit der Eingabe mittels Radio-Buttons (20 bzw. 21 Skalenpunkte) und einer numerischen Eingabe in ein Textfeld (20 bzw. 21 Skalenpunkte). Die dort verwendete VAS war ein als Java-Applet implementierter Schieberegler, der dem hier verwendeten slider-VAS sehr ähnlich ist. Der Schieberegler war jedoch nicht von Anfang an sichtbar, sondern erst mit einem Klick auf die Skala. Die Eingabemöglichkeiten wurde noch variiert, z. B. mit der An- bzw. Abwesenheit von numerischem Feedback und eines Mittelpunktes. Walston et al. (2006) untersuchten die Unterschiede von Radio-Buttons, HTML-Buttons (je 5 Skalenpunkte) und einem grafischen Schieberegler (VAS) experimentell. Die dort verwendete VAS war eine vertikale Linie, auf der man einen Schieberegler positionieren konnte. Alle 3 Skalentypen hatten verbale Beschriftungen, auch die VAS, bei welcher man sich aber auch zwischen den beschrifteten Ankerpunkten positionieren konnte. Funke und Reips führten eine Reihe von Untersuchungen mit einer in Javascript implementierten VAS durch, wobei die Bewertung durch Klicken auf eine Linie gegeben wurde. Bei dieser VAS9 ist keine initiale Positionierung vorhanden. In Funke & Reips (2008) wurde unter anderem eine 5-teilige Radio-Button-Skala mit einer 250 Pixel breiten VAS verglichen. Dabei zeigte sich eine höhere „test-restest“-Reliabilität für VAS, was die Messung 137
Albert Greinöcker
mit VAS konsistenter erscheinen lässt (siehe auch Funke & Reips 2007b). Weiters wurden weniger Abbrecher beobachtet als bei der Radio-ButtonSkala, jedoch ein höherer Anteil an fehlenden Werten. Auch höhere Antwortzeiten für VAS wurden festgestellt. In Couper et al. (2004b) wurde ein Experiment mit Radio-Button, Dropdown-Liste und Select-Box durchgeführt. Bezüglich der Ausfülldauer konnten keine signifikanten Unterschiede nachgewiesen werden, jedoch zeigte sich, dass ein Primäreffekt bei SelectBoxen stärker ausgeprägt ist. Flynn et al. (2004) führten eine Paper&Pencil-Befragung durch, wo unterschiedliche Effekte des Einsatzes von 7-Punkt-Ratingskalen und VAS untersucht wurden. Als ein Ergebnis zeigte sich, dass im Ratingskalen-Format höhere Wertungen abgegeben wurden. Ähnliches wird in Funke & Reips (2008) berichtet. Da einige Untersuchungen mit VAS vor allem im medizinischen Bereich (z. B. um die Intensität von Schmerzen einschätzen zu lassen) im Einsatz in Paper&Pencil-Befragungen durchgeführt wurden, ist es für eine mögliche Umstellung auf eine Computer- bzw. Web-basierte Messung wichtig zu ermitteln, wie anfällig VAS bezüglich Modus-Effekte sind. In Gerich (2007) wird dies untersucht und festgestellt, dass geringere Modus-Effekte bei VAS im Vergleich zu einer 5-Punkt-Ratingskala zu verzeichnen sind. Das innovativste Experiment (mit mehr als 2000 Teilnehmern) findet sich in Lütters et al. (2007), wo eine neue Skala (so genannte „Sniperscale“) die Basis eines Experiments darstellte. Hier musste man mit einem Fadenkreuz auf Symbole auf der Skala zielen. Umgesetzt wurde diese Kontrolle mit Flash-Technologie. Diese wird mit einem Schieberegler, der in Java umgesetzt wurde, und mit einer klassischen Skala aus Radio-Buttons verglichen. Die höchste Dropout-Rate war hier bei der Verwendung der Radio-Buttons zu beobachten, gefolgt vom Schieberegler. Die „Sniperscale“ erzielte hier die besten Ergebnisse, auch wenn die längste Ausfülldauer zu verzeichnen war. Die besten Resultate bezüglich Ausfülldauer wurden unter Verwendung des Schiebereglers erzielt.
5 Fragestellung Die zentrale Fragestellung ist, ob und wenn ja: in welcher Weise die unterschiedliche gestalteten Eingabemöglichkeiten auch Unterschiede im Antwortverhalten generieren. Dies betrifft sowohl eine mögliche systematische Verzerrung der Antworten in eine bestimmte Richtung (d. h. Unterschiede in 138
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen
den Mittelwerten) als auch das Auftreten spezifischer Antwortmuster (Tendenz zur Mitte oder zu den Extremen). Die zweite Fragestellung betrifft den Umgang der Befragten mit den Skalentypen. Als wichtiges Kriterium für die Akzeptanz der Befragten gegenüber einem bestimmten Steuerelement wird dabei der Aufwand betrachtet, der mit der Bedienung verbunden ist. Der geringste Aufwand (nämlich nur 1 Klick) kann bei den beiden Button-Skalen und der click-VAS verzeichnet werden, und es wird angenommen, dass die Belastung sinkt, je größer die zu treffenden Elemente und je kleiner die Abstände zwischen ihnen sind. Bei der slider-VAS ist ein „Ziehen“ notwendig, was eventuell mehr Geschick erfordert. Bei text kommt die Tastatur als zusätzliches Eingabegerät hinzu, bei dropdown ist ein erstes Klicken (um überhaupt erst die zu wählenden Alternativen zu sehen), gefolgt von einer Auswahl (Mausbewegung nach unten bzw. nach oben, entsprechend wie die Kontrolle angezeigt wird) notwendig. Bei den Skalentypen, die nicht dem Standard entsprechen, kommt noch der Aufwand, sich einzuarbeiten und deren Bedienung zu verstehen, hinzu. text, dropdown und radio sind Steuerelemente, die Befragte in dieser Form sowohl von ihrer alltäglichen „Weberfahrung“ als auch von Web-Befragungen her kennen, jedoch sind click-VAS, slider-VAS und in der verwendeten Form auch button speziell für diese Experimente entwickelt worden, was eine zusätzliche Belastung in Form von Erlernen der Bedienung der Kontrolle darstellt. Dieser Aufwand soll über drei verschiedene Indikatoren erhoben werden; zum einen über die Abbrecherquote, da anzunehmen ist, dass ein höherer Bedienungsaufwand mehr Abbrüche provoziert; zum anderen über eine Zeitmessung, die die benötigte Dauer je Frage misst, und schließlich die subjektive Einschätzung der Befragten über die Handhabung der Eingabeform.
6 Aufbau des Experiments Den Befragten wurde per Zufall ein bestimmter Skalentyp zur Beantwortung von semantischen Differentialen zugewiesen. Dieser blieb bei einer Person für die gesamte Befragung gleich. Die Auswahlwahrscheinlichkeiten der Skalentypen waren gleich verteilt. Da die Softwareanforderungen der Skalentypen unterschiedlich sind (alle Skalentypen außer text und dropdown benötigten Javascript; slider-VAS zusätzlich eine Java-Installation am Rechner des Befragten) wurde überprüft, ob Javascript bzw. Java aktiviert bzw. installiert ist. Falls dies nicht der Fall 139
Albert Greinöcker
war, wurde solange zufällig ein Skalentyp zugewiesen, bis die technischen Vorbedingungen erfüllt waren. Dies war allerdings nur selten notwendig (z. B. tourism-Befragung: 1,3% bzw. 2,7% der Fälle). Im Sommer 2007 wurden drei unabhängige Studien mit identischem experimentellen Design durchgeführt, um zu sehen, ob gefundene Effekte reproduzierbar sind (in Klammern die Kurzbezeichnungen, die später bei der Analyse verwendet werden): Eine Befragung an der Universität Salzburg untersuchte das Reiseverhalten von Studierenden (tourism), eine zweite beschäftigte sich mit dem Re-Launch der Webseite der Universität Innsbruck (webpage). Für beide wurde die Zielgruppe per Email kontaktiert, die Zugangskontrolle erfolgte mit einem PIN. Eine dritte Befragung beschäftigt sich mit Snowboardmarken (snowboard), hierfür wurden Links auf den Fragebogen in einschlägigen Foren eingestellt. Es wurde versucht, alle gängigen Browser zu unterstützen und auch die visuelle Aufbereitung in den Browsern so ähnlich als möglich zu gestalten, um keine Verzerrungen durch unterschiedliche Darstellungen zu provozieren, zumal bekannt ist, dass die Präferenz für bestimmte Browser mit Personeneigenschaften verbunden ist (vgl. Funke & Reips 2005, ähnliche Verteilungen wurden auch hier festgestellt). Tabelle 1 zeigt einen Überblick über den allgemeinen Rücklauf mit absoluten Zahlen und die Anteile derer, die zumindest eine Frage ausgefüllt, und derer, die den Fragebogen komplett ausgefüllt haben. Tabelle 1: Überblick über den allgemeinen Rücklauf aller 3 Befragungen
Allgemeine Teilnahme Lurkers* zumindest eine Frage ausgefüllt Vollständig ausgefüllt
tourism
webpage
snowboard
1.262
1.538
402
148 (11,73%)
74 (4,81%)
107 (26,62%)
1.114 (88,27%) 1.464 (95,19%) 295 (73,38%) 761 (60,30%)
850 (55,27%)
176 (43,78%)
* Hier wurde nur der Fragebogen eingesehen, aber keine Frage beantwortet
Tabelle 2 zeigt die Verteilung der Skalentypen. In der Spalte Anteil sieht man den prozentuellen Anteil eines Skalentyps pro Befragung. Aufgrund technischer Probleme ist die Verteilung der Zuweisung der einzelnen Skalentypen zum Teil ungleich, insbesondere bei webpage. Unter abgebrochen kann 140
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen
man den Anteil als auch die absolute Zahl der Abbrecher ablesen, in Spalte beendet die absolute Anzahl der Teilnehmer, die die Befragung komplett ausgefüllt haben. Aufgrund der geringen Fallzahlen bei der snowboard-Befragung muss diese Befragung bei der Darstellung der Ergebnisse teilweise ausgenommen werden. tab02 Tabelle 2: Verteilung der Experimentalbedingungen tourism Anteil
webpage
snowboard
abge- beendet brochen
Anteil
abge- beendet brochen
Anteil
abge- beendet brochen
radio
15,89%
40 (22,60%)
137
8,67%
35 (27,56%)
92
15,93%
15 (31,91%)
32
text
14,72%
55 (33,54%)
109
30,81%
237 (52,55%)
214
8,81%
16 (61,54%)
10
dropdown
16,61%
50 (27,03%)
135
33,67%
206 (41,78%)
287
17,29%
19 (37,25%)
32
button
17,41%
50 (25,77%)
144
8,40%
33 (26,83%)
90
20,34%
18 (30,00%)
42
click-VAS
14,36%
31 (19,38%)
129
9,08%
42 (31,58%)
91
17,97%
14 (26,42%)
39
slider-VAS
21,01%
127 (54,27%)
107
9,36%
61 (44,53%)
76
19,66%
37 (63,79%)
21
100%
353
761
100%
614
850
100%
119
176
gesamt
Neben den Antworten wurden Paradaten aufgezeichnet, um mögliche Probleme bzw. Seiteneffekte erkennen zu können.
7 Ergebnisse 7.1 Abbruch-Raten Von Interesse ist, ob ein bestimmter Skalentyp zu einer höheren AbbruchRate führt. Zur Darstellung werden Kaplan-Meier-Kurven verwendet, diese stellen Schätzungen der Wahrscheinlichkeit dar, dass bei einem Versuchsobjekt ein bestimmtes Ereignis innerhalb eines Zeitintervalls nicht eintritt (Abbildung 7). Die Werte auf der X-Achse stellen die experimentellen Variablen dar. Man sieht das bekannte Phänomen, dass am Anfang mehr Abbrüche vorkommen als im späteren Verlauf (vgl. Weichbold 2005, 221). Besonders deutlich fiel dies beim slider-VAS bei der ersten experimentellen Frage aus. 141
Albert Greinöcker
Abbildung 7: Kaplan-Meier-Kurve für die tourism-Befragung
Dieses Ergebnis deckt sich mit denen von Couper et al. (2006, 237). Auch dort wird für die VAS von einer höheren Rate an Abbrechern, mehr fehlenden Daten und längeren Ausfüllzeiten berichtet. Auch wurde ein heaping-Effekt10 bei der Verwendung von VAS mit numerischem Feedback entdeckt. Als Grund für die höhere Rate an Abbrechern kommen technische Probleme in Frage. Obwohl die Installation von Java überprüft wurde, können diese nicht ausgeschlossen werden, da das korrekte Funktionieren mit der Installation noch nicht sichergestellt ist. Weiters kann man in Abbildung 7 erkennen, dass text in der tourism-Befragung eine höhere Dropout-Rate aufweist. Beste Ergebnisse werden für click-VAS und radio erzielt, gefolgt von button und dropdown, die in etwa gleich auf liegen. Ähnlich verhält es sich in der webpage-Befragung, mit dem Unterschied dass hier dropdown eine im Vergleich zur tourism-Befragung höhere Abbruchrate (relativ zu den anderen Skalentypen) aufweist (die snowboard-Befragung liefert hier identische Verhältnisse), also sind 142
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen
hier die geringsten Abbruchraten bei radio, button und click-VAS zu verzeichnen. In der Literatur finden sich dazu widersprüchliche Ergebnisse. Heerwegh & Loosveldt (2002a) vergleichen Radio-Buttons und DropdownListen und berichten ähnliche Ergebnisse (wenn auch nicht statistisch signifikant). Auch in Walston et al. (2006) wird über eine höhere Abbruchrate bei VAS im Vergleich zu Radio- und HTML-Buttons berichtet. Im Gegensatz dazu berichten Funke & Reips (2008) von geringeren AbbruchRaten unter Verwendung von VAS im Vergleich zu einer „SchiebereglerSkala“ (allerdings mit Beschriftungspunkten auf der Skala) und Radio-Button-Skala. Es ist aber hier nochmals wichtig zu erwähnen, dass der hier verwendete VAS punkto Bedienung und Aussehen von slider-VAS und click-VAS abweicht. Aufgrund möglicher technischer Probleme sollte man generell vorsichtig bei der Auswahl von Technologien sein. Im Gegensatz dazu stehen allerdings die positiven Effekte bezüglich der Abbruchraten, die durch die aufwändig gestaltete „Sniperscale“, wie in Lütters et al. (2007) berichtet, im Vergleich zur Verwendung von einfachen Radio-Buttons und einer Schieberegler-Skala erzielt wurden. Aus technologischer Sicht muss man aber immer wieder damit rechnen, einen Teil der Befragten aufgrund nicht erfüllter technischer Bedingungen auszuschließen. Technologien, die über Javascript hinausgehen, sollten daher eher vermieden werden. Auch wenn Javascript nach wie vor bei einigen Befragten (z. B. bei der tourism-Befragung von 1,3%) deaktiviert ist, wird dieser Anteil wohl noch weiter zurückgehen. Zusätzlich steigt die Zahl der Bibliotheken und Technologien, die auf Javascript aufbauen, mit denen die Erzeugung von komplexen Eingabekontrollen wie VAS erleichtert wird. Zusätzlich kann man in der webpage-Befragung eine interessante Beobachtung machen: In Frage 12 wurde die Aufgabe gestellt, unterschiedliche Designs von Webseiten zu beurteilen. Zu diesem Zweck musste man auf eine Reihe von Links klicken, um die unterschiedlichen Darstellungen (als Bild) einzusehen, die in einem eigenen Fenster angezeigt wurden. Wenn nun also auch noch ein zusätzliches Eingabegerät, wie im Fall von text die Tastatur, notwendig für die Beantwortung ist, dann kann das zu viel an Belastung werden und die Wahrscheinlichkeit, dass Befragte aussteigen, steigt. Bei text ist bei dieser Frage die Abbruchrate 16,85%, im Vergleich zu durchschnittlich 8,86%.
143
Albert Greinöcker
7.2 Bearbeitungszeit Neben einem Abbruch kann auch eine längere Bearbeitungszeit als ein Indiz für eine höhere Beanspruchung der Befragten gesehen werden. Die Messung der Bearbeitungszeit erfolgte clientseitig mittel Javascript, wodurch unterschiedliche Datentransferzeiten die Ergebnisse nicht verfälschen können (vgl. Heerwegh 2002, 2003). Um Ausreißer zu identifizieren und zu eliminieren, wurde eine robuste Regression gewählt, bei der für jede Zeitmessung ein Gewicht berechnet wird, welches im Regressionsmodell (mit den logarithmierten Zeiten als abhängige Variable und mit Fragebatterie und Skalentyp als unabhängige Variable) berücksichtigt wird.11 Unterschiede zwischen den Skalentypen wurden mit Tukey’s HSD-Test ermittelt). Es zeigt sich, dass button, click-VAS und radio eine schnelle Beantwortung ermöglichen und man mit dropdown und text tendenziell länger braucht. Dies deckt sich mit den in der Beschreibung der Skalentypen aufgelisteten Schritten, die für den Befragten notwendig sind, um zu antworten (radio, button und click-VAS benötigen nur einen Klick mit der Maus, bei den anderen Skalentypen sind mehr Schritte notwendig). Couper et al. (2006, 242) berichten diesbezüglich allerdings eine andere Reihenfolge: Die Zeiten, die insgesamt für die Beantwortung der experimentellen Fragen im Durchschnitt benötigt wurden, sind 170,6 (VAS), 124,8 (Radio-Buttons) und 153,8 (Textfeld) Sekunden, was die Differenz zwischen radio und text bestätigt. Die langsamen Antwortzeiten bei sliderVAS konnten nur in der webpage-Befragung bestätigt werden. Die Ergebnisse von Heerwegh & Loosveldt (2002a), einem Vergleich von Radio-Buttons und Dropdown-Listen, bestätigen diese Ergebnisse (wenngleich nicht statistisch signifikant). Um diese Unterschiede quantifizieren zu können, kann man Tabelle 3 die Mittelwerte der Unterschiede pro Unterfrage12 zum Gesamtmittelwert13 entnehmen. Zusätzlich sind noch die Mittelwerte der absoluten Dauer pro Unterfrage eingetragen, um die Differenzen zu den Mittelwerten besser einschätzen zu können. tab03 Es zeigt sich, etwa im Fall der ersten Befragung, dass bei dropdown und text beträchtlich länger pro Unterfrage für das Ausfüllen benötigt wurde als der Durchschnitt aus allen Skalentypen. Die unterschiedlichen Reaktionen in den einzelnen Befragungen lassen sich mit der Anzahl der Unterfragen in der ersten experimentellen Fragebatterie und dem damit verbundenen Lerneffekt erklären. Dieser trat bei Skalentypen, die nicht dem „Standard“ entsprechen, auf. Am stärksten zeigte sich dieser Effekt bei slider-VAS gefolgt von click-VAS und button. Dies deckt sich mit den Ergebnissen von Couper et al. (2006, 242). 144
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen
Tabelle 3: Mittlere Antwortzeit nach Skalentypen in Millisekunden; Differenz zum jeweiligen Gesamtmittelwert tourism webpage snowboard absolut Differenz absolut Differenz absolut Differenz button dropdown slider-VAS click-VAS radio text
4.657,48 5.448,70 5.456,40 4.609,39 4.548,54 5.492,43
–380 522 240 –483 –348 582
5.561,52 6.239,08 6.363,46 5.634,53 5.182,34 6.342,48
–572 173 429 –203 –756 200
4.099,75 4.746,79 4.437,46 3.912,76 3.772,15 4.855,44
–129 484 311 –246 –486 979
Wenn man diese Ergebnisse betrachtet, liegt die Vermutung nahe, dass die Ausfülldauer mit der Abbruch-Rate in Zusammenhang steht. Höhere Antwortzeiten können als Indiz für eine höhere Belastung für die Befragten angesehen werden, was die höheren Abbruchraten erklären würde. In Funke & Reips (2008) findet man hingegen ein interessantes Gegenmodell, das besagt, dass höhere Antwortzeiten ein Indikator für tiefere kognitive Prozesse sein könnten. Dies kann aber aufgrund der existierenden Daten nicht entschieden werden.
7.3 Antwortverhalten – Mittelwerte Eine zentrale Frage betrifft das Antwortverhalten, also ob sich die Antworten je nach Skalentyp unterscheiden. Als erster Schritt wurde ein Vergleich der Mittelwerte durchgeführt. Um Vergleichbarkeit zu gewährleisten, wurden alle Antworten der unterschiedlichen Skalentypen mittels Panelnormalisierung14 auf gleiches Niveau gebracht (0–1). Jede Frage wurde gesondert betrachtet, Tabelle 4 enthält die Mittelwerte der einzelnen Skalentypen vom Mittelwert der jeweiligen Fragen für alle 3 Befragungen. Die 3 Fragen zur Nutzerbewertung am Ende der Befragung wurden von dieser Analyse ausgenommen. tab04 Wenn man die Mittelwerte der einzelnen Skalentypen betrachtet, kann man keine durchgängigen Tendenzen erkennen. In der tourism-Befragung hebt sich dropdown von den anderen Skalentypen mit Tendenz zum linken Pol ab, ähnliches lässt sich in der webpage-Befragung für slider-VAS mit Tendenz zum rechten Pol feststellen. Die Ergebnisse einer MANOVA von tourism und webpage bestätigten diese Beobachtungen und zeigen deutli145
Albert Greinöcker
Tabelle 4: Mittelwerte der experimentellen Fragen für alle 3 Befragungen
button dropdown slider-VAS click-VAS radio text
tourism
webpage
snowboard
0,572 0,536 0,558 0,548 0,566 0,546
0,405 0,380 0,421 0,413 0,386 0,378
0,528 0,519 0,529 0,506 0,546 0,493
chere Tendenzen: dropdown hatte zu allen anderen Skalentypen mit Ausnahme von text in beiden Befragungen (mit Ausnahme von radio, hier wurde ein sehr deutlicher Unterschied [p < 0,001] nur in der webpage-Befragung festgestellt) signifikante Unterschiede (p < 0,05) mit Tendenz zum linken Pol (hochsignifikante Unterschiede [p < 0,01] für click-VAS und button in beiden Befragungen). Auch text hebt sich mit gleicher Tendenz von button und radio (tourism) bzw. von click-VAS und slider-VAS (webpage) ab.
7.4 Antwortverteilungen Zusätzlich zu den Mittelwertsunterschieden ist auch die Frage von Interesse, ob bestimmte Kategorien bzw. Kategorienbereiche bei bestimmten Skalentypen häufiger gewählt werden. Am auffälligsten war, dass die Kategorie „5“ bei dropdown und text überrepräsentiert war. Diese beiden Skalentypen sind die einzigen, wo ein numerisches Feedback gegeben und dadurch die Kategorie „5“ von den Befragten fälschlicherweise oft als „Mitte“ angesehen wurde. In Couper et al. (2006, 241) wird von einem ähnlichen Effekt berichtet, der dort jedoch nur aufgetreten ist, wenn man eine Nummer eingeben musste, nicht aber bei Radio-Buttons mit numerischen Beschriftungen. Beim slider-VAS geht dieser Effekt in die entgegengesetzte Richtung, hier ist die Kategorie „5“ unterrepräsentiert (siehe Abbildung 8). Bei dropdown wurde vermehrt die Kategorie „10“ gewählt (zu Lasten der Kategorie „9“), ähnlich, wenn auch schwächer, die Kategorie „1“. Die Antwortverteilungen jener Skalentypen, die mehr als 10 Kategorien umfassen (click-VAS, slider-VAS) sollen gesondert betrachtet werden. Einen bemerkenswerten Effekt zeigt die Verteilung der slider-VAS (mit 200 Skalen146
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen
punkten): Die Extremkategorien (also 1 und 200) sind stark überrepräsentiert (tourism: 4,97% bzw. 7,34%; webpage: 9,17% bzw. 2,81%; snowboard: 7,70% bzw. 9,22%; jeweils über alle Variablen). Im Bereich der Extreme findet offensichtlich keine Feinabstufung mehr statt. Ein solcher Effekt ist bei VAS bzw. Schieberegler-Skalen in Onlinebefragungen bislang nicht dokumentiert worden. Ebenfalls auffällig ist eine geringe Häufigkeit im mittleren Wertebereich des slider-VAS. Der Schieberegler musste aus der mittleren Anfangsposition bewegt werden, um einen gültigen Wert zu erzeugen. Offensichtlich wurde der Schieberegler nicht mehr zur Mittelposition zurückbewegt; es lässt sich auch erkennen, dass diese Initialbewegung eher in Leserichtung gemacht wurde. Ein ähnlicher Effekt wird auch von Couper et al. (2006) beim Vergleich von VAS mit Radio-Buttons und Texteingabefeldern berichtet, wo für VAS ein geringerer Anteil in den Mittelkategorien festgestellt wurde. Hingegen kann man bei click-VAS (20 Ausprägungen) den umgekehrten Effekt feststellen. Zwar zeigen sich auch hier an den beiden Rändern größere Häufigkeiten, aber auch eine deutliche Tendenz zur Mitte. Aufgrund der geraden Anzahl an Ausprägungen verfügt diese Skala nicht über eine Mittelkategorie, die Kategorien 10 und 11 weisen jedoch größere Häufigkeiten auf als ihre unmittelbaren Nachbarn. Bei den 10-teiligen Skalen wurde hingegen weder eine Tendenz zur Mitte noch eine (ausgeprägte) Tendenz zu den Extremen beobachtet (siehe Abbildung 8, S. 148). abb08
7.5 Nutzerbewertung Am Ende der Befragung wurde die Verständlichkeit bzw. einfache Bedienbarkeit der verwendeten Skalentypen erhoben. Die Befragten beantworteten diese Fragen mit dem ihnen am Anfang zugewiesenen Skalentyp. Auf die Frage „Wie sagt Ihnen das Design und die technische Aufbereitung dieses Fragebogens im Vergleich zu anderen Online-Fragebögen zu?“ wurden folgende semantische Differenziale zur Einschätzung vorgelegt: „eher langweilig“ (1) vs. „eher interessant“ (10) und „einfach zu bedienen“ (1) vs. „kompliziert zu bedienen“ (10). Im Fall der ersten Frage („langweilig vs. interessant“) fällt die Bewertung zu Gunsten der „nicht dem Standard entsprechenden“ Skalentypen aus. Reiht man die Mittelwerte der einzelnen Skalentypen für die webpage-Befragung absteigend15, liegen click-VAS und slider-VAS an der Spitze, gefolgt von button mit 6,40. Deutlich geringere Werte erhalten radio, text und dropdown. In der tourism-Befragung ist die Reihung ähnlich, nur dass hier button als interessantester Skalentyp eingestuft wurde (siehe Abbildung 9). In der 147
Albert Greinöcker
Abbildung 8: Verteilung der unterschiedlichen Skalentypen mit unterschiedlicher Anzahl an Skalenpunkten
148
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen
webpage-Befragung ergeben sich jeweils hochsignifikante Unterschiede (p < 0,01) zwischen den Gruppen click-VAS, slider-VAS und button vs. text und dropdown. Auch sind signifikante Unterschiede (p < 0,01) zwischen radio vs. click-VAS und radio- vs. slider-VAS zu verzeichnen.16 In den anderen Befragungen verhält es sich ähnlich, nur nicht so deutlich. Bei der zweiten Frage („einfach vs. kompliziert“) bilden die Skalentypen radio, click-VAS und button die Gruppe der als einfach zu bedienend eingestuften Kontrollelemente. Im Gegensatz dazu wurden slider-VAS und text im Vergleich als kompliziert eingestuft, dropdown rangiert im Mittelfeld. Die Unterschiede zwischen den Skalentypen in dieser Frage erreichen nur teilweise signifikantes Niveau (webpage: text vs. click-VAS und text vs. radio (je p < 0,01); tourism: radio vs. slider-VAS (p < 0,01). Ergebnisse der snowboard-Befragung werden für beide Evaluationsfragen wegen zu geringer Fallzahlen nicht berichtet. abb09 abb010 Abbildung 9: Liniendiagramm Gegenüberstellung „langweilig vs. interessant“ für alle 3 Befragungen
149
Albert Greinöcker
Abbildung 10: Liniendiagramm Gegenüberstellung „einfach vs. kompliziert“ für alle 3 Befragungen
Es ist also durchaus zu überlegen, alternative Skalentypen zu erstellen und nicht auf die in HTML integrierten Möglichkeiten zurückzugreifen, um Interesse und Aufmerksamkeit der Befragten zu erhöhen. Die slider-VAS wurde in beiden Befragungen als am schwierigsten zu bedienen eingestuft, click-VAS hingegen als einfach, die Bedienbarkeit von VAS kann also nicht allgemein beurteilt werden, sondern muss anhand der konkreten Umsetzung und Art der Bedienung betrachtet werden. Hier spiegeln sich auch die sehr unterschiedlichen Ergebnisse wider, wie sie mit der von Funke & Reips verwendeten VAS im Vergleich zu dem in Couper et al. (2006) verwendeten Schieberegler, insbesondere in Bezug auf die Abbrecherrate festgestellt wurden.
150
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen
8 Schlussfolgerungen und Ausblick Click-VAS zeigt in allen Untersuchungen auf allen Ebenen durchaus ähnliche Ergebnisse wie die beiden Button-Skalen. Daraus kann man schließen, dass die nicht vorhandenen Abstände keine Effekte auf das Befragtenverhalten haben. Daraus lässt sich auch ableiten, dass nichts gegen den Einsatz von VAS in dieser Gestaltungsform in Onlinebefragungen spricht, zumal dieser Typ in der Evaluationsfrage „interessant“ am Besten bewertet wurde. In der wichtigen Frage, ob das Antwortverhalten skalenabhängig ist, konnten keine eindeutigen (neuen) Erkenntnisse bezüglich der beiden VAS gewonnen werden. Die Antwortverteilungen zeigen gewisse Unterschiede, was den Schluss nahelegt, dass die Auswahl des Skalentyps nicht irrelevant ist. Es zeigen sich Variationen, die aber nicht durchgehend durch alle 3 Befragungen festzustellen sind. Weitere Untersuchungen erscheinen hier sinnvoll und notwendig. Insbesondere Experimente mit einem stärkeren Fokus auf VAS sind angesichts der noch inhomogenen Befunde angebracht. Zielführend wäre, VAS in unterschiedlichen Variationen mit etablierten Skalentypen (z. B. RadioButton-Skala) zu vergleichen. Da auch Onlinebefragungen sich modernen Technologien nicht verschließen sollten, sind Experimente mit diesen in der Anwendung in Befragungen notwendig. Hingegen muss die Verwendung von Java (wie z. B. hier slider-VAS) kritisch betrachtet werden, weil das korrekte Funktionieren von Java offensichtlich nicht vorausgesetzt werden kann; man sollte daher eher auf Javascript-basierte Lösungen setzen. In Couper et al. (2006, 243) wird erwähnt, dass der Einsatz von VAS sich am besten für Fragestellungen eignet, wo der Befragte auch in der Lage ist, feine Unterscheidungen zu treffen. Dies sollte bei der Auswahl des entsprechenden Skalentyps berücksichtigt werden. Gerade der inhaltliche Typ der Frage sollte bei zukünftigen Experimenten mehr in die Analyse mit einbezogen werden genauso wie eine Einschätzung, wie stark die Meinung des Befragten zum Thema der Frage ausgeprägt ist.
Software Im Rahmen der Untersuchungen ist eine Online-Befragungs-Software entstanden, die es aufgrund eines komfortablen Online-Editors ermöglicht, auch komplexe Befragungen zu erstellen. Zudem steht ein Server zur Verfügung, auf dem man kostenfrei Befragungen erstellen und durchführen kann. 151
Albert Greinöcker
Es ist also keine eigene Installation notwendig, um die vielfältigen und für die Durchführung experimenteller Fragestellungen konzipierten Funktionen zu nutzen. Die Software wird kontinuierlich weiterentwickelt und kann im jetzigen Zustand bereits auf einen beträchtlichen Funktionsumfang verweisen: So werden eine große Anzahl an Fragetypen sowie unterschiedliche Rekrutierungs-Modi unterstützt; ein komfortabler WYSIWYG-Online-Editor lässt eine einfache Erstellung und Konfiguration von Fragebögen zu. Der Fragebogen kann als XML oder PDF exportiert werden, die Daten im Dateiformat CSV17, welches von jeder gängigen Statistiksoftware unterstützt wird. Zusätzlich werden noch zahlreiche Paradaten mitprotokolliert und beim Export der Daten zur Verfügung gestellt. Durch diese Punkte unterscheidet sich die Software von bestehenden freien Lösungen. Technologisch basiert die Software auf Java (Struts18), XML wird auf allen Ebenen eingesetzt. Für die Darstellung der Fragebögen wird XSLT verwendet. Die gesamte Software ist unter der Open-Source-Lizenz GPL („General Public License“) publiziert, was sicherstellen soll, dass sie für jeden Zweck genutzt, adaptiert als auch weiterverbreitet werden darf. Weitere Informationen können Greinöcker (2008) bzw. der Webseite http://www.survey4all.org entnommen werden.
Anmerkungen 1 2
3
4 5 6 7
152
Von 2004 bis 2008 ist der prozentuelle Anteil der Haushalte mit Internetzugang in Österreich von 44,6% auf 68,9% gewachsen (Statistik Austria 2008) Hierzu z. B. Couper & Coutts 2004, 227: „[. . .] lässt sich allerdings festhalten, dass noch offen ist, welche Design-Praktiken sich von traditionellen Befragungstechniken auf das Web übertragen lassen“. Eine Auflistung der neuen Möglichkeiten, die mit Web-basierten Befragungen entstehen, findet sich in Batinic 2003, 7. Zusätzlich sei noch die Möglichkeit, Paradaten (z. B.: Messen der Ausfülldauer pro Frage) aufzuzeichnen, genannt. In eckigen Klammern [] steht die im weiteren Text verwendete Kurzbezeichnung. Cascading Style Sheets: Im Fall der Verwendung mit HTML wird u. a. mit CSS festgelegt, wie bestimmte HTML-Elemente dargestellt werden sollen. Siehe dazu VASGenerator.NET, wo man sich entsprechende VAS generieren und in den Quellcode Einsicht nehmen kann, bzw. Reips & Funke (2007b) Das ist ein in der Programmiersprache Java implementiertes Computerprogramm, welches innerhalb eines Webbrowsers ausgeführt wird. Der Vorteil besteht in den umfangreicheren Möglichkeiten im Vergleich zu reinem HTML (auch unter Einsatz von Javascript). Ein Nachteil ist die technische Voraussetzung, dass ein entsprechendes Programm („virtual machine“) auf dem Rechner installiert und korrekt konfiguriert sein muss, sowie die benötigte Zeit, das Applet herunterzuladen und zu initiali-
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen
8 9 10 11
12 13 14 15 16 17 18
sieren (was sich aber im Fall des Schiebereglers aufgrund der geringen Dateigröße in Grenzen hält). Die Verbreitung von Java-Applets ist in den letzten Jahren zurückgegangen, eine alternative Technologie, um solche Schieberegler zu erstellen, wäre Flash, das allerdings auch den Nachteil von technischen Voraussetzungen hat. Mehr Informationen zu Effekten von numerischen Werten an den Antwortvorgaben finden sich in Fuchs (2003), 30 ff. als auch in Schwarz et al. (1991). VASGenerator.net. Wenn numerische Antworten aus einem größeren Bereich gegeben werden sollen wird oft gerundet, z. B. auf ein Vielfaches von 5 (vgl. Tourangeau et al. 2000). In der Literatur finden sich unterschiedliche Vorgehensweisen, Ausreißer zu finden: (1) absolute Grenzen einführen, siehe Heerwegh & Loosveldt (2002) und Healey (2007); (2) relative Grenzen verwenden, siehe Couper et al. (2006) oder (3) die Verwendung eines Intervalls Median +/– 2 * die Standardabweichung, siehe Heerwegh (2002). Es wurde die Dauer pro Fragebatterie durch die Anzahl der Unterfragen + 1 dividiert. Ausreißer wurden mit Hilfe der Gewichte (> 0,6), die man aus der robusten Regression erhalten hat, identifiziert und eliminiert. Vstand = (Vi – Vmin)/(Vmax – Vmin) Negative Werte bedeuten eine Tendenz zum unteren Pol (z. B. im Fall der ersten Frage „langweilig“), positive zum oberen Pol („interessant“). Es wurden die Antworten auf beide Fragen jeweils paarweise mittels Varianzanalyse und Tukey’s HSD-Test verglichen. „Comma Separated Values“, auch „Character Separated Values“. http://struts.apache.org.
Literatur Batinic, B. (2003). Internetbasierte Befragungsverfahren. Österreichische Zeitschrift für Soziologie, 28, Jg. 4, 6–18. Couper, M. P., & Coutts, E. (2004). Probleme und Chancen verschiedener Arten von Online-Erhebungen. Kölner Zeitschrift für Soziologie und Sozialpsychologie, Sonderheft 44, 217–243. Couper, M. P., & Tourangeau, R., & Conrad, F., & Crawford, S. D. (2004b). What they see is what we get. Response Options for Web Surveys. Social Science Computer Review, 23, 111–127. Couper, M. P., & Tourangeau, R., & Conrad, F., & Singer, E. (2006). Evaluating the Effectiveness of Visual Analog Scales. A Web Experiment. Social Science Computer Review, 24(2), 227–245. Flynn, D., & van Schaik, P., & van Wersch, A. (2004). A Comparison of Multi-Item Likert and Visual Analogue Scales for the Assessment of Transactionally Defined Coping Function. European Journal of Psychological Assessment, 20(1), 49–58. Fuchs, M. (2003). Kognitive Prozesse und Antwortverhalten in einer Internet-Befragung. Österreichische Zeitschrift für Soziologie, 28(4), 19–45.
153
Albert Greinöcker Funke, F. (2005). Stichprobenverzerrung durch browserbedingten Dropout. Abgerufen am 22.10.2008, Website: http://www.frederikfunke.de/papers/2005_dgs.php Funke, F., & Reips, U.-D. (2006). Visual Analogue Scales in Online Surveys: Non-Linear Data Categorization by Transformation with Reduced Extremes. Abgerufen am 22.10.2008, Website: http://www.frederikfunke.de/papers/2006_gor.php Funke, F., & Reips, U.-D. (2007a). Datenerhebung im Netz: Messmethoden und Skalen. In M. Welker & O. Wenzel (Hg.), Online-Forschung 2007. Grundlagen und Fallstudien. Köln: Halem Verlag. Funke, F., & Reips, U.-D. (2007b). Improving Data Quality in Web Surveys with Visual Analogue Scales. Abgerufen am 22.10.2008, Website: http://www.frederikfunke.de/ papers/2006_gor.php Funke, F., & Reips, U.-D. (2008). Differences and Correspondences between Visual Analogue Scales, Slider Scales and Radio Button Scales in Web Surveys. Abgerufen am 22.10.2008, Website: http://www.frederikfunke.de/papers/2008_gor_a.php Gerich, J. (2007). Visual Analogue Scales for Mode-Independent Measurement in Self-Administered Questionnaires. Behavior Research Methods, 39(4), 985–992. Greinöcker, A. (2008). QSYS – Web-based Survey Software goes Open Source. Abgerufen am 22.10.2008, von Survey for all Website: http://www.survey4all.org/poster.pdf Healey, B. (2007). Drop Downs and Scroll Mice. The Effect of Response Option Format and Input Mechanism Employed on Data Quality in Web Surveys. Social Science Computer Review, 25, 111–128. Heerwegh, D. (2002, Oktober). Describing Response Behavior in Web-Surveys using Client-Side Paradata. Abgerufen am 22.10.2008, Website: http://perswww.kuleuven.be/ ~u0034437/public/Files/Describing%20response%20behavior%20in%20websurveys%20using%20client%20side%20paradata.pdf Heerwegh, D. (2003). Explaining Response Latencies and Changing Answers Using Client-Side Paradata from a Web Survey. Social Science Computer Review 21(3), 360–373. Heerwegh, D., & Loosveldt, G. (2002a). An Evaluation of the Effect of Response Formats on Data Quality in Web Surveys. Social Science Computer Review 20(4), 471–484. Lütters, H., & Westphal, D., & Heublein, F. (2007, März). SniperScale: Graphical Scaling in Data Collection and its Effect on the Response Behaviour of Participants in Online Studies. Vortrag an der General Online Research (GOR) Konferenz, Leipzig. Peytchev, A., & Couper, M. P., & McCabe, S. E. (2006). Web Survey Design. Paging Versus Scrolling. Public Opinion Quarterly 70(4), 596–607. Reips, U.-D., & Funke, F. (2007, März). VAS Generator – A Web-Based Tool for Creating Visual Analogue Scales. Abgerufen am 22.10.2008, Website: http://www.frederikfunke.de/papers/2007_gor_a.php Reips, U.-D., & Funke, F. (2005–2008). VAS Generator. Abgerufen am 28.09.2008, Website: http://VASGenerator.net
154
Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen Schwarz, N., & Knäuper, B., & Hippler, H.-J., & Noelle-Neumann, E., & Klark, L. (1991). Rating Scales. Numeric Values May Change the Meaning of Scale Labels. Public Opinion Quarterly, 55, 570–582. St. Laurent, A. M. (2004). Understanding Open Source and Free Software Licensing. Sebastopol: O’Reilly. Statistik Austria (2008). Abgerufen am 28.09.2008, Website: http://www.statistik.at/ web_de/statistiken/informationsgesellschaft/ikt-einsatz_in_haushalten. Tourangeau, R., & Rips, L. J., & Rasinski, K. (2000). The Psychology of Survey Response. New York: Cambridge University Press. Walston, J. T., & Lissitz, R. W., & Rudner, L. M. (2006). The Influence of Web-based Questionnaire Presentation Variations on Survey Cooperation and Perceptions of Survey Quality. Journal of Official Statistics 22(2), 271–291. Weichbold, M. (2005). Touchscreen-Befragungen. Neue Wege in der empirischen Sozialforschung. Frankfurt am Main: Peter Lang. Welker, M., & Werner, A., & Scholz, J. (2005). Online-Research. Markt- und Sozialforschung mit dem Internet. Heidelberg: dpunkt.
155
Jörg Blasius, Maurice Brandt
Jörg Blasius, Maurice Brandt
Repräsentativität in Online-Befragungen* Zusammenfassung Während die Stichproben der großen nationalen Face-to-face-Befragungen als repräsentativ für die gesamte Bevölkerung angesehen werden, gelten Online-Stichproben als verzerrt, insbesondere hinsichtlich Alter, Geschlecht und Bildung. Um diese Verzerrungen zu berücksichtigen, können die Stichproben gewichtet werden, um sie an die Allgemeinbevölkerung anzupassen. Bei Online-Umfragen muss dabei älteren Frauen mit niedriger Bildung ein sehr großes Gewicht zugewiesen werden, jungen Männern mit hoher Bildung ein sehr geringes. Anstatt die Daten nachträglich zu gewichten, wurde für die hier vorliegende Untersuchung in einem Online-Panel mit über 20.000 Teilnehmern eine geschichtete Zufallsstichprobe gezogen. Dabei hatten ältere Frauen mit relativ geringer Bildung eine sehr hohe Wahrscheinlichkeit in die Stichprobe zu gelangen, junge Männer mit hoher Bildung eine sehr geringe. Um einen Vergleich mit repräsentativen, face-to-face erhobenen Daten zu erhalten, wurden Fragen aus dem ALLBUS 2002 entnommen und die Ergebnisse der beiden Studien verglichen. Auf der Basis von jeweils gut 1.500 nach Alter, Geschlecht und Bildung vergleichbaren Fällen werden die Ergebnisse aus der Online-Befragung mit denen des ALLBUS verglichen.
Abstract Representativeness in Online Surveys While nationwide face-to-face conducted samples are regarded as representative for the total population, online-samples are regarded as biased, especially in terms of age, sex and education. To consider this bias, the data can be weighted in order to receive a representative sample. In case of online surveys, older women with low education receive a very high weight and young men with high education a very low one. Instead of weighting the data, for this study a stratified random sample was drawn out from over 20.000 participants of an online panel. Thereby, older women with relatively low formal education had a very high likelihood to enter the sample, young men with high education a very low one. To compare these data with representative, face-to-face conducted data, we used a set of questions from the German ALLBUS 2002. On the basis of more than 1.500 cases each that are equivalent in terms of age, sex and education, we compare the results of the two studies.
157
Jörg Blasius, Maurice Brandt
1 Einleitung Die Vor- und Nachteile von Online-Befragungen gegenüber anderen Datenerhebungsmethoden wurden bereits ausführlich dokumentiert (Dillman 2000; Fricker & Schonlau 2002); verglichen mit Face-to-face-, telefonischen und schriftlichen Befragungen sind Online-Befragungen wesentlich preisgünstiger, schneller und unabhängig von Zeit und Raum durchführbar. Der Nachteil ist die Abhängigkeit von der Verfügbarkeit eines Computers bzw. des Zugangs zum Internet. Der starke Anstieg der Anzahl der Internetanschlüsse seit Mitte der 90er Jahre führte nicht nur zur Entstehung einer neuen Forschungsdisziplin innerhalb der empirischen Sozialforschung, sondern auch die Marktforschung erkannte die Online-Erhebung als neues und preisgünstiges Datenerhebungsverfahren. Während 1998 der Anteil der Online-Interviews nur 1% betrug, wurden 2002 nach Angaben des Arbeitskreises Deutscher Markt- und Sozialforschungsinstitute (ADM) bereits 5% aller Interviews online durchgeführt; im Jahr 2003 waren es 10%, 2004 16% und seit 2005 sind es über 20% (ADM 2008). Im Jahr 2007 liegt der Anteil der Online-Interviews mit 27% sogar erstmals über dem der Face-to-face-Interviews (26%, vgl. auch ADM 2008, 12), welche in den 70er Jahren noch als „Königsweg der Marktforschung“ (Reuband & Blasius 1996, 296) beschrieben wurden. Trotz der genannten Mängel hat sich die Online-Erhebung in den Bereichen der Praxis bereits durchgesetzt, bei denen es bezüglich der Repräsentativität keine Probleme zu geben scheint, z. B. bei Befragungen unter Studierenden, Firmenkunden und Berufsgruppen wie Ärzten und Wissenschaftlern, bei denen von einer Vollversorgung mit Internetanschlüssen ausgegangen werden kann. Entsprechend der ARD/ZDF-Online-Studie waren im Frühjahr 2008 42,7 Millionen Deutsche online (van Eimeren & Frees 2006), mit weiterhin stark steigender Tendenz. Dabei ist die Verteilung keinesfalls gleichmäßig über alle Bevölkerungsgruppen; so waren im Jahr 2006 von der männlichen Wohnbevölkerung 65,8% online, von der weiblichen 49,9%. Auch nach Alter gibt es deutliche Unterschiede: in der jüngsten der betrachteten Gruppen, den 14- bis 19-Jährigen, waren 96,1% online, von den ab 60-Jährigen nur 18,7%; für die anderen Gruppen gilt, dass mit zunehmendem Alter der Anteil der Onliner abnimmt (van Eimeren & Frees 2006, 404). Des Weiteren gibt es deutliche Unterschiede in Bezug auf Bildung und Einkommen: TNSEmnid (2007, 14 f.) zufolge sind von den Abiturienten und Hochschulabsolventen 82,0% online, von den Hauptschulabsolventen lediglich 42,0%, beim Haushaltsnettoeinkommen reicht die Spanne von 37,6% (unter
1.000,–) bis 83,7% (über
3.000,–). Diese deutlichen Unterschiede spie158
Repräsentativität in Online-Befragungen
geln sich auch bei anderen Bevölkerungsgruppen wider: Während einige Gruppen nahezu vollständig an das Internet angeschlossen sind und eine Befragung von Firmenkunden (Deutskens et al. 2006), Ärzten (El Menouar & Blasius 2005), Studierenden (Kwak & Radler 2002; Kaplowitz & Hadlock & Levine 2004) sowie anderen ausgewählten Zielgruppen (z. B. Benutzer von Online-Banking, Ebay-Kunden) problemlos sein sollte (zumindest wenn Mode-Effekte nicht berücksichtigt werden), sind andere Gruppen von einer Online-Befragung nahezu ausgeschlossen, z. B. ältere Frauen mit geringer schulischer Bildung. Bei einer derart ungleichen Verteilung des Zugangs zum Internet scheint es nahezu unmöglich zu sein, repräsentative Ergebnisse für die gesamte Bevölkerung zu erhalten – diese sind aber Voraussetzung für viele Studien. Das zentrale Problem der nicht vorhandenen Repräsentativität dürfte trotz der stetig steigenden Zahlen bei den Internetnutzern auch noch einige Jahre bestehen bleiben und damit die Frage, wie mit Online-Umfragen repräsentative Ergebnisse gewonnen werden können. Eine oft verwendete Möglichkeit ist, die Daten zu gewichten, so dass sie nach soziodemografischen Merkmalen wie Alter, Geschlecht und Bildung (z. B. Faas 2003a; Faas & Schoen 2006) oder auch nach Einstellungen (z. B. Schonlau et al. 2004; Loosveldt & Sonck 2008) repräsentativ sind. Durch Auf- und Abgewichtungen nach soziodemografischen Merkmalen kann es zu Unterschieden bei den Faktoren von über 100 kommen (Vehovar & Lozar Manfreda & Batagelj 1999; Faas 2003a), die schon aus theoretischen Überlegungen nicht sinnvoll sein können – mit welcher Berechtigung sollten die Einstellungen der einen Person das hundertfache Gewicht einer anderen bekommen? Während Gewichtungen normalerweise auf bereits erhobene Daten angewendet werden, um damit vorhandene Verzerrungen auszugleichen, wollen wir die Gewichtung vorwegnehmen und aus einem Online-Panel eine disproportionale Zufallsstichprobe ziehen. Bei dem verwendeten Panel handelt es sich um einen Pool von gut 20.000 Personen aus den alten Bundesländern, die im Rahmen von Befragungen zufällig ausgewählt wurden und die sich für Online-Befragungen zur Verfügung gestellt haben. Wie vermutlich die meisten Online-Panels ist auch dieses stark verzerrt: Junge und gut gebildete Männer sind weit überdurchschnittlich repräsentiert, ältere Frauen mit geringer Schulbildung so gut wie gar nicht. Jede einfache Zufallsstichprobe aus diesem Panel muss daher ebenfalls stark verzerrt sein. Da aber das Alter, das Geschlecht und der höchste Bildungsabschluss der Panelmitglieder bekannt sind und da diese Angaben auch für die Gesamtbevölkerung erhältlich sind, kann eine Stichprobe in Abhängigkeit von der zusammengesetzten Variablen Altersgruppe × Geschlecht × Schulabschluss 159
Jörg Blasius, Maurice Brandt
gezogen werden; eine ältere Frau mit einem einfachen Schulabschluss sollte dann eine sehr hohe Auswahlwahrscheinlichkeit haben, ein jüngerer Mann mit hoher Bildung eine sehr geringe. Sofern es während der Befragung nicht zu systematischen Ausfällen kommt, ist die Stichprobe nach den genannten soziodemografischen Merkmalen repräsentativ für die alten Bundesländer. Der Vorteil dieses Verfahrens liegt darin, dass keine Gewichtungen mehr vorgenommen werden müssen oder allenfalls solche, die im Umfang denen der großen Bevölkerungsumfragen entsprechen. Um unsere Ergebnisse mit anderen repräsentativen Daten vergleichen zu können, wurden einige Fragen aus dem ALLBUS 2002 übernommen.
2 Forschungsstand Stichproben der großen nationalen Face-to-face- oder telefonischen Befragungen wie dem sozio-ökonomischen Panel (SOEP) oder dem ALLBUS werden als repräsentativ für die gesamte Bevölkerung angesehen. Demgegenüber können Online-Stichproben derzeit allenfalls für Subgruppen der Bevölkerung als repräsentativ betrachtet werden, bezogen auf die Gesamtbevölkerung sind sie insbesondere hinsichtlich Alter, Geschlecht, Bildung und Einkommen stark verzerrt. Um diese Verzerrungen zu beseitigen, können die Daten von Online-Erhebungen nachgewichtet werden. Des Weiteren kann es bei selbst-selektiven Panels zu inhaltlichen Verzerrungen der Ergebnisse kommen, da z. B. die im Internet surfende 70-jährige Frau, die Mitglied im Panel ist, vermutlich nicht repräsentativ für ihre Alters- und Geschlechtszugehörigkeit ist (Göritz & Moser 2000). Eine andere Möglichkeit, um mit Online-Umfragen repräsentative Ergebnisse zu erhalten, ist die Ausstattung eines repräsentativen Samples von Haushalten mit Internet und Computer.
2.1 Ausstattung der Haushalte mit Online-Zugang Für den Aufbau eines repräsentativen Online-Panels hat die in den USA ansässige Firma „Knowledge Networks“ etwa 7.000 zufällig ausgewählte Personen mit einem PC und Internetzugang ausgestattet, die sich bereit erklären mussten, mehrmals im Jahr an Online-Umfragen teilzunehmen. Das deutsche Pendant zu diesem Ansatz ist das Omninet-Panel des Forsa-Instituts. Für dieses Panel wurden 10.000 bundesweit repräsentative Haushalte ausgewählt und mit einer Set-Top-Box ausgestattet, die mit dem Fernseher und dem Telefon verbunden ist. 160
Repräsentativität in Online-Befragungen
Ein Vorteil dieser Methode ist, dass alle Haushalte die gleiche Technikausstattung besitzen und daher eine Anpassung der Umfrage für verschiedene Browser- und Hardwareausstattungen nicht nötig ist (Couper et al. 2004). Ein weiterer Vorteil ist, dass der Online-Fragebogen direkt auf den Fernsehbildschirm ausgegeben werden kann, wobei Graphiken, Skalen, Videos und Animationen eingebunden werden können. Diese Art der OnlineBefragung ist jedoch mit erheblichem Aufwand verbunden, und die sehr hohen Anfangsinvestitionen dürften die Kostenvorteile von Online-Umfragen (Deutskens et al. 2006) relativieren. Ein weiterer Nachteil ist, dass die Probanden durch die häufigen Umfragen professionalisiert werden und sich Paneleffekte einstellen können. Ob diese Methode eine (marktwirtschaftliche) Zukunft hat, bleibt daher abzuwarten.
2.2 Gewichtung der erhobenen Daten Die Datenerhebung über das Internet kann auf verschiedene Arten erfolgen. Zusätzlich zu Verfahren der Selbstselektion über Banner oder mit Hilfe von Pop-up-Fenstern, bei denen nicht einmal die Repräsentativität für die Grundgesamtheit der Internetnutzer garantiert ist (z. B. Faas & Schoen 2006), werden so genannte Online-Access-Panels verwendet. Hierbei handelt es sich um einen Pool von Personen oder Haushalten, die in der Regel offline, z. B. am Ende einer Face-to-face- oder einer telefonischen Befragung, zur Teilnahme an Online-Befragungen aufgefordert wurden. Aus diesen Access-Panels werden meistens einfache Zufallsstichproben in einer Größenordnung gezogen, mit der die gewünschte Fallzahl erreicht werden kann. Aufgrund der nicht repräsentativen Verteilung der Internetanschlüsse sind sowohl das gesamte Online-Panel als auch daraus zu ziehende einfache Zufallsstichproben u. a. nach Alter, Geschlecht und Bildung stark verzerrt. Um die verzerrten Stichproben an die Verteilung der Allgemeinbevölkerung anzupassen, werden oft Gewichtungen vorgenommen, meistens in Bezug auf die soziodemografischen Merkmale (z. B. Bandilla & Bosnjak & Altdorfer 2003; Faas 2003 a, b; Faas & Schoen 2006), in einigen Fällen aber auch in Bezug auf Einstellungsmerkmale und andere Indikatoren (z. B. Schonlau et al. 2004, Kutsch 2007). Werden Gewichtungen in Bezug auf die soziodemografischen Merkmale vorgenommen, so können prinzipiell zwei Methoden unterschieden werden: Zum einen die getrennte Gewichtung nach den einzelnen Merkmalen; dabei sind die Gewichtungswerte zwar relativ gering, die stichprobenbedingten Verzerrungen werden aber nur rudimentär aufgehoben. Werden z. B. die älteren Altersgruppen hochgewichtet (bei 96,1% Onlinern der Altersgruppe 14 bis 19 Jahre und 18,7% in der Altersgruppe ab 60 161
Jörg Blasius, Maurice Brandt
Jahre wäre ein Gewichtungsverhältnis von etwa 1 zu 5 notwendig), wird nicht berücksichtigt, dass bei den Älteren im Online-Panel ein wesentlich höherer Anteil an Hochschulabsolventen vorhanden ist, als es bezogen auf die Gesamtbevölkerung in dieser Altersgruppe zu erwarten wäre (Ausnahme: die Haushalte wurden mit Computer oder Set-Top-Box und Netzzugang ausgestattet, s. Abschnitt 2.1). Wird eine multiple Gewichtung vorgenommen, so gibt es bei drei Bildungsgruppen, zwei Geschlechtern und fünf Altersgruppen bereits 30 Gewichtungsfaktoren, von denen einige sehr hoch sein dürften, z. B. ältere Frauen mit geringer formaler Bildung, andere sehr niedrig (vgl. auch die Auswahlwahrscheinlichkeiten in Tabelle 3, S. 167). Wenn in einer – erwartungsgemäß – sehr schwach besetzten Zelle überhaupt eine Person steht, dann wäre diese „repräsentativ“ für die gesamte Gruppe. Vehovar et al. (1999) zufolge liegen die maximalen Gewichte in Online-Befragungen generell über 100; um sie auf einen – ihrer Meinung nach eigentlich immer noch zu hohen – maximalen Wert von 25 zu reduzieren, schlagen sie die Zusammenfassung von Kategorien vor (Vehovar & Lozar Manfreda & Batagelj 1999, 965). Ähnliche Werte berichtet Faas (2003a, 130), seine benötigten Gewichtungsfaktoren (individuelle Gewichtung) liegen zwischen 0,053 und 7,061; während eine Person ein weit unterdurchschnittliches Gewicht erhält, bekommt eine andere ein weit überdurchschnittliches. Insgesamt betrachten die hier genannten Autoren die extrem hohen Nachgewichtungen bei OnlineUmfragen eher skeptisch. Um dieses Manko zu beheben, werden seit kurzer Zeit von den Panelanbietern auch geschichtete Stichproben angeboten; diese entsprechen im Idealfall der von uns gezogenen Stichprobe. Eine Alternative zu der Gewichtung mit soziodemografischen Merkmalen ist die Gewichtung nach Einstellungsmerkmalen und anderen Items, die in der Untersuchung erhoben wurden (Schonlau et al. 2004; Lee 2006; Kutsch 2007; Loosveldt & Sonck 2008). Um dieses Verfahren anzuwenden, werden mindestens zwei Studien benötigt (z. B. eine Online- und eine Face-to-faceErhebung), bei denen die gleichen Fragen gestellt wurden. Mit Hilfe der logistischen Regression kann ein Modell geschätzt werden, mit der auf der Basis der verwendeten Angaben (Einstellungen, Werte, aber auch sozio-demografische Merkmale) die Wahrscheinlichkeit geschätzt wird, mit der eine Person online oder face-to-face befragt wurde (zum Verfahren, Duffy et al. 2005). Zwar sind bei dieser Vorgehensweise die Gewichtungsfaktoren relativ klein, jedoch sollte es eine Theorie geben, nach welchen Einstellungsmerkmalen gewichtet wird. Die bisherigen Studien, in denen mit Hilfe derartiger Variablen gewichtet wurde, konnten für die Praxis ebenso wenig überzeugende Ergebnisse aufweisen wie die Gewichtung mit soziodemografischen Merkmalen. 162
Repräsentativität in Online-Befragungen
2.3 Mode-Effekte Aus Vergleichsuntersuchungen zwischen Face-to-face-, telefonischen und schriftlichen Befragungen sind so genannte Mode-Effekte bekannt (z. B. de Leeuw 1992; Reuband & Blasius 1996), also Effekte, die durch unterschiedliche Erhebungsformen verursacht werden. Dies betrifft zum einen unterschiedliche Ausschöpfungsquoten sowohl bei einzelnen Fragen als auch bei der generellen Antwortbereitschaft unterschiedlicher Bevölkerungsgruppen. Zum anderen können sich Mode-Effekte auch auf die inhaltlichen Ergebnisse auswirken, z. B. bei sensitiven Fragen wie zum Drogenkonsum oder zu anderen abweichenden Verhaltensweisen (Reuband & Blasius 1996). Um ModeEffekte zwischen schriftlichen und Online-Befragungen zu untersuchen, hat Descombe (2006) 338 15-jährige Schüler zu ihrem Gesundheitsverhalten befragt, davon 69 per webbasierten Fragebogen im Computerlabor der Schule und 269 per schriftlicher Befragung im Klassenzimmer. Bei der zufälligen Aufteilung in die Gruppen gab es keine signifikanten Unterschiede nach Geschlecht und ethnischer Zugehörigkeit. Descombe (2006, 252) fand lediglich bei einer von 23 Fragen signifikante Unterschiede, die nicht als zufällig interpretiert werden konnten, und zwar bei der Angabe, dass mehr als 20 Zigaretten in der Woche geraucht werden: Während sich kein(e) Schüler(in) bei der webbasierten Umfrage dazu bekannte, war es bei der schriftlichen Befragung jede(r) siebte. Zu einem ähnlichen Ergebnis kommen Lozar Manfreda und Vehovar (2002) in ihrer Befragung von Bildungsinstitutionen in Slowenien. Die Autoren kontaktierten nach einem Zufallsverfahren jeweils 200 Institutionen, um ihre Fragen postalisch bzw. über das Internet zu beantworten; auch sie finden keine auffälligen Unterschiede in den Ergebnissen. Um Modeeffekte zu untersuchen hätten wir zwei Stichproben aus dem Access-Panel ziehen müssen, von denen die eine online, die andere face-to-face oder schriftlich zu befragen wäre. Da keine starken Mode-Effekte zu erwarten sind, haben wir darauf verzichtet.
3 Empirische Untersuchung und Vorgehensweise Im Rahmen dieser Untersuchung soll geprüft werden, ob es möglich ist, eine repräsentative Stichprobe aus einem Online-Panel zu ziehen. Der Begriff „repräsentative Stichprobe“ ist hier nicht im Sinn der streng sozialwissenschaftlichen Methode gemeint, wobei jedes Element der Grundgesamtheit, zumindest potentiell, die Möglichkeit haben muss, in die Stichprobe einzu163
Jörg Blasius, Maurice Brandt
gehen. Dies ist von vornherein ausgeschlossen, da Personen ohne Internetzugang nicht in die Stichprobe gelangen können. Wenn nicht ausdrücklich erwähnt, wird „repräsentativ“ in dieser Studie verwendet, um die strukturelle Zusammensetzung der Stichprobe nach Altersgruppe × Geschlecht × Schulabschluss in Bezug auf die Grundgesamtheit (berechnet aus dem Mikrozensus, deutsche Wohnbevölkerung) zu bezeichnen. Die Bestimmung der nach Altersgruppen, Bildung und Geschlecht repräsentativen Anteile der Bevölkerung erfolgt auf der Basis des Mikrozensus. Da sich die Einstellungen in den neuen und alten Bundesländern zum Teil sehr stark unterscheiden und da diese Effekte nicht berücksichtigt werden sollen, beschränken wir uns auf die alten Bundesländer, und da in dem Online-Panel kaum jemand älter als 65 Jahre ist, beschränken wir uns auf die Gruppe der 18- bis 64-Jährigen. Des Weiteren begrenzen wir die Anzahl der Merkmalskombinationen für die Stichprobenziehung, da mit zunehmender Zellenanzahl die Wahrscheinlichkeit sinkt, die Zellen angemessen besetzen zu können. Als Vergleichsstichprobe wählen wir die Allgemeine Bevölkerungsumfrage Sozialwissenschaften (ALLBUS) 2002, die als eine der zentralen Studien in Deutschland angesehen werden kann. Fragen aus dieser Studie sollen in der geplanten Online-Erhebung repliziert werden, um die Ergebnisse der beiden Erhebungen vergleichen zu können. Die späteren Berechnungen erfolgen ausschließlich mit den ungewichteten Daten. Bei einem erwarteten Nettostichprobenumfang von etwa 1.600 Befragten (Anzahl der ALLBUS-Teilnehmer in den alten Bundesländern in der genannten Altersgruppe) können bei einer durchschnittlichen Zellenbesetzung von gut 30 Befragten etwa 50 Zellen berücksichtigt werden. Damit sollte es pro Zelle ausreichend Variation bei den Einstellungsmerkmalen geben, um keine zufälligen Ergebnisse zu produzieren. Das Online-Panel, aus welchem im Folgenden die Stichprobe gezogen wird, enthielt am Stichtag der Ziehung gut 20.000 Personen aus den alten Bundesländern, von denen das Alter, das Geschlecht und der Schulabschluss bekannt waren. Um die Standards von ADM und ASI (Arbeitsgemeinschaft sozialwissenschaftlicher Institute) einzuhalten, führt der Panel-Anbieter zweimal pro Jahr „. . . eine große Internetbefragung unter ca. 40.000 Teilnehmern durch. Die Befragten werden als n-te Besucher auf verschiedenen Seiten im Internet (diese Seiten unterscheiden sich stark im Zielpublikum) durch aktive Pop-up-Ansprache zur Internetbefragung gewonnen. Bei Interesse an weiteren Befragungen werden die Teilnehmer zunächst legitimiert und danach per Email zur Registrierung ins Panel eingeladen. In der Phase der Legitimation werden die Postadressen auf ihre Existenz überprüft. . . . Innerhalb des Panel prüft eine Software die Einmaligkeit der Panelisten anhand 164
Repräsentativität in Online-Befragungen
der Namen und verifizierten Adressen.“ (von Heesen & Hellwig). Wie vermutlich in allen derartigen Online-Panels gibt es auch in diesem eine starke Überrepräsentation von Männern, jungen Personen und Bessergebildeten. In Tabelle 1 sind die Randsummen für diese Merkmale wiedergegeben, als Vergleichswerte sind die des Mikrozensus aufgeführt. Dabei wird u. a. ersichtlich, dass der Anteil der Männer in den alten Bundesländern in der Altersgruppe 18- bis 64 Jahre bei 50,5% liegt, im Panel sind es jedoch 58,2%. Tabelle 1: Soziodemografische Verteilung im Online-Panel und Mikrozensus 2002, alte Bundesländer 18 bis 64 Jahre, Angaben in Prozent
Geschlecht Männlich Weiblich N
Schulkategorie Kein/Haupt-/Volksschule Realschule/Polytechnische Fach-/Hochschulreife/Abitur N
Altersgruppen 18 bis 24 Jahre 25 bis 29 Jahre 30 bis 34 Jahre 35 bis 39 Jahre 40 bis 44 Jahre 45 bis 49 Jahre 50 bis 54 Jahre 55 bis 59 Jahre 60 bis 64 Jahre N
Online-Panel
Mikrozensus
58,2 41,8
50,5 49,5
21.112 16,2 36,6 47,1
48,0 26,3 25,7
20.921 15,0 18,3 16,6 17,6 12,1 8,7 5,8 4,1 1,7
10,7 8,8 12,1 13,8 12,7 11,3 10,5 8,9 11,1
20.413
Da die Quotierung simultan für alle drei Merkmale erfolgen soll, wird im Folgenden die drei-dimensionale Kontingenztabelle aus Alter (9 Kategorien), Geschlecht und allgemeiner Schulbildung (3 Kategorien) gebildet, diese Tabelle 165
Jörg Blasius, Maurice Brandt
hat insgesamt 54 Zellen (Tabelle 2). Aus Tabelle 2 wird u. a. ersichtlich, dass nur wenige ältere Frauen mit geringer Schulbildung im Online-Panel vertreten sind, hingegen sehr viele jüngere Personen (Männer und Frauen) mit hoher Schulbildung. Wird aus diesem Datensatz eine einfache Zufallsstichprobe gezogen, so kann sie nur stark verzerrt sein, Frauen ab 60 Jahre werden so gut wie nicht vertreten sein (und müssten für die Analyse ein entsprechend hohes Gewicht erhalten), Männer zwischen 25 und 40 mit hoher Bildung sehr oft (sie würden deshalb ein sehr niedriges Gewicht erhalten). Tabelle 2: Darstellung der Anzahl der Personen im Online-Panel nach Alter, Geschlecht und Bildung (N = 20.230) Bildung/Alter 18–24 25–29 30–34 35–39 40–44 45–49 50–54 55–59 60–64 Gesamt
Männlich Niedrig1 Mittel2 Hoch3
Weiblich Niedrig1 Mittel2 Hoch3
197 124 188 322 315 253 230 182 80
564 496 552 697 608 410 251 195 106
645 1.216 1.058 1.018 705 517 388 259 114
224 193 203 217 116 109 71 51 8
678 672 650 695 418 270 123 89 23
716 1.012 704 620 301 199 113 49 16
1.891
3.879
5.920
1.192
3.618
3.730
1 Kein Schulabschluss/Haupt-/Volksschulabschluss 2 Realschulabschluss/Polytechnische Oberschule 3 Fachhochschule/Hochschulreife/Abitur
Aus Tabelle 2 soll eine Zufallsstichprobe gezogen werden, in der jede Zelle entsprechend ihres Anteils an der Gesamtbevölkerung vertreten ist. Auf der Basis des Mikrozensus werden die Anteile für jede der 54 Zellen bestimmt, um damit eine nach den drei ausgewählten soziodemografischen Merkmalen repräsentative Stichprobe zu erhalten. Sollen insgesamt etwa 1.600 Panelteilnehmer befragt werden und ist aus den bisherigen Erfahrungen mit dem verwendeten Panel mit einer Ausschöpfungsquote von knapp 60% zu rechnen, so müssen etwa 2.800 Personen zur Teilnahme aufgefordert werden.1 Aus dem Verhältnis von vorhandenen Panel-Teilnehmern in den einzelnen Zellen und den benötigten Zielpersonen werden die Wahrschein166
Repräsentativität in Online-Befragungen
lichkeiten bestimmt, mit der die Personen aus den einzelnen Zellen gezogen werden müssen. Für die 18- bis 24-jährigen Männer mit hoher Bildung ergibt sich eine Wahrscheinlichkeit von knapp 7% Mitglied der Stichprobe zu werden, für die 60- bis 64-jährigen Frauen mit mittlerer Bildung von über 130% (Tabelle 3). tab03 Tabelle 3: Auswahlwahrscheinlichkeit der einzelnen Person aus der jeweiligen Zelle für eine Stichprobe aus der Auswahlgesamtheit (N = 2.828 aus 20.230), Angaben in Prozent Männlich Bildung/Alter
Niedrig1 Mittel2
Weiblich Hoch3
Niedrig1 Mittel2
Hoch3
18–24 25–29 30–34 35–39 40–44 45–49 50–54 55–59 60–64
30,9 36,6 36,6 26,9 27,9 33,1 38,0 43,7 135,8
8,5 6,8 8,2 7,2 6,9 7,9 10,3 11,1 21,7
6,9 3,8 5,6 6,2 7,4 8,5 9,0 10,4 22,1
19,1 19,8 26,9 31,7 64,2 75,5 130,9 158,3 1.437,3
8,1 6,1 9,6 9,8 14,0 16,2 27,3 32,3 130,4
7,3 4,5 7,4 8,9 14,4 16,4 19,3 30,8 78,9
Gesamt
37,5
8,3
6,7
54,5
11,6
8,8
1 Kein Schulabschluss/Haupt-/Volksschulabschluss 2 Realschulabschluss/Polytechnische Oberschule 3 Fachhochschule/Hochschulreife/Abitur
Anhand von Tabelle 3 wird ersichtlich, dass es bei den Frauen ab 50 Jahren mit niedriger Schulbildung sowie bei den Frauen zwischen 60 und 64 Jahren mit mittlerer Schulbildung und bei den Männern in der gleichen Altersgruppe mit niedriger Schulbildung nicht einmal ausreichend Personen gibt, um die jeweils benötigte Bruttostichprobe zu erhalten. Aus diesem Grund werden die späteren Auswertungen zum großen Teil auf die Altersgruppe der 18- bis 49-Jährigen beschränkt. Wird eine geschichtete Stichprobe nach diesen drei Merkmalen (und in diesen Kategorisierungen) gezogen, so kann auch diese allenfalls für die Gruppe der 18- bis 49-Jährigen repräsentativ sein. Im Idealfall – es werden u. a. 3 von 4 Frauen in der Altersgruppe der 45–49-Jährigen mit niedriger Schulbildung zur Teilnahme aufgefordert – wäre diese Stichprobe mit der von uns gezogenen identisch. 167
Jörg Blasius, Maurice Brandt
Um die Online-Befragung mit der Offline-Befragung vergleichen zu können, müssen die Fragen identisch sein. Dafür wurden aus dem ALLBUS 2002, welcher als CAPI-Umfrage zwischen Februar und August 2002 im Feld war (Blohm et al. 2003), neun Fragen zur Einstellung zur „Gesellschaft“ übernommen. Des Weiteren wurden die demografischen Merkmale Haushaltsgröße, Familienstand, Religionszugehörigkeit, Schichteinstufung, Berufstätigkeit und Einkommen berücksichtigt, hinzu kamen die Links-rechtsEinstufung des Befragten und die Sonntagsfrage. Bei der visuellen Gestaltung des Fragebogens wurden die Regeln von Dillman (2000) beachtet, so dass mit möglichst wenigen Abbrüchen zu rechnen war.
5 Ergebnisse Von den 2.828 Personen, die theoretisch angeschrieben werden müssten, konnten nur 2.638 aus dem Panel gezogen werden, da in fünf Zellen die Bruttostichprobe geringer war als die Anzahl der zu Befragenden. Die insgesamt 190 Personen, die zwar gezogen werden müssten, im Panel aber nicht vorhanden sind, wurden aus softwaretechnischen Gründen proportional den anderen Zellen zugeordnet. Damit kann die Stichprobe – theoretisch gesehen – nur noch für die bis 49-Jährigen repräsentativ sein. Von den 2.828 angeschriebenen Personen haben insgesamt 1.863 (= 65,9%) an der Befragung teilgenommen; diese fand im Juli 2004 statt. Die Stichprobenausschöpfung schwankt in den Randsummen zwischen 57,6% (Frauen mit niedriger Bildung) und 72,2% (Frauen mit hoher Bildung); bezogen auf die Männer in den gleichen Bildungsgruppen sowie auf das Alter sind die Unterschiede geringer. Insgesamt ist die Ausschöpfungsquote bei den Männern und insbesondere bei den Frauen mit niedriger Bildung relativ niedrig; d. h., diese Personengruppen sind nicht nur im Panel deutlich unterrepräsentiert, sondern sie verweigern auch noch überdurchschnittlich oft. Ein derartiger Bias ist aber auch aus anderen Untersuchungen mit anderen Erhebungsmethoden bekannt.
5.1 Soziodemografische Merkmale Im ersten Analyseschritt werden die soziodemografischen Angaben des Mikrozensus mit den Daten des ALLBUS 2002 und jenen der geschichteten Stichprobe aus dem Online-Panel verglichen. In Tabelle 4 sind die Merk168
Repräsentativität in Online-Befragungen
Tabelle 4: Soziodemographie von Mikrozensus, ALLBUS 2002 und geschichteter Stichprobe des Online-Panels im Vergleich, Angaben in Prozent 18 bis 64 Jahre
Geschlecht Männlich Weiblich
Mikrozensus
ALLBUS
Online
Mikrozensus
ALLBUS
Online
50,5 49,5
49,5 50,5
53,9 46,1
50,6 49,4
50,9 49,1
51,8 48,2
1.5811
1.8631
1.1154
1.3964
48,0
36,6
31,7
40,4
28,2
28,5
26,3
29,0
30,5
29,6
32,0
30,5
25,7
34,4
37,9
30,0
39,8
41,0
1.5462
1.7782
1.0835
1.3445
13,0 8,7 11,1 15,6 11,8 10,2 10,5 10,5 8,5
10,5 10,7 13,7 14,8 13,7 11,5 10,2 8,3 6,6
18,5 12,4 15,7 22,2 16,8 14,5
14,0 14,3 18,3 19,8 18,3 15,3
1.5813
1.863
N
Schulkategorie Keine/Haupt-/ Volksschule Realschule/ Polytechnische Fach-/Hochschulreife/Abitur N
Altersgruppen 18 bis 24 Jahre 25 bis 29 Jahre 30 bis 34 Jahre 35 bis 39 Jahre 40 bis 44 Jahre 45 bis 49 Jahre 50 bis 54 Jahre 55 bis 59 Jahre 60 bis 64 Jahre N
18 bis 49 Jahre
10,7 8,8 12,1 13,8 12,7 11,3 10,5 8,9 11,1
15,4 12,7 17,4 19,9 18,2 16,2
3
1.115
6
1.396
6
1 χ² = 6,9 mit df = 1; p < 0,01; Cramers V = 0,05 2 χ² = 9,3 mit df = 2; p < 0,05; Cramers V = 0,05 3 χ² = 25,8 mit df = 8; p < 0,001; Cramers V = 0,09 4 χ² = 0,2 mit df = 1; n. s. 5 χ² = 0,7 mit df = 2; n. s. 6 χ² = 14,9 mit df = 5; p < 0,05; Cramers V = 0,08
male Alter, Geschlecht und Bildung für die drei Datenquellen wiedergegeben; der Vergleich basiert sowohl auf der Gruppe der 18- bis 64-Jährigen als auch auf jener der 18- bis 49-Jährigen. Es sei angemerkt, dass die Angaben 169
Jörg Blasius, Maurice Brandt
für die soziodemografischen Merkmale aus dem Panel nicht exakt mit denen aus der durchgeführten Befragung übereinstimmen2; als Basis für die nachfolgenden Tabellen wurden ausschließlich die Angaben aus der Befragung gewählt, das Vorwissen aus den Panelinformationen wird nicht weiter verwendet. Dies gilt auch dann, wenn der/die Befragte in der Befragung bei einer Frage keine Angaben gemacht hat; so wurde die Frage nach dem höchsten Schulabschluss nur von 1.778 der 1.863 Befragten beantwortet, die verbleibenden 4,6% werden als „fehlend“ eingestuft. tab04 Auf der Basis des Mikrozensus gibt es in den alten Bundesländern bei den 18- bis 64-Jährigen 50,5% Männer und 49,5% Frauen, beim ALLBUS sind es 49,5% Männer und 50,5% Frauen und in der Online-Stichprobe sind es 53,9% Männer und 46,1% Frauen. Die Abweichungen zwischen den ALLBUS-Daten und jenen der Online-Befragung sind zwar relativ schwach, aber statistisch signifikant (χ2 = 6,9 mit df = 1; p < 0,01, Cramers V (CV) = 0,05); diese Abweichungen resultieren aus der nicht-repräsentativen Besetzung der 50–64-jährigen Frauen. Werden nur die Daten für die 18- bis 49-Jährigen verglichen, so sind die Unterschiede nicht signifikant (χ2 = 0,2 mit df = 1), die Abweichungen vom Mikrozensus sind für beide Befragungen marginal. Bei den Bildungsabschlüssen gibt es ebenfalls keine Unterschiede zwischen ALLBUS und Online-Daten in der Gruppe der bis 49-Jährigen (χ2 = 0,7 mit df = 2), aber bei beiden Befragungen sind die Hauptschüler – erwartungsgemäß – unterrepräsentiert. Bezogen auf das Alter unterscheiden sich bei den 18- bis 49-Jährigen ALLBUS-, Online- und Mikrozensus-Daten nur marginal, bei den 60- bis 64-Jährigen sind die Online-Befragten erwartungsgemäß unterrepräsentiert. Damit ist gezeigt, dass die Online-Stichprobe in der Altersgruppe der 18–49-Jährigen zumindest auf der univariaten Ebene der soziodemografischen Merkmale eine ähnliche Verteilung wie der ALLBUS hat.
5.2 Merkmale der Personen Zusätzlich zu dem Geschlecht, dem Bildungsabschluss und dem Alter wurden weitere soziodemografische Merkmale abgefragt; wir betrachten im Folgenden die Anzahl der Personen im Haushalt, den Familienstand, die Konfessionszugehörigkeit und die Kirchgangshäufigkeit. Diese Merkmale sind für beide Datensätze in Tabelle 5 wiedergegeben. Bei der Anzahl der Haushaltspersonen besteht ein hochsignifikanter Unterschied (χ2 = 34,1 mit df = 4; p < 0,001; CV = 0,12), wobei Ein- und Zwei-Personen-Haushalte in 170
Repräsentativität in Online-Befragungen
der Online-Stichprobe überrepräsentiert sind, Haushalte mit vier und mehr Personen sind unterrepräsentiert. Die durchschnittliche Haushaltsgröße liegt beim Mikrozensus und beim ALLBUS in dieser Altersgruppe bei 3 Personen, in der Online-Stichprobe bei 2,7 Personen; insgesamt liegen die Werte des ALLBUS deutlich dichter an denen des Mikrozensus als die der Online-Befragung. tab05 Tabelle 5: Prozentwertvergleich und ²-Test für die Strukturvariablen, Angaben in Prozent ALLBUS
Online
Insgesamt
Mikrozensus
Haushaltspersonen1 Lebe allein 2 Personen 3 Personen 4 Personen 5 Personen und mehr
16,6 22,2 22,2 25,5 13,5
19,9 29,0 22,1 19,7 9,2
18,4 26,0 22,2 22,3 11,1
16,4 21,9 23.8 26,0 11,9
Anzahl
1.115
1.384
2.499
Familienstand2 Verheiratet und leben mit Ehepartner zusammen Verheiratet und leben getrennt Verwitwet Geschieden Ledig
51,3 2,2 0,6 6,6 39,2
43,1 4,3 0,5 9,3 42,8
46,8 3,4 0,6 8,1 41,2
Anzahl
1.114
1.384
2.498
35,3 1,5 38,6
30,9 2,6 31,7
32,8 2,1 34,8
18 bis 49 Jahre
Konfession3 Evangelische Kirche Evangelische Freikirche Römisch-katholische Kirche Andere christliche Religionsgemeinschaft Andere nicht-christliche Religionsgemeinschaft Keine Religionsgemeinschaft
2,2
1,7
1,9
4,7 17,7
1,6 31,5
3,0 25,4
Anzahl
1.108
1.383
2.491
52,1 2,3 0,6 5,8 39,2
171
Jörg Blasius, Maurice Brandt
Kirchgangshäufigkeit4 Nie Seltener Mehrmals im Jahr Ein- bis dreimal im Monat Einmal in der Woche Mehr als einmal in der Woche
28,3 34,9 19,4 9,0 6,2 2,2
35,7 45,1 13,4 3,0 2,1 0,7
32,4 40,5 16,1 5,6 3,9 1,4
Anzahl
1.113
1.383
2.496
1 χ² = 2 χ² = 3 χ² = 4 χ² =
34,1 mit 24,5 mit 82,5 mit 117,6 mit
df df df df
= = = =
4; 4; 5; 5;
p< p< p< p<
0,001; 0,001; 0,001; 0,001;
Cramers Cramers Cramers Cramers
V= V= V= V=
0,12 0,10 0,18 0,22
Die Unterschiede im Familienstand zwischen ALLBUS und der geschichteten Stichprobe im Online-Panel sind ebenfalls hochsignifikant. In der Stichprobe der Online-Befragung sind relativ wenige Verheiratete, die mit ihrem Ehepartner zusammen leben, dafür relativ viele Geschiedene und Ledige. Auch bezogen auf den Familienstand sind die Abweichungen von den Werten des Mikrozensus wesentlich geringer als die der Online-Befragung. Bei der Konfession sind die Unterschiede zwischen ALLBUS und Online hochsignifikant, hier sind die Konfessionslosen in der Online-Stichprobe deutlich überrepräsentiert. Noch etwas deutlichere Unterschiede gibt es bei der Kirchgangshäufigkeit, nur etwa 6% der Online-Befragten gehen mindestens einmal pro Monat in die Kirche, aber über 17% der ALLBUS-Teilnehmer; für diese beiden Variablen gibt es keine Vergleichsdaten beim Mikrozensus. Obwohl Alter, Geschlecht und Bildung in beiden Umfragen ähnlich verteilt sind, unterscheiden sich die Befragten des Online-Panels von denen des ALLBUS relativ deutlich bezüglich der Anzahl der Personen im Haushalt, des Familienstandes, der Konfessionszugehörigkeit und der Kirchgangshäufigkeit. Diese Unterschiede sind ein erster Beleg dafür, dass die Repräsentativität in den zentralen soziodemografischen Merkmalen nicht ausreichend ist, um von einer Repräsentativität der Gesamtbevölkerung zu sprechen.
5.3 Einstellungen zur Gesellschaft Für den Vergleich von Einstellungen in den beiden Umfragen wird das Fragenmodul „Gesellschaft“ verwendet, welches insgesamt neun Items enthält. Gefragt wurde, wie gerne eine Person in einer bestimmten Gesellschaft leben würde, z. B.: „Wie gerne möchten Sie in einer Gesellschaft leben, die 172
Repräsentativität in Online-Befragungen
Wert darauf legt, dass die Menschen Fleiß und Leistung zeigen?“ Vorgegeben wurden 10-Punkte-Skalen von 1 (= überhaupt nicht gerne) bis 10 (= sehr gerne). In Tabelle 6 sind für die beiden Stichproben die Mittelwerte der einzelnen Variablen zum Thema „Gesellschaft“ und die zentralen Koeffizienten der ANOVA-Statistik wiedergeben. Während in beiden Stichproben allgemeine gesellschaftliche Werte wie „Fleiß und Leistung“, „Verantwortung“ und „Konformität“ als gleich wichtig angesehen werden, gibt es deutliche Unterschiede bei den Eigenschaften „Wohlstand“, „Selbstverwirklichung“ und insbesondere bei „politische Selbstbeteiligung“; diese drei Eigenschaften wurden von den Online-Befragten als wesentlich wichtiger angesehen als von den Befragten des ALLBUS – denen ist dafür mit der Religiosität ein eher konservativer Wert wichtiger. Da sich die Stichproben nicht bezüglich des Alters und der Bildung unterscheiden, können die zum Teil deutlichen Unterschiede nur mit unterschiedlichen Werten erklärt werden, die bei den Befragten der beiden Stichproben überdurchschnittlich oft zu finden sind. Dies ist ein wichtiger Hinweis darauf, dass die Teilnehmer des Online-Panels auch bei Kontrolle der wichtigsten soziodemografischen Merkmale nicht in allen Bereichen die Gesellschaft repräsentieren. tab06 Tabelle 6: Mittelwertvergleich der Einstellungsvariablen Gesellschaft der 18- bis 49-Jährigen (N = 1.114 [ALLBUS 2002], N = 1.390 [Online-Panel]) 18 bis 49 Jahre Fleiß und Leistung Verantwortung Konformität Selbstbewusst und kritisch Laissez-Faire Wohlstand Politische Selbstbeteiligung Selbstverwirklichung Religiosität
ALLBUS
Online
F
sig
η
7,06 8,37 8,05 8,00 3,87 7,89 6,21 7,50 4,57
7,16 8,47 8,07 8,09 4,18 8,52 7,21 7,93 3,81
1,37 2,10 0,16 1,48 8,08 83,94 136,10 33,45 56,74
n. s. n. s. n. s. n. s. p < 0,01 p < 0,001 p < 0,001 p < 0,001 p < 0,001
0,06 0,18 0,23 0,11 0,15
Um das Muster in den Einstellungen näher zu untersuchen, wurde für beide Umfragen eine Hauptkomponentenanalyse über die neun Einstellungsfragen gerechnet (Tabelle 7); dabei wurden Faktorwerte über 0,5 zur besseren Kenntlichkeit unterstrichen. Die durch die ersten beiden Faktoren erklärte Varianz ist ebenso wie die Faktorstruktur in beiden Umfragen nahezu identisch. In bei173
Jörg Blasius, Maurice Brandt
den Datensätzen ist der erste Faktor ein „Generalfaktor“, alle Elemente laden positiv auf diesem, wenn auch die Religiosität allenfalls tendenziell dazu zu zählen ist. Einen tendenziellen Unterschied zwischen ALLBUS und OnlineBefragung gibt es bezüglich der „Verantwortung“, diese Variable trägt nur beim ALLBUS signifikant zur Erklärung des ersten Faktors bei. Bezogen auf den zweiten Faktor fällt insbesondere die „Religiosität“ auf – beim ALLBUS bildet diese Variable zusammen mit „Fleiß und Leistung“ sowie „Verantwortung“ den Gegensatz zu „Laissez-faire“, bei der Online-Befragung ist sie nur marginal mit dieser Dimension korreliert. Damit hat die Religiosität für die Befragten der Online-Studie nicht nur eine andere Wertigkeit, sie hat auch eine etwas andere Bedeutung als für die Befragten des ALLBUS. Tabelle 7: Hauptkomponentenanalyse der Einstellungsvariablen zur Gesellschaft aller 18- bis 49-Jährigen von ALLBUS 2002 und der Online-Befragung im Vergleich ALLBUS Faktor 1 Faktor 2
Online-Panel Faktor 1 Faktor 2
Fleiß und Leistung Verantwortung Konformität Selbstbewusst und kritisch Laissez-Faire Wohlstand Politische Selbstbeteiligung Selbstverwirklichung Religiosität
0,26 0,60 0,41 0,72 0,31 0,53 0,62 0,76 0,03
0,66 0,38 0,67 0,12 –0,53 0,18 0,05 –0,20 0,54
0,15 0,38 0,27 0,66 0,41 0,55 0,63 0,76 0,06
0,68 0,54 0,73 0,32 –0,60 0,20 0,21 –0,06 0,20
Erklärte Varianz
31%
15%
30%
15%
N = 1.102 (ALLBUS 2002), N = 1.386 (Online-Panel)
6 Zusammenfassung und Diskussion Mit dem hier vorgestellten Erhebungsdesign war es möglich, für die Gruppe der 18- bis 49-Jährigen bezüglich der Merkmale Alter, Geschlecht und Bildung eine für Deutschland repräsentative Stichprobe zu ziehen. Mit der rapiden Zunahme des Internetzugangs und dem Akkumulieren von Adres174
Repräsentativität in Online-Befragungen
sen durch die Access-Panel-Anbieter sollte es in naher Zukunft gelingen, in den Online-Panels so viele Befragte zu haben, dass auch Gruppen wie jene der 60- bis 64-jährigen Frauen mit niedrigerer Bildung so oft vertreten sind, dass zumindest die benötigte Bruttostichprobe erreicht wird. Aber auch mit diesen Fortschritt werden ältere Frauen mit niedriger Bildung noch einige weitere Jahre unterrepräsentiert sein – es sei denn, die Mitglieder dieser besonders benötigten Bevölkerungsgruppe nehmen an jeder Befragung ihres Panels teil. Dass unter der Bedingung der Repräsentativität nach Altersgruppe × Geschlecht × Schulabschluss auch die Verzerrungen bezüglich des Familienstandes und der Haushaltsgröße egalisiert werden, kann bezweifelt werden. Bezogen auf die Konfessionszugehörigkeit wurde für die 18- bis 49-Jährigen gezeigt, dass überdurchschnittlich viele Personen aus dem Online-Panel keiner Religionsgemeinschaft angehören – und ebenso besuchen die Befragten aus der Online-Studie wesentlich seltener die Kirche als die Teilnehmer des ALLBUS. Des Weiteren unterscheiden sich die Antworten im Niveau, wenn es sich um Fragen politischer Selbstbeteiligung, wirtschaftlicher Sicherheit oder der Religiosität handelt. Dies ist ein Beleg dafür, dass es zusätzlich zu den soziodemografischen Merkmalen Alter, Bildung und Geschlecht andere Indikatoren gibt, hinsichtlich derer sich Onliner und Offliner unterscheiden. Dies bestätigt die Ergebnisse von Couper u. a. (2007), die unter Konstanthaltung der sozioökonomischen Merkmale Einstellungsunterschiede zwischen Onlinern und Offlinern feststellten. Im Rahmen dieser Studie kann zwar nicht zweifelsfrei gesagt werden, ob es sich hierbei um einen Effekt des Mediums handelt oder ob sich Onliner und Offliner hinsichtlich ihrer Einstellungen unterscheiden, aber aufgrund der relativ deutlichen Unterschiede kann angenommen werden, dass jene Personen, die sich als Befragte bei einem Online-Panel zur Verfügung stellen, relativ selten religiös, dafür aber relativ oft politisch motiviert sind. Ob und inwieweit repräsentative Befragungen im streng sozialwissenschaftlichen Sinn mit Hilfe eines Online-Panels in Zukunft möglich sind, hängt nicht nur von der Auswahl der Befragten, sondern auch von den Themen ab, zu denen sie befragt werden. Das Angebot von geschichteten Stichproben nach sozio-demografischen Merkmalen ist zwar eine notwendige Bedingung, um eine echte Repräsentativität zu erreichen, aber noch lange keine hinreichende. Die Mitglieder des Online-Panels, auf die wir im Rahmen dieser Studie zugreifen konnten, unterscheiden sich auch nach Kontrolle von Alter, Geschlecht und Bildung hinsichtlich ihrer religiösen und politischen Werte sowie hinsichtlich der Haushaltsgröße und des Familienstandes von der Gesamtbevölkerung. 175
Jörg Blasius, Maurice Brandt
Anmerkungen * Wir bedanken uns bei der Firma Speedfacts für die Bereitstellung ihres Online-Panels. 1 Um mit „ganzen“ Personen zu arbeiten, nur diese können aus dem Panel gezogen werden, wurden alle Werte aufgerundet. 2 Die Diskrepanzen können zum einen durch Veränderungen in den Zuständen zwischen Paneleintritt und Befragung (z. B. beim Bildungsabschluss) erklärt werden, zum anderen gibt es wie bei jeder schriftlichen Befragung keine Kontrolle darüber, welches der Haushaltsmitglieder den Fragebogen ausgefüllt hat. Da die Abweichungen nur relativ wenige Fälle betreffen, wirken sie sich nicht auf die Ergebnisse aus.
Literatur ADM (2008). Jahresbericht 2007. Abgerufen am 03.10.2008, Website: http://www.admev.de/pdf/Jahresbericht_07.pdf Bandilla, W., & Bosnjak, M., & Altdorfer, P. (2003). Survey administration Effects? A comparison of web-based and traditional written self-administered surveys using the ISSP environment module. Social Science Computer Review, 21, 235–243. Blohm, M., & Harkness, J., & Klein, S., & Scholz E. (2003). Konzeption und Durchführung der „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften“ (ALLBUS) 2002. ZUMA-Methodenbericht 2003/12. Mannheim. Couper, M. P., & Tourangeao, R, & Kenyon, K. (2004). Picture this! Exploring visual effects in web surveys. Public Opinion Quarterly, 68, 255–266. Couper, M. P., & Kapteyn, A., & Schonlau, M., & Winter, J. (2007). Noncoverage and nonresponse in an internet survey. Social Science Research, 36, 131–148. De Leuuw, E. (1992). Data quality in mail, telephone and face-to-face surveys. Amsterdam: TT-publ. Descombe, M. (2006). Web-based questionnaires and the mode effect. An evaluation based on completion rates and data contents of near-identical questionnaires delivered in different modes. Social Science Computer Review, 24, 246–254. Deutskens, E., & de Jong, Ad, & de Ruyter, K., & Wetzels, M. (2006). Comparing the generalizability of online and mail surveys in cross-national service quality research. Marketing Letters, 17, 119–136. Dillman, D. A. (2000). Mail and Internet surveys. The tailored design method. New York: Wiley. Duffy, B., & Smith, K., & Terhanian, G., & Bremer, J. (2005). Comparing data from online and face-to-face surveys. International Journal of Market Research, 47, 615–639. El-Menouar, Y., & Blasius, J. (2005). Abbrüche bei Online-Befragungen. Ergebnisse einer Befragung von Medizinern. ZA-Information, 56, 70–92. Faas, T. (2003a). Umfragen im Umfeld der Bundestagswahl 2002. Offline und Online im Vergleich. ZA-Information, 52, 120–135.
176
Repräsentativität in Online-Befragungen Faas, T. (2003b). Offline rekrutierte Access Panels. Königsweg der Online-Forschung? ZUMA-Nachrichten, 53, 58–76. Faas, T., & Schoen, H. (2006). Putting a questtionnaire on the web is not enough – a comparison of online and offline surveys conducted in the context of the German federal election 2002. Journal of Official Statistics, 22, 177–190. Forsa, Gesellschaft für Sozialforschung und statistische Analyse mbH. Abgerufen am 03.10.2008, Website: www.forsa.de Fricker jr., R. D., & Schonlau, M. (2002). Advantages and disadvantages of internet research surveys. Evidence from the literature. Field Methods, 14, 347–367. Göritz, A. S., & Moser, K. (2000). Repräsentativität im Online-Panel. Der Markt. Zeitschrift für Absatzwirtschaft und Marketing, 39, 156–162. Kaplowitz, M. D., & Hadlock, T. D., & Levine, R. (2004). A comparison of web and mail survey response rates. Public Opinion Quarterly, 68, 94–101. Knowledgepanel. Abgerufen am 03.10.2008, von knowledge-networks-Website: www. knowledgenetworks.com/knpanel/index.html Kutsch, H. B. (2007). Repräsentativität in der Online-Marktforschung. Lohmar: Josef Eul. Kwak, N., & Radler, B. (2002). A comparison between mail and web surveys: Response pattern, respondent profile, and data quality. Journal of Official Statistics, 18, 257–273. Lee, S. (2006). Propensity score adjustment as a weighting scheme for volunteer panel web surveys. Journal of Official Statistics, 22, 329–349. Loosveldt, G., & Sonck, N. (2008). An evaluation of the weighting procedures for an online access panel survey. Survey Research Methodology, 2, 93–105. Lozar M., K., & Vehovar, V. (2002). Do mail and web surveys provide same results? In A. Ferligoj & A. Mrvar (Eds.), Development in Social Science Methodology 18 (149–169). Ljubljana: FDV. Reuband, K.-H., & Blasius, J. (1996). Face-to-face, telefonische und schriftliche Befragungen. Ausschöpfungsquoten und Antwortmuster in einer Großstadt-Studie. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 48, 296–318. Schonlau, M., & Zapert, K., & Simon, L. P. et al. (2004). A comparison between responses from a propensity-weighted web survey and an identical RDD survey. Social Science Computer Review, 22, 128–138. TNS-Emnid (2007). (N)onliner Atlas 2007: Eine Topographie des digitalen Grabens durch Deutschland. Website: http://old.initiatived21.de/fileadmin/files/NOA_Umzug/NOA_ Atlanten/NONLINER-Atlas2007.pdf Van Eimeren, B., & Frees, B. (2006). ARD/ZDF-Online-Studie 2006. Schnelle Zugänge, neue Anwendungen, neue Nutzer? Media-Perspektiven, 8/2006, 402–415. Vehovar, V., & Lozar M. K., & Batagelj, Z. (1999). Web Surveys: Can the weighting solve the problem? Proceedings of the Survey Research Method Section, ASA 1999. Abgerufen am 03.10.2008, Website: www.anstat.org/sections/srms/proceedings von Heesen, B., & Hellwig, O. Qualitätssicherung im Online Panel. Abgerufen am 03.10.2008, Website: www.bvm.org/user/dokumente/kongress/vonHeesen.pdf.
177
3 Stichproben
Sabine Häder, Matthias Ganninger, Siegfried Gabler
Sabine Häder, Matthias Ganninger, Siegfried Gabler
Die Stichprobenziehung für den European Social Survey: Prinzipien und Ergebnisse Zusammenfassung Der European Social Survey (ESS) ist eine sozialwissenschaftliche Studie, die im Abstand von zwei Jahren in europäischen Staaten durchgeführt wird, um Einstellungen und Verhalten der europäischen Bürger zu erkunden und deren Änderungen langfristig beobachten zu können. Der ESS ist höchsten methodischen Standards verpflichtet, damit eine bestmögliche Qualität der Daten gewährleistet werden kann. Dazu ist das von der EU geförderte Projekt in verschiedene Workpackages unterteilt, von denen eins der Stichprobenziehung gewidmet ist. Ziel und Arbeitsweise dieses Workpackages sollen im folgenden Beitrag vorgestellt werden.
Abstract Sampling for the European Social Survey: Principles and Findings The European Social Survey (ESS) is an academically-driven social survey designed to chart and explain the interaction between Europe’s changing institutions and the attitudes, beliefs and behaviour patterns of its diverse populations. Now in its fourth round, the survey covers over 30 nations and employs the most rigorous methodologies. In order to ensure highest quality standards, several workpackages have been set up, one of them dealing with the planning and implementation of sampling strategies in the participating countries. It is the aim of this contribution to illustrate the goals and functioning of this workpackage.
1 Einführung: Der European Social Survey Der European Social Survey ist eine akademische sozialwissenschaftliche Umfrage, deren Ziel es ist, die Interaktion zwischen den europäischen Institutionen einerseits und den sich ändernden Einstellungen, Überzeugungen und Verhaltensmustern der Bevölkerung andererseits zu beobachten 181
Sabine Häder, Matthias Ganninger, Siegfried Gabler
und zu erklären. Seit 2001 wird der ESS alle zwei Jahre erhoben und befindet sich derzeit in Runde 4. Insgesamt haben bisher mehr als 30 Staaten teilgenommen. Am ESS ist hervorzuheben, dass neben der Möglichkeit zum kostenlosen Herunterladen der Daten aus dem Netz auch sämtliche Dokumente wie Fragebogen, Guidelines für die Stichprobenziehung oder Übersetzung sowie Kontaktprotokolle zur Verfügung gestellt werden. Der ESS ist damit einer der am umfangreichsten dokumentierten und damit bezüglich der Erhebung transparentesten Surveys weltweit. abb01 Abbildung 1: Bisherige Teilnehmerländer an den ESS-Runden 1–3
Finanziert wird der ESS durch das fünfte und sechste Rahmenprogramm der European Commission, die European Science Foundation sowie nationale Forschungsförderungseinrichtungen. Das Projekt wird von einem zentralen Koordinierungsteam (CCT) unter dem Vorsitz von Sir Roger Jowell (City University, UK) geleitet. Um höchste methodische Ansprüche an die Erhebungen umsetzen zu können, wurden Instruktion und Koordinierung des ESS in zehn Workpackages organisiert. Diese sind z. B. der Übersetzung der Fragebögen aus dem englischen Original in die Sprachen der teilnehmenden Länder, der Kontrolle der Feldarbeit, der Evaluierung einzusetzender Skalen oder der Stichprobenziehung gewidmet. Im Dezember 2005 verlieh die Europäische Kommission dem ESS in London den Descartes-Preis für „grenzüberschreitende Forschungszusammenarbeit“.
182
Die Stichprobenziehung für den European Social Survey: Prinzipien und Ergebnisse
2 Workpackage Stichprobenziehung 2.1 Grundprinzipien Das Ziel des Workpackages zur Stichprobenziehung besteht in „Design and implementation of workable and equivalent sampling strategies in all participating countries“ (ESS Technical Annex 2000) unter der Aufsicht eines Sampling Expert Panels. Hier ergibt sich zunächst die Frage, wie eine optimale Stichprobenstrategie für einen länderübergreifenden Survey gestaltet sein sollte. Hierzu existieren in der Profession durchaus konträre Ansichten. Zum Beispiel galt und gilt für das Eurobarometer die Maxime, für alle Länder das gleiche Stichprobendesign einzusetzen. In anderen ländervergleichenden Studien wurden neben Zufallsstichproben auch Quotendesigns eingesetzt (frühere ISSPUmfragen). Häder & Gabler (2002) argumentieren dagegen, dass eine optimale Strategie aus den besten Zufallsstichproben jedes Teilnehmerlandes bestehen sollte. Werden dann äquivalente Schätzer verwendet, ergibt sich eine hohe Vergleichbarkeit der Ergebnisse (siehe auch Häder & Lynn 2007). Sie knüpfen damit an Überlegungen von Kish (1994) an, der meint: „Sample designs may be chosen flexibly and there is no need for similarity of sample designs. Flexibility of choice is particularly advisable for multinational comparisons, because the sampling resources differ greatly between countries. All this flexibility assumes probability selection methods: known probabilities of selection for all population elements.“ (Kish 1994, 173). Diese Strategie wird für den ESS, inzwischen aber auch für andere europäische Studien, wie z. B. die European Value Study 2008, angewendet. Zu berücksichtigen ist dabei, dass die einzusetzenden Stichprobenpläne in den einzelnen Ländern von den verfügbaren Auswahlrahmen, den Erfahrungen mit früher erhobenen Zufallsstichproben sowie dem zur Verfügung stehenden Kostenrahmen abhängen. Dies ist letztlich die Bedeutung des Terms „workable“.
2.2 Auswahlrahmen Der wichtigste Punkt bei der Suche nach den bestmöglichen Stichprobendesigns in den ESS-Ländern ist jeweils die Festlegung des Auswahlrahmens. Hierbei gilt es, Listen zu finden, die die definierte Grundgesamtheit möglichst vollständig abdecken. Es sollen also möglichst keine Elemente enthal183
Sabine Häder, Matthias Ganninger, Siegfried Gabler
ten sein, die auf der Liste verzeichnet sind, aber nicht zur Gesamtheit gehören (overcoverage), noch sollen Elemente fehlen (undercoverage). Die Definition der Grundgesamtheit lautet: „The survey will be representative of all persons aged 15 and over – no upper age limit – resident within private households in each country, regardless of their nationality, citizenship or language.“ Folgende Arten von Listen sind für die Stichprobenziehung des ESS im Einsatz: a) Länder mit verlässlichen Listen der Einwohner, verfügbar für die Sozialforschung, z. B. Schweden, Finnland, Slowenien. In diesen Ländern existieren zentrale Einwohnermelderegister, aus denen Stichproben für den ESS gezogen werden können. Zudem sind meist zusätzliche Informationen zu den Individuen, wie z. B. Alter und Nationalität verfügbar. Dies ist sowohl für die Kontrolle der Interviewer als auch für Nonresponseanalysen hilfreich. b) Länder mit verlässlichen Listen der Haushalte, verfügbar für die Sozialforschung, z. B. Zypern. Hier wurde in der Runde 3 eine Liste der Haushalte aus dem Zensus, ergänzt durch die Konsumentenliste des Energieversorgers genutzt. c) Länder mit verlässlichen Listen der Adressen, verfügbar für die Sozialforschung, z. B. Liste der Postadressen „PTT-afgiftenpuntenbestand“ in den Niederlanden oder das „Postcode Address File“ in Großbritannien. Schließlich gibt es Teilnehmerländer des ESS, in denen es nicht gelungen ist, geeignete Listen für die Stichprobenziehung zu finden bzw. in denen zwar hervorragende Listen existieren, diese aber für die Sozialforschung nicht zugänglich sind. So besteht in Österreich z. B. ein zentrales Einwohnermelderegister, das Statistische Amt des Landes kann jedoch aufgrund rechtlicher Bestimmungen den Zugriff darauf für den ESS nicht gewähren. Eine ähnliche Situation besteht in Frankreich. In diesen Ländern muss notgedrungen auf Flächenstichproben zurückgegriffen werden, die mit einer Random-RouteProzedur gekoppelt sind. Das Sampling Expert Panel achtet jedoch darauf, dass dabei das Prinzip befolgt wird, die Adressauflistung und die eigentliche Befragung grundsätzlich zu trennen. In allen Ländern, in denen gegenwärtig noch Random-Route-Techniken verwendet werden, ist es das erklärte Ziel des Sampling Expert Panels, diese sobald wie möglich durch die Auswahl aus Listen zu ersetzen, da es in der statistischen Profession durchaus Zweifel daran gibt, inwieweit Random-Routes als „strictly random“ gewertet werden können (Lyberg 2000).
184
Die Stichprobenziehung für den European Social Survey: Prinzipien und Ergebnisse
2.3 Stichprobendesign und Sample Design Data File In Abhängigkeit von den zur Verfügung stehenden Auswahlrahmen werden schließlich die Stichprobendesigns festgelegt. Diese sind beim ESS durchaus sehr unterschiedlich geartet. Der Range reicht von uneingeschränkter Zufallsauswahl (z. B. Finnland und Schweden jeweils Runde 1–3) über zweibzw. dreistufige geschichtete und geklumpte Designs (z. B. Österreich und Portugal jeweils Runde 1–3) bis zu vierstufigen geschichteten und geklumpten Designs (z. B. Ukraine und Russland Runde 3). Die Designs werden in einem standardisierten Formblatt (Sign off forms) dokumentiert. Hierbei werden für jedes Land die Kategorien • Target population, Population coverage • Sampling frame • Sampling Design • Design effects • Target response rate • Sample size • Special features of the design (e. g. oversampling) festgehalten. Grundprinzip ist bei der Wahl der Stichprobenpläne, dass es sich jeweils um Zufallsstichproben handeln muss. Das heißt, die Inklusionswahrscheinlichkeiten müssen sämtlich positiv, bekannt und dokumentiert sein. Für die Speicherung der Inklusionswahrscheinlichkeiten aller Auswahlstufen und weiterer Variablen zur Beschreibung des Stichprobendesigns wie z. B. Primary Sampling Units, Sample Points und Schichtungsvariablen wird das Sample Design Data File genutzt. Die Angaben aus dieser Datei ermöglichen es dem Nutzer, jegliche Einzelheiten der Stichprobenziehung nachzuvollziehen, Berechnungen von Design-Gewichten und Design-Effekten sowie Varianzschätzungen vorzunehmen. Die Sample Design Data Files sind von jenen Ländern für die Öffentlichkeit zugänglich (http://ess.nsd.uib.no), in denen datenschutzrechtliche Bedenken die Publikation nicht verbieten. Einen Ausschnitt aus dem Sample Design Data File Frankreichs in Runde 3 bietet der Screen Shot auf S. 186 (Abbildung 2).
2.4 Design-Gewichte Die ungleichen Auswahlwahrscheinlichkeiten, die bei der Stichprobenziehung auftreten, müssen bei der Schätzung wieder ausgeglichen werden. Dazu werden beim ESS vom Sampling Expert Panel Design-Gewichte be185
Sabine Häder, Matthias Ganninger, Siegfried Gabler
Abbildung 2: Screen Shot des Sample Design Data Files
rechnet. Diese beruhen auf den Angaben zu den Wahrscheinlichkeiten bei den einzelnen Auswahlstufen aus den Sample Design Data Files. So ist beim französischen Design in Abbildung 2 das Produkt von PROB1 und PROB2 konstant, lediglich PROB3 variiert. Hierbei handelt es sich um die Auswahl innerhalb des Haushaltes. Da diese Wahrscheinlichkeit nicht im Vornhinein bestimmt werden kann, sondern erst beim Kontaktieren des Haushaltes festgestellt wird, sind diese Angaben auch nur für die Nettostichprobe angegeben (OUTCOME = 1). Die Auswahlwahrscheinlichkeit ist in diesem Fall umgekehrt proportional zur Zahl der Zielpersonen im Haushalt, also bei einer Person 1, bei 2 Personen 0,5 bei 3 Personen 0,33 usw. Das gesamte Design-Gewicht für den i-ten Befragten ergibt sich als wi = 1/(PROB1i · PROB2i · PROB3i). Es wird anschließend derart normiert, dass die Summe der Gewichte der Zahl der durchgeführten Interviews, also dem Nettostichprobenumfang entspricht. Tabelle 1 zeigt die Wirkung der Design-Gewichtung für Daten der dritten Runde des ESS. Für Österreich (AT), Portugal (PT) und Russland (RU) würde ohne die notwendige Design-Gewichtung der Anteil der Einpersonenhaushalte deutlich unterschätzt werden. Bei Finnland (FI) und Schweden (SE) betragen die normierten Design-Gewichte dagegen 1, da alle Elemente mit gleichen Wahrscheinlichkeiten ausgewählt wurden. Bei der Variablen V2 (Anteil der Personen, die wöchentlich 3 und mehr Stunden Fernsehen schauen) ist der Unterschied zwischen gewichteten und ungewichteten Daten nicht so groß, da diese Variable weniger mit der Haushaltsgröße zusammenhängt, die schließlich in die Gewichtung eingeflossen ist. tab01 186
Die Stichprobenziehung für den European Social Survey: Prinzipien und Ergebnisse
Tabelle 1: Gewichtete und ungewichtete Schätzer für die Variablen „Anteil der Einpersonenhaushalte (%)“ und „Fernsehdauer 3 Stunden und mehr pro Woche (%)“ für fünf Länder
V1, ungewichtet V1, gewichtet V2, ungewichtet V2, gewichtet
AT
PT
RU
FI
SE
8,8 21,2 13,7 12,5
7,6 17,2 22,2 21,5
10,8 23,7 23,2 22,8
23,4 23,4 14,5 14,5
21,1 21,1 9,8 9,8
V1: Einpersonenhaushalte (%) V2: 3 Stunden+ TV pro Woche (%)
2.5 Design-Effekte und Stichprobenumfänge Die Idee der Stichprobenstrategie des ESS ist, wie schon kurz angedeutet, für alle Länder äquivalente Designs und Schätzer anzuwenden. Dies macht es notwendig, ein System von Zufallsstichproben zu implementieren und die gleiche Präzision der Schätzer zu garantieren – unabhängig von der Komplexität des Stichprobendesigns (siehe auch Lynn et al. 2007, 112 ff.). Dafür wurde ein neues Konzept für die Berechnung des Umfangs der Nettostichproben der einzelnen Länder eingeführt. Es beinhaltet die Berücksichtigung des Design-Effektes. Der Design-Effekt ist bei designbasierter Betrachtungsweise das Verhältnis der Varianz eines Schätzers bei gegebenem Stichprobendesign zur Varianz des Schätzers bei einfacher Zufallsauswahl (Kish 1965). Modellbasiert kann der Design-Effekt wie folgt geschätzt werden (Kish 1995; Gabler & Häder & Lahiri 1999): Er setzt sich aus zwei Komponenten zusammen. Bei gegebenem Design ist DEFFp der Term, der durch unterschiedliche Auswahlwahrscheinlichkeiten zustande kommt. DEFFc ist durch die Klumpung der Stichprobe bedingt. formel I
Deff =
n
å ni wi2 i =1 I
( å n i wi )
2
[ 1 + (b – 1 ) r] = Deff p × Deffc
i =1
ni wi
I
n = å ni b r
i= 1
Zahl der Beobachtungen in der Gewichtungsklasse i Gewichte in der Gewichtungsklasse i
Stichprobenumfang mittlere Clustergröße Intraklassenkorrelationskoeffizient
187
Sabine Häder, Matthias Ganninger, Siegfried Gabler
Zielvorgabe im ESS ist es, für alle Länder einen effektiven Stichprobenumfang neff = 1500 zu erreichen. Der effektive Stichprobenumfang ist aber das Verhältnis aus dem Nettostichprobenumfang nnet und dem DesignEffekt. Damit ergibt sich der notwendige Nettostichprobenumfang als nnet = neff · Deff = 1500 Deff. So würde sich beispielsweise der für Großbritannien notwendige Nettostichprobenumfang, um einen effektiven Stichprobenumfang von neff = 1500 zu erreichen, wie folgt ergeben: In Großbritannien wurde in den bisherigen drei ESS-Runden ein geschichtetes dreistufiges, geklumptes Design eingesetzt. Zunächst wurden die Postcode-Sektoren in 38 regionale Schichten sortiert. Innerhalb dieser Schichten wurden sie aufsteigend nach der Bevölkerungsdichte und dem Eigentumsverhältnis geordnet. Dann wurden z. B. in Runde 3 192 PostcodeSektoren mit systematischer Zufallsauswahl proportional zur SektorenGröße ausgewählt. Innerhalb dieser Postcode-Sektoren wurden in der zweiten Stufe 24 „Delivery Points“ (Zustelladressen) ausgewählt. In der dritten Stufe wurde schließlich nach einer genau definierten Anweisung zufällig eine Person pro gezogener Zustelladresse ermittelt, die es dann zu interviewen galt. Da das Produkt der Auswahlwahrscheinlichkeiten der ersten und zweiten Stufe konstant ist, waren ungleiche Auswahlwahrscheinlichkeiten lediglich auf der dritten Stufe zu erwarten (ungleiche Anzahl von zur Grundgesamtheit gehörenden Personen innerhalb der ausgewählten Haushalte). Aus den vorangegangenen ESS-Runden war bekannt, dass diese ungleichen Inklusionswahrscheinlichkeiten zu einem Deffp von etwa 1,23 führen. Bei einer zu erwartenden Ausschöpfungsquote von 55% und einer Nichterreichbarkeitsrate von 8% (ebenfalls Erfahrungswerte) kann angenommen werden, dass pro Postcode-Sektor (Primary Sampling Units) ca. 12 Interviews zustande kommen (b ). Weiterhin war in früheren Studien ermittelt worden, dass mit einem Intraklassenkorrelationskoeffizient von r = 0,028 zu rechnen ist. Damit ergibt sich Deffc = 1 + (12 – 1) · 0,028 = 1,3. Der gesamte Design-Effekt berechnet sich aus Deff = Deffp. · Deffc = 1,23 · 1,3 = 1,6. Damit würde der notwendige Nettostichprobenumfang nnet = 1500 · 1,6 = 2400 betragen1. Wesentlich einfacher ist diese Berechnung natürlich für Länder, in denen uneingeschränkt zufällig Individualadressen aus Einwohnermeldeämtern gezogen werden. Hier gilt Deffp = 1 und Deffc = 1 und damit auch Deff = 1. In diesen Ländern sind daher effektiver und Nettostichprobenumfang identisch, d. h. neff = nnet = 1500. Da sich wichtige Parameter der Stichprobendesigns direkt in der Berechnung der Zahl durchzuführender Interviews niederschlagen und damit un188
Die Stichprobenziehung für den European Social Survey: Prinzipien und Ergebnisse
mittelbaren Einfluss auf die Kosten der Erhebung haben, ist es das Bestreben des Sampling Expert Panels, in Kooperation mit den National Coordinators der Länder mit komplexen Stichprobendesigns von Runde zu Runde Verbesserungsmöglichkeiten für die Stichprobenpläne zu identifizieren und diese zu implementieren. Insbesondere die Aufgabe von Clusterelementen im Design oder zumindest die Erhöhung der Zahl der Primary Sampling Units sind hier zu nennen. Die folgenden Abbildungen zeigen die in Runde 3 ermittelten Design-Effekte. Abbildung 3: Deffp für die Teilnehmerländer an ESS-Runde 3
In Abbildung 3 sind zunächst die geschätzten Design-Effekte aufgrund ungleicher Auswahlwahrscheinlichkeiten dokumentiert. Hier sind drei Gruppen von Ländern unterscheidbar. Zunächst gibt es neun Länder, bei denen jeweils die Auswahlwahrscheinlichkeiten für alle Elemente gleich waren, für diese ist Deffp = 1. Bei zwei weiteren Ländern wurden zwar ebenfalls Daten von Individuen aus Einwohnermelderegistern gezogen, dies aber mit leicht disproportionalen Stichprobenansätzen (Polen und Deutschland). Bei 189
Sabine Häder, Matthias Ganninger, Siegfried Gabler
einer dritten Gruppe von Ländern bestehen ungleiche Auswahlwahrscheinlichkeiten aufgrund der unterschiedlichen Zahl von zur Grundgesamtheit gehörenden Personen innerhalb des Zielhaushaltes. Diese Design-Effekte liegen in der Regel zwischen 1,2 und 1,3. Unbedingt überarbeitet werden muss das Stichprobendesign der Ukraine für Runde 4. Die deutlichen Unterschiede in den Auswahlwahrscheinlichkeiten verursachen einen hohen Design-Effekt, der letztlich einen außerordentlich großen Nettostichprobenumfang erfordern würde, um die gleiche Präzision der Schätzer zu gewährleisten wie z. B. in den Ländern mit einfacher Zufallsauswahl. abb03 Abbildung 4: Deffc für die Teilnehmerländer an ESS-Runde 3
In Abbildung 4 sind die geschätzten Design-Effekte aufgrund von Clusterung gezeigt. Hier gibt es neun Länder, bei denen der Deffc = 1 ist, d. h. bei denen ein ungeklumptes Design angewendet worden ist. Das kann eine uneingeschränkte Zufallsauswahl von Individuen, Haushalten oder Adressen sein. In weiteren 14 Ländern wurde dagegen jeweils ein mehrstufiger geclusterter Stichprobenplan implementiert, bei dem auf einer Stufe Primary Sampling Units wie z. B. Gemeinden (z. B. Belgien), geographische Cluster (z. B. Irland) 190
Die Stichprobenziehung für den European Social Survey: Prinzipien und Ergebnisse
oder Postcode-Sektoren (z. B. Großbritannien) ausgewählt wurden. Der sehr hohe Deffc für Deutschland ergibt sich dadurch, dass nur relativ wenige Gemeinden gezogen wurden, in denen dann eine hohe Zahl von Interviews durchgeführt wurde. Ein Ziel ist es, in Deutschland die Zahl der auszuwählenden Gemeinden in Zukunft zu erhöhen. Dies ist allerdings mit steigenden Kosten verbunden und es muss abgewogen werden, ob diese durch die dann geringere Zahl an notwendigen Interviews kompensiert werden. abb04 Abbildung 5: Deff für die Teilnehmerländer an ESS-Runde
Abbildung 5 schließlich zeigt die gesamten Design-Effekte für die Teilnehmerländer an ESS-Runde 3. Diese ergeben sich, wie schon dargestellt, aus dem Produkt der Komponenten Deffp und Deffc. Die Grafik verdeutlicht, dass Verbesserungen der Stichprobenpläne insbesondere in der Ukraine, Deutschland und Russland wünschenswert sind. Gerade in der Ukraine und Russland, wo keine Einwohnermelderegister für die Sozialforschung zugänglich sind und auf Flächenstichproben zurückgegriffen werden muss, ist dies eine große Herausforderung für das Sampling Expert Panel. 191
Sabine Häder, Matthias Ganninger, Siegfried Gabler
Insgesamt zeigt sich, dass die Schätzung von Design-Effekten die Transparenz der Stichprobenziehung und Implementierung ungemein erhöht und ein wichtiges Potential zur Offenlegung von deren Verbesserungsmöglichkeiten besitzt. abb05
3 ESS Sampling Expert Panel Die Umsetzung des Workpackages 3 zur Stichprobenziehung obliegt einem internationalen Team, dem die folgenden Stichprobenexperten angehören: • Sabine Häder (Convenor, GESIS) • Siegfried Gabler (GESIS) • Matthias Ganninger (GESIS) • Seppo Laaksonen (University of Helsinki, Finland) • Peter Lynn (University of Essex, U. K.) Jedem der Experten sind 4 bis 5 Länder zugeordnet, für deren Stichprobenentwicklung sie verantwortlich sind. Gemeinsam mit den National Coordinators diskutieren sie die Einzelheiten und fixieren das Design letztlich in den Sign off forms. Diese werden dann im Panel zirkuliert und offene Fragen geklärt. Wenn alle Experten einverstanden sind, gilt das Design als „signed off“ und kann implementiert werden. Dem Expertenteam obliegt weiterhin die Kontrolle der Sample Design Data Files, die Berechnung der Design-Gewichte und der Design-Effekte. Außerdem wurden einige Working Papers ausgearbeitet, die das Konzept der Stichprobenziehung in Einzelheiten vorstellen (www.europeansocialsurvey.org). Im Herbst 2007 wurde der gesamte European Social Survey im Auftrag der European Science Foundation von einer Expertenkommission unter Vorsitz von Bob Groves evaluiert. Die Ergebnisse wurden in Form von Recommendations zusammengefasst. Die fünfte Recommendation des Reports ist der Stichprobenziehung gewidmet. Hier lautet es: „ESS is the only European-wide survey based on comparable probability samples. The asset is a necessary condition for measurable survey quality. Data collection in future rounds should also be based on probability samples.“ (S. 4). Diese Einschätzung hat das Sampling Expert Panel in der Überzeugung bestärkt, Strategie und Prinzipien der Stichprobenbildung des ESS auch in weiteren ESS-Runden anzuwenden und auszubauen.
192
Die Stichprobenziehung für den European Social Survey: Prinzipien und Ergebnisse
Anmerkung 1
Mitunter müssen aufgrund zu geringer finanzieller Mittel geringfügige Abweichungen von der so berechneten Zahl der Interviews in Kauf genommen werden. Diese werden vom Sampling Expert Panel jedoch nur akzeptiert, wenn die Präzision der Schätzer dadurch nur unwesentlich beeinträchtigt wird.
Literatur Bethlehem, J., & Medrano, J. D., & Groves, R. M., & Gundelach, P., & Norris, P. (2008). Report of the Review Panel for the European Social Survey. Gabler, S., & Häder, S., & Lahiri, P. (1999). A Model Based Justification of Kish´s Formula for Design Effects for Weighting and Clustering. Survey Methodology, Vol. 25, No. 1, 105–106. Häder, S., & Gabler, S. (2003). Sampling and Estimation. In J. Harkness & F. Van de Vijver & P. Mohler (Eds.), Cross-Cultural Survey Methods. Hoboken, NJ: Wiley. Häder, S., & Lynn, P. (2007). How representative can a multi-nation survey be? In R. Jowell & C. Roberts & R. Fitzgerald & G. Eva (Eds.), Measuring Attitudes Cross-Nationally. Sage Publications. Kish, L. (1994). Multipopulation Surveys Designs, Five Types with Seven Shared Aspects. In International Statistical Review, Vol. 62, 167–186. Kish, L. (1965). Survey Sampling. New York: Wiley. Kish, L. (1995). Questions/Answers from the Survey Statistician 1978–1994. Libourne: International Association of Survey Statisticians. Lyberg, L. E. (2000). Review of IALS, A Commentary on the Technical Report. Measuring Adult Literacy. London: Office for National Statistics. Lynn, P., & Häder, S., & Gabler, S., & Laaksonen, S. (2007). Methods for achieving equivalence of samples in cross-national surveys, the European Social Survey experience. Journal of Official Statistics. Vol. 23, No. 1, 107–124.
193
Folkert Aust, Helmut Schröder
Folkert Aust, Helmut Schröder1
Sinkende Stichprobenausschöpfung in der Umfrageforschung – ein Bericht aus der Praxis Zusammenfassung Der vorliegende Aufsatz beleuchtet das Phänomen sinkender Ausschöpfungsquoten in der Umfrageforschung mit Hilfe eines Blicks in die Archive des infas Instituts für angewandte Sozialwissenschaft in Bonn. Aus den vorliegenden Beständen wurden 132 Studien aus dem Bereich Sozialforschung in Bezug auf ihre Ausschöpfungsquote und die sie beeinflussenden Merkmale der Studien untersucht. Die Autoren wählen dabei bewusst einen Aggregatansatz, da nicht individuelle Teilnahmebereitschaft erklärt, sondern Parameter für das Erreichen „guter“ Ausschöpfungsquoten gefunden werden sollen. Die Ergebnisse bestätigen den Befund sinkender Ausschöpfungsquoten in den zurückliegenden Jahren. Sie zeigen allerdings auch, dass eine differenzierte Betrachtung der Ausschöpfungsquoten nötig ist. Während allgemeine Umfragen deutlich stärker unter rückläufigen Ausschöpfungsquoten zu leiden haben, lassen sich Erhebungen bei spezifischen Zielgruppen nach wie vor gut realisieren.
Abstract Declining Sampling Coverage in Survey Research – a Report from Practical Experience This essay explores the phenomenon of declining coverage rates in survey research by means of dipping into the archives of the infas Institute for Applied Social Sciences in Bonn. Out of the available inventory 132 social research surveys were checked with regard to coverage rates and influencing characteristics. In this process the authors deliberately selected an aggregate approach, since the objective was not to explain the individual willingness to participate, but to determine parameters for obtaining „good“ coverage rates. The results confirm the declining coverage rates reported within the past years. Yet, they also show that it is necessary to view the coverage rates in a differentiated manner. Whereas general surveys have significantly been afflicted with regressive coverage rates, the realisation of surveys with specific target groups still turns out well.
195
Folkert Aust, Helmut Schröder
1 Ausgangspunkte und Fragestellungen Zu den unbestrittenen Standards einer guten Praxis empirischer Sozialforschung zählt die Maximierung der Stichprobenausschöpfung. Zunehmend wird es jedoch schwieriger, diesen methodischen Anspruch bei Befragungen auch zu realisieren. In einer Zeit inflationärer Marktforschung und telefonischer Marketingaktionen sinkt die Mitwirkungsbereitschaft der Bevölkerung und der Unternehmen selbst bei den angeseheneren wissenschaftlichen Studien und Evaluationen. Die in den vergangenen Jahren besonders gewachsenen Schwierigkeiten bei der Stichprobenrealisierung veranlassen die Frage „Haben Umfragen ausgedient?“ Unter diesem Motto veranstaltete die Methodensektion der Deutschen Gesellschaft für Soziologie ihre diesjährige Frühjahrstagung. In Anbetracht unzureichender Alternativen ist das Motto wohl eher eine rhetorische Überspitzung denn ein Abgesang auf die Umfrageforschung. Allerdings steht die Frage im Raum, wie die rückläufigen Stichprobenausschöpfungen zu bewerten sind. Eine maximierte Stichprobenausschöpfung gilt weithin als Indikator für gute Feldqualität und das Bemühen um möglichst vollständige Repräsentanz der untersuchten Population. Wir wollen an dieser Stelle einmal davon absehen, dass selbst eine maximale Stichprobenausschöpfung keineswegs Garant für eine selektionsfreie Repräsentanz der Grundgesamtheit ist. Verzerrende Selektivitätseffekte können selbstverständlich auch bei Stichprobenausschöpfungen von 70 und mehr Prozent auftreten und müssen deshalb immer kontrolliert werden (vgl. Kruskal & Mosteller 1979a, 1979b, 1979c; Rendtel & Pötter 1992). Klammert man die grundlegende Frage der Selektivität an dieser Stelle einmal aus, so gibt es in mehrfacher Hinsicht Anlass für ein Forschungsinstitut, das zusammengenommen jährlich über 100 Tsd. Interviews durchführt, sich mit dem Sachverhalt sinkender Stichprobenausschöpfungen auseinander zu setzen. Ein Motiv erwächst aus dem Umstand, dass der Standard einer Mindestausschöpfung bei Ausschreibungen und Projektbewilligungen bei wissenschaftlichen Studien relativ unbeeindruckt von der aktuellen Entwicklung hoch angesetzt und oftmals zum Vertragsbestandteil erhoben wird. Die Basis für die definierten Standards sind meist Schlussfolgerungen aus vermeintlich ähnlichen Studien. Man gewinnt dabei den Eindruck, dass die erwarteten Ausschöpfungsquoten unabhängig vom Thema, den Zielgruppen, der Art der Stichprobe, der Art der Kontaktierung und Incentivierung sowie der aktuellen Akzeptanzentwicklung bei den befragten Populationen „über denselben Leisten geschlagen“ werden. 196
Sinkende Stichprobenausschöpfung in der Umfrageforschung
Anlass für die Analyse von Stichprobenausschöpfungen geben aber auch die Projektplanungen innerhalb des Forschungsinstituts. Um belastbare Daten rascher zur Hand zu haben und aktuelle Entwicklungen im Feld zeitnäher zu protokollieren, baut das Institut eine Wissensdatenbank über die durchgeführten Feldvorhaben auf. Auf dem noch vorläufigen Stand von derzeit 132 vollständig erfassten Erhebungen der Sozialforschung berichtet der vorliegende Beitrag über erste Auswertungsergebnisse. Ihm liegen folgende Leitfragen zugrunde: • Haben sich die Stichprobenausschöpfungen über den Zeitraum von zehn Jahren verändert? • Welche Entwicklungen sind für unterschiedliche Designs (Erhebungsmethode, Zielgruppen, Themen, Ausschöpfung verbessernde Maßnahmen) zu beobachten? • Wie gut erklären diese Designmerkmale die Varianz bei den beobachteten Ausschöpfungen? Reichen die verfügbaren Eckdaten aus, um Ausschöpfungen sicher zu planen? • Was kann man aus dieser Analyse für die aktuelle Diskussion zum Thema „Hat Umfrage ausgedient?“ lernen? Die Auswertungen sind von der Hypothese geleitet, dass die Höhe einer Stichprobenausschöpfung nicht nur von der Erhebungsmethode und den ausschöpfungssteigernden Maßnahmen (z. B. Anschreiben, Incentives, Feldlaufzeit, Konvertierung von schwer motivierbaren Zielpersonen usw.) abhängt. Wesentlichen Einfluss unterstellten wir auch Faktoren, die mit dem Gegenstand der Befragung verbunden sind. Dies sind vor allem die befragte Zielgruppe, die Stichprobenbasis und nicht zuletzt die individuelle Betroffenheit der befragten Zielgruppen durch das Untersuchungsthema. Aufgrund der langjährigen Erfahrungen gingen wir außerdem davon aus, dass es einen historischen Trend gibt, der gegen alle Bemühungen zur Stichprobenausschöpfung arbeitet. Exogene Faktoren wie Verdruss, Übersättigung mit Anfragen, abnehmende soziale Kohärenz und verändertes Kommunikationsverhalten machen die methodische Sorgfalt und entsprechende Gegenmaßnahmen zunichte und reduzieren die ansonsten erwartbaren Effekte.
2 Datengrundlage und Operationalisierung Im Mittelpunkt der folgenden Analysen steht die Ausschöpfungsquote von Sozialforschungsstudien, die bei infas-Sozialforschung durchgeführt wurden. Im Rahmen dieser Studien wurden insgesamt über 300.000 Interviews 197
Folkert Aust, Helmut Schröder
realisiert. Die Analyseeinheit bilden jedoch einzelne Erhebungen, also in sich abgeschlossene, mit einer Erhebungsmethode bei einer wohl definierten Zielgruppe durchgeführte Feldbefragungen. Bei komplexen Studien können durchaus mehrere Erhebungen mit unterschiedlichen Zielgruppen (z. B. Arbeitnehmer, Betriebe, Arbeitslose) erfolgen. In diesem Falle wurde jede Erhebung separat als ein eigenständiges Feldprojekt dokumentiert. In der Datenbank sind bisher rd. 170 Erhebungen rückwirkend für die letzten zehn erfasst. Die nachfolgenden Analysen stützen sich auf 132 auswertbare Datensätze, für die bereits alle relevanten Angaben aus den archivierten Methodenberichten und -dokumentationen vollständig dokumentiert sind. Die Auswertungseinheiten unserer Betrachtung bilden Erhebungen, also Aggregate und nicht Individuen. Die Analyse beschränkt sich entsprechend auf Aussagen auf einer aggregierten Ebene. Einen Beitrag zu individualtheoretischen Annahmen über Teilnahmewahrscheinlichkeiten von Untersuchungseinheiten (i. e. Personen, Haushalte, Unternehmen o. ä.) kann und will diese Auswertung nicht leisten. Dies ist schon allein deshalb unmöglich, da hinter den untersuchten Studien ganz unterschiedliche Fallzahlen stehen: Der Umfang der Bruttostichproben bei den untersuchten Erhebungen schwankt zwischen minimal 150 und maximal über 50.000 Untersuchungseinheiten. Die ausgewerteten Erhebungen sind dem institutseigenen Archiv entnommen. Es handelt sich ausnahmslos um abgeschlossene Studien aus dem Institutsbereich „Sozialforschung“, die vor allem seit dem Jahr 2000 durchgeführt wurden.2 Zusätzlich sind einige ältere Studien aus den 90er Jahren in die Untersuchung mit eingegangen. Die Zeitreihe, die hier dargestellt wird, ist also noch vergleichsweise kurz, und die Anzahl der Erhebungen ist für eine differenzierte Betrachtung des Zeitverlaufs noch recht schmal. Um der Längsschnittbetrachtung eine möglichst homogene Datenbasis zugrunde zu legen, wurden Studien aus anderen Institutsbereichen nicht berücksichtigt. Die Erhebungen tragen somit die gleiche Bereichshandschrift. Diese Basis stellt sicher, dass die Studien hinsichtlich der betrachteten Merkmale, wie der Stichprobenkonzeption, der Durchführung der Erhebung inklusive Feldkontrolle, der Datenaufbereitung und der Berechnung der Ausschöpfungsquote, ceteris paribus nach denselben Standards durchgeführt wurden. Die Ausschöpfungsquoten sind nach einem einheitlichen Standard – angelehnt an die Regeln der American Association for Public Opinion Research (AAPOR) – berechnet (AAPOR 2006; Smith 2003). infas unterscheidet hierbei vier grobe Klassifikationen: realisierte Interviews, systematische Ausfälle qualifizierter Adressen (Verweigerungen 198
Sinkende Stichprobenausschöpfung in der Umfrageforschung
durch die Zielperson, den Haushalt, Dritte), systematische Ausfälle nichtqualifizierter Adressen (nicht Erreichte), neutrale Ausfälle (falsche Adressen, Telefonnummern, nicht Zielgruppe). Auf dieser Basis errechnet sich die Bruttoausschöpfungsquote als Anteil der realisierten Adressen an allen eingesetzten Adressen, und die Nettoausschöpfungsquote bildet den Anteil der realisierten Adressen an allen eingesetzten Adressen ohne Berücksichtigung der neutralen Ausfälle. Diese Vorgehensweise wird bei allen analysierten Studien gleichermaßen angewendet. Die Ausdifferenzierung der vier groben Klassifikationen ist dabei vom gewählten Studiendesign abhängig, bleibt aber immer vergleichbar und wurde über die Zeit konstant verwendet.3 Die nachfolgend dargestellten Analysen beschränken sich auf einige wesentliche Merkmale der Studiendesigns. Aus Sicht der Autoren konnten einige relevante Aspekte bisher noch keine Berücksichtigung finden. So waren die Angaben für die Dauer der Feldphase und die Art der Stichprobenziehung (Einwohnermeldeamtsstichprobe, Random Walk, Telefon – Liste, Telefon – RDD u. a.) für einige Studien noch nicht vollständig erfasst. Um die Auswertungsbasis nicht auszudünnen, verzichteten wir bei dieser ersten Analyse auf diese feld- und ausschöpfungsrelevanten Merkmale zugunsten einer Maximierung der Zellbesetzungen.
3 Operationalisierung des Modells In den folgenden Analysen wurde die Nettoausschöpfungsquote als abhängige Variable modelliert. Der Anteil neutraler Ausfälle findet in der Untersuchung also keine Berücksichtigung. Dies ist notwendig, da sich der Anteil der stichprobenneutralen Ausfälle zwischen den betrachteten Erhebungen zum Teil deutlich unterscheidet. Zum einen beinhalten einige Erhebungen einen deutlich erhöhten Screeningaufwand bis zur Identifikation der eigentlichen Zielgruppe, zum anderen unterscheiden sich die Erhebungen auch ex ante in Bezug auf das Zustandekommen der neutralen Ausfälle. So sind die neutralen Ausfälle telefonischer Befragungen mit RDD-Nummern, die häufig auch zu nicht geschalteten Anschlüssen führen können, deutlich höher als die von schriftlichen oder Face-to-Face-Befragungen auf Grundlage einer Einwohnermeldeamtsstichprobe. Die Ausschöpfungsquoten unterscheiden sich in Abhängigkeit von der angewendeten Erhebungsmethode, der untersuchten Zielgruppe, dem Thema und anderen Variablen zum Teil erheblich. So variieren z. B. die Quoten bei schriftlich-postalischen Befragungen zwischen über 80 Prozent bei der 199
Folkert Aust, Helmut Schröder
Befragung von Verwaltungseinrichtungen, über 60 bis 70 Prozent bei Mitarbeitern dieser Verwaltungen, 44 Prozent bei behinderten Arbeitnehmern, rd. 40 Prozent bei Personenbefragungen zum Suchtverhalten bis hin zu 25 bis 30 Prozent bei Unternehmensbefragungen zum Investitionsverhalten. Die Ausschöpfungen der Face-to-Face-Erhebungen (CAPI, PAPI) sind dagegen deutlich homogener. Sie bewegen sich zwischen 55 und 65 Prozent bei Haushalten und Personen, können bei schwierigen Zielgruppen aber auch niedriger oder bei Spezialstudien sogar wesentlich höher liegen (z. B. Vollerhebung aller Haushalte einer Gemeinde mit knapp 90 Prozent Ausschöpfung). Bei telefonischen Befragungen (CATI) wurden im Kontext von arbeitsmarktpolitischen Evaluationen mit vorherigem Anschreiben Realisierungsquoten von 55 Prozent (Kontrollgruppen) bis 70 Prozent (Teilnehmergruppen) erzielt. Nicht angekündigte Anrufe bei Haushalten führen dagegen zu deutlich niedrigeren Ausschöpfungen zwischen 25 und 40 Prozent. Betriebsbefragungen schließen mit Ausschöpfungen von 40 bis 50 Prozent, können im Extremfall bei Spezialthemen aber auch zwischen 30 Prozent (z. B. IKT) und bis zu 70 Prozent (z. B. Berufsausbildung) variieren. Gegenstand unserer Analyse ist es, die Bedingungen für diese Varianz der Ausschöpfungen zu erklären und die Veränderungen im Zeitverlauf zu kontrollieren. Die nachfolgenden Analysen werden die Nettoausschöpfungen in logarithmierter Form zugrunde legen, um Ausreißer und die Effekte unterschiedlicher Fallzahlen zu dämpfen und die Modellanpassung zu verbessern. Für die Analyse ist auch weniger die absolute Höhe der Quote von Interesse, sondern ihre Varianz in Bezug auf die berücksichtigten unabhängigen Variablen.
4 Deskription der unabhängigen Variablen Als unabhängige Variablen werden neben dem Jahr der Erhebung die Erhebungsmethode, die Art der Stichprobe, die Art der Kontaktaufnahme, die Incentivierung und das Thema der Befragung in das Modell eingeführt. Alle betrachteten Variablen werden in kategorialer Form kodiert: Das Jahr der Erhebung ist in vier Ausprägungen gruppiert: 1990er Jahre, 2000 bis 2003, 2004 und 2005, 2006 und 2007. Auch bei der Art der Stichprobe (im Weiteren als Zielgruppe bezeichnet) werden vier Gruppen unterschieden: Personen oder Haushalte allgemein, Arbeitslose und Arbeitnehmer (zusammengefasst, da sonst zu wenige Ar200
Sinkende Stichprobenausschöpfung in der Umfrageforschung
beitnehmerbefragungen für die Analyse vorliegen), spezielle Personengruppen (Alte, Jugendliche u. a.), sowie Unternehmen, Betriebe und Behörden. Die Art der Kontaktaufnahme unterscheidet zwischen der Verwendung eines Anschreibens und einer „kalten“ Kontaktaufnahme. Analoges gilt für Erhebungen mit und ohne Einsatz eines Incentives. Das Thema der Erhebung differenziert Umfragen mit allgemeinem Bezug (z. B. European Social Survey, Alterssurvey) von Spezialerhebungen mit spezifischem Bezug für die untersuchte Zielgruppe (z. B. Gewalt gegen Frauen, Teilnahme an arbeitsmarktpolitischen Maßnahmen).4 Bei der Erhebungsmethode sind PAPI- und CAPI-Befragungen als persönliche Befragungen zusammengefasst und werden mit telefonischen (CATI) und schriftlichen Befragungen verglichen. Die Übersicht 1 weist die univariaten Häufigkeitsverteilungen dieser unabhängigen Variablen aus. 60 Prozent der untersuchten Erhebungen wurden telefonisch durchgeführt; jeweils ein Fünftel der Erhebungen erfolgte face-to-face bzw. schriftlich. Betrachtet man die Zielgruppe der Studie, so zeigt sich ein differenziertes Bild: drei der vier unterschiedenen Gruppen machen je etwa 30 Prozent der Übersicht 1: Univariate Verteilungen Jahr der Erhebung:
Anzahl
Prozent
Incentivierung:
1 1990er
17
12,9
1 ja
2 2000 bis 2003
27
20,5
2 nein
3 2004, 2005
53
40,2
4 2006, 2007
35
26,5
Methode: 1 persönlich (CAPI,PAPI)
Anzahl 28
Prozent
15
11,4
117
88,6
Anzahl
Prozent
1 kalt
38
28,8
2 Anschreiben
94
71,2
2 telefonisch (CATI)
80
60,6
24
18,2
Anzahl
Prozent
21,2
3 schriftlich
Zielgruppe:
Kontaktaufnahme:
Anzahl
Prozent
Studientypus:
Anzahl
Prozent
1 Personen, Haushalte allg.
43
32,6
1 Spezialerhebungen (Bezug spezifisch)
71
53,8
2 Arbeitslose, Arbeitnehmer
39
29,5
2 Umfragen (Bezug allgemein)
61
46,2
3 spez. Personengruppen
13
9,8
4 Unternehmen, Betriebe, Behörden
37
28,0
201
Folkert Aust, Helmut Schröder
Erhebungen aus, die spezifischen Personengruppen haben einen Anteil von 10 Prozent. Bemerkenswert ist der hohe Anteil an Erhebungen bei Arbeitslosen bzw. Arbeitnehmern, der sich durch die hohe Zahl an Evaluationsstudien zur Arbeitsmarktpolitik, die in den Jahren 2004 bis 2006 bei infas durchgeführt wurden, erklärt. Über alle Erhebungen hinweg wird deutlich, dass die Verwendung von Incentives den Ausnahmefall darstellt. Lediglich bei 15 Erhebungen wurden Incentives eingesetzt. Das Verhältnis von Erhebungen mit allgemeinem thematischen Bezug und Erhebungen mit spezifischem Bezug für die befragten Zielgruppen ist ausgewogen. Trotz der hohen Zahl telefonisch durchgeführter Befragungen liegt der Anteil von Erhebungen mit Einsatz eines Anschreibens bei 71 Prozent. Bei Studien mit Personenstichproben werden auch im Vorfeld telefonischer Befragungen regelmäßig Anschreiben eingesetzt. uebs01 Da ein spezifisches Studiendesign im Regelfall bestmöglich auf die zu untersuchende Fragestellung und Zielgruppe hin ausgerichtet wird, sind hohe Kollinearitäten zwischen den einzelnen betrachteten unabhängigen Merkmalen zu beobachten. Schriftliche Befragungen sind zum Beispiel per se mit einem Anschreiben verbunden, während telefonische Befragungen mit RDD-Nummern grundsätzlich ohne Anschreiben stattfinden müssen. Diesen und anderen Kollinearitäten wird in der multivariaten Analyse durch die Modellierung von Interaktionseffekten begegnet. Die unabhängigen Variablen werden also nicht wie in der Übersicht 1 dargestellt separat ins Modell eingeführt, sondern in spezifisch definierten Merkmalskombinationen. Dies betrifft die Merkmale Studientypus, Art der Kontaktaufnahme und Methode der Erhebung. Sie sind zu Merkmalskombinationen unter der Variable „Studiendesign“ zusammengefasst. Das Jahr der Erhebung, die Zielgruppe und die Art der Incentivierung werden als separate Kontrollvariablen verwendet.
5 Zielgruppenübergreifende Ergebnisse Auf der beschriebenen Datenbasis wurde die Veränderung bei den Stichprobenausschöpfungen in den vergangenen zehn Jahren untersucht und die Faktoren, welche den Grad der Ausschöpfung erklären, im Regressionsmodell kontrolliert. In einem ersten Schritt wurden zunächst alle 132 Studien einbezogen, für die bisher die wichtigsten Feldparameter in der Datenbank dokumentiert werden konnten. In einem zweiten Schritt konzentrierte sich 202
Sinkende Stichprobenausschöpfung in der Umfrageforschung
Übersicht 2: Multivariate Analyse: Einflussgrößen für die Stichprobenausschöpfung Regressionsmodell:
Y = LN (Nettoausschöpfung)
Jahr der Erhebung:
Beta-Koeffizient
1990er 2000 bis 2003
-0,15
2004, 2005
-0,01
2006, 2007
-0,06
Zielgruppe: Unternehmen, Betriebe, Behörden Personen, Haushalte allg.
0,00
Arbeitslose, Arbeitnehmer
-0,29
spez. Personengruppen
-0,09
Incentivierung: nein ja
0,02
Studientypus, Kontaktaufnahme und Methode: allg. Umfrage, kalt, telefonisch allg. Umfrage, mit Anschreiben, telefonisch
0,00
allg. Umfrage, kalt, persönlich
0,18
allg. Umfrage, mit Anschreiben, persönlich
0,16
allg. Umfrage, schriftlich
-0,17
Spezialerhebung, kalt, telefonisch
0,16
Spezialerhebung, mit Anschreiben, telefonisch
0,61
Spezialerhebung, kalt, persönlich
0,10
Spezialerhebung, mit Anschreiben, persönlich
0,16
Spezialerhebung, schriftlich
0,37
Alle Studien (N = 132); R-Quadrat (adjustiert): 0.22
die Analyse auf Haushalts- und Personenbefragungen, um weitere Aufschlüsse für die Optimierung dieser wohl wichtigsten Zielgruppen von Sozialforschungsvorhaben zu gewinnen. Die Ergebnisse dieser zweiten Analyserunde sind im Folgekapitel ausgeführt. Wenden wir uns zunächst der Frage zu, welche Einflussgrößen die Höhe der Stichprobenausschöpfung – über alle analysierten Sozialforschungsstudien hinweg betrachtet – determinieren. Übersicht 2 fasst die multivariate Analyse zusammen. Das Modell weist mit einem adjustierten R-Quadrat 203
Folkert Aust, Helmut Schröder
von 0,22 eine gemäßigte Erklärungskraft auf. Ergänzend werden im Folgenden auch die deskriptiven Verteilungen für einzelne Merkmale im Zeitvergleich hinzu gezogen. uebs02 Unter Kontrolle der Zielgruppen und der Erhebungsmethode belegt die Analyse durchgängig sinkende Stichprobenausschöpfungen im Zeitverlauf (Übersicht 2). Aktuelle Studien erreichen im Durchschnitt nicht mehr das Ausschöpfungsniveau, das noch in den neunziger Jahren erzielt wurde. Die Höhe der Ausschöpfung variiert allerdings erheblich zwischen den unterschiedlichen Studien. Die deskriptive Analyse verdeutlicht, dass bei allen befragten Zielgruppen die Ausschöpfungsquoten gesunken sind (Übersicht 3). Im multivariaten Modell wird unter Kontrolle des Zeitfaktors und der Erhebungsmethode deutlich, dass Organisationsbefragungen (Unternehmen, Betriebe und Behörden) und Personen- und Haushaltsbefragungen stabilere Ausschöpfungsquoten aufweisen als Befragungen spezieller Zielgruppen (Frauen, Jugendliche, behinderte Menschen) und speziell Befragungen von Arbeitnehmern und Arbeitslosen. Beide Zielgruppenbefragungen führten traditionell zu meist überdurchschnittlichen Ausschöpfungen, die sich im Zeitverlauf an die Ausschöpfung von Personen- und Haushaltsbefragungen angenähert haben. uebs03 Übersicht 3: Deskriptive Analyse: Ausschöpfungsquoten für Zielgruppen und Zeitverlauf Zielgruppe Jahr der Erhebung 1990er
4,5
2000 bis 2003 2004 und 2005
logarithmierte Ausschöpfungsquote
2006 und 2007 4,25
4
3,75
3,5 Personen, Haushalte allg. Arbeitslose, Arbeitnehmer Mittelwerte
204
spez. Personengruppen
Unternehmen, Betriebe, Behörden
Sinkende Stichprobenausschöpfung in der Umfrageforschung
Übersicht 4: Deskriptive Analyse: Ausschöpfungsquoten nach thematischem Bezug der Erhebung und Zeitverlauf Art der Erhebung Jahr der Erhebung 1990er
4,5
2000 bis 2003 2004 und 2005
logarithmierte Ausschöpfungsquote
2006 und 2007 4,25
4
3,75
3,5 Spezialerhebungen (Bezug spezifisch für Zielgruppe)
Mittelwerte
Umfragen (Bezug allgemein)
Übersicht 5: Deskriptive Analyse: Ausschöpfungsquoten nach Art der Kontaktierung und Zeitverlauf Art der Kontaktaufnahme Jahr der Erhebung 1990er
4,5
2000 bis 2003 2004 und 2005
logarithmierte Ausschöpfungsquote
2006 und 2007 4,25
4
3,75
3,5 Mittelwerte
kalt
Anschreiben
205
Folkert Aust, Helmut Schröder
Im Großen und Ganzen sind Face-to-Face-Befragungen weniger stark von den erschwerten Feldbedingungen betroffen als Telefonerhebungen und schriftliche Befragungen. Entscheidend für die Höhe der Stichprobenausschöpfung ist vor allem der unmittelbare Bezug des Untersuchungsthemas für die befragte Zielgruppe sowie der Zugang zu den befragten Populationen. Ist der Befragungsgegenstand speziell auf die Lage der Befragten zugeschnitten bzw. spricht die Untersuchung die Befragten als spezielle Zielgruppe für Programme und Interventionen an, liegen die Teilnahmequoten signifikant über den Quoten bei allgemeinen Umfragen ohne unmittelbare Zielgruppenrelevanz (Übersicht 4, S. 205). In der zeitlichen Entwicklung haben sich Spezialuntersuchungen im Erhebungsfeld insgesamt besser behauptet als allgemeine Umfragen. uebs04+05 Kontrolliert wurde auch die Art der Kontaktaufnahme zu den befragten Zielgruppen. Die deskriptive Analyse deutet darauf hin, dass bei Studien mit vorherigem Anschreiben an die Befragten im Zeitverlauf ebenso rückläufige Ausschöpfungsquoten zu beobachten sind wie bei so genannten „Kaltstudien“, bei denen der erste Kontakt durch den Interviewer erfolgt. Allerdings führt auch heute noch die vorherige Kontaktierung zu einer besseren Ausschöpfung als Kaltakquisen (Übersicht 5, S. 205). Auch für die kombinierte Variable „Studiendesign“ weist das Modell klar interpretierbare Befunde aus: Gemessen an nahezu allen anderen Studienformen erzielen telefonische Umfragen ohne speziellen thematischen Bezug zur Zielgruppe die schlechtesten Ausschöpfungen. Auch ein persönliches Anschreiben verbessert die Ausschöpfungswahrscheinlichkeit nicht spürbar. Dagegen sind Telefonerhebungen mit einem speziellen Zielgruppenbezug deutlich erfolgreicher. Insbesondere wenn dies mit einem persönlichen, vorbereitenden Anschreiben verbunden ist. Persönliche Befragungen, seien es allgemeine Umfragen oder Spezialstudien, haben insgesamt eine bessere Realisierungsquote als allgemeine Telefonumfragen. Bei schriftlichen Erhebungen kommt es entscheidend darauf an, wie sehr die Befragten unmittelbar vom Gegenstand der Erhebung betroffen sind. Allgemeine Umfragen haben noch schlechtere Realisierungsmöglichkeiten als Telefonumfragen. Schriftliche Spezialuntersuchungen sprechen dagegen die befragte Population besser an und führen zu einer deutlich besseren Ausschöpfungsquote. Bei den Auswertungen wurde auch der Einsatz von Incentives kontrolliert. Weder die deskriptive Analyse noch das multivariate Modell führen zu klaren Befunden. Die Wirkung von Incentives scheint danach äußerst gering 206
Sinkende Stichprobenausschöpfung in der Umfrageforschung
zu sein. Sie können die insgesamt abgenommene Teilnahmebereitschaft der Befragten offensichtlich nicht spürbar kompensieren. An dieser Stelle ist allerdings ein deutlicher Vorbehalt zu formulieren. Die Zahl der Studien mit Einsatz von Incentives ist für eine belastbare Bewertung sehr gering, zumal die Varianz der eingesetzten Incentives groß ist. Hier ist weitere Beobachtung und empirische Prüfung erforderlich.
6 Entwicklung bei Bevölkerungsbefragungen Die im vorangegangenen Abschnitt dargestellten Befunde beziehen sich auf sämtliche 132 Studien und schließen Betriebs- und Organisationsbefragungen mit ein. Es ist deshalb sinnvoll, abschließend die Auswertung noch einmal auf Personen- und Haushaltsbefragungen zu konzentrieren. Diese Befragungen stehen zumeist im Fokus sozialwissenschaftlicher Erhebungen und dürften vermutlich die besondere Aufmerksamkeit bei Soziologen genießen. Die im Folgenden vorgestellten Ergebnisse basieren auf 95 Studien. Bedingt durch die wesentlich homogenere Zielgruppe dieser Analyse sinkt die aufgeklärte Varianz im Regressionsmodell auf 0,13 (Übersicht 6, S. 208). Im Wesentlichen bestätigen sich die Befunde, die zuvor für die Gesamtheit der Studien berichtet wurden, auch für das Segment der Personen- und Haushaltsbefragungen. Im Vergleich zu den Basiszahlen aus den neunziger Jahren sinken die Ausschöpfungen bis heute spürbar. Insbesondere schriftliche Erhebungen und Telefonbefragungen mit allgemeinen, nicht die Zielgruppe berührenden Themenstellungen sind am stärksten von einer geringeren Teilnahmebereitschaft der befragten Populationen betroffen. Im Zeitverlauf haben allerdings auch die ehemals stärker akzeptierten, telefonischen Spezialuntersuchungen an Realisierungschancen verloren. Die Ausschöpfungsquoten haben sich denen allgemeiner Face-to-Face-Erhebungen angenähert (Übersicht 7, S. 209). uebs07 Ein gerne genutztes Mittel zur Aktivierung der Teilnahmebereitschaft ist die vorherige schriftliche Information der Befragten mittels eines Anschreibens. Ohne Berücksichtigung des Studiendesigns zeigt sich die in Übersicht 8 (S. 209) dargestellte Entwicklung: Im Allgemeinen gilt, dass Anschreiben für persönliche Befragungen Erfolg versprechender sind als bei telefonischen Befragungen, da die Befragten bei der Entgegennahme eines Telefonanrufs sehr viel spontaner entscheiden. Die Rate der Kontaktabbrüche bereits gleich zu Beginn des Gesprächs durch unkommentiertes Auflegen des Telefonhörers verdeutlicht die Schwierigkeit, überhaupt einen Kon207
Folkert Aust, Helmut Schröder
Übersicht 6: Multivariate Analyse: Einflussgrößen für die Stichprobenausschöpfung bei Bevölkerungsbefragungen Regressionsmodell:
Y = LN (Nettoausschöpfung)
Jahr der Erhebung:
Beta-Koeffizient
1990er 2000 bis 2003
-0,18
2004, 2005
-0,03
2006, 2007
-0,22
Zielgruppe: spez. Personengruppen Personen, Haushalte allg.
0,04
Arbeitslose, Arbeitnehmer
-0,17
Incentivierung: nein ja
0,08
Studientypus, Kontaktaufnahme und Methode: allg. Umfrage, kalt, telefonisch allg. Umfrage, mit Anschreiben, telefonisch allg. Umfrage, kalt, persönlich allg. Umfrage, mit Anschreiben, persönlich allg. Umfrage, schriftlich Spezialerhebung, kalt, telefonisch
-0,05 0,18 0,05 -0,11 0,16
Spezialerhebung, mit Anschreiben, telefonisch
0,49
Spezialerhebung, kalt, persönlich
0,08
Spezialerhebung, mit Anschreiben, persönlich Spezialerhebung, schriftlich Personenbefragungen (N =95); R-Quadrat (adjustiert): 0.13
0,26 -0,04
takt zum Befragten aufzubauen, bei dem auch ein Bezug zum zugesandten Brief hergestellt werden könnte. Telefonische Verkaufs- und Marketingaktionen haben offensichtlich tiefe Spuren im Kommunikationsverhalten der Bevölkerung hinterlassen. Das Regressionsmodell zeigt allerdings, dass ein solches Anschreiben vor allem bei Spezialerhebungen wirksam ist. Bei allgemeinen Umfragen kann es seine Wirkung dagegen nicht in ähnlicher Weise entfalten. ue08 208
Sinkende Stichprobenausschöpfung in der Umfrageforschung
Übersicht 7: Deskriptive Analyse: Ausschöpfungsquoten bei Bevölkerungsbefragungen nach Erhebungsmethode und Zeitverlauf Methode und Studientypus Jahr der Erhebung
4,5
bis 2003 2004 und 2005
logarithmierte Ausschöpfungsquote
2006 und 2007
4,25
4
3,75
3,5 Mittelwerte
persönlich - allgemein
telefonisch - spezifisch
telefonisch - allgemein
schriftlich - spezifisch
Übersicht 8: Deskriptive Analyse: Ausschöpfungsquoten bei Bevölkerungsbefragungen nach Erhebungsmethode, Art der Kontaktierung und Zeitverlauf Methode und Kontaktierung Jahr der Erhebung
4,5
bis 2003 2004 und 2005
logarithmierte Ausschöpfungsquote
2006 und 2007
4,25
4
3,75
3,5
Mittelwerte
persönlich - mit Anschreiben
telefonisch - kalt
telefonisch - mit Anschreiben
schriftlich
209
Folkert Aust, Helmut Schröder
7 Zusammenfassung und Ausblick „Haben Umfragen ausgedient?“ Diese Leitfrage der Frühjahrstagung der Methodensektion dürfen wir nach den vorgestellten Ergebnissen mit Fug und Recht verneinen. Die noch recht holzschnittartigen Auswertungen auf der Basis einer im Aufbau befindlichen Methodendatenbank demonstrieren, dass die Ausgangsfrage zu stark vereinfachend formuliert ist. Die Analyse belegt zwar sinkende Stichprobenausschöpfungen im Laufe von gut einer Dekade bei allen ausgewerteten Sozialforschungsstudien. Allerdings sind die Studien in Abhängigkeit von der Erhebungsmethode und dem Studiendesign unterschiedlich stark von dieser Entwicklung betroffen. Bei Face-to-Face-Erhebungen haben sich die Stichprobenausschöpfungen im Zeitvergleich am stabilsten gehalten. Und auch Telefonerhebungen mit unmittelbarem thematischen Bezug zu den Befragten laufen auch heute vergleichsweise gut. Die vorgelegten Ergebnisse zeigen allerdings auch, dass es einiger Anstrengungen bedarf, um diese Ausschöpfungsquoten zu erzielen. Insbesondere Studien mit einer Personenstichprobe, die zuvor durch ein Anschreiben informiert und umworben wird, erzielen bessere Feldergebnisse. Problematischer stellt sich allerdings die abnehmende Teilnahmebereitschaft insbesondere bei allgemeinen telefonischen Bevölkerungsumfragen dar. Kaltanrufe und selbst durch Anschreiben unterstützte Erhebungen können die rückgängige Teilnahmebereitschaft nicht auffangen. Für alle Studien, speziell aber bei allgemeinen Bevölkerungsumfragen, ist eine Palette von ausschöpfungssteigernden Maßnahmen erforderlich. Zu diesem Portfolio gehört die Konvertierung von schwer motivierbaren Zielpersonen im Rahmen von Nonresponsestudien. Dabei lassen sich zwischen acht und zehn Prozent dieser Population doch noch zur Teilnahme am Interview gewinnen. Stärker als bislang muss auch der Einsatz von Mixed-Mode-Designs ins Auge gefasst werden. Um die Selektivität von CATI-Erhebungen zu kontrollieren, ist es sinnvoll, eine Teilstichprobe face-to-face zu befragen, um Anhaltspunkte für Selektivitätsschätzer zu gewinnen. Selbstkritisch anzumerken ist an dieser Stelle die noch schwache Datenlage, auf der die vorgestellten Ergebnisse gewonnen wurden. Für einen ersten Zugang zu der Fragestellung bildeten die 132 Erhebungen eine hinreichend stabile Grundlage. Mehr Stabilität und differenziertere Analysen erfordern allerdings eine Verlängerung der Zeitreihe, indem neue Studien und weitere Studien der neunziger Jahre in die Datenbank eingepflegt werden. Der Fit der Modelle signalisiert auch noch Optimierungsbedarf bei den Kovariaten. In einem nächsten Schritt werden weitere feldrelevante Daten wie 210
Sinkende Stichprobenausschöpfung in der Umfrageforschung
die Länge der Feldzeit (ggf. auch Jahreszeit) und die Stichprobenquelle (Einwohnermeldedaten, Random Route, Telefonlistenauswahl, Random Digit Dialing usw.) kontrolliert. Diese Angaben werden derzeit vervollständigt. Die noch unzureichende Datenbasis kommt auch in der unbefriedigenden Erklärungskraft der Modelle zum Ausdruck. Dies zeugt davon, dass ausschlaggebende Faktoren noch nicht ausreichend berücksichtigt sind. In der Tat lässt sich mit den erfassten Kovariaten ein Sachverhalt noch nicht hinreichend abbilden. Die abnehmenden Realisierungsquoten sind offensichtlich weniger stark durch eine Zunahme der Verweigerungen bedingt als durch eine sinkende Erreichbarkeit der Zielgruppen: erhöhte Mobilität und Abwesenheitszeiten jüngerer Zielgruppen bei gleichzeitig erhöhter Neigung, sich nicht in Telefonverzeichnissen führen zu lassen, erhöhter Anteil von Handynutzung, häufigerer Wechsel des Providers mit entsprechendem Wechsel der Telefonnummer, Abschottung der Privatsphäre durch vorgeschaltete Anrufbeantworter und nicht zuletzt auch Probleme der Wiederauffindbarkeit nach Umzügen selbst bei intensiven Einwohnermelderecherchen. Einen Teil der Erreichbarkeitsprobleme versucht man durch eine entsprechend längere Feldzeit resp. durch Erhöhung der Kontaktversuche zu begegnen, um zumindest die Chance für häufig Abwesende (Not-at-Homes) zu begegnen. Dies löst allerdings die Wiederauffindungsprobleme bei (spurenlosem) Wechsel der Adresse und des Telefonanbieters nur unzureichend. Unbefriedigend ist auch der Kenntnisstand über die Wirkung von Incentives. Es darf zwar als gesichert gelten, dass finanzielle oder geldwerte Anreize eine unmittelbarere Wirkung entfalten als Sachwerte. Über die erforderliche Höhe und den Grenznutzen besteht allerdings erhebliche Unsicherheit. Auch die Hypothese, dass Incentives bei den Zielgruppen unterschiedlich wirken, lässt sich auf unserer Datenbasis derzeit noch nicht befriedigend prüfen. Diese Aggregatanalysen können experimentelle Studien, mit denen Verbesserungen des Feldinstrumentariums getestet werden, nicht ersetzen. Erforderlich sind insbesondere Untersuchungen zum Grenznutzen von Incentivierungen oder auch Studien zum Mixed Mode. Trotz dieser Einschränkungen geben die vorgestellten Aggregatanalysen aber auch Anhaltspunkte für die Weiterentwicklung von Studiendesigns. Durch den komparativen Vergleich zwischen Studien im Zeitverlauf wurden bei Konstanthaltung der „Institutshandschrift“ und unter Kontrolle der historischen Entwicklung einige Einflussgrößen auf die Stichprobenausschöpfung isoliert. Diese Analysen haben trotz der noch schmalen Datenlage zwei Dinge deutlich gemacht: Bei der Diskussion darüber, ob Umfragen ausgedient haben, ist eine differenzierende Argumentation erforderlich. Auch wenn die Umfrageforschung mit einer insgesamt abnehmenden Mit211
Folkert Aust, Helmut Schröder
wirkungsbereitschaft der Befragten konfrontiert ist, gibt es durchaus Ansatzpunkte für Studiendesigns, die größere Akzeptanz genießen und mitgetragen werden. Zum zweiten ist es zwingend erforderlich, angezielte Stichprobenausschöpfungen stärker an faktischen Entwicklungen als am methodisch Gewünschten festzumachen. Hier müssen von allen Beteiligten auch differenzierende empirische Fakten zu Kenntnis genommen werden.
Anmerkungen 1
2
3
4
Vortrag anlässlich der Frühjahrstagung der Sektion Methoden der Empirischen Sozialforschung der DGS „Umfragen als Methoden: Hat sie ausgedient?“ Bonn, 7.–8. März 2008. Zu diesen Studien zählen so bekannte Studien wie der European Social Survey (ESS), die European Value Study (EVS), Survey of Health, Ageing and Retirement in Europe (SHARE), Alterssurvey, Jugendsurvey, Erhebungen der Hartz-Evaluation usw. Eine detaillierte Darstellung der Klassifikation würde den Rahmen dieses Artikels sprengen. Eine gute Übersicht findet sich in dem Artikel der American Association for Public Opinion Research 2006. Die Zuordnung erfolgte durch die Autoren, denen die meisten Studien aus der eigenen Mitwirkung bekannt sind, sowie durch Rückbindung an die verantwortlichen ProjektleiterInnen.
Literatur American Association for Public Opinion Research. (2006): Standard Definitions. Final Dispositions of Case Codes and Outcome Rates for Surveys. Abgerufen am 07.03.2008, von American Association for Public Opinion Research Web Site: http:// www.aapor.org/responseratesanoverview. Kruskal, W., & Mosteller, F. (1979a). Representative Sampling I. International Statistical Review, 47, 13–24. Kruskal, W., & Mosteller, F. (1979b). Representative Sampling II. International Statistical Review, 47, 111–127. Kruskal, W., & Mosteller, F. (1979c). Representative Sampling III. International Statistical Review, 47, 245–265. Kruskal, W., & Mosteller, F. (1979d). Representative Sampling IV. International Statistical Review, 47, 169–195. Rendtel, U., & Pötter, U. (1992). Über Sinn und Unsinn von Repräsentativitätsstudien. DIW Diskussionspapier Nr. 61. Berlin. Deutsches Institut für Wirtschaftsforschung. Smith, Tom W. (2003). A Review of Methods to Estimate the Status of Cases with Unknown Eligibility. Abgerufen am 07.03.2008, von American Association for Public Opinion Research Web Site: http://www.aapor.org/responserates.
212
Volker Hüfken
Volker Hüfken
Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“ „Drop-off“-Erhebungen im Rahmen der Allgemeinen Bevölkerungsbefragung (ALLBUS) 2004 Zusammenfassung Im Rahmen von persönlich-mündlichen Befragungen sind schriftliche „dropoff“-Erhebungen seit langem üblich. Insbesondere im Bereich sensitiver Themen kommt diese Erhebungsform häufig zum Einsatz. Dennoch wird eher selten die Problematik von Ausfällen bzw. der Teilnahme behandelt. Im vorliegenden Beitrag wird am Beispiel der ISSP-Erhebungen (International Social Survey Programm) der Frage nachgegangen, ob und in welchem Ausmaß es zu Ausfällen bzw. Teilnahmeverweigerungen kommt. In Ergänzung zu den demographischen und sozioökonomischen Ausfallursachen wird untersucht, ob es bei den hier untersuchten Einthemenbefragungen „Bürger und Staat 2004“ und „Nationale Identität 2003“ zu einer selektiven Teilnahme kommt. Im Mittelpunkt der Analysen stehen dabei das politische Interesse, postmaterialistische Wertorientierungen sowie die Lesekompetenz.
Abstract ISSP participation, Citizenship 2004, and National Identity 2003 Drop-off questionnaires within the German General Social Survey (ALLBUS 2004) Within the scope of personal interviews, self-administered questionnaires carried out as drop-off have been commonly used for a long time, particularly in the range of sensitive topics. However, questions with regard to non-response or participation have rarely been discussed. This study will examine if and to which extent refusal of participation happens at the example of the ISSP questionnaires (International Social Survey Program), which were carried out in the framework of the German General Social Survey 2004 (ALLBUS). In addition to the demographic and socioeconomic drop-out causes this study will examine whether the questionnaires ,Citizenship 2004‘ and ,National Identity 2003‘ dealing with one subject only, lead to selective participation. Political interest, postmaterialistic values as well as reading ability and health indicators are the focus of the analysis.
213
Volker Hüfken
1 Einleitung und Problemstellung Schriftliche Befragungen, die im Anschluss an ein persönlich mündliches Interview durchgeführt werden, sind in der Umfrageforschung seit langem üblich. Dillman (1983, 373) stellt diese Erhebungsform für unterschiedliche Fragestellungen und den damit verbundenen Vorteilen dar. In Rückgriff auf die Arbeiten von Sudman & Bradburn (1974) werden von Dillman insbesondere die positiven Effekte auf die Antwortqualität bei sensitiven Themen dargestellt. Weniger klar ist die Befundlage über das Ausmaß der Teilnahme an solchen zusätzlichen schriftlichen Interviews. Wie aus einer Übersicht für den ISSP aus dem Jahr 1995 zu entnehmen ist, werden in drop-off-Erhebungen, je nach Ausfallberechnung1, Teilnahmequoten von 50–80% erzielt (Couper & de Leeuw 2003, 161). Auch in internationalen Altenstudien wie im SHARE-Projekt (Börsch-Suspan & Jürges 2005) wurden schriftliche Zusatzerhebungen im Rahmen der persönlich-mündlichen Befragung als drop-off durchgeführt. Vergleicht man die erzielten Responseraten, so konnten auch im SHARE-Projekt, über alle Länder hinweg, Quoten von 70–93% erzielt werden (De Luca & Peracchi 2005, 100). Schwankungen die, so die Arbeiten von De Heer (1999), De Heer & De Leeuw (2002) und Billiet et al. (2007), für international vergleichende Bevölkerungsumfragen durchaus üblich sind. Aber auch auf nationaler Ebene variieren die Teilnahmequoten. Anzunehmen ist daher, dass nicht nur kulturelle Aspekte, sondern auch der Umfang, die Themen und unterschiedliche Prozeduren der Erhebung mitverantwortlich für die Schwankungen in den Responseraten sind.2 So verweisen Herzog & Kulka (1989, 71) auf den Einsatz von Nachfassaktionen die eine Steigerung der Responserate, von ca. 60 auf über 80% bei hinterlegten Fragebögen, erzielen könnten. Schaut man sich daraufhin die Prozeduren der drop-off-Erhebung im „Interviewer Project Manual“ des SHARE-Projekt etwas genauer an, so zeigen sich dort unterschiedliche Vorgehensweisen.3 Welche Vorgehensweise sich im Hinblick auf die Teilnahme als die brauchbarere Variante erweist, scheint relativ klar. „When the supplement is also conducted by personal interview immediately after the main interview nonresponse will be minimized“ (Sheatsley 1984, zitiert aus Smith 1987). „Der Grund dafür liegt darin, dass diese Art des Drop-off’s von den meisten Befragten als kontinuierliche Fortsetzung des eigentlichen Interviews empfunden wird“ (Schnell 1997, 144). Ähnlich argumentieren Noelle-Neumann, & Petersen (2005, 316): „Er sorgt jeweils dafür, das der Fragebogen nicht unbeantwortet liegen bleibt, wodurch die Gefahr der Verzerrung der Stichprobe durch Ausfälle vermieden wird. Außerdem kann er darauf achten, dass die Auskunftsperson den Bogen allein ausfüllt, ohne sich mit Familienangehörigen zu beraten.“ 214
Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“
In einer Arbeit von Becker & Günther (2004) zum delinquenten Verhalten, konnte auf der Basis der Allgemeinen Bevölkerungsumfrage (ALLBUS 2000) gezeigt werden, dass sich der Anteil der Verweigerer durch die Anwesenheit des Interviewers auf maximal 13,2 Prozent belief. Aber auch bei dieser Vorgehensweise sind die Quoten nicht konstant. Schaut man sich die Ausschöpfungsquoten der im Rahmen des International Social Survey Program (ISSP) durchgeführten Erhebungen für die Bundesrepublik Deutschland der vergangenen Jahren genauer an, variieren diese nicht nur über die Zeit, sondern verlaufen auch je nach Region, hier der Vergleich zwischen West- und Ostdeutschland, unterschiedlich (Tabelle 1). Trotz der vergleichbaren Erhebungsbedingungen4 einschließlich der Anwesenheit des Interviewers, variieren die Ausschöpfungsquoten5. tab01 Tabelle 1: Completion Rate und Response Rate des ISSP in der Zeit von 1999 bis 2004 Jahre 1999 2000 2001 2002 2003 2004 2005
West Resp.b Compl.a 36,0 38,5 40,9 41,1 34,7 36,3 34,8
42,2 45,2 46,0 45,7 38,9 40,2 39,2
Ost Compl. Resp. 43,6 44,9 41,8 41,2 38,7 38,5 41,1
49,8 51,8 46,5 45,5 43,6 42,6 45,2
Gesamt Compl. Resp. 38,4 40,5 41,2 41,1 35,9 36,9 36,7
44,6 47,2 46,1 45,6 40,4 40,9 41,2
Quelle: Zentralarchiv für Empirische Sozialforschung 2006. a Completions/total sample issued (issp Codebook). b Completions/eligible sample. Eigene Berechnung auf der Basis der Angaben im ISSP codebook.
In der vorliegenden Arbeit werden jedoch weniger die ost-west-spezifischen noch die zeitlichen Aspekte des Ausfalls näher untersucht, sondern es wird primär der Frage nachgegangen, welche Gruppen sich der weiteren Teilnahme an den ISSP-Erhebungen, die im Anschluss an ein persönlichmündliches Interview – der Allgemeinen Bevölkerungsumfrage (ALLBUS 2004) – durchgeführt wird, entziehen bzw. verweigern. Da es sich beim ISSP um eine schriftliche Befragung handelt, ist davon auszugehen, das eher6 solche Befragtengruppen ausfallen, wie sie in der o. g. Arbeit von Becker und Günther und der allgemeinen Literatur zur schriftlichen Befragung berichtet werden. 215
Volker Hüfken
Danach sind insbesondere Personen aus unteren sozialen Schichten, Ältere7, allein lebende, gesundheitlich Beeinträchtigte und Immigranten – diese insbesondere auf Grund der sprachlichen Schwierigkeiten – weniger teilnahmebereit (vgl. u. a. Mangione 1995; Cohen & Duffy 2002; Couper & de Leeuw 2003). Auch wird im Rahmen selbstadministrierter Erhebungen darüber berichtet, dass es zu einer stärkeren selektiven Teilnahme in Abhängigkeit vom Thema der Untersuchung kommt (Groves et al. 2006). Dies scheint jedoch nicht auf den Modus der Datenerhebung allein begrenzt. Mündliche Befragungen mit einer entsprechenden Themenschwerpunktsetzung zeigen ähnliche Selektionsmuster. So konnte beispielsweise im Rahmen von Wahlstudien (u. a. Couper 1997; Loosveldt et al. 2002; Voogt & Van Kampen 2002) oder auch im Kontext zentraler gesellschaftspolitischer Ereignisse, wie der Volkszählung in der Bundesrepublik Deutschland (Scheuch et al. 1989), der Einfluss des politischen Interesses auf die Teilnahme dargelegt werden. Die Teilnahme an Umfragen, so die Ergebnisse auf der Basis des Schweizer Haushalts-Panel, scheint jedoch nicht nur vom Interesse an Politik, sondern vom sozialen wie auch vom politischen Engagement mitbestimmt (Lipps 2007) zu sein – Befunde, wie sie bei Brehm (1993) oder bei Voogt & Saris (2003) in vergleichbarer Weise berichtet werden. Wenn nun politisches Engagement, wie die Beteiligung an Demonstrationen, Streiks oder Boykottaufrufen, einen Ausdruck veränderter politischer Partizipation darstellt, so ist dies nach Inglehart (1997, 43) eher unter den Personen zu beobachten, deren Wertorientierungen diese Beteiligungsformen eher präferieren. Demzufolge sollten Personen mit postmaterialistischen Wertorientierungen sich eher an Umfragen beteiligen als Personen mit materialistischen Wertorientierungen. Bezüglich der Voraussetzung zur Teilnahme an selbstadministrierten Befragungen wird schon in früheren Arbeiten (Goode & Hatt 1952, 1965) auf die Schreib- und Lesekompetenz verwiesen. Berücksichtigt man den Anteil der funktionellen Analphabeten in der Bundesrepublik Deutschland, so dürfte dieser bei ca. 1 bis 6% der Gesamtbevölkerung liegen (Schnell 1991). Döbert & Hubertus (2000, 25) gehen von einer vergleichbaren Größenordnung aus – sie berichten von 4 Millionen Personen. Ergänzend kommt hinzu, das Personen, die zu schreiben gewohnter sind, so Eckardt (1969, 13), oder eine größere Vertrautheit mit der Schriftform mitbringen, so Scheuch (1973, 126), sich an schriftlichen Befragungen vermutlich besser oder auch eher beteiligen. Turner et al. (1992, 304) verweisen auf das Problem der Lesefähigkeit im Rahmen des National Household Survey of Drug Abuse (NHSDA): „The use of self-administered answer sheets (as well as CASI) does pose a serious problem when surveying persons with poor reading skills. For this segment of the population (estimated to be 10 to 20 percent of U. S. adult), . . . from this seg216
Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“
ment of the population will be less complete obtained from respondents receiving the self-administered version of the survey.“ Bezieht man die Ergebnisse aus dem National Adult Literacy Survey von 1990 in die Betrachtung mit ein, so berichten Kirsh et al. (1993, 16) sogar von „nearly one-fourth of the U. S. adult population has extremely limited literacy in English“. Neuere Berechnungen gehen von ca. 20 Prozent aus (Kaestle et al. 2001). Dies so Tourangeau et al. (2000, 303) hätte entsprechende Folgen: „Individuals at this level of literacy are likely to have difficulty completing all but the simplest questionnaires and, in some cases, even that will exceed their ability to process written material. The level of cognitive difficulty associated with the method of date collection is likely to affect both the proportion of the sample able to participate in the survey and the rate of missing data among those who do take part.“ Der im Rahmen des 1990er-Zensus durchgeführte Survey of Census Participation (SCP) zeigt erstmalig in einer groß angelegten Studie, dass „literacy und facility with English“ die Teilnahme am Zensus beeinflusste (Couper, & Singer, & Kulka 1998). Inwiefern allein die Lesefähigkeit oder die berufsbedingte Vertrautheit mit Schriftlichem oder nicht auch die mit der Lesefähigkeit assoziierten kognitiven Kompetenzen (Conlon et al. 2006) für eine Teilnahme an Umfragen mitverantwortlich sind, ist bisher ungeklärt.
2 Zielsetzung und Vorgehen In der folgenden Untersuchung geben zunächst Ausfallanalysen auf der Ebene sozialer Merkmale8 Aufschluss darüber, in welchen Subgruppen eine Fortführung des Interviews erfolgreich verlief oder es zu bekannten Mustern des Ausfalls kommt. Unter Einbeziehung gesundheitsrelevanter Merkmale9 soll geklärt werden, inwieweit temporäre oder chronische Erkrankungen einer weiteren Teilnahme entgegenstehen. Gesellschaftliche, kulturelle oder politische Merkmale10 und deren Einfluss auf die Teilnahme werden anhand des Postmaterialismus-Index, der Häufigkeit des Lesens von Büchern11 und den Angaben zum politischen Interesse untersucht. Da die Merkmale untereinander korreliert sind (z. B. haben jüngere Personen häufiger einen höheren Schulabschluss, sind eher ledig oder sind gesundheitlich weniger eingeschränkt oder, wie Kirsh berichtet [1993, 52], „Respondents who reported having any type of physical, mental, or health condition demonstrated much more limited literacy skills than those in the population as a whole.“), wurden multivariate Berechnungen durchgeführt. Inwieweit die demographischen und sozioökonomischen Einflüsse auf die Teilnahme eigenständige oder auf gesundheitliche oder 217
Volker Hüfken
gesellschaftliche, kulturelle oder politische Merkmale zurückzuführen sind, wird mittels schrittweiser logistischer Regressionen, anhand von vier Modellen, analysiert. Im Ausgangsmodell werden zunächst alle demographischen und sozioökonomischen Merkmale in die Analyse einbezogen. Im anschließenden zweiten Modell werden zu den demographischen und sozioökonomischen die gesundheitsbezogenen Merkmale und im dritten Modell statt der gesundheitsbezogenen Merkmale, Merkmale mit gesellschaftlichem, kulturellem und politischen Bezug analysiert. Im vierten Modell gehen abschließend alle genannten Merkmale in die Analyse ein. Basis der vorliegenden Arbeit bildet eine Sekundäranalyse der „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) aus dem Jahre 2004. Grundgesamtheit sind alle erwachsenen Personen, die in der Bundesrepublik Deutschland in Privathaushalten wohnen (Haarman et al. 2006, 12). Im Rahmen einer computerunterstützten mündlichen Befragung (computer assisted personal interview: CAPI) wurden insgesamt 2946 Personen befragt, wobei im Anschluss an das persönlich-mündliche Interview im Split bei jeweils der Hälfte12 der Befragten der schriftliche Fragebogen der ISSP-Module „Bürger und Staat“ und „Nationale Identität“ als drop-off übergeben wurde. 1287 Personen haben sich am Zusatzmodul „Nationale Identität“ und 1332 am Modul „Bürger und Staat“ beteiligt. Insgesamt haben 337 Personen an keiner der beiden ISSP-Befragungen teilgenommen. Unter Berücksichtigung des disproportionalen Stichprobenansatzes13 ergibt dies einen Anteil von 11,4 Prozent14. Ausfälle auf Frageebene, insbesondere beim Einkommen aber auch beim Berufsprestige (nicht zuzuordnen), Postmaterialismusindex und chronischen Erkrankungen, wurden von der Analyse nicht ausgeschlossen. Dies geschah aus unterschiedlichen Überlegungen. In multivariaten Berechnungen hätte der Ausschluss fehlender Werte15 eine erhebliche Reduzierung der Fallzahl und bei den Parameterschätzungen Ungenauigkeiten zur Folge gehabt. Darüber hinaus kann auf aktuelle Arbeiten zum Zusammenhang von item-nonresponse und unit-nonresponse (Loosveldt et al. 2002; Mason et al. 2002) Bezug genommen werden.
3 Ergebnisse Wie den Angaben aus Tabelle 2 zu entnehmen ist, weichen die Ausfälle in den einzelnen Subgruppen meist nur um wenige Prozentpunkte von der Gesamtausfallquote (11,4 Prozent) ab. Die geringen Abweichungen drücken sich auch in den schwachen Korrelationen aus. Dennoch konnten insge218
Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“
samt für acht der fünfzehn Befragtenmerkmale signifikante Unterschiede ermittelt werden. Bei zwei Merkmalen (Einkommen und chronische Erkrankung) ist dieser Zusammenhang jedoch allein durch die Nichtbeantwortung – item-nonresponse – der jeweiligen Frage verursacht. Geschlechtsspezifische Unterschiede bezüglich der Teilnahme am ISSP konnten nicht ermittelt werden. Auch zeigen sich in den einzelnen Altersgruppen kaum Unterschiede. Lediglich bei den über 75-Jährigen liegt der Anteil der Nicht-Teilnahme mit 15,5 Prozent um vier Prozentpunkte über dem Durchschnitt. Personen ohne einen Schulabschluss verweigern überproportional die Teilnahme an der ISSP-Erhebung. Dies gilt auch für Schüler und in noch stärkerem Maße für die Personen, die einen anderen Schulabschluss haben. Personen, die in einem Haushalt mit einem hohen Einkommen leben, beteiligen sich stärker als diejenigen mit einem niedrigen Einkommen. Werden die Angaben zum Einkommen verweigert bzw. werden keine Angaben gemacht, sind es auch diejenigen Personen, die eine Teilnahme an der dropoff-Erhebung überproportional verweigern. Hinsichtlich der Erwerbstätigkeit und des Berufsprestiges, hier nach Treiman eingruppiert, lässt sich lediglich für die Personengruppe, deren Berufsprestige „nicht zuzuordnen“16 ist, eine deutlich höhere Ausfallrate beobachten. Dies verwundert, da die Vertrautheit mit der Schriftform in Berufspositionen mit einem hohen Prestigewert eher Alltag der beruflichen Tätigkeit oder es zumindest weitaus üblicher ist als bei Personen in Berufen mit einem niedrigeren Prestigewert. Beim Familienstand sind es die Geschiedenen und die verheiratet getrennt Lebenden, bei denen eine stärkere Teilnahme zu beobachten ist als bei denen, die verheiratet zusammenleben oder verwitwet sind. Aber auch in dieser Gruppe fällt die Differenz mit maximal fünf Prozentpunkten eher niedrig aus. Anders dagegen bei den Personen, die mehr als eine oder keine Staatsangehörigkeit haben. Deren Ausfall liegt mit 21% weit über dem Durchschnitt. Hinsichtlich gesundheitlicher Beeinträchtigungen, gesellschaftlicher und kultureller Orientierungen sind die Ausfälle zwar für fünf der sechs verwendeten Merkmale signifikant, jedoch ist das Ausmaß mit wenigen Prozentpunkten gering. Bezogen auf die gesundheitliche Lage zeigt sich ein kurvilinearer Verlauf. So nehmen die Personen an der weiteren ISSP-Erhebung nicht teil, die ihre Gesundheit als sehr gut, weniger gut oder schlecht einschätzen. Unterschiede in der Teilnahme bei chronisch Erkrankten oder Personen mit einer akuten Erkrankung konnten nicht ermittelt werden. Ähnlich wie zuvor beim Einkommen und beim Berufsprestige, so sind es auch hier diejenigen, die überproportional die Teilnahme am ISSP verweigern, die zuvor die Frage nach chronischen Erkrankungen und zum Postmaterialismus unbeantwortet ließen. tab02 219
Volker Hüfken
Tabelle 2: Nichtteilnahme vs. Teilnahme nach Befragtenmerkmalen der ISSP-Zusatzerhebungen im ALLBUS 2004 (in%) NichtTeilnahme Teilnahme (n = 2.619) (n = 327)
Variable Gesamt
11,4
88,6
Geschlecht ϕ = –0,00
Männlich Weiblich
11,2 11,6
88,8 88,4
Alter Cramérs V = 0,05+
18–29 Jahre 30–44 Jahre 45–59 Jahre 60–74 Jahre 75 Jahre und mehr
10,7 10,0 13,2 10,7 15,5
89,3 90,0 86,8 89,3 84,5
Bildung Cramérs V = 0,04
Ohne Abschluss Volks-/Hauptschule Mittlere Reife Fachhochschulreife Hochschulreife Anderer Abschluss Schüler
14,7 12,2 9,6 11,4 11,7 22,2 16,7
85,3 87,8 90,4 88,6 88,3 77,8 83,3
Einkommen Cramérs V = 0,11***
bis 999 1.000–1.999 2.000–2.999 3.000–3.999 4.000–4.999 5.000 und mehr verweigert k. A.
11,0 10,9 13,0 7,6 10,0 7,1 14,2 35,4
89,0 89,1 89,2 90,2 88,2 92,9 85,8 64,6
Erwerbstätigkeit Cramérs V = 0,04
ganztags halbtags nebenher nicht erwerbstätig
10,3 9,5 11,9 12,6
89,7 90,5 88,1 87,4
unteres mittleres oberes nicht zuzuordnen
11,4 11,9 9,6 25,6
88,6 88,1 90,4 74,4
Berufsprestige (Treiman nach Terwey) Cramérs V = 0,10***
220
Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“
Familienstand Cramérs V = 0,06*
verheiratet zusammen verheiratet getrennt verwitwet geschieden ledig
12,5 8,9 13,0 6,1 9,7
87,5 91,1 87,0 93,9 90,3
Staatsangehörigkeit ϕ = –0,09***
Deutsche Andere/neben 2.
10,5 21,6
89,5 78,4
Erhebungsgebiet ϕ = 0,03
Alte Bundesländer Neue Bundesländer
11,9 9,5
88,1 90,5
Sehr gut Gut Zufriedenstellend Weniger gut Schlecht
14,1 10,6 9,9 13,2 15,1
85,9 89,4 90,1 86,8 84,9
Krank in den letzten 4 Wochen Ja ϕ = 0,02 Nein
9,9 11,8
90,1 88,2
Chronisch erkrankt Cramérs V = 0,09***
nicht erkrankt mindestens eine k. A.
12,2 10,5 43,5
87,8 89,5 56,5
Politisches Interesse Cramérs V = 0,06*
Sehr stark Stark Mittel Wenig Überhaupt nicht
10,3 8,6 11,5 12,1 16,2
89,7 91,4 88,5 87,9 83,8
Inglehart-Index Cramérs V = 0,07**
Postmaterialist PM-Mischtyp M-Mischtyp Materialist weiss nicht k. A.
11,9 9,0 11,3 15,0 16,2 27,3
88,1 91,0 88,7 85,0 83,8 72,7
Bücher lesen Cramérs V = 0,06*
Täglich Mind. 1×/Woche Mind. 1×/Monat Seltener Nie
9,0 10,0 13,9 11,0 14,6
91,0 90,0 86,1 89,0 85,4
Selbsteinschätzung der Gesundheit Cramérs V = 0,05+
+ p ≤ 0,10; *p ≤ 0,05; **p ≤ 0,01
221
Volker Hüfken
Die signifikanten Zusammenhänge zwischen politischem Interesse, dem Postmaterialismus und der Teilnahme fallen eher schwach aus. Betrachtet man zudem die Teilnahme am ISSP für die einzelnen Gruppen genauer, so sind es die „Materialisten“ und die politisch „überhaupt nicht“ interessierten, die überproportional ausfallen. Bei der Frage nach der Lesehäufigkeit von Büchern zeigt sich ebenfalls ein signifikanter Zusammenhang mit der Teilnahme am ISSP. Personen, die angaben, „täglich“ im Buch zu lesen, nahmen eher und Personen, die angaben, „nie“ in Büchern zu lesen, nahmen weniger häufig an der ISSP-Zusatzerhebung teil. Prüft man in einem multivariaten Modell die Einflüsse der Befragtenmerkmale erhält man die Nettoeffekte auf die Teilnahme am ISSP. Im Rahmen der binären logistischen Regression bietet sich eine Modellspezifikation an, wonach die Wahrscheinlichkeiten für die Teilnahme am ISSP auf der Ebene einzelner Kategorien ermittelt werden. Somit erhält man genauere Informationen darüber, wie sich die Subgruppen in ihrer Teilnahmewahrscheinlichkeit unterscheiden. Auch wird der Frage nachgegangen, inwiefern die demographischen und die sozioökonomischen Einflussfaktoren unabhängig von der gesundheitlichen Lage, dem politischen Interesse, den Wertorientierungen und der Lesehäufigkeit sind. Insgesamt wurden vier Modelle gerechnet. Welchen Einfluss die demographischen und sozioökonomischen Merkmale auf die Teilnahme an den ISSP-Modulen haben, wurde im ersten Modell untersucht. Im zweiten Modell gehen die drei gesundheitlichen Merkmale als intervenierende Einflüsse auf die demographischen und sozioökonomischen Determinanten in die Analyse mit ein. Im dritten Modell wird untersucht, welche moderierenden Effekte durch das politische Interesse, die Wertorientierungen und die Häufigkeit des Lesens von Büchern auf die sozialen Merkmale und auf die Teilnahme direkt ausgehen. Im vierten Analyseschritt wird ein vollständiges Modell gerechnet. Wie zuvor berichtet, zeigen sich auch in der multivariaten Analyse vergleichbare Effekte auf die Teilnahme am ISSP (siehe Tabelle 3, S. 223). So ist die Teilnahme vom Alter, der Bildung, dem Einkommen, dem Berufsprestige, dem Familienstand und der Staatsangehörigkeit abhängig. Betrachtet man die Wahrscheinlichkeiten der jeweiligen Kategorien, so sind es beim Einkommen diejenigen, die am ISSP nicht teilnehmen, die ihre Angaben zum Einkommen verweigerten. Beim Berufsprestige sind es diejenigen, die sich hinsichtlich des Berufsprestiges nicht näher zuordnen lassen. Auch ist bei der Schulbildung und dem Familienstand ein negativer signifikanter Effekt auf die Teilnahme bei den Schülern und den verheiratet Zusammenlebenden zu beobachten. Ein positiver Effekt auf die Teilnahme zeigt sich bei 222
Ohne Abschluss
Schulbildung
Einkommen
18–29 years 30–44 years 45–59 years 60–74 years 75 + years
Alter
<
999
1.000–1.999
2.000–2.999
3.000–3.999
4.000–4.999
Volks/Hauptschule Mittlere Reife Fachhochschulreife Hochschulreife Anderer Abschluss Schüler
Male Female
Geschlecht
311 942 389 283 444
1.176 982 166 495 9 32
66
493 861 708 656 208
1.445 1.481
n
1 1,035 0,881 1,571 1,237
0,719 0,800 0,603 0,608 0,560 0,294 +
1
1,640 1,548 1,183 1,656 * 1
1 0,988
I
1 1,010 0,842 1,539 1,225
0,738 0,839 0,658 0,631 0,560 0,290 +
1
1,962 * 1,742 + 1,258 1,667 * 1
1 0,972
II
Modell
Tabelle 3: Teilnahme an den ISSP-Modulen „Bürger und Staat“ und „Nationale Identität“ Odds ratio (ALLBUS 2004; N = 2.946)
1 1,010 0,877 1,469 1,158
0,610 0,642 0,446 + 0,429 * 0,406 0,241 *
1
1,670 1,575 1,179 1,605 + 1
1 1,010
III
1 0,988 0,844 1,457 1,152
0,637 0,681 0,492 0,455 + 0,413 0,242 *
1
2,063 * 1,825 * 1,273 1,661 * 1
1 0,984
IV
Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“
223
224
ganztags halbtags nebenher nicht erwerbstätig
unteres mittleres oberes nicht zuzuordnen
verheiratet zus. verheiratet getr. verwitwet geschieden ledig
Andere/neben 2. Deutsch
Sehr gut gut zufriedenstellend weniger gut schlecht
Berufstätigkeit
Berufsprestige
Familienstand
Staatsangehörigkeit
subjektive Gesundheit
>
5.000 refusal no answer
447 1.243 806 302 128
208 2.718
1.765 42 218 203 698
927 847 1.044 108
1.207 209 158 1.352
99 416 42
n
1 2,358 ***
0,701 * 1,297 0,920 1,667 1
1 0,888 1,156 0,437 ***
1 1,097 0,937 0,983
1,762 0,785 0,248 ***
I
0,965 1,335 1,553 0,851 1
1 2,221 ***
0,706 + 1,329 0,927 1,639 1
1 0,883 1,169 0,425 ***
1 1,086 0,923 0,986
1,829 0,780 0,251 ***
II
Modell
1 2,218 ***
0,686 + 1,402 0,957 1,638 1
1 0,844 1,069 0,450 **
1 1,076 0,891 0,963
1,698 0,759 0,241 ***
III
0,898 1,268 1,487 1,146 1
1 2,112 **
0,694 + 1,430 0,959 1,612 1
1 0,847 1,090 0,436 **
1 1,066 0,870 0,950
1,785 0,760 0,247 ***
IV
Volker Hüfken
ja nein
k. A. Postmaterialist PM-Mischtyp M-Mischtyp Materialist
sehr stark stark mittel wenig überhaupt nicht
Inglehart-Index
Politisches Interesse
+ p ≤ 0,10; * p ≤ 0,05; ** p ≤ 0,01; *** p ≤ 0,001
Konstante R² (Nagelkerke)
täglich mind. 1×/Woche mind. 1×/Monat seltener nie
Bücher lesen
Chronische Erkrankung keine mind. eine k. A.
akut erkrankt
245 591 1.167 645 278
71 593 971 811 480
535 583 374 888 546
1.230 1.675 21
585 2.341
n
4.446 ** 0,059
I
3.440 * 0,072
1 1,237 0,241 **
1 0,851
II
Modell
3.463 * 0,074
1,561 1,851 * 1,287 1,315 1
1,266 0,945 1,414 + 1,186 1
1,524 + 1,388 0,863 1,168 1
III
2.844 + 0,088
1,473 1,763 * 1,201 1,283 1
1,242 0,938 1,436 * 1,191 1
1,565 * 1,391 0,865 1,171
1 1,226 0,248 ***
1 0,825
IV Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“
225
Volker Hüfken
den 60- bis 74-Jährigen. Deren Wahrscheinlichkeit, sich zu beteiligen, erhöht sich im Verhältnis zu den über 75-Jährigen um 65%. Der bedeutsamste Effekt geht von der Staatsangehörigkeit aus. Bei den Personen, die ausschließlich eine deutsche Staatsangehörigkeit haben, ist die Wahrscheinlichkeit der Teilnahme um das 1,35-fache höher als in der Vergleichsgruppe. tab03 Die Ergebnisse aus Modell II verdeutlichen, dass kein Effekt von den gesundheitsbezogenen Merkmalen auf die Teilnahme ausgeht. Wie zuvor schon beim Einkommen und Berufsprestige berichtet, bleibt auch hier der negative Effekt auf die Teilnahme für die Gruppe bestehen, die keine Angaben zu dauerhaften Erkrankungen machten. Dennoch sind leichte moderierende Einflüsse von Gesundheit auf den nunmehr signifikanten Alterseffekt beobachtbar. Vergleicht man die Teilnahmewahrscheinlichkeiten der einzelnen Altersgruppen in Modell I mit den Werten aus Modell II sind diese erhöht. Bei genauerer Analyse zeigt sich, dass die nunmehr sichtbaren Alterseffekte nicht allein auf die gesundheitliche Lage, sondern auch durch den item-nonresponse zu chronischen Erkrankungen mitbedingt sind. Es waren die jüngeren Gesunden, die überproportional die Frage nach einer dauerhaften Erkrankung nicht beantwortet hatten. In Modell III werden die gesellschaftlichen Aspekte und deren moderierender Einfluss auf die demographischen und sozioökonomischen Determinanten der Teilnahme überprüft. Auch hier zeigen sich, wie zuvor in den bivariaten Analysen berichtet, signifikante Effekte für starkes politisches Interesse, tägliches Lesen von Büchern und dem PM-Mischtyp. Für die meisten demographischen und sozioökonomischen Merkmale bleiben die Effekte, auch unter Kontrolle der drei gesellschaftsbezogenen Merkmale, bestehen. Anders beim Einfluss der Schulbildung auf die Teilnahme. Hier zeigen sich nunmehr zum Teil signifikante negative Effekte auf die Teilnahme. Die Wahrscheinlichkeit, sich an der ISSP-Befragung nicht zu beteiligen, ist danach bei den Schülern und bei den Personen mit einer Hochschulreife im Verhältnis zu den Personen ohne einen Schulabschluss signifikant. Zu vermuten ist, dass es sich um einen wie im Schweizer Household-Panel beobachteten Effekt handelt. „This may be a result from a conflict between the higher interest in the topic by higher educated . . .“ Lipps (2007, 59) Im abschließenden vierten Modell bestätigen sich die aus den jeweiligen einzelnen Analyseschritten dokumentierten Ergebnisse.
226
Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“
4 Zusammenfassung und Schlussbetrachtung Schriftliche Zusatzerhebungen, die im Anschluss an persönlich-mündliche Befragungen zum Einsatz kommen, sind in der empirischen Sozialforschung seit langem üblich. Diese Form der ergänzenden Befragung wird unterschiedlich administriert: postalisch, also die Zusendung des Fragebogen durch den Befragten an das Institut, oder die Mitnahme des Fragebogens durch den Interviewer. Wartet der Interviewer im Anschluss an das persönlich-mündliche Interview, bis der schriftliche Fragebogen ausgefüllt ist, wird dies als eine Art Fortführung der Interviewsituation gesehen. Nach einer persönlich-mündlichen Befragung, im vorliegenden Fall betrug das Interview im Durchschnitt ca. 50 Minuten, ist vermutlich nicht jeder zu einer weiteren schriftlichen Befragung bereit. Empfindet der Befragte zudem den anschließenden schriftlichen Teil des Interviews nicht als Entlastung, sondern eher als Belastung, ist eine stärkere Zurückhaltung bzw. Nicht-Teilnahme zu erwarten (Sharp & Frankel 1983; Bradburn, 1979). Diese und andere Fragen sind in der Literatur zu drop-off-Erhebungen bisher kaum behandelt. Lediglich Hinweise allgemeiner Art finden sich in der Literatur, wobei sich dies auch eher nur über Methodenberichte oder Studienbeschreibungen erstreckt. In einer Übersicht zum Ausfall beim ISSP aus dem Jahr 1995 ist zu entnehmen, dass bei den drop-off-Erhebungen Teilnahmequoten von 50–80% erzielt wurden (Couper & de Leeuw 2003, 161) – Variationen, wie sie für international vergleichende Bevölkerungsumfragen durchaus üblich sind (vgl. u. a. De Heer 1999). Dabei handelt sich jedoch nicht allein um kulturspezifische Unterschiede der Teilnahmebereitschaft (Johnson et al. 2002). Vielmehr ist davon auszugehen, dass die unterschiedlichen Prozeduren der Felderhebungen in den jeweiligen Ländern für die variierenden Responseraten mitbestimmend sind. Für die ISSP-Erhebung im Jahr 2005 wurde erstmalig ein systematischer Überblick darüber erstellt, welche Maßnahmen gegen die Nicht-Teilnahme in den jeweiligen Ländern ergriffen wurden (Smith 2007). Im Zusammenhang mit der Teilnahme kommt dem Interviewer eine Besondere Bedeutung zu. So gilt seine Anwesenheit als wesentlich für die Teilnahme und die Datenqualität (Schnell 1997; Noelle-Neumann & Petersen 2005). Einen Hinweis darauf findet man in der Arbeit von Becker & Günther (2004). Die Autoren berichten von einem Ausfall, der lediglich 13,2 Prozent beträgt, und dies bei einer sensitiven Thematik, dem abweichenden Verhalten. Auch berichten Becker & Günther (2004) von Ausfällen in einigen Subgruppen, wie sie für selbstadministrierte Erhebungen 227
Volker Hüfken
durchaus üblich sind. So gelten insbesondere Personen aus unteren sozialen Schichten, Ältere, allein lebende, gesundheitlich Beeinträchtigte und Immigranten – diese insbesondere auf Grund der sprachlichen Schwierigkeiten – als weniger teilnahmebereit (vgl. u. a. Mangione 1995; Cohen & Duffy 2002; Couper & de Leeuw 2003). Im Rahmen selbstadministrierter Erhebungen wird zudem darüber berichtet, dass es zu einer stärkeren selektiven Teilnahme in Abhängigkeit vom Thema der Untersuchung kommt (vgl. u. a. Groves et al. 2006). Auch gilt die Schreib- und Lesefertigkeit seit langem als bedeutsam für die Teilnahme an selbstadministrierten Erhebungen (Goode & Hatt 1952, 1965; Eckardt 1969, 13; Scheuch 1973, 126; Turner et al. 1992, 304; Couper & Singer & Kulka 1998; Tourangeau et al. 2000, 303). In der vorliegenden Untersuchung wurde auf der Basis der ALLBUS-Erhebung von 2004 das Ausmaß der Nicht-Teilnahme an den ISSP-Zusatzerhebungen „Bürger und Staat“ und „Nationale Identität“ analysiert. Die Gesamtausfallquote beträgt 11,4 Prozent. Die Aufgliederung der Ausfälle nach Befragtenmerkmalen erbrachte für acht der fünfzehn betrachteten Befragtenmerkmale signifikante Unterschiede. Bei näherer Betrachtung zeigt sich jedoch, dass diese signifikanten Korrelationen zum Teil auf die in die Analysen einbezogenen Antwortverweigerungen zurückzuführen sind. Besonders deutlich ist dies bei der Frage zum Einkommen und zur chronischen Erkrankung. Aber auch die nicht näher bestimmbaren berufsbezogenen Prestigewerte weisen einen höheren Anteil unter den Nicht-Teilnehmern auf. Dagegen ist die Teilnahme bzw. Nicht-Teilnahme relativ unabhängig vom Prestigescore. Dies verwundert, da die Vertrautheit mit der Schriftform in Berufspositionen mit einem hohen Prestigewert Alltag der beruflichen Tätigkeit ist oder zumindest weitaus üblicher als bei denen mit einem niedrigeren Prestigewert. Folgt man den Ergebnissen aus der bivariaten Analyse, kann festgehalten werden, dass der Ausfall in den Subgruppen relativ schwach ist. In Anlehnung an Befunde aus der Literatur konnten entsprechende Zusammenhänge für Alter, Familienstand und Staatsangehörigkeit ermittelt werden. Beim Einkommen, dem Schulabschluss und dem Berufsprestige lassen sich die Ergebnisse allenfalls hinsichtlich ihrer Tendenz interpretieren. Einer weiteren Teilnahme auf Grund gesundheitlicher Beeinträchtigungen steht nichts im Wege. So konnten für die chronisch Erkrankten und für die akut Erkrankten keine Unterschiede ermittelt werden. Hinsichtlich der gesundheitlichen Selbsteinschätzung zeigt sich ein kurvilinearer Verlauf. Bedeutsamer für die Teilnahme an den eher politischen Schwerpunktthemen des ISSP „Bürger und Staat“ und „Nationale Identität“ sind hingegen die gesellschaftliche und politische Partizipation des Befragten. So zeigen sich beim politi228
Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“
schen Interesse, beim Postmaterialismus-Index und der Lesehäufigkeit von Büchern signifikante Zusammenhänge. Auch unter Anwendung multivariater Analyseverfahren wurden im Wesentlichen die zuvor berichteten Ergebnisse bestätigt. Die Verwendung schrittweiser logistischer Regressionen verdeutlicht, ob und wie stark mediatisierende Effekte wirken. So wurden durch Kontrolle der gesundheitsbezogenen Merkmale die Effekte in den einzelnen Altersgruppen sichtbarer. Mit anderen Worten, man hätte den Alterseffekt auf die Teilnahme an den ISSP-Erhebungen unterschätzt. Im dritten Modell zeigt sich unter Kontrolle von gesellschaftlicher und politischer Partizipation ein deutlicherer negativer Bildungseffekt. Man könnte hier davon auszugehen, dass es sich um einen wie im Schweizer Household-Panel beobachteten Effekt handelt. „This may be a result from a conflict between the higher interest in the topic by higher educated . . .“ Lipps (2007, 59). Denkbar wäre jedoch auch, zumal ein ähnlicher Effekt von Couper & Stinson (1999) berichtet wird, das es sich um ein generelles Muster handelt. So könnte die Anwesenheit und Kompetenz des Interviewers möglicherweise als freiheitsreduzierender Eingriff wahrgenommen werden, und anders als bei den schlechter Gebildeten kommt es bei den besser Gebildeten nicht zur Anpassung und somit zur Einwilligung der Interviewfortführung, sondern zur Reaktanz bzw. zur Verweigerung.17 Im abschließenden vierten vollständigen Modell bestätigen sich die aus den jeweiligen einzelnen Analyseschritten dokumentierten Ergebnisse. Der stärkste Effekt auf die Teilnahme geht somit von der Staatsangehörigkeit auf die Teilnahme aus, gefolgt von Alter. Von nicht geringerer Bedeutung sind das politische Interesse, die Lesehäufigkeit von Büchern und postmaterialistische Wertorientierungen. Deutlich wurde auch, dass ein Ausschluss fehlender Werte zu deutlichen Verzerrungen der Parameter geführt hätte. In weiteren Arbeiten wird zu klären sein, ob die Befunde begrenzt auf die ISSP-Erhebungen „Bürger und Staat“ und „Nationale Identität“ und dem damit gesetzten inhaltlichen politischen Themenschwerpunkt begrenzt sind oder als allgemeine Determinanten für die Teilnahme an Umfragen gelten können.
Anmerkungen 1 2
Couper & de Leeuw (2003, 161) stellen in ihrer Übersicht Ergebnisse nach der Completion Rate und der Response-Rate-Berechnung dar. In einer Übersicht anhand von 14 Umfragen berichtet Smith (1987): „The attrition level ranges from the minimum of 2% on the MAS-GSS in 1982 to 39% on the OVS in 1976 and the SOA in 1984. While these studies are too mixed in procedures, sample
229
Volker Hüfken
3
4 5 6
7
8
9
230
universes, time, and topics to rigorously compare the factors we mentioned above (response burden, level of effort), we find support for certain of those earlier generalizations.“ „The interviewer may make arrangements to collect the questionnaire at a later date, if he or she plans on being in the vicinity. If there is a firm arrangement to do this, the interviewer should leave the blank envelope with the respondent. However, if there is any reason to suspect that this arrangement will fall through, the interviewer should leave a franked envelope. It is still highly preferable for the interviewer to attempt to pick it up if the respondent is in favor of this AND the interviewer plans to come out to that vicinity again for any reason. If the situation occurs where the plan of picking it up at the respondent’s home does not work out, the interviewer and survey agency must instruct the respondent to mail it in such a way that the respondent is properly reimbursed for the cost of the stamp.“ (mea 2004, 127) Zur genaueren Beschreibung des Studiendesigns und der Datenerhebung siehe http:/ /www.gesis.org/en/social_monitoring/issp/german_methods_reports.htm. Die in der Tabelle ausgewiesenen Berechnungen orientieren sich an einer bei Couper & de Leeuw (2003) dargestellten Vorgehensweise. Ausfallmuster, wie sie aus der schriftlichen Befragung bekannt sind, können nur eingeschränkt übertragen werden. Zum einen, weil der Interviewer anwesend ist und der in der mündlichen Befragung aufgebaute Bezugsrahmen und die Interaktionsbeziehung zumindest latent vorhanden ist, und zum anderen, weil eine Fortführung der Interaktionsbeziehung stattfinden kann. In den vorliegenden ISSP-Erhebungen gibt es erfreulicherweise nähere Angaben über die Art und das Ausmaß einer solchen fortgeführten Interaktionsbeziehung. „In 249 Fällen wurde der ISSP zusammen mit oder alleine durch den Interviewer und nicht ausschließlich vom Befragten selbst ausgefüllt“ (Haarman et al. 2006, 66). Es muss zudem in Betracht gezogen werden, dass die mit dem Alter zunehmende Verschlechterung der Sehleistung (Bouwhuis 1992) wie auch eine zunehmende kognitive Beeinträchtigung (Kruse et al. 2002) eine eigenständige Beantwortung zumindest erschwert oder gar ausschließt (vgl. u. a. Nuthmann & Wahl 1999). Bei den hier untersuchten sozialen Merkmalen handelt es sich um folgende: Geschlecht, Alter, allgemeiner Schulabschluss, Haushaltsnettoeinkommen, Erwerbstätigkeit, Treimanprestige (Einordnung nach Terwey), Familienstand und Staatsangehörigkeit. Bei den Merkmalen Einkommen, Berufsprestige und Staatsangehörigkeit wurden Recodierungen vorgenommen. Die Einkommensvariable wurde auf folgende sechs Ausprägungen „bis 999, 1000–1999, 2000–2999, 3000–3999, 4000–4999, 5000 und mehr“ umcodiert. Die Ausprägungen der Staatsangehörigkeit wurden dichotomisiert, so das die Kategorien „Staatenlos, nein, ja neben 2. Staatsbürgerschaft“ zusammengefasst wurden. Treimanprestige wurde in folgende Terzile codiert: unteres, mittleres und oberes Berufsprestige. Die gesundheitsrelevanten Merkmale werden mittels dreier Indikatoren, der allgemeinen Selbsteinschätzung der Gesundheit, chronische Erkrankung und akute Erkrankung, erhoben. Die Selbsteinschätzung der Gesundheit wird anhand der Frage „Ich möchte Ihnen nun einige Fragen zu Ihrer Gesundheit stellen. Wie würden Sie Ihren Gesundheitszustand im Allgemeinen beschreiben?“ gemessen. Dieses subjektive Maß zeigte sich bereits als verlässlicher Indikator für Morbidität und Mortalität (Idler & Benyamini 1997). Die Antworten wurden in „sehr gut, gut, zufrieden-
Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“
10
11
12 13 14
15
16 17
stellend, weniger gut, schlecht“ erfasst. Chronische Erkrankungen wurde ebenfalls über Selbstauskünfte durch Vorlage einer Liste erfasst und für die Analysen dichotomisiert. Wobei das Vorliegen mindestens einer Erkrankung mit 1 codiert wurde. Die Frage lautet „Hier haben wir eine Liste mit häufigen Krankheiten. Bitte sagen Sie mir, an welchen Krankheiten oder Beschwerden Sie seit mindestens 12 Monaten chronisch leiden. Nennen Sie mir bitte den bzw. die entsprechenden Kennbuchstaben.“ Folgende Krankheiten enthielt die Liste: „Allergie, Migräne, Bluthochdruck/Hypertonie, Durchblutungsstörungen am Herzen, Gicht, Wirbelsäulenschäden, chronische Bronchitis, Asthma, Hepatitis/Leberzirrhose, Zuckerkrankheit/Diabetes, Krebs, Osteoporose, sonstige Krankheiten“. Das Ausmaß einer akuten bzw. temporären Erkrankung wurde mit der Frage: „Und wie ist es mit anderen, nicht chronischen Erkrankungen? Sind Sie in den letzten vier Wochen krank gewesen?“ erhoben und konnte mit „ja“ oder „nein“ beantwortet werden. Basis bilden hierbei das politische Interesse, der Postmaterialismus-Index und die Lesehäufigkeit. Politisches Interesse wurde erhoben mit der Frage „Nun zu etwas ganz anderem. Wie stark interessieren Sie sich für Politik?“ Beantwortet werden konnte die Frage durch eine fünfstufige Skala mit der Abstufung „sehr stark, stark, mittel, wenig oder überhaupt nicht“. Der Postmaterialismus-Index wurde gebildet und erhoben in Anlehnung an Inglehart (1971), siehe dazu Haarman et al. (2006). Die Lesehäufigkeit, hier die der Bücher, wurde in einer Liste von vierundzwanzig Freizeitaktivitäten erfragt. Die Häufigkeit des Lesens von Büchern wurde in der Liste zuerst erfragt. Die Frage lautet „Nun einige Fragen zu Ihrer Freizeit. Geben Sie bitte zu jeder der Tätigkeiten auf dieser Liste an, wie oft Sie das in Ihrer Freizeit machen: täglich, mindestens einmal jede Woche, mindestens einmal jeden Monat, seltener oder nie.“ Die Frage nach der Häufigkeit des Lesens von Büchern, so einige Hinweise in der Literatur (Groeben & Hurrelmann 2006), könnte auch als Prädiktor für Lesekompetenz verwendet werden. Im Kontext der österreichischen PISA-Untersuchung ermittelt Hagenauer (2005) einen entsprechend starken Zusammenhang zwischen Lesekompetenz und der Häufigkeit des Lesens von Büchern. Zur Vorgangsweise siehe Haarmann et al. (2006). Ausführungen dazu siehe im Supplement zum ALLBUS-Datenhandbuch 2004 (Terwey & Bens & Baumann 2007). Die uni- und bivariaten Analysen wurden unter Verwendung der personenbezogenen Gewichtungsvariable (v891) durchgeführt. Angaben zur Verteilung der untersuchungsrelevanten Merkmale sind der Tabelle 1 im Anhang zu entnehmen. In einer Arbeit von Stocké & Stark (2005) unter Bezugnahme auf die Arbeit von King et al. (2001) wurde deutlich, welche Konsequenzen ein listenweiser Ausschluss fehlender Werte haben kann. Dies gilt insbesondere dann, wenn die Ausfallgründe nicht zufällig, sondern mit der Fragestellung der Untersuchung im Zusammenhang stehen. Hierbei handelt es sich im Wesentlichen (ca. 70%) um Rentner, Hausfrauen/männer, Schüler und Studenten. In Anlehnung an Brehms (1966, 1972) Arbeiten berichten Doob & Zabrack (1971) von einem Experiment zur Teilnahme an schriftlichen Befragungen.
231
Volker Hüfken
Literatur Becker, R., & Günther R. (2004). Selektives Antwortverhalten bei Fragen zum delinquenten Handeln. Eine empirische Studie über die Wirksamkeit der „sealed envelope technique“ bei selbst berichteter Delinquenz mit Daten des ALLBUS 2000. ZUMA-Nachrichten, 54, 39–59. Billiet, J., & Philippens, M., & Gitzgerald R., & Stoop, I. (2007). Estimation of Nonresponse Bias in the European Social Survey: Using Information from Reluctant Respondents. Journal of Official Statistics, 23, 135–162. Bouwhuis, D. G. (1992). Aging, perceptual and cognitve functioning and interactive equipment. In H. Bouma & J. A. M. Graafmans (Eds.), Studies in Health Technology and Informatics (Vol. 3 Gerontechnology, pp. 93–112). Amsterdam: IOS Press. Börsch-Supan, A., & Burgiavini, A., & Jürges, H., & Mackenbach, J., & Siegrist, J., & Weber, G. (2005). Health, Ageing and Retirement in Europe – First Results from the Survey of Health, Ageing and Retirement in Europe. Mannheim: Mannheim Research Institute for the Economics of Aging. Abgerufen am 29.09.2008, Website: http://www.shareproject.org Bradburn, N. (1979). Respondent Burden. In L. G. Reeder (Ed.), Health Survey Research Methods: Second Biennial Conference. Williamsburg, Va.: U. S. Government Printing Office. Brehm, J. (1993). The Phantom Respondents. Opinion Surveys and Political Representation. The University of Michigan Press: Michigan. Brehm, J. W. (1966). A theory of psychological reactance. New York: Academic Press. Brehm, J. W. (1972). Responses to loss of freedom. A theory of psychological reactance. Morristown: General Learning Press. Cohen, G., & Duffy, J. C. (2002). Are Nonrespondents to Health Surveys Less Healthy Than Respondents? Journal of Official Statistics, 18, 13–23. Conlon, E., & Melanie G., & Zimmer-Gembeck, J., & Creed, P. A., & Tucker, M. (2006). Family history, self-perceptions, attitudes and cognitive abilities are associated with early adolescent reading skills. Journal of Research in Reading, 29, 11–32. Couper, M. P. (1997). Survey Introductions and Data Quality. Public Opinion Quarterly, 61, 317–338. Couper, M. P., & Singer, E., & Kulka, R. A. (1998). Participation in the 1990 Decennial Census: Politics, Privacy, Pressures. American Politics Quarterly, 26, 59–80. Couper, M. P., & Stinson, L. L. (1999). Completion of Self-Administered Questionnaires in a Sex Survey. The Journal of Sex Research, 36, 321–330 Couper, M., & De Leeuw, E. (2003). Nonresponse in Cross-Cultural and Cross-National Surveys. In J. Harkness & F. J. R. Van de Vijver & P. Ph. Mohler (Eds.), Cross-Cultural Survey Methods (157–177). New York: Wiley. De Heer, W. (1999). International Response Trends: Results of an International Survey. Journal of Official Statistics, 15, 129–142.
232
Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“ De Leeuw, E., & De Heer, W. (2002). Trends in Household Survey Nonresponse: A Longitudinal and International Comparison. In R. M. Groves & D. A. Dillman & J. L. Eltinge & R. J. A. Little (Eds.), Survey Nonresponse (41–54) New York: Wiley. De Luca, G., & Peracchi, F. (2005). Survey Participation in the First Wave of SHARE. In A. Börsch-Supan & H. Jürges (Eds.), The Survey of Health, Aging, and Retirement in Europe – Methodology (88–104) Mannheim: Mannheim. Research Institute for the Economics of Aging. Abgerufen am 29.09.2008, Website: http://www.share-project. org Dillman, D. A. (1983). Mail and Other Self-Administered Questionnaires. In P. H. Rossi & J. D. Wright & A. B. Anderson (Eds.), Handbook of Survey Research. (359–377). San Diego: Academic Press Inc. Doob, A., & Zabrack, M. (1971). The effect of freedom – threatening instructions and monetary inducement on compliance. Journal of Behavioral Science, 3, 408–412. Döbert, M., & Hubertus, P. (2000). Ihr Kreuz ist die Schrift. Analphabetismus und Alphabetisierung in Deutschland. Stuttgart: Klett-Verlag. Eckardt, H. (1969). Die Technik der schriftlichen Umfrage. Hamburg: Verlag für Buchmarkt-Forschung. Goode, W. J., & Hatt, P. K. (1952). Methods in Social Research. London: McGraw-Hill. Goode, W. J., & Hatt, P. K. (1965). Die schriftliche Befragung In R. König, unter Mitarbeit von D. Rüschemeyer & E. K. Scheuch (Hg.), Das Interview. Formen, Technik, Auswertung. Praktische Sozialforschung I (4. Auflage, S. 161–177). Köln: Kiepenheuer & Witsch. Groeben, N., & Hurrelmann, B. (Hg.) (2006). Lesekompetenz, Bedingungen, Dimensionen, Funktionen. Weinheim: Juventa. Groves, R. M, & Couper, M. P., & Presser, S., & Singer, E., & Tourangeau, R., & Acosta, G. P., & Nelson, L. (2006). Experiments in Producing Nonresponse Bias. Public Opinion Quarterly, 70, 720–736 Haarmann, A., & Scholz, E., & Wasmer, M., & Blohm, M., & Harkness, J. (2006). Konzeption und Durchführung der „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften“ (ALLBUS) 2004. Mannheim: ZUMA Methodenbericht 06/06. Hagenauer, G. (2005). Die Lesekompetenz und das Leseverhalten der 15- bis 16-jährigen österreichischen Schüler und Schülerinnen. Ein Geschlechtervergleich aus sozialisationstheoretischer Perspektive. Dipl.-Arbeit Universität Salzburg. Abgerufen am 29.09.2008, Website: www.zvb-austria.at/docs/diplomarbeiten/ZVB_Diplomarbeit_ Hagenauer.pdf. Herzog, R. A., & Kulka, R. A. (1989). Telephone and Mail Surveys with Older Populations: A Methodological Overview. In M. Powell Lawton & A. R. Herzog (Eds.), Special Research Methods for Gerontology (69–89). Amityville: Baywood Publishing. Idler, E. L., & Benyamini, Y. (1997). Self-Rated Health and Mortality: A Review of TwentySeven Community Studies. Journal of Health and Social Behaviour, 38, 21–37. Inglehart, R. (1971). The Silent Revolution in Europe: Intergenerational Change in Post-industrial Societies. American Political Science Review, 65, 991–1017.
233
Volker Hüfken Inglehart, R. (1997). Modernization and Postmodernization. Cultural, Economic, and Political Change in 43 Societies. Princeton: Princeton University Press. Kaestle, C. F, & Campbell, A., & Finn, J. D., & Johnson, S. T., & Mikulecky, L. J. (2001). Adult Literacy and Education in America. Washington, DC: National Center for Education Statistics. King, G., & Honaker, J., & Joseph, A., & Scheve, K. (2001). Analyzing Incomplete Political Science Data: An Alternative Algorithm for Multiple Imputation. The American Political Science Review, 95, 49–69. Kirsh, I. S, & Jungeblut, A., & Jenkins, L., & Kolstad, A. (1993). Adult literacy in America: A first look at the results of the National Adult Literacy Survey. Washington, DC: National Center for Education Statistics. Kruse, A., & Heuft, G., & Gaber, E., & Oster, P., Re, S., & Schulz-Nieswandt, F., (2002). Gesundheit im Alter. Vol. 10. Berlin: Robert-Koch Institut. Lipps, O. (2007). Attrition in the Swiss Household Panel. Methoden Daten Analysen, 1, 45–68. Loosveldt, G., & Pickery, J., & Billiet, J. (2002). Item Nonresponse as a Predictor of Unit Nonresponse in a Panel Survey. Journal of Official Statistics, 18, 545–557. Mason, R., & Lesser, V., & Traugott, M. W. (2002). Effect of item nonresponse on nonresponse error and inference. In R. M. Groves & D. A. Dillman & J. L. Eltinge & R. J. A. Little (Eds.), Survey Nonresponse (149–161). New York: Wiley. Mangione, T. W. (1995). Mail Surveys. Improving the Quality. Thousand Oaks: Sage. Mea (2004). Interviewer Project Manual. Survey of Health, Ageing, and Retirement in Europe. Main Test 2004: Mannheim: Mannheim Research Institute for the Economics of Aging. Abgerufen am 29.09.2008, Website: http://www.share-project.org/new_sites/ SHARE-Website/Documentation/Interviewer%20Project%20Manual.pdf. Noelle-Neumann, E., & Petersen, T. (2005). Alle, nicht jeder. Einführung in die Methoden der Demoskopie. Berlin: Springer (4. Aufl.) Nuthmann, R., & Wahl, H.-W. (1999). Methodische Aspekte der Erhebungen der Berliner Altersstudie. In K. U. Mayer & P. B. Baltes (Hg.), Die Berliner Altersstudie (55–83). Berlin: Akademie. Scheuch, E. K. (1973). Das Interview in der Sozialforschung. In R. König, (Hg.), Handbuch der empirischen Sozialforschung (66–190). Stuttgart: Enke. Scheuch, E. K, & Gräf, L., & Kühnel, S. M. (1989). Volkszählung, Volkszählungsprotest und Bürgerverhalten. Ergebnisse der Begleituntersuchung zur Volkszählung 1987. Stuttgart: Metzler-Poeschel. Schnell, R. (1991). Wer ist das Volk? Zur faktischen Grundgesamtheit bei allgemeinen Bevölkerungsumfragen. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 43, 106–137. Schnell, R. (1997). Nonresponse in Bevölkerungsumfragen. Ausmaß, Entwicklung und Ursachen. Opladen: Leske + Budrich.
234
Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“ Smith, T. (1987). Attrition and Bias on the International Social Survey Program (ISSP) Supplement. GSS Methodological Report No. 42. Smith, T. (2007). Survey Non-Response Procedures in Cross-National Perspective: The 2005 ISSP Non-Response Survey. Survey Research Methods, 1, 45–54. Sharp, L. M., & Frankel, J. (1983). Respondent Burden: A Test of Some Common Assumptions. Public Opinion Quarterly, 47, 36–53. Sheatsley, P. B. (1984). „The Post Interview: A Technique for Extending Time with the Respondent“, Unpublished NORC report. Stocké, V., & Stark, T. (2005). Stichprobenverzerrung durch Item-Nonresponse in der international vergleichenden Politikwissenschaft. SFB 504, No. 05–43. Mannheim: Universität Mannheim. Sudman, S., & Bradburn, N. (1974). Response Effects in Surveys. A Review and Synthesis. Chicago: Aldine Publishing Company. Terwey, M., & Bens, A., & Baumann, H. (2007). Supplement zum ALLBUS-Datenhandbuch 2004. Köln: Zentralarchiv für Empirische Sozialforschung. Timothy, P. J., & O’Rourke, D., & Burris, J., & Owens, L. (2002). Culture and Survey Nonresponse. In R. M. Groves & D. A. Dillman & J. L. Eltinge & R. J. A. Little (Eds.), Survey Nonresponse (55–69). New York: Wiley. Tourangeau, R., & Rips, L. J., & Rasinski, K. (2000). The psychology of survey respone. Cambridge: Cambridge University Press. Turner, C. F., & Lessler, J. T., & Gfroerer, J. C. (1992). Future Directions for Research and Practice. In C. F. Turner & J. T. Lessler & J. C. Gfroerer (Eds.), Survey Measurement of Drug Use. Methodological Studies (299–306). DHHS Pub. No. (ADM) 92–1929. Rockville, MD: National Institute on Drug Abuse. Voogt, R. J. J., & Saris, W. (2003). To Participate or Not to Participate: The Link between Survey Participation, Electoral Participation, and Political Interest. Political Analysis, 11, 164–179. Voogt, R. J. J., & van Kempen, H. (2002). Nonresponse Bias and Stimulus Effects in the Dutch National Election Study. Quality & Quantity, 36, 325–345. ZA (Zentralarchiv für Empirische Sozialforschung) und ZUMA (Zentrum für Umfragen, Methoden und Analysen) ALLBUS 2004 (Studie-Nr. 3762). Codebuch, Köln: Zentralarchiv.
235
Volker Hüfken
Anhang Tabelle 1: Verteilung teilnahmerelevanter Merkmale (ALLBUS 2004; N = 2946) Variable
N
%
Drop off
Teilnehmer Nicht-Teilnehmer
2619 327
88,9 11,1
Geschlecht
Mann Frau
1459
49,5
1487
50,5
Alter
18–29 Jahre 30–44 Jahre 45–59 Jahre 60–74 Jahre 75 Jahre und mehr
496 878 712 652 206
16,8 29,8 24,2 22,1 6,7
Bildung
Ohne Abschluss Volks-/Hauptschule Mittlere Reife Fachhochschulreife Hochschulreife Anderer Abschluss Schüler
75 1230 906 184 506 9 30
2,6 41,8 30,8 6,3 17,2 0,3 1,0
Haushaltsnettoeinkommen in
bis 999 1.000–1.999 2.000–2.999 3.000–3.999 4.000–4.999 5.000 und mehr Verweigert k. A.
299 897 385 289 481 112 436 48
10,1 30,4 22,9 11,1 5,2 3,8 14,8 1,6
Erwerbstätigkeit
ganztags halbtags nebenher nicht erwerbstätig
1208 231 176 1329
41,0 7,8 6,0 45,1
Berufsprestige (Treiman nach Terwey)
unteres mittleres oberes nicht zuzuordnen
914 850 1057 125
31,0 28,8 35,9 4,2
236
Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“
Familienstand
verheiratet zusammen verheiratet getrennt verwitwet geschieden ledig
1785 45 215 196 700
60,7 1,5 7,3 6,7 23,8
Staatsangehörigkeit
Deutsche Andere/neben 2.
2702 245
91,7 8,3
Erhebungsgebiet
Alte Bundesländer Neue Bundesländer
2399 548
81,4 18,6
Gesundheitszustand
sehr gut gut zufriedenstellend weniger gut schlecht
461 1248 798 310 126
15,7 42,4 27,1 10,5 4,3
Krank in den letzten 4 Wochen
ja nein
604 2336
20,5 79,5
Chronisch erkrankt
nicht erkrankt mindestens eine k. A.
1247 1677 23
42,3 56,9 0,8
Politisches Interesse
sehr stark stark mittel wenig überhaupt nicht
252 594 1178 645 277
8,6 20,2 40,0 21,9 9,4
Inglehart-Index
Postmaterialist PM-Mischtyp M-Mischtyp Materialist weiss nicht k. A.
611 948 815 494 68 11
20,7 32,2 27,6 16,8 2,3 0,4
Bücher lesen
täglich mind. 1×/Woche mind. 1×/Monat seltener nie
555 581 374 887 548
18,8 19,7 12,7 30,1 18,6
237
Siegfried Gabler, Sabine Häder
Siegfried Gabler, Sabine Häder
Die Kombination von Mobilfunk- und Festnetzstichproben in Deutschland Zusammenfassung Es gibt in Deutschland und anderen Ländern mehr und mehr Haushalte, die keinen Festnetzanschluss mehr haben und nur noch per Handy erreichbar sind. Dies stellt die Umfrageforschung vor eine neue Herausforderung, da solche Haushalte bei bisher üblichen Telefonerhebungen nicht ausgewählt werden können. In einem DFG-Projekt wurde diesem Problem nachgegangen. Wesentliche Ergebnisse des Projektes aus stichprobentheoretischer und -praktischer Sicht werden hier vorgestellt.
Abstract The Combination of Cell Phone and Landline Phone Samples in Germany In Germany and other countries there are more and more mobile-only households. Since these households do not have any chance of being selected in a landline phone sample this is a challenge for survey research in general. A project funded by the German Research Foundation dealt with this problem. Major findings from a sampling point of view are presented in this paper.
1 Einführung Über 40 Prozent aller Interviews in der Marktforschung werden in Deutschland gegenwärtig telefonisch durchgeführt (2007: 41 Prozent; ADM 2008). Als Auswahlrahmen hat sich seit Ende der 1990er Jahre in Deutschland ein bei GESIS entwickelter Frame (Gabler-Häder-Design) durchgesetzt, der sowohl in das Telefonbuch eingetragene wie auch nicht eingetragene Anschlüsse enthält, die über ein Ortsnetz erreichbar sind. Ein derartiger Auswahlrahmen, ergänzt durch regionale Angaben, wird z. B. von den Mitgliedsinstituten des Arbeitskreises Deutscher Markt- und Sozialforschungsinstitute e. V. (ADM) für ihre Stichproben benutzt. Auch in der akademi239
Siegfried Gabler, Sabine Häder
schen Sozialforschung kommt er häufig zum Einsatz. Die Stichproben werden für die jeweiligen Forschungspartner von GESIS bereitgestellt. Telefonbuchauswahlen oder Randomize-Last-Digit-Techniken werden aufgrund der bekannten Nachteile (Nichteinbeziehung der nicht in das Telefonbuch eingetragenen Haushalte bzw. ungleiche Auswahlwahrscheinlichkeiten, vgl. Lavrakas 1993; Häder & Gabler 1998; Gabler & Häder 1998) hingegen selten bzw. nur für spezielle Studien, wie z. B. Pretests eingesetzt. In den letzten Jahren hat sich allerdings eine Tendenz angedeutet, die die alleinige Nutzung dieses Auswahlrahmens als unzureichend zur Abdeckung der Gesamtheit der Privathaushalte erscheinen lässt: Ein wachsender Anteil der Haushalte bzw. Personen ist lediglich über Mobiltelefon erreichbar (vgl. Glemser 2007; Häder & Häder 2009). In einer telefonischen Befragung 2008 wurde von uns ein Wert von 8% sogenannter „Mobile-only“-Haushalte, d. h. Haushalte, die lediglich über eine Mobilfunknummer erreichbar sind, ermittelt (Gabler & Häder 2009). Diese Haushalte haben bei telefonischen Umfragen mit Stichproben nach dem Gabler-Häder-Design keine positive Auswahlchance. Da sich Personen in Mobile-only-Haushalten aber durch besondere Merkmalskombinationen auszeichnen – sie sind z. B. jünger, mobiler, häufiger ledig oder geschieden und leben häufiger in Einpersonenhaushalten (vgl. Häder & Glemser 2006; Graeske & Kunz 2009) –, kann es zu systematischen Verzerrungen in den Stichproben kommen. tab01 Tabelle 1: Anteil der Mobile-only-Haushalte in ausgewählten Ländern Land
Anteil
Tschechische Republik Finnland Polen Frankreich UK Deutschland USA (2006)
64% 61% 32% 16% 15% 11% 8%
Quelle: Europäische Kommission (2008, 31), AAPOR (2008a)
Dieses Problem ist – wie die Tabelle 1 zeigt – kein nationales Problem Deutschlands, sondern eine internationale Herausforderung an die Umfrageforschung. Die Charakteristika der Mobile-onlys sind dabei in Deutschland und den USA sowie anderen Ländern durchaus vergleichbar. So stellt die AAPOR z. B. fest: „Cell-only adults are significantly different in many 240
Die Kombination von Mobilfunk- und Festnetzstichproben in Deutschland
ways from those reachable on a landline. They are younger, less affluent, less likely to be married, more likely to rent their home, more urban, and more liberal on many political questions. For some of these characteristics, the differences between cell-only and landline adults are quite large.“ (AAPOR, 2008a). Speziell in den USA wird entsprechende Methodenforschung betrieben (vgl. Lavrakas 2007; Lepkowski et al. 2008), jedoch sind die Befunde nicht so einheitlich, dass klare Empfehlungen für die Durchführung von Mobilfunkbefragungen gegeben werden können. Sie zeigen, dass es auf dem Gebiet der Befragung über das Mobilfunknetz bzw. der Kombination von Festnetz- und Mobilfunkstichproben noch kaum gesichertes Wissen gibt. So bleiben die „Guidelines and Considerations“ der AAPOR (2008b) häufig sehr vage und unsicher, wenn es um konkrete Tipps zur Implementierung von Mobilfunkbefragungen geht. Deshalb erschien uns ein Beitrag zur Integration von Mobilfunkanschlüssen in Telefonstichproben notwendig. Dazu wurde im Jahr 2006 ein von der Deutschen Forschungsgemeinschaft gefördertes Projekt aufgesetzt, das sich der Untersuchung dieser und weiterer damit verbundener Fragen widmet. Bei dem Projekt „Telefonbefragungen in der Allgemeinbevölkerung über das Mobilfunknetz“ handelt es sich um eine Kooperation zwischen der Technischen Universität Dresden und GESIS – Leibniz-Institut für Sozialwissenschaften. In diesem Projekt wurde eine Bevölkerungsbefragung durchgeführt, bei der sowohl Festnetz- als auch Mobilfunkinhaber interviewt wurden (Stichprobenumfang jeweils ca. n = 1.000). Das Design der Erhebung war so angelegt, dass u. a. eine Reihe der oben genannten statistischen Probleme bearbeitet werden konnte.1
2 Auswahlrahmen für die Stichprobenziehung Wie Abbildung 1 (S. 242) zu entnehmen ist, gibt es seit drei Jahren mehr Handys als Einwohner. Im Jahr 2008 wurde die 100-Millionen-Grenze überschritten. Um die Handynutzer in Telefonumfragen einbeziehen zu können, galt es zunächst, einen geeigneten Auswahlrahmen für Mobilfunknummern zu konstruieren. Aufgrund der niedrigen Eintragsdichte von Mobiltelefonen in Verzeichnisse (nur ca. 2 Millionen eingetragene Mobilfunknummern) war für die Rufnummerngenerierung ein Vorgehen nach dem Random-Digit-DialingDesign (uneingeschränkte Zufallsziffernanwahl) zu entwickeln und einzusetzen. Dabei musste für alle an die unterschiedlichen Provider vergebenen Einwahlen die Menge der möglichen Teilnehmernummern ermittelt werden. 241
Siegfried Gabler, Sabine Häder
Abbildung 1: Zahl der Mobilfunkanschlüsse in Deutschland
Quelle: http://www.bitkom.org/51940_50446.aspx
Abbildung 2: Auswahlrahmen Mobilfunk
* Im Netz 0176 vergibt O2 8-stellige Rufnummern, obwohl nur 7-stellige RNB beantragt bei RegTP
242
Die Kombination von Mobilfunk- und Festnetzstichproben in Deutschland
Dieses Universum stellte den Auswahlrahmen dar. Für das hier vorgestellte Projekt hat diese Aufgabe dankenswerter Weise die BIKnASCHPURWIS+BEHRENS GmbH im Auftrag des ADM-Stichprobenclubs übernommen. Abbildung 2 (S. 242) ist zu entnehmen, dass es zur Zeit der Erstellung des Auswahlrahmens theoretisch überhaupt 279 Millionen Nummern gab, die als Handynummern in Frage kamen. Von diesen konnten ca. 100 Millionen ausgeschlossen werden, von denen bekannt war, dass sie nicht vergeben sind. Es verblieben etwa 178 Millionen Nummern, aus denen die Stichprobe ausgewählt wurde. Inzwischen ist bei GESIS ein eigener Auswahlrahmen erstellt worden, aus dem für Forschungspartner aus der akademischen Sozialforschung künftig Stichproben gezogen werden können. Für die Konstruktion des GESIS-Mobilfunkframe haben wir – wie auch BIKnASCHPURWIS+BEHRENS – Angaben der Bundesnetzagentur (Informationen darüber, welche Vorwahlen an welche Netzbetreiber vergeben sind), die sogenannte Gajek-Liste (im Internet erhältliche Datensammlung über die Blocknutzung, d. h. Mailbox- und Sonderrufnummernblöcke, Groß- und Geschäftskunden etc.) sowie die Telefonbucheinträge genutzt. Die Eintragsdichte ist zwar – wie schon erwähnt – sehr gering, aber die vorhandenen Einträge geben trotzdem einen guten Überblick darüber, welche Blöcke genutzt werden und welche nicht. So werden Blöcke, die keine Einträge enthalten, auf jeden Fall nicht generiert. Generell haben wir Nummern in 100.000er Blöcken erzeugt, wenn allerdings geeignete detailliertere Informationen vorliegen, wurde z. T. auch in 10.000er Blöcken generiert. Tabelle 2: Größe des Auswahlrahmens (Stand Frühjahr 2008) Vorwahl (0)170 (0)171 (0)172 (0)173 (0)174 (0)175 ... gesamt
gesamter Nummerblock
eingetragene Nummern
Blockgröße
9.000.000 9.000.000 9.000.000 9.000.000 9.000.000 9.000.000
308.352 487.412 346.981 174.054 41.965 95.596
7.900.000 7.800.000 8.400.000 8.400.000 8.400.000 8.400.000
273.000.000 Theoretisch vergebene Rufnummern
2.307.096 Eingetragene Rufnummern
151.750.000 Generierte Rufnummern 243
Siegfried Gabler, Sabine Häder
Tabelle 2 zeigt einen Ausschnitt aus unserem aktuellen Auswahlrahmen. Insgesamt kommen wir bei den derzeitig vergebenen Vorwahlen auf 273 Millionen theoretisch vergebene Rufnummern, von denen ca. 2,3 Millionen Mobilfunknummern eingetragen sind. Letztendlich umfasst unser aktueller Auswahlrahmen knapp 152 Millionen Nummern, die aufgrund der schon genannten Quellen (Bundesnetzagentur, Gajek-Liste und Telefonbucheinträge) zustande gekommen sind. Er ist damit etwas weniger umfangreich als derjenige, der für die Bildung der Projektstichprobe verwendet wurde. Allerdings wurde er auch ca. ein Jahr später erstellt und die Bewegungen im Mobilfunknummernraum sind äußerst dynamisch. Weitere Prüfungen müssen zeigen, in welchen Größenordnungen der optimale Auswahlrahmenumfang jeweils liegt. tab02 Die Festnetzstichprobe für das DFG-Projekt wurde mit dem in der Literatur schon mehrfach beschriebenen Gabler-Häder-Design ermittelt (vgl. Gabler & Häder 1999).
3 Der Dual-Frame-Ansatz Werden Befragte über verschiedene, in unserem Fall zwei Auswahlrahmen ausgewählt, wobei einige in beiden Listen vorkommen, so hat man es mit Dual-Frame-Erhebungen zu tun. In dem vorliegenden Projekt lieferte das Festnetz den einen Auswahlrahmen und der Mobilfunk den anderen. Wie bereits erwähnt sind die Auswahlschritte bei beiden Modes verschieden. abb03 Abbildung 3: Dual-Frame-Ansatz
244
Die Kombination von Mobilfunk- und Festnetzstichproben in Deutschland
Festnetzstichproben können auf der ersten Stufe vereinfacht als Haushaltsstichproben aufgefasst werden, da beim Klingeln des Telefons jedes Haushaltsmitglied den Hörer abnehmen kann. Innerhalb des Haushalts wird dann über ein Zufallsverfahren eine Person zufällig ausgewählt und befragt. Damit werden bei Bevölkerungsbefragungen über das Festnetz Personen mit unterschiedlichen Auswahlwahrscheinlichkeiten ausgewählt und es muss eine Transformation auf Personenebene erfolgen, die die Zahl der zur Zielgesamtheit gehörenden Personen im Haushalt berücksichtigt. Bei Mobilfunkstichproben handelt es sich jedoch eher um Personenstichproben. Tabelle 3 zeigt, dass sowohl die im Festnetz Befragten als auch die Mobilfunkbefragten angaben, ihr Handy überwiegend selbst zu nutzen.2 Die Angabe „Hin und wieder nutzen es andere“ lief ebenfalls darauf hinaus, dass nur in Ausnahmesituationen eine andere Person einen Anruf entgegennimmt, wie eine offene Nachfrage im Interview ergab. Also kann das Handy als persönliches Gerät betrachtet und auf eine Auswahl der zu befragenden Person analog der im Festnetz üblichen verzichtet werden. Damit ist auch keine Transformationsgewichtung vorzunehmen. tab03 Tabelle 3: Erreichbarkeit: Handynutzung n Nutze es nur selbst
Festnetz in %
Handy n
in %
790
91,1
1.051
90,6
Hin und wieder nutzen es andere
57
6,6
96
8,3
Teile es mit anderen
20
2,3
13
1,1
867
100,0
1.160
100,0
gesamt
Nun gilt es, ein Modell für die Kombination beider Stichproben zu entwickeln. Der Dual-Frame-Ansatz liefert dazu das statistische Gerüst. Das Schema 1 (S. 246) erklärt die wesentlichen Parameter, die im Modell zu berücksichtigen sind. tab_onr Das Beispiel in Abbildung 4 erläutert die Zusammensetzung eines Haushalts in Bezug auf den Telefonbesitz. Der Beispiel-Haushalt besteht aus drei Zielpersonen (zi = 3) und besitzt eine ISDN-Anlage mit zwei verschiedenen Festnetznummern (kiF = 2). Zwei Mitglieder des Haushalts haben kein Handy (kiC = 0), die dritte Person verfügt über zwei Handys (kiC = 2). abb04 245
Siegfried Gabler, Sabine Häder
Schema 1 Festnetz
Mobilfunk
• MF Zahl der Nummern im Auswahlrahmen
• MC Zahl der Nummern im Auswahlrahmen
• mF Zahl der Nummern in der Stichprobe
• mC Zahl der Nummern in der Stichprobe
k iC Zahl der Mobilfunknummern, über die Person i erreicht werden kann. k iF Zahl der Festnetznummern, über die der Haushalt, in dem Person i wohnt, erreicht werden kann. zi Haushaltsgröße des Haushalts, in dem Person i wohnt
Abbildung 4: Beispiel der Verteilung von Telefonnummern in einem Haushalt
4 Gewichtung beim Dual-Frame-Ansatz Für die Auswahlwahrscheinlichkeit einer Person i gilt nach Gabler & Ayhan (2007): p i =1- (1- p Fi )(1- p Ci ) = ( p iF + p Ci - p iF p iC » p Fi + p iC 246
Die Kombination von Mobilfunk- und Festnetzstichproben in Deutschland
Wegen ⎛ kiF ⎞ ⎛ M F − kiF ⎞ ⎜ ⎟⎜ F ⎟ ⎛ ⎛ m −j ⎠ mF 1 1⎞ ⎞ j ≈ kiF F ⋅ π iF = ∑ ⎜ 1 − ⎜ 1 − ⎟ ⎟ ⎝ ⎠ ⎝ F zi ⎠ ⎟ M zi ⎛M ⎞ j =0 ⎜ ⎝ ⎝ ⎠ ⎜ F⎟ ⎝m ⎠ kiF
j
und ⎛ M C − kiC ⎞ ⎜ ⎟ C mC ⎠ C m k π iC = 1 − ⎝ ≈ i MC ⎛MC ⎞ ⎜ C⎟ ⎝m ⎠
erhält man
π i ≈ π iF + π iC ≈ kiF
mF 1 mC ⋅ + kiC C F M zi M
In verschiedenen Untersuchungen hat sich inzwischen herauskristallisiert, dass die meisten Haushaltsmitglieder die Zahl ihrer Festnetznummern kiF nicht zuverlässig angeben können (vgl. Meier 2007). Deshalb haben wir als weitere Vereinfachung festgelegt, dass nur der Besitz einer ISDN- oder Analog-Anlage für den Wert von kiF berücksichtigt werden soll. Genauer wurde definiert: ì 1 falls i-te Person in Haushalt mit Analog-Anschluss lebt k iF = í î 2,5 falls i-te Person in Haushalt mit ISDN-Anschluss lebt Selbst wenn man den Wert von kiF über geschlossene Verträge und die Schaltung der Nummern zu den Telefonapparaten herausfinden könnte, würde das einen viel zu hohen Aufwand an Zeit bedeuten, die man bräuchte, um allein diesen Parameter zu ermitteln. Diese Zeit würde dem Interview zum eigentlichen Umfragethema fehlen. Auch bei Mobiltelefonen kann es zur Erhöhung der Auswahlwahrscheinlichkeit einer Person dadurch kommen, dass diese über mehrere Handynummern erreichbar ist. Wir haben deshalb die Mobilfunk- und Festnetz247
Siegfried Gabler, Sabine Häder
nutzer danach gefragt, über wie viele Handynummern sie verfügen.3 Tabelle 4 zeigt das Ergebnis. Damit liegen auch die Werte für kiC fest. tab04 Tabelle 4: Erreichbarkeit: Zahl der Handynummern n
Festnetz in Prozent
Eine Zwei Drei Vier Fünf und mehr weiß nicht/k.A.
789 63 11 2 1 2
90,90 7,26 1,27 0,23 0,12 0,23
gesamt
868
100
n
Handy in Prozent
948 167 31 4 7 5
81,6 14,4 2,7 0,3 0,6 0,5
1.162
100
Da damit alle Parameter für das Gewichtungsmodell bekannt sind, lassen sich die Inklusionswahrscheinlichkeiten für unsere Stichproben berechnen: Mobilfunk
Festnetz •
MF
• MC = 178.050.000
= 125.314.800
• mF = 16.154
• mC = 23.955
Wegen eqn_3-04_025 M F mC = 1,04 mF M C
gilt daher für die auf Fallzahl normierten Gewichte wi 3-04_formel_ll4 1 wi = n
πi
∑
j aus Stichprobe
1
πj
≈
n ⎛ kiF 1 C⎞ + ki ⎟ ⋅ ∑ ⎜ 1,04 ⋅ F k z i ⎝ ⎠ j aus Stichprobe 1,04 ⋅ j + k C j zj
Es gilt allerdings, eine Grundannahme für dieses Gewichtungsmodell zu erwähnen. Da eine Person beim Dual-Frame-Ansatz über verschiedene Listen, ja sogar innerhalb eines Auswahlrahmens mehrfach ausgewählt werden kann, ist es vom praktischen Standpunkt sinnvoll, diese Annahme zu treffen, 248
Die Kombination von Mobilfunk- und Festnetzstichproben in Deutschland
da sie die Formeln für die Auswahlwahrscheinlichkeiten wesentlich vereinfacht. Annahme: Die Wahrscheinlichkeit, dass zwei Nummern mit (nicht notwendig verschiedenen) Mitgliedern desselben Haushalts in die Stichprobe gelangen, ist vernachlässigbar. Diese Vereinfachung ist für den Fall von bundesweiten Bevölkerungsbefragungen praktisch bedeutungslos. Zu unwahrscheinlich ist der Fall, dass zum Beispiel eine Person sowohl über den Festnetz- als auch den Mobilfunkrahmen ausgewählt wird. Problematischer dürfte diese Annahme lediglich bei regionalen Umfragen sein. Diese können aber über das Mobilfunknetz ohnehin nicht realisiert werden, da Mobilfunknummern keine Hinweise für eine regionale Schichtung enthalten. In unserem Modell werden prinzipiell vier Gruppen von Telefonnutzern berücksichtigt4: 1. Festnetz – Analog-Anschluss 2. Festnetz – ISDN-Anschluss 3. Virtuelle Festnetznummer 4. Mobilfunknummer Da nicht alle 16 Kombinationen der Ausprägungen vorkommen oder auch gar nicht möglich sind, verbleiben die acht Konstellationen aus Abbildung 5. abb05 Abbildung 5: Anzahl Befragter für alle vorkommenden Konstellationen
249
Siegfried Gabler, Sabine Häder
In unserer Stichprobe befinden sich 175 Personen, die nur über ein Mobiltelefon erreichbar sind. Dies entspricht (ungewichtet) 8% der Haushalte und damit einem Wert, der dem Trend anderer Studien folgt (für 2006 war von TNS Infratest ein Anteil von 7,6% der Haushalte ermittelt worden, vgl. Glemser 2007). Damit wird ein weiteres Mal belegt, dass das Bemühen um die „Mobile-onlys“ durchaus gerechtfertigt ist – zumal sie deutlich jünger, häufiger männlich und mobiler sind als die anderen Befragten. Allerdings würde ein Übergang zu reinen Mobilfunkstichproben auch nicht der optimale Weg sein, da immerhin 6,5% der Haushalte nur über Festnetz erreichbar sind, wobei es sich hierbei überwiegend um ältere Bürger handelt. Bis auf weiteres wird also die Kombination beider Stichproben die „best practice“ für telefonische Befragungen darstellen. Abbildung 6 zeigt die Histogramme der Gewichte getrennt für Befragte, die über das Festnetz ausgewählt wurden, und denen, die über den Auswahlrahmen des Mobilfunks ausgewählt wurden. abb06 Abbildung 6: Histogramm der Gewichte für Festnetz und Mobilfunk Histogramm der Gewichte Mobilfunk 250
200
200
Häufigkeiten
Häufigkeiten
Histogramm der Gewichte Festnetz 250
150
100
150
100
50
50
0
0 0
2
4
Gewichte
6
8
0
2
4
6
8
Gewichte
Große Gewichte treten nur bei Personen aus dem Festnetzrahmen auf, und zwar dann, wenn sie in einem Festnetz-only-Haushalt leben, in dem viele Zielpersonen wohnen. Dadurch ist der Design-Effekt vergleichsweise gering (vgl. Gabler & Häder 2009).
5 Ausblick Die beschriebene Möglichkeit, über einen Dual-Frame-Ansatz Festnetzund Mobilfunkumfragen zusammenzuführen, lässt hoffen, dass der Fehler praktisch behoben werden kann, der durch die unvollständige Überde250
Die Kombination von Mobilfunk- und Festnetzstichproben in Deutschland
ckung der Gesamtbevölkerung mit ausschließlich Festnetzstichproben entsteht. Zu überlegen gilt es nun, wie unter Vorgabe eines konkreten Kostenrahmens der Umfang der Festnetz- und der Mobilfunkstichprobe zu wählen ist. In der vorliegenden Studie wurde er aufgrund mangelnder Vorkenntnisse mit jeweils 1000 Befragten festgelegt. Möglicherweise ist ein anderes Verhältnis unter Kostenaspekten aber vorzuziehen. Hierzu sind weitere Forschungen nötig.
Anmerkungen 1
2
3
4
Zu weiteren Ergebnissen des Projektes siehe Beiträge von Schneiderat & Schlinzig zum Teilnahmeverhalten sowie von Häder & Kühne zu Mode-Effekten in diesem Sonderband sowie Häder & Häder (2009). Eine Frage in der Studie widmete sich den Teilungsgewohnheiten des Handys. Sie lautete: Wer nutzt Ihr Handy normalerweise? Nutzen Sie es nur selbst, hin und wieder nutzen es auch andere (Partner/in, Kinder, Mitbewohner) oder teilen Sie es mit anderen (nutzen es zu gleichen Teilen)? Weitere Antwortmöglichkeiten: Sonstiges (open end), weiß nicht, keine Angabe, Abbruch. In einer Frage wurde ermittelt, über wie viele Handynummern die Zielperson erreichbar ist. Der Fragetext lautete: Über wie viele Handynummern sind Sie gegenwärtig privat erreichbar? Bitte lassen Sie Festnetznummern wie o2-Homezone, Vodafone Zuhause, T-Mobile-at-home etc. unberücksichtigt. Eine, Zwei, Drei, Vier, Fünf, Sechs und mehr. Weitere Antwortmöglichkeiten: Weiß nicht, keine Angabe, Abbruch. Auf die Erfragung der Nutzung von Internet-Telefonie haben wir in unserer Studie verzichtet. Sie wird aber in Zukunft möglicherweise nicht länger unberücksichtigt bleiben dürfen. Die Änderung des Telekommunikationsverhalten über die Zeit wird im Projekt Experimental Mobile Phone Panel im Rahmen des Priority Programme 1292 Survey Methodology der DFG bearbeitet. Antragsteller sind M. Fuchs (Universität Kassel), S. Gabler (GESIS) und S. Häder (GESIS).
Literatur AAPOR (2008a). Abgerufen am 26.11.2008, Website: www.aapor.org/docellphones affectsurveyresearch. AAPOR Cell Phone Task Force (2008b). Guidelines and Considerations for Survey Researchers when Planning and Conducting RDD and Other Telephone Surveys in the U. S. with Respondents Reached via Cell Phone Numbers. 63th Annual Conference. New Orleans. ADM (2008). Abgerufen am 26.11.2008., Website: www.adm-ev.de. Europäische Kommission (2008). E-Communications Household Survey, Eurobarometer Spezial 293/Welle 68.2. Abgerufen am 28.06.2008, Website: http://ec.europa.eu/public_opinion/archives/ebs/ebs_293_full_de.pdf.
251
Siegfried Gabler, Sabine Häder Gabler, S., & Ayhan, Ö. (2007). Gewichtung bei Erhebungen im Festnetz und über Mobilfunk: Ein Dual Frame Ansatz. In S. Gabler & S. Häder (Hg.), Mobilfunktelefonie – Eine Herausforderung für die Umfrageforschung. ZUMA Nachrichten Spezial, 13, 39–45. Gabler, S., & Häder, S. (1998). Probleme bei der Anwendung von RLD-Verfahren. In S. Gabler & S. Häder & J. H. P. Hoffmeyer-Zlotnik (Hg.), Telefonstichproben in Deutschland. Opladen: Westdeutscher Verlag GmbH. Gabler, S., & Häder, S. (1999). Erfahrungen beim Aufbau eines Auswahlrahmens für Telefonstichproben in Deutschland. ZUMA Nachrichten, 44, 45–61. Gabler, S., & Häder, S. (2007). Mobilfunktelefonie – Eine Herausforderung für die Umfrageforschung. ZUMA-Nachrichten Spezial, 13, (128 Seiten) Gabler, S., & Häder, S. (2009). Gewichtung für die CELLA-Studie. In M. Häder & S. Häder (Hg.), Telefonbefragungen über das Mobilfunknetz (51–56). Wiesbaden: VS Verlag. Glemser, A. (2007). Mobilfunknutzung in Deutschland. Eine Herausforderung für die Stichprobenbildung in der Markt- und Sozialforschung. In S. Gabler & S. Häder (Hg.), Mobilfunktelefonie – Eine Herausforderung für die Umfrageforschung. ZUMA-Nachrichten Spezial, 13, 7–23. Graeske, J., & Kunz, T. (2009). Stichprobenqualität der CELLA-Studie unter besonderer Berücksichtigung der Mobile-onlys. In M. Häder & S. Häder (Hg.), Telefonbefragungen über das Mobilfunknetz (57–70). Wiesbaden: VS Verlag. Häder, S., & Gabler, S. (1998). Ein neues Stichprobendesign für telefonische Umfragen in Deutschland. In S. Gabler & S. Häder & J. H. P. Hoffmeyer-Zlotnik (Hg.), Telefonstichproben in Deutschland. Opladen: Westdeutscher Verlag GmbH. Häder, S., & Glemser, A. (2006). Stichprobenziehung für Telefonumfragen in Deutschland. In A. Diekmann (Hg.), Methoden der Sozialforschung (148–171). Wiesbaden: VS Verlag. Häder, M., & Häder, S. (Hg.) (2009). Telefonbefragungen über das Mobilfunknetz. Wiesbaden: VS Verlag. Lavrakas, P. (1993). Telephone Survey Methods: Sampling, Selection, and Supervision (Applied Social Research Methods). New Burry Park: Sage. Lavrakas, P. J. (2007). Cell Phone Numbers and Telephone Surveying in the U. S. Public Opinion Quarterly, Special Issue 2007. Lepkowski, J., et al. (2008). Advances in Telephone Survey Methodology. John Wiley & Sons. Meier, G. (2007). Validierung eines Fragebogens zur Erfassung der Anzahl von Telefonnummern. In S. Gabler & S. Häder (Hg.), Mobilfunktelefonie – Eine Herausforderung für die Umfrageforschung. ZUMA-Nachrichten Spezial, 13, 91–104.
252
Johann Bacher
Johann Bacher
Analyse komplexer Stichproben* Zusammenfassung In der Umfrageforschung werden häufig komplexe Stichprobendesigns eingesetzt, so dass bei der Datenanalyse die Annahme einer einfachen Zufallsauswahl aus einer großen Grundgesamtheit nicht mehr erfüllt ist. Der Einsatz von Standardstatistikverfahren ist unter diesen Bedingungen nicht mehr gerechtfertigt und führt zu Fehlschlüssen. Es sollten daher statistische Verfahren eingesetzt werden, die dem komplexen Stichprobendesign Rechnung tragen. Diese stehen heute in den gängigen Standardstatistikprogrammen zur Verfügung. Vielfach werden in der Praxis aber Stichprobendesigns benutzt, die sich nicht unmittelbar auf die Schätzung von Modellparametern übertragen lassen, so dass Zusatzannahmen spezifiziert werden müssen. Für die Zukunft ist daher bei der Datenerhebung der Einsatz von für die Datenanalyse direkt geeigneten Stichprobendesigns wünschenswert.
Abstract Analysis of Complex Survey Data Survey research uses frequently complex sampling designs. The assumption of a simple random sample from a large population is not fulfilled for those designs. Hence, standard statistical procedures result in biased inferences. Statistical procedures for complex sampling designs should be applied. They are available in standard statistic programmes. However, sampling designs are very often applied that do not allow to estimate directly parameters. In the future, therefore, sampling designs should be used that enables directly estimations of parameters.
1 Ausgangspunkt In der Umfrageforschung werden häufig komplexe Stichprobenpläne eingesetzt. Dazu nachfolgend einige Beispiele.
Mikrozensus (Haslinger & Kytir 2005; Stadler 2005): Der Auswahlplan ist zweistufig. In einem ersten Schritt werden auf der Basis des Zentralen Mel253
Johann Bacher
deregisters (ZMR) über Personenadressen Wohneinheiten1 ausgewählt. Die Adressen werden zuvor nach Bundesländern geschichtet. Die Auswahl erfolgt disproportional, d. h. in kleinen Bundesländern werden prozentuell mehr Haushalte und Personen ausgewählt, um in jedem Bundesland eine vorgegebene Mindeststichprobengröße zu erreichen. Innerhalb einer Wohneinheit werden im zweiten Schritt alle Mitglieder erfasst, derzeit ca. 20.000 Haushalte und ca. 50.000 Personen. Proxy-Interviews, also Fremdauskünfte, sind erlaubt. Befragt werden Personen ab 15 Jahre. Ein ausgewählter Haushalt bleibt fünf Quartale in der Erhebung (Fünftel-Rotation) und wird dann durch einen anderen Haushalt ersetzt.
PISA (Programme for International Student Assessment, OECD 2005b; Schreiner et al. 2007): Die Auswahl erfolgt nach strengen Qualitätsvorgaben der internationalen Projektgruppe, die in Österreich wie folgt umgesetzt werden: In einer ersten Stufe werden die Schulen, die von der Zielgruppe (= 15/16-Jährige) besucht werden, nach Schulformen geschichtet. Zusätzlich werden zwei Residualschichten von kleinen und sehr kleinen Schulen gebildet. Die Auswahl der Schulen innerhalb der Schichten erfolgt größenproportional entsprechend dem Anteil in der Grundgesamtheit, in den beiden Restschichten werden geringere Auswahlwahrscheinlichkeiten eingesetzt, um den Erhebungsaufwand gering zu halten. Innerhalb der Schulen werden bei mehr als 35 SchülerInnen des Zieljahrganges zufällig 35 SchülerInnen ausgewählt, bei kleinerer SchülerInnenzahl erfolgt eine Vollerhebung. Diese Begrenzung wird zur Reduktion des Klumpeneffektes (siehe dazu später) vorgenommen. Bei PISA2006 wurden in Österreich 4.927 SchülerInnen in 199 Schulen getestet (Schreiner et al. 2007, 51), bei PISA2003 waren es 4.575 SchülerInnen (Haider & Reiter 2004, 22). Öibf-Bildungsstudie (Schlögl & Lachmayr 2004; Bacher & Beham & Lachmayr 2008): Ziel dieser Studie war die Erfassung von Bildungs- und Schulwahlmotiven an den Schnittstellen des österreichischen Bildungssystems. Die Auswahl erfolgte wiederum mehrstufig. Auf der ersten Stufe wurden die Schulen geschichtet nach Schulform, Region und Schulstufe. Insgesamt wurden 180 Schichten gebildet. In jeder Schicht wurde eine Schule zufällig ausgewählt. Um ausreichende Fallzahlen zu erreichen, wurden jeweils zwei Klassen in den ersten Klasse der AHS (Allgemein bildende Schule, Gymnasium) und HS (Hauptschule) befragt. Ansonsten wurden nur vereinzelt zwei Klassen pro Schulstandort erfasst. In den ersten Klassen AHS wurden zusätzlich im Nahbereich je eine HS befragt, um direkte (Paar-)Vergleiche unter Ausschluss der unterschiedlichen regionalen Erreichbarkeit 254
Analyse komplexer Stichproben
durchführen zu können. Innerhalb einer ausgewählten Klasse fand eine Vollerhebung statt. In der vierten und fünften Schulstufe werden nur die Eltern befragt, in den höheren die Jugendlichen und Eltern. Das Design ist in der Abbildung 1 dargestellt. Abbildung 1: Untersuchungsdesign der öibf-Erhebung SchülerInnen
Eltern
Übergang in die Sekundarstufe I 15x VS 4. Klasse nicht befragt
15x HS 1. Klasse 15x AHS 1. Klasse
15x HS 1. Klasse Nahbereich
Übergang in die Sekundarstufe II 15x HS 4. Klasse
15x HS 4. Klasse
15x AHS 4. Klasse
15x AHS 4. Klasse
15x AHS 5. Klasse
15x AHS 5. Klasse
15x BMS 1. Klasse
15x BMS 1. Klasse
15x BS/PT 1. Klasse
15x BPS/PT 1. Klasse
15x BHS 1. Klasse
15x BHS 1. Klasse
Übergang in den Tertiärbereich 15x BHS 5. Klasse
15x BHS 5. Klasse
15x AHS 8. Klasse
15x AHS 8. Klasse
Quelle: Eigendarstellung öibf
Als ein weiteres Beispiel lässt sich der ESS (European Social Survey, ESS 2007; Ganninger 2006, Ganninger & Häder & Gabler 2007; Gabler & Häder & Lynn 2006) anführen. Wie die anderen Beispiele ist er durch eine hohe Qualität der Daten und eine genaue Dokumentation des Stichprobenverfahrens gekennzeichnet. Den genannten Beispielen ist gemeinsam, dass keine einfache Zufallsauswahl (aus einer großen Grundgesamtheit) vorliegt, sondern ein komplexer Stichprobenplan eingesetzt wurde. Die Berechnung von Konfidenzintervallen, Standardfehlern und Signifikanzen mit den in den Standardstatistikprogrammen enthaltenen Schätzern ist unter diesen Bedingungen unzulässig, da die iid-Annahme, dass alle Elemente unabhängig und identisch verteilt 255
Johann Bacher
(independent and identical distributed) sind, verletzt ist. Die Verfahren führen bei Verletzung der iid-Annahme zu Fehlschlüssen, häufig zugunsten einer irrtümlichen Annahme der Alternativhypothese. Dazu folgendes Beispiel (Bacher 2006): Mit einem Fehlerniveau von 1% soll die Hypothese, dass Österreich bei PISA2003 in Mathematik signifikant über dem OECDDurchschnitt von 500 Punkten liegt, geprüft werden. Für Österreich ergeben sich folgende Verteilungskennwerte: Mittelwert in Mathematik = 506 Standardfehler des Mittelwertes = 1,37 Die Teststatistik für den Vergleich mit einem theoretischen Mittelwert hat daher einen Wert von t=
506 – 500 = 4,38 1,37
und ist mit p = 0,000 (einseitiges Fehlerniveau) von Null verschieden. Die Hypothese, dass Österreich bei PISA2003 in Mathematik über den OECDDurchschnitt liegt, kann daher akzeptiert werden. Unter Berücksichtigung des komplexen Stichprobenfehlers beträgt der Standardfehler aber nicht 1,37, sondern 3,23. Die Teststatistik hat daher einen Wert von
t=
506 – 500 = 1,86 3, 23
Das Fehlerniveau p bei einer einseitigen Fragestellung beträgt 0,0316 und liegt über dem Schwellenwert von 0,01. Die untersuchte Hypothese kann daher nicht bestätigt werden.2
2 Merkmale komplexer Stichproben Nach Sturgis (2004) sind komplexe Stichproben durch ein mehrstufiges Vorgehen mit einer Klumpung und Schichtung auf der/den ersten Auswahlstufe(n) und durch eine Gewichtung der Fälle gekennzeichnet. Alle oben genannten Beispiele erfüllen diese Kriterien: Im Mikrozensus werden in einem ersten Auswahlschritt Wohnungen („Klumpen“) ausgewählt, die zuvor nach Bundesländern disproportional geschichtet werden. Im zweiten Schritt findet in den Wohneinheiten eine Vollerhebung statt. Im Stichprobenplan 256
Analyse komplexer Stichproben
von PISA werden auf der ersten Stufe Schulen (= Klumpen) nach Schulformen und Größe (siehe oben) geschichtet. Innerhalb der Schichten werden die Schulen zufällig ausgewählt. Innerhalb einer Schule erfolgt bei mehr als 35 SchülerInnen der Zielpopulation eine erneute Zufallsauswahl, bei kleinerer SchülerInnenzahl wird eine Vollerhebung durchgeführt. Das Design der öibf-Studie besteht ebenfalls aus drei Stufen: Auswahl der Schulen nach Schichten, Auswahl der Klassen und Vollerhebung in den Klassen. In allen Datenbeispielen stehen für die Analyse Gewichte zur Verfügung, die verwendet werden sollten, um ein repräsentatives Abbild der Grundgesamtheit zu erhalten. Wolter (1985, 2) nennt in seinem Standardwerk zur Schätzung von Standardfehlern weitere Kriterien zur Charakterisierung von komplexen Stichproben. Diese sind: degree of complexity of sample design, degree of complexity of sample estimator, multiple characteristics of variables of interest, descriptive and analytical uses of the survey data, the scale or size of survey. Neben dem Stichprobendesign und der Größe der Stichprobe kann seiner Meinung nach von einer komplexen Stichprobe auch dann gesprochen werden, wenn komplexe Schätzer, z. B. Verhältnisschätzer, Parameter multivariater Verfahren, berechnet werden, wenn eine Vielzahl von Variablen untersucht wird und die Daten nicht nur deskriptiv ein- und zweidimensional, sondern kausal, z. B. mittels regressionsanalytischer Techniken, ausgewertet werden. Auch die von Wolter (1985) genannten Merkmale treffen auf die obigen Beispiele zu. Von der Perspektive der Datenauswertung aus ist es aber sinnvoll, von einer komplexen Stichprobe dann zu sprechen, wenn die iid-Annahme verletzt ist und daher die Standardverfahren in Statistikprogrammen3 zu inkorrekten Ergebnissen führen. Dies ist immer dann der Fall, wenn keine einfache Zufallsauswahl aus einer großen Grundgesamtheit vorliegt. Entsprechend dieser Festlegung sollten Verfahren für komplexe Stichproben auch dann genutzt werden, wenn aus einer kleinen Grundgesamtheit (z. B. N = 300) eine einfache Zufallsauswahl, z. B. von n = 120, gezogen wird. In diesem Fall führen die Standardstatistikverfahren zu einer Überschätzung von Standardfehlern, da der so genannte Korrekturfaktor nicht berücksichtigt wird. Dies hat zur Folge, dass vorhandene Zusammenhänge und Differenzen nicht entdeckt werden. Im Unterschied zur Zufallsauswahl aus einer kleinen Grundgesamtheit erhöht sich in mehrstufigen Stichprobenverfahren i. d. R. der Standardfehler, da eine Klumpung vorgenommen wird und der dadurch entstehende Klumpeneffekt auch durch eine Schichtung nicht ausgeglichen wird (siehe dazu später). Dies führt – wie in der Einführung verdeutlicht – dazu, dass Zusam257
Johann Bacher
menhänge und Unterschiede als signifikant ausgewiesen werden, obwohl sie dies nicht sind. Der Genauigkeitsverlust oder -gewinn eines komplexen Stichprobendesigns wird durch den so genannten Designeffekt gemessen. Dieser gibt an, um das Wievielfache die komplexe Stichprobe genauer oder ungenauer ist als eine einfache Zufallsauswahl. Als Maßzahl für die Genauigkeit wird die Varianz von Schätzern verwendet. Der Designeffekt ist definiert als (z. B. Kish 1967, 258; Ganninger & Häder & Gabler 2007)4: (1.)
DEFF(T) =
s (T) 2komplex s (T) 2einfach
mit s (T) 2komplex = Varianz der (Test-)Statistik/des Parameters T, z. B. des Mittelwertes eines Merkmals, für komplexes Stichprobendesign, s (T) 2einfach = Varianz der (Test-)Statistik/des Parameters T für einfache Zufallsauswahl, wobei s (T) 2einfach mit oder ohne Berücksichtigung des Korrekturfaktors (Auswahlsatzes) berechnet wird. Werte größer 1 bedeuten einen Genauigkeitsverlust, Werte kleiner 1 einen Genauigkeitsgewinn. Für das oben zitierte Beispiel aus PISA ergibt sich ein Designeffekt von 3,23 2 DEFF(T) = = 5,56. 1,37 2 Die Genauigkeit der komplexen Stichprobe für die untersuchten Mathematikleistungen ist 5,56 mal kleiner als jene einer einfachen Zufallsauswahl. Zur Kennzeichnung des Genauigkeitsgewinns oder -verlusts wird mitunter auch die Wurzel des Designeffekts eingesetzt:5
(2.)
DEFFSQRT(T) =
s (T) 2komplex s (T)
2 einfach
=
s (T) komplex s (T) einfach
Diese Größe ist einfacher zu interpretieren, da eine direkte Beziehung zu Standardfehler und Vertrauensintervall besteht. Für das obige Beispiel ergibt sich ein Genauigkeitsverlust von 2,36, d. h., der Standardfehler bzw. das Konfidenzintervall für die durchschnittlichen Mathematikleistungen ist 2,4 mal größer bzw. breiter als bei einer einfachen Zufallsauswahl. 258
Analyse komplexer Stichproben
Eine weitere Kennzahl zur Kennzeichnung einer komplexen Stichprobe ist die effektive Stichprobengröße. Sie ist definiert als: (3.)
NEFF(T) =
n(T) komplex DEFF(T)
mit n(T)komplex = Fallzahl der komplexen Stichprobe für eine Teststatistik bzw. einen Parameter T. Die effektive Stichprobengröße gibt an, wie groß eine einfache Zufallsauswahl sein muss, um dieselbe Genauigkeit wie die komplexe Stichprobe zu erzielen. In PISA2003 wurden 4.597 SchülerInnen getestet. Die effektive Stichprobengröße für die Mathematikleistungen ist 4.597 NEFF(T) = = 827. 5,56 Dieselbe Genauigkeit wäre erzielt worden, wenn aus der Zielgruppe zufällig 827 Personen ausgewählt und zum Test eingeladen worden wäre. Das Beispiel zeigt, dass der Genauigkeitsverlust groß sein kann, und unterstreicht nochmals die Notwendigkeit des Einsatzes von geeigneten Verfahren. Die Formel für die effektive Stichprobengröße kann zur Ermittlung des Stichprobenumfanges für ein komplexes Design n(T)komplex = NEFF(T) · DEFF(T) verwendet werden. Hierzu ist eine Abschätzung des Designeffekts erforderlich, wobei auch ungleiche Auswahlwahrscheinlichkeiten zu berücksichtigen sind. Für eine (zweistufige) Klumpenauswahl lässt sich der Designeffekt bei ungleichen Auswahlwahrscheinlichkeiten darstellen als (Ganninger & Häder & Gabler 2007) (4.)
DEFF(T) = DEFF(P) · DEFF(C),
wobei DEFF(P) der durch die ungleichen Auswahlwahrscheinlichkeiten entstehende Designeffekt ist und DEFF(C) der aus der Klumpung resultierende Designeffekt. Für den European Social Survey ergeben sich für DEFF(P) Werte von 1,00 bis 2,16, wobei für die meisten Länder DEFF(P) kleiner oder gleich 1,26 ist (ebenda, 22). Eine Verallgemeinerung dieses Ansatzes geben Gabler & Häder & Lynn (2006) für ein zweistufiges Auswahlverfahren. Diese Formeln sollten bei der Planung von komplexen Stichproben berücksichtigt werden. Nachfolgend sollen die Konsequenzen eines komplexen Stichprobendesign für eine zweistufige Auswahl mit Schichtung auf der ersten Stufe unter vereinfachenden Annahmen6 aufgezeigt werden, wobei der durch ungleiche Auswahlwahrscheinlichkeit entstehende Designeffekt vernachlässigt wird. Der Genauigkeitsverlust lässt sich darstellen als 259
Johann Bacher
(5.)
ö æn n ÷ DEFF(T) = 1+ ç çn - 1÷× r - n × rS = 1+ (n w - 1) × r - n w × rS ø è B B
n ist die Gesamtstichprobengröße, nB ist die Zahl der Primäreinheiten und nw die durchschnittliche Clustergröße (nW = n/nB), also z. B. die in jeder Schule befragten SchülerInnen. ρ ist die so genannte Intraklassenkorrelation, definiert als Anteil der Varianz zwischen den Primäreinheiten (Cluster) an der Gesamtvarianz, und ρS der Anteil der Varianz zwischen den Schichten an der Gesamtvarianz. Die Intraklassenkorrelation ρ ist ein Maß für die Homogenität (Ähnlichkeit) innerhalb der Primäreinheiten im Vergleich zur Ähnlichkeit der Elemente der gesamten Stichprobe zueinander in dem untersuchten Merkmal. Die Intraklassenkorrelation sollte möglichst klein sein, d. h., die Elemente innerhalb der Primäreinheiten (z. B. SchülerInnen einer Schule) sollten untereinander nicht zu ähnlich sein. Ist dies nicht der Fall, wird von einem Klumpeneffekt gesprochen. Die Elemente eines Klumpen (Schule) sind untereinander ähnlicher als die Elemente unterschiedlicher Klumpen (derselben Schicht). Gelingt es den Klumpeneffekt zu vermeiden, ist ρ gleich 0 und der zweite Term in der Gleichung wird ebenfalls 0, und es tritt durch diesen Faktor kein Genauigkeitsverlust ein. Der dritte Faktor misst den Effekt der Schichtung der Primäreinheiten und kann als Homogenitätsmaß innerhalb der Schichten interpretiert werden. ρS sollte im Unterschied zu ρ sehr groß sein: Innerhalb der Schichten sollte die Ähnlichkeit (Homogenität) groß sein, zwischen den Schichten gering. Der Designeffekt fällt des Weiteren geringer aus, wenn bei fester Stichprobengröße n mehr Primäreinheiten nB ausgewählt werden. Tabelle 1 verdeutlicht die Effekte für unterschiedliche Konstellationen der Gleichung (5.) für eine Stichprobe von n = 1.000. Für eine einfache Zufallsauswahl aus einer großen Grundgesamtheit ergibt sich ein maximaler Stichprobenfehler von ±1,6%. Wird keine Schichtung vorgenommen (obere Hälfte der Tabelle 1) vergrößert sich der Stichprobenfehler. Bei einer Intraklassenkorrelation von ρ = 0,20 und nb = 25 Primäreinheiten (z. B. Schulen) verdreifacht sich der Stichprobenfehler (DEFFSQRT = 2,97). Auch bei 50 Primäreinheiten liegt noch mehr als eine Verdopplung vor. Bei 100 Primäreinheiten hat der Designeffekt einen Wert kleiner 2,0. Bei einer Intraklassenkorrelation von ρ = 0,50 ist dies erst bei 200 Primäreinheiten der Fall. Die Ergebnisse zeigen somit, dass Untersuchungen auch bei einer Stichprobengröße von 1.000 aus stichprobentheoretischer Sicht problematisch sind, wenn sie in wenigen Schulen (z. B. 50) durchgeführt werden, wie dies bei bildungs- und jugendsoziologischen Untersuchungen der Fall ist.
260
Analyse komplexer Stichproben
Tabelle 1: Designeffekt DEFFSQRT für unterschiedliche Konstellationen von nb, und S nb n nw
25 1.000 40
50 1.000 20
100 1.000 10
200 1.000 5
400 1.000 2,5
800 1.000 1,25
maximaler Stichprobenfehler bei einfacher Zufallsauswahl aus großer Grundgesamtheit σ(p)einfach
±1,6%
±1,6%
±1,6%
±1,6%
±1,6%
±1,6%
Effekte der Intraklassenkorrelation ρ und unterschiedlicher Clustergröße nw, keine Schichtung der Primäreinheiten ρS = 0 ρ = 0,0 0,2 0,5 0,8 1,0
1,00 2,97 4,53 5,67 6,32
1,00 2,19 3,24 4,02 4,47
1,00 1,67 2,35 2,86 3,16
1,00 1,34 1,73 2,05 2,24
1,00 1,14 1,32 1,48 1,58
1,00 1,02 1,06 1,10 1,12
Effekte bei Schichtung für unterschiedliche Werte von ρS und unterschiedliche Clustergrößen nw, feste Intraklassenkorrelation von ρ = 0,20 ρS = 0,00 0,05 0,10 0,15 0,20
2,97 2,61 2,19 1,67 0,89
2,19 1,95 1,67 1,34 0,89
1,67 1,52 1,34 1,14 0,89
1,34 1,24 1,14 1,02 0,89
1,14 1,08 1,02 0,96 0,89
1,02 0,99 0,96 0,93 0,89
Die untere Hälfte der Tabelle 1 veranschaulicht den Schichtungseffekt. Der Designeffekt von 1,67 für nb = 100 Primäreinheiten und eine Intraklassenkorrelation von ρ = 0,20 reduziert sich auf 1,34, wenn die Schichtung die Streuung der Primäreinheiten halbiert (ρs = 0,10)7. Ein Genauigkeitsgewinn durch eine Schichtung wird erzielt, wenn sehr viele Primäreinheiten erhoben werden oder ρs = 0,20 gleich ρ ist. Letzteres bedeutet, dass die Schichtung perfekt gelungen ist, so dass die Varianz innerhalb der Schichten gleich Null ist, was in der Praxis nie der Fall sein wird. tab01 Auf der Grundlage der Ausführungen dieses Abschnittes und der vorgenommenen Modellrechnungen lassen sich nochmals die Gründe für eine Unterschätzung der Varianzen von Schätzern bei komplexen Stichproben benennen: 261
Johann Bacher
• Es wird häufig mehrstufig mit Klumpen gearbeitet. Die Elemente eines Klumpens sind untereinander ähnlicher als die Elemente der gesamten Stichprobe. Der „Informationswert“ von m Elementen eines Klumpens ist daher geringer als wenn unabhängig m Elemente mittels einfacher Zufallsauswahl gezogen werden. • Durch eine Schichtung der Klumpen kann dieser Klumpeneffekt reduziert, aber i. d. R. nicht ausgeglichen werden. • Hinzu kommt häufig ein weiterer Genauigkeitsverlust durch den Einsatz ungleicher Auswahlwahrscheinlichkeiten. 3 Geeignete Verfahren und Statistikprogramme für die Datenanalyse 3.1 Allgemeine Vorgehensweise Zur Analyse komplexer Stichprobenpläne steht Spezialsoftware zur Verfügung. Für die PISA-Daten beispielsweise wird von der OECD das Programmpaket WesVar von WESTAT (2008) eingesetzt. Ein weiteres in der Literatur erwähntes Spezialprogramm ist SUDAAN (RTI-International 2008; Lee & Forthofer 2006). Zum anderen bieten aber auch Standardstatistikprogramme, wie SPSS (SPSS Inc. 2008), SAS (SAS Institute 2008), STATA (StataCorp 2008) und R (Lumley 2003), Module für komplexe Stichproben an. Unter den Standardprogrammen ist – sowohl hinsichtlich der Varianzschätzmethoden als auch der enthaltenen statistischen Verfahren – das Survey-Modul von Stata sehr umfangreich (siehe Übersicht 1)8. STATA enthält die meisten in der Literatur behandelten Varianzschätzmethoden. Diese sind (siehe z. B. Lee & Forthofer 2006, 22–39): • Linearisierung mit der Taylor-Methode: Die Varianzen der gesuchten Parameter, z. B. relative Häufigkeiten, Mittelwerte, Regressionskoeffizienten usw., werden mittels Taylor-Approximation geschätzt. Für deskriptive Statistiken lassen sich für einfache Designs geschlossene Formeln angeben (StataCorp 2005, 258–264). • Jackknife-Methode: Die Schätzung der gesuchten Parameter wird mehrfach wiederholt, wobei jeweils eine oder mehrere Primäreinheiten aus der Berechnung herausgenommen werden. Aus den Schätzergebnissen wird die Varianz des gesuchten Parameters berechnet (Details siehe z. B. StataCorp 2005, 267–368). Diese Methode wird z. B. bei den PIRLS-Daten (Mullis et al. 2007; Suchan et al. 2007) eingesetzt. 262
Analyse komplexer Stichproben
• BBR-Schätzung (Balanced Repeated Recplication): Für jede Primäreinheit wird eine bestimmte Anzahl von Gewichten berechnet. Durch die Gewichte erhalten Primäreinheiten innerhalb einer Schicht ein größeres, andere ein kleineres Gewicht, z. B. werden manche Fälle mit 1,5 gewichtet, andere mit 0,5. Die Gewichte werden so festgelegt, dass sie voneinander unabhängig sind. Die Schätzung der gesuchten Parameter wird mehrfach wiederholt. Aus den Schätzergebnissen wird die Varianz der gesuchten Parameter ermittelt (Details siehe z. B. StataCorp 2006, 264–265; OECD 2005b, 114–117). Diese Methode wird z. B. für die PISA-Daten eingesetzt (OECD 2005a, 2005b). Der PISA-Datensatz enthält 80 BRR-Gewichte. Vergleichbar wenige Optionen bietet derzeit SPSS an. Als einzige Methode der Varianzschätzung ist die Linearisierungsmethode implementiert (siehe z. B. SPSS 2008). Für PISA und PIRLS sind entsprechende Makros verfügbar (IEA 2008; OECD 2005a). Trotz dieser Restriktionen wird nachfolgend auf SPSS Bezug genommen, da SPSS nach wie vor ein auch in der Lehre häufig eingesetztes Standardprogramm ist und sich die Linearisierungsmethode für Standardforschungsfragen gut eignet. Zudem stehen multivariate Verfahren sowohl für quantitative, ordinale als auch nominale Merkmale zur Verfügung. Ferner ist zu vermuten, dass SPSS sein Angebot schrittweise ausbauen wird. Bereits jetzt besteht die Möglichkeit, Stichproben zu ziehen. ue01 Übersicht 1: Vergleich von COMPLEX SAMPLE in SPSS und SURVEY METHODS in STATA
Stichprobenziehung: Varianzschätzmethoden: Taylor-Linearisierung BBR-Verfahren Jackknife-Verfahren Statistische Verfahren: (relative) Häufigkeiten Mittelwert Verhältniszahlen Tabellenanalyse inkl. Unabhängigkeitstest t-Test für theoretischen Mittelwert
STATA9
SPSS14
nein
ja
ja ja ja
ja nein nein
ja ja ja ja nein (a)
ja ja ja ja nein (a) 263
Johann Bacher
t-Test für unabhängige Stichproben t-Test für abhängige Stichproben Korrelationskoeffizienten Allgemeines lineares Modell lineare Regression logistische Regression Regressionsmodell für ordinale Variablen weitere Spezialverfahren zur Regressionsanalyse
nein (b) nein (c) nein (d) nein ja ja ja
nein (b) nein (c) nein (d) ja nein (e) ja ja
ja (f)
nein
(a) Kann einfach geprüft werden, indem eine neue Variable y* mit y* = y – μ mit μ = theoretischer Mittelwert gebildet und getestet wird, ob diese von Null verschieden ist. (b) Kann mittels einfacher Regression geprüft werden. Die Gruppierungsvariable (z. B. Geschlecht) ist die unabhängige Variable, die Untersuchungsvariable (z. B. Punkte bei einem Test) die abhängige. Die Mittelwertdifferenz ist dann gleich dem nicht standardisierten Regressionskoeffizienten, die Signifikanz der Mittelwertdifferenz gleich der Signifikanz des Regressionskoeffizienten. (c) Kann einfach geprüft werden, indem eine Variabel d = y1 – y2 mit y1 = erste Messung und y2 = zweite Messung gebildet und getestet, ob diese von Null verschieden ist. (d) Signifikanzen von Korrelationen können mittels der einfachen Regression für folgende Korrelationskoeffizienten berechnet werden: Pearsonscher Korrelationskoeffizient r, Phi, punktbiserale Korrelation. (e) Submodell des allgemeinen linearen Modells (f) Z. B. Probit-Regression, Intervall-Regression, Poisson-Regression usw. (StataCorp. 2005)
Für die Datenanalyse ist in allen Programmen eine Definition des Stichprobenplans erforderlich. Festgelegt werden müssen: • Zahl der Auswahlstufen • Stichprobenplan für jede Stufe. Mitgeteilt werden müssen eine Schichtung, die Auswahlwahrscheinlichkeiten und das Auswahlverfahren (z. B. Ziehen mit oder ohne Zurücklegen) • Schätzmethode für den Standardfehler • Gewichtung Übersicht 2 gibt ein Beispiel für die Definition eines Stichprobenplans mit SPSS für die in der Einleitung erwähnten öibf-Daten. Das Vorgehen und die Struktur sind in den anderen Statistikprogrammen ähnlich. Das Beispiel ist Bacher & Beham & Lachmayr (2008) entnommen. Das Definitionsmodul wird mit CSPLAN ANALYSIS aufgerufen. Daran anschließend wird die Datei definiert, in welcher die Definition gespeichert werden soll. Anschließend 264
Analyse komplexer Stichproben
Übersicht 2: Definition eines Stichprobenplans mit SPSS CSPLAN ANALYSIS /PLAN FILE = 'D:\texte\NBAntrag\Grundschule\csfinal.csaplan' /PLANVARS ANALYSISWEIGHT = ww /PRINT PLAN /DESIGN STRATA = schicht CLUSTER = schulnum /ESTIMATOR TYPE = EQUAL_WOR /INCLPROB VARIABLE = pschicht /DESIGN /ESTIMATOR TYPE = EQUAL_WOR /INCLPROB VARIABLE = ff. wird die Gewichtungsvariable mitgeteilt, in dem Beispiel ist dies die Variable WW. Die Gewichte werden bei der Analyse komplexer Stichproben häufig so gewählt, dass eine Hochrechnung auf die Grundgesamtheit stattfindet. Die Gewichte werden aus dem Kehrwert der Auswahlwahrscheinlichkeiten ermittelt, wobei häufig eine Nachgewichtung durch Ausfälle stattfindet. Für das Gewicht wi(h)j eines Elements j aus dem i-ten Cluster der Schicht h ergibt sich die Formel: 1 1 , mit (6.) w i(h)j = × p i(h) × a i(h) p j / i(h) × a j / i(h) pi(h) = Auswahlwahrscheinlichkeit für Cluster i der Schicht h ai(h) = Teilnahmewahrscheinlichkeit für Cluster i der Schicht h p j / i(h) = Auswahlwahrscheinlichkeit für Element j gegeben Cluster i der Schicht h a j / i(h) = Teilnahmewahrscheinlichkeit für Element j gegeben Cluster i der Schicht h Ungleiche Auswahlwahrscheinlichkeiten verstärken den Designeffekt (Ganninger 2006; Sturgis 2004). Der PRINT-Befehl bewirkt eine Ausgabe des Stichprobendesigns. Mit der ersten DESIGN-Anweisung wird die erste Auswahlstufe definiert. SPSS wird mitgeteilt, dass eine Schichtung vorliegt und die Schichtzugehörigkeit in der Variablen SCHICHT steht. Die Primäreinheiten (Klumpen), in dem Beispiel die Schulen, sind durch die Variable SCHULNUM gekennzeichnet. Die Auswahl der Schulen erfolgte innerhalb der Schichten ohne Zurücklegen (EQUAL_WOR), dazu wurden die in der Variablen PSCHICHT stehenden Auswahlwahrscheinlichkeiten verwendet. Mit dem nächsten DESIGN-Be265
Johann Bacher
fehl wird die nächste Auswahlstufe definiert. Es handelt sich um die letzte Stufe. Die Auswahl erfolgt ohne Zurücklegen mit dem Auswahlsatz FF, der für alle Fälle gleich der Teilnahmequote von 0,67 gesetzt wurde. ue02
3.2 Beispiel Die Daten der öibf-Studie (Schlögl & Lachmayr 2004) wurden mittels COMPLEX SAMPLE reanalysiert. Es traten mitunter sehr große Designeffekte auf (siehe Tabelle 2), insbesondere für das Geschlecht beim Übergang in die Sekundarstufe II. Dies ist auf die starke Ausdifferenzierung des österreichischen Schulsystems zurückzuführen. In der Stichprobe befanden sich daher Schulen, die fast nur von Mädchen oder Burschen besucht werden, so dass als Folge die Varianz auf Ebene der Schulen sehr groß war. Mit Bezug auf Formel (5.) lag somit eine hohe Intraklassenkorrelation ρ vor, die deutliche Reduktionen der Genauigkeit bei Analysen nach dem Geschlecht bedingte. Die effektive Stichprobe für das Geschlecht betrug nur mehr n = 127. D. h., der für die Sekundarstufe II geschätzte Geschlechteranteil basiert auf einer einfachen Zufallsauswahl von n = 127. tab02 Tabelle 2: Merkmale komplexer Stichproben für die öibf-Studie
untersuchte Merkmale
Übergang in die Sekundarstufe I (n = 1.529) (a)
Übergang in die Sekundarstufe II (b) (n = 2.978)
Designeffekt DEFFSQRT Besuch einer maturaführenden Schule
1,88
2,35
Anteil der Buben
1,12
4,84
Bildungsaspirationen
1,60
2,92
Relativierung der Schulleistungen
1,26
1,46
Lehre als Alternative
1,56
1,92
Durchschnittsnote Deutsch im vorausgehenden Schuljahr
1,73
2,58
Durchschnittsnote Mathematik im vorausgehenden Schuljahr
1,50
2,87
Durchschnittsnote Englisch im vorausgehenden Schuljahr Gesamtnote Durchschnitt
266
2,90 1,66 1,54
2,41 2,69
Analyse komplexer Stichproben
Effektive Stichprobengröße Besuch einer maturaführenden Schule
434
540
1.223
127
Bildungsaspirationen
597
349
Relativierung der Schulleistungen
962
1.388
Lehre als Alternative
632
811
Durchschnittsnote Deutsch im vorausgehenden Schuljahr
508
446
Durchschnittsnote Mathematik im vorausgehenden Schuljahr
676
362
553 646
515 410
Anteil der Buben
Durchschnittsnote Englisch im vorausgehenden Schuljahr Gesamtnote Durchschnitt
355
(a) 5. Schulstufe, unmittelbar nach Übergang in die Sekundarstufe I (b) 9./10. Schulstufe, unmittelbar nach Übergang in die Sekundarstufe II, Datenbasis = kombinierter Eltern- und Jugendfragebogen Details: Bacher & Beham & Lachmayr (2008)
Tabelle 3 (S. 268) gibt einen Überblick über Designeffekte bei bivariaten Zusammenhangsanalysen nach dem Geschlecht. Im Vergleich zum univariaten Designeffekt von 4,43 schwächen sich die bivariaten Designeffekte für das Geschlecht auf durchschnittlich 3,35 ab, sind aber noch immer stark vorhanden. Bei multivariaten Analysen für das Geschlecht reduziert sich der Designeffekt auf weitere 2,08 für den Übergang in die Sekundarstufe II. Es tritt aber immer noch eine Verdopplung der Standardfehler ein. In multivariaten Analysen nimmt somit die Wirkung von Designeffekten ab, sie sind aber nach wie vor vorhanden. tab03 Das Beispiel verdeutlicht nochmals das Grundplädoyer des Beitrages: Für komplexe Stichproben sollen adäquate Verfahren eingesetzt werden.
3.3 Praktische Probleme Bei der Anwendung von komplexen Stichproben in der Datenauswertung tritt häufig das Problem auf, dass das angewandte Stichprobendesign nicht eins zu eins für die Datenanalyse übernommen werden kann. Zum einen sind häufig bestimmte Parameter nicht dokumentiert, wie z. B. Auswahl267
Johann Bacher
Tabelle 3: Designeffekte für bivariate Zusammenhangsanalyse
Bivariate Zusammenhänge und Unterschiede Geschlecht + AHS Geschlecht + Aspirationen Geschlecht + Deutsch Geschlecht + Mathematik Geschlecht + Englisch Geschlecht + Gesamtnote Geschlecht + Relat. Schulerfolg Geschlecht + Lehre Geschlecht + väterl. Verantw.
Teststatistik Chi2
Übergang in Sekundarstufe I
Übergang in Sekundarstufe II
DEFFSQRT
DEFFSQRT
1,07 0,89 1,14 1,24
(a) Chi2 (a) t-Test (b) t-Test (b) t-Test (b) t-Test (b) t-Test (b) t-Test (b) Chi2 (a)
1,21 1,24 1,48 1,45
9,40 4,42 2,76 2,61 2,79 2,90 1,21 2,70 1,39
Durchschnitt
1,21
3,35
(a) Berechnet aus dem gewöhnlichen Chi2-Test und der F-Teststatistik für komplexe Stichproben. (b) Berechnet als Verhältnis der t-Teststatistik für einfache Zufallsauswahl und t-Teststatistik für komplexe Zufallsauswahl.
sätze. Zum anderen kann bei der Datenerhebung ein Design eingesetzt worden sein, für das Standardfehler nicht berechnet werden können. Dies war z. B. bei den öibf-Daten der Fall. Es wurden 180 Schichten gebildet, aus jeder Schicht wurde eine Schule gezogen. Pro Schicht liegt eine Primäreinheit vor und der Standardfehler ist mit den oben beschriebenen Verfahren nicht schätzbar. Für den Einsatz komplexer Analyseverfahren ist erforderlich, dass in jeder Einheit mindestens zwei Elemente vorhanden sind, bei einem zweistufigen Design also in jeder Schicht zwei Cluster und in jedem Cluster mindestens zwei Elemente. Ist diese Voraussetzung nicht erfüllt, sind Zusammenfassungen erforderlich (Lee & Forthofer 2006).9 Das definierte Stichrobendesign ist dann nur mehr eine Annäherung an das für die Datenerhebung eingesetzte Design, und es können Spezifikationsfehler auftreten, die zu Fehlschlüssen führen können. Wünschenswert wäre daher, dass in Zukunft bereits bei der Datenerhebung ein Design eingesetzt wird, das sich auch zur Datenanalyse eignet. Für die öibf-Daten wurden die in der Übersicht 3 wiedergegebenen Zusatzannahmen getroffen. Auf Stufe I wurde die Zahl der Schichten reduziert, um zu gewährleisten, dass pro Schicht mehrere Einheiten vorliegen. Durch 268
Analyse komplexer Stichproben
diese Zusammenfassung wird der Standardfehler erhöht, da die Varianz in den Schichten steigt. Die Stufe II wurde übersprungen. Alternativ hätten mehrere Schulen zu neuen fiktiven Schulen zusammengefasst werden können, damit in jeder (fiktiven) Schule dann zwei oder mehr Klassen verfügbar sind. Durch das Überspringen der zweiten Stufe wird der Standardfehler reduziert. Die getroffenen Annahmen auf den beiden ersten Stufen haben somit entgegen gerichtete Wirkungen, aber es kann nicht davon ausgegangen werden, dass sich die Wirkungen gegenseitig aufheben. Auf der dritten Stufe schließlich wurde angenommen, dass die aufgetretenen Ausfälle zufällig sind. ue03 Übersicht 3: Stichprobendesign bei der Datenerhebung und der Datenanalyse Zur Datenerhebung eingesetzter Stichprobenplan
Für die Datenanalyse definierter Stichprobenplan
Stufe I: Schichtung nach Schultyp (12 Schultypen) und Subregionen (15 Subregionen). Es ergeben sich 180 Schichten (12 Schulformen × 15 Subregionen). Zufällige Auswahl einer Schule in jeder Schicht.
Stufe I: Die Subregionen wurden zu fünf Regionen zusammengefasst. Dadurch reduziert sich die Zahl der Schichten auf 70.
Stufe II: Zufällige Auswahl einer bzw. maximal zweier Klassen in der ausgewählten Schule.
Stufe II wurde übersprungen, da i. d. R. mit Ausnahme der AHS-Unterstufe nur eine Klasse befragt wurde.
Stufe III: Vollerhebung in den ausgewählten Klassen.
Stufe III: Da es zu Ausfällen kam, wurde angenommen, dass diese zufällig sind. Es wurde daher ein Auswahlsatz definiert, der dem Rücklauf entspricht.
4 Resümee Ziel des Beitrages war die Schaffung eines Problembewusstseins: Die Analyse komplexer Stichproben mittels Standardstatistiksoftware ist inkorrekt und führt zu Fehlschlüssen. Daher sollten in Zukunft adäquate statistische Verfahren eingesetzt werden. Neben Spezialsoftware bieten heute alle Standardstatistikpakete – sogar SPSS – geeignete Verfahren an. Die Nicht-Anwendung lässt sich also nur mehr schwer rechtfertigen. Einschränkend sei aber 269
Johann Bacher
angeführt, dass in der Praxis vielfach komplexe Designs eingesetzt werden, die nicht direkt für die Datenanalyse übernommen werden können. In Zukunft ist daher wünschenswert, dass bereits für die Datengewinnung Stichprobendesigns eingesetzt werden, die eine korrekte Schätzung von Standardfehlern ermöglichen. Zudem sollte das Vorgehen genau dokumentiert werden, so dass alle erforderlichen Informationen für die Definition des Stichprobendesign vorhanden sind. Durch beide Maßnahmen kann ein entscheidender Beitrag zur Verbesserung der Qualität von Umfragen geleistet werden. Anmerkungen * 1 2
3 4
5 6
7 8 9
An dieser Stelle möchte ich mich herzlich für die wertvollen Anregungen des anonymen Gutachters/der anonymen Gutachterin bedanken. Dieser „Kunstgriff“ über die Personenadressen ist erforderlich, da es kein Haushaltsverzeichnis gibt. Bei einem 5%-Fehlerniveau würde sich in dem Beispiel bei einer einseitigen Fragestellung zwar kein Fehlschluss ergeben, aber die Differenz der beiden Teststatistiken ist augenfällig. Bei einer zweiseitigen Fragestellung, würde sich auch für ein Fehlerniveau von 5% ein Fehlschluss ergeben. In SPSS z. B. die Prozeduren FREQUENCIES, DESCRIPTIVES, CROSSTABS, REGRESSION usw. Bei ungleichen Auswahlwahrscheinlichkeiten ist ein Korrekturfaktor (Granninger 2006; Ganninger & Häder & Gabler 2007; Park & Lee 2001) zu berücksichtigen (siehe dazu später). In der Literatur (z. B. Park & Lee 2001) wird für diesen Effekt auch das Symbol DEFt bzw. deft verwendet. Es wird angenommen, dass die Stichproben in den Clustern gleich groß sind, dass also z. B. in jeder Schule (Cluster) gleich viele SchülerInnen getestet werden und dass – in Relation zur Stichprobengröße in den Clustern – eine ausreichende Zahl von Clustern befragt wird (siehe z. B. Ganninger & Häder & Gabler 2007, 2). Die zweite Annahme ist z. B. in PISA gut erfüllt, da mindestens 150 Schulen mit maximal 35 SchülerInnen getestet werden müssen. Bei der Ableitung der Formel wurde angenommen, dass sich die Stichprobenvarianz darstellen lässt als s(T)2wS + s(T)2bS s(T)2w s(T)2komplex = + nB n = n B ×n W mit s(T) 2wS = Varianz innerhalb der Schichten, s(T) 2bS = Varianz zwischen den Schichten (bei Schichtung gleich Null), s(T) 2w = Varianz innerhalb der Einheiten (Klumpen) der Schichten, nB = Zahl der Klumpen in der Stichprobe, nW = durchschnittliche Klumpengröße. ρs = 0,10 => in % von ρ: 100 · 0,10/0,20 = 50%. Weitere Softwarevergleiche werden berichtet in Ganninger & Häder & Gabler (2007) und Siller & Tompkins (2006). In Version 10 bietet STATA (StataCorp 2008) auch Schätzmethoden für den Fall an, dass nur ein Element vorliegt. Der Autor hat aber noch keine Erfahrungen mit dieser Methode, so dass kein Erfahrungsbericht gegeben werden kann.
270
Analyse komplexer Stichproben
Literatur Bacher, J. (2006). Stichprobendesign, Sozialstruktur und regionale Unterschiede. In E. Neuwirth & I. Ponocny & W. Grossmann (Hg.), PISA 2000 und PISA 2003: Vertiefende Analysen und Beiträge zur Methodik (39–51). Graz: Leykam. Bacher, J., & Beham, M., & Lachmayr, N. (2008). Geschlechterunterschiede in der Bildungswahl. Wiesbaden: VS Verlag. ESS (2007). European Social Survey. Abgerufen am 30.06.2008, Website: http://www. europeansocialsurvey.org/. Gabler, S., & Häder, S., & Lynn, P. (2006). Design Effects for Multiple Design Samples. Survey Methodology, Vol. 32, 115–120. Ganninger, M. (2006). Estimation of Design Effects for ESS Round II. ESS Documentation. Ganninger, M., & Häder, S., & Gabler S. (2007). Design Effects and Interviewer Effects in the European Social Survey: Were are we now and where do we want go tomorrow? Mannheim: Working Paper. Haider, G., & Reiter, C. (Hg.) (2004). PISA 2003. Internationaler Vergleich von Schülerleistungen. Graz: Leykam. Haslinger, A., & Kytir, J. (2005). Stichprobendesign, Stichprobenziehung und Hochrechnung des Mikrozensus ab 2004. Statistische Nachrichten, 6, 510–518. IEA (2008). IDB-Analyzer. Abgerufen am 30.06.2008, Website: http://pirls.bc.edu/ pirls2006/user_guide.html. Kish, L. (1967). Survey Sampling. New York u. a.: John Wiley & Sons. Lee, E. S., & Forthofer, R. N. (2006). Analyzing Complex Survey Data. Second Edition. New York: Sage. Lumley, T. (2003). Analyzing Survey Data in R. R-News, 3(1), 17–20. Lynn, P., & Gabler, S. (2005). Approximations to b* in the Prediction of Design Effects Due to Clustering. Survey Methodology, 31, 101–104. Mullis, I. V. S., & Martin, M. O., & Kennedy, A. M., & Foy, P. (2007). PIRLS 2006 International Report. Boston: IEA. Abgerufen am 30.06.2008, Website: http://pirls.bc.edu/isc/ publications.html#p06. OECD (Ed.) (2005a). PISA 2003. Data Analysis Manual. SPSS® Users. Paris: OECD. OECD (Ed.) (2005b). PISA2003. Technical Report. Paris: OECD. Park, I., & Lee, H. (2001): The Design Effect: Do we know all about it? Proceedings of the Annual Meeting of the American Association, August-5–9. RTI-International (2008). SUDAAN. Abgerufen am 30.06.2008, Website: http://www.rti. org/sudaan/index.cfm. SAS Institute (2008). Statistical Analysis with SAS/STAT® Softwar., Abgerufen am 30.06.2008, Website: http://www.sas.com/technologies/analytics/statistics/stat/features. html.
271
Johann Bacher Schlögl, P., & Lachmayr N. (2004). Soziale Situation beim Bildungszugang. Motive und Hintergründe von Bildungswegentscheidungen in Österreich. Wien: Eigenverlag. Schreiner, C., & Breit, S., & Schwantner, U., & Grafendorfer, A. (2007): PISA2006. Internationaler Vergleich von Schülerleistungen. Die Studie im Überblick. Graz: Leykam. Siller, A., & Tompkins, L. (2006). The Big Four: Analyzing Complex Sample Survey Data Using SAS, SPSS, STATA, and SUDAAN. Sugi 31, Paper 172-31. Abgerufen am 30.06.2008, Website: www2.sas.com/proceedings/sugi31/172–31.pdf. SPSS Inc. (2008). SPSS Complex Samples™. Abgerufen am 30.06.2008, Website: http:// www.spss.com/complex_samples/data_analysis.htm. Stadler, B. (2005). Daten zum österreichischen Arbeitsmarkt. Österreichische Zeitschrift für Soziologie, 30 (3), 89–100. StataCorp (2005). Stata Survey Data. Reference Manual. Release 9. Texas. StataCorp (2008). Survey Methods. Abgerufen am 30.06.2008, Website: http://www.stata. com/capabilities/svy.html. Sturgis, P. (2004). Analysing Complex Survey Data: Clustering, Stratification and Weights. Social research UPDATE, Issue 43, University of Surrey. Suchan B., & Wallner-Paschon Chr., & Stöttinger, E., & Bergmüller, S. (2007). PIRLS 2006. Internationaler Vergleich von Schülerleistungen. Graz: Leykam. WESTAT (2008). WesVar – Software for Analysis of Data form Complex Sample. Abgerufen am 30.06.2008, Website: http://www.westat.com/wesvar/index.html. Wolter, K. M. (1985). Introduction to Variance Estimation. New York u. a.: Springer Verlag.
272
4 Spezielle Zielgruppen und ihre Inklusion
Bettina Stadler
Bettina Stadler
Die Befragung von MigrantInnen in Stichprobenerhebungen Zusammenfassung Mit dem Beitrag wird argumentiert, dass für eine möglichst gute Erfassung von MigrantInnen in Stichprobenerhebungen der gesamte Erhebungsprozess hinterfragt werden muss. Angefangen von der Definition der Grundgesamtheit über die Stichprobenziehung, das Erstellen eines Fragebogens, die Durchführung von Interviews und die Aufbereitung und Kontrolle der Daten werden zahlreiche die Qualität der Informationen über MigrantInnen betreffende Entscheidungen getroffen. Dies wird anhand von Beispielen aus der Arbeit am österreichischen Mikrozensus demonstriert. Über die Verbesserung der Qualität von Daten über MigrantInnen hinaus, wird das so gewonnene Wissen insgesamt zu einer differenzierteren Einschätzung der Möglichkeiten und Grenzen der erhobenen Daten führen.
Abstract The Coverage of Migrants in Sample Surveys The article argues that in the frame of a sample survey for the collection of good data on migrants reviewing the entire research process is essential. In all stages of a survey, that is the definition of the population, the choosing of a sampling procedure, the compilation of a questionnaire, the conduction of interviews and the processing and checking of the data, decisions greatly influencing the coverage of migrants and the quality of the information obtained are being made. This statement is illustrated by examples from the Austrian Micro-Census. Apart from the improvement of information on migrants this kind of review process also results in better general assessment of opportunities and limitations of the data produced.
275
Bettina Stadler
1 Einleitung Zu Beginn des Jahres 2008 lebten in Österreich 1,27 Mio. Menschen, die nicht im Land geboren wurden (vgl. Statistik Austria, Statistik des Bevölkerungsstandes). Das sind 15,2% der Bevölkerung. 10,3% der in Österreich lebenden Menschen haben keine österreichische Staatsbürgerschaft.1 Diese Zahlen machen sehr deutlich, dass durch die Einwanderung der letzten Jahrzehnte MigrantInnen zu einem wesentlichen Teil der Bevölkerung Österreichs geworden sind. Zu den klassischen ArbeitsmigrantInnen der 1960er und 1970er Jahre aus dem ehemaligen Jugoslawien und der Türkei sind neue Gruppen von MigrantInnen hinzugekommen: Seit den 1990er Jahren kommen zahlreiche Einwanderer, häufig mit guter (Fach-)Ausbildung, aus den ehemals kommunistischen Ländern, internationale Konzerne bringen ihre Angestellten nach Österreich, Flüchtlinge kommen aus immer weiter entfernten Regionen, und die Zahl der Studierenden aus dem Ausland hat in den letzten eineinhalb Jahrzehnten ebenfalls stark zugenommen. Empirische Untersuchungen wie der Mikrozensus, die zum Ziel haben, ein repräsentatives Abbild der Bevölkerung Österreichs zu geben, müssen diesen Tatsachen Rechnung tragen, und MigrantInnen dürfen nicht durch unpassendes Erhebungsdesign oder ungeeignete Erhebungsinstrumente systematisch von Befragungen ausgeschlossen werden. Nur so sind in weiterer Folge statistische Analysen mit Rückschlüssen auf die Gesamtbevölkerung zulässig und sinnvoll. Eine Voraussetzung für diesen Repräsentativitätsschluss ist ein möglichst geringer statistischer Fehler der gesamten Stichprobe. Eine möglichst gute Abbildung von MigrantInnen in Stichprobenerhebungen leistet somit einen wesentlichen Beitrag zur Qualität von Erhebungen. Welche Anforderungen ergeben sich aus dieser Feststellung für die empirische Sozialforschung? Wie müssen ForscherInnen, wie muss die amtliche Statistik, ihre Erhebungen gestalten, um dem Anspruch an Repräsentativität für eine Bevölkerung, die zu einem wesentlichen Teil aus MigrantInnen besteht, gerecht zu werden? Nachfolgend sollen diese Fragen am Beispiel der Analysen und Erfahrungen von Statistik Austria bei der Arbeit am Mikrozensus erörtert werden. Zunächst wird die Datenbasis für die Überlegungen, der Mikrozensus, dargestellt. Die anschließende Diskussion auftretender Schwierigkeiten orientiert sich an den Schritten des Forschungsprozesses. In einem ersten Abschnitt werden Aspekte der Definition der Grundgesamtheit und der Stichprobenziehung behandelt, anschließend wird auf Probleme bei der Erstellung und 276
Die Befragung von MigrantInnen in Stichprobenerhebungen
Übersetzung von Fragebögen eingegangen. Nach einigen Überlegungen zur Interviewsituation wird die Aufbereitung der Daten bis zum analysefähigen Datensatz besprochen.
2 Datenbasis Hintergrund für die Ausführungen sind Erfahrungen mit dem österreichischen Mikrozensus. Für diese Erhebung werden jedes Quartal, verteilt über das gesamte Gebiet Österreichs, etwa 50.000 Personen interviewt. Befragt werden jeweils alle Mitglieder eines Haushaltes. Mit Beginn 2004 wurde der Mikrozensus völlig umstrukturiert.2 Seit diesem Zeitpunkt wird die Erhebung laufend durchgeführt, d. h., zu einer im Zuge der Stichprobenziehung festgelegten Referenzwoche werden Interviews gemacht. Auch die Organisation der Erhebung wurde verändert: Nach einem persönlichen Erstinterview werden jeweils nach drei Monaten vier telefonische Folgebefragungen abgehalten. Der FeldinterviewerInnenstab wird seit 2004 zentral von Statistik Austria betreut. Für die Realisierung der Folgebefragungen wurde bei Statistik Austria ein Telefonstudio eingerichtet. Inhaltlich besteht der Mikrozensus aus zwei Teilen: In einem ersten Abschnitt werden Fragen zur Wohnsituation des Haushaltes gestellt, daran anschließend folgen zahlreiche Fragen zu Erwerbstätigkeit, Arbeitssuche und Ausbildung der einzelnen Mitglieder der Haushalte. Damit werden die Daten für den EU-Labour Force Survey, die Arbeitskräfteerhebung der Europäischen Union, erhoben. Seit Beginn der neuen Mikrozensus-Erhebung werden Maßnahmen zur Verbesserung der Erfassung von MigrantInnen gesetzt und Qualitätsanalysen durchgeführt. Beispiele hierfür sind: Alle Erhebungsunterlagen werden in Englisch, Türkisch und Bosnisch/Serbisch/Kroatisch übersetzt. Im Telefonstudio arbeiten auch zweisprachige InterviewerInnen, d. h., kommt es während eines Interviews – dies kann auch ein Feldinterview sein – zu massiven Sprachproblemen, so ist es möglich, dieses Interview an die muttersprachlichen InterviewerInnen im Telefonstudio weiterzugeben. Ist die Notwendigkeit, das Interview in einer anderen Sprache durchzuführen, bereits bekannt (z. B. bei Folgeinterviews), werden diese von den entsprechenden InterviewerInnen abgewickelt. Die übersetzten Fragebögen sind in die CAPI- und CATI-Programmierung integriert. Somit kann während der Befragung zwischen verschiedenen Sprachen gewechselt werden, hilfreich ist dies beispielsweise bei der Abklärung einzelner Begriffe. 277
Bettina Stadler
Zusätzlich wurde im Jahr 2005 ein EU-gefördertes Projekt zur Qualitätsverbesserung mit dem Titel „Migrants in the Labour Force Survey“ (Stadler & Schrittwieser 2005) durchgeführt. Im Zuge dieses Projektes wurde die Erfassung von MigrantInnen im Mikrozensus im Detail analysiert und weitere Maßnahmen zur Verbesserung entwickelt. Die Ergebnisse dieser analytischen Arbeiten bilden den Hintergrund der folgenden Ausführungen. Im Jahr 2007 wurden schließlich die Fragen des Ad-hoc-Moduls 20083 der Arbeitskräfteerhebung zum Thema „Arbeitsmarktsituation von MigrantInnen“ kognitiv getestet4. Dafür wurden 20 qualitative Interviews mit MigrantInnen gemacht. Auch die Ergebnisse dieser Tests liefern einen wichtigen Beitrag für die folgenden Ausführungen. Entsprechend der Arbeitsschritte in einem Forschungsprojekt werden die Überlegungen mit Fragen der Definition der Grundgesamtheit und der Stichprobenziehungen eingeleitet.
3 Definition der Grundgesamtheit und Stichprobenziehung Über welche Gruppe sollen mit einer Erhebung Aussagen getroffen werden? Die auf den ersten Blick sehr einfache Frage nach der Definition der Grundgesamtheit erweist sich bei näherer Betrachtung häufig als kompliziert. Sollen z. B. MigrantInnen in Österreich befragt werden, muss erstens der Begriff „MigrantIn“ definiert werden und z. B. entschieden werden, ob Menschen mit ausländischer Staatsbürgerschaft und/oder im Ausland Geborene als solche bezeichnet werden sollen. Zweitens ist aber auch wichtig zu klären, ob alle zu einem bestimmten Zeitpunkt in Österreich lebenden Menschen gemeint sind oder ob vielmehr jene Personen im Zentrum des Interesses stehen, die sich längerfristig, z. B. für mindestens drei Monate, im Land niederlassen. In ersterem Fall würden auch Saisonarbeitskräfte und TouristInnen erfasst werden. Die Beschreibung der Ränder der Grundgesamtheit und die Entscheidung, an welchen Punkten Grenzen zu ziehen sind, erfordern sehr exakte Definitionen. Wenn die Frage nach der Grundgesamtheit geklärt ist, muss als nächstes entschieden werden, wie Personen für die Befragung ausgewählt werden sollen, d. h. wie eine Stichprobe gezogen werden soll. Repräsentativität einer Erhebung für eine bestimmte Population setzt eine Zufallsauswahl der Elemente der Stichprobe voraus. Konkret müssen die Auswahlkriterien von Zufallsstichproben erlauben, bereits vor der Erhebung für jedes Element der Grundgesamtheit die Wahrscheinlichkeit, dass dieses 278
Die Befragung von MigrantInnen in Stichprobenerhebungen
Element Teil der Stichprobe sein wird, zu berechnen. Für jedes Element der Grundgesamtheit muss außerdem die Wahrscheinlichkeit der Auswahl größer Null sein (Schnell & Hill & Esser 1999, 249). Große Probleme bei der Stichprobenziehung bereitet oft schon das Fehlen eines Verzeichnisses mit allen Angehörigen der Grundgesamtheit. Leicht zugänglich ist das amtliche Telefonbuch. Durch die zunehmende Verwendung nicht namentlich registrierter Mobiltelefone hat dieses aber, was die Abbildung der Bevölkerung betrifft, in den letzten Jahren stark an Qualität verloren. Zudem telefonieren immer mehr Menschen mit einem vom Arbeitgeber zur Verfügung gestellten Mobiltelefon, dieser Anschluss scheint ebenfalls nicht im Telefonbuch auf. MigrantInnen verwenden zu einem größeren Anteil als die schon länger ansässige Bevölkerung nur noch Mobiltelefone, viele davon solche ohne namentliche Registrierung. Weitere Schwierigkeiten treten auf, wenn die Grundgesamtheit der Untersuchung nicht die gesamte Bevölkerung eines Landes oder einer Region umfasst, sondern eine spezifische Gruppe, die in möglichen Verzeichnissen nicht identifizierbar ist. Mit diesem Hindernis sind z. B. Erhebungen konfrontiert, für die ausschließlich MigrantInnen befragt werden sollen. Um hier Abhilfe zu schaffen, sind in den letzten Jahren onomastische Verfahren entwickelt worden. Ausgehend vom Namen einer Person sollen Rückschlüsse auf ihr Herkunftsland gezogen werden (Humpert & Schneiderheinze 2000; Santacreu Fernandes & Rother & Braun 2006). Die Nachteile dieser Vorgehensweise liegen auf der Hand: MigrantInnen, die mit einer Eheschließung ihren Namen gewechselt haben, verschwinden aus der Auswahlgesamtheit. Nachkommen von Eltern aus unterschiedlichen Herkunftsländern können schwerlich einem Herkunftskontext zugeordnet werden. Diese Schwächen onomastischer Verfahren gefährden je nach Fragestellung die Ergebnisse einer Untersuchung mehr oder weniger stark. Rückschlüsse auf die Integration von MigrantInnen wären wohl aber mittels einer auf diese Weise gewonnenen Stichprobe nicht möglich. Es besteht ein systematischer Bias, da besonders gut integrierte MigrantInnen ausgeschlossen sind. Für den österreichischen Mikrozensus wird die Stichprobe aus dem Zentralen Melderegister (ZMR) gezogen. Alle in Österreich mit Haupt- oder Nebenwohnsitz Gemeldeten sind in diesem Register enthalten. Um eine Mehrfachzählung von Menschen mit Nebenwohnsitz zu vermeiden, wurde bei der Planung der Stichprobe entschieden, nur Personen mit Hauptwohnsitz in die Stichprobenbasis aufzunehmen. Da die Anfahrt der InterviewerInnen zu den persönlichen Befragungen in ganz Österreich hohe Kosten verursacht, werden nicht einzelne Personen ausgewählt, sondern Haushalte. Die Stichprobe für den Mikrozensus wird somit aus Haushalten gezogen, in 279
Bettina Stadler
denen mindestens eine Person hauptgemeldet ist. In diesem Haushalt werden anschließend alle Mitglieder befragt, unabhängig davon, ob sie in dieser Wohnung gemeldet sind oder nicht. Mit dieser Vorgehensweise wird der Einfluss der Haushaltsgröße auf die Auswahlwahrscheinlichkeit gering gehalten. Würde nur eine Person im Haushalt befragt, wäre die Wahrscheinlichkeit der Erreichbarkeit für Personen in größeren Haushalten zwar höher als für Menschen in Singlehaushalten, gleichzeitig haben Personen in großen Haushalten eine geringere Wahrscheinlichkeit, ausgewählt zu werden (Diekmann 2006, 14). Untersuchungen, die die Überprüfung von Zusammenhangshypothesen zum Ziel haben, brauchen Daten, bei deren Erhebung systematische Störfaktoren möglichst geringen Einfluss hatten. Eine repräsentative Abbildung der gesamten Bevölkerung ist hierfür meist nicht notwendig (Diekmann 2002). Der österreichische Mikrozensus hat jedoch die primäre Absicht, repräsentative Aussagen über die österreichische Bevölkerung zu den Themen Erwerbstätigkeit, Arbeitssuche und Ausbildung zu treffen. Aus diesem Grund wurden einige weitere Überlegungen zur Stichprobe angestellt. Diese sollen hier berichtet und ihr Einfluss auf die Qualität der gewonnenen Informationen über MigrantInnen diskutiert werden. Nur Privatunterkünfte werden in die Stichprobenbasis des Mikrozensus aufgenommen, Anstalten wie SchülerInnenheime, Gefängnisse etc. sind ausgeschlossen. Dies bedeutet, dass Migrantinnen in Flüchtlingsheimen, in denen manche von ihnen bis zu mehreren Jahren leben, nicht in der Stichprobenbasis enthalten sind. Im ersten Quartal 2008 lebten 11.800 nichtösterreichische StaatsbürgerInnen in öffentlichen und privaten Flüchtlingsheimen (vgl. Statistik Austria, Anstaltserhebung). Menschen, die in Österreich nicht hauptgemeldet sind, werden befragt, wenn sie mit anderen hauptgemeldeten Personen eine Wohnung teilen. Ist jedoch in einer Wohnung kein Bewohner und keine Bewohnerin hauptgemeldet, gelangt der Haushalt nicht in die Stichprobenbasis des Mikrozensus (vgl. oben). Aus diesem Grund werden z. B. auch Studierende, die häufig noch in der Herkunftsgemeinde gemeldet sind, schlechter erfasst. Hinzu kommen geographische Aspekte: Mit einem Wohnsitzkonzept sind PendlerInnen ausgeschlossen. Zur Beantwortung mancher Fragen wie z. B. „Mit wie vielen Arbeitsstunden werden die in Österreich hergestellten Güter und Dienstleistungen erzeugt?“ sollten diese aber enthalten sein. Gleichzeitig sind AuspendlerInnen in der Stichprobe enthalten, die in Österreich leben, aber nicht hier arbeiten. Laut den Daten des Mikrozensus 2008 handelt es sich bei der zweiten Gruppe um 54.000 Personen oder 1,3% der Erwerbstätigen. 280
Die Befragung von MigrantInnen in Stichprobenerhebungen
Angenommen werden muss weiters, dass nur Menschen mit legalem Aufenthaltstitel in Österreich im Mikrozensus befragt werden. Bedingung für die Anmeldung eines Hauptwohnsitzes und damit eine Registrierung im ZMR ist das Vorlegen eines gültigen Reisedokuments, unabhängig von einem legalen Aufenthalt. Trotzdem muss angenommen werden, dass sich illegal im Land lebende Menschen nicht offiziell anmelden werden und nicht in der Wohnung sein werden, wenn der/die Mikrozensus-InterviewerIn kommt. Ein zwar in seiner Wirkung geringer, jedoch systematischer Ausschluss von MigrantInnen besteht im österreichischen Mikrozensus auch in zeitlicher Hinsicht. Die Stichprobe wird drei Monate vor Befragungsbeginn gezogen. MigrantInnen, die erst sehr kurze Zeit in Österreich leben, werden mit hoher Wahrscheinlichkeit nicht in die Befragung mit einbezogen. Zusätzlich wird für den Mikrozensus eine geschichtete Stichprobe nach Bundesländern gezogen. In größeren Bundesländern wird ein etwas geringerer Anteil an Personen befragt als in kleineren Bundesländern. Der Anteil an MigrantInnen ist in Wien mit Abstand am größten, 40% der im Ausland geborenen MigrantInnen leben hier. Wien zählt aufgrund seiner Größe zu den Bundesländern mit dem niedrigsten Auswahlsatz. In Wien liegt – verglichen mit dem Anteil an der Gesamtbevölkerung – der Anteil der befragten EinwohnerInnen nur bei knapp der Hälfte (Auswahlsatz in Wien: 0,31% vs. 0,56% für Gesamtösterreich). Das Resultat dieser Vorgehensweise ist, verglichen mit einer ungeschichteten Stichprobe, eine niedrigere Anzahl von befragten MigrantInnen. Für die Betrachtung von Aggregaten werden diese Differenzen durch die Gewichtung wieder ausgeglichen.5 Im Mikrozensus werden auch höhere Stichprobenausfälle bei MigrantInnen aufgrund nicht durchführbarer Befragungen festgestellt. Gewichtet nach Bundesländern wurden im Jahr 2007 ausländische StaatsbürgerInnen um 20 Prozent untererfasst. Der Einfluss des im vorherigen Absatz beschriebenen unterschiedlichen Auswahlsatzes nach Bundesländern wurde hier herausgerechnet. In den erhobenen Daten fanden sich 7,9% Personen mit nicht-österreichischer Staatsbürgerschaft, lt. Zentralem Melderegister haben jedoch 9,9% der Bevölkerung eine andere als die österreichische Staatsbürgerschaft. Schließlich ist auch der Zeitpunkt der Befragung für die Ausschöpfung einer Stichprobe und damit die Qualität der Stichprobe von Bedeutung. Wird z. B. im Sommer befragt, sind viele MigrantInnen schlechter erreichbar, da sie einen längeren Urlaub im Heimatland verbringen. Die Befragungen für den Mikrozensus werden das ganze Jahr über durchgeführt. Um ein Interview zu erhalten, werden bis zu zwanzig telefonische und persönliche Kon281
Bettina Stadler
taktversuche unternommen. Eine Analyse der durchschnittlichen Zeitdauer bis zu einer Befragung zeigt, dass insgesamt die Erreichbarkeit im Sommer schlechter ist. Besonders die erfolgreiche Befragung in der Türkei geborener Personen nimmt im Juli um knapp eineinhalb Wochen mehr in Anspruch als im Jahresdurchschnitt. Durchschnittliche Zeit zwischen Referenzwoche und Befragung nach Geburtsland in Wochen 2007 Monat
Gesamt
Öster- EU15 o. EU25 Ex-JugoslaAndere Türkei reich Österreich 10 Neue wien (o. Slo.) Länder Mittelwert
Jänner Februar März April Mai Juni Juli August September Oktober November Dezember
3,0 2,2 2,0 2,5 2,4 2,2 3,4 2,8 2,2 3,4 3,3 3,1
2,9 2,2 2,0 2,5 2,3 2,2 3,4 2,7 2,2 3,4 3,3 3,1
2,9 2,4 2,1 2,6 2,2 2,1 3,5 2,8 2,3 3,3 3,3 3,0
2,8 2,5 2,0 2,8 2,3 2,0 3,2 2,9 2,0 3,2 2,8 2,9
3,2 2,4 2,1 2,7 2,7 2,1 3,7 2,8 2,1 3,3 3,0 3,1
3,5 3,1 2,6 3,1 3,0 2,3 4,5 3,4 2,6 3,5 2,8 2,5
3,5 2,4 2,1 2,7 2,8 2,1 3,6 3,1 2,2 3,7 3,6 3,0
Gesamt
2,7
2,7
2,7
2,7
2,8
3,1
2,9
Q.: Statistik Austria, Mikrozensus/Arbeitskräfteerhebung 2007
Nach diesem Überblick über wichtige Aspekte der Stichprobenziehung werden nun die Anforderungen an die Erstellung von Fragebögen für MigrantInnen genauer beschrieben.
4 Erstellung des Fragebogens und Übersetzungen Die Entwicklung eines Fragebogens für MigrantInnen umfasst zwei Phasen. In einem ersten Schritt müssen bei der Erstellung des Fragebogens spezifische Anforderungen für die Befragung von MigrantInnen berücksichtigt werden. Erst anschließend kann der Fragebogen in andere Sprachen übersetzt werden. Allgemeine Anforderungen an einen Fragebogen sind die Verständlichkeit der Fragen, präzise und zugleich möglichst einfache Formulierungen 282
Die Befragung von MigrantInnen in Stichprobenerhebungen
und das Vermeiden einer Überforderung der Befragten durch mehrdimensionale Fragen (vgl. exemplarisch: Diekmann 2002; Porst 2000). Diese Kriterien gewinnen noch größere Bedeutung, wenn der Fragebogen später übersetzt werden soll. Vorhandene Unklarheiten in den Formulierungen oder den verwendeten Konzepten werden durch Übersetzungen weiter verstärkt. Eine Voraussetzung für Übersetzungen ist somit Klarheit über die Semantik der verwendeten Begriffe. Ein wichtiges Instrument für die Entwicklung und Prüfung von Fragen für eine quantitative Untersuchung sind kognitive Tests (Hughes 2004; Prüfer & Rexroth 2005). Mit diesem Instrument kann Einblick in die kognitiven Prozesse der RespondentInnen bei der Beantwortung von Fragen gewonnen werden. Die Verständlichkeit von zentralen verwendeten Begriffen sollte bei Personen, die Deutsch nicht als Muttersprache sprechen, gesondert geprüft werden. Erst für Teile des Mikrozensus durchgeführte kognitive Tests machten beispielsweise deutlich, dass MigrantInnen die grundsätzlich sehr gut Deutsch sprechen, manche gebräuchlichen Begriffe nicht verstehen. Einige MigrantInnen deuteten so den Begriff „Lebensgemeinschaft“ als „zusammen leben“, ohne die besondere Konnotation einer Partnerschaft (Pfeffer & Klapfer 2008). Der Hintergrund, vor dem eine Frage gestellt wird, hat gleichfalls große Auswirkung auf die Interpretation einer Frage durch die RespondentInnen. Im Rahmen von kognitiven Tests wurde im November 2007 auch folgende Frage getestet: „Haben Sie jemals in Österreich um Asyl angesucht?“ Zur Zeit des Tests war in den österreichischen Medien die Frage der Zulässigkeit der Abschiebung von schon sehr lange in Österreich lebenden Flüchtlingen nach einem negativen Asylbescheid sehr kontrovers diskutiert worden. Die Frage, ob sie glauben, dass andere Menschen eine solche Frage wahrheitsgemäß beantworten würden, verneinten elf von 20 Interviewten. Die genannten Gründe waren, dass man negative Auswirkungen auf die derzeitige Lebenssituation fürchtet, wenn bekannt würde, dass man jemals in Österreich um Asyl angesucht hatte.6 Aus diesen Ergebnissen wurde geschlossen, dass die getestete Frage keine validen Ergebnisse bringen würde und nicht gestellt werden kann. Erst nach entsprechenden Tests kann somit ein Fragebogen für die Befragung von MigrantInnen in Fremdsprachen übersetzt werden. Eine einfache Übersetzung des Fragebogens – auch durch mit der Materie vertraute ÜbersetzerInnen – genügt nicht.7 Durch nur einmalige Übertragung kann nicht gewährleistet werden, dass die Bedeutung der knapp formulierten Fragen tatsächlich in eine andere Sprache übertragen wurde. Eine 283
Bettina Stadler
Überprüfung auf Fehler kann z. B. durch eine Rückübersetzung in die Ausgangssprache erfolgen. Von manchen Autorinnen wird zudem gefordert, nicht eine/einen ÜbersetzerIn alleine die Übertragung vornehmen zu lassen, sondern diese in einer Gruppe von ÜbersetzerInnen zu erarbeiten (Harkness 2003). Für den Mikrozensus wurden diese Zusammenhänge zu Beginn nicht beachtet und die Fragebögen einmalig übersetzt und anschließend verwendet. Zwei Beispiele sollen die anschließend aufgetretenen Probleme illustrieren: • Erst Hinweise der muttersprachlichen InterviewerInnen zeigten, dass der Begriff „Haushaltsführend“ – eine bewusst gewählte, geschlechtsneutrale Formulierung – in einer Übersetzung mit „Hausfrau“ wiedergegeben worden war. • Der Begriff „AMS (Arbeitsmarktservice)“ war von den ÜbersetzerInnen ebenso wie alle anderen Begriffe übersetzt worden und wurde von den Befragten nicht mehr verstanden. In diesem Fall ist es sicher angemessener, die in Österreich übliche Bezeichnung anzuführen und evtl. mit einer zusätzlichen Übersetzung zu ergänzen. Auf weitere wichtige Aspekte der Erstellung von Fragebögen kann hier nur beispielhaft hingewiesen werden. Ein erster Punkt betrifft den institutionellen Rahmen, in dem MigrantInnen vor der Einreise nach Österreich gelebt haben. Die jeweils sehr unterschiedliche Gestaltung der Bildungssysteme in den einzelnen Staaten macht die Erfassung von in verschiedenen Ländern erworbenen Bildungsabschlüssen mit einem einzigen Fragebogen nahezu unmöglich. Zweitens pflegen Menschen je nach Herkunftskultur (zumindest für eine bestimmte Zeit) unterschiedliche Kommunikationsstile. In vielen asiatischen Kulturen wird „Nein“ als Antwort auf eine Frage möglichst vermieden (Kleiner & Pan 2005, 85). Fragen in einem Fragebogen, die eine Entscheidung zwischen „Ja“ und „Nein“ erforderlich machen, sind in diesem Kontext nicht sinnvoll.
5 Blackbox Interviewsituation Wenn der Fragebogen fertig erstellt ist und ins Feld gegangen ist, verlieren ForscherInnen zwischenzeitlich die Kontrolle über ihre Untersuchung. Dies trifft insbesondere dann zu, wenn die Erhebung an ein Markt- und Meinungsforschungsinstitut ausgelagert wird. Häufig gibt es wenig Rückkoppelung zwischen den ForscherInnen und den Verantwortlichen für die Feld284
Die Befragung von MigrantInnen in Stichprobenerhebungen
arbeit. Auch wenn von den AuftraggeberInnen bestimmte Maßzahlen wie Ausschöpfungsraten, Zahl der Kontaktversuche etc. vorgegeben werden, bleiben viele Aspekte der konkreten Erhebungssituation unbeleuchtet. Einige Fragen können nur unzureichend oder durch sehr aufwändige Kontrollmaßnahmen beantwortet werden. Solche Fragen sind z. B.: Was passiert tatsächlich während des Interviews? Wie reagieren die Befragten auf das Ersuchen um ein Interview? Wie erledigen InterviewerInnen ihre Arbeit? Welche Haltung nehmen sie selbst gegenüber der Untersuchung ein, und welche Haltung vermitteln sie den Befragten? Im Mikrozensus werden Feldinterviews von Statistik Austria organisiert, für Telefoninterviews wurde im Haus ein eigenes Telefonstudio eingerichtet. Im Folgenden werden wiederum Erfahrungen aus dieser Arbeit berichtet. Die Mikrozensus-FeldinterviewerInnen haben übersetzte Fragebögen zur Verfügung. Im ersten Quartal 2008 wurden für 1,8% aller Befragungen bzw. 900 Interviews diese auch verwendet. InterviewerInnen können während des persönlichen Interviews am Laptop zwischen verschiedenen Sprachversionen wechseln. Erfahrungen im Feld haben gezeigt, dass Menschen manchmal einzelne Begriffe nicht verstehen und dann die fremdsprachigen Zusatzinformationen hilfreich sind. In dieser Situation lesen Befragte dann – so weit nötig – die Fragen in der übersetzten Version am Bildschirm mit. Wenn sich zu Beginn oder während eines persönlichen Interviews herausstellt, dass dieses aufgrund von Sprachproblemen nicht durchgeführt werden kann, können die InterviewerInnen dieses an das Telefonstudio weitergeben. Ad-hoc-ÜbersetzerInnen (z. B. Familienmitglieder, NachbarInnen) kamen im ersten Quartal 2008 ca. 400-mal zum Einsatz, d. h. bei weniger als 1% der Interviews. Diese Ad-hoc-Übersetzungen während des Interviews ermöglichen zwar einerseits Interviews, die auf Deutsch nicht möglich gewesen wären, gleichzeitig geht von diesen Übersetzungen aber auch eine gewisse Gefahr für die Qualität von Befragungen aus. Die ÜbersetzerInnen sind nicht vertraut mit dem Thema der Befragung und interpretieren die Fragen, so wie und so weit sie sie verstehen. Meist wird auch nicht dokumentiert, wer übersetzt hat (Kleiner & Pan 2006). In größeren Befragungen wie dem Mikrozensus kommen muttersprachliche InterviewerInnen zum Einsatz. Ihre Arbeit kann ähnlich wie Ad-hocÜbersetzungen in zwei Richtungen Auswirkungen auf die Qualität der Ergebnisse haben: Zwar bringt auch die Möglichkeit, Interviews in der Muttersprache8 der Befragten durchzuführen, einen großen Qualitätsgewinn für die Befragung mit sich. Gleichzeitig können muttersprachliche InterviewerInnen schlechter kontrolliert werden und erhalten viel Macht, z. B. den Fra285
Bettina Stadler
gebogen zu interpretieren oder die Antworten der Befragten zu filtern. Um alle diese Einflussfaktoren möglichst gering zu halten, ist es auch hier wichtig, in einen guten Fragebogen, gute Schulungen und intensive Kontrolle der InterviewerInnen zu investieren. Abhängig vom Thema der Untersuchungen, d. h. vor allem wenn viele Erklärungen des Fragebogens notwendig sind, kann es auch sinnvoll sein, die Interviews von geschulten ÜbersetzerInnen durchführen zu lassen (Pan 2006). Weitere grundlegende Aspekte der Interviewsituation sind zu bedenken. InterviewerIn und interviewte Person bringen über den konkreten Inhalt der Befragung hinausgehendes Wissen und Vorannahmen in die Interviewsituation ein. Allein schon die Teilnahme an einer Befragung erfordert von der/dem Interviewten einiges Wissen über das angemessene Verhalten in einer solchen Situation. Ein Teil der MigrantInnen ist aufgrund des Fehlens von Umfragen in ihrem Herkunftsland sicher weniger vertraut mit Befragungen und verfügt nicht über entsprechende Erfahrungen. Diese Einschätzung teilen auch Kleiner und Pan: „It should not be assumed that all people know how to participate appropriately in a survey interview.“ (Kleiner & Pan 2006, 86) Dies trifft – abhängig vom Herkunftsland – vermutlich besonders auf gerade erst kürzlich zugewanderte MigrantInnen zu. Auswirken kann sich diese geringere Kompetenz in zwei verschiedene Richtungen: Einerseits können MigrantInnen weniger Verständnis für die Notwendigkeit der Teilnahme an der Erhebung zeigen, andererseits kann auch die Ablehnung der Befragung („nicht schon wieder!“) geringer sein. Auch das Wissen und die Haltung der InterviewerInnen gegenüber den Befragten beeinflusst das Interview. Im Jahr 2005 wurden 120 FeldinterviewerInnen des Mikrozensus mittels eines standardisierten Fragebogens zu ihren Erfahrungen mit MigrantInnen befragt. Im Fragebogen war auch eine Itembatterie zur Einstellung zu MigrantInnen enthalten. Unter den IntervierwerInnen finden sich sowohl tendentiell ausländerfeindlich eingestellte InterviewerInnen als auch solche, die gegenüber MigrantInnen eine positive Haltung einnehmen. So stimmte etwa jedeR dritte InterviewerIn der Aussage „AusländerInnen sind eine Belastung für das soziale Netz“ sehr bzw. voll und ganz zu. Der Aussage „AusländerInnen sind eine Bereicherung für die österreichische Kultur“ stimmte jedeR Vierte sehr bzw. voll und ganz zu. Um den Einfluss der Haltung der InterviewerInnen auf die Ergebnisse der Befragung möglichst gering zu halten, muss eine weitestgehende Standardisierung der Befragung sichergestellt werden. Darüber sollten in Schulungen auch kulturelle Differenzen berücksichtigt werden. Auf eine offene Frage nach Erfahrungen, Tipps und Tricks wurde von den InterviewerInnen u. a. 286
Die Befragung von MigrantInnen in Stichprobenerhebungen
erwähnt, dass beim Betreten der Wohnung von TürkInnen das Ausziehen der Schuhe bereits vor der Wohnungstüre sehr wichtig ist. BesucherInnen, die die Wohnung mit Straßenschuhen betreten, erleben die Befragten als sehr unhöflich. Diese beschriebenen Aspekte der Interviewsituation geben nur einen kleinen Teil der Mechanismen während des Interviews wider. Für die Gültigkeit späterer Analysen stellt die Qualität der Befragung einen zentralen Punkt dar. Hier wäre auch die (Weiter-)Entwicklung von Qualitätsstandards von großer Bedeutung.
6 Aufbereitung der Daten und Auswertung Der Aufwand für die Herstellung eines analysefähigen Datenfiles wird in Untersuchungen häufig unterschätzt. Zwar ist die Datenaufbereitung und -kontrolle mit der Entwicklung von leistungsstarken Computerprogrammen um vieles einfacher geworden, noch immer aber müssen Daten vor der Analyse geprüft werden. Seit sich CAPI/CATI9 als Erhebungsmethoden weitgehend durchgesetzt haben, brauchen Fragebögen nicht mehr wie früher mühsam händisch eingegeben werden. Als wichtigste Fehlerquellen sind mögliche Tippfehler bei der Dateneingabe von Programmierfehlern beim Datenmanagement ersetzt worden. Die Verwendung von computerbasierten Fragebögen macht es möglich, bereits während des Interviews Plausibilitätskontrollen durchzuführen. Inkonsistente Angaben der Befragten können so gleich im Zuge des Interviews und von den Befragten selbst richtig gestellt werden. Nach dem Interview werden weitere Plausibilitätskontrollen durchgeführt und unplausible Angaben entfernt. Diese Kontrollen betreffen sehr stark sozio-demographische Angaben, die auch tatsächlich prüfbar sind. Aussagen über Einstellungen und Werte können nicht in gleicher Weise kontrolliert werden. Hier muss auf Validität der Erhebungsinstrumente10 vertraut (bzw. diese vorher geprüft) werden. Bei diesem Arbeitsschritt besteht aber stets die Gefahr, tatsächlich existierende Besonderheiten „auszubügeln“. In die Plausibilitätskontrollen fließen viele Annahmen der ForscherInnen darüber ein, welche Zusammenhänge in den Daten möglich bzw. „normal“ sind und welche nicht. Personengruppen wie MigrantInnen befinden sich häufiger in Umständen, die sich von jener der/des sog. NormalbürgerIn unterscheiden. Der Zusammenhang zwischen Ausbildung und ausgeübtem 287
Bettina Stadler
Beruf ist beispielsweise bei einigen MigrantInnen ungewöhnlich in dem Sinn, dass sie für ihre Tätigkeit deutlich überqualifiziert sind. Würden hier nach Plausibilitätskontrollen entsprechende Korrekturen folgen, könnten Hinweise auf tatsächlich vorhandene Dequalifizierung von MigrantInnen in den Daten fälschlicherweise bereinigt werden. Neben den durch Plausibilitätskontrollen von ForscherInnen selbst erzeugten fehlenden Werten gibt es auch „echte“ Item-Nonresponse, d. h., zu einer bestimmten Frage wurde von den Interviewten keine Antwort gegeben.11 Grundsätzlich gibt es drei mögliche Strategien der Behandlung von Nonresponse. Erstens können fehlende Werte in den Daten belassen werden, zweitens können sie mit verschiedenen Verfahren ersetzt – imputiert12 – werden, drittens können fehlende Angaben auch durch Gewichtung ausgeglichen werden. Die letztere Möglichkeit wird meist dann gewählt, wenn von einer Person sehr viele Angaben fehlen. Voraussetzung für gute Imputation ist ein geringer Prozentsatz an fehlenden Daten. Keines der verschiedenen Imputationsverfahren13 erfordert hier einen bestimmten Mindestanteil an vorhandenen Daten, in der Praxis ist aber eine Imputation bei mehr als 10% fehlenden Werten nicht sinnvoll. Keinesfalls kann durch Imputation ein Bias der fehlenden Werte ausgeglichen werden. Würden einzelne Fragen z. B. von einem großen Teil der MigrantInnen nicht verstanden und würden die erhaltenen Angaben auf diese Gruppe übertragen, wären diese Werte für die Gruppe voraussichtlich fehlerhaft. Im Mikrozensus ist der Anteil der imputierten Werte generell sehr gering und liegt bei den meisten Fragen unter 2 Prozent. Etwas höher ist der Wert bei den Fragen nach der Ausbildung, ein im Jahr 2005 durchgeführter Vergleich der Imputationsraten von MigrantInnen und Nicht-MigrantInnen zeigte, dass die erste Gruppe von diesen Problemen auch stärker betroffen ist. Eine sehr wichtige Ergänzung zu den erhobenen Daten stellen Metadaten dar. Damit sind alle Informationen über die Durchführung der Erhebung, Probleme bei der Erhebung etc. gemeint. Diese Informationen können für allgemeine Qualitätsanalysen verwendet werden, sie sind aber auch für die Abklärung von unerwarteten und nicht erklärbaren Ergebnissen hilfreich. Im Mikrozensus finden sich z. B. Angaben darüber, ob das Interview von einer Person selbst gegeben wurde oder ob die Auskünfte – was zulässig ist – von einer anderen Person im Haushalt stammen. Mit dieser Information konnten fehlende Einträge bei den Fragen zur Arbeitszeit in der Referenzwoche erklärt werden. Menschen wissen häufig nicht genau über die Arbeitszeiten anderer BewohnerInnen des gleichen Haushaltes 288
Die Befragung von MigrantInnen in Stichprobenerhebungen
Bescheid. In den Daten ist auch verzeichnet, ob die Befragung in Deutsch oder in einer anderen Sprache durchgeführt und ob während des Interviews übersetzt wurde. Abschließend wird für jede Person im Datensatz ein Gewichtungsfaktor berechnet (Haslinger & Kytir 2006). Am Ende dieser Arbeitsschritte steht nun ein fertiger, analysefähiger Datensatz bereit.
7 Resümee Mit dem Beitrag sollte gezeigt werden, dass in Stichprobenerhebungen für eine möglichst gute Abbildung der Situation von MigrantInnen nicht ausschließlich der Fragebogen in andere Sprachen übersetzt werden darf. Darüber hinaus muss der gesamte Forschungsprozess auf mögliche Probleme hin untersucht werden. Bereits bei der Definition der Grundgesamtheit und der Entscheidung über die Stichprobenziehung werden Weichen gestellt, die Auswirkungen auf die Qualität der Erfassung von MigrantInnen haben. Wird als Basis für eine Stichprobe ein Verzeichnis verwendet, in dem MigrantInnen schlechter abgebildet sind als die schon länger ansässige Bevölkerung (z. B. das Telefonbuch), hat dies Auswirkungen auf die Ergebnisse. Der verwendete Fragebogen muss nicht nur übersetzt werden, sondern auch die im Fragebogen umgesetzten Konzepte (Beispiel Lebensgemeinschaft) auf ihre Übertragbarkeit in eine andere Sprache geprüft werden. Während der konkreten Befragungssituation müssen kulturelle Unterschiede und Sensibilitäten beachtet werden (z. B. Schuhe vor dem Betreten der Wohnung ausziehen). So können Irritationen, die sich sicher negativ auf die Kooperationsbereitschaft auswirken, vermieden werden. Schließlich müssen auch bei der Datenbereinigung Unterschiede in der Situation von MigrantInnen beachtet werden. So darf z. B. häufigere Überqualifikation von MigrantInnen für ihre berufliche Tätigkeit nicht durch Plausibilitätskontrollen beseitigt werden. Ein Nebeneffekt dieser Vorgehensweise ist – so zeigt die Arbeit am Mikrozensus – deutlich mehr Klarheit darüber, wie Daten erhoben werden und welche Einflussfaktoren auf die Qualität der am Ende erhaltenen Daten wirken.
289
Bettina Stadler
Anmerkungen 1
2 3
4
5
6
7
8
9
10 11 12
13
290
Vgl. Statistik Austria, Statistik des Bevölkerungsstandes, http://www.statistik.at/ web_de/statistiken/bevoelkerung/bevoelkerungsstruktur/bevoelkerung_nach_ staatsangehoerigkeit_geburtsland/031396.html (Stand 1. 10. 2008). Eine Beschreibung der Änderungen findet sich in Kytir & Stadler (2004). Jedes Jahr wird zusätzlich zur laufenden Befragung der Mikrozensus-Arbeitskräfteerhebung ein Modul mit detaillierteren Fragen zu wechselnden, aktuellen Themen durchgeführt. Kognitive Interviews sind persönlich-mündliche Interviews. Sie werden für die Entwicklung und Verbesserung von Fragen eines Fragebogens eingesetzt. Ziel ist, Einblick in die kognitiven Prozesse, die beim Beantworten von Fragen eines Fragebogens bei dem/der Befragten ablaufen, zu bekommen. Für einen Überblick vgl. Prüfer & Rexroth (2005). Hierbei handelt es sich ausschließlich um einen Stichprobeneffekt. Da dies alle MigrantInnen in Wien betrifft, braucht kein systematischer Bias und damit Probleme für die Datenqualität angenommen werden. Zitat aus einem Interview: „Nein. (Lacht.) Weil es mit Sicherheit viele Leute gibt, die Angst haben, dass sie dann nicht hier bleiben dürfen. Dass sie abgeschoben werden, dass Verwandte abgeschoben werden.“ Der Grund hierfür liegt nicht an schlechter Arbeit der ÜbersetzerInnen, sondern sie können die Konzepte im Hintergrund oft nicht erkennen und treffen während der Übersetzung deshalb in manchen Fällen unrichtige Entscheidungen. Aufgrund des großen Aufwandes für Übersetzungen kann immer nur in ausgewählte Sprachen übersetzt werden. In manchen Fällen entspricht die verwendete Übersetzung (z. B. in Englisch) deshalb nicht der Muttersprache des/der Befragten. Die Begriffe CAPI und CATI stehen für „Computer Assisted Personal Interview“ und „Computer Assisted Telephone Interview“. Bei diesen Techniken hat der Fragebogen die Form eines Programmes am Computer. Vgl. für einen allgemeinen Überblick z. B. Diekmann (2002, 223 ff.). Um mehr Informationen über die Art der fehlenden Antworten zu bekommen, wird im Mikrozensus zwischen „Weiß nicht“ und „Verweigert“ unterschieden. Mit dem Begriff Imputation werden verschiedene statistische Verfahren zum Ersetzen fehlender Werte in Datensätzen bezeichnet. Für eine Beschreibung der Imputation für den österreichischen Mikrozensus siehe Moser (2005). Als wichtigste Beispiele seien hier Imputation mit Hot Deck und Imputation mit Distanzfunktion genannt. Einen Überblick über die verschiedenen Verfahren bietet die Knowledge base on Statistical Data Editing der UN/ECE abgerufen am 1. 10. 2008, Website: http://www.unece.org/stats/k-base/.
Die Befragung von MigrantInnen in Stichprobenerhebungen
Literatur Diekmann, A. (2002). Empirische Sozialforschung: Grundlagen, Methoden, Anwendungen. Reinbek bei Hamburg: Rowohlt Taschenbuch Verlag. Diekmann, A. (2006). Aktuelle Probleme der empirischen Sozialforschung. Sonderheft der Kölner Zeitschrift für Soziologie und Sozialpsychologie, 44, 8–32. Groves, R. M. (1989). Survey Errors and Survey Costs. New York: Wiley. Harkness, J. (2003). Questionnaire Translation. In J. Harkness & F. J. R. Van de Vijer & P. Mohler (Eds.), Cross Cultural Survey Design (35–56). New Jersey: Wiley. Haslinger, A., & Kytir, J. (2006). Stichprobendesign, Stichprobenziehung und Hochrechnung des Mikrozensus ab 2004. Statistische Nachrichten, 2006(6), 510–519. Hughes, K. A. (2004). Comparing Pretesting Methods: Cognitive Interviews, Respondent Debriefing, and Behaviour Coding. US Bureau of the Census, Research Report Series, 1–20. Humpert, A., & Schneiderheinze, K. (2000). Stichprobenziehung für telefonische Zuwandererumfragen: Einsatzmöglichkeiten der Namensforschung. ZUMA Nachrichten, 24, 36–64. Kleiner, B., & Pan, Y. (2006). Cross-Cultural Communicationa and the Telephone Interview. ZUMA Nachrichten Spezial, 12, 81–90. Kytir, J., & Stadler, B. (2004). Die kontinuierliche Arbeitskräfteerhebung im Rahmen des neuen Mikrozensus. Statistische Nachrichten, 2004(6), 511–518. Moser, W. (2005). Das Datenmanagement im neuen Mikrozensus – eine Prozessbeschreibung. Austrian Journal of Statistics, 34, 327–343. Österreichischer Integrationsfonds (Hg.) (2008). Integration: Zahlen Daten Fakten. Wien. Pan, Y. (2006). The Use of Interpreters in the Conduct of Household Surveys. ZUMANachrichten Spezial, 12, 91–99. Pfeffer, C., & Klapfer, K. (2008). Kognitives Testen von Survey-Fragen: Ad hoc Modul 2008 – Die Arbeitsmarktsituation von Migrantinnen und Migranten. Wien: Eigenverlag Statistik Austria. (Unveröffentlichter Projektbericht). Porst, R. (2000). Question Wording – Zur Formulierung von Fragebogen-Fragen. ZUMA How-to-Reihe Nr. 2. Mannheim: Eigenverlag. Prüfer, P., & Rexroth, M. (2005). Kognitive Interviews. ZUMA How-to-Reihe Nr. 15. Mannheim: Eigenverlag. Santacreu Fernandes, O., & Rother, N., & Braun, M. (2006). Stichprobenziehung für Migrantenpopulationen in fünf Ländern. ZUMA Nachrichten, 30, 72–88. Schnell, R., & Hill, P. B., & Esser, E. (1999). Methoden der empirischen Sozialforschung. München: R. Oldenbourg Verlag. Stadler, B., & Schrittwieser, K. (2005). Migrants in the Labour Force Survey – Austria. Wien: Eigenverlag Statistik Austria. (Unveröffentlichter Projektbericht).
291
Wolfgang Aschauer
Wolfgang Aschauer
Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen Zusammenfassung Studien mit MigrantInnen gewinnen im Kontext der Globalisierung an Gewicht, werden jedoch innerhalb der Umfrageforschung kaum methodisch reflektiert. Während sich einzelne Forschungen verstärkt mit der Selektion von MigrantInnen für repräsentative Stichproben befassen, liegen bis dato kaum Analysen über Artefaktquellen innerhalb der Erhebungsphase und im Kontext der Befragung vor. Der Beitrag befasst sich deshalb mit Fehlerquellen, die auf das Messinstrument, die Interaktion zwischen InterviewerIn und Befragten sowie auf die MigrantInnen selbst zurückgeführt werden können. Die angesprochenen Messfehler werden anhand einer Studie zur Integration von Salzburger MigrantInnen analysiert. Sowohl in der Konstruktion des Fragebogens als auch im Rahmen der Erhebungsphase wurde eine begleitende Analyse möglicher Fehlerquellen vorgenommen. Durch die exakte Dokumentation der einzelnen Interviews und die methodologische Analyse der Ergebnisse sollen in diesem Beitrag neue Wege in der Analyse quantitativer Umfragedesigns mit MigrantInnen beschritten werden.
Abstract Particularities and Problems of Quantitative Surveys With Migrants Scientific studies with migrants gain importance in the context of globalization but there is hardly any methodological reflection in survey research. Several research deals with sampling of migrants for representative studies but till now there is only little scientific analysis about survey errors during the fieldwork and in regard to the interview conditions. This article refers to measurement errors, which can be ascribed to the questionnaire, the interaction between the interviewer and the respondent and the behaviour of the migrant himself. These biases are analysed based on a study about the integration of migrants in the city of Salzburg. An accompanying analysis of possible measurement errors was done in the construction of the questionnaire as well as in the context of fieldwork. Because of the accurate documentation of the interviews and the methodological analysis of the results the article may open new perspectives in the field of quantitative survey research with migrants.
293
Wolfgang Aschauer
1 Einführung Interviews und Befragungen werden in der quantitativen Forschung mit großer Selbstverständlichkeit und in großem Umfang eingesetzt, sie stellen bei weitem den größten Anteil empirischer Forschungsprojekte. Während Stichprobendesigns und Stichprobenanalysen zunehmend reflektiert und verbessert werden und derzeit einen hohen Stellenwert in der Umfrageforschung einnehmen (Gabler & Häder 2008; Bacher 2008), wird das Interview, egal ob standardisiert oder unstandardisiert, eher ungenügend methodisch reflektiert. Auch im Rahmen der standardisierten Befragung, die im Zentrum des Beitrags steht, sind beide Seiten, sowohl das Frage- als auch das Antwortverhalten zu diskutieren. Dies gilt insbesondere auch im Rahmen interkultureller Forschung und bei MigrantInnenstichproben. MigrantInnen sind innerhalb der quantitativen Forschung nicht nur schwierig zu erreichen, auch die Validität der Untersuchungsergebnisse muss häufig kritisch betrachtet werden.1 Die methodische Lösung zur Erreichung eines validen Umfrageergebnisses kann nur sein, den gesamten Konstruktionsprozess des Ergebnisses in den Blick zu nehmen und in die Interpretation einzubeziehen (Herwatz-Emden 2000). Das Verhalten der UntersuchungsteilnehmerInnen muss nicht nur bei qualitativen Interviews, sondern auch bei standardisierten Befragungen berücksichtigt werden, gerade wenn es sich bei der Untersuchungseinheit um eine problematische, der Forschung schwer zugängliche Gruppe handelt. Klassische Fehlerquellen im Rahmen der Stichprobenziehung, die insbesondere bei MigrantInnenstichproben relevant sind, sind beispielsweise der Coverage Error (z. B. Weisberg 2005) sowie Nonresponse-Effekte (z. B. Stoop 2005; Cooper & De Leeuw 2003). Zur Vermeidung des Coverage Errors werden derzeit verschiedene Strategien der Gewinnung von Zufallsstichproben bei MigrantInnen diskutiert (z. B. Salentin 1999; Humpert & Schneiderheinze 2000; Santacreu & Rother & Braun 2006). In diesem Beitrag soll jedoch nicht auf die bekannten Schwierigkeiten und Fehlerquellen in der Selektion von MigrantInnen eingegangen werden, sondern – und dies ist der neue Ansatz – es sollen Fehlerquellen, die innerhalb der Feldphase und durch das Befragtenverhalten entstehen, den Schwerpunkt bilden. Anhand einer quantitativen Studie mit MigrantInnen werden problematische Aspekte innerhalb der Befragung von MigrantInnen aufgezeigt.
294
Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen
2 Methodische Fehlerquellen im Rahmen des standardisierten Interviews Migrationsforschung ist in der Regel immer auch kulturvergleichende Forschung, deshalb müssen die spezifischen Schwierigkeiten, die für kulturvergleichende Studien gelten (Braun 2006; Hoffmeyer-Zlotnik & Harkness 2006; Rippl & Seipel 2008), gesondert berücksichtigt werden. Der Beitrag befasst sich im Folgenden mit Fehlerquellen, die in der Umfrageforschung als „Measurement Errors“ bezeichnet werden. Dies sind miteinander interagierende Artefakte, • die auf das Messinstrument (Frageformulierung, sprachliche Barrieren, Skalenbildung und Skalierung), • die Interaktion zwischen Interviewern und Befragten (situationsspezifische Einflüsse), • den Umfragemodus • sowie auf die Befragten selbst (Befragtenrolle, Rational-Choice-Modell des Befragtenverhaltens) zurückgeführt werden können. Inwiefern die angeführten Ebenen bei MigrantInnen relevant sind, sollen die weiteren Ausführungen zeigen.
2.1 Messinstrument Eine erste Fehlerquelle liegt bei Befragungen von ZuwanderInnen in der Operationalisierung der Konstrukte begründet. Die Konstruktäquivalenz ist eine wesentliche Voraussetzung des Kulturvergleichs, theoretische Konzepte können nur verglichen werden, wenn bei MigrantInnen aus verschiedenen Herkunftsländern die gleichen zugrunde liegenden Dimensionen erfasst werden. Theoretische Konzepte, die im Rahmen standardisierter Befragungen überprüft werden, sind jedoch innerhalb der Herkunftsländer mit unterschiedlichen Bedeutungen versehen. Letztlich sind es diese kulturell geprägten Reaktionen der ProbandInnen, seien es Formen von Bedeutungszuschreibungen oder Verstehensleistungen, die eine mangelnde interkulturelle Vergleichbarkeit der Messkonzepte bedingen. Persönliche Erfahrungskontexte und das in der Kultur zugängliche Erfahrungswissen können sich gemeinsam auf die Interpretation von Fragen auswirken (Braun 2006). Bei MigrantInnenstichproben ergibt sich zusätzlich zur Konstruktäquivalenz das Problem, dass sich ZuwanderInnen nicht nur nach Herkunftsländern, sondern zusätzlich auch in anderen wesentlichen sozioökonomischen Parametern (z. B. Bildung und Beruf) unterscheiden. So weisen bei295
Wolfgang Aschauer
spielsweise in Österreich MigrantInnen aus der Türkei und aus Ex-Jugoslawien überproportional häufig eine ungünstige Bildungsstruktur auf, während Angehörige anderer Staaten teils höhere Anteile in den gehobenen Bildungskategorien aufweisen (Felderer et al. 2004). Es kann angenommen werden, dass Konstrukte somit schicht- und milieuspezifisch unterschiedlich relevant sind und den Vergleich zwischen MigrantInnen aus verschiedenen Herkunftsländern zusätzlich erschweren.2 Aufgrund des oftmals niedrigen Bildungsniveaus der MigrantInnen muss nicht nur die Operationalisierung der Konstrukte, sondern auch die Art der Frageformulierung durchdacht sein. Um Verzerrungen vorzubeugen, muss sowohl bei der Wortwahl als auch bei den Satzkonstellationen äußerst präzise vorgegangen werden. Das Streben nach der Einfachheit und Kürze von Items kann sich bei MigrantInnenstichproben hinderlich auswirken, weil sich die Angehörigen aus unterschiedlichen Kulturen über die zugrunde liegende Bedeutung der Frage im Klaren sein müssen (Braun 2006). Durch mehrsprachige Fragebögen wird nur das Problem der Sprachbarriere gelöst, dennoch sind Fehlerquellen, die durch eine mangelnde Bedeutungsäquivalenz der Übersetzung bedingt sind (z. B. Konstruktvalidität bei Saris 1998; Harkness & Schoua-Glusberg 1998), zu beachten. Die Vergleichbarkeit der durch das Messinstrument erhobenen Daten kann auch durch unterschiedliche Tendenzen in der Skalenverwendung beeinträchtigt sein. Es ist für UntersuchungsteilnehmerInnen, die keine Kenntnisse der westlichen Standards der Umfrageforschung aufweisen, oft unmöglich, Fragen sinnrichtig zu verstehen, und es besteht keine Vertrautheit mit verbalen Itembatterien und numerischen Skalen.3 Der Vorteil bei Fehlerquellen, die auf das Messinstrument bezogen sind ist jener, dass diese durch statistische Verfahren weitgehend überprüft werden können. In der Regel werden zumindest faktorenanalytische Tests angewendet (Rother 2005) oder ausgefeilte Verfahren für kulturspezifische Messinstrumente vorgeschlagen (Van Deth 1988). Vergleichbare Beziehungen zwischen den Items untereinander und in Hinblick auf die gemessenen Konstrukte gewährleisten die Äquivalenz von Skalen. Deswegen sollten in Studien mit ZuwanderInnen aus verschiedenen Herkunftsländern nur jene Itembatterien zur Anwendung kommen, die als äquivalent beurteilt werden können.4
2.2 Interaktion Interviewer – Befragte Fragen, die die Interviewerinteraktion im Rahmen der Erhebungsphase betreffen, rücken Probleme der sozialen Erwünschtheit und der Zustimmungstendenz in den Vordergrund. 296
Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen
Die Zustimmungstendenz gilt als eine systematische Fehlerquelle, weil sie in keinem Bezug zum Frageinhalt steht. MigrantInnen sind dafür besonders empfänglich, weil sie von der Lebenssituation betrachtet – und damit verbunden in ihrem Selbstwert – häufig als benachteiligt klassifiziert werden können. Nach Esser (1986) ist sowohl die Zustimmungstendenz als auch die soziale Erwünschtheit durch eine kulturelle und situative Komponente geprägt. Negative Alltagserfahrungen können bei MigrantInnen eine Strategie der Verleugnung unterprivilegierter Lebenslagen auslösen, die sich gerade bei sensiblen Fragen zeigt.5 Zusätzlich könnte situationsspezifisch auch bei Verständnisschwierigkeiten eine Bereitschaft zur Zustimmung entstehen, um den eigenen Status als kompetentes Untersuchungsobjekt zu wahren und den weiteren Verlauf der Befragung zu beschleunigen. Auch im Rahmen der Forschungen zum Social Desirability Bias (SD-Bias) wird zwischen einer persönlich-kulturell und situativ geprägten sozialen Erwünschtheit unterschieden. In persönlich-kultureller Hinsicht kommt diese Fehlerquelle bei MigrantInnen durch die Suche nach sozialer Anerkennung zustande. Im Rahmen der Befragung möchten sie möglicherweise bewusst dem in der Regel westlichen Interviewer die eigene Integrationswilligkeit demonstrieren, indem Sie fortschrittliche westliche Werte begrüßen, Freundschaften mit ÖsterreicherInnen betonen und Wahrnehmungen von Fremdenfeindlichkeit und Diskriminierung verleugnen. Aufgrund des oftmals geringen Status und Selbstwerts orientieren sich deshalb die Antworten der MigrantInnen an den Erwartungen des Interaktionspartners/der Interaktionspartnerin oder der vorgestellten Öffentlichkeit. Hier kommen insbesondere situative Einflüsse zum Tragen, weil je nach Interviewer(in) sowie je nach Frageinhalt unterschiedliche Bedürfnisse nach sozialer Anerkennung auftreten. Ein Spezialfalls des Problems der sozialen Erwünschtheit sind heikle oder bedrohliche Fragen. Trotz zugesicherter Anonymität üben sensible Fragen zur Einstellung gegenüber der Residenzgesellschaft, zum psychischen und sozialen Wohlbefinden und zur Wahrnehmung von Diskriminierung einen großen Druck auf die ProbandInnen aus, der verfälschte Ergebnisse bewirkt. Dies begünstigt das Abstreiten sozial unerwünschter Eigenschaften (z. B. bei Persönlichkeitsfragen) und das Ausweichen bei tabuisierten Themen durch Item-Non-Response oder Meinungslosigkeit.6 InterviewerInnen können zu diesen Effekten beitragen, indem sie von ihrer Rolle des neutralen Forschers abweichen. Sie könnten sich als Angehörige westeuropäischer Gesellschaften – bewusst oder unbewusst – gegenüber den UntersuchungsteilnehmerInnen überlegen fühlen. Implizit könnte die Annahme entstehen, dass es sich bei den ZuwanderInnen um wenig 297
Wolfgang Aschauer
emanzipierte und wenig gebildete Individuen handelt, woraus eine HelferHaltung bei den InterviewerInnen entsteht (Herwatz-Emden 2000). Diese InterviewerInnenhaltung, auch als Paternalismuseffekt bezeichnet, könnte zu Signalen führen, die Befragten sozial erwünschte Antworten oder intendierte Botschaften außerhalb des Fragegehalts ermöglichen.
2.3 Umfragemodus Die weitgehend standardisierte Interaktion sowie die Meinungsäußerung ohne Rücksprache mit der eigenen sozialen Gruppe stellt für MigrantInnen eine Überforderung mit der Befragungssituation dar. Die Befragten setzen sich folglich mit den Fragen nicht mehr inhaltlich auseinander, was sie zu willkürlichen Antworten verleitet. Wenn eine Beeinträchtigung des Sinnverstehens festgestellt wird, führt dies auch zu gravierenden Mode-Effekten innerhalb der Befragung. Die Vorteile schriftlicher Befragungen liegen darin, dass Interviewerfehler vermieden werden, die Antworten in der Regel ehrlicher ausfallen, überlegter gegeben werden, eine höhere Motivation zur Teilnahme besteht und die Zusicherung von Anonymität glaubwürdiger erscheint (Schnell & Hill & Esser 1999). Andererseits sind schriftliche Befragungen mit beträchtlichen Einschränkungen der Validität verbunden, weil keine Kontrolle über die Verstehensleistung sowie über die fehlende Beantwortung von Fragen (Item-nonresponse) besteht. Sprachbarrieren oder Lese- und Rechtschreibdefizite lassen sich deshalb mit der Wahl des klassischen Modus der Face-to-Face-Befragung einigermaßen kompensieren.7 Die kostspielige Interviewform der Face-to-Face-Befragung, die auch in der kulturvergleichenden Forschung als Königsweg eingestuft wird (beispielsweise zum European Social Survey: Koch & Blohm 2006), ist jedoch aufgrund des SD-Bias nur bedingt für MigrantInnen geeignet. Prozesse der sozialen Erwünschtheit werden dann aktiviert, wenn in Bezug auf das Antwortverhalten Konsequenzen angenommen werden, und dies ist in persönlich-mündlichen Interviews am wahrscheinlichsten (Braun 2006).
2.3 Die Befragtenrolle Das Konzept der Befragtenrolle basiert auf dem Rational-Choice-Modell des Befragtenverhaltens, das von Esser (1975, 1986, 2004b) entwickelt wurde. Nach Esser erfolgt die Wahl der Antwort danach, welche der Antwortalter298
Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen
nativen am günstigsten bewertet wird. Der Prozess der Urteilsvergabe ist durch die Kognition der Situation (Vermutungen über die Merkmale der Befragungssituation), die Evaluation der Handlungskonsequenzen (Bewertung der Folgen der Antwort) und die Selektion der Handlung (nach der subjektiven Nutzenerwartung) bestimmt (Esser 2004b). Auf Basis dieses Modells wird bei Abwesenheit von sozialer Erwünschtheit eine Antwort im Sinne des „wahren Wertes“ angenommen, wobei darunter eine Antwort in Bezug auf den vom Forscher intendierten Fragegehalt verstanden wird. Wenn also MigrantInnen auf die inhaltliche Dimension der Frage fokussiert sind und situationsspezifische Einflüsse in der Urteilsvergabe nicht zum Tragen kommen, handelt es sich um kooperative Befragte. Sie erschließen den Sinn der Frage richtig und beschließen, ein inhaltliches Urteil abzugeben. Konforme Befragte orientieren sich nach Braun (2006) hingegen nicht mehr am Frageinhalt, sondern stärker an der Situation und geben Äußerungen in Hinblick auf das Ziel der sozialen Anerkennung ab. MigrantInnen sind sich bewusst, dass einzelne Aussagen in der Aufnahmegesellschaft auf Widerspruch stoßen könnten und die Befragungssituation verkomplizieren könnten. Deswegen ist auch die inhaltsunabhängige Zustimmung eine mögliche Strategie, um Risiken in undurchschaubaren und überfordernden Situationen zu vermeiden. Bei Studien, die das Meinungs- und Stimmungsbild von MigrantInnen zum Thema haben, sind kooperative Befragungsteilnehmer also eher die Ausnahme. Es ist stärker von einer konformen Befragtenrolle auszugehen, wobei zwar der Sinn der Frage erschlossen und in einen Bezugsrahmen eingebettet wird, der konforme Befragungsteilnehmer jedoch hinsichtlich der angestrebten Nutzenmaximierung im Sinne der sozialen Erwünschtheit oder einer unreflektierten Zustimmung antwortet. Beide Bedingungen, die Esser (2004b) in seinem Modell des Befragtenverhaltens formuliert (sowohl die kooperative als auch die konforme Antwort), setzen das Verstehen der Fragen voraus, das jedoch bei MigrantInnen oft nicht hinreichend gewährleistet ist. Deswegen könnten sich ZuwanderInnen bei einem mangelnden Verständnis von Fragen auch weder konform noch kooperativ, sondern nonkonformistisch verhalten. Jene UntersuchungsteilnehmerInnen bemühen sich nicht, den Sinn der Frage zu erschließen, sondern wollen vielmehr den InterviewerInnen oder der Öffentlichkeit gegenüber eine Botschaft ausdrücken. Bei dieser Strategie sind sowohl Aussagen im Sinne einer „wahren“ Einstellung als auch im Sinne der sozialen Erwünschtheit möglich, jedoch beziehen sich die angegebenen Antworten nicht mehr auf das intendierte Interesse des Forschers (Braun 2006). Gerade bei einer längeren Interviewdauer oder bei Motivationsdefiziten des/der Befragten können diese Effekte verstärkt auftreten. Die Befragten neh299
Wolfgang Aschauer
men auch nicht von Beginn an dieselbe Befragtenrolle ein, sondern könnten zwischen den drei Interaktionsstrategien pendeln. Ein Wechsel von einer kooperativen Befragtenrolle in eine konforme Rolle, um die Befragungsdauer abzukürzen, oder in die nonkonformistische Rolle, um die eigenen Interessen in den Vordergrund zu stellen, ist durchaus denkbar und plausibel.
3 Empirische Analyse der Fehlerquellen 3.1 Überblick über das Untersuchungsdesign der Studie Die angesprochenen Messfehler bei quantitativen migrationssoziologischen Studien sollen in diesem Beitrag anhand einer quantitativen Studie aufgezeigt und analysiert werden. Sowohl in der Konstruktion des Fragebogens als auch im Rahmen der Erhebungsphase wurde versucht, auf mögliche Fehlerquellen innerhalb der Feldphase Rücksicht zu nehmen. Zur Vermeidung dieser Effekte wurde eine innovative Feldstrategie entwickelt. Vertrauenspersonen der MigrantInnen füllten mit den Probanden Face-to-Face einen Einleitungsfragebogen aus, der einen Vertrauensvorschuss zur Studie bewirken sollte. Danach wurden die UntersuchungsteilnehmerInnen zu geschulten InterviewerInnen (Studierende der Studienrichtung Soziologie) gebracht, die das standardisierte Interview je nach Sprachkenntnissen und intellektueller Befähigung des Migranten/der Migrantin in Form einer schriftlichen oder mündlichen Befragung durchführten. Ein zusätzlicher Interviewerbogen wurde begleitend eingesetzt, um Auffälligkeiten und Verständnisprobleme sowohl quantitativ als auch qualitativ umfassend zu dokumentieren. Dieser Interviewerfragebogen dient nun als Datengrundlage für die Auswertung methodischer Probleme innerhalb der Befragung mit MigrantInnen. Für die Auswertung und Analyse methodischer Artefaktquellen bei MigrantInnen steht eine Stichprobe von 132 ZuwanderInnen zur Verfügung. Die empirische Analyse der vorliegenden Daten beschränkt sich auf eine Analyse begleitender Informationen, die auf Basis des Erhebungsinstruments und aus Sicht der InterviewerInnen zur Studie vorliegen.
3.2 Allgemeine Daten zur Qualität der Umfrage Der standardisierte Fragebogen, der in der Studie verwendet wurde, sollte die Integrationsbereitschaft von MigrantInnen auf persönlicher Ebene (Wertintegration, Zugehörigkeitsgefühl), auf kultureller Ebene (Akkulturations300
Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen
strategien, Kontakte zur Aufnahmegesellschaft, Wahrnehmung von Diskriminierung) sowie auf struktureller Ebene (Berufs- und Arbeitsmarktintegration) messen.8 Um diesem mehrdimensionalen Zugang zur Integration von ZuwanderInnen gerecht zu werden, wurde ein differenziertes Erhebungsinstrument gestaltet, in das auch einzelne Skalen integriert wurden (z. B. Lebenszufriedenheit, Persönlichkeit, Push- und Pullfaktoren der Migration). Die Beantwortung des Fragebogens nahm für die MigrantInnen relativ viel Zeit in Anspruch. Je nach Durchführungsmodus (schriftlich vs. mündlich) betrug die Dauer der Befragung mindestens 20 Minuten bis höchstens 90 Minuten. Durch die breite Streuung der Bearbeitungsdauer wird bereits offensichtlich, dass standardisierte Befragungen mit MigrantInnen eine Herausforderung darstellen, weil es sich um ein stark unterschiedliches Klientel je nach Herkunft und Bildungsniveau handelt. Bei einer längeren Befragungsdauer können somit beträchtliche Schwierigkeiten im Verstehen der einzelnen Fragen angenommen werden. Bezüglich des Umfragemodus wurde in dieser Studie ein flexibles Design angewendet. Das Ziel, eine schriftliche Befragung unter Anwesenheit des Interviewers/der Interviewerin als Kontrollorgan durchzuführen, konnte insgesamt nur bei 60% aller UntersuchungsteilnehmerInnen erreicht werden. Bei einem weiteren Fünftel der Befragten musste der größte Teil der Befragung oder zumindest einzelne Fragebatterien in Form eines mündlichen Interviews absolviert werden, weitere 20% wurden ausschließlich mündlich befragt. Gründe dafür waren eine mangelnde Befähigung, den Fragebogen richtig auszufüllen, fehlende Lesefähigkeiten, Verständnisschwierigkeiten sowie Motivationsdefizite, den Fragebogen allein auszufüllen. [abb01] Insgesamt wird die Qualität der Interviews dennoch als außerordentlich gut bewertet, wobei dies nur die Sichtweise der InterviewerInnen widerspiegelt. Kritische Angaben müssen deswegen verstärkt in den Blick genommen werden. So war beispielsweise eine drastische Einflussnahme auf das Interview bei 17% der Befragten erforderlich, Hilfestellungen mussten bei einem Viertel der Interviews gegeben werden. (Abbildung 1, S. 302) [abb02] Zusätzlich bemängelt ein beträchtlicher Anteil der InterviewerInnen die Sprachkenntnisse der MigrantInnen sowie auch das inhaltliche Verstehen einzelner Fragen. (Abbildung 2, S. 302) Durch das spezifische Umfragedesign konnte jedoch insgesamt eine hohe Motivation bei den Befragten erreicht werden. Dies ergibt sich aus dem Hinzuziehen von Vertrauenspersonen, die den ZuwanderInnen die Bedeutung der Studie vor Augen führten. Es empfiehlt sich aufgrund der Qualitätsurteile der InterviewerInnen durchaus, im Vorfeld der Umfrage einen Vertrauensvorschuss zur Studie anzustreben und problematischen Zielgruppen gezielt die Wichtigkeit der Erhebung 301
Wolfgang Aschauer
Abbildung 1: Qualitätseinschätzungen der Interviews (Einflussnahme und Hilfe bei Fragen)
Einflussnahme auf 2,6 14,8 Interview?
Hilfe bei Fragen?
20,9
15,7
11,3
61,7
17,4
55,7
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Angaben in %
sehr viel
eher viel
eher wenig
sehr wenig
Abbildung 2: Allgemeine Qualitätseinschätzung der Interviews (n = 132) Qualität des Interviews 15,0 insgesamt inhaltliches Verstehen von 1 Fragen Motivation vom Teilnehmer
Sprachkenntnisse
41,6
15,8
4 8,8
6
0%
52,5
35,6
47,5
43,4
18,3
44,2
32,1
44,0
10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Angaben in %
sehr schlecht
302
eher schlecht
eher gut
sehr gut
Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen
zu vermitteln. Durch Begleitschreiben sowie Vorgespräche könnte die Teilnahmemotivation und Kooperation für die MigrantInnen erleichtert und somit die Qualität der Daten gesteigert werden.
3.3 Fehlerquellen im Bereich des Messinstruments In weiterer Folge wird eine empirische Überprüfung der Fehlerquellen des Messinstruments vorgenommen. Die vorliegenden Daten der Untersuchung wurden dabei in Hinblick auf die angesprochenen Problemlagen (Verständlichkeit von Items und Fragen, Skalenverwendung sowie Konstruktäquivalenz) ausgewertet. Es werden auszugsweise einzelne Ergebnisse präsentiert, die auf die Schwierigkeiten der Fragebogenkonstruktion bei MigrantInnen hindeuten. Analysiert man beispielsweise die Qualitätsaspekte der Studie in Hinblick auf die mehrsprachigen Fragebogenversionen, so fällt auf, dass vor allem in der deutschsprachigen Version deutliche Verständigungsprobleme auftreten (Abbildung 3). Dies ist ein klarer Hinweis darauf, dass Übersetzungen in Abbildung 3: Qualitätsurteile in Hinblick auf die einzelnen sprachlichen Versionen des Fragebogens 21,43
Hilfe bei Fragen nötig
4,08 48,94
14,29
Einflussnahme auf 0,00 Interview 34,04
9,09
schlechte Sprachkenntnisse
13,04 34,04
10,00
Probleme inhaltliches Verständnis
7,50 28,26
0
5
10
15
20
25
30
35
40
45
50
% negative Urteile türkisch
serbisch/kroatisch/bosnisch
deutsch
303
Wolfgang Aschauer
sämtliche Sprachen bei einer Untersuchung von MigrantInnen aus mehreren Herkunftsländern gefordert sind.9 abb03 Abbildung 4 zeigt deutlich, dass innerhalb der serbokroatischen Version der Befragung von einer höheren Datenqualität ausgegangen werden kann, während gerade bei jenen ZuwanderInnen, die auf den deutschsprachigen Fragebogen zugreifen mussten, Hilfeleistungen nötig waren, eine größere Einflussnahme auf das Interview gegeben war sowie auch inhaltliche Verständigungsprobleme und schlechte Sprachkenntnisse seitens der InterviewerInnen dokumentiert wurden. Zusätzlich zeigen sich auch Effekte im Vergleich der türkischen Stichprobe mit ZuwanderInnen aus ehemaligen jugoslawischen Staaten. Während schlechte Sprachkenntnisse und Verständnisschwierigkeiten in etwa gleich häufig dokumentiert werden, sind deutliche Unterschiede in der Einflussnahme auf das Interview und bei Hilfestellungen erkennbar. Diese Effekte sind möglicherweise auch in der unterschiedlichen Zugangsweise der InterviewerInnen zu türkischen ZuwanderInnen zu erklären. Es könnte sich hier auch um Ethnisierungseffekte (Herwatz-Emden 2000) im Umgang mit den Untersuchungsobjekten handeln, weil möglicherweise InterviewerInnen bei türkischen MigrantInnen und vor allem weiblichen UntersuchungsteilnehmerinAbbildung 4: Einstellungen der MigrantInnen zu den Pushfaktoren der Migration
wegen der wirtschaftlichen Lage im Herkunftsland
41,8
wegen der politischen Lage im Herkunftsland
41,8
46,4
wegen einem Fluchtgrund
39,1
58,7
wegen eines Nachzugs zu meiner Familie
32,1
29,2
61,9
wegen kultureller und religiöser Spannungen im Herkunftsland
65,7
0%
20,4
10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Angaben in %
nein
304
eher nein
eher ja
ja
Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen
nen mehr Hilfe zur autonomen Beantwortung der Fragen leisten und somit kulturspezifisch eine größere Einflussnahme auf das Interview erfolgt. Eine weitere Beeinträchtigung der Datenqualität kann durch die Verwendung von Skalen entstehen, weil MigrantInnen mit dieser Form der Meinungsäußerung nicht vertraut sind und eine numerische Abstufung der Einstellung schwer fällt. Die folgende Skala zu den Push-Faktoren der Migration10 liefert ein wirkungsvolles Beispiel polarisierender Urteile, die bei mehrstufigen Skalen entstehen. Die Frage nach den Gründen der Auswanderung wurde mit einer einfachen vierstufigen Skalierung („nein“, „eher nein“, „eher ja“, „ja“) gestellt, dennoch entschieden sich in der Regel über 80% der Befragten für die eine oder andere Randkategorie. Aufgrund der unzureichenden Abstufung der Urteile, die sich quer durch die gesamte Untersuchung zieht, empfiehlt sich bei speziellen Subgruppen der Gesellschaft, die mit der Umfragepraxis nicht vertraut sind, auf rein dichotome Skalen zurückzugreifen und eine fehlende Differenzierung des Meinungsbildes in der statistischen Analyse in Kauf zu nehmen. abb04 Ein letztes Beispiel zu den Fehlerquellen, die auf das Messinstrument bezogen sind, bezieht sich auf die Forderung nach funktionaler Äquivalenz der Skalen, die bei sämtlichen kulturvergleichenden Untersuchungen maßgeblich ist (Braun 2006). In der Studie wurden auch individuelle Ausgangsbedingungen der Integration und somit die Persönlichkeitsmerkmale der ZuwanderInnen erfasst.11 Die hier verwendete Skala von Gerlitz und Schupp (2005) wurde auch im sozioökonomischen Panel (SOEP) verwendet und orientiert sich am Persönlichkeitskonzept der Big Five (Costa & McCrae 1992). Die Persönlichkeitsfaktoren Neurotizismus, Extraversion, Gewissenhaftigkeit, Verträglichkeit und Offenheit werden mit jeweils drei Items gemessen und sollten sich eindeutig in der Faktorstruktur der Items zeigen. Innerhalb der MigrantInnenstichprobe ergeben sich jedoch inkonsistente Faktorladungen, die auf eine wenig reliable und stark verzerrte Messung hindeuten.12 In dieser Studie kann die Persönlichkeitsmessung deshalb als gescheitert betrachtet werden. Die für die MigrantInnen aufwendige Fragebatterie wurde ans Ende des Fragebogens gestellt und aufgrund der eher längeren Befragungsdauer wurden sichtlich kaum mehr valide Urteile abgegeben. Zusätzlich stoßen möglicherweise einzelne Fragen auf Unverständnis und werden kulturspezifisch unterschiedlich interpretiert (z. B. „künstlerische Erfahrungen schätzen“). Auch sind einzelne Items (z. B. „eher faul sein“) sicherlich anfällig für sozial erwünschte Antworten und führen deshalb zu einem kaum interpretierbaren Ergebnis. 305
Wolfgang Aschauer
Ein Beispiel einer weitgehend geglückten Messung stellt die Skala zur Lebenszufriedenheit (Fahrenberg et al. 2000) dar. Aus der umfassenden Skala wurden acht Items herausgegriffen und für die MigrantInnenstichprobe adaptiert. Eine Faktorenanalyse über die Gesamtstichprobe liefert ein durchaus plausibles Ergebnis. Es lassen sich drei klar abgrenzbare Faktoren extrahieren, eine sozial-räumliche Dimension der Lebenszufriedenheit (Wohnen und Sozialkontakte), die Zufriedenheit mit dem eigenen Gesundheitszustand und eine Statuskomponente (Lebensstandard und Einkommen). Tabelle 1: Faktorladungen (rechtwinkelige Rotation mit Varimax-Methode) der Skala zur Lebenszufriedenheit innerhalb der MigrantInnenstichprobe (n = 132) Items – Lebenszufriedenheit
Sozial-räumliche Gesundheit Dimension
Zufriedenheit mit Lebensstandard
0,365
Zufriedenheit mit Einkommen
Statusdimension 0,652 0,869
Zufriedenheit mit Freundschaften
0,581
0,432
–0,300
Zufriedenheit mit entgegengebrachtem Respekt
0,695
Zufriedenheit mit Wohnung
0,593
–0,320
0,446
Zufriedenheit mit Wohnumgebung
0,798
Zufriedenheit mit körperlichem Gesundheitszustand
0,769
0,338
Zufriedenheit mit psychischem Gesundheitszustand
0,810
Analysiert man zum Vergleich nur die Stichprobe aus den Balkanstaaten, wo eine ausreichende Fallzahl (n = 67) gegeben ist, so zeigen sich weitgehend ähnliche Faktoren. Es erscheint zwar eine Lösung mit zwei Dimensionen, die die Statuskomponente mit dem Gesundheitszustand vernetzt, als geeigneter, im Rahmen einer Drei-Faktorenlösung finden sich jedoch auch bei Angehörigen dieser Staatengruppe ähnliche Ladungszahlen der Items im Vergleich zur Gesamtstichprobe. Bei den anderen Skalen der Studie ergaben sich großteils inhaltlich interpretierbare Lösungen, die jedoch faktorenanalytisch nach einzelnen Herkunftsländern beträchtliche Abweichungen aufwiesen. Teils sind diese Ab306
Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen
weichungen zwar inhaltlich argumentierbar, sie erschweren jedoch den Vergleich der Konstrukte über mehrere Herkunftsländer. Es sind deswegen bei größer angelegten Umfragen bereits im Vorfeld Pretests nötig, um die zu analysierenden Konstrukte bezüglich der Äquivalenzfragen (Bedeutungsäquivalenz und skalare Äquivalenz) abzusichern.
3.4 Soziale Erwünschtheit und Zustimmungstendenz Die Effekte der sozialen Erwünschtheit sowie auch die Zustimmungstendenz sind innerhalb der Umfrageforschung bereits seit Jahrzehnten ausreichend dokumentiert. Gerade benachteiligte MigrantInnen am Rande der Gesellschaft, die in dieser Studie befragt wurden, sind durch ihren unterprivilegierten Status empfänglich für Konformität und die Suche nach sozialer Anerkennung im Rahmen der Befragungssituation. abb05 Abbildung 5: Einstellungen zu gesellschaftlich relevanten Fragen bei TürkInnen und EinwanderInnen aus dem Balkanraum
96,36%
Wenn Frauen berufstätig sind, soll der Mann im Haushalt mitarbeiten.
100,0%
98,0%
Es ist gut, wenn Frauen finanziell unabhängig sind.
94,12%
Die in Österreich lebenden ZuwanderInnen sollten ihren Lebensstil an Österreich anpassen.
89,58%
85,0%
0
10
20
30
40
50
60
70
80
90 100
% Zustimmung
Türkei
Balkan
307
Wolfgang Aschauer
Wie drastisch sich diese Verzerrungsquellen bei MigrantInnen auswirken können, zeigen die Ergebnisse zu Fragen der Integration und der Geschlechterkonstellation (Abbildung 5). Über 85% der ZuwanderInnen aus dem Balkanraum und auch der Türkei sind der Ansicht, dass sie ihren Lebensstil an Österreich anpassen sollten. Sie befürworten also die klassische Forderung nach kultureller Assimilation nahezu uneingeschränkt und passen sich in ihrem Urteil an die Wünsche des Aufnahmelandes an. Zusätzlich sind sie nahezu ausschließlich der Ansicht, dass Frauen finanzielle Unabhängigkeit erreichen sollten und die Pflichten im Haushalt für beide Geschlechter gelten. Hier findet wiederum eine Anpassung an die Geschlechterrollen der Residenzgesellschaft statt, die Antworten der MigrantInnen orientieren sich an den verbreiteten Vorstellungen der Öffentlichkeit.
3.5 Befragtenrolle Der letzte Abschnitt der Analyse der Feldphase befasst sich zusammenfassend mit dem Befragtenverhalten in qualitativer Hinsicht. Die InterviewerInnen wurden angeleitet, sämtliche Schwierigkeiten bei allen Abschnitten des standardisierten Interviews zu dokumentieren. Einzelne Anmerkungen der InterviewerInnen wurden gesammelt und in verschiedene Kategorien eingeordnet. Die folgende Tabelle gibt einzelne Aussagen wider und ermöglicht Schlüsse über die Rollenbilder der MigrantInnen, die innerhalb der Befragungssituation aktiviert werden. Allgemein zeigt die folgende Tabelle, dass zahlreiche Beschwerden aufgrund der langen Befragungsdauer auftraten. Ein komplexer Fragebogen bewirkt somit Motivationsdefizite und kann einen Wechsel innerhalb der Befragtenrolle auslösen. Auch wenn die MigrantInnen von den InterviewerInnen mehrheitlich als kooperativ beurteilt werden, traten Verzerrungen mit längerer Fortdauer des Interviews auf. Beispielsweise wurden unbequeme Fragen bei schriftlichen Befragungen ausgelassen, und es wurden im Rahmen mündlicher Interviews unreflektierte Antworten gegeben, um den Abschluss der Befragung zu forcieren. Neben dieser nonkonformistischen Befragungsrolle, die auch einen Befragungsabbruch bewirkt, sind auch Beispiele für Konformität in den Aussagen enthalten. Einzelne Statements der InterviewerInnen (z. B. „Sie sagte immer nur gut.“) deuten, wenn auch in Einzelfällen, auf beträchtliche Verzerrungen der Urteilsvergabe (Zustimmungstendenz) hin. 308
Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen
Tabelle 2: Anmerkungen der InterviewerInnen zur Befragung von MigrantInnen Problembereiche
Aussagen der InterviewerInnen
Befragungsdauer
„Beschwerde wegen der vielen Fragen“ „Der Befragte wollte den Fragebogen schnell ausfüllen, nachdem er gesehen hat, wie lange er ist.“ „Das Interview dauerte bis 16.50, allgemeine Aufbruchstimmung, das war sehr hinderlich für überlegte Antworten“
Soziale Erwünschtheit
„Ich vermute, dass viele Fragen gemäß der sozialen Erwünschtheit beantwortet wurden. Sie hörte auch nicht immer zu und antwortete einfach.“ „Person war absolut nicht interessiert, den Fragebogen auszufüllen. Verdacht auf soziale Erwünschtheit bei Beantwortung.“
Verständnisschwierigkeiten
„versteht Außenseiter nicht, trotz unterschiedlicher Beschreibung“ „Analphabet, bin im Laufe des Interviews draufgekommen, dass er manchmal einfach nein gesagt hat, wenn er nicht verstanden hat, worum es ging.“ „Die Dame wollte unbedingt den deutschen Fragebogen, weil sie in einer Woche die Staatsbürgerschaft bekommt. Wenn sie deutsche Fragen nicht verstanden hat, haben wir serbokroatischen Fragebogen zu Hilfe genommen.“
Motivationsdefizite/Nonkonformismus
„Der Befragte war stark genervt, er hat sich sehr beeilt, ruhige und überlegte Antworten waren gegen Schluss nicht mehr möglich.“ „Die Probandin füllte den Fragebogen in ihrer Sprache weitgehend alleine aus. Wenn der interviewten Person die Fragen nicht gefielen, ließ sie sie einfach aus, teilte sie mir mit.“ „Es wurde wegen Beratung unterbrochen, dann wollte sie nicht mehr, wollte unvollständigen Fragebogen mitnehmen, dann zerrissen.“ „Sie sagte immer nur gut. Als ich nachfragte, ob das sehr zufrieden oder zufrieden heißt, sagte sie immer nur gut.“ „Ich glaube bei den Fragen zur Persönlichkeit hat sie gar nicht mehr zugehört, sondern zum Schluss nur mehr mit ,nein‘ geantwortet.“
309
Wolfgang Aschauer
Obwohl die einzelnen Aussagen auf Einzelfällen beruhen und die Datenqualität nach Ansicht der InterviewerInnen als überwiegend positiv zu betrachten ist, müssten auch die in der Tabelle ersichtlichen problematischen Interviewsituationen dokumentiert und berücksichtigt werden. Fälle, wo gravierende Verzerrungen auftreten, sollten im Nachhinein ausgeschieden werden, um insgesamt ein valides Umfrageergebnis erreichen zu können.
4 Relevanz der Ergebnisse für künftige Forschungen mit MigrantInnen In diesem Beitrag wurden einzelne Artefakte im Rahmen der Feldphase, die als „Measurement Error“ bezeichnet werden, spezifisch bei einer Studie mit MigrantInnen aufgedeckt und reflektiert. Neben Fehlerquellen, die auf das Messinstrument bezogen sind, wurden Effekte der Interviewsituation und des Befragtenverhaltens dokumentiert. Mit der Analyse der Interviewbedingungen bei standardisierten Umfragen mit MigrantInnen wird ein weitgehend unerforschtes Feld der Umfrageforschung betreten. Die Integration von ZuwanderInnen ist derzeit europaweit ein bestimmendes und hochaktuelles Thema, und Umfrageergebnisse mit dieser speziellen Zielgruppe werden in der Öffentlichkeit intensiv diskutiert. Umso wichtiger erscheint es, die verschiedenen Verzerrungsquellen aufzuspüren. Aus den ersten Ergebnissen auf Basis dieser Studie, wo begleitend zur Umfrage eine intensive methodische Untersuchung stattfand, können aus den dokumentierten Fehlerquellen, die in weiteren Studien noch vertieft und abgesichert werden sollten, allgemeine Empfehlungen für Umfragen mit benachteiligten Gruppen der Gesellschaft abgeleitet werden. Um MigrantInnen den Sinn von Umfragen zu vermitteln, ist eine intensive Vorinformation der zu befragenden Klientel als auch eine umfassende InterviewerInnenschulung zu leisten. Es handelt sich bei ZuwanderInnen mit Problemen am Arbeitsmarkt, die Gegenstand dieser Forschung waren, um eine sensible und für quantitative Forschungen problematische Stichprobe, weil diese Klientel für sämtliche diskutierten Artefakte (z. B. soziale Erwünschtheit, unterschiedliche Skalenverwendung) besonders empfänglich ist und zusätzlich die Fehlerquellen kulturvergleichender Studien analysiert werden müssen. Bevor die möglichen Verzerrungen gemessen werden, sollten deshalb präventive Schritte zur Minimierung der Artefakte gesetzt werden. Dies kann durch geschulte InterviewerInnen und durch eine glaubhafte Zusicherung der Anonymität gewährleistet werden. 310
Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen
Bezüglich der funktionalen Äquivalenz von Skalen bietet sich ein Pretest an, der erste Analysen über die Bedeutung einzelner Items und Faktoren je nach Herkunftsländern ermöglicht. Es sollten nur jene Skalen ausgewählt werden, die sowohl von der Bedeutung des Frageinhalts als auch von der Skalenverwendung als äquivalent beurteilt werden können. Quantitative Umfragen mit MigrantInnen müssen deshalb häufig Kompromisse eingehen, weil ein ideales Untersuchungsdesign nicht möglich ist. Erstens muss eine Einigung auf ein einfaches oder komplexes Erhebungsinstrument erfolgen. Eine verständliche Kurzbefragung bewirkt einen deutlichen Informationsverlust und verhindert ein theoriegeleitetes Vorgehen, weil einzelne Konzepte nicht auf einfachem Wege operationalisiert werden können. Wird alternativ ein komplexes Erhebungsinstrument gewählt, sind Verständnisprobleme und Motivationsdefizite der Befragten die Folge. Dies kann im Verlauf der Befragung einen Verlust des kooperativen Verhaltens bewirken. Es besteht bei den Befragten kein Interesse mehr, den Sinn der Fragen zu erschließen sondern es soll die Befragung so rasch wie möglich abgeschlossen werden. Zusätzlich sind die klassischen Umfragemodi für Studien mit ZuwanderInnen nur bedingt geeignet. Sowohl schriftliche als auch mündliche Befragungen sind verzerrungsanfällig und weisen eine Reihe von Nachteilen auf. Schriftliche Befragungen können beispielsweise bei quantitativen Studien mit MigrantInnen nicht vollständig zum Erfolg führen. Sie führen zwar möglicherweise zu einer größeren Wahrnehmung von Anonymität und somit zu ehrlicheren Antworten, sind jedoch für einen beträchtlichen Anteil der ZuwanderInnen nicht zu bewältigen. Um die Nachteile von Face-to-FaceInterviews zu kompensieren, müssten deshalb innovative, speziell auf vernachlässigte Zielgruppen der Umfrageforschung zugeschnittene Umfragedesigns entwickelt werden. Hier besteht die Möglichkeit, künftig auf computerbasierte Umfragemodi zurückzugreifen, die eine eigenständige Beantwortung der Fragen erlauben und Interviewereinflüsse minimieren. Eine Kontrolle der Erhebungssituation und die Anwesenheit Dritter, um Itemnon-response zu vermeiden und Verständnisschwierigkeiten bei einzelnen Fragen zu kompensieren, scheint jedoch unabdingbar, um zu validen Urteilen zu gelangen. Die Ergebnisse zu den politischen Einstellungen zeigen beispielsweise, dass Umfrageergebnisse mit problematischen Gruppen oft reine Artefakte darstellen. Die Integrationsbereitschaft der MigrantInnen sowie deren Sichtweise über Geschlechterrollen müssten verdeckt oder zusätzlich mit offenen Fragen erhoben werden, um die Aussagen zu einzelnen Items besser hinterfragen und erklären zu können. Nur mit einer detaillierten Analyse 311
Wolfgang Aschauer
dieser Einstellungsbereiche ließe sich zeigen, ob derartige Antworten aus Bedürfnissen nach Anerkennung oder aus dem Interesse, der öffentlichen Meinung zu entsprechen, entstehen. Aufgrund der gesellschaftlich hochbrisanten Umfrageergebnisse bei Studien mit ZuwanderInnen ist eine exakte Dokumentation des gesamten Forschungsablaufs von äußerster Wichtigkeit. Dies beginnt bereits in der Phase der Stichprobenziehung und verlangt eine methodische Begleituntersuchung zu jeder standardisierten Befragung. Nur durch die Dokumentation der Interviewbedingungen können Verzerrungen aufgedeckt und auffällige Urteile ausreichend hinterfragt werden. MigrationsforscherInnen sind deshalb gefordert, die eigenen Umfragen kritisch zu hinterfragen, denn nur mit der Einbeziehung methodischer Kontrolldaten kann der Öffentlichkeit ein wahrheitsgetreues Bild der Einstellungen von ZuwanderInnen vermittelt werden. Anmerkungen 1
2
3
4
5
312
Die Studie, die in weiterer Folge thematisiert wird, befasste sich mit ZuwanderInnen mit Problemen am Arbeitsmarkt. Wenn in weiterer Folge problematische Aspekte bei Umfragen mit MigrantInnen aufgezeigt werden, ist damit jene Gruppe von ZuwanderInnen gemeint, deren strukturelle Integration in das Aufnahmeland mit Schwierigkeiten behaftet ist und die sozialstrukturell am unteren Ende der Gesellschaft angesiedelt ist. Analysiert man beispielsweise die Struktur der EinwanderInnen in der Stadt Salzburg, so sind zahlreiche ehemalige GastarbeiterInnen aus der Türkei sowie aus dem Balkanraum zu finden. MigrantInnen aus dem ehemaligen Jugoslawien sind am stärksten vertreten, weil zusätzlich in den 1990er Jahren zahlreiche politische Flüchtlinge hinzukamen. Asylsuchende aus Afrika, dem Mittleren Osten sowie aus den GUSNachfolgestaaten sind weitere MigrantInnengruppen, die in Salzburg anzutreffen sind (Öppmayr 2006). Zusätzlich finden sich auch zahlreiche ZuwanderInnen aus Deutschland, die im Gastgewerbe arbeiten und sowohl schicht- und milieuspezifisch nicht mit den anderen MigrantInnengruppen vergleichbar sind. Theoretische Konzepte der Integrationsbereitschaft sind für ZuwanderInnen aus verschiedenen Herkunftsländern somit unterschiedlich relevant. So zeigt sich beispielsweise, dass Angehörige aus kollektivistischen Kulturen (z. B. aus asiatischen oder auch afrikanischen Staaten) eher zu sozialer Erwünschtheit und Konformität und somit auch zu einer allgemein erhöhten Zustimmung bei Items neigen (Rippl & Seipel, 2008). Unter Äquivalenz wird in der kulturvergleichenden Forschung verstanden, „dass die zugrunde liegenden Dimensionen oder theoretischen Konzepte in allen Ländern in vergleichbarer Weise gemessen werden.“ (Braun 2006, 5) Fragen zu Kontakten mit Österreichern und Landsleuten oder zur gelungenen Integration in den Bildungs- und Erwerbssektor könnten durch diese Mechanismen in einem verfälscht positiven Sinne beantwortet werden.
Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen 6
7
8 9
10 11
12
In dieser Studie verneinten beispielsweise bei den einzelnen Persönlichkeitsitems drei Viertel der MigrantInnen, eher faul zu sein, und 57,5% bestritten, manchmal unfreundlich zu anderen zu sein. Zusätzlich fällt bei den kritischen Fragen zur Diskriminierung ein hoher Anteil an Meinungslosigkeit („keine Angabe“ zwischen 4% und 6%) und Item-Non-Response (fehlende Werte zwischen 7% und 10%) auf. Einen Extremfall stellt die Befragung von AnalphabetInnen dar, weil Übersetzungen der Fragebögen in die Muttersprache der ProbandInnen nicht mehr ausreichen. InterviewerInnen müssten die Befragung in Kenntnis der Muttersprache des Migranten/der Migrantin durchführen, um Verständnisprobleme weitgehend ausschließen zu können. Wesentliche Thesen der Integrationstheorie von Esser (2004a, 2006a) wurden im Fragebogen operationalisiert. In der Studie wurde der Fragebogen in drei Sprachen übersetzt, neben der deutschen Version lag ein englischer, serbokroatischer und türkischer Fragebogen vor. MigrantInnen aus afrikanischen Staaten oder aus dem russischen und arabischen Sprachraum entschieden sich in der Regel für die deutsche und in Ausnahmefällen für die englische Version. Mit den Push-Faktoren werden alle Faktoren des Herkunftslandes der MigrantInnen zusammengefasst, die diese zur Auswanderung motivieren (Han 2005, 15). In den letzten Jahren wurden zahlreiche Versuche unternommen, Persönlichkeitskonzepte der Psychologie auf die Umfrageforschung zu übertragen und ökonomische Kurzskalen für Bevölkerungsumfragen zu etablieren (z. B. Schumann 2005). Zwar weist der erste und dritte extrahierte Faktor (Neurotizismus und Offenheit) noch gewisse inhaltliche Parallelen zum Big-Five-Konzept auf, die anderen Faktoren sind jedoch nicht auf die intendierten Persönlichkeitsdimensionen rückführbar. Im postulierten Faktor Extraversion sind Items, die Geselligkeit, Gewissenhaftigkeit und Verträglichkeit messen, vorzufinden, im vierten Faktor steht Kreativität mit Faulheit in Verbindung und der fünfte Faktor lässt sich inhaltlich kaum mehr interpretieren.
Literatur Bacher, J. (2009). Korrekte Analyse komplexer Stichproben. In J. Bacher & M. Weichbold & C. Wolf (Hg.), Grenzen und Herausforderungen der Umfrageforschung. Wiesbaden: VS Verlag (in Druck). Braun, M. (2006). Funktionale Äquivalenz in interkulturell vergleichenden Umfragen. Mythos und Realität. Mannheim: Zuma. Braun, M., & Rother, N., & Santacreu Fernández, O. (2006). Stichprobenziehung für Migrantenpopulationen in fünf Ländern: Eine Darstellung des methodischen Vorgehens im PIONEUR-Projekt. Zuma-Nachrichten, 30(59), 72–88. Costa, P. T., & McCrae, R. R. (1992). Four ways five factors are basic. Personality and Individual Differences, 13, 653–665. Couper, M. P., & De Leeuw, E. D. (2003). Nonresponse in cross-cultural and cross-national surveys. In J. Harkness & F. J. R. van de Vijver & P. P. Mohler (Eds.), Cross cultural survey methods (157–178). Hoboken NJ: Wiley.
313
Wolfgang Aschauer Esser, H. (1975). Das Problem der Reaktivität bei Forschungskontakten. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 27, 257–271. Esser, H. (1986). Können Befragte lügen? Zum Konzept des „wahren Wertes“ im Rahmen der handlungstheoretischen Erklärung von Situationseinflüssen bei der Befragung. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 38, 314–336. Esser, H. (1996). Die Definition der Situation. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 48, 1–34. Esser, H. (2004a). Welche Alternativen zur „Assimilation“ gibt es eigentlich? In K. J. Bade & M. Bommes (Hg.), Migration – Integration – Bildung. Grundfragen und Problembereiche. IMIS-Beiträge, 23, 41–59. Esser, H. (2004b). Soziologische Anstöße. Frankfurt/New York: Campus. Esser, H. (2006). Sprache und Integration. Die sozialen Bedingungen und Folgen des Spracherwerbs von Migranten. Frankfurt/New York: Campus. Fahrenberg, J. et al. (2000). Skala zur Lebenszufriedenheit. Göttingen: Hogreve. Felderer, B. et al. (2004). Befunde zur Integration von AusländerInnen in Österreich. Endbericht der Studie. Wien: Institut für höhere Studien. Gabler, S., & Häder, S. (2009). Die Stichprobenziehung des European Social Survey. In J. Bacher & M. Weichbold & C. Wolf (Hg.), Grenzen und Herausforderungen der Umfrageforschung. Wiesbaden: VS Verlag (in Druck). Gerlitz, J. Y., & Schupp, J. (2005). Zur Erhebung der Big Five basierten Persönlichkeitsmerkmale im SOEP. Berlin: DIW Research Note, 4. Han, P. (2005). Soziologie der Migration (2. Auflage). Stuttgart: Lucius & Lucius. Harkness, J. A., & Schoua-Glusberg, A. (1998). Questionnaires in translation. ZumaNachrichten Spezial, 3, 87–127. Herwartz-Emden, L. (2000). Adressatenspezifität bei Interviews und Gruppeninterviews in der interkulturellen Forschung. In J. L. Patry & F. Riffert (Hg.), Situationsspezifität in pädagogischen Handlungsfeldern (55–80). Innsbruck: Studien Verlag. Hoffmeyer-Zlotnik, J., & Harkness, J. (Eds.) (2006). Methodological aspects in cross-national research. Zuma-Nachrichten Spezial, 11. Humpert, A., & Schneiderheinze, K. (2000). Stichprobenziehung für telefonische Zuwandererumfragen. Zuma-Nachrichten, 24(47), 36–64. Öppmayr, M. (2006). Zuzug von MigrantInnen im Wandel. In M. Oberlechner, Die missglückte Integration. Wege und Irrwege in Europa (1–17). Wien: Braumüller. Rippl, S., & Seipel, C. (2008). Methoden kulturvergleichender Forschung. Wiesbaden: VS Verlag. Rother, N. (2005). Measuring attitudes towards immigration across countries with the ESS: Potential problems of equivalence. Zuma-Nachrichten Spezial, 11, 109–127. Salentin, K. (1999). Die Stichprobenziehung bei Zuwandererbefragungen. Zuma-Nachrichten, 23(45), 115–135.
314
Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen Saris, W. (1998). The effects of measurement error in cross cultural research. Zuma-Nachrichten Spezial, 3, 67–87. Schnell, R., & Hill, P., & Esser, E. (1999). Methoden der empirischen Sozialforschung (6. Auflage). München: Oldenbourg. Stoop, I. (2005). The Hunt for the Last respondent. Abgerufen am 28.10.2008, Website: http://www.scp.nl/english/publications/books/9037702155/The_%20Hunt_for_the_ Last_Respondent.pdf. Van Deth, J. W. (1988). Equivalence in comparative political research. In ders. (Ed.), Comparative politics. The problem of equivalence (1–20). London/New York: Routledge. Weisberg, H. F. (2005). The total survey error approach. Chicago: University Press.
315
Angela Wroblewski
Angela Wroblewski
Berücksichtigung der Situation von Personen mit gesundheitlichen Beeinträchtigungen in Umfragen Zusammenfassung Die Erfassung der Situation von Personen mit gesundheitlichen Beeinträchtigungen (Behinderungen, chronischen Krankheiten oder sonstigen gesundheitlichen Beeinträchtigungen) im Rahmen von standardisierten Umfragen stellt eine besondere Herausforderung dar. Im vorliegenden Beitrag stehen designtechnische Fragen im Vordergrund. Die damit einhergehenden Effekte auf Zielgruppenerreichung wie auch die Ergebnisse werden anhand eines Beispiels (Studierenden-Sozialerhebung) diskutiert. Zielsetzung dieser bereits zwei Mal durchgeführten Befragung (2002, 2006) ist es einerseits, das Ausmaß der Betroffenheit abzuschätzen, andererseits Informationen über Probleme im Studienalltag von Studierenden mit gesundheitlichen Beeinträchtigungen zu liefern. Auf Basis der Erfahrungen aus diesen beiden Befragungen werden folgende methodologische Herausforderungen diskutiert: (1) adäquate Erfassung der Formen der Beeinträchtigungen aufgrund des hohen Anteils von Mehrfachbeeinträchtigungen, (2) die besondere Bedeutung des Wordings für die Akzeptanz der Befragung und (3) die Frage nach Zugangsbarrieren für bestimmte Gruppen von behinderten oder gesundheitlich beeinträchtigten Personen.
Abstract Consideration of the Situation of People with Disabilities or Handicaps in Standardised Surveys The consideration of the situation of people with disabilities or handicaps in standardised surveys is a challenge in several respects. The focus of the paper lies on design and methodological aspects, which have an effect on the population reached as well as the results. Such effects are discussed referring to two surveys among students in Austria (conducted 2002 and 2006). Aim of these surveys was twofold: to get information about the number of students affected and to gather information about their study conditions as well as their need for support. Based on the experience with these two surveys following challenges
317
Angela Wroblewski
are discussed: (1) difficulties to formulate items about form of disability/handicap adequately, (2) the importance of wording for the acceptance of the survey, and (3) survey features that might exclude specific groups of handicapped or disabled students from a survey.
1 Hintergrund und Fragestellung Die Befragung zur sozialen Lage der Studierenden ist eine österreichweit repräsentative Umfrage unter Studierenden, die im Abstand von vier oder fünf Jahren seit den 1970er Jahren durchgeführt wird. Dabei wird versucht, ein Kernset an Indikatoren möglichst vergleichbar zu erheben, um Veränderungen im Zeitverlauf aufzeigen zu können. Darüber hinaus weist jede Sozialerhebung einen thematischen Schwerpunkt auf, der sich aufgrund aktueller hochschulpolitischer Diskussionen ergibt. In der im Jahr 2002 durchgeführten Befragung wurde nicht nur das Themenspektrum ausgeweitet (u. a. Einstellung zur Einführung der Studienbeiträge), sondern auch eine spezifische Gruppe von Studierenden in den Vordergrund gerückt, deren Situation bislang nicht explizit thematisiert wurde: Studierende mit Behinderungen, chronischen Krankheiten oder sonstigen gesundheitlichen Beeinträchtigungen. Zum damaligen Zeitpunkt lagen nur wenige Informationen über die Situation von Studierenden mit gesundheitlichen Beeinträchtigungen, ihre Probleme im Studium oder ihren spezifischen Unterstützungsbedarf vor. Schon allein der Anteil der betroffenen Studierenden an der Gesamtheit aller Studierenden in Österreich war nicht bekannt, da im Rahmen der Hochschulstatistik keine entsprechenden Angaben erhoben werden. Eine erstmalige Einschätzung der Situation behinderter und chronisch kranker Studierender bot im Jahr 1995 eine vom Institut für Erziehungswissenschaften und dem Behindertenreferat der Universität Salzburg durchgeführte Umfrage unter betroffenen Studierenden (Wetzel & Fuchs 1995). Aus erhebungstechnischen Gründen konnten damals jedoch keine repräsentativen Daten erhoben werden, und es war auch kein Vergleich zur Studiensituation aller Studierender möglich. Zielsetzung der Studie im Jahr 2002 war es, das Ausmaß der Betroffenheit zu erheben sowie den aus Sicht der Studierenden bestehenden Unterstützungsbedarf aufzuzeigen. Zielsetzung der zweiten Erhebung war es darüber hinaus, konkret jene Rahmenbedingungen aufzuzeigen, die betroffene Studierende im Studienalltag behindern, um eine empirische Grundlage für die Entwicklung von Maßnahmen zu liefern. Aufgrund der Erfahrungen mit der ersten Befragung von Studierenden mit gesundheit318
Personen mit gesundheitlichen Beeinträchtigungen
lichen Beeinträchtigungen wurde für die Erhebung 2006 das Erhebungsdesign neu konzipiert. Die Veränderung der Fragestellung spiegelt auch eine stärkere Orientierung an der Diskussion der „Disability Studies“, die von einem sozialkonstruktivistischen Modell von Behinderung ausgehen. Behinderung oder gesundheitliche Beeinträchtigung wird nicht mehr als ein individuelles Merkmal gesehen, sondern als Konsequenz des jeweiligen sozialen Kontexts, d. h., Behinderung wird als sozial konstruiert verstanden. Barnes & Mercer & Shakespeare (1999, 7) beschreiben beispielsweise die Zielgruppe als Menschen mit einer anerkannten Beeinträchtigung, die unter den gegebenen gesellschaftlichen Umständen behindert werden. Dem entspricht die 2006 vorrangig gestellte Frage nach jenen Mechanismen, die betroffene Studierende aus bestimmten Bereichen ausgrenzen oder in ihrem Studienfortschritt behindern. Dieser Anspruch, sich an einem sozialkonstruktivistischen Behindertenbegriff zu orientieren, ist jedoch im Rahmen einer standardisierten Umfrage nur schwer einzulösen. Vorab erscheint noch eine Begriffsklärung angebracht, wie gesundheitliche Beeinträchtigung im Rahmen der vorgestellten Erhebungen operationalisiert wurde: Die Umfrage basiert auf der Selbsteinschätzung von Studierenden als gesundheitlich beeinträchtigt, wobei den Befragten die Antwortmöglichkeiten Behinderung, chronische oder länger dauernde Krankheit sowie sonstige gesundheitliche Beeinträchtigungen offen standen. Mit diesem Verständnis von „gesundheitlich beeinträchtigt“ wird somit eine eher breitere Definition verwendet als beispielsweise körperlich und/oder geistig behindert. Es wird auch nicht auf eine formal-juristische Definition abgestellt (z. B. das Vorliegen eines Behindertenausweises). Die unterschiedlichen Definitionen, die in empirischen Untersuchungen herangezogen werden, können zu stark voneinander abweichenden Anteilen von Betroffenen führen. Dieses Problem trat beispielsweise bei einem Vergleich der Anteile von gesundheitlich beeinträchtigten Studierenden in mehreren EU-Ländern auf (Schnitzer & Middendorff 2005; Schnitzer & Zempel-Gino 2002).
1.1 Design und Ergebnisse der Umfrage 2002 Die Studierenden-Sozialerhebung 2002 war als schriftliche Befragung (postalisch) konzipiert. Insgesamt wurden 10.000 zufällig gezogene Studierende an Universitäten und Fachhochschulen in Österreich angeschrieben. Es handelt sich dabei um eine geschichtete Stichprobe, um auch an kleineren Universitäten eine ausreichend große Fallzahl zu erreichen, die es er319
Angela Wroblewski
möglicht, über die jeweilige Universität bzw. Studienrichtungsgruppe Aussagen machen zu können. Insgesamt lag der Rücklauf (nach Erinnerungskarte) bei 35%, d. h., es gingen 3.303 Fragebögen in die Auswertungen ein. Darunter waren 357 Studierende mit gesundheitlichen Beeinträchtigungen. Die Entscheidung für die eigene Erhebung unter Studierenden mit gesundheitlichen Beeinträchtigungen fiel erst relativ spät im Projektverlauf, konkret zu einem Zeitpunkt, als die Pretests für den „Hauptfragebogen“ bereits beendet waren. Der Fragebogen für Studierende mit gesundheitlichen Beeinträchtigungen wurde auf Basis einer Literaturrecherche und unter Einbeziehung von ExpertInnen (d. h. in Kooperation mit den Behindertenbeauftragten an den Universitäten) konzipiert. Die Studierenden wurden im „Hauptfragebogen“ danach gefragt, ob sie behindert, chronisch krank oder sonstig gesundheitlich beeinträchtigt sind. Wenn ja, wurden Sie gebeten, einen zusätzlichen Fragebogen zu ihrer gesundheitlichen Beeinträchtigung und den sich daraus ergebenden Konsequenzen für das Studium auszufüllen. Aufgrund dieser Befragung, die repräsentativ für die Studierenden in Österreich ist, war es erstmals möglich, den Anteil der Betroffenen an allen Studierenden abzuschätzen und eine Analyse systematischer Unterschiede zwischen Studierenden mit und ohne gesundheitlichen Beeinträchtigungen durchzuführen (Wroblewski & Unger 2003b). In Summe bezeichneten sich 11,9% aller Studierenden als gesundheitlich beeinträchtigt. 1% aller Studierenden war behindert, 7,6% waren chronisch krank und 3,3% sonstig beeinträchtigt. Diese Werte entsprechen dem Vergleichswert für die gleichaltrige österreichische Wohnbevölkerung und einer ähnlichen Studie für Deutschland (Schnitzer & Isserstedt & Middendorff 2001). Für hochschulpolitische Akteure war insbesondere der hohe Anteil von chronisch und psychisch kranken Studierenden ein unerwartetes Ergebnis und warf eine Reihe von weiterführenden Fragen auf. Der Fragebogen enthielt die erwähnte Filterfrage nach dem Vorliegen einer Beeinträchtigung (Selbsteinschätzung), eine Frage nach der Art der Beeinträchtigung (vorgegebene Klassifikation mit Mehrfachantworten) sowie eine verbale Beschreibung der gesundheitlichen Beeinträchtigung. Weiters wurde gefragt, wie lange die gesundheitliche Beeinträchtigung schon besteht, wie sich diese im Studienalltag auswirkt, wie stark die Befragten durch ihre gesundheitliche Beeinträchtigung im Studium beeinträchtigt sind und ob sich die gesundheitliche Beeinträchtigung auf die Studienwahl ausgewirkt habe. Neben der Art der Beeinträchtigung stand die Frage im Zentrum, ob bzw. welchen Unterstützungsbedarf es aus Sicht der betroffenen Studierenden gibt. Gefragt wurde weiters, ob finanzielle Belastungen mit der gesundheitlichen Beeinträchtigung verbunden sind, ob die Studierenden spe320
Personen mit gesundheitlichen Beeinträchtigungen
zifische Beihilfen beziehen und ob sie einen formalen Behindertenstatus aufweisen. Diese standardisierten Fragen wurden durch einige offene Fragen ergänzt, durch die Hinweise für konkrete Maßnahmengestaltung generiert werden sollten. So wurde nach einer konkreten Beschreibung, wie sich die gesundheitliche Beeinträchtigung/Behinderung im Studienalltag auswirkt, gefragt. Die Studierenden wurden gegebenenfalls aufgefordert, näher zu erläutern, warum sie ihr Wunschstudium nicht absolvieren können, warum sie aus gesundheitlichen Gründen an einen Studienwechsel denken oder einen solchen vollzogen haben und welche konkreten Maßnahmen ihren Studienalltag erleichtern würden. Im Zuge der Auswertung trat bei der Interpretation der Ergebnisse für die Gruppe der betroffenen Studierenden eine Reihe von Problemen auf:1 Es zeigen sich deutliche Unterschiede im Ausmaß der Betroffenheit je nachdem, ob auf die Selbsteinschätzung der Studierenden oder einen formalen Behindertenbegriff abgestellt wird. Wird ein formaler Behindertenbegriff (Status „begünstigt behinderter Mensch“ oder Bezug von erhöhter Familienbeihilfe wegen Behinderung oder Krankheit) herangezogen, so liegt das Ausmaß der Betroffenheit bei 1,8% aller Studierenden. Dem steht aber ein Anteil von 11,9% gegenüber, der auf Selbsteinschätzung basiert. Stellt man darauf ab, ob sich die gesundheitliche Beeinträchtigung im Studienalltag auswirkt, so sind insgesamt 4% aller Studierenden betroffen. Aufgrund des hohen Anteils von Studierenden mit Mehrfachbeeinträchtigungen (30%) war es nicht durchgängig möglich, eine aussagekräftige Klassifikation von Studierenden nach Art der Beeinträchtigung zu erstellen. Die größte Gruppe bilden jene mit Mehrfachbeeinträchtigungen. Es ist in der Folge auch nicht möglich, die angegebene Probleme im Studienalltag jener Form von Beeinträchtigung zuzuordnen, die im Studienalltag am relevantesten ist. Ähnliches gilt auch für den angeführten Handlungsbedarf: Dieser ist oft nur schwer zu interpretieren, wenn er nicht einer konkreten Form der Beeinträchtigung zugeordnet werden kann. Schwierig zu interpretieren war auch die Antwort auf die Frage, ob die betroffenen Studierenden aufgrund ihrer gesundheitlichen Beeinträchtigung auch im Studienalltag beeinträchtigt sind. Dies trifft nach eigenen Angaben auf 40% aller gesundheitlich beeinträchtigten Studierenden zu, allerdings sind „nur“ 20% der Studierenden mit Behindertenausweis stark beeinträchtigt, ein weiteres Drittel ist teilweise beeinträchtigt. Es gab eine sehr geringe Bereitschaft, offene Fragen zu beantworten, die nähere Angaben zur Art des in einer Skala angegebenen Handlungsbedarfs in bestimmten Bereichen enthalten sollten. Dies kann zum einen auf das spezifische Setting der Befragung zurückzuführen sein, da es sich um einen 321
Angela Wroblewski
sehr langen Hauptfragebogen handelte und erst im Anschluss daran wurde der Zusatzfragebogen ausgefüllt. D. h., es könnte aufgrund der Länge der Befragung zu Ermüdungserscheinungen gekommen sein. Zum anderen richtet sich die Befragung an studienaktive Personen, d. h., die RespondentInnen haben sich in ihrem Studienalltag soweit „arrangiert“, dass eine aktive Teilhabe am Studium möglich ist. Im Studienalltag bestehende Barrieren werden eventuell nicht mehr angeführt, da sie bereits bewältigt wurden und damit keine aktuellen Problemlagen darstellen. Die Erfahrungen der Befragung 2002 haben also gezeigt, dass es schwierig ist, Informationen über konkreten Unterstützungsbedarf und Barrieren im Studienalltag mittels offener Fragen im standardisierten Erhebungsinstrument zu erfassen.
1.2 Design und Ergebnisse der Umfrage 2006 Für die Sozialerhebung 2006 wurde eine Stichprobe von 50.000 Studierenden an Universitäten und Fachhochschulstudiengängen angeschrieben. Die Befragung wurde diesmal – primär aus Kostengründen – als Online-Umfrage durchgeführt. Aufgrund des relativ komplexen Verfahrens zur Sicherstellung der Anonymität (postalischer Versand von Einladungsbriefen mit Zugangscode zur Befragung) musste auf den Versand einer Erinnerungskarte verzichtet werden. Die Rücklaufquote (ohne Erinnerungskarte) lag bei 20%. Insgesamt haben sich 1.737 Studierende mit gesundheitlichen Beeinträchtigungen an der Umfrage beteiligt. Im Rahmen des Fragebogens wurde u. a. danach gefragt, ob Studierende behindert, chronisch krank sind oder sonstige gesundheitliche Beeinträchtigungen aufweisen. Betroffene Studierende erhielten in weiterer Folge eine Reihe von Fragen zur Art der Beeinträchtigung, zur spezifischen Studiensituation und zu bestehendem Handlungsbedarf. Dabei handelt es sich im Kern um die geschlossenen Fragen aus dem bereits 2002 verwendeten Fragebogen. Auf Basis dieser Angaben ist es wie bereits 2002 möglich, den Anteil der betroffenen Studierenden an einzelnen Universitäten und diesmal auch auf Ebene der Studienrichtungsgruppen zu ermitteln und auf Basis der repräsentativen Umfrage die Rahmenbedingungen im Studium für Studierende mit und ohne gesundheitliche Beeinträchtigungen zu vergleichen. Um auch auf die offenen Fragen Antworten zu bekommen, wurde 2006 ergänzend zur standardisierten Umfrage eine qualitative Erhebung unter Studierenden mit gesundheitlichen Beeinträchtigungen durchgeführt. Konkret wurde folgendermaßen vorgegangen: Alle Studierenden mit Behinde322
Personen mit gesundheitlichen Beeinträchtigungen
rungen sowie jene Studierenden mit chronischen Krankheiten oder sonstigen gesundheitlichen Beeinträchtigungen, die sich im Online-Fragebogen auf einer fünfstufigen Skala aufgrund ihrer gesundheitlichen Beeinträchtigung als sehr stark bis mittel beeinträchtigt im Studium bezeichneten, wurden noch im Online-Fragebogen nach ihrer Bereitschaft zu einem persönlichen Interview gefragt. Traf dies zu, konnten Studierende ihre Kontaktdaten (E-mail-Adresse oder Telefonnummer) angeben, um in weiterer Folge von den Interviewerinnen kontaktiert zu werden. Gleichzeitig gab es jedoch auch die Möglichkeit, anonym bei einer eigens für die Befragung eingerichteten Hotline am IHS anzurufen, wenn Personen Interesse an einem Interview hatten. Insgesamt haben sich 284 Studierende im Online-Fragebogen zu einem persönlichen Gespräch bereit erklärt, von denen 202 kontaktiert wurden. Bei der Auswahl der InterviewpartnerInnen wurde zunächst auf das Ausmaß der Beeinträchtigung im Studium abgestellt und darüber hinaus auf die regionale Verteilung sowie auf die Repräsentanz der unterschiedlichen Arten gesundheitlicher Beeinträchtigungen geachtet.2 In Summe wurden 145 Interviews in ganz Österreich geführt.3 Dabei handelt es sich um leitfadengestützte Interviews, wobei die Auswertung themenzentriert erfolgt. Zentrale Themenkomplexe im Leitfaden sind: • Konkrete Barrieren im Studienalltag • Wahrgenommene Problembereiche bzw. Diskriminierungen im Studienalltag • Konkreter Handlungsbedarf aus Sicht der betroffenen Studierenden (Maßnahmen, Unterstützung, Beratung) Anders als bei der Vorgängererhebung 2002 wird dabei nicht nur auf die aktuelle Situation abgestellt, sondern auch auf den bisherigen Studienverlauf. Aufgrund der im persönlichen Gespräch besser gegebenen Möglichkeit, auf die jeweils individuelle Person einzugehen und nachzufragen bzw. Fragen zu konkretisieren, stehen deutlich mehr Informationen im Vergleich zur standardisierten Befragung zur Verfügung. So konnten z. B. Probleme und Barrieren besser erfasst und der erforderliche Handlungsbedarf genauer nachgefragt werden. Bei erfolgtem Studienwechsel als Konsequenz der gesundheitlichen Beeinträchtigung konnte etwa konkret nach Gründen und Motiven gefragt werden, wodurch es möglich ist, auch individuell bereits bewältigte Barrieren aufzuzeigen. Ähnliches gilt für die Frage, ob die Studienwahl infolge der gesundheitlichen Beeinträchtigung eingeschränkt war (z. B. das „Wunschstudium“ nicht realisiert werden konnte). Weiters konnte gegebenenfalls auch auf Erfahrungen in der Schulzeit (z. B. Besuch von Inte323
Angela Wroblewski
grationsklassen, Umgang mit der gesundheitlichen Beeinträchtigung durch Lehrkräfte) sowie spezifische Beratungsangebote bei der Studien- oder Berufswahl und allgemein auf den Übergang von der Schule zur Hochschule näher eingegangen werden. Der Leitfaden wird abgerundet durch Fragen zu Förderungen (Kenntnisstand, Zufriedenheit, Abwicklung), Beratungsangeboten (Warum werden sie nicht genutzt? Für welche Bereiche fehlen Beratungsangebote?), zur Lebenssituation (Wohnen etc.) und zum Einsatz neuer Medien im Studium.
1.3 Vorbereitung der Online-Erhebung – Pretest Da für die Befragung 2006 von Beginn an feststand, dass Studierende mit gesundheitlichen Problemen wieder einen eigenen Fragenblock erhalten werden, wurden die Fragen im dreistufigen Standard-Pretest-Verfahren mitgetestet. Ergänzend zum allgemeinen Pretest, wurde eine Fokusgruppe mit gesundheitlich beeinträchtigten Studierenden, die von den Behindertenbeauftragten der Universität Wien und der Technischen Universität Wien rekrutiert wurden, durchgeführt. Dabei handelte es sich durchwegs um Studierende mit körperlichen Beeinträchtigungen aufgrund von Behinderung oder chronischer Krankheit. Weiters wurde angestrebt, den Fragebogen barrierefrei zugänglich zu machen. Es wurden daher eigene Pretests mit blinden Studierenden durchgeführt, die den Online-Fragebogen mit unterschiedlichen Vorleseprogrammen ausfüllen sollten. Im Pretest stellte sich heraus, dass der Vorlesemodus mit einigen Programmen funktionierte, mit anderen nicht. Das Problem dabei war, dass der Fragebogen eine Reihe von Skalen enthielt, die in tabellarischer Form dargestellt waren und deren Wiedergabe im Vorlesemodus schwierig war. Es wäre eine grundsätzliche Neuprogrammierung des Fragebogens notwendig gewesen, um den Fragebogen tatsächlich barrierefrei zugänglich zu machen, was aus Kostengründen nicht möglich war. Als „second-best-Lösung“ wurde für Studierende, die Probleme beim Ausfüllen des Fragebogens hatten, bereits im Anschreiben das Angebot eines telefonischen Interviews gemacht. Dieses Angebot wurde von drei Studierenden genutzt. In den Pretests kristallisierten sich folgende Punkte als relevant heraus: • Studierende mit Behinderungen oder offensichtlichen körperlichen Beeinträchtigungen (blinde/hochgradig sehbeeinträchtigte Studierende, Studierende mit Mobilitätsbeeinträchtigungen mit/ohne Rollstuhl) hatten kaum Probleme, den Fragebogen auszufüllen. Die Fragen waren offensichtlich für 324
Personen mit gesundheitlichen Beeinträchtigungen
diese Zielgruppe zugeschnitten und mussten nur in kleineren Punkten adaptiert werden. • Für Studierende mit psychischen Beeinträchtigungen war das ursprünglich verwendete Wording „Studierende mit Behinderung, chronischer Krankheit oder gesundheitlicher Beeinträchtigung“ nicht adäquat. Der Konnex zu Behinderung oder chronischer Krankheit wurde stark problematisiert und einhellig abgelehnt. Im Fragebogen selbst wurden dann unterschiedliche Frageformulierungen in Abhängigkeit von der Art der Beeinträchtigung verwendet (d. h. mehrere Fragebogenversionen programmiert). • Es stellte sich heraus, dass es für betroffene Studierende schwierig ist, die Antworten ausschließlich auf ihre Person bzw. Situation hin zu fokussieren. Es wurde beispielsweise häufig Handlungsbedarf angegeben, der zwar nicht die eigene Situation unmittelbar verbessern würde, aber für andere Betroffene relevant sein könnte. Dem wurde versucht, durch eine noch explizitere Frageformulierung zu begegnen. • Im Pretest wurde weiters deutlich, dass es für betroffene Studierende wichtig ist, unterschiedliche Formen der Beeinträchtigung angeben zu können, auch wenn nicht alle sich im Studium auswirken. Das Gefühl, die eigene Situation im Fragebogen adäquat abbilden zu können, erhöht die Akzeptanz der Befragung und beeinflusst die Antwortbereitschaft positiv.
2 Ergebnisse der standardisierten Befragungen 2002 und 2006 im Vergleich Laut der Befragung 2006 sind 0,9% aller Studierenden nach eigener Definition behindert, weitere 12,1% sind chronisch krank und rund 8% sind sonstig gesundheitlich beeinträchtigt. D. h., in Summe ist jede/r fünfte Studierende in irgendeiner Form gesundheitlich beeinträchtigt. Damit ist das Ausmaß der Betroffenheit gegenüber 2002 deutlich angestiegen, auch wenn sich das damit verbundene Bild ähnlich darstellt: Das Ausmaß der Betroffenheit ist unabhängig von der sozialen Herkunft und vom Geschlecht, nur unter Männern gibt es geringfügig mehr Studierende mit Behinderung. Mit zunehmendem Alter steigt der Anteil gesundheitlich Beeinträchtigter etwas an, allerdings sind abweichend hiervon die jüngsten Studierenden (unter 20 Jahre) im selben Ausmaß betroffen wie Studierende über 30 Jahre. Je älter die Studierenden sind, desto höher ist auch der Anteil der Studierenden mit einer Behinderung. Von Studierenden bis zum Al325
Angela Wroblewski
ter von 20 Jahren sind dies 0,8%, von denjenigen über 30 Jahre fast doppelt so viele, nämlich 1,5%. Es ist zu vermuten, dass der Anstieg der Betroffenheit gegenüber der Erhebung 2002 vor allem auf die Änderung des Erhebungsinstrumentes zurückzuführen ist. Die Erhebung 2002 wurde schriftlich durchgeführt und Studierende, die sich selbst als gesundheitlich beeinträchtigt einstuften, wurden gebeten, zusätzlich einen vierseitigen Fragebogen auszufüllen. Es war also erstens ersichtlich, wie viele weitere Fragen zu beantworten sind, und zweitens, welcher Art diese Fragen sind, nämlich in erster Linie Fragen, die auf gravierendere gesundheitliche Beeinträchtigungen und vor allem auf die Auswirkungen im Studium abzielen. Bei einer Online-Befragung, wie sie 2006 durchgeführt wurde, sind beide Aspekte für die RespondentInnen vorab nicht ersichtlich, was die Ausfüllbereitschaft der Einstufungsfrage erhöht haben dürfte. Es gibt einige Gründe anzunehmen, dass der Großteil des Anstiegs im Ausmaß der Betroffenheit auf das geänderte Erhebungsinstrument zurückzuführen ist, auch wenn andere Untersuchungen auf eine zunehmende Betroffenheit hindeuten.4 Indikatoren dafür, dass ein erheblicher Designeffekt vorliegt sind u. a., dass der Anteil der Studierenden mit gesundheitlichen Beeinträchtigungen, die auch Konsequenzen im Studium verspüren, nur leicht gestiegen und der Anteil der Behinderten konstant geblieben ist. Deutlich öfter genannt wurden insbesondere jene Arten der Beeinträchtigung, die seltener mit Auswirkungen im Studienalltag verbunden sind, wie z. B. Sehbeeinträchtigungen und Allergien, also jene Formen, die wahrscheinlich nicht angegeben worden wären, wenn von Beginn an klar gewesen wäre, worum es in den Folgefragen geht.
Tabelle1: Anteil gesundheitlich beeinträchtigte Studierende 2002 und 2006
Behinderung Chronische Krankheit Sonstige Beeinträchtigung % Gesundheitlich Beeinträchtigte gesamt n = ungewichtet. Quellen: Studierenden-Sozialerhebung 2002, 2006
326
2002 n = 3.303
2006 n = 8.771
1,0% 7,6% 3,3%
0,9% 12,1% 7,7%
11,9%
20,6%
Personen mit gesundheitlichen Beeinträchtigungen
Tabelle2: Art der gesundheitlichen Beeinträchtigung 2002 und 2006 Gesundheitl. Beeintr. Studierende
Allergien/Atemwegserkrankungen Sehbeeinträchtigungen Psychische Erkrankungen Chronische Erkrankungen Mobilitätsbeeinträchtigungen Hörbeeinträchtigungen Sprachbeeinträchtigungen Andere Beeinträchtigungen Anteil mit Mehrfachbeeinträchtigungen Anteil beeinträchtigt im Studium
Anteil an allen Studierenden
2002 n = 357
2006 n = 1.737
2002 n = 3.303
2006 n = 8.771
53,4% 14,6% 15,0% 22,2% 9,7% 5,5% 1,3% 5,6%
58,1% 20,9% 14,8% 12,6% 5,1% 3,4% 0,6% 20,6%
6,4% 1,7% 1,8% 2,6% 1,2% 0,6% 0,1% 0,6%
12,2% 4,4% 3,2% 2,6% 1,1% 0,7% 0,1% 4,6%
30,2% 35%
32,9% 40%
3,4% 4%
6,6% 8%
Mehrfachnennungen möglich; n = ungewichtet. Quellen: Studierenden-Sozialerhebung 2002, 2006
3 Grenzen der standardisierten Befragung Die Erfahrungen der beiden zitierten Befragungen haben gezeigt, dass das Ausmaß der Betroffenheit durch standardisierte Umfragen relativ problemlos erhoben werden kann, sieht man von bestehenden Definitionsproblemen ab. Die Erfahrungen zeigen aber auch die Grenzen einer standardisierten Befragung von Studierenden mit gesundheitlichen Beeinträchtigungen. Es wurde deutlich, dass • das Design der Befragung das Ausmaß der angegebenen Betroffenheit bestimmt, • das Design je nach zugrunde liegender Definition der Zielgruppe anders zu gestalten ist (Selbstdefinition versus formale Anerkennung), • das Wording hochsensibel ist, insbesondere das Vokabel „Behinderung“ wird für Personen mit bestimmten Formen der Beeinträchtigung als nicht adäquat angesehen,5 • die Interpretation der Ergebnisse durch den hohen Anteil an Mehrfachbeeinträchtigungen erschwert wird und gleichzeitig die Möglichkeit von Mehrfachnennungen Voraussetzung für die Akzeptanz der Erhebung ist, 327
Angela Wroblewski
•
ein standardisiertes Erhebungsinstrument nur eingeschränkt zur Beschreibung der Alltagssituation von betroffenen Personen und den individuell wahrgenommenen Barrieren bzw. Einschränkungen geeignet ist. Eine Möglichkeit des Umgangs mit diesen Problemen ist die Kombination der standardisierten Befragung mit persönlichen Interviews, wie dies in der Studierenden-Sozialerhebung 2006 der Fall war. Die qualitativen Interviews bringen v. a. vier Vorteile mit sich: Auf Basis der qualitativen Interviews ist es möglich, die Art der Beeinträchtigung wesentlich exakter zu fassen, unter anderem indem das Ausmaß der Beeinträchtigung erfasst wird oder auch Beeinträchtigungen, die Nebenfolgen der primären Beeinträchtigung sind, gesondert erfasst werden. So kann beispielsweise die Kombination Allergie und chronische Krankheit im standardisierten Erhebungsinstrument bedeuten, dass eine chronisch kranke Person als Folge von Medikamenteneinnahme eine Allergie entwickelt hat, die als Teil der chronischen Krankheit zu sehen ist. Es kann aber auch bedeuten, dass eine Person mit einer schweren Allergie als Folge von Medikamenten chronische Magenbeschwerden hat. Im ersten Fall ist die chronische Krankheit die „Hauptbeeinträchtigung“, anhand derer eine Person in eine Typologie eingehen sollte, im zweiten Fall als AllergikerIn. Durch Nachfragen kann auch auf den ersten Blick unplausibel erscheinenden Ergebnissen nachgegangen werden, wie z. B. wenn RollstuhlfahrerInnen angeben, in keiner Weise im Studium Auswirkungen der Beeinträchtigung zu erfahren. So hat beispielsweise ein/e chronisch kranke/r Studierende/r, der/die im Rollstuhl sitzt und auch ihre Hände nur eingeschränkt einsetzten kann, das Interview damit begonnen, dass er/sie kein typischer Fall sei, weil es keinerlei Beeinträchtigungen im Studium gibt. Es stellt sich dann heraus, dass er/sie an einem Institut studiert, dass in einem Altbau im 2. Stock ohne Lift untergebracht ist. Dem liegt eine perfekte Organisation des Studienalltags zugrunde, die darauf basiert, dass der Vater, seit er in Pension ist, es als seine Hauptbeschäftigung ansieht, seinem Kind das Studium zu ermöglichen. D. h., er bringt die/den Studierende/n mit dem Auto an die Universität, trägt sie/ihn hinaus, holt sie/ihn ab usw. Drittens können im Rahmen der persönlichen Interviews nähere Informationen zum wahrgenommenen Handlungsbedarf aus Sicht der betroffenen Studierenden erfasst werden: So geben beispielsweise 11% aller Studierenden an, dass bauliche Gegebenheiten Schwierigkeiten im Studienalltag bedeuten. Selbst wenn dieser Anteil nach Universität gebreakt wird, kann daraus noch nicht konkretisiert werden, welcher Handlungsbedarf konkret besteht. Dies auch aufgrund der geringen Bereitschaft, offene Fragen zu beantworten. Im Rahmen der persönlichen Interviews konnte zum einen eine Lis328
Personen mit gesundheitlichen Beeinträchtigungen
te konkreter Missstände, die leicht zu beheben sind (z. B. Handläufe, Türen, versperrte und daher nicht benutzbare WC-Anlagen) erhoben werden. Zum anderen wurden „größere“ bauliche Veränderungen, die aus Sicht der Studierenden notwendig wären, konkretisiert. In den qualitativen Interviews kann auch auf spezifische Gruppen gesondert eingegangen werden, über die kaum abgesicherte Informationen vorliegen, wie z. B. Studierenden mit psychischen Problemen. Psychische Beeinträchtigungen werden an Universitäten kaum wahrgenommen und weder von Seiten der Studierenden noch von Seiten der Universität (Verwaltung, Lehrende) thematisiert (Wroblewski & Unger & Schilder 2007). Aufgrund des fehlenden Vorwissens über diese Gruppe ist die Konzeption eines standardisierten Erhebungsinstruments zusätzlich erschwert. Ähnliches gilt auch für Studierende mit chronischen Krankheiten, die nicht offensichtlich sind.
4 Schlussfolgerungen Die Kombination einer standardisierten Befragung mit einer qualitativen Erhebung erhöht die Aussagekraft der Ergebnisse in zweierlei Hinsicht: Zum einen sind die Ergebnisse der qualitativen Interviews zentral für die Interpretation der Ergebnisse der standardisierten Umfrage. Zum anderen werden wichtige Informationen über die Zielgruppe erhoben, die in eine Neugestaltung des standardisierten Erhebungsinstruments einfließen können. Eine Weiterentwicklung der bestehenden Erhebungsinstrumente erscheint insofern notwendig, als die Zielgruppe bei künftigen Befragungen stärker ins Gewicht fallen wird. Dies primär deshalb, da Befragungen von Kindern und Jugendlichen, aber auch die Erhebungen der Statistik Austria zum Gesundheitszustand der Bevölkerung eine steigende Betroffenheit von gesundheitlichen Beeinträchtigungen zeigen, wobei insbesondere psychische Erkrankungen, aber auch chronische Krankheiten zunehmen.6 Für eine mögliche dritte Erhebungsrunde ist insbesondere eine praktikable Lösung für die Erfassung der „primären“ Form der Beeinträchtigung zu finden, die gleichzeitig auch die Möglichkeit offen lässt, alle eventuell zutreffenden Formen der Beeinträchtigung anzugeben. Auch hinsichtlich des Wordings besteht Weiterentwicklungsbedarf, insbesondere bei nicht offensichtlichen Formen der Beeinträchtigungen, die im (Studien-)Alltag nicht oder nur im Ausnahmefall thematisiert werden. Schlussendlich ist aber auch zu akzeptieren, dass bestimmte Themenbereiche im Rahmen einer standar329
Angela Wroblewski
disierten Umfrage nicht adäquat berücksichtigt werden können, da sich die Heterogenität der Studien- und Lebensbedingungen der betroffenen Studierenden durch geschlossene Fragen nicht abbilden lässt. Neben diesem für die Studierenden-Sozialerhebung notwendigem Weiterentwicklungsbedarf wird auch deutlich, dass es im Zusammenhang mit gesundheitlich beeinträchtigten Personen kaum Metaforschung gibt. Dabei wäre u. a. zu klären, inwieweit unterschiedliche Definitionen von gesundheitlicher Beeinträchtigung das Ergebnis beeinflussen, aber auch fragebogentechnische Aspekte (wie z. B. Selbstselektionseffekte, soziale Erwünschtheit, Effekte der Frageplatzierung oder Fragebogenformulierung, Effekte durch die Anwesenheit/Hilfestellung Dritter) sind zu diskutieren. Es liegt bislang auch keine systematische Diskussion darüber vor, inwieweit bzw. welche Personen mit gesundheitlichen Beeinträchtigungen generell in standardisierten Umfragen unterrepräsentiert sind und wie in diesem Zusammenhang Selbstselektionseffekte eine Rolle spielen. Die Frage nach der Zugänglichkeit von Befragungen für Personen mit spezifischen Formen der Beeinträchtigung ist nicht nur bei Befragungen, die sich spezifisch an Personen mit gesundheitlichen Beeinträchtigungen richten, relevent, vielmehr geht es auch um die Frage, inwieweit das jeweils gewählte Befragungssetting bestimmten Personengruppen (u. a. jene mit spezifischen Formen der Beeinträchtigung) den Zugang zur Befragung erschwert oder gar verunmöglicht. Eine eingeschränkte Teilnahmemöglichkeit an Befragungen für Blinde oder hochgradig sehbeeinträchtigte Personen liegt insbesondere im Falle von schriftlichen Befragungen vor, d. h., eine Beteiligung erfordert Hilfestellung durch Dritte. Bei Online-Befragungen oder computerunterstützten Befragungsformen besteht theoretisch die Möglichkeit, den Fragebogen barrierefrei zu gestalten (z. B. durch Verwendung von Sprachausgabeprogrammen oder Schriftvergrößerung). Für diese Formen der Aufbereitung von Fragebogen ist jedoch eine Reihe von Rahmenbedingungen zu erfüllen, so sollten möglichst keine Animationen oder grafischen Elemente verwendet werden und auch die tabellarische Gestaltung von Skalen erschwert eine barrierefreie Umsetzung eines Online-Fragebogens. Ein schriftliches Erhebungsinstrument kann jedoch auch für Personen mit Mobilitätsbeeinträchtigungen einen erhöhten Ausfüllaufwand bedeuten, wenn das Schreiben an sich Schwierigkeiten bereitet. Auf der anderen Seite sind Gehörlose oder Personen mit psychischen Beeinträchtigungen durch persönliche Interviews schwerer erreichbar. Neben diesen Vorteilen, die mit der Kombination von qualitativen und quantitativen Zugängen einhergehen, bleibt festzuhalten, dass eine Reihe von zentralen Fragestellungen nur durch einen qualitativen Zugang beant330
Personen mit gesundheitlichen Beeinträchtigungen
wortet werden kann, wie z. B. die Frage nach wahrgenommenen Benachteiligungen im Alltag oder nach dem komplexen Zusammenspiel institutioneller und sozialer Rahmenbedingungen, die zur Ausgrenzung, aber auch zur Integration der betroffenen Personen beitragen (können). In diesem Sinne bleibt zu hoffen, dass die vorliegenden Ergebnisse der qualitativen Erhebung als Input für Maßnahmengestaltung genutzt werden und dabei insbesondere von der wenig aussagekräftigen formal-juristischen Definition von Behinderung bzw. gesundheitlicher Beeinträchtigung abgegangen wird.
Anmerkungen 1
2 3
4
5
6
Keine erwähnenswerten Probleme traten hinsichtlich des Vergleichs der sozialen Situation von Studierenden mit und ohne gesundheitliche Beeinträchtigung auf. Einzig aufgrund der geringen Fallzahlen für einzelne Arten der Beeinträchtigung waren an mehreren Stellen differenzierte Aussagen nach Art der Beeinträchtigung nicht möglich (Wroblewski; & Unger 2003b). Studierende, die nicht ausgewählt wurden, erhielten ein persönliches Mail mit einer Erklärung und dem Dank für die Bereitschaft zu einem persönlichen Gespräch. Folgende Gründe führten dazu, dass Interviews mit Personen, die sich ursprünglich zu einem Interview bereit erklärt hatten, doch nicht zustande kamen: In 32 Fällen erfolgte keine Rückmeldung oder wurde der vereinbarte Termin nicht eingehalten, 10 Personen hatten kein Interesse mehr, 8 waren nach eigener Einschätzung zu wenig beeinträchtigt, und in 7 Fällen war ein Interview örtlich und zeitlich nicht möglich. In Deutschland beträgt der Anteil der Studierenden mit gesundheitlicher Beeinträchtigung laut einer 2007 veröffentlichten Studierendenbefragung etwa 19% (Männer: 19%; Frauen: 18%; Daten für 2006). Dieser Anteil ist seit der letzten Erhebung im Jahr 2000, als er bei 15% lag, ebenfalls angestiegen (bei unverändertem Erhebungsinstrument) (Isserstedt & Middendorff & Fabian & Wolter 2007). Es wurde bereits erwähnt, dass Studierende mit psychischen und chronischen Erkrankungen eine Gleichsetzung mit Behinderung ablehnen. Gehörlose Studierende sehen sich ebenfalls nicht als behindert oder gesundheitlich beeinträchtigt, sondern als Angehörige einer anderen Kultur. Zur Gesundheitssituation von Kindern und Jugendlichen: Kurth (2007); Statistik Austria (2008).
Literatur Barnes, C., & Mercer, G., & Shakespeare, T. (1999). Exploring disability: A sociological introduction. Cambridge: Polity Press. Isserstedt, W., & Middendorff, E., & Fabian, G., & Wolter, A. (2007). Die wirtschaftliche und soziale Lage der Studierenden in der Bundesrepublik Deutschland 2006. 18. Sozialerhebung des Deutschen Studentenwerks durch HIS Hochschul-Informations-System. Bonn/Berlin: BMBF.
331
Angela Wroblewski Kurth, B.-M. (2007). Der Kinder- und Jugendgesundheitssurvey (KiGGS): Ein Überblick über Planung, Durchführung und Ergebnisse unter Berücksichtigung von Aspekten eines Qualitätsmanagements. Bundesgesundheitsblatt, 50(5/6), 533–546. Schnitzer, K., & Isserstedt, W., & Middendorff, E. (2001). Die wirtschaftliche und soziale Lage der Studierenden in der Bundesrepublik Deutschland 2000. 16. Sozialerhebung des Deutschen Studentenwerks durchgeführt durch HIS Hochschul-Informations-System. Bonn: BMBF. Schnitzer, K., & Middendorff, E. (2005). EUROSTUDENT 2005. Social and economic conditions of student life in Europe 2005. Synopsis of indicators for Austria, Finland, France, Germany, Ireland, Italy, Latvia, Portugal, Spain, The Netherlands and United Kingdom (E/W). Hannover: HIS Hochschul-Informations-System. Schnitzer, K., & Zempel-Gino, M. (2002). EURO STUDENT. Social and economic conditions of student life in Europe 2000. Synopsis of indicators and national profiles for Austria, Belgium (Flemish Community), Belgium (Wallonia-Brussels Community), Finland, France, Germany, Ireland, Italy and The Netherlands. Hannover: HIS HochschulInformations-System. Statistik Austria (2008). Statistisches Jahrbuch 2008. Wien. Unger, M., & Wroblewski, A. (2007). Studierenden-Sozialerhebung 2006. Bericht zur sozialen Lage der Studierenden. Zusammenfassung. In BMWF (Hrsg.), Materialien zur sozialen Lage der Studierenden 2007. Wien: BMWF. Wetzel, G., & Fuchs, I. (1995). Studierende mit Behinderungen und chronischen Krankheiten an Österreichs Universitäten. Eine Analyse der Studien- und Lebenssituation. Studie im Auftrag des BMWF, Wien. Wroblewski, A., & Unger, M. (2003a). Studierenden-Sozialerhebung 2002. Bericht zur Sozialen Lage der Studierenden. Studie im Auftrag des BMBWK, Wien. Wroblewski, A., & Unger, M. (2003b). Bericht zur Sozialen Lage gesundheitlich beeinträchtiger Studierender 2002. Studie im Auftrag des BMBWK, Wien. Wroblewski, A., & Unger, M., & Schilder, R. (2007). Bericht zur Sozialen Lage gesundheitlich beeinträchtiger Studierender 2006. Studie im Auftrag des BMBWK, Wien.
332
Marek Fuchs
Marek Fuchs
Item-Nonresponse in einer Befragung von Alten und Hochbetagten Der Einfluss von Lebensalter und kognitiven Fähigkeiten* Zusammenfassung Alte und hochbetagte Menschen werden regelmäßig in standardisierte Bevölkerungsbefragungen einbezogen. Grundsätzliche Einwände gegen die Nutzung der Daten von alten und hochbetagten Menschen bestehen nicht, in der methodologischen Fachliteratur finden sich jedoch Hinweise, dass die Qualität der von alten und hochbetagten Menschen erhaltenen Antworten gegenüber der bei jüngeren Befragten gemessenen Daten als geringer einzustufen ist. Dafür werden verschiedene Ursachen verantwortlich gemacht, worunter speziell der Rückgang der Gedächtnisleistung sowie allgemein die schwindenden kognitiven Fähigkeiten am häufigsten diskutiert werden. In der vorliegenden Studie wird auf Basis der Daten der Berliner Altersstudie (BASE), der Einfluss des Kurzzeitgedächtnisses und vier anderer kognitiver Faktoren für das Auftreten von Item-Nonresponse („weiß nicht“) überprüft. Die Ergebnisse zeigen, dass die kognitiven Fähigkeiten wie erwartet mit zunehmendem Alter zurückgehen und dass der Item-Nonresponse mit den im Alter schwindenden kognitiven Fähigkeiten korreliert ist. Allerdings besteht auch bei Kontrolle der rückläufigen kognitiven Fähigkeiten ein beträchtlicher Alterseffekt für das Auftreten von Item-Nonresponse fort.
Abstract Item-Nonresponse in a Survey among the Elderly The Impact of Age and Cognitive Resources The elderly are regularly included in surveys among the general population. So far, there are no general objections towards using data obtained from them. However, the methodological literature has pointed out, that the quality of the answers provided by the old and the oldest old is lower compared to the responses from younger respondents. Several reasons are considered for this effect; predominantly the decreasing working memory capacity and the declining cognitive functioning in general are held responsible for this finding. Based
333
Marek Fuchs
on the Berlin Aging Study (BASE), we will assess the impact of working memory capacity and four other dimensions of cognitive functioning on item non-response. Results confirm the literature according to which cognitive functioning declines with age. Also item non-response is correlated with the reduced cognitive functioning among the elderly. However, even when controlling for cognitive functioning a considerable impact of age on item non-response remains visible.
1 Fragestellung und Stand der Forschung Die Alterung in den westlichen Industrienationen führt dazu, dass der Anteil der über 60-jährigen Bevölkerung in den letzten Dekaden sichtbar angestiegen ist und nach den vorliegenden Bevölkerungsprognosen weiter ansteigen wird (z. B. Birg 2003, 2005). Der Anstieg des Anteils der Alten und Hochbetagten1 in der Bevölkerung führt dazu, dass sich die Umfrageforschung einer zusehends älter werdenden Grundgesamtheit gegenübersieht und sich auf die spezifischen Voraussetzungen dieser Menschen als Teilnehmer an standardisierten Befragungen einzustellen hat. Regelmäßig werden alte und hochbetagte Menschen in bevölkerungsrepräsentativen Stichproben befragt, ohne dass grundsätzliche Einwände gegen die Nutzung dieser Methode bei Befragten diesen Alters bestehen würden (Rodgers & Herzog 1987; Alwin, 1999). Neben den Untersuchungen von Alten und Hochbetagten im Rahmen bevölkerungsrepräsentativer Stichproben werden zusehends Spezialuntersuchungen durchgeführt, um die Lebensbedingungen, die politischen Präferenzen, den Gesundheitszustand oder spezifische Bedürfnisse im Bereich Pflege adäquat abbilden zu können (z. B. SHARE: Börsch-Supan & Jürgens & Lipps 2003; Alters-Survey: Tesch-Römer & Wurm & Hoff & Engstler 2002; oder Altenheim-Survey: Klein & Gabler 1996). Im deutschsprachigen Raum hat sich die Methodenforschung bisher schwerpunktmäßig mit dem Feldzugang, der Stichprobenziehung und der Ausschöpfung (Knesebeck 1999; Knesebeck & Hüfken & Dübbert 2001) bei der Befragung von Älteren beschäftigt. Auch wenn keine grundsätzlichen Probleme bei der Nutzung der Daten von alten und hochbetagten Befragten bestehen und z. T. sogar Ergebnisse vorliegen, die eine höhere Validität der Antworten von Älteren belegen (Calahan 1969; Herzog & Dielmann 1985), liegt doch eine Reihe von Befunden vor, die darauf hindeuten, dass der Frage-Antwort-Prozess bei Alten und Hochbetagten im Vergleich zu jüngeren Befragten unterschiedlich abzulaufen scheint (Campbell & Converse & Rod334
Item-Nonresponse in einer Befragung von Alten und Hochbetagten
gers 1976, 237; Andrews & Herzog 1986) und daher zu divergierenden Antworten führt, ohne dass für diese Differenzen ausschließlich substanzielle Unterschiede in den Meinungen, Einstellungen usw. der Befragten verantwortlich gemacht werden könnten. So zeigt eine Studie von Schwarz & Knäuper (1999), dass Befragte über 70 Jahre nicht mehr auf die numerischen Werte einer Ratingskala reagieren, während jüngere Befragte diese numerischen Werte regelmäßig als zusätzliche Information über die Polarität bzw. Dimensionalität der zugrunde liegenden Ratingskala interpretieren und sich daher in ihrem Antwortverhalten vom Wertebereich dieser Zahlen beeinflussen lassen. Zudem zeigt Knäuper (1999) geringere Fragereihenfolgeneffekte bei älteren Befragten – insbesondere bei Personen mit schlechtem Kurzzeitgedächtnis sind diese besonders gering ausgeprägt. Diese Befunde deuten darauf hin, dass die Verarbeitung der einzelnen Fragen des Fragebogens durch die schwindenden kognitiven Fähigkeiten älterer Befragter tangiert wird, so dass diese weniger gründlich bearbeitet und im Fortgang des Fragebogens weniger lange in Erinnerung bleiben. Insgesamt scheinen ältere Befragte aufgrund des geringer ausgeprägten Kurzzeitgedächtnisses die einzelnen Fragen stärker segmentiert und bei geringerer Beachtung des Fragekontextes zu interpretieren (ähnliches konnte für Kinder und Jugendliche nachgewiesen werden, vgl. Fuchs 2005). Mit einer ähnlichen Argumentation wird auch der Anstieg des Item-Nonresponse bei älteren Befragten erklärt (Slymen & Drew & Wright & Elder & Williams 1994; Rodgers & Herzog 1987). Durch rückläufige kognitive Fähigkeiten und insbesondere durch ein Schwinden des Kurzzeitgedächtnisses sind ältere Befragte weniger gut in der Lage, den Frage-AntwortProzess vollständig und optimal (Krosnick 1991) zu durchlaufen, und entsprechend tritt Item-Nonresponce häufiger auf (ähnlich Rakowski & Mor & Hiris 1994). Neben der mit dem Alter abnehmenden Gedächtnisleistung und den allgemein schwindenden kognitiven Fähigkeiten bei älteren Befragten, die für eine weniger gründliche Verarbeitung der einzelnen Fragebogenfragen verantwortlich gemacht werden, nennt Alwin (1999) zwei weitere mögliche Ursachen für den Anstieg des Item-Nonresponse bei älteren Befragten: So wird zum einen eine geringere Motivation akkurat zu antworten unterstellt oder alternativ angenommen, dass ältere Befragte höhere Anforderungen an die Gewissheit einer Antwort stellen, bevor sie diese in einem Umfrageinterview mitteilen. Angesichts dieser heterogenen Erklärungen wollen wir uns im vorliegenden Beitrag mit der Frage beschäftigen, ob tatsächlich die mit steigendem Alter abnehmende Gedächtnisleistung für den Anstieg des Item-Nonre335
Marek Fuchs
sponse verantwortlich gemacht werden kann. Die vorliegenden Untersuchungen zu diesem Thema weisen nämlich je spezifische Mängel auf: So gelingt in den vorliegenden Laborstudien (z. B. Schwarz & Knäuper 1999) zwar eine gründliche Erfassung der jeweiligen kognitiven Fähigkeiten. Jedoch sind diese Studien andererseits von geringen Fallzahlen gekennzeichnet, und zudem kann im Labor häufig das traditionelle Survey-Setting bei der Administration der einzelnen Fragen nicht konsequent aufrechterhalten werden. Von daher bestehen Zweifel, ob die von den Befragten gegebenen Antworten tatsächlich mit den üblicherweise in Umfragen mitgeteilten Antworten vergleichbar sind. Andererseits erlauben die meisten im Feld durchgeführten Surveys von alten und hochbetagten Menschen zwar eine Bestimmung der Qualität von Umfragedaten, die unter realistischen Bedingungen erhoben wurden. Jedoch ist andererseits nur eine begrenzte Messung kognitiver Fähigkeiten möglich, weil – abgesehen von den Kosten – die in Umfragen eingesetzten Interviewer die für eine kognitive Messung notwendigen Tests meist nicht zuverlässig administrieren können bzw. weil die Administration entsprechender Tests für die Befragten nur schwer vermittelbar wäre. Daher wird in Bevölkerungsumfragen jeweils nur mit sehr abgespeckten Varianten kognitiver Tests (z. B. mit dem Minimal Mental Status) oder mit Selbsteinschätzungen operiert. Zudem gilt für die meisten im Feld durchgeführten Querschnittserhebungen, dass diese von spezifischen Nonresponse-Biases und Interviewer-Effekten tangiert sind, so dass der möglicherweise sichtbare Effekt des zunehmenden Alters auf die Datenqualität von diesen anderen Komponenten des Total-Survey-Errors überlagert wird.
2 Methode Für die vorliegenden Analysen werden die Daten der Berliner Altersstudie (BASE) verwendet (Mayer & Baltes 1996), die von 1990 bis 1993 (und zum Teil darüber hinaus bis in die jüngste Vergangenheit) durchgeführt wurde. Einbezogen werden die Daten des Intensivprotokolls von 516 nach Alter und Geschlecht geschichteten Befragten. Jeweils 43 Männer und Frauen in sechs 5-Jahres-Kohorten zwischen 70 und 100 Jahren wurden mit verschiedenen face-to-face administrierten Befragungsmodulen konfrontiert (n = 516) und zudem einer ausführlichen Untersuchung medizinischer und psychologischer Merkmale unterzogen (vgl. ausführlich zur Methode Nuthmann & Wahl 1996). Im Anschluss an die Erstuntersuchung mit Intensivpro336
Item-Nonresponse in einer Befragung von Alten und Hochbetagten
tokoll folgten weitere Wellen. Für unsere Zwecke werden Befragungsmodule aus der ersten Befragungswelle herangezogen, wobei wir uns auf 165 Items stützen, die die in Umfragen häufig verwendeten Fragetypen und Themen repräsentieren. Für jedes Item wurde festgestellt, ob es von Befragten mit einer substanziellen Antwort versehen oder aber mit „weiß nicht“ beantwortet wurde. Diese Ausprägung wurde im Datensatz getrennt von Verweigerungen und anderen Missings separat ausgewiesen. Wegen der im Fragebogen enthaltenen Filterstruktur wurden bei einigen Befragten nicht alle Items administriert, so dass wir für jeden Befragten anstelle der absoluten Anzahl der mit „weiß nicht“ beantworteten Fragen den Anteil der tatsächlich administrierten Fragen ermittelt haben, den dieser mit „weiß nicht“ beantwortet hatte. Alle Items wurden von den Befragten selbst beantwortet; zwar waren z. T. Dritte bei den Befragungen und weiteren Untersuchungen anwesend, jedoch gab es keine Proxy-Antworten im engeren Sinne. Dies ist der Tatsache geschuldet, dass die potenziellen Teilnehmer an der Befragung vor Aufnahme in die Stichprobe daraufhin gescreent wurden, ob sie zur selbständigen Teilnahme an einer Befragung fähig sind. So wurden Personen, die in der Rekrutierungsphase aufgrund körperlicher oder psychischer Beeinträchtigungen als nicht befragbar eingestuft wurden, von der Befragung ausgeschlossen (Nuthmann & Wahl 1996, 69). Als Vorzug der vorliegenden Daten erweist sich, dass 14 Tests zu verschiedenen Dimensionen der kognitiven Fähigkeiten administriert wurden (vgl. Tabelle 1). Aus den Scores der einzelnen Tests wurden von den Primärforschern der BASE-Studie (Reischies & Lindenberger 1996) aggregierte Maße für die fünf gemessenen Dimensionen der kognitiven Fähigkeiten ermittelt, die für die untersuchte Stichprobe jeweils auf einen Mittelwert von 50 und eine Standardabweichung von 10 transformiert, aber nicht altersnormiert wurden. Neben dem Ausmaß der logischen Denkfähigkeit (Reasoning) werden auch die kristalline Intelligenz bzw. Wissen (Knowledge), die Wahrnehmungsgeschwindigkeit (Speed) und das Gedächtnis (Memory) ermittelt sowie die Wortflüssigkeit (Fluency). In Tabelle 1 finden sich kurze Definitionen und eine Aufstellung der administrierten Tests. Alle Maße sind annähernd normal verteilt; allerdings besteht eine nennenswerte Korrelation zwischen den fünf Dimensionen zwischen 0,6 und 0,7 (Reischies & Lindenberger 1996), was sich als Nachteil in den multivariaten Analysen erweist.
337
Marek Fuchs
Tabelle 1: Eingesetzte Messverfahren für die kognitiven Fähigkeiten Kognitive Fähigkeit
Messverfahren
Denkfähigkeit (Reasoning): das Ausmaß der logischen Denkfähigkeit
Buchstabenfolgen, figurale Analogien (Heller & Gaedike & Weinläder 1976), praktische Probleme (Educational Testing Service 1977)
kristalline Intelligenz/Wissen (Knowledge): der Umfang und die Qualität des verbalisierbaren Wissens
HAWIE Wortschatz (Wechsler 1982), Wörter finden (Lehrl 1977), praktisches Wissen (Educational Testing Service 1977)
Wahrnehmungsgeschwindigkeit (Speed): die Schnelligkeit beim Ausführen relativ einfacher Vergleichsoperationen an visuell dargestelltem Material
gleiche Bilder, Zahlen und Buchstaben II (Ekstrom & French & Harman & Derman 1976), Zahlen und Zeichen (Wechsler 1955)
Wortflüssigkeit (Fluency): die Fähigkeit, möglichst viele Wörter einer Kategorie in einem begrenzten Zeitraum zu nennen
Wortanfang mit „S“, Tiere nennen (Reischies & Lindenberger 1996)
Gedächtnis (Memory): die Fähigkeit, sich neue Informationen einzuprägen und sich an sie zu erinnern
Paarverbindungslernen, Aufgaben erinnern, Geschichte erinnern (Engel & Satzger 1990)
Betrachtet man die fünf Maße für die kognitiven Fähigkeiten, so stellt man durchgängig eine hochsignifikante und mittelstarke Korrelation mit dem Lebensalter fest: Sowohl bei der Denkfähigkeit wie bei der kristallinen Intelligenz, beim Gedächtnis, der Wahrnehmungsgeschwindigkeit und bei der Wortflüssigkeit erzielen die 70- bis 75-Jährigen jeweils deutlich höhere Scores (zwischen 56 und 59 Punkten), wohingegen die über 95-Jährigen mit Punktwerten zwischen 43 und 45 jeweils substanziell geringere Werte aufweisen. Angesichts dieser Zusammenhänge stellt sich die Frage, ob dieser Rückgang der kognitiven Fähigkeiten – und insbesondere der Gedächtnisleistung – tatsächlich für den mit dem Alter ansteigenden Item-Nonresponse verantwortlich gemacht werden kann.
338
Item-Nonresponse in einer Befragung von Alten und Hochbetagten
3 Ergebnisse 3.1 Anteil „Weiß nicht“-Antworten nach Alter Durchschnittlich werden von den Befragten 1,8% der administrierten Items nicht inhaltlich, sondern mit „weiß nicht“ beantwortet. Damit liegt dieser Anteil trotz des hohen Alters der Befragten im erwarteten Bereich (z. B. Slymen et al. 1994). Betrachtet man den Zusammenhang zwischen dem Lebensalter der Befragten und dem Item-Nonresponse („weiß nicht“), stellt man eine lineare Zunahme des Anteils von 0,8% bei den 70- bis 75-Jährigen bis zu 3,4% bei den über 95-Jährigen fest (Corr = 0,33, p < 0,001 für die ungruppierten Daten). Besonders ausgeprägt tritt dieser Alterseffekt bei Faktfragen (z. B. nach dem allgemeinen Schulabschluss) auf, bei denen durchschnittlich 4,3% mit „weiß nicht“ beantwortet werden: Während die 70- bis 75-Jährigen Faktfragen zu 2,1% unbeantwortet lassen, steigt der Anteil bis auf 7,4% bei den über 95-Jährigen an (Corr = 0,34, p < 0,001). Demgegenüber findet sich bei Verhaltensfragen (z. B. zur Kirchgangshäufigkeit) kein signifikanter Einfluss des Lebensalters auf den Anteil der unbeantworteten Fragen. Außerdem ist bei diesem Fragetyp der Anteil der unbeantworteten Items mit 0,6% insgesamt sehr niedrig. Anders stellt sich die Situation bei den Einstellungsfragen (z. B. zur gegenwärtigen Lebenszufriedenheit) dar: Hier werden durchschnittlich Tabelle 2: Anteil der mit „weiß nicht“ beantworteten Fragen nach dem Lebensalter (gruppiert) Altersgruppe 86–90 91–95 über 95 Alle
Corr
Eta2
70–75
76–80
81–85
„Weiß nicht“ gesamt
0,8%
0,9%
1,6%
1,7%
2,4%
3,4%
1,8%
0,33*** 0,11***
„Weiß nicht“ Fakten
2,1%
2,2%
3,7%
4,5%
6,2%
7,4%
4,3%
0,34*** 0,12***
„Weiß nicht“ Verhalten
0,5%
0,7%
0,2%
0,5%
0,2%
1,4%
0,6%
0,02
„Weiß nicht“ Einstellungen 0,5%
0,6%
1,1%
1,1%
1,6%
2,6%
1,2%
0,25*** 0,06***
0,02
Anmerkung: Berliner Altersstudie, Erstbefragung, Intensivprotokoll, n = 516, ungewichtete Daten, auf Basis von 165 aus dem Fragebogen ausgewählten sozialwissenschaftlichen Standard-Items. Pearson Corr wurden für die ungruppierten Altersdaten berechnet; Eta2 ist auf Basis der gruppierten Altersdaten ermittelt.
339
Marek Fuchs
1,2% der administrierten Items von den Befragten mit „weiß nicht“ beantwortet – doppelt so viel wie bei den Verhaltensfragen. Zudem lässt sich bei den Einstellungsfragen ein signifikanter Alterseffekt nachweisen, der in einer linearen Zunahme des Anteils der mit „weiß nicht“ beantworteten Fragen von 0,5% bei den 70- bis 75-Jährigen auf 2,6% bei den über 95-Jährigen zum Ausdruck kommt (Corr = 0,25, p < 0,001). Insgesamt zeigt sich eine klar erhöhte Item-Nonresponse-Quote bei den Faktfragen, wohingegen Einstellungsfragen und insbesondere Verhaltensfragen häufiger substanziell beantwortet werden können. Während sich die „Weiß nicht“-Quoten bei den Verhaltens- und Einstellungsfragen nicht signifikant voneinander unterscheiden, differieren beide statistisch gesichert von der entsprechenden Quote bei den Faktfragen (mindestens p < 0,01). Allerdings muss angemerkt werden, dass der Index für den Item-Nonresponse bei den Verhaltensfragen im Vergleich nur auf einer geringen Zahl von Items beruht. Außerdem sind diese Items nur in geringem Umfang auf Verhaltensweisen in der Vergangenheit bezogen, so dass Rückerinnerungsprobleme (die ja zu einem vermehrten Item-Nonresponse bei diesem Fragetype führen können) vermutlich nicht oder nur selten aufgetreten sind.
3.2 Anteil „weiß nicht“-Antworten nach kognitiven Fähigkeiten Die mit dem Alter zurückgehenden kognitiven Fähigkeiten korrelieren hochsignifikant und mittelstark mit dem Anteil der von den Befragten mit „weiß nicht“ beantworteten Fragen. Während in der Gruppe der Befragten mit den geringsten kognitiven Fähigkeiten jeweils Anteile von etwa 3% der Items unbeantwortet bleiben, sinkt der entsprechende Anteil in der Gruppe der Befragten mit gut ausgeprägten kognitiven Fähigkeiten auf deutlich unter 1% ab. Für die kristalline Intelligenz/Wissen (vgl. zu diesem und den folgenden Maßen die Kurzbeschreibungen in Tabelle 1, S. 338), die Wortflüssigkeit und die Wahrnehmungsgeschwindigkeit ist dieser Zusammenhang jeweils am stärksten ausgeprägt (jeweils Corr = –0,39, p < 0,001), wohingegen der Zusammenhang zwischen den Gedächtnisleistungen (Corr = –0,34, p < 0,001) und bei der Denkfähigkeit (Corr = –0,31, p < 0,001) etwas geringer ausfällt. Unabhängig von diesen Unterschieden im Detail bleibt festzuhalten, dass die fünf Dimensionen der kognitiven Fähigkeiten negativ mit dem Item-Nonresponse korrelieren. Wegen des zuvor nachgewiesenen Zusammenhangs zwischen dem Alter und den kognitiven Fähigkeiten ist anzunehmen, dass diese einen Teil des beobachteten Effekts des Lebensalters auf den Item-Nonresponse zu erklären in der Lage sein sollten. Dies soll im Folgenden geprüft werden. 340
Item-Nonresponse in einer Befragung von Alten und Hochbetagten
3.3 Lebensalter, kognitive Fähigkeiten und Item-Nonresponse Betrachten wir zunächst den Zusammenhang zwischen der Gedächtnisleistung, dem Alter und dem Item-Nonresponse, so finden wir bei gleichzeitiger Kontrolle beider Variablen in ihrem Einfluss auf den Item-Nonresponse sowohl für das Alter wie auch für die verschiedenen Grade des Arbeitsgedächtnisses (Memory) signifikante Effekte in der erwarteten Richtung: Während der Effekt für die Gedächtnisleistung auf den Item-Nonresponse –0,33 (p < 0,001) beträgt, lässt sich für Personen mit gering ausgeprägtem Arbeitsgedächtnis ein abgeschwächter, aber immer noch signifikanter Effekt des Alters auf den Anteil der unbeantworteten Fragen nachweisen (Corr = –0,24, p < 0,01). Der Anteil des Item-Nonresponse steigt von 1,6% bei den 70- bis 75-Jährigen auf 4,3% bei den über 95-Jährigen an. Analoge Effekte in fast der gleichen Größenordnung finden wir auch bei Personen, die ein mittelstark ausgeprägtes Arbeitsgedächtnis (Memory) aufweisen (Corr = –0,21, p < 0,01) und bei Personen mit gutem Kurzzeitgedächtnis (Corr = –0,24, p < 0,01). Auch wenn diese Effekte auf unterschiedlichen Niveaus angesiedelt sind – bei den Personen mit niedrigem Arbeitsgedächtnis beträgt der durchschnittliche Nonresponse-Anteil 3,1%, während er bei Personen mit gutem Arbeitsgedächtnis lediglich 0,9% beträgt –, finden wir doch in etwa gleichstarke Alterseffekte in allen drei Gruppen. Damit lässt sich festhalten, dass der beobachtbare Effekt des Alters auf den Item-Nonresponse nicht allein auf die mit dem Alter sinkende Leistungsfähigkeit des Gedächtnisses zurückzuführen ist. Vielmehr bleibt auch bei Kontrolle der Gedächtnisleistung ein nennenswerter Alterseffekt erhalten. Tabelle 3: Item-Nonresponse (alle Fragetypen) bei Kontrolle des Alters (gruppiert) und der Gedächtnisleistung (gruppiert) GedächtAlter (gruppiert) nisleistung 70–75 76–80 81–85 86–90 91–95 über 95 Alle
Corr
Niedrig Mittel Hoch
–0,24** –0,21** –0,24**
Alle corr
1,6 1,1 0,5
2,0 0,8 0,7
2,0 1,5 1,3
0,8 0,9 1,6 –0,32** –0,22* –0,18
2,3 1,6 1,1
3,2 1,5 0,9
4,3 2,5 1,6
3,1 1,4 0,9
1,7 2,4 3,4 1,8 –0,33*** –0,24* –0,30** –0,31** –0,34***
Anmerkung: * p < 0,05; ** p < 0,01; *** p < 0,001. Die Korrelationen wurde auf Basis der ungruppierten Daten berechnet.
Ähnliche Befunde sind auch für die vier anderen Dimensionen der kognitiven Fähigkeiten nachweisbar: Insbesondere bei der kristallinen Intelligenz und 341
Marek Fuchs
bei der Wahrnehmungsgeschwindigkeit finden sich Ergebnisse in etwa der gleichen Größenordnung und Struktur (ohne Tabelle). Auffällig ist hingegen, dass bei der Denkfähigkeit und bei der Wortflüssigkeit der Alterseffekt in der Gruppe der Personen mit stark ausgeprägten kognitiven Fähigkeiten verschwindet. Dies spricht dafür, dass bei Personen mit sehr guter Denkfähigkeit und hoher Wortflüssigkeit der negative Effekt des zunehmenden Lebensalters auf die Datenqualität nicht mehr beobachtbar bzw. in den vorliegenden Daten nicht als signifikant nachweisbar ist. Doch abgesehen von diesen Detailbefunden lässt sich bei Kontrolle der kognitiven Fähigkeiten durchweg ein nach wie vor signifikanter Alterseffekt in den Daten nachweisen. Um den gleichzeitigen Einfluss der fünf Dimensionen der kognitiven Fähigkeiten auf den Anteil des Item-Nonresponse zu ermitteln und um ihr relatives Gewicht zu bestimmen, haben wir für den Gesamtwert für den ItemNonresponse (auf die Ganzzahl gerundeter Prozentwert der mit „Weiß nicht“ beantworteten Fragen) sowie für die drei verschiedenen Fragetypen (Faktfragen, Einstellungsfragen, Verhaltensfragen) jeweils Regressionsmodelle geschätzt (vgl. Tabelle 4), in die wir neben dem Lebensalter auch die Maße für die fünf Dimensionen der kognitiven Fähigkeiten einbezogen haben (alle unabhängigen Variablen sind z-transformiert). Angesichts der beobachteten Abweichungen von der Normalverteilungsannahme bei der abhängigen Variable wurden Poisson-Regressionen berechnet. Tabelle 4: Regressionsmodelle für den Item-Nonresponse unter Berücksichtigung von Lebensalter und kognitiven Fähigkeiten Einstellungsfragen
Verhaltensfragen
Alle Fragen
0,17*** 0,06
0,30*** –0,11
0,05 0,47***
0,22*** –0,01
–0,16*** –0,15*** –0,25***
–0,05 0,09 –0,44***
0,23* –0,54*** –0,28*
–0,10 –0,02 –0,29***
–0,13*** 0,21
–0,20** 0,16
–0,43*** 0,07
–0,17** 0,17
Faktfragen Alter Denkfähigkeit Wahrnehmungsgeschwindigkeit Gedächtnis Wortflüssigkeit Wissen/kristalline Intelligenz Pseudo–R2
Anmerkung: Berliner Altersstudie, Erstbefragung, Intensivprotokoll, n = 516, ungewichtete Daten, auf Basis von 165 aus dem Fragebogen ausgewählten sozialwissenschaftlichen Standard-Items. Ausgewiesen sind Regressionskoeffizienten aus einer Poisson-Regression. * p < 0,05; ** p < 0,01; *** p < 0,001.
342
Item-Nonresponse in einer Befragung von Alten und Hochbetagten
Betrachtet man den Item-Nonresponse für alle Fragetypen zusammen (rechte Spalte), so berechnet sich auch bei Kontrolle der kognitiven Fähigkeiten ein signifikanter Effekt des Lebensalters auf den Item-Nonresponse (der Regressionskoeffizient beträgt 0,2, p < 0,001). Interessanterweise finden wir für die Denkfähigkeit und die Wahrnehmungsgeschwindigkeit sowie für die Gedächtnisleistung keine signifikanten Koeffizienten in dem Model. Lediglich für die kristalline Intelligenz (–0,17, p < 0,01) und für die Wortflüssigkeit (–0,29, p < 0,001) lassen sich signifikante Effekte aufweisen. Insbesondere die Tatsache, dass wir für die Gedächtnisleistung keine signifikanten Einflüsse bei Kontrolle der übrigen Dimensionen der kognitiven Fähigkeiten und des Alters feststellen können, überrascht und widerspricht den in der Literatur dokumentierten Befunden. Eine Differenzierung nach Fragetypen bringt interessante Unterschiede ans Licht: So ergibt sich für die Verhaltensfragen kein zureichendes Regressionsmodell (Pseudo-R2 = 0,07), was aber vermutlich im Wesentlichen auf die geringe Anzahl der Items und damit auf eine vermutlich geringe Stabilität der „Weiß nicht“-Quote zurückzuführen ist (vgl. Kapitel 2). Nach diesem Modell hat die Denkfähigkeit einen stark positiven und das Arbeitsgedächtnis sowie die kristalline Intelligenz/das Wissen einen stark negativen Effekt auf den Non-Response. Die bei den Verhaltensfragen aufgeführten Regressionskoeffizienten sollten angesichts der geringen Modellgüte aber mit großer Vorsicht interpretiert werden. Anders stellt sich die Situation bei den Faktfragen dar: Hier finden wir bei Kontrolle der kognitiven Fähigkeiten einen signifikanten Alterseffekt, der jedoch von nachweisbaren Einflüssen der kristallinen Intelligenz sowie von der Wahrnehmungsgeschwindigkeit und der Wortflüssigkeit in der erwarteten Richtung begleitet wird (Pseudo-R2 = 0,21). Auffällig ist in diesem Modell, dass die Qualität des Kurzzeitgedächtnisses ebenfalls einen signifikant negativen Effekt auf die Höhe des Item-Nonresponse hat. Im Bereich der Einstellungsfragen lässt sich bei Kontrolle der kognitiven Fähigkeiten ebenfalls ein signifikanter Effekt des Lebensalters nachweisen; daneben sind lediglich für die kristalline Intelligenz und die Wortflüssigkeit signifikante Einflüsse sichtbar; das Arbeitsgedächtnis scheint keinen Effekt zu haben. Diese Ergebnisse legen den Schluss nahe, dass die rückläufigen kognitiven Fähigkeiten als Erklärung für das Auftreten von höherem Item-Nonresponse bei älteren Befragten – wenn überhaupt – für die Verhaltensfragen zuzutreffen scheinen. Hier können wir den Alterseffekt bei Kontrolle der kognitiven Fähigkeiten nicht mehr als signifikant nachweisen. Allerdings weist das Modell bei den Verhaltensfragen eine so geringe Güte auf, dass sich die Interpretation der Koeffizienten bei diesem Fragetyp verbietet. 343
Marek Fuchs
4 Diskussion Die vorliegenden Analysen zum Item-Nonresponse beruhen auf den Daten der Berliner Altersstudie – BASE (Mayer & Baltes 1996) und dabei insbesondere auf dem Intensivprotokoll in der Kernstichprobe von 516 nach Alter und Geschlecht geschichteten Befragten zwischen 70 und 100 Jahren. Die durchgeführte Erhebung beinhaltet eine umfassende Messung von fünf Dimensionen der kognitiven Fähigkeiten der Befragten und einen face-to-face administrierten sozialwissenschaftlichen Fragebogen, der eine Fülle von üblicherweise in Umfragen verwendeten Frageformaten und Themen umfasst. 165 Items wurden aus dem Instrument für die vorliegende Analyse ausgewählt. Damit besteht die Möglichkeit, den Einfluss des Alters und der kognitiven Fähigkeiten auf das Ausmaß des Item-Nonresponse zu überprüfen. Ausgangspunkt und Arbeitshypothese für unsere Untersuchung war dabei die Annahme, dass der mit dem Alter steigende Item-Nonresponse im Wesentlichen auf die mit zunehmendem Lebensalter sinkende Kapazität des Gedächtnisses zurückgeführt werden kann. Die Ergebnisse zeigen zunächst den erwarteten Effekt, wonach der ItemNonresponse mit steigendem Lebensalter häufiger auftritt. Auch die kognitiven Fähigkeiten, die mit zunehmendem Lebensalter absinken, haben einen signifikant negativen Effekt auf den Item-Nonresponse: Je geringer ausgeprägt die fünf verschiedenen gemessenen Dimensionen der kognitiven Fähigkeiten – Wissen/kristalline Intelligenz, Denkfähigkeit, Gedächtnis, Wahrnehmungsgeschwindigkeit und Wortflüssigkeit –, desto stärker ausgeprägt ist der Item-Nonresponse. Bei gleichzeitiger Kontrolle von Lebensalter und kognitiven Fähigkeiten finden wir Ergebnisse, die anzeigen, dass zumindest ein Teil des sichtbaren Effekts des Lebensalters auf den Item-Nonresponse tatsächlich durch die rückläufigen kognitiven Fähigkeiten erklärbar ist (der Alterseffekt für den Item-Nonresponse nimmt ab, wenn die verschiedenen Dimensionen der kognitiven Fähigkeiten kontrolliert werden). Allerdings verschwindet der Alterseffekt nicht vollständig, sondern bleibt auch bei Kontrolle der kognitiven Fähigkeiten – wenn auch abgeschwächt – erhalten. Zudem scheint nicht allein die mit dem Alter absinkende Gedächtnisleistung für den Anstieg des Item-Nonresponse verantwortlich zu machen. Vielmehr finden wir in der bi-variaten Betrachtung neben dem Effekt der Gedächtnisleistung auch einen Einfluss der übrigen kognitiven Fähigkeiten, also von Wortflüssigkeit, kristalliner Intelligenz, Wahrnehmungsgeschwindigkeit und Denkfähigkeit auf den Item-Nonresponse. 344
Item-Nonresponse in einer Befragung von Alten und Hochbetagten
Allerdings ist zu berücksichtigen, dass die einzelnen Dimensionen der kognitiven Fähigkeiten nicht sehr trennscharf gemessen wurden, so dass also jeder Score für die einzelnen Dimensionen zugleich auch in erheblichem Umfang „Fremddimensionen“ enthält. Eine genauere Analyse der Daten mit Hilfe von Regressionsmodellen verdeutlicht, dass der Kapazität des Arbeitsgedächtnisses bei Kontrolle der übrigen kognitiven Fähigkeiten nur bei den Faktfragen ein Effekt auf den Item-Nonresponse zukommt (und bei den Verhaltensfragen; aber dieses Ergebnis ist wegen der geringen Modellgüte von geringer Qualität). Bei den Einstellungsfragen und bei der Zusammenfassenden Betrachtung ohne Differenzierung nach Fragetyp gibt es hingegen keinen signifikanten Effekt des Gedächtnisses. Damit erscheint die in der Literatur vertretene These, wonach mit steigendem Alter insbesondere das rückläufige Arbeitsgedächtnis für die geringere Datenqualität verantwortlich gemacht wird, zumindest zweifelhaft. Nach den Befunden der Regressionsanalyse sind es – neben dem Alter der Befragten, das nach wie vor einen Effekt hat – vor allem die kristalline Intelligenz sowie die Wortflüssigkeit, die durchgängig negativ auf den Item-Nonresponse von Alten und Hochbetagten bei Fakt- und Einstellungsfragen einwirken (bei den Faktfragen kommt noch die Wahrnehmungsgeschwindigkeit hinzu). Damit soll der Einfluss der mit dem Alter sinkenden kognitiven Fähigkeiten auf die Datenqualität nicht grundsätzlich in Frage gestellt werden und es soll ebenfalls nicht bestritten werden, dass ein Teil des Alterseffekts bei der Datenqualität durch den Rückgang jener kognitiver Fähigkeiten hervorgerufen wird. Jedoch werfen die vorliegenden Befunde die Frage auf, ob es tatsächlich das Arbeitsgedächtnis ist, dem der größte Einfluss bei der Erklärung dieses Alterseffekts zugemessen werden muss. Die Befunde regen zu der Vermutung an, dass nicht alle Phasen des Frage-Antwort-Prozesses (z. B. Sudman & Bradburn & Schwarz 1996, 58)2 in gleicher Weise durch den Rückgang der kognitiven Fähigkeiten tangiert werden. Die Bedeutung der Wortflüssigkeit legt den Schluss nahe, dass es vor allem die Stufe des Formatierens bzw. Berichtens der Antwort ist, in der die Befragten aufgrund mangelnder Wortflüssigkeit Probleme haben. Dass zudem die kristalline Intelligenz/das Wissen negativ mit dem Item-Nonresponse korreliert, lässt zwei verschiedene Interpretationen zu: Einerseits ist denkbar, dass den Befragten tatsächlich die substanziellen Kenntnisse zur Beantwortung der Fragen fehlen; andererseits kann das Problem aber auch schon beim Frageverständnis entstehen, weil die notwendigen Wissensbestände bei der Dekodierung und Interpretation der Fragen nicht oder nur eingeschränkt zur Verfügung stehen. Die Tatsache, dass das Arbeitsgedächtnis den Nonresponse bei den Faktfragen mitbestimmt, nicht aber bei den 345
Marek Fuchs
Einstellungsfragen, deutet darauf hin, dass es weniger die aufgrund der mangelnden Gedächtnisleistung eingeschränkte Fähigkeit der alten und hochbetagten Befragte ist, sich den Fragetext zu merken, als vielmehr die geringer werdende Fähigkeit, die zur Beantwortung der Fragen erforderlichen Fakten und Tatsachen zu erinnern. Denn während die Antworten zu Faktfragen tatsächlich erinnert werden müssen, können die Reaktionen auf Einstellungsfragen auch situativ generiert werden. Einschränkend soll angemerkt werden, dass die vorliegenden Daten in mancherlei Hinsicht nur von begrenzter Aussagekraft sind: So ist zunächst anzumerken, dass die fünf Dimensionen der kognitiven Fähigkeiten zwar einzeln sehr gründlich durch zwei bis drei Standardtests erhoben wurden, dass aber andererseits starke Co-Varianzen zwischen den fünf Dimensionen bestehen, die Zweifel an der Trennschärfe der im einzelnen verwendeten Indikatoren aufkommen (vgl. hierzu auch schon die Analysen von Reischies & Lindenberger 1996) und die Ergebnisse der hier präsentierten Regressionen wegen der Multikolliniarität als potenziell problematisch erscheinen lassen. Außerdem ist zu bedenken, dass die Stichprobe mit 516 Befragten vergleichsweise klein ist und dass die Teilnehmer vor Beginn der Untersuchung auf Ihre Fähigkeit hin gescreent wurden (vgl. die Ausführungen in Kapitel 2), an einer Befragung teilzunehmen, was bei der Generalisierung der Befunde zu bedenken ist. In unseren weiteren Arbeiten mit den vorliegenden Daten wollen wir insbesondere die individuelle Entwicklung der kognitiven Fähigkeiten im Zeitverlauf mit der Entwicklung der Datenqualität in Beziehung setzen. Dazu wollen wir die Daten aus den weiteren Wellen der BASE-Studie heranziehen, deren Panel-Design uns die Voraussetzungen für eine solche Analyse bietet. Außerdem wollen wir neben dem Item-Nonresponse weitere Indikatoren für die Datenqualität heranziehen, wozu insbesondere die Nutzung einer „Short Scale“ (einer vereinfachten Antwortskala bei Fragen mit mehrstufigem Antwortkontinuum) gehört sowie die Maße für den Extremity-Bias (z. B. Greenleaf 1992) und für den Degree of Differentiation (McCarty & Shrum 2000). Doch können auch mit diesen weiteren Maßen für die Datenqualität die einzelnen Phasen des Frage-Antwort-Prozesses nur unzureichend abgebildet werden. Daher wäre die Durchführung von Split-Experimenten in einem Survey-Setting zu wünschen, deren Ergebnisse bei altersdifferenzierter Betrachtung und bei Kontrolle der gründlich zu messenden kognitiven Fähigkeiten Rückschlüsse auf altersbedingte Veränderungen einzelner Phasen des Frage-Antwort-Prozesses zulassen würden. Von großer Bedeutung sind im Zusammenhang mit dem Einfluss des Lebensalters auf die Datenqualität auch Interviewereffekte. In der Literatur ist 346
Item-Nonresponse in einer Befragung von Alten und Hochbetagten
gut dokumentiert, dass soziodemografische und soziokulturelle Merkmale des Interviewers in Interaktion mit den entsprechenden Merkmalen des Befragten zu erheblichen Verzerrungen in den Daten führen können (FloresMarcias & Lawson 2008; Mensch & Kandel 1988). Mit Blick auf den ItemNonresponse bleibt daher zu fragen, zu welchem Anteil die unterschiedlichen „Weiß nicht“-Anteile auf spezifische Stile oder Eigentümlichkeiten der im Interview im Einzelnen eingesetzten Interviewer zurückzuführen sind. Weitere Forschungen in diesem Bereich scheinen unabdingbar, um in einer zunehmend alternden Gesellschaft der älter werdenden Population mit angemessenen Messverfahren gegenübertreten zu können und um zu verhindern, dass spezifische Messfehler bei Alten und Hochbetagten ignoriert oder als kohortenspezifische substanzielle Antworten und damit u. U. als substanzielle Unterschiede zwischen alten und jungen Befragten interpretiert werden.
Anmerkungen *
Ich danke David Spindeler und Arne Hendrik Schulz für ihre Zuarbeiten bei der Datenaufbereitung. 1 Als hochbetagt gelten Personen über 90 Jahre; als alt werden nach verschiedenen Abgrenzungen entweder Personen ab 60, 65 oder 70 Jahre bezeichnet. Die hier vorgelegte Analyse bezieht sich auf Personen ab 70 Jahre. 2 Der Frage-Antwort-Prozess besteht nach einem gängigen Modell aus 4 Phasen: Der Befragte muss die Frage verstehen, eine Antwort generieren, die Antwort formatieren und seine Antwort ggf. editieren (Sudman et al. 1996, 58 ff.).
Literatur Alwin, D. F. (1999). Aging and error of measurement: implications for the study of lifespan development. In N. Schwarz & D. C. Park & B. Knäuper & S. Sudman (Eds.), Cognition, aging, and self-reports (365–385). Philadelphia: Psychology Press Ltd. Andrews, F. M., & Herzog, R. A. (1986). The quality of survey data as related to age of the respondent. Journal of the American Statistical Association, 81, 403–410. Birg, H. (2003). Dynamik der demographischen Alterung, Bevölkerungsschrumpfung und Zuwanderung in Deutschland – Prognosen und Auswirkungen. Aus Politik und Zeitgeschichte, 20, 6–17. Birg, H., (2005). Langfristige Trends der demographischen Alterung in Deutschland. In A. M. Raem et al.(Hg.), Handbuch der Geriatrie (63–72). Düsseldorf: Deutsche Krankenhaus Verlags-Gesellschaft. Börsch-Supan, A., & Jürgens, H., & Lipps, J. (2003). SHARE – Measuring the aging process in Europe. ZUMA Nachrichten, 27, 96–113.
347
Marek Fuchs Calahan, D. (1969). Correlates of respondent accuracy in the Denver validity survey. Public Opinion Quarterly, 32, 607–621. Campbell, A., & Converse P. E., & Rodgers L. W. (1976). The quality of American life: perceptions, evaluations and satisfactions. New York: Russell Sage Foundation. Educational Testing Service (ETS) (1977). Reading: basic skills assessment program. Menlo Park, CA: Addison-Wesley. Ekstrom, R. B., & French, J. W., & Harman, M. M., & Derman, D. (1976). Manual of the fit of factor-reference cognitive tests. Princton, NJ: Educational Testing Service. Engel, R. R., & Satzger W. (1990). Kompendium alterssensitiver Leistungstests. München: Psychiatrische Klinik der Universität München. Flores-Macias, F., & Lawson, C. (2008). Effects of interviewer gender on survey responses: findings from a household survey in Mexico. International Journal of Public Opinion Research, 20, 100–110. Fuchs, M. (2005). Children and adolescents as respondents. Experiments on question order, response order, scale effects and the effect of numeric values associated with response options. Journal of Official Statistics, 21, 701–725. Greenleaf, E. A. (1992). Measuring extreme response style. Public Opinion Quarterly, 56, 328–351. Heller, K., & Gaedike, A-K., & Weinläder, H. (1976). Kognitiver Fähigkeits-Test (KFT). Weinheim: Beltz. Herzog, A. R., & Dielmann, L. (1985). Age differences in response accuracy for factual survey questions. Journal of Gerontology, 40, 350–357. Klein, T., & Gabler, S. (1996). Der Altenheimsurvey: Durchführung und Repräsentativität einer Befragung in den Einrichtungen der stationären Altenhilfe. ZUMA Nachrichten, 20, 112–134. Knäuper, B. (1999). The impact of age and education on response order effects in attitude measurement. Public Opinion Quarterly, 63, 349–370. Knesebeck, O. v. d. (1998). Telefonische Befragungen bei alten Menschen: Ausschöpfung, Kontakthäufigkeit und Verweigerungen. ZA-Informationen, 43, 32–47. Knesebeck, O. v. d., & Hüfken, V., & Dübbert, P. (2001). Stichprobenrealisierung bei einer bundesweiten telefonischen Befragung alter Menschen. ZUMA Nachrichten, 25, 67–84. Krosnick, J. A. (1991). Response strategies for coping with the cognitive demands of attitude measures in surveys. Applied Cognitive Psychology, 5, 213–236. Lehrl, S. (1977). Manual zum Mehrfachwahl-Wortschatz-Test MW-B. Erlangen: Straube. Mayer, K. U., & Baltes, P. B. (1996). Die Berliner Altersstudie. Berlin: Akademie Verlag. McCarty, J. A., & Shrum (2000). The measurement of personal values in survey research. A test of alternative rating procedures. Public Opinion Quarterly, 64, 271–298.
348
Item-Nonresponse in einer Befragung von Alten und Hochbetagten Mensch, B. S., & Kandel, D. B. (1988). Underreporting of substance use in a national longitudinal youth cohort: Individual and interviewer effects. Public Opinion Quarterly, 52, 100–124. Nuthmann, R., & Wahl, H.-W. (1996). Methodische Aspekte der Erhebungen der Berliner Altersstudie. In K. U. Mayer, & P. B. Baltes (Hg.), Die Berliner Altersstudie (55–83). Berlin: Akademie Verlag. Rakowski, W., & Mor, V., & Hiris, J. (1994). An investigation of nonresponse to self-assessments of health by older persons associations with mortality. Journal of Aging and Health, 6, 469–488. Reischies, F. M., & Lindenberger, U. (1996). Grenzen und Potentiale kognitiver Leistungsfähigkeit im Alter. In K. U. Mayer & P. B. Baltes (Hg.), Die Berliner Altersstudie (351–377). Berlin: Akademie Verlag. Rodgers, L. W., & Herzog, A. R. (1987). Interviewing older adults. The accuracy of factual information. Journal of Gerontology, 42, 389–394. Schwarz, N. (1999). Self-reports of behaviors and opinions: cognitive and communicative processes. In N. Schwarz & D. C. Park & B. Knauper & S. Sudman (Eds.), Cognition, aging and self-reports (17–43). Philadelphia: Psychology Press Ltd. Schwarz, N., & Knäuper, B. (1999). Cognition, aging, and self-reports. In N. Schwarz & D. C. Park (Eds.), Cognitive Aging: A Primer (233–253). Philadelphia: Psychology Press. Slymen, D. J., & Drew, J. A., & Wright, B. L., & Elder, J. P., & Williams, S. J. (1994). Item non-response to lifestyle assessment in an elderly kohort. International Journal of Epidemiology, 23, 583–591. Sudman, S., & Bradburn, N., & Schwarz, N. (1996). Thinking about answers. The application of cognitive processes to survey methodology. San Francisco: Jossey-Bass. Tesch-Römer, C., & Wurm, S., & Hoff, A., & Engstler, H. (2002). Alterssozialberichterstattung im Längsschnitt: Die zweite Welle des Alterssurveys. In A. Motel-Klingebiel & U. Kelle (Hg.), Perspektiven der empirischen Alter(n)ssoziologie (155–189). Opladen: Leske + Budrich. Wechsler, D. (1955). Wechsler adult intelligence scale manual. New York: Psychological Association. Wechsler, D. (1982). Handanweisung zum Hamburg-Wechsler-Intelligenztest für Erwachsene (HAWIE). Bern: Huber.
349
5 Herausforderungen der Großforschung
Anja Kettner, Michael Stops
Anja Kettner, Michael Stops
Europäische Betriebsbefragungen über offene Stellen: Ist das Gleiche wirklich gleich? Zusammenfassung Informationen über die Zahl der offenen Stellen und ihre Struktur sind für die Arbeitsmarktforschung von hoher Relevanz. Seit einiger Zeit veröffentlicht die Europäische Kommission (EUROSTAT) Daten für einen Teil der europäischen Länder. Ein genauer Blick auf diese Daten zeigt allerdings, dass sie für Vergleiche nationaler Arbeitsmärkte und nationaler Arbeitsmarktpolitiken derzeit kaum geeignet sind. Nicht nur die statistischen Definitionen und eingesetzten Methoden unterscheiden sich beträchtlich, auch die Qualität der erhobenen Daten muss für einen Teil der Länder angezweifelt werden. Die Hauptursachen dürften in den hohen Kosten von repräsentativen Befragungen sowie in der fehlenden Qualitätsprüfung auf nationaler Ebene liegen. Das vorliegende Papier präsentiert die jüngsten Entwicklungen bei der Erfassung des Arbeitskräftebedarfs in Europa und klärt über Schwächen des verfügbaren Datenmaterials anhand von Beispielen auf.
Abstract On the Comparability of European Job Vacancy Surveys Data on open job vacancies are highly relevant for labour market research. Recently they have been published by the European Commission (EUROSTAT) for most European countries. The data are usually collected by business surveys. A closer look at them shows that at the present an international comparison of vacancy data or even their interpretation with regard to national labour market policies does not stand on a reliable base. The statistical delimitations and methods are very different; in some cases the data quality must be doubted. One reason lies in the tremendous costs of these surveys. Another one is the lack of quality measurement at national level. This paper shows the progress done with national job vacancy statistics in Europe and explains the weaknesses of the available data material on the basis of examples.
353
Anja Kettner, Michael Stops
1 Einleitung Im Juli 2006 überschrieb ein Wirtschaftsforschungsinstitut einen Artikel mit „Offene Stellen – Ein deutsches Problem“ (IW 2006). Ein Vergleich der Vakanzraten von 13 europäischen Ländern zeigte für Deutschland die höchste Vakanzrate mit 3,2 Prozent. Sie war damit mehr als sechs Mal so hoch wie die jeweiligen Raten von Frankreich und Portugal und anderthalbfach so hoch wie die Rate von Großbritannien. Die Vakanzrate bezeichnet das Verhältnis zwischen der Zahl der offenen Stellen (hier bezeichnet mit Vakanzen) und der gesamten Arbeitsnachfrage, die sich aus der Summe von Beschäftigten und Vakanzen ergibt. Das Ergebnis des Vergleichs wurde von den Autoren als ein Signal für die Ineffizienz der deutschen Arbeitsvermittlung und für eine zu geringe Motivation von Langzeitarbeitslosen und älteren Arbeitnehmern in Deutschland gewertet. Nirgendwo sonst in Europa gäbe es mehr offene Stellen bei gleichzeitig hoher Arbeitslosigkeit. Ein genauer Blick auf die verwendeten Daten zeigt jedoch, dass ein solch einfacher Vergleich keine fundierten Aussagen zulässt. Zwar veröffentlicht EUROSTAT, das statistische Amt der Europäischen Kommission, seit einigen Jahren die Zahl der Vakanzen und die Vakanzraten für eine zunehmende Anzahl von Ländern. Jedoch sind diese Daten zum jetzigen Zeitpunkt nur bedingt vergleichbar. Die Definition einer Vakanz, die Art der Datenerfassung sowie ihre Reichweite hinsichtlich der einbezogenen Wirtschaftssektoren und Betriebe, die Methoden der Stichprobenziehung, Hochrechnung und Fehlerrechnung sowie ganz praktische Aspekte bei der Datenerhebung unterscheiden sich beträchtlich. Zudem erfordert die Interpretation von Vakanzdaten insbesondere im internationalen Vergleich die Berücksichtigung der Besonderheiten der nationalen Arbeitsmärkte und der jeweiligen Arbeitsmarktpolitik. Im folgenden Abschnitt erläutern wir zunächst die Bedeutung valider Vakanzdaten für die Interpretation der Funktionsweise von Arbeitsmärkten. Abschnitt 3 beschreibt, warum die Erhebung entsprechender Daten in den meisten europäischen Ländern erst kürzlich begann, welche unterschiedlichen Wege die europäischen Länder dabei gehen und wie die verfügbaren Daten veröffentlicht werden. In Abschnitt 4 erklären wir relevante Unterschiede zwischen den nationalen Erhebungen und diskutieren ihre Konsequenzen anhand von Beispielen. Abschnitt 5 zeigt, welche zusätzlichen Informationen notwendig sind, um Vakanzdaten interpretieren zu können. 354
Europäische Betriebsbefragungen über offene Stellen: Ist das Gleiche wirklich gleich?
2 Ökonomische Forschung und Vakanzdaten 2.1 Matchingfunktionen und Beveridgekurven Für das Verständnis der Funktionsweise des Arbeitsmarktes sind detaillierte Informationen über die Angebots- und die Nachfrageseite des Arbeitsmarktes notwendig. Das Arbeitsangebot besteht aus der Zahl der beschäftigten Arbeitnehmer und der Arbeitslosen (Blanchard & Diamond 1989). Sie sind in den amtlichen nationalen Statistiken detailliert erfasst. Die Arbeitsnachfrage besteht aus der Zahl der beschäftigten Arbeitnehmer und der Zahl der Vakanzen. Die Vakanzen werden auch als ungedeckte Arbeitsnachfrage bezeichnet. Es handelt sich um Stellen, für die Betriebe die Einstellung einer Person planen und für die sie nach Kandidaten suchen (NBER 1966; Muysken 1994). Die Stellen können neu geschaffen werden oder bereits vorhanden und noch von einer anderen Mitarbeiterin oder einem anderen Mitarbeiter besetzt sein. Vollständige Daten über die Zahl der Vakanzen waren bislang in den amtlichen nationalen Statistiken nicht verfügbar. In der ökonomischen Forschung sind Vakanzen und Arbeitslose die Haupteinflussfaktoren in aggregierten Matchingfunktionen (vgl. Übersichten zu Theorie und Empirie von Matchingfunktionen z. B. in Petrongolo & Pissarides 2001; Shimer 2007; Yashiv 2007). Demnach hängt die Zahl der Neueinstellungen (Matches) M zu einem bestimmten Zeitpunkt von einer Matchingfunktion m(.) ab, in die Vakanzen V und Arbeitslose U als wichtigste erklärende Variablen einfließen. Zusätzlich wird die Wahrscheinlichkeit, dass eine Vakanz besetzt wird und ein Arbeitsloser eine neue Beschäftigung findet, damit auch die Dauer der Vakanz und der Arbeitslosigkeit durch das Suchverhalten von Arbeitslosen und Betrieben sowie durch die Eigenschaften der zu besetzenden Stelle und die allgemeine ökonomische Situation beeinflusst. Die Qualität der Matches kann mit Hilfe der Beveridgekurve untersucht werden (Layard & Nickel & Jackman 2005; Blanchard 2006). Arbeitslosenund Vakanzraten gleicher Stichtage werden dabei gegeneinander abgetragen und in chronologischer Reihenfolge miteinander verbunden (vgl. auch den folgenden Abschnitt). In der Vergangenheit wurde in den meisten europäischen Ländern eine Rechtsverschiebung der Beveridgekurve beobachtet: Die Arbeitslosenraten haben in der Tendenz zugenommen, während die Vakanzraten zeitweise gestiegen und zeitweise gesunken sind. Die langfristige Verschiebung deutet auf einen langsamer bzw. ineffizienter ablaufenden Matchingprozess hin. Ökonomen versuchen zu bestimmen, ob die Ursache 355
Anja Kettner, Michael Stops
in einem zunehmenden Mismatch zwischen Arbeitsnachfrage und Arbeitsangebot liegt, beispielsweise bedingt durch Unterschiede zwischen nachgefragten und angebotenen Qualifikationen, oder ob andere Gründe, wie die Ausgestaltung staatlicher Transferzahlungen, dafür verantwortlich sind (Petrongolo & Pissarides 2001). Hinter den empirischen Arbeiten über Matching-Funktionen und Beveridgekurven verbirgt sich ein bedeutendes Problem:
2.2 Bisher: Beschränkung der Forschung durch unvollständige Vakanzdaten Die meisten empirischen Analysen verwenden nicht die gesamte Zahl der Vakanzen, sondern nur den Anteil, den Unternehmen bei der öffentlichen Arbeitsverwaltung gemeldet haben. Über diese gemeldeten Stellen liegen umfangreiche Daten auf Monatsbasis vor, während es in den meisten Ländern in der Vergangenheit keine Daten über die Gesamtzahl der Stellenangebote gab (siehe Abschnitt 3). Damit bleibt in den empirischen Arbeiten ein großer Teil der ungedeckten Arbeitsnachfrage – die nicht gemeldeten Stellen – unberücksichtigt. Die Zahl der gemeldeten Stellen hängt vom Meldeverhalten der Betriebe ab. Es unterscheidet sich zwischen Sektoren und Regionen und verändert sich über die Zeit hinweg (Yashiv 2000; Jackman & Layard & Pissarides 1989; Kettner & Spitznagel 2008). In vielen Ländern sind die Betriebe nicht verpflichtet, ihre offenen Stellen zu melden. Aber auch wenn sie verpflichtet sind, darf bezweifelt werden, ob sie es in jedem Falle tun, insbesondere dann, wenn sie informelle Wege der Bewerbersuche gehen wollen. Die Zahl der gemeldeten offenen Stellen ist keineswegs repräsentativ für alle offenen Stellen. Abbildung 1 zeigt die Beveridgekurven für West- und Ostdeutschland. Dabei sind die einfließenden Vakanzraten zum einen auf Basis der Zahl aller Vakanzen1 berechnet (durchgezogene Kurve), zum anderen sind sie berechnet auf Basis der gemeldeten Vakanzen (gestrichelte Kurve). Abb 01 Alle Kurven zeigen eine typische Schleifenform, die durch konjunkturelle Einflüsse erklärt werden kann (Börsch-Supan 1991). Abhängig von der verwendeten Vakanzrate (auf Basis aller Vakanzen oder nur auf Basis der gemeldeten Vakanzen) zeigen sich jedoch beachtliche Unterschiede hinsichtlich Lage und Steigung der Kurve. Damit stellt sich die Frage, inwieweit sich die Ergebnisse ökonomischer Studien, die nur die gemeldeten Vakanzen berücksichtigen, verändern, wenn sie stattdessen die Zahl aller Vakanzen verwendeten: 356
Europäische Betriebsbefragungen über offene Stellen: Ist das Gleiche wirklich gleich?
Abbildung 1a und 1b: Beveridge-Kurven für (a) West- und (b) Ostdeutschland 1995–2007, jeweils 4. Quartal. Durchgezogene Kurve: alle Vakanzen berücksichtigt, gestrichelte Kurve: nur gemeldete Vakanzen berücksichtigt 4,5 2000
4,0 2006 2007
3,5
1999
2005
Vakanzrate in %
2001
1998
3,0
2002
2003
2,5
1997
1995
1996 2004
2,0 2007
2006
1,5
2000 1999 2001
2005
1998
2002
1,0
1995
1997 1996
2003 2004
0,5 0,0 7,0
7,5
8,0
8,5
9,0
9,5
10,0 10,5 11,0
Arbeitslosenrate in %
1a) Westdeutschland 5,0 2006
4,5 4,0 2007
Vakanzrate in %
3,5 3,0
1998 1995
1996 2000
2001
2,0 1,5
2002 2003
2006
2004
2007 1998
1,0 0,5
2005
1999
1997
2,5
2005 1999 2001
1997
2000 1995
1996
2002 2003 2004
0,0 13,0 14,0 15,0 16,0 17,0 18,0 19,0 20,0 21,0 Arbeitslosenrate in %
1b) Ostdeutschland Quelle: IAB-Erhebung des gesamtwirtschaftlichen Stellenangebotes 1995–2007, Statistik der Bundesagentur für Arbeit2
357
Anja Kettner, Michael Stops
Betriebe treffen eine Entscheidung, welche Stellen sie der öffentlichen Arbeitsvermittlung melden und welche nicht. Beispielsweise zeigt die deutsche Erhebung des gesamtwirtschaftlichen Stellenangebots, in der alle Stellenangebote erfasst sind, dass während der vergangenen drei Jahre die Meldequote der sofort zu besetzenden Stellen für Geringqualifizierte bei über 70 Prozent lag, bei den Stellen für Akademiker betrug sie dagegen nur 35 Prozent. Unter den Arbeitslosen haben ca. 38 Prozent keine Berufsausbildung3; bei den Langzeitarbeitslosen ist der Anteil noch höher. Betriebe können also davon ausgehen, dass sie unter den registrierten Arbeitslosen seltener hoch qualifizierte Bewerber finden. Sie schätzen bei höheren Qualifikationen deshalb andere Rekrutierungswege – beispielsweise die Bewerbersuche per Internet oder durch Stellenanzeigen in Zeitungen – als effizienter ein. Wenn aber Betriebe der öffentlichen Vermittlung vor allem Stellen mit niedrigerem Qualifikationsniveau melden und es gleichzeitig unter den Arbeitslosen einen hohen Anteil niedriger Qualifikationen gibt, so ergibt sich in Matchingfunktionen, die nur die gemeldeten Stellen berücksichtigen, eine große Zahl von Matches bzw. eine hohe Matchingrate. In abgeleiteten Beveridgekurven zeigt sich dann beispielsweise kein oder nur ein geringer Einfluss eines qualifikationsbedingten Mismatches zwischen Arbeitsangebot und Arbeitsnachfrage. Einige Autoren versuchen, die Zahl der gemeldeten Stellen durch die Nutzung von Daten über erfolgte Neueinstellungen zu korrigieren (Jackmann & Layard & Pissarides 1989 für Großbritannien; Franz & Smolny 1994 für Deutschland). Jedoch ist das Verhältnis zwischen Neueinstellungen und Vakanzen solange unbekannt, solange man nicht weiß, wie hoch die Zahl der Vakanzen ist. Nicht jede Vakanz führt zu einer Neueinstellung, zum Beispiel wenn kein passender Bewerber gefunden werden kann oder wenn es während der Bewerbersuche zu inner- oder außerbetrieblichen Veränderungen kommt, die zum Abbruch der Bewerbersuche und zum Streichen der Vakanz führen. Der wesentliche Grund für diese Restriktionen in der empirischen Arbeit liegt in der Nichtverfügbarkeit von Daten über das gesamte Stellenangebot. Blanchard schrieb dazu: „It has proven hard to learn much from the shifts in the Beveridge curve across countries; one reason may be that data on vacancies are often of poor quality . . .“ (Blanchard 2006, 30). Der folgende Abschnitt beschreibt, warum entsprechende Daten in der Vergangenheit kaum verfügbar waren und welche Fortschritte die Europäischen Länder derzeit bei der Erhebung und Veröffentlichung solcher Daten machen. 358
Europäische Betriebsbefragungen über offene Stellen: Ist das Gleiche wirklich gleich?
3 Die Entwicklung von Stellenangebotserhebungen in Europa 3.1 Die Vergangenheit In den 1960er Jahren herrschte in Europa nahezu Vollbeschäftigung und die Frage, wie Arbeitslose wieder eine Beschäftigung finden können, hatte eher geringe Bedeutung. In den westeuropäischen Ländern wurden Daten über die gemeldeten offenen Stellen gesammelt, Informationen über Zahl und Struktur des gesamten Stellenangebots gab es dagegen nicht (NBER 1966). Mit Beginn der 1970er Jahre ging die industrielle Massenfertigung in Europa zurück, gefolgt von hohen Arbeitslosenraten, insbesondere bei Personen mit niedriger Qualifikation. Auch die durchschnittliche Dauer der Arbeitslosigkeit nahm zu. Ende der 1980er nahm aufgrund der weltpolitischen Veränderungen der internationale Lohnwettbewerb weiter zu und verlangte strukturelle Veränderungen in den europäischen Ländern. Nahezu überall waren die 1990er Jahre durch hohe Arbeitslosenraten und eine gleichzeitig schwache wirtschaftliche Entwicklung gekennzeichnet. Eine zentrale Frage war und ist noch immer: Wie groß ist der gesamtwirtschaftliche Arbeitskräftebedarf, welche Struktur hat er (hinsichtlich der Qualifikationen, Berufe, Regionen), und wie wird er sich weiter entwickeln? Wie kann es gelingen, Arbeitslose und offene Stellen passend und schnell zusammen zu bringen? In welche Qualifizierungsmaßnahmen muss die öffentliche Arbeitsverwaltung bei den Arbeitslosen investieren? Um diese Fragen beantworten zu können, müssen Ökonomen den Arbeitsmarkt unter Berücksichtigung beider Marktseiten, also des Arbeitsangebots und der Arbeitsnachfrage, analysieren. Jedoch sammelten noch Mitte der 1990er Jahre nur wenige Länder Daten über die gesamte ungedeckte Arbeitsnachfrage (bspw. die Niederlande bereits seit 1976 oder Deutschland seit 1989). Zunehmend wurde die mangelnde Repräsentativität der gemeldeten Stellen für die gesamte ungedeckte Arbeitsnachfrage diskutiert. So hat sich das Internet als eine neue und preiswerte Möglichkeit für die Personalsuche entwickelt, während die traditionellen Suchwege, wie auch die Einschaltung der öffentlichen Vermittlungseinrichtungen, weniger genutzt wurden.
359
Anja Kettner, Michael Stops
3.2 Die aktuelle Entwicklung Nach langer Vorarbeit einigten sich die Europäischen Länder im März 2002 auf das Ziel, vierteljährlich nationale Daten über die Zahl der Vakanzen und die Vakanzraten zur Verfügung zu stellen. Dafür sollten neue Betriebsbefragungen implementiert, bestehende Befragungen erweitert oder administrative Datenquellen genutzt werden. Eine neu gegründete Task-Force entwickelte eine Definition für Vakanzen und diskutierte das notwendige Aggregationsniveau der Daten. Dies war nicht trivial, da die Vorstellungen der Europäischen Kommission und der Europäischen Zentralbank hinsichtlich der Gliederung nach Sektoren, Berufen und Regionen weit über das hinausgingen, was die Länder als machbar ansahen. Betriebsbefragungen über offene Stellen sind sehr kostenintensiv, denn nur ein geringer Teil aller befragten Betriebe hat zum Befragungszeitpunkt eine oder mehrere offene Stellen. Für die Hochrechnung auf die Gesamtwirtschaft müssen deshalb ausreichend viele Betriebe befragt werden. Je größer die geplante Disaggregation der Daten ist, desto größer sind die Befragungskosten. Kosten-Nutzen-Analysen zeigten, wie viel eine zusätzliche Frage an die Betriebe kosten würde. So müssten beispielsweise zwei statt einer Frage gestellt werden, wenn man die offenen Stellen nach befristeten und unbefristeten Stellenangeboten unterscheiden möchte. Außerdem wurde ermittelt, in welchem Maße die Kosten steigen würden, wenn Fragen zu Berufen eingeführt würden und wenn die Daten unterteilt nach Regionen ausgewiesen werden müssten. So kam es letztlich zu einer Einigung der europäischen Länder darüber, die Zahl der Vakanzen und die Vakanzraten für 21 Wirtschaftssektoren (NACE Rev. 2) nach zwei Größenklassen (weniger als 10 Beschäftigte, 10 und mehr) auszuweisen. Die Disaggregation nach Regionen und Berufen kann auf freiwilliger Basis erfolgen. Im Moment wird die von der Mehrheit der Länder befürwortete Regelung im europäischen Parlament verhandelt.4 Entsprechend dieser Regelung müssen ab dem Jahr 2010 alle Länder Quartalsdaten liefern. Derzeit ermitteln alle europäischen Länder außer Dänemark, Irland, Malta und Österreich Vakanzdaten. Überwiegend werden Betriebsbefragungen genutzt. Lediglich Belgien, die Tschechische Republik, Luxemburg und Slowenien nutzen administrative Daten zu gemeldeten offenen Stellen, die dort also als repräsentativ für das gesamtwirtschaftliche Stellenangebot angenommen werden. Sechs Länder veröffentlichen ihre Ergebnisse aufgrund von Zweifeln an der Qualität der Daten bislang nicht. Im Internetportal von Eurostat5 veröffentlichen derzeit 17 Länder ihre Daten. 360
Europäische Betriebsbefragungen über offene Stellen: Ist das Gleiche wirklich gleich?
Die Europäische Zentralbank berechnet einen europäischen Durchschnitt der Vakanzraten auf Basis der verfügbaren Daten und Schätzungen für die Länder, die keine Daten liefern. Je höher der Anteil der einfließenden Schätzungen ist, desto stärker ist auch das europäische Ergebnis mit Unsicherheiten behaftet. Tabelle 1 führt die Länder auf, die für bestimmte Kennzahlen zwischen dem ersten Quartal 2001 und dem vierten Quartal 2007 keine Daten ausweisen. Die übrigen Länder bieten innerhalb dieses Zeitraumes Daten für alle Kennzahlen an (außer denjenigen, die noch keine Erhebungen durchführen). Tabelle 1: Länder, die für bestimmte Kennzahlen keine Daten bereitgestellt haben, ab 2001 bis zum aktuellen Stand (derzeit 2007) Kennzahl
Land
Vakanzen, insgesamt, quartalsweise und jährlich
Belgien, Frankreich, Italien, Ungarn, Polen
Vakanzen, 10 oder mehr Beschäftigte
Belgien, Frankreich, Luxemburg, Ungarn, Polen, Großbritannien
besetzte Stellen
Belgien, Dänemark, Frankreich, Italien, Ungarn, Niederlande, Polen
besetzte Stellen, 10 oder mehr Beschäftigte
Belgien, Frankreich, Luxemburg, Ungarn, Niederlande, Polen, Großbritannien
Vakanzrate
Frankreich, Italien
Vakanzrate, 10 oder mehr Beschäftigte
Belgien, Luxemburg, Niederlande, Großbritannien
Quelle: EUROSTAT (März 2008)
In Abbildung 2 sind die publizierten Vakanzraten von 7 ausgewählten Ländern dargestellt. Es zeigt sich eine hohe absolute Differenz zwischen den Ländern, ebenso eine unterschiedlich starke Variation im Zeitverlauf. Es stellt sich die Frage: Sind diese nationalen Daten miteinander vergleichbar? Der folgende Abschnitt macht deutlich, wie sich Begriffsdefinitionen, die Einbeziehung der Wirtschaftszweige und Betriebsgrößenklassen, Referenzzeitpunkte, Hochrechnung und Qualitätssicherung bislang unterscheiden und welche Implikationen diese Unterschiede für die Interpretation der Daten haben.abb02 361
Anja Kettner, Michael Stops
Abbildung 2: Vakanzraten nach Quartalen 4,5
4,0
3,5
vacancy rate (%)
3,0
2,5
2,0
1,5
1,0
0,5
Netherlands
Finland
United Kingdom
7 00
IV ./2
7
00 7
00 II. /2
III ./2
6
07
00
I./ 20
00 6
6
Germany
Romania
IV ./2
00 II. /2
Bulgaria
III ./2
5
06
00
I./ 20
IV ./2
5
00 5
00 II. /2
III ./2
4
05
00
I./ 20
4
00 4
IV ./2
00 II. /2
III ./2
3
04 I./ 20
00 3
00
IV ./2
00 3 II. /2
III ./2
2
03
00
I./ 20
2
00 2
IV ./2
00 II. /2
III ./2
I./ 20
02
0,0
Portugal
Quelle: EUROSTAT (März 2008)
4 Ein Vergleich der vorliegenden Erhebungen 4.1 Vorbemerkungen Im Folgenden soll eine Übersicht über die wichtigsten Unterschiede zwischen den nationalen Erhebungen offener Stellen in Europa gegeben werden. Offizielle Publikationen über das Vorgehen in den einzelnen Ländern sind kaum zugänglich. Deshalb wurden vor allem Informationen aus internen Papieren der Task Force on Job Vacancy Statistics verwendet sowie verfügbare Dokumente einzelner Länder. Mehrere Formen der Betriebsbefragung werden genutzt: schriftliche und elektronische Fragebögen, Telefoninterviews und die direkte Dateneingabe durch den Betrieb am Telefon.
4.2 Begriffsdefinition Die europäischen Länder haben sich auf folgende Definition für eine Vakanz geeinigt: 362
Europäische Betriebsbefragungen über offene Stellen: Ist das Gleiche wirklich gleich?
A job vacancy is defined as a post – newly created, unoccupied or about to become vacant – for which the employer (i) is taking active steps to find a suitable candidate from outside the enterprise concerned and is prepared to take more steps and (ii) intends to fill either immediately or in the near future.
Die Konkretisierungen (i) und (ii) sind von hoher Bedeutung: Vakanzen, die nur betriebsintern ausgeschrieben werden, sind für den Großteil der Arbeitssuchenden nicht relevant, sondern nur für die Beschäftigten, die innerhalb eines Betriebes ihre Position verändern wollen. Zwar induziert eine betriebsinterne Vakanz langfristig eine „externe“ Vakanz für die letzte Stelle in der betriebsinternen (Nach-)Besetzungskette, zumindest so lange wie sich im Betrieb die Zahl der Beschäftigten sowie die Berufsstruktur nicht verändern. In der kurzen Frist verändert sich die Zahl der unbesetzten Stellen durch einen Wechsel von Beschäftigung in Beschäftigung jedoch nicht. Die Niederlande sind ein Beispiel für ein Land, das interne Vakanzen in der Datenerhebung einschließt. Ohne entsprechende Korrektur ist die niederländische Vakanzrate somit nicht vergleichbar mit den Raten der Länder, die keine betriebsinternen Vakanzen und damit niedrigere Vakanzraten ausweisen. Eine Korrektur muss auch dann vorgenommen werden, wenn Länder verglichen werden sollen, die Vakanzdaten mit unterschiedlichem Zeitbezug erheben. Bislang wurde der Ausdruck „immediately or in the near future“ noch nicht näher definiert. Viele Länder weisen alle Vakanzen unabhängig vom gewünschten Zeitpunkt der Stellenbesetzung aus. Deutschland unterscheidet zwischen sofort zu besetzenden und später zu besetzenden Stellen. Griechenland und Spanien sammeln ausschließlich Daten über Vakanzen, die während der nächsten drei Monate besetzt werden sollen. Manche Länder, bspw. Finnland, schließen kurz befristete Vakanzen aus. Offene Stellen können von Arbeitslosen oder von arbeitssuchenden Beschäftigten besetzt werden. Für Letztere dürften Stellen interessant sein, die erst in einigen Monaten besetzt werden sollen, weil Kündigungsfristen eingehalten werden müssen. Für die Arbeitslosen sind diese Stellen weniger interessant als die kurzfristig zu besetzenden Stellen. Die öffentlichen Arbeitsverwaltungen veranlassen sie, möglichst frühzeitig eine neue Beschäftigung zu suchen bzw. aufzunehmen. Stellt man die Arbeitslosen auf der einen Seite und die offenen Stellen auf der anderen Seite gegenüber, um Ausgleichsprozesse am Arbeitsmarkt zu beurteilen, sollten deshalb nur die kurzfristig zu besetzenden offenen Stellen verwendet werden. Bisher ungeklärt ist, ob offene Stellen, die staatlich finanziert werden, wie beispielsweise die sogenannten Ein-Euro-Jobs in Deutschland, erfasst werden sollen oder nicht. Grundsätzlich gehören sie zur Arbeitsnachfrage. Des363
Anja Kettner, Michael Stops
halb sind sie in der deutschen Befragung enthalten, werden aber gesondert ausgewiesen. Ohne Berücksichtigung dieser Stellen hätte sich die deutsche Vakanzrate zwischen 2004 und 2005 nur auf 2,8 Prozent statt auf 3,2 Prozent erhöht. Informationen, inwieweit solche Stellen in anderen Ländern als Teil der Arbeitsnachfrage erfasst werden, liegen nicht vor.
4.3 Reichweite der Befragungen Grundsätzlich muss in der Stichprobe für eine Betriebsbefragung die Struktur der Volkswirtschaft repräsentativ abgebildet sein (Cochran 1977; Särndal & Swensson & Wretman 1992). Kleine Betriebe mit weniger als 10 Beschäftigten haben eine geringe Wahrscheinlichkeit, dass sie zum Befragungszeitpunkt eine oder mehrere unbesetzte Stellen haben. Betriebe dieser Größenklasse müssen deshalb in der Stichprobe stärker repräsentiert sein. Dies erhöht allerdings die Befragungskosten deutlich. So verursachen die Kleinstbetriebe mit weniger als 10 Beschäftigten ca. 32 Prozent der Befragungskosten in Deutschland. Würde man diese Betriebe nicht befragen, wären jedoch rund ein Viertel aller Vakanzen nicht erfasst. Die hohen relativen Kosten sind ein Grund, weshalb manche Länder keine Daten in Kleinstbetrieben erfassen. Ein weiterer Grund liegt darin, dass einige Länder bereits existierende Betriebsbefragungen, in denen Kleinstbetriebe nicht berücksichtigt sind, um Fragen über offene Stellen erweitert haben. Dies ist bspw. in Italien der Fall. Die veröffentlichten Vakanzraten, die nur auf Basis der Betriebe ab 10 Beschäftigten ermittelt wurden, sind nicht repräsentativ für die gesamte italienische Volkswirtschaft und auch nicht vergleichbar mit Vakanzraten in anderen Ländern, die alle Betriebsgrößenklassen einbeziehen. Auch die Zahl der erfassten Wirtschaftszweige ist bislang nicht einheitlich. Grundsätzlich sollen alle Wirtschaftszweige – außer die Haushalte und die extra-territorialen Organisationen und Körperschaften – erfasst werden.6 Derzeit werden aber nur die Wirtschaftszweige C bis K in allen Ländern eingeschlossen. Portugal bspw. befragt nicht in den Wirtschaftszweigen A, B, L sowie M, N und O (siehe Abkürzungen im Anhang). Auch in zahlreichen anderen Ländern ist die Erhebung valider Daten im Bildungs- und Gesundheitsbereich sowie in der öffentlichen Verwaltung mit Schwierigkeiten verbunden oder derzeit noch überhaupt nicht realisierbar. Gesamtwirtschaftliche nationale Vakanzraten, die auf unterschiedlichen Ab- und Ausgrenzungen von Wirtschaftszweigen und Betriebsgrößen beruhen, können nicht miteinander verglichen werden. 364
Europäische Betriebsbefragungen über offene Stellen: Ist das Gleiche wirklich gleich?
4.4 Referenzzeitpunkte Die Datenerhebung soll absichern, dass repräsentative Ergebnisse für das jeweilige Quartal ausgewiesen werden. Deutschland nutzt eine kontinuierliche Befragung über das Quartal hinweg. Die Mehrzahl der Länder nutzt einen einzelnen Referenztag, fünf Länder nutzen drei Referenztage, aus denen sie einen Quartalsdurchschnitt bilden (Tabelle 2). Die Festlegung eines einzigen Referenztages im Quartal hat Nachteile: Zum einen müssen sich die befragten Betriebe an die Zahl ihrer Stellen am gewählten Referenztag „erinnern“. Je länger der Zeitraum zwischen Befragung und Referenzzeitpunkt liegt, desto ungenauer werden die Antworten. Auch die Zahl der Nichtantworter kann steigen, wenn Betriebe nicht bereit sind, sich zu erinnern oder in vorhandenen Unterlagen nach den Angaben zu suchen. Zum zweiten dürfte ein einzelner Referenzzeitpunkt nicht repräsentativ für das Quartal sein, denn abhängig von der Wahl des Referenztages wird eine unterschiedlich hohe Zahl von Vakanzen ermittelt. Dies kann beispielhaft anhand der Entwicklung offener Stellen in einem Internet-Portal der Bundesagentur für Arbeit gezeigt werden (Abbildung 3, S. 366). In diesem Portal sind etwa 20 Prozent aller offenen Stellen erfasst.7 Im ersten Quartal 2008 waren am letzten Tag des ersten Monats ca. 176.000 offene Stellen ausgewiesen. Am 15. Februar (Mitte des Quartals) waren es 181.000 und am letzten Tag des Quartals 203.000. Tabelle 2: Referenzzeitpunkte von europäischen Stellenangebotserhebungen Referenztag
Land
Letzter Tag des mittleren Monats
Zypern, Rumänien
15ter des mittleren Monats
Estland
Erster Tag des letzten Monats
Griechenland
Erster Kalendertag des letzten Monats
Finnland
Letzter Tag des Referenzquartals
Niederlande, Polen, Portugal, Slowakien, Spanien, Ungarn, Frankreich, Bulgarien, Litauen
Letzter Arbeitstag des Referenzquartals
Italien, Lettland
365
Anja Kettner, Michael Stops
Drei Referenztage Letzter Tag von jedem Monat
Luxemburg, Slowenien
Freitag zwischen dem zweiten und achten jeden Monats
Großbritannien
Der mittlere Mittwoch jeden Monats
Schweden
15ter jeden Monats
Tschechische Republik
Fortlaufende Befragung Fortlaufende Befragung zwischen der ersten Woche des ersten Monats bis zur dritten Woche des letzten Monats eines Quartals
Deutschland
Quelle: Unveröffentlichtes Dokument der Task-Force zu Stellenangebotserhebungen, 5. und 6. Februar 2007 in Luxemburg
Abbildung 3: Tägliche Zahl der gemeldeten Stellen im Internet – Portal „Job Roboter“, 1. Quartal, 2008 225.000 215.000 205.000 195.000 185.000 175.000 165.000 155.000 145.000 135.000
Quelle: Bundesagentur für Arbeit 2008
366
-0 331 20 08
-0 316 20 08
-0 301 20 08
-0 215 20 08
-0 131 20 08
-0 116 20 08
20 08
-0 101
125.000
Europäische Betriebsbefragungen über offene Stellen: Ist das Gleiche wirklich gleich?
Beobachtet man die Entwicklung innerhalb eines Landes im Zeitverlauf, spielt die Wahl eines Referenzzeitpunktes eine geringe Rolle, solange dieser gleich bleibt. Bei einem internationalen Vergleich von Vakanzen und Vakanzraten in einem bestimmten Quartal müssen hingegen mögliche Überoder Unterschätzungen in den Vergleichsländern berücksichtigt werden, die aus unterschiedlichen und möglicherweise nicht repräsentiven Referenzzeitpunkten der Befragung resultieren.
4.5 Hochrechnungsmethoden und Fehlerrechnung Nur wenige Länder bieten Informationen über ihre Methoden für den Umgang mit Non-Response-Problemen, einfachen oder multiplen Datenergänzungen und über Details des verwendeten Hochrechnungsverfahrens. Eine Fehlerrechnung wird von vielen Ländern nicht vorgenommen. Die wenigen verfügbaren Informationen über die Methoden und die Qualität der Daten liegen nur in Form von Arbeitspapieren vor, sind aber nicht veröffentlicht. Analysen zum Effekt unterschiedlicher Methoden auf das gesamte Schätzergebnis existieren nicht. So ist derzeit eine Einschätzung der Qualität des veröffentlichten Datenmaterials nicht möglich. Nach In-Kraft-Treten der europäischen Verordnung im Jahr 2010 sind die Länder im Jahr 2012 zum ersten Mal verpflichtet, einen umfangreichen Qualitätsbericht über die Datenerhebung vorzulegen. Vermutlich wird es erst dann möglich sein, die Qualität der nationalen Daten zu beurteilen. Im Rahmen der Verordnung haben sich die Länder auf einen Variationskoeffizienten (CV) von maximal 8 Prozent für die Zahl der Vakanzen und die Vakanzraten nach Wirtschaftszweigen geeinigt. Vorläufige Berechnungen des CV auf Basis von Daten für das Jahr 2005 bzw. 2006 wurden von den Mitgliedern der Task Force on Job Vacancy Statistics diskutiert. Die Ergebnisse zeigten einen im Allgemeinen sehr hohen CV, der innerhalb der Länder zwischen den Wirtschaftszweigen beträchtlich variierte. Der CV der Vakanzrate lag für die meisten Wirtschaftszweige zwischen 20 und 60 Prozent.8 Darüber hinaus berücksichtigten die damaligen Berechnungen nicht das spezielle Stichprobendesign von repräsentativen Stellenangebotserhebungen, was zu einer ernsthaften Verzerrung des berechneten CV führen kann (Kiesl 2007).
4.6 Zwischenfazit Im Moment kann ein internationaler Vergleich von Vakanzdaten auf Grundlage der von EUROSTAT veröffentlichten Daten nationaler Befragungen nur 367
Anja Kettner, Michael Stops
mit allergrößter Vorsicht und unter Berücksichtigung zahlreicher Einschränkungen vorgenommen werden. Die verfügbaren Informationen über die Abgrenzungen und Methoden der Betriebsbefragungen ermöglichen keine ausreichende Einschätzung methodischer Unterschiede. Vergleichende Studien über die Implikationen der vorhandenen Unterschiede liegen nicht vor.
5 Notwendige zusätzliche Informationen zur Interpretation von Vakanzraten Wenn die Zahl der Vakanzen und die Vakanzraten als kurzfristiger Indikator für die Entwicklung des Arbeitsmarktes genutzt werden sollen, müssen weitere Faktoren berücksichtigt werden, eine Auswahl ist im Folgenden beschrieben. Wiederbesetzungsrate Mit der Besetzung offener Stellen kann sich die Beschäftigung ausweiten oder sie kann konstant bleiben. Im ersten Fall werden neue Arbeitsplätze geschaffen, im zweiten Fall werden ehemalige Beschäftigte auf existierenden Arbeitsplätzen ersetzt. Je höher die Wiederbesetzungsrate ist, desto geringer ist der mögliche Beschäftigungsanstieg in Folge einer Erhöhung der Vakanzen bzw. desto geringer der mögliche Abbau der Arbeitslosigkeit bei gegebener Bevölkerungsentwicklung. Die Wiederbesetzungsrate wird von der Altersstruktur der Belegschaft, dem Anteil weiblicher Arbeitskräfte, die ihre Beschäftigung für Familienarbeit unterbrechen und durch den Anteil befristeter Arbeitsplätze beeinflusst. Dauer der Vakanzen, Schwierigkeiten bei der Besetzung von Vakanzen Je höher in einer Periode t-1 der Anteil von Vakanzen ist, die nicht erfolgreich besetzt werden können, desto höher ist der Bestand an Vakanzen zum Zeitpunkt t, bei konstanter Zahl „neuer“ Vakanzen. Ohne Kenntnisse über Ursachen und Ausmaß möglicher Friktionen am Arbeitsmarkt, die beispielsweise durch Arbeitsmarktreformen verändert werden können, kann es zu Fehlinterpretationen der Vakanzdaten kommen. Eine Erhöhung der Zahl der Vakanzen kann durch eine Erhöhung der Friktionen begründet sein und muss nicht das Vorzeichen eines Beschäftigungswachstums sein. Die Entwicklung des Anteils schwer besetzbarer Vakanzen sowie der durchschnitt368
Europäische Betriebsbefragungen über offene Stellen: Ist das Gleiche wirklich gleich?
lichen Dauer einer Vakanz müssen bei der Interpretation von Vakanzdaten Berücksichtigung finden (siehe Interpretationen für das Jahr 2007 in Deutschland in Kettner & Spitznagel 2008). Arbeitsmarktpolitik und makroökonomisches Umfeld Maßnahmen der nationalen Arbeitsmarktpolitik können hohen Einfluss auf die Entwicklung der ungedeckten Arbeitsnachfrage haben. So stieg durch die Arbeitsmarktreform „Hartz IV“ die Zahl der geförderten offenen Stellen beträchtlich und damit auch die Zahl der Vakanzen insgesamt. Ein solcher Anstieg kann nicht ohne weiteres als Zeichen eines ökonomischen Aufschwungs oder als Indikator für die Ineffizienz der öffentlichen Arbeitsverwaltung, wie im eingangs erwähnten Artikel geschehen, interpretiert werden. Die Trennung zwischen geförderten und ungeförderten Vakanzen verringert mögliche Missinterpretationen der gesamtwirtschaftlichen Vakanzdaten.
6 Zusammenfassung Obwohl die meisten europäischen Länder inzwischen Daten über offene Stellen erheben und zunehmend auch im Internetportal der Europäischen Kommission veröffentlichen, genügt das verfügbare Material und seine Qualität noch nicht, um auf seiner Basis internationale Vergleiche vorzunehmen. Nicht nur die Definitionen einer Vakanz, die einbezogenen Wirtschaftszweige und Betriebsgrößenklassen, sondern auch die Methoden der Hoch- und Fehlerrechnung sowie die Qualitätssicherung unterscheiden sich beträchtlich. Über diese Unterschiede und ihre Relevanz für die Dateninterpretation gibt es nur begrenzt Informationen. Mehr und strukturierte Informationen über die zugrunde liegenden Betriebsbefragungen sowie der länderübergreifende Austausch über die verwendeten Methoden und die Diskussion über die Relevanz bestehender Unterschiede und die Möglichkeiten, diese zu verringern, sind dringend notwendig. Zum jetzigen Zeitpunkt können Vergleiche nationaler Arbeitsmärkte auf Basis dieser Daten nur mit zahlreichen Einschränkungen und größter Vorsicht vorgenommen werden. Zudem verlangt eine Interpretation der Daten über offene Stellen weitere Kenntnisse über die nationalen Arbeitsmärkte und über die Entwicklung wichtiger makroökonomische Indikatoren. 369
Anja Kettner, Michael Stops
Anmerkungen 1
2
In der deutschen Erhebung des gesamtwirtschaftlichen Stellenangebotes unterscheiden die Betriebe zwischen Vakanzen, die sofort oder zum nächstmöglichen Zeitpunkt zu besetzen sind, und Vakanzen, die später besetzt werden sollen. Es gelten folgende Definitionen, wobei hier die Vakanzraten in Abweichung zu anderen Quellen wie bei EUROSTAT berechnet werden: alle
Vakanzrate
alle
=
Vakanzen alle
Vakanzen
+ besetzte Stellen gemeldet
Vakanzrate
gemeldet
=
Arbeitslosenrate =
3 4
5 6
7 8
Vakanzen gemeldet
Vakanzen
+ besetzte Stellen
Arbeitslose Arbeitslose + besetzte Stellen
Westdeutschland: 46 Prozent, Ostdeutschland: 34 Prozent im Jahr 2005. Quelle: IAB. Die EU-Verordnung besteht aus zwei Teilen: einer Rahmenverordnung und einer Verordnung für die Umsetzung der Vereinbarungen. Die Rahmenverordnung wurde 2008 vom Europäischen Parlament verabschiedet. Die Verabschiedung der Durchführungsverordnung wird für 2009 erwartet. http://epp.eurostat.ec.europa.eu/ Für Länder mit einem Anteil von Beschäftigten in der Landwirtschaft und Fischerei, der weniger als 3 Prozent der Gesamtbeschäftigten beträgt, ist die Erhebung von Daten in diesem Wirtschaftssektor freiwillig. 92 Prozent dieser Stellen sind bei der Bundesagentur für Arbeit nicht gemeldet. In anderen Statistiken zielt die Europäische Kommission üblicherweise auf ein CV in Höhe von 5 bis 8 Prozent ab. Dieser Wert konnte nur in Einzelfällen erreicht werden.
Literatur Blanchard, O. J., & Diamond, P. (1989). The Beveridge Curve. Brooking Papers on Economic Activity, 1, 1–76. Blanchard, O. J. (2006). European Unemployment: The Evolution of Facts and Ideas. Economic Policy, 21 (45), 5–59. Börsch Supan, A. (1991). Panel Data Analysis of the Beveridge Curve: Is there a Macroeconomic Relation between the Rate of Unemployment and the Vacancy Rate? Economica, 58, 279–297. Cochran, W. (1977). Sampling Techniques. Vol. 3. New York: Wiley (Wiley series in probability and mathematical statistics). Franz, W., & Smolny, W. (1994). The Measurement and Interpretation of Vacancy Data and the Dynamics of the Beveridge Curve: the German Case. NBER (1966), 203–237. IW (2006). Offene Stellen: Ein deutsches Problem. IWD, 27.
370
Europäische Betriebsbefragungen über offene Stellen: Ist das Gleiche wirklich gleich? Jackman, R., & Layard, R., & Pissarides (1989). On Vacancies. Oxford Bulletin of Economics and Statistics, 51(4), 377–394. Kettner, A., & Spitznagel, E. (2008). Betriebliche Personalsuche – Stellenangebot geht zurück, bleibt aber auf hohem Niveau. IAB-Kurzbericht. 11, Nürnberg. Layard, R., & Nickell, S., & Jackman, R. (2005). Unemployment. Macroeconomic Performance and the Labour Market. Oxford: University Press. Muysken, J. (Hg.) (1994). Measurement and Analysis of Job Vacancies. Avebury: Ashgate Publishing Limited. National Bureau of Economic Research (NBER) (1966). The Measurement and Interpretation of Job Vacancies. New York, London: Columbia University Press. Petrongolo, B., & Pissarides, C. A. (2001). Looking into the Black Box: A Survey of the Matching Function. Journal of Economic Literature, 39(2), 390–431. Särndal, C.-E., & Swensson, B., & Wretman, J. (1992). Model assisted survey sampling. New York: Springer (Springer series in statistics). Shimer, R. (2007). Mismatch. American Economic Review, 97(4), 1074–1101. Yashiv, E. (2000). The Determinants of Equilibrium Unemployment. American Economic Review. Vol. 90(5), 1297–1322.
Unveröffentlichte Dokumente, die für die Arbeitsgruppe „Labour Market Statistics“ der Europäischen Kommission verfügbar sind Godinho, M. (2004): Measuring Job Vacancies – The Portuguese Experience, in: Workshop – EUROSTAT PHARE Multi – Country Programme. Vilnius. Kiesl, H. (2007). Recapitulating some Facts about the Coefficient of Variation in the Context of the European Job Vacancy Survey. Presented at the Task Force on Job Vacancy Statistics, Luxembourg, 2–3 July. Klavers, T. (2004): The Quarterly Survey of Vacancies: Methods and Results. Centraal Bureau voor de Statistiek – CBS. Machin, A. (2005): Summary of the UK Vacancy Survey, in Workshop – EUROSTAT PHARE Multi-Country Programme, Nicosia. Milosheva, E. (2005): Report on the Pilot Job Vacancy Survey, Budapest. Paun, C. (2005): Report on the Pilot Survey on Job Vacancies – Romania, in Workshop – EUROSTAT PHARE Multi-Country Programme, Nicosia. Statistics Finland (2005): Occupational Titles of the Vacancies and Calculation of Vacancy Rates in Job Vacancy Survey. Taskinen, K. (2004): Job Vacancy Survey – The Finnish Experience, in Workshop – EUROSTAT PHARE Multi – Country Programme. Vilnius.
371
Anja Kettner, Michael Stops
NACE-Klassifikation Code
Wirtschaftszweig
A
Land- und Forstwirtschaft
B
Fischerei und Fischzucht
C
Bergbau und Gewinnung von Steinen und Erden
D
Verarbeitendes Gewerbe
E
Energie- und Wasserversorgung
F
Baugewerbe
G
Handel; Instandhaltung und Reparatur von Kraftfahrzeugen und Gebrauchsgütern
H
Gastgewerbe
I
Verkehr und Nachrichtenübermittlung
J
Kredit- und Versicherungsgewerbe
K
Grundstücks- und Wohnungswesen, Vermietung beweglicher Sachen, Erbringung von wirtschaftlichen Dienstleistungen, anderweitig nicht genannt
L
Öffentliche Verwaltung, Verteidigung, Sozialversicherung
M
Erziehung und Unterricht
N
Gesundheits-, Veterinär- und Sozialwesen
O
Erbringung von sonstigen öffentlichen und persönlichen Dienstleistungen
P
Private Haushalte mit Hauspersonal
Q
Exterritoriale Organisationen und Körperschaften
Quelle: http://www.statistik-portal.de/Statistik-Portal/klassiWZ03.pdf
372
Ruland, Raab, Schönberger, Blossfeld, Hofäcker, Buchholz, Schmelzer
Michael Ruland, Marcel Raab, Benno Schönberger, Hans-Peter Blossfeld, Dirk Hofäcker, Sandra Buchholz, Paul Schmelzer
GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung Zusammenfassung Der Prozess der Globalisierung zählt zweifelsohne zu den in jüngerer Vergangenheit meist diskutierten Gegenstandsbereichen in den Sozialwissenschaften. Trotz des wachsenden thematischen Interesses sind jedoch Ansätze zur quantitativen Erfassung des Globalisierungsprozesses bislang vage oder konzentrieren sich nur einseitig auf die Erfassung der ökonomischen Komponente der Globalisierung. Bislang fehlt somit ein adäquates sozialwissenschaftliches Messinstrument, mittels dessen sich Globalisierungsprozesse quantitativ erfassen und z. B. als erklärende Variable in die Analyse von Befragungsdaten integrieren lassen. Vor diesem Hintergrund entwickelt der vorliegende Beitrag einen mehrdimensionalen Index zur Messung des Phänomens der Globalisierung, der ökonomische, kulturelle, sozio-technische und politische Aspekte der Globalisierung berücksichtigt und damit frühere Operationalisierungs-Ansätze um weitere zentrale Dimensionen und Indikatoren zur Messung des Globalisierungsprozesses erweitert. Unser Beitrag verdeutlicht zunächst aus theoretischer Perspektive den mehrdimensionalen Charakter des Phänomens der Globalisierung und entwickelt anschließend einen Index zu dessen empirischer Erfassung in 97 verschiedenen Ländern im Zeitraum von 1970 bis 2002. Basierend auf diesem „GlobalIndex“ skizzieren wir anschließend den Verlauf des Globalisierungsprozesses auf globaler Ebene sowie in verschiedenen ausgewählten Wirtschaftsregionen. Abschließend demonstrieren wir anhand der vergleichenden Längsschnittanalyse von deutschen und britischen Surveydaten Möglichkeiten der Anwendung des GlobalIndex in der sozialwissenschaftlichen Umfrageforschung.
Abstract GlobalIndex – A Sociological Approach to Measure Globalization Globalization definitely has been one of the most discussed issues in social sciences during the last decade, and still is today. Despite this grown interest, the measurement of globalization still remains vague or often one-sidedly re-
373
Ruland, Raab, Schönberger, Blossfeld, Hofäcker, Buchholz, Schmelzer
stricted to the analysis of its economic dimension, thereby neglecting the multidimensionality of the phenomenon of globalization. As a consequence, a differentiated measure of globalization covering both economic and social aspects that can be, for example, introduced into multivariate analysis of survey data as an explanatory variable, is still largely missing. In this article, we suggest a multi-dimensional globalization measure, encompassing economic, (socio-)technological, cultural, and political dimensions of global change. It builds on previous globalization measures, but extends them by additional dimensions and indicators representing central facets of a genuine sociological concept of globalization. Our contribution starts by shortly describing the multidimensional nature of the globalization process and then develops an overall sociological index of globalization, which we call GlobalIndex, covering a total of 97 different countries from 1970 to 2002. Based on this measure, we first describe the development of globalization on a worldwide scale and across economic regions. Next, we demonstrate the potential of the GlobalIndex for the analysis of contemporary survey data by illustratively including it into two micro-level longitudinal analyses of labor market transitions during the early career in Germany and the United Kingdom.
1 Einleitung In den vergangenen Jahrzehnten hat die Bedeutung der international vergleichenden Umfrageforschung merklich zugenommen. Eine der wesentlichen Herausforderungen bei der Analyse international vergleichender Umfragedaten, etwa des ISSP oder der Eurobarometer-Studien, besteht – neben der Analyse individueller Einstellungs- und Verhaltensmuster – in der angemessenen Integration länderübergreifender Makrotrends in die Analysen. Von besonderer Bedeutung sind hier Prozesse des länderübergreifenden sozialen Wandels, die häufig unter dem Begriff der ,Globalisierung‘ diskutiert werden (Blossfeld et al. 2005; Blossfeld & Mills & Bernardi 2006; Blossfeld & Hofmeister 2006; Blossfeld & Buchholz & Hofäcker 2006). Trotz der gegenwärtig hohen Prominenz des Begriffs der Globalisierung in der öffentlichen und wissenschaftlichen Diskussion existieren bislang nur wenige überzeugende Ansätze zur trennscharfen Bestimmung des Begriffs und entsprechend zu dessen quantitativer Messung. So definieren beispielsweise Held und andere Globalisierung als „. . . einen Prozess (oder eine Reihe von Prozessen), der zu einer Transformation in der räumlichen Organisation sozialer Beziehungen und Austauschverhältnisse (gemessen an deren Umfang, Intensität, Geschwindigkeit und Auswirkungen) geführt hat 374
GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung
und damit zur zunehmenden Herausbildung transnationaler Aktivitäten sowie Austausch- und Machtbeziehungen beiträgt“ (Held et al. 2000, 55; eigene Übersetzung). Freilich sind derart abstrakte Definitionen für eine empirische sozialwissenschaftliche Analyse des Phänomens der Globalisierung und ihrer Auswirkungen auf die Lebensverläufe von Menschen in modernen Gesellschaften deutlich zu breit gefasst. Um empirisch untersuchen zu können, ob sich Globalisierungsprozesse tatsächlich nachweisen lassen, ob diese ein neues historisches Phänomen darstellen und inwiefern sie individuelle Lebensverläufe beeinflussen, bedarf es einer deutlich präziseren konzeptionellen Erfassung des Phänomens der Globalisierung. Basierend auf einer solchen theoretischen Vorarbeit müssen in einem zweiten Schritt Ansätze zur empirischen Messung des Phänomens der Globalisierung entwickelt werden, die dann als beschreibende Maßzahl oder als erklärende Variable in statistischen Modellen dienen können. Existierende Versuche zur empirischen Messung des Phänomens der Globalisierung entstammen nahezu ausschließlich der wirtschaftswissenschaftlichen Literatur und basieren weitestgehend auf makroökonomischen Indikatoren (wie beispielsweise internationalen Finanz-, Güter- und Dienstleistungsströmen oder ausländischen Direktinvestitionen; Sutcliffe & Glyn 1999). Wenngleich derartige ökonomische Globalisierungsindizes durchaus zu einem besseren Verständnis der zunehmenden weltwirtschaftlichen Vernetzung beitragen können, erweisen sie sich dennoch aus soziologischer Perspektive als zu begrenzt. Helds „transkontinentale Austauschbeziehungen“ (Held et al. 2000) verweisen nicht nur auf ökonomische Transaktionen, sondern beschreiben ebenso komplexe kulturelle, politische und soziale Interaktionen. Ziel des vorliegenden Beitrags ist es daher, einen mehrdimensionalen und explizit soziologischen Index zur Messung von Globalisierung zu entwickeln, der sowohl ökonomische, technologische und kulturelle als auch politische Aspekte des Globalisierungsprozesses berücksichtigt. Der Beitrag gliedert sich dabei wie folgt: In einem ersten Schritt diskutieren wir zunächst aus theoretischer Perspektive die mehrdimensionale Natur des Globalisierungsprozesses und entwickeln anschließend darauf basierend einen eigenen Globalisierungsindex, den ,GlobalIndex‘, der die Entwicklung des Globalisierungsprozesses in 97 verschiedenen Staaten für den Zeitraum von 1970 bis 2002 erfasst. In einem zweiten Schritt demonstrieren wir exemplarisch anhand ausgewählter Beispielauswertungen mögliche Anwendungen des Globalisierungsindex in der vergleichenden Sozialforschung.
375
Ruland, Raab, Schönberger, Blossfeld, Hofäcker, Buchholz, Schmelzer
2 Globalisierung: Ein mehrdimensionales Phänomen In der sozialwissenschaftlichen Forschung besteht Konsens darüber, dass Globalisierung als ein mehrdimensionales Phänomen anzusehen ist, das über rein ökonomische Prozesse hinausgeht. Der obere Teil von Schaubild 1 fasst vier zentrale Makro-Dimensionen des Globalisierungsprozesses zusammen, die ihrerseits zu rapiden und immer schneller verlaufenden Wandlungsprozessen in modernen Gesellschaften beigetragen haben (vgl. Mills & Blossfeld 2005, 1–6). Diese vier Prozesse umfassen die zunehmende BeSchaubild 1: Die vier Dimensionen der Globalisierung und ihre Auswirkungen Ökonomische Globalisierung
(Sozio-)technische Globalisierung
Kulturelle Globalisierung
Politische Globalisierung
Internationalisierung von Märkten und zunehmender Steuerwettbewerb zwischen Wohlfahrtsstaaten
Verbreitung globaler Netzwerke/ Verbreitung von Wissen durch neue Informations- und Kommunikationstechnologien
Diffusion global geteilter Werte und Normen
Internationalisierung der Politik
Wachsende Geschwindigkeit von Innovationen, beschleunigter sozialer und ökonomischer Wandel
Beschleunigung von Markttransaktionen
Zunehmende Instabilität von Märkten
Zunehmende Unsicherheit
Quelle: eigene Darstellung basierend auf Mills, & Blossfeld 2005
376
GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung
deutung von Märkten, die Zunahme internationaler Netzwerke und die damit verbundene wachsende Bedeutung von Austauschbeziehungen über Ländergrenzen hinweg, die sich abzeichnende Herausbildung einer „globalen Kultur“ sowie die wachsende Bedeutung internationaler politischer Beziehungen zwischen Nationalstaaten.
2.1 Ökonomische Globalisierung Zweifelsohne stellt die Wirtschaft das am häufigsten mit Globalisierung in Verbindung gebrachte soziale Subsystem dar (vgl. Fiss & Hirsch 2005). Spätestens seit dem Fall des ,eisernen Vorhangs‘ und der Integration asiatischer Staaten (etwa Indien, Korea, Taiwan und China) in die Weltwirtschaft stehen Unternehmen nicht nur in Konkurrenz mit nationalen Wettbewerbern, sondern müssen sich zunehmend unter den Bedingungen einer globalen Konkurrenz behaupten (Fligstein 1998). Gegenwärtige Turbulenzen auf globalen Märkten werden jedoch nicht allein durch das Anwachsen ökonomischer Austauschbeziehungen an sich, sondern vielmehr durch den wachsenden globalen Wettbewerb zwischen Staaten mit unterschiedlichen Lohn-, Sozial-, Umwelt- und Produktivitätsstandards hervorgerufen. Seit Beginn der 1990er Jahre verfolgen moderne Wohlfahrtsstaaten daher vermehrt eine Strategie der Kürzung von Sozialausgaben und des Sozialschutzes sowie der Privatisierung, Liberalisierung und Deregulierung nationaler Arbeitsmärkte. Diese Entwicklungen haben in allen modernen Gesellschaften zu einem noch nie da gewesenen Niveau struktureller Unsicherheit für alle Akteure auf Arbeits- und Produktmärkten beigetragen, insbesondere in Form zunehmender zeitlicher Unsicherheiten und Beschäftigungsinstabilitäten (vgl. Schaubild 1). Empirische Analysen anhand ökonomischer Standardindikatoren belegen, dass der Prozess globaler ökonomischer Integration bislang im Finanzsektor sowie im internationalen Güterhandel am intensivsten verläuft (Deutscher Bundestag 2002, 61–69). Das konkrete Ausmaß und die Form dieser Handelsströme innerhalb der entwickelten Wirtschaftsregionen sowie zwischen diesen Regionen und dem Rest der Welt werden dabei signifikant durch Zollbeschränkungen und außertarifliche Handelsbarrieren beeinflusst, die trotz multilateraler Übereinkünfte wie etwa dem Allgemeinen Zoll- und Handelsabkommen (GATT) nach wie vor existieren. Gleichzeitig ist es im Zuge des Abbaus offizieller Zoll- und Handelsbarrieren in den vergangenen Jahren parallel vielfach zu einem Ausbau außertariflicher Handelsbarrieren gekommen. 377
Ruland, Raab, Schönberger, Blossfeld, Hofäcker, Buchholz, Schmelzer
2.2 (Sozio-)Technische Globalisierung Eine einseitige Fokussierung auf die ökonomische Globalisierung spiegelt die Mehrdimensionalität des Globalisierungsprozesses jedoch nicht angemessen wider. So wäre etwa die beschriebene Zunahme internationaler Finanz-, Güter- und Dienstleistungsströme kaum ohne revolutionäre Neuerungen in den Informations- und Kommunikationstechnologien, Verbilligungen in Transporttechnologien sowie ohne die zunehmende Verbreitung globaler Kommunikationsnetzwerke möglich gewesen. Mikrocomputer oder das Internet tragen zu einer immer schnelleren Diffusion von Informationen und Wissen und zu einer immer höheren Geschwindigkeit des Austausches auf globalen Märkten bei (Castells 2001). Langfristige Marktentwicklungen werden dadurch zunehmend schwerer vorhersehbar. Zwar sind Informations- und Kommunikationstechnologien als solches nicht grundsätzlich neu, allerdings haben die technologischen Innovationen der vergangenen Jahrzehnte die Reichweite, die Intensität, die Geschwindigkeit und das Ausmaß der Effekte zunehmender technologischer Vernetzung deutlich erhöht (vgl. Mills & Blossfeld 2005, 6). Neue Informations- und Kommunikationstechnologien tragen jedoch nicht nur zur Beschleunigung ökonomischer Globalisierung bei, sondern führen ebenso zu einer globalen Vernetzung im Weltmaßstab. Darüber hinaus lässt sich eine bemerkenswerte Zunahme globaler Vernetzung von Individuen beobachten, die ihren Ausdruck etwa in globalen Protestaktivitäten von Nichtregierungsorganisationen findet (vgl. Beck 1999, 122–127). Prozesse sozialer Globalisierung schlagen sich schließlich auch in globalen Migrationsströmen nieder, selbst wenn deren Umfang im Vergleich zu Kapital-, Güter- und Dienstleistungsströmen bislang vergleichsweise unbedeutend erscheint. Diese Entwicklung gipfelt unter anderem im Wachstum so genannter ,Global Cities‘, die zunehmend zur globalen Bezugsgröße wirtschaftlichen, politischen und sozialen Handelns werden (Sassen 2001).
2.3 Kulturelle Globalisierung Die mittlerweile im globalen Maßstab kulturell und kognitiv verankerte „Steigerungslogik“ (Schulze 2003) manifestiert sich jedoch nicht nur im Wachstum von ,Global Cities‘, sondern ebenso im kulturellen Bereich. Mittels neuer Informations- und Kommunikationstechnologien verbreiten sich westliche Werte, Normen und Standards zunehmend über den gesamten Globus (vgl. Schwinn 2006, 217). Der hieraus hervorgehende Glaube an 378
GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung
die Bedeutung wissenschaftlicher Beweisbarkeit und erfahrungsbasierten Wissens bildet die Grundlage für die in vielen Nationen steigende Relevanz von Massenbildung als globalem Wert. Menschenrechte machen einen weiteren wichtigen Aspekt kultureller Globalisierung aus. Sie verkörpern einen Kanon von Normen, der im Zeitalter der Globalisierung immer häufiger postuliert, kommuniziert und eingefordert wird (Meyer et al. 1997). Neben diesen universellen Normen und Wertvorstellungen zeigen sich auch im Alltäglichen Anzeichen einer globalen kulturellen Konvergenz. Aktuelle Globalisierungsstudien verweisen jedoch gleichzeitig auf die ,Pfadabhängigkeit‘ in der Entwicklung national spezifischer Institutionen und entsprechende Beharrungstendenzen im Verlauf individueller Lebensverläufe in modernen Gesellschaften (Blossfeld et al. 2005; Blossfeld & Buchholz & Hofäcker 2006; Blossfeld & Hofmeister 2006; Blossfeld & Mills & Bernardi 2006). Individuen schwanken entsprechend in ihrem alltäglichen Handeln oftmals zwischen global-kosmopolitischen und lokalen traditionellen Werten (vgl. Roudotemof 2005). Ebenso ruft die zunehmende Expansion westlicher Wertvorstellungen vielfach Gegenbewegungen, etwa in Form globaler Protestaktivitäten, hervor. Dem beobachtbaren Trend kultureller Konvergenz stehen somit Filterprozesse auf nationaler und lokaler Ebene gegenüber, die ihrerseits von beachtlicher Beharrlichkeit sind. Nationale Institutionen bleiben somit auch im Zuge zunehmender Globalisierung von herausragender Bedeutung.
2.4 Politische Globalisierung Die vorangegangenen Ausführungen haben bereits veranschaulicht, dass die analytische Trennung der verschiedenen Dimensionen von Globalisierung bisweilen problematisch ist, da sich die Dimensionen wechselseitig durchdringen (Alasuutari 2000). Einige Globalisierungstheoretiker versuchen daher, eine Dimension zu identifizieren, die als ,Ausgangspunkt‘ für den Globalisierungsprozess fungiert haben könnte, und schreiben insbesondere der Politik in diesem Zusammenhang eine zentrale Rolle zu (Beck 1999; Varwick 2000). Sie verweisen darauf, dass beispielsweise die internationale Vernetzung der Märkte ohne politisch gewollte Deregulierung gar nicht möglich gewesen wäre und der Staat somit die Rahmenbedingungen für die soziale und ökonomische Globalisierung erst selbst geschaffen habe. In der Tat haben politische Entscheidungen seit den späten 1980er und 1990er Jahren die Rahmenbedingungen der Globalisierung entscheidend mitbestimmt (Varwick 2000, 138). Allerdings kann davon ausgegangen wer379
Ruland, Raab, Schönberger, Blossfeld, Hofäcker, Buchholz, Schmelzer
den, dass politische Entscheidungen nicht nur einseitig die Globalisierung beeinflussen, sondern ihrerseits mindestens in gleichem Maße durch die Globalisierung selbst beeinflusst werden. Viele radikale Globalisierungstheoretiker argumentieren etwa, dass der Nationalstaat durch die Globalisierung in seinen Handlungsoptionen ,gelähmt‘ wurde, so dass die Verfolgung rein nationaler Politiken im Globalisierungsprozess praktisch unmöglich geworden ist. Aktuelle Daten zeigen zwar, dass die Rede von einem ,Ende des Sozialstaats‘ in ihrer Radikalität vielfach überzogen oder irreführend ist. Nichtsdestotrotz bedarf es in vielen politischen Bereichen wie etwa der Wirtschafts- (Weltbank, IWF, WTO) oder Gesundheitspolitik (WHO) oder im Falle militärischer Zusammenarbeit mittlerweile politischer Regulierung jenseits des Nationalstaats.
3 Indikatoren der Globalisierung und die Konstruktion des GlobalIndex Der Prozess der Globalisierung beeinflusst nicht alle Regionen, Staaten, Organisationen und Individuen in vergleichbarer Form. Historisch gewachsene institutionelle Rahmenbedingungen und länderspezifische Sozialstrukturen filtern den Globalisierungsprozess in spezifischer Weise und führen in verschiedenen modernen Industriestaaten zu einer unterschiedlichen Betroffenheit von globalisierungsbedingter Unsicherheit. Derartige ,MesoInstitutionen‘ weisen auch im Globalisierungsprozess eine bemerkenswerte Beharrlichkeit und Persistenz auf (Nelson 1995; Esping-Andersen 1993). Für eine soziologische Analyse des Globalisierungsprozesses ist es von zentraler Bedeutung, diese länderspezifischen Makroprozesse von der Verarbeitung durch nationale Filtermechanismen zu unterscheiden (Mayer 2001, 11). Die im Folgenden vorgestellten Indikatoren der Globalisierung verfolgen daher das Ziel, Globalisierungsprozesse auf der Makroebene so eindeutig wie möglich zu erfassen. Wir greifen dabei auf die Pionierarbeiten von Autoren wie Dreher (2006), Kearney/Foreign Policy (2001), der OECD (2005) oder Lockwood & Redoano (2005) zurück, erweitern diese Ansätze zur Messung von Globalisierung jedoch, indem wir einen eigenen soziologischen Globalisierungsindex entwickeln, der die Multidimensionalität der Globalisierung in all ihren skizzierten Dimensionen differenziert widerspiegelt. Eine detaillierte Auflistung der Subdimensionen und Indikatoren des GlobalIndex findet sich im Anhang. Wenngleich bei der Konstruktion des Index somit eine möglichst breite Dimensionalisierung angestrebt wird, so 380
GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung
liegen für einzelne Untersuchungsdimensionen für alle hier untersuchten 97 Länder nur wenige Indikatoren, z. T. mit umfassenden Datenlücken, vor. Insbesondere bei der politischen (und z. T. auch der kulturellen Dimension der Globalisierung) kann somit nur auf eine begrenzte Anzahl von Proxy-Indikatoren zurückgegriffen werden.
3.1 Subdimensionen und Indikatoren Bei der Operationalisierung der ökonomischen Dimension der Globalisierung beschränkten sich bisherige Globalisierungsindizes meist auf einen einzelnen Indikator, etwa den Umfang transnationaler Finanzströme (vgl. z. B. OECD 2005). Bereits Dreher (2007) verwies darauf, dass ein solches Vorgehen nicht ausreichend ist, da es existierende Zollbeschränkungen und außertarifliche Handelshemmnisse, die einen freien Fluss von Geld, Gütern und Dienstleistungen behindern können, unbeachtet lässt. Der von uns vorgeschlagene „GlobalIndex“ operationalisiert daher die ökonomische Dimension mittels mehrerer unterschiedlicher Indikatoren, die sowohl internationale Finanzströme als auch Handelsbeschränkungen widerspiegeln. Ebenso wie der KOF-Index von Dreher (2007) umfasst der GlobalIndex sowohl internationale Handelsströme als auch offene und verdeckte Handelsbarrieren, Kapitalrestriktionen, Zollschranken und Handelssteuern. Wie im vorangegangenen Kapitel argumentiert, ist Globalisierung jedoch nicht nur durch ökonomische Transnationalisierung, sondern ebenso durch eine zunehmende weltweite Vernetzung infolge der Verbreitung neuer Informations- und Kommunikationstechnologien gekennzeichnet (Plate 2003). Der GlobalIndex beinhaltet daher eine separate Dimension zur Messung dieser sozio-technischen Dimension der Globalisierung, die neben Indikatoren der globalen Kommunikation zwischen Individuen auch Variablen zur Messung des weltweiten Austauschs von Informationen umfasst. Er geht damit über bisherige Globalisierungsindizes hinaus: Drehers KOF-Index (2007) beinhaltetet zwar ebenfalls eine Dimension technischer Globalisierung, vernachlässigt bei deren Operationalisierung jedoch zentrale technologische Entwicklungen, wie etwa die Verbreitung von Festnetzanschlüssen und Mobiltelefonen. Ebenso wird in der älteren Version des Dreher-Index der Im- und Export von Büchern, Zeitungen und Zeitschriften zunächst nur partiell berücksichtigt. Der GlobalIndex berücksichtigt sowohl die Verbreitung von Festnetz- und Mobiltelefonen als auch den Export und Import von Büchern und Zeitschriften als Proxy-Indikatoren der sozio-technischen Dimension der Globalisierung. 381
Ruland, Raab, Schönberger, Blossfeld, Hofäcker, Buchholz, Schmelzer
Die kulturelle Komponente der Globalisierung hat in bisherigen Globalisierungsindizes bislang kaum Beachtung gefunden. Dreher (2007) berücksichtigte kulturelle Aspekte in einer frühen Version seines KOF-Index lediglich durch die Verwendung der Anzahl an McDonald’s-Filialen pro Land als Indikator zur Messung eines US-amerikanischen Lebensstils. In einer jüngeren Überarbeitung seines Index ergänzt Dreher diesen vergleichsweise groben Indikator durch die zusätzliche Berücksichtigung der Anzahl an IKEAFilialen und den Handel von Büchern. Sein Index umfasst damit zwar die Ebene der globalen Alltagskultur, vernachlässigt jedoch die internationale Konvergenz von Normen und Wertvorstellungen. Zur Operationalisierung der kulturellen Dimension verwendet der GlobalIndex daher neben Indikatoren der Alltagskultur eine Reihe weiterer Variablen, die global geteilte Werte und Normen sowie Ausprägungen der globalen Steigerungslogik widerspiegeln; etwa Indikatoren der Teilhabe an Bildung, der Verbreitung von Geschlechtergleichheit, der zunehmenden Urbanisierung oder der Tertiarisierung der Wirtschaft. Als vierte Subdimension der Globalisierung beinhaltet der GlobalIndex schließlich eine separate politische Komponente. Ein Problem bei der Konstruktion einer solchen Dimension stellt dabei die Tatsache dar, dass sich politische, ökonomische und kulturelle Aspekte des Globalisierungsprozesses vielfach überschneiden und somit eine trennscharfe Differenzierung der verschiedenen Dimensionen des Globalisierungsprozesses nicht immer möglich ist. Um die politische Dimension dennoch so adäquat wie möglich zu erfassen, folgt der GlobalIndex Drehers Vorgehen, indem er die Anzahl ausländischer Botschaften in einem Land, die Mitgliedschaft in internationalen Organisationen sowie die Anzahl der Beteiligung an UN-Missionen als Indikatoren politischer Globalisierung verwendet.
3.2 Methodologische Aspekte der Indexkonstruktion Basierend auf den skizzierten vier Dimensionen der Globalisierung und den mit ihnen verbundenen empirischen Indikatoren erstellen wir einen Index, der die Entwicklung der Globalisierung in 97 verschiedenen Ländern für den Zeitraum von 1970–2002 erfasst.1 Eine der größten Herausforderungen bei der Generierung einer Maßzahl für einen derart langen Zeitraum und eine solch große Länderanzahl besteht im Umgang mit Datenlücken. Da der Gesamtwert des Index nicht berechnet werden kann, wenn einzelne Variablen fehlende Werte aufweisen, müssen systematische Strategien zum Umgang mit diesem Problem entwickelt werden. Bei der Berechnung des 382
GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung
GlobalIndex wurde dabei ein mehrstufiges Verfahren gewählt: Für Länder, die für bestimmte Variablen zumindest einen oder mehrere gültige Werte besitzen, wurden die fehlenden Werte mittels linearer Interpolation zwischen gültigen Nachbarpunkten und Konstantsetzen des letzten beziehungsweise ersten gültigen Wertes geschätzt. Im Falle des kompletten Fehlens von mehr als vier Variablen des Gesamtindex bzw. von mehr als einem Drittel der Variablen einer Subdimension wurden Länder vollständig aus den Analysen ausgeschlossen. Für die verbleibenden Länder wurden fehlende Variablenwerte durch Regressionsimputationen unter Verwendung aller verfügbaren Variablen und Erhebungszeitpunkte geschätzt.2 Als Ergebnis dieses mehrstufigen methodischen Vorgehens verbleibt eine Gesamtzahl von 97 Ländern mit vollständig verfügbaren Daten. Einen weiteren wichtigen Schritt zur Konstruktion des Gesamtindex stellt die Gewährleistung der statistischen Vergleichbarkeit der 31 Einzelindikatoren des Index dar. Selbst bei Vorliegen kompletter Daten sind die Rohdaten der einzelnen Indexvariablen aufgrund unterschiedlicher Messeinheiten und Skalenniveaus nicht direkt miteinander vergleichbar und müssen daher zuvor mittels statistischer Transformation in ein einheitliches Format überführt werden. Caselli (2005, 4) schlägt für diese Standardisierung die folgende Formel vor, die auch als ,Panel-Normalisierung‘ bekannt ist:
V standardisiert = 10 ×
Vi – V min V max – V min
Vmax und Vmin geben dabei die Maximal- bzw. Minimalwerte einer Variablen für die komplette Datenreihe wieder, während Vi den tatsächlichen Wert der Variablen für den Zeitpunkt i bezeichnet. Für Variablen, die positiv mit dem Gesamtwert der Globalisierung korreliert sind, generiert die oben angegebene Formel Werte auf einer Skala von 0 bis 10 (vgl. Dreher 2006; Gwartney & Lawson 2006). Für Variablen, für die das Gegenteil der Fall ist (d. h. bei denen die Variablenwerte in einem negativen statistischen Zusammenhang zur Gesamtglobalisierung stehen), wie z. B. bei internationalen Handelsbeschränkungen, muss die Formel wie folgt angepasst werden:
V standardisiert = 10 ×
V max – Vi V max – V min
Dieses methodische Vorgehen garantiert für alle Variablen eine einheitliche Standardisierung vor der Kalkulation des Gesamtindex. Den letzten methodischen Schritt bei der Kalkulation des Index stellt die Vergabe adäquater Gewichtungsfaktoren sowohl für einzelne Variablen als 383
Ruland, Raab, Schönberger, Blossfeld, Hofäcker, Buchholz, Schmelzer
auch für die verschiedenen Subdimensionen des GlobalIndex dar. Die Verwendung willkürlicher Gewichtungen wie etwa bei Kearney/Foreign Policy (2001) birgt grundsätzlich die Gefahr der Über- beziehungsweise Unterschätzung des Einflusses einzelner Variablen (Lockwood 2001). In Anlehnung an Dreher (2006) und Lockwood (2001) verwenden wir daher die Hauptkomponentenanalyse (PCA) zur Bestimmung der relativen Gewichte einzelner Variablen. Nachdem durch die PCA die Gewichte der einzelnen Variablen innerhalb vorher festgelegter Sub-Dimensionen bestimmt wurden, wird dieser Vorgang für die Gewichtung der einzelnen Sub-Dimensionen bzw. Dimensionen wiederholt.3 Dieses mehrstufige Vorgehen garantiert, dass alle Variablen mit einem vergleichbaren Einfluss in den Gesamtindex eingehen, und einzelne Indikatoren nicht über- oder untergewichtet werden. Im Gegensatz zur Methode von Kearney/Foreign Policy (2001) hängt damit die Gewichtung nicht von der subjektiven und arbiträren Entscheidung des einzelnen Forschers ab, sondern ergibt sich ,objektiv‘ aus der vorliegenden Datenstruktur.
4 Beispielauswertungen mittels des GlobalIndex 4.1 Deskriptive Auswertungen Für den GlobalIndex bieten sich insbesondere in der international vergleichenden Sozialforschung eine Reihe von Anwendungsmöglichkeiten. Zum einen kann er als ein differenziertes Maß zur international vergleichenden Beschreibung des Globalisierungsprozesses dienen. Darüber hinaus kann der Index aber auch als erklärende Variable in sozialwissenschaftlichen Mehrebenenmodellen etwa bei der Analyse von Mikrodaten aus Umfragen oder amtlichen Registern verwendet werden. Schaubild 2 (S. 385) gibt zunächst einen Überblick über die Entwicklung des Globalisierungsprozesses während der letzten drei Jahrzehnte für alle 97 untersuchten Länder.4 Es zeigt sich, dass der Prozess der Globalisierung seit Mitte der 1970er Jahre nahezu kontinuierlich zugenommen und sich seit den frühen 1990er Jahren noch einmal deutlich beschleunigt hat. Der bemerkenswerte Anstieg des Indexwertes in den frühen 1990er Jahren verweist zum einen auf die Beschleunigung der ökonomischen Globalisierung nach dem Fall des Eisernen Vorhangs und der zunehmenden Integration asiatischer Länder in den Weltmarkt. Zum anderen lässt sich die rapide Zunahme auch auf die zunehmende weltweite Vernetzung infolge der rapiden Diffusion des Internet seit den frühen 1990er zurückführen. 384
GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung
Schaubild 2: Durchschnittliches Ausmaß der Globalisierung in der Welt
GlobalIndex in der Welt 3.5
3
2.5
2 1970
1975
1980
1985
1990
1995
2000
Schaubild 3: Ausmaß der Globalisierung in unterschiedlichen Kontinenten
GlobalIndex in unterschiedlichen Kontinenten 5.5 5
4.5 4 3.5 3 2.5
1970
1975
1980 Europa Asien Afrika
1985
1990
1995
2000
Ozeanien Lateinamerika und die Karibik Nord Amerika
385
Ruland, Raab, Schönberger, Blossfeld, Hofäcker, Buchholz, Schmelzer
Nichtsdestotrotz existieren deutliche regionale Unterschiede im Grad der Globalisierung und deren Entwicklung im Zeitverlauf. Schaubild 3 (S. 385) teilt die untersuchten Länder zur Illustration in drei verschiedene Regionen auf:5 (1) die sogenannten ,global players‘, die v. a. Nordamerika, Europa und Ozeanien umfassen, (2) die ,aufschließenden Regionen‘, die die asiatischen, lateinamerikanischen und karibischen Länder einschließen, und (3) die Globalisierungs-,Nachzügler‘ (z. B. Afrika). Die ,global players‘ und die ,aufschließenden Regionen‘ erweisen sich als die am stärksten globalisierten Regionen der Welt, wobei es insbesondere den europäischen Staaten in den vergangenen zwei Jahrzehnten gelang, die ,Globalisierungslücke‘ zu Ozeanien und Nordamerika weitgehend zu schließen. Auch in den lateinamerikanischen und karibischen Staaten sowie in Asien hat der Grad der Globalisierung seit Mitte der 1980er Jahre kontinuierlich zugenommen. Afrika fällt hingegen deutlich hinter die erst genannten Staaten zurück.
4.2 Verwendung des GlobalIndex in der Umfrageforschung Der GlobalIndex kann jedoch nicht nur zur deskriptiven Rekonstruktion des Globalisierungsprozesses, sondern ebenso als erklärende Variable in auf Umfragedaten basierenden Mehrebenenmodellen zur Erklärung sozialen Wandels verwendet werden. Das im Folgenden dargestellte Beispiel schließt an Arbeiten der Forschungsprojekte GLOBALIFE (Blossfeld et al. 2005) und flexCAREER (www.flexcareer.de) an, in deren Rahmen die Auswirkungen des Globalisierungsprozesses auf Erwerbseinstiegsprozesse junger Menschen ländervergleichend in unterschiedlichen wohlfahrtsstaatlichen Kontexten untersucht wurden. Im Folgenden sollen dabei Erwerbseinstiege exemplarisch in zwei kontrastierenden Wohlfahrtsstaatstypen analysiert werden: Das Vereinigte Königreich wird als Vertreter eines liberalen Wohlfahrtsstaatsregimes angesehen, das sich durch eine geringe Arbeitsmarktregulierung sowie einen nur schwach ausgeprägten Arbeitnehmerschutz auszeichnet. Demgegenüber kann Deutschland als Repräsentant eines konservativen Regimetyps angesehen werden, welcher durch einen rigideren Arbeitsmarkt und einen starken Schutz für Arbeitnehmer gekennzeichnet ist. Obgleich beide Wohlfahrtsregime ein ähnliches Niveau an Globalisierung erfahren (vgl. Raab et al. 2008), lassen sich aufgrund der unterschiedlichen institutionellen Kontexte unterschiedliche Auswirkungen des Globalisierungsprozesses auf den Berufseinstieg junger Menschen erwarten: Während der hoch flexible, wenig regulierte britische Arbeitsmarkt jungen Menschen eine Anpassung an globalisierungsbedingte Veränderun386
GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung
gen erleichtert und damit ihren Berufseintritt mutmaßlich eher beschleunigt, kann im Falle Deutschlands davon ausgegangen werden, dass Jugendliche im Globalisierungsprozess mit zunehmenden Unsicherheiten beim Berufseinstieg konfrontiert werden, da rigide Insider-Outsider-Arbeitsmärkte ihre rasche Etablierung im Berufsleben erschweren. Zur Überprüfung dieser These greifen wir auf existierende Analysen von Buchholz und Kurz (2005) bzw. Schmelzer (2005) zurück, die Erwerbseinstiegsprozesse junger Menschen anhand des Deutschen Sozio-oekonomischen Panels bzw. des British Household Panel Survey rekonstruieren. In beiden Studien wurde dabei der Berufseinstieg junger Menschen nach Verlassen des Bildungssystems anhand von ereignisanalytischen Längsschnittmodellen (periodenspezifischen Exponentialmodellen; vgl. Blossfeld & Rohwer 2002) rekonstruiert, wobei die zu erklärende Variable „Übergang in den ersten Beruf“ jeden Einstieg in eine Voll- oder Teilzeit-Stelle umfasst. Diese Modellierung erlaubt Aussagen darüber zu treffen, welchen Einfluss verschiedene Faktoren auf die Dauer vom Verlassen des Bildungssystems bis zum Einstieg in den Arbeitsmarkt haben. Zur expliziten Messung des Effektes der Globalisierung auf den Berufseinstieg junger Menschen verwenden wir dabei den länderspezifischen GlobalIndex als zeitveränderliche Kovariate. Als zusätzliche Kontrollvariablen dienen verschiedene soziodemografische Merkmale wie Geschlecht, Ethnizität, Regionszugehörigkeit sowie die jährliche Arbeitslosenquote, um konjunkturelle Effekte von genuinen Globalisierungseinflüssen unterscheiden zu können. In den Tabellen 1 und 2 (S. 388 f.) sind die Ergebnisse der ereignisanalytischen Modelle angegeben. Die angegebenen Koeffizienten beziehen sich auf die Neigung einer Person, einen Erwerbseinstieg zu haben. Wir beschränken uns bei den folgenden Interpretationen aus illustrativen Gründen primär auf die Effekte des Globalisierungsindex im Hinblick auf den abhängigen Prozess des Berufseinstiegs junger Menschen (für eine ausführlichere Diskussion der Gesamtmodelle vgl. Raab et al. 2008). Die Ergebnisse bestätigen dabei weitgehend die theoretisch erwarteten Effekte. In Deutschland wirken sich sowohl eine schlechtere konjunkturelle Situation als auch die zunehmende Globalisierung negativ auf die „Wartezeit“ vom Ausbildungsabschluss bis zum Berufseinstieg und damit auf die Erwerbseinstiegschancen von jungen Menschen aus. Bemerkenswert ist dabei, dass der negative Einfluss der Globalisierung offenbar über rein ökonomische Effekte hinausgeht; ein Ergebnis, dass die hier vertretene multidimensionale Operationalisierung des Phänomens der Globalisierung und des GlobalIndex eindrucksvoll bestätigt. Auch für Großbritannien weist der GlobalIndex einen eigenständigen Effekt neben dem des konjunkturellen Verlaufs auf. Im Gegensatz 387
Ruland, Raab, Schönberger, Blossfeld, Hofäcker, Buchholz, Schmelzer
Tabelle 1: Übergang in Erwerbstätigkeit nach Verlassen des Bildungssystems (Deutschland) Modell 1
Modell 2
Modell 3
Modell 4
–0.76*** –2.52*** –2.76*** –3.01*** –3.33*** –4.30***
–0.56*** –2.28*** –2.51*** –2.75*** –3.05*** –3.97***
–0.23** –1.94*** –2.16*** –2.40*** –2.70*** –3.62***
1.11*** –0.60 –0.82* –1.06** –1.36*** –2.26***
Geschlecht männlich (ref.) weiblich
–0.17***
–0.16***
–0.17***
Sample Westdeutschland (ref.) Migranten Ostdeutschland
–0.29*** –0.28***
–0.29*** 0.01
–0.30*** –0.05
–0.04***
–0.03** –0.36***
Dauer nach Verlassen des Bildungssystems Bis zu 3 Monate 3–6 Monate 6–9 Monate 9–12 Monate 12–24 Monate Mehr als 24 Monate
Arbeitslosenquote GlobalIndex Anzahl Personen Anzahl Ereignisse Log Likelihood
–4.730,47
–4.692,32
–4.685,03
3.207 2.799 –4.680,27
Quelle: Berechnungen von Sandra Buchholz und Karin Kurz basierend auf Daten des GSOEP (1984–2002) Anmerkungen: Piecewise constant exponential models; *** signifikant bei p < 0.001; ** signifikant bei p < 0.01; * significant bei p < 0.05
zu Deutschland wirkt sich die Globalisierung im britischen Kontext allerdings insofern positiv auf die Chance junger Briten aus, als dass es ihnen mit steigender Globalisierung zunehmend leichter fällt, einen ersten Job zu finden Junge Menschen profitieren in den flexibilisierten britischen Arbeitsmärkten somit zunächst eher von der zunehmenden Globalisierung. Weiterführende Analysen (vgl. Raab et al. 2008) zeigen allerdings, dass der beschriebene Rückgang von Eintrittsbarrieren am britischen Arbeitsmarkt einhergeht mit parallel steigenden Erwerbsunsicherheiten in Form wachsender Arbeitslosigkeitsrisiken. 388
GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung
Tabelle 2: Übergang in Erwerbstätigkeit nach Verlassen des Bildungssystems (Großbritannien) Modell 1
Modell 2
Modell 3
Model 4
Dauer nach Verlassen des Bildungssystems Bis zu 3 Monate –1.25*** 3–6 Monate –2.41*** 6–9 Monate –3.33*** 9–15 Monate –2.81*** Mehr als 15 Monate –3.29***
–1.25*** –2.41*** –3.33*** –2.81*** –3.29***
–0.88*** –2.03*** –2.95*** –2.42*** –2.87***
–2.51*** –3.64*** –4.57*** –4.05*** –4.48***
Geschlecht männlich (ref.) weiblich Region Mittelengland (Ref.) Norden Süden Schottland
0.02
0.03
0.02
–0.06 0.02 –0.02
0.07 –0.00 0.18*
0.04 0.00 0.13
Jugendarbeitslosigkeit GlobalIndex Anzahl Personen Anzahl Ereignisse Log Likelihood
–0.01***
–5.600
–5.590
–5.550
–0.01*** 0.34*** 1.972 1.724 5.420
Quelle: Berechnungen von Paul Schmelzer basierend auf Daten des BHPS (1991–2004)
5 Zusammenfassung Ziel des vorliegenden Beitrags war es, ein soziologisches Messinstrument zur Analyse des Globalisierungsprozesses und seiner Auswirkungen zu entwickeln. Der hier vorgeschlagene ,GlobalIndex‘ stellt ein differenziertes soziologisches Maß zur Analyse des Globalisierungsprozesses für insgesamt 97 Länder im Zeitraum von 1970 bis 2002 dar. Er schließt an frühere Ansätze zur Messung von Globalisierung an, erweitert diese jedoch um zusätzliche Dimensionen und Indikatoren. Als genuin soziologisches Analyseinstrument ermöglicht er sowohl die differenzierte deskriptive Analyse des Verlaufs der Globalisierung als auch die Analyse seiner Auswirkungen durch die Verwendung in Mehrebenenmodellen. 389
Ruland, Raab, Schönberger, Blossfeld, Hofäcker, Buchholz, Schmelzer
Die Messung der Globalisierung stellt insbesondere für die international vergleichende Sozial- und Umfrageforschung ein vielversprechendes Unternehmen dar. Der GlobalIndex kann hier als ein erster Ansatz zur Entwicklung eines soziologisch zufrieden stellenden Maßes der Globalisierung angesehen werden. Die Daten des GlobalIndex sowie nähere Informationen stehen interessierten Forscher auf der Website http://www.transeurope-project.org/globalindex kostenfrei zur Verfügung.
Anmerkungen 1
2 3
4
5
Die Operationalisierung des GlobalIndex erfolgt dabei auf Länderebene. Wenngleich durch die Verwendung nationaler „Mittelwerte“ regionale Unterschiede innerhalb von Ländern nur bedingt erfasst werden können, ist eine tiefer gehende Differenzierung auf raumbezogener bzw. regionaler Ebene aufgrund fehlender Daten leider nicht möglich. Aufgrund unzureichender Imputations-Schätzungen mussten dabei drei Länder aus der Indexkalkulation ausgeschlossen werden. Die Gewichte wurden nicht für jedes Jahr getrennt, sondern – wie beispielsweise auch beim KOF-Globalisierungsindex 2005 – über den kompletten Zeitraum hinweg ermittelt. Dabei wurde der Bevölkerungsumfang der einzelnen Länder berücksichtigt, um ländervergleichbare Werte zu erhalten und eine Über- bzw. Unterschätzung einzelner Länder zu vermeiden. Analoge Differenzierungen lassen sich etwa auch im Hinblick auf spezifische Wirtschaftsregionen oder Wohlfahrtsregime durchführen (vgl. Raab et al. 2008).
Literatur Alasuutari, P. (2000). Globalization and the Nation-State: An Appraisal of the Discussion. Acta Sociologica, 43, 259–269. Beck, U. (1999). Was ist Globalisierung? Irrtümer des Globalismus – Antworten auf Globalisierung. Frankfurt am Main: Suhrkamp. Blossfeld, H-P., & Buchholz, S., & Dirk Hofäcker (Eds.) (2006). Globalization, Uncertainty and Late Careers in Society. London/New York: Routledge. Blossfeld, H-P., & Hofmeister, H. (Eds.) (2006). Globalization, Uncertainty, and Women’s Careers. Cheltenham/Northampton: Edward Elgar. Blossfeld, H-P., & Klijzing, E., & Mills, M., & Kurz, K. (Eds.) (2005). Globalization, Uncertainty and Youth in Society. London/New York: Routledge. Blossfeld, H-P & Mills, M., & Bernardi, F. (Eds.) (2006). Globalization, Uncertainty, and Men’s Careers. Cheltenham/Northampton: Edward Elgar.
390
GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung Buchholz, S., & Kurz, K. (2005). Increasing Employment Instability among Young People? Labor Market Entries and Early Careers in Germany since the Mid-1980s. flexCAREER Working Paper No. 3. Caselli, M. (2005). Measuring . . . What? Notes on some globalization indices. Paper presented at the CSGR 8th Annual Conference ,Regionalisation and the Taming of Globalisation? Economic, Political, Security, Social and Governance Issues‘. University of Warwick. Castells, M. (2001). Das Informationszeitalter 1. Der Aufstieg der Netzwerkgesellschaft. Opladen: Leske+Budrich. Deutscher Bundestag (Hg.) (2002). Schlussbericht der Enquete-Kommission. Globalisierung der Weltwirtschaft. Opladen: Leske + Budrich. Dreher, A. (2006). Does Globalization Affect Growth? Evidence from a new Index of Globalization. Applied Economics, 38, 1091–1110. Dreher, A. (2007). KOF-Globalisierungsindex 2007. Press release 19.01.2007, KOF ETH Zurich. Esping, Andersen, G (1990). The three worlds of welfare capitalism. Cambridge: Polity Press. Esping-Andersen, G. (1993). Post-Industrial Class Structures: an Analytical Framework. In: G. Esping-Andersen (Ed.), Changing Classes (7–31). London: Sage. Fligstein, N. (1998). Is Globalization the Cause of the Crises of Welfare States? European University Institute Working Paper SPS No. 98/5. San Domenico, Italy. Fiss, Peer C., & Hirsch, Paul M. (2005). The Discourse of Globalization: Framing and Sensemaking of an Emerging Concept. American Sociological Review, 70, 29–52. Gwartney, J., & Lawson, R. (2006). Economic Freedom of the World: 2006 Annual Report. Vancouver: The Fraser Institute. Abgerufen am 01.10.2008, Economic Freedom Network Website: www.freetheworld.com. Held, D., & McGrew, A., & Goldblatt, D., & Perraton, J. (2000). Rethinking Globalization. In D. Held & A. McGrew (Eds.), The Global Transformations Reader. An Introduction to the Globalization Debate (54–60). Cambridge: Polity Press. Kearney, A. T. (2001). Measuring Globalisation. Foreign Policy Magazine, 122, 56–65. Lockwood, B. (2001). How Robust is the Foreign Policy/Kearney Index of Globalisation? CSGR Working Paper No. 79/01. Lockwood, B., & Redoano, M. (2005). The CSGR Globalisation Index: an Introductory Guide. Centre for the Study of Globalisation and Regionalisation Working Paper 155/ 04. Mayer, K. U. (2001). The paradox of global social change and national path dependencies, In A. Woodward & M. Kohli (Eds.), Inclusions and Exclusions in European Societies (89–110). New York: Routledge. Meyer, J. W., & Boli, J., Thomas, G. M., & Ramirez, F. O. (1997). World Society and the Nation-State. American Journal of Sociology, 103, 144–181.
391
Ruland, Raab, Schönberger, Blossfeld, Hofäcker, Buchholz, Schmelzer Mills, M., & Blossfeld, H-P. (2005). Globalization and the early life course. A description of selected economic and demographic trends. In H.-P. Blossfeld & E. Klijzing & M. Mills & K. Kurz (Eds.), Globalization, Uncertainty and Youth in Society (1–24). London/ New York: Routledge. Nelson, R. R. (1995). Recent evolutionary theorizing about economic change, Journal of Economic Literature, 33, 48–90. OECD (2005). Measuring Globalisation: OECD Handbook on Economic Globalisation Indicators. Paris: OECD. Plate, B. von (2003). Grundzüge der Globalisierung. Information zur politischen Bildung, 280, 3–6. Raab, M., & Ruland, M., & Schönberger, B., & Blossfeld, H.-P., & Hofäcker, D., & Schmelzer, S., & Buchholz, S. (2008). GlobalIndex – A sociological approach to globalization measurement. International Sociology, 23, 599–634. Roudemetof, V. (2005). Transnationalism, Cosmopolitanism and Glocalisation, Current Sociology, 53 (1), 113–135. Sassen, S. (2001). The Global City. New York, London, Tokyo. Princeton: Princeton University Press. Schmelzer, P. (2005). Increasing Employment Instability among Young People? Labor Market Entries and Early Careers in Great Britain since the 1980s. flexCAREER Working Paper No. 5. Schulze, G. (2003). Die beste aller Welten. Wohin bewegt sich die Gellschaft im 21. Jahrhundert? München/Wien: Carl Hanser Verlag. Schwinn, T. (2006). Konvergenz, Divergenz oder Hybridisierung? Voraussetzungen und Erscheinungsformen von Weltkultur. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 58, 201–232. Sutcliffe, B & Glyn, A (1999). Still underwhelmed: Indicators of globalization and their misinterpretation, Review of Radical Political Economics, 31, 111–132. Varwick, J. (2000). Globalisierung. In W. Woyke (Hg.), Handwörterbuch Internationale Politik (136–147). Bonn: Leske + Budrich, Lizenzausgabe für die Bundeszentrale für politische Bildung.
392
GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung
Anhang Globalisierungsindex: Berücksichtigte Dimensionen und relative Gewichtung Indizes und Variablen A. Ökonomische Globalisierung
Gesamt 31%
i) Wirtschaftsströme Handel (% des BIP) Auslandsdirektinvestitionen (% des BIP) Wertpapier-Anlagen (% des BIP) Einkommenszahlungen an ausländische Staatsangehörige (% des BIP)
50%
ii) Ökonomische Restriktionen Verdeckte Importbeschränkungen Mittlerer Zollsatz Steuern auf Auslandshandel (% des Steuereinkommens) Kapitalzugangsbeschränkungen
50%
B. Sozio-technische Vernetzung
24% 29% 16%
4% 4% 2%
31%
5%
23% 28%
4% 4%
26% 23%
4% 4%
22% 29% 33%
4% 5% 5%
16%
3%
12% 12% 7% 9% 13%
2% 2% 1% 1% 2%
18%
3%
18%
3%
11%
2%
32%
i) Persönlicher Kontakt Ausgehende Telefonverbindungen Transfers (% des BIP) Internationaler Tourismus Ausländische Bevölkerung (% der Gesamtbevölkerung)
50%
ii) Informationsströme Internet-Hosts (pro Kopf) Internetnutzer (pro Kopf) Kabelfernsehen (je 1000 Personen) Tageszeitungen (je 1000 Personen) Radios (je 1000 Personen) Internationaler Buchhandel (in $ pro Kopf) Internationaler Zeitungs- und Zeitschriftenhandel (in $ pro Kopf) Festnetz- und Mobilfunkteilnehmer (pro 1000 Personen)
50%
393
Ruland, Raab, Schönberger, Blossfeld, Hofäcker, Buchholz, Schmelzer
C. Kulturelle Vernetzung
31%
i) Steigerungslogik Stadtbevölkerung (% der Gesamtbevölkerung) Hochtechnologiexporte (% der Güterexporte) Gesamtausgaben für Forschung und Entwicklung (GERD) (% des BIP)
50%
ii) Werte und Normen Freedom House Index (Bürgerrechte, politische Rechte) Einschulungsrate Primarschule (% Gesamt) Einschulungsrate Primarschule, weiblich (% Gesamt) Gesamte öffentliche Bildungsausgaben (% des BIP) Anzahl an McDonald‘s Restaurants (pro 100.000 Personen)
50%
37%
6%
27%
4%
36%
6%
11%
2%
28%
4%
28%
4%
16%
2%
17%
3%
Anzahl an Botschaften
36%
2%
Mitgliedschaft in internationalen Organisationen
36%
2%
Teilnahme an UN-Missionen
29%
2%
D. Politische Globalisierung
394
6%
Christof Wolf, Paul Lüttinger
Christof Wolf, Paul Lüttinger
Verteilung von Proxy-Interviews im deutschen Mikrozensus Zusammenfassung Der deutsche Mikrozensus ist eine amtliche Stichprobe von einem Prozent der Bevölkerung, in der Daten über die Bevölkerung und den Arbeitsmarkt erhoben werden. Er wird seit 1957 im früheren Bundesgebiet und seit 1991 auch in den neuen Bundesländern jährlich erhoben. Bei der Datenerhebung des Mikrozensus sind auch Fremdauskünfte, so genannte Proxy-Interviews zugelassen, d. h., der Mikrozensus enthält sowohl Angaben zu einer Person, die von der Person selbst stammen, als auch solche, die von einer dritten Person erfragt wurden. Der Beitrag beschreibt, in welchem Ausmaß der Anteil von ProxyAuskünften von verschiedenen sozialstrukturellen Merkmalen abhängt, d. h. für welche Merkmale sich die Wahrscheinlichkeit erhöht, dass für eine Person Proxy-Angaben vorliegen.
Abstract Proxy-Interviews in the German Microcensus The German Mikrozensus provides official representative statistics on the population and the labour market, covering 1% of all households in Germany on an annual basis (continuous household sample survey). It is conducted since 1957 in the earlier federal territory and since 1991 also in the new federal states. The data acquisition of the Mikrozensus also allows proxy interviews, i. e. the Mikrozensus contains both data on persons that were reported by the persons themselves and data that were reported by other persons in the household. The contribution describes to which extent the probability of a proxy interview varies with structural characteristics of the person providing the information.
395
Christof Wolf, Paul Lüttinger
1 Einleitung In aller Regel wird in Umfragen angestrebt, Selbstauskünfte zu erheben, d. h. Auskünfte über Merkmale bzw. Eigenschaften der befragten Person. Diesem Ziel liegt die Überzeugung zugrunde, dass Eigenangaben, obwohl auch sie typischerweise fehlerbehaftet sind (Esser, 1986), valider und reliabler sind als Angaben über Dritte, so genannte Proxy-Angaben (Alwin, 2007). Wenngleich Proxy-Angaben eine geringere Qualität als Eigenangaben zugeschrieben wird, sind solche von Ehepartnern, anderen Haushaltsmitgliedern oder Bekannten stammende Angaben sowohl in der amtlichen Statistik als auch in der empirischen Sozialforschung und auch der Marktforschung durchaus nicht unüblich und auch keineswegs nur als „Notlösung“ zu betrachten. Der Hauptgrund dafür, Proxy-Interviews zuzulassen, besteht in der dadurch zu erreichenden Reduktion von Erhebungskosten, da die mehrfache Kontaktaufnahme entfällt. Außerdem kann die Akzeptanz von Proxy-Interviews Ausschöpfungsquoten erhöhen (Schnell, 1997, 22 f.), wenn z. B. die zu befragende Person aufgrund von Krankheit nicht auskunftsfähig oder sie aufgrund einer längeren Abwesenheit während der Feldzeit nicht erreichbar ist. In Folge steigender Umfragekosten und sinkender Teilnahmebereitschaft ist dies durchaus nachvollziehbar. In nahezu allen sozialwissenschaftlichen Umfragen wie z. B. dem ALLBUS oder dem Wohlfahrtssurvey werden demographische Eckdaten wie das Alter und das Geschlecht der Personen, mit denen die befragte Person im Haushalt zusammenlebt, als Proxy-Angaben erhoben. Sehr häufig werden auch Proxy-Angaben zu sozioökonomischen Merkmalen des (Ehe-)Partners, wie etwa seine berufliche Stellung und berufliche Tätigkeit, oder Fragen zu Merkmalen der Eltern, etwa ihren Schulabschluss, oder Angaben zum Geburtsjahr und zum Geschlecht der Kinder, die nicht mehr im Haushalt leben, erhoben. Proxy-Interviews werden jedoch nicht nur eingesetzt, um Informationen über nahe Verwandte und Bekannte zu ermitteln, sondern auch als „eigenständige Methode“, um von Befragten Angaben zu ihren Freunden und Bekannten zu erhalten. In der Netzwerkforschung ist dies das Instrument der egozentrierten Netzwerke, bei dem Fragen z. B. nach dem Beruf, dem Wohnort oder der Parteipräferenz der Freunde und Bekannten gestellt werden (Wolf, 2006). In der nationalen und internationalen amtlichen Statistik werden ProxyInterviews bei Haushaltserhebungen, wie dem Mikrozensus, dem Europäischen Haushaltspanel (ECHP) oder dessen Nachfolgeerhebung European Statistic on Income and Living Conditions (EU-SILC), dem US Labour Force 396
Verteilung von Proxy-Interviews im deutschen Mikrozensus
Survey und den Labour Force Surveys in den europäischen Mitgliedstaaten eingesetzt. Im Gegensatz zu anderen Haushaltsbefragungen, wie beispielsweise dem British Household Panel Survey (BHPS) oder dem US Survey of Income and Program Participation (SIPP), erlaubt der Mikrozensus, dass sämtliche zu erhebende Angaben über Haushaltsmitglieder nicht von diesen selbst, sondern von anderen Haushaltsmitgliedern stammen. Diese Proxy-Interviews sind Gegenstand des vorliegenden Beitrags. Aus Sicht der Forschung stellen sich im Zusammenhang mit Proxy-Angaben im Allgemeinen und Proxy-Interviews im Besonderen zwei Fragen: Zum einen interessiert, ob Proxy-Interviews sich gleichmäßig über verschiedene Bevölkerungsgruppen verteilen oder ob sie in spezifischen Gruppen besonders häufig, in anderen eher selten vertreten sind. Zum anderen ist von Interesse, wie stark sich Selbst- und Proxy-Angaben in der Qualität der Antworten unterscheiden, d. h. inwieweit es Abweichungen zwischen Selbst- und Fremdangaben gibt und welche Auswirkungen dies auf substanzielle Untersuchungen hat. Im vorliegenden Beitrag werden wir uns auf die zuerst genannte Frage konzentrieren. Dazu werden wir im Folgenden zunächst einige theoretische Überlegungen zu den Determinanten von ProxyInterviews diskutieren. Dann stellen wir unsere Datenbasis und Analysestrategie vor. Im Anschluss daran präsentieren wir unsere Ergebnisse und enden schließlich mit einer Zusammenfassung und einigen weiterführenden Überlegungen zu den Konsequenzen unserer Resultate.
2 Theoretische Überlegungen zur Verbreitung von Proxy-Interviews Der Mikrozensus ist nach § 7 des Mikrozensusgesetzes 2005 mit Auskunftspflicht belegt. Dementsprechend finden sich nur sehr geringe Unit-Nonresponse-Raten von circa 6% bei den Haushalten und 4% bei den Personen. Dort wo Unit-Nonresponse auftritt, handelt es sich immer um den Ausfall eines kompletten Haushalts. Unit-Nonresponse innerhalb eines Haushalts kommt dagegen unseres Wissens nach nicht vor. Die uns interessierende Entscheidungssituation sieht somit wie folgt aus: Hat ein Interviewer eine auskunftspflichtige Person eines Mikrozensushaushalts erreicht, gibt es für jede Person in diesem Haushalt die Möglichkeit, die Angaben selbst zu machen, oder aber ein anderes auskunftspflichtiges Haushaltsmitglied gibt die Auskünfte. Geht man davon aus, dass ein Proxy-Interview für die auskunftgebende Person Kosten verursacht, folgt, dass ein Proxy-Interview wahrscheinlich 397
Christof Wolf, Paul Lüttinger
nicht auftritt, wenn die Zielperson leicht erreichbar ist und somit die Auskünfte selbst geben könnte. Allerdings kann es unter bestimmten Bedingungen auch bei Anwesenheit der Zielperson zu einem Proxy-Interview kommen, und zwar dann, a) wenn die Zielperson z. B. aus gesundheitlichen Gründen nicht (oder nicht zu vertretbaren Kosten) in der Lage ist, selbst zu antworten, oder b) wenn es dem Selbstverständnis der auskunftgebenden Person entspricht, den Haushalt nach außen zu vertreten. Die Faktoren, die die Wahrscheinlichkeit für ein Proxy-Interview beeinflussen, können unterschieden werden in solche, die die Erreichbarkeit beeinflussen, und solche, die die Auskunftswilligkeit bzw. Auskunftsfähigkeit betreffen. Die Erreichbarkeit einer Person ist eine Funktion ihrer Verpflichtungen außerhalb und innerhalb des Haushalts. Diese Verpflichtungen werden mit dem Erwerbsstatus, dem Alter, dem Geschlecht und der Größe sowie der Zusammensetzung des Haushaltes variieren (Stoop 2005: 66 f.). Proxys sollten eher für Erwerbstätige als für Nichterwerbstätige vorkommen. Dies sollte umso mehr gelten, wenn schwer erreichbare mit leicht erreichbaren Personen zusammen wohnen: D. h. wenn ein Vollzeitbeschäftigter mit einem nicht erwerbstätigen Ehepartner zusammenwohnt, sollte dies die Wahrscheinlichkeit für ein Proxy-Interview erhöhen. Schwer erreichbare Personen sind weiterhin jüngere, sich in der Ausbildung befindliche Personen. Ähnlich lassen sich Befunde deuten, nach denen Großstädter seltener erreicht werden als Personen in kleineren Orten und Personen in großen Mehrfamilienhäusern bzw. Hochhäusern seltener als Personen in Einfamilienhäusern. Da es sich beim Mikrozensus um eine Haushaltsbefragung handelt, bei der auch Angaben zum Haushalt insgesamt erhoben werden, kann schließlich erwartet werden, dass die Wahrscheinlichkeit eines Proxy-Interviews bei den Haushaltsmitgliedern höher ist, die nicht zur Generation der Haushaltsbezugsperson bzw. des Haupteinkommensbeziehers gehören. Also sollte für Kinder, die bei ihren Eltern wohnen, und für Elternteile, die bei ihren Kindern wohnen, ein höherer Anteil von Proxy-Interviews beobachtet werden. Außerdem kann generell erwartet werden, dass die Proxy-Quote in großen Haushalten höher ist, da es unwahrscheinlich wird, dass jedes einzelne Haushaltsmitglied persönlich angetroffen wird (Biemer & Lyberg, 2003, 286). Leicht erreichbar sind dagegen insbesondere Personen, die nicht erwerbstätig sind (z. B. Rentner), oder solche, die Kinder zu betreuen haben (vgl. Sodeur, 2007). Wie Kohler (2007) zeigt, gilt diese Vermutung wahrscheinlich eher für Frauen, die nicht vollzeiterwerbstätig sind und mit vollzeiterwerbstätigen Männern zusammenleben, jedoch wahrscheinlich nicht 398
Verteilung von Proxy-Interviews im deutschen Mikrozensus
umgekehrt. Nach Hoffmeyer-Zlotnik (2006) hat hier ein Rollenwandel stattgefunden. Während bei jüngeren Paaren beide den Haushalt nach außen vertreten und es von den Randbedingungen abhängt, wer erreicht wird – also z. B. von der Erwerbstätigkeit der Frau und des Mannes sowie dem Vorhandensein von jüngeren Kindern –, berichtet Hoffmeyer-Zlotnik, dass bei älteren Paaren der Mann den Haushalt nach außen vertritt. Dies bringt uns zur Auskunftswilligkeit. Die Auskunftswilligkeit, d. h. die Bereitschaft, mit Fremden zu kommunizieren, sowie die Auskunftsfähigkeit sollten sich ebenfalls deutlich auf die Wahrscheinlichkeit eines Proxy-Interviews auswirken. Dabei dürfte neben dem Bildungsabschluss als allgemeines Merkmal, insbesondere die Nationalität und die daran gekoppelte Sprachkompetenz eine wichtige Rolle spielen, insbesondere bei Selbstausfüllern oder Telefoninterviews.1 So werden insbesondere (ältere) Ausländer mit schlechten Deutschkenntnissen eher ihre Kinder antworten lassen. Aufgrund von Krankheit eingeschränkt auskunftsfähige Personen, deren Anteil sich mit zunehmendem Alter erhöhen dürfte (Hoffmeyer-Zlotnik, 2006, 26), werden sich durch andere Haushaltsmitglieder (Ehe- oder Lebenspartner) vertreten lassen.
3 Datengrundlage Die Datengrundlage für die im Folgenden präsentierten Analysen ist das Scientific Use File (SUF) des Mikrozensus 2005. Der Mikrozensus in Deutschland ist eine amtliche Haushaltsstichprobe von einem Prozent der Bevölkerung, in der Daten über die Bevölkerung und den Arbeitsmarkt erhoben werden. Er wird seit 1957 im früheren Bundesgebiet und seit 1991 auch in den neuen Bundesländern jährlich erhoben. Grundlage der Auswahl ist die gesamte wohnberechtigte Bevölkerung Deutschlands, zu der im Jahr 2005 über 80 Millionen Menschen gehörten. Der Mikrozensus ist die größte laufende Stichprobe in Europa (vgl. z. B. Emmerling & Riede, 1997; Hartmann, 1989; Lüttinger & Riede, 1997). Die Rechtsgrundlage des Mikrozensus ist das Gesetz zur „Durchführung einer Repräsentativstatistik über die Bevölkerung und den Arbeitsmarkt“ (Mikrozensusgesetz). In diesem wird auch geregelt, dass es für den Großteil der Fragen eine Auskunftspflicht gibt. Diese Auskunftspflicht erstreckt sich auch auf Proxy-Interviews. „Auskunftspflichtig sind . . . alle Volljährigen oder einen eigenen Haushalt führenden Minderjährigen, auch für minderjährige Haushaltsmitglieder und für volljährige Haushaltsmitglieder, die we399
Christof Wolf, Paul Lüttinger
gen einer Behinderung nicht selbst Auskunft geben können; in Gemeinschafts- und Anstaltsunterkünften ist für Minderjährige und für volljährige Personen, die wegen einer Behinderung nicht selbst Auskunft geben können, die Leitung der Einrichtung auskunftspflichtig; die Auskunftspflicht für Minderjährige oder die Personen, die wegen einer Behinderung nicht selbst Auskunft geben können, erstreckt sich nur auf die Sachverhalte, die dem Auskunftspflichtigen bekannt sind; sie erlischt, soweit eine von der behinderten Person benannte Vertrauensperson Auskunft erteilt“ (§ 7 (2) des Mikrozensusgesetzes 2005). Generell ist es den volljährigen Haushaltsmitgliedern allerdings freigestellt, wer für eine andere Haushaltsperson Auskunft erteilt (Statistische Ämter des Bundes und der Länder, 2004, 16). Die Art der Beteiligung am Mikrozensus, d. h. ob Selbst- oder Fremdauskünfte vorliegen, wurde 1999 erstmals im Rahmen der EU-Arbeitskräftestichprobe erhoben und ist in den Scientific Use Files der Mikrozensen ab 1999 ausgewiesen. Der Anteil der Proxy-Interviews für Personen ab 15 Jahren lag bei den Mikrozensen ab 1999 durchschnittlich bei circa einem Viertel (Lechert & Schimpl-Neimanns, 2007, 3) und entspricht damit in etwa den durchschnittlichen Proxy-Anteilen der meisten EU Labour Force Surveys, der zwischen 25% und 30% liegt, wobei die höchsten Anteile in den LFS-Erhebungen der Slowakei (61,6%), Sloweniens (57,6%) und Spaniens (52,9%) zu finden sind.2 In die folgenden Analysen wird nur die Risikopopulation einbezogen, also Personen, für die sowohl eine Selbst- wie auch eine Fremdangabe vorliegen könnte. Diese Abgrenzung schließt zunächst alle Personen unter 15 Jahren aus, da für diese keine Selbstauskünfte eingeholt werden. Außerdem werden Personen in Ein-Personen-Haushalten ausgeschlossen, weil für diese kein anderes Haushaltsmitglied Auskünfte geben könnte. Schließlich wird die Anstaltsbevölkerung ausgeschlossen, da für diese nahezu ausschließlich Proxy-Angaben vorliegen. Es verbleiben somit alle über 14-Jährigen, die in Privathaushalten mit mindestens zwei über 14-jährigen Personen leben. Um Doppelzählungen zu vermeiden, sind die Analysen auf die Bevölkerung am Ort der Hauptwohnung beschränkt. Von den insgesamt 477.239 Fällen im SUF des Mikrozensus 2005, der unseren weiteren Analysen zugrunde liegt, gehören 313.578 Fälle zur oben beschriebenen Risikogruppe in Privathaushalten. Für 5,6% dieser Gruppe liegen jedoch keine Angaben dazu vor, ob es sich um Selbst- oder Fremdauskünfte handelt. Damit reduziert sich der Datensatz auf 295.309 Personen. Die Datenerhebung erfolgt beim Mikrozensus traditionell durch Interviewer in einem persönlichen Interview mittels eines standardisierten Fragebo400
Verteilung von Proxy-Interviews im deutschen Mikrozensus
gens. Diese Form der Befragung erfolgt heute als computerunterstütztes Interview (Computer Assisted Personal Interview, CAPI).3 Seit 1996 gibt es zudem die Möglichkeit, den Fragebogen (mittels eines eigenen Fragebogens) selbst auszufüllen (Self Administered Questionnaire SAQ).4 Schließlich darf, seit dem Mikrozensus 2004, die Befragung auch telefonisch erfolgen; dies geschieht ebenfalls computerunterstützt (Computer Assisted Telephone Interview, CATI). Leider ist die Information über die Art der Beteiligung (Interviewer, Selbstausfüllerfragebogen, Telefon) nicht im Scientific Use File des Mikrozensus 2005 enthalten, so dass für den Mikrozensus 2005 keine Aussagen darüber gemacht werden können, ob die Proxy-Quote systematisch nach der Art der Beteiligung variiert. Wir konnten allerdings für den Mikrozensus 2006, der erst kurz vor der Drucklegung des Artikels zur Verfügung stand, diesen Zusammenhang überprüfen. Dabei betrachten wir nur die „Population unter Risiko“, also diejenigen, für die potenziell ein Proxy-Interview vorliegen kann (siehe oben). Tabelle 1 zeigt, dass der Anteil der Proxy-Interviews deutlich nach der Erhebungsform variiert. Der durchschnittliche Anteil an Proxy-Interviews beträgt im Mikrozensus 2006 30,8%. Deutlich erhöht ist dieser Anteil mit 43,8% bei den Telefoninterviews. Bei den Telefoninterviews besteht die Tendenz, dass (wahrscheinlich) der den Anruf beantwortende Erwachsene auch die Auskünfte für die anderen Mitglieder des Haushaltes gibt. Allerdings beträgt der Anteil von Telefoninterviews an allen Interviews lediglich 2,3%. Den geringsten Anteil an Proxy-Antworten beobachten wir für die Selbstausfüllerfragebogen mit nur knapp einem Fünftel. In diesen Fällen wird der Fragebogen im Haushalt sukzessive von allen Mitgliedern beantwortet (der Anteil der Selbstausfüllerfragebögen an allen Interviews beträgt 16,7%). Tabelle 1: Proxy-Interviews nach Art der Erhebung im Mikrozensus 2006 (in Prozent)
CAPI
Datenerhebungsmodus SAQ CATI
Selbstauskünfte Proxy-Interviews
67,4 32,6
79,5 20,5
56,2 43,8
Total (= 100 %)
262.288
54.072
7.468
Zur Abgrenzung der Risikopopulation siehe Text. Datenbasis: SUF Mikrozensus 2006.
401
Christof Wolf, Paul Lüttinger
4 Ergebnisse Von der im letzten Abschnitt beschriebenen Risikogruppe liegen für 68,4% Selbstangaben und für 31,6% Proxy-Angaben vor. Der Anteil mit Proxy-Angaben variiert jedoch stark zwischen verschiedenen Bevölkerungsgruppen. Betrachten wir zunächst die Variationen nach dem Alter (Tabelle 2). Hier zeigt sich deutlich der erwartete u-förmige Verlauf. Unter den Jüngsten beträgt die Proxy-Quote annähernd 80%. Bis zu den 30-Jährigen fällt diese Quote steil auf unter 30% ab, um anschließend bis zu den 65-Jährigen weiter zurückzugehen, allerdings weniger stark. Mit weniger als 19% werden die niedrigsten Anteile von Proxy-Angaben bei Personen im Alter zwischen 65 und 74 Jahren beobachtet. Ab 75 Jahren steigt der Anteil von Drittangaben wieder relativ steil an und erreicht bei den über 90-Jährigen deutlich über 50%. Tabelle 2: Proxy-Interviews nach Alter und Stellung im Haushalt (in Prozent) Insgesamt 15–19 Jahre 20–24 Jahre 25–29 Jahre 30–34 Jahre 35–39 Jahre 40–44 Jahre 45–49 Jahre 50–54 Jahre 55–59 Jahre 60–64 Jahre 65–69 Jahre 70–74 Jahre 75–79 Jahre 80–84 Jahre 85 und älter Gesamt eta Fallzahl
Mit Partner Männer Frauen
Sonstige
78,7 61,0 38,7 28,9 26,4 25,8 24,7 24,9 24,3 20,2 18,1 18,2 19,4 24,7 40,1
* 23,9 25,3 27,6 28,3 28,7 27,9 26,1 23,7 17,3 14,7 13,8 13,4 15,1 22,2
27,2 24,6 23,8 23,4 22,5 23,1 23,3 25,0 25,9 23,7 22,0 22,4 24,1 27,6 35,5
79,7 74,9 72,9 63,6 55,9 55,4 40,6 39,0 25,3 * * * – – –
63,0 38,1 28,3 25,7 15,0 10,5 08,8 11,7 13,3 14,4 19,6 27,1 37,0 48,4 67,9
31,6 0,38 295.115
22,7 0,14 115.945
23,7 0,03 115.952
74,8 0,20 47.565
23,3 0,39 15.653
* weniger als 100 Personen; – keine Personen Datenbasis: SUF Mikrozensus 2005.
402
Ledige Kinder
Verteilung von Proxy-Interviews im deutschen Mikrozensus
Eine weitere Differenzierung nach dem Geschlecht zeigt zunächst, dass der Anteil der Proxy-Interviews unter Männern mit 33% geringfügig über dem Anteil der Frauen liegt (30%). Betrachten wir jedoch nur Männer und Frauen, die mit ihrem (Ehe-)Partner zusammenleben, und gliedern weiter nach dem Alter der Befragten auf, dann zeigt sich die erwartete altersspezifische Geschlechtsdifferenzierung. Bei Paaren im Alter bis 54 Jahre kann eine deutlich höhere Proxy-Quote für Männer festgestellt werden. Bei älteren Paaren dagegen dreht sich dieses Verhältnis um, und der Anteil der Proxy-Interviews für Frauen liegt um etwa 10 Prozentpunkte über dem der Männer (vgl. Tabelle 2, S. 402). Dieses Ergebnis kann dahin gehend gedeutet werden, dass der Haushalt bei älteren Paaren nach außen eher von Männern vertreten wird, während es unter den jüngeren Paaren keine entsprechend starke Aufgabenteilung gibt und die Frage nach der Vertretung des Haushalts nach der Verfügbarkeit entschieden wird. Sind Kinder unter 15 Jahren im Haushalt, steigt die Proxy-Quote von Männern um 7 Prozentpunkte (von 31% auf 38%), während sich für Frauen kein Unterschied ergibt. Eine Analyse des Proxy-Anteils nach der Haushaltsgröße zeigt den erwarteten positiven Zusammenhang. Während bei Zwei-Personen-Haushalten die Proxy-Quote unter 25% liegt, beträgt sie bei den Haushalten mit sieben und mehr Personen zwei Drittel. Doch nicht nur die Haushaltsgröße, auch die Stellung im Haushalt beeinflusst, ob ein Proxy-Interview durchgeführt wurde. Für (ledige) Kinder, die bei ihren Eltern leben, beträgt die ProxyQuote 75%! Für andere Haushaltsmitglieder liegt diese Quote dagegen lediglich bei 23–24%. Werden diese Angaben noch nach der Staatsangehörigkeit differenziert, zeigt sich erwartungsgemäß eine deutlich erhöhte Proxy-Quote für Ausländer (32% zu 22% für Ehemänner, 36% zu 23% für Ehefrauen und 35% zu 23% bei anderen erwachsenen Haushaltsmitgliedern; vgl. Abbildung 1, S. 404). Bei den Kindern dreht sich das Verhältnis allerdings um: Während für 76% der deutschen Kinder Proxy-Angaben vorliegen, sind es nur 61% bei ausländischen Kindern. Dieses Ergebnis, das aufgrund der Ergebnisse der Umfrageforschung erwartet worden war, beruht auf den teilweise schlechten Sprachkenntnissen erwachsener Ausländer, die sich beim Umgang mit (deutschen) Behörden oder Ärzten von ihren Kindern helfen lassen. [abb01] Eine weitere Hypothese betraf den Zusammenhang zwischen der Bildung und der Auskunftswilligkeit. Als Indikatoren der Bildung greifen wir auf den schulischen und den beruflichen Abschluss zurück. Tabelle 3 (S. 405) gibt die relative Zahl der Proxy-Interviews für verschiedene Schulabschlüsse nach Altersgruppen und Geschlecht wieder. Zunächst zeigt 403
Christof Wolf, Paul Lüttinger
Abbildung 1: Proxy-Interviews nach Stellung im Haushalt und Staatsangehörigkeit
Datenbasis: SUF Mikrozensus 2005
sich, dass die oben erwähnten Zusammenhänge zwischen Alter, Geschlecht und Proxy-Angaben für jede Bildungsstufe gelten. Mit dem Alter sinkt die Proxy-Quote, wobei sie in den jüngeren Gruppen bei den Männern, in den älteren Gruppen bei den Frauen höher ist. Für die Schulabschlüsse weist die Tabelle ein deutliches Bildungsgefälle auf: Je niedriger der Schulabschluss, desto höher der Anteil von Proxy-Angaben, wobei insbesondere diejenigen ohne Abschluss durch eine hohe Proxy-Quote ins Auge fallen. Es mag sein, dass diese recht kleine Gruppe (ca. 3%) teilweise Schwierigkeiten hat, einer Befragung zu folgen. In Bezug auf die berufliche Ausbildung fallen die Unterschiede deutlich geringer aus. Allerdings ist auch hier tendenziell mit steigendem Abschluss eine Abnahme der ProxyInterviews feststellbar (keine Tabelle). 404
Verteilung von Proxy-Interviews im deutschen Mikrozensus
Tabelle 3: Proxy-Interviews nach Schulabschluss, Alter und Geschlecht (in Prozent) 15–29
30–44
45–59
60+
Frauen Keinen Hauptschulabschluss Realschulabschluss (Fach-)Abitur eta Fallzahl
55,3 44,7 48,3 51,2 0,05 21.053
37,0 24,9 20,5 23,0 0,08 39.105
38,5 24,2 20,9 23,4 0,07 38.891
33,9 23,9 24,4 26,6 0,04 38.988
Männer Keinen Hauptschulabschluss Realschulabschluss (Fach-)Abitur eta Fallzahl
63,3 60,6 62,3 61,1 0,02 22.551
38,9 32,7 31,0 28,8 0,04 36.655
32,6 27,1 25,9 24,4 0,03 36.693
27,8 16,9 12,9 12,0 0,08 43.132
Datenbasis: SUF Mikrozensus 2005.
Die Erwerbstätigkeit steht nicht im Zusammenhang zum Befragungsstatus. Wird allerdings nach dem Umfang der Arbeitszeit differenziert, zeigt sich ein u-förmiger Zusammenhang. Bei den Nichterwerbstätigen beobachten wir eine Proxy-Quote von 32%. Bei den Personen, die stundenweise bis zu 19 Stunden erwerbstätig sind, liegt der Anteil der Proxy-Angaben lediglich bei 25% und steigt dann kontinuierlich bis auf 35% für diejenigen, die 40 Stunden und mehr pro Woche arbeiten. Betrachtet man nur Paare und unterscheidet Paare mit und ohne jüngere Kinder im Haushalt, dann ergeben sich die in Tabelle 4 (S. 406) dargestellten Ergebnisse. Unter Paaren ohne jüngere Kinder im Haushalt ist der Prozentsatz der Proxy-Interviews der Frauen nahezu immer höher als derjenige der Männer. Nur in den Partnerschaften, in denen die Männer 40 Stunden und mehr und die Frauen höchstens 39 Stunden pro Woche arbeiten, zeigen sich höhere Proxy-Quoten der Männer. Ganz anders sieht es aus, wenn jüngere Kinder zum Haushalt gehören. Dann sind die Proxy-Quoten der Partner entweder nahezu ausgeglichen (± 2 Prozentpunkte) oder die Quoten der Männer liegen über denjenigen der Frauen. Letzteres gilt insbesondere dann, wenn der Mann 40 Stunden pro Woche und mehr arbeitet, und zwar unabhängig davon, wie viel die Frau arbeitet. 405
Christof Wolf, Paul Lüttinger
Tabelle 4: Differenz der Proxy-Quoten von Männern und Frauen nach Ausmaß der Erwerbstätigkeit und dem Vorhandensein von Kindern unter 15 Jahren im Haushalt, nur (Ehe-)Paare (Prozentpunkte) a) Keine Kinder unter 15 Jahren nicht erwerbst. Erwerbstätigkeit des Mannes
nicht erwerbstätig bis 19 Stunden 20 bis 39 Stunden 40 Stunden u. mehr
–8,4 –11,1 –7,1 4,4
Erwerbstätigkeit der Frau bis 20 bis 19 Std 39 Std –5,6 –9,9 –2,1 11,3
–10,5 –8,8 –3,4 5,4
40 Std u. m. –9,4 –16,8 –9,8 –0,1
b) Kinder unter 15 Jahren im Haushalt nicht erwerbst. Erwerbstätigkeit des Mannes
nicht erwerbstätig bis 19 Stunden 20 bis 39 Stunden 40 Stunden u. mehr
–1,3 –0,9 –5,8 10,4
Erwerbstätigkeit der Frau bis 20 bis 19 Std 39 Std 0,4 1,6 4,1 16,3
3,2 –1,2 2,6 14,0
40 Std u. m. –2,6 –15,2 0,0 7,6
Datenbasis: SUF Mikrozensus 2005
Die beiden letzten hier analysierten Merkmale haben mit dem Wohnort bzw. dem Wohnhaus der Befragten zu tun. Untersuchen konnten wir die Ortsgröße und die Größe des Gebäudes, in dem die befragte Person lebt. Der Einfluss der Ortsgröße ist gering und steht teilweise im Widerspruch zu unserer Erwartung. Es zeigt sich ein u-förmiger Zusammenhang mit höheren Proxy-Quoten in der Gruppe der kleinsten und größten Orte und weniger Proxy-Interviews in den mittelgroßen Wohnorten. Für die Gebäudegröße finden wir eine monoton fallende Beziehung: Je größer das Gebäude, desto kleiner der Proxy-Anteil. Zum Abschluss unserer Analysen präsentieren wir die Ergebnisse einer logistischen Regression. Mit Hilfe dieses Modells untersuchen wir die gemeinsame Wirkung der bisher untersuchten Faktoren auf die Wahrscheinlichkeit eines Proxy-Interviews. Die Ergebnisse dieser Analyse sind in Tabelle 5 (S. 408) zusammengestellt. In Bezug auf das Alter bestätigt sich der de406
Verteilung von Proxy-Interviews im deutschen Mikrozensus
skriptiv gefundene kurvilineare Effekt, der hier als quadratisch modelliert wird. Die geringsten Proxy-Quoten weisen Personen im mittleren Alter auf, während diese zu den Rändern der Altersverteilung hin deutlich ansteigen. Ebenso zeigt sich ein starker Einfluss der Haushaltsgröße auf die Wahrscheinlichkeit eines Proxy-Interviews. Mit jedem weiteren Haushaltsmitglied über 14 Jahre steigt die relative Change auf ein Proxy-Interview um nahezu 30%. Ebenso zeigt sich der Einfluss der Zusammensetzung des Haushalts auch in der multivariaten Analyse. Für Personen, die noch bei ihren Eltern wohnen, liegt 4,5-mal häufiger eine Fremdauskunft vor als für andere Personen. Für Frauen, die mit ihrem Partner, aber ohne Kinder unter 15 Jahren leben, liegen häufiger Fremdauskünfte vor als für Männer in ebensolchen Haushalten. Betrachten wir dagegen Männer in Haushalten mit jüngeren Kindern, dann drehen sich die Verhältnisse um: Hier liegen deutlich mehr Fremdauskünfte für Männer als für Frauen vor. Ähnlich wie die Zusammensetzung der Haushalte wirkt sich die Erwerbsbeteiligung und das Ausmaß der Erwerbstätigkeit bei Männern und Frauen unterschiedlich auf die Proxy-Quoten aus. Zum einen ist der Einfluss dieser Faktoren bei Frauen geringer als bei Männern, zum anderen zeigt sich bei Frauen im Vergleich von Nicht-Erwerbstätigen zu solchen, die weniger als 40 Stunden pro Woche arbeiten, eine Verringerung der Proxy-Quoten, während unter den Männern die Wahrscheinlichkeit einer Fremdauskunft von der Nichterwerbstätigkeit über die Erwerbsbeteiligung bis 39 Stunden pro Woche bis zu einer größeren Erwerbsbeteiligung hin ansteigt. Unsere oben geäußerte allgemeine Vermutung, dass die Erreichbarkeit negativ mit dem Ausmaß der Erwerbstätigkeit variiert, muss nach den vorliegenden Ergebnissen modifiziert werden. Dies scheint nur für Männer, nicht jedoch für Frauen zu gelten. Der Einfluss der Ortsgröße verschwindet im multivariaten Modell nahezu vollständig. Lediglich eine geringfügig höhere Rate von Fremdauskünften in Großstädten kann konstatiert werden (ca. 8%). Einen etwas größeren Einfluss hat die Gebäudegröße. Relativ zu kleinen Gebäuden (1 bis 4 Wohnungen) ist der Anteil an Proxy-Interviews in mittleren (5 bis 10 Wohnungen) und größeren Gebäuden (11 und mehr Wohnungen) niedriger.5 Auch dieser Befund steht im Widerspruch zu unserer Erwartung. Schließlich kommen wir noch zu den zwei Merkmalen, die unseres Erachtens Indikatoren für die Auskunftswilligkeit bzw. -fähigkeit sind, die Bildung und die Nationalität. Die Ergebnisse der multivariaten Analyse decken sich mit denen der oben präsentierten deskriptiven Analysen und sind mit unseren Erwartungen kompatibel. Für Menschen ohne deutsche Staatsbürgerschaft liegen 40% häufiger Fremdauskünfte vor als für Deutsche. Ähnlich 407
Christof Wolf, Paul Lüttinger
verhält es sich mit Menschen ohne einen Schul- oder beruflichen Abschluss, bei denen Fremdauskünfte etwa 30% bzw. 20% häufiger beobachtet werden. Offensichtlich gelingt es – ähnlich wie auch in anderen Umfragen – im Mikrozensus nicht, Menschen, die mit dem Deutschen oder mit der Schriftsprachlichkeit im Allgemeinen Probleme haben, in gleichem Maße zur Teilnahme zu bewegen wie andere. Tabelle 5: Logistische Regression des Proxy-Status auf ausgewählte Merkmale
Alter (in Dekaden, zentriert bei 40 Jahren) Alter quadriert Anzahl Haushaltsmitglieder über 14 Jahre Eltern im Haushalt Männlich Partner im Haushalt Männlich x Partner Kind unter 15 im Haushalt Männlich x Kind unter 15 im Haushalt Arbeitszeit (Ref. nicht erwerbstätig) bis 19 Stunden 20 bis 39 Stunden 40 Stunden und mehr Männlich x Arbeitszeit (Ref. nicht erwerbst.) bis 19 Stunden 20 bis 39 Stunden 40 Stunden und mehr Ortsgröße (Ref. unter 20.000) 20.000 bis unter 50.000 50.000 bis unter 100.000 100.000 und mehr Gebäudegröße (Ref. klein) Mittel Groß Neubau Gemeinschaftsunterkunft/Anstalt Schulabschluss (Ref. (Fach-)Abitur) keinen Abschluss Hauptschulabschluss Realschulabschluss
408
B
SE
eB
–0,137 0,052 0,253 1,506 –0,051+ 0,194 –0,414 –0,076 0,432
0,006 0,002 0,006 0,028 0,025 0,022 0,025 0,016 0,021
0,872 1,053 1,288 4,510 0,951+ 1,214 0,661 0,926 1,540
–0,178 –0,055 0,099
0,022 0,017 0,020
0,837 0,947 1,104
0,243 0,218 0,494
0,050 0,025 0,024
1,275 1,243 1,638
–0,013ns –0,002ns 0,079
0,011 0,015 0,016
0,987ns 0,998ns 1,082
–0,178 –0,156 –0,068 0,065ns
0,014 0,018 0,013 0,124
0,837 0,856 0,935 1,067ns
0,259 –0,005ns –0,077
0,029 0,016 0,016
1,296 0,995ns 0,926
Verteilung von Proxy-Interviews im deutschen Mikrozensus
Ausbildung (Ref. (Fach-)Hochschule) keine Ausbildung Ausbildung (nicht akademisch) Ausländer Konstante
0,194 0,125 0,341 –2,049
-2 loglikelihood Nagelkerke R²
0,022 0,020 0,018 0,034
1,214 1,133 1,406 0,129 296030 17,1
ns: nicht signifikant; + 0,01 < p < 0,05; ansonsten gilt p < 0,01. Datenbasis: SUF Mikrozensus 2005.
5 Schluss In diesem Artikel haben wir untersucht, mit welchen Merkmalen das Vorliegen von Fremdauskünften, so genannte Proxy-Interviews, im Mikrozensus variieren. Wir sind davon ausgegangen, dass die Wahrscheinlichkeit eines Proxy-Interviews mit ähnlichen Faktoren variiert und in ähnlicher Weise erklärt werden kann wie die Erreichbarkeit und Befragungsbereitschaft von Befragten in sozialwissenschaftlichen Umfragen. Analytisch lassen sich unseres Erachtens die Erreichbarkeit und die Bereitschaft bzw. Befähigung zur Befragung unterscheiden. In Ermangelung direkter Indikatoren für diese beiden übergeordneten Faktoren haben wir argumentiert, dass die zur Verfügung stehenden demographischen und sozioökonomischen Variablen diesen Konzepten zugeordnet werden können. Wir hatten erwartet, dass die Erreichbarkeit mit dem Alter, der Größe und Zusammensetzung der Haushalte, dem Geschlecht, der Wohnortgröße und der Gebäudeart variieren sollte. Die Befragungsbereitschaft bzw. -befähigung sollte sich dagegen v. a. nach der Bildung und der Nationalität unterscheiden. Untersucht haben wir diese Vermutungen auf der Grundlage des Scientific Use File des Mikrozensus 2005. Die Ergebnisse unserer Analysen haben nicht alle unsere Erwartungen bestätigt. Insbesondere zeigte sich, dass die Zusammensetzung der Haushalte, die Erwerbstätigkeit und das Ausmaß der Erwerbsbeteiligung für Männer und Frauen sehr unterschiedliche Effekte haben. Frauen weisen höhere Proxy-Quoten auf als Männer, wenn sie mit einem Partner zusammenleben und wenn sie nicht erwerbstätig sind. Bei Männern dagegen ist die Rate an Fremdauskünften höher als bei Frauen, wenn sie mit einem jüngeren Kind zusammenleben oder wenn sie erwerbstätig, insbesondere vollzeiterwerbstätig sind. Im Gegensatz zu diesen Faktoren hat die Ortsgröße und die Gebäudegröße nur eine untergeordnete Bedeutung für die Erreichbarkeit. 409
Christof Wolf, Paul Lüttinger
Deutlich bestätigt haben sich unsere Erwartungen, dass Menschen mit geringer Bildung oder Menschen mit schlechten Kenntnissen der deutschen Sprache schwerer befragbar sind. Entsprechend haben wir für diese Personen höhere Raten an Proxy-Interviews gefunden. Es bleibt die entscheidende Frage nach den Auswirkungen von ProxyInterviews auf die Datenqualität im Mikrozensus und damit auf die Validität der Ergebnisse, die auf Basis des Mikrozensus gewonnen werden. Auch wenn wir diese Frage hier nicht beantworten können, wollen wir zum Abschluss doch einige erste Überlegungen und allererste Ergebnisse zu diesem Problem diskutieren. Zunächst muss festgestellt werden, dass die Möglichkeit von Proxy-Interviews im Mikrozensus zu einem sehr geringen UnitNonresponse führt. Die weitgehende Abdeckung der Bevölkerung, die durch die Teilnahmepflicht erreicht wird, ist neben dem Stichprobenumfang die zentrale Stärke des Mikrozensus. Dennoch muss gefragt werden, welchen Einfluss die Proxy-Angaben auf die Qualität des Mikrozensus haben. Sudman, Bradburn & Schwarz (1996, 243) kommen auf Basis eines kognitiven Modells der Antwortgenerierung und verschiedener Analysen zu dem Schluss, dass Proxy-Angaben zu Verhalten, aber auch zu Einstellungen kaum ein Qualitätsproblem darstellen. Andere Autoren dagegen weisen auf die geringere Reliabilität (Alwin, 2007, 152 f.) und teilweise Verzerrungen von Fremdangaben hin (Groves et al., 2004, 230; Pappi & G. Wolf, 1984). Allerdings besteht die Schwierigkeit der meisten Analysen in diesem Feld darin, dass es sich, wie auch im Mikrozensus, nicht um experimentell beobachtete Daten handelt; also nicht systematisch variiert wurde, welche Personen unter welchen Bedingungen eine Selbst- oder eine Fremdauskunft zu geben haben (vgl. Moore 1988 für eine Kritik solcher Studien; siehe Schwarz & Wellens, 1997 für entsprechende Experimente). Für den Mikrozensus kommen Köhne-Finster & Lingnau (2008) zu dem Schluss, dass Proxy-Angaben zumindest bei erwerbsstatistischen Merkmalen keinen großen Einfluss auf die Datenqualität haben (ähnlich auch Statistische Ämter des Bundes und der Länder, 2008; eine gegenteilige Einschätzung findet sich in Statistisches Bundesamt, 2006, 8). Im Gegensatz dazu zeigen sich in unseren eigenen ersten Analysen durchaus kleinere Unterschiede zwischen den Selbst- und Fremdauskünften im Mikrozensus (vgl. auch Zühlke, 2008). Beispielsweise enden ganzzahlige Angaben bei ProxyInterviews häufiger mit den Ziffern null oder fünf (Ähnliches berichten z. B. West, Robinson & Bentley, 2005 für den amerikanischen Zensus). Wären die Proxy-Interviews zufällig über die Stichprobe verteilt, würden sich mögliche Fehler oder Ungenauigkeiten nur auf Punktschätzer auswirken – z. B. den Anteil der geringfügig Beschäftigten. Da jedoch, wie wir hier deutlich 410
Verteilung von Proxy-Interviews im deutschen Mikrozensus
zeigen konnten, die Wahrscheinlichkeit eines Proxy-Interviews und damit die Wahrscheinlichkeit eines systematischen Fehlers in engem Zusammenhang zu Merkmalen der Sozialstruktur stehen, werden sich die entstehenden Verzerrungen für verschiedene Bevölkerungsteile unterscheiden. Dies scheint uns das eigentliche Problem der Proxy-Interviews zu sein. Anmerkungen 1 2 3
4 5
Den Modus der Datenerhebung, dessen Einfluss hier angedeutet wird, untersuchen wir im Folgenden nur kursorisch. Commission of the European Communities, 2007, 8, http://ec.europa.eu/transparency/ regdoc/rep/2/2007/EN/2-2007-29-EN-1-0.pdf, (November 2007). Es handelt sich um die so genannte Blaise-Feldbefragung, benannt nach dem verwendeten Statistik-Programm „Blaise“. Seit dem Mikrozensus 2005 wird der Laptop flächendeckend zum Interview eingesetzt. § 8 (1) (2) des Mikrozensusgesetzes von 1996. Die Kategorie Neubau der Variable „Gebäudegrößenklasse“ erfasst die über die Bautätigkeitsstatistik ausgewiesenen Neubauten, die jedoch keine Information über die Größenklasse enthält; die Kategorie Gemeinschaftsunterkunft/Anstalt ist sehr schwach besetzt, da Personen in Gemeinschaftsunterkünften aus der Analyse ausgeschlossen wurden (nach dem Konzept der Bevölkerung in Privathaushalten am Ort der Hauptwohnung) muss es sich hier um Personen handeln, die in Anstalten oder in Gebäuden mit Gemeinschaftsunterkünften in Privathaushalten leben, z. B. Hausmeister oder Leiter.
Literatur Alwin, D. F. (2007). Margins of error. A study of reliability in survey measurement. Hoboken, NJ: Wiley-Interscience. Biemer, P., & Lyberg, L. E. (2003). Introduction to Survey Quality. Hoboken, NJ: John Wiley & Sons. Emmerling, D., & Riede, T. (1997). 40 Jahre Mikrozensus. Wirtschaft und Statistik (3) 1997. Esser, H. (1986). Können Befragte lügen? Zum Konzept des „wahren Wertes“ im Rahmen der handlungstheoretischen Interpretation des Befragtenverhaltens. Kölner Zeitschrift für Soziologie und Sozialpsychologie 38: 314–336. Groves, R. M., Fowler, F. J., Couper, M. P., Lepkowski, J. M., Singer, E., & Tourangeau, R. (2004). Survey Methodology. Hoboken, NJ: Wiley-Interscience. Hartmann, P. (1989). Der Mikrozensus als Datenquelle für die Sozialwissenschaften, ZUMA-Nachrichten 24: 6–25. Hoffmeyer-Zlotnik, J. H. P. (2006). Stichprobenziehung in der Umfragepraxis. Die unterschiedlichen Ergebnisse von Zufallsstichproben in face-to-face-Umfragen. In F. Faulbaum & C. Wolf (Hg.), Stichprobenqualität in Bevölkerungsumfragen (19–36). Bonn: Informationszentrum Sozialwissenschaft.
411
Christof Wolf, Paul Lüttinger Kohler, U. (2007). Surveys from inside: An assessment of unit nonresponse bias with internal criteria. Survey Research Methods, 1, 55–67. Köhne-Finster, S., & Lingnau, A. (2008). Untersuchung der Datenqualität erwerbsstatistischer Angaben im Mikrozensus. Ergebnisse des Projektes „Nachbefragung im Mikrozensus/LFS“. Wirtschaft und Statistik, 12/2008, 1067–1088. Moore, J. C. (1988). Self/Proxy response status and survey response quality. Journal of Official Statistics, 4, 155–172. Lechert, Y., & Schimpl-Neimanns, B. (2007). Mikrozensus Scientific Use File 2005: Dokumentation und Datenaufbereitung. GESIS Methodenbericht 2007/08. GESIS, Mannheim. Lüttinger, P., & Riede, T. (1997). Der Mikrozensus: amtliche Daten für die Sozialforschung. ZUMA-Nachrichten 41: 19–43. Pappi, F. U., & Wolf, G. (1984). Wahrnehmung und Realität sozialer Netzwerke. Zuverlässigkeit und Gültigkeit der Angaben über beste Freunde im Interview. In H. Meulemann & K.-H. Reuband (Hg.), Soziale Realität im Interview. Empirische Analysen methodischer Probleme (281–300). Frankfurt/M.: Campus. Schnell, R. (1997). Nonresponse in Bevölkerungsumfragen. Opladen: Leske + Budrich. Schwarz, N., & Wellens, T. R. (1997). Cognitive dynamics of proxy responding: The diverging perspectives of actors and observers. Journal of Official Statistics, 13, 159–179. Sodeur, W. (2007). Entscheidungsspielräume von Interviewern bei der Wahrscheinlichkeitsauswahl. Ein Vergleich von ALLBUS-Erhebungen. Methoden, Daten, Analysen, 1, 107–130. Statistische Ämter des Bundes und der Länder (Hg.). (2004). Handbuch für Interviewerinnen und Interviewer des Mikrozensus. Version 05.1. Heft 2. Statistische Ämter des Bundes und der Länder (Hg.). (2008). Zentrale Ergebnisse der Interviewernachbefragung im Mikrozensus. Ein Gemeinschaftsprojekt der Statistischen Ämter des Bundes und der Länder zur Qualitätssicherung im Mikrozensus. Statistisches Bundesamt: Wiesbaden. Statistisches Bundesamt. (2006). Mikrozensus Qualitätsbericht. Wiesbaden: Statistisches Bundesamt. Stoop, I. A. L. (2005). The hunt for the last respondent. Nonresponse in sample surveys. Social and Cultural Planning Office of the Nehterlands. SCP Report 2005/8. The Hague. Sudman, S., Bradburn, N. M., & Schwarz, N. (1996). Thinking about answers. The application of cognitive processes to survey methodology. San Francisco, CA: Jossey-Bass. West, K. K., Robinson, G., & Bentley, M. (2005). Did Proxy Respondents Cause Age Heaping in the Census 2000? ASA Section on Survey Research Methods, 3658–3665. Wolf, C. (1996). Gleich und gleich gesellt sich. Individuelle und strukturelle Einflüsse auf die Entstehung von Freundschaften. Hamburg: Kovac. Zühlke, S. (2008). Auswirkungen von Proxy-Interviews auf die Datenqualität des Mikrozensus. Statistische Analysen und Studien Nordrhein-Westfalen, 53, 3–10.
412
6 Alternative Befragungstechniken
Stefanie Eifler, Daniela Thume, Rainer Schnell
Stefanie Eifler, Daniela Thume, Rainer Schnell*
Unterschiede zwischen subjektiven und objektiven Messungen von Zeichen öffentlicher Unordnung („Signs of Incivility“) Zusammenfassung Die gegenwärtige Diskussion über öffentliche Sicherheit im städtischen Raum bezieht häufig sozialräumliche Aspekte bei der Entstehung von Kriminalitätsfurcht mit ein. Hierbei ist die von Wilson und Kelling (1989) vorgetragene „Broken Windows“-These zentral: Das Vorhandensein so genannter „Signs of Incivility“ steigert Unsicherheitsgefühle. Auf der Grundlage der Daten des DEFECT-Projekts (Schnell & Kreuter 2000) werden in diesem Beitrag Unterschiede zwischen subjektiven und objektiven Messungen solcher Zeichen öffentlicher Unordnung mit Hilfe von Regressions-Modellen untersucht. Es zeigt sich, dass die gesteigerte Aufmerksamkeit für Incivilities auf Erfahrungen mit verschiedenen Formen von Viktimisierungen zurückgeführt werden kann.
Abstract Differences between subjective and objective Measurements of Signs of Incivility Recent discussions on public safety in urban areas frequently refer to social spatial aspects which might increase fear of crime. Many studies refer to Wilson and Kellings (1989) „Broken Windows“ thesis, proposing increased feelings of insecurity in the presence of „signs of incivility“. Our present study examines differences between subjective and objective measurements of signs of incivility. The hypothesis that individual experiences of victimisation increase the awareness of presence of signs of incivilities is supported by data from the DEFECT-Project (Schnell & Kreuter 2000).
415
Stefanie Eifler, Daniela Thume, Rainer Schnell
1 Problemstellung In der neueren Literatur zur Erklärung von Kriminalitätsfurcht werden üblicherweise drei Ansätze unterschieden, die als Viktimisierungs- bzw. Disorder-Modell sowie als Modell der sozialen Integration bezeichnet werden (Boers 1991, 1993; Lüdemann 2006). Je nach Modell steigt Kriminalitätsfurcht, wenn Akteure in ihrer unmittelbaren sozialen Umgebung in nur geringem Maße über soziales Kapital verfügen (Modell der sozialen Integration), wenn sie Viktimisierungserfahrungen gemacht haben (Viktimisierungsmodell) und wenn sie in städtischen Umgebungen leben, die durch physische und soziale Verfallserscheinungen geprägt sind (Disorder-Modell). Die bisherigen empirischen Analysen dieser Ansätze zeigen heterogene und einander widersprechende Befunde. Als Gründe für diesen Forschungsstand werden sowohl theoretische Defizite als auch methodische Probleme der vorhandenen Studien angeführt (Kreuter 2002). Die Forschungsgruppe, zu denen auch die Autoren dieses Beitrags gehören, hat sich als Konsequenz aus dieser unbefriedigenden Situation daher unter anderem den Problemen der Messung zentraler Konstrukte der drei genannten Ansätze gewidmet. So wurde zum Beispiel auf der Grundlage sozialpsychologischer Ansätze die Konzeptualisierung und Operationalisierung von Kriminalitätsfurcht ausgearbeitet (Schnell & Kreuter & Thume & Coutts 2005; Kreuter 2002). Als Weiterführung dieser Arbeiten widmet sich die vorliegende Studie den Problemen der Messung im Zusammenhang des „Disorder“-Modells.
1.1 Zeichen der öffentlichen Unordnung Akteure verwenden eine Vielzahl von Informationen zur Einschätzung der Sicherheit eines Ortes. Zu diesen Informationen gehören persönliche Erfahrungen, Berichte von Dritten (auch aus Mediendarstellungen) sowie lokale Gegebenheiten bzw. Kontextmerkmale, die unter dem Begriff der „Signs of Incivility“ (Hunter 1978)1 zusammengefasst werden. Im Anschluss an Hunter (1978) bezeichnet man Merkmale des städtischen Raumes wie heruntergekommene und leer stehende Häuser, besprühte und verschmierte Wände, Schmutz und Müll in Grünanlagen, zerstörte Telefonzellen und Straßenlaternen sowie herumlungernde Jugendliche und Betrunkene als Incivilities. Dabei können soziale und physische Incivilities voneinander unterschieden werden: Soziale Unordnung wird beispielsweise durch herumlungernde Ju416
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung
gendliche und Betrunkene signalisiert, während physischer Verfall durch herumliegenden Abfall, Graffiti oder heruntergekommene Gebäude signalisiert wird (Hunter 1978; Skogan 1978; Taylor 1999). Als Ausgangspunkt des Disorder-Modells gilt neben den Arbeiten von Lewis und Salem (1986) und Skogan (1990) insbesondere die von Wilson und Kelling (1989) formulierte Broken-Windows-These, die besagt, dass Incivilities die Abwesenheit von informeller sozialer Kontrolle signalisieren und deshalb mit Kriminalitätsfurcht in Verbindung stehen. Incivilities wirken auf die wahrgenommene Sicherheit bzw. Unsicherheit eines Ortes, indem sie als Hinweisreize fungieren, die vor Gefahren warnen. In bisherigen empirischen Analysen wurde das Vorhandensein von Incivilities auf unterschiedliche Weise gemessen. Taylor (1999) und Piquero (1999) haben in diesem Zusammenhang vier Strategien unterschieden: a. Einschätzung des Vorhandenseins von Incivilities in der Wohnumgebung durch Befragte im Rahmen von Surveys (subjektive Messung) b. Ratings des Vorhandenseins von Incivilities durch geschulte Begeher von städtischen Wohnumgebungen (objektive Messung) c. Inhaltsanalyse regionaler Tageszeitungen d. Ethnographische Ansätze Bisherige Studien haben das Vorhandensein von Incivilities als unabhängige Variable betrachtet und Einflüsse auf Viktimisierungserfahrungen, auf die offiziell registrierte Kriminalität und auf Kriminalitätsfurcht analysiert. Die Ergebnisse dieser Studien sind allerdings uneinheitlich und scheinen von der Art der Messung der Incivilities abzuhängen: So haben Studien, die sich auf subjektive Messungen von Incivilities beziehen, zu dem Ergebnis geführt, dass das Vorhandensein von Incivilities Viktimisierungserfahrungen begünstigt (Rountree et al. 1994). Andere Autoren haben subjektive und objektive Messungen von Incivilities einbezogen und gefunden, dass weder subjektive noch objektive Messungen von Incivilities in einer direkten Beziehung zu Viktimisierungserfahrungen oder zur offiziell registrierten Kriminalität stehen (Sampson & Raudenbush 1999, 2004). In ähnlicher Weise finden manche Studien Einflüsse des Vorhandenseins von Incivilities auf Kriminalitätsfurcht und andere Studien nicht (Boers & Kurz 1997; LaGrange & Ferraro & Supancic 1992; Sampson & Raudenbush 1999; Skogan & Maxfield 1981). Es zeigt sich, dass verschiedene Strategien der Messung von Incivilities zu unterschiedlichen Ergebnissen führen (Piquero 1999; Taylor, 1999). In einer jüngeren Studie zeigen Häfele und Lüdemann (2006; Häfele 2006), dass ein positiver Einfluss des Vorhandenseins von Incivilities auf Kriminalitätsfurcht besteht, wenn subjektive Messungen von Incivilities verwendet werden, nicht jedoch, wenn objektive Messungen von Incivilities vorgenommen werden. Die bisherigen Studien vergleichen 417
Stefanie Eifler, Daniela Thume, Rainer Schnell
also subjektive und objektive Messungen von Incivilities, dagegen wurden Ergebnisse von Inhaltsanalysen oder von ethnographischen Ansätzen kaum systematisch in dieser Hinsicht untersucht.
1.2 Subjektive und objektive Messungen der Zeichen öffentlicher Unordnung In empirischen Untersuchungen werden objektive Messungen der Zeichen öffentlicher Unordnung in der Regel durch geschulte Beobachter vorgenommen. Im Gegensatz zu Befragungen von Anwohnern soll auf diese Weise eine weitestgehend vergleich- und nachvollziehbare Bewertung von Kontextmerkmalen ermöglicht werden, die unabhängig vom individuellen Erfahrungshintergrund der Beobachter ist. Objektive Messungen sind in der Forschungspraxis zumeist zusätzliche, nicht im Hauptfokus der eigentlichen Forschungsarbeit stehende Nebenerhebungen. Im Gegensatz dazu haben Raudenbush und Sampson (1999) die Erfassung von Kontextmerkmalen explizit thematisiert. Sie bezeichnen ihre Herangehensweise zur Messung von Umweltgegebenheiten als „Ecometrics“. Bei ihrer Methode der „Systematischen Sozialen Beobachtung“ (Systematic Social Observation, SSO) werden Kontextmerkmale durch trainierte Beobachter erfasst, die sich in einem mit Videokameras ausgerüsteten Kraftfahrzeug in vorgeschriebener Geschwindigkeit durch Wohngegenden bewegen und das Vorhandensein von Incivilities beurteilen (Sampson & Raudenbush 1999). Während sich also objektive Messungen von Incivilities auf Beurteilungen der Kontextmerkmale durch Beobachter beziehen, beruhen subjektive Messungen auf Wahrnehmungen von Bewohnern der Wohngegend (vgl. Abschnitt 1.1). Nur wenige Untersuchungen haben Unterschiede zwischen subjektiven und objektiven Messungen von Incivilities gezielt analysiert. Diese haben überdies zu divergierenden Resultaten geführt: Während beispielsweise Piquero (1999) auf der Grundlage explorativer und konfirmatorischer Faktorenanalysen zu dem Ergebnis kommt, dass sich subjektive und objektive Messungen von Incivilities unterscheiden, führt die Studie von Häfele und Lüdemann (2006) zu dem Ergebnis, dass subjektive und objektive Messungen von Incivilities vergleichbar sind. Im Rahmen von Fallstudien konnte darüber hinaus gezeigt werden, dass subjektive Messungen einen besseren Prädiktor für Kriminalitätsfurcht darstellen als objektive Messungen (Covington & Taylor 1991, 242). Eine abschließende Beurteilung der Einflüsse von unterschiedlichen Messungen der Incivilities auf die Analyseergebnisse ist auf der Grundlage dieser Befunde nicht möglich. 418
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung
1.3 Forschungsfrage: Viktimisierung als Ursache der Unterschiede zwischen subjektiven und objektiven Messungen von Incivilities Zwar wurden in der Literatur Gemeinsamkeiten und Unterschiede zwischen subjektiven und objektiven Messungen von Incivilities thematisiert, die Frage aber, warum sich subjektive und objektive Messungen von Incivilities voneinander unterscheiden, wurde bislang nicht systematisch analysiert. Diese Frage bildet daher den Ausgangspunkt der vorliegenden Studie. Vermutlich wirkt sich der spezifische lokale Erfahrungshintergrund von Anwohnern auf die subjektiv erlebte Unsicherheit aus. Es kann daher angenommen werden, dass sich subjektive und objektive Messungen von Incivilities unterscheiden, weil die Wahrnehmung und Gewichtung von Umgebungsinformationen bei Anwohnern anhand von Kriterien erfolgt, die für ortsfremde, geschulte Beobachter irrelevant sind. Zu diesen Kriterien könnten Viktimisierungserfahrungen gehören. Die Literatur unterscheidet Viktimisierungserfahrungen nach eigener und stellvertretender Viktimisierung, wobei sich letztere auf Opfer im Familien- oder Bekanntenkreis bezieht. Trotz dieser Unterscheidung konnte der Zusammenhang zwischen Viktimisierungserfahrungen und Kriminalitätsfurcht bisher nicht eindeutig belegt werden (Balkin 1979; Boers & Kurz 1997; Garofalo 1979). Im Zusammenhang mit der Wahrnehmung von Incivilities scheint aber die These plausibel, dass Viktimisierungserfahrungen als wesentlicher Aspekt des individuellen Erfahrungshintergrundes die Sensibilität für Incivilities erhöhen und damit Unterschiede zwischen subjektiven und objektiven Messungen von Incivilities erklären. Aus diesen Überlegungen resultiert die Forschungsfrage der vorliegenden Studie: Falls Viktimisierungserfahrungen zu einer erhöhten Sensibilität für Incivilities führen, sollte sich dies in einer Erhöhung der Zahl subjektiv wahrgenommener Incivilities gegenüber einer objektiven Erhebung zeigen. Dieser Effekt sollte auch bei Kontrolle von Drittvariablen wie z. B. der Kriminalitätsbelastung nachweisbar bleiben.
2 Methoden der Untersuchung Die empirische Untersuchung der Forschungsfrage basiert auf den Daten des DEFECT-Projekts (Schnell & Kreuter 2000). Das Hauptziel der DEFECTStudie bestand in der empirischen Untersuchung der tatsächlichen Standardfehler und Konfidenzintervalle bei komplexen Bevölkerungsstichproben (Schnell & Kreuter 2005). Die Studie wurde so entworfen, dass die Grö419
Stefanie Eifler, Daniela Thume, Rainer Schnell
ße verschiedener erhebungsbedingter Effekte, u. a. Effekte des Erhebungsmodus, der Stichprobenziehung, Institutseffekte und Interviewereffekte unabhängig voneinander geschätzt werden können.2
2.1 Verfahren der Datenerhebung und Stichprobe Den Kern der DEFECT-Studie bilden fünf bundesweite Erhebungen, die zum gleichen Zeitpunkt an den gleichen 160 Sampling-Points mit dem gleichen Fragebogen zur Kriminalitätsfurcht durchgeführt wurden. Von den fünf Stichproben wurden vier von jeweils zwei geschulten Begehern per Random-Walk gezogen, und davon wurden wiederum zwei Stichproben für Face-to-Face-Befragungen eingesetzt. Die folgenden Analysen beruhen auf den Daten dieser beiden im Random-Walk gezogenen Face-to-Face-Stichproben. 2.1.1 Unabhängige Variablen: Messung von Viktimisierungen Der in allen fünf Erhebungen verwendete Fragebogen zur Kriminalitätsfurcht mit seinen 71 Fragen bestand bei Berücksichtigung aller Filter aus insgesamt 135 Items. Er wurde mit Hilfe umfangreicher Vorexperimente sowie mehrerer qualitativer und quantitativer Pretests entwickelt und enthält neben demographischen Angaben Fragen zur Furcht und Kriminalitätseinschätzung, Fragen zur eigenen und stellvertretenden Opfererfahrung, zu Coping und Kosten, zu Aktivitätsmustern und zu Merkmalen der Wohnumgebung.
Auswahl der Delikte Zur Erfassung der Kriminalitätsfurcht sollte von den Befragten das wahrgenommene Viktimisierungsrisiko, die Viktimisierungserfahrung, die wahrgenommenen Kosten und die Coping-Maßnahmen erfragt werden. Da solche Abfragen nur deliktspezifisch möglich sind, musste aus mehreren befragungspraktischen Gründen eine kleine Auswahl an Delikten getroffen werden. Die folgenden Deliktbeschreibungen wurden verwendet: 1. dass jemand in Ihre derzeitige Wohnung einbrechen könnte, während niemand zuhause ist. 2. dass jemand Ihnen Gewalt androhen könnte, um an Ihr Geld oder Ihre Wertgegenstände zu kommen. 3. dass ein Fremder Sie aus geringem Anlass schlagen oder verletzen könnte. 420
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung
Messung von Viktimisierungserfahrung Die DEFECT-Studie enthält neben Fragen zur tatsächlichen eigenen Viktimisierung eines Befragten auch Fragen zur indirekten Viktimisierung sowie die Einschätzung der eigenen Sicherheit, die Häufigkeit des Nachdenkens über mögliche Viktimisierungen und die auf den Stadtteil bezogene, subjektive Einschätzung der allgemeinen Viktimisierungswahrscheinlichkeit. Tabelle 1 informiert über die absoluten und relativen Häufigkeiten des Vorkommens von eigener und stellvertretender Viktimisierung, des Nachdenkens über Viktimisierung und der subjektiven Einschätzung der allgemeinen Viktimisierungswahrscheinlichkeit. Die Operationalisierungen befinden sich im Anhang A1. Die Kategorie „weiß nicht“ wurde dabei als „missing“ kodiert.
Tabelle 1: Messung von Viktimisierungserfahrungen
Prävalenz eigener Viktimisierungen
Einbruch Raub Körperverletzung
Freq.
Percent
n
196 90 160
7,96 3,39 6,02
2.463 2.654 2.658
Freq.
Percent
n
1.116 516 695
42,69 19,85 26,43
2.614 2.600 2.630
Prävalenz stellvertretender Viktimisierungen
Einbruch Raub Körperverletzung
Prävalenz des Nachdenkens über mögliche Viktimisierungen
Einbruch Raub Körperverletzung
Freq.
Percent
n
1.750 1.518 1.159
66,82 57,81 44,03
2.619 2.626 2.632 421
Stefanie Eifler, Daniela Thume, Rainer Schnell
Subjektive Einschätzung der allgemeinen Viktimisierungswahrscheinlichkeit StandardMittelwert (a) abweichung Einbruch Raub Körperverletzung
14,929 10,279 9,214
20,634 15,952 15,759
n 2.342 2.358 2.352
(a) Skala von 0% bis 100%
2.1.2 Konstruktion der abhängigen Variablen: Abweichung zwischen den Wahrnehmungen von Incivilities durch Begeher und Befragte
Erfassung der Incivilities aus der Perspektive der Begeher Die Begehung der Sampling Points sollte neben den Adressen und Haushaltsnamen Informationen über die Merkmale der Wohnumgebung (Hoffmeyer-Zlotnik 1984) und die Wohnhäuser der Befragten erbringen (Bauart, Baujahr, Sicherheitsmaßnahmen wie Gitter, Zusatzschlösser, Alarmanlagen, Gegensprechanlagen, Hunde etc.) sowie über die Sampling Points (Entfernung zur nächsten Polizeiwache, Bebauungsart etc.). An Incivilities notierten die Begeher in diesem Zusammenhang, ob verfallene oder leer stehende Gebäude, besprühte Wände, zerstörte Telefonzellen, Müll, Betrunkene, Ausländer, herumlungernde Jugendliche, Drogensüchtige und Notrufsäulen in der unmittelbaren Umgebung des Hauses, d. h. meistens vom Hauseingang aus, sichtbar waren.
Erfassung der Incivilities aus der Perspektive der Befragten Für die vorliegende Arbeit ist die Frage nach den Incivilities in der Wohngegend der Befragten von besonderer Bedeutung. Nach den Ergebnissen der Vorstudien wurde in den Haupterhebungen des Projekts nach Müll, heruntergekommenen oder leer stehenden Gebäuden, besprühten oder beschmierten Wänden, zerstörten Telefonzellen oder Straßenlaternen, herumlungernden Jugendlichen, Betrunkenen und nach anderen die Befragten beunruhigenden Personen gefragt. Eine wichtige Änderung der Frage gegenüber Ratingskalen der Literatur bestand in der expliziten Aufforderung des Befragten, bei der Beantwortung der Frage nur an die Wohngegend im Bereich von fünf Gehminuten zu denken. 422
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung
Tabelle 2: Häufigkeit der Incivilities aus der Perspektive von Befragten und Begehern Freq.
Befragte (a) Percent
n
Freq.
Begeher (b) Percent
n
Gebäude
518
19,58
2.652
149
5,58
2.671
Müll
802
30,14
2.661
112
4,19
2.671
Graffiti
823
31,20
2.638
148
5,54
2.671
Jugendliche
910
34,52
2.636
22
0,82
2.671
Betrunkene
609
23,17
2.628
9
0,34
2.671
Zerstörte Telefonzellen oder Straßenlaternen1
552
21,09
2.617
4
0,15
2.671
Andere beunruhigende Personen
434
16,63
2.610
–
–
–
Ausländer
–
–
–
39
1,46
2.671
Drogensüchtige
–
–
–
10
0,37
2.671
(a) siehe Anhang A2, (b) siehe Anhang A3 1 Die Funktionstüchtigkeit von Straßenlaternen konnten Begeher nicht einschätzen, da sie bis auf wenige Ausnahmen tagsüber unterwegs waren.
Betrachtet man die Randverteilungen der Antworten der Befragten und die der Wahrnehmungen der Begeher zu den Incivilities (vgl. Tab. 2), dann fallen einige Kategorien aufgrund ihres seltenen Vorkommens auf: Diese werden in den folgenden Analysen nicht mehr berücksichtigt. In Bezug auf „Vernachlässigte Gebäude“ als Zeichen öffentlicher Unordnung zeigt sich, dass die Beurteiler-Übereinstimmung der Begeher in Bezug auf dieses Zeichen der öffentlichen Unordnung sehr gering war. Dieses Merkmal differenziert folglich nicht zuverlässig zwischen Wohnumgebungen, in denen dieses Zeichen der öffentlichen Unordnung vorhanden oder nicht vorhanden ist.3 Für die Untersuchung der vorliegenden Forschungsfrage wurden schließlich drei Incivilities verwendet, nämlich „herumlungernde Jugendliche“, „Müll“ und „Graffiti bzw. besprühte oder beschmierte Wände“.
Erhöhung der Sensibilität für Incivilities Das Antwortverhalten eines Befragten kann mit dem Urteil der Begeher übereinstimmen oder von dem Urteil der Begeher abweichen. Das Ausmaß 423
Stefanie Eifler, Daniela Thume, Rainer Schnell
der Übereinstimmung (Cohen 1960) bei „Graffiti“ liegt bei einem Kappa von 0,11, bei „Müll“ bei einem Kappa von 0,06 und bei dem Merkmal „Jugendliche“ bei 0,002. Damit ist die Interrater-Übereinstimmung sehr niedrig. Der besonders niedrige Wert bei dem Merkmal „Jugendliche“ könnte darauf zurückzuführen sein, dass die Begeher-Ratings zu einem Zeitpunkt erhoben wurden, zu dem keine Jugendlichen im öffentlichen Raum zu beobachten waren, etwa, weil die Begehung vormittags stattgefunden hat und Jugendliche zu dieser Tageszeit überwiegend Schulen oder Ausbildungsbetriebe besuchten. Die Tabelle 3 zeigt die relativen Häufigkeiten von übereinstimmenden und nicht übereinstimmenden Urteilen am Beispiel der Graffiti. Begeher und Befragte können Graffiti übereinstimmend als vorhanden oder als nicht vorhanden betrachten. Sie können aber auch das Vorhandensein oder Nicht-Vorhandensein von Incivilities unterschiedlich beurteilen: Begeher können Graffiti als vorhanden, Befragte als nicht-vorhanden betrachten, und Begeher können Graffiti als nicht-vorhanden, Befragte als vorhanden betrachten. Tabelle 3: Das Vorhandensein von Graffiti aus der Sicht von Begehern und Befragten* Begeher vorhanden nicht vorhanden
Befragte vorhanden
nicht vorhanden
a 3,60
b 1,93
146 5,53
c 27,60
d 66,87
2.492 94,47
823 31,20
1.815 68,80
2.638 100,00
* Erläuterungen im Text
Die übereinstimmenden und nicht übereinstimmenden Antwortmuster wurden benutzt, um eine Erhöhung von subjektiv gegenüber objektiv gemessenen Incivilities abzubilden: Dabei wurden die beiden übereinstimmenden Antwortmuster – die gemeinsame Beurteilung eines Vorhandenseins (a) und eines Nicht-Vorhandenseins von Incivilities (d) – von einem der nicht-übereinstimmenden Antwortmuster, der Beurteilung des Vorhandenseins von Incivilities nur durch Befragte, nicht aber durch Begeher (c), unterschieden (vgl. Tab. 3). Für jedes der Merkmale „Müll“, „Jugendliche“ und „Graffiti“ 424
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung
wurde eine dichotome Variable ES gebildet, wobei die beiden übereinstimmenden Antwortmuster den Wert „0“ erhielten, während dem nicht-übereinstimmenden Antwortmuster der Wert „1“ zugewiesen wurde. Das nichtübereinstimmende Antwortmuster, das sich auf die Beurteilung des Vorhandenseins von Incivilities durch Begeher, nicht aber durch Befragte bezieht (b, vgl. Tab. 3) ist im vorliegenden Zusammenhang nicht relevant und wurde daher von der Analyse ausgeschlossen. Über die drei ES-Variablen wurde ein Summenindex ES_SUM gebildet, der die Häufigkeit abbildete, mit der über die verschiedenen Merkmale hinweg nicht-übereinstimmende Urteile, die auf eine erhöhte Sensibilität der Befragten für das Vorhandensein von Incivilities hinweisen, aufgetreten sind. Dieser Index ist eine Zählvariable und umfasst einen theoretischen Wertebereich von 0 bis 3; der Wert 0 bedeutet, dass nur übereinstimmende Urteile aufgetreten sind, der Wert 3 bedeutet, dass alle drei Merkmale von den Befragten, nicht aber von den Begehern als vorhanden beurteilt wurden.
2.1.3 Kovariaten
Begehungsdauer Da das Auftreten von Incivilities von der Besiedlungsdichte beeinflusst wird, wurde zunächst versucht, die Bevölkerungsdichte jeder Gemeinde/Stadt, in der ein Sampling Point lag, als Kovariate einzuführen. Allerdings erwies sich dieses Maß für diese Zwecke nicht als kleinräumig genug – auch in Städten gibt es Gebiete, die ihrer Struktur und Bevölkerungsdichte einen eher ländlichen Charakter haben. Als genau auf das Gebiet des Sampling Points zutreffendes Maß für die Bevölkerungsdichte wurde daher die Dauer der Begehung/Adresssammlung dort verwendet. Der Zeitrahmen, in dem die 140 Adressen notiert werden konnten, lag zwischen 30 Minuten und 13 Stunden und hing im Wesentlichen davon ab, wie schnell der Weg von einem Haushalt zum nächsten zurückgelegt werden konnte. Damit eignet sich die Begehungsdauer als indirektes Maß für die Distanz zwischen den Haushalten eines Sampling Points und damit als Maß für die lokale Bevölkerungsdichte.
Kriminalitätsbelastung Als weitere Kovariaten wurde die in der Polizeilichen Kriminalstatistik (PKS) registrierte Zahl der relevanten Delikte pro 100.000 Einwohner verwendet. Für die PKS werden Fälle und Tatverdächtige dann gezählt, wenn die Ver425
Stefanie Eifler, Daniela Thume, Rainer Schnell
fahren von der Polizei an die Staatsanwaltschaft abgegeben werden. Um einen möglichst zutreffenden Vergleichsrahmen zwischen den Häufigkeitszahlen und den Angaben der Befragten zu erzielen, mussten folgende Kriterien bei der Auswahl der PKS-Daten berücksichtigt werden: 1. Um Aussagen über die Kriminalitätsbelastung zu treffen, war die Zahl der Fälle (Straftaten) die aussagekräftige Erhebungseinheit, nicht die Zahl der Tatverdächtigen. 2. Die Häufigkeitszahlen sollten sich so genau wie möglich auf die Sampling Points beziehen. Dies erwies sich insofern als schwierig, als die Fallzahlen polizeiintern zwar auf der Ebene relativ kleiner Bezirke vorliegen, jedoch keine Angaben zur Zahl der Einwohner dieser Bezirke. Daher wurden in enger Zusammenarbeit mit den Landeskriminalämtern die kleinräumigsten verfügbaren Häufigkeitszahlen ausgewählt. Die Hierarchieebene, auf der diese Zahl vorlag, variierte zwischen den Ländern, und in manchen Ländern auch zwischen Städten und Gemeinden (für eine genauere Beschreibung siehe Schnell et al. 2005). Delikte werden in der PKS mit Schlüsselziffern versehen, die sich an den Definitionen des Strafgesetzbuches orientieren. Diese decken sich nur begrenzt mit den im DEFECT-Fragebogen verwendeten Deliktbeschreibungen. In Zusammenarbeit mit einem Landeskriminalamt wurden geeignete Schlüsselziffern ausgewählt.4
Geschlecht und Alter der Befragten? Alter und Geschlecht wurden in vorbereitenden Datenanalysen zu dieser Studie kontrolliert. Sie hatten keine Haupteffekte im Basismodell (in dem Modell, in dem nur die Kontextvariablen berücksichtigt wurden) und veränderten sich nicht bei Einbeziehung der diversen Viktimisierungserfahrungen. Beziehungen zwischen Alter, Geschlecht und Viktimisierungserfahrungen bestehen nicht, außerdem haben nach unseren Untersuchungen in diesem Datensatz weder das Alter noch das Geschlecht der Befragten einen Einfluss auf Unterschiede zwischen subjektiven und objektiven Messungen von Incivilities. Diese Einflüsse werden daher im Folgenden nicht berichtet.
2.2 Verfahren der Datenanalyse Die Frage, ob Viktimisierungserfahrungen zu einer erhöhten Sensibilität gegenüber Incivilities führen, wurde analysiert, indem Einflüsse verschie426
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung
dener Aspekte von Viktimisierung auf die Wahrscheinlichkeit, mit der das nicht-übereinstimmende Antwortmuster auftritt, bestimmt wurden. Die Analysen bezogen sich auf die Delikte Einbruch, Raub und Körperverletzung und wurden für die in dieser Studie berücksichtigten Incivilities Graffiti, Müll und herumlungernde Jugendliche getrennt vorgenommen. In einem ersten Schritt wurden Logit-Modelle gerechnet, bei denen als abhängige Variable die Häufigkeit des Auftretens des nicht-übereinstimmenden Antwortmusters für jedes einzelne Zeichen öffentlicher Unordnung (ES) diente und als unabhängige Variablen neben den Kovariaten die verschiedenen Aspekte der Viktimisierung einbezogen wurden. In einem zweiten Schritt wurde ein Regressionsmodell gerechnet, bei dem die Häufigkeit des Auftretens von nicht-übereinstimmenden Antwortmustern über die drei Incivilities Graffiti, Müll und herumlungernde Jugendliche insgesamt (ES_SUM) die abhängige Variable bildete und neben den Kovariaten die verschiedenen Aspekte der Viktimisierung bezogen auf die Delikte Einbruch, Raub und Körperverletzung als unabhängige Variablen betrachtet wurden.5 Um sicher zu stellen, dass sich die objektiven und subjektiven Messungen auf vergleichbare Urteilsgegenstände beziehen, wurden Einflüsse der Größe der Sampling Points anhand der Begehungsdauer, die von den Begehern für jeden Point notiert worden war, kontrolliert. Außerdem wurde die kleinräumige Kriminalitätsbelastung, die sowohl mit Viktimisierungserfahrungen als auch mit der Sensibilität für Incivilities kovariieren kann, kontrolliert.6
3 Ergebnisse der Untersuchung Die Tabelle 4 stellt die Häufigkeit des Vorkommens einer erhöhten Sensibilität für die in dieser Studie berücksichtigten Incivilities dar. Dabei zeigt sich, dass sich in etwa einem Drittel aller Urteile subjektive von objektiven Messungen des Nicht-Vorhandenseins von Incivilities unterscheiden. Tabelle 4: Häufigkeiten der erhöhten Sensibilität für Incivilities (ES)
Jugendliche Müll Graffiti
Freq.
Percent
n
902 743 728
34,49 29,14 29,21
2.615 2.550 2.492 427
Stefanie Eifler, Daniela Thume, Rainer Schnell
Die Tabellen 5 bis 7 zeigen die Ergebnisse der logistischen Regression der erhöhten Sensibilität für die Incivilities Graffiti, Müll und herumlungernde Jugendliche auf die in dieser Studie untersuchten Aspekte von Viktimisierung für die Delikte Einbruch, Raub und Körperverletzung. Tabelle 5: Logistische Regression der erhöhten Sensibilität für Incivilities auf Viktimisierung
Abhängige Variable: ES Graffiti β
se
z
p
Begehungsdauer
–0,122
0,059
–2,08
0,037
Einbruch Kriminalitätsbelastung (PKS) erlebte Viktimisierung stellvertretende Viktimisierung Nachdenken über Viktimisierung Risiko einer Viktimisierung
0,000 –0,096 0,060 0,052 0,008
0,001 0,212 0,141 0,169 0,004
0,40 –0,45 0,43 0,31 1,96
0,689 0,650 0,670 0,760 0,050
Raub Kriminalitätsbelastung (PKS) erlebte Viktimisierung stellvertretende Viktimisierung Nachdenken über Viktimisierung Risiko einer Viktimisierung
–0,001 0,696 0,097 0,089 0,003
0,001 0,339 0,185 0,180 0,007
–1,04 2,05 0,53 0,49 0,40
0,296 0,040 0,600 0,623 0,689
Körperverletzung Kriminalitätsbelastung (PKS) erlebte Viktimisierung stellvertretende Viktimisierung Nachdenken über Viktimisierung Risiko einer Viktimisierung
0,001 –0,698 0,567 0,064 0,010
0,000 0,283 0,160 0,181 0,007
2,95 –2,47 3,54 0,35 1,51
0,003 0,014 0,000 0,725 0,132
Konstante
–1,513
0,322
–4,70
0,000
Aus Tabelle 5 geht hervor, dass eine erhöhte Sensibilität für Graffiti als Zeichen öffentlicher Unordnung von dem auf den Stadtteil bezogenen wahrgenommenen Risiko, einem Einbruch zum Opfer zu fallen, abhängt (β = 0,008, p = 0,050; vgl. Tab. 5). Befragte, die bereits einem Raub zum Opfer gefallen sind, neigen eher als die unvoreingenommenen Begeher dazu, Graffiti als Zeichen öffentlicher Unordnung wahrzunehmen (β = 0,696, p = 0,040; vgl. Tab. 5). Während Befragte, die Opfer einer Körperverletzung 428
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung
geworden sind, und unvoreingenommene Begeher mit höherer Wahrscheinlichkeit übereinstimmend über das Vorhandensein oder Nicht-Vorhandensein von Graffiti urteilen (β = –0,698, p = 0,014; vgl. Tab. 5), führt eine stellvertretende Viktimisierung zu einer erhöhten Sensibilität der Befragten für besprühte und beschmierte Wände als Zeichen öffentlicher Unordnung (β = 0,567, p = 0,000; vgl. Tab. 5). Tabelle 6: Logistische Regression der erhöhten Sensibilität für Incivilities auf Viktimisierung
Abhängige Variable: ES Müll β
se
z
p
Begehungsdauer
–0,133
0,052
–2,55
0,011
Einbruch Kriminalitätsbelastung (PKS) erlebte Viktimisierung stellvertretende Viktimisierung Nachdenken über Viktimisierung Risiko einer Viktimisierung
–0,001 –0,116 0,280 0,183 0,007
0,001 0,231 0,136 0,174 0,005
–1,13 –0,50 2,06 10,05 1,44
0,256 0,614 0,039 0,292 0,151
Raub Kriminalitätsbelastung (PKS) erlebte Viktimisierung stellvertretende Viktimisierung Nachdenken über Viktimisierung Risiko einer Viktimisierung
–0,001 0,902 0,135 –0,017 0,019
0,001 0,407 0,184 0,190 0,008
–0,91 2,22 0,73 –0,09 2,39
0,365 0,027 0,463 0,930 0,017
Körperverletzung Kriminalitätsbelastung (PKS) erlebte Viktimisierung stellvertretende Viktimisierung Nachdenken über Viktimisierung Risiko einer Viktimisierung
0,001 0,395 0,430 0,068 –0,004
0,000 0,248 0,180 0,179 0,007
2,05 1,59 2,38 0,38 –0,61
0,040 0,112 0,017 0,705 0,545
Konstante
–1,379
0,320
–4,31
0,000
Eine erhöhte Sensibilität für herumliegenden Müll als Zeichen öffentlicher Unordnung kann, wie Tabelle 6 zeigt, auf verschiedene Aspekte von Viktimisierungserfahrungen zurückgeführt werden. Wenn in der sozialen Umgebung von Befragten bereits Wohnungseinbrüche vorgekommen sind, so 429
Stefanie Eifler, Daniela Thume, Rainer Schnell
erhöht dies die Sensibilität für Müll (β = 0,280, p = 0,039; vgl. Tab. 6). Sind Befragte bereits Opfer eines Raubüberfalls geworden, so führt dies zu einer erhöhten Sensibilität für Müll (β = 0,902, p = 0,027; vgl. Tab. 6). Außerdem zeigt sich, dass herumliegender Müll umso eher von den Befragten als Zeichen öffentlicher Unordnung wahrgenommen wird, je höher diese das Risiko von Raubüberfällen im Stadtteil einschätzen (β = 0,019, p = 0,017; vgl. Tab. 6). Ebenso nehmen Befragte im Unterschied zu unvoreingenommenen Beobachtern mit höherer Wahrscheinlichkeit herumliegenden Müll wahr, wenn Personen in ihrem näheren sozialen Umfeld einer Körperverletzung zum Opfer gefallen sind (β = 0,430, p = 0,017; vgl. Tab. 6). Tabelle 7: Logistische Regression der erhöhten Sensibilität für Incivilities auf Viktimisierung
Abhängige Variable: ES herumlungernde Jugendliche β
se
z
p
Begehungsdauer
–0,121
0,057
–2,11
0,035
Einbruch Kriminalitätsbelastung (PKS) erlebte Viktimisierung stellvertretende Viktimisierung Nachdenken über Viktimisierung Risiko einer Viktimisierung
–0,001 –0,353 0,413 0,320 0,010
0,001 0,239 0,123 0,176 0,004
–1,77 –1,48 3,35 1,82 2,38
0,076 0,140 0,001 0,069 0,017
Raub Kriminalitätsbelastung (PKS) erlebte Viktimisierung stellvertretende Viktimisierung Nachdenken über Viktimisierung Risiko einer Viktimisierung
–0,001 0,564 0,321 0,101 0,017
0,001 0,440 0,172 0,176 0,007
–1,53 1,28 1,87 0,57 2,29
0,127 0,200 0,061 0,566 0,022
Körperverletzung Kriminalitätsbelastung (PKS) erlebte Viktimisierung stellvertretende Viktimisierung Nachdenken über Viktimisierung Risiko einer Viktimisierung
0,001 0,338 0,677 0,068 0,006
0,000 0,260 0,177 0,173 0,007
2,26 1,30 3,81 0,39 0,84
0,024 0,194 0,000 0,693 0,402
–1,488
0,334
–4,45
0,000
Konstante
430
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung
Aus Tabelle 7 geht hervor, dass Viktimisierungserfahrungen zu einer erhöhten Sensibilität für herumlungernde Jugendliche als Zeichen öffentlicher Unordnung führen können: Es zeigt sich im Einzelnen, dass das Vorkommen eines Einbruchs in der unmittelbaren sozialen Umgebung der Befragten die Wahrscheinlichkeit erhöht, dass diese herumlungernde Jugendliche als Zeichen öffentlicher Unordnung wahrnehmen (β = 0,413, p = 0,001; vgl. Tab. 7). Je höher aus der Sicht der Befragten außerdem das auf den Stadtteil bezogene Risiko ist, einem Wohnungseinbruch zum Opfer zu fallen, desto eher nehmen Befragte im Unterschied zu Begehern herumlungernde Jugendliche wahr (β = 0,010, p = 0,017; vgl. Tab. 7). Die Wahrscheinlichkeit dafür, dass Befragte, nicht aber Begeher, herumlungernde Jugendliche wahrnehmen, erhöht sich, je höher das von den Befragten erlebte auf den Stadtteil bezogene Risiko ist, Opfer eines Raubüberfalls zu werden (β = 0,017, p = 0,022; vgl. Tab. 7). Schließlich ist Tabelle 7 zu entnehmen, dass Befragte, die jemanden kennen, der einer Körperverletzung zum Opfer gefallen ist, eine erhöhte Sensibilität für herumlungernde Jugendliche als Zeichen öffentlicher Unordnung erkennen lassen (β = 0,677, p = 0,000; vgl. Tab. 7). In Tabelle 8 wird die Häufigkeit einer erhöhten Sensibilität für alle Incivilities dargestellt. Dabei zeigt sich, dass in etwa der Hälfte aller Fälle übereinstimmende Antwortmuster zwischen Befragten und Begehern auftreten, während in etwa einem Fünftel aller Fälle mindestens eines der Zeichen der öffentlichen Unordnung von den Befragten, nicht aber von den Begehern als vorhanden betrachtet wurden. Tabelle 8: Häufigkeiten der erhöhten Sensibilität für Incivilities (ES_SUM) Incivilities
0
1
2
3
fi
1.220
559
447
271
pi
48,86
22,39
17,90
10,85
Die Ergebnisse des Regressionsmodells, das die erhöhte Sensibilität bezogen auf alle Incivilities auf die verschiedenen Aspekte der Viktimisierung zurückführt, werden in Tabelle 9 wiedergegeben.
431
Stefanie Eifler, Daniela Thume, Rainer Schnell
Tabelle 9: Lineare Regression der erhöhten Sensibilität für Incivilities auf Viktimisierung
Abhängige Variable: ES_SUM β
se
z
p
Begehungsdauer
–0,070
0,022
–3,24
0,002
Einbruch Kriminalitätsbelastung (PKS) erlebte Viktimisierung stellvertretende Viktimisierung Nachdenken über Viktimisierung Risiko einer Viktimisierung
–0,000 –0,084 0,128 0,089 0,005
0,000 0,097 0,055 0,071 0,002
–1,22 –0,87 2,31 1,26 2,52
0,226 0,388 0,023 0,211 0,013
Raub Kriminalitätsbelastung (PKS) erlebte Viktimisierung stellvertretende Viktimisierung Nachdenken über Viktimisierung Risiko einer Viktimisierung
–0,000 0,501 0,104 0,048 0,008
0,000 0,206 0,086 0,078 0,004
–1,41 2,43 1,21 0,61 2,18
0,162 0,016 0,228 0,541 0,031
Körperverletzung Kriminalitätsbelastung (PKS) erlebte Viktimisierung stellvertretende Viktimisierung Nachdenken über Viktimisierung Risiko einer Viktimisierung
0,001 0,020 0,347 0,031 0,002
0,000 0,117 0,085 0,077 0,004
2,88 0,17 4,08 0,40 0,66
0,005 0,865 0,000 0,689 0,511
Konstante
0,579
0,138
4,20
0,000
Tabelle 9 ist zu entnehmen, dass sich die Sensibilität der Befragten für Zeichen öffentlicher Unordnung erhöht, wenn in ihrer sozialen Umgebung Wohnungseinbrüche vorgekommen sind (β = 0,128, p = 0,023; vgl. Tab. 9). Das Vorhandensein von Incivilities wird von den Befragten umso eher abweichend von den Begehern beurteilt, je höher ihnen subjektiv das Risiko erscheint, dass in ihrem Stadtteil Wohnungseinbrüche stattfinden (β = 0,005, p = 0,013; vgl. Tab. 9). Befragte, die bereits einem Raubüberfall zum Opfer gefallen sind, weisen eine im Vergleich zu Begehern erhöhte Sensibilität gegenüber besprühten und beschmierten Wänden, herumliegendem Müll und/oder herumlungernden Jugendlichen auf (β = 0,501, p = 0,016; vgl. Tab. 9). Je höher aus der Sicht der Befragten das Risiko von Raubüberfällen im Stadtteil ist, desto häufiger unterscheiden sich Urteile 432
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung
von Befragten und Begehern bezüglich des Vorhandenseins oder Nicht-Vorhandenseins von Incivilities, und desto höher ist folglich die Sensibilität von Befragten für Zeichen öffentlicher Unordnung (β = 0,008, p = 0,031; vgl. Tab. 9). Schließlich zeigt Tabelle 9, dass Befragte, deren Freunde oder Bekannte bereits einer Körperverletzung zum Opfer gefallen sind, häufiger nicht-übereinstimmende Urteile abgeben und in diesem Sinne eine erhöhte Sensibilität für Zeichen öffentlicher Unordnung aufweisen (β = 0,347, p = 0,000; vgl. Tab. 9).
4 Diskussion In dieser Studie wurden Unterschiede zwischen subjektiven und objektiven Messungen von Incivilities in Abhängigkeit vom individuellen Viktimisierungshintergrund betrachtet. Die Studie zeigt, dass eine gesteigerte Aufmerksamkeit für ausgewählte physische und soziale Incivilities infolge von selbst oder stellvertretend erlebter Viktimisierung und infolge des auf den Stadtteil bezogenen, wahrgenommenen Viktimisierungsrisikos auftritt. Insgesamt wird deutlich, dass Unterschiede zwischen subjektiven und objektiven Messungen der Zeichen öffentlicher Unordnung auf die verschiedenen Aspekte von Viktimisierung zurückgeführt werden können. Im Allgemeinen führen Viktimisierungserfahrungen dazu, dass Befragte in Bezug auf ihre unmittelbare Wohnumgebung eine erhöhte Sensibilität für Zeichen öffentlicher Unordnung aufweisen und insbesondere Incivilities wahrnehmen, wo geschulte Beobachter dies nicht tun. Lediglich eine stellvertretend erfahrene Körperverletzung führt dazu, dass die Urteile von Befragten bezüglich des Vorhandenseins von Graffiti mit den Urteilen von geschulten Beobachtern eher übereinstimmen. Unterschiede zwischen subjektiven und objektiven Beurteilungen des Vorhandenseins von Incivilities werden vor allem bei dem Merkmal herumlungernde Jugendliche sichtbar. Möglicherweise ist hier der Zeitpunkt, auf den sich die Ratings von Incivilities beziehen, maßgeblich: Während geschulte Beobachter zu einem bestimmten Zeitpunkt als Fremde einen öffentlichen Raum beurteilen, beziehen Befragte ihren Erfahrungshintergrund als Ortsansässige und ihren Viktimisierungshintergrund in ihre Beurteilungen ein und nehmen damit implizit andere Zeiträume in den Blick. Das Nachdenken über Viktimisierung führt demgegenüber nicht dazu, dass sich die Sensibilität für die in dieser Studie untersuchten physischen und sozialen Zeichen öffentlicher Unordnung erhöht. 433
Stefanie Eifler, Daniela Thume, Rainer Schnell
Die Ergebnisse der vorliegenden Untersuchung sollten vorsichtig interpretiert werden. Die Incivilities wurden dichotom im Hinblick auf ihr Vorhandensein oder Nicht-Vorhandensein beurteilt. Daher könnten Häufigkeit und Intensität von Incivilities konfundiert sein. Die Effekte der Häufigkeit von Incivilities einerseits und Effekte der Intensität von Incivilities andererseits könnten je nach Art der Datenerhebung variieren. Dies soll in weiteren Analysen mit den DEFECT-Daten geklärt werden. Als vorläufiges Ergebnis kann festgehalten werden, dass sich subjektive und objektive Messungen von Incivilities unterscheiden und dass ein Grund dafür im individuellen Viktimisierungshintergrund von Befragten besteht. Daher sollten empirische Untersuchungen zur Erklärung von Kriminalitätsfurcht subjektive Wahrnehmungen von Incivilities möglichst durch kleinräumige unabhängige Beurteilungen durch geschulte Beobachter ergänzen.
Anmerkungen *
1 2
3
4
Bitte richten Sie Korrespondenz diesen Artikel betreffend an PD Dr. Stefanie Eifler, Universität Bielefeld, Fakultät für Soziologie, Postfach 100131, 33501 Bielefeld,
[email protected] Aus Gründen der sprachlichen Vereinfachung benutzen wir im Folgenden den Begriff Incivilities. Weiterführende Informationen zum DEFECT-Projekt finden sich allgemein im DEFECT-Projektbericht (Schnell et al. 2005) und ergänzend für die hier berichtete Studie unter www.uni-due.de/schnell_forschung.php. Zu bedenken ist zur Auswahl der Incivilities, dass sich die ursprünglichen Merkmalslisten auf den englischsprachigen Kulturraum beziehen. Bei der Übertragung auf deutsche Wohnumgebungen ist damit zu rechnen, dass sie hier eine andere Signalwirkung hinsichtlich der Einschätzung der öffentlichen Sicherheit besitzen. Darüber hinaus ist bezüglich der neuen Bundesländern der Sanierungsstand im Erhebungsjahr 1999 zu berücksichtigen, sodass die vernachlässigten Gebäude dort eben nicht auf Prozesse zunehmender sozialer Desorganisation und wachsender Kriminalität zurückgeführt werden können. Als ursächlich für die Vernachlässigung von Gebäuden ist hier vielmehr die innenpolitische Situation der DDR zu bezeichnen, die eben gerade nicht durch mangelnde Sozialkontrolle gekennzeichnet war – allerdings aber durch eine schlechte Haushaltssituation, die der Sanierung der Häuser entgegen stand. Eine Indikatorrolle der vernachlässigten Gebäude für fehlende Sozialkontrolle wird daher für die neuen Bundesländer vielerorts besonders kritisch zu hinterfragen sein. Einbruch: An Einbruchsdelikten unterscheidet die PKS Einbruch in Wohnräume, Einbruch in Kellerräume, Einbruch in Geschäftsräume etc. (§§ 243–244a StGB) Hier kam die Kategorie „Wohnungseinbruchdiebstahl“ mit der Schlüsselnummer 435* der Formulierung des Fragebogens am nächsten. Körperverletzung: Die Schlüsselziffer 2200 bezog sich auf alle Körperverletzungsdelikte (§§ 223–227, 229, 231 StGB). Obwohl hier die Körperverletzung an Kindern inbegriffen war, wurde diese Kategorie gewählt,
434
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung da die Zahl der angezeigten Misshandlungen von Kindern nur einen geringen Anteil an allen angezeigten Körperverletzungsdelikten bildet. Raub: Die Schlüsselziffer 2100 der PKS fasst alle Raubdelikte zusammen (§§ 249–252, 255, 316a StGB). Aus den oben erwähnten Gründen wurde diese Zusammenfassung gewählt, auch wenn hier die Raubüberfälle auf Zahlstellen und Geschäfte inbegriffen sind, die jedoch nur einen geringen Anteil der Raubdelikte ausmachten. 5 Bei der Variable ES_SUM handelt es sich um eine Zählvariable. Die Ergebnisse entsprechender Poisson-Regressionen unterscheiden sich in diesem Fall inhaltlich nicht von den Ergebnissen linearer Regressionsmodelle. Daher werden die Ergebnisse linearer Regressions-Modelle berichtet. Die Ergebnisse der linearen Regression wurden unter Berücksichtigung der Designeffekte durch die Betrachtung der Sampling Points als Cluster mit der „Cluster“-Option des „regression“-Kommandos in STATA gerechnet. 6 Eine technisch detaillierte Mehrebenenanalyse des ganzen Problemkreises ist Gegenstand laufender Bemühungen und wird seinen Niederschlag in der Dissertation von Daniela Thume finden.
Literatur Balkin, S. (1979). Victimization rates, safety and fear of crime. Social Problems, 26, 343–358. Boers, K. (1991). Kriminalitätsfurcht: Über den Entstehungszusammenhang und die Folgen eines sozialen Problems. Pfaffenweiler: Centaurus. Boers, K. (1993). Sozialer Umbruch und Kriminalität. Bonn: Forum-Verlag. Boers, K., & Kurz, P. (1997). Kriminalitätseinstellung, soziale Milieus und sozialer Umbruch. In K. Boers & G. Gutsche & K. Sessar (Hrsg.), Sozialer Umbruch und Kriminalität in Deutschland (187–253). Opladen: Westdeutscher Verlag. Cohen, J. (1960). A coefficient for agreement for nominal scales. Educational and Psychological Measurement, 20, 37–46. Covington, J., & Taylor, R. B. (1991). Fear of crime in urban residential neighborhoods: Implications of between- and within-neighborhood sources for current models. The Sociological Quarterly, 32, 231–249. Garofalo, J. (1979). Victimization and the fear of crime. Journal of Research in Crime and Delinquency, 16, 80–97. Häfele, J. (2006). „Incivilities“, Kriminalität und Kriminalpolitik. Aktuelle Tendenzen und Forschungsergebnisse. Neue Kriminalpolitik, 18, 104–109. Häfele, J., & Lüdemann, C. (2006). „Incivilities“ und Kriminalitätsfurcht im urbanen Raum. Eine Untersuchung durch Befragung und Beobachtung. Kriminologisches Journal, 38, 273–291. Hoffmeyer-Zlotnik, J. H. P. (1984). Zur Beschreibung von Wohnquartieren – Die Entwicklung eines Instruments. ZUMA-Arbeitsbericht, 84(05). Hunter, A. (1978). Symbols of Incivility. Paper presented at the Annual Meeting of the American Society of Criminology, November 1978, Dallas.
435
Stefanie Eifler, Daniela Thume, Rainer Schnell Kreuter, F. (2002). Kriminalitätsfurcht: Messung und methodische Probleme. Opladen: Leske + Budrich. LaGrange, R. L., & Ferraro, K. F., & Supancic, M. (1992). Perceived risk and fear of crime: The role of social and physical incivilities. Journal of Research in Crime and Delinquency, 29, 311–334. Lewis, D. A., & Salem, G. (1986). Fear of crime: Incivility and the production of a social problem. Oxford: Transaction Books. Lüdemann, C. (2006). Kriminalitätsfurcht im urbanen Raum. Eine Mehrebenenanalyse zu individuellen und sozialräumlichen Determinanten verschiedener Dimensionen von Kriminalitätsfurcht. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 58, 285–306. Lüdemann, C. (2007). Kriminalität und Sozialkapital im Stadtteil. Eine Mehrebenenanalyse zu individuellen und sozialräumlichen Determinanten von Viktimisierungen. Zeitschrift für Soziologie, 36, 25–42. Piquero, A. (1999). The validity of incivility measures in public housing. Justice Quarterly, 16, 793–818. Raudenbush, S. W., & Sampson, R. J. (1999). Ecometrics: Towards a science of assessing ecological settings, with application to the systematic observation of neighborhoods. Sociological Methodology, 29, 1–41. Rountree, R. W., & Land, K. C., & Miethe, T. D. (1994). Macro-micro integration in the study of victimization: A hierarchical logistic model analysis across Seattle neighborhoods. Criminology, 32, 387–414. Sampson, R. J., & Raudenbush, S. W. (1999). Systematic social observation of public spaces: A new look at disorder in urban neighborhoods. American Journal of Sociology, 105, 603–651. Sampson, R. J., & Raudenbush, S. W. (2004). Seeing disorder: Neighborhood stigma and the social construction of broken windows. Social Psychology Quarterly, 67, 319–342. Schnell, R., & Kreuter, F. (2000). Das DEFECT-Projekt: Sampling-Errors und NonsamplingErrors in komplexen Bevölkerungsstichproben. ZUMA-Nachrichten, 47, 89–102. Schnell, R., & Kreuter, F. (2005). Seperating Interviewer and Sampling Point Effects. Journal of Official Statistics, 21, 389–410. Schnell, R., & Kreuter, F., & Thume, D., & Coutts, E. (2005). Das DEFECT-Projekt. Projektdokumentation. Konstanz: Universität Konstanz. Skogan, W. G. (1978). Victimization surveys and criminal justice planning. Washington: National Institute of Law Enforcement and Criminal Justice. Skogan, W. G. (1990). Disorder and decline. New York: Free Press. Skogan, W. G., & Maxfield, M. G. (1981). Coping with crime. Beverly Hills: Sage. Taylor, R. B. (1999). The incivility thesis: Theory, measurement, policy. In R. H. Langworthy (Ed.), Measuring what matters: Proceedings from the policing research institute meetings (65–90). Washington, D. C.: U. S. Department of Justice. Wilson, J. Q., & Kelling, G. L. (1989). Broken windows. The Atlantic Monthly, 211, 29–38.
436
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung
Anhang A1
Messung von Viktimisierungserfahrung im Rahmen des DEFECTProjekts
Die erlebte Viktimisierung wurde für das Delikt Raub im Anschluss an die Items zur Erfassung der stellvertretenden Viktimisierung erfragt. Die Itemformulierung lautete:
Ist das Ihnen selbst schon einmal passiert? Ja . . . . . . . . . . . . . 1 Nein . . . . . . . . . . . 1
Wurden Sie selbst schon einmal von einem Fremden geschlagen oder verletzt? Ja . . . . . . . . . . . . . 1 Nein . . . . . . . . . . . 1
Stellvertretende Viktimisierung Wurde bei jemandem, den Sie persönlich kennen, schon einmal eingebrochen, während niemand zuhause war? Ja . . . . . . . . . . . . . 1 Nein . . . . . . . . . . . 1
Wurde jemandem, den Sie persönlich kennen, schon einmal Gewalt angedroht, um ihn oder sie zur Herausgabe von Geld oder Wertgegenstände zu bringen? Ja . . . . . . . . . . . . . 1 Nein . . . . . . . . . . . 1 Weiß nicht . . . . . . 1 Anmerkung: Die Antwortkategorie „Weiß nicht“ wurde nicht in die Analyse einbezogen, da sie nur in sehr wenigen Fällen gewählt wurde.
437
Stefanie Eifler, Daniela Thume, Rainer Schnell
Wurde jemand, den Sie persönlich kennen, schon einmal von einem Fremden geschlagen oder verletzt? Ja . . . . . . . . . . . . . 1 Nein . . . . . . . . . . . 1 Weiß nicht . . . . . . 1 Anmerkung: Die Antwortkategorie „Weiß nicht“ wurde nicht in die Analyse einbezogen, da sie nur in sehr wenigen Fällen gewählt wurde.
Nachdenken über Viktimisierung Kommen wir noch einmal zum Einbruch. Haben Sie schon einmal daran gedacht, dass jemand in Ihre derzeitige Wohnung einbrechen könnte, während niemand zuhause ist? Ja . . . . . . . . . . . . . 1 Nein . . . . . . . . . . . 1
Haben Sie schon einmal daran gedacht, dass jemand Ihnen Gewalt androhen könnte, um an Ihr Geld oder Ihre Wertgegenstände zu kommen? Ja . . . . . . . . . . . . . 1 Nein . . . . . . . . . . . 1
Haben Sie schon einmal daran gedacht, dass ein Fremder Sie aus geringem Anlass schlagen oder verletzen könnte? Ja . . . . . . . . . . . . . 1 Nein . . . . . . . . . . . 1
438
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung
Viktimisierungsrisiko Bitte denken Sie nur an Ihre Wohngegend und an das, was Ihnen persönlich dort innerhalb der nächsten 12 Monate passieren könnte. Bitte geben Sie für jede der folgenden Straftaten an, für wie wahrscheinlich Sie es halten, dass Ihnen persönlich hier so etwas in den nächsten 12 Monaten passiert. Geben Sie bitte einen Wert zwischen 100% und 0% an. Dabei bedeutet 100% „es passiert mir ganz sicher“ und 0% „ich halte es für ausgeschlossen“. Dazwischen können Sie jeden beliebigen Wert wählen. Für wie wahrscheinlich halten Sie es, Bitte hier die Prozentwerte eintragen
. . . dass jemand in Ihre Wohnung einbricht, während niemand zuhause ist? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 % . . . dass jemand Ihnen in Ihrer Wohngegend Gewalt androht, um an Ihr Geld oder Ihre Wertgegenstände zu kommen? . . . . 1 1 1 % . . . dass ein Fremder Sie in Ihrer Wohngegend aus geringem Anlass schlägt oder körperlich verletzt? . . . . . . . . . . . . . . . . . 1 1 1 %
A2
Erfassung von ,Incivilities‘ aus der Perspektive der Begeher im DEFECT-Projekt
Beschreibung der von den Begehern notierten Incivilities, sofern diese sich in unmittelbarer Umgebung des Hauses eines Befragten befanden:
Code „gb“ – verfallene oder leer stehende Gebäude: Dieser Code wurde eingetragen, wenn sich in der unmittelbaren Umgebung des Hauses verfallene oder leer stehende Gebäude befanden – oder wenn das Haus, in dem sich der Zielhaushalt befindet, selbst verfallen war. Nachträglich kann dies leider nicht mehr unterschieden werden. Code „wn“ – besprühte Wände: Gab es in Sichtweite des Hauses Graffiti und bemalte Hauswände und Mauern, so wurde dies in dieser Spalte festgehalten. Code „te“ – Telefonzelle vorhanden: Wenn in nächster Nähe des Hauses eine Telefonzelle vorhanden war, wurde dies hier notiert. 439
Stefanie Eifler, Daniela Thume, Rainer Schnell
Code „zt“ – zerstörte Telefonzelle: Zerstörte Telefonzellen wurden nur selten angegeben. Die Begeherinnen haben vorhandene Telefonzellen nicht auf ihre Funktionstüchtigkeit hin überprüft. So wurden hier nur solche vermerkt, die deutlich sichtbar defekt waren.* Code „au“ – Ausländer: Hier wurde notiert, ob sich in der Wohngegend auffallend viele Ausländer aufhielten, wobei der Code auch vergeben wurde, wenn sich eine Häufung entsprechender Familiennamen an den Klingelschildern in der unmittelbaren Nachbarschaft des Zielhaushalts fand. Code „ml“ – Müll: Bei der Vergabe dieses Codes bestand ein Bezugsproblem: Anfangs wurde dieser Code häufig vergeben, später fiel den Begeherinnen auf, dass sich fast überall ein bisschen Müll finden ließ, der aber normalerweise in regelmäßigen Abständen entfernt wird. Code „bt“ – Betrunkene: Betrunkene sind den Begeherinnen nur sehr selten begegnet. Code „dr“ – Drogensüchtige: Drogensüchtige waren normalerweise nicht auf offener Straße als solche erkennbar. Der Code wurde entsprechend selten vergeben. Code „jn“ – lungernde Jugendliche: Hier war oft uneindeutig, ob die Jugendlichen, die sich auf der Straße aufhalten, hier aufgeführt werden sollten. Beispielsweise warteten Jugendliche oft an Bushaltestellen etc. Code „ns“ – Notrufsäule: Notrufsäulen gab es selten, im Allgemeinen befanden sie sich an U-Bahnhöfen oder an stark befahrenen Landstraßen, aber nicht in Wohngebieten.
*
Begeherin ch hat oft den falschen Code verwendet. Bei ihr handelte es sich immer um intakte Telefonzellen. Dies kann nachträglich verbessert werden. Diese Recodierungsarbeiten sind derzeit in Vorbereitung.
440
Subjektive und objektive Messungen von Zeichen öffentlicher Unordnung
A3
Erfassung von ,Incivilities‘ aus der Perspektive der Befragten im DEFECT-Projekt
Bitte denken Sie einmal an Ihre Wohngegend, also alles, was Sie in 5 Gehminuten erreichen können. Gibt es in Ihrer Wohngegend . . . Ja
Nein
Schmutz und Müll in den Straßen oder Grünanlagen
1
1
heruntergekommene oder leerstehende Gebäude
1
1
besprühte oder beschmierte Wände
1
1
zerstörte Telefonzellen oder Straßenlaternen
1
1
herumlungernde Jugendliche
1
1
Betrunkene auf der Straße oder in den Grünanlagen
1
1
andere Sie beunruhigende Personen
1
1
Bitte machen Sie in jeder Zeile ein Kreuz
441
Georgios Papastefanou
Georgios Papastefanou
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung Zusammenfassung Die Methodik der empirischen Sozialforschung ist im Wesentlichen von repräsentativen Umfragen gekennzeichnet, die im Kern auf retrospektiven Selbstberichten beruhen. Neuere experimentelle Untersuchungen haben gezeigt, dass diese Methodik, insbesondere bei der Erfassung emotionaler Erfahrungen und physiologischer Indikatoren des Wohlbefindens und der Gesundheit, ihre Grenzen hat. Demgegenüber werden Methoden der Echtzeitmessung und der objektiven Erfassung von physiologischen Markern durch die technische Entwicklung im Bereich von Taschencomputern (Ambulatorisches Assessment) in wachsendem Maße auch außerhalb von Laborsettings einsetzbar und damit auch für die empirische Sozialforschung interessant. Im vorliegenden Beitrag werden zunächst die methodischen Prinzipien von Echtzeitmessungs-Designs sowie relevante psychophysiologische und physische Parameter als Indikatoren individueller Befindlichkeit dargestellt. Anschließend werden einige Forschungsfragen aufgezeigt, die von der Verwendung der ambulatorischen Methodik profitieren können. Der Beitrag schließt mit exemplarischen Ergebnissen einer Pilotstudie, bei der ein Prototyp eines surveytauglichen Instruments des Ambulatorischen Assessment erprobt worden ist.
Abstract Ambulatory Assessment: New Methods for Social Research The most applied methodology in social research is based on random social surveys, which use retrospective self-reports. But recent studies provide evidence, that these kind of measurement, especially for measuring emotional and physical well-being over time is significantly biased. Methods of real-time data capturing of subjective and physiological states (ambulatory assessment) are going to set a new standard in at least health related research. As technological advancement of wearable computing allows to deploy these methods outside the lab, in the context of everyday life, they seem promising to meet a growing demand in social research studies (e. g. biosocial surveys). In this paper first main characteristics of real-time measurement designs are described,
443
Georgios Papastefanou
as well as indicators of peripheral physiological outcome, which might be relevant for indicating individual emotion and activation states. Then some social research issues are discussed, which seemly could gain merit of integrating ambulatory assessment into survey designs. Finally, exemplary results of a pilot study are reported, in which survey suitability of a prototypical wearable computing device is tested.
1 Einleitung Die repräsentative Umfrage mit standardisierten Fragen hat sich in der empirischen Sozial-, Markt- und Wirtschaftsforschung weithin als Standardmethode durchgesetzt (Kromrey, 1998; Schnell, Hill & Esser, 2005). Von der Erfassung von Daten mittels nichtteilnehmender Beobachtung oder medizinisch-physiologischer Ableitungen, wie sie z. B. in einer der ersten systematischen Untersuchungen der Sozialforschung – der Studie „Die Arbeitslosen von Marienthal“ von Paul Lazarsfeld und Marie Jahoda (Jahoda, Lazarsfeld & Zeisel, 2001) – eingesetzt wurde, wird in repräsentativen Umfragen immer mehr Abstand genommen. Dies scheint nicht nur ein Problem der empirischen Sozialforschung zu sein. Auch in der psychologischen Forschung, die zuletzt die Epoche des Verhaltens ausgerufen hat (APA, 1999), wird beklagt, dass sich die Erforschung menschlichen Verhaltens immer mehr auf die Untersuchung von „Fingerbewegungen“ (beim Drücken von Tasten und Ankreuzen von Kästchen in Fragebogen) reduziert hat (Baumeister, Vohs & Funder, 2007). Der mit Beobachtungs- und biophysiologischen Verfahren der Datenerhebung verbundene finanzielle, organisatorische und zeitliche Aufwand scheint abschreckend hoch. Demgegenüber erscheint die Effizienz der Erhebung von Verhaltensweisen und Befindlichkeiten durch retrospektive Selbstberichte unschlagbar. Allerdings hat seit Mitte der 1990er Jahre die kognitive Umfrageforschung mit experimentellen Untersuchungsdesigns die Verzerrungsanfälligkeit von Selbstberichten deutlich aufgezeigt (Schwarz & Strack, 1999). Gleichzeitig entwickelte sich ein methodischer Ansatz der Echtzeitmessung, der als Ambulatorisches Assessment wachsende Anerkennung und Akzeptanz erfährt. Dies zeigt sich u. a. darin, dass diese Methode von der amerikanischen Food and Drug Agency vorrangig empfohlen wird (FDA, 2006; Patrick et al., 2007). Ambulatorisches Assessment beruht im Wesentlichen auf den technischen Lösungen des Wearable Computing – miniaturisierter Informations444
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung
technik, die in alltägliche Kleidung und Accessoires integriert ist. Der empirischen Sozialforschung wird dadurch ermöglicht, affektive, physische und biophysiologische Daten in Echtzeit zu erfassen. Dies stellt einen klaren Vorteil gegenüber den verzerrungsanfälligen Retrospektivangaben dar, die auf subjektiven Selbstberichten beruhen. Moderne, in die Alltagsbekleidung integrierte Messgeräte eröffnen der populationsbezogenen Sozialforschung die Möglichkeit, in ihren Umfragedesigns verstärkt objektive und in Echtzeit erfasste Daten über individuelle Befindlichkeiten im Alltag zu integrieren. Der vorliegende Beitrag will das Potential herausstellen, welches die Methodik des Ambulatorischen Assessment für die empirische Sozialforschung mit Populationsbefragungen hat. Zunächst werden im Folgenden die methodischen Prinzipien des Ambulatorischen Assessments vorgestellt. Anschließend werden Anforderungen diskutiert, denen sich die empirische Sozialforschung gegenübergestellt sieht und denen sie mit Methodik und Technik des Ambulatorischen Assessments begegnen könnte. Schließlich werden einige beispielhafte Messungen mit einem Wearable-Computing-Prototyp berichtet. Der Beitrag endet mit einer Agenda zur Integration des Ambulatorischen Assessments in die empirische Sozial- und Wirtschaftsforschung.
2 Zur Methodik des Ambulatorischen Assessments 2.1 Methodologische Prinzipien Ambulatorisches Assessment kann folgendermaßen umschrieben werden „. . . the use of (mainly) electronic devices and computer-assisted methods of data collection suitable for use in the field to collect self-report data, behavior observation data, psychometric behavior measures, and physiological data in unrestrained daily life settings“ (Fahrenberg, Myrtek, Pawlik & Perrez, 2007, S. 207).
In dieser Definition sind zwei methodologische Prinzipien angesprochen: a) Aspekte menschlichen Daseins im Moment ihres Auftretens zu messen (Prinzip der Echtzeitmessung, in vivo), b) Aspekte menschlichen Daseins im alltäglichen Kontext zu erfassen (Prinzip der externen Validität, in situ). Diese Prinzipien spiegeln sich in verschiedenen Bezeichnungen wider, z. B. als „ecological momentary assessment“ (Shiffman, Stone & Hufford, 2008; Stone & Shiffman, 1994; Stone, Shiffman, Atienza & Nebeling, 2007) 445
Georgios Papastefanou
oder als „experience sampling“ (De Vries, 1992; Hektner, Schmidt & Csikszentmihalyi, 2007; Larson & Csikszentmihalyi, 1983). Damit wird herausgestellt, dass innerhalb einer relevanten Beobachtungsspanne eine Stichprobe an Momenten aus der zeitlichen Gesamtmenge an Momenten zur Abbildung spezifischer Prozesse untersucht wird. Typischerweise wird dabei zwischen Intervall-kontingenter (der Untersuchungsteilnehmer wird in regelmäßigen Abständen zu einer Eingabe aufgefordert), signal-kontingenter (die Eingabeaufforderung erfolgt in zufällig ausgewählten Zeitpunkten), ereignis-kontingenter (die Aufforderung erfolgt nach Eintritt eines Ereignisses) und kontinuierlicher Aufzeichnung unterschieden (Pawlik, 1988; Reis, 2000; Shiffman et al., 2008). In einer der ersten Studien, die diesem methodologischen Ansatz folgten, erhoben Buse und Pawlik (1984) Daten über Verhalten und Stimmungsbefindlichkeit nach einem randomisierten Zeitstichprobendesign, um sicherzustellen, dass Situationen und Settings des alltäglichen Lebens erfasst würden. In dem Maße, wie eine Stichprobe aus Erlebnismomenten einer Stichprobe aus zeitlich abgrenzbaren Situationen entspricht, werden damit auch Prozesse repräsentiert. Deshalb kann man feststellen, dass zum Ambulatorischen Assessment auch c) das Prinzip der Verlaufsmessung gehört. Neben der methodischen Ausrichtung auf In-vivo- und In-situ-Messungen von Prozessen, verweist Ambulatorisches Assessment auch auf eine interdisziplinäre Perspektive, in der neben subjektiven Daten, auch Beobachtungs- und physiologische Daten zur Untersuchung des menschlichen Alltags gehören (können und sollen): „These methodologies include but are not limited to experience sampling, repeated-entry diary techniques, and ambulatory monitoring of physiological function, physical activity and/or movement, as well as the acquisition of ambient environmental parameters.“ (Ebner-Priemer, 2008, S. 9)
Die methodisch-praktische Umsetzung dieser methodologischen Prinzipien beruht wesentlich auf dem Einsatz von miniaturisierter und portabler Informations- und Kommunikationstechnologie. Auch wenn gegenwärtig über Vor- und Nachteile von Papier und Bleistift vs. Handheld-PC-basierten Verfahren kontrovers diskutiert wird (Green, Rafaeli, Bolger, Shrout & Reis, 2006; Hektner et al., 2007; Piasecki, Hufford, Solhan & Trull, 2007), kristallisieren sich Vorteile der Handheld-PC gestützten Befragung heraus (Wilhelm & Perrez, 2008). Zunehmend werden auch Mobiltelefone für die Datenerfassung genutzt (Wilhelm & Pfaltz, in Druck).
446
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung
2.2 Messung subjektiver Befindlichkeiten Die Messung von subjektiven Erfahrungen wie z. B. Schmerz, Furcht oder Zufriedenheit, aber auch von physischen Aktivitäten mittels retrospektiver Selbstberichte ist in hohem Maße verzerrungsanfällig (Todd, Tennen, Carney & Armeli, 2004). Experimentelle Studien über Recall und Hindsight Biases (Pohl, 2004), autobiographische Studien (Cohen, 1991; Cohen & Java, 1995) und Studien über Alltagserfahrungen mittels computer-gestützter Tagebücher (Käppler, Brügner & Fahrenberg, 2001; Smith, Leffingwell & Ptacek, 1999) haben gezeigt, dass retrospektive Befindlichkeitsdaten eher mentale Repräsentationen und semantische Rekonstruktionen auf der Basis individueller Heuristiken (Recency und Peak-End-Effekt, Redelmeier & Kahnemann, 1996; Schwarz, 2007) darstellen als faktische Erfahrungen und Verhaltensweisen (für Hinweise auf weitere Studien, die die Diskrepanz zwischen aktuellen und retrospektiven Angaben belegen siehe Fahrenberg, 2006). Es wird hier von einem sogenannten negativen Retrospektionseffekt gesprochen, der in verschiedenen psychologischen Untersuchungen belegt wird (Fahrenberg, 2006). Die Wirkung dieses Effektes wurde in der Untersuchung von Redelmeier und Kahnemann (1996) exemplarisch dargestellt. Es konnte gezeigt werden, dass die retrospektive Einschätzung der Schmerzerfahrung bei einer Darmspiegelung weniger von der tatsächlich erlebten Intensität im Verlauf der Untersuchung abhängig ist, sondern von der Schmerzerfahrung am Ende der Darmuntersuchung. Solchen Verzerrungen kann durch eine Echtzeitmessung mittels eines Handheld-Computers mit automatisierter Befragungsaufforderung und einem standardisierten Befindlichkeitsfragebogen begegnet werden. Fahrenberg (2006) beschreibt das typische Design einer Echtzeitstudie folgendermaßen: „A rather typical protocol may contain five to seven prompts per day. Each protocol includes about 5 to 20 items regarding, for example, context (setting, activity, social context) and items or adjective scales to assess momentary mood, symptoms, experiences, and finally, control items. The morning and the evening protocol may include additional and retrospective questions. Each protocol requires about one to two minutes to complete. The prompts are either activated at random or scheduled according to event sampling or time sampling procedures. Fixed schedules may have random components and, possibly, the start and end time are set for each subject to meet the individual’s course of the
447
Georgios Papastefanou
day. A typical study covers at least one day, often a couple of days or a week, and rarely longer periods of time, and depending on the study incorporates free periods within a design. One report per day may be sufficient in such cases, instead of multiple reports.“ (Fahrenberg, 2006, S. 21)
Die Auswahl der Befragungsmomente ist oft intervall-kontingent, die Intervalllänge variiert je nach Fragestellung zwischen 15 Minuten und mehreren Stunden. Die Beobachtungsdauer kann einen Tag, mehrere Tage oder mehrere Wochen betragen. Aufgrund ihrer weiten Verbreitung und alltäglichen Präsenz kommen Mobiltelefone als elektronisches Logbuch in Frage, sofern sie die technischen Voraussetzungen zur Programmierung von Fragebogen und Auswahlplan (der Zeitpunkte, an denen zur Beantwortung der Fragen durch ein Signal aufgefordert wird) bieten. In dem Fall spielt die weitere technische Entwicklung eine zentrale Rolle für das Mobiltelefon als Erhebungsinstrument.
2.3 Messung physiologischer Befindlichkeit Nach Wilhelm und Perrez (2008) können Befindlichkeitsveränderungen im Alltag als Alarm- und Bereitstellungsreaktionen aufgefasst werden, die durch die Zunahme sympathisch-adrenerger Aktivität gekennzeichnet sind. Damit kommen auch jene physiologischen Parameter in den Fokus der Betrachtung, die zwar kein unmittelbares organisch-funktionales Risiko indizieren, in denen sich aber psychisch-mentale Belastungen ausdrücken. Es handelt sich hierbei um a) die Herzrate als Indikator der momentanen Balance zwischen sympathisch beta-adrenerger und vagaler Aktivierung des Herzen, b) die Herzratenvariabilität als Indikator der vagalen Aktivierung, c) bestimmter EKG-Ableitungen wie z. B. P-Wellen-Amplitude oder die ST-Strecken-Amplitude, d) die elektrodermale Aktivität (EDA) als Indikator für die sympathisch-cholinerge Aktivierung, e) das Elektromyogramm (EMG), mit dem die Aktivität der Muskeln abgebildet wird, e) die periphere Hauttemperatur, z. B. am Finger, die als Indikator für sympathikusbedingte, vasokonstriktive Effekte gelten kann (Fahrenberg & Wilhelm, in Druck), f) die Atemfrequenz, g) das Atemvolumen als Indikator der metabolischen Aktivität, h) die CO2-Konzentration in der ausgeatmeten Luft als Indikator für Hyperventilation. Ferner kann über Speichelproben die Kortisol-Konzentration bestimmt werden, welche die Aktivität der Hypothalamus-Hypophysen-Neben448
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung
nieren-Achse anzeigt. Ein Anstieg der Kortisolkonzentration, die von den typischen circadianen Schwankungen abweichen, kann als Stress- und Belastungsindikator interpretiert werden, sofern für Störvariablen (wie z. B. Nikotin-, Koffein- und Alkoholkonsum, Medikation u. a.) kontrolliert wird (Wilhelm & Perrez, 2008). Eine Übersicht von Geräten, die für ein ambulatorisches Assessment eingesetzt werden können, findet man bei Ebner-Priemer und Kubiak (2007) und auf der Homepage der Society for Ambulatory Assessment (www.ambulatory-assessment.org).
2.4 Messung physischer Aktivität Neben der Echtzeitmessung von subjektiven Reaktionen fokussiert Ambulatorisches Assessment auch die Erfassung körperlichen Verhaltens, wobei hier mit Verhalten zum einen muskulo-motorische Aspekte wie Mimik, Gestik und Haltung bzw. Bewegung gemeint sind, zum anderen beobachtbares Sprechverhalten. Eine automatisierte Beobachtung skeleto-motorischer Aspekte wie Gehen, Sitzen, Liegen u. ä. wird in erster Linie durch triaxiale Beschleunigungs- bzw. Trägheitssensoren ermöglicht. Diese werden im Rahmen fortschreitender Miniaturisierung in Geräte integriert, die je nach Fragestellung an verschiedenen Körperstellen getragen werden können und detaillierte Messwerte über die Mobilität liefern. Die Messung von Körperhaltung und Bewegungsmuster mittels elektronischer Beschleunigungssensoren gilt als zuverlässig und valide (Bussmann, 1998; Foerster & Fahrenberg, 2000). Solche Geräte werden mittlerweile auch in Populationsstudien eingesetzt (z. B. Harris, Owen, Victor, Adams & Cook, 2008; Kristensen et al., 2008; Johnson et al., 2008). Als Aktigraphie gewinnt elektronische Bewegungsmessung gerade in der Schlafdiagnostik an Bedeutung (Morgenthaler et al., 2007). Und zwar als Alternative zum aufwändigen Polysomnogramm im Schlaflabor, wo die ungewohnte Umgebung und die für die Ableitung notwendige Verkabelung Störquellen darstellen, die das Schlafverhalten stark beeinflussen können. Mit miniaturisierten Bewegungsrekordern, die am Handgelenk, Unterschenkel oder an der Hüfte befestigt werden, wird motorische Aktivität aufgezeichnet (De Vries et al., 2006). Aktivitäts- und Ruhe-Zyklen im Alltag der Patienten können damit kontinuierlich über mehrere Tage und Nächte ermittelt und Einschlaf- und Aufwachzeiten hinreichend valide erschlossen werden (Morgenthaler et al., 2007; Tryon, 2004). 449
Georgios Papastefanou
In einem weiteren Sinne kann die Sprechaktivität als körperliche Aktivität aufgezeichnet und z. B. als Dauer und Häufigkeit von Sprechakten beschrieben werden. Ein Weg, die Sprechaktivitäten aufzuzeichnen, besteht darin, ein MiniMikrophon in der Nähe des Kehlkopfes zu fixierten und dessen Signale mit einem Rekorder aufzuzeichnen. Auf dieser Basis können verschiedene Aspekte der Sprechaktivität wie Lautstärke, Frequenzspektrum oder zeitliche Strukturierung des Sprechens erfasst werden. Aus dem Verhältnis von Sprechaktivität und Sprechpausen im Zeitfenster von Minuten und Stunden können Rückschlüsse auf das Sozial- und Interaktionsverhalten gezogen werden. Analysezeitfenster im Millisekundenbereich lassen Aussagen über kognitive Prozesse wie z. B. Aufmerksamkeit oder Müdigkeit zu (Krüger & Vollrath, 1996). Aus Merkmalen des Sprech- und Stimmverhaltens (wie Lautstärke, Frequenzspektrum und Variation der Tonhöhe) kann man auf das Befinden des Sprechers folgern. Ambulatorisch erhoben wurde die Sprechaktivität bislang primär als Kontrollvariable bei psychophysiologischen Untersuchungen (Alpers, Wilhelm & Roth, 2005; Myrtek, 2004); als eigenständiges Verhaltensmaß hat sie bislang wenig Beachtung gefunden (Fahrenberg, 2006). Eine weniger aufwändige Lösung ist das Verfahren des elektronischen Audiorekorder (EAR), der aus einem Minimikrophon in Reichweite des Mundes und einem am Körper der Person befestigten digitalen, akustischen Rekorder besteht (Mehl & Holleran, 2007). Der Rekorder ist so programmiert, dass er periodisch (z. B. alle 12 Min.) kurze Tonausschnitte (z. B. 30 Sek.) aufnimmt. Erfasst wird damit nicht nur eine Stichprobe der Sprechakte, sondern auch der Umweltgeräusche, die dem entsprechen, was die untersuchte Person zum jeweiligen Zeitpunkt hören kann. Der EAR erstellt so ein akustisches Logbuch der natürlich sich ereignenden Person-Umwelt-Interaktionen, das anschließend von Beobachtern nach unterschiedlichen Aspekten kodiert werden kann. Zusätzlich können verbale Äußerungen transkribiert und so für Inhaltsanalysen verfügbar gemacht werden. Verschiedene Aspekte des physikalischen Umfeldes sind als Kontext auch für die individuelle, physiologische und subjektive Befindlichkeit relevant. Zur Messung von Umgebungstemperatur, Schallpegel, Lichtintensität, Luftfeuchtigkeit und Luftdrucktemperatur sind mittlerweile miniaturisierte Sensoren mit hoher Genauigkeit verfügbar (Ebner, 2004; Fahrenberg, Myrtek, Pawlik & Perrez, 2002). Verschiedene Telemetriesysteme und Aufzeichnungsgeräte ermöglichen die kontinuierliche Erfassung solcher Merkmale des ambienten Kontextes (Mutz & Becker, 2006). 450
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung
2.5 Exkurs: Befindlichkeit als emotionale Aktivierung Ambulatorisches Assessment richtet sich auf die Messung menschlicher Befindlichkeit in mehreren Dimensionen wie subjektive Erfahrung, peripherphysiologische Funktionen, muskulo-skeletales sowie vokales Verhaltens und endokrine Reaktionen. Diese Differenzierung überschneidet sich mit jenen Dimensionen, die als Komponenten von Emotionen als relevant erachtet werden (Cacioppo, Berntson, Larsen, Poehlmann & Ito, 2000; Turner, 2000; Scherer, 2001). Dabei stellt sich die grundlegende Frage, ob man von evolutionär herausgebildeten, universalen Basisemotionen ausgehen kann (Izard, 2007; Panksepp, 1998, 2007) oder von Affekten als sozial konstruierte, gelernte Attributionen unspezifischer Bewertungsreaktionen (Barrett, 2006; Barrett et al., 2007). In einem relativ unübersichtlichen Feld wie der Emotionsforschung erscheint es hilfreich, einen übergreifenden Bezugsrahmen zu wählen. Hierzu bietet sich die Arbeit von Jonathan Turner (2000) an, der aus der Synopse unterschiedlicher emotionstheoretischer Ansätze einen übergreifenden Bezugsrahmen entwickelt hat (Turner, 2000). Darin werden Basisemotionen als Systeme von miteinander interagierenden Komponenten aufgefasst, die von spezifischen, das Überleben des Organismus betreffenden Stimuli aktiviert werden (auch Panksepp, 1998, zur Konzeptualisierung von Emotion als System wechselwirkender Dimensionen). Man kann diesen Bezugsrahmen mit folgenden Aussagen zusammenfassen: • Es gibt grundlegende Emotionen (Basisemotionen), die sich evolutionär herausgebildet haben und zur genetischen Ausstattung des Menschen gehören. Grundlegende Emotionen sind Furcht und Wut (weitere grundlegende emotionale Systeme könnten soziale Trennung, Freude, Trauer und Glück sein, allerdings herrscht darüber keine Übereinstimmung in der Forschungsliteratur) (Turner, 2000). • Die grundlegenden emotionalen Systeme zeigen sich in je spezifischer Mobilisierung (Aktivierung und Wechselwirkung) von neuronalen, peripher-physiologischen, skeletomuskulären und endokrinologischen (Neurotransmitter sowie neuronalen und körperlichen Peptiden und Hormonen) Komponenten (Turner, 2000). • Die Basisemotionen können in unterschiedlichen Intensitätsgraden mobilisiert werden (Turner, 2000). • Die Mobilisierung der Basisemotionen wird durch subkortikale Komponenten gesteuert und vollzieht sich unbewusst (Turner, 2000). 451
Georgios Papastefanou
• Die Mobilisierung der Basisemotionen kann kortikal, kognitiv-sprachlich bewusst werden und sich in einer bewussten, subjektiven Befindlichkeit (Gefühl) niederschlagen (Turner, 2000). In diesem Bezugsrahmen kann man davon ausgehen, dass die Aktivierung emotionaler Systeme sich u. a. auch in spezifischen Signaturen der peripheren physiologischen Parameter zeigt (Picard & Healey, 1997). Die Frage, welche Profile aus kardiovaskulären, elektrodermalen und respiratorischen Reaktionen den verschiedenen Mobilisierungsintensitäten der einzelnen Basisemotionen entsprechen, wird gegenwärtig intensiv untersucht (Kreibig et al., 2007; Wilhelm et al., 2005a; Wilhelm & Pfaltz & Grossmann, 2006). In zahlreichen Studien wurde gezeigt, dass die elektrodermale Reaktion mit der Mobilisierung des Furchtsystems verbunden ist (Blechert et al., 2005; Boucsein, 1995; Kreibig et al., 2007; Wilhelm et al., 2005a). Bei moderater Intensität der Mobilisierung ist sie ein Korrelat von Orientierungsreaktionen (Reeves et al., 1989) und von gesteigerter Beanspruchung und Aufmerksamkeit (Prokasy & Raskin, 1973). Die Aktivierung des Ärger/Wut-Systems zeigt sich insbesondere in Veränderungen kardiovaskulärer Parameter wie z. B. im Anstieg des diastolischen Blutdrucks (Bishop & Ngau & Pek, 2008; Fredrickson et al., 2000) und einer erhöhten Herzrate. Insgesamt deutet die gegenwärtig erreichte Befundlage darauf hin, dass für eine eindeutige Identifikation der Mobilisierung von Basisemotionen mehrere physiologische Indikatoren nötig sind, wenn man neben Furchtund Wut- auch andere emotionale Reaktionssysteme in ihrer Aktivierung identifizieren will (Fahrenberg, 2006; Wilhelm et al., 2005b). Diese Strategien setzen natürlich voraus, dass die aufgezeichneten physiologischen Signale um jene Reaktionen bereinigt sind, die z. B. durch Bewegung des Messpunktes bzw. durch emotionsunspezifische körperliche Veränderungen (Schwitzen und erhöhte Herzrate durch anstrengende körperliche Betätigung) auftreten. Im Laborkontext können solche Artefakte durch Versuchsanordnung und technische Hilfsmittel wie Klebeelektroden weitgehend kontrolliert werden. Für die Feldforschung scheint es angemessener zu sein, mögliche Störquellen simultan aufzuzeichnen, um sie in der Analyse statistisch zu berücksichtigen.
452
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung
2.6 Methodische Probleme des Ambulatorischen Assessments Insbesondere zwei Fragen stellen sich beim Ambulatorisches Assessment: 1) In welchem Maße wird dieses Verfahren vom Probanden akzeptiert, obwohl es eine längerfristige Aktivität in seinem Alltag bedeutet, und in welchem Maße folgt er den wiederkehrenden Aufforderungssignalen der Erfassungsgeräte (acceptance/compliance)? 2) Der zeitlich enge Bezug eines aktuellen Selbstberichts vermindert Gedächtnis- und soziale Erwünschtheitseffekte, aber wie verändert sich der emotional-kognitive Zustand des Befragten durch die Messwiederholungen (Reaktivität)? In welchem Ausmaß muss man einen Hawthorne-Effekt erwarten? Hinsichtlich der Akzeptanz der computergestützten Erhebungsmethode berichten die meisten Studien allgemein hohe Werte (Perrez, Schöbi & Wilhelm, 2000). Allerdings ist dabei in Rechnung zu stellen, dass in diesen Studien zumeist Teilnehmer bzw. Patienten geworben wurden, die vom Vorteil solcher Studien unmittelbar überzeugt waren (Fahrenberg, 2006). Es ist eine offene Frage, wie hoch die Akzeptanz von Ambulatorischen AssessmentMethoden in der Durchschnittsbevölkerung ist. Hinsichtlich der Reaktivität zeigen viele Studien mit Ambulatorischem Assessment auf, dass keine gravierenden Veränderungen der Verhaltenshäufigkeit bzw. der Motivation zur Verhaltensänderung durch die Echtzeitmessung selbst beobachtet werden konnten (Hufford, Shields Shiffman, Paty & Balabanis, 2002, Stein & Corte, 2003). Allerdings zeigen einzelne Untersuchungen, dass z. B. bei positiv bewerteten Verhaltensweisen eine reaktive Anpassung und die Motivation zur Veränderung des angesprochenen Verhaltens zu beobachten ist; so ändern sich Häufigkeit und Timing relativ zum Messzeitpunkt (Korotitsch & NelsonGray, 1997). Auch Fahrenberg (2006) weist darauf hin, dass bei spezifischen Parametern wie z. B. bei Blutdruckmessung eine Verhaltensreaktivität bei den Patienten zu beobachten ist. In der Studie von Mehl und Holleran (2007), in der mittels Knopfmikrofon und Handheld-Computer die Gespräche der Probanden (in Ausschnitten) aufgezeichnet wurden, zeigte sich, dass die Messmethode selbst auch Gegenstand der Gespräche ist. Allerdings schien dabei nach den ersten beiden Stunden ein Gewöhnungseffekt einzutreten. Insgesamt gibt es allerdings noch zu wenig methodische Studien zur Compliance und Reaktivität bei Verfahren des Ambulatorischen Assessments, um zu einem abschließenden Urteil zu kommen.
453
Georgios Papastefanou
3 Potentiale des Ambulatorischen Assessment für die empirische Sozial- und Wirtschaftsforschung Die Methodik des Ambulatorischen Assessments eröffnet für die empirische Sozialforschung, die auf retrospektiven Selbstberichten basiert und physiologische und physische Beobachtungsdaten fast gänzlich ausblendet, ein spezifisches Potential. Dies soll in drei Forschungsfeldern aufgezeigt werden.
3.1 Biosocial surveys Ein besseres Verständnis der kausalen Beziehung sowie der Wechselwirkung zwischen sozio-ökonomischen Variablen und verschiedenen Aspekten der Gesundheit ist ein sich deutlich im Wachsen befindlicher Bereich sozialwissenschaftlicher Forschung (Jürges, 2005; Smith, 2004, Steptoe & Marmot, 2004). Die empirische Untersuchung dieser Zusammenhänge wird allerdings durch das Fehlen adäquater Mikrodatensätze erschwert. Allgemein werden bei sozialwissenschaftlichen Bevölkerungsumfragen Gesundheitsmaße auf der Basis von Selbstberichten verwendet, die jedoch ungenau und verzerrt sein können. Allerdings haben mehrere Pionierstudien wie z. B. die amerikanische Health and Retirement Study, die English Longitudinal Study of Ageing (ELSA) oder der National Survey of Midlife Development in the United States (MIDUS) (Hinweise auf weitere Studien findet man in Hank, Jürges, Schupp & Wagner, 2006) gezeigt, dass auch in Standardumfragen medizinisch relevante physiologische und endokrinologische Parameter erfasst werden können. Vor diesem Hintergrund wurde von der amerikanischen National Academy mit der Veröffentlichung „Cells and Surveys: Should Biological Measures Be Included in Social Science Research?“ (Finch, Vaupel & Kinsella, 2001) eine systematische Aufarbeitung der Thematik begonnen. Eine Fortführung dieser Diskussion durch das Committee on Advances in Collecting and Utilizing Biological Indicators and Genetic Information in Social Science unterstrich die Bedeutung der Integration von biologischen Daten in Umfrageerhebung im Sinne von „Biosocial Surveys“ (Weinstein, Vaupel & Wachter, 2007). Die wesentliche Frage, die sich hierbei stellt, besteht darin, welche nichtinvasiven Indikatoren mit einem Aufwand, der für die Befragten möglichst gering ist, und mit niedrigen Kosten für die Erhebung erfasst werden können. 454
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung
In Betracht kommen dabei u. a. Indikatoren für Lungenfunktion, Blutdruck, Herzratenvariabilität sowie nicht-invasive kontinuierliche Messungen, die bei der Untersuchung des sozialen und psychologischen Stresses von Bedeutung sind: „Holter monitoring and other methods for continuously assessing a person’s biological activity and exposures to environmental influences will undoubtedly become a major feature of future social surveys, especially if comfortable, minimally invasive instruments can be developed to gather such data“ (Weinstein et al., 2007, S. 9). Große europäische Studien wie der 2004 erstmals durchgeführte Survey of Health, Ageing and Retirement in Europe (SHARE), aber auch das Sozioökonomische Panel haben erste Schritte in Richtung objektiver Gesundheitsindikatoren gemacht, indem sie die Greifkraft mit einem Standardgerät erfassen bzw. zu erfassen planen. Es erscheint offensichtlich, dass solche mehrfunktionalen Erhebungen mit Fokus auf physischer und psychischer Gesundheit in hohem Maße von der elektronischen Echtzeitmessung kardiovaskulärer, elektrodermaler und von Aktivitäts- und Bewegungsparametern profitieren können. Darüber hinaus könnte die Wearable-Computing-Technologie in Aussicht stellen, nationale Standard-Populationserhebungen wie z. B. der ALLBUS mit geringem Aufwand um physiologische und physische Beobachtungsdaten zu ergänzen.
3.2 Sozialstrukturanalyse und Emotionen Die Emotionsforschung befindet sich gegenwärtig auch in der Soziologie in einer hochkonjunkturellen Phase. Man spricht gar von Paradigmenwechsel, einer „emotionalen Wende“ in Theorie und Praxis (Neumayr, 2007), was sich nicht zuletzt in der Einrichtung neuer, einschlägiger Fachzeitschriften wie z. B. „Social Neuroscience“ zeigt (siehe auch www.social-neuroscience. com). Emotionen und körperlicher Ausdruck sind aber schon im Sozialstrukturansatz von Bourdieu durch das Konzept der Hexis berücksichtigt worden. Hexis bezeichnet den körperlich-emotionalen Niederschlag sozio-ökonomisch differenzierter Sozialisationserfahrungen z. B. im Sinne eines emotionalen Kapitals des Selbstmanagements. Dieses Konzept ist in der durch Bourdieus Ansatz angeregten Lebensstilforschung empirisch kaum verfolgt worden. Anstelle dessen wurde meist auf das Konzept des Habitus verwiesen. Dies lässt sich im Sinne von Wahrnehmung und Präferenzen mit geringerem methodischem Aufwand durch Abfragen von Wertvorstellung, Interessen, Aktivitäten und Vorlieben leichter operationalisieren. 455
Georgios Papastefanou
Hexis hingegen, welches eher unbewusste, nahezu reflexartige körperlichemotionale Dispositionen einschließt, ist mit Standardumfragemethoden kaum zu erheben. Darüber hinaus baut eine mikroanalytisch ausgerichtete Sozialstrukturanalyse auf dem Modell einer bewussten – wenn auch nicht ökonomisch rationalen – Verarbeitung der Ressourcenausstattung unter Berücksichtigung von individuellen Wahrnehmungen und Werten auf. Hartmut Esser (2005) zeigt auf, wie in die Weiterentwicklung dieses Modells die neueren Befunde der neuro-affektiven Forschung integriert werden können. Ambulatorisches Assessment könnte die für diese Forschungsperspektive benötigten adäquaten Daten bereitstellen und mit Ergebnissen über die Prävalenz emotionaler Prozesse zur Erweiterung der Sozialstrukturanalyse beitragen.
3.3 Subjektive Lebensqualität Zu einem gesellschaftspolitisch wichtigen Forschungsfeld gehören die Untersuchungen zur subjektiven Lebensqualität, die überwiegend auf Einschätzung der Lebenszufriedenheit bzw. des Glücks beruhen. Untersuchungen, die den emotionalen Gehalt der subjektiven Lebensqualität abbilden wollen, bedienen sich meist retrospektiver Angaben über erlebte Affekte. Schon früh wies Kahneman (1999) auf die Störanfälligkeit bei Lebenszufriedenheitsfragen und generell bei retrospektiven Messungen von affektiven Erfahrungen hin. Er fordert die Messung momentan erfahrener Belastungen bzw. positiver Gefühle und schlägt hierfür ein neues Instrument, die Day Reconstruction Method (DRM) vor (Kahneman & Krueger, 2006; Kahneman, Krueger, Schkade, Schwarze & Stone, 2004). Dieses Instrument beruht zwar ebenfalls auf retrospektiven Einschätzungen jedoch bezüglich nur kurz zurückliegender affektiver Erfahrungen. Zudem werden die erinnerten Affekte in Verbindung mit den zuvor erinnerten Aktivitäten erhoben. Es stellt sich die Frage, ob diese implizite Konzeptualisierung von emotionalen und affektiven Prozessen angemessen ist, wenn man sie mit den Befunden der neuro-affektiven Emotionsforschung vergleicht. Hier öffnet sich ein neues Forschungsfeld der subjektiven Lebensqualität, und zwar einerseits in der Möglichkeit über physiologische Indikatoren alltägliche Emotionsprofile zu messen, und andererseits zu untersuchen, inwieweit emotionale Aktivierungen sich in subjektiven Belastungseinschätzungen niederschlagen. 456
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung
4 Ambulatorisches Assessment in der Sozialforschung: Exploratorische Beispiele Ambulatorisches Assessment birgt für die empirische Sozialforschung ein großes Potential, das allerdings erst ausgeschöpft werden kann, wenn die Wearable-Computing-Technologie dem Setting der empirischen Sozialforschung angepasst ist. Die Studie von Boucsein, Schaefer, und Sommer (2001) stellt zwar klar, dass elektrodermale Aktivität auch im Lebensalltag in ähnlich reliabler und valider Weise wie unter Laborbedingungen als Indikator emotionaler Reaktionen gemessen werden kann. Allerdings führte die eingesetzte technische Vorrichtung, in der Sensoren und Speichergerät über Kabel verbunden waren, zu gravierenden Einschränkungen in der Datenerhebung. Die Kabelverbindungen von Elektroden an eine Verarbeitungseinheit wurden in vielen Fällen – vor allem im Schlaf – unterbrochen. Fast die Hälfte der Stichprobe fiel auf diese Weise aus. Vor diesem Hintergrund wurde mit einem privaten Anbieter der Prototyp eines Wearable-Computing-Gerätes entwickelt, das auf das Setting der empirischen Sozialforschung zugeschnitten ist – das sog. „smartband“ (siehe www.bodymonitor.de). Das „smartband“ ist ein elastisches Armband, in das Mikroprozessor, Speicher, Stromversorgung und verschiedene Sensoren zur Messung des Hautwiderstands, der Pulsamplitude, der Hauttemperatur und der triaxialen Beschleunigungsmessung integriert sind. Es ist so angelegt, dass es auch weitere Sensoren zur Messung von Schallpegel, Lichtintensität, Personendichte im unmittelbaren Umfeld und subjektiven Einschätzungen aufnehmen kann. Mit dem „smartband“ wurden mehrere exploratorische Teststudien durchgeführt. Im Folgenden werden einige Beispiele mit Ergebnissen der elektrodermalen Aktivität dargestellt.
Beispiel 1: Circadiane Belastungsprofile In einer ersten Machbarkeitsstudie wurden in Mannheim im Mai 2007 zehn Teilnehmer rekrutiert, die bereit waren, ein „smartband“ für eine 24-Stunden-Beobachtung zu tragen. Die Studienteilnehmer wurden angewiesen, das Armband zu einem bestimmten Zeitpunkt (den sie aussuchen konnten) z. B. morgens anzuziehen und es möglichst 24 Stunden lang zu tragen. Sie wurden instruiert, im Falle von unangenehmen Hautreaktionen oder im Be457
Georgios Papastefanou
darfsfall wie z. B. beim Duschen oder Baden das Band abzulegen und dann gegebenenfalls wieder anzuziehen. Der zu diesem Zeitpunkt vorliegende Prototyp erfasste Hautwiderstand und Beschleunigungswerte am Handgelenk in 10-Sekunden-Intervallen. Es wurden auf diese Weise individuelle Zeitreihen von ca. 8000 Werten pro Person erstellt. Im Folgenden werden die z-standardisierten Hautwiderstandswerte zweier Teilnehmer dargestellt, um ein Beispiel von der Variabilität der Hautwiderstandsreaktionen über einen circadianen Verlauf zu geben. Im Diagramm 1 sind die Veränderungen des Hautwiderstandsniveaus sowie der Beschleunigungswerte am Handgelenk bei einer ca. 30 Jahre alten Berufsschullehrerin abgebildet. Man kann anhand der Beschleunigungswerte deutlich die Wach- von der Schlafphase unterscheiden. Die Hautwiderstandswerte zeigen einerseits an, dass diese Teilnehmerin im Verlauf des Tages eine deutliche Phase erhöhter emotionaler Erregung durchlebt hat, und andererseits, dass in ihrer Schlafphase eine markante Variation der Hautwiderstandswerte zu beobachten waren.
-2
-1
z-Wert bzw. Volt-Wert 0
1
2
Diagramm 1
14 15
16
17
18 19
20
21 22
Hautwiderstand, geglättete Werte
458
23 24 1 Uhrzeit
2
3
4
5
6
7
8
Beschleunigung in y-Achse, ungeglättete Werte
9
10
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung
-2
-1
z-Wert bzw. Voltwert 0 1 2
3
4
Diagramm 2
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Uhrzeit Hautwiderstand, geglättete Werte
1
2
3
4
5
6
Beschleunigung in y-Achse, ungeglättete Werte
In Diagramm 2 ist der circadiane Verlauf der Werte einer 50-jährigen Krankenhausärztin im abgebildet. Auch hier sind Wach- und Schlafphasen durch die Beschleunigungswerte deutlich voneinander abgrenzbar. Der durch die Hautwiderstandswerte indizierte Aufmerksamkeits- bzw. Belastungsverlauf zeigt jedoch sowohl am Tag wie auch in der Nacht ein deutlich anderes Muster. Tagsüber gab es keine singuläre Phase erhöhter Erregung, die Wachphase war eher von einem tendenziell steigenden Erregungsniveau gekennzeichnet. Die Nachtphase hingegen verlief weniger variabel als bei der o. g. Teilnehmerin. Im Sinne einer o. a. bedingten Interpretation der relativen Veränderungen des Hautwiderstandes kann man je Fall unterschiedliche zeitliche Signaturen als Abfolge von Belastungs- und Erholungsphasen beobachten. Interessanterweise kann man auch in den Schlafzeiten eine individuell spezifische Variabilität der Hautwiderstandsreaktionen beobachten. Damit bieten circadiane Messungen von physiologischen Parametern auch die Möglichkeit, die Schlafqualität in Abhängigkeit von der Belastungsreaktion im Tagesverlauf zu untersuchen. 459
Georgios Papastefanou
Beispiel 2: Emotionale Stadtkartierung In einer weiteren Teststudie wurde die ambulatorische Messung simultan mit der kontinuierlichen Messung der geografischen Position per GPS kombiniert. Damit ergibt sich die Möglichkeit, die emotionalen Reaktionen direkt auf räumliche Gegebenheiten und Strukturen zu beziehen und zur Feinplanung im städtischen Kontext heranzuziehen (Höffken, Papastefanou & Zeile, 2008). Wie effizient Wearable-Computing-Geräte in der Feldforschung eingesetzt werden können, zeigte sich darin, dass sie ohne weitere Umstände zu Beginn von Stadtrundfahrten an interessierte Teilnehmer ausgegeben und am Ende der Stadtrundfahrt wieder eingesammelt wurden. Zusätzlich wurde ein Kurzfragebogen zur Erhebung organisatorischer und soziodemografischer Angaben verteilt. Die ambulatorisch gesammelten physiologischen Reaktionen wurden mit den per GPS-Logger erfassten geografischen Koordinaten zusammengeführt. Damit wird es möglich, die durchlaufene Strecke der Stadtrundfahrt nach Abschnitten zu gliedern, in denen z. B. ein markanter Abfall des Hautwiderstandes auf eine gesteigerte Aufmerksamkeit hinweist. In Abbildung 1 sind der Übersichtlichkeit wegen nur jene Positionen abgebildet, an denen der Hautwiderstand ein lokales Minimum aufwies. Möglich wäre auch eine Visualisierung des gesamten Verlaufs der Hautwiderstandsveränderungen während der Stadtrundfahrt. Abb 1: Mit Anfangs- und Endpunkt markierte Strecken des Anstiegs physiologischer Erregung im Verlauf von Stadtrundfahrten in Mannheim
460
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung
Beispiel 3: Medienrezeption Schließlich soll ein weiteres Anwendungsbeispiel zeigen, wie sich neue Möglichkeiten für die Untersuchung der Rezeption von visuellen und auditiven Medien in Echtzeit eröffnen. In einer Validierungsstudie wurden entsprechend gängiger Verfahren der psychophysiologischen Laborforschung verschiedene Videoclips zur Emotionsinduktion eingesetzt (Gross & Levenson, 1995). Im Unterschied zu herkömmlichen psychophysiologischen Studien fand die Versuchsanordnung in einem gewöhnlichen Arbeitszimmer statt. Die Personen wurden dort gebeten, nachdem ihnen das „smartband“ angelegt worden war, auf einem Laptop einige Videoclips zu betrachten und jeweils dazwischen einen kurzen Fragebogen zu ihrer momentanen Befindlichkeit auszufüllen. Eine Sitzung dauerte insgesamt etwa 15 Minuten. Die Versuchsteilnehmer waren vorwiegend Studenten der Universität Kaiserslautern. Drei Videoclips wurden eingesetzt, mit dem Ziel emotionale Belastung und Entlastung zu induzieren, nämlich eine Videoaufnahme von Strand und Wellen, eine Videoaufnahme einer medizinischen Beinamputation und dann wieder eine Videoaufnahme von Strand und Wellen mit Möwen. An dieser Stelle kann nicht auf die Ergebnisse im Einzelnen eingegangen werden. In Diagramm 3, in dem die relativen Hautwiderstandsreaktion in den verschiedenen Episoden der Versuchsanordnung dargestellt sind, soll der Fokus auf die Werte zu Beginn und am Ende der jeweiligen Videoclips gelegt werden, besonders beim Video der Beinamputation. [dia03] Diagramm 3 Frabo A Anfang Frabo A Ende Meerwellen Anfang Meerwellen Ende Frabo B Anfang Frabo B Ende Amputation Anfang Amputation Ende Frabo C Anfang Frabo C Ende Möwen Anfang Möwen Ende Frabo D Anfang Frabo D Ende Ballon Anfang Ballon Ende Nach Ballon
.5
0
-.5
-1
-1.5
mittlerer z-Wert (bereinigt, Hautwiderstand)
461
Georgios Papastefanou
Man kann sehen, dass das relative Niveau der Hautwiderstandsreaktion im Verlauf dieses Videos (signifikant) gesunken ist, was auf eine Belastungsreaktion hinweist. Dies ist ein erster Hinweis auf die physiologischen Reaktionen im Verlaufe der Videobetrachtung. Die Daten erlauben jedoch eine genauere Untersuchung der Reaktionen auf spezifische Aspekte im Amputationsvideo und damit auf Details der visuellen (und auditiven) Rezeption. Am Rande sei auf die besonders markante Erregungsreaktion beim Stimulus Ballon Anfang und Ende hingewiesen. Hier wurde den Probanden die Aufgabe gestellt, einen Ballon aufzublasen, bis er platzt (zu Details und Ergebnissen des Validierungsexperiments siehe Papastefanou 2008). Die Relation der Reaktionen auf quasi-virtuelle versus real antizipierte bedrohliche Stimuli wirft weitere Frage auf, die hier nicht weiter verfolgt werden können.
5 Ausblick: Agenda für eine empirische Sozialforschung mit Ambulatorischem Assessment Um das Potential des Ambulatorischen Assessments für die umfragebasierte Sozialforschung zu realisieren, bedarf es weitergehender Aktivitäten in der sozialwissenschaftlichen Scientific Community: a) Im Bereich des Wearable-Computing müssen technische Lösungen als low-cost und low-burden-Geräte noch stärker auf die Anforderungsbedingungen standardisierter Bevölkerungsumfragen zugeschnitten werden. Zugleich sollten diese Geräte die integrative Messung von subjektiven Reaktionen und ambienten Parametern (Licht, Geräusch, Personennähe) ermöglichen. b) Die methodischen Probleme der Messung von Echtzeitreaktionen sind bislang kaum systematisch erforscht. Systematisch müssen Bedingungen von acceptance, compliance und Reaktivität untersucht werden, vor allem hinsichtlich der Frage, wie längerfristige Messperioden (Woche, Monat) in den Alltag der Befragten integriert werden können. c) Ambulatorisches Assessment liefert intensive Längsschnittdaten bzw. individuelle Zeitreihen physiologischer und subjektiver Echtzeitreaktion. Welche sozialen Indikatoren können auf dieser Basis entwickelt werden? Die Herausforderung an die empirische Sozialforschung besteht darin, Methoden der Signalverarbeitung zur Entwicklung von Algorithmen anzuwenden, mit denen z. B. aus den Beschleunigungs- und physiologischen Daten spezifische Episoden von Belastung und Erholung identifiziert werden können. 462
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung
d) Physiologische Parameter können mit hoher Effizienz die Mobilisierung von emotionalen Systemen indizieren. Es werden mehr Studien zu circadianen physiologischen Signaturen im alltagsweltlichen Zusammenhang benötigt, um etwaige Ambiguitätsprobleme zu lösen. e) Skeleto-motorisch, physiologische und subjektive Indikatoren der emotionalen Befindlichkeiten sollten verstärkt in Standarderhebungsprogramme der Sozialwissenschaften integriert werden, um der neuroaffektiven Fundierung der Sozialstrukturanalyse eine adäquate Datenbasis zu geben.
Literatur Alpers, G. W., Wilhelm, F. H., & Roth, W. T. (2005). Psychophysiological assessment during exposure in driving phobic patients. Journal of Abnormal Psychology, 114, 126–139. APA American Psychological Association, (1999). „Decade of Behavior“ moves forward. APA MONITOR Online, 30(3). Retrieved November 26, 2008, from web site: http:// www.decadeofbehavior.org/index.cfm Barrett, L. F. (2006). Are emotions natural kinds? Perspectives on Psychological Science, 1, 28–58. Barrett L. F., Lindquist, K. A., Bliss-Moreau, E., Duncan, S., Gendron, M., Mize, J., & Brennan, L. (2007). Of mice and men. Natural kinds of emotions in the Mammalian brain? A response to Panksepp and Izard. Perspectives on Psychological Science, 2, 297–312. Baumeister, R. F., Vohs, K. D., & Funder, D. C. (2007). Psychology as the science of self-reports and finger movements. Whatever happened to actual behavior? Perspectives on Psychological Science, 2, 396–403. Bishop, G. D., Ngau, F., & Pek, J. (2008). Domain-specific assessment of anger expression and ambulatory blood pressure. Personality and Individual Differences, 44, 1726–1737. Blechert, J., Lajtman, M., Michael, T., Margraf, J., & Wilhelm, F. H. (2005). Identifying anxiety states using broad sampling and advanced processing of peripheral physiological information. Biomedical Sciences Instrumentation, 42, 136–141. Boucsein, W. (1995). Die elektrodermale Aktivität als Emotionsindikator. In G. Debus, G. Erdmann & K. W. Kallus (Hrsg.), Biopsychologie von Stress und emotionalen Reaktionen. Ansätze interdisziplinärer Forschung (143–162). Göttingen: Hogrefe. Boucsein, W., Schaefer, F., & Sommer, T. (2001). Electrodermal long-term monitoring in everyday life. In J. Fahrenberg & M. Myrtek (Eds.), Progress in ambulatory assessment, (549–560). Göttingen: Hogrefe. Buse, L., & Pawlik, K. (1984). Inter-Setting-Korrelationen und Setting-PersönlichkeitWechselwirkungen: Ergebnisse einer Felduntersuchung zur Konsistenz von Verhalten und Erleben. Zeitschrift für Sozialpsychologie, 15, 44–59.
463
Georgios Papastefanou Bussmann, H. (1998). Ambulatory monitoring of mobility-related activities in rehabilitation medicine. Delft, The Netherlands: Eburon. Cacioppo, J. T., Berntson, G. G., Larsen, J. T., Poehlmann, K. M., & Ito, T. A. (2000). The psychophysiology of emotion. In R. Lewis & J. M. Haviland-Jones (Eds.), The handbook of emotion (173–191). New York: Guilford Press. Cohen, G. (1991). Memory in the real world. East Sussex: Erlbaum. Cohen, G., & Java, R. (1995). Memory for medical history. Accuracy of recall. Applied Cognitive Psychology, 9, 273–288. De Vries, M. W. (Ed.) (1992). The experience of psychopathology. Investigating mental disorders in their natural settings. Cambridge: Cambridge University Press. De Vries, S. I., Bakker, I., Hopman-Rock, M., Hirasing, R. A., & Van Mechelen, W. (2006). Clinimetric review of motion sensors in children and adolescents. Journal of Clinical Epidemiology, 59, 670–680. Ebner, U. W. (2004). Ambulantes psychophysiologisches Monitoring in der psychiatrischen Forschung. Frankfurt a. M.: P. Lang. Ebner-Priemer, U. W., & Kubiak, T. (2007). Psychological and psychophysiological ambulatory monitoring: A review of hardware and software solutions. European Journal of Psychological Assessment, 23, 214–226. Ebner-Priemer, U. W. (Ed.) (2008). Newsletter Ambulatory Assessment 1. Retrieved November 26, 2008, from web site: http://ambulatory-assessment.org/index.php?id=218 Esser, H. (2005). Affektuelles Handeln: Emotionen und das Modell der Frame-Selektion. Arbeitspapier 05–15. SFB 504, Universität Mannheim. Fahrenberg, J. M. (2006). Assessment in daily life. A review of computer-assisted methodologies and applications in psychology and Psychophysiology, years 2000–2005. Retrieved November 26, 2008, from web site: http://ambulatory-assessment.org/index. php?id=32. Fahrenberg, J., & Wilhelm, F. H. (in Druck). Psychophysiologie und Verhaltenstherapie. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie (3. Auflage). Berlin: Springer. Fahrenberg, J., Leonhart, R., & Foerster, F. (2002). Alltagsnahe Psychologie: Datenerhebung im Feld mit hand-held PC und physiologischem Mess-System. Bern: Huber. Fahrenberg, J., Myrtek, M., Pawlik, K., & Perrez, M. (2007). Ambulatory assessment – Monitoring behavior in daily life settings. European Journal of Psychological Assessment, 23(4), 206–213. FDA. US Food and Drug Administration (2006). Guidance for industry: Patient-reported outcome-measures: Use in medical product development to support labeling claims. Draft guidance. Retrieved November 26, 2008, from web site: http://www.Fda.Gov/ Cder/Guidance/5460dft.pdf. Finch, C. E., Vaupel, J. W., & Kinsella, K. (Eds.) (2001). Cells and surveys: Should biological measures be included in social science research? Washington: The National Academy Press.
464
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung Foerster, F., & Fahrenberg, J. (2000). Motion pattern and posture: Correctly assessed by calibrated accelerometers. Behavior Research Methods, Instruments & Computers, 32, 450–457. Fredrickson, B. L., Maynard, K. E., Helms, M. J., Haney, T. L., Siegler, I. C., & Barefoot, J. C. (2000). Hostility predicts magnitude and duration of blood pressure response to anger. Journal of Behavioral Medicine, 23, 229–243. Green, A. S., Rafaeli, E., Bolger, N., Shrout, P. E., & Reis, H. T. (2006). Paper or plastic? Data equivalence in paper and electronic diaries. Psychological Methods, 11, 87–105. Gross, J. J., & Levenson, R. W. (1995). Emotion elicitation using films. Cognition and Emotion, 9, 87–108. Hank, K., Jürges, K. H., Schupp, J., & Wagner, G. G. (2006). Die Messung der Greifkraft als objektives Gesundheitsmaß in sozialwissenschaftlichen Bevölkerungsumfragen. DIW Berlin Discussion Papers 577. Harris T. J., Owen, C. G., Victor, C. R., Adams, R., & Cook, D. G. (2008). What factors are associated with physical activity in older people, assessed objectively by accelerometry? Br J Sports Med, (in press). Hektner, J. M., Schmidt, J. A & Csikszentmihalyi, M. (2007). Experience sampling method: Measuring the quality of everyday life. Thousand Oaks, CA: Sage. Höffken, S., Papastefanou, G., & Zeile, P. (2008). Ein emotionales Kiezportrait – Google Earth, GPS, Geotagging und neue Möglichkeiten für die Stadtplanung. In M. Schrenk, V. V. Popovich, D. Engelke, P. Elise, REAL CORP 008 Proceedings (275–281). Wien. Hufford, M. R., Shields, A. L., Shiffman, S., Paty, J., & Balabanis, M. (2002). Reactivity to ecological momentary assessment: An example using undergraduate problem drinkers. Psychology of Addictive Behaviors, 16(3), 205–211. Izard, C. E. (2007). Basic emotions, natural kinds, emotion schemas, and a new paradigm. Perspectives on Psychological Science, 2, 260–280. Jahoda, M., Lazarsfeld, P. F., & Zeisel, H. (2001). Die Arbeitslosen von Marienthal – ein soziographischer Versuch über die Wirkungen langandauernder Arbeitslosgkeit. (15. Auflage). Frankfurt a. M.: Suhrkamp. Johnson, C. C., Murray, D. M., Elder, J. P., Jobe, J. B., Dunn, A. L., Kubik, M., Voorhees, C., & Schachter, K. (2008). Depressive symptoms and physical activity in adolescent girls. Med Sci Sports Exerc, 40, 818–826. Jürges, H. (2005). Cross-country differences in general health. In A. Börsch-Supan et al. (Eds.), Health, ageing and retirement in Europe – first results from the survey of health, ageing and retirement in Europe (95–101). Mannheim: MEA. Kahneman, D. (1999). Objective happiness. In D. Kahneman, E. Diener & N. Schwarz (Eds.), Well-being: The foundations of hedonic psychology (3–25). New York: Russell Sage Foundation. Kahneman, D., Krueger, A. B., Schkade, D. A., Schwarze, N., & Stone, A. A. (2004). A survey method for characterising daily life experience: The day reconstruction method. Science, 306(5702), 1776–1780.
465
Georgios Papastefanou Kahneman, D., & Krueger, A. B. (2006). Developments in the measurement of subjective well-being. Journal of Economic Perspectives, 20, 3–24. Käppler, C, Brügner, G., & Fahrenberg, J. (2001). Pocketcomputer-unterstütztes Assessment mit MONITOR: Befindlichkeit und Aufmerksamkeitsverlauf im Alltag und die Replikation des negativen Retro-spektionseffektes. Zeitschrift für Differentielle und Diagnostische Psychologie, 22, 249–266. Korotitsch, W. J., & Nelson-Gray, R. O. (1999). An overview of self-monitoring research in assessment and treatment. Psychological Assessment, 11, 415–425. Kreibig, S. D., Wilhelm, F. H., Roth, W. T., & Gross. J. J. (2007). Cardiovascular, electrodermal, and respiratory response patterns to fear- and sadness-inducing films. Psychophysiology, 44, 787–806. Kristensen, P. L., Korsholm, L., Müller, N. C., Wedderkopp, N., Andersen, L. B., & Froberg, K. (2008). Sources of variation in habitual physical activity of children and adolescents: The European youth heart study. Scand J Med Sci Sports, 18, 298–308. Kromrey, H. (1998). Empirische Sozialforschung. Modelle und Methoden der Datenerhebung und Datenauswertung. (8. Auflage). Opladen: UTB. Krüger, H.-P., & Vollrath, M. (1996). Temporal analysis of speech patterns in the real world using the LOGOPORT. In J. Fahrenberg & M. Myrtek (Eds.), Ambulatory assessment (101–113). Kirkland, WA: Hogrefe & Huber Publishers. Larson, R., & Csikszentmihalyi, M. (1983). The experience sampling mMethod. New Directions for Methodology of Social & Behavioral Science, 15, 41–56. Mehl, M. R., & Holleran, S. E. (2007). An empirical analysis of the obtrusiveness of and participants’ compliance with the Electronically Activated Recorder (EAR). European Journal of Psychological Assessment, 23, 248–257. Mehl, M. R. (in press). Eavesdropping on health: A naturalistic observation approach for social health. Social and personality psychology compass. Morgenthaler, T., Alessi, C., Friedman, L., Owens, J., Kapur, V., Boehlecke, B. et al. (2007). Practice parameters for the use of actigraphy in the assessment of sleep and sleep disorders: An update for 2007. Sleep, 30, 519–529. Mutz, G., & Becker, K. (2006). Ambulante physiologische Messgeräte – Entwicklung und Stand der Technik am Beispiel von Vitaport und Varioport. In U. W. Ebner-Priemer (Hrsg.), Ambulantes psychophysiologisches Monitoring – Neue Perspektiven und Anwendungen (137–147). Frankfurt a. M.: P. Lang. Myrtek, M. (2004). Heart and emotion. Ambulatory monitoring studies in everyday life. Cambridge, MA: Hogrefe & Huber Publishers. Panksepp, J. (1998). Affective Neuroscience. The foundations of human and animal emotions. New York, Oxford: Oxford University Press. Panksepp, J. (2007). Neurologizing the psychology of affects. How appraisal-based constructivism and basic emotion theory can coexist. Perspectives on Psychological Science, 2, 281–296.
466
Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung Papastefanou, G. (2008). Ambulatorisches Assessment von induzierten Emotionen – Experimentelle Validierung eines Sensor-Armbandes. GESIS, Manuskript, Juni 2008. Patrick, D. L., Burke, L. B., Powers, J. H., Scott, J. A., Rock, E. P., Dawisha, S., O’Neill, R., & Kennedy, D. L. (2007). Patient-reported outcomes to support medical product labeling claims: FDA perspective. Value in Health, 10, 125–137. Pawlik, K. (1988). „Naturalistische“ Daten für Psychodiagnostik: Zur Methodik psychodiagnostischer Felderhebungen. Zeitschrift für Differentielle und Diagnostische Psychologie, 9, 169–181. Perrez, M., Schöbi, D., & Wilhelm, P. (2000). How to assess social regulation of stress and emotions in daily damily life? A computer-assisted family self-monitoring System (FSEM-C). Clinical Psychology and Psychotherapy, 7, 326–339. Piasecki, T. M., Hufford, M. R., Solhan, M., & Trull, T. J. (2007). Assessing clients in their natural environments with electronic diaries: Rationale, benefits, limitations, and barriers. Psychological Assessment, 19, 25–43. Picard, R. W., & Healey, J. (1997). Affective wearables. Personal Technologies, 1(4), 231–240. Pohl, R. F. (Ed.) (2004). Cognitive illusions. A handbook on fallacies and biases in thinking, judgment, and memory. New York: Psychology Press. Prokasky, W. F., & Raskin, D. C (1973). Electrodermal activity in psychological research. New York: Academic Press. Redelmeier, D., & Kahneman, D. (1996). Patients’ memories of painful medical treatments: Real-time and retrospective evaluations of two minimally invasive procedures. Pain, 66, 3–8 Reeves, B., Lang, A., Thorson, E., & Rothschild, M. (1989). Emotional television scenes and hemispheric specialization. Human Communication Research, 15, 493–508. Reis, H. T. (2000). Event-sampling and other methods for studying everyday experience. In C. M. Judd (Ed.), Handbook of research methods in social and personality psychology (190–222). New York: Cambridge University Press. Scherer, K. R. (2001). Appraisal considered as a process of multi-level sequential checking. In K. R. Scherer, A. Schorr & T. Johnstone (Eds.), Appraisal processes in emotion: Theory, methods, research (92–120). New York, Oxford: Oxford University Press. Schnell, R., Hill, P., & Esser, E. (2005). Methoden der empirischen Sozialforschung (7. Auflage). München: Oldenbourg. Schwarz, N., & Strack, F. (1999). Reports of subjective well-being: Judgmental processes and their methodological implications. In D. Kahneman, E. Diener & N. Schwarz (Eds.), Well-being: The foundations of hedonic psychology (61–84). New York: Russell-Sage. Schwarz, N. (2007). Retrospective and concurrent self-reports: The rationale for real-time data capture. In A. A. Stone, S. S. Shiffman, A. Atienza & L. Nebeling (Eds.), The science of real-time data capture: Self-reports in health research (11–26). New York: Oxford University Press.
467
Georgios Papastefanou Shiffman, S., Stone, A. A., & Hufford, M. R. (2008). Ecological momentary assessment. Annual Review of Clinical Psychology, 4, 1–32. Smartband: Abgerufen am 26.11.2008, Website: http://bodymonitor.de/. Smith, R. E., Leffingwell, T. R., & Ptacek, J. T. (1999). Can people remember how they coped? Factors associated with discor-dance between same-day and retrospective reports. Journal of Personality and Social Psychology, 76, 1050–1061. Smith, J. P. (2004). Unravelling the SES-health connection. In L. J. Waite (Ed.), Aging, health, and public policy. Demographic and economic perspectives. Population and development review (108–132). Supplement 30. Stein, K. F., & Corte, C. M. (2003). Ecologic momentary assessment of eating-disordered behaviors. International Journal of Eating Disorders, 34(3), 349–360. Steptoe, A., & Marmot, M. (2004). Socio-economic status and coronary heart disease: A psychobiological perspective. In L. J. Waite (Ed.), Aging, health, and public policy. Demographic and economic perspectives. population and development review (133–150). Supplement 30. Stone, A., & Shiffman, S. (1994). Ecological momentary assessment in behavioral medicine. Annals of Behavioral Medicine, 16, 199–202. Stone, A., Shiffman, S., Atienza, A., & Nebeling, L. (2007). The science of real-time data capture: self-reports in health research. New York: Oxford University Press. Todd, M., Tennen, H., Carney, M. A., & Armeli, S. (2004). Do we know how we cope? Relating daily coping reports to global and time-limited retrospective assessments. Journal of Personality and Social Psychology, 86, 310–319. Turner, J. (2000). On the origins of human emotions: A sociological inquiry into the evolution of human affect. New York: Oxford University Press. Tryon, W. W. (2004). Issues of validity in actigraphic sleep assessment. Sleep, 27, 158–165. Weinstein, M., Vaupel, J. W., & Wachter, K. W. (Eds.) (2007). Biosocial surveys. Washington: The National Academies Press. Wilhelm P., & Perrez, M. (2008). Ambulantes Assessment in der Klinischen Psychologie und Psychiatrie. Zeitschrift für Psychiatrie, Psychologie und Psychotherapie, 56(3), 169–179. Wilhelm, F. H., & Pfaltz, M. C. (in Druck). Neue Technologien in der klinisch-psychologischen Diagnostik. In J. Margraf (Hrsg.), Lehrbuch der Verhaltenstherapie. Band 1: Grundlagen, Diagnostik, Verfahren, Rahmenbedingungen (3. Auflage). Berlin: Springer. Wilhelm, F. H., Pfaltz, M. C., Gross, J. J., Mauss, Kim, Wiederhold (2005a). The role of the behavioral activation and behavioral inhibition systems during virtual reality exposure to heights. Applied Psychophysiology and Biofeedback, 30(3), 271–284. Wilhelm, F. H., Pfaltz, M. C., & Grossman, P. (2006). Continuous electronic data capture of physiology, behavior and experience in real life: towards ecological momentary assessment of emotion. Interacting with Computers, 18, 1–16.
468
Henrik Kreutz
Henrik Kreutz
Fortschritte bei der Auflösung der ceterisparibus-Klausel: Was leistet die Quasiexperimentelle Frageform im Vergleich zu Vignetten? Eine methodologische Erörterung* Zusammenfassung Die Quasi-experimentelle Frageform erfüllt drei methodologische Erfordernisse, um die Validität und Prognosefähigkeit der Umfrageforschung und ihrer Ergebnisse auf ein wissenschaftlich hinreichendes Niveau zu heben. Dies ist der Fall, weil sie 1. gesellschaftliche und persönliche Ambivalenz abbilden kann, die bisher in der empirischen Forschung weitgehend übergangen wurde. Resultate dieses „blinden Flecks“ sind hohe Raten von Nichtbeteiligung an Erhebungen, häufige Nichtbeantwortung von Einzelfragen sowie ausweichende und inhaltsunabhängige Antworttendenzen. Die Umfrageforschung „bereinigte“ ihre Ergebnisse einfach dadurch, dass sie diese Reaktionen von Befragten, die sie nicht interpretieren konnte, wegließ. Verwendet man hingegen die Quasi-experimentelle Frageform, die auf Vignetten als ihren Elementen aufbaut, dann lassen sich die Ambivalenzen durch imaginäre Zahlen abbilden. Ambivalente und eindeutige Stellungnahmen entsprechen dann imaginären und reellen Zahlen, die zusammengenommen komplexe Zahlen ergeben, die weiter bearbeitet werden können. 2. es erlaubt, Interaktionseffekte zwischen unterschiedlichen Kausalfaktoren zu spezifizieren und dadurch die von Pareto so benannte „Ophelimität“, also die zentrale Handlungsmotivation unter Berücksichtigung der jeweiligen Situation adäquat empirisch zu erfassen. Um dies zu sicherzustellen, ist eine sorgfältige konzeptuelle Vorarbeit zu leisten, vor allem müssen Aussagenverbände im Sinne von Weizsäcker spezifiziert werden, in deren Rahmen die Untersuchungsgegenstände ex ante auch operational definiert werden können. 3. die Möglichkeit bietet, bei Berücksichtigung der unter 1. und 2. genannten Erfordernisse, die Ergebnisse von Befragungen auf ihre Homogenität bzw. He-
469
Henrik Kreutz
terogenität hin zu testen. Führt man solche Tests durch, dann zeigt sich im Regelfall, dass menschliche Populationen heterogen sind. Heterogenität aber auch in dem Sinn, dass die kausalen Verknüpfungen von Prozessen und Ereignissen in verschiedenen Subpopulationen jeweils anders gelagert sind. Die Quasi-experimentelle Frageform ermöglicht es auch, diese Subpopulationen in der Analyse voneinander empirisch getrennt je für sich zu analysieren. Die Quasi-experimentelle Frage ist daher für die Sicherstellung der Homogenität der Untersuchungspopulation das Mittel der Wahl. Diese Frageform stellt relativ hohe Anforderungen an das Design der Untersuchungen und auch an die Qualifikation der Erhebungspersonen, die an der Datensammlung mitwirken. Bei sorgfältiger Planung lassen sich diese Anforderungen aber mit einem vertretbaren Aufwand erfüllen.
Abstract Resolving the ceteris-paribus-Proviso: The Comparative Advantage of Quasi-experimental Questions over Vignettes The quasi-experimental question form lifts the validity and prognostic power of survey research to an acceptable level by fulfilling three methodological requirements 1) It can depict social and personal ambivalence that was previously widely neglected in empirical research. The consequences of this „blind spot“ include high rates of non-participation in surveys, frequent non-response to individual questions and a tendency toward evasive and non-pertinent answers to questions. Survey researchers usually „clean“ their results by simply leaving out the reactions to conventional questions they are unable to interpret. If, on the other hand, one uses the quasi-experimental questions based on vignettes as its basic elements, the ambivalent results can be represented by imaginary numbers. Ambivalent and unambiguous statements then correspond to imaginary and real numbers respectively which together make up complex numbers that can be further processed. 2) It permits the specification of interaction-effects among various causal factors, therefore allowing for the effective empirical determination of central action motivation through consideration of each situation – Pareto’s so-called „Ophelimity“. To assure this, a careful conceptual groundwork is required, and above all ,statement groups‘ – „Aussagenverbände“ in Weizsäcker’s sense – have to be specified within which the objects of research can be operationally defined ex ante. 3) In consideration of the requirements mentioned in 1) and 2) above it offers the possibility to test the results of interviews for their homogeneity or heterogeneity. When such tests are carried out it is as a rule shown that human populations are heterogeneous. But this is heterogeneity in the sense that the causal connections between processes and events in various sub-populations are in
470
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
each case different. The quasi-experimental question form also makes it possible to analyze each of these sub-populations empirically separate from the others. The quasi-experimental question form is therefore the preferred choice to insure the homogeneity of the population researched. This question form sets high demands on research design and qualifications of the survey personnel involved in data collection, but with careful planning these demands can be met without undue expense.
1 Forschungsgeschichtliche Einleitung Vignetten wurden in der soziologischen Forschung m. W. Ende der 60er/Anfang der 70er Jahre am NORC in Chicago verwendet (Alexander & Becker, 1978; Room, 1979; Merton, Coleman & Rossi, 1979). Quasi-experimentelle Fragen habe ich Mitte der 60er Jahre entwickelt und in empirischen Projekten erstmals 1966/67 erprobt (Kreutz, 1972, 1973; Kreutz & Fürnschuß, 1971). Im Rahmen eines langjährigen Gedankenaustausches mit James S. Coleman am Institut für Höhere Studien (,Ford-Institut‘) in Wien habe ich ihm die Logik der Quasi-experimentellen Frageform und die Ergebnisse erster Pilotstudien mit diesem Instrument gezeigt. Coleman hat damals als Berater am NORC in Chicago Peter H. Rossi das Verfahren nahe gebracht (Room, 1979). Hier wurde die Quasi-experimentelle Frageform zu „Vignetten“ vereinfacht, so dass sie im Rahmen von
eingesetzt werden konnte. Im Rahmen eines von der DFG geförderten Forschungsverbundes habe ich die Quasi-experimentelle Frageform systematisch weiterentwickelt und die doppelte Varianzanalyse als adäquates Auswertungsverfahren eingeführt (Bacher, 1988; Kreutz & Plank, 1988). Diese Frageform habe ich immer wieder mit Gewinn einsetzen können (Kreutz, 2005a, 2005b). In einigen Fällen ist es mir auch gelungen, sie in Kooperation mit anderen Forschern und Institutionen so z. B. mit M. Kaiser am IAB zum Einsatz zu bringen (Kreutz & Kaiser, 1978; Kreutz & Rögl, 1994). Seit Ende der 90er Jahre werden Vignetten unter dem Namen auch im deutschen Sprachraum häufiger verwendet (z. B. Steiner & Atzmüller, 2006). Dabei handelt es sich aber nicht um Quasi-experimentelle Fragen. Diesen alternativen Vorgehensweisen fehlen die wesentlichen Vorzüge der Quasi-experimentellen Frageform. Bei dieser Vereinfachung geht der eigentliche theoretische Ertrag, der auf ihrem experimentellen Design, in dem Situation und Verhaltensreaktion systematisch miteinander konfrontiert und durchvariiert 471
Henrik Kreutz
werden, verloren. Die Quasi-experimentelle Frage simuliert das Experiment, indem sie Reaktionen der untersuchten Personen auf eine Mehrzahl von systematisch durchvariierten Situationen hervorruft und festhält. Die Situationen sind aus einer begrenzten Zahl von Bausteinen zusammengesetzt, die systematisch in allen möglichen Konstellationen miteinander verbunden werden. In dieser Hinsicht ergibt sich ein strikt experimentelles Vorgehen. Warum es sich jedoch nur um ein Quasi-Experiment handelt, ergibt sich aus der Tatsache, dass die Verhaltensreaktion nur verbal erfragt und nicht als Verhalten erprobt wird. Allerdings ergeben sich aus der Konfrontation dieser hypothetischen Konstellationen mit real gegebenen Situationen und der Lebensgeschichte des Befragten systematische Möglichkeiten, die es erlauben, systematische Realitätsprüfungen durchzuführen. Bei der Quasi-experimentellen Frageform wird aber nicht nur die Situation, in der eine Handlung ablaufen kann, hinsichtlich ihrer Möglichkeiten systematisch variiert, sondern es ist – wie schon erwähnt – auch die Möglichkeit gegeben, für die unterschiedlichen Reaktionen der Akteure auf die unterschiedlichen Ausprägungen der Situation Vorsorge zu tragen. Bei Vignetten fehlt nun dieses „gematchte“ experimentelle Design, das sowohl Situationen als auch Reaktionen – und zwar in ihrem Zusammenhang – erfasst, und das systematische Durchvariieren der möglichen Situationen, in denen die Handlung abläuft, wird nicht durch die systematische Variation der möglichen Reaktionen ergänzt. Es wird vielmehr fast durchgehend nur eine abstrakte Beurteilung gemäß einer für alle Situationen einheitlichen Skala verlangt. Quasi-experimentelle Fragen beinhalten dagegen Darstellungen sowohl von Situationen als auch von Handlungen als Reaktionen auf diese. Die Beschreibungen sind dabei notwendigerweise äußerst knapp gehalten, beziehen sich aber zumindest auf drei Charakteristika der Situation und auf mindestens zwei Elemente der Reaktion, die diesen so beschriebenen Situationen entstammt. Man kann zwar viele unterschiedliche Vignetten zu einem Thema formulieren und so den Datenraum vielfältig abbilden. Dies geschieht beim notwendigerweise so, dass nur wenige Befragte in nichtrepräsentativen Studien erfasst werden können. Wenn man z. B. so wie Steiner und Atzmüller (2006) rund 500 Vignetten nacheinander beurteilen lässt, dann kann man froh sein, wenn man 38 Studierende und Pensionisten findet, die bereit sind, sich die Beurteilung von 500 Vignetten anzutun. Der Artefaktcharakter der auf einer solchen Basis erstellten Daten ist evident. In unserer eigenen Studie über Korruption (Kreutz, 2007) haben wir 18 Vignetten verwendet, die von einer schwedischen Studie (Andersson, 472
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
2002) übernommen worden sind, die diese ihrerseits einer kanadischen Erhebung (Gibbon, 1999) entnommen hat. In den beiden genannten Vergleichsstudien wurden Vignetten entsprechend der erwähnten traditionalen Forschungspraxis eingesetzt, so dass die Auswertung gemäß der Logik der üblichen multivariaten Verfahren verfährt. Bei einer inhaltlich besonders wichtigen Fragestellung habe ich nun aber eine vertiefte Analyse im Sinne der Quasi-experimentellen Frageform durchgeführt. Dabei wurden die Vorgaben von vier Vignetten auch in ihrer Formulierung logisch miteinander verknüpft. Die hier analysierte Handlung, nämlich die interessenbezogene Wahlkampfspende wird im Rahmen von vier Vignetten jeweils in vier Hinsichten beurteilt. Jede Versuchsperson gab bei vollständiger Teilnahme mithin 16 Urteile, die logisch miteinander verknüpft sind.
2 Die Logik der Quasi-experimentellen Frageform Das Design der im Folgenden untersuchten Quasi-experimentellen Frage ist in der Übersicht 1 dargestellt. Wie in der Fußnote zu der Tabelle erwähnt, sind vier Beurteilungen sowohl der Spendengeber als auch der Spendennehmer ausgewertet worden. Bei jeder einzelnen Beurteilung waren jeweils drei Antwortmöglichkeiten vorgegeben. Übersicht 1: Design der untersuchten Quasi-experimentellen Frage
>E: Setzen wir folgenden Fall: Ein mittelständischer Unternehmer spendet 50.000 in den Wahlkampffonds eines bürgerlich-konservativen Parlamentskandidaten. Die Partei stellt dem Unternehmer eine Spendenquittung aus. e.1./Das Verhalten des Unternehmers ist in diesem Fall … :* Spendenempfänger Spendengeber
sozialdemokratischer Parlamentarier
bürgerlich-konservativer Parlamentarier
Gewerkschaft
Vignette l11–4
Vignette e11–4
Unternehmer
Vignette l21–4
Vignette e21–4
* Wiedergegeben ist hier eine der 16 Vignetten als Beispiel. Je spezifischer Paarung von Geber und Nehmer sind 4 Vignetten (demokratisch? – allgemein üblich? – korrupt? – strafwürdig?) zu beantworten. Drei Antwortmöglichkeiten waren dabei jeweils vorgegeben.
473
Henrik Kreutz
Jede der 16 Vignetten wurde allen Versuchsteilnehmern vorgelegt, so dass die Zahl der Reaktionen in jeder der 16 Zellen der Tabelle 100% der Untersuchungspersonen umfasst. Es sind daher nicht – wie bei der üblichen multivariaten Analyse – jeweils andere Personen, die die einzelnen Zellhäufigkeiten bilden, sondern es ist in jedem Fall die identische Grundgesamtheit, die in den 4 × 4 Zellen aufscheint. Es sind mithin die gleichen Personen, die auf unterschiedliche Konstellationen reagieren. Damit ergibt sich Messwiederholung. Für den technisch orientierten Statistiker ergibt dies ein Problem. Für den inhaltlich orientierten Soziologen bietet sich jedoch umgekehrt eine zusätzliche Erkenntnismöglichkeit. Denn auf dieser Basis lässt sich für jedes Individuum getrennt und daher völlig populationsunabhängig der jeweilige Handlungs- und Ermessensspielraum empirisch abschätzen. Dies bedeutet freilich inhaltlich die Abkehr von dem Dogma, dass Individuen nicht weiter teilbare Einheiten wären, die jeweils durch einen einzigen Punkt abgebildet werden könnten. Eine solche Auffassung ist aber nachgewiesenermaßen falsch. Es sind für die soziologische Forschung nicht nur Makro-, Meso- und Mikrobene zu unterscheiden, sondern auch die Picoebene (Ainslie, 1992), die unterschiedliche internalisierte Akteure im Individuum aufweist. Die Varianz der Verhaltensweisen und Dispositionen fängt nicht erst bei Populationen an, sondern ist schon für jedes Individuum kennzeichnend. Genau zur Kennzeichnung dieser inneren Varianz ist aber die Quasi-experimentelle Frageform geeignet (Kreutz & Plank, 1988; Kreutz & Rögl, 1994). Weiterhin zeigt sich, dass durch die Messung der inneren Varianz ein direkter empirischer Zugang zur Bestimmung und Abgrenzung von homogenen Populationen gegeben ist. Erst dadurch wird es auch möglich, Heterogenität zu eliminieren. Da die üblichen Verfahren der schließenden Statistik die Homogenität der Untersuchungspopulation voraussetzen, hat die Quasi-experimentelle Frage mithin auch eine allgemeine methodologische Bedeutung. Wie weiter oben dargestellt, wurden vier Beurteilungsdimensionen für jede Paarung von Spendengeber und Spendennehmer für diesen Beitrag ausgewertet. Theoretisch wurde mithin angenommen, dass die Vorgaben demokratisch – allgemein üblich – korrupt – strafwürdig einen kohärenten Aussagenverband, wie ihn C. F. v. Weizsäcker definiert hat, bilden. Die vier Dimensionen umgrenzen ein Bedeutungsfeld, in dem verschiedene Ausprägungen von Korruption gegeneinander abgegrenzt werden können. Eine Form der Korruption ist z. B. als >undemokratisch – unüblich – korrupt – strafwürdig< zu charakterisieren. Eine zweite Form ist gemäß allgemeinem Verständnis als >demokratisch – üblich – korrupt – nicht strafwürdig< anzusprechen. Seltener, aber keineswegs nur vereinzelt werden der Korruption 474
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
andere Profile zugeschrieben, ein Beispiel ist >undemokratisch – üblich – korrupt – strafwürdig<. Mit anderen Worten: der Begriff >Korruption< ist mithin nicht durch eine Kombination bestimmter Merkmalsausprägungen, sondern durch ein Feld, das durch 4 Dimensionen bestimmt ist, festgelegt. Sie kennt daher auch verschiedene Spielarten. Deren Gemeinsamkeit besteht in der Relevanz aller vier Dimensionen. Relevanz bedeutet aber eben nicht, dass in jedem Fall jede Dimension die gleiche Ausprägung aufweist. Aussagenverbände erlauben dementsprechend >offene Definitionen<. Unsere 4 Vorgaben bilden dementsprechend zusammengenommen ein Konstrukt ab. Bei der Auswertung der Antworten zeigte es sich zudem, dass zu den vier Antwortvorgaben >zutreffend – nicht zutreffend – lässt sich nicht entscheiden< weitere vier mögliche Reaktionsweisen der Befragten auch tatsächlich auftraten. Diese sind (4.) >sowohl als auch< bzw. >einerseits – andererseits<; (5.) Nichtbeantwortung der spezifischen Vorgabe; (6.) Nichtbeantwortung aller vier Vorgaben zu einer Vignette; (7.) Nichtbeantwortung der spezifischen Dimension bei der ganzen Quasi-experimentellen Frage. Diese 4 weiteren Reaktionsmöglichkeiten waren je für sich genommen extrem selten – so umfasst die komplette Nichtbeantwortung einer Dimension einer Frage nur 3,7% der Fälle. Kumuliert ergeben die drei verschiedenen Formen des Ausweichens vor eine Antwort aber, wie weiter unten gezeigt wird, nennenswerte Anteile, die man nicht einfach übergehen kann. Bei der vorliegenden Erhebung wurden insgesamt 15 Situationen in Vignettenform im Zusammenhang mit Korruption vorgegeben. Hier werden die Ergebnisse von 6 Vorgaben vorgestellt. Neben den vier Vorgaben zu Wahlkampfspenden (siehe Übersicht 1) werden hier zwei weitere, die sich mit der Personalpolitik im öffentlichen Dienst beschäftigen, in ihren Ergebnissen diskutiert. Der Wortlaut dieser Vignetten lautet folgendermaßen: k. Nachdem die sozialdemokratische Partei bei der Wahl in Sachsen-Anhalt eine Regierungsbeteiligung errungen hat, versetzt sie in ihrem „Machtbereich“ einen Teil der höheren Angestellten in den Ruhestand und einen anderen Teil an unbedeutende Posten. Auf die so frei gewordenen Stellen setzt sie loyale eigene Anhänger. Die Gegenfrage bezieht sich auf die bürgerlich-konservative Partei und das Land Nordrhein-Westfalen. In beiden Fällen werden hier die gleichen 4 Beurteilungshinsichten ausgewertet. Daher stehen insgesamt 8 Urteile zur Personalpolitik für die Auswertung zu Verfügung, die sich zu einer einfachen Quasi-experimentellen Frage zusammenfügen lassen. Nachfolgend sollen zunächst die Reaktionen von Studierenden der Sozialwissenschaft, also einer Population, die eine überwiegende Affinität zur Sozialdemokratie aufweist, wiedergegeben werden: 475
Henrik Kreutz
Tabelle 1: Beurteilung des Austausches von Spitzenbeamten nach gewonnener Wahl im Hinblick auf das Vorliegen von Korruption (Urteile von Studierende, n = 37) Beurteilung als … strafwürdig üblich korrupt undemokratisch
Politischer Akteur ist … bürgerlich-konservativ sozialdemokratisch 0.43 0.54 0.70 0.76
0.40 0.59 0.68 0.73
Lesehilfe: Angeführt wird der Anteil der Zustimmungen. Der Wert von .43 ist wie folgt zu interpretieren: Bezeichnen die Studierenden die Spendenannahme durch einen bürgerlich-konservativen Parlamentarier als strafwürdig, stimmen sie mit 43% dem Austausch von Spitzenbeamten zu.
Die empirisch ermittelten Urteile sind von der parteipolitischen Bindung des Akteurs scheinbar unabhängig. Berücksichtigt man aber die imaginären und reellen Urteile gleichzeitig in einem komplexen Gesamtdatum, dann ergibt sich, dass Straffreiheit für parteipolitische Bevorzugung doch akteurspezifisch zugestanden wird. Dieser Effekt wird durch das Ausweichen in das Reich des Imaginären erreicht (siehe 4.2 bzw. 3.2). Bei jeder Beurteilungsdiskrepanz spielt Ambivalenz eine signifikante Rolle, die man nicht einfach übergeben kann. Wenn wir dabei zwischen Beurteilungen, die sich relativ direkt an gesellschaftlichen Verhaltensreaktionen wie der Zuordnung von Strafwürdigkeit oder Üblichkeit einerseits und abstrakten Werturteilen wie „korrupt“ oder „demokratisch“ andererseits orientieren, unterscheiden, so finden wir deutlich mehr imaginäre Reaktionen bei verhaltensnahen Vorgaben und mehr reelle Zahlenwerte bei abstrakten und vieldeutigen Werturteilen. Wir haben hier gleichsam kommunizierende Gefäße vor uns: Sind klare Vorgaben gegeben, dann werden die Reaktionen vieldeutig, stehen umgekehrt vieldeutige Abstraktionen zur Diskussion, dann kann man eindeutig optieren, ohne sich dabei allerdings allzu sehr festzulegen. Der imaginäre Gehalt ist in diesem Fall bereits durch die mehrdeutige Vorgabe abgedeckt, sodass ihre Beantwortung auf jeden Fall unverbindlich bleibt.
476
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
Tabelle 2: Parteipolitisch motivierter Austausch von Spitzenbeamten nach einem Wahlsieg der bisherigen Opposition (Studierende, n = 37) Im Falle eines Wahlsieges einer …
bürgerlich-konservativen Partei imaginäre Reaktion reelle Reaktion der Sozialdemokratie imaginäre Reaktion reelle Reaktion
StrafÜblichwürdigkeit keit
Korrupt- demokratische heit Angemessenheit
0,435 0,565 1,000
0,325 0,675 1,000
0,22 0,78 1,00
0,16 0,84 1,00
0,325 0,675 1,000
0,295 0,705 1,000
0,24 0,76 1,00
0,22 0,78 1,00
Lesehilfe: 56,5% der Studierenden der Sozialwirtschaft, die die Spendenannahme durch einen bürgerlichkonservativen Parlamentarier für strafwürdig befinden, gaben auf die Frage nach der Zustimmung zum Austausch von Spitzenbeamten nach einem Wahlsieg der bisherigen Opposition eine reelle Antwort: Sie stimmten zu oder lehnten ab. 43,5% antworten ambivalent oder verweigerten die Antwort. Dies wird als imaginäre Reaktion betrachtet. Zum genaueren Vorgehen siehe 4.2 bzw. 3.2.
Ambivalenz gegenüber einer etwaigen Strafsanktion ist hier mithin besonders ausgeprägt. Auch zeigt sich überraschenderweise, dass zwischen strafwürdiger und straffreier Korruption unterschieden wird, dass also der Begriff „korrupt“ nicht eindeutig ist. Ein sehr großer Teil der Studierenden bezeichnet nämlich den parteipolitisch motivierten Austausch von Spitzenbeamten als korrupt, aber gleichzeitig als nicht strafwürdig. Dies weist wiederum auf die große Bedeutung von Aussageverbänden hin, die durch das Relevanzkriterium abgegrenzt werden. Bei den Rotariern ist diese Form der >Anomie< noch stärker verbreitet. Die Gegenkraft gegen gesellschaftliche Normen, die irgendeinmal in der Vergangenheit durch Zwang durchgesetzt worden sind, stellt die wachsende allgemeine Verbreitung eines Verhaltens dar, die stillschweigend erfolgt, bis sie so allgemein ist, dass sie nicht mehr verfolgt werden kann. Denn es ist z. B. nicht mehr möglich, alle jene zu bestrafen, die mit zwei Rädern ihres Pkws auf dem Gehsteig stehen. Die >normative Kraft des Faktischen< schafft in diesem Fall neue Regeln oder auch Anomie. Eben aus diesem Grund gehört in den Aussageverband, der die Korruption definiert, sowohl das Kriterium der allgemeinen Verbreitung als auch das der Strafwürdigkeit. Wenn aber in einer solchen Form Korruption sich einschleichen kann, dann steht das ganze normative Regelwerk einer Demokratie zur Disposition. Die Abwehr von Korruption und der durch sie 477
Henrik Kreutz
bedingten Anomie durch Strafsanktionen kann daher nur gelingen, wenn sie durch die Wertbindung an die Demokratie, deren Erhalt diese Sanktionen erforderlich macht, gestützt wird. Daher wurde auch die Angemessenheit für die Demokratie in den konstituierenden Aussageverband einbezogen, der das theoretische Konstrukt >Korruption< abgrenzt.
3 Quasi-experimentelle Fragen als Forschungstechnik der Wahl für die Ursachenforschung in der Soziologie Die herkömmliche Form der Sozialforschung eignet sich nur für Deskriptionen eines jeweils empirisch schon gegebenen Zustandes, ohne dass durch sie gesicherte Grundlagen für theoretische Erklärungen geschaffen werden. Die bis heute vorherrschende Form der Sozialforschung verwechselt das Handeln in der jeweils konkret gegebenen historischen Situation mit den analytisch sich ergebenden Verhaltensreaktionen, die die gleichen Menschen als Reaktionen auf unterschiedliche Situationen und Konstellationen entwickeln. Daher fehlt ihr oft die Möglichkeit, die Intentionen der Individuen einerseits und die Wirkungen der sozialen Zwänge andererseits voneinander zu unterscheiden. Genau dies leistet aber die Quasi-experimentelle Frageform. In theoretischer Hinsicht kann sie dabei auf wesentliche Vorarbeiten aufbauen. Hier sind in erster Linie die Arbeiten von Vilfredo Pareto (1971) einerseits und von Robert K. Merton (1963, 1976) andererseits zu nennen. Insgesamt fußt sie auf der pragmatistischen Methodologie von Charles S. Peirce (1877/1985).
3.1 Ophelimität und das Phänomen der Interaktion von Wirkungen in individuellen Präferenzordnungen Vilfredo Pareto hat sich bei der Definition der „Ophelimität“ mit statistischen Interaktionseffekten in einer Weise auseinander gesetzt, die für uns bedeutsam ist (Pareto, 1971). Das Wort Ophelimität dürfte in seinem ersten Teil von der griechischen Bezeichnung für „Schlange“ abgeleitet sein. Demnach würde es sich um „einen sich schlängelnden Grenzwert“ handeln. Eigentlich eine treffende Bezeichnung für einen Interaktionseffekt. Pareto verwendet den Begriff „Ophelimität“ an Stelle des vieldeutigen, ja irreführenden Begriffs ,Nutzen‘. Als „elementare Ophelimität“ bezeichnet er jene Freude bzw. Lustempfindung, die eine bestimmte Quantität eines 478
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
Gegenstandes erzeugt, der im Besitz eines Akteurs ist („totale Ophelimität“), bzw. die Lustempfindung, die durch die kleinste Quantität des Gegenstandes erzeugt wird, welche zu der Menge dieses Gegenstandes hinzugefügt wird, welche bereits im Besitz des Akteurs ist („elementare Ophelimität“). Die Menge, die bereits besessen wird, kann dabei auch gleich 0 sein. Als „elementare Ophelimität“ bezeichnet Pareto mithin den Grenzwert, d. h. die Lustempfindung, die einer beliebig kleinen (unendlich kleinen) Menge des Gegenstandes, die dem aktuellen Besitz hinzugefügt wird, entspricht. Dabei wird die Größe der Lustempfindung durch diese (unendlich kleine) Menge dividiert, so dass die Ophelimität jeweils dem Vielfachen dieser kleinsten Menge entspricht. Bei Berücksichtigung des Preises spricht Pareto von „gewichteter elementarer Ophemilität“. Nachfolgend wird sein Beispiel, das sich auf Fragen des Konsums bezieht, wiedergegeben. Die analytischen Einsichten, die hier gewonnen werden, sind aber allgemeiner Natur und lassen sich auf das Handeln insgesamt beziehen. Wenn nun mehrere voneinander abhängige Güter A, B, C, . . . zur Diskussion stehen, dann wird der Lustgewinn, der durch den um eine kleine Menge von A vermehrten Konsum erzeugt wird, um so größer sein, je geringer der aktuelle Mangel an den übrigen Gütern B, C, . . . ist. Diese Konsumpräferenzen für verschiedene Güter können zwar durchaus voneinander unabhängig sein, dies ist aber keineswegs der Normalfall. Die üblicherweise auftretende Situation ist die Abhängigkeit des Konsums bzw. des Gebrauchs. Diese kann nun nicht nur in der oben geschilderten Weise, sondern in zwei unterschiedlichen Weisen gegeben sein, nämlich: 1. Die Größe der Lustempfindung beim Konsum des einen Gegenstandes ist abhängig von der Lustempfindung durch den Konsum anderer Gegenstände. Dies wurde weiter oben bereits erläutert. 2. Der eine Gegenstand, der Lustempfindungen erzeugt, kann im Prinzip aber auch durch andere Gegenstände zumindest angenähert substituiert werden. Die Abhängigkeit der Größe der Lustempfindung beim Konsum des einen Gutes kann dabei wiederum durch zwei verschiedene Umstände beeinflusst werden: (a) Die Lustempfindung kann von den konkreten Lebensbedingungen („situative Bedingungen“) abhängig sein, in denen der Konsum bzw. der Gebrauch des Gegenstandes sich vollzieht. (b) Die Lustempfindung kann sich nur einstellen, wenn mehrere Güter gemeinsam konsumiert bzw. gebraucht werden können. Diese Güter werden komplementäre Güter genannt. 479
Henrik Kreutz
Zunächst die Diskussion des Falles (a): Es geht hier also um zwei Güter, die beide die Lustempfindungen der handelnden Person steigern. In diesem Fall führt Pareto einen schwachen Interaktionseffekt ein, der dadurch bewirkt ist, dass eine Steigerung der Menge des Gegenstandes A um eine Einheit unter der Bedingung, dass 11 Einheiten vom Gegenstand B vorhanden sind, einen größeren, also einen zusätzlichen Lustgewinn bewirkt, als wenn nur über 10 Einheiten von B verfügt wird. In Paretos Beispiel beträgt der Lustgewinn durch Hinzufügen eines Gegenstandes von A im Fall, dass zugleich 10 Einheiten von B vorhanden sind, 0,4. Die Lustempfindung nimmt dabei von 5,0 auf 5,4 zu. Ihr Anstieg per Einheit von A ist für den Fall, dass zugleich 11 B vorhanden sind, aber erheblich größer, nämlich +0,9. Der Lustgewinn steigt hierbei von 5,2 auf 6,1. Bei einer rein additiven Wirkung wären 5,0 + 0,4 + 0,2 = 5,6 zu erwarten. Daher ergibt sich ein Interaktionseffekt in der Größe von 0,5 Einheiten. Die situative Komponente ist im Beispiel Pareto höchst einfach konstruiert: Sie besteht in der Menge der zur Verfügung stehenden Gegenstände vom Typus B. Das Hinzufügen einer Einheit jedes der beiden Güter hat also unter allen Bedingungen eine nachweisbar positive Wirkung, wenngleich diese je nach Situation unterschiedlich groß ist. Die Konstellation der Komplementarität – also der Fall (b) – bewirkt nur bei Vermehrung beider Güter eine nennenswerte subjektive Verbesserung. Wird nur eines der beiden Güter vermehrt, so bleibt der Effekt so geringfügig, dass er kaum von einem Messfehler unterschieden werden kann. Im Unterschied zum ersten Fall von Interaktion der Wirkungen sind hier die situativen Variablen nicht unabhängig voneinander, sondern nur dann in nennenswerter Weise wirksam, wenn sie beide eine Erhöhung aufweisen. Während man im ersten Fall davon sprechen konnte, dass die Wirkung der einen Variablen durch die jeweils andere verstärkt wird, liegt nun der Fall vor, dass eine nennenswerte Wirkung nur bei Zusammentreffen beider Veränderungen auftritt. Zu unterscheiden von diesen beiden Formen der Interaktion ist die bei Substituierbarkeit der Güter gegebene Konstellation. Konträr zur zweiten Konstellation bewirkt im Fall der Substituierbarkeit der Güter eine Vermehrung der zweiten Art von Gütern eine Verminderung der Wirkung der Vermehrung der Güter der ersten Art. Da die beiden Güter substituierbar sind, kann ein interner Ausgleich eintreten, so dass ein Teil des Zuwachses von A dazu dient, einen Zuwachs von B zu substituieren und umgekehrt. Die Wirkung ist somit nicht daran gebunden, dass die Mengen beider Güter vermehrt werden, sie tritt vielmehr schon in voller Stärke auf, wenn auch nur ein Gut einen bedeutenden Zuwachs verzeichnet. Der relative Zuwachs 480
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
durch die Vermehrung auch des zweiten Gutes wird hier – relativ gesehen – sogar vermindert. Zahlenmäßig bedeutet dies in Paretos Beispiel, dass das Hinzufügen von einem A eine Steigerung des Lustgewinns von 5,0 auf 5,9 bewirkt und ein zusätzliches Element von B eine Steigerung von 5,0 auf 6,0 herbeiführt. Die gleichzeitige Steigerung von A und B um eine Einheit ruft aber nicht eine Lustempfindung von 6,9 (5,0 + 0,9 + 1,0 = 6,9) hervor, sondern lediglich eine auf 6,1. Fügt man lediglich 1 A oder 1 B hinzu, dann erhält man praktisch die gleiche Wirkung wie wenn man zugleich 1 A + 1 B einsetzt. Die Erörterung, die Pareto hier für seine Theorie wirtschaftlicher Gleichgewichtsprozesse gibt, ist mithin auch für unser Problem voll zutreffend: Rationales Handeln lässt sich ohne explizite Berücksichtigung solcher Interaktionseffekte nicht hinreichend genau definieren. Für die weitere Diskussion von Interaktionseffekten ist diese Unterscheidung in 1. situative Abhängigkeit (leichte Verstärkung durch das Vorliegen einer anderen Variablen), 2. Komplementarität (Wirkung nur, wenn beide Variablen vorliegen), 3. Substituierbarkeit (die Wirkung der einen Variablen ersetzt die der anderen Variablen) daher höchst wertvoll, auch wenn sie nicht erschöpfend sein dürfte. Bei der Diskussion und statistischen Untersuchung der Beziehung zwischen Variablen sollten aber zumindest Fragen bezüglich jeder der drei erstgenannten Effekte explizit gestellt werden, um statistische Interaktionen inhaltlich richtig deuten zu können. Die verschiedenen Formen der Abhängigkeit zwischen Elementen der Situation des Handelns müssen daher erfasst und spezifiziert werden, wenn man das Handeln der Akteure zutreffend erklären will. Als zwei weitere Formen der Interaktion der Wirkungen lassen sich bereits ad hoc spezifizieren: 4. Sammlereffekte 5. negative Rückwirkung Die 4. Form der Abhängigkeit dieser Art dürfte z. B. dann gegeben sein, wenn die zur Frage stehenden Güter einer gemeinsamen übergreifenden Einheit angehören. Ein allgemein verständliches Beispiel dürfte dann gegeben sein, wenn die einzelnen Gegenstände zu einer umfassenden Sammlung gehören. Eine solche Sammlung (z. B. von Briefmarken oder Münzen) stellt eine Einheit dar, die zur Frage stehenden Gegenstände können in diese Sammlung passen oder nicht, sie können unabhängig von der Sammlung mehr oder weniger Tauschwert besitzen oder sie können auch zusammengenommen bereits eine vollständige Sammlung darstellen. Dabei stellt die vollständige Sammlung im Regelfall einen weitaus größeren Wert dar als die 481
Henrik Kreutz
Summe aller Einzelwerte. In ähnlicher Weise lässt sich negative Rückwirkung leicht erklären: Schokolade mag gut schmecken, ebenso Senf. Beides zusammen dürfte aber für die Mehrheit ungenießbar sein. Die positive Wirkung eines Gutes stellt sich in diesem Fall nur ein, wenn das andere Gut gar nicht oder nur in extrem geringen Mengen vorhanden ist. Jede Steigerung des Gegenstandes B verringert somit den Lustgewinn, der durch den Gegenstand A erzielt wird, und vice versa. Die Soziologie wird diese Zusammenhänge, die statistische Interaktionen zur Folge haben und die hier nur exemplarisch verdeutlicht werden können, in Zukunft systematisch explorieren und analysieren müssen, wenn sie zu klaren Diagnosen kommen will. Über die Ophelimität eines Gutes kann mithin jeweils nur im Zusammenhang mit der anderer Güter etwas ausgesagt werden. Eine solche Aussage bezieht sich zudem auch immer nur auf individuelle Präferenzen. Ophelimität impliziert mithin, dass der Nutzen von Gütern und Dienstleistungen nicht isoliert bestimmt werden kann, sondern auch jeweils von der Gesamtkonstellation abhängig ist. Zu ihrer Bestimmung muss daher die jeweilige Situation in allen ihren relevanten Aspekten bestimmt werden. Die Quasi-experimentelle Frageform entspricht diesem theoretischen Verständnis. Einerseits wird auch bei der Quasi-experimentellen Frage jeweils nicht nur eine Variable isoliert zur Bewertung vorgegeben, sondern jeweils eine Kombination aus mehreren Variablen. Andererseits wird eine mögliche Kombination nicht nur indirekt betrachtet, sondern die systematische Variation aller möglichen bzw. einer gemäß der Logik experimenteller Designs getroffenen Auswahl von Kombinationen. Damit dürfte die Notwendigkeit des Ansatzes der Quasi-experimentellen Frage theoretisch und methodologisch hinreichend begründet und einige ihrer Implikationen verständlich geworden sein. Die Quasi-experimentelle Frageform erlaubt es nämlich, die unterschiedlichen Arten der Kombination von Wirkungen empirisch direkt zu erfassen. Das Handeln wird so in unterschiedlichen Kontexten und nicht nur abstrakt – etwa losgelöst von den situativen Gegebenheiten – erfasst. Damit wird aber auch der Handlungsspielraum fassbar, innerhalb dessen die konkrete Ausformung des individuellen Handelns erfolgt.
3.2 Psychische und gesellschaftliche Ambivalenz Die vorherrschende Auffassung unterstellt heute auch in der Sozialforschung ungeprüft die Eindeutigkeit menschlicher Präferenzen und Zielsetzungen. Dies gilt für die Sozialwissenschaften und noch mehr für die Wirt482
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
schaftswissenschaften. Es gilt geradezu als Voraussetzung von „Rationalität“, dass man weiß, was man will. Präferenzen mögen zunächst vage empfunden werden, bei hinreichender Rationalität lassen sich aber alle Zielvorstellungen vor der Handlung präzisieren. Dies ist die dominierende Ansicht. Die Psychologie und insbesondere die Psychoanalyse weiß das freilich anders: Hier ist die menschliche Ambivalenz ein offenes Geheimnis. Gemäß ihrer Erfahrung wollen viele Menschen das eine tun, aber das andere nicht lassen. An die Stelle des >Entweder-oder< tritt das >Sowohl als auch<. Ambivalenz der Gefühle und auch der Beziehungen werden zwar häufig verleugnet, sie lassen sich aber nicht eliminieren. Robert K. Merton hat als einer der wenigen Soziologen das Phänomen der Ambivalenz näher untersucht (Merton & Barber, 1963). Zentrales Ergebnis seiner Analyse ist die Unterscheidung von >Soziologischer Ambivalenz< und >Psychologischer Ambivalenz<. Während letztere auf widerstrebende Bestrebungen im Individuum verweist, bezieht sich die Soziologische Ambivalenz auf Widersprüche innerhalb von Rollen, die Menschen übernehmen müssen oder wollen. Wohlgemerkt – es sind hier nicht die unterschiedlichen Erwartungen gemeint, die verschiedenen Rollen entstammen, die eine Person ausfüllt, sondern es sind die einander widersprechenden Erwartungen innerhalb ein und derselben Rolle, die die Ambivalenz hervorrufen. Ein ausgezeichnetes Beispiel liefert hier der ehemalige Vorstands- und Aufsichtsratsvorsitzende eines führenden deutschen Unternehmens der Elektrobranche. Durch die neue Antikorruptionsgesetzgebung zu Ende der 90er Jahre war dieses Unternehmen gezwungen, bei Exportgeschäften auf Bestechung im Ausland, die bis dahin in Deutschland straffrei gewesen war, zumindest offiziell zu verzichten. Andererseits beruhte der damalige große Exporterfolg des Unternehmens nicht zum geringsten Teil auf der Zahlung von Schmiergeldern. Es hieß also Ende der 90er Jahre offiziell auf Bestechung zu verzichten und trotzdem im Export weiterhin erfolgreich zu sein. Von der Person aus gesehen, die die Rolle des Leiters des Unternehmens innehatte, ergab dies eine Situation, die in der Psychoanalyse >double bind< genannt wird: Was man auch macht, ist falsch! Entweder man schmälert den Unternehmenserfolg oder man unterläuft das Gesetz. Man ist also versucht, das eine zu tun, nämlich weiterhin erfolgreich Aufträge einzuwerben, und gleichzeitig dem neuen Gesetz Genüge zu tun. Genau dies hat nun diesen Weltkonzern nach weniger als 10 Jahren in existenzbedrohende Schwierigkeiten gebracht und zu einem Auswechseln der Führungsschicht im Management geführt. Diese Soziologische Ambivalenz hat dabei zwei Dimensionen: einerseits eine kognitive und andererseits eine evaluative, also emotional-bewertende. Ein 483
Henrik Kreutz
Akteur kann seine Einschätzungen spezifizieren und klar herausarbeiten. Er kann aber auch sich und andere darüber im Unklaren lassen, in seinen Urteilen diffus bleiben oder den Standpunkt einnehmen, dass zu wenig an Information vorliegt, so dass (noch) keine Entscheidung gefällt werden kann. Letzteres kann dabei tatsächlich der Fall gewesen sein, es kann aber auch eine Strategie darstellen, die darin besteht, sich einfach nicht festlegen zu lassen. Sofern die Sachlage kognitiv geklärt ist, kann auch eine klare Bewertung erfolgen. Aber auch unklare Situationsdiagnosen schließen natürlich bewertende Stellungnahmen nicht aus. Letztere können aber leicht manipuliert werden und werden daher häufig inkonsistentes Handeln bedingen. Ein adäquates Maß für die Unsicherheit im Fall der kognitiven Unzulänglichkeit der Situationsdiagnose ist mit dem Entropiemaß der Informationstheorie gegeben. Für einen Akteur, der sich zwischen zwei Möglichkeiten entscheiden muss, lautet dieses Maß: H = – (p log p + q log q) Dieses Maß eignet sich also dazu, auch das Ausmaß des Informationsverlustes, das durch Ambivalenz insgesamt entsteht, vergleichbar zu machen und so abzuschätzen. Eine weitergehende Differenzierung von Soziologischer Ambivalenz und Psychologischer Ambivalenz ist damit aber noch nicht geleistet. Bevor diese Differenz bestimmt werden kann, ist das Gesamtausmaß von Ambivalenz zu bestimmen. Da in unserem Beispiel der Wahlkampfspende zwei aufeinander folgende binäre Entscheidungen getroffen werden, lassen sich folgende drei Einzelentscheidungen unterscheiden (siehe Übersicht 2). Übersicht 2: Antwortmöglichkeiten für die vorgegebenen Vignetten zur Erfassung der Situation der Wahlkampfspende Reaktion auf die vorgegebene Situation
eindeutig
positiv
484
nicht eindeutig
negativ
Zurückweisen der Situation als irrelevant
Ausweichen vor einer Festlegung
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
In unserer Pilotstudie haben wir u. a. 14 Vignetten zur Beurteilung von Situationen, die korruptes Handeln beinhalten könnten, vorgegeben. Ein Hauptzweck dieser Vignetten richtet sich auf die Erfassung genau dieser Soziologischen Ambivalenz. Die Antwortvorgaben zur Beurteilung der 14 Situationen gemäß 4 vorgegebenen Dimensionen umfassen jeweils 3 Möglichkeiten. Eine von diesen ist die Beurteilung hinsichtlich Korruptheit der geschilderten Handlung. Dabei wurden folgende verbalen Vorgaben: „korrupt“, „nicht korrupt“ und „lässt sich nicht entscheiden“ verwendet. Als weitere mögliche Reaktionen der Befragten sind Nichtbeantwortung der spezifischen Antwortvorgaben sowie das Ankreuzen von beiden inhaltlichen Alternativen im Sinn von (je nach Situation) „einerseits korrupt, andererseits aber nicht“ zu nennen. Die beiden letztgenannten Möglichkeiten waren nicht vorgegeben, erfolgten aber spontan. Schließlich ergab sich noch die Reaktionsmöglichkeit, die gesamte Frage nicht zu beantworten. Den Befragten war es also möglich, verschiedene Formen der Ambivalenz in unterschiedlicher Weise zum Ausdruck zu bringen. Wie die Ergebnisse zeigen, wurde auch reichlich davon Gebrauch gemacht. Dass Ambivalenz in empirischen Ergebnissen nicht durchgängig aufscheint, ist offensichtlich nicht in der Sache, sondern in der Vorgefasstheit der Meinungen der Forscher begründet, die ihre Daten von jeglicher Ambivalenz „bereinigen“. Sieht man aber der Tatsächlichkeit solcher massenhaften Reaktionen ins Auge, anstatt sie einfach zu verdrängen, dann ist die Verwendung von imaginären Zahlen bei der Kodierung der Antworten nicht nur angemessen, sondern auch unumgänglich. Im konkreten Fall könnte die Quantifizierung der verbalen Reaktionen z. B. folgende Form annehmen: Einfache ambivalente Reaktion Ablehnung der Handlung Ambivalenz unter Vorbehalt gegen die Fragestellung Zustimmung zu der Behauptung In unserer Pilotstudie entspricht dieser Zuordnung: >lässt sich nicht entscheiden< Nichtbeantwortung sowie alle mehrdeutigen Antworten
i = √–1 i2 = –1 i3 = (–1)i i4 = +1 =i = (–1)i
Diese Zuordnung geschieht hier arbiträr und ist nur in explorativer Absicht geschehen. An dieser Stelle soll lediglich die Bedeutung des imaginären Bereiches insgesamt aufgezeigt werden. Die explizit zustimmenden und ablehnenden Antworten lassen sich dabei selbstverständlich als reelle Zahlen abbilden. Die Repräsentation der Gesamtheit der Antworten, die in drei ver485
Henrik Kreutz
schiedenen Populationen gesammelt wurden, kann dementsprechend durch komplexe Zahlen erfolgen. Die imaginären Werte bilden im konkreten Fall alles andere als eine nur geringfügige Ambivalenz ab. Es ist auch daher geboten, diese auch inhaltlich zu berücksichtigen. Daher soll abschließend dann noch gezeigt werden, dass die in diesen Werten abgebildete Ambivalenz wesentlich für die Bereitschaft zur Korruption ist. Zentral für die valide Verwendung von komplexen Zahlen ist die Beziehung zwischen ihren reellen und imaginären Komponenten. Der inhaltliche Ansatz für die Modellierung der Transformation von Dispositionen in Handlungen einerseits und derjenigen von Pro- und Kontra-Orientierungen andererseits basiert auf der These, dass es sowohl die Prozesse der inhaltlichen Intensivierung von Überzeugungen als auch umgekehrt ihrer Deeskalation sind, die diese Wandlungen hervorrufen. Eine Vielzahl von Ereignissen ist sowohl durch Vorteile als auch durch Nachteile für den Handelnden gekennzeichnet, ebenso verhält es sich mit seinen Beziehungen zu individuellen und kollektiven Akteuren. Die so entstehende Ambivalenz motiviert zunächst zu Handlungen, die die Inkonsistenz beseitigen sollen. Gelingt dies aber auf direktem Weg nicht, dann ist Verdrängung der Widersprüche sehr wahrscheinlich. Diese Verdrängung führt dann äußerlich gesehen zwar häufig zu eindeutigen Optionen für oder auch gegen die anstehende Sache. Die widerstrebenden Gefühle und Absichten werden dabei aber im realen Handeln übergangen und sinken in das Unterbewusstsein ab. In der empirischen Forschung bedeutet dies, dass es nicht genügt, Dispositionen je für sich zu erheben, sondern dass auch dem Prozess der >Verfestigung unserer Überzeugungen< – wie es der Pragmatist Charles S. Peirce (1985 [1877]) und vor ihm schon Heinrich von Kleist (1964/1805) genannt hat – durch Explorationen, Beobachtungen und Experimente systematisch nachgegangen werden muss (Kreutz 2003). In der nachfolgenden Tabelle sind Ergebnisse der schon beschriebenen Korruptionsforschung wiedergegeben, bei der die Ambivalenz ansatzweise, aber noch nicht differenziert genug erfasst ist, da die Potenzen i und i3 hierbei nicht von einander unterschieden werden konnten.
486
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
Tabelle 3: Darstellung der Antwortverteilungen bei der Beurteilung der Korruptheit einer Wahlkampfspende der Gewerkschaft für einen sozialdemokratischen Parlamentarier auf der Basis der Logik komplexer Zahl Korruption: Rotarier (n = 35) Studierende (n = 37) Experten (n = 45)
Reelle Reaktionen: nicht gegeben liegt vor (i²) (i4) 0,51 0,36 0,65
0,09 0,27 0,21
Imaginäre Reaktionen: Ambivalenz (i und i³) 0,40 0,38 0,14
Lesehilfe: 51% der Rotarier vertreten in diesem Fall die Auffassung, dass Korruption nicht gegeben ist, 9% behaupten das Gegenteil. 40% äußern sich ambivalent.
Zur Interpretation der Ergebnisse ist es unerlässlich, dass wir uns zunächst den >gesellschaftlichen Tatbestand< im Sinne von Emile Durkheim (1961[1895]) verdeutlichen: In der Bundesrepublik ist eine Wahlkampfspende im Jahr 2006 durchgehend üblich und an sich nicht strafbar. Nur wenn die finanzielle Unterstützung an die Bedingung einer späteren Vorteilsgewährung gebunden wäre, ergäbe sich ein strafrechtlich relevanter Tatbestand. Daher ist es verständlich, dass zwei Drittel der Experten vom positiven Recht ausgehend das Vorliegen von Korruption für diesen Fall verneinen. Umgekehrt ist die weite Verbreitung von Ambivalenz bei den Rotariern ebenfalls nachzuvollziehen, da sie in ihrer Mehrheit die Praxis kennen und von informellen Absprachen in vielen solchen Fällen wissen. Die ebenfalls häufige Ambivalenz bei Studierenden dürfte dagegen ihrer generellen Unerfahrenheit in Dingen des praktischen Wirtschaftslebens geschuldet sein. Ohne genauere Kenntnis des Einzelfalles ist hier keine valide Diagnose möglich. Aber selbst bei genauer Kenntnis der Vorgänge: Wie ist stilles Einverständnis nachweisbar? Und im Zweifel steht das Recht auf der Seite des Angeklagten. Eben deshalb ist es keineswegs von vornherein klar, wie eine Wahlkampfspende einzuordnen ist. Daher ist die methodologische Innovation der empirischen Forschung gefragt: Liegt Ambivalenz vor, dann sind empirische Verlaufsstudien zu fordern, die klären können, ob Korruption durch eine solche Spende eingeleitet wurde. Ebenso lässt sich durch systematische Explorationen klären, ob i oder i3 auf der Ebene von Kognitionen und Handlungsabsichten vorliegt. Für eine Diagnose und erst recht für die Prognose der gesellschaftlichen Entwicklung wird die empirische Gesellschaftsforschung aber genau diese Unterscheidung treffen müssen. 487
Henrik Kreutz
4 Die Varianz im Verhalten von unterschiedlichen Personen und die Varianz des Verhaltens der gleichen Personen, je nach den unterschiedlichen Situationen, in denen sie sich befinden Die Quasi-experimentelle Frage dient in erster Linie der empirischen Trennung von Unterschieden zwischen Situationen und von Unterschieden zwischen Personen. Dass diese Trennung nicht so einfach ist, liegt an den Interaktionseffekten zwischen den Einflüssen, die von Situationen ausgehen, einerseits und den persönlichen Absichten der Handelnden andererseits. Verschiedene Personen reagieren auf die gleiche Situation in unterschiedlicher Weise, und unterschiedliche Situationen bedingen bei den gleichen Personen unterschiedliche Reaktionen. Im vorigen Abschnitt haben wir eine von den vier Vignetten, die zu unserer Quasi-experimentellen Frage gehören, herausgegriffen und gesehen, dass diese bei den drei Populationen – Rotarier, Experten und Studierende – in unterschiedlichem Ausmaß Ambivalenz erzeugen. Auch Soziologische Ambivalenz tritt nicht bei allen Mitgliedern der Gesellschaft in der gleichen Weise auf, sondern so wie die strukturelle Lagerung der Personen es nahe legt. Nunmehr wollen wir untersuchen, inwieweit diese Ambivalenz von der Akteurskonstellation in der Situation der Wahlkampfspende abhängig ist. Tabelle 4: Ausmaß der Ambivalenz in den Beurteilungen von Wahlkampfspenden in Situationen mit unterschiedlichen Konstellationen von Akteuren Wahlkampfspenden von Seiten von.... ... Unternehmern ... Gewerkschaften Korruptionsverdacht Geber: Nehmer: Geber: Nehmer: (Unternehmer) (Parlamentarier) (Gewerkschaft) (Parlamentarier) gegenüber dem: Rotarier Studierende Experten
Ambivalenz bei der Beurteilung der Handlung 0,26 0,26 0,40 0,43 0,30 0,35 0,38 0,35 0,11 0,07 0,14 0,11
Rotarier Studierende Experten
Ambivalenz bei der Reaktion („strafwürdig“?) 0,20 0,26 0,37 0,40 0,38 0,35 0,49 0,43 0,09 0,11 0,05 0,09
Lesehilfe: 40% der Rotarier beurteilen in der Konstellation „Geber: Gewerkschaft“ und „Nehmer: Parlamentarier“ die Handlung des Gebers ambivalent.
488
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
Es gibt mithin eine nicht unbeträchtliche Varianz hinsichtlich der Ambivalenz gegenüber einer Reihe von Situationen. Dies sowohl hinsichtlich der Situationsdefinitionen als auch der Reaktionen bzw. geforderten Sanktionen. Vor allem bei der Reaktion auf die Aktivitäten der Gewerkschaft besteht beträchtliche Ambivalenz. Dass Unternehmerverbände nicht ganz ohne Bezug zu den Interessen ihrer Mitglieder Lobbying betreiben, wird offensichtlich eher hingenommen. Bei den Gewerkschaftsinteressen dürfte das Eigeninteresse der Funktionäre mittlerweile eher Verdacht erregen und die Legitimität von Wahlkampfspenden aus Mitgliedsbeiträgen in Frage stellen. Dem Anspruch nach sind Gewerkschaften parteiunabhängig und daher erscheinen parteibezogene Wahlkampfspenden vielen als problematisch. Dies auch dann, wenn sie eine starke Vertretung von Arbeitnehmerinteressen legitimerweise wünschen. Auch hierbei ist mithin die gesellschaftliche Verursachung der Ambivalenz deutlich erkennbar. Diese Daten zeigen, dass die Vernachlässigung von Ambivalenz systematische Verzerrungen der Analyse bedingt. Wenn etwa nur 5% der Experten hinsichtlich der Frage der Strafwürdigkeit von Parteispenden seitens von Gewerkschaftsorganisationen ambivalent sind, dagegen rund 50% der Studierenden, dann ist es unzulässig, die Daten von dieser Ambivalenz zu „ bereinigen“ und nur die eindeutigen Antworten zu berücksichtigen. Die inhaltlichen Stellungnahmen der beiden Populationen werden durch eine solche „Bereinigung“ unvergleichbar. Dies zeigt die Maßzahl für Entropie: Für 49% Ambivalenz ergibt sich H = 0,30, für 5% dagegen nur H = 0,085!
5 Das Problem der Heterogenität von Populationen und die situationsabhängige Varianz der Dispositionen und Verhaltensweisen auf der Picoebene1 Als bezeichnet man eine einmalige Struktur des Zusammenhangs von variablen Merkmalen. So sind z. B. Fingerabdrücke individuell. Im psychischen und gesellschaftlichen Bereich ist Individualität sehr viel schwerer nach zu weisen. Zugleich wird Individualität zwar nicht selten für die eigene Person beansprucht, aber auch umgekehrt häufig in aggressiver Weise abgelehnt, wie der Konformitätsdruck in totalitären Institutionen zeigt. Ein besonders deutlicher Beispiel ist hier der Wahlspruch der Nationalsozialisten: „Du bist nichts, Dein Volk ist alles!“ Eine Struktur muss natürlich genügend differenziert sein, um hinreichend viele unterschiedliche 489
Henrik Kreutz
Ausprägungen aufzuweisen, die es ermöglichen, dass Individualität verwirklicht werden kann. So z. B. ringen bildende Künstler um ihren eigenen, unverwechselbaren Stil. Vielen gelingt es tatsächlich. Aber eben deshalb gibt es in Europa seit der Renaissance den Wandel der Stilmittel und der künstlerischen Geltung. Im Folgenden wollen wir wieder das einfache Beispiel der Wahlkampfspenden thematisieren, um Quasi-experimentelle Fragen auch von dieser Seite her zu diskutieren. Unser quasi-experimentelles Design umfasst dabei 16 Vignetten zu je 3 vorgegebenen Antwortmöglichkeiten. Wir haben eine Untersuchungspopulation von insgesamt 116 Personen, die aus drei verschiedenen Teilpopulationen besteht. Diesen stehen 316 = 43.046.721 Antwortmöglichkeiten gegenüber, also genug Platz für die Individualität von 116 Menschen. Dennoch zeigte es sich, dass spontan weitere Antwortvarianten von den Befragten eingeführt wurden, sodass schließlich insgesamt 7 unterschiedliche Reaktionsweisen kodiert werden mussten. Wenn wir von diesen seltenen spontanen Ergänzungen absehen und uns hier zunächst auf die 4 Vignetten einer einzigen Quasi-experimentellen Frage, also auf eine einzige Beurteilungsdimension und auf die vorgegebenen drei Antwortmöglichkeiten beschränken, dann ist der Entfaltungsraum mit 81 Möglichkeiten für unsere Population eingeschränkt: Bei Gleichverteilung entfallen durchschnittlich 1,4 Personen auf jede Möglichkeit. Dies ist nicht allzu restriktiv. Wichtiger noch als diese Frage nach dem Entfaltungsraum ist aber hier, ob die gegebenen Situationsvariablen von den Befragten gemäß der gleichen Logik kombiniert werden oder unterschiedliche Muster von solchen Kombinationen auftreten. Welche Muster dieser Art sind der Möglichkeit nach überhaupt gegeben? 1. Alle 16 Vignetten werden in der gleichen Weise beantwortet, also keine Situationsvarianz: M1 = 3. 2. Verschiedene Ausprägungen von linearen Beurteilungsmustern, d. h., die Antworten richten sich nur nach den zwei Variablen, die in jeder der gestellten Fragen enthalten sind, nämlich a) Unternehmer oder Gewerkschaftsorganisation und b) sozialdemokratischer oder konservativer Kandidat. In diesem Fall ergeben sich insgesamt M2 = 12 mögliche Muster. 3. Interaktive Kombination der zwei Situationsvariablen, wobei ebenfalls zwei Ausprägungen gegeben sind, die aber jeweils anders kombiniert werden. Also z. B. wenn die Kombination als Geber und <sozialdemokratischer Abgeordneter> als Nehmer und in gleicher Weise die Gewerkschaft als Geber und ein konservativer 490
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
Abgeordneter als Nehmer nicht als „korrupt“ bezeichnet werden, die „parallelen“ Paarungen aber sehr wohl, dann ist eine solche interaktive Verknüpfung gegeben. In diesem Fall gibt es M3 = 6 mögliche Muster. 4. Interaktive Kombinationen, bei denen je Vignette jeweils 3 Antworten gleich ausfallen und nur eine abweicht. Hierfür gibt es M4 = 24 Möglichkeiten. 5. Die Verwendung von allen 3 Antwortmöglichkeiten bei der Beantwortung einer Vignette. Hierfür stehen 36 Möglichkeiten zur Verfügung. Insgesamt ergeben sich mithin 81 mögliche Antwortmuster. Bei Pareto (1971) haben wir bereits gesehen, wie wichtig diese Erforschung der Möglichkeiten ist, damit die Logik der jeweiligen Situation adäquat nachvollzogen werden kann. Dies bestätigt sich wiederum in diesem konkreten Fall. Es ist keineswegs so, dass unser Alltagsdenken den Möglichkeitshorizont für unsere Handlungen systematisch erkundet. Tabelle 5: Tatsächliche Häufigkeit der Verwendung der 81 möglichen individuellen Antwortmuster bei der Beantwortung der Quasi-experimentellen Frage nach Korruptheit von Wahlkampfspenden an Kandidaten bestimmter Parteien n
in %
1. Muster: nur situationsunabhängige Antworten
66
56,9
2. Muster: nur lineare Zusammenhänge
27
23,3
4. Muster*: interaktive Kombination bei 3 gleichen Antworten und einer abweichenden Antwort je Beurteilung
23
19,8
116
100
* Die theoretisch möglichen Antwortmuster 3 und 5 kommen empirisch nicht vor.
Das Linearergebnis ist selbst schon überraschend: Es kommen empirisch nur 3 Arten von Antwortmustern vor. 57% halten an einer einzigen Überzeugung, ganz unabhängig von der Situation, fest. Weitere 23% folgen in ihrer Antwort einer linearen Kombination der situativen Faktoren. Die restlichen 20% nehmen eine interaktive Verknüpfung vor, sodass sie nur eine einzige Konstellation anders beurteilen als die drei anderen. Damit entfallen 80% der tatsächlichen Optionen auf nur 24% der theoretisch möglichen Kombinationen. Bei dieser erheblichen Reduktion von möglicher ge491
Henrik Kreutz
sellschaftlicher Komplexität sind aber zwei wesentliche Umstände zu bedenken: Einerseits bezieht sich diese Analyse nicht auf den gesamten Aussagenverband, sondern nur das Attribut „korrupt“. Die drei anderen („demokratisch“, „allgemein“, „strafwürdig“) wurden hierbei nicht beachtet. Bezieht man alle 4 Attribute des Aussagenverbandes mit ein, dann reduziert sich der Anteil der situationsunabhängigen und linear kombinierenden Aussagen auf weniger als 50% der Urteile. Die gesellschaftliche Realität ist mithin sehr viel komplexer, als es das lineare Modell, das üblicherweise in der multivariaten Analyse verwendet wird, vermuten lässt. Andererseits ist zu berücksichtigen, dass auch in den linearen Kombinationen imaginäre Antwortdimensionen stecken. Diese sind hier nicht gesondert ausgewiesen, sie sind aber auch quantitativ bedeutsam. Eine lineare Kombination, die auch imaginäre Werte einschließt, ist aber als solche nur durch komplexe Zahlen abbildbar.
Drei verschiedene Logiken beherrschen das Feld: 1. Situationsunabhängige Beurteilung der Korruption (57%) 2. Lineare Kombination der Situationsvariablen (23%) 3. Interaktionseffekt, eine Situation wird abgehoben (20%) Mischt man diese drei Populationen, dann erzeugt man Heterogenität. Diese macht gültige statistische Analysen unmöglich, anstatt inhaltlich relevanter Ergebnisse erhält man in diesem Fall nur Artefakte. Eine adäquate Auswertungsstrategie muss daher von den drei Populationen ausgehen und diese getrennt je für sich analysieren. Nur in dem Fall, dass die drei parallelen Analysen analoge Ergebnisse liefern, kann wieder eine Zusammenfassung der Population erfolgen. Im entgegengesetzten Fall hat man im Sinne eines pragmatistischen Vorgehens abduktiv neue Kollektive und Konstellationen entdeckt, die bisher nicht bekannt waren.2 Parallel zu einer explorativen Weiterführung mittels multivariater Analyse ist die Überprüfung der Homogenität auf die übrigen Vignetten auszudehnen, so dass die neuen Populationsabgrenzungen besser abgesichert werden können. Alle diese Schritte überschreiten den Rahmen dieses kurzen Beitrages.3 Hier kam es nur darauf an, die Logik des Vorgehens transparent werden zu lassen und an einem Beispiel zu verdeutlichen.
492
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
6 Zusammenfassende Diskussion der Ergebnisse: die Quasiexperimentelle Frageform als Forschungstechnik im Rahmen der pragmatistischen Methodologie Im vorliegenden Beitrag wird gezeigt, dass sowohl das theoretische Konzept der Ophelimität von Vilfredo Pareto als auch das der Soziologischen Ambivalenz von Robert K. Merton sich als tragfähige und einander ergänzende Grundlagen für eine neue Methodologie der empirischen Sozialforschung erweisen. Die Verbindung von Erkenntnissen der Politischen Ökonomie und des Soziologischen Funktionalismus erlaubt Innovationen auch auf dem Gebiete der Forschungstechniken, die echte Fortschritte v. a. hinsichtlich der Validität der empirischen Daten beinhalten. Pareto setzte das Konzept der Ophelimität an die Stelle des Nutzenbegriffes, weil Nutzen nicht direkt messbar ist und Präferenzen immer nur im Rahmen von spezifischen Situationen ihre Geltung haben. Situationen sind aber durch eine Mehrzahl von Variablen bestimmt, die z. T. komplex, also überadditiv zusammenwirken. Entsprechend gibt es daher auch nicht den Nutzen irgendeines Gutes an sich, sondern immer nur seine Ophelimität im Rahmen eines Kontextes, der durch die Wirkung einer Mehrzahl von Variablen bestimmt ist. Über Pareto hinausgehend genügt es aber nicht, jeweils nur die Wirkung der Veränderungen von zwei Variablen auf eine dritte zu analysieren, sondern es gilt jeweils eine Gesamtkonstellation zu erfassen, in der sowohl die Situation als auch die Reaktionen der betroffenen Akteure in ihrem Zusammenhang analysiert werden. Es genügt dabei auch nicht, einfach die Interaktion von Variablen zu konstatieren, vielmehr ist es erforderlich, genau zu spezifizieren, um welche Ausprägung von nichtlinearem Zusammenhang es sich handelt und wie dieser zustande kommt. Dazu ist es erforderlich, zunächst den Aussagenverband im Sinne von C. F. v. Weizsäcker (1985) zu spezifizieren, in dessen Rahmen die einzelnen Variablen generiert werden. So wurde in dem empirischen Beispiel, das im vorliegenden Artikel analysiert wurde, das Phänomen der Korruption untersucht. Diese Untersuchung der Korruption wurde dabei in einem Aussagenverband vorgenommen, in dem auch die allgemeine Verbreitung, ihre Auswirkung auf die Demokratie sowie ihre Strafwürdigkeit mit enthalten sind. Die Form der Quasi-experimentellen Frage kann diesen Anforderungen Genüge leisten. Im Ergebnis zeigt sie, dass zumindest signifikante Teile der jeweiligen Population auf dieselbe Veränderung einer Variablen je nach Kontext, in dem diese stattfindet, jeweils anders reagieren. Die hinreichende Abbildung der Dispositionen und Präferenzen dieser Personen kann 493
Henrik Kreutz
daher nicht allgemein durch einen einzigen und eindeutigen Zahlenwert geleistet werden, sondern nur durch komplexe Zahlen erfolgen, die neben der manifesten Verhaltenswirklichkeit auch die virtuelle Ebene der Absichten und Bedenken charakterisieren können. Auch eine Reduktion der komplexen gesellschaftlichen Wirklichkeit auf Handlungen individueller Akteure nützt hier nichts, da zumindest ein bedeutender Teil der Individuen die Widersprüchlichkeiten und Konflikte internalisiert hat und diese in seinen Entscheidungen und Handlungen immer wieder reproduziert. Eben aus diesem Grund erhält das Konzept der Soziologischen Ambivalenz große Bedeutung für die empirische Forschung und ihre Methodologie, da es verhindert, dass Individuen auf der Basis von Forschungsartefakten eineindeutig festgelegt werden. Soziologische Ambivalenz impliziert, dass Menschen unterschiedliche Optionen in sich vereinigen und je nach ihrer Rolle und je nach den Gegebenheiten der Situation anders handeln können. Dieser theoretischen Sicht entsprechend erfolgt die empirische Analyse mit Hilfe der Quasi-experimentellen Frageform in zwei Schritten. Im ersten Schritt wird die innere Varianz der Individuen analysiert. Gleichzeitig erfolgt die empirische Erfassung der äußeren Handlungswirklichkeit und ihrer strukturellen gesellschaftlichen Einbindung. In einem zweiten Schritt wird der empirisch ermittelte innere und äußere Handlungsspielraum jedes Individuums mit der Mesoebene der Verteilung der Präferenzen und der Handlungsweisen innerhalb von Populationen in Verbindung gebracht. Dies beinhaltet einen empirischen Test der Population auf ihre Homogenität hin. Insofern die Individuen nicht der gleichen Handlungslogik folgen, ist fast jede von ihnen gebildete Population in sich heterogen. Erweist sich nun eine Population als in sich heterogen, dann ist es notwendig, die Analyse zu partialisieren und die betreffende Gesamtheit für die weitere Analyse in Teilpopulationen aufzuteilen, die je für sich homogen sind. Herkömmliche statistische Analyseverfahren setzen die Homogenität von Populationen voraus. Üblicherweise wird diese einfach unterstellt und nicht empirisch geprüft. Die Quasi-experimentelle Frageform erlaubt es nun, diese unerlässliche Voraussetzung nicht nur zu prüfen, sondern sie auch gegebenenfalls durch Partialisierung herzustellen. Da dieser theoretische Ansatz es erlaubt, Widersprüche und Ambiguität in den Individuen zuzulassen und nicht einfach dogmatisch zu verdrängen, liefert er auch die entsprechenden empirischen Daten, deren Verarbeitung den Gebrauch von komplexen Zahlen erfordert, da nur diese einen imaginären und einen reellen Bereich zu unterscheiden erlauben. Empirische Forschungen mit Hilfe von Quasi-experimentellen Fragen verbinden in theoretischer Hinsicht mithin die Konzepte der Ophelimität, der 494
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
Soziologischen Ambivalenz, der Heterogenität bzw. der Homogenität und der Komplexen Zahlen miteinander zu einem eigenständigen Ansatz für die Empirische Sozialforschung. Insgesamt folgt diese Forschungslogik der Methodologie der Pragmatistischen Soziologie im Anschluss an die Arbeiten von Charles S. Peirce, der mit Recht die Schlussform der Retroduktion, die er fallweise auch Abduktion nannte, als Königsweg der empirischen Forschung angesehen hat.
Anmerkungen * 1
2
3
Die Arbeit ist aus dem von der Staedtler-Stiftung geförderten Forschungsprojekt hervorgegangen. Vgl. dazu z. B. die auf die verwendeten Methoden bezogene Metaanalysen in Kreutz (1973, 1981). Die Untersuchung hat dabei auch die Picoebene zu analysieren. Das Individuum hat im Laufe seiner Sozialisation eine Reihe von Akteuren und deren Beziehungen zueinander internalisiert, sodass auch die Mehrebenenanalyse nicht beim Individuum als letzter Einheit Halt machen kann. Die systematische und genaue Erforschung der Möglichkeiten steht an Wichtigkeit der Aufdeckung von Tatsachen nicht nach. Erst die Konfrontation der Tatsachen mit den Möglichkeiten erlaubt, die Validität und Prognosefähigkeit der empirischen Forschung auf eine gesicherte Grundlage zu stellen. Ausgeführt wird diese empirische Analyse in der Arbeit von Kreutz und Rögl (1994) sowie für die Korruptionsforschung im Projektbericht für die Staedtler–Stiftung, die 2009 publiziert wird.
Literatur Ainslie, G. (1992). Picoeconomics. The strategic interaction of successive motivational states within the person. Cambridge: Cambridge University Press. Alexander, G. S., & Becker, H. J. (1978). The use of vignettes in survey research. Public Opinion Quarterly, 42, 93–104. Andersson, S. (2002). Corruption in Sweden. Umea: Umea-University. Bacher, J. (1988). Auswertungsstrategien für unvollständige quasi-experimentelle Fragestellungen. In H. Kreutz (Hrsg.), Pragmatische Soziologie (317–326). Opladen: Leske und Budrich. Cook, T. D., & Campbell, D. T. (1979). Quasi-experimentation: design and analysis issues for field settings. Boston: Houghton Mifflin. Durkheim, E. (1961) [1895] Die Regeln der Soziologischen Methode. Neuwied: Luchterhand.
495
Henrik Kreutz Gibbons, K. M. (1999). Variations in attitudes toward corruption in Canada. In A. J. Heidenheimer et al., (Eds.), Political Corruption (763–780). Brunswick, London: Transaction Publishers. Jekeli, I. (2002). Ambivalenz und Ambivalenztoleranz. Osnabrück: Der Andere Verlag. Kreutz, H. (1972). Soziologie der empirischen Sozialforschung. Stuttgart: Emke. Kreutz, H. (1973). Youth and social change. A methodological review of European youth research 1960–1970. (2 Bände). Straßburg: Europarat. Kreutz, H. (1981). Jugend und Politik. Ein Resümee der Forschung 1965–1980. Wien, Hannover: IAS. Kreutz, H. (1994). The End of „General Linear Reality“: The complex interaction of individual cognition, collective consciousness and action. Angewandte Sozialforschung, 18, 281–305. Kreutz, H. (2003). Explikation der pragmatischen Erkenntnistheorie von Charles S. Peirce. In T. Meleghy & H. J. Niedenzu (Hrsg.), Soziale Evolution (267–296). Wiesbaden: VS Verlag. Kreutz, H. (2005a). Situation, Konstellation und Disposition: ihre empirische Differenzierung mittels „quasi-experimenteller Fragen“. Methodologische Ergebnisse einer Erhebung über den Wert des menschlichen Lebens. Angewandte Sozialforschung, 23, 171–192. Kreutz, H. (2005b). „Das sieht doch jeder: die Erde ist flach!“ Von Glaubensgewissheiten und wahrheitsoffenen Gesprächen: Pragmatizismus oder Rationalismus als Leitlinie. Angewandte Sozialforschung, 23, 200–212. Kreutz, H. (2007). „Ils vont tuer le capitalisme!“ – diese bedenkenlosen Manager werden den Kapitalismus noch umbringen! Forschungsbericht 2006 des Lehrstuhls für Soziologie und Sozialanthropologie Nürnberg, WISO, 9–30. Kreutz, H., & Fürnschuß, G. (1971). Chancen der Weiterbildung. Wien: Bundesverlag. Kreutz, H., & Fürnschuß, G. (1973). Jugend und Zukunft. In L. Rosenmayr & H. Kreutz (Hrsg.), Rollenbewertungen der weiblichen Jugend (339–419). Wien: Bundesverlag. Kreutz, H., & Plank, F. (1988). Zweistufige varianzanalytische Auswertung quasi-experimenteller Fragen. In H. Kreutz (Hrsg.), Pragmatische Soziologie (305–316), Opladen: Leske und Budrich. Kreutz, H., & Rögl, H. (1994). Die umfunktionierte Universitätsreform. Eine empirische Untersuchung auf der Basis von Dokumentenanalysen, „oral history“ und quasiexperimentellen Verfahren. Wien: Universitätsverlag. Meleghy,T., & Heyt, F. D.(Hrsg.) (1997). Die Wissenschaftslehre Karl Raimund Poppers und die Entwicklung der Sozialwissenschaften. Angewandte Sozialforschung, 20(Heft 3/4), 1–128. Merton, R. K., & Barber, E. (1963). Sociological ambivalence. In E. A. Tiryakian (Ed.), Sociological theory, values and sociological change (pp 91–120). New York: Free Press.
496
Fortschritte bei der Auflösung der ceteris-paribus-Klausel Merton, R. K., & Barber, E. (1976). Sociological ambivalence. In R. K. Merton (Ed.), Sociological ambivalence and other essays (pp 3–108). New York: The Free Press. Pareto, V. (1971). Manual of Political Economy. New York: Kelley. Peirce, C. S. (1985). [1877] Die Festigung unserer Überzeugungen. In E. Walter (Hrsg.), Die Festigung unserer Überzeugungen und andere Schriften (42–59), Berlin: Ullstein. Room, P. H. (1979). Vignette analysis: Uncovering the normative structure of complex judgements. In R. K. Merton, J. S. Coleman & P. H. Rossi (Eds.), Qualitative and Quantitative Social Research (171–186). New York: Free Press. Rossi, P., & Nock, S. (Eds.) (1982). Measuring social judgements: The factorial survey approach. Beverly Hills: Sage. Savage, L. J. (1967/1954). Historical and Critical Comments on Utility. In W. Edwards & A. Tversky (Eds.), Decision Making (pp 96–110). Hammondsworth: Penguin. Steiner, P. M., & Atzmüller, C. (2006). Experimentelle Vignettendesigns in faktoriellen Surveys. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 58, 119–140. Von Kleist, H. (1964/1806). Über die allmähliche Verfertigung der Gedanken beim Reden. Gesammelte Werke. Band 5 (53–58). München: dtv. Von Weizsäcker, C. F. (1985). Aufbau der Physik. München: Hanser.
497
Andreas Quatember
Andreas Quatember
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten und Antwortausfällen bei heiklen Themen Zusammenfassung Nonresponse und Falschantworten beeinträchtigen die Qualität von Schätzern in Stichprobenerhebungen. Randomisierte Befragungsdesigns sind bei heiklen Themen (wie Gewalt in der Familie, Drogenmissbrauch, Sexualverhalten etc.) eine die Nonresponse- und Falschantwortrate reduzieren helfende Alternative zur direkten Befragung der Items. Das Charakteristikum dieser Strategien ist es, dass ein Befragungsdesign verwendet wird, welches es dem Interviewer unmöglich macht, die von den Respondierenden gegebene Antwort einer bestimmten Frage zuzuordnen. Die Idee dabei ist, dass auf diese Weise den zu Interviewenden weitestgehend die Angst vor einem ihnen unangenehmen „Outing“ genommen werden kann und so dafür gesorgt wird, dass sie doch wahrheitsgetreu antworten. Die Arbeit stellt die Problemstellung dar, beschreibt eine Vereinheitlichung der randomisierten Befragungsdesigns (siehe: Quatember 2007) für Anzahl- und Anteilschätzungen, entwickelt die daraus resultierenden Schätz- und Teststrategien und demonstriert dies an einem Beispiel zum Thema „Körperliche Gewalt in der Familie“.
Abstract New Developments of Statistical Methods for the Reduction of Incorrect Answers and Nonresponse in the Case of Sensitive Topics Nonresponse and untruthful answering affect negatively the quality of estimators in sample surveys. Randomized response designs provide an opportunity to reduce both the nonresponse and the untruthful answering rate in surveys on violence within families, drug usage, sexual behaviour etc. compared to the direct questioning on the topics. These designs are characterized by the fact that
499
Andreas Quatember
it is impossible for an interviewer to identify the question on which the respondent has given his or her answer. The idea is to take away the respondent’s fear of an embarrassing outing and in this way to guarantee that the interviewee answers truthfully on the randomly selected question. The paper discusses the problem, describes the standardization of the randomized questioning designs (Quatember 2007) for the estimation of frequencies and proportions, develops the resulting estimation and testing strategies and demonstrates the usage in an example on physical violence within families.
1 Einführung Antwortausfälle in Stichprobenerhebungen beeinträchtigen die Aussagekraft der statistischen Schlussfolgerungen genau dann, wenn sich die Gruppe der Nichtantwortenden bei der betreffenden Fragestellung von der Gruppe der Antwortenden unterscheidet. Bezeichnen wir mit U eine Grundgesamtheit an Erhebungseinheiten vom Umfang N und mit UA eine Teilgesamtheit von NA Elementen aus U, deren Elemente sich dadurch auszeichnen, dass sie einer Klasse A eines interessierenden kategorialen Merkmals angehören (z. B. zur Gruppe derjenigen aus der Gesamtheit der über 16-jährigen Bevölkerung, die im vergangenen Jahr Drogen konsumiert haben). Soll nun mittels der Daten aus einer uneingeschränkten (oder einfachen) ohne Zurücklegen gezogenen Zufallsstichprobe s vom Umfang n der Umfang NA bzw. die relative Größe πA = NA/N dieser Teilgesamtheit geschätzt werden, so bezeichnen wir mit x den „Zugehörigkeitsindikator“ mit den Ausprägungen ì1, wenn i ÎU A , xi = í î0 sonst. bei der i-ten Erhebungseinheit (i = 1, 2, . . . N). Bei direkter Befragung zur Zugehörigkeit zu UA wird πA geschätzt durch = π dir A
1 ×åx s i n
(1)
(Σs bezeichnet die Aufsummierung über alle Elemente von s), die relative Größe dieser Gruppe in der Stichprobe, und NA analog durch
N A = N × π Adir .
(2)
Bei auftretenden Antwortausfällen (z. B. durch die heikle Thematik) wird die Stichprobe s zerlegt in eine Teilmenge r der nr Respondierenden („response 500
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten
set“) und eine Teilmenge m der nm Nichtrespondierenden („missing set“). Die Teilmenge r wird ferner zerlegt in die Menge u der Falschantwortenden („untruthful set“) und die Menge t der wahrheitsgetreu Antwortenden („truthful set“). Dadurch wird auch der Summand in (1) aufgespalten (im Nachfolgenden werden nur mehr Schätzer für πA betrachtet, weil sich die Schätzer für NA einfach durch Multiplikation des πA-Schätzers mit N ergeben): = π dir A
1 æ ö . ×ç å x + å x + å x ÷ u m i iø n è t i
(3)
Ignoriert man dies, in dem man versucht, den interessierenden Parameter πA durch π rA =
1 1 × å xi = × r nr nr
(å x + å x ) t
i
u
i
(4)
allein auf Basis der Respondierenden zu schätzen („available cases analysis“), so zieht dies unweigerlich eine Verzerrung des Schätzers nach sich, sofern sich die Mitglieder der Menge t von den Nichtantwortenden beim interessierenden Merkmal unterscheiden und die Menge u nicht leer ist. Dies wiederum führt zu Konfidenzintervallen, die den Parameter nicht mit der erwünschten Sicherheit überdecken bzw. zu einer Erhöhung der Fehlerwahrscheinlichkeiten beim statistischen Testen von Hypothesen. Betrachten wir folgendes Beispiel: Durch eine einfache Zufallsstichprobe vom Umfang n = 1.000 aus der österreichischen Bevölkerung über 16 Jahren – operationalisiert etwa durch die in Österreich lebende Wohnbevölkerung – soll die relative Größe πA der Gruppe UA der im vergangenen Jahr Drogen konsumiert habenden Personen ermittelt werden. Wegen des heiklen Themas würde die direkte Fragestellung („Haben Sie im vergangenen Jahr Drogen konsumiert?“) die Gesamtstichprobe s aufteilen in eine Gruppe t derer, die wahrheitsgetreu antworten (hauptsächlich Personen, die nicht zu UA gehören), eine weitere Gruppe u derer, die nicht wahrheitsgetreu antworten (hauptsächlich Personen, die zu UA gehören und das Gegenteil behaupten), und eine Menge m von Nichtrespondierenden (denen das Thema insgesamt zu heikel oder persönlich ist). Eine Schätzung der relativen Größe der interessierenden Bevölkerungsgruppe durch (4) würde demnach den wahren Anteil unterschätzen. Von Seiten der statistischen Methodik lässt sich auf das Auftreten von Nonresponse auf zweierlei Arten vernünftig reagieren. Entweder man versucht, πA ausschließlich auf Basis der Menge r durch differenziertere Hoch501
Andreas Quatember
gewichtung der darin aufgetretenen Merkmalsausprägungen als in (4) zu schätzen („Gewichtungsanpassung“), oder man verwendet Hilfsinformationen über die Nichtrespondierenden, sofern solche Informationen vorliegen, um den dritten Summanden in (2) zu schätzen („Imputation“) (siehe zu Gewichtungsanpassung etwa: Groves et al. 2002, 275–302, und zu Imputation etwa: Little & Rubin 2002, 59–74). Trotz des nachweislichen Erfolgs dieser Methoden können sich die damit errechneten Stichprobenergebnisse natürlich nicht (ganz) mit der Qualität von solchen messen, die auf tatsächlich gemachten Beobachtungen basieren. Auch das bei heiklen Themen auftretende Problem der Falschantworten bleibt durch diese Methoden unberücksichtigt. Sowohl in der Psychologie als auch in der empirischen Sozialforschung werden Methoden entwickelt, die die Nonresponse- und Falschantwortrate in einem erträglichen Rahmen halten sollen (vgl. etwa Groves et al. 2002, 103–196). Bei heiklen Themen (z. B. Gewalt in der Familie, Sexualverhalten, Drogen- oder Alkoholmissbrauch) kann auch die statistische Methodik durch randomisierte Befragungsdesigns dazu beitragen, bei persönlichen Interviews Nonresponse und Falschantworten auf ein auch bei nichtsensitiven Themengebieten nicht zu vermeidendes Niveau zu drücken. Die Anwendung ist in der Literatur wohldokumentiert (vgl. beispielsweise: Goodstadt & Gruson 1975; Tezcan & Omran 1981; Fisher et al. 1992; Lara et al. 2004).
2 Randomisierte Befragungsdesigns 1965 veröffentlichte Stanley L. Warner (1965) seine Idee eines Befragungsdesigns, das gewährleisten soll, dass sich die Interviewten bei heiklen Themen nicht vor einem Interviewer bloß stellen müssen. Betrachten wir als Beispiel die Grundgesamtheit U der österreichischen Wohnbevölkerung ab 16 Jahren und bezeichnen wir mit UA die Teilmenge der im letzten Jahr Drogen konsumiert habenden Personen. Warners Design ist so aufgebaut, dass der zu befragenden Person im Gegensatz zur direkten Befragung zum Thema nur mit einer Wahrscheinlichkeit p1 < 1 die Frage nach der Zugehörigkeit zu UA gestellt wird, wohingegen sie mit der verbleibenden Wahrscheinlichkeit p2 = 1 – p1 die Frage nach der Zugehörigkeit zur zu UA komplementären Gruppe UAc („nicht-UA“) erhält (UAc = U – UA) (siehe Abbildung 1). Die Idee ist es, dass dadurch, dass der Interviewer bzw. die Interviewerin über jene Frage, die tatsächlich beantwortet wurde, im Unklaren gelassen wird, 502
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten
der/die Befragte die Angst davor verliert, wahrheitsgetreu zu antworten. Voraussetzung ist natürlich, dass die Interviewten das Befragungsdesign und die sich daraus ergebenden Konsequenzen in Hinblick auf den Schutz ihrer Privatsphäre durch eine einschlägige Erläuterung verstehen. Abbildung 1: Warners Befragungsdesign
p1
UA?
p2
UAc?
UA: Drogenkonsum im vergangenen Jahr UAc: Kein Drogenkonsum im vergangenen Jahr
Die Zufallsvariable y zeigt an, ob eine befragte Person i mit „ja“ oder „nein“ geantwortet hat: ì1, wenn i jaantwortet , yi = í î0 sonst. Die Wahrscheinlichkeit πy für eine „ja“-Antwort ist bei Warners Design gegeben durch: πy = pi · πA + p2 · (1 – πA ). Formt man dies nach πA um und ersetzt man in der Gleichung die Wahrscheinlichkeit πy durch ihren Schätzer, das ist die relative Häufigkeit π y an „ja“-Antworten in der Stichprobe, so erhält man den Schätzer = π W A
π y – p 2
p1 – p 2
(5)
(p1 ≠ p2) für πA. Dieser ist unverzerrt bei Zutreffen der Annahme, dass wegen des die Privatsphäre der Respondierenden schützenden Befragungsdesigns wahrheitsgetreu geantwortet wird. Dessen theoretische Varianz besteht aus der Varianz bei direkter Befragung ohne Nonresponse und einem „Strafterm“ und sieht für uneingeschränkte Zufallsstichproben ohne Zurücklegen folgendermaßen aus: 503
Andreas Quatember
V (π WA )=
π A × (1– π A ) n
×
N– n N– 1
+
p 1 × (1– p 1 )
(6)
n × (2p – 1) 1 Strafterm 2
(Kim & Flueck 1978, 347). Der „Strafterm“ gibt den Genauigkeitsverlust an, den man im (unfairen) Vergleich zu einer direkten Befragung mit vollem Response erleidet, wenn man Warners Befragungsdesign anwendet, um Nonresponse und Falschantworten zu vermindern. Als Gegenleistung erhält man einen bei Zutreffen der Annahmen unverzerrten Schätzer. Diese Varianz lässt sich unverzerrt schätzen durch:
V (π WA )=
) π W × (1– π W A A n– 1
×
N– n N
+
p 1 × (1– p 1 ) n × (2p 1 – 1)
2
.
(7)
Für das Beispiel aus Abschnitt 1 ergeben sich bei p1 = 0,8 und einem Anteil an „ja“-Antworten in der Stichprobe (n = 1.000) von 0,272 ein Schätzer π W = 0 ,12 und eine Varianzschätzung von V ( π W ) ≈ 5,50 · 10–4 . A A Die Kunst ist es natürlich, die Wahrscheinlichkeiten p1 und p2 so zu bestimmen, dass sich die Interviewten in Hinblick auf ihrer Privatsphäre so geschützt fühlen, dass sie tatsächlich wahrheitsgetreu antworten, da das Antwortverhalten natürlich massiv von diesen Wahrscheinlichkeiten abhängt. p1 = 1 etwa entspricht der direkten Befragung zum heiklen Thema und führt somit zur höchsten Rate an Nonresponse plus Falschantworten. Geht p1 von 1 in Richtung 0,5, so nimmt der Schutz der Privatsphäre zu und demnach die Rate an Nonresponse plus Falschantworten immer mehr ab. Dafür wird die Schätzung nach (5) immer ungenauer (siehe (6)). Die Bestimmung jener optimalen (= größten) Wahrscheinlichkeit p1, die die minimale Nonresponserate gewährleistet, kann aus Erfahrungen mit dem Verfahren und/ oder durch empirische Untersuchungen erfolgen (vgl. hierzu etwa: Gupta et al. 2002). Seit Warner (1965) wurde immer wieder versucht, das Befragungsdesign durch Veränderungen in den Vorgehensweisen effizienter zu gestalten. Quatember (2007) vereinheitlichte die Ansätze mit unterschiedlichen Alternativfragen auf folgende Weise (siehe Abbildung 2): Den Befragten wird mit einer Wahrscheinlichkeit p1 die Frage nach der Zugehörigkeit zu UA gestellt, mit p2 die Frage nach der Zugehörigkeit zu UAc, mit p3 die Frage nach der Zugehörigkeit zu einer Gruppe UB, die weder mit der Zugehörigkeit zu UA statistisch zusammenhängt noch irgendwie sensitiv ist (z. B. „Haben Sie in den ersten 504
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten
drei Monaten des Jahres Geburtstag?“). Ferner kann der/die Respondierende noch mit einer Wahrscheinlichkeit p4 instruiert werden, einfach mit „ja“ und mit p5, einfach mit „nein“ zu antworten (0 ≤ pi ≤ 1; Σ pi ≤ 1). All dies ist möglich, um die Frage bzw. Instruktion, auf die geantwortet wurde, für die Interviewer zum Schutz der Privatsphäre der Respondierenden zu verschleiern. Abbildung 2: Quatembers (2007) vereinheitlichtes Befragungsdesign
p1
p5
UA?
„nein!“ p4
p2 p3
UAc?
„ja!“ UB?
UA: Drogenkonsum im vergangenen Jahr UAc: Kein Drogenkonsum im vergangenen Jahr UB: Geburtstag in einem der ersten drei Monate eines Jahres
Die relative Größe πB von UB und die Wahrscheinlichkeiten p1 bis p5 sind die frei bestimmbaren Designparameter des vereinheitlichten randomisierten Befragungsdesigns. Die Wahrscheinlichkeit für eine „ja“-Antwort ist nun πy = p1 · πA + p2 · (1 – πA) + p3 · πB + p4. Daraus lässt sich abermals durch einfache Umformung und Ersetzen von πy durch π y (siehe Abschnitt 1) der unverzerrte Schätzer π A =
π y – p 2 – p 3 × π B – p 4
(8)
p1 – p 2
(p1 ≠ p2) für πA gewinnen. Dessen theoretische Varianz ist bei uneingeschränkter Zufallsauswahl ohne Zurücklegen:
V (π A ) =
π y × (1– π y )
n × (p 1 – p 2 )
2
–
π A × (1– π A )
n
×
n –1 N –1
(9)
(vgl. Quatember 2007, 4 ff.). 505
Andreas Quatember
Es gibt 16 verschiedene Befragungsdesigns, das sind die 16 möglichen Kombinationen der Frage nach der Zugehörigkeit zu UA mit den anderen vier Fragen bzw. Instruktionen als Spezialfälle der Vereinheitlichung. Einige davon wurden bereits als eigene Techniken veröffentlicht, andere sind in Quatember (2007) erstmalig publiziert worden. Ist etwa p1 = 1, so liegt das direkte Befragungsdesign vor. Gilt 0 < p1 < 1 und p2 = 1 – p1, dann entspricht dies Warners Design. Das Befragungsdesign mit von null verschiedenen Wahrscheinlichkeiten p1, p3 und p4 beispielsweise, das also aus den Fragealternativen nach Mitgliedschaft zu UA, UB und der Instruktion besteht, „ja“ zu antworten, wurde bislang noch nicht veröffentlicht, soweit der Autor dieses Aufsatzes Kenntnis davon hat (vgl. Quatember 2007, 5). Setzt man in (9) für πy den Anteil an „ja“-Antworten π y in der Stichprobe und für πA den Schätzer π A nach (8) ein, so erhalten wir eine asymptotisch unverzerrte Schätzung für die theoretische Varianz nach (9). Damit lässt sich dann bei ausreichend großen Stichprobenumfängen und für große Grundgesamtheiten bei uneingeschränkter Zufallsauswahl ohne Zurücklegen ein approximatives Konfidenzintervall zur Sicherheit 1 − α angeben: π A ±u1– a / 2 ×
p y × (1– p y )
n × (p 1 – p 2 )
2
–
p A × (1– p A )
(10)
N
(mit u1−α/2, dem (1−α/2)-Quantil der Standardnormalverteilung). Zum Testen von Hypothesen über π A auf einem Signifikanzniveau α = 0,05 gelten folgende Entscheidungsregeln: Bei zweiseitiger Fragestellung mit den Hypothesen H0: πA = πA*
und
H1: πA ≠ πA*
ist für ausreichend große Stichprobenumfänge die Region
R = π A ± u1– α / 2 × *
π y × (1– π y* )
n × (p 1 – p 2 )
2
–
π A∗ × (1– π A* )
N
(11)
mit πy = p1 · πA* + p2 · (1 – πA*) + p3 · πB + p4 die Beibehaltungsregion der Nullhypothese. Bei einseitiger Fragestellung mit den Hypothesen H0: πA ≤ πA* oder 506
und
H1: πA > πA*
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten
H0: πA ≥ πA*
und
H1: πA < πA*
sind die Beibehaltungsregionen gegeben durch die obere Schranke π A * + u1– α ×
π y × (1– π y )
n × (p 1 – p 2 )
2
–
(
π ∗A × 1– π ∗A
)
N
(12)
bzw. durch die untere Schranke π A – u1– α × *
π y × (1– π y )
n × (p 1 – p 2 )
2
–
(
π ∗A × 1– π ∗A
N
)
(13)
Soll zum Beispiel mit Warners Befragungsdesign auf einem Signifikanzniveau von 0,05 die Behauptung überprüft werden, dass mehr als 10 Prozent der Bevölkerung über 16 Jahren im vergangenen Jahr Drogen konsumiert haben (H1: πA > 0,1), so ist die Beibehaltungsregion der Nullhypothese, die das Gegenteil behauptet, gegeben durch (12). Deren obere Schranke bei n = 1.000 entspricht somit 0,139, und wegen π W = 0 ,12 (siehe oben) wird A die Nullhypothese beibehalten. Es stellt sich nun natürlich die Frage nach der effizientesten Vorgehensweise, also nach jener Wahl der Designparameter, die die größte Genauigkeit des Schätzers (8) hervorbringt.
3 Genauigkeitsbetrachtungen Es ist offenkundig, dass die Wahl der in diesem Sinne optimalen Designparameter massiv vom Grad der Sensitivität des interessierenden Merkmals beeinflusst wird. Ist ein Merkmal nicht sensitiv, dann ist die direkte Befragung (Designparameter p1 = 1) zum Untersuchungsgegenstand die effizienteste Vorgehensweise, weil bei allen anderen Wahlen für die Designparameter des standardisierten randomisierten Befragungsdesigns die Privatsphäre der respondierenden Person in gewisser Weise geschützt und dieser Schutz durch eine Genauigkeitsverminderung bezahlt wird. Liegt jedoch ein heikles Thema vor, dann werden bei direkter Befragung Antwortausfälle bzw. Falschantworten auftreten, deren Ausmaß bei Verwendung einer randomisierten Befragungstechnik mit p1 < 1 geringer ausfallen wird. Bislang nicht berücksichtigt wurde bei den Effizienzvergleichen in der Literatur (vgl. etwa den Überblick in Tracy & Mangat 1996), dass diese 507
Andreas Quatember
Vergleiche natürlich nur für Befragungsdesigns mit gleichem Schutz der Privatsphäre, also gleichem Nonresponserisiko, erfolgen können. Die Bestimmung der optimalen Designparameter hat demnach auf Kennzahlen zu basieren, die den Grad des Schutzes der Privatsphäre messen, den eine bestimmte Wahl der Designparameter bietet. Quatember (2008) verwendet dazu die von Leysieffer & Warner (1976) vorgeschlagenen Kennzahlen. λ1 sei dabei der Quotient aus den bedingten Wahrscheinlichkeiten dafür, wahrheitsgetreu mit „ja“ zu antworten, wenn man tatsächlich zur Gruppe UA und wenn man zu UAc gehört: λ1 =
P(ja | i ÎU A ) P(ja | i ÎU A C )
,
(14)
λ0 andererseits sei der Quotient der bedingten Wahrscheinlichkeiten dafür, wahrheitsgetreu mit „nein“ zu antworten, wenn man tatsächlich zur Gruppe UAc und wenn man zu UA gehört: λ0 =
P(nein | i ÎU A C ) P(nein | i ÎU A )
.
(15)
Je stärker diese Kennzahlen von 1 abweichen, desto geringer ist der Schutz der Privatsphäre, der durch das gewählte Befragungsdesign gewährleistet wird. Für das direkte Befragungsdesign gilt: λ1 = λ0 = ∞. Es gilt also, aus früheren Erhebungen abzuleiten oder empirisch zu bestimmen, wie diese Verhältnisse λ1 und λ0 bei einem bestimmten Merkmal beschaffen sein müssen, damit die Privatsphäre der Respondierenden gerade noch geschützt ist. Mit diesen so festzulegenden Kennzahlen lassen sich Gleichungen optimaler Effizienz für die Designparameter ableiten (siehe: Quatember 2008).
4 Ein Beispiel Betrachten wir wieder – wie zu Beginn in Abschnitt 2 – die Grundgesamtheit U der Wohnbevölkerung über 12 Jahre eines Landes und die Teilgesamtheit UA jener Personen, denen von Familienmitgliedern im vergangenen Jahr körperliche Gewalt angetan wurde. Zu schätzen sei πA, die relative Größe dieser Gruppe. Das Thema ist als insgesamt sensitiv einzustufen, wenngleich die Zugehörigkeit zu UA natürlich deutlich heikler als jene zu UAc ist. Die Subpopulation UB bestehe aus allen Elementen dieser Grundgesamtheit, deren Geburtstag in einen der ersten drei Monate eines Jahres fällt. 508
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten
Nehmen wir für den Parameter πB den Wert 0,25 an. Als Stichprobenumfänge wählen wir 250, 500 und 1.000. Auf der Basis früherer Untersuchungen legen wir die optimalen Kennzahlen für den Schutz der Privatsphäre mit λ1 = 3 und λ0 = 7 fest. Das heißt, dass wir dann wahrheitsgetreue Antworten erwarten können, wenn durch das Befragungsdesign gewährleistet ist, dass die Wahrscheinlichkeit für eine „ja“-Antwort (bzw. für eine „nein“-Antwort) bei tatsächlicher Zugehörigkeit zur Gruppe UA (UAc) höchstens das 3-fache (7-fache) der Wahrscheinlichkeit desselben Ereignisses bei Zugehörigkeit zu UAc (UA) ist. Aus der Lösung der Effizienzgleichungen in Quatember (2008) lassen sich beispielsweise die in Tabelle 1 angegebenen Befragungsdesigns errechnen, die bei der angegebenen Wahl der Designparameter alle die gleiche varianzminimale Performance liefern. Tabelle 1: Beispiele für die varianzoptimale Wahl der Designparameter p1
p2
0,7 0,6 0,6 0,65 0,65 0,6 0,65
0,1 0 0 0,05 0,05 0 0,05
p3 0 2/15 0 1/15 0 0,1 0,04
p4 0,2 4/15 0,3 7/30 0,25 0,275 0,24
p5
πB
0 0 0,1 0 0,05 0,025 0,02
– 0,25 – 0,25 – 0,25 0,25
Die Schwankungsbreite der Stichprobenergebnisse für all diese Befragungsdesigns liegt bei ± 10,2 (bei n = 250), ± 7,3 (bei n = 500) bzw. ± 5,1 Prozentpunkten (bei n = 1.000). Die direkte Befragung bietet keinerlei Schutz der Privatsphäre, was sich bei diesem heiklen Thema wohl in einer deutlichen Unterschätzung des Parameters πA manifestieren würde. Sie ist daher nicht zu gebrauchen. Warners Design schützt zwar die Privatsphäre der Befragten, aber die der Zugehörenden zu UA genauso stark wie die der Zugehörenden zu UAc. Da die Zugehörigkeit zu UAc in unserem Beispiel deutlich weniger sensitiv ist, wird dieser übertriebene Schutz durch einen Genauigkeitsverlust bezahlt, der auch dieses Befragungsdesign nicht auf der Liste (in Tabelle 1) der optimalen Designs aufscheinen lässt. Jene optimalen Designs, die die Frage nach UB nicht beinhalten, benötigen die Untergruppe UB nicht, was durch einen Strich in der letzten Spalte von Tabelle 1 verdeutlicht wird. Um eine möglichst geringe Varianz zu erzielen, muss unter Einhaltung der Bedingungen in Hinblick auf die Privatsphäre mit der größtmöglichen 509
Andreas Quatember
Wahrscheinlichkeit p1 die eigentlich interessierende Frage nach der Zugehörigkeit zu UA gestellt werden. Da die heikleren „ja“-Antworten stärker als die nicht so heiklen „nein“-Antworten zu schützen sind, wird die Instruktion „ja“ zu antworten mit der nächst größeren Wahrscheinlichkeit versehen. Bei gleich bleibendem λ1 und sich weiter vergrößerndem λ0 (Zugehörigkeit zu UAc wird weniger heikel) ergeben sich für die in der ersten Zeile von Tabelle 1 dargestellte Strategie die in Tabelle 2 enthaltenen Design-Parameter mit der höchsten Genauigkeit: Tabelle 2: Beispiele für die varianzoptimale Wahl der Designparameter der ersten Strategie aus Tabelle 1 bei wachsendem 0 und 1 = 3 λ0
p1
p2
p4
7
0,7
0,1
0,2
17
0,68
0,04
0,28
27
0,675
0,025
0,3
∞
2/3
0
1/3
Da die möglichen „nein“-Antworten immer weniger zu schützen sind, nehmen die Summen für p1 und p4 zu. Im Extremfall einer nicht heiklen Zugehörigkeit zur Gruppe UAc ist diese Summe 1 und es ergibt sich ein Befragungsdesign, das nur mehr aus der Frage nach Zugehörigkeit zur Gruppe UA („Gewalt angetan“) und der Instruktion „ja“ zu antworten besteht. In diesem Fall ist es nämlich nicht mehr notwendig, auch die „nein“-Antwort zu schützen. Welches der objektiv gleich effektiven Befragungsdesigns schließlich tatsächlich verwendet wird, ob ein einfacheres wie das erste in Tabelle 1 mit den Alternativen der Fragen nach UA und UAc bzw. der Instruktion „ja“ zu antworten oder ein komplexeres wie das letzte, das alle 5 Frage- bzw. Instruktionsmöglichkeiten umfasst, liegt im subjektiven Ermessen des Anwenders.
5 Zusammenfassung und Ausblick Randomisierte Antworttechniken sind der Beitrag der Statistik zur Senkung der Nonresponse- bzw. Falschantwortraten bei Stichprobenerhebungen zu heiklen Themen. Bei kluger Durchführung lässt sich der Genauigkeitsverlust gegenüber direkter Befragung in Grenzen halten. Dieser ist tatsächlich nur 510
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten
ein scheinbarer, da die direkte Befragung durch die Angst der Befragungsperson vor einem unangenehmen, Konsequenzen nach sich ziehenden Outing gegenüber einem Interviewer verzerrte Schätzer liefert. Die in diesem Aufsatz besprochene Standardisierung solcher Techniken bietet dem Anwender/der Anwenderin dieser Befragungsdesigns die Möglichkeit, aus objektiv messbar gleichwertigen Methoden die subjektiv auf die Erhebung passende Alternative auszuwählen. Dieses Verfahren lässt sich mit den herkömmlichen Formeln sofort auf geschichtete Zufallsstichproben und andere Stichprobenverfahren umlegen (siehe zu Stichprobenverfahren etwa: Särndal et al. 1992). In der praktischen Anwendung wird natürlich entgegen unseren Annahmen die Nonresponse- bzw. Falschantwortrate nicht unter ein unabhängig von der Sensitivität der Thematik jedenfalls auftretendes Mindestniveau gesenkt werden können. Je nach Größe dieser Rate kann darauf unterschiedlich reagiert werden: Ist sie vernachlässigbar klein (d. h. nur einige wenige Prozent), so darf sie genauso ignoriert werden wie in dem Fall, dass zwischen der Antwortbereitschaft und dem Untersuchungsgegenstand kein statistischer Zusammenhang besteht. Übersteigt der Nonresponse ein tolerierbares Ausmaß bzw. besteht offensichtlich ein Zusammenhang zwischen der Antwortbereitschaft und der Thematik der Befragung, dann sollten die eingangs erwähnten Methoden der Gewichtungsanpassung bzw. Imputation in Hinblick auf vernünftige Parameterschätzungen in die Schätzphase der Erhebung mit eingebaut werden. Die dann entstehende Problematik der Schätzung der Genauigkeit der Stichprobenergebnisse führt zum Beispiel zur Betrachtung von Replikationsmethoden wie das Bootstrap- oder das Jackknifeverfahren oder zur Multiplen Imputation (vgl. etwa: Groves et al. 2002, 289–328; Little & Rubin 2002, 75–96).
6 Anerkennung Der Autor möchte sich sowohl bei den beiden Gutachtern für ihre interessanten Vorschläge und Hinweise anerkennend bedanken als auch bei den Organisatoren der Tagung „Grenzen und Herausforderungen der Umfrageforschung“ für die Möglichkeit, seine Forschungsergebnisse zu präsentieren.
511
Andreas Quatember
Literatur Fisher, M., & Kupferman, L. B., & Lesser, M. (1992). Substance Use in a School-Based Clinic Population: Use of the Randomized Response Technique to Estimate Prevalence. Journal of Adolescent Health, 13, 281–285. Goodstadt, M. S., & Gruson, V. (1975). The Randomized Response Technique: A Test on Drug Use. Journal of the American Statistical Association, 70(352), 814–818. Groves, R. M., & Dillman, D. A., & Eltinge, J. L., & Little, R. J. A., (Eds.) (2002). Survey Nonresponse. New York: Wiley & Sons. Gupta, S., & Gupta, B., & Singh, S. (2002). Estimation of sensitivity level of personal interview survey questions. Journal of Statistical Planning and Inference, 100, 39–247. Kim, J.-M., & Elam, M. E. (2005). A two-stage stratified Warner’s randomized response model using optimal allocation. Metrika, 61, 1–6. Kim, J.-I., & Flueck, J. A. (1978). Modifications of the randomized response technique for sampling without replacement. Proceedings of the Section on Survey Research Methods of the American Statistical Association, 346–350. Lara, D., & Strickler, J., & Olavarrieta, C. D., & Ellertson, C. (2004). Measuring Induced Abortion in Mexico. Sociological Methods & Research, 32(4), 529–558. Leysieffer, F. W., & Warner, S. L. (1976). Respondent Jeopardy and Optimal Designs in Randomized Response Models. Journal of the American Statistical Association, 71(355), 649–656. Little, R. J. A., & Rubin, D. B. (2002). Statistical analysis with missing data (2. Auflage). New York: Wiley & Sons. Mangat, N. S., & Singh, R. (1990). An alternative randomized response procedure. Biometrika 77(2), 439–442. Quatember, A. (2007). A standardized technique of randomized response. IFAS Research Paper Series 2007(28). Abgerufen am 22.10.2008, Website: http://www.ifas.jku.at/ e2550/e2756/index_ger.html. Quatember, A. (2008). A Recommended Practice Manual for the Standardized Randomized Response Strategy. IFAS Research Paper Series 2007(31). Abgerufen am 22.10.2008 , Website: http://www.ifas.jku.at/e2550/e2756/index_ger.html. Särndal, C.-E., & Swensson, B., & Wretman, W. (1992). Model Assisted Survey Sampling. New York: Springer. Tezcan, S., & Omran, A. R. (1981). Prevalence and Reporting of Induced Abortion in Turkey. Studies in Family Planning, 12, 262–271. Tracy, D. S., & Mangat, N. S. (1996). Some Developments in Randomized Response Sampling during the Last Decade – A Follow Up of Review by Chaudhuri and Mukherjee. Journal of Applied Statistical Science, 4(2/3), 147–158. Warner, S. L. (1965). Randomized response: A survey technique for eliminating evasive answer bias. Journal of the American Statistical Association, 60, 63–69.
512
7 Methodologische Grundfragen
Reinhard Bachleitner, Wolfgang Aschauer
Reinhard Bachleitner, Wolfgang Aschauer
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung Zusammenfassung Raum, Zeit und Befindlichkeit gestalten die Befragungssituation und können das Antwortverhalten massiv beeinflussen. Orte der Befragung wirken als Filter im Sinn einer Auswahl von Befragten und erzeugen Befindlichkeiten, da Befragungsorte Atmosphären vermitteln. Zusätzlich beeinflussen sowohl der Zeitpunkt (günstig vs. ungünstig) als auch der Zeitraum der Untersuchung die Urteile je nach dem Stimmungs- und Meinungsbild der Befragten. Um eine erste empirische Prüfung dieser Annahmen zu gewährleisten, wurde ein experimentelles Untersuchungsdesign mit Studierenden entwickelt und angewendet. Sowohl in der hier vorgestellten Studie als auch in weiteren Erhebungen konnten signifikante situationsspezifische Einflüsse auf die Antwortwahl identifiziert werden. Die erhaltenen und teilweise mit beachtlichen Effekten ausgestatteten Antwortentscheidungen stützen das vorgestellte Modell der „Situationsspezifität der Befragung“. Diese Erkenntnisse über den Einfluss von Raum, Zeit und Befindlichkeit sollen sowohl bei der Planung und Durchführung einer Umfrage als auch bei der Auswertung der Daten Berücksichtigung finden.
Abstract Space, Time and Mood and Their Role in Specific Situations of Survey Research Space, time and mood play a role in structuring a questioning situation and may strongly influence the response behaviour. Physical spaces serve as a filter for selecting samples of respondents and influence their mood due to specific atmospheres. Furthermore, the scheduling of questioning (perceived as favourable vs. unfavourable) and the time period of the survey exercise an effect on the mood and the patterning of opinions of the respondents. We developed and conducted an experimental survey with students to empirically evaluate these primary assumptions. Significant situation specific influences could be identified in this study as well as in other surveys. The considerable effects on the decisions of the respondents confirm the predicted model of “situation specificity” in surveys. These findings about the influence of space, time and mood conditions should be taken into account with regard to the conception of survey designs, the procedures during fieldwork, and data analysis.
515
Reinhard Bachleitner, Wolfgang Aschauer
1 Einleitung Innerhalb der Umfrageforschung werden die „Situationsspezifität“ von Befragungen und ihr Einfluss auf die Antwortentscheidungen nach wie vor eher marginal behandelt.1 Sie soll daher im Mittelpunkt des Beitrags stehen, der insgesamt der Artefaktforschung („Bias-Forschung“) zuzuordnen ist. Betrachten wir einleitend – in der hier gebotenen Kürze – den Stand der Artefaktforschung, die heute auf eine über 80-jährige Tradition zurückblicken kann (vgl. zur historischen Entwicklung Hilgers 1997, 22–68), so zeigen die einzelnen Forschungsbereiche einen unterschiedlichen Entwicklungsstand: Während die klassische Bias-Forschung eher stagniert, nehmen die Analysen zu Methodenvergleichen – bedingt durch den Technologieschub – stark zu. Der Forschungsstand der Bias-Forschung, der in einen internen und externen Artefaktkreis differenziert werden kann (vgl. Hilgers 1997), kann folgendermaßen charakterisiert werden: • Die umfassenden Befunde zum Einfluss und zum Nachweis von Artefakten (Artefaktquellen) zeigen wenig Einheitlichkeit sowie auffallende Widersprüchlichkeiten.2 • Diese Widersprüchlichkeiten werden vor allem mit den unterschiedlichen Operationalisierungen innerhalb der Prüfungsverfahren und einem uneinheitlichen Set von Determinationsvariablen im Untersuchungsdesign begründet.3 • Die heterogene Ansammlung von Einflussgrößen sowie die unterschiedliche Etikettierung der Determinanten werden auf eine nur schwach ausgearbeitete „Theorie der Befragung“ zurückgeführt. Welche Schlussfolgerungen und weiterführenden Überlegungen lassen sich aus dieser Kurzdiagnose ziehen? Die uneinheitlichen Befunde innerhalb der Artefaktforschung könnten auch darauf hinweisen, dass ein dahinter stehender (weiterer) „Mechanismus“ existiert, der das Verhalten der Befragten beeinflusst. Dieser „unbekannte“ Faktor ist trivialerweise nicht im Bereich der analysierten UVs angesiedelt, die ja ohnedies immer weiter ausdifferenziert und ergänzt werden. Vielmehr dürfte – so unsere These – die übergeordnete Artefaktquelle im Bereich der Befragungssituation, und zwar konfundiert mit dem Frageinhalt zu finden sein. Dabei wirkt nicht der jeweilige Inhalt der Frage an sich, sondern die Relation von Inhalt und Befragtem, die durch die Zentralität (Bedeutung der Frage für den Befragten) gemessen werden kann. 516
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Auf der Suche nach anderen Determinationsgrößen vermuten wir aufgrund zahlreicher empirischer Analysen (vgl. Bachleitner & Weichbold 2007; Bachleitner & Aschauer 2008) diese auf einer übergeordneten Ebene mit Raum, Zeit und Befindlichkeit identifizieren zu können.
2 Zielvorstellung Die Zielsetzungen des Beitrags sind nun mehrdimensional: Es soll ein Analyseraster präsentiert werden, das nicht auf die Analyse soziodemographischer und sozioökonomischer Einflüsse auf die Antwortwahl abzielt („Jagd nach UVs“), sondern auf der Situationsebene mögliche Einflüsse für die getroffene Antwortentscheidung erfasst. Zusätzlich sollen Wege aufgezeigt werden, wie die Determinanten der Befragungssituation für die Praxis der Umfrageforschung operationalisiert werden können, um diese in die Auswertungsstrategie mit einbeziehen zu können. Die Situationsspezifität setzt sich nach unserem Verständnis aus Raum-, Zeit- und Befindlichkeitsdeterminanten (R-Z-B-Einflüssen) zusammen, die in den Frame-Selection Ansatz (Esser 2006) einfließen könnten. Es soll also eine Integration der Bias-Forschung (hier der R-Z-B-Determinationen) in die Frame-Selection-Theorie erfolgen, um zumindest in ersten Konturen eine Theorie der Befragung zu skizzieren. Auf Basis dieser theoretischen Überlegungen und der empirischen Analysen wurden einzelne Hypothesen entwickelt, wie R-Z-B-Determinanten auf das Antwortverhalten wirken. Der empirische Abschnitt des Beitrags stellt einzelne Beispiele vor, die für die Entwicklung der Hypothesen maßgeblich waren. Zusätzlich werden die Ergebnisse eines Experiments vorgestellt, die eine erste Prüfung der Thesen erlauben und wichtige Hinweise zur weiteren Erforschung der R-Z-B-Determinanten liefern.
3 Die Effekte von Raum, Zeit und Befindlichkeit im Umfrageprozess Bevor wir auf diese Zielsetzungen eingehen, soll die Frage thematisiert werden, warum gerade Raum, Zeit und Befindlichkeit als Einflussdeterminanten ausgewählt wurden, existieren doch im Bereich der kognitiven Einflüsse auf das Antwortverhalten eine Vielzahl von bereits identifizierten und analysierten Artefaktquellen (vgl. z. B. Esser 1975, 1982; Kriz 1981; Hilgers 1997; 517
Reinhard Bachleitner, Wolfgang Aschauer
Reuband 1998; Atteslander et al. 2006; Sudman et al. 1996; Bungard & Lück & Miller 2005). Der Auswahl von „Raum“, „Zeit“ und „Befindlichkeit“ als Determinationsgrößen im Befragungsprozess liegen nun mehrere Überlegungen zugrunde. • Einmal das Faktum, dass sich jede Handlung – wenngleich dies trivial sein mag – in einem räumlichen und zeitlichen Kontext vollzieht, und zwar unter Beteiligung von Emotionen, wie hier der unmittelbaren situativen Befindlichkeit. • Zum zweiten ist aus der sozialpsychologisch-experimentellen Literatur bekannt, dass gerade Raum-, Zeit- und situative Befindlichkeitszustände (momentane Gefühlszustände, Stimmungen etc.) sich deutlich auf das Verhalten aus- und auf dieses auch einwirken. So zeigt sich etwa, dass bei verschiedenen Tests die Artefaktquellen nicht nur in den Messgeräten (z. B. elektrische Störfelder etc.) liegen können, sondern auch in situativen und personalen/motivationalen Bedingungsfaktoren zu verorten sind. Die für unsere Problemstellung relevanten experimentellen Ergebnisse zeigen, dass vor allem Raumparameter wie Raumhelligkeit, Geräuschpegel, Temperatur etc., aber auch die momentanen Stimmungslagen relevant werden können (vgl. insbesondere Eid 1995 sowie Schwarz & Cloore 2003). • Drittens waren es auch die eher inhaltsleeren Erklärungsansätze zum Befragtenverhalten, die sich alle auf eine abstrakte Modellebene beziehen und wenig Relevanz für unmittelbare Umsetzbarkeit bzw. Verwertbarkeit im Rahmen der Umfragen anbieten. So meinte auch Esser (1990, 232) schon: „Unbefriedigend ist bei all diesen Erklärungsversuchen geblieben, dass es sich um nicht viel mehr als um mehr oder weniger vage Orientierungshypothesen handelt, bei denen die gesamten Variablen, Funktionen und Parameter auch nicht ansatzweise bekannt sind oder auch nur benannt worden wären.“ Bedauerlicherweise nennt auch er im weiteren Verlauf keine konkreten Variablen, die den Prozess der Handlungswahl bei Befragungen determinieren; er benennt und beschreibt lediglich die möglichen Prozesse: Kognition der Situation, Evaluation der Handlungsfolgen sowie die Selektion einer bestimmten Handlung. Was aber konkret in Rahmen von Kognition, Evaluation und Selektion, und zwar inhaltlich vom Befragten ver- und bearbeitet wird und welche Umsetzungsvarianten sich für Umfragen daraus ergeben, bleibt im Allgemeinen und Abstrakten stehen. Das heißt nun insgesamt: Gezeigtes Befragungsverhalten, insbesondere das Antwortverhalten ist nicht transsituational konsistent und temporal stabil, sondern eher situational bedingt und zeitinstabil. Vor allem die drei überge518
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
ordneten Faktoren „Raum – Zeit – Befindlichkeit“, die in sich weiter ausdifferenziert werden können, gestalten die Befragungssituation entscheidend mit. Wenn wir uns auf Basis dieser Einflussgrößen einer Theorie der Befragung annähern, so müssen im Kontext der Situationsspezifität einzelne aufeinander bezogene Schritte als zusammenhängender Prozess aufgefasst werden. Wir differenzieren hier zwischen drei Phasen der Befragung: dem Selektionsprozess, dem Reaktionsprozess und dem abschließenden Aggregationsprozess. In allen Phasen spielen Raum, Zeit und Befindlichkeitsaspekte eine entscheidende – wenngleich unterschiedlich wirksam werdende – Rolle.4 Die folgende Matrix gibt einen Überblick, welche Effekte auftreten können: Abbildung 1: Analyseraster zu den Determinanten Raum, Zeit und Befindlichkeit Dimensionen Raum
Zeit
Befindlichkeit
Selektionsebene
Datengewinnung an unterschiedlichen Befragungsorten (z. B. private Orte vs. öffentliche Orte)
Erhebungsphase über einen längeren Befragungszeitraum
Auswahl von Befragungsorten, die mit unterschiedlichen Emotionen/ Befindlichkeiten verbunden sind (z.B. Warteorte, Trauerorte, Erlebnisorte)
Reaktionsebene
Effekte durch die identitäts- und meinungsbildende Wirkung des Raumes
Effekte auf die Antwortvergabe durch externe Ereignisse während des Erhebungszeitraums
Effekte der Befindlichkeit auf das Urteil des Befragten je nach Frageinhalt
Forderungen innerhalb der Interpretations-/Aggregationsebene
Berücksichtigungen von Effekten durch Befragungsort, verstärkte raumbezogene Interpretation der Daten
Berücksichtigung von Effekten durch Befragungszeitpunkt/ Erhebungszeitraum
Berücksichtigung der Effekte der Befindlichkeit auf die Antwortvergabe sowie der Zentralität des Frageinhalts für den Befragten
Mögliche Einflüsse von Raum, Zeit und Befindlichkeit sind durch Beispiele illustriert, die Erforschung der Effekte steht jedoch erst am Anfang. Zusätzlich werden Forderungen innerhalb der Interpretations- und Aggregations519
Reinhard Bachleitner, Wolfgang Aschauer
ebene von Befragungsdaten formuliert, die in der künftigen Artefaktforschung berücksichtigt werden sollten. Bevor empirisch auf diese Effekte eingegangen wird, sollen die drei Einflussfaktoren für die Umfrageforschung kurz dargestellt werden.
3.1 Raum: Begriff, Konzepte und Funktionen und die Relevanz bei Umfragen Raum als komplexer Begriff (Region, Ort, Stelle) und als mehrdimensionales Konzept (absolut vs. relational) besitzt in den aktuellen sozialwissenschaftlichen Diskursen verstärkt Konjunktur. Die „Raumvergessenheit“ gehört der Vergangenheit an, und die ehemals anzutreffende „Raumblindheit“ – vor allem im Kontext von Theoriebildungen – führt derzeit in der Soziologie zu einer Gegenbewegung, nämlich zu einer Etablierung einer „Soziologie des Raums“ (z. B. Schroer 2006; Döring 2008). Diese Relevanz von Raum hat nun mehrfache Bedeutung innerhalb von Umfragen, vollzieht sich doch jede Befragung a) im Raum (= „Befragungsort“), b) können Fragen raumbezogene Inhalte aufweisen (= „raumbezogenes Wissen“) c) besitzen Befragte eine raumbezogene Identität (= „räumliche/regionale/ kulturelle Identität“), es besteht eine raumspezifische Zuordnungsrelevanz für die Befragten. Betrachten wir hier nur die Einflussmöglichkeiten des Befragungsortes auf die Antwortwahl näher. Ad a) Befragungsorte können in einem ersten Differenzierungsansatz folgendermaßen typisiert werden: • „private Orte“ (z. B. Haushaltsbefragungen, telefonische Befragungen über Festnetz oder Mobilnetz, privater Internetanschluss etc.) • „öffentliche Orte“ (Samplingpoints können etwa Warteorte wie Airport und Bahnhof; Konsumorte, Ereignisorte wie Museen, Messen etc., Trauerorte u. ä. sein) • „berufsbezogene Orte“ (Arbeitsplatz, Schule, Universität oder berufsbezogene Veranstaltungsorte wie Kongresse etc.) Jeder dieser Orte hat seine spezifischen Merkmale bzw. Besonderheiten, seien es z. B. Rhythmen, Dichte und Leere, assoziierte Stimmungen etc. Das heißt, wir haben je nach Ort und konfundiert mit Zeit und eingesetzter Befragungsmethode unterschiedliche Effekte auf die Wahrnehmung der Befragungssituation. 520
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Analog gehen raumrelevante Determinanten auch in die Stichprobe ein oder zeigen sich über die raumbezogenen Inhalte und werden letztlich in der raumbezogenen Auswertung der Daten (Aggregation) relevant.
3.2 Zeit: Begriff, Konzept, Funktion und Relevanz in der Umfrageforschung Zeit als abstrakter Begriff und grundlegende Kategorie sozialen Handelns hat unterschiedlichste Inhalte und höchst subjektive Konnotationen: Individuelle Zeitstrukturen, subjektives Zeitempfinden und Zeitbewusstsein sowie die kulturrelevanten Dimensionen von Zeit sind dabei entscheidend für den Umgang mit Zeit und letztlich der Zeitwahrnehmung (vgl. Baur 2005). Befragungsabläufe und Befragungshandlungen unterliegen nun wie alle Handlungen in mehrfacher Hinsicht dem Faktor Zeit (z. B. Revers 1995). Im Konkreten sind dies: a) der Zeitpunkt der Befragung, b) die Zeitdauer, die die Befragung in Anspruch nimmt, sowie c) der Zeitrahmen, über welchen sich die gesamte Umfrage erstreckt. ad a) Der gewählte Zeitpunkt der Befragung kann sich nun aus Sicht der Befragten als günstig/ungünstig erweisen und erzeugt dabei entsprechende Emotionen. ad b) Die Zeitdauer der Befragung, also die Länge des Interviews bzw. Fragebogens, ist ebenfalls eine entscheidende Variable für die Teilnahmemotivation, Abbruchsraten, Verweigerungen (Item-non-response) etc. ad c) Der gewählte Zeitrahmen, in welchem die Befragung abläuft, ist insofern von Bedeutung, als innerhalb dieses Zeitrahmens Ereignisse, Vorkommnisse, politische Entscheidungen etc. stattgefunden haben können, die vor oder auch nach der Befragung eingetreten sind und somit die abgefragten Meinungen und Bewertungen deutlich beeinflussen können. Je kürzer der gewählte Befragungszeitrahmen, desto konsistenter fällt der Bedingungsrahmen für die Meinungsbildung aus.
3.3 Befindlichkeit: Begriff, Struktur, Funktion, Relevanz in der Umfrageforschung Mit dem „emotional turn“ (vgl. z. B. Schützeichel 2006) sind Emotionen auch für die Soziologie relevant geworden. Bisher eher nur marginal und kaum in ihren Bedeutungen für Handlungen analysiert, ist heute die emotionale Vergesellschaftung der Individuen von zentraler Bedeutung geworden. 521
Reinhard Bachleitner, Wolfgang Aschauer
Handlungstheorien erleben den „emotional turn“, und Emotionen finden sich heute gemeinsam mit Kriterien der „Rationalität“ (Wohlbegründetheit) in den Erklärungsmodellen vertreten, wenngleich bereits in der Weber’schen Typologie der Handlungsorientierungen Emotionen (Affekte) verankert und thematisiert sind.5 Emotionen, Affekte, Stimmungen, Befindlichkeit sind nuancierte begriffliche Abstufungen von Gefühlen, die all unsere Handlungen begleiten, wenngleich nicht jede Emotion zu einer Handlung führt. Hingegen ist jede durchgeführte Handlung mit Emotion verbunden, die dann als Resultat dieser Handlung gilt (vgl. Mees 2006, 112). Emotionen sind innere Dispositionen, die Handlungsdispositionen bedingen und evaluativen Charakter haben (positiv/negativ; stark/schwach) (vgl. z. B. Schnabel 2005, 182). Im Wesentlichen werden zwei Wege der Emotionsentstehung unterschieden: • Die aktuelle Einschätzung von Ereignissen, Personen, Objekten, Situationen führt zur Bildung von emotionalen Zuständen bei bewertenden Personen. • Die Wiederherstellung von emotionalen Ereignissen, die bereits erlebt worden sind („wiederhergestellte Emotionen“), die kognitiv vermittelt werden. Bezogen auf die Antworthandlung bedeutet dies in einem ersten Zugang: Die aktuelle Befindlichkeit des Befragten ist das anteilsmäßige Resultat aus einem subjektiven Bewertungsvorgang von mehreren situativen und ineinander verwobenen Komponenten, die auch als „Intensitätsindikatoren“ für die Entstehung und Veränderung der „mitgebrachten“ Befindlichkeit gelten können. Ein entscheidender Unterschied zwischen Stimmungen und Emotionen ist darin zu sehen, dass Stimmungen nicht objektspezifisch sind, sondern eher diffus. Für uns wesentlich ist auch noch die Differenz von Stimmung und Befindlichkeit. Befindlichkeiten schließen auch noch Körpergefühle (Wohl-/Missbefinden) mit ein. Stimmungen beeinflussen nun gemeinsam mit Körperzuständen und situativen Empfindungen den aktuellen emotionalen Zustand, den wir hier als „Befindlichkeit“ bezeichnen und der im Mittelpunkt unseres Interesses steht. Diese Befindlichkeit beeinflusst – so unsere Annahme – die nachfolgenden Urteile (vgl. dazu auch Schwarz & Clore 2003, „Stimmung-als-Information-Hypothese“). abb02 Zusammenfassend gilt: Die unspezifische „Stimmung“ wird ergänzt durch situative Emotionen, bestehend aus Stimmung, Körpergefühlen und Empfindungen und bildet daraus die individuelle aktuelle „Befindlichkeit“. 522
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Abbildung 2: Kategorisierung von Gefühlen Gefühle
affektive Gefühle
dispositional affektive Persönlichkeitseigenschaften wie z.B. Jähzorn
Empfindungen
aktuell affektive Gefühlszustände
Stimmungen
nicht-affektive Gefühle
dispositional nicht-affektive Fähigkeiten („Ballgefühl“) und Charaktereigenschaften („Pflichtgefühl“)
aktuell nicht-affektive Eindrücke bzw. Unsicheres Wissen: Gefühl der Gewissheit oder Vertrautheit
Körpergefühle
„Befindlichkeit“
Quelle: Mees 2006, 106 und eigene Ergänzungen
4 Zur Situationsspezifität der Befragung (Befragungsverhalten) Die „Situationsspezifität“ von Handlungen bzw. die „Definition der Situation“ ist ein durchgehendes und zentrales Konzept der verschiedenen Rational-Choice-Ansätze (vgl. z. B. Esser 1996; Stachura 2006). Im Kontext des Befragungsverhaltens hat sich insbesondere der SEU-Ansatz (d. h. die utilitaristische Werterwartungstheorie) durchgesetzt, wobei es hier vor allem um die Erklärung von Antworttendenzen der Befragten im Zusammenhang mit Prozessen „Sozialer Erwünschtheit“ geht (vgl. z. B. Esser 1990, 2001; Braun 2006). 523
Reinhard Bachleitner, Wolfgang Aschauer
Der Prozess der Handlungswahl (Antwortwahl) wird dabei aus drei Komponenten rekonstruiert, die Braun in Anlehnung an Essers Dreiteilung in Kognition/Evaluation/Selektion näher konkretisiert (vgl. Braun 2006, 7): • „Der Wahrnehmung und Interpretation der Situation. • Der Evaluation der Handlungskonsequenzen. • Der Selektion derjenigen Handlungsalternative, die eine Maximierung des subjektiv erwarteten Nettonutzens verspricht.“ Ausgehend von diesen Modellannahmen wird nun hier ein Ansatz zur „Situationsspezifität“ entwickelt, der diese einmal ergänzt und zum anderen mit konkreten Inhalten füllt. Der Entscheidungsprozess für die Antwortwahl innerhalb der „Situationsspezifität“ von Befragungen ist also ein mehrstufiger, in welchem die Befindlichkeit in allen drei Phasen eine entscheidende Rolle zukommt: • (A): Die Wahrnehmung und Interpretation der Raum-, Zeit- und Sozialparameter (soziale Umwelt) einschließlich der gewählten Befragungstechnik (Modi) erfolgt in Abhängigkeit von der individuellen Befindlichkeit. • (B): Die Bewertungen der Frage, also das Einordnen des Frageinhalts und themas sowie das Erinnern und Assoziieren mit existierenden Eigenerfahrungen (Selbstevaluierung) erfolgt wiederum in Abhängigkeit von individuellen Befindlichkeiten und verändert diese zugleich. • (C): Die Selektionsprozesse und die Entscheidung für eine Antwortkategorie (Antwortwahl) erfolgt ebenfalls in Abhängigkeit von der jeweiligen situativen und individuellen Befindlichkeit.6 abb03 Als theoretisches Integrationsmodell bietet sich das Modell der Frame-Selektion (= MdFS, eine aktuelle Weiterentwicklung der „Definition der Situation“) an, es geht von zwei Annahmen aus: „Erstens ist jedes Handeln von einer rahmenden Definition der Situation bestimmt, und zweitens kann es zu Unterschieden im Grad der rationalen Durchdringung kommen. (. . .). Die Reaktion in einer Situation besteht daher aus zwei simultan erfolgenden Selektionen: die Selektion eines gedanklichen Modells der Situation einerseits (hier A und B, d. V.) und die des Modus der Informationsverarbeitung bei der weiteren Selektion des Handelns andererseits (hier C, d. V.). Die gedanklichen Modelle sind die Frames, unter denen die Akteure die Situation definiert sehen.“ (Esser 2006, 147 f.).7 Bezogen auf die Situation der Befragung bedeutet dies zusammenfassend nochmals: Befragte definieren die „Situation der Befragung“ und bilden einen „Befragungs-Frame“ (Modell der Situation nach Raum-, Zeit-, Sozial- und Modiaspekten); zugleich verorten sie Fragethema und Frageinhalt in diesem 524
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Abbildung 3: Modell der Situationsspezifität der Befragung
I. Raum
Zeit
Frageinhalt
II.
Befindlichkeit
III.
Situationsspezifität / Framing
(Kognition) Antwortwahl
Frame aufgrund der subjektiven Zentralität unterschiedlich und entscheiden sich schließlich für die subjektiv „wahre“ (= insgesamt situativ determinierte) Antwort. Jeder dieser „Framingschritte“ vollzieht sich unter Beteiligung der affektuellen Aspekte, da eine außeralltägliche Situation vorliegt, in welcher die aktuelle Befindlichkeit des Befragten zum Tragen kommt (vgl. dazu das affektuelle Handeln und Emotionen bei Esser 2006).
5 Zur empirischen Überprüfung der einzelnen Annahmen 5.1 Hypothesenentwicklung zum Einfluss der Situationsspezifität Basierend auf den theoretischen Überlegungen zum Einfluss von Raum, Zeit und Befindlichkeit auf das Befragtenverhalten führten wir eine sekundäranalytische Auswertung bestehender Umfragedaten durch, wo Raum-, Zeitund Befindlichkeitsparameter integriert wurden. Die Ergebnisse zeigen klar, dass der Einfluss zeitlicher (z. B. Wahrnehmung des Befragungszeitpunkts) 525
Reinhard Bachleitner, Wolfgang Aschauer
und räumlicher Indikatoren eher gering bleibt, während die Befindlichkeit des Befragten einen deutlicheren Effekt auf die Antwortvergabe ausübt.8 Zusätzlich zeigen erste Ergebnisse (vgl. Bachleitner & Weichbold 2007) eine Verbindung zwischen dem Bedeutungsgehalt der Fragen und des Befindlichkeitseffekts auf. Je höher der Bedeutungsgehalt der Frage, desto stärker ist der Effekt der Befindlichkeit als Einflussvariable. Eine hohe Ausprägung der „Zentralität“ bedeutet tendenziell einen hohen Grad an Auseinandersetzung mit dem Gegenstand, sodass die subjektiven Überzeugungen durch die Befindlichkeit weiter „überhöht“ werden können. Bei geringer Zentralität kann geringeres Wissen aufgrund meist allgemeiner Fragestellungen angenommen werden; dies führt zu persönlicher Distanzierung in den Antwortreaktionen und somit zu schwächeren Effekten. Eine Evaluationsstudie mit PatientInnen des Unfallkrankenhauses in Salzburg demonstrierte des Weiteren, dass die Befindlichkeit vor allem auf Bewertungsfragen (z. B. Prozess- und Effektdaten der Behandlung) einen Einfluss ausübt, während bei Faktenfragen (Strukturdaten, z. B. Nutzung des Buffets, Lesbarkeit der Patienteninformation) nur geringe Effekte auftreten. Auf Basis dieser ersten empirischen Erkenntnisse sollen nun einzelne Hypothesen formuliert und im Kontext eines experimentellen Untersuchungsdesigns geprüft werden. Die Forschungen konzentrieren sich dabei auf die Reaktionsebene und behandeln schwerpunktmäßig den Einfluss der Befindlichkeit auf die Antwortvergabe je nach Frageinhalt und verwenden das konstruierte Modell zur Situationsspezifität als Basis der Untersuchung. Aus den Erkenntnissen der Frame-Selection-Theorie, den Annahmen zur Situationsspezifität der Befragung sowie aus den ersten empirischen Erkenntnissen zur Thematik können drei Hypothesen abgeleitet werden: 1. Die Befindlichkeit zeigt bei der Antwortvergabe den stärksten Einfluss auf Bewertungsfragen. 2. Je höher die Zentralität des Frageinhalts, desto stärker beeinflusst die Befindlichkeit des Befragten das Antwortverhalten. 3. Die Situationsspezifität bei Umfragen ergibt sich aus interagierenden Einflüssen des Raums (Wahrnehmung des Befragungsorts), der Zeit (Wahrnehmung des Befragungszeitpunkts) und der Wahrnehmung der eigenen Befindlichkeit. Während die ersten beiden Hypothesen theoriegeleitet entwickelt und überprüft wurden, ist die dritte Hypothese stärker explorativ angelegt. Es wurden in der Studie verschiedene Raum- und Zeitparameter sowie Befindlichkeitsindikatoren integriert, um den Einfluss der unabhängigen Dimensionen untereinander zu messen und um Hinweise auf eine adäquate Operationalisierung der Determinanten zu erhalten. 526
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
5.2 Untersuchungsdesign und Operationalisierung Um die Hypothesen zur Situationsspezifität bei Befragungen zu prüfen, ist ein komplexes Untersuchungsdesign erforderlich. Es wurde eine Stichprobe von 160 Studierenden gewonnen, die von acht InterviewerInnen in der Aula der Universität angesprochen und zu einer Befragung motiviert wurden. Es handelte sich also nicht um eine repräsentative Stichprobe, sondern um eine willkürliche Auswahl („convenience sample“) Studierender der Geschichtwissenschaft, Politikwissenschaft und Kommunikationswissenschaft. In die Untersuchung wurden Raum-, Zeit- und Befindlichkeitsparameter einbezogen und auf unterschiedliche Weise gemessen: • Raumeinfluss: Hier konzentrierte sich die Studie auf den Einfluss verschiedener Befragungsorte auf das Meinungsbild der Befragten. Vor Beginn des Interviews mussten die UntersuchungsteilnehmerInnen eine Zahl zwischen 1 und 10 nennen und wurden mit Hilfe eines Zufallszahlengenerators einer von vier Bedingungen zugewiesen. Das Interview wurde entweder in einem lauten hektischen Befragungsort (Mensa) oder in einem ruhigen und angenehmen Setting (Sitzungsraum) schriftlich oder mündlich durchgeführt. Eine Skala mit fünf Items bezog sich auf die Befragungsatmosphäre, die in räumlicher und sozialer Hinsicht von den Studierenden beurteilt wurde. • Zeiteinfluss: Der Einfluss der Zeit spielte in unserem Experiment eine untergeordnete Rolle. Es wurde die Passfähigkeit des Befragungszeitpunkts durch einen Indikator (sehr ungünstig bis sehr günstig mit fünfstufiger Skalierung) abgefragt. Zusätzlich wurde der Zeitrahmen der Befragung (11.30–14.30) sowie die Erhebungsphase (zwei Wochen) konstant bzw. kurz gehalten, um Einflüsse der Chronobiologie sowie des Erhebungszeitraums kontrollieren zu können. • Die Befindlichkeit der Befragten wurde sowohl in einer Ein-Item Version (fünfstufige Smiley-Skala) als auch mit einer etablierten Skala (mehrdimensionaler Befindlichkeitsfragebogen MDBF von Steyer et al. 1997) abgefragt.9 Neben der Erhebung dieser unabhängigen Indikatoren wurden vier Skalen mit jeweils sechs Items als abhängige Variablen vorgegeben. Zusätzlich zu jeder inhaltlichen Einschätzung (fünfstufig) mussten die ProbandInnen auch eine fünfstufige Einschätzung der Zentralität des Frageinhalts (die Frage ist von geringer Bedeutung vs. von hoher Bedeutung für mich) vornehmen. Auch bei den als abhängig zu betrachtenden Einschätzungs- und Bewertungsfragen wurde auf theoretisch und empirisch fundierte Skalen zurückgegriffen, um stabile Indikatoren errechnen und auf valide Daten zurückgreifen zu können. 527
Reinhard Bachleitner, Wolfgang Aschauer
Bei jedem einzelnen Item sollte eine negative vs. positive Einschätzung möglich sein, und es wurde eine große Streuung der Zentralität des Frageinhalts angestrebt. Deswegen wurden Skalen ausgewählt, die mit einer voraussichtlich hohen Zentralität verbunden sind (z. B. körperliche und psychische Gesundheit) sowie auch Fragen, die für die Studierenden als wenig relevant eingestuft werden könnten (z. B. Zufriedenheit mit Behörden). Zusammenfassend wurden folgende vier Skalen mit jeweils sechs Items verwendet: • Zufriedenheit mit Behörden (Quelle: ZUMA-Informationssystem) • Zufriedenheit mit der österreichischen Gesellschaft (Quelle: European Social Survey) • Gekürzte und adaptierte Skala zur Kollegialität und Belastung bei Studierenden (Quelle: ZUMA-Informationssystem) • Skala zur körperlichen und psychischen Gesundheit (adaptiert aus dem Fragebogen zur Lebenszufriedenheit von Fahrenberg i. d. Aufl. 2000)
5.3 Prüfung der Hypothesen zum Einfluss der Situationsspezifität In der Erläuterung der Ergebnisse des Experiments beschränkt sich die Analyse auf eine Prüfung der drei entwickelten Hypothesen.
Hypothese 1: Die Befindlichkeit zeigt bei der Antwortvergabe den stärksten Einfluss auf Bewertungsfragen. Um diese Hypothese zu prüfen, wurde eine Korrelationsmatrix erstellt, wobei die jeweiligen Raum-, Zeit- und Befindlichkeitsindikatoren als unabhängige Variablen und die einzelnen Skalen als abhängige Variablen10 zu sehen sind. Sämtliche unabhängigen Indikatoren wurden dichotomisiert und der Rangkorrelationskoeffizient Spearman’s Rho zur Berechnung der Zusammenhänge herangezogen. In der Tabelle zeigen die Ergebnisse der ersten Zeile klassische Effekte der sozialen Erwünschtheit auf. Bei mündlichen Interviews wird eine höhere Zufriedenheit mit den Studienkollegen angegeben, und zusätzlich äußern sich die Befragten zufriedener mit der eigenen Gesundheit. Auch bei Indikatoren des Befragungsorts und der Atmosphäre treten vereinzelt signifikante Zusammenhänge auf. Im Kontext einer ruhigen Umgebung (Sitzungssaal) wird eine höhere Zufriedenheit mit Behörden angegeben. Wird die Befragungsatmosphäre in sozialer Hinsicht positiv wahrgenommen, erhöht dies die Zufriedenheit mit der eigenen Gesundheit, wobei hier die ak528
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Tabelle 1: Der Einfluss unabhängiger Variablen auf die Skalenwerte Zufrieden- Autonomie Zufrieden- Zufrieden- Studienheit mit gegenüber heit mit heit mit belastung Behörden Behörden Gesundheit Kollegen Befragungsmodus
0,075
–0,006
0,184*
Befragungsort
0,133+
–0,089
0,030
Atmosphäre in sozialer Hinsicht
0,069
0,013
räumlich: attraktiv, gemütlich
0,080
0,131
räumlich: ruhig, leise
0,096
–0,201*
Zeitpunkt Befindlichkeit
–0,002 0,209**
–0,010 0,035
0,061
0,135
–0,067
–0,042
0,106
0,161*
0,104
–0,016
–0,024
0,044
0,157*
0,032
–0,052
–0,017
0,062
–0,021
0,160*
Zufriedenheit mit österr. Gesellschaft
–0,050
0,054
0,103
0,247**
0,204*
0,092
0,107
–0,039
–0,037
+ Die Korrelation ist nicht signifikant, zeigt jedoch einen Trend auf (p < 0,1) * Die Korrelation ist auf dem 0,05 Niveau signifikant (zweiseitig). ** Die Korrelation ist auf dem 0,01 Niveau signifikant (zweiseitig).
tuelle Befindlichkeit mit der Beurteilung der Atmosphäre in Interaktion treten könnte. Bei einer wahrgenommenen hektischen Befragungsatmosphäre wird zusätzlich eine größere Autonomie gegenüber den Behörden verspürt. Jene Personen, die sich in der Befragungssituation gestört fühlen, verspüren somit einen stärkeren Drang, sich gegen Entscheidungen der Behörden zu wehren. Dieses signifikante Ergebnis könnte auch auf stabile Dispositionen der UntersuchungsteilnehmerInnen (mangelnde Frustrationstoleranz in der Befragungssituation und bei Behörden) zurückzuführen sein. Insgesamt zeigt sich bei den einzelnen Bewertungsskalen eine eindeutige Bestätigung der Hypothese. Während räumliche Indikatoren nur bei jeweils einem Skalenwert Unterschiede bewirken und durch die Passfähigkeit des Befragungszeitpunkts kein Effekt auf die Bewertung entsteht, beeinflusst die aktuelle Befindlichkeit (Ein-Item-Messung) drei der sechs Einstellungsbereiche, und es können insgesamt deutlichere Effekte beobachtet werden. Sowohl die Zufriedenheit mit Behörden als auch die Zufriedenheit mit der eigenen Gesundheit sowie mit Studienkollegen ist bei positiver Befindlichkeit deutlich größer. 529
Reinhard Bachleitner, Wolfgang Aschauer
Analysiert man die Zusammenhänge getrennt nach Geschlecht, so sind einigermaßen deutliche Unterschiede in den Einflüssen erkennbar.11 Männer sind in dieser studentischen Stichprobe sichtlich empfänglicher für Effekte der sozialen Erwünschtheit, weil deutlich unterschiedliche Beurteilung nach Befragungsmodus auftreten. Bei Frauen sind hingegen stärkere Effekte der Befindlichkeit auf das Antwortverhalten beobachtbar. Zusätzlich kann der Effekt, dass eine hektischere Befragungsatmosphäre einen größeren Drang zur Autonomie gegenüber Behörden bewirkt, nur bei weiblichen Untersuchungsteilnehmerinnen nachgewiesen werden.
Hypothese 2: Je höher die Zentralität des Frageinhalts, desto stärker beeinflusst die Befindlichkeit des Befragten das Antwortverhalten. Um eine adäquate Streuung der Zentralitätseinschätzungen zu gewährleisten und den Zusammenhang zwischen der Bedeutung des Frageinhalts und des Effekts der Befindlichkeit zu prüfen, wurde auf der Ebene der Einzelitems gerechnet.12 Abbildung 4: Streudiagramm der Zentralitätseinschätzung und des Befindlichkeitseffekts
Spearman’s Rho Befindlichkeit (1-Item Messung)
0,40 Gesundheit
Gesundheit
0,30
Gesundheit Gesundheit Studium Studium
0,20 Behörden
Gesundheit
Behörden Gesundheit
Behörden
0,10
Politik
Behörden
Politik
Behörden Studium Studium
0,00
Politik
Politik Behörden Politik Politik
R Sq Linear = 0,365
Studium Studium
-0,10
3,00
3,50
4,00
Zentralität
530
4,50
5,00
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Abbildung 4 zeigt einen Zusammenhang in beachtlicher Stärke (r = 0,61) auf, was für eine eindrucksvolle Bestätigung der These spricht. Je höher die Bedeutung des Frageinhalts, desto stärker beeinflusst die Befindlichkeit die Bewertung. Die angegebene Effektstärke zeigt, dass der Einfluss der Befindlichkeit in dieser Studie zu über einem Drittel auf die Bedeutung des Frageinhalts zurückgeführt werden kann.
Hypothese 3: Die Situationsspezifität bei Umfragen ergibt sich aus interagierenden (konfundierten) Einflüssen von Raum (Wahrnehmung des Befragungsorts), Zeit (Wahrnehmung des Befragungszeitpunkts) und Wahrnehmung der eigenen Befindlichkeit. Während in der bisherigen Auswertung hypothesenprüfend vorgegangen wurde, ist die empirische Analyse der Situationsspezifität explorativ angelegt. Aus den Zusammenhangskoeffizienten wird deshalb ein Modell der Situationsspezifität konstruiert, das die empirischen Relationen wiedergibt. Das Modell (Abbildung 5) zeigt zahlreiche Beziehungen zwischen den unabhängigen Indikatoren der Studie auf, was für eine starke Interaktion der Raum-, Zeit- und Befindlichkeitsindikatoren spricht. Die Befindlichkeit wird als unabhängig betrachtet, sie setzt sich nach unserem Verständnis aus einer Grundstimmung begleitet von situativen Empfindungen zusammen. Dass die Befindlichkeit die Wahrnehmung der Befragungsatmosphäre und die Abbildung 5: Zusammenhänge zwischen den unabhängigen Indikatoren der Studie Befindlichkeit / Befragungsort
Zeitpunkt der Befragung
Befragungsatmosphäre
Zeitpunkt ungünstig vs. günstig 0,33 0,28
Dimension Schläfrigkeit / Wachheit
Sozial angenehm 0,24
0,35
0,34
Dimension gedrückte / gehobene Befindlichkeit 0,23
0,43
0,22 0,29
0,25
0,21
0,24
Räumlich attraktiv
Dimension Unruhe / Ruhe
0,22
Befragungsort (Mensa vs. Sitzungssaal)
0,20
Räumlich leise / ruhig 0,63
531
Reinhard Bachleitner, Wolfgang Aschauer
Einschätzung des Befragungszeitpunkts beeinflusst und umgekehrt, bestätigt das Modell der Zusammenhänge zwischen den Variablen. Zwischen sämtlichen räumlichen Indikatoren und der negativen vs. positiven (Grund-) Befindlichkeit bestehen nennenswerte Verbindungen (r > 0,20). Besonders deutlich werden die Wahrnehmung des Befragungszeitpunkts sowie die Beurteilung der Atmosphäre in sozialer Hinsicht durch die Skala der gedrückten vs. positiven Befindlichkeit beeinflusst. Die drei Einflussgrößen Raum, Zeit und Befindlichkeit innerhalb der Situationsspezifität bei Befragungen sind deshalb nicht als unabhängige, sondern als stark interagierende Einflussgrößen zu verstehen. Wie sie sich gegenseitig bedingen, muss durch weitere Studien präzise herausgearbeitet werden.
6 Relevanz der Ergebnisse für die künftige Umfrageforschung Sowohl in der hier vorgestellten Studie als auch in weiteren Erhebungen konnten signifikante situationsspezifische Einflüsse auf die Antwortwahl identifiziert werden. Die erhaltenen und teilweise mit beachtlichen Effekten ausgestatteten Antwortentscheidungen stützen das vorgestellte Modell der „Situationsspezifität der Befragung“. Fast durchgehend erweist sich dabei die Befindlichkeit als stärkste Einflussgröße (Bestätigung der ersten Hypothese), welche insbesondere bei Fragen mit hoher Zentralität antwortleitend wirkt. Die Zentralität des Frageinhalts hat sich in diesem experimentellen Befragungsdesign, das eine Einschätzung der Zentralität bei jedem Item in die Analysen integrierte, als beachtlicher Erklärungsfaktor des Einflusses der Befindlichkeit auf Umfragen erwiesen (Bestätigung der Hypothese 2). In dieser Studie wurde deutlich, dass räumlich-zeitliche Parameter nicht die ausschlaggebenden sind, sondern nur die aktuelle Befindlichkeit einen deutlichen Einfluss auf die Urteilsvergabe ausübt. Künftige Forschungen sollten sich deshalb auf die Befindlichkeit als Einflussgröße konzentrieren, die jedoch mit räumlichen und zeitlichen Einflussfaktoren in Interaktion tritt (Bestätigung der Hypothese 3). Weil jedoch nur die negative vs. positive Befindlichkeit Effekte bewirkt, kann die Operationalisierung der situationsspezifischen Einflussgrößen ökonomisch erfolgen. Mittelfristiges Ziel innerhalb der Umfrageforschung sollte es daher sein, „R-Z-B-Parameter“ in jeder Befragung zu erfassen; Kurzskalen oder Ein-Item-Lösungen sind dabei durchaus ausreichend13, können ökonomisch in den Fragebogen integriert und in die Auswertung einbezogen werden. 532
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Waren es bislang soziodemografische Variablen, nach denen die Meinungen und Einstellungen differenziert wurden, so sollten es – unseren Analysen zufolge – auch „R-Z-B-Aspekte“ sein, die die abgegebenen Urteile und Bewertungen differenzierter wiedergeben. Eine derartige Differenzierung des erhaltenen Umfragewissens hat erhebliche Vorteile: Umfragedaten produzieren und beinhalten – bezogen auf ein wie immer gewähltes „Wahrheitskriterium“ – entlastendes und belastendes Wissen gleichermaßen. Entlastend insofern, als erhebliche Prozentanteile der negativen Urteile aus einer negativen Befindlichkeit der Befragten heraus entstehen und somit das Bewertungsobjekt letztlich entlasten. Belastend jedoch auch, als die hohen Prozentanteile der erfassten (negativ eingefärbten) Meinungen und Einstellungen vom Individuum abgespeichert und so auch weitergegeben werden, und zwar im Nichtwissen des eigenen negativen Befindlichkeitszustands. Dies wirkt somit für den Untersuchungsgegenstand belastend, da negativ erinnert und entsprechend kommuniziert wird (vgl. dazu Bachleitner & Aschauer 2008, 34). Auch wenn hier räumliche und zeitliche Parameter im Rahmen der Situationsspezifität wenig Einfluss zeigten, sollten diese Größen innerhalb der Umfrageforschung in einem anderen Kontext stärker berücksichtigt werden. Gerade bei kulturvergleichenden Studien muss eine stärkere raumbezogene Auswertung erfolgen, und es sollten nationale vs. regionale Einstellungen sowie die Varianz innerhalb der Kulturen stärker berücksichtigt werden. Bezüglich zeitlicher Einflüsse sollte der räumliche und zeitliche Kontext der Erhebung stärker in den Blickwinkel genommen werden. Begleitende Analysen sind erforderlich, wie externe Ereignisse während der Erhebungsphase das Meinungsbild der Befragten beeinflussen. Eine Vorreiterrolle zur Kontrolle zeitlicher Einflüsse nimmt hier der European Social Survey ein, begleitend zur Erhebungsphase wird in den einzelnen Staaten eine wöchentliche Ereignis-Berichterstattung verlangt.14 Die bestehende Event-Datenbank (http://www.scp.nl/ess/events) bietet ein wertvolles Archiv, um Effekte einzelner Ereignisse auf das Meinungsbild der Befragten zu messen, leider liegen dazu bislang keine umfassenden empirischen Studien vor.
533
Reinhard Bachleitner, Wolfgang Aschauer
Anmerkungen 1 2
3
4
5
6
7
8
534
Lediglich vereinzelte Arbeiten etwa von Esser (1986, 2006), Kreutz (2004) und Braun (2006) liegen vor. So moniert z. B. jüngst Stocké (2004), dass inkonsistente Ergebnisse beispielsweise zum „Social Desirability-Bias“ vorliegen und bei differenzierter Betrachtung auf der Ebene der Einzelitems nur einige wenige signifikante Effekte vorliegen. So wird z. B. die Anwesenheit Dritter bei Interviews determiniert durch: Alter, Bildungsunterschied, Art der Beziehung, Qualität der Beziehung, Geschlechterkonstellation und Inhalt der Fragen (vgl. Lander 2000). Neben Effekten auf der Akteursebene (der UntersuchungsteilnehmerInnen) sind auch Effekte auf der Instrumentenebene zu erwarten. Diese können sowohl Selektionskriterien einer Umfrage als auch die Reaktionsebene betreffen. Auf der Selektionsebene ergeben sich Fragen, welche Personen durch welches Befragungsverfahren angezogen bzw. ausgeschieden werden (vgl. zu Mode-Effekten z. B. de Leeuv 1992; Dillman 2008), auf der Reaktionsebene können ebenfalls je nach Befragungsmodus und Frageinhalt unterschiedliche Effekte auftreten. Auf den Stellenwert von Emotionen für Handlungen verweist Weber (i. d. Aufl. 1984, 44 ff.) mit seinen vier Typen sozialer Handlungsorientierungen: die affektuelle, die traditionale, die wert- und die zweckrationale Orientierung. Die situationale Handlungsentscheidung im Befragtenverhalten beinhaltet sowohl „arationale“ wie auch „rationale“ Handlungsformen. Die beiden erstgenannten sind die arationalen Handlungsorientierungen, und diese laufen affektuell gesteuert bzw. spontan-automatisch ab. Zum Befragtenverhalten liegt auch der bekannte kognitionspsychologische Ansatz von Sudman & Bradburn & Schwarz (1996) vor. Die Autoren bestimmen vier Phasen des Antwortverhaltens: Der erste Schritt besteht in der Verstehensleistung der Frage („comprehension“). Das Verstehen setzt sich aus einem semantischen Verstehen (Bedeutung der Frage) und einem pragmatischen Verstehen (intendiertes Interesse des Forschers) zusammen. Nach Abruf der relevanten Informationen aus dem Gedächtnis („retrieval“) erfolgt schließlich die Urteilsbildung („judgement“) und die anschließende Editierung der Antwort („response“). Auch hier können Verzerrungen entstehen, weil vorgegebene Skalen und Kategorien die Antwortvergabe beeinflussen. Dem Befragtenverhalten in kognitiver Hinsicht wird in diesem Artikel nicht weiter nachgegangen, weil wir uns auf die noch weitgehend unerforschte Determinante der Befindlichkeit konzentrieren. Bei der laufenden und weiterführenden Theorieentwicklung zum Befragungsverhalten soll der hier vorgestellte Ansatz erweitert werden und die einzelnen Paradigmen zur Verhaltenserklärung herangezogen werden, wie das utilitaristische, das normative, das interpretative und das strukturtheoretische Paradigma, da dadurch eine Erweiterung der Handlungssteuerung erreicht wird (vgl. White 1992; Gabriel & Gratzl 2008). Beispielsweise wurde bei einer Studie des Instituts für Grundlagenforschung (Marktforschungsinstitut in Salzburg) jeweils ein Indikator zur sozialen Situation, zur Wahrnehmung des Befragungszeitpunkts und zur Befindlichkeit (jeweils fünfstufig) eingebaut. Bei 23 Bewertungsfragen konnten bei der Frage nach der sozialen Situation nur zwei Zusammenhänge über 0,1 gemessen werden, bei der Frage nach der Wahrneh-
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
9
10
11
12
13 14
mung des Befragungszeitpunkts traten drei Zusammenhänge in dieser Stärke auf, während die Befindlichkeit des Befragten bei 11 der 23 Indikatoren einen signifikanten Effekt bewirkte. Die Befindlichkeitsskala erhebt in der Kurzversion mit jeweils vier Items die Dimensionen Schläfrigkeit vs. Wachheit, Erregung vs. Ruhe und gedrückte vs. positive Stimmung. Aus den vier Skalen konnten sechs Indikatoren faktorenanalytisch (Hauptkomponentenanalyse mit Rotationsmethode der Varianzmaximierung) gewonnen werden. Aus den eindeutigen Ladungszahlen wurde jeweils ein Index des Skalenwerts berechnet, um die ursprüngliche Codierung der Variable beizubehalten. Aufgrund der geringen Stichprobengröße in den einzelnen Kategorien der unabhängigen Variablen sollten die Ergebnisse nur mit Vorsicht interpretiert werden und bedürfen weiterer Forschungen. Insgesamt basiert das Streudiagramm auf den 24 Einzelitems, es wurden die mittleren Zentralitätseinschätzungen (x-Achse) und die Korrelationskoeffizienten der Befindlichkeit auf die inhaltliche Bewertung in Beziehung gesetzt. Vgl. dazu auch die Bemühungen, die „Big-Five-Persönlichkeitsfaktoren“ mit Kurzskalen in der Umfrageforschung zu etablieren (z. B. Schumann 2005). Mithilfe exakter Dokumentationsrichtlinien (vgl. Stoop 2006) müssen sämtliche Ereignisse, die während der Erhebungsphase auftreten, dokumentiert werden. Die einzelnen Vorkommnisse werden nach Typ des Ereignisses, Zeitpunkt, Quellen und Einflussbereich auf Fragen und Feldarbeit klassifiziert.
Literatur Atteslander, P. (2006). Methoden der empirischen Sozialforschung. 11. Auflage. Berlin. Bachleitner, R., & Weichbold, M. (2007). Befindlichkeit – eine Determinante im Antwortverhalten? Zeitschrift für Soziologie, 36, 182–196. Bachleitner, R., & Aschauer, W. (2008). Das Salzburg Museum und seine Besucher. In R. Bachleitner & M. Weichbold (Hg.), Kunst – Kultur – Öffentlichkeit. Salzburg und die zeitgenössische Kunst (163–181). Wien – München: Profil Verlag. Baur, N. (2005). Verlaufsmusteranalyse: methodologische Konsequenzen der Zeitlichkeit sozialen Handelns. Wiesbaden: VS Verlag. Braun, M. (2006). Funktionale Äquivalenz in interkulturell vergleichenden Umfragen. Mythos und Realität. Mannheim: ZUMA. Bungart, W., & Lück, H., & Miller, R. (2005). Forschungsartefakte und nicht-reaktive Messverfahren. Wiesbaden: VS Verlag. De Leeuw, E. (1992). Data Quality in Mail, Telephone and Face-to-face Surveys. Amsterdam: TT-Publ. Dillman, D. et al. (2008). Response Rate and Measurement Differences in Mixed Mode Surveys Using Mail, Telephone, Interactive Voice Response (IVR) and the Internet. So-
535
Reinhard Bachleitner, Wolfgang Aschauer cial Science Research, in press. Abgerufen am 10.08.2008, Website: http:// www.sesrc.wsu.edu/dillman/papers.htm. Döring, J. (2008). Spatial Turn: das Raumparadigma in den Kultur- und Sozialwissenschaften. Bielefeld: Transcript. Eid, M. (1995). Modelle der Messung von Personen in Situationen. Weinheim: Beltz-Psychologie Verlags Union. Esser, H. (1975). Das Problem der Reaktivität bei Forschungskontakten. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 27, 257–271. Esser, H. (1982). Der Befragte. In Van Koolwijk et al. (Hg.), Techniken der empirischen Sozialforschung. Erhebungsmethoden: Die Befragung (Vol. 4, S. 107–145). München – Wien: Oldenbourg Verlag. Esser, H. (1986). Können Befragte lügen? Zum Konzept des „wahren Wertes“ im Rahmen der handlungstheoretischen Erklärung von Situationseinflüssen bei der Befragung. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 38, 314–336. Esser, H. (1990). „Habits“, „Frames“ und „Rational Choice“: Die Reichweite von Theorien der rationalen Wahl (am Beispiel der Erklärung von Befragtenverhalten). Zeitschrift für Soziologie, 19 (4), 231–247. Esser, H. (2001). Soziologie, Spezielle Grundlagen: Band 6: Sinn und Kultur. Frankfurt: Campus. Esser, H. (2006). Affektuelles Handeln: Emotionen und das Modell der Frame-Selektion. In R. Schützeichel (Hg.), Emotionen und Sozialtheorie. Disziplinäre Ansätze (143–174). Frankfurt am Main: Campus. Fahrenberg, J. et al. (2000). Skala zur Lebenszufriedenheit. Göttingen: Hogreve. Gabriel, M., & Gratzl, N. (2008). Paradigmen in der Soziologie – Explikation, Unterscheidungen und Unterschiede. In A. Balog & J. A. Schülein (Hg.), Soziologie, eine multiparadigmatische Wissenschaft. Erkenntnisnotwendigkeit oder Übergangsstadium (81–104). Wiesbaden: VS Verlag. Hilgers, A. (1997). Artefakt und empirische Sozialforschung. Genese und Analyse der Kritik. Berlin: Duncker & Humblot. Kriz, J. (1981). Methodenkritik empirischer Sozialforschung. Eine Problemanalyse sozialwissenschaftlicher Forschungspraxis. Stuttgart: Teubner. Lander, B. (2000). Anwesenheitseffekte im Wandel. Eine Sekundäranalyse zur Anwesenheit des Partners im Interview anhand des ALLBUS 1980 bis 1998. Zeitschrift für Soziologie, 29, (3), 227–238. Mees, U. (2006). Zum Forschungsstand der Emotionspsychologie – eine Skizze. In R. Schützeichel (Hg.), Emotionen und Sozialtheorie. Disziplinäre Ansätze (104–123). Frankfurt am Main: Campus. Reuband, K.-H. (1998). Der Interviewer in der Interaktion mit dem Befragten – Reaktionen der Befragten und Anforderungen an den Interviewer. In Statistisches Bundesamt (Hg.), Interviewereinsatz und Qualifikation. Spektrum der Bundesstatistik (Vol. 11, 138–155). Stuttgart: Metzler-Poeschel.
536
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung Revers, W. J. (1999). Die historische Relativität wissenschaftlicher Methoden – eine wissenschaftshistorische Kritik. In E. Roth & H. Holling (Hg.), Sozialwissenschaftliche Methoden (Vol. 5, S. 74–87). München – Wien: Oldenbourg. Schnabel, A. (2006). Sind Emotionen rational? In R. Schützeichel (Hg.), Emotionen und Sozialtheorie. Disziplinäre Ansätze (175–194). Frankfurt am Main: Campus. Schumann, S. (2005). Persönlichkeit. Eine vergessene Größe der empirischen Sozialforschung. Wiesbaden: VS Verlag. Schroer, M. (2006). Räume, Orte, Grenzen. Auf dem Weg zu einer Soziologie des Raums. Frankfurt am Main: Suhrkamp. Schützeichel, R. (Hg.) (2006). Emotionen und Sozialtheorie. Disziplinäre Ansätze. Frankfurt: Campus. Schwarz, N., & Clore, G. L. (2003). Mood as Information: 20 Years Later. Psychological Inquiry, vol. 14, 296–303. Stachura, M. (2006). Logik der Situationsdefinition und Logik der Handlungsselektion. Der Fall des wertrationalen Handels. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 58, 433–452. Steyer, R., & Schwenkmezger, P., & Notz, P., & Eid, M. (1997). Der Mehrdimensionale. Befindlichkeitsfragebogen (MDBF). Handanweisung. Göttingen: Hogrefe. Stocké, V. (2004). Entstehungsbedingungen von Antwortverzerrungen durch soziale Erwünschtheit: Ein Vergleich der Prognosen der Rational-Choice Theorie und des Modells der Frame Selection. Zeitschrift für Soziologie, 33, H. 4, 303–320. Stoop, I. (2006). Event Data Collection, Round 3. Guidelines for National Coordinators. Abgerufen am 10.08.2008, Website: http://www.europeansocialsurvey.org. Sudman, S., & Bradburn, N. M., & Schwarz, N. (1996). Thinking About Answers. The Application of Cognitive Processes to Survey Methodology. San Francisco: Jossey-Bass. Weber, M. (1984). Soziologische Grundbegriffe. Tübingen: UTB-Verlagsgesellschaft. White, H. (1992). Identity and Control: a Structural Theory of Social Action. Princeton: Univ. Press. ZUMA-Informationssystem. Elektronisches Handbuch sozialwissenschaftlicher Erhebungsinstrumente, Version 11.0, 2007. Abgerufen am 10.08.2008, Website: http:// www.gesis.org/Methodenberatung/ZIS/index.htm.
537
Markus Pausch
Markus Pausch
Eurobarometer und die Konstruktion eines europäischen Bewusstseins Zusammenfassung Politische Meinungsforschung hat u. a. eine demokratiepolitische Funktion, nämlich die Meinung der Mehrheit zu erheben, damit die Eliten danach handeln können. Im Falle von Eurobarometer, dem weltweit größten transnationalen Umfrageinstrument, wird diese Funktion nur teilweise erfüllt. So fehlt etwa auf europäischer Ebene eine politische Öffentlichkeit im Sinne eines transnationalen Meinungsaustausches. Darüber hinaus verfügt die Europäische Kommission als Auftraggeberin der Umfragen über ein faktisches Interpretationsmonopol. Und schließlich werden die Ergebnisse meist im jeweils nationalen Kontext der 27 EU-Mitgliedsstaaten präsentiert, wodurch eine demokratiepolitisch wichtige trans- oder supranationale Debatte eher verhindert als gefördert wird.
Abstract Eurobarometer and the Construction of a European Consciousness Political opinion polls have a democratic function. They should legitimate decisions by surveying the opinion of the majority. Eurobarometer, the largest transnational survey instrument in the world, does not satisfyingly fulfil this function because of several difficulties such as the lack of a European public sphere and the factual monopoly of interpretation by the European Commission. Furthermore, the presentation and the perception of the results take place in the national contexts of the 27 EU member states, which hinders a democratic trans- or even supranational debate.
Einleitung Umfrageforschung wird nicht um ihrer selbst willen – als l’art pour l’art – betrieben. Sie soll vielmehr gewisse Funktionen für eine Gesellschaft erfüllen. Sieht man von wissenschaftlichen Studien mit vorrangigem Interesse an reinem Erkenntnisgewinn ab, so kann man – zumindest in Demokratien – in 539
Markus Pausch
der Regel zwei mögliche Ziele von Meinungsumfragen voneinander unterscheiden, nämlich ein prospektives in Bezug auf erst zu treffende Entscheidungen und ein retrospektives in Bezug auf schon gefällte Entscheidungen. Im politischen Kontext haben beide Ziele demokratiepolitische Bedeutung und definieren sich über ihren partizipatorischen Charakter: Das erste zielt ganz basisdemokratisch darauf ab, die Meinung der Mehrheit herauszufinden und im Idealfall auch danach zu handeln. Das zweite beinhaltet immerhin den Anspruch, den Bedarf nach Änderungen des Status quo zu erheben. Umfrageforschung, die sich außerhalb dieser beiden Ziele bewegt und sich auch nicht der wissenschaftlichen Erkenntnis widmet, wird sich die Frage gefallen lassen müssen, wozu sie betrieben wird (vgl. Beck & Bonß 1989). Konsequenterweise werden in den westlichen Demokratien die Ergebnisse aus Umfragen denn auch stets als Legitimationswissen verwendet und weitgehend auch gesellschaftlich als solches akzeptiert. Die Annahme, die dahinter steckt, ist eine radikaldemokratische, nämlich die, dass die Mehrheit – bezeichnenderweise mit öffentlicher Meinung gleichgesetzt – in jedem Falle Recht hat – und das im wahren Wortsinn: Die Meinung der Mehrheit setzt Recht. Auch wenn dieser Zusammenhang in der Realität nur in seltenen Fällen auf direktdemokratischem Weg tatsächlich zu Rechtsetzung führt, so ist er doch ein mächtiger Faktor im politischen Diskurs. Die Mehrheit der Meinungen wird zur öffentlichen Meinung und setzt die EntscheidungsträgerInnen unter Druck oder legitimiert ihre Handlungen. Die radikaldemokratische Note von Meinungsumfragen steht der repräsentativen Demokratie gegenüber und soll deren Mängel an Partizipation ausgleichen. Dieses Spannungsverhältnis gewinnt im Rahmen der Europäischen Union aufgrund des häufig beklagten Demokratiedefizits zusätzlich an Bedeutung (vgl. Hix & Follesdal 2005). Zum einen sind die repräsentativen Strukturen dieses supranationalen Gebildes im Vergleich zu Nationalstaaten schwach ausgeprägt, zum anderen gibt es auch keine mit den Nationalstaaten vergleichbare politische Öffentlichkeit im Sinne von Kommunikationsnetzwerken (vgl. Gerhards 1993; Risse 2003). Den von der EU-Kommission finanzierten Meinungsumfragen, veröffentlicht im so genannten Eurobarometer, kommt daher eine spezielle Rolle zu. Sie sollen laut ihrem Initiator Jacques René Rabier etwas schier Unmögliches leisten, nämlich eine öffentliche Meinung abfragen, um damit ein europäisches Bewusstsein herzustellen (Europäische Kommission 2004, 3). Aus diesem paradoxen Anspruch heraus ergeben sich mehrere nicht-triviale Probleme, welche grundlegende Fragen der Umfrageforschung berühren, nämlich u. a. das Verhältnis zwischen politischen Akteuren und von ihnen durchgeführten bzw. in Auftrag gegebenen Umfragen, die Möglichkeit einer öffentlichen Meinung ohne Öffent540
Eurobarometer und die Konstruktion eines europäischen Bewusstseins
lichkeit, die Interpretation der Ergebnisse sowie allgemeine methodische Herausforderungen an transnationale Meinungsforschung. Der Artikel versteht sich als kritische Analyse eines Umfrageinstruments, das neben zahlreichen Verdiensten für die vergleichende Sozialwissenschaft auch einige Probleme in demokratiepolitischer Hinsicht aufweist. Der Fokus der Analyse liegt dabei weniger auf den methodischen Details als auf den für die politische Debatte relevanten Interpretationen und den Veröffentlichungen der Europäischen Kommission.
1 Die Europäische Kommission als Barometermacher Anfang der 70er Jahre führte ein Bericht einer Gruppe von Abgeordneten des Europäischen Parlaments unter der Leitung von Wilhelm de Schuijt zur Forderung nach einer regelmäßigen Umfrage unter der Bevölkerung der damaligen EG. Die Notwendigkeit einer europäischen öffentlichen Meinung wurde betont (Schuijt 1972, 3). Diese „echte“ europäische öffentliche Meinung sollte laut Schuijt durch Meinungsumfragen hervorgebracht werden, denn sie existiere noch nicht (Schuijt 1972, 7). In der Folge bekam Jacques René Rabier, der bis 1973 Generaldirektor des Presse- und Informationsdienstes der Europäischen Gemeinschaften gewesen war, die Gelegenheit, sich systematisch mit der Einrichtung einer europaweiten Meinungsumfrage zu befassen. Er war es dann auch, der den Eurobarometer einführte und von 1973 bis 1986 als Sonderberater der Europäischen Kommission für Meinungsumfragen tätig war. Im Frühjahr 1974 entstand der erste Eurobarometer mit folgenden Zielsetzungen: • „Bewertung der Wahrnehmung der Aktivitäten der Europäischen Gemeinschaften durch deren Adressaten • Weitestmögliche Voraussage der Aufnahme institutioneller Initiativen bei der breiten Öffentlichkeit • Als Meinungsbarometer sollte dieses Datenerhebungsinstrument auch in der Lage sein, die Entwicklung der europäischen öffentlichen Meinung zeitlich (zwei Befragungswellen im Jahr) und räumlich (Mitgliedstaaten) zu messen.“ (Europäische Kommission 2004, 1). Diese Ziele standen in unmittelbarer Verbindung zu dem Wunsch, eine proeuropäische Haltung in der Bevölkerung der EG zu fördern. Es waren also nicht unabhängige Wissenschafter, die dieses Instrument initiierten, sondern die Europäische Kommission und das Europäische Parlament. Und es ging zu einem Gutteil darum, das elitengeleitete Projekt der europäischen 541
Markus Pausch
Integration einer breiten Öffentlichkeit schmackhaft zu machen und die Entscheidungen der EG zu legitimieren. Dieses Anliegen der politischen Akteure ist aus demokratiepolitischer Sicht vorerst nicht verwerflich. Ganz im Gegenteil muss man der Kommission und dem Parlament zugestehen, sich für die Demokratisierung der EG bzw. EU stets mehr als andere Institutionen eingesetzt zu haben. Auch die Einführung des Eurobarometers war mit dem hehren Ziel verbunden, die Menschen näher an die Europapolitik heranzubringen. Dennoch kommt man nicht umhin, in diesem Zusammenhang die Frage nach dem Verhältnis zwischen Meinungsforschung und Politik zu stellen. Laut George Gallup haben Umfragen vorrangig eine demokratiepolitische Funktion. Wichtige politische Entscheidungen sollten seiner Einschätzung nach nicht ohne Einbeziehung der Bevölkerung getroffen werden (vgl. Gallup 1939). „Gallup’s explanations reveal the problematic that justified the formation of the public opinion research in the first place, namely, the contradiction between the functional requirements of a democratic state and its inherent claim to legitimate its political order through the public“ (Keller 1997, 2). Gallup sprach sich gerade aufgrund dieses Spannungsverhältnisses gegen staatliche Umfragen aus, da die Gefahr einer Monopolisierung bestünde und die Objektivität darunter leiden könnte. Die Gründerväter der regelmäßigen europäischen Meinungsumfragen, de Schuijt und Rabier hatten als „Barometermacher“ das Ziel, zum einen mehr über die EuropäerInnen zu erfahren und zum anderen auch eine europäische öffentliche Meinung zu konstruieren. Beide waren Vertreter der EG. Rabier holte sich namhafte Wissenschafter an seine Seite, allen voran Ronald Inglehart, die ein methodisch anspruchsvolles Instrument entwarfen, um der schwierigen Aufgabe von transnationalen Umfragen gerecht zu werden. Die Durchführung selbst wurde unabhängigen nationalen Meinungsforschungsinstituten anvertraut. De Schuijt, Rabier und Inglehart hatten also zweifellos das Ziel, die demokratische Qualität der damaligen EG im Sinne einer stärkeren Einbeziehung von Bürgermeinungen zu verbessern. Sie wollten die Lücke zwischen Eliten und europäischer Bevölkerung verringern. Auch die methodischen Herausforderungen dieses Vorhabens waren ihnen bewusst. Das Instrument wurde von Anfang an wissenschaftlich kontrolliert, begleitet und weiter entwickelt. Seit den Anfängen in den 70er Jahren hat sich vieles verändert. Neben den Standard-Eurobarometer, die zweimal jährlich durchgeführt werden, gibt es auch spezielle Eurobarometer-Ausgaben und FlashEurobarometer zu besonders brennenden aktuellen Themen. Nicht nur die Breite der Inhalte ist gewachsen, sondern durch die ständigen Erweiterungen der EU auch die Zahl der Mitgliedstaaten, in denen Erhebungen durch542
Eurobarometer und die Konstruktion eines europäischen Bewusstseins
geführt werden sowie damit verbunden die Anzahl der Sprachen, in die übersetzt werden muss. Die Daten werden der wissenschaftlichen Community zur Verfügung gestellt, was Sekundäranalysen und Kritik ermöglicht. Darüber hinaus ist die Kommission auch vorsichtiger geworden, wenn es um die Zielformulierungen des Eurobarometers geht. Hatte man anfänglich noch unbedacht von der Konstruktion einer europäischen öffentlichen Meinung gesprochen, so setzt man jetzt den Schwerpunkt auf die Messung derselben. Der methodischen Herausforderung ist man sich bewusst. Die zuständige Kommissarin Margot Wallström organisierte etwa im Oktober 2006 eine Konferenz in Madrid, um mit WissenschafterInnen über die Verbesserung des Eurobarometers nachzudenken (vgl. European Commission 2006). Und doch: Trotz all dieser Bemühungen bleibt die enge Verbindung zwischen Politik und Meinungsforschung und die Rolle der Kommission problematisch. Zum einen hat sie als politische Institution die Themenhoheit, denn ohne ihre Zustimmung kann kein kommissionsexterner „Kunde“ seine Fragen im Eurobarometer unterbringen (Europäische Kommission 2004, 2). Auch die Entscheidung darüber, welche Fragen gestellt werden, obliegt der Kommission. Und schließlich verfügt sie zudem über ein faktisches Interpretationsmonopol, auf das noch ausführlicher einzugehen ist. Dass Eurobarometer-Ergebnisse immer wieder mit der Meinung der Kommission assoziiert werden, ist daher kein Zufall. Ein einprägsames Beispiel dafür ist der Aufruhr um eine Eurobarometer-Umfrage, aus der hervorging, dass für viele EuropäerInnen der Staat Israel eine Bedrohung des Weltfriedens darstelle. Der damalige Kommissionspräsident Romano Prodi musste sich öffentlich von diesem Ergebnis distanzieren, indem er festhielt, dass dies nicht die Ansicht seiner Institution sei. Was sich in diesem Fall so drastisch zeigte, hat Symbolcharakter und könnte der Vermutung, dass die Ergebnisse des Eurobarometers vorrangig die Meinung der Kommission widerspiegeln, Auftrieb geben. Auch wenn dies gerade im genannten Fall auszuschließen ist, darf man sich ob ihrer Rolle nicht wundern, wenn dieser Eindruck in der Öffentlichkeit entsteht. Jacques René Rabier stellte in einem Interview aus dem Jahre 2004 selbst fest, dass die europäische öffentliche Meinung ein Konstrukt und noch im Aufbau begriffen sei (Europäische Kommission 2004, 3). Dieser Satz führt uns zum nächsten Problem: der Messung einer öffentlichen Meinung, die es gar nicht gibt.
543
Markus Pausch
2 Öffentliche Meinung ohne Öffentlichkeit und ohne Meinung Die Veröffentlichung der Meinungsumfragen der Europäischen Kommission erfolgt unter folgendem Titel: „Eurobarometer. Die öffentliche Meinung in der Europäischen Union“. Diese Bezeichnung weist auf ein erstes grundlegendes Problem hin, nämlich die Definition von „öffentlicher Meinung“. In der Verwendung der Europäischen Kommission lässt sich die öffentliche Meinung durch Umfragen messen. Durch diese Messungen lassen sich Mehrheitsmeinungen und Minderheitsmeinungen unterscheiden, wobei die Mehrheitsmeinung in einem weiteren Schritt als „öffentliche Meinung“ präsentiert wird. Aus sozialwissenschaftlicher bzw. philosophischer und politiktheoretischer Perspektive ist die Sache freilich nicht ganz so einfach. Historisch betrachtet wird die öffentliche Meinung erst mit der Aufklärung relevant. Und von Anfang an steht sie im engen Zusammenhang mit demokratischen Prinzipien. Öffentliche Meinung wird als die Meinung der Mehrheit somit zu einem Machtfaktor und zur Legitimationsgröße. Eine politische Ordnung legitimiert sich nach Ansicht der Aufklärer nicht mehr über das Gottesgnadentum des Monarchen, sondern über die Zustimmung durch die Mehrheit der BürgerInnen. Messen konnte man diese Zustimmung im 18. und 19. Jahrhundert in erster Linie durch Wahlen. Erst im 20. Jahrhundert entwickelt sich die moderne Umfrageforschung. Die öffentliche Meinung im echten Wortsinn gab es allerdings weder in Zeiten der Aufklärung, noch gibt es sie heute, denn sie würde nichts anderes voraussetzen als die Existenz einer Einheitsmeinung eines Kollektivs. Treffender wäre es, von konkurrierenden Meinungen zu sprechen, die in der Öffentlichkeit ausgetauscht werden.1 In diesem Sinne ist auch die Entwicklung des demokratisch relevanten Öffentlichkeitsbegriffs zu verstehen. Die bürgerliche Öffentlichkeit der Aufklärung, die sich in der Auseinandersetzung über literarische und darauf folgend politische Inhalte in Salons, Tee- und Kaffeehäusern manifestiert, führt zu politischem Druck auf die Herrschenden und wird so zur demokratisch relevanten Einflussgröße. Ihre Bedeutung liegt aber nicht vorrangig im Ausdruck eines Mehrheitswillens, sondern in ihrer Ausprägung als Kommunikationsnetzwerk zum Meinungsaustausch (vgl. Habermas 1994). Wichtig ist dabei, dass Meinungen nichts Endogenes sind, sondern exogene Qualität haben, also beeinflussbar und variabel sind. Meinungen existieren also nicht per se als unveränderbare Größen, sondern nur im Rahmen einer öffentlichen Diskussion. Vergleicht man diese Definition mit den Ansprüchen des Eurobarometers, so relativiert sich dessen Aussagekraft. Denn in 544
Eurobarometer und die Konstruktion eines europäischen Bewusstseins
der Europäischen Union ist das, was Öffentlichkeit ausmacht, nicht oder bestenfalls rudimentär vorhanden. Viele politikwissenschaftliche Studien der letzten Jahre zeigen, dass eine europäische Öffentlichkeit, die mit nationalen Öffentlichkeiten vergleichbar wäre, nicht oder nur punktuell existiert (vgl. Gerhards 1993; Eder & Kantner 2000; Risse 2003). Wenn Meinungen also nicht als statische, sondern als dynamische und veränderbare Größen eines Kommunikationsnetzwerks betrachtet werden, dann misst das Eurobarometer öffentliche Meinungen ohne Öffentlichkeit. Und selbst, wenn man die Fiktion einer einzigen messbaren öffentlichen Meinung aufrechterhalten würde, so hätte man noch immer ein Problem, nämlich die Abwesenheit von Meinungen zu einer ganzen Reihe von Fragen, die im Eurobarometer gestellt werden. Dies betrifft insbesondere die Themen, die sich eingehender mit den Strukturen der Europäischen Union befassen. Wenn etwa nach der Zustimmung zu einer europäischen Verfassung gefragt wird, ist zweifelhaft, ob es dazu überhaupt eine repräsentierbare Meinung gibt. Im Standard-Eurobarometer 62 vom Herbst 2004 – also kurz vor den Referenden in Frankreich und den Niederlanden – antworteten europaweit 68% der Befragten, dass sie für eine Verfassung für die Europäische Union seien. 17% äußerten sich ablehnend und 14% hatten dazu keine Meinung (Eurobarometer 62 2004, 151 f.). Diese hohen Zustimmungswerte sind erstaunlich, insbesondere wenn man bedenkt, dass es im Großteil der Mitgliedstaaten keinerlei öffentliche Diskussion zu diesem Thema gab. Die Konstitutionalisierung Europas wurde in der wissenschaftlichen Auseinandersetzung zwar in den letzten Jahren immer stärker diskutiert (vgl. Gehler 2006), spielte aber in der medialen Berichterstattung und in der breiten Öffentlichkeit keine Rolle – ein Faktum, das in der politikwissenschaftlichen Forschung weitgehend außer Streit steht (vgl. Pausch 2006). Was also misst Eurobarometer mit dieser Frage tatsächlich – und was sagen uns die Ergebnisse? In keinem einzigen Land war die Ablehnung größer als die Zustimmung – nicht einmal im europaskeptischen und verfassungs-phobischen Großbritannien, wo immerhin noch 43% dafür und 36% dagegen waren (Eurobarometer 62 2004, 151 f.). Es ist zweifelhaft, dass diese Daten ein glaubwürdiges Abbild der Realität darstellen, auch wenn sie methodisch korrekt erhoben wurden. Das Problem liegt in der fehlenden Öffentlichkeit, dem fehlenden Meinungsaustausch zum abgefragten Thema. Helge Torgersen verweist in einem Artikel darauf, dass dieser Fehler auch bei anderen Umfragen von Eurobarometer zum Tragen kam, etwa in Zusammenhang mit dem Thema „Gentechnik“ (vgl. Torgersen 2005). Ähnlich verhält es sich mit der Zustimmung zur Entwicklung hin zu einer politischen Union: 58% würden eine solche Entwicklung begrüßen, 28% 545
Markus Pausch
sind dagegen und 13% antworteten mit „Weiß nicht“ (Eurobarometer 62 2004, 149). Was mit einer „politischen Union“ aber gemeint ist, wird nicht weiter ausgeführt. Auch im wissenschaftlichen Diskurs variieren dazu die Meinungen: Während einige die politische Union in Europa schon lange verwirklicht sehen, können andere dies nicht erkennen. Dass konkurrierende Modelle zwischen Föderalismus und Intergouvernementalismus alle auch eine politische Union diskutieren, auch wenn sie verschiedenen Vorstellungen über die Ausprägung einer solchen haben, bleibt unerwähnt (vgl. Moravcsik 2001; Rosamond 2000). Schließlich werden länderspezifische Gegebenheiten völlig unterschlagen, dabei macht es aber einen großen Unterschied, welche Erfahrungen mit Föderalismus oder Zentralismus im jeweils eigenen Staat gemacht wurden. Bedenken sind auch hinsichtlich einiger Wissensfragen angebracht. Wenn im Eurobarometer gefragt wird, welches Organ der EU im Entscheidungsfindungsprozess am wichtigsten ist, so hat dies wenig mit der Erhebung von Meinungen zu tun – es ähnelt eher einem Wissensquiz. Dabei kommt das Problem aber regelmäßig an die Oberfläche: Eine uninformierte Bevölkerung, die sich nicht in einem europäischen Kommunikationsnetz, einer europäischen Öffentlichkeit, bewegt und sich somit zu vielen wichtigen Europathemen gar keine Meinung bilden kann, soll plötzlich im Rahmen dieser Umfragen Stellung beziehen. Meistens endet es damit, dass die Machtstrukturen im europäischen Kontext völlig falsch eingeschätzt, z. B. das Europaparlament und die Kommission gegenüber dem Rat und dem Europäischen Rat viel zu mächtig wahrgenommen werden (Eurobarometer 67 2007, 107 f.). Diese teilweise falschen Annahmen über die Institutionen, Prozesse und Machtverhältnisse beeinflussen freilich auch andere Antworten. Selbst wenn die Einschätzungen Aufschluss über Informationsdefizite der europäischen BürgerInnen geben mögen, ist es zweifelhaft, ob man sie als „europäische öffentliche Meinung“ bezeichnen kann.
3 Das Interpretationsmonopol der Europäischen Kommission In der Interpretation der Ergebnisse bestehen aus demokratiepolitischer Sicht die größten Probleme von Eurobarometer. Wie wichtig die Dominanz eines Kommunikations- und Vermittlungsprozesses für politische Themensetzung und Themenführerschaft ist, ist hinreichend bekannt und erforscht. Die Kommission nutzt im Rahmen der Ergebnisinterpretation ihre informations- und medienpolitischen Ressourcen und setzt damit weitgehend die 546
Eurobarometer und die Konstruktion eines europäischen Bewusstseins
Agenda. Komplexe Umfragen werden stark vereinfacht präsentiert. Schon im Titel spricht man von „Eurobarometer: die öffentliche Meinung in der Europäischen Union“. Neben dieser Bezeichnung verkürzt und simplifiziert man wissenschaftliche Umfrageergebnisse mit eingängigen Formulierungen und Schlussfolgerungen. Im Eurobarometer 67 heißt es etwa: „7 von 10 Europäern sagen der EU eine glanzvolle Zukunft voraus“. Dies schließt man daraus, dass 69% der Befragten die Zukunft der EU sehr oder eher optimistisch sehen (Eurobarometer 67 2007, 169). Oder: „Fast 8 von 10 Europäern sprechen sich jetzt für sie (Gemeinsame Sicherheits- und Verteidigungspolitik, Anm. des Autors) aus“ (Eurobarometer 67 2007, 146). Freilich wird von der EU-Kommission betont, dass die Darstellung nur die Ansicht der AutorInnen des Eurobarometers widerspiegelt und nicht jene der Kommission selbst, wobei nicht näher erläutert wird, wer die AutorInnen sind. Dass diese aber im Auftrag der Kommission agieren, darf dabei nicht vergessen werden. Und mehr noch: Die tatsächliche Verbreitung der Eurobarometer-Ergebnisse obliegt der Kommission. In der Regel werden die Ergebnisse über Pressekonferenzen an die Medien kommuniziert. Im Januar 2008 lud etwa die österreichische Kommissarin Benita FerreroWaldner zu einer Pressekonferenz über die österreichischen Ergebnisse. Als „weitere Gesprächspartner“ waren Vertreter des österreichischen Gallup-Instituts dabei (vgl. APA/OTS 21.01.08). Entsprechend wird auch in den Medien von jenen Punkten berichtet, die Ferrero-Waldner nannte. Somit kann man durchaus von einem faktischen Interpretationsmonopol der Kommission sprechen. Was durch die Medien dann an die Öffentlichkeit weitertransportiert wird, ist schließlich nur noch ein durch mehrere Filter gelaufener, minimaler Ausschnitt aus den gesamten Eurobarometer-Ergebnissen, der nichtsdestotrotz insbesondere dort problematisch wird, wo er als Legitimation für politische Maßnahmen herhalten soll. Ferrero-Waldner etwa betonte in der Pressekonferenz, dass es eine große Zustimmung von 68% zum Euro, von 66% zur Gemeinsamen Außenpolitik und von 65% zu einer Gemeinsamen Verteidigungspolitik gäbe (ORF On). Der Schluss, der von den PolitikerInnen aus solchen Vereinfachungen gezogen werden kann, ist, dass die Legitimation für weitere Schritte in diesen Bereichen auf einer breiten Mehrheit beruht. Meinungsforschung wird auf diese Weise handlungsleitend und wirkungsmächtig.
547
Markus Pausch
4 Eurobarometer und nationale Öffentlichkeiten Matthias Karmasin und Harald Pitters halten in einem Artikel aus dem Jahre 2007 fest, dass Eurobarometer fixer Bestandteil nationaler und europäischer Politik sei. Doch nicht nur das: „Das Eurobarometer ist auch deswegen fixer Bestandteil der europäischen wie nationalen Politik, ist auch deswegen fixer Teil des medial induzierten öffentlichen Räsonierens über die EU, weil es funktioniert, Ergebnisse produziert und weil (trotz aller Diskussionen über das Instrument) keine angemessene Alternative der kollektiven Selbstbeobachtung zur Verfügung steht“ (Karmasin & Pitters 2007, 437). Dieser Aussage ist in weiten Teilen zuzustimmen. Tatsächlich besteht durch die transnationalen Umfragen die große Chance, eine auch transnational geführte Debatte über Europa loszutreten. Allerdings ist dies bis dato noch nicht gelungen. Denn ob es die angesprochene kollektive Selbstbeobachtung und ein Räsonieren über die EU durch Eurobarometer tatsächlich gibt, ist stark in Frage zu stellen. Wie die Autoren im selben Artikel selbst feststellen, gibt es nämlich von Land zu Land höchst unterschiedliche gesellschaftliche und kulturelle Voraussetzungen, was nicht nur eine Schwierigkeit für die Äquivalenz der zu vergleichenden Daten darstellt (vgl. Karmasin & Pitters 2007, 442 f.), sondern eben auch die Interpretation und die Rezeption in den jeweiligen nationalen Öffentlichkeiten beeinflusst. Selbstbeobachtung mag daher in Maßen noch für den jeweils eigenen Staat möglich sein, findet aber über die nationalen Grenzen hinweg weitgehend nicht statt. Die Agenda-Differenz, also die unterschiedliche Bedeutung von Themen in den Mitgliedstaaten macht eine europäische kollektive und transnationale Selbstbeobachtung schwierig. Dies lässt sich durch einen Blick in die österreichische Medienlandschaft auch empirisch nachweisen. So wurden die Ergebnisse der jüngsten Standard-Eurobarometer-Umfrage in allen relevanten Printmedien fast ausschließlich in Hinblick auf Österreich dargestellt. Der Standard titelte am 21. Jänner 2009 „Liebe war es nie“ und stellte die Entwicklung der österreichischen Meinung zur EU in den Mittelpunkt (Der Standard online 21.01.2009). Eine ähnliche Meldung fand sich auch in der Presse unter der Überschrift „EU-Skepsis: Österreich gibt die rote Laterne ab“ (Die Presse online 21.01.2009). Auch andere Medien beschäftigten sich in erster Linie mit der Zustimmung der Österreicher zur EU. Tiefergehende Berichte über weitere Fragestellungen aus dem umfangreichen Eurobarometer bleiben meist aus. Über Stimmungsbilder in anderen Ländern erfährt man wenig bis gar nichts. Dies hat mit der fehlenden europäischen Öffentlichkeit zu tun, in der transnationale 548
Eurobarometer und die Konstruktion eines europäischen Bewusstseins
Auseinandersetzungen um Inhalte sehr selten stattfinden. Da es kein genuin europäisches Mediensystem gibt, gibt es nicht eine europäische Selbstbeobachtung, sondern 27 nationale Selbstbeobachtungen. Die EUKommission und das Europaparlament können dafür freilich nicht verantwortlich gemacht werden. So werden die Eurobarometer-Ergebnisse etwa immer zuerst in Brüssel vor internationalen JournalistInnen präsentiert. Was dann in den nationalen Medien übrig bleibt, ist aber meist das, was einige Tage später in den nationalen Pressekonferenzen über die Länderberichte dargestellt wird. Dass die Medien nach wie vor hauptsächlich aus ihren nationalstaatlichen Perspektiven über Europa berichten, ist ein häufig beobachtetes Phänomen und empirisch gut belegt (vgl. Bruell & Mokre & Pausch 2009; Eder & Kantner 2000). Die Staats- und Regierungschefs sowie die jeweiligen FachministerInnen, die als gewählte VolksvertreterInnen in erster Linie ihren WählerInnen im eigenen Land verantwortlich sind, sowie – in stärkerem Ausmaß – auch die OppositionspolitikerInnen nutzen nicht selten die Chance, nationale Öffentlichkeiten sogar gegen Europa herzustellen, indem unpopuläre Maßnahmen der EU angelastet werden. Dass Eurobarometer dann vorrangig aus nationalstaatlicher Perspektive rezipiert wird, ist somit wenig verwunderlich. Öffentliche Selbstbeobachtung beschränkt sich daher meist auf nationale Öffentlichkeiten. Die häufig geforderte und demokratietheoretisch auch wünschenswerte europäische Öffentlichkeit kann sich durch diese Art der Rezeption schwer einstellen.
5 Konklusion Die Eurobarometer-Umfragen der Europäischen Kommission sind aus demokratiepolitischer Perspektive trotz aller Verdienste noch mangelhaft. Dies resultiert nicht zuletzt daraus, dass die Kommission als politische Institution bestrebt ist, ihre eigene Legitimation und die der europäischen Integration insgesamt zu steigern. Indem sie die Fragen auswählt und über ein faktisches Interpretationsmonopol verfügt, kann sie die Ergebnisse bzw. deren Darstellung in der Öffentlichkeit beeinflussen. Darüber hinaus wird durch das Fehlen einer transnationalen europäischen Öffentlichkeit die Diskussion über Europa hauptsächlich aus nationalstaatlicher Perspektive geführt, was einer kollektiven europäischen Selbstbeobachtung entgegensteht. Die demokratischen Funktionen der politischen Meinungsforschung werden somit von Eurobarometer in mehreren Bereichen noch nicht erfüllt. Die Chance, zur Herstellung einer europäischen Öffentlichkeit beizu549
Markus Pausch
tragen, wird derzeit noch durch die nationalen Öffentlichkeiten vereitelt. Gleichzeitig lässt aber die ständige Überarbeitung und Diskussion des Instruments sowie die Möglichkeit der Sekundäranalyse Verbesserungen durchaus auch in den demokratiepolitisch heiklen Punkten erhoffen.
Anmerkung 1
Zur umfangreichen Debatte über die Definition von „öffentlicher Meinung“ und „Öffentlichkeit“ vgl. Luhmann 1971, Habermas 1962, etc.
Literaturverzeichnis Albers, S., & Klapper, D., & Konradt, U., & Walter, A., & Wolf, J. (Hg.) (2007). Methodik der empirischen Forschung. Wiesbaden: Deutscher Universitätsverlag. Austria Presse Agentur (21.01.2008). Präsentation des Eurobarometer 68-Länderberichts für Österreich. Abgerufen am 17.06.2008, Website: http://www.ots.at/presseaussendung.php?schluessel=OTS_20080121_OTS0008. Beck, U., & Bonß, W. (Hg.) (1989). Weder Sozialtechnologie noch Aufklärung. Frankfurt: Suhrkamp. Bruell, C., & Mokre, M., & Pausch M. (Eds.) (2009). Democracy needs Dispute. The Referenda on the European Constitution. Frankfurt: Campus. Der Standard online, 21. Jänner 2009. Abgerufen am 04.02.2009, Website: www.derstandard.at. Die Presse online, 21. Jänner 2009. Abgerufen am 04.02.2009, Website: www.diepresse.at. Eder, C., & Kantner, C. (2000). Transnationale Resonanzstrukturen in Europa: Eine Kritik der Rede vom Öffentlichkeitsdefizit. Kölner Zeitschrift für Soziologie und Sozialpsychologie. Sonderheft 40. Wiesbaden: Westdeutscher Verlag, 306–331. Eurobarometer 60 (2003). Die öffentliche Meinung in der Europäischen Union, herausgegeben von der Europäischen Kommission. Brüssel. Eurobarometer 62 (2004). Die öffentliche Meinung in der Europäischen Union, herausgegeben von der Europäischen Kommission. Brüssel. Eurobarometer 66 (2006). Die öffentliche Meinung in der Europäischen Union, herausgegeben von der Europäischen Kommission. Brüssel. Eurobarometer 67 (2007). Die öffentliche Meinung in der Europäischen Union, herausgegeben von der Europäischen Kommission. Brüssel. Europäische Kommission (2004). Drei Jahrzehnte Eurobarometer: Die europäische Integration in der öffentlichen Meinung der Mitgliedstaaten. Brüssel.
550
Eurobarometer und die Konstruktion eines europäischen Bewusstseins European Commission (2006). Understanding European Public Opinion: Conference Conclusions. Brussels. Flash-Eurobarometer 151 (2003). Irak und der Weltfrieden, herausgegeben von der Europäischen Kommission. Brüssel. Gallup, G. H. (1939). Public Opinion in Democracy. Princeton: Baker Foundation. Gehler, M. (2006). Neuordnungsversuche und Verfassungsvorschläge für Europa – Ergebnis von Brüchen und Ausdruck von Krisen. In S. Puntscher-Riekmann & G. Herzig & C. Dirninger (Hg.), Europa Res Publica: Europäischer Konvent und Verfassungsgebung als Annäherung an eine europäische Republik? (13–60). Wien, Köln, Weimar: Böhlau Verlag. Gerhards, J. (1993). Westeuropäische Integration und die Schwierigkeiten einer europäischen Öffentlichkeit. Zeitschrift für Soziologie, 22 (2), 96–110. Glatzer, W., & Zapf, W. (1984). Lebensqualität in der Bundesrepublik: Objektive Lebensbedingungen und subjektives Wohlbefinden. Frankfurt, New York: Campus. Glucksmann, A. (2005). Hass. Die Rückkehr einer elementaren Gewalt. München: Nagel & Kimche. Habermas, J. (1962). Strukturwandel der Öffentlichkeit: Untersuchungen zu einer Kategorie der bürgerlichen Gesellschaft. Neuwied: Hermann Luchterhand Verlag. Habermas, J. (1994). Faktizität und Geltung: Beiträge zur Diskurstheorie des Rechts und des demokratischen Rechtsstaats. Frankfurt am Main: Suhrkamp. Hix, S., & Follesdal, A. (2005). Why there is a democratic deficit in the EU: A response to Majone and Moravcsik. European Governance Papers. C-05–02. Karmasin, M., & Pitters, H (2008). Methodenprobleme international vergleichender Umfragen am Beispiel des „Eurobarometer“. In G. Melischek & J. Seethaler & J. Wilke (Hg.), Medien- und Kommunikationsforschung im Vergleich. Wiesbaden: Verlag für Sozialwissenschaften. Keller, F. (1997). A Virtual Nation: Public Opinion Research and European Integration. Online Paper. Zürich. Lazarsfeld, P. F. (1948). Public Opinion and the Classical Tradition. Public Opinion Quarterly, 13, 39–53. Luhmann, N. (1971). Politische Planung: Aufsätze zur Soziologie von Politik und Verwaltung. Opladen: Westdeutscher Verlag. Moravcsik, A. (2001). Despotism in Brussels? Misreading the European Union. Foreign Affairs, May/June 2001. New York. Noll, H.-H. (1999). Ein System Sozialer Indikatoren für Europa. In H. Schwengel & B. Höpken (Hg.), Grenzenlose Gesellschaft? Band II. Pfaffenweiler. ORF on, Stabile EU-Skepsis der Österreicher. Abgerufen am 17.06.2008, Website: http:// oesterreich.orf.at/stories/252159/.
551
Markus Pausch Pausch, M. (2006). Die europäische Öffentlichkeit im konstitutionellen Prozess. In S. Puntscher Riekmann & G. Herzig & C. Dirninger (Hg.), Europa Res Publica. Europäischer Konvent und Verfassungsgebung als Annäherung an eine europäische Republik? (189–211) Wien: Böhlau. Risse, T. (2003). An Emerging European Public Sphere? Theoretical Clarifications and Empirical Indicators. Paper presented to the Annual Meeting of the European Union Studies Association (EUSA). Nashville. Rosamond, B. (2000). Theories of European Integration. Houndsmill and London: MacMillan Press. Schuijt, W. (1972). Report on the Information Policy of the European Communities. Brussels. Spezial-Eurobarometer 240 (2006). AIDS-Prävention, herausgegeben von der Europäischen Kommission. Brüssel. Torgersen, H. (2005, Dezember). Wozu Umfragen? Über die Rolle der EurobarometerUmfragen in der Kontroverse über die Nutzung der Gentechnik. Technikfolgenabschätzung Theorie und Praxis, Nr. 3, 14. Jahrgang, 20–29.
552
Martin Weichbold
Martin Weichbold
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen Zusammenfassung Der Beitrag geht der Frage nach, wie die Qualität einer Umfrage beurteilt werden kann. Dabei werden unterschiedliche Ansätze diskutiert, die in der Konzeption von Qualität und in der Umsetzung dieser Konzeption differieren. Während in der universitären Ausbildung nach wie vor die klassischen Gütekriterien, die einer inhaltlichen Definition als Abweichung von einem wahren Wert folgen, unterrichtet werden, werden in der sozialforscherischen Praxis andere Konzepte verfolgt. Dabei sind zu nennen: Codes of Ethics, die sich auf die moralische Verantwortung der WissenschaftlerInnen beziehen; Standards bzw. Richtlinien, die den Forschungsprozess in viele Einzelschritte zergliedern, und die Qualitätssicherung mittels Zertifizierung von Sozialforschungsunternehmen, um Strukturen und Prozesse zu kontrollieren. An der Schnittstelle zwischen Wissenschaft und Praxis werden die Qualitätskriterien der Umfrageforschung der DFG besprochen. Schließlich wird mit dem Total Survey Error ein Konzept vorgestellt, das inhaltliche und prozessorientierte Qualitätskonzeptionen verbindet. Die Ansätze zur Qualitätsbeurteilung haben nicht nur unterschiedliche Herkunft, sie weisen auch in unterschiedliche Richtungen. Dabei lassen sich vier Dimensionen (Produkt, Prozess, Organisation, Person) feststellen. Somit zeigt sich insgesamt, dass die Frage nach der Qualität einer Befragung sehr vielschichtig ist und sich nicht auf einen einzelnen Bewertungsmaßstab reduzieren lässt.
Abstract Assessment and Assurance of a Survey’s “Quality” The article deals with the question, how to judge the quality of a survey. There are various approaches that differ considerably with regard to the conceptualisation and implementation of quality. While the classical criteria of validity/reliability/objectivity that follow a contentual definition as a deviation from a true value are still important in academic education, various concepts exist in practice of social research: Codes of Ethics that refer to the ethical responsibil-
553
Martin Weichbold
ity of scientists; standards or guidelines, which structure the research process in a sequence of individual steps; and quality assurance that leverages certifications by social research organisations to control structures and processes. Additionally, the quality criteria for survey research, edited by the German Research Foundation DFG, is discussed. Finally, the Total Survey Error is being presented as an integrative approach that brings together content-based and process-orientated quality concepts. The concepts do not only differ in their origins, they deal with different directions. Four dimensions can be found: product, process, organization, and person. All in all it can be shown that the quality assessment of a survey represents a complex issue, which cannot be confined to a single rating scale.
1 Einleitung „Wie eine repräsentative Studie des renommierten Sozialforschungsinstitutes xy ergab, . . .“ – Solche oder so ähnliche Formulierungen begegnen uns regelmäßig in Medien, wenn es darum geht, Ergebnisse empirischer Untersuchungen als aussagekräftig, verlässlich und vertrauenswürdig zu kennzeichnen. Der Verweis auf die Repräsentativität einer Studie ist dabei allenfalls noch mit einem Hinweis auf den Stichprobenumfang verbunden, nur mehr in seltenen Fällen auf die Erhebungsmethode und so gut wie nie mit einer Angabe des (eigentlich ausschlaggebenden) Stichprobenverfahrens. Der Hinweis auf die Bekanntheit des durchführenden Institutes soll wohl ebenfalls Vertrauen in die dort erzielten Ergebnisse schaffen. Die Verwendung derartiger Formulierungen zeigt, dass es die Notwendigkeit gibt, die Aussagekraft von Forschungsergebnissen in der Darstellung nach außen abzusichern. Dies ist wohl nicht zuletzt eine Folge von in der Öffentlichkeit als widersprüchlich wahrgenommenen Studienergebnissen oder falsifizierten Prognosen, die zu einer „Entmonopolisierung wissenschaftlicher Erkenntnisansprüche“ (Beck 1986, 256) geführt haben. KonsumentInnen von Umfragen, AuftraggeberInnen wie die Öffentlichkeit, aber auch die WissenschafterInnen selbst stehen also vor der Frage, wie die Qualität einer Umfrage einzuschätzen ist.
2 Klassische Gütekriterien Zieht man zunächst Lehrbücher zur empirischen Sozialforschung zu Rate, so stößt man in aller Regel auf die klassischen Gütekriterien. Validität, Reliabilität und Objektivität finden sich nicht nur in alten und neuen Klassikern (z. B. 554
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
Atteslander 2008; Friedrichs 1990; Schnell & Hill & Esser 2005; Bortz & Döring 2006)1, sondern auch in neu konzipierten Einführungen (z. B. Häder 2006; Weischer 2007). Sie beruhen auf den Axiomen der klassischen Testtheorie und werden in der Regel im Zusammenhang mit der Konstruktion von Messinstrumenten (Skalen) besprochen. Sie beziehen sich darauf, wie „gut“ ein Instrument in der Lage ist, den gesuchten wahren Wert zu messen. Dennoch gibt es Unbehagen und Kritik, die an unterschiedlichen Ebenen ansetzt: (1) Eine oft und auch in manchen Lehrbüchern geäußerte Kritik betrifft die Umsetzung der Gütekriterien in der Praxis. Beispiele sind die Abhängigkeit des als Reliabilitätsmaß verwendeten Koeffizienten Cronbachs Alpha von der Itemanzahl (vgl. z. B. Schnell & Hill & Esser 2005, 153) oder die Schwierigkeit der Bestimmung der Validität mangels geeigneter Verfahren oder Kriterien (vgl. z. B. Bortz & Döring 2006, 199 f.). Diese Form der Kritik zielt auf die Umsetzung der Gütekriterien, stellt diese selbst aber nicht in Frage. (2) Tiefer geht jene Kritik, die die Anwendbarkeit der Gütekriterien auf empirische Sozialforschung (oder zumindest auf relevante Teile derselben) in Frage stellt. Rohwer & Pötter (2001, 23) unterscheiden „Tests“ von „Interviews“ und argumentieren, dass die Gütekriterien, die aus der klassischen Testtheorie abgeleitet sind und sich auf das „Messen“ beziehen, in einer soziologisch orientierten Sozialforschung nicht anwendbar sind, weil es hier nicht um das Messen von Eigenschaften gehe: „Interviews sind dann nicht ,Messinstrumente‘, um Eigenschaften der jeweils befragten Personen zu ermitteln, sondern Verfahren zur kommunikativen Informationsgewinnung über Sachverhalte“ (ebda. 31), bei denen die klassischen Gütekriterien wenig hilfreich sind. Zwar kann man „vielleicht eine vage Vorstellung bekommen, was mit ,Reliabilität‘ und ,Validität‘ gemeint sein könnte“ (ebda. 127), diese Fragen seien für Interviews [und somit für die Umfrageforschung, M. W.] aber auf einer anderen Ebene, nämlich einer inhaltlichen Diskussion um „sinnvolle Größenbegriffe“ (ebda.) zu erörtern.2 (3) Schließlich gibt es Ansätze, die die Annahme der klassischen Testtheorie, nach der der Messwert aus wahrem Wert plus Messfehler besteht, überhaupt in Frage stellen. Diese Form der Kritik setzt auf wissenschafts- bzw. erkenntnistheoretischer Ebene an und wird von konstruktivistischen Positionen formuliert (vgl. Steinke 1999, 81 ff.). Wenn die Existenz oder zumindest die Erkennbarkeit eines „wahren“ Wertes bestritten wird, erübrigt sich die Frage, wie weit man davon entfernt ist. Freilich wird diese Position innerhalb der (quantitativen) Umfrageforschung kaum thematisiert (geschweige denn vertreten), sondern stellt vielmehr einen Grundeinwand qualitativ orientierter Forschungsansätze dar. 555
Martin Weichbold
Trotz dieser erheblichen Kritik sind die klassischen Gütekriterien seit Jahrzehnten fester Teil des Lehrkanons der empirischen Sozialforschung. Doch auch wenn man sie grundsätzlich akzeptiert, werden sie in der Praxis nur in bestimmten Bereichen systematisch eingesetzt.3 Insbesondere im Bereich der kommerziellen Umfrageforschung sucht man Angaben zu den Gütekriterien oft vergeblich. Dies bedeutet allerdings nicht, dass in der angewandten Forschung keine Überlegungen zur Qualität von Umfragen angestellt werden.
3 Qualitätssicherung aus der Praxis Aus Praxisanforderungen entstanden in den letzten Jahren und Jahrzehnten mehrere, einander teilweise beeinflussende Ansätze zur Qualitätsbestimmung und -sicherung. Wesentlich an dieser Diskussion beteiligt waren neben den Einrichtungen der amtlichen Statistik die Verbände der Sozialund Marktforschungseinrichtungen, aber auch die Deutsche Forschungsgemeinschaft DFG. In deren Auftrag hat Max Kaase 1999 die Denkschrift „Qualitätskriterien für die Umfrageforschung“ herausgegeben, an der zahlreiche WissenschaftlerInnen aus unterschiedlichen Bereichen mitgearbeitet haben.
3.1 Qualitätskriterien der DFG Der Anspruch der Denkschrift orientiert sich an akademisch-wissenschaftlichen Kriterien, zugleich wird aber auch versucht, die kommerzielle Sozial-, Markt- und Meinungsforschung einzubinden. Dabei wird die Qualitätsdiskussion in zwei Ebenen differenziert: die potentielle Qualität eines Verfahrensmodells (z. B. Zufallsstichprobe versus Quotenstichprobe oder verschiedene Befragungsarten) und die erreichte Qualität einer konkreten Umfrage (vgl. 107). Für verschiedene Bereiche der Forschungsarbeit (Stichproben; Fragebogen; Feldarbeit) werden Modelle dargestellt und potentielle Problembereiche und Möglichkeiten des Umgangs damit identifiziert. Dazu werden ,good practices‘ und ,best practices‘ aufgelistet und auf diese Weise Qualitätskriterien definiert. Zur Frage des geeigneten Stichprobenverfahrens4 drückt sich das Dokument um eine klare Positionierung. Es betont die „möglichst exakte Definition der Grundgesamtheit“, die „für die Entwicklung von guten Stichproben556
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
plänen unabdingbar“ sei und bezeichnet Stichproben als wünschenswert, „deren Struktur in Bezug auf die Merkmale nicht von der Struktur der Merkmale und Merkmalskombinationen in der Gesamtheit abweicht“, wobei „eine besondere Bedeutung [. . .] Stichproben zugeschrieben [wird], die nach dem Zufallsprinzip ausgewählt werden“ (Kaase 1999, 16 f.). An späterer Stelle wird auf die „in der Praxis bewährten Quotenstichproben“ (34) verwiesen. Als Best Practice (Zufallsstichproben aus Registern) und Good Practice (ADM-Stichproben oder vergleichbare Designs) werden jedoch nur Random-basierte Verfahren genannt, freilich mit dem Hinweis, dass unter Umständen auch „andere Arten der Stichprobenziehung erforderlich oder sinnvoll sein“ können (35). Ohne auf die einzelnen Punkte im Detail einzugehen, zeigt sich hier eine andere Herangehensweise an die Bestimmung und Sicherung von Qualität. Die zugrunde liegende Idee von Qualität steht durchaus im Einklang mit den klassischen Gütekriterien: mit Hilfe entsprechender Stichproben- und Erhebungsverfahren eine korrekte Messung durchzuführen. Dieses soll jedoch durch die Anwendung geeigneter Verfahren und ihre saubere Durchführung gewährleistet werden, d. h., Qualität wird über die gute Arbeit in den einzelnen Phasen des Forschungsprozesses definiert. Der Fokus wechselt von der ,Produktqualität‘ zur ,Prozessqualität‘. Bemerkenswert ist in diesem Zusammenhang, dass diese Qualitätsmaßstäbe als „breite[r] Konsens von SozialwissenschaftlerInnen in Hochschulen und außeruniversitären wissenschaftlichen Forschungsinstituten, NutzerInnen und AnwenderInnen von Umfrageergebnissen und führenden VertreterInnen von AnbieterInnen auf dem Umfrage-Markt“5 definiert werden. Das mag konsistent erscheinen, ist aber nicht ungefährlich: Während das Axiom der Testtheorie vom „wahren Wert“ eine zwar imaginäre, aber doch fixe Bezugsgröße für Qualität bietet, geht diese beim Perspektivenwechsel auf die Prozessebene verloren: Was unter guter Arbeit verstanden wird, ist Angelegenheit des Common Sense der WissenschaftlerInnen. Die Denkschrift der DFG betont an mehreren Stellen den Anspruch, Qualitätskriterien nicht nur für die universitäre und außeruniversitäre wissenschaftliche Forschung, sondern auch die kommerzielle Markt- und Meinungsforschung zu formulieren; VertreterInnen dieser Einrichtungen waren auch als AutorInnen eingebunden. Daneben gibt es seitens der Verbände der Sozialforschungseinrichtungen aber auch eigene Ansätze zur Qualitätsbeurteilung und -sicherung. Dabei sind unterschiedliche Ebenen zu unterscheiden.
557
Martin Weichbold
3.2 Code of Ethics Berufsständische Vereinigungen (z. B. ADM, ESOMAR, AAPOR, WAPOR . . .)6 verfügen in der Regel über einen Code of Ethics.7 Dieser formuliert allgemeine Regeln in Form von Anweisungen für ein richtiges [im Sinne von: ethisches] Verhalten. Der ICC/ESOMAR Internationale Kodex8 umfasst etwa acht Grundprinzipien und 14 zum Teil weiter differenzierte Artikel. Die Abstraktionsebene ist notwendigerweise hoch, so heißt es etwa in Artikel 4e: „Marktforscher müssen sicherstellen, dass Marktforschungsprojekte genau, transparent und objektiv konzipiert, ausgeführt, berichtet und dokumentiert werden.“ (ESOMAR 2007, 4)9 Das amerikanische Pendant, der „AAPOR Code of Professional Ethics & Practices“ (AAPOR 2005), ist von Umfang und Aufbau her ähnlich,10 die Formulierung der einzelnen Artikel mit „We shall . . .“ vermittelt einen gelöbnishaften und beinahe feierlichen Charakter. In Artikel I.A. wird etwa ausgeführt: „We shall recommend and employ only those tools and methods of analysis that, in our professional judgement, are well suited to the research problem at hand.“ Auch wenn die einzelnen Anweisungen abstrakt und allgemein sind, werden in den Codes of Ethics alle relevanten Bereiche eines Umfrageprojektes behandelt. Neben Grundprinzipien wie Redlichkeit und berufsständischer Verantwortung wird auch auf Datenschutz, Umgang mit Befragten wie AuftraggeberInnen oder die Offenlegung der eingesetzten Verfahren11 eingegangen. Bemerkenswert an dieser Form der Qualitätssicherung ist, dass Moral und Verantwortungsbewusstsein des einzelnen Forschers/Forscherin eine hohe Qualität der Untersuchung sicherstellen sollen, Qualitätssicherung also über ethische Verhaltensanweisungen für die Beteiligten erfolgt. Was als qualitätsvoll gilt, ist Angelegenheit des „professional judgement“ des Einzelnen und somit vom Konsens der scientific community entfernt, wenngleich nicht völlig losgelöst. Die Frage, wie die Einhaltung der Codes zu kontrollieren ist, bleibt weitgehend unklar. Mit dem Beitritt zu einem Verband unterwerfen sich Sozialforschungseinrichtungen den Richtlinien. Die Verbände verfügen über Schiedsstellen und Einrichtungen, bei denen Verstöße gegen die Richtlinien angezeigt werden können, wie oft dies in der Praxis passiert, ist jedoch nicht bekannt. Es ist anzunehmen, dass dies nur bei wenigen, gravierenden Fällen geschieht, die wohl auch rechtliche Bestimmungen verletzen (z. B. Datenschutzbestimmungen).
558
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
3.3 Richtlinien und Standards Auf einer konkreteren Ebene angesiedelt, aber durchaus komplementär zu den Codes of Ethics, sind Richtlinien und Standards. Sie beschreiben Minimalanforderungen für die Durchführung von Forschungsprojekten. Art und Umfang der Standards sind von Verband zu Verband deutlich unterschiedlicher, als dies bei den Codes of Ethics der Fall war. Ein Beispiel für eine kurze12 und eher allgemeine Anleitung ist das AAPOR-Dokument „Best Practices“. Es ist überschrieben mit dem Statement: „The quality of a survey is best judged not by its size, scope, or prominence, but by how much attention is given to [preventing, measuring, and] dealing with the many important problems that can arise.“ (AAPOR o. J.). Die Qualität einer Umfrage ist also auch hier durch die sorgfältige Durchführung zu gewährleisten, ist also prozessorientiert. In der Folge sind 12 Punkte aufgelistet, die sehr allgemein formuliert sind, und zum Teil an die Sorgfalt des Forschers/der Forscherin appellieren, d. h. sie sind noch deutlich an den ethischen Regeln orientiert: „How to produce a quality survey: • Have specific goals. • Consider alternatives. • Select samples that well represent the population to be studied. • Use designs that balance costs with errors. • Take great care in matching question wording to the concepts being measured and the population studied. • Pretest questionnaires and procedures. • Train interviewers carefully on interviewing techniques and the subject matter of the survey. • Check quality at each stage. • Maximize cooperation or response rates within the limits of ethical treatment of human subjects. • Use appropriate statistical analytic and reporting techniques. • Develop and fulfil pledges of confidentiality given to respondents. • Disclose all methods of the survey to allow for evaluation and replication.“ (AAPOR o. J.) In den einzelnen Ausführungen sind aber konkrete, zum Teil durchaus punktuelle Anleitungen enthalten. Zur Frage der Stichproben wird etwa ausgeführt: „all surveys taken seriously [. . .] use some form of random or probability sampling“ (AAPOR o. J., Kap. 3), es werden also nur Zufallsstichproben als wissenschaftlich anerkannt. Bemerkenswert ist auch die Betonung 559
Martin Weichbold
von Kosten-Nutzen-Aspekten, d. h. Qualität wird in Relation zum damit verbundenen Aufwand definiert (Kap. 4). Ergänzt werden die „Best Practices durch ein eigenes Dokument zur Frage der Offenlegung, „Disclosure Standards“, sowie eine Abgrenzung zu nicht standesgemäßen Vorgehensweisen, „Survey Practices that AAPOR Condemns“. Auf europäischer Ebene13 gibt es kein umfassendes Dokument, ESOMAR hat aber eine Reihe von „Guidelines“ zu einzelnen Bereichen herausgegeben. Ein Dokument, „Notes on how to Apply the ICC/ESOMAR International Code of Marketing and Social Research Practice“, beschäftigt sich damit, wie der Ethik-Code in der sozialforscherischen Praxis umgesetzt werden kann. Die Mehrzahl der anderen Guidelines beschäftigt sich mit spezifischen Fragestellungen wie „Conducting research using the Internet“, „Customer satisfaction studies“, „Interviewing children and young people“ oder „Tape and video recording and client observation of interviews and group discussions“. Das heißt, es handelt sich um thematisch abgegrenzte Fragestellungen, für die jeweils spezifische Handlungsanweisungen und Anforderungen erläutert werden. Der Umfang dieses Guidelines ist relativ knapp; die Anweisungen zu Interviews mit Kindern und Jugendlichen umfassen etwa 10 Punkte. Ausführlicher und dadurch auch konkreter sind die „Standards zur Qualitätssicherung in der Markt- und Sozialforschung“ des ADM formuliert (ADM 1999)14. Bemerkenswert ist allerdings eine einleitende Feststellung: „Die Vergabe von Normen, die den Forschungsprozess im Detail reglementieren, widerspräche dem pluralistischen Verständnis von Wissenschaft als einer entscheidenden Voraussetzung für den Fortschritt wissenschaftlicher Erkenntnis und Methoden. Sie stellte zudem einen unzulässigen Eingriff in die Tätigkeiten der privatwirtschaftlich organisierten Markt- und Sozialforschungsinstitute dar. Die Qualität der Forschung muss sich durch die ,unsichtbare Hand des Marktes‘, durch ein entsprechendes Angebot und vor allem eine entsprechende Nachfolge regulieren“ (4). Diese Relativierung der danach folgenden Standards ist zum einen ein Hinweis auf das Spannungsfeld zwischen der kreativen Erarbeitung eines individuellen und adäquaten Forschungsdesigns und dem Wunsch nach Vergleichbarkeit und Standardisierung und deutet zum anderen auf einen wesentlichen Zweck der Qualitätssicherungsinstrumente hin: Die Verbände haben ein massives Interesse an Selbstregulierung und Eigenbestimmung, nicht nur um das eigene Image zu profilieren und sich im Wettbewerb gegen andere Informationsanbieter zu positionieren (vgl. Wiegand 2007, 44), sondern auch um gesetzlichen Regelungen zuvorzukommen, die bei Nichtfunktionieren der ,Selbstreinigungskräfte‘ drohen. 560
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
Die „Standards zur Qualitätssicherung in der Markt- und Sozialforschung“ sind ein recht umfangreiches Dokument von rund 60 Seiten, in dem verschiedene Bereiche behandelt werden: • Allgemeine Aspekte der Qualitätssicherung • Zusammenarbeit mit dem Auftraggeber • Konzeptionelle Studienbegleitung/Studienleitung • Datenerhebung • Datenverarbeitung • Beratung des Auftraggebers Jeder dieser Punkte ist in bis zu sieben Unterpunkte gegliedert, die wiederum weiter untergliedert sind. Dadurch entsteht eine stark strukturierte Aufgliederung der Thematik, wenngleich sich dort kaum eine konkrete inhaltliche Festlegung findet. Dies wird etwa am Beispiel der „Größe und Qualität der Stichprobe“ deutlich. Dazu wird festgehalten: „Die Größe und Qualität der Stichprobe orientieren sich in erster Linie an der Problemstellung der Untersuchung. Bei qualitativen Stichproben muss aufgrund der geringen Fallzahlen besondere Sorgfalt bei der Selektion der teilnehmenden Personen aufgewendet werden. Die Größe der Stichprobe ist so zu bemessen, dass sowohl in der Gesamtstichprobe als auch in den auswertungsrelevanten Untergruppen eine hinsichtlich des jeweiligen Forschungsziels vertretbare Fehlertoleranz vorliegt.“15 (Kap. IV/A/2., 30) Die einzelnen ForscherInnen sind also nicht aus ihrer moralischen Verantwortung entlassen, im Gegenteil wird die notwendige besondere Sorgfalt betont. Die Bedeutung der ADM-Standards liegt weniger darin, eine inhaltliche Definition von Qualitätsanforderungen an die Umfrageforschung zu liefern, sondern mit der fein strukturierten Aufzählung der verschiedenen Bereiche einen Katalog relevanter Themen und potentieller Problemfelder für eine Qualitätsbewertung und -sicherung bereitzuhalten. Ein weiteres bemerkenswertes Beispiel für Richtlinien sind die „CrossCultural Survey Guidelines“ (2008). Sie sind in einer Kooperation von Universitäten und Einrichtungen aus mehreren Ländern (für Deutschland Gesis, Leibniz-Institut für Sozialwissenschaften) entstanden und ungewöhnlich detailliert: In 14 Modulen und knapp 300 Seiten16 geht das Dokument auf organisatorische Belange ebenso ein wie auf ethische Überlegungen, beschäftigt sich aber hauptsächlich mit den verschiedenen Phasen des Forschungsprozesses.17 In einer durchgängigen Struktur werden jeweils „Goals“ formuliert, aus denen konkrete Forderungen abgeleitet werden, die ihrerseits inhaltlich begründet und mit „Procedural Steps“ sowie Praxiserfahrungen erläutert werden. Die Prozessorientierung ist hier mit inhaltlichen Überlegungen verbunden. 561
Martin Weichbold
3.4 Zertifizierung In den Verbänden und Instituten der Markt- und Sozialforschung wird aktuell eine weitere Form der Qualitätssicherung intensiv diskutiert: Die Zertifizierung nach ISO. Das bedeutet, dass ein Unternehmen ein Qualitätsmanagementsystem implementiert und anwendet und sich dies von einem autorisierten Zertifizierungsunternehmen bestätigen lässt. Die Aktualität der Diskussion ergibt sich aus der Tatsache, dass 2006 die ISO-Norm 20252 für Markt-, Meinungs- und Sozialforschung in Kraft getreten ist. Damit erfolgt ein Schritt von brancheninternen Qualitätsstandards hin zu international anerkannten und zertifizierten Normen (vgl. Mühlbauer 2007, 40). Mit dem generellen Trend, nicht nur Produkte, sondern auch Dienstleistungen zu zertifizieren, gab es auch in der Markt- und Sozialforschung bereits seit mehreren Jahren Bestrebungen, mit der Zertifizierung einen Qualitätsausweis und damit einen Vorteil im Wettbewerb des Marktes zu schaffen. Anfänglich war nur eine Zertifizierung nach der allgemeinen Norm ISO 9000 bzw. ISO 9001 möglich, mit dem lediglich eine Implementierung eines Qualitätssicherungssystems nachgewiesen wurde.18 Der Entwicklung einer spezifischen internationalen Norm gingen etliche nationale Ansätze voraus, so etwa in den 1990er Jahren der britische Standard BSI 7911. In Deutschland wurde 2003 – in Weiterentwicklung der oben behandelten Standards – eine spezifische DIN-Norm 77500 entwickelt. Diese ist schließlich in der Internationalen ISO-Norm 20252 für Markt-, Sozial- und Meinungsforschung aufgegangen und wurde durch diese ersetzt (vgl. Wiegand 2007, 45 f.). Als Anwendungsbereich wird definiert, dass „diese internationale Norm [. . .] die Begriffe und Definitionen sowie die Anforderungen an die Dienstleistungen fest[legt], die an Organisationen und Personen gestellt werden, die Markt-, Meinungs- und Sozialforschung betreiben.“ (DIN 2006, 7). Nach einer glossarartigen Definition von 65 Begriffen folgen jene Abschnitte, die die Anforderungen für eine Zertifizierung spezifizieren: • Anforderung an das Qualitätsmanagementsystem • Handhabung der konzeptionellen Forschungsaspekte • Datenerhebung • Datenmanagement und Datenverarbeitung • Berichterstattung Wer in der ISO-Norm eine inhaltliche Definition von Qualität etwa von Umfragen sucht, wird enttäuscht werden. Qualität soll über zwei Dimensionen erreicht werden: zum einen über organisatorische Rahmenbedingungen (hierin wird beispielsweise definiert, dass die Dokumentation eines For562
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
schungsprojektes bestimmte Anforderungen erfüllen muss oder dass ein Qualitätsbeauftragter benannt werden muss), zum anderen über Verfahrensvorschriften (dies umfasst Anweisungen, wie auf eine Anfrage zu reagieren ist, welche Informationen ein Untersuchungszeitplan zu enthalten hat, wie die Mitwirkung des Auftraggebers/der Auftraggeberin zu regeln ist, usw.). Das Prinzip von Normen lässt sich wieder an der Frage nach einer geeigneten Stichprobe zeigen. Dazu führt die Norm 20252 aus (Kap. 4.5., 20 f.): „Anforderungen: Die Stichprobenanlage muss auf dem gewählten Auswahlverfahren basieren. [. . .] Das bei der Ziehung der Stichprobe eingesetzte Verfahren ist zu dokumentieren. Die Merkmale der Stichprobe sind durch den Forschungsleiter auf der Grundlage der Stichprobenkriterien für das spezielle Forschungsprojekt zu kontrollieren.“ Die Ausführung zur Größe der Stichprobe ist wortgleich mit der Formulierung der ADM-Standards, sie ist „so zu bemessen, dass sowohl hinsichtlich der Gesamtstichprobe als auch in den auswertungsrelevanten Untergruppen eine hinsichtlich der Ziele des Forschungsprojekts vertretbare statistische Fehlertoleranz vorliegt.“ Anschließend werden sowohl für Zufallsstichproben als auch für Quotenstichproben Qualitätskriterien angeführt, wobei sich diese wiederum auf die Kontrolle und Dokumentation der Vorgehensweise beziehen. Für Quotenstichproben wird etwa ein Quotenplan gefordert, wobei sowohl die Quelle der Quoten, die Kontrolle der Einhaltung als auch die Anzahl der Interviews für jedes zu kontrollierende Merkmal angegeben werden müssen. Appelle an moralische Integrität und die Sorgfalt sind verschwunden, die Einhaltung der ,Norm‘ soll durch Kontrolle geschehen, die weitgehende Dokumentation aller Schritte voraussetzt. Bei dieser Form von Qualitätsbestimmung stellt sich die Frage, wie das Verhältnis von Organisations- und Prozesskontrolle zu inhaltlicher Qualität beschaffen ist. Diese muss nicht zwangsläufig gegeben sein, „da im Rahmen einer Norm zunächst ,nur‘ Prozesse festgelegt und definiert werden. Die Einhaltung eines Prozesses allein garantiert aber noch keine Qualität“ (Köstner 2007, 170). Es wird nur festgestellt, ob ein Ablauf einer Handlung (z. B. Stichprobenziehung) richtig durchgeführt wird, nicht aber, ob die Handlung (die Art der Stichprobe) richtig ist.19 Doch wie kann man die inhaltliche Dimension wieder in die Diskussion hereinholen?
563
Martin Weichbold
4 Total Survey Error Seit einigen Jahren wird in der englischsprachigen Methodenliteratur ein Ansatz verfolgt, der im deutschen Sprachraum erst sehr zaghaft rezipiert wird. Der Ansatz des Total Survey Error [TSE]20 (vgl. Biemer & Lyberg 2003; Weisberg 2005) verbindet die Prozess-Sicht und die inhaltlichen Überlegungen zur Qualität einer Umfrage wieder miteinander und integriert beides in einem Gesamtkonzept. Das Konzept basiert auf dem Axiom der klassischen Testtheorie, wonach sich der gemessene Wert aus „wahrem Wert“ und Fehler zusammensetzt, wobei dieser Fehler auf vielfältige Einflüsse zurückzuführen ist. Dieser Gesamtfehler besteht zunächst aus dem Sampling Error (dem bekannten Stichprobenfehler) und Nonsampling Error, also allen anderen Fehlern.21 Der Nonsampling-Fehler setzt sich nun aus vielen Fehlern entlang der einzelnen Phasen und Entscheidungen des Forschungsprozesses zusammen. Biemer & Lyberg (2003, 39) unterscheiden etwa fünf (in der Folge weiter differenzierte) Hauptarten von Nonsampling Error: specification error, frame error, nonresponse error, measurement error und processing error.22 Ohne im Detail auf die einzelnen Fehler einzugehen, sind mit diesem Ansatz einige Implikationen verbunden: • Grundsätzlich wird Qualität als multidimensionales Konstrukt aufgefasst, das in seiner allgemeinsten Form als ,fitness for use‘ definiert werden kann.23 Je nach Anforderungen lassen sich dann zahlreiche Qualitätskriterien ableiten, von denen lediglich eines, nämlich accuracy [Exaktheit] mit dem TSE erfasst wird. Andere Qualitätsmerkmale, etwa Relevanz, Kohärenz oder Verfügbarkeit, werden in dem Konzept nicht berücksichtigt. • Der TSE bezieht sich auf eine inhaltliche Vorstellung von Qualität. Ähnlich wie bei den Gütekriterien Validität und Reliabilität geht es um die Abweichung von einem „wahren Wert“ – damit unterstellt man auch die Existenz eines solchen. • Für den TSE gilt, dass Qualitätskontrolle mit Hilfe von Prozesskontrolle geschieht. Indem die Durchführung einer Umfrage [survey] als ein Prozess mit der Abfolge aufeinander bezogener Entscheidungen begriffen wird (vgl. Biemer & Lyberg 2003, 26 ff.; Scheuren 2004), ließe sich der TSE etwa innerhalb eines Zertifizierungsansatzes umsetzen. In dieser Hinsicht ist der TSE ein integratives Konzept, das inhaltliche wie prozessuale Aspekte kombiniert. • Listet man die einzelnen Fehler auf (wie Weisberg 2005), ist der TSE ein praktisches analytisches Instrument, um Vorzüge und mögliche Problembereiche eines Umfrageprojektes zu beschreiben. In einem nächsten Schritt geht es aber darum, den Gesamtfehler – im Sinne der Abweichung zum 564
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
„wahren“ Wert – zu quantifizieren. Ähnlich wie der einfach zu ermittelnde Stichprobenfehler24 sollte es auch möglich sein, alle anderen Fehler zu messen. Dies versuchen Biemer, & Lyberg (2003), wobei hier zu den einzelnen Fehlern umfangreiche weitere Kenntnisse und Annahmen notwendig sind. Darauf soll an dieser Stelle nicht näher eingegangen werden.
5 Resümee Nicht nur ,Qualität‘ ist ein multidimensionales Konstrukt, sondern offenbar auch die Qualitätsbestimmung. Es wurden verschiedene Ansätze gezeigt, die sich zum Teil wesentlich unterscheiden, aber auch Verbindungspunkte aufweisen. Qualität wird in unterschiedlichen Dimensionen thematisiert. Die verbreitete Differenzierung zwischen Produkt, Prozess und Organisation (vgl. Lyberg & Biemer 2008) muss noch durch die Ebene der Person ergänzt werden. Eine Leitdifferenz bei der Bestimmung von Qualität ist jene zwischen Inhalt (Produkt) und Form (Prozess der Erzeugung). Einige Ansätze versuchen eine inhaltliche Definition von Qualität (etwa die Gütekriterien oder der Total Survey Error).25 Andere, etwa die Qualitätssicherung durch Zertifizierung von Instituten, verzichten von vornherein auf eine inhaltliche Qualitätsdefinition und beschränken sich auf die Kontrolle von Strukturen und Prozessen. Dazwischen sind jene Ansätze einzuordnen, die sich zwar von inhaltlich definierten Qualitätsmaßstäben leiten lassen, diese aber nicht selbst spezifizieren, sondern dies dem common sense der scientific community oder dem professional sense des/der Einzelnen überlassen. Dies ist etwa bei den Qualitätskriterien der DFG (zumindest teilweise), den Codes of Ethics und den Standards der Sozialforschungsverbände der Fall. Dem zugrunde gelegten Qualitätskonzept folgen auch die Wege der Qualitätsbeurteilung und -kontrolle. Bei inhaltlich festgelegten Kriterien liegt es nahe, diese auch zu bestimmen oder zu messen (z. B. Koeffizienten für Reliabilität oder TSE). Bemerkenswert ist, dass der moralische Appell an eine gewissenhafte Durchführung nicht nur bei den Codes of Ethics zu finden ist, sondern teilweise auch in den Standards und Richtlinien. Bei deren Weiterentwicklung, der Zertifizierung von Sozialforschungsinstituten, will man sich aber offensichtlich nicht mehr auf die Integrität der ForscherInnen verlassen: An ihre Stelle treten weit reichende Dokumentations- und Kontrollpflichten. So pendelt die Qualitätsdiskussion zwischen Inhalten und Prozessen, zwischen Vertrauen und Kontrolle. Es ist klar geworden, dass es „die“ Qualität nicht gibt: So wie „gute“ Sozialforschung aus einem komplexen Prozess 565
Martin Weichbold
vieldimensionaler, aufeinander bezogener Handlungen und Entscheidungen entsteht, wird man es letztlich nicht mit einer einzigen Kennzahl, einem wohlklingenden Begriff oder einem Gütezeichen umfassend bewerten können. Diese Erkenntnis betrifft aber nicht nur die Sozialforschung selbst, sondern muss auch nach außen kommuniziert werden. Tabelle 1: Qualitätsdefinitionen und -beurteilungen im Überblick Bezeichnung
Hauptdimension
Definition von Qualität
Art der Qualitätsbeurteilung/ -kontrolle
Klassische Gütekriterien
Produkt
Inhaltlich bestimmt (basierend auf Axiomen der Testtheorie als Abweichung vom „wahren Wert“)
Kriterien, statistische Koeffizienten
Qualitätskriterien DFG
Prozess
Inhaltlich orientiert; common sense der WissenschaftlerInnen
Wechsel auf Prozesssicht – Good/Best Practice
Codes of Ethics
Person
Keine nähere inhaltliche Definition, professional sense der einzelnen WissenschaftlerInnen
Ethisches Verhalten Einzelner
Standards/ Richtlinien
Prozess (zusätzlich tw. auch andere)
Katalogartige Zergliederung in viele kleine Teilbereiche, aber keine inhaltliche Definition
Appell an Sorgfalt bei Durchführung, Kontrolle
Zertifizierung
Organisation Prozess
Anforderungen an Strukturen und Prozesse, keine inhaltliche Definition
Dokumentation und Kontrolle
Total Survey Error
Produkt Prozess
Inhaltliche Definition (Abweichung vom wahren Wert) und Prozessuale Orientierung
Analytische oder quantitative Bestimmung des Fehlers
566
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
Anmerkungen 1 2 3
4
5 6
7
8
9 10
11
12 13 14 15
16
Bei Friedrichs & Atteslander und Schnell & Hill & Esser werden nur Validität und Reliabilität genannt. Darüber hinaus üben Rohwer & Pötter auch sehr heftige Kritik im Sinne von (1). So findet man etwa im ZUMA Informationssystem Angaben zu Reliabilität und Validität der einzelnen dort verfügbaren Erhebungsinstrumente (Skalen bzw. Itembatterien). Diese Problemstellung soll in Folge bei den verschiedenen Ansätzen zur Qualitätssicherung beispielhaft untersucht werden. Dies erscheint interessant, weil dazu in der Frage Random oder Quota eine klare Differenz zwischen wissenschaftlicher Lehrbuchmeinung (nach der eine Generalisierbarkeit nur über Zufallsstichproben zu erzielen ist) und der verbreiteten Praxis insbesondere in der Markt- und Meinungsforschung (die die günstigeren und einfacher zu handhabenden Quotenstichproben präferiert) gegeben ist. Ernst Ludwig Winnacker, damals Präsident der DFG, im Vorwort, 2. ADM: Arbeitskreis deutscher Markt- und Sozialforschungsinstitute; ESOMAR: European Society for Opinion and Marketing Research; AAPOR: American Association for Public Opinion Research; WAPOR: World Association for Public Opinion Research Über derartige Ethikrichtlinien verfügen nicht nur Sozialforschungseinrichtungen, sondern auch wissenschaftliche Vereinigungen (z. B. die Deutsche Gesellschaft für Soziologie). Dieser Kodex wurden auf internationaler Ebene erarbeitet und von einzelnen Länderorganisationen, so etwa dem ADM, als nationale Regelung übernommen. Die aktuelle Fassung wurde 2007 publiziert und ist seit 2008 bindend. Der Begriff „Marktforscher“ bzw. „Marktforschung“ umfasst im Kodex auch Sozialund Meinungsforschung (vgl. ESOMAR 2007, 3). In Ergänzung des Codes verfügt AAPOR über ein eigenes Dokument mit Abgrenzungen von Sozialforschung, genannt „Survey Practices that AAPOR Condemns“. Darin enthalten ist etwa die Ablehnung der Vermischung von Forschungs- und Marketingansichten. Derartige Klarstellungen sind auch im ESOMAR-Kodex enthalten. Hier ergibt sich ein Spannungsfeld, weil eine Überprüfbarkeit von Ergebnissen eine weitgehende Offenlegung von Informationen erfordert (z. B. genaue Stichprobenpläne, Gewichtungsverfahren, . . .). Dies würde aber zum Teil bedeuten, die ,Betriebsgeheimnisse‘ eines Institutes zu publizieren. Onlinedokument, ergibt ausgedruckt ca. 6 Seiten. ESOMAR definiert sich selbst zwar als „world organisation“, die Wurzeln und der Schwerpunkt liegen aber in Europa. Diese wurden 2001 durch die „Standards zur Qualitätssicherung für Online-Befragungen“ ergänzt (ADM 2001). Vergleiche dazu die inhaltlich viel eindeutigere Festlegung auf Zufallsstichproben in den „Best practices“ von AAPOR. Allenfalls könnte der Hinweis auf die Fehlertoleranz (deren Berechnung eine Zufallsstichprobe voraussetzt) im Sinne eines Vorzugs der Zufalls- gegenüber der Quotenstichprobe interpretiert werden, an anderer Stelle (46) werden hingegen Random- und Quota-Verfahren gleichwertig dargestellt. Stand Juni 2008, mehrere Module sind noch in Bearbeitung.
567
Martin Weichbold 17
18
19
20 21
22 23 24 25
Die Module im Einzelnen sind: I. Study, Organizational, and Operational Structure; II. Tenders, Bids, and Contracts; III. Ethical Considerations; IV. Sample Design; V. Questionnaire Design; VI. Translation; VII. Adaptation; VIII. Survey Instrument Design; IX. Pretesting; X. Interviewer Recruitment, Selection, and Training; XI. Data Collection; XII. Harmonization of Survey and Statistical Data; XIII. Data Processing and Statistical Adjustment; XIV. Dissemination. Die Normenreihe EN ISO 9000 ff. umfasst Grundsätze für Maßnahmen zum Qualitätsmanagement. ISO 9000 beinhaltet Grundlagen und Begriffe zu Qualitätsmanagementsystemen, erläutert werden die Grundlagen für Qualitätsmanagementsysteme und die in den folgenden Normen (EN ISO 9000 ff.) verwendeten Begriffe. ISO 9001 legt die Anforderungen an ein Qualitätsmanagementsystem (QM-System) fest. Dabei handelt es sich nicht um ein sozialforschungsspezifisches Instrumentarium, sondern diese ISO-Reihe ist für alle Unternehmen gedacht, die Produkte bereitstellen, welche die Anforderungen der Kunden und allfällige behördliche Anforderungen erfüllen, oder die bestrebt sind, die Kundenzufriedenheit zu erhöhen. Neben der Zertifizierung gibt es auch Vorschläge für die Implementierung eines Audit-Systems zur Qualitätssicherung (vgl. Akkerman et al. 2008). Audits sind begleitende, kommunikativ-validierende Verfahren, die sich eher in der qualitativen Sozialforschung etablieren werden. Die Ursprünge dieses Ansatzes reichen bereits einige Jahrzehnte zurück, vgl. z. B. Andersen 1979; Groves 1989. Der Begriff „Fehler“ ist analog zum Stichprobenfehler gewählt und teilweise irreführend, weil er nicht in jedem Fall einen Fehler im Sinne eines Mangels bezeichnet. Teilweise fallen darunter auch Spezifika, wie sie etwa unterschiedliche Erhebungsmodi haben (ohne diese als „richtig“ oder „falsch“ deklarieren zu können). Eine strukturell abweichende, inhaltlich aber weitgehend deckungsgleiche Systematik bei Weisberg (2005, 19). Diese Definition stammt von Juran & Gryna 1970 (vgl. Lyberg & Biemer 2008, 424). Oder mitunter gar nicht so einfach zu berechnende, vgl. den Beitrag von Bacher in diesem Band. Wenngleich sie sich bei der konkreten Umsetzung zum Teil auch wieder auf formale Kriterien beschränken, etwa bei den gängigen Verfahren zur Bestimmung von Validität und Reliabilität, wie Rohwer & Pötter (2002, 120 ff.) argumentieren.
Literatur AAPOR (American Association for Public Opinion Research). Best Practices for Survey and Public Opinion Research. Abgerufen am 28.10.2008, Website: http://www.aapor. org/bestpractices. AAPOR (2005). AAPOR Code of Professional Ethics & Practices. Abgerufen am 28.10.2008, Website: http://www.aapor.org/aaporcodeofethics. ADM (Arbeitskreis deutscher Markt- und Sozialforschungsinstitute) (1999). Standards zur Qualitätssicherung in der Markt- und Sozialforschung. Abgerufen am 28.10.2008, Website: http://www.adm-ev.de/pdf/quali.pdf.
568
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen ADM (2001). Standards zur Qualitätssicherung für Online-Befragungen. Abgerufen am 28.10.2008, Website: http://www.adm-ev.de/quali_online.html. Akkerman, S., & Brekelmans, M. (2008). Auditing Quality of Research in Social Sciences. Quality & Quantity, 42, 257–274. Andersen, R. (1979). Total Survey Error. Applications to improve health surveys. San Francisco: Jossey-Bass. Atteslander, P. (2008). Methoden der empirischen Sozialforschung. 12. Aufl. Berlin: Erich Schmidt Verlag. Beck, U. (1986). Risikogesellschaft. Auf dem Weg in eine andere Moderne. Frankfurt/ Main: Suhrkamp. Biemer, P. P., & Lyberg, L. E. (2003). Introduction to Survey Quality. Hoboken: Wiley. Bortz, J., & Döring, N. (2006). Forschungsmethoden und Evaluation. 4. Aufl. Berlin et al.: Springer. Cross-Cultural Survey Guidelines (2008). Abgerufen am 28.10.2008, Website: http:// ccsg.isr.umich.edu/pdf/fullguide061108.pdf. DIN (Deutsches Institut für Normung) (2006). DIN ISO 20252. Markt-, Meinungs- und Sozialforschung. Begriffe und Dienstleistungsanforderungen. ESOMAR (European Society for Opinion and Marketing Research) (2007). ICC/ESOMAR Internationaler Kodex für die Markt- und Sozialforschung. Abgerufen am 28.10.2008, Website: http://www.esomar.org/index.php/codes-guidelines.html. Friedrichs, J. (1990). Methoden empirischer Sozialforschung. 14. Auflage. Opladen: Westdeutscher Verlag. GESIS (Gesellschaft Sozialwissenschaftlicher Infrastruktureinrichtungen). ZUMA Informationssystem. Abgerufen am 28.10.2008, Website: www.gesis.org/methodenberatung/ zis. Groves, R. M. (1989). Survey Errors and Survey Costs. New York: Wiley. Häder, M. (2006). Empirische Sozialforschung. Eine Einführung. Wiesbaden: VS Verlag. Juran, J. M., & Gryna, F. M. (1970). Quality planning and analysis. From product development through usage. New York: McGraw-Hill. Kaase, M. (Hg.) (1999). Deutsche Forschungsgemeinschaft: Qualitätskriterien der Umfrageforschung. Quality Criteria for Survey Research. Berlin: Akademie Verlag. König, C., & Stahl, M., & Wiegand, E. (Hg) (2007). Qualitätsmanagement und Qualitätssicherung. GESIS-Tagungsberichte, Band 1. Bonn: GESIS. Köstner, H. (2007). Anforderungen und Nutzen der Zertifizierung in der Markt- und Sozialforschung. In C. König et al. (Hg.), Qualitätsmanagement und Qualitätssicherung. GESIS-Tagungsberichte, Band 1 (163–175). Bonn: GESIS. Lyberg, L.E., & Biemer, P. (2008). Quality Assurance and Quality Control in Surveys. In E. D. de Leeuw & J.J. Hox & Dillman (Eds.), International Handbook of Survey Methodology (421–441). New York, London: Lawrence Erlbaum Associates.
569
Martin Weichbold Mühlbauer, H. (2007). Normung. In C. König et al. (Hg.), Qualitätsmanagement und Qualitätssicherung. GESIS-Tagungsberichte, Band 1 (33–42). Bonn: GESIS. Rohwer, G., & Pötter, U. (2002). Methoden sozialwissenschaftlicher Datenkonstruktion. Weinheim, München: Juventa. Scheuren, F. (2004). What is a Survey? Abgerufen am 28.10.2008, Website: www.whatisasurvey.info/ Schnell, R., & Hill, P. B., & Esser, E. (2005). Methoden der empirischen Sozialforschung. 7. Auflage. München, Wien: Oldenburg. Steinke, I. (1999): Kriterien qualitativer Forschung. Ansätze zur Bewertung qualitativ-empirischer Sozialforschung. Weinheim, München: Juventa. WAPOR (World Association for Public Opinion Research). Abgerufen am 28.10.2008, Website: http://www.unl.edu/WAPOR/. Weisberg, H. F. (2005). The Total Survey Error Approach. A Guide to the New Science of Survey Research. Chicago: The University of Chicago Press. Weischer, C. (2007). Sozialforschung. Konstanz: UVK Verlagsgesellschaft. Wiegand, E. (2007). Standards und Normen in der Markt- und Sozialforschung. In C. König et al. (Hg.), Qualitätsmanagement und Qualitätssicherung. GESIS-Tagungsberichte, Band 1 (43–50). Bonn: GESIS.
570
Autorinnen und Autoren
Autorinnen und Autoren Wolfgang Aschauer MMag. Dr.; Studium der Soziologie, Psychologie und Kommunikationswissenschaft; Postdoc am Fachbereich Politikwissenschaft und Soziologie, Abteilung Soziologie und Kulturwissenschaft der Universität Salzburg. Arbeitsschwerpunkte: Tourismussoziologie, kulturvergleichende Forschung, Migrationsforschung, empirische Sozialforschung und Statistik. Email: [email protected] Folkert Aust Soziologe; bei infas/Bonn in der Abteilung Methoden und Statistik beschäftigt. Arbeitsschwerpunkte: Konzeption von Stichproben, methodische Beratung bei von infas durchgeführten Studien und Datenanalysen. Email: [email protected] Johann Bacher geb. 1959, Mag. Dr.; Professor für Soziologie und empirische Sozialforschung an der Johannes Kepler Universität Linz. Arbeitsschwerpunkte: Methoden der empirischen Sozialforschung, Ungleichheitsforschung und Sozialstrukturanalyse, Soziologie der Kindheit und des abweichenden Verhaltens. Email: [email protected] Reinhard Bachleitner Mag. Dr.; Professor am Fachbereich Politikwissenschaft und Soziologie, Abteilung Soziologie und Kulturwissenschaft der Universität Salzburg. Arbeitsschwerpunkte: Methoden und Methodologie empirischer Sozialforschung, Tourismus-, Kultur- und Freizeitsoziologie. Email: [email protected]
571
Autorinnen und Autoren
Jörg Blasius geb. 1957, Dipl.-Soz. Dr.; von 1986 bis 2001 Universität zu Köln, Zentralarchiv für Empirische Sozialforschung; seit WS 2001/2002 Professor am Institut für Politische Wissenschaft und Soziologie, Abt. Soziologie, der Universität Bonn. Arbeitsschwerpunkte: Methoden der empirischen Sozialforschung, angewandte Statistik (insbesondere Korrespondenzanalyse), Stadtsoziologie und Lebensstile. Email: [email protected] Hans-Peter Blossfeld geb. 1954, Dr. rer pol.; Geschäftsführender Direktor des Instituts für bildungswissenschaftliche Längsschnittforschung (INBIL) an der Universität Bamberg und Leiter des Nationalen Bildungspanels (National Educational Panel Study, NEPS). Darüber hinaus Inhaber des Lehrstuhls für Soziologie I an der Universität Bamberg und Leiter des Staatsinstituts für Familienforschung an der Universität Bamberg. Zuvor Professuren am Europäischen Hochschulinstitut in Florenz, der Universität Bremen und der Universität Bielefeld. Email: [email protected] Maurice Brandt Studium der Soziologie, Psychologie, Politikwissenschaften und BWL an der Friedrich-Wilhelms-Universität in Bonn; wissenschaftlicher Mitarbeiter am Forschungsdatenzentrum des Statistischen Bundesamtes in Wiesbaden. Arbeitsschwerpunkte: Anonymisierung von Wirtschaftsstatistiken, Weiterentwicklung des Zugangs zu Daten der amtlichen Statistik für die wissenschaftliche Nutzung über die kontrollierte Datenfernverarbeitung. Email: [email protected] Sandra Buchholz Dr. rer. pol.; wissenschaftliche Mitarbeiterin am Lehrstuhl für Soziologie I an der Otto-Friedrich-Universität Bamberg; zuvor wissenschaftliche Mitarbeiterin in den international vergleichenden Forschungsprojekten „GLOBALIFE – Lebensverläufe im Globalisierungsprozess“ (2003–2005) sowie „flexCAREER – Flexibilitätsformen und soziale Ungleichheiten beim Erwerbseinstieg und in der frühen Erwerbskarriere“ (2005–2007). Arbeitsschwerpunkte: Lebensverlaufsforschung, Arbeitsmarktforschung, soziale Ungleichheiten, internationaler Vergleich, quantitative Methoden. Email: [email protected] 572
Autorinnen und Autoren
Stefanie Eifler geb. 1967, PD Dr. rer. soc.; Hochschuldozentin an der Universität Bielefeld in den Bereichen Methoden der empirischen Sozialforschung und im Schwerpunkt soziale Probleme und Instanzen sozialer Kontrolle. Arbeitsschwerpunkte: Messen in den Sozialwissenschaften, Handlungstheorie, Kriminalsoziologie. Email: [email protected] Marek Fuchs Professor für empirische Sozialforschung an der Universität Kassel. Arbeitsschwerpunkte: Umfragemethodologie, u. a. Online-Befragungen, Befragbarkeit von Kindern und Alten sowie Nutzung von Handys in der Umfrageforschung. Email: [email protected] Siegfried Gabler Studium von Mathematik und Volkswirtschaftslehre in Mannheim, dort auch Promotion und Habilitation. Seit 1990 bei GESIS im Center for Survey Design & Methodology. Arbeitsschwerpunkte: Untersuchung praktischer und theoretischer Probleme im Zusammenhang mit Stichproben. Email: [email protected] Matthias Ganninger Studium der Politik- und Verwaltungswissenschaften mit Schwerpunkt Methoden/Statistik an der Universität Konstanz; seit 2005 bei GESIS im Center for Survey Design & Methodology und Doktoratsstudium an der Universität Trier am Lehrstuhl für Wirtschafts- und Sozialstatistik. Arbeitsschwerpunkte: Survey Statistik, Designeffekte und Varianzschätzung. Email: [email protected] Joachim Gerich geb. 1970, Dr.; Assistent am Institut für Soziologie, Abteilung für empirische Sozialforschung der Johannes Kepler Universität Linz. Arbeitsschwerpunkte: Methoden der empirischen Sozialforschung, Gesundheits- und sozialpolitische Forschung. Email: [email protected]
573
Autorinnen und Autoren
Albert Greinöcker geb. 1975, Studium von Informatik, Soziologie und Datentechnik; Softwareentwickler an der Universität Innsbruck; Dissertation zum Thema Onlinebefragungen. Email: [email protected] Michael Häder geb. 1952, Studium der Soziologie an der Humboldt-Universität Berlin, Promotion an der Universität in Leipzig, Habilitation an der HumboldtUniversität Berlin; Professor für Methoden der Empirischen Sozialforschung am Institut für Soziologie der Technischen Universität Dresden. Arbeitsschwerpunkte: Delphi-Ansatz sowie die Umfrageforschung. Email: [email protected] Sabine Häder Dr. oec.; Studium der Statistik und Wirtschaftswissenschaften in Berlin; seit 1992 Statistikerin bei GESIS im Center for Survey Design & Methodology. Arbeitsschwerpunkte: Stichproben, insbesondere für internationale und Telefonumfragen. Email: [email protected] Dirk Hofäcker geb. 1974, Dipl. Soz.; seit 2006 Mitarbeiter am Staatsinstitut für Familienforschung an der Universität Bamberg (ifb) und Koordinator des europäischen Forschungsnetzwerks „TransEurope“. Arbeitsschwerpunkte: international vergleichende Lebenslaufforschung, Familien- und Arbeitsmarktsoziologie, Einstellungsforschung. Email: [email protected]. Volker Hüfken geb. 1963, Dipl.-Soz-wiss.; wissenschaftlicher Mitarbeiter am Sozialwissenschaftlichen Institut der Heinrich-Heine-Universität Düsseldorf. Arbeitsschwerpunkte: Methoden der empirischen Sozialforschung, Gesundheitssoziologie. Email: [email protected]
574
Autorinnen und Autoren
Anja Kettner geb. 1971, Diplom-Volkswirtin; Leiterin der IAB-Erhebung des gesamtwirtschaftlichen Stellenangebots. Arbeitsschwerpunkte: Determinanten der Arbeitskräftenachfrage, Ausmaß und Ursachen von Fachkräftemangel, Methodik von Betriebsbefragungen. Email: [email protected] Henrik Kreutz em. Univ.-Prof. Dr.; Lehrstuhl für Soziologie und Sozialanthropologie der Universität Erlangen-Nürnberg, Univ.-Doz. Universität Wien; wissenschaftlicher Leiter des Instituts für Angewandte Soziologie, Herausgeber der „Angewandten Sozialforschung“. Arbeitsschwerpunkte: Allgemeine Soziologie, Methoden der empirischen Sozialforschung und Methodologie, Finanzsoziologie und Korruptionsforschung. Email: [email protected] Mike Kühne Dr.; Studium der Soziologie an der TU Dresden; Wissenschaftlicher Mitarbeiter am Lehrstuhl für Methoden der Empirischen Sozialforschung am Institut für Soziologie der TU Dresden. Arbeitsschwerpunkte: Bildungsforschung und Umfrageforschung. Email: [email protected] Paul Lüttinger Dr. phil.; Studium von Soziologie und Psychologie in Mannheim; seit 1987 wissenschaftlicher Mitarbeiter beim German Microdata Lab der GESIS. Arbeitsschwerpunkt: Mikrodaten der amtlichen Statistik (Mikrozensus). Email: [email protected] Georgios Papastefanou Dr.; Soziologe; wissenschaftlicher Mitarbeiter bei GESIS; verantwortlich für Haushaltsbudgetsurveys in Deutschland und Europa, Leitung des Pilotprojekts „Ambulatorisches Assessment und empirische Sozialforschung“. Arbeitsschwerpunkte: Sozialstruktur und Lebensstile, international vergleichende Analysen konsumbasierter Ungleichheit, Methoden der Längsschnittanalyse, ambulatorisches Assessment in der empirischen Sozialforschung. Email: [email protected]
575
Autorinnen und Autoren
Markus Pausch geb. 1974, Studium der Politikwissenschaft, Geschichte und Soziologie in Salzburg und Lyon; Mitarbeiter am Zentrum für Zukunftsstudien der Fachhochschule Salzburg sowie Lehrbeauftragter am Fachbereich für Politikwissenschaft und Soziologie der Universität Salzburg. Arbeitsschwerpunkte: Demokratie, Partizipation, Lebensqualität. Email: [email protected] Andreas Quatember Assistenzprofessor an der Abteilung für Datengewinnung und Datenqualität am IFAS – Institut für Angewandte Statistik der Johannes Kepler Universität Linz. Promotion zum Thema Quotenverfahren aus dem Bereich der statistischen Stichprobentheorie. Forschungsschwerpunkt: Datenqualität in Stichprobenerhebungen. Email: [email protected] Marcel Raab Dipl.-Soz.; wissenschaftlicher Mitarbeiter im Nationalen Bildungspanel (NEPS) und an der Professur für Bevölkerungswissenschaft an der Universität Bamberg. Arbeitsschwerpunkte: Bildungssoziologie, soziale Ungleichheitsforschung, familiensoziologische und methodische Fragestellungen. Email: [email protected] Michael Ruland Dipl.-Soz.; wissenschaftlicher Mitarbeiter im Projekt Nationales Bildungspanel (National Educational Panel Study, NEPS) im Institut für bildungswissenschaftliche Längsschnittforschung, Bamberg. Arbeitsschwerpunkte: Globalisierung, Lebensverlaufsforschung, Bildungsund Arbeitsmarktforschung, quantitative Methoden der Sozialforschung (insbesondere Ereignisanalyse). Email: [email protected] Tino Schlinzig Dipl.-Soz.; Studium der Soziologie, Kommunikationswissenschaft und Rechtswissenschaft in Dresden und Wellington. Mitarbeiter am Institut für Soziologie der TU Dresden; Arbeitsschwerpunkte: qualitative und quantitative empirische Sozialforschung, Familiensoziologie, Wissenssoziologie, Kriminologie. Email: [email protected] 576
Autorinnen und Autoren
Paul Schmelzer MA; seit 2005 wissenschaftlicher Mitarbeiter im Rahmen des flexCAREER Projektes (Flexibilisierungsformen beim Arbeitsmarkteintritt und in der frühen bzw. späteren Erwerbsphase) an der Universität Bamberg. Arbeitsschwerpunkte: Arbeitsmarktforschung, Lebenslaufforschung, Quantitative Methoden der empirischen Sozialforschung und Institutionsforschung im internationalen Vergleich. Email: [email protected] Götz Schneiderat Studium der Soziologie an der TU Dresden; Projektmitarbeiter im DFG Projekt: „Telefonbefragungen in der Allgemeinbevölkerung über das Mobilfunknetz“ an der TU Dresden. Arbeitsschwerpunkte: empirische Sozialforschung, insbesondere Umfrageforschung, Fragebogenentwicklung, Evaluation und computergestützte Telefonbefragung. Email: [email protected] Rainer Schnell geb. 1957, Professor für Methoden der empirischen Sozialforschung an der Universität Duisburg-Essen. Arbeitsschwerpunkte: Ursachen, Konsequenzen und Korrektur von Datenfehlern in Stichproben. Email: [email protected] Benno Schönberger Diplomstudium der Soziologie an der Otto-Friedrich-Universität Bamberg; studentische Hilfskraft beim Projekt „Bildungsprozesse, Kompetenzentwicklung und Selektionsentscheidungen im Vor- und Grundschulalter“ (BiKs) am Lehrstuhls für Soziologie I. Email: [email protected] Helmut Schröder Dr.; Studium der Soziologie und Erziehungswissenschaft. Bereichsleiter Sozialforschung bei infas/Bonn. Arbeitsschwerpunkte: Studien und Evaluationen in den Feldern Bildung, Arbeitsmarkt, soziale Sicherung und gesellschaftliche Teilhabe von behinderten Menschen. Email: [email protected]
577
Autorinnen und Autoren
Julia Simonson geb. 1974, Dr. rer. pol., Dipl.-Soz.; wissenschaftliche Mitarbeiterin am Deutschen Zentrum für Altersfragen, Berlin. Arbeitsschwerpunkte: Methoden der empirischen Sozialforschung, soziale Integration, Lebensverläufe, abweichendes Verhalten von Kindern und Jugendlichen. Email: [email protected] Bettina Stadler Dr. Mag. rer. soc. oec.; Mitarbeiterin in der Statistik Austria, Direktion Bevölkerung; Sponsion und Promotion im Fach Soziologie an der Universität Wien. Arbeitsschwerpunkte: Methoden der empirischen Sozialforschung, Arbeitsmarktforschung, Migrationsforschung. Email: [email protected] Michael Stops Studium der Volkswirtschaftslehre und Statistik (Diplom-Volkswirt) sowie theoretischer Grundlagen für Fachaufgaben der Bundesagentur für Arbeit (Diplom-Verwaltungswirt (FH)); wissenschaftlicher Mitarbeiter am Institut für Arbeitsmarkt- und Berufsforschung in Nürnberg. Arbeitsschwerpunkte: Erhebung des gesamtwirtschaftlichen Stellenangebotes, Effizienzfragen der Arbeitsvermittlung und Matchingprozesse auf disaggregierten Arbeitsmärkten. Email: [email protected] Monika Taddicken, Dr. rer. soc., Dipl.-Sozw.; Studium der Sozialwissenschaften in Göttingen und Galway, Irland; Erfahrungen als Projektleiterin in der kommerziellen Online-Forschung und als Mitarbeiterin am Marketing-Lehrstuhl der Universität Bamberg. Aktuell akademische Mitarbeiterin am Institut für Sozialwissenschaften, Fachgebiet Kommunikationswissenschaft und Sozialforschung der Universität Hohenheim, Stuttgart und Projektleiterin des DFG-Projekts „Die Diffusion der Medieninnovation Web 2.0: Determinanten und Auswirkungen aus der Perspektive des Nutzers“. Arbeitsschwerpunkte: Methodenforschung, Online-Forschung und Medieninnovationen. Email: [email protected]
578
Autorinnen und Autoren
Daniela Thume geb. 1973, Diplom-Psychologin; Sachverständige für Aussagepsychologie. Forschungsschwerpunkt: Kriminalitätsfurcht. Email: [email protected] Martin Weichbold geb. 1969, Studium von Soziologie, Politikwissenschaft und Psychologie; ao. Univ.-Prof. an der Abteilung für Soziologie und Kulturwissenschaft der Universität Salzburg. Arbeitsschwerpunkte: Methodologie empirischer Sozialforschung, computerbasierte Erhebungen. Email: [email protected] Christof Wolf Dr. rer. pol.; Studium der Soziologie, Volkswirtschaftslehre, Sozial- und Wirtschaftsgeschichte und Statistik in Hamburg und Köln; seit 2004 Wissenschaftlicher Leiter der Abteilung Dauerbeobachtung der Gesellschaft in der GESIS – Leibniz-Institut für Sozialwissenschaften in Mannheim und Privatdozent an der Universität zu Köln. Seit 2005 Sprecher der Sektion „Methoden der Empirischen Sozialforschung“ in der Deutschen Gesellschaft für Soziologie und geschäftsführender Herausgeber der Zeitschrift „Methoden, Daten, Analysen“. Email: [email protected] Angela Wroblewski Dr.in; Studium der Soziologie an der Universität Wien, MA an der Universität Essex (UK, Social Science Data Analysis); seit 1999 wissenschaftliche Mitarbeiterin am Institut für höhere Studien Wien. Arbeitsschwerpunkte: Bildungs-, Arbeitsmarkt- und Evaluationsforschung. Email: [email protected]
579