Joachim Behnke · Nathalie Behnke Grundlagen der statistischen Datenanalyse
Grundwissen Politik Band 41 Begründet von ...
63 downloads
1594 Views
3MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Joachim Behnke · Nathalie Behnke Grundlagen der statistischen Datenanalyse
Grundwissen Politik Band 41 Begründet von Ulrich von Alemann Herausgegeben von Arthur Benz Susanne Lütz Georg Simonis
Joachim Behnke Nathalie Behnke
Grundlagen der statistischen Datenanalyse Eine Einführung für Politikwissenschaftler
Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
1. Auflage Mai 2006 Alle Rechte vorbehalten © VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2006 Lektorat: Frank Schindler Der VS Verlag für Sozialwissenschaften ist ein Unternehmen von Springer Science+Business Media. www.vs-verlag.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Umschlaggestaltung: KünkelLopka Medienentwicklung, Heidelberg Druck und buchbinderische Verarbeitung: MercedesDruck, Berlin Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Printed in Germany ISBN-10 3-531-14576-2 ISBN-13 978-3-531-14576-1
Inhaltsverzeichnis Vorwort der Reihenherausgeber ..........................................................................9 Über die Autoren..................................................................................................10 Einleitung..............................................................................................................11
Teil A: Wissenschaftstheorie 1
Wissen .......................................................................................................15
2
Wahrheit und Wirklichkeit ....................................................................20
3
Welt und Sprache ....................................................................................25
4
Messen.......................................................................................................31
4.1
Nominalskala .............................................................................................35
4.2
Ordinalskala...............................................................................................36
4.3
Intervallskala..............................................................................................37
4.4
Verhältnis- oder Ratioskala .......................................................................38
4.5
Absolutskala ..............................................................................................39
5
Deduktive Logik.......................................................................................43
5.1
Kurze Einführung in die Aussagenlogik....................................................43
5.2
Venn-Diagramme ......................................................................................49
5.3
Argumente und Argumentformen..............................................................53
6
Beweis, Erklärung und Prognose ...........................................................68
6.1
Beweis........................................................................................................69
6.2
Erklärung ...................................................................................................70
6.3
Prognose ....................................................................................................73
7
Induktive Logik und das Induktionsproblem .......................................76
7.1
Die induktive Logik Bacons und Mills......................................................76
7.2
Humes Formulierung des Induktionsproblems..........................................83
7.3
Beschreiben und Erklären oder das Wesen der Kausalität ........................85
8
Poppers Theorie der Bewährung von wissenschaftlichen Theorien ...88
9
Probabilistische Hypothesen und die Logik eines statistischen Tests.94
10
Erklären und Verstehen........................................................................101
Teil B: Statistik 11
Die Urliste, absolute und relative Häufigkeiten ..................................105
12
Die grafische Darstellung von Häufigkeitsverteilungen.....................110
6
Inhaltsverzeichnis
13
Maße zur Beschreibung von Verteilungen.......................................... 123
13.1
Maße der zentralen Tendenz ................................................................... 123
13.2
Streuungsmaße ........................................................................................ 130
13.3
Weitere Verteilungsparameter................................................................. 134
13.4
Lorenzkurve und Gini-Koeffizient.......................................................... 138
14
Bivariate Zusammenhänge................................................................... 144
14.1
Grafische Darstellung bivariater Zusammenhänge ................................. 146
14.2
Zusammenhangsmaße für nominalskalierte Variablen ........................... 150
14.3
Zusammenhangsmaße für ordinalskalierte Variablen............................. 169
14.4
Zusammenhangsmaße für intervallskalierte Variablen........................... 184
15
Grundbegriffe der Wahrscheinlichkeitstheorie ................................. 195
15.1
Der Wahrscheinlichkeitsbegriff der klassischen Wahrscheinlichkeitstheorie...................................................................... 196
15.2
Der Frequentistische Wahrscheinlichkeitsbegriff ................................... 198
15.3
Die Propensity-Theorie der Wahrscheinlichkeit nach Popper ................ 200
15.4
Der Subjektive Wahrscheinlichkeitsbegriff nach Ramsey und de Finetti ....................................................................................................... 201
15.5
Pluralistischer Wahrscheinlichkeitsbegriff.............................................. 202
16
Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie ..................................................................................................... 205
16.1
Die Axiome der Wahrscheinlichkeitstheorie .......................................... 205
16.2
Allgemeines Additionstheorem............................................................... 207
16.3
Bedingte Wahrscheinlichkeit .................................................................. 209
16.4
Multiplikationstheorem für die Wahrscheinlichkeit des gemeinsamen Auftretens zweier Ereignisse ................................................................... 210
16.5
Satz der totalen Wahrscheinlichkeit ........................................................ 211
16.6
Statistische Unabhängigkeit .................................................................... 212
16.7
Multiplikationstheorem für die Wahrscheinlichkeit des gemeinsamen Auftretens zweier statistisch unabhängiger Ereignisse............................ 214
16.8
Das Theorem von Bayes.......................................................................... 214
17
Kombinatorik......................................................................................... 219
17.1
Permutationen.......................................................................................... 220
17.2
Variationen .............................................................................................. 221
17.3
Kombinationen ........................................................................................ 225
18
Die Binomialverteilung ......................................................................... 229
18.1
Erwartungswert und Varianz der Binomialverteilung............................. 235
18.2
Varianz und Standardabweichung von Anteilswerten ............................ 244
19
Die Normalverteilung............................................................................ 248
Inhaltsverzeichnis
19.1
Approximation der Binomialverteilung durch die Normalverteilung .....252
19.2
Wahrscheinlichkeitsdichtefunktion und Verteilungsfunktion der Normalverteilung .....................................................................................257
20
Das zentrale Grenzwerttheorem ..........................................................266
21
Stichprobe und Grundgesamtheit ........................................................279
21.1
Schätzung des Mittelwerts einer Grundgesamtheit mit Hilfe von Stichproben ..............................................................................................284
21.2
Schätzung der Varianz einer Grundgesamtheit mit Hilfe von Stichproben ..............................................................................................289
21.3
Standardnormalverteilung und T-Verteilung...........................................294
21.4
Das Konfidenzintervall............................................................................297
22
Wie "normal" ist die Normalverteilung? ............................................302
23
Die Logik eines statistischen Tests .......................................................316
24
Tests auf Unterschiede von Mittelwerten zweier Stichproben ..........326
24.1
Der T-Test für zwei unabhängige Stichproben........................................326
24.2
Der T-Test für zwei abhängige Stichproben............................................338
25
Verteilungen, die von der Standardnormalverteilung abgeleitet werden können .......................................................................................344
25.1
Die F2-Verteilung.....................................................................................344
25.2
Die F-Verteilung......................................................................................349
25.3
Die T-Verteilung......................................................................................354
26
Die einfaktorielle Varianzanalyse ........................................................356
27
Der Chi2-Test..........................................................................................363
28
Die bivariate lineare Regressionsanalyse.............................................367
Anhang A: Ausgewählte Quantile theoretischer Verteilungen .....................381 A1
Z-Verteilung ............................................................................................381
A2
F2-Verteilung ...........................................................................................383
A3
F-Verteilung.............................................................................................384
A4
T-Verteilung ............................................................................................388
Anhang B: SPSS-Syntax zu den Beispielrechnungen .....................................389 B1
SPSS- Programm zur Berechnung des Flächenanteils eines Bereichs einer Binomialverteilung..........................................................................389
B2
SPSS-Programm zur Simulation von Stichproben ..................................392
B3
Berechnung von 'pid' ...............................................................................394
Literaturverzeichnis...........................................................................................395 Index....................................................................................................................399
7
Vorwort der Reihenherausgeber Der vorliegende Band ergänzt die Reihe "Grundwissen" um einen Themenbereich, der dort bislang noch nicht berücksichtigt wurde. Mit einer methodischen Grundlegung statistischer Datenanalyse in der Politikwissenschaft wird hier ein Querschnittsthema aufgegriffen, das auf die allermeisten Teilbereiche der Politikwissenschaft zusehends Anwendung findet. Auch in vielen Bänden dieser Reihe werden Ergebnisse empirischer Forschung in Form von Tabellen, Grafiken oder Kennwerten dargestellt. Mit dieser Art von Information kritisch und kompetent umgehen zu können, ist heute für Politologinnen und Politologen in Forschung und Lehre eine unverzichtbare Voraussetzung. Diese kritische Lesekompetenz wird auch als "Statistical Literacy" bezeichnet. Dieses Buch vermittelt die "Statistical Literacy", indem es das Konzept der "Grundlagen" sehr wörtlich nimmt. Die Leserinnen und Leser werden an ein echtes Verständnis der Annahmen und Vorgehensweisen in der Statistik herangeführt. Zu diesem Zwecke sind große Teile des Buches der Erläuterung und Einübung theoretischer Grundlagen des statistischen empirischen Arbeitens gewidmet, wie der Messtheorie, der Argumentenlogik oder der Wahrscheinlichkeitstheorie. Die Idee hinter diesem didaktischen Konzept ist, dass ein Verständnis dafür, wie und warum bestimmte Ergebnisse zustande kommen, auch die Kritikfähigkeit an diesen Ergebnissen erhöht. Zugleich ermöglicht ein solches Verständnis auch, über die reine Lesefähigkeit hinaus, eigene statistische Auswertungen problemadäquat durchzuführen. Zwar beschränkt sich der Lehrtext auf wenige für die politikwissenschaftliche Forschung zentrale Verfahren; diese werden aber sehr gründlich eingeführt und geübt. Darauf aufbauend sollten die Leser in der Lage sein, sich mit Hilfe weiterführender Literatur eigenständig weitergehende Kenntnisse anzueignen. Die beiden Autoren haben dieses Buch aus ihrer eigenen Lehrerfahrung heraus in mehrjähriger Arbeit geschrieben und das didaktische Konzept gezielt für die Bedürfnisse der Politikwissenschaft entwickelt. Die zum Buch gehörige CD erweitert die Möglichkeiten zur autodidaktischen Aneignung der statistischen Verfahren durch eine praxisorientierte Einführung in die Statistik-Software SPSS. Beispiele und vertiefende Exkurse runden das Buch zu einem fundierten und zugleich praxisnahen Lehr- und Nachschlagewerk ab, das für Studierende und Forschende gleichermaßen geeignet ist. Arthur Benz Susanne Lütz Georg Simonis
Über die Autoren Joachim Behnke, Prof. Dr., geb. 1962; Studium der Kommunikationswissenschaft, Politikwissenschaft und Volkswirtschaftslehre an der Ludwig-Maximilians-Universität München. Zur Zeit Vertretung der Professur 'Empirische Politikforschung und Politikfeldanalyse' an der Ludwig-Maximilians-Universität München. Forschungsschwerpunkte: Rational Choice, Social Choice, Spieltheorie, Wahlsysteme, Wissenschaftstheorie, Empirische und Statistische Methoden Veröffentlichungen u.a.: mit Nina Baur und Nathalie Behnke (2006): Empirische Methoden der Politikwissenschaft. Paderborn: Schöningh (UTB); (2003) Überhangmandate: Ein (behebbarer) Makel im institutionellen Design des Wahlsystems. In: Zeitschrift für Politikwissenschaft, 13; (2002) Colemans Theorie der Moderne. In: Carsten Stark / Christian Lahusen (Hg.): Theorien der Gesellschaft. Einführung in zentrale Paradigmen der soziologischen Gegenwartsanalyse. München, 37-65; (2001) Parteineigung als Fakt oder Parteineigung durch Fakten. Der Einfluss von Issues auf das Wahlverhalten. In: Kölner Zeitschrift für Soziologie und Sozialpsychologie, 53, 521-546; Nathalie Behnke, Dr. phil., geb. 1973; Studium der Politikwissenschaft an den Universitäten Bamberg und Bologna. Wissenschaftliche Mitarbeiterin am Lehrgebiet Politikwissenschaft I der FernUniversität Hagen. Forschungsschwerpunkte: vergleichende Institutionenanalyse, formale Demokratietheorie, Föderalismus, empirische Methoden, Ethik und Korruption Veröffentlichungen u.a.: (2006) Ethik-Maßnahmen für die öffentliche Verwaltung – Modeerscheinung oder Mauerblümchen? In: Jörg Bogumil / Werner Jann / Frank Nullmeier (Hg.): Politik und Verwaltung. PVS-Sonderheft; (2004) Ethik in Politik und Verwaltung. Entstehung und Funktionen ethischer Normen in Deutschland und den USA. Baden-Baden. (2002) A Nolan Committee for the German ethics infrastructure? In: European Journal of Political Research 51 (5), 675-708
Einleitung Grundkenntnisse der statistischen Datenanalyse gehören heute in den Curricula der Politikwissenschaft und anderer Sozialwissenschaften zum Standardprogramm. Dies ist eine logische Konsequenz der Entwicklung dieser Disziplinen in den vergangenen Jahrzehnten, in denen das Instrumentarium der quantitativen Forschung immer weiter ausgefeilt wurde, und in denen daher mit Hilfe der quantitativen empirischen Forschung wichtige Erkenntnisse gewonnen werden konnten. Die Wahl- und Einstellungsforschung, der internationale Vergleich makroökonomischer Größen wie Arbeitslosigkeit, Bruttosozialprodoukt oder Lebensstandard, die Demographie oder Politikfeldanalyse sind nur einige Beispiele für die fruchtbare Anwendung quantitativer Daten und deren statistischer Analyse. Die quantitative empirische Forschung mit Hilfe der Statistik ist somit ein wichtiger und verbreiteter Bestandteil des sozialwissenschaftlichen Instrumentariums geworden, die man zumindest passiv, möglichst aber auch aktiv, beherrschen sollte. Mit dem vorliegenden Buch wollen dieses Grundwissen, aber vor allem ein Grundverständnis vermitteln. Es sollte kein "Kochbuch" werden, nach dem Motto: "Wenn man die Fragestellung XY beantworten will, nehme man 2000 Befragte, 5 Variablen und drei multivariate Analyseverfahren, diese werden gründlich durchgeschüttelt und zwei Stunden lang ausgekocht, dann werden die Ergebnisse mit Salz und Pfeffer gewürzt und dekorativ mit ein paar Basilikumblättchen angeboten." Vielmehr sind wir überzeugt, dass ein echtes Verständnis für die Logik sowohl der generellen Vorgehensweise empirischer Forschung als auch einzelner statistischer Verfahren eine notwendige Voraussetzung ist, um vernünftige Ergebnisse empirischer Forschung zu produzieren und diese aufgeklärt zu diskutieren oder zu kritisieren. Deswegen haben wir hier den wissenschaftstheoretischen Grundlagen, der Herleitung von Verfahren, der Erläuterung gedanklicher und historischer Hintergründe und der praktischen Umsetzung sehr viel Platz eingeräumt. Darüber hinaus hoffen wir, mit dem Buch auch den Einen oder die Andere für die Materie zu interessieren. Auch wer etwas tiefer bohren will, mehr über das 'was', 'wie' und 'warum' wissen möchte, soll hier auf seine Kosten kommen Wir verfolgen mit dem Buch also eine dreifache Zielsetzung – die Vermittlung von Grundwissen, von Verständnis und von Interesse. Zu diesem Zwecke haben wir auch bei den Inhalten andere Schwerpunkte gesetzt, als man sie in den meisten anderen Statistikbüchern findet. Den wissenschaftstheoretischen Grundlagen der empirischen Forschung ist der gesamte erste Teil gewidmet. Auch die umfangreiche Einführung in die Wahrscheinlichkeitstheorie, die ausführliche Herleitung von Korrelationskoeffizienten und Verteilungsformen ist eher ungewöhnlich. Dafür stellen wir nur wenige Auswertungs- und Testverfahren dar, da wir auch hier wieder der Meinung sind, wenn man erst einmal die Logik eines statistischen Tests verstanden hat, kann man sich in die unterschiedlichen Verfahren leicht selbst einarbeiten.
12
Einleitung
Die Frage, warum und in welcher Form wir der Statistik eine Einführung in die wissenschaftstheoretischen Grundlagen des empirischen Arbeitens vorangestellt haben, bedarf vielleicht noch einiger Erläuterungen: In der Wissenschaftstheorie wird Forschung, Meta-Reflexion und Theoriebildung über das wissenschaftliche Arbeiten an sich betrieben. Es geht darum, die Prinzipien guten wissenschaftlichen Arbeitens zu beschreiben und zu systematisieren. Dabei verstehen wir wissenschaftliches Arbeiten als die Vorgehensweise, um Erkenntnisse über die Welt zu gewinnen, die in unserer physikalischen, biologischen und sozialen Umwelt besteht. Wie gewinnt man solche Erkenntnisse und wie kann man feststellen, ob sie wahr oder falsch sind? Was bedeutet es überhaupt, wenn man sagt, eine Erkenntnis sei wahr oder falsch? Was sind die Bausteine dieser Erkenntnis und welchen Stellenwert haben sie in der wissenschaftlichen Gemeinschaft? Was versteht man unter Erkenntnisfortschritt? Dies sind Fragen, die im Rahmen der Wissenschaftstheorie beantwortet werden. Auf diese Fragen gibt es natürlich auch eine Menge denkbarer unterschiedlicher Antworten. Dementsprechend gibt es nicht nur die eine Wissenschaftstheorie. Vielmehr reklamieren viele wissenschaftliche Disziplinen, und in diesen Disziplinen auch verschiedene Schulen oder Vertreter verschiedener Theorieansätze, eine eigene Wissenschaftstheorie entwickelt zu haben und zu vertreten. So wird beispielsweise häufig die Meinung geäußert, allein der unterschiedliche Forschungsgegenstand mache es erforderlich, ja geradezu logisch zwingend, dass etwa die Naturwissenschaften, die Geisteswissenschaften und die Sozialwissenschaften unterschiedliche Wissenschaftstheorien verwenden. Diese Sichtweise ist durchaus plausibel und wird durch die Forschungspraxis bestätigt. In der Tat entwickelt etwa ein Historiker andere Vorgehensweisen als ein Atomphysiker. Aber auch innerhalb der empirischen Wissenschaften, und selbst innerhalb der empirisch arbeitenden Politikwissenschaft, gibt es Meinungsverschiedenheiten darüber, was als gutes wissenschaftliches Arbeiten anzusehen sei. Diese Streitigkeiten, so meinen wir, verwechseln aber einen Disput über die Ziele wissenschaftlichen Arbeitens, die Techniken der Erkenntnisgewinnung und die Logik des wissenschaftlichen Argumentierens mit einem Disput über normative Vorentscheidungen und theoretische Standpunkte. In diesem Sinne sind die Ausführungen zur Wissenschaftstheorie in diesem Buch in der Tat als allgemeine Grundlagen einer empirischen Wissenschaftstheorie zu verstehen. Die Auswahl und der Aufbau der hier vorgestellten Themen folgen aber der Zielsetzung, die wissenschaftstheoretischen Grundlagen speziell für die statistische Datenanalyse zu legen. Ziel dieses Buches ist es, die grundlegenden Konzepte und Begriffe empirischen wissenschaftlichen Arbeitens mit Hilfe der Statistik zu vermitteln. Zu diesem Zwecke greifen wir vor allem in der Wissenschaftstheorie häufig auf Beispiele aus der Naturwissenschaft zurück. Dies hat einen einfachen Grund: Der Erkenntnisgegenstand der (klassischen) Naturwissenschaft, typischerweise der Mechanik und der Astronomie, ist wesentlich weniger komplex und veränderlich als der der Politikwissenschaft. Es ist einfacher, monokausale Beziehungen zu finden, ein-
Einleitung
13
zelne Einflussfaktoren experimentell zu isolieren und letztlich zu allgemeingültigen Gesetzen zu kommen, als dies eben möglich ist, wenn man als Forschungsgegenstand politische Akteure, prinzipiell veränderliche Institutionen und Institutionengefüge, Abstimmungsprozesse und individuelle oder komplexe Entscheidungen hat. Im Fall der Politikwissenschaft sind fast alle Gegenstände, die wir untersuchen, multikausal, interdependent und außerdem über die Zeit veränderlich. Zur Illustration und auch zum Verständnis etwa des Konzepts der Messung oder eines logischen Schluss-Schemas ist es daher einfacher, zunächst weniger komplexe Beispiele heranzuziehen, in denen sich wirklich die einzelnen Komponenten isolieren lassen. Wenn Sie also im Text von Spektrometern und Planetenbahnen lesen und sich wundern, was das mit Politikwissenschaft zu tun hat, dann sagen Sie sich, dass Sie sich, wenn Sie das Spektrometer und die Planetenbahn verstanden haben, leichter tun werden, so einen abstrakten Begriff wie Problemlösungskompetenz zu messen oder ein sozialwissenschaftliches Gesetz aufzustellen. Wie die eingeführten Konzepte und Begriffe auf die Politikwissenschaft übertragen werden können, darauf finden Sie im Text immer wieder Hinweise. Zuletzt noch einige "technische" Hinweise: Neben dem Haupttext enthält das Buch einige Ergänzungen, so etwa den "Experten" und die "Beispiele". Die Experten sind in der Randspalte durch das Symbol des kleinen Professors gekennzeichnet, die Beispiele durch die Glühbirne. Hierbei handelt es sich um Ausführungen, die für die interessierten Leser Ausflüge, Illustrationen, Vertiefungen oder Formalisierungen des Stoffes im Haupttext darstellen. Sie können daher nach Belieben gelesen, durchgearbeitet oder auch übersprungen werden. Eine Liste ausgewählter Literatur am Ende des Buches gibt Hinweise für Vertiefungen und Ergänzungen. Das Buch wird durch eine CD ergänzt. Sie enthält eine Einführung in die Statistik-Software SPSS mit einer Illustration des Programmablaufs. Die Einführung in SPSS ist auf die Beispiele im Lehrtext abgestimmt, so dass Sie auf der CD auch ansehen können, wie Ergebnisse von Analysen, die im Text beschrieben werden, tatsächlich zustande kommen. Dieses Buch ist das Ergebnis einer mehrjährigen Arbeit und vieler Verbesserungsrunden. Für inhaltliche Kommentare danken die Autoren Thorsten Faas sowie denjenigen Studierenden an der FernUniversität in Hagen, die zur ersten Version des Lehrtextes kritische Hinweise gegeben haben, für das Korrekturlesen Sarah Kleyer und Malo Kröning. Christa Bast gilt besonderer Dank für die technische Umsetzung der CD. Malo Kröning sei außerdem herzlich gedankt für die vielen Stunden Mühe, die sich hinter den SPSS-Simulationen verstecken.
(Experte)
(Beispiel)
Teil A 1
Wissenschaftstheorie
Wissen
Der Mensch, das "nicht festgestellte Tier", wie Nietzsche sagt, unterscheidet sich von allen anderen Lebewesen in erster Linie durch seine Lernfähigkeit. Der Erwerb von Wissen ist und war schon immer für den einzelnen Menschen überlebensnotwendig, der wegen seiner mangelnden Instinkte ansonsten der Natur schutzlos ausgeliefert wäre. Nicht das Wissen ist dem Menschen angeboren, wohl aber die Fähigkeit und, mehr noch, der Drang, Wissen zu erwerben. So entsteht aus dem Wirken des Einzelnen schließlich ein überindividuelles Kulturwissen, das durch Tradition und Sozialisation den nachfolgenden Generationen übermittelt wird.
Individueller und gesellschaftlicher Wissensdrang
Wissen ist immer Wissen über die Welt, in der wir leben, und Wissenschaft ist ein System, mit dem versucht wird, diesen Wissenserwerb frei und unabhängig zu machen von den Irrtümern und Trugschlüssen, denen der Einzelne unterliegt. Definition: Wissenschaft Wissenschaft ist ein System von Regeln und Konventionen, über die innerhalb der so genannten 'Scientific community' Konsens besteht. Dieses System vermag zu bestimmen, welche Sätze als adäquate Beschreibungen der Wirklichkeit akzeptiert werden können, sowie welche Sätze zweiter Ordnung man aus diesen Sätzen ableiten darf. Was im ersten Augenblick vielleicht kompliziert klingen mag, soll kurz näher erläutert werden. Erstens: "Wissenschaft ist ein System von Regeln und Konventionen", d.h., es gibt nicht die Wissenschaft schlechthin, die wissenschaftliche Vorgehensweise ist lediglich eine scheinbar sinnvolle und plausible, die sich im günstigsten Fall durch ihren Erfolg in der Anwendung der gewonnenen Ergebnisse legitimieren kann. Es ist aber grundsätzlich unmöglich, den Charakter der Wissenschaft per se zu begründen. Das ist unmittelbar einleuchtend, da die Maßstäbe, an denen sich die 'richtige' Wissenschaft messen lassen müsste, ihrerseits wieder wissenschaftlich begründungspflichtig wären. Die Grundlagen der Wissenschaft sind also vorwissenschaftlich, sie beruhen auf Übereinstimmung zwischen Fachleuten in Bezug auf Regeln, die als einleuchtend oder selbstevident empfunden werden.
Experte: Wissenschaftliche Erkenntnis Tatsächlich ist der Prozess, wie er in der Wirklichkeit abläuft, noch etwas komplizierter. Der Begriff der Wissenschaft entwickelt sich auch und gerade erst durch die Praxis, d.h. ein bestimmtes Vorgehen und eine bestimme Methode können in der Regel erst begrün-
Vorwissenschaftliche Grundlagen der Wissenschaft
16
Kapitel 1 Wissen
det werden, nachdem diese Methode schon lange angewendet wurde. Galilei und Newton z.B. gelten zwar als die Begründer der modernen experimentellen Naturwissenschaft, hatten aber von sich selbst keineswegs das Selbstverständnis eines Naturwissenschaftlers. Newton, der mit den 'Principia Mathematica' 1687 das vermutlich einflussreichste naturwissenschaftliche Buch in der Geschichte der Menschheit veröffentlicht hat, war nicht nur der geniale Mathematiker und Physiker, sondern auch der (weniger geniale) Theologe, der Jurist und der Alchemist. Newtons theologische und alchemistische Schriften übertreffen vom Umfang sein mathematisches Werk bei weitem. Man geht davon aus, dass Newton sich tatsächlich nur ungefähr zehn Jahre seines Lebens schwerpunktmäßig mit Mathematik und Physik beschäftigt hat. John Maynard Keynes (1988: 273) sah Newton daher so: "Newton was not the first of the age of reason. He was the last of the magicians, the last of Babylonians and Sumerians, the last great mind which looked out on the visible and intellectual world with the same eyes as those who began to build our intellectual inheritance rather less than 10 000 years ago."
Ende Experte
Korrespondenzproblem
Zweitens: Welche Sätze dürfen als eine 'adäquate Beschreibung der Wirklichkeit' akzeptiert werden? Damit wird das Grundproblem der empirischen Wissenschaft überhaupt berührt, das so genannte Korrespondenzproblem. Wenn sich zwei Sätze auf denselben Aspekt der Wirklichkeit beziehen und diesbezüglich verschiedene Aussagen machen, muss einer falsch sein. Etwas kann nicht der Fall sein und gleichzeitig nicht der Fall sein (Satz vom Widerspruch). Ziel der empirischen Wissenschaft ist es nun, den falschen bzw. den richtigen Satz herauszufinden. Das Credo des Empirikers lautet daher, dass es möglich ist, eine Tatsache, die sich in der Wirklichkeit ereignet, mit einem sprachlichen Satzgebilde treffend zu beschreiben (auch Mathematik ist eine Sprache). Wie könnte nun die elementarste Form eines Satzes lauten, der einen Aspekt der Welt beschreibt? Dabei handelt es sich wohl um die Zuschreibung einer Eigenschaft zu einem Gegenstand. Beispiel: "Dieser Gegenstand ist rot."
Aussagen
Sätze, die Tatsachenbehauptungen aufstellen, die also wahr oder falsch sind, bezeichnet man allgemein als Aussagen. Dies ist sinnvoll, um solche Sätze von anderen Sätzen wie Fragen oder Aufforderungen zu unterscheiden. Wenn wir im Folgenden allgemein von Sätzen sprechen, so meinen wir damit Aussagen. Eine Aussage besteht immer aus einem oder mehreren Subjekten, über die etwas ausgesagt wird, und einem oder mehreren Prädikaten, die eine bestimmte Aussage über die Subjekte machen. Subjekte können durch Eigennamen, aber auch durch Zeigerbegriffe wie 'das da' oder – wie in unserem Beispiel – 'dieser Gegenstand' identifiziert werden. Das Prädikat unseres Beispiels ist 'rot sein'.
Sinneserfahrung als rudi-
Um über den Wahrheitsgehalt des Beispielsatzes "Dieser Gegenstand ist rot." entscheiden zu können, müssen wir über Verfahren verfügen, die uns erlauben zu sagen, ob dieser Gegenstand rot ist oder nicht. Diese Verfahren nennen wir Messoperationen. Die einfachsten Messverfahren bestehen darin, dass wir die uns unmittelbar zur Verfügung stehenden Sinneserfahrungen heranziehen. Da wir mit einer gewissen Plausibilität davon ausgehen können, dass die Welt so ist, wie wir
mentäres Messverfahren
Kapitel 1 Wissen
sie sehen, hören, fühlen, riechen etc., halten wir unsere Sinneserfahrungen auch für eine richtige Beschreibung der realen Welt. In der Regel trifft das zu, d.h., wir können mit gutem Recht davon ausgehen, dass ein Gegenstand, von dem wir selbst sagen, dass er die Farbe Rot hat, auch von anderen Menschen in dieser Farbe gesehen wird. Grundsätzlich gilt für den Empiriker die Annahme: Jede tatsächlich vorhandene Qualität der Wirklichkeit lässt sich zumindest im Prinzip durch geeignete Messverfahren abbilden, d.h. erfassen. Dabei spielt es keine Rolle, dass diese Messverfahren möglicherweise gar nicht existieren, oder (noch) nicht existieren, wichtig ist nur, dass sie zur Messung der betreffenden Eigenschaften eingesetzt werden könnten, wenn es sie gäbe. Anders ausgedrückt: "Die Welt zerfällt in Tatsachen." (Wittgenstein 1984: 11). Das heißt, sie zerfällt in eine zwar unvorstellbar große, aber – zumindest in Hinsicht auf den für uns relevanten Weltausschnitt – endliche Anzahl von messbaren Sachverhalten. Wir können daher sagen, der Begriff 'Welt' ist nichts anderes als der Name der Menge, die alle Sätze enthält, die den Tatsachen in der Welt entsprechen. Ein Satz über eine Tatsache ist demnach genau dann wahr, wenn er in dieser Menge enthalten ist. Sätze, die eine Aussage über eine Tatsache in der Welt darstellen, nennt man auch singuläre Sätze oder Elementarsätze, da sie sich auf einen konkreten, einzelnen Sachverhalt beziehen. Drittens: Aus den durch Beobachtung und Messung gefundenen Sätzen lassen sich neue Sätze ableiten, die sich auf Tatsachen beziehen, die selbst nicht beobachtet worden sind, oder auf allgemeine Gesetze, die so gar nicht beobachtet werden können. Man muss dabei mehrere Arten von Ableitungen unterscheiden. Wenn man unter 'Welt', wie oben ausgeführt, die Menge aller singulären Sätze verstehen will, die die Tatsachen in der Welt beschreiben, dann lässt sich diese Menge unterteilen in die Teilmenge der Sätze, die schon beobachtete Tatsachen beschreiben, und den Rest der noch nicht gemessenen Daten, die aber im Prinzip zu beobachten wären.
17
18
Kapitel 1 Wissen
Beispiel: Erdkugel Die Annahme, dass die Erde eine Kugel sei, ist schon in antiken Kulturen weit verbreitet gewesen. Eine der Beobachtungen, die zu dieser Annahme geführt hat, war die, dass man auf dem Meer von einem sich nähernden Schiff zuerst die Spitze des Mastes und nach und nach immer weiter unten liegende Teile des Schiffes gesehen hat. Dies ist aber nur möglich, wenn man sich auf einer gekrümmten Oberfläche befindet. Weiterhin galt dieser Effekt für jede Richtung. Der einzige geometrische Körper, der an jeder Stelle seiner Oberfläche die gleiche Krümmung aufweist, ist aber die Kugel. Die Annahme, dass es sich bei der Erde um eine Kugel handeln müsse, war daher die einzige logische Schlussfolgerung, die dieses Phänomen erklären konnte.1
Ende Beispiel
Es handelt sich also bei dem singulären Satz, "Die Erde ist eine Kugel.", um die Ableitung aus einem singulären Satz, "Auf dem Meer sieht man von einem entgegenkommenden Schiff zuerst die Mastspitze.", sowie einem allgemeinen Satz über die geometrische Eigenschaften eines Kugelkörpers, "Alle Kugeln besitzen an jeder Stelle ihrer Oberfläche die gleiche Krümmung." Diese Art der Ableitung nennt man Deduktion. Allerdings benötigt man für bestimmte Deduktionen häufig, wie man sieht, allgemeine bzw. universale Sätze. Allgemeine Sätze jedoch liegen niemals in der Wirklichkeit selbst vor, sie können daher nie direkt 'beobachtet' werden. Analytische und empirische Sätze
Es gibt zwei Arten von allgemeinen Sätzen, analytische und empirische. Bei empirischen allgemeinen Sätzen, die also eine Aussage über den 'Charakter' der Wirklichkeit machen, spricht man auch von Gesetzen. Analytische universale Sätze kommen in formalen Systemen wie der Mathematik vor. Sätze wie die über die geometrischen Eigenschaften von Kugeln z.B. zählen dazu, aber auch der Satz des Pythagoras. Das Hauptproblem jeder empirischen Wissenschaft aber besteht in der Gewinnung von universalen empirischen Sätzen. Hier spricht man vom Induktionsproblem. Es besteht darin, wie sich eine Vielzahl von einzelnen Beobachtungen zu einem einzigen Satz zusammenfassen lässt, der das 'Wesen' all dieser Einzelbeobachtungen beschreibt.
1
Allerdings war diese Schlussfolgerung mit anderen Widersprüchen verknüpft. Die Frage, warum Menschen oder Objekte am ‘Rand’ der Kugel nicht herunterrutschen oder an ihrer Unterseite herabfallen, konnte sich nur mit einer Relativitätstheorie wie der von Galilei erklären lassen, die damals den Menschen aber noch nicht zur Verfügung stand. Insofern gab es für den gesunden Menschenverstand durchaus gute Gründe, die Kugelhypothese abzulehnen.
Kapitel 1 Wissen
Die Logik des wissenschaftlichen Vorgehens lässt sich also wie folgt zusammenfassen: 1. Die uns empirisch zugängliche Welt lässt sich als eine Menge von singulären Sätzen auffassen, die die Tatsachen in der Welt beschreiben. 2. Die Wahrheit eines einzelnen solchen singulären Satzes lässt sich durch Beobachtung bzw. Messung der Tatsache, auf die sich dieser Satz bezieht, feststellen. 3. Mit Hilfe von Schlüssen lassen sich aus vielen einzelnen singulären Sätzen universale Sätze gewinnen, die eine Aussage über den Gesetzescharakter der Wirklichkeit machen. Diese universalen Sätze selbst sind nicht in der Wirklichkeit enthalten. Sie sind eine von uns gemachte Konstruktion, die wir der Wirklichkeit überstülpen. 4. Die Prüfung des Wahrheitsgehaltes eines Gesetzes kann daher nicht unmittelbar durch Konfrontation mit der Wirklichkeit vollzogen werden, sondern bezieht sich auf die Schlussweise und den Wahrheitsgehalt der abgeleiteten Elementarsätze. 5. Mit Hilfe von universalen Sätzen lassen sich singuläre Sätze ableiten, die Tatsachen der noch nicht beobachteten Welt entsprechen.
19
20
Kapitel 2 Wahrheit und Wirklichkeit
2 Korrespondenztheorie der Wahrheit
Wahrheit und Wirklichkeit
Die empirische Vorgehensweise unterstellt einen bestimmten Bezug zwischen wissenschaftlichen Theorien bzw. deren Komponenten – Begriffen, Definitionen, Aussagen und logischen Verknüpfungen – und der Wirklichkeit. Dieser Bezug wurde im vorhergehenden Kapitel als 'Korrespondenz' bezeichnet. Ein empirischer Forscher geht üblicherweise davon aus (und muss das sinnvollerweise auch tun, da er andererseits kein Fundament und keine Kriterien für die Güte seiner Forschungsergebnisse hat), dass sich erstens die Wirklichkeit in Aussagen abbilden lässt, und dass es zweitens möglich ist zu entscheiden, ob eine Aussage die Wirklichkeit adäquat oder inadäquat abbildet, ob sie also wahr oder falsch ist. Diese Grundannahme wird auch als 'Korrespondenztheorie der Wahrheit' bezeichnet und liegt üblicherweise der empirischen Forschung zugrunde. Abbildung 2.1: Wirklichkeit und Sprache Wirklichkeit
Tatsache ȕ Tatsache į
Sprache
Satz a
Satz Nicht-a Satz x
Tatsache ȟ Satz d
…
Satz Nicht-d
…
Tatsachen der Wirklichkeit und ihre sprachlichen Entsprechungen
…
Die Wirklichkeit (die physikalische Welt) lässt sich als die Gesamtheit der Tatsachen verstehen. Um noch einmal Wittgenstein (1984: 11) zu zitieren: "Die Welt ist durch die Tatsachen bestimmt und dadurch, dass es alle Tatsachen sind." Allerdings erkennen wir nicht alle Tatsachen gleichermaßen. Aus der unvorstellbar großen aber zugleich begrenzten Menge der Tatsachen, die zusammen die Wirklichkeit bilden, finden wir einige heraus, betrachten sie wie mit dem Vergrößerungsglas. Mit der Sprache andererseits verfügen wir über eine Form der symbolischen Repräsentation von Dingen und Ereignissen, die sich in der Wirklichkeit abspielen. Tatsachen der Wirklichkeit, die wir entdecken, können wir durch sprachliche Sätze ausdrücken. Zugleich gibt es aber Tatsachen, die keine sprachliche Entsprechung haben (weil noch niemand sie ausgedrückt hat). Und umgekehrt, was noch wichtiger ist, die sprachliche Form ist nicht durch die Form der Wirklichkeit gebunden. Wir sind in der Lage, sprachliche Aussagen zu formulieren, die keine Entsprechung unter den Tatsachen der Wirklichkeit haben oder die diese sogar negieren. Das heißt, anders ausgedrückt, wir können auch Unsinn von uns geben, wir können lügen oder uns auch nur täuschen. Am einfachsten wäre es
Kapitel 2 Wahrheit und Wirklichkeit
21
sicherlich, es gäbe eine Vorrichtung, die uns jedes Mal einen Knoten in die Zunge macht, sobald wir etwas sagen wollen, was so nicht den Tatsachen der physikalischen Wirklichkeit entspricht. Der Preis, den wir für eine solche 'Wahrheitsmaschine' zu zahlen hätten, bestünde aber in der Abschaffung jeglicher Art von Kunst, ganz abgesehen von den lebensnotwendigen Flunkereien und Ausreden, wenn wir eine Verabredung verpassen. Die durch die Sprache geschaffene Welt reicht weit über die wirkliche Welt hinaus, die Phantasiewelt des Münchhausen ist allein von ihrer sprachlichen Form her nicht weniger zulässig als die nüchternste Aufstellung des Lagerbestands eines Supermarkts. Während das Gegenteil einer Tatsache nicht gleichzeitig mit seinem Urbild existieren kann, ein Stein nicht fallen und gleichzeitig steigen kann, können in der Welt der Sprache beide 'Tatsachen' ausgedrückt werden, nämlich die richtige und die 'falsche', die aber im eigentlichen Sinn gar keine Tatsache ist, da sie ja in der Wirklichkeit gar nicht auftritt. Es gibt z.B. zur Tatsache G nur einen Satz, der sie adäquat beschreibt, nämlich den Satz d. Obwohl es uns möglich ist, sprachlich auch das Gegenteil von d (Nicht-d) auszudrücken, existiert in der physikalischen Welt eben keine korrespondierende Tatsache, die diesem Satz entsprechen würde. Die Existenz einer solchen Korrespondenzbeziehung aber ist es, was den Satz wahr werden lässt. So einleuchtend die Korrespondenztheorie der Wahrheit auch klingt, so enthält sie doch einige Voraussetzungen, über die kurz einmal nachgedacht werden sollte. So wird erstens eine Annahme über die Wirklichkeit gemacht. Man geht davon aus, dass es eine objektiv existierende Wirklichkeit gibt, die, sofern sie angemessen wahrgenommen und erfasst werden könnte, sich auch jedem Betrachter gleich darstellen müsste. Die Unterstellung einer objektiv existierenden Wirklichkeit ist durchaus nicht trivial und wird von vielen ernstzunehmenden Philosophen und Wissenschaftstheoretikern bestritten. Denn schließlich können wir nicht wissen, ob es diese Wirklichkeit gibt, geschweige denn, wie sie aussieht. Daran hindert uns der unvermeidliche Übersetzungsmechanismus, durch den wir die Wirklichkeit wahrnehmen. Alles, was wir von der Wirklichkeit wissen, ist bereits durch unsere Wahrnehmung, Beobachtung, Messinstrumente oder ähnliches gefiltert, die wiederum durch unser Wissen, unsere Theorien und unseren spezifischen Blickwinkel beeinflusst sind. Wir arbeiten also lediglich mit Abbildern der Wirklichkeit, niemals mit der Wirklichkeit selbst. Die wahrheitsgenerierende Korrespondenz unserer Sätze mit den Tatsachen kann also gar nicht hergestellt werden, das Einzige, was uns möglich ist, ist die Herstellung einer Korrespondenz unserer Sätze mit unseren Sinneseindrücken.
Voraussetzungen der Korrespondenztheorie: 1. objektiv existierende Wirklichkeit
22
Kapitel 2 Wahrheit und Wirklichkeit
Abbildung 2.2: Wirklichkeit, Sinneseindrücke und Sprache Wirklichkeit
Sinneseindrücke
Tatsache ȕ
Tatsache į Tatsache ȟ
Sprache
Satz a Konglomerat von Sinneseindrücken
Satz Nicht-a Satz c Satz x Satz d Satz Nicht-d
…
…
Der Tatsache G entspricht also bestenfalls ein Konglomerat von Sinneseindrücken, das wiederum mit dem Satz d korrespondiert. Die Entsprechung unserer Sinneseindrücke mit den Tatsachen ist aber nicht beweisbar, sondern eine pragmatische Annahme, die wir als 'naiven Realismus' bezeichnen könnten. D.h., trotz des unvermeidlichen Filters unserer Wahrnehmung gehen wir davon aus, dass diese Übersetzung nicht systematisch fehlgeleitet ist, da sie es uns ermöglicht, uns im Großen und Ganzen in der Welt einigermaßen störungsfrei zurechtzufinden und über unsere Anschauungen auch mit anderen Menschen zu kommunizieren. Wenn uns das nicht möglich wäre, wäre auf der Welt überhaupt kein intentionales und zielgerichtetes Handeln möglich. Schließlich liegen all unserem Handeln implizite Kausalvermutungen zugrunde, etwa, dass in einem Zimmer das Licht angeht, wenn wir den Lichtschalter betätigen, oder dass unser Magen aufhört zu knurren, wenn wir etwas essen. Dass wir einigermaßen unfallfrei Auto fahren können und ein geübter Dartspieler häufig die Mitte der Scheibe trifft, sind weitere Indizien dafür, dass die Übersetzung zwischen der Wirklichkeit außerhalb unseres Wahrnehmungsapparates und dem, was tatsächlich bei uns ankommt, offensichtlich zielgerichtet ist und nicht rein zufällig oder willkürlich abläuft. Voraussetzungen der Korrespondenztheorie: 2. Sinneswahrnehmungen werden durch sprachliche Konventionen ausgedrückt
Des Weiteren nehmen wir an, dass wir überhaupt in der Lage sind, über die Wirklichkeit, wie wir sie wahrnehmen, auch entsprechende sprachliche Aussagen zu formulieren, die dazu dienen, unsere Wahrnehmungen anderen mitzuteilen. Über die Wahrheit oder Falschheit dieser Aussagen kann dann ein Urteil getroffen werden. Das heißt, dass es möglich ist, sprachliche Konventionen zu bilden, mit deren Hilfe wir untereinander über unsere Wahrnehmung der Wirklichkeit kommunizieren können. Wenn ein Kind lernt, was ein Apfel ist, und daraufhin auf dem Spielplatz auf einen roten Ball zeigt und 'Apfel' sagt, wird die Mutter es korrigieren und ihm erklären, worin der Unterschied zwischen einem Ball und einem Apfel besteht. Ebenso ist es uns möglich, die Richtigkeit der Aussage "Es regnet." zu überprüfen, indem wir aus dem Fenster schauen oder vor die Türe gehen, um zu sehen, ob wir nass werden. Ohne diese Form von 'naiven Realismus', wie wir es genannt haben, könnten wir überhaupt nicht mehr sinnvoll miteinander reden.
Kapitel 2 Wahrheit und Wirklichkeit
23
Demgegenüber gibt es eine Form von Skeptizismus, die für die empirische Wissenschaft wie für den realen Alltag schlicht irrelevant ist. Fragen danach, ob ein Baum im Wald auch dann umfällt, wenn keiner dabei ist, der es sieht oder hört, mögen vielen von uns eher ermüdend denn tiefschürfend erscheinen und können als wissenschaftstheoretische Haltung mit Bertrand Russell als 'frivole Unernsthaftigkeit' (Russell 1997: 9) bezeichnet werden. Wenn wir von den erläuterten Grundannahmen ausgehen, stellt sich aber als nächstes die Frage, welche Kriterien angelegt werden können, um zu entscheiden, ob ein Satz, eine Aussage oder schließlich eine Theorie wahr oder falsch ist. Diese Frage der Beurteilung des Wahrheitsgehalts von sprachlichen Äußerungen ist das Grundproblem der Wissenschaft überhaupt. Logisch lassen sich zwei Qualitäten der Wahrheit von sprachlichen Äußerungen unterscheiden: Erstens stellt sich die Frage nach der Wahrheit von Äußerungen im Zusammenhang mit ihrer empirischen Wahrheit, also ob sie mit der Wirklichkeit korrespondiert. Die Aussage "Es regnet." ist eben genau dann wahr, wenn es tatsächlich regnet, und dann falsch, wenn es nicht regnet. Zweitens stellt sich die Frage nach der Wahrheit von Äußerungen aber auch im Hinblick auf ihre logische Konsistenz, also ob sie keine inneren Widersprüche enthält. Der Satz "Das Auto bewegt sich nach vorne und rückwärts zugleich." z.B. ist schon aus rein logischen Gründen falsch. Beide Aspekte, der der empirischen Wahrheit und der logischen Konsistenz, dienen der Prüfung wissenschaftlicher Ergebnisse und stehen miteinander in Wechselbeziehung. Ist eine Aussage logisch falsch, kann sie empirisch nicht wahr sein. Die Untersuchung der logischen Konsistenz von Aussagen folgt logischen Gesetzen, die in Kap. 5 ausführlicher dargestellt werden.
Zwei Kriterien/Begriffe der
Für die Feststellung der empirischen Wahrheit einer sprachlichen Aussage, also für ein Urteil darüber, ob eine sprachliche Aussage mit der Wirklichkeit korrespondiert, gibt es keine wirklich harten Kriterien. Wie Alfred Tarski (1972) zeigte, ist es für die Untersuchung der Wahrheit von Aussagen hilfreich, wenn man zwischen einer so genannten 'Objektsprache' und einer 'Metasprache' unterscheidet. In der Objektsprache bildet man unmittelbar Tatsachen der Wirklichkeit ab. In der Metasprache trifft man Aussagen über die Aussagen der Objektsprache. Objektsprachliche Aussagen können durch Beobachtung der Wirklichkeit (mit den oben genannten Einschränkungen) überprüft werden. Wenn ich etwa die (objektsprachliche) Aussage mache: In diesem Raum ist ein Rhinozeros, dann kann ich die Wahrheit dieser Aussage überprüfen, indem ich nachsehe, ob sich in diesem Raum wirklich ein Rhinozeros befindet. Danach kann ich in der Metasprache eine Aussage darüber treffen, ob die Aussage "In diesem Raum befindet sich ein Rhinozeros" wahr oder falsch ist. Um zwischen Objekt- und Metasprache zu unterscheiden, kann man beispielsweise objektsprachliche Aussagen, über die in der Metasprache gesprochen wird, in Anführungszeichen setzen. Dieser Konvention folgen wir auch in diesem Buch.
Unterscheidung von Ob-
Wahrheit: 1. empirische Wahrheit 2. logische Konsistenz
jektsprache und Metasprache nach Alfred Tarski
24
Kapitel 2 Wahrheit und Wirklichkeit
Indem wir Aussagen direkt an der Wirklichkeit überprüfen, können wir einen Eindruck ihrer Wahrheit oder Falschheit gewinnen. Allerdings ist dieser Eindruck aufgrund des Übersetzungsproblems zwischen der Wirklichkeit und unserer Wahrnehmung immer fehlerbehaftet, so dass wir niemals genau wissen können, ob unser Eindruck, ein Satz sei wahr, tatsächlich der Realität entspricht. Wir sind also mit zwei Arten von Problemen konfrontiert, was das Verhältnis von Sätzen und Wirklichkeit angeht. Bei singulären Sätzen können wir nie eindeutig entscheiden, ob dieser Satz genau in dieser Form einer Tatsache entspricht, wie sie sich 'wirklich' abspielt. Und auch bei allgemeinen Sätzen stoßen wir auf eine problematische Beziehung zwischen der Wirklichkeit und den sie repräsentierenden Sätzen. Allerdings kommen allgemeine Sätze niemals als solche direkt in der Wirklichkeit vor. Allgemeine Gesetze sind lediglich eine Beschreibung der Gesetzmäßigkeiten, von denen wir glauben, dass sich die Konstitution der Wirklichkeit nach ihnen vollzieht. Auch hier besteht wieder nur ein indirekter Zugang von den Sätzen zur Wirklichkeit und umgekehrt. Allgemeine Sätze können immer nur auf den Umweg von singulären Sätzen untersucht werden, denn die Brücke zwischen Wirklichkeit und Sprache kann nur mit Hilfe des Rohmaterials der singulären Sätze geschlagen werden. Wissenschaftlicher Fortschritt als Annäherung an die Wahrheit
Im Hinblick auf die Fortentwicklung von Wissen und Wissenschaft ist es uns nach Karl Popper deshalb nie möglich, die absolute Wahrheit zu erfahren, bestenfalls können wir eine Annäherung an die Wahrheit erzielen. Das bedeutet, dass wir zwar Sätze und Theorien an der Wirklichkeit überprüfen und dementsprechend als bewährt ansehen oder verwerfen können, und dass wir über den Prozess des Verwerfens und Verbesserns von Sätzen und Theorien zu relativ 'wahreren' Aussagen kommen, dass wir jedoch niemals wissen können, ob und wann wir die Wirklichkeit in unserer Sprache vollständig wahr abbilden. Mit dieser grundlegenden Skepsis müssen wir bei allem Streben nach wissenschaftlichem Fortschritt leben. Wie dieser Prozess des Prüfens und Verwerfens von Theorien vor sich geht, wird ausführlich in Kap. 8 beschrieben.
Kapitel 3 Welt und Sprache
3
25
Welt und Sprache
Aussagen oder Sätze werden hier also als sprachliche Gebilde verstanden, die mit Tatsachen (Sachverhalten) der Welt (Wirklichkeit) korrespondieren. Für jede Tatsache in der Wirklichkeit gibt es einen Satz, der eben diese Tatsache repräsentiert. Sprache ist daher nichts anderes als eine symbolische Repräsentation der Welt in unseren Köpfen. Dies erleichtert uns in vielerlei Hinsicht die Auseinandersetzung mit der Welt. Wir müssen eine Tatsache, um sie uns vor Augen zu führen, nicht als solche in echt reproduzieren, sondern können durch einen Satz auf sie verweisen, also eine Referenz zu ihr herstellen, die stellvertretend für sie stehen kann. Der besondere Vorteil der Sprache gegenüber anderen möglichen symbolischen Repräsentationen besteht darin, dass sie sich besonders gut zur Kommunikation mit anderen Menschen eignet. Erfahrungen über die Welt können so ausgetauscht werden und die Konsequenzen aus diesen Erfahrungen, d.h. das erworbene Wissen, kann so weitergegeben werden, ohne dass diese Erfahrungen selbst von neuem gemacht werden müssen. Es ist daher schlechthin unvorstellbar, dass wir ohne Sprache überhaupt zu einem tieferen Verständnis der Welt gelangen könnten. Auch wenn wir unsere Erfahrungen letztlich nur in der Welt machen können, so können wir Wissen über die Welt im eigentlichen Sinn immer nur in der Form einer symbolischen Repräsentation besitzen.
Sprache als Schlüssel zum
Wegen der fundamentalen Bedeutung der Sprache wollen wir uns kurz etwas eingehender mit ihrer Struktur beschäftigen. Aussagen entsprechen Tatsachen in der Welt. Eine elementare Tatsache ist wiederum die Verbindung eines Objekts mit einer Eigenschaft. Um Sätze überhaupt formulieren zu können, brauchen wir daher eine sprachliche Repräsentation von Objekten, von Eigenschaften und von Beziehungen, Verknüpfungen zwischen Objekten und Eigenschaften im Sinne von Zugehörigkeit usw. Alle diese sprachlichen Repräsentationen in ihrer Gesamtheit wollen wir als Begriffe bezeichnen. Jede sprachliche Repräsentation kann wiederum als ein Komplex von symbolischen Zeichen betrachtet werden. Da der Vorrat an symbolischen Zeichen in den meisten Sprachen begrenzt ist und wesentlich mehr Begriffe benötigt werden als Zeichen vorhanden sind, werden Begriffe meist durch eindeutige geordnete Kombinationen von Zeichen, die wir Wörter nennen, dargestellt. Das, worauf der Begriff verweist, soll Designat oder Vorstellungsinhalt genannt werden. Die Verknüpfung von Begriffen und Designata geschieht mit Hilfe so genannter semantischer Regeln, oder Korrespondenzregeln. Die Bedeutung eines Begriffs liegt in der Möglichkeit seiner Zuordnung zu einem Designat. Die einfachste Form von Begriffen sind so genannte empirische oder deskriptive Begriffe, die einem Objekt oder Gegenstand der Wirklichkeit oder einem seiner Merkmale entsprechen. Beispiele für deskriptive Begriffe wären demnach 'Mond', aber auch 'Trabant', 'Venus', aber auch 'Planet', 'Blume', 'rot' etc. Wir können deskriptive Begriffe daher noch einmal in solche zerlegen, die die Identifikation bestimmter einzelner Objekte ermöglichen, und solche, die die Identifikation einer Gruppe von Objekten ermöglichen. Wir können stattdessen auch von 'Namen' und 'Eigenschaften' sprechen, oder von 'proper names' und 'class names'
Struktur von Sprache
Verständnis der Welt
26
Kapitel 3 Welt und Sprache
(Russell 1997: 87ff.). Etwas Ähnliches meint auch Popper mit seiner Unterscheidung zwischen 'Individualien' und 'Universalien' (Popper 1989: 36ff.). Namen sind die Bezeichnungen konkreter einzelner, individueller Objekte, anhand derer diese eindeutig identifizierbar sind, also 'Mars' als Name des Planeten Mars, 'Herr Müller', 'Gerhard Schröder' etc. Da 'Namen' alles umfassen, das eine eindeutige Identifizierung ermöglicht, sind in einem weiten Sinn auch 'Zeiger-Begriffe' wie 'dieser da', 'das Objekt in meiner Hand' etc. als 'Namen' zu verstehen. Eigenschaften oder Prädikate dagegen sind Begriffe, die Objekten zugeordnet werden können. Die Eigenschaft 'Planet' z.B. kann verschiedenen Objekten mit den Namen 'Mars', 'Venus', 'Erde' und so weiter zugeordnet werden. Das Prädikat 'Trabant' kann dem Objekt 'Mond' zugeordnet werden, solange wir diesen Begriff zur Bezeichnung des Objekts Erdenmond verwenden und nicht zur Bezeichnung einer Klasse von Objekten mit der Eigenschaft 'bewegen sich um Planeten'. Der Begriff 'Mond' ist daher zweideutig, da er sowohl in der Namensbedeutung als auch in der Trabantenbedeutung verwendet wird. Genauso können wir den Objekten 'BRD', 'USA' oder 'Frankreich' das Prädikat 'demokratisch' zuordnen. Allerdings ist auch dieser Fall nicht ganz trivial, weil die Bildung der Entität (also der Einheit), die wir z.B. mit dem Eigennamen 'BRD' bezeichnen, auf einer Eigenschaft beruht, die man z.B. 'Nationalstaat' nennen kann. Elementare Sätze bestehen in der Regel aus der Zuordnung eines Prädikats zu einem Objekt, wie "Der Mond (als Objekt) ist eine Kugel" oder "Napoleon war ein Feldherr". Begriff als Menge von Objekten mit gleicher Eigenschaft
Es erleichtert die wissenschaftliche Auseinandersetzung mit Begriffen oft, wenn wir sie uns als Mengen vorstellen. Der Begriff 'Rot' kann dann einfach als die Menge aller roten Objekte definiert werden. Mengen können grundsätzlich auf zweierlei Art und Weise gebildet werden. Zum einen können wir eine Menge bilden, indem wir alle Elemente aufzählen, d.h. die Objekte, die in der Menge enthalten sind. Dies nennen wir die Extension des Begriffs oder der Menge. Zur Bestimmung der Extension eines Begriffs müssen wir auf Namen zurückgreifen, um so die einzelnen Objekte eindeutig zu erfassen. Der Begriff 'Feldherr' entspräche in der extensionalen Mengendarstellung einer Menge 'Feldherr', die wir als {'Alexander der Große', 'Perikles', 'Julius Cäsar', ... 'Moltke', 'Hindenburg', 'Patton' ...} darstellen könnten. Die Extension der Menge der geraden Zahlen wäre {2, 4, 6, 8 ....}. Die vollständige extensionale Darstellung eines Begriffs oder einer Menge ist nur möglich, wenn die Anzahl der Objekte, die dem Prädikat zugeordnet werden, endlich ist. Das Prädikat 'Begründer einer Weltreligion' lässt sich (je nach Kulturverständnis) durchaus vollständig extensional darstellen als {Buddha, Konfuzius, Moses, Christus, Mohammed}. Bei weniger spezifischen Prädikaten wie 'Rot' oder 'Gerade Zahl' jedoch ist die Anzahl der Objekte unendlich und daher durch Aufzählen nicht vollständig darstellbar. Man kann aber im Prinzip unendliche Objektmengen für einen beschränkten Bereich extensional darstellen, z.B. die roten Gegenstände, die sich im Raum x zur Zeit y befinden oder die geraden Zahlen, die kleiner als 100 sind.
Kapitel 3 Welt und Sprache
27
Da die Klassennamen in der Regel nicht vollkommen willkürlich sind, sondern ja etwas bedeuten, ist auch die Extension eines Begriffs in der Regel nicht willkürlich. Vielmehr existiert in den meisten Fällen eine Art von Zuordnungsvorschrift, die bestimmt, wann ein bestimmtes Element zu der dem Begriff entsprechenden Menge gehört. Dies nennen wir die Intension eines Begriffs. Die Intension eines Begriffs gibt also die Bedingungen an, denen ein Objekt genügen muss, um zur Menge zu gehören, oder bestimmte Merkmale bzw. Eigenschaften, die das Objekt besitzen muss. Die intensionale Darstellung der Menge der geraden Zahlen sähe z.B. so aus: {x: x ist ohne Rest durch 2 teilbar.}, also die Menge aller Elemente x, für die gilt, dass x durch 2 ohne Rest teilbar ist. Die Intension einer Menge stellt eine Art von Konstruktionsvorschrift ihrer Extension dar. Insbesondere können wir aufgrund der Intension eines Begriffs entscheiden, ob ein bestimmtes Objekt zu seiner Extension gehört oder nicht. Dies ist von Bedeutung, da wir über die Wahrheit eines elementaren Satzes, der ja in der Zuordnung eines Prädikats zu einem Objekt besteht, unter Hinzuziehung der Extension des Prädikats entscheiden. Der Satz "x ist ein A" ist z.B. genau dann wahr, wenn x ein Element der Extension von A ist. Wenn wir die Extension in ihrem gesamten Umfang nicht kennen, können wir für x aber dennoch entscheiden, ob es in ihr enthalten ist, indem wir x den Anforderungen unterziehen, die in der Intension des Begriffs genannt sind. Nehmen wir z.B. an, wir sollen entscheiden, ob der Satz "x ist eine Primzahl" wahr ist. Wenn x '7' oder '11' oder '13' ist, können wir dies unmittelbar bejahen, da wir wissen, dass '7', '11' und '13' zur Extension des Begriffs 'Primzahl' gehören. Allerdings ist uns diese Extension nur partiell bekannt. Wenn wir jetzt entscheiden sollten, ob '12371' eine Primzahl ist, werden dies die meisten von uns nicht mehr durch ihre partielle Kenntnis der Extension von 'Primzahl' entscheiden können. Wir kennen jedoch die Intension von 'Primzahl', die heißt, dass eine Zahl lediglich durch sich selbst und durch 1 ohne Rest teilbar ist. Dies können wir nun für die Zahl '12371' untersuchen. Trifft die Bedingung zu, dann ist x eine Primzahl. Gleichzeitig wissen wir aber, dass x damit zur Extension von 'Primzahl' gehört und erhöhen damit unsere partielle Kenntnis derselben.
Extension und Intension von Begriffen
Die meisten Begriffe lernen wir in der Phase des Spracherwerbs auf natürliche Weise. In der Wissenschaft benötigen wir jedoch häufig neue Begriffe oder es ist notwendig, dass bestimmte Begriffe für den wissenschaftlichen Gebrauch präzisiert werden. In diesem Fall müssen diese neu eingeführten oder mit einer neuen Bedeutung versehenen Begriffe definiert werden. Definitionen sind dabei nichts anderes als Konventionen bezüglich der Verwendung bestimmter sprachlicher Ausdrücke, auf die man sich innerhalb der wissenschaftlichen Gemeinschaft einigt. Damit sind Definitionen aber niemals wahr oder falsch, bestenfalls können sie mehr oder weniger zweckmäßig sein. Wir unterscheiden verschiedene Formen von Definitionen:
Definitionen
28
Kapitel 3 Welt und Sprache
Definition: Nominaldefinition Unter Nominaldefinition versteht man die Festsetzung darüber, dass ein bestimmter Ausdruck, das Definiendum, gleichbedeutend sein soll mit einem anderen Ausdruck, dem Definiens, dessen Bedeutung bekannt ist. Nominaldefinition
Bei der Nominaldefinition handelt es sich also um eine Bedeutungsübertragung oder Bedeutungstransformation vom Definiens zum Definiendum. Es werden keine neuen Bedeutungen geschaffen. Die Definition ist daher aus rein ökonomischen Gründen sinnvoll. Im Prinzip könnte man in jedem Satz, in dem das Definiendum vorkommt, dieses genauso gut durch das Definiens ersetzen, ohne den Sinn des Satzes in irgendeiner Weise zu verändern. Die Nominaldefinition von 'Schimmel' beispielsweise lautet 'weißes Pferd'. Jeder Satz, in dem das Wort 'Schimmel' vorkommt, bleibt in seiner Bedeutung unberührt, wenn man 'Schimmel' durch 'weißes Pferd' ersetzt. Die Erfindung von Wörtern wie 'Schimmel' oder 'Rappe' oder 'Stute' dient in erster Linie der Bequemlichkeit, da man so mit insgesamt weniger Wörtern auskommt, um eine bestimmte Aussage zu machen. Allerdings vergrößert sich dadurch der zur Kommunikation benötigte Wortschatz. Sätze, die lediglich eine sprachliche Umformulierung der Definition sind, wie z.B. "Ein Schimmel ist ein weißes Pferd." sind immer wahr und daher tautologisch. Dies ist unmittelbar klar, denn die Bedeutung des Satzes und damit auch sein Wahrheitswert bleiben ja unberührt, wenn man das Definiendum durch das Definiens ersetzt. Der obige Satz ist daher gleichbedeutend mit "Ein weißes Pferd ist ein weißes Pferd.", eine Aussage, die ebenso wahr wie unnötig, da ohne jeglichen Informationsgehalt ist. Da Nominaldefinitionen somit immer nur schon vorhandene Bedeutungen neuen Wörtern zuweisen, kann durch Nominaldefinitionen niemals neues Wissen entstehen. Nominaldefinitionen schlagen keine Brücke zur realen Welt der Objekte. Die Extension von 'Schimmel' ist durch und durch identisch mit der Extension von 'weißes Pferd', es handelt sich lediglich um zwei verschiedene Bezeichnungen derselben Menge. Was uns als Empiriker interessiert, ist ja, wann ein bestimmtes Objekt x mit Recht als 'Schimmel' oder 'weißes Pferd' bezeichnet werden darf, bzw. wann der Satz "x ist ein Schimmel" als wahr bezeichnet werden darf. Da Sätze die sprachlichen Repräsentationen von Sachverhalten sind, können wir Begriffe auch so definieren, dass ein Satz der Form "x ist ein A" immer dann wahr ist, wenn wir in Bezug auf x eine bestimmte Art von Beobachtung bzw. Erfahrung machen. Dies nennen wir die operationale Definition von Begriffen, die von Opp daher auch als "Übersetzung eines Begriffs in beobachtbare Ereignisse" (Opp 1995: 119) bezeichnet wird.
Kapitel 3 Welt und Sprache
29
Definition: Operationale Definition Unter der operationalen Definition eines Begriffs A versteht man die präzise Festsetzung bestimmter Operationen an einem Objekt x, deren Ergebnisse eine eindeutige Aussage darüber ermöglichen, ob dem Objekt x der Begriff A zugeordnet werden darf oder nicht. Eine operationale Definition des Begriffs 'Gerade Zahl' haben wir eben schon kennen gelernt. Sie besteht zuerst in der Festsetzung der Operationen, die an einem Objekt vorgenommen werden sollen, in unserem Beispiel entspräche diese Operation der Modulo-Funktion bezüglich der Zahl 2, d.h. der Ermittlung des Rests nach der Division durch 2. Wenn dieser Wert gleich Null ist, dann ist die Zahl gerade.
Operationale Definition
Operationale Definitionen spielen in den empirischen Wissenschaften eine herausragende Rolle. Die entsprechenden Operationen werden dann auch Messungen oder Messverfahren genannt. Da operationale Definitionen einen Bezug zu bestimmten Beobachtungen herstellen, kann mit ihrer Hilfe die Korrespondenz von Beobachtungen und Sätzen hergestellt werden. Die operationale Definition des Begriffs 'Rot' kann man sich z.B. so vorstellen, dass der Begriff dann und nur dann einem Objekt zugeschrieben werden darf, wenn die Wellenlänge des von diesem Objekt reflektierten Lichts einem bestimmten Bereich entspricht, wobei diese Wellenlänge durch eine Apparatur gemessen wird, die wir z.B. Spektrometer nennen. Genauer gesagt besteht die operationale Definition von 'rot' in der Bauanleitung einer solchen Apparatur, dem Aussetzen des Objekts durch die Apparatur und dem Bewerten des Ergebnisses dieser Operationen. In der Regel wird diese Apparatur so konstruiert sein, dass sie eine Art Skala und eine Art Zeiger enthält, an denen die Ergebnisse der Prozedur abgelesen werden können. Bei einfachen Merkmalen wie der Farbe ist es möglich, einen direkten Bezug zwischen einer Beobachtung und der Ausprägung des Merkmals herzustellen. Oft untersuchen wir jedoch gerade in den Sozialwissenschaften Eigenschaften, die nicht direkt mit bestimmten Beobachtungen korrespondieren, sondern für deren Vorliegen bestimmte Beobachtungen lediglich als Indiz dienen können. Beobachtungen, die nur einen indirekten Schluss auf ein Merkmal zulassen, nennen wir Indikatoren. Beispiel: Intelligenzmessung Nehmen wir einmal den Begriff der Intelligenz. Leider (oder zum Glück) gibt es keine direkte Methode, die Intelligenz eines Menschen zu ermitteln, wie sich z.B. die Farbe einer Blume ermitteln lässt. Andererseits haben wir eine bestimmte Vorstellung davon, dass 'intelligente' Menschen sich dadurch auszeichnen, dass sie zu gewissen Dingen in der Lage sind, zu denen weniger 'intelligente' Leute nicht fähig sind, z.B. zum Lösen abstrakter Probleme. Tests, die solche Probleme enthalten, können dann als Indikator für 'Intelligenz' herangezogen werden. Wird aus mehreren Indikatoren ein zusammenfassender Wert berechnet, so wird diese neue Dimension ein Index genannt. Der so genannte Intelligenzquotient ist ein solcher Index, der – je nach Test – die Zusammenfassung ver-
Indikatoren zur indirekten Messung
30
Kapitel 3 Welt und Sprache
schiedener Testbatterien darstellt. Die operationale Definition von 'Intelligenz' wäre demnach der Wert, den ein Intelligenztest misst. Eine solche Definition kann aber völlig beliebig und somit noch weniger informationshaltig sein als eine Nominaldefinition. Tatsächlich ist hier der Willkür Tür und Tor geöffnet, und gerade Erfahrungen im Missbrauch des 'Intelligenztests' sollten zur Vorsicht im Umgang mit operationalen Definitionen mahnen (Gould 1999). Das Problem besteht darin, dass wir oft schon vor der Einführung von operationalen Definitionen ein Vorverständnis des zu definierenden Begriffs haben und auch haben müssen, denn sonst könnten wir uns keine Operationen ausdenken, die unserem Verständnis nach in der Lage sind, die dem Begriff entsprechende Eigenschaft zu messen. Dieses Vorverständnis lässt sich auch mit Hilfe von Bedeutungsanalysen untersuchen. Der Begriff Intelligenz hatte auch schon vor der Einführung des Intelligenztests eine Bedeutung, auch wenn der Begriff nicht quantifizierbar war. Eine operationale Definition ist daher nur dann wirklich angemessen, wenn das Messverfahren oder Messinstrument tatsächlich Ergebnisse im Sinne des zu messenden Konzepts liefert. Am Beispiel des oben eingeführten Spektrometers ist der Fall relativ einfach zu erläutern: Man kann ohne größere Schwierigkeiten ein Gerät bauen, dessen Zeiger sich immer in einem bestimmten Bereich einer Skala befindet, wenn ein Gegenstand rot ist (also wenn jeder beliebige Beobachter diesen Gegenstand auch als 'rot' bezeichnen würde). Die Messung einer Farbe ist deswegen so einfach, weil sie an bestimmte physikalische Eigenschaften gekoppelt ist, über die unter einer Vielzahl von Beobachtern in der Regel Konsens zu erzielen ist. Ein 'Intelligenztest' wäre dementsprechend ein guter Test bzw. eine gute operationale Definition des Begriffs Intelligenz, wenn der Test immer dann und nur dann einen hohen Wert bei einer getesteten Person erzielen würde, wenn sich auch alle Beobachter darüber einig wären, dass diese Person tatsächlich intelligent ist (im Falle eines so vagen Konzepts wie 'Intelligenz' mit Sicherheit ein mehr als frommer Wunsch). Der Vorteil eines standardisierten Intelligenztests liegt darin, dass er diese Vagheit beseitigt und ein eindeutiges Ergebnis liefert. Der Nachteil liegt allerdings darin, dass, was immer der Test misst, mit dem, was 'man' gemeinhin unter Intelligenz versteht, unter Umständen wenig gemeinsam hat. Man könnte nun der Genauigkeit halber einen neuen Begriff 'T-Intelligenz' einführen, um klarzumachen, dass es sich hierbei nur um die in einem Test ermittelte Intelligenz handelt. Wenn wir allerdings operationale Definitionen immer als neue Begriffe einführen, verhindern wir zwar damit eine eventuell missverständliche Zuordnung, andererseits sinkt die Verwertbarkeit des Tests bzw. des Messergebnisses. Wenn es keine Möglichkeit mehr gibt, die Testergebnisse in Bezug zu Größen und Begriffen außerhalb des Tests zu setzen, dann wissen wir in keiner Weise, was wir mit einem solchen Testergebnis anfangen sollen. Intelligenztests sind ja nur deshalb interessant, weil sie vorgeben, das, was wir üblicherweise unter Intelligenz verstehen, tatsächlich auch objektiv messen zu können. Wir können über 'Intelligenz' in einem wesentlich weiteren Rahmen sinnvoll sprechen als wir darüber objektive wissenschaftliche Aussagen machen können. Die 'Objektivierung' des Intelligenzbegriffs macht diesen einerseits wissenschaftlich handhabbar, aber möglicherweise unter dem Verlust 'unscharfer' Komponenten, die man zwar im Gespräch mitführen kann, die sich aber nicht quantifizieren, d.h. messen, lassen.
Ende Beispiel Operationale Definitionen sind unsere unverzichtbare Brücke zur empirischen Welt. Sie sind aber nur dann wertvoll, wenn die Ergebnisse der beschriebenen Prozeduren im Sinne von Bedeutungen interpretiert werden können, die der Begriff außerhalb der Prozeduren hat. Denn diese Bedeutungen sind es in der Regel, die den Begriff überhaupt als untersuchenswert erscheinen lassen. Wenn ein Test in diesem Sinn auch tatsächlich misst, was er messen soll, so nennen wir diesen Test valide.
Kapitel 4 Messen
4
31
Messen
Unter Messen verstehen wir die Zuschreibung einer Eigenschaft zu einem Objekt. Allerdings ist es nötig, den Begriff 'Eigenschaft' noch etwas zu präzisieren. In der Umgangssprache unterscheiden wir in der Regel nicht genau zwischen der Eigenschaft selbst und der Ausprägung dieser Eigenschaft. Es ist z.B. eine Eigenschaft eines Quaders, eine räumliche Ausdehnung zu besitzen, oder, anders ausgedrückt, eine Länge, eine Höhe und eine Breite. Die konkrete Länge, Höhe und Breite in Metern sind die Ausprägungen der Ausdehnung in den drei Dimensionen des Raums. Jedes Objekt ist durch die Eigenschaften, die es besitzt, charakterisiert. Jedes Objekt liegt also in einem Eigenschaftsraum, und die Koordinaten in diesem Raum entsprechen den Ausprägungen der einzelnen Eigenschaften.
Messen: Zuschreibung ei-
Zwei Einschränkungen sind zu machen. Erstens: Wir können nur die Eigenschaften eines Objektes messen, die wir kennen und für deren Messung wir die geeigneten Verfahren zur Verfügung stehen haben. D.h. es mag beispielsweise sein, dass das Objekt eine vierte Dimension im Raum besitzt, da wir aber keinen Zugang zu dieser Dimension haben, können wir die Ausprägung des Objekts bezüglich dieser Eigenschaft nicht messen. Bei der Messung eines Objekts berücksichtigen wir also nur einen reduzierten Raum von beobachtbaren und für uns relevanten, d.h. uns interessierenden Eigenschaften. Wenn uns die räumliche Ausdehnung eines Quaders interessiert, dann messen wir eben nur Länge, Breite und Höhe und nicht außerdem noch seine Farbe, die Beschaffenheit seiner Oberfläche u.ä.
Nur prinzipiell bekannte Ei-
Zweitens: Der Begriff, den wir uns von den internen Eigenschaften eines Objekts machen, ist von den externen Eigenschaften aller Objekte, die diese interne Eigenschaft besitzen, abgeleitet. Das heißt: Wir wissen, dass ein räumlicher Körper eine Länge besitzt. Dies wissen wir auch dann, wenn wir die exakte Länge des Körpers nicht kennen. Der Begriff der Länge aber entsteht durch die Erfahrungen, die wir gemacht haben, indem wir die konkrete Länge verschiedener Körper gemessen haben. Wir wissen, dass ein Gegenstand eine Farbe haben muss, auch dann, wenn wir die Farbe selbst gar nicht kennen. Der Begriff der 'Farbe' aber, die Vorstellung, die wir uns vom Wesen der Farbe machen, hängt ab von unserer Erfahrung, die wir mit konkreten Farben wie 'Rot', 'Grün', 'Blau' usw. gemacht haben. Die Vorstellung der Eigenschaft, die wir messen wollen, ändert sich also mit dem Verfahren der Messung selbst. Im gleichen Maße, wie wir eine Messmethode verfeinern, verfeinern wir auch unseren Begriff von der zu messenden Eigenschaft.
Vorstellung der zu messenden Eigenschaft ist erfah-
Die Messung eines Objekts ist also in zweierlei Hinsicht beschränkt, zum einen durch die Auswahl der Eigenschaften, zum anderen durch die Form der Messung dieser Eigenschaften. Durch die Messung einer Eigenschaft von Objekten unterteilen wir die Menge aller Objekte in mehrere distinkte Mengen, wobei jede Teilmenge einer Ausprägung der Eigenschaft entspricht. Messen wir z.B. die Farbe aller Gegenstände, dann
ner Eigenschaft zu einem Objekt
genschaften können gemessen werden
rungsgetränkt und daher prinzipiell veränderlich
32
Kapitel 4 Messen
können wir unter anderem eine Menge bilden, die wir mit dem Namen 'ROT' versehen, in die alle Dinge gehören, deren Farbe die Ausprägung rot hat. Auf die gleiche Art und Weise bilden wir eine Menge mit dem Namen 'BLAU', eine mit dem Namen 'GRÜN' usw. Symbole zur Bezeichnung der Ausprägung von Eigenschaften: zumeist Zahlen oder Wörter
Reduktion der Dimensionen der Wirklichkeit durch das Messinstrument
Für die Bezeichnung der Ausprägung einer Eigenschaft werden symbolische Zeichen verwendet. Häufig ist es sinnvoll, numerische Zeichen, also Zahlen, zu verwenden, da diese – je nach Art der Verwendung – in der Lage sind, ihrem Wesen nach unterschiedliche Charakteristika der Eigenschaften von Objekten abzubilden. So können wir je nach Kontext entscheiden, auf welche Eigenschaften von Zahlen wir bei der Kennzeichnung bestimmter Objekte mit bestimmten Merkmalsausprägungen zurückgreifen wollen. So kann durch Zahlen etwa unmittelbar eine Rangordnung oder das Verhältnis von Abständen zwischen einzelnen Ausprägungen einer Eigenschaft veranschaulicht werden. Aber wir können Zahlen auch einfach als symbolische Zeichen verwenden. Gerade in den Sozialwissenschaften haben wir es häufig mit Ausprägungen von Merkmalen zu tun, die sich am besten durch verbale Zeichen, also Worte, kennzeichnen lassen. So wie im obigen Beispiel die Ausprägungen der Eigenschaft von Objekten 'eine Farbe haben' mit den Begriffen 'ROT', 'GRÜN' und 'BLAU' gekennzeichnet wurden, werden beispielsweise die Ausprägungen der Eigenschaft 'Wahlsystem' durch die Begriffe 'Proportionalwahlsystem', 'Mehrheitswahlsystem' oder 'Mischwahlsystem' gekennzeichnet. Zahlen können dann im Sinne von Zeichen als ökonomische Abkürzungen der längeren Begriffe verwandt werden. Bei der Messung der Ausprägung einer oder mehrerer Eigenschaften eines Objekts 'stauchen' wir also das reale Objekt, wie es in der Wirklichkeit vorhanden ist, auf wenige Maßzahlen zusammen, die uns interessierende Eigenschaftsausprägungen repräsentieren. Messen ist also nichts anderes als eine Projektion der vielschichtigen, komplexen, nahezu unendlich dimensionalen Wirklichkeit auf wenige Dimensionen ihrer symbolischen Repräsentation. Man spricht daher auch von der Abbildungstheorie der Wirklichkeit durch die Messung. Tatsächlich leben wir natürlich schon immer in einer auf wenige Dimensionen 'gestauchten' Repräsentation der Wirklichkeit. Um es in Kants Terminologie zu sagen, die Welt, wie wir sie wahrnehmen, ist die Welt 'für uns' aber nicht die Welt 'an sich.' Auch unsere Wahrnehmungsorgane transformieren die 'wirkliche' Wirklichkeit in eine Wirklichkeit, deren Aufbau und Erscheinungen lediglich die Struktur unserer Sinnesorgane und die Art unseres Gehirns, Sinneseindrücke zu verarbeiten, widerspiegeln. Sowenig es das symbolische Zeichen 'rot' in der Wirklichkeit gibt, sowenig gibt es in ihr den Sinneseindruck, den wir mit der Farbe Rot verbinden. Alle unsere Sinneseindrücke sind nicht in der Realität vorhanden, sondern entstehen durch komplexe Erregungsmuster in unserem Gehirn. Wir können daher den Vorgang der Messung ganz analog zum Einsatz eines Sinnesorgans betrachten. So wie uns unsere Augen die Projektion der Wirklichkeit auf die optische Ebene vermitteln, so gibt uns die Messung die Abbildung der Wirklichkeit auf die Ebene des Messinstruments wieder.
Kapitel 4 Messen
33
Natürlich wollen wir, dass bei dieser Abbildung die Struktur der Wirklichkeit, zumindest in den uns interessierenden Aspekten, möglichst erhalten bleibt. Diese Struktur besteht in den Beziehungen zwischen den Objekten bzw. deren Eigenschaften. Die Eigenschaften eines Objekts können immer nur insoweit wahrgenommen werden, wie sie sich von den Eigenschaften eines anderen Objekts unterscheiden. Es gibt keine 'absoluten' Ausprägungen der Eigenschaften eines Objekts, sondern immer nur Ausprägungen dieser Eigenschaften in Relation zu anderen Ausprägungen, wie sie bei anderen Objekten vorkommen. Dieses Differenzprinzip ist es, was uns überhaupt erst Eigenschaften von Objekten wahrnehmen lässt. Die Aussage, dass ein bestimmter Gegenstand rot ist, hat nur dann einen Sinn, wenn es auch nicht-rote Gegenstände gibt, so dass wir den roten Gegenstand von den nicht-roten Gegenständen abgrenzen können. Gäbe es nur die Farbe Rot, dann würden wir niemals die Eigenschaft 'Farbe eines Gegenstands' entdecken. Die Messung einer Eigenschaft eines bestimmten Objekts ist daher im eigentlichen Sinn immer die Angabe der Relation der gemessenen Ausprägung zu den gemessenen Ausprägungen anderer Objekte. Ein solches System von Beziehungen bezeichnen wir auch als Relativ.
Differenzprinzip: Eigenschaften von Objekten wer-
Da die Struktur des empirischen Relativs somit das ist, was uns eigentlich interessiert, muss gewährleistet sein, dass diese Struktur auch in der Messung wiedergegeben wird. D.h., den Beziehungen zwischen den Objekten, wie sie in der Wirklichkeit bestehen, sollen Beziehungen zwischen den symbolischen Repräsentationen dieser Objekte entsprechen. Die Messverfahren sind also so zu konstruieren, dass diese Beziehungen nicht verloren gehen, wenn wir statt der Gegenstände selbst nur noch ihre symbolische Repräsentation in Zahlen besitzen. Eine Abbildung, die die Struktur des Abgebildeten erhält, wird ein Morphismus genannt. Die ideale und hundertprozentig strukturtreue Messung wäre dem ersten Augenschein nach eine, die jeden Unterschied im empirischen Relativ auf einen Unterschied im numerischen bzw. symbolischen Relativ abbildet, d.h. für jede Ausprägung einer Eigenschaft in der Wirklichkeit müsste eine entsprechende Messzahl existieren. Eine solche Abbildung wäre eineindeutig, da nicht nur jeder Ausprägung einer Eigenschaft ein symbolischer Wert zugeordnet werden könnte, sondern umgekehrt auch jedem symbolischen Wert genau die ursprüngliche Ausprägung der Eigenschaft. In einem solchen Fall sprechen wir von einem Isomorphismus. Bei einer isomorphen Abbildung kann das Original also vollkommen fehlerfrei aus seiner Abbildung rekonstruiert werden. Man denke dabei an die nette Idee einiger Science fiction Autoren, den 'Inhalt' eines menschlichen Gehirns auf einer Art Festplatte zu speichern, so dass im Falle der Zerstörung des Gehirns dieses aus der 'Sicherungsdatei' wiederhergestellt werden kann. Aber auch analoge Verfahren der Tonaufnahme entsprechen einer isomorphen Abbildung. Allerdings ist eine solche Eins-zu-Eins Abbildung in den meisten Fällen nicht nur vollkommen unmöglich, sondern auch gar nicht wünschenswert. Die Feinheit des Messinstruments soll meistens gar nicht der Feinheit des gemessenen Objekts entsprechen, eine gewisse 'Vergröberung' durch die Messung ist aus praktischen Gründen durchaus erwünscht. Wenn es um die Körpergröße eines Menschen geht, so wol-
Beziehung zwischen zwei
den im Unterschied zu Eigenschaften anderer Objekte wahrgenommen
Objekten: Relativ
Abbildung durch Messung: Morphismus
Eineindeutige Abbildung: Isomorphismus
34
Kapitel 4 Messen
Eindeutige Abbildung: Homomorphismus
len wir diese nicht auf ein Atom genau bestimmen, sondern eine Angabe in Zentimetern reicht uns in den meisten Fällen durchaus. Um homomorphe oder eindeutige Abbildungen handelt es sich, wenn zwar jeder Eigenschaftsausprägung des realen Objekts eindeutig ein Messwert zugeordnet wird, umgekehrt aus dem Messwert jedoch nicht mehr der exakte Originalwert rekonstruiert werden kann, also mehrere Originalwerte auf denselben Wert abgebildet werden. Bei einer Messung der Körpergröße in Zentimetern mit Rundung wird z.B. allen Personen mit einer Körpergröße im Intervall von 177,5 cm bis 178,5 cm eine Körpergröße von 178 cm zugeordnet, d.h. in Wirklichkeit verschiedene Körpergrößen wie 177,645343 cm und 178,00005 cm bekommen denselben Wert. Die Struktur des empirischen Relativs wird im numerischen Relativ nur vergröbert wiedergegeben, aber die Verzerrungen fallen so klein aus, dass für uns relevante Unterschiede erhalten bleiben. Wenn wir über Körpergrößen reden, macht es eben in den wenigsten Fällen Sinn, zu behaupten, die Person A sei größer als die Person B, weil sie diese in der Körpergröße um 0,0000045 cm übertrifft. Nach diesen Ausführungen ist nun eine etwas genauere Definition des Messvorgangs möglich, als es am Anfang des Kapitels möglich war. Definition: Messung Unter Messung verstehen wir die homomorphe Abbildung eines empirischen Relativs auf ein numerisches Relativ.
Messung durch Paarvergleich oder durch Vergleich mit Normgrößen
Beziehungen zwischen den Objekten lassen sich durch den paarweisen Vergleich von Objekten, d.h. durch die Untersuchung auf Unterschiede bezüglich der relevanten Eigenschaft, erfassen. Die Struktur der Beziehungen ist also hinreichend beschrieben, wenn für jedes Paar von Objekten das Verhältnis ihrer Eigenschaftsausprägungen genau und eindeutig angegeben werden kann. Um die Beziehungen zwischen allen Objekten zu erfassen, müssen wir allerdings nicht alle diese Objekte jeweils paarweise miteinander vergleichen, ein Unterfangen, das mehr als herkulisch zu nennen wäre, sondern wir können die Beziehungen zwischen jeweils zwei beliebigen Objekten indirekt erschließen, indem wir die jeweiligen Beziehungen der beiden Objekte zu einem dritten Objekt miteinander vergleichen. Dieses dritte Objekt können wir dann das 'typische' Objekt, oder Normobjekt oder Eichobjekt nennen. Um zu ermitteln, ob eine Person größer als eine andere ist, müssen wir nicht diese beiden Personen nebeneinander stellen, sondern es genügt, wenn wir ein genormtes Metermaß zur Verfügung haben. Die Normung des Metermaßes – wie fast alle modernen Maße – stellt eine Folgeerscheinung der Französischen Revolution dar und geht auf den so genannten 'Urmeter' zurück, der 1795 in Paris aus einer Metall-Legierung angefertigt wurde. Anhand dieses Metermaßes kann man nun vergleichen, ob eine Person größer oder kleiner als eine andere ist, ohne dass man sie nebeneinander stellen muss. Wir können also auch Vergleiche der Körpergröße auf Distanz durchführen, solange nur an jedem Ort
Kapitel 4 Messen
35
der Messung derselbe Maßstab vorhanden ist. Vergleiche anhand von Norm- oder Eichobjekten sind immer dann möglich, wenn für jedes Objekt tatsächlich ein konkreter Messwert besteht und dieser Wert eindeutig bestimmt ist. Je nachdem, welche Art von Beziehung zwischen den realen Objekten, genauer, zwischen den Ausprägungen der im Blickpunkt stehenden Eigenschaft der Objekte, besteht, die sich in der Beziehung zwischen den Messzahlen widerspiegeln soll, sprechen wir von verschiedenen Mess-Skalen. Es wird unterschieden zwischen Nominal-, Ordinal-, Intervall-, Verhältnis- und Absolutskala.
4.1
Unterscheidung der Skalenniveaus
Nominalskala
Eine Nominalskala wird dann zur Messung einer Eigenschaft eingesetzt, wenn zwei Objekte hinsichtlich ihrer Eigenschaftsausprägungen nur daraufhin verglichen werden, ob sie beide dieselbe Ausprägung dieser Eigenschaft besitzen oder eine unterschiedliche. Anders ausgedrückt: Beide Gegenstände besitzen im Eigenschaftsraum entweder die gleiche Argumentstelle bzw. Koordinate, zumindest in Bezug auf das Raster unserer Messung, oder eine unterschiedliche. Wir können dementsprechend für jedes einzelne Objekt angeben, ob es eine bestimmte Eigenschaftsausprägung besitzt oder nicht. Eine Nominalskala wird z.B. bei der Messung der Farbe eines Gegenstandes benutzt. Für jedes einzelne Ding ist es möglich anzugeben, ob es rot ist oder nicht. Ebenso kann für jedes Paar von Objekten angegeben werden, ob sie dieselbe Farbe haben oder nicht. Die Form der Messung bestimmt dabei, welche Farbwerte überhaupt möglich sind, bzw. welches Farbspektrum wir sozusagen bei der Messung einsetzen. Das minimal mögliche Farbspektrum wäre ein dichotomes, bei dem es nur zwei Ausprägungen gibt, z.B. 'rot' und 'nicht rot'. Vergeben wir numerische Werte für die Ausprägungen einer Eigenschaft, so könnte die Mess-Skala für Farbe z.B. folgendermaßen aussehen. Tabelle 4.1: Mess-Skala 1 rot 2 blau 3 gelb 4 grün 5 braun 6 andere Farbe
Die Restkategorie '6' ist notwendig, da es möglich sein muss, jedem Objekt aufgrund des Messergebnisses eine Ausprägung der Eigenschaft Farbe zuzuordnen, d.h. die Mess-Skala muss erschöpfend sein. Darüber hinaus muss das Kategorien-
Nominalskala: Gleichheit oder Ungleichheit von Eigenschaften
36
Kapitel 4 Messen
system trennscharf sein, d.h. die einzelnen Kategorien dürfen sich nicht überschneiden, da es sonst keine eindeutige Zuordnung des Messergebnisses zu einem Messwert mehr geben würde. In unserem Beispiel erhält ein Objekt den Messwert '1', wenn es die Farbe rot besitzt, den Wert '2', wenn es blau ist usw. Wichtig ist es hier, sich zu verdeutlichen, mit welchem Verständnis man in diesem Zusammenhang die Zahlen benutzt. Obwohl die verwendeten Zahlen diejenigen sind, die der natürlichen Menge entsprechen, verwenden wir sie hier nicht als natürliche Zahlen, sondern ausschließlich in ihrer Funktion als Zeichen. Die einzige Eigenschaft der Zahlen, die uns in diesem Zusammenhang interessiert, ist die ihrer Unterscheidbarkeit oder Identität in Hinsicht auf ihren Zeichencharakter, '1' ist eine andere Zahl als '2' oder '3'. Die Zahl '1' unterscheidet sich aber von der Zahl '2' nicht anders, als sie sich von der Zahl '3' unterscheidet. Das Ergebnis des Vergleichs von '1' mit '2' ist also äquivalent zum Ergebnis des Vergleichs von '1' mit '3'.
4.2 Ordinalskala: Rangplatzvergleich
Ordinalskala
Ordinalskalen werden für die Messung von Eigenschaften eingesetzt, wenn beim Vergleich zweier Objekte festgestellt werden soll, ob das eine Objekt diese Eigenschaft in einem stärkeren oder schwächeren Maß besitzt als das andere oder ob beide diese Eigenschaft im genau gleichen Ausmaß haben. Es existiert also in der 'realen' Welt, im empirischen Relativ, eine Rangordnung zwischen den Objekten bezüglich ihrer Ausprägungen der kritischen Eigenschaft. Die Messdaten müssen nun so beschaffen sein, dass sie ihrerseits eine solche Rangordnung darstellen können. Wenn also das Objekt A bezüglich der Eigenschaft X eine stärkere Ausprägung besitzt als das Objekt B, d.h. in der Rangordnung 'vor' ihm steht, dann muss auch der Messwert xA in der Rangordnung aller Messwerte vor dem Messwert xB stehen. Die Rangordnung der zur Verwendung freigegebenen Messwerte muss also schon wohldefiniert sein. Genau dieses Kriterium erfüllen z.B. wieder die natürlichen Zahlen, die sich daher hier aus gutem Grund als Grundmenge der möglichen Messwerte eignen. Wir greifen in diesem Fall auf die Eigenschaft der natürlichen Zahlen zurück, dass die Reihenfolge ihres Auftretens eindeutig definiert ist, 1 kommt vor 2, bzw. 123 kommt vor 10145 usw. Wir verzichten aber darauf, weitergehende Eigenschaften (wie z.B. Messung der Abstände) zu verwenden. Wir nutzen die natürlichen Zahlen also lediglich im Sinne einer geordneten Indexmenge. Beispiele für Ordinalskalen sind Schulnoten oder jegliche Form von Ranglisten. So gibt der Korruptionsindex von 'Transparency International' eine Rangliste der untersuchten Länder nach dem Ausmaß ihrer Korruption. Daran lässt sich ablesen, dass Schweden weniger korrupt ist als Deutschland und Japan weniger korrupt als Russland. Genauso zeigt die Rangliste im ATP-Tennis an, dass der Spieler Nummer 1 besser ist als der Spieler Nummer 2, bzw. der Spieler Nummer 23 besser ist als die Nummer 87 der Weltrangliste. Allerdings gibt es in der Wirklichkeit keine Tatsache 'Rangplatz der Weltrangliste im Tennis', die so unmittelbar gemessen
Kapitel 4 Messen
37
werden könnte. Gemessen werden können nur die Ergebnisse eines einzelnen Spielers bei allen Turnieren, die ATP-Punkte vergeben dürfen. Für jeden Spieler existiert also ein n-Tupel aller ATP-Turniere, der alle seine Ergebnisse dieser Turniere enthält. Aufgrund eines bestimmten Punktesystems ist es nun möglich, diese verschiedenen n-Tupel der Spieler Sampras, Agassi, Becker und aller anderen in eine bestimmte Reihenfolge zu bringen, oder, anders ausgedrückt, zu indizieren. Der Rangplatz eines Spielers ist dann nichts anderes als seine Indexnummer. Der Wert eines Objekts, den dieses bei einer Messung mit einer Ordinalskala erhält, gibt also nicht die tatsächliche Ausprägung des Objekts an, sondern den Rangplatz dieser Ausprägung in der geordneten Reihenfolge aller möglichen Ausprägungen.
4.3
Intervallskala
Eine Intervallskala wird dann zur Messung einer Eigenschaft eingesetzt, wenn beim Vergleich zweier Objekte hinsichtlich dieser Eigenschaft nicht nur festgestellt werden soll, welches der Objekte diese Eigenschaft in höherem oder niedrigerem Grade besitzt, sondern auch das Ausmaß dieses Unterschieds im Vergleich zum Unterschied eines anderen Paares von Objekten angegeben werden soll. Auch hier kann wieder ausschließlich auf die Menge der natürlichen Zahlen als Grundmenge der möglichen Messwerte zurückgegriffen werden.2 Zusätzlich zu den Eigenschaften der Menge der möglichen Messwerte, wie sie für die Ordinalskala gelten, kann man mit Messwerten, die auf Intervallskalenniveau erhoben wurden, das Verhältnis der Differenzen der Messwerte zweier Paare angeben. Bezieht man sich immer auf die Differenz eines bestimmten Referenzpaares und normiert diese Differenz als die Einheit der Messskala, dann heißt das nichts anderes, als dass man auf Intervallskalen die absolute Differenz zwischen einem Paar von Messwerten angeben kann. So gilt für die Zahlengerade üblicherweise, dass die Einheit der Messskala der 'Abstand' von einer Zahl zur darauf folgenden ist, der für alle aufeinander folgenden Paare von Zahlen als gleich angenommen wird. So ist es möglich, für den Unterschied der Messwerte '8' und '6' angeben zu können, dem Wievielfachen des Unterschiedes zwischen '2' und '1' er entspricht.
2
Wie später noch zu sehen sein wird, reicht die Menge der natürlichen Zahlen prinzipiell für jede Art des Messens als Menge für die möglichen Messwerte aus, da jede Messung immer diskret ist, d.h. als ganz bestimmte Anzahl von Einheiten zu verstehen ist. Bestenfalls tauchen Brüche auf, doch sind diese immer als rationale Zahlen zu verstehen, d.h. also als Zahlen, die sich als Verhältnis von ganzen natürlichen Zahlen darstellen lassen. Auch die Länge 1,34 m z.B. lässt sich mit Hilfe natürlicher Zahlen darstellen, wenn man auf die Einheit cm zurückgreift. Es gibt in der Messung keine irrationalen Werte wie z.B. die Zahl ʌ oder die Eulersche Zahl e. Solche Zahlen können nur analytisch gewonnen und behandelt werden. Als Ergebnis konkreter Messungen kann man nur Annäherungen, allerdings beliebig genaue, an die tatsächlichen Werte erreichen. Die Zahl ʌ beispielsweise lässt sich durch Messung empirisch ermitteln, indem man untersucht, das Wievielfache der Fläche eines Quadrats die Fläche eines Kreises enthält, dessen Radius der Kantenlänge des Quadrats entspricht. Dieses Problem ist eine Reformulierung der berühmten 'Quadratur des Kreises', die bekanntermaßen nicht exakt lösbar ist. Nichtsdestoweniger kann aber ʌ auf diese Weise empirisch beliebig genau, d.h. auf beliebig viele Kommastellen, geschätzt werden.
Intervallskala: Verhältnis der Differenzen zweier Messwerte
38
Kapitel 4 Messen
Dazu können wir die arithmetischen Operationen der Differenzbildung auf ein Paar von Messwerten, also Subtraktion (bzw. Addition), sowie die Multiplikation bzw. Division in Bezug auf den Vergleich zweier Differenzen von Messwerten anwenden. Der Unterschied von '8' und '6' entspricht der Differenz von '8-6', der Unterschied von '2' und '1' der Differenz von '2-1', erstere ist 2, zweite 1, damit ist auch die Differenz von '8' und '6' zweimal so groß wie die Differenz von '2' und '1'. Eigenschaften, die mit Intervallskalen gemessen werden, sind z.B. die Temperatur oder die Intelligenz. Im ersten Fall benutzt man dabei die °Celsius oder °Fahrenheit-Skala, im zweiten Fall den Intelligenzquotienten. Vergleicht man z.B. die Temperaturen von 10° Celsius und 5° Celsius, so kann man nicht nur sagen, dass 10° wärmer ist als 5°, diese Aussage wäre auch mit einer Ordinalskala erlaubt, sondern dass die Temperaturdifferenz 5° Celsius beträgt. Man kann auch sagen, dass diese Differenz fünfmal so groß ist wie die Temperaturdifferenz zwischen 6° Celsius und 5° Celsius oder auch die zwischen 32° Celsius und 31° Celsius. Allerdings darf man nicht schließen, dass 10° Celsius doppelt so warm ist wie 5° Celsius. Verhältnisse zwischen Ausprägungen einer Variablen darf man nur bilden, wenn sie auf dem nächsthöheren Skalenniveau erhoben worden sind.
4.4 Ratioskala: Verhältnis der absoluten Eigenschaftsausprägungen
Verhältnis- oder Ratioskala
Will man bei dem Vergleich zweier Objekte hinsichtlich der Ausprägungen einer Eigenschaft nicht nur eine Aussage über die Größe des Unterschiedes, also die Differenz, machen, sondern die Ausprägungen selbst zueinander in Verhältnis setzen, so bedarf es dazu eines absoluten Bezugspunktes, des Nullpunktes. Einen Nullpunkt benötigt man also dann, wenn man eine Aussage über das Größenverhältnis zweier Eigenschaftsausprägungen machen will, etwa der Art: "Objekt A besitzt die Eigenschaft X doppelt so sehr wie Objekt B". Eine Ratioskala verfügt über eine Art von 'natürlichem' Nullpunkt. Ratioskalen werden typischerweise eingesetzt beim Messen von Eigenschaften wie Körpergröße, Gewicht oder dem Bruttosozialprodukt eines Landes. Tatsächlich kann man jetzt zum ersten Mal von einer Übereinstimmung der Eigenschaften der Menge der möglichen Messwerte mit den Eigenschaften der Menge der natürlichen Zahlen, die wir für deren Darstellung benutzen, sprechen. Denn jetzt sind auch die Operationen der Multiplikation und der Division mit den Messwerten selbst erlaubt. Der Messwert '8' entspricht also jetzt der 'doppelten' Ausprägung des Messwertes '4' hinsichtlich der gemessenen Eigenschaft.3
3
Ebenso wie die Menge der natürlichen Zahlen enthält die Menge der möglichen Messwerte einer Verhältnisskala allerdings nicht selbst den Wert 0. Dieser ist lediglich als Bezugspunkt zu verstehen, ist aber selbst kein Element dieser Menge. Das leuchtet auch unmittelbar ein. Es gibt keine Körpergröße 0, die man messen könnte. Es gibt keine räumlichen Körper ohne Ausdehnung in den drei Dimensionen. Aber es ist möglich, unter Bezug auf die imaginäre
Kapitel 4 Messen
4.5
39
Absolutskala
Wie zu sehen war, nahm mit steigendem Skalenniveau die Anzahl der Eigenschaften der Menge der möglichen Messwerte zu, so dass sie bei der Intervallskala schließlich der der Menge der natürlichen Zahlen entsprach, die wir auch zur Darstellung unserer Messwerte benutzen. Tatsächlich wurde aber bisher immer noch nicht auf die umfassendste und zugleich ursprünglichste Eigenschaft der natürlichen Zahlen zurückgegriffen, diejenige Eigenschaft nämlich, dass eine natürliche Zahl eine eindeutig bestimmte Anzahl von unterscheidbaren Quantitäten bezeichnet. Die ursprünglichste Eigenschaft deswegen, weil die natürlichen Zahlen 'erfunden' wurden, um einen Vergleich zwischen verschiedenen Mengen von Gegenständen hinsichtlich ihrer Anzahl zu ermöglichen.
Absolutskala: abzählbare Menge von Einheiten
Absolutskalen sind daher einzusetzen, wenn es um die Bezifferung der tatsächlichen Anzahl von Einheiten geht, und nicht nur um Größenordnungen, Differenzen oder Größenverhältnisse. Die Anzahl der Personen in einem Raum, die Anzahl der Gasmoleküle in einem Kubikmeter Luft sind demnach Eigenschaften, die mit einer Absolutskala gemessen werden können. Der Wert der Messung ist hier insofern absolut, als er kein anderer Wert sein kann. Nicht nur die Beziehungen zwischen den verschiedenen Messwerten müssen stimmen, sondern auch die Beziehung zwischen dem Gemessenen und dem Messwert ist eindeutig, die Messung hat nur einen einzigen möglichen Wert. Wenn drei Personen in einem Raum sind, dann sind es nicht vier, auch nicht zwei, sondern eben genau drei, und keine andere Zahl gibt diesen Sachverhalt wirklichkeitsgetreu wieder. Der Aufbau der hier kurz vorgestellten Skalenniveaus war folgendermaßen, dass jeweils beim folgenden Skalenniveau eine zusätzliche Eigenschaft der Menge der möglichen Messwerte aufgetreten ist, die beim vorherigen Skalenniveau noch nicht gefordert war. Messungen auf Nominalskalenniveau können nur etwas über die Unterschiedlichkeit bzw. Identität der Messwerte aussagen, Messungen auf Ordinalskalenniveau lassen sich in eine geordnete Reihenfolge bringen, zwischen Messwerten, die auf einer Intervallskala erhoben wurden, lassen sich Differenzen angeben, für Messwerte einer Verhältnisskala die Verhältnisse, und die Mess-
Körpergröße 0 die Aussage zu machen: 'Jemand, der 1,80 m groß ist, ist doppelt so groß, wie jemand, der 90 cm groß ist.' Ebensowenig wie die Null als realer Messwert existiert, gibt es bei Verhältnisskalen negative Messgrößen. Es gibt keinen Körper, der die Länge -30 cm besitzt. Es ist zwar möglich, je nach Skala, die ursprünglichen Messwerte so zu transformieren, dass auch negative Werte bzw. die 0 als Messwerte auftauchen; die transformierten Zahlen sind vollkommen äquivalent zu den ursprünglichen Zahlen und aus Darstellungsgründen in dem einen oder anderen Fall sicherlich sinnvoll. Diese Transformationen sind allerdings nicht nötig, da die Menge der natürlichen Zahlen für die Darstellung der möglichen Messwerte vollkommen ausreicht. Transformiert man eine Verhältnisskala auf eine neue Skala, die auch negative Werte enthält, so geht damit die Eigenschaft verloren, Aussagen über Verhältnisse von Messwerten machen zu können. Die absolute °-Kelvin-Skala z.B. ist eine Verhältnisskala, da sie sich auf den absoluten Temperaturnullpunkt bezieht. °-Celsius und °-Fahrenheit hingegen sind Transformationen dieser Skala mit einem neuen Nullpunkt und dem Vorkommen negativer Werte, die aber deswegen auch keine Verhältnisskalen, sondern nur noch Intervallskalen darstellen.
Je höher das Skalenniveau, desto genauer die Information
40
Kapitel 4 Messen
werte einer Absolutskala entsprechen unmittelbar dem betreffenden Sachverhalt. Wegen der Zunahme der Eigenschaften sprechen wir von einer Zunahme des Skalenniveaus von der Nominal- bis zur Absolutskala. Dabei gilt, dass alle Eigenschaften eines niedrigeren Skalenniveaus auch beim höheren noch vorhanden sind, d.h. eine Absolutskala ist auch immer eine Ratioskala, eine Ratioskala immer auch eine Intervallskala, diese immer ebenfalls eine Ordinalskala und die Ordinalskala ist immer auch eine Nominalskala. Verwendet man Messwerte auf einem niedrigeren Skalenniveau als dem, auf dem sie gemessen worden sind, geht demnach Information verloren. Wenn ich Messwerte, die auf einer Ordinalskala erhoben worden sind, nur auf ihre Identität oder Nicht-Identität hin untersuche, also als Nominalskala, dann verzichte ich darauf, mir ihre Eigenschaft zunutze zu machen, dass ihr Wert etwas über ihren Rang in der geordneten Folge der möglichen Messwerte aussagt. Typischerweise wird etwa in der Umfrageforschung der Bildungsabschluss erfragt, der nach der Höhe des Abschlusses (kein Abschluss, Hauptschule, Realschule, Abitur, Universitätsabschluss) ordinal geordnet werden kann. Diese Information verschenke ich, wenn ich für eine Untersuchung nur unterscheide, ob der Befragte einen Abschluss hat oder nicht. Oft ist es allerdings aus pragmatischen Gründen sinnvoll oder gar notwendig, einen solchen Informationsverlust hinzunehmen. Die gängigen statistischen Auswertungsmethoden beziehen sich in der Sozialwissenschaft in erster Linie auf Messwerte, die auf dem Nominal- oder auf dem Intervallskalenniveau erhoben worden sind. Statistische Verfahren für Ordinalskalen oder Verhältnisskalen hingegen sind wenig verbreitet.
Experte: Information und Restriktion Je höher das Messniveau, desto höher der Informationswert, den mir der Messwert liefert, d.h. desto genauere Aussagen über die Struktur, genauer gesagt über die Form der Struktur der Tatsachen in der Wirklichkeit kann ich mit Hilfe der Messungen machen. Je höher das Messniveau, desto mehr Eigenschaften der Menge der Messwerte kann ich mir zunutze machen, um damit Beziehungen zwischen den Messwerten zu modellieren, die den Beziehungen zwischen den Eigenschaftsausprägungen der Objekte in der Wirklichkeit strukturähnlich sind. Der Informationswert eines Zeichens oder einer Zahl ist aber immer abhängig von den Restriktionen, d.h. den Beschränkungen, die bei der Verwendung dieses Zeichens oder dieser Zahl beachtet werden müssen. D.h., je informativer ein Zeichen ist, desto weniger beliebig ist seine Verwendung, oder, anders ausgedrückt, je informativer ein Zeichensystem (oder Zahlensystem), desto geringer ist der Spielraum für mögliche Variationen bzw. Transformationen des Zeichen- oder Zahlensystems. Die Anzahl der zulässigen Transformationen nimmt daher mit steigendem Skalenniveau ab. Die natürlichen Zahlen in ihrer wohldefinierten Reihenfolge sind in der Regel nicht das einzige Zeichensystem, das wir für unsere Messwerte verwenden dürfen, sie sind aber ein Zeichensystem, das für alle Skalenniveaus verwendet werden kann. Wir können daher auch sagen, die geordnete Folge der natürlichen Zahlen ist eine mögliche Transformation aller möglichen Zeichensysteme, die wir für die Messung benutzen können, und zwar gilt das für alle Skalenniveaus. Wir können daher die Darstellung der Messwerte mit natürlichen Zahlen als eine Indexmenge begreifen, bei der der einzelne Messwert der Index-
Kapitel 4 Messen
41
nummer eines n-Tupels entspricht, der die n Werte von n anderen, für die Messung äquivalenten Zeichensystemen, enthält. Um ein Beispiel zu geben: Für die Messung der Parteizugehörigkeit zur SPD, zur CDU und zur FDP können wir die Zahlen '1', '2' und '3' verwenden, wir könnten aber auch das Zeichensystem mit den Wörtern 'SPD', 'CDU' und 'FDP' anwenden, oder eines mit den Wörtern 'rot', 'schwarz' und 'gelb', ja sogar eines mit 'weiblich', 'männlich' und 'zwittrig', wenn wir uns darauf verständigen wollten, die SPD als 'weiblich', die CDU als 'männlich' und die FDP als 'zwittrig' zu bezeichnen. Die einzige Eigenschaft, die unser Zeichensystem haben muss, ist die der Unterscheidbarkeit verschiedener Zeichen, die verschiedene Ausprägungen der Eigenschaft darstellen sollen. Keines der oben verwendeten Zeichensysteme ist also in seiner Messfunktion besser oder schlechter, nur würde das eine zu mehr, das andere zu weniger Sprachverwirrung führen. Tabelle E 1: Zulässige Transformationen auf Nominalskalenniveau f(xo)
f1
f2
f3
f4
f5
f6
f7(x0)= -2+3xo
f8(x0)= -3-4xo
f9(x0)= 19xo
f10(x0)=x o
1
SPD
rot
weibl b
87
-4
1
-7
19
1
2
CDU
schwarz männl e
111
-2
4
-11
38
2
3
FDP
2045
3
7
-15
57
3
xo
gelb
zwittr f
Alle Zeichensysteme in der Tabelle, die eine willkürliche Auswahl aus allen möglichen Zeichensystemen darstellen, sind äquivalent zu dem der natürlichen Zahlen, d.h. sie sind gültige Transformationen, wobei die transformierten Werte aus den 'Original-Werten', die den natürlichen Zahlen entstammen, durch die Transformationsfunktionen fi gewonnen werden. Bei Ordinalskalen sind nur solche Transformationen zulässig, bei denen die Größer- bzw. Kleiner-Relation zwischen einem Paar von Objekten erhalten bleibt. Dabei darf sich diese Relation durchaus auch umkehren, nur muss dann diese Umkehrung für alle Paare gewährleistet sein. In diesem Fall ändert sich lediglich die inhaltliche Interpretation des Messwertes insofern, als jetzt die gegenteilige Eigenschaft gemessen wird. Jedes Zeichensystem ist erlaubt, bei dem eine eindeutige Reihenfolge der Zeichen definiert ist. Das trifft auf die Zahlen zu, aber zum Beispiel auch auf die Buchstaben des Alphabets. Aus der Auswahl von Zeichensystemen in Tabelle 2 bleiben nur diejenigen übrig, die diese Eigenschaft erfüllen. Tabelle E 2: Zulässige Transformationen auf Ordinalskalenniveau f(xo) f4
f4
f6 f7(x0)=-2+3x0 f8(x0)=-3-4x0 f9(x0)=19x0 f10(x0)=x0
x0
1
b
87
-4
1
-7
19
1
2
e
111
-2
4
-11
38
2
3
f
2045
3
7
-15
57
3
Bei Intervallskalen sind alle Transformationen erlaubt, bei denen das Verhältnis zwischen den einzelnen Abständen, die zwischen zwei Messwerten bestehen, gleich bleibt. Da die Berechnung von Differenzen und Verhältnissen arithmetische Operationen benötigt, sind
42
Kapitel 4 Messen
für Intervallskalen nur Zeichensysteme zulässig, die Zahlencharakter haben, denn nur für Zahlen sind diese arithmetischen Operationen definiert. Die Konstanz der Verhältnisse von Abständen ist gewährleistet, wenn die Ausgangsmesswerte mit einer linearen Gleichung der Form f(x0)=a+bx0 transformiert werden. Tabelle E 3: Zulässige Transformationen auf Intervallskalenniveau f(x0) f7(x0)=-2+3x0 f8(x0)=-3-4x0 f9(x0)=19x0 f10(x0)=x 0
x0 1
1
-7
19
1
2
4
-11
38
2
3
7
-15
57
3
Für Ratioskalen sind nur solche Transformationen zulässig, bei denen das Verhältnis zweier Messwerte konstant bleibt. Dies trifft für jede lineare Transformation zu, bei der die Konstante gleich Null ist, also die Form xt=bxo hat. Tabelle E 4: Zulässige Transformationen auf Ratioskalenniveau
f(x0) f9(x0)=19 f10(x0)=x x0 0 x0 1
19
1
2
38
2
3
57
3
Die einzige gültige Transformation für eine Absolutskala ist die identische Abbildung auf sich selbst, also xt=xo. Tabelle E 5: Zulässige Transformationen auf Absolutskalenniveau f(x0) f10(x0)=x 0
x0 1
1
2
2
3
3
Wie man sieht, sind für ein bestimmtes Skalenniveau sämtliche Transformationen, die für ein höheres Skalenniveau erlaubt sind, ebenfalls erlaubt. Nur umgekehrt gilt dies natürlich nicht.
Ende Experte
Kapitel 5 Deduktive Logik
43
"Die Logik hat wie jede Wissenschaft die Aufgabe, der Wahrheit nachzujagen. Was wahr ist, sind gewisse Sätze; und der Wahrheit nachjagen heißt sich bemühen, die wahren Sätze von den anderen, die falsch sind, zu sondern. Wahres ist so zahlreich wie Falsches; denn zu jedem Falschen gibt es eine Negation, die wahr ist. Aber wissenschaftliche Arbeit besteht nicht in blindem Anhäufen von Wahrem; Wissenschaft ist selektiv und sucht nach dem Wahren, das am meisten zählt - entweder gemäß seinem eigenen Gewicht oder als Werkzeug, um es mit der Welt aufzunehmen." Willard V.O. Quine (1974: 17)
5
Deduktive Logik
Im ersten Kapitel war von zwei Arten von Sätzen die Rede, von empirischen und von analytischen Sätzen. Dementsprechend begegnet uns das Wahrheitsproblem in zwei verschiedenen Zusammenhängen. Zum ersten, inwiefern wir den Wahrheitsgehalt von Sätzen durch den Vergleich mit der Realität ermitteln können, und zum zweiten, wie wir die Wahrheit von Sätzen durch den Vergleich mit anderen Sätzen, deren Wahrheitsgehalt schon feststeht oder vorausgesetzt wird, beurteilen können. Das Wahrheitsproblem der ersten Art bezieht sich auf unseren Zugang zur Welt mit Hilfe unserer Wahrnehmung und des Vermessens dieser Welt, das zweite bezieht sich auf die Problematik des Schließens.
Logisches Wahrheitsproblem: Ermitteln der Wahrheit
Zwei Arten des Schließens sind zu unterscheiden, deduktives und induktives Schließen. In vielen Einführungen oder Nachschlagewerken wird dieser Unterschied oft kurz auf folgenden Nenner gebracht: Deduktion sei der Schluss vom Allgemeinen auf das Besondere und Induktion umgekehrt der Schluss vom Besonderen auf das Allgemeine. Diese Unterscheidung ist allerdings mit Vorsicht zu genießen, da damit zum einen ein Eindruck der Symmetrie der beiden Schlussverfahren erweckt wird, der nicht angemessen ist, zum anderen das charakteristische Merkmal der jeweiligen Schlussweise nicht hinreichend erfasst wird.
Unterschied zwischen De-
Unter deduktivem Schließen ist diejenige Art des Schließens zu verstehen, die sich ausschließlich der Regeln der Logik bedient, induktives Schließen hingegen schließt psychologische und pragmatische Aspekte mit ein. Logik, genauer, formale Logik, kann man als die "Lehre von der Folgerichtigkeit" (Menne 1991: 1) bezeichnen, es geht hierbei ausschließlich um die formalen Beziehungen zwischen Sätzen und nicht um deren inhaltliche Komponenten.
Deduktives Schließen: Schließen mit Hilfe der Re-
5.1
von Sätzen durch Vergleich mit anderen Sätzen Æ logisches Schließen
duktion und Induktion liegt nicht nur in der Richtung des Schlusses zwischen Allgemeinem und Besonderem
geln der formalen Logik
Kurze Einführung in die Aussagenlogik
In der Aussagenlogik geht es um die Verknüpfung einfacher Sätze. Diese werden in der Regel symbolisch mit kleinen Buchstaben dargestellt. In der Logik interessiert weder der spezifische Inhalt des Satzes noch seine mehr oder weniger komplexe Struktur, entscheidend ist lediglich, dass jeder Aussage ein Wahrheitswert
Zuordnung von Wahrheitswerten zu Sätzen und deren Verknüpfungen
Kapitel 5 Deduktive Logik
43
"Die Logik hat wie jede Wissenschaft die Aufgabe, der Wahrheit nachzujagen. Was wahr ist, sind gewisse Sätze; und der Wahrheit nachjagen heißt sich bemühen, die wahren Sätze von den anderen, die falsch sind, zu sondern. Wahres ist so zahlreich wie Falsches; denn zu jedem Falschen gibt es eine Negation, die wahr ist. Aber wissenschaftliche Arbeit besteht nicht in blindem Anhäufen von Wahrem; Wissenschaft ist selektiv und sucht nach dem Wahren, das am meisten zählt - entweder gemäß seinem eigenen Gewicht oder als Werkzeug, um es mit der Welt aufzunehmen." Willard V.O. Quine (1974: 17)
5
Deduktive Logik
Im ersten Kapitel war von zwei Arten von Sätzen die Rede, von empirischen und von analytischen Sätzen. Dementsprechend begegnet uns das Wahrheitsproblem in zwei verschiedenen Zusammenhängen. Zum ersten, inwiefern wir den Wahrheitsgehalt von Sätzen durch den Vergleich mit der Realität ermitteln können, und zum zweiten, wie wir die Wahrheit von Sätzen durch den Vergleich mit anderen Sätzen, deren Wahrheitsgehalt schon feststeht oder vorausgesetzt wird, beurteilen können. Das Wahrheitsproblem der ersten Art bezieht sich auf unseren Zugang zur Welt mit Hilfe unserer Wahrnehmung und des Vermessens dieser Welt, das zweite bezieht sich auf die Problematik des Schließens.
Logisches Wahrheitsproblem: Ermitteln der Wahrheit
Zwei Arten des Schließens sind zu unterscheiden, deduktives und induktives Schließen. In vielen Einführungen oder Nachschlagewerken wird dieser Unterschied oft kurz auf folgenden Nenner gebracht: Deduktion sei der Schluss vom Allgemeinen auf das Besondere und Induktion umgekehrt der Schluss vom Besonderen auf das Allgemeine. Diese Unterscheidung ist allerdings mit Vorsicht zu genießen, da damit zum einen ein Eindruck der Symmetrie der beiden Schlussverfahren erweckt wird, der nicht angemessen ist, zum anderen das charakteristische Merkmal der jeweiligen Schlussweise nicht hinreichend erfasst wird.
Unterschied zwischen De-
Unter deduktivem Schließen ist diejenige Art des Schließens zu verstehen, die sich ausschließlich der Regeln der Logik bedient, induktives Schließen hingegen schließt psychologische und pragmatische Aspekte mit ein. Logik, genauer, formale Logik, kann man als die "Lehre von der Folgerichtigkeit" (Menne 1991: 1) bezeichnen, es geht hierbei ausschließlich um die formalen Beziehungen zwischen Sätzen und nicht um deren inhaltliche Komponenten.
Deduktives Schließen: Schließen mit Hilfe der Re-
5.1
von Sätzen durch Vergleich mit anderen Sätzen Æ logisches Schließen
duktion und Induktion liegt nicht nur in der Richtung des Schlusses zwischen Allgemeinem und Besonderem
geln der formalen Logik
Kurze Einführung in die Aussagenlogik
In der Aussagenlogik geht es um die Verknüpfung einfacher Sätze. Diese werden in der Regel symbolisch mit kleinen Buchstaben dargestellt. In der Logik interessiert weder der spezifische Inhalt des Satzes noch seine mehr oder weniger komplexe Struktur, entscheidend ist lediglich, dass jeder Aussage ein Wahrheitswert
Zuordnung von Wahrheitswerten zu Sätzen und deren Verknüpfungen
44
Kapitel 5 Deduktive Logik
zugeordnet werden kann. Die Aussage a ist entweder wahr, dann erhält sie den Wahrheitswert w, oder sie ist falsch, dann erhält sie den Wahrheitswert f. Elementare Aussagen
Komplexe Aussagen
Elementare Aussagen sind solche, die nicht weiter zerlegt werden können, der Wahrheitswert einer elementaren Aussage bezieht sich direkt auf diese selbst und kann nicht weiter begründet werden. Komplexe Aussagen, die auch verknüpfte Aussagen genannt werden, setzen sich aus mehreren elementaren Aussagen zusammen. Der Wahrheitswert einer verknüpften Aussage ist abhängig von den Wahrheitswerten der verknüpften elementaren Aussagen und kann aus diesen eindeutig abgeleitet werden. Quine spricht daher in diesem Zusammenhang von der Wahrheitsfunktion der Verknüpfung. "Allgemein wird ein zusammengesetzter Satz eine Wahrheitsfunktion von seinen Bestandteilen genannt, wenn sein Wahrheitswert in jedem Fall durch den Wahrheitswert der Bestandteile bestimmt ist" (Quine 1974: 33). Die Wahrheitsfunktion sagt also nichts darüber aus, ob der entsprechende Satz tatsächlich wahr oder falsch ist, er gibt lediglich an, unter welchen Umständen der Satz wahr oder falsch ist.
Wahrheitsfunktionen
Es gibt drei elementare Verknüpfungen bzw. Wahrheitsfunktionen: Negation, Konjunktion und Disjunktion. Sie werden meistens symbolisch durch die Zeichen bzw. Schlüsselwörter, '' ('NICHT', 'NOT'), '' ('UND', 'AND') und '' ('ODER', 'OR') dargestellt, die man auch Junktoren oder wahrheitsfunktionale Verknüpfungszeichen nennt. Junktoren sind formale Begriffe.
Wahrheitswerttabelle zur
Am übersichtlichsten gestaltet sich die Illustration einer solchen Wahrheitsfunktion mit Hilfe einer so genannten Wahrheitswerttabelle, in der die Wahrheitswerte der elementaren Sätze sowie des verknüpften Satzes in verschiedenen Spalten dargestellt werden.
Darstellung von Wahrheitswerten
5.1.1 Negation Die Negation eines Satzes a ist genau dann wahr, wenn dieser Satz falsch ist, und genau dann falsch, wenn dieser Satz wahr ist. a
a
w
f
f
w
Wenn der Satz "Der Mond ist eine Kugel." wahr ist, dann ist der Satz "Der Mond ist keine Kugel." falsch und umgekehrt. 5.1.2 Konjunktion Die Konjunktion zweier Sätze a und b ist nur dann wahr, wenn jeder einzelne der Sätze auch wahr ist.
Kapitel 5 Deduktive Logik
45
a
b
ab
w
w
w
w
f
f
f
w
f
f
f
f
Quine bemerkt, dass sich der Wahrheitswert 'w' bei einer Konjunktion ähnlich verhält wie ein rezessives Merkmal bei der Vererbung. D.h., der Wahrheitswert 'w' kann nur 'vererbt' werden, wenn beide 'Eltern' ihn ebenfalls besitzen. Der Satz "Der Mond ist eine Kugel und kreist um die Erde." ist nur dann wahr, wenn sowohl die Behauptung "Der Mond ist eine Kugel." als auch die Aussage "Der Mond kreist um die Erde." wahr sind. 5.1.3 Disjunktion Die Disjunktion ist in formaler Hinsicht so etwas wie die Umkehrung der Konjunktion. Die Disjunktion zweier Sätze ist nur dann falsch, wenn beide Sätze falsch sind, oder, anders ausgedrückt, die Disjunktion ist dann wahr, wenn mindestens einer der beiden Sätze wahr ist. Das logische 'ODER' entspricht nicht dem 'ENTWEDER ODER' des allgemeinen Sprachgebrauchs, (lateinisch 'autem'), sondern das 'ODER' der Disjunktion ist als 'ODER AUCH', manchmal auch etwas missverständlich als 'ODER UND' bezeichnet, zu interpretieren und entspricht dem lateinischen 'vel' (von diesem leitet sich auch das Zeichen des Junktors ab). Um beim vorherigen Beispiel zu bleiben: Die Behauptung "Der Mond ist eine Kugel oder er kreist um die Erde." klingt zwar erst einmal ziemlich komisch. Aussagenlogisch ist er aber genau dann wahr, wenn mindestens einer seiner Teilsätze wahr ist, wenn es also entweder wahr ist, dass der Mond eine Kugel ist oder dass er um die Erde kreist oder wenn beides wahr ist. a
b
ab
w
w
w
w
f
w
f
w
w
f
f
f
Greift man die Analogie von vorhin wieder auf, so verhält sich der Wahrheitswert 'w' bei der Disjunktion wie ein dominantes Merkmal in der Vererbungslehre. Bei der Disjunktion setzt sich das 'stärkere' 'w' immer gegen das 'schwächere' 'f' durch.
Analogie von Wahrheitsfunktionen und Vererbungslehre
46
Kapitel 5 Deduktive Logik Zerlegung von Verknüpfungen
Verknüpfungen von mehr als zwei Sätzen können zerlegt werden in mehrere Schritte von dyadischen Verknüpfungen. Dabei muss lediglich durch Klammern angegeben werden, in welcher Reihenfolge die Sätze bzw. deren Verknüpfungen miteinander verbunden werden sollen. So lässt sich etwa der Ausdruck '(ab) (b)' disjunktiv zerlegen in die beiden Bestandteile '(ab)' und '(b)', deren Wahrheitswerte unmittelbar bestimmt werden können. Der 'Gesamtwahrheitswert' des Ausdrucks ist dann der, der sich durch die Kombination der Wahrheitswerte der Teilausdrücke ergibt. a
b
ab
b
(ab) (b)
w
w
w
f
w
w
f
f
w
w
f
w
f
f
f
f
f
f
w
w
Grundsätzlich genügen diese drei Verknüpfungsarten, um jede weitere mögliche Verknüpfungsart darzustellen. Aus Gründen der leichteren Handhabbarkeit logischer Verknüpfungen ist es aber sinnvoll, zumindest noch zwei weitere Wahrheitsfunktionen vorzustellen. 5.1.4 Implikation oder (materiales) Konditional oder Subjunktion Das symbolische Zeichen für die Darstellung der Implikation ist der nach rechts gerichtete Pfeil 'o' (manchmal auch ''). Sprachlich wird sie durch 'WENN ... DANN' oder 'IF' ausgedrückt. Im Gegensatz zu Konjunktion und Disjunktion ist die Implikation nicht kommutativ, d.h. sie ist abhängig von der Reihenfolge der zusammengesetzten Sätze. Der Satz 'WENN a DANN b' oder 'aob' ist etwas anderes als der Satz 'WENN b DANN a' bzw. 'boa'. Den Teil einer Implikation, der vor dem Pfeil steht, nennt man Antezedens, Vordersatz oder Vorderglied, den Teil rechts davon Konsequens, Hintersatz oder Hinterglied. Eine Implikation ist dann und nur dann falsch, wenn aus einem wahren Antezedens ein falsches Konsequens gefolgert wird. a
b
aob
w
w
w
w
f
f
f
w
w
f
f
w
Kapitel 5 Deduktive Logik
47
Die Implikation ist diejenige Verknüpfung, die von der spontanen Intuition her wahrscheinlich am schwersten nachzuvollziehen ist. Insbesondere die dritte und die vierte Zeile der Tabelle dürften dabei Schwierigkeiten bereiten. Am einfachsten ist es vielleicht, sich vorzustellen, dass aus einer falschen Annahme alles Beliebige abgeleitet werden kann. 'Wenn der Mond ein Quadrat ist, dann ist die Sonne grün.' ist daher ein wahrer Satz, da sowohl das Antezedens als auch das Konsequens falsch sind, und dies ist auch nicht so unsinnig, wie es auf den ersten Blick scheinen mag, denn in einer Welt, in der der Mond ein Quadrat ist, ist alles möglich. Allgemeiner ausgedrückt heißt dies: Aus einer Kontradiktion, d.h. einem Satz, der immer falsch ist, lässt sich jede beliebige Schlussfolgerung ziehen. Der relevante Anwendungsbereich der Implikation liegt aber bei den ersten beiden Zeilen der Tabelle, und das sind diejenigen, die auch mit der Intuition nicht so leicht in Konflikt geraten sollten. Wie oben erwähnt, ließe sich die Implikation durch die schon bekannten Verknüpfungsarten gleichwertig ersetzen. Der Ausdruck 'aob' erhält für jede Kombination der Wahrheitswerte von a und b das gleiche Ergebnis wie der Ausdruck'(a)b', wie sich leicht überprüfen lässt.
Implikation als logische Verknüpfung entspricht nicht umgangssprachlichem Verständnis!
5.1.5 Äquivalenz oder (materiales) Bikonditional oder Bisubjunktion Zwei Sätze sind genau dann äquivalent, wenn entweder beide Sätze wahr oder beide Sätze falsch sind, einfacher gesagt, wenn beide Sätze denselben Wahrheitswert besitzen. Das symbolische Zeichen für die Äquivalenzverknüpfung zweier Sätze ist 'l' (manchmal auch '{'). a
b
alb
w
w
w
w
f
f
f
w
f
f
f
w
Sprachlich wird die Äquivalenz mit 'GENAU DANN WENN' oder 'WENN UND NUR DANN WENN' oder auch 'IFF' ausgedrückt. Die Äquivalenz elementarer Sätze ist trivial. Interessanter und aufschlussreicher hingegen ist die Äquivalenz komplexer Sätze Wie z.B. schon gezeigt ist die Implikation 'aob' äquivalent zum Ausdruck '(a)b'. Genauso ist das Bikonditional 'alb' äquivalent zum Ausdruck '(ab)((a)(b))'. 5.1.6 Vorfahrtsregeln Um sich unnötige Arbeit beim Setzen von Klammern zu sparen, existieren in der Logik genau wie in der Algebra 'Vorfahrtsregeln' hinsichtlich der Verwendung von Verknüpfungszeichen. So gilt der Vorrang des Negationszeichens gegenüber der Konjunktion und der Disjunktion. Die Konjunktion genießt wiederum Prioriät gegenüber der Disjunktion. Der Ausdruck abc ist also eindeutig insofern, als erst der Wahrheitswert der Verknüpfung von a und b berechnet werden muss und
Prioritäten analog zur Algebra, aber Klammersetzung ist sicherer
48
Kapitel 5 Deduktive Logik
anschließend der Wahrheitswert der Oder-Verknüpfung dieses Wertes mit dem Wahrheitswert von c. Der in der Äquivalenz verwendete Ausdruck (ab)((a)(b)) ist demnach gleichbedeutend mit abab und hätte sich ganz ohne Klammern schreiben lassen. Es ist jedoch empfehlenswert, im praktischen Umgang mit logischen Operationen dennoch Klammern zu setzen, da man so leichter den Überblick behält.
Experte: Analogie zu Multiplikation und Addition Manchmal werden die Wahrheitswerte statt mit 'w' und 'f' auch mit den Zahlen '1' und '0' dargestellt, wobei '1' dem Wahrheitswert 'wahr' entspricht und '0' dem Wahrheitswert 'falsch'. Wenn man Zahlen für die Wahrheitswerte verwendet, dann kann man auch die Verknüpfung von mehreren Wahrheitswerten als einen Rechenvorgang verstehen. Tatsächlich lassen sich die Verknüpfungen 'UND' und 'ODER' durch zwei Rechenregeln für 'Multiplikation' und 'Addition' ersetzen, die wir in Analogie zur Algebra mit den Zeichen '*' und '+' durchführen, und die den algebraischen Rechenregeln für Multiplikation und Addition sehr ähnlich sind. Wie in der Algebra kann bei der 'Mulitplikation' von Wahrheitswerten das Zeichen '*' ausgelassen werden, 'a*b' kann daher auch als 'ab' geschrieben werden (und bedeutet immer noch dasselbe wie 'ab').
a
b
a*b
1
1
1
1
0
0
0
1
0
0
0
0
Wie wir sehen, entsprechen die Wahrheitswerte der verknüpften Aussage 'a*b' oder 'ab' tatsächlich genau den Werten, die wir durch algebraische Multiplikation erzielen. Das ist darauf zurückzuführen, dass wir nur mit den Werten '0' und '1' rechnen. Dabei ist '1' bezüglich der Multiplikation ein neutrales, d.h. werterhaltendes Element. Daher kann von den vier möglichen Kombinationen von '0' und '1' sich '1' sich nur dann als das 'Produkt' ergeben, wenn beide 'Faktoren' auch den Wert '1' hatten.
a
b
a+b
1
1
1
1
0
1
0
1
1
0
0
0
Bezüglich der Addition von Wahrheitswerten, wenn wir diese als Zahlen '0' oder '1' darstellen, gelten die algebraischen Regeln unmittelbar, solange mindestens einer der beiden Werte '0' ist. Eine Abweichung ergibt sich bezüglich der 'Addition' von '1' und '1', die wiederum '1' ergibt.
Kapitel 5 Deduktive Logik
a
-a
1
0
0
1
49
Da der Zahlenraum nur die '0' und '1' enthält, entspricht die Negation eines Wertes immer dem anderen Wert. Auch dies stellt eine größere Abweichung von den echten algebraischen Rechenregeln dar. Am klarsten lässt sich dies erkennen am Ausdruck a+(-a), der nach dem rein algebraischen Sinn '0' ergeben müsste, in den hier abgeänderten 'Rechenregeln für Wahrheitswerte' jedoch den Wert '1' erhält. Ein noch etwas komplexeres Beispiel ist in der folgenden Tabelle aufgeführt.
a
b
a*b
b
(a*b)+(b)
1
1
1
0
1
1
0
0
1
1
0
1
0
0
0
0
0
0
1
1
Besonders Mathematiker neigen häufiger zur Verwendung der 'Multiplikation' und der 'Addition' für die logische Verknüpfung von Sätzen und, wie wir später sehen werden, auch für die Bildung von Schnitt- und Vereinigungsmengen. Da daher nicht ausgeschlossen werden kann, dass man in manchen Texten dieser Zeichenwahl begegnet, wurde sie hier dargestellt. Im Prinzip stellt die Verwendung mathematischer Zeichen in logischen Operationen kein Problem dar, solange der Verwendungskontext eindeutig ist. Ist man im Umgang mit diesen Zeichen jedoch wenig geübt, treten leicht Verwechslungen auf. Deshalb sind gerade für Anfänger die logischen Zeichen den mathematischen vorzuziehen.
Ende Experte
5.2
Venn-Diagramme
Wie schon in Kapitel 2 angesprochen wurde, lassen sich Begriffe, d.h. Prädikate, als Mengen darstellen. Die Menge 'Rot' z.B. enthält alle Objekte, die die Eigenschaft 'rot' besitzen, bzw. alle Objekte x, für die der Satz "x ist rot" wahr ist. Mengen können daher auch als Repräsentation von Aussagen betrachtet werden, genauer als die Repräsentation all der Objekte, die eine Aussage wahr machen. Mengen lassen sich graphisch auch als so genannte Venn-Diagramme darstellen. In Abbildung 5.1 ist beispielsweise die Menge A aller roten Gegenstände abgebildet. Die Menge selbst wird meist als Kreis dargestellt, der sich in einem Rechteck befindet. Das Rechteck stellt die so genannte Grundmenge dar, von der die entsprechende Menge eine Teilmenge ist. In unserem Fall wäre die Grundmenge einfach die Menge aller Objekte. In der Regel jedoch wird durch die Grundmenge der für eine bestimmte Fragestellung relevante Objektbereich bestimmt, z.B. die Gegenstände, die sich im Raum x zur Zeit y befinden. Die entsprechende Menge A, bezogen auf diese Grundmenge, wäre dann eben die Menge aller roten Objekte im Raum x zum Zeitpunkt y.
50
Kapitel 5 Deduktive Logik
Abbildung 5.1: Menge A der roten Gegenstände
Analogie von Wahrheitsfunktionen und bestimmten Typen von Mengen
Logische Verknüpfungen von Aussagen lassen sich ebenfalls mengentheoretisch in Form von Venn-Diagrammen abbilden. Sie entsprechen dann bestimmten Operationen, die man auf Mengen anwenden kann. Wenn die Menge A der Menge aller Objekte x entspricht, die die Aussage a "x ist rot" wahr machen, dann ist es einfach, die Menge aller x zu finden, die die Negation der Aussage, a, "x ist nicht rot" wahr machen. Dies ist logischerweise die Menge all der Objekte in der Grundmenge, die nicht in A enthalten sind. Diese Menge nennt man die komplementäre Menge von A und schreibt sie als CA. Abbildung 5.2: Komplementärmenge von A
Aussagen sind durch kleine, Mengen durch große Buchstaben gekennzeichnet
Manchmal wird die Komplementärmenge auch als A dargestellt. Wegen der Analogie zur Aussagenlogik ist dies zwar unproblematisch; um Verwechslungen auszuschließen, sollten für mengentheoretische Operationen aber spezifische Zeichen für die Operatoren verwendet werden. Im weiteren Text folgen wir der Konvention, Aussagen durch kleine römische Buchstaben zu kennzeichnen und Mengen durch große. Die Menge der roten Gegenstände wird daher als A bezeichnet und die ihr entsprechende Aussage "x ist rot" als a. Die mengentheoretische Entsprechung der UND-Verknüpfung ist die Schnittmenge zweier Mengen. Die Konjunktion "Dieses Objekt ist rot und eine Kugel." ist dann wahr, wenn das Objekt sowohl rot als auch eine Kugel ist. Die Menge,
Kapitel 5 Deduktive Logik
die das gleichzeitige Gelten beider Eigenschaften realisiert, ist demnach die Menge der roten Kugeln, bzw. die Schnittmenge der Menge aller roten Objekte mit der Menge aller kugelförmigen Objekte. Die Schnittmenge zweier Mengen wird mit dem Symbol '' dargestellt, die Schnittmenge von A und B ist demnach AB. Abbildung 5.3: Schnittmenge von A und B
Für die ODER-Verknüpfung zweier Aussagen gilt, dass sie wahr ist, wenn wenigstens eine der beiden Aussagen wahr ist. In der Mengentheorie entspricht das der Vereinigungsmenge zweier Mengen, die mit Hilfe des Symbols '' dargestellt wird. Die Menge AB ist demnach die Menge aller Objekte, die entweder in A oder in B oder in beiden zugleich enthalten sind. Abbildung 5.4: Vereinigungsmenge von A und B
Die mengentheoretische Darstellung entspricht immer den x, für die eine Aussage wahr ist. Da es für die UND-Verknüpfung, die ODER-Verknüpfung und die NEGATION einer Aussage entsprechende mengentheoretische Operatoren über Mengen gibt, gilt dies natürlich auch für jede andere logische Verknüpfungsart von Sätzen, da diese immer auf diese Grundoperationen zurückgeführt werden können.
51
52
Kapitel 5 Deduktive Logik
Experte: Aussagenlogik und Schaltalgebra Logische Ausdrücke lassen sich nicht nur als Venn-Diagramme darstellen, sondern auch als Schaltungen. Die Übersetzung logischer Ausdrücke in entsprechende Schaltungen stellt den Kern der so genannten Schaltalgebra dar, die ihrerseits wiederum die 'technische' Grundlage aller Computer verkörpert. Die Wahrheitswerte logischer Ausdrücke entsprechen in Schaltungen dem Fließen bzw. Nicht-Fließen des Stroms. Ein geschlossener Stromkreis entspricht dem Wahrheitswert 'w' bzw. '1', und ein unterbrochener bzw. offener Stromkreis entspricht dem Wahrheitswert 'f' bzw. '0'. Der Wahrheitswert einer elementaren Aussage kann daher durch einen geschlossenen bzw. offenen Schalter dargestellt werden. Eine logische UND-Verknüpfung zweier Aussagen entspricht in der Schaltalgebra einer Reihenschaltung zweier Schalter, da der (Gesamt-)Stromkreis nur dann geschlossen ist, wenn beide Schalter geschlossen sind. Ist nur einer der beiden Schalter geöffnet, ist der Stromkreis unterbrochen. In Abbildung E 1 wird die UNDVerknüpfung illustriert. Abbildung E 1: Reihenschaltung
Eine logische ODER-Verknüpfung wird in der Schaltalgebra durch eine Parallelschaltung abgebildet. Der Strom kann fließen, wenn nur einer der beiden Schalter geschlossen ist. Abbildung E 2 entspricht der ODER-Verknüpfung einer falschen mit einer wahren Aussage. So wie die Wahrheit nur einer einzigen Aussage in einer ODER-Verknüpfung die Wahrheit des gesamten Ausdrucks garantiert, genügt in einer Parallelschaltung ein einziger geschlossener Schalter, um den Stromfluss zu gewährleisten. Abbildung E 2: Parallelschaltung
Die Negation einer Aussage wird in der Schaltalgebra durch die Änderung der Schalterstellung umgesetzt, ein geschlossener Schalter wird ein geöffneter, ein offener Schalter wird geschlossen. Da sich jeder komplexe logische Ausdruck auf die elementaren Ver-
Kapitel 5 Deduktive Logik
53
knüpfungen elementarer Ausdrücke zurückführen lässt, kann dementsprechend auch jeder noch so komplexe logische Ausdruck durch eine entsprechende Schaltung realisiert werden.
Ende Experte
5.3
Argumente und Argumentformen
Empirische Wissenschaft ist nichts anderes als eine Systematisierung des AusErfahrung-Lernens. "Science is organized knowledge" – ein Ausspruch, der übrigens sowohl Immanuel Kant als auch Herbert Spencer nachgesagt wird. Aber natürlich lernen wir ebenso außerhalb der Wissenschaft. Für die meisten Menschen übertrifft der Teil des Wissens, den sie auf alltägliche Weise gelernt haben, den auf wissenschaftliche Weise erworbenen bei weitem, insbesondere, wenn wir komplexe, unbewusst verlaufende Lernprozesse wie den Spracherwerb in der Kindheit berücksichtigen. Allen Formen des Lernens und Wissenserwerbs ist gemeinsam, dass sie unsere Erwartungshaltungen verändern. Diese Erwartungen können sich auf das Eintreten von Ereignissen oder auf den Erfolg von Handlungen zur Erreichung bestimmter Ziele beziehen. Wenn sich der Himmel bewölkt, ist dies ein Anzeichen dafür, dass es möglicherweise bald regnen wird, und wenn wir im Schach gewinnen wollen, so sollten wir zumindest offensichtlich schlechte Züge vermeiden, wie die Dame schutzlos dem Gegner auszuliefern.4 Wenn wir dazu aufgefordert würden zu verbalisieren, warum wir bestimmte Handlungen in einem bestimmten Kontext ergriffen haben oder warum wir das Auftreten bestimmter Ereignisse erwartet haben, so würden wir dafür Gründe anführen, die aus unserem Hintergrundwissen stammen. In der Umgangssprache werden solche Begründungen oft mit Worten wie 'weil', 'da' oder 'deshalb' explizit gemacht. "Ich habe den Regenschirm mit ins Büro genommen, weil es heute früh bewölkt war." Sprachliche Strukturen, die einen derartigen Aufbau haben, werden Argumente genannt. Jedes Argument besteht aus begründenden Sätzen und einem begründeten Satz. Erstere nennen wir die Prämissen des Arguments, letztere die Folgerung oder Konklusion des Arguments. Den spezifischen Aufbau des Arguments nennen wir seine Form, bestimmte Typen von Argumenten werden daher als Argumentformen oder auch Schlussschemata bezeichnet. Schematisch stellen wir ein Argument dar, indem wir die Prämissen nacheinander auflisten und unter die Prämissen die Konklusion schreiben. Zusätzlich heben wir die Konklusion auf eindeutige Weise von den Prämissen ab. Dies kann geschehen, indem wir sie durch einen Querstrich oder einen Doppelpfeil voneinander trennen, oder die Prämissen und die Konklusion oder auch die Konklusion allein durch ein bestimmtes Zeichen kennzeichnen. Folgende Darstellungsformen des Arguments sind gleichwertig und werden alle in Texten über Logik verwendet.
4
Dies gilt zumindest für Amateur-Spieler. Legendär ist ein berühmtes Damenopfer oder Damengambit des Schachgenies Bobby Fisher.
Logische Argumente als Systematisierung der Denkschemata des Alltagsverstandes
54
Kapitel 5 Deduktive Logik
Unterschiedliche Darstellungsformen für Argumente
Heute früh war es bewölkt. _________________________________________________ Ich habe heute den Regenschirm mit ins Büro genommen.
Heute früh war es bewölkt. Ich habe heute den Regenschirm mit ins Büro genommen.
P: Heute früh war es bewölkt.
K: Ich habe heute den Regenschirm mit ins Büro genommen.
Heute früh war es bewölkt. ? Ich habe heute den Regenschirm mit ins Büro genommen.
Diese verschiedenen Möglichkeiten der Darstellung wurden hier aufgezeigt, da sie in unterschiedlichen Lehrbüchern so verwendet werden. Wir werden uns im Folgenden jedoch lediglich der ersten beiden Darstellungsformen bedienen. Vollständige und unvollständige Argumente
Argumente beantworten 'Warum-Fragen', sie geben also in den Prämissen die Gründe an, warum wir die Folgerung für wahr halten sollten. Diese Argumentstruktur ist uns aus dem Alltag so vertraut, dass wir oft einzelne Bestandteile gar nicht explizit äußern müssen, da sie aus dem Zusammenhang erschlossen werden können. Lassen wir einige der Prämissen implizit, so sprechen wir von einem unvollständigen Argument. Beispiel für ein unvollständiges Argument: Wenn ich die Dame auf E1 gestellt hätte, dann hätte sie vom gegnerischen Bauern geschlagen werden können. Offensichtlich handelt es sich hierbei um eine Begründung, warum ich die Dame nicht auf E1 gestellt habe, die aber nicht extra verbalisiert werden muss, genauso wenig wie die weiteren unausgesprochenen Prämissen, die sich auf den Zusam-
Kapitel 5 Deduktive Logik
55
menhang zwischen Spielzügen und meinen Gewinnchancen und auf meine Motivation beziehen. Beispiel für ein vollständiges Argument: Wenn ich die Dame auf E1 stelle, dann kann sie vom gegnerischen Bauern geschlagen werden. Wenn ich meine Dame verliere, erhöht sich die Wahrscheinlichkeit dramatisch, dass ich auch das Spiel verliere. Ich möchte das Spiel gewinnen. _________________________________________________________________ Ich sollte meine Dame nicht auf E1 stellen. Auch das Regenschirmbeispiel war nicht vollständig und müsste eigentlich so aussehen: Heute früh war es bewölkt. Wenn es bewölkt ist, folgt häufig Regen. Ich möchte nicht gerne nass werden. Ein Regenschirm schützt bei Regen davor, nass zu werden. _____________________________________________________ Ich habe heute den Regenschirm mit ins Büro genommen. Wie man sieht, macht die Aufführung aller impliziten Prämissen ein Argument oft unelegant und bläht es unnötig auf. Man hätte im obigen Beispiel noch weitere Prämissen einfügen können, wie die, dass ein Regenschirm nur vor Regen schützt, wenn man ihn aufspannt usw. Implizite Prämissen können daher weggelassen werden, solange man ihre Kenntnis allgemein voraussetzen kann. Das obige Argument ist ein so genannter praktischer Syllogismus. Praktische Syllogismen enthalten als Konklusion eine Handlung und als Prämissen bestimmte Ziele sowie die Beschreibung, welche Mittel zur Erreichung dieser Ziele geeignet sind. Praktische Syllogismen sind nicht ganz unproblematisch, da sie des Weiteren implizit voraussetzen, dass man tatsächlich die Handlungen ergreift, die zur Erreichung unserer Ziele führen. Dies ist zwar eine plausible Annahme, aber nicht
Praktischer Syllogismus
56
Kapitel 5 Deduktive Logik
logisch zwingend5. Eine andere Möglichkeit, das unvollständige Argument zu einem vollständigen zu ergänzen, wäre folgende: Heute früh war es bewölkt. Immer wenn es morgens bewölkt ist, nehme ich den Regenschirm mit in das Büro. _________________________________________________________________ Ich habe heute den Regenschirm mit ins Büro genommen. Dieses Argument ist vollständig, da die Schlussfolgerung aus den Prämissen eindeutig abgeleitet werden kann, ohne dass weitere implizite Annahmen getroffen werden müssen. Als Quintessenz halten wir fest, dass die impliziten Annahmen, die ein unvollständiges Argument zu einem vollständigen Argument ergänzen, nicht immer eindeutig sind. Gültigkeit eines Arguments ist nicht gleich der Wahrheit seiner Bestandteile
Hintergrundwissen, um unvollständige Argumente "richtig" interpretieren zu können
Ein (deduktives) Argument wird als gültig bezeichnet, wenn wir aus der Wahrheit der Prämissen die Wahrheit der Konklusion ableiten können. Die Gültigkeit des Arguments bezieht sich nur auf seine Struktur, bzw. auf seine Form. Ein gültiges Argument sagt lediglich "Wenn die Prämissen wahr sind, dann muss auch die Konklusion wahr sein.", es sagt nichts über den Wahrheitsgehalt der Prämissen oder der Konklusion aus. Wird mit einem gültigen Argument eine falsche Folgerung abgeleitet, so gilt umgekehrt, dass die Prämissen nicht wahr gewesen sein können. Es ist allerdings nicht immer ganz einfach, zu entscheiden, welche der Prämissen denn genau zurückgewiesen werden muss. (Wir werden auf dieses Problem später noch einmal in Kapitel 8 als Duhem-Quine-Problem stoßen.) Oft benötigen wir für die Auswahl der unzutreffenden Prämisse zusätzliches Hintergrundwissen. Beispiel: Schachspiel Wir wollen dazu noch einmal auf unser Schachbeispiel zurückgreifen, das wir zu diesem Zweck leicht umformulieren. Um die einzelnen Prämissen eindeutig identifizieren zu können, nummerieren wir sie durch. Das Argument war folgendermaßen aufgebaut:
5
So selbstverständlich diese Annahme auf den ersten Blick zu sein scheint, so ist sie auch empirisch nicht unproblematisch, wie man am Problem der Willensschwäche erkennen kann. Jeder, der sich einmal vorgenommen hat, frühmorgens aufzustehen, um eine wichtige Sache zu erledigen und sich trotzdem quälen muss, um aus den Federn zu kommen, wird der Annahme mit gewisser Skepsis gegenüberstehen, dass wir automatisch immer die Handlungen ergreifen, die der Erreichung unserer Ziele am dienlichsten sind. Von den Heerscharen von Leuten, die abnehmen wollen und trotzdem an keinem Stück Schokolade vorbeikommen, ohne diesem Gewalt anzutun, wollen wir hier gar nicht sprechen.
Kapitel 5 Deduktive Logik
57
P1: Wenn ein Schachspieler in einer bestimmten Konstellation die Dame auf E1 stelle, dann kann sie vom gegnerischen Bauern geschlagen werden. P2: Wenn man die Dame verliert, erhöht sich die Wahrscheinlichkeit dramatisch, dass man auch das Spiel verliert. P3: Jeder Spieler möchte das Spiel gewinnen. _________________________________________________________________ Der betreffende Spieler sollte seine Dame nicht auf E1 stellen. Beobachten wir nun, wie jemand etwas scheinbar Dummes tut, wie seine Dame zu opfern, dann muss eine unserer Prämissen falsch sein. Handelt es sich bei dem Spieler um einen Schachgroßmeister, verfügt dieser vermutlich über Wissen, das ich nicht habe. Offensichtlich kann man manchmal seine Gewinnchancen durch ein Damenopfer sogar erhöhen. Das bedeutet, dass unsere Prämisse P2 falsch war, dass man durch den Verlust der Dame seine Gewinnchancen verringert. An der Prämisse, dass der Spieler das Spiel gewinnen will, halten wir dabei fest. Handelt es sich bei dem Spieler um den Bekannten, von dem wir uns schon immer gefragt haben, wie er eigentlich das Abitur geschafft hat, dann vermuten wir eher, dass der Zusammenhang elementarer Züge im Schach mit den Gewinnchancen lediglich einen kleinen weiteren Baustein in dem schillernden Mosaik seiner Ignoranz darstellt. Formal ausgedrückt, er verfügt über weniger Wissen als ich und kennt offensichtlich die Prämisse P1 nicht, sie ist somit in der Anwendung auf diesen Bekannten falsch. Beobachten wir den Fehler schließlich bei einem Erwachsenen, der mit einem Kind spielt, so würden wir wahrscheinlich vermuten, dass der Erwachsene den Fehler mit Absicht begeht, um das Kind gewinnen zu lassen. In diesem Fall wäre die Prämisse P3 falsch.
Ende Beispiel Die Gültigkeit eines Arguments besagt nur, dass die Konklusion wahr ist, wenn die Prämissen stimmen. Damit ist aber nicht ausgeschlossen, dass die Konklusion auch wahr sein kann, wenn die Prämissen falsch sind. Das Argument "Wenn es regnet, wird die Straße nass. Heute früh hat es geregnet. Deshalb ist die Straße nass." ist gültig. Allerdings kann die Straße auch nass sein, wenn es nicht geregnet hat, z.B. wenn jemand die Straße mit einem Wasserschlauch bespritzt hat. Ein gültiges Argument erlaubt uns das Ziehen der Schlussfolgerung, wenn die Bedingungen der Prämissen erfüllt sind, aber es ist gut möglich, dass die gleiche Schlussfolgerung in anderen Argumenten aus anderen Prämissen gezogen werden kann. Die Wahrheit der Prämissen ist somit eine hinreichende Bedingung, um die Wahrheit der Konklusion behaupten zu können, aber keine notwendige Bedingung. Von einer hinreichenden Bedingung des Auftretens eines Ereignisses sprechen wir, wenn das Vorliegen der Bedingung das Ereignis in jedem Fall nach sich zieht. Von einer notwendigen Bedingung hingegen sprechen wir, wenn ein Ereignis ohne, dass diese Bedingung erfüllt ist, gar nicht auftreten kann. Es ist z.B. eine hinreichende Bedingung für eine Partei, um nach einer Bundestagswahl an der Sitzverteilung nach den Zweitstimmenanteilen teilzunehmen, mehr als fünf Prozent der abgegebenen gültigen Zweitstimmen erzielt zu haben. Dies ist aber keine notwendige Bedingung, denn nach der Grundmandatsklausel kann die Partei auch an dem Verteilungsverfahren teilnehmen, wenn sie mindestens drei Direktmandate errungen hat. Es ist aber z.B. eine notwendige Bedingung, um überhaupt
Notwendige und hinreichende Bedingungen
58
Kapitel 5 Deduktive Logik
wählen zu dürfen, mindestens 18 Jahre alt zu sein. Dies ist aber wiederum keine hinreichende Bedingung, denn wenn jemand schwere Straftaten begangen hat oder in klinischer, psychiatrischer Behandlung ist, kann ihm das Wahlrecht auch entzogen werden. Überprüfung der Gültigkeit eines Arguments mit Hilfe von Wahrheitstafeln
Es ist wichtig, die Gültigkeit des Arguments von der Wahrheit der in ihm enthaltenen Sätze zu unterscheiden. Die Beurteilung der Gültigkeit eines Arguments ist eine Sache der deduktiven Logik, die Beurteilung der Wahrheit der Prämissen und Konklusion hingegen ist oft eine empirisch abzuhandelnde Angelegenheit. Die Gültigkeit eines deduktiven Arguments lässt sich am besten illustrieren, indem man das Argument auf seine formale logische Struktur zurückführt und dann mit einem Vergleich der Werte von Wahrheitstafeln arbeitet. Dazu wählen wir folgendes Beispiel: (ab)(ab) a b
Die erste Prämisse des Arguments besagt, dass entweder a oder b wahr ist, das 'oder' ist hier ausschließend gemeint. Die zweite Prämisse besagt, dass a wahr ist. Daraus kann gefolgert werden, dass nicht auch b wahr sein kann. Ein Argument ist gültig, wenn die Konklusion wahr ist und wenn alle Prämissen wahr sind. Dies lässt sich leicht mit einer Wahrheitstafel überprüfen. 1. Prämisse
2. Prämisse
Konklusion
a
b
(ab)(ab)
a
b
w
w
f
w
f
w
f
w
w
w
f
w
w
f
f
f
f
f
f
w
Nur in der zweiten Zeile sind beide Prämissen wahr. Da auch die Konklusion in dieser Zeile wahr ist, ist das Argument damit gültig.
Experte: Implikation und Argument Offenkundig besteht eine gewisse Ähnlichkeit zwischen der Form eines gültigen Arguments und einer Implikation. Dies zeigt sich auch daran, dass man das Symbol '' für das Ziehen eines Schlusses in einem Argument verwendet, das dem Symbol 'o' einer Implikation nicht nur zufällig ähnlich ist. Inwiefern unterscheidet sich dann das logische Ar-
Kapitel 5 Deduktive Logik
59
gument '(ab)(ab), a b' von der Implikation '((ab)(ab)a)ob'. Tatsächlich ist das Argument gültig, wenn die Implikation eine Tautologie, also immer wahr ist. Dies trifft zu, wie man an der folgenden Wahrheitstafel zeigen kann. Unabhängig von den Kombinationen der Wahrheitswerte der elementaren Aussagen a und b, ist die Implikation immer wahr. 1. Prämisse
2. Prämisse
Konjunktion der Prämissen
Konklusion
Implikation der Konklusion aus der Konjunktion der Prämissen
(ab)(ab)
a
(ab)(ab) a
b
((ab)(ab)a)ob
f
w
f
f
w
w
w
w
w
w
w
f
f
f
w
f
f
f
w
w
Wenn wir wissen, dass die Implikation eine Tautotologie ist, dann können wir auch daraus folgern, dass das Konsequens der Implikation wahr sein muss, wenn das Antezedens wahr ist. Da das Konsequens der Implikation der Konklusion des Arguments entspricht und das Antezedens der Konjunktion der Prämissen des Arguments, heißt das auch, das die Konklusion wahr sein muss, wenn die Prämissen wahr sind, was ja genau unserer Definition der Gültigkeit eines Arguments entspricht. Wenn wir wollen, können wir die tautologische Implikation auch als ein logisches Gesetz bezeichnen. Trotz der großen Ähnlichkeit zwischen der Struktur des Arguments und der Implikation, müssen beide streng voneinander unterschieden werden und damit auch die Verwendung der Zeichen '' und 'o'. Betrachten wir die Implikation, dann entscheiden wir über den Wahrheitsgehalt des Satzes, indem wir – sozusagen simultan – sowohl den Wahrheitsgehalt des Antezedens als auch den des Konsequens untersuchen. Beim Argument jeodch gehen wir in gewisser Weise sequentiell vor, indem wir die Konklusion aus den Prämissen ableiten. Über den Wahrheitsgehalt einer Implikation können wir nur entscheiden, wenn sämtliche Bestandteile vorliegen. Bei dem Argument hingegen gehen wir schrittweise vor und es kann sein, dass wir nach gewissen Schritten erst einmal 'innehalten', um uns über unsere weitere Vorgehensweise Gedanken zu machen. Argumente können daher abgebrochen und später fortgesetzt werden, eine 'unvollständige' Implikation hingegen ist nicht unvollendet, sondern existiert schlichtweg einfach nicht. Nicht nur die Implikation gewährleistet, dass, wenn sie selbst wahr ist und einer ihrer beiden Bestandteile, nämlich der erste, auch der zweite Bestandteil wahr sein muss. Diese Bedingung wird auch von der Äquivalenz erfüllt. Die rechte Seite einer wahren Äquivalenzbeziehung ist immer wahr, wenn die linke Seite wahr ist. Darüber hinaus gilt sogar, dass die rechte Seite nur dann wahr ist, wenn auch die linke Seite wahr ist. Entspricht ein Argument daher einer Äquivalenzbeziehung zwischen der Konjunktion der Prämissen und der Konklusion, dann stellt die Konklusion eine Schlussfolgerung dar, die nur aus genau diesen Prämissen gezogen werden darf. Die Prämissen sind in diesem Fall sowohl eine hinreichende als auch notwendige Bedingungen für das Vorliegen der Konklusion. Das Argument "Ich war auf dem Gipfel des höchsten Bergs der Welt, da ich auf dem Gipfel des Mount Everest war." ist sicherlich gültig, denn, wenn ich auf dem Gipfel des Mount Everest war, diese Aussage also wahr ist, dann war ich auch auf dem Gipfel des höchsten Berges der Welt, da der Mount Everest ebendieser Berg ist. Umgekehrt kann ich nur dann auf dem Gipfel des höchsten Berges der Welt gewesen sein, wenn ich tatsächlich auf dem Mount Everest gewesen bin. Die Prämisse 'Auf dem Gipfel des Mount Everest' ist sowohl hinreichend als auch notwendig für die Konklusion 'auf dem Gipfel des höchsten Berges der Welt'. Bei Argumenten, die einer Äquivalenzbeziehung zwischen der Konjunktion der Prämissen und der Konklusion entsprechen, können wir für die Ableitung des Schlusses das Symbol '' verwenden. Wir wollen den Unterschied zwischen
60
Kapitel 5 Deduktive Logik
Argument und tautologischem Gesetz an einem einfachen Beispiel aus der Mathematik aufzeigen. Die arithmetische Reihe der natürlichen Zahlen von 1 bis n werde sn genannt. sn = 1+2+3+4+ ... + (n-1)+n Eine einfache Formel zur Berechnung dieser Summe sieht folgendermaßen aus: sn =
n(n 1) 2
Die Behauptung lautet also, dass wir jede Summe natürlicher Zahlen von 1 bis n durch diese Formel schnell und elegant berechnen können. Anders ausgedrückt, behaupten wir, dass beide Ausdrücke äquivalent sind, wobei die Äquivalenz zweier arithmetischer Ausdrücke in der Mathematik mit dem '=' Zeichen ausgedrückt wird. Behauptung: 1+2+3+4+ ... + (n-1)+n =
n(n 1) 2
So einfach das Beispiel auch sein mag, so lassen sich grundlegende Problem hiermit gut erkennen. Die Äquivalenz zweier Ausdrücke ist häufig nicht unmittelbar zu erkennen. Ein erster Schritt der Überprüfung der Behauptung besteht vielleicht darin, sie für einzelne Fälle nachzuprüfen, indem wir für n einmal 2, 5 oder beliebige andere Zahlen einsetzen. Trifft die Behauptung für einen Einzelfall nicht zu, dann haben wir sie schon erfolgreich widerlegt. Tatsächlich aber sehen wir, dass sie für alle diese Einzelfälle gilt. Dies erhöht zwar unseren Glauben daran, dass die Formel stimmen könnte, von einem Beweis, dass sie für alle beliebigen Werte gilt, sind wir aber immer noch weit entfernt. Ein einfacher Beweis sieht nun folgendermaßen aus: Beweis: In einem ersten Schritt gruppieren wir die Summanden so um, dass wir sie zu Gruppen aus dem ersten und dem letzten Wert, dem zweiten und dem vorletzten usw. zusammenfassen. Der Einfachheit halber beweisen wir die Formel nur für gerade n. Der Beweis für ungerade n kann fast identisch mit einer trivialen Abänderung geführt werden. 1+2+3+ ... +(n-2)+(n-1)+n = (1+n) + (2+ (n-1)) + (3+(n-2)) + (
n 2
+(
n 2
+1))
Jedes dieser Paare von zwei Summanden ergibt die Teilsumme n+1. Außerdem erhalten n n wir offensichtlich genau solcher Paare, also ist die Summe aller Paare gleich (n+1). 2 2 Wir wollen die Argumentationsstruktur im Einzelnen aufzeigen: sn = 1+2+3+ ... +(n-2)+(n-1)+n sn = (1+n) + (2+ (n-1)) + (3+(n-2)) + (
n 2
sn = (n+1) + (n+1) + (n+1) + ... + (n+1) sn =
n 2
(n+1)
+(
n 2
+1))
Kapitel 5 Deduktive Logik
61
Jede einzelne der Umformungen des arithmetischen Ausdrucks in einen äquivalenten entspricht einem Argument. Diese Argumente sind wiederum erlaubt, weil die Äquivalenz des umgeformten Ausdrucks mit dem ursprünglichen Ausdruck auf der Anwendung bestimmter Rechengesetze wie dem Kommutativ- und dem Assoziativgesetz beruht, die wiederum per definitionem gelten. Das Gleichheitszeichen in der Arithmetik wird von uns, ohne dies ausdrücklich zu erwähnen, auf zweierlei Weise benutzt. Zum einen, um die Äquivalenz bestimmter Ausdrücke festzulegen, zum anderen aber, um zu zeigen, dass bestimmte rechnerische Umformungen im Zuge eines Beweises erlaubt sind, weil sie einen bestimmten Ausdruck durch einen äquivalenten ersetzen. Der Beweis besteht darin, die Äquivalenz des ersten Ausdrucks in der Beweiskette mit dem letzten Ausdruck zu zeigen, indem wir eine Brücke von Zwischengliedern bilden, die jeweils alle untereinander äquivalent sind. Dabei machen wir uns die Eigenschaft der Äquivalenzrelation zunutze, dass sie, genau wie die Implikation, transitiven Charakter hat. Das heißt, wenn a äquivalent zu b und b äquivalent zu c ist, dann ist auch a äquivalent zu c, bzw. wenn a b impliziert und b c impliziert, dann impliziert a auch c. Das Gesamtargument ist also eine Abfolge von mehreren Teilargumenten, der Beweis zerfällt in mehrere Etappenbeweise. Die Kreativität desjenigen, der einen solchen Beweis führt, besteht darin, dass er den richtigen Weg des Beweises über die notwendigen Etappen erkennt. Jede einzelne Umformung ist trivial, trotzdem wäre es wohl den meisten von n uns schwer gefallen, die Äquivalenz der Ausdrücke 1+2+3+...+n und (n+1) unmittelbar 2 zu erkennen. Die einfachen Beispiele mit Wahrheitstafeln erwecken den Eindruck, deduktive Argumente könnten stur nach einem bestimmten Schema untersucht werden. Dies ist bei aussagenlogischen Ausdrücken in der Tat der Fall, da wir nach einem bestimmten Verfahren den Wahrheitswert jedes noch so komplexen Ausdrucks ermitteln und ihn mit dem Wahrheitswert jedes beliebigen anderen komplexen Audrucks vergleichen können, um so zu überprüfen, ob beide Ausdrücke äquivalent sind. Wie das einfache Beispiel der arithmetischen Reihe gezeigt hat, ist die Untersuchung der Äquivalenz z.B. von arithmetischen Ausdrücken schon wesentlich schwieriger. Wir müssen bestimmte 'Tricks', wie die Paarbildung aus dem ersten und dem letzten Glied, dem zweiten und dem vorletzten ..., anwenden, um zum gewünschten Ergebnis zu gelangen. Kennen wir den Trick, ist es ein Leichtes, den Beweis nachzuvollziehen, ohne den Trick ist es schwierig, wenn nicht nahezu unmöglich. Das Genie von Mathematikern liegt darin, dass sie diese Tricks 'sehen'. So soll das mathematische Wunderkind Carl Friedrich Gauss eben die erwähnte Formel der arithmetischen Reihe genau auf dem beschriebenen Weg als sechsjähriges Schulkind gefunden haben. Fast alle von uns können ein Motiv aus einer Beethovensymphonie nachsummen, einige von uns können seine Sonaten auf dem Klavier spielen, aber die allerwenigsten unter uns hätten diese Stücke komponieren können. Genauso verhält es sich mit mathematischen Beweisen. So einfach sie mitunter nachzuvollziehen sind, so schwer sind sie oft zu finden. Genauso wie der Komponist aus bestimmten Gründen 'weiß', welchen Ton er als nächsten setzen muss, und genau dieses Wissen macht sein Genie aus, genauso wie der Legende nach Michelangelo seinen David in einem Steinblock 'gesehen' hat, genauso erkennen mathematische Genies, auf welchem Weg sie ihren Beweis zu suchen haben, und weder künstlerische noch mathematische Genies sind auch nur annähernd in der Lage, die Gründe zu nennen, warum sie über dieses Wissen verfügen.
Ende Experte
Argumente sind sprachliche Figuren, bei denen Gründe angegeben werden, warum wir bestimmte Aussagen für wahr halten sollen. Wenn uns das Argument nicht überzeugt und wir die Richtigkeit der Schlussfolgerung bezweifeln, so können wir wiederum unsere Ablehnung der Konklusion auf zweierlei Weise begründen. Die eine Möglichkeit, unseren Zweifel mit guten Gründen zu untermauern,
Zwei Möglichkeiten für Ablehnung einer Konklusion:
1. Ablehnung der Prämissen
62
Kapitel 5 Deduktive Logik
besteht darin, zwar die Gültigkeit des Arguments zuzugestehen, aber die Prämissen nicht zu akzeptieren. Zwar muss ein gültiges Argument mit falschen Prämissen keineswegs zu einer falschen Konklusion führen, aber die Wahrheit der Konklusion kann nicht mehr durch die Prämissen gestützt werden. Alle Menschen mit drei Augen haben zwei Beine. Gerhard Schröder hat drei Augen. _________________________________________ Gerhard Schröder hat zwei Beine. Das Argument ist ohne Zweifel gültig und die Konklusion ist wahr, aber die zweite Prämisse ist eindeutig falsch. Wenn wir die Konklusion eines gültigen Arguments, das auf falschen Prämissen beruht, für nicht gerechtfertigt halten, dann sagen wir nicht, dass sie notwendig falsch sein muss, sondern dass die Prämissen nicht hinreichend für die Annahme der Wahrheit der Konklusion sind. In einem gültigen Argument sind nur wahre Prämissen hinreichend für die Wahrheit der Konklusion, falsche Prämissen sind aber keine hinreichender Grund, auf die Falschheit der Konklusion zu schließen. 2. Gültigkeit des Arguments selbst bezweifeln
Die zweite Möglichkeit, die Schlussfolgerung eines Arguments in Frage zu ziehen, bezweifelt die Gültigkeit des Arguments selbst. In diesem Fall können die Prämissen sogar durchaus wahr sein, sie stellen aber keine hinreichende Bedingung für die Wahrheit der Schlussfolgerung dar. Kanzlerkandidat A wird in Umfragen eine geringere wirtschaftliche Kompetenz zugestanden als Kanzlerkandidat B. _________________________________________________________________ Kanzlerkandidat A wird nicht zum Bundeskanzler gewählt werden.
Das Argument ist ungültig, da die Konklusion nicht zwingend durch die Prämisse gestützt wird. Auch jemand, dem die geringere wirtschaftliche Kompetenz zugestanden wird, kann durchaus zum Kanzler gewählt werden, d.h. größere wirtschaftliche Kompetenz ist keine notwendige Bedingung, um Kanzler zu werden. Schlussfolgerungen, die auf wahren Prämissen beruhen, aber ein ungültiges Argument benutzen, werden als Fehlschlüsse (oder auch 'non sequitur') bezeichnet. Typische Argumentformen: Modus Ponens und Modus Tollens
Das Erkennen eines ungültigen Arguments ist neben dem Erkennen falscher Prämissen die schärfste Waffe des Kritikers. Umgekehrt kann der Verfechter einer bestimmten Schlussfolgerung einen gewissen Teilerfolg erzielen, wenn er uns zumindest von der Gültigkeit eines Arguments überzeugen kann. In einem zwei-
Kapitel 5 Deduktive Logik
ten Schritt hat er dann 'nur' noch die Wahrheit der Prämissen zu zeigen. Unter den praktisch unendlich vielen Formen eines Arguments gibt es gewisse Standardformen gültiger und ungültiger Argumente. Wir wollen die wichtigsten dieser Argumentformen kurz vorstellen. 5.3.1 Der Modus Ponens Der Modus Ponens, auch 'Bejahung des Antezedens' genannt, ist wohl die bekannteste Argumentform. Er ist unserem 'Alltagsschließen' so immanent, dass wir ihn ständig verwenden, ohne uns darüber im Besonderen noch bewusst zu sein. Die Prämissen des Modus Ponens bestehen erstens aus einer Implikation sowie zweitens aus dem Antezedens der Implikation. Die Folgerung ist das Konsequens der Implikation. Formal lässt sich der Modus Ponens daher wie folgt darstellen. aob a b
Wenn 'b' aus 'a' gefolgert werden kann, außerdem bekannt ist, dass 'a' wahr ist, dann kann gefolgert werden, dass auch 'b' wahr sein muss. Der Modus Ponens wird intuitiv noch verständlicher, wenn man sich die Implikation im Sinne einer Kausalverknüpfung, einer Ursache-Wirkungs-Beziehung, vorstellt. Dann entspricht das Antezedens der Ursache, das Konsequens der Wirkung, und der Satz 'aob' bedeutet, dass die Ursache a die Wirkung b nach sich zieht. So betrachtet leuchtet das Schlussschema des Modus Ponens unmittelbar ein. Wenn die Ursache a die Wirkung b nach sich zieht (1. Prämisse) und außerdem bekannt ist, dass die Ursache a vorliegt (2.Prämisse), dann muss zwangsläufig das Auftreten der Wirkung b beobachtet werden können (Folgerung). Es ist jedoch Vorsicht geboten, Implikationen grundsätzlich als Kausalrelationen zu interpretieren, wie es oft fälschlich getan wird. Die Implikation sagt nur etwas aus über das gleichzeitige Vorliegen zweier Bedingungen, d.h. wenn a gilt, muss auch b gelten. Sie sagt nichts aus über den inneren Zusammenhang zwischen diesen beiden Bedingungen. Kausalrelationen können zwar immer vollkommen unproblematisch als Implikationen dargestellt werden, das heißt aber noch lange nicht, dass jede Implikation auch einer Kausalrelation entspricht. Dies wird sofort klar, wenn man Implikationen betrachtet, die lediglich Umformungen von Nominaldefinitionen sind. Die Implikation "Wenn etwas ein weißes Pferd ist, dann ist es ein Schimmel." ist eine Tautologie, und aus der Prämisse 'weißes Pferd' kann korrekt auf die Konklusion 'Schimmel' geschlossen werden, aber offensichtlich handelt es sich hier um keinen kausalen Zusammenhang. Tatsächlich werden wir im Zusammenhang mit der Problematik der Erklärung sehen, dass die Frage, ob
63
64
Kapitel 5 Deduktive Logik
einer bestimmten Implikation ein kausaler Charakter zugeschrieben werden darf, grundlegend für den Wert wissenschaftlicher Theorien ist. 5.3.2 Der Modus Tollens Wie der Name dem kundigen Lateiner schon verrät, handelt es sich beim Modus Tollens um eine Art von 'Umkehrschluss'. Er wird auch 'Verneinung des Konsequens' genannt. Seine formale Darstellung sieht so aus: aob b a
Auch im Modus Tollens ist die Implikation aob als Prämisse enthalten. Gleichzeitig wird jedoch hier vorausgesetzt, dass das Konsequens der Implikation nicht zutrifft. Daraus kann aber auf das Nicht-Vorliegen des Antezedens geschlossen werden, denn wenn dieses tatsächlich wahr wäre, dann müsste ja auch das Konsequens der Implikation wahr sein, was ja aber bekanntermaßen nicht der Fall ist. Aus dem Vorliegen der Implikation "Wenn es geregnet hat, dann ist hinterher die Straße nass." und der Feststellung der Tatsache, dass die Straße nicht nass ist, kann gefolgert werden, dass es nicht gerade geregnet haben kann. 5.3.3 Der Fehlschluss der Bejahung des Konsequens Modus Ponens und Modus Tollens bestehen in den Prämissen jeweils aus einer Implikation und aus dem Antezedens der Implikation, bzw. der Negation des Konsequens. Rein kombinatorisch ergeben sich zwei weitere Argumentformen, die berühmten Fehlschlüssen entsprechen. Die erste wird der Fehlschluss der Bejahung des Konsequens genannt. aob b a
Aus der Wahrheit der Implikation und dem Vorliegen des Konsequens wird auf das Vorliegen des Antezedens geschlossen. Aus dem Vorliegen der Implikation "Wenn es geregnet hat, dann ist hinterher die Straße nass." und der Feststellung der Tatsache, dass die Straße nass ist, wird fälschlicherweise gefolgert, dass es geregnet haben muss. Beim Fehlschluss der Bejahung des Konsequens wird eine hinreichende Bedingung unkorrekt für eine notwendige Bedingung gehalten. Die Bedingung 'Regen' ist zwar hinreichend für 'Straße nass', aber nicht notwendig, da auch andere Gründe dazu geführt haben können, dass die Straße nass ist.
Kapitel 5 Deduktive Logik
65
5.3.4 Der Fehlschluss der Verneinung des Antezedens Der Fehlschluss der Verneinung des Antezedens besteht aus der bekannten Implikation und der Negation des Antezedens als Prämissen und folgert daraus die Negation des Konsequens. aob a b
Der Fehlschluss der Verneinung des Antezedens beruht im Prinzip auf demselben Fehler wie der Fehlschluss der Bejahung des Konsequens. Eine hinreichende Bedingung wird für eine notwendige gehalten. Liegt diese Bedingung nicht vor, dann kann auch die Wirkung nicht vorliegen, von der man fälschlicherweise unterstellt, dass sie eben nur durch genau diese Bedingung hervorgerufen werden kann. "Wenn es regnet, wird die Straße nass. Es hat nicht geregnet. Also kann die Straße nicht nass sein." Man kann den Fehler auch so beschreiben, dass die Implikation für eine Äquivalenz gehalten wird, denn in einer Äquivalenzrelation ist der eine Bestandteil immer sowohl hinreichende als auch notwendige Bedingung für den anderen. 5.3.5 Quantoren Quantoren sind formale Begriffe, die den Geltungsbereich bestimmter Aussagen festlegen. In der Logik von fundamentaler Bedeutung sind der All-Quantor, der symbolisch durch das Zeichen '' dargestellt wird, und der Existenz-Quantor, dessen symbolische Darstellung in einem seitenverkehrten großen E, also '', besteht. Sprachlich werden Quantoren durch 'Alle ...' bzw. 'Es gibt ...' ausgedrückt. So genannte kategoriale Sätze sind Aussagen, die Quantoren enthalten. Man unterscheidet dementsprechend zwischen Allaussagen, wie z.B. "Alle Pilze kann man essen.", und Existenzaussagen, wie z.B. "Es gibt lila Schwäne." Beide Aussageformen können negiert werden, dabei gilt, dass die Verneinung einer Allaussage eine Existenzaussage und die Verneinung einer Existenzaussage eine Allaussage ist. Die Verneinung der obigen Allaussage wäre demnach "Nicht alle Pilze kann man essen." oder "Es gibt Pilze, die man nicht essen kann.", die Verneinung der obigen Existenzaussage "Es gibt keine lila Schwäne." bzw. "Alle Schwäne sind nicht-lila." 5.3.6 Syllogismen Ein Syllogismus im klassischen Sinn ist eine Argumentform, bei der alle Prämissen und die Folgerung aus kategorialen Sätzen bestehen.
Existenz-Quantor und AllQuantor: formale Begriffe für den Geltungsbereich von Aussagen
Syllogismus: Spezialfall einer Argumentform
66
Kapitel 5 Deduktive Logik
Alle Katzen sind Säugetiere. Alle Säugetiere sind Wirbeltiere. ______________________________ Alle Katzen sind Wirbeltiere. Der bekannteste aller 'Syllogismen' enthält allerdings nicht nur kategoriale sondern auch singuläre Sätze. Alle Menschen sind sterblich. (Formal: x(Wenn x ein Mensch ist, dann ist x sterblich.) Sokrates ist ein Mensch. _______________________________________________
Sokrates ist sterblich. Hempel-OppenheimSchema
Streng genommen handelt es sich deshalb um einen 'Quasi-Syllogismus'. Wir werden im Weiteren jedoch auch Quasi-Syllogismen als Syllogismen bezeichnen. Die obige Argumentform kann man als syllogistische Form eines Modus Ponens verstehen. Handelt es sich bei dem All-Satz in den Prämissen um ein empirisches Gesetz, dann bezeichnen wir diese Argumentform auch als Hempel-OppenheimSchema. Analog sieht die syllogistische Form des Modus Tollens wie folgt aus: Alle Menschen sind sterblich. Apollo ist unsterblich. ________________________ Apollo ist kein Mensch.
Deduktives Vorgehen nicht zur Erschließung neuen, sondern zur Verfügbarmachung vorhanden Wissens
Syllogismen sind die wohl wichtigste deduktive Methode zur Begründung bestimmter Aussagen. Schlussfolgerungen, die aus gültigen Syllogismen und Argumentformen gewonnen werden, können wir als risikofrei bezeichnen, da sie notwendig wahr sein müssen. Allen deduktiven Verfahren ist gemeinsam, dass durch sie kein neues Wissen dem schon vorhandenen zugefügt wird, lediglich werden die Implikationen des vorhandenen Wissens explizit gemacht. Deduktion ist also eine Methode zur Entdeckung und Offenlegung 'versteckter', bzw. 'verborgener' Information, aber keine Methode zur Generierung von neuer Information. Hans
Kapitel 5 Deduktive Logik
Albert spricht in diesem Zusammenhang sehr bildlich vom 'Melken' einer Aussagenmenge (Albert 1991:13).
67
68
Kapitel 6 Beweis, Erklärung und Prognose
6 Unterscheidungsmerkmale zur Verwendung von Argumenten
1. Typen von Sätzen im Argument: analytische oder synthetische Sätze
Beweis, Erklärung und Prognose
Argumente dienen der Begründung bestimmter Aussagen. Wir verwenden Argumente jedoch in verschiedenen Zusammenhängen. Wir greifen auf Argumentformen zurück, wenn wir in der Mathematik oder Logik einen Beweis führen, wir verwenden Argumente aber auch, um die Beobachtung bestimmter Ereignisse z.B. in den Naturwissenschaften zu erklären oder vorauszusagen. Wir können die verschiedenen Verwendungszusammhänge von Argumenten anhand von zwei Dimensionen mit jeweils zwei Ausprägungen darstellen. Das erste Unterscheidungsmerkmal bezieht sich auf die Sätze, die als Prämissen im Argument enthalten sind. Diese können entweder analytischer oder synthetischer Natur sein. Die Wahrheit analytischer Sätze ergibt sich entweder per definitionem oder aufgrund logischer Regeln. Der Satz "Die kürzeste Verbindung zwischen zwei Punkten (im euklidischen Raum) ist eine Gerade." ist ein analytischer Satz aufgrund bestimmter definitorischer Festlegungen. Jeder Satz, der mit Hilfe eines gültigen Arguments aus analytischen Sätzen abgeleitet werden kann, ist ebenfalls wieder ein analytischer Satz, so z.B. der Satz "Jede Verbindung zwischen zwei Punkten, die keine Gerade darstellt, ist nicht die kürzestmögliche Verbindung zwischen diesen zwei Punkten." Analytische Sätze beziehen sich auf eine symbolische Welt. Wenn wir uns mit Phänomenen der realen Welt befassen, können wir daher nicht mit analytischen Sätzen arbeiten. Zur Beschreibung von in der Wirklichkeit vorhandenen Phänomenen brauchen wir so genannte synthetische Sätze. Synthetische Sätze sind niemals allein aufgrund ihrer Struktur wahr oder falsch, sondern können im Prinzip beides sein – wenn auch nicht gleichzeitig. Unter rein logischen Gesichtspunkten ist – im Gegensatz zu analytischen Sätzen – sowohl ihre Wahrheit als auch ihre Falschheit möglich. In der Regel beziehen sich synthetische Sätze auf Tatsachen, die sich in der realen Welt ereignen. Sätze wie "Der Ball fällt.", "Das Haus ist rot." sind synthetischer Natur. Es ist nicht möglich, durch die Betrachtung des Satzes an sich, eine Aussage über seinen Wahrheitsgehalt zu machen. Vielmehr bedarf es dazu gewisser Regeln, die eine Zuordnung bestimmter Beobachtungen zu den Wahrheitswerten bestimmter Sätze erlauben. Diese Zuordnungsregeln werden auch als Korrespondenzregeln bezeichnet. Im Sinne eines naiven Sensualismus bezeichnen wir einen Satz dann als wahr, wenn er den von uns gemachten Beobachtungen entspricht. Synthetische Sätze können aber nicht nur besondere sondern auch allgemeine Sätze sein, d.h. sie können außer Tatsachenaussagen auch Gesetzesaussagen sein, aber auch Tendenzaussagen oder probabilistische Aussagen. Auch über die Wahrheit eines allgemeinen synthetischen Satzes wird aufgrund bestimmter gemachter Beobachtungen und bestimmter Regeln, die diese Beobachtungen mit dem Satz in Beziehung setzen, entschieden. Es kann aber durchaus sein, dass wir nicht in der Lage sind, ein abschließendes Urteil über den Wahrheitsgehalt eines synthetischen Satzes zu fällen.
Kapitel 6 Beweis, Erklärung und Prognose
69
Das zweite Unterscheidungskriterium bezieht sich auf die zeitliche Ausrichtung der Konklusion des Arguments. Die Konklusion kann sich auf die Gegenwart oder die Vergangenheit beziehen, oder sie kann eine Aussage über die Zukunft machen. Besteht ein Argument nur aus analytischen Sätzen, dann ergibt die Zeitdimension keinen Sinn, da logische Argumente 'ewig' und unvergänglich sind. Das zweite Unterscheidungskriterium gelangt daher nur zu Anwendung, wenn es sich um ein Argument handelt, das als Prämissen synthetische Sätze enthält. Aufgrund der zwei Dimensionen kann jetzt ein Klassifizierungsschema für Argumente entworfen werden.
2. Zeitliche Ausrichtung der Konklusion: auf Gegenwart bzw. Vergangenheit oder auf Zukunft
Tabelle 6.1: Klassifikation von Argumenten Bezug der Konklusion auf Gegenwart oder Vergangenheit Art der Prämissen analytische Sätze synthetische Sätze
6.1
Zukunft
Beweis Erklärung
Prognose
Beweis
Mathematische oder logische Gleichungen sind nichts anderes als die Umformung wohldefinierter Ausdrücke durch ebenso wohldefinierte zulässige Operationen. Sie sind tautologische bzw. analytische Sätze. Sie sind immer wahr, und ihre Wahrheit ergibt sich daraus, dass die Umformungen, die sie vornehmen, durch Regeln bestimmt sind. Diese Regeln sind auf so genannte Axiome zurückzuführen. Axiome sind 'letzte', nicht weiter begründbare Sätze, die entweder schlicht festgelegt werden oder auf so genannten selbstevidenten Erkenntnissen beruhen, die durch den Gebrauch der Vernunft unmittelbar erkannt werden können. Man spricht daher oft auch vom so genannten Offenbarungsmodell der Erkenntnis. Die Axiome müssen, da sie ja nicht bewiesen werden können, über jeden Zweifel erhaben sein. Eine in sich geschlossene Theorie, die sich nur deduktiver Beweisverfahren bedient, ist daher in der Regel axiomatisch begründet6.
6
Die wohl berühmteste und weiterhin vielleicht auch eleganteste und bestechendste axiomatische Darstellung eines Teilgebiets der Mathematik sind Euklids opus magnum der Geometrie in den 'Elementen'. Zwei Seiten von Definitionen, Postulaten und Axiomen genügen, um auf weiteren dreißig Seiten des ersten Buches 48 Beweise zu liefern, deren zwei letzte dem Satz des Pythagoras entsprechen. Die Information des Satzes des Pythagoras ist allerdings schon allein in den ersten zwei Seiten der Axiome und Definitionen enthalten, nur ist sie nicht direkt sichtbar, zumindest nicht für uns mit unseren beschränkten kognitiven Fähigkeiten. Ein 'ma-
Mathematische Beweise beruhen auf Axiomen
70
Kapitel 6 Beweis, Erklärung und Prognose
Axiomatisches Vorgehen in den Sozialwissenschaften
Unstrittig ist die axiomatische deduktive Methode als Vorgehensweise in den formalen Wissenschaften wie Logik und Mathematik. Aber auch in den Sozialwissenschaften findet die axiomatische Herangehensweise vielfältige Anwendungen. Zumeist gehen diese von der Ökonomie aus, wurden aber in den vergangenen Jahrzehnten in zunehmendem Maße auch in der Politikwissenschaft mit großem Erfolg eingesetzt. Beispiele hierfür sind die formale Entscheidungstheorie, wie sie etwa in den Axiomen von Kenneth Arrow Anwendung findet, die Spieltheorie, die vor allem hilft, Möglichkeiten kooperativen Handelns systematisch zu erforschen, oder die axiomatische Gerechtigkeitstheorie, für die John Rawls ein prominenter Vertreter ist. Auch hier geht man so vor, dass man möglichst evidente und schwache Prämissen sucht, aus denen mit Hilfe formal-logischer Schlüsse normativ bedeutende Konsequenzen abgeleitet werden können. Von Beweisen sprechen wir im Zusammenhang mit gültigen Argumenten, deren Prämissen ausschließlich aus analytischen Sätzen oder Festlegungen in Form von Definitionen und Axiomen bestehen.
6.2 Hempel-OppenheimSchema
Erklärung
Ein Schlussschema, das als Prämisse eine gesetzesartige Aussage enthält sowie mindestens eine Tatsachenaussage, wird als nomologisch-deduktive Erklärung bezeichnet, oder auch als Hempel-Oppenheim-Schema. Erklärt wird hierbei die Konklusion unter Bezug auf die Gültigkeit der Prämissen. Eine wissenschaftliche Erklärung ist somit eine Begründung durch die Prämissen, warum wir eine bestimmte Beobachtung gemacht haben. Alle (schweren) Gegenstände fliegen nach unten, wenn sie nicht festoder aufgehalten werden. ____________________________________________________________ Das Kreidestück, das ich eben losgelassen habe, ist nach unten gefallen. Die Prämisse im obigen Argument können wir grob umgangssprachlich als Schwerkraft bezeichnen. Die Schwerkraft ist somit die Erklärung dafür, warum die Kreide nach unten gefallen ist.
Münchhausen-Trilemma und seine drei möglichen "Lösungen"
In Zusammenhang mit empirischen Theorien stellt uns das deduktive Vorgehen jedoch vor ein Problem, wollten wir den All-Satz, der im Beispiel die Prämisse darstellt, selbst begründen. Da durch Deduktion nicht neue Erkenntnis gewonnen werden kann, sondern nur die in den Prämissen wohnende Erkenntnis öffentlich gemacht werden kann, gelangt jeder Versuch, wissenschaftliche Theorien selbst durch Deduktion zu begründen, unweigerlich in das so genannte Münchhausen-
thematischer Gott' müsste lediglich diese zwei Seiten lesen und würde schlagartig alle Information, die in den 48 Konstruktionen und Lehrsätzen enthalten ist, kennen.
Kapitel 6 Beweis, Erklärung und Prognose
71
Trilemma (Albert 1991: 13ff.). D.h. die deduktive Methode führt bei der Begründung einer Theorie bzw. eines All-Satzes unausweichlich zu einer von drei gleichermaßen unattraktiven Konsequenzen: Die erste Möglichkeit besteht darin, dass wir die Wahrheit der zu begründenden Sätze auf die Wahrheit noch 'tieferer', d.h. allgemeinerer Sätze zurückführen, die wiederum durch noch grundlegendere Prämissen begründet werden können und so fort. Dieser infinite Regress führt offensichtlich in eine Sackgasse und kann daher nicht zu einer echten letzten Fundierung wissenschaftlicher Erkenntnis herangezogen werden.
1. "Lösung": infiniter Re-
Die zweite mögliche Sackgasse, in die die deduktive Methode führen kann, ist der logische Zirkelschluss. Er tritt dann auf, wenn wir die Wahrheit einer der Prämissen ihrerseits mit der Konklusion begründen. Zirkelschlüsse sind zumeist die Konsequenz unpräziser Definitionen und führen dadurch selbst wiederum häufig zu banalen Tautologien. Der Satz "Menschen mit einer internalisierten Wahlnorm beteiligen sich besonders häufig an Wahlen." scheint im ersten Augenblick nicht automatisch sinnlos zu sein. Wenn wir aber des weiteren davon ausgehen, dass Normen, die ein bestimmtes Verhalten als erwünscht darstellen, dann als internalisiert gelten, wenn sie dieses erwünschte Verhalten tatsächlich hervorrufen, dann ist die häufige Teilnahme an Wahlen eine notwendige Bedingung dafür, dass wir überhaupt von einer internalisierten Norm sprechen können. Wenn sich bestimmte Leute nicht an Wahlen beteiligen, dann gehen wir davon aus, dass diese Leute eben keine internalisierte Wahlnorm besitzen. Der ursprüngliche Satz reduziert sich also auf die triviale Tautologie "Leute, die sich besonders häufig an Wahlen beteiligen, beteiligen sich besonders häufig an Wahlen." Nur dann, wenn wir das Konzept der Wahlnorm auf eine Weise sinnvoll definieren könnten, ohne dass ihre Internalisierung notwendig auch eine Tendenz zu ihrer Umsetzung beinhaltet, nur dann wäre der obige Satz synthetisch und damit empirisch sinnvoll.
2. "Lösung": logischer Zirkel
Experte: Definition und Zirkelschluss Trotz seiner so offensichtlichen Unangemessenheit ist der Zirkelschluss in der wissenschaftlichen Forschung verbreiteter ist, als man vermuten möchte. Dies ist deshalb der Fall, da die Zirkularität nicht immer ohne weiteres erkannt werden kann. Dies soll an einem Beispiel illustriert werden: Alle Planeten bewegen sich auf ellipsenförmigen Bahnen um die Sonne. Mars ist ein Planet. ___________________________________________________________ Mars bewegt sich auf einer ellipsenförmigen Bahn um die Sonne.
Die Prämissen bestehen aus einer gesetzesmäßigen Aussage, dem so genannten 'ersten Kepler'schen Gesetz', und einer Tatsachenaussage über Mars, einer Randbedingung. Daraus können wir die Form der Umlaufbahn von Mars ableiten. Durch diese Ableitung, d.h.
gress
72
Kapitel 6 Beweis, Erklärung und Prognose
unsere Erkenntnis, dass es sich bei der Form der Umlaufbahn von Mars um einen Spezialfall eines allgemeingültigen Gesetzes handelt, 'vertieft' sich unser Bewusstsein der abgeleiteten Aussage. Das ist es unter anderem, was wir damit meinen, wenn wir die abgeleitete Aussage durch das Gesetz als 'erklärt' betrachten. Doch inwiefern ist dies tatsächlich der Fall? Das Problem wird schnell offensichtlich, wenn wir uns klarzumachen versuchen, was wir unter dem Begriff 'Planet' verstehen wollen. Am einfachsten ist es, den Begriff extensional zu definieren, indem wir einer Klasse, die aus den Elementen 'Merkur', 'Venus', 'Erde', 'Mars', 'Jupiter', 'Saturn', 'Uranus', 'Neptun' und 'Pluto' besteht, den Namen 'Planeten' geben. Dann besagt das Gesetz, dass die Elemente der Klasse alle eine bestimmte Eigenschaft teilen. Das gilt natürlich auch für ein spezifisches Element der Klasse wie Mars. Es handelt sich bei dieser Ableitung zwar um keinen Zirkelschluss, aber um eine doch sehr banale Angelegenheit, die kaum ein weitergehendes Interesse verdient. Die Extension eines Begriffs wird jedoch üblicherweise durch seine Intension erst gebildet. Als Definition von Planeten im Lexikon werden wir daher vor einer reinen Aufzählung in der Regel eine Aussage ungefähr der Art 'Himmelskörper, die sich nach dem ersten Keplerschen Gesetz in einer ellipsenförmigen Umlaufbahn um die Sonne bewegen' finden. Wenn der Begriff 'Planet' aufgrund des Umlaufbahnkriteriums erst gebildet wird, dann handelt es sich bei dem Gesetz natürlich um eine Tautologie und bei der Schlussfolgerung jetzt tatsächlich um einen Zirkelschluss, da aus der Konklusion "Mars bewegt sich auf einer ellipsenförmigen Bahn um die Sonne" überhaupt erst die Gültigkeit der Randbedingung "Mars ist ein Planet" folgt. Doch mit Sicherheit handelt es sich beim ersten Keplerschen Gesetz um alles andere als eine Banalität, sondern um eine im Wortsinn welterschütternde Erkenntnis. Wodurch kommt dieser scheinbare Widerspruch zustande? Die Lösung besteht darin, dass es eine intensionale Bedeutung des Begriffs 'Planeten' gab, die 'vorkeplerisch', 'vorkopernikanisch', ja sogar 'vorptolemäisch' war. Selbst für die Frühmenschen müssen die Himmelskörper zuerst einmal in die – zumindest in Kinderliedern auch heute noch übliche – Trias 'Sonne, Mond und Sterne' zerfallen sein. Sonne und Mond unterscheiden sich aufgrund von Helligkeit und Größe so eindeutig von allen anderen Himmelskörpern, dass ihnen eine individuelle Bedeutung, d.h. in der Regel als Gottheit, zugeschrieben wurde. Alle anderen Himmelskörper waren in erster Linie Lichtpunkte, die wir der Einfachheit halber als 'Sterne' bezeichnen wollen. Zumindest aber schon den Babyloniern war klar, dass es unter diesen Sternen eine Mehrheit gab, deren relative Position zueinander gleich blieb, die 'Fixsterne', aber auch einige wenige, deren relative Position sich am sonst so stetigen 'Firmament' ständig änderte. Der Begriff 'Planeten' stammt aus dem Griechischen und bedeutet 'die Umherschweifenden', womit dieses seltsame Phänomen bestimmter Himmelskörper treffend beschrieben wurde. Auf die gleiche Eigenschaft bezieht sich der im Deutschen übliche historische Begriff für Planeten, 'Wandelsterne'. So wirr diese Bewegungen zuerst auch scheinen mochten, weshalb sie als Willkürakte bestimmter Gottheiten gedeutet wurden, sobald mehrjährige Aufzeichnungen über ihre Bahn vorlagen, offenbarte sich eine überraschende Regelmäßigkeit und Periodizität der Vorgänge. Insofern handelte es sich bei den Planetenbahnen um ein Phänomen, das der täglichen Wiederkehr der Sonne ähnlich war. Die nahe liegende Lösung bestand darin, diese wiederkehrende Erscheinung durch eine kreisförmige Bewegung um die Erde zu erklären. Ebenso nahe liegend war es, die Erde als Fixpunkt anzunehmen, da dies ja der unmittelbaren Wahrnehmung entsprach. Geozentrisches Weltbild sowie kreisförmige Umlaufbahnen müssen als der 'natürliche' Ausgangspunkt jeglicher Astronomie betrachtet werden. Von Aristoteles wurde diese Anschauung mit Argumenten, die auf seiner Metaphysik beruhten, philosophisch untermauert. Das ptolemäische Modell ging darüber schon weit hinaus, da es bestimmte Beobachtungen, die mit diesem Basismodell nicht zu erklären waren, durch Modifikationen des Modells aufzufangen versuchte, nämlich durch die Einführung des Exzenters und der sogenannten Epizykeln. Um 'die Phänomene zu retten' – im speziellen Fall unterschiedliche Bewegungsgeschwindigkeiten und Helligkeit der Planeten – war Ptolemäus gezwungen, als Zentrum der Bewegungen eben nicht die Erde, sondern einen davon abweichenden Punkt anzunehmen. Bei Epizykeln handelt es sich um in Kreisbahnen eingeschriebene Kreisbahnen, wie sie z.B. auch durch Spirographen erzeugt werden, die wiederum die
Kapitel 6 Beweis, Erklärung und Prognose
73
Beobachtungen erklären sollten, dass sich manche Planeten in gewissen Abschnitten ihrer Umlaufbahn vor und zurück bewegten. Entscheidend ist, dass es im Sinne dieser 'umherschweifenden' Bewegungen eine historische Begründung des Begriffs der Klasse der Planeten gab, die nicht auf die Umlaufbahnen bezogen war, so dass das Keplersche Gesetz in diesem Sinn tatsächlich als eine neue Erkenntnis gedeutet werden kann. Allerdings kann dieser historische Planetenbegriff streng genommen nur auf die fünf in der Antike bekannten Planeten, Merkur, Venus, Mars, Jupiter und Saturn angewandt werden und – wesentlich gravierender –nicht auf die Erde. Die Einbeziehung der Erde zur Klasse der Planeten setzt einerseits schon ein heliozentrisches Weltbild voraus und gleichzeitig eine Definition des Begriffs 'Planet' aufgrund der Umlaufbahn. Im gleichen Maße, wie sich die Definition von 'Planet' aus ihrem historischen Umfeld löste und der modernen Erkenntnis von Kepler näherte, wandelte sich das Keplersche Gesetz von einer substantiellen Erkenntnis zu einer Tautologie. Es gibt sogar Wissenschaftstheoretiker wie Poincaré, die der Ansicht sind, dass Naturgesetze immer Tautologien darstellen. Wichtig ist, dass zum Zeitpunkt der Formulierung des Gesetzes eine Definition der Klasse der Objekte, auf die sich die Aussage bezieht, unabhängig von der gesetzesmäßigen Aussage selbst existiert. Diese 'unabhängige' Definition kann dabei oft in einer unzulänglichen oder sogar falschen Annahme über das Wesen der Objekte bestehen.
Ende Experte Der dritte Weg im Münchhausen-Trilemma, das Begründungsproblem zu lösen, besteht im Abbruch des Verfahrens durch Bezugnahme auf ein Dogma. Die Prämissen werden dann als nicht weiter begründungsbedürftig dargestellt, oder die Gültigkeit der Prämissen wird auf eine andere Form der Begründung als durch Deduktion zurückgeführt. Ein Beispiel für den Abbruch des Begründungsproblems durch Rekurs auf selbstevidente Axiome haben wir schon im Zusammenhang mit dem formalen Beweis kennen gelernt. Im Fall von empirischen Erklärungsschemata treten zwei Arten des Abbruchs auf, je nachdem, ob sich die Evidenz des nicht weiter begründeten Satzes auf einen besonderen oder allgemeinen Satz bezieht. Zur Letztbegründung von Beobachtungsaussagen (besonderen Sätzen) wird oft die Erfahrung selbst herangezogen. Dies ist die Position von klassischen Empiristen wie Bacon, Hume oder Locke bis hin zu den Positivisten aus dem Umfeld des Wiener Kreises um Rudolf Carnap oder auch eines Realisten wie Bertrand Russell. Problematisch jedoch auch aus der Sicht der Empiristen bleibt die Begründung von gesetzesartigen Aussagen (allgemeinen Sätzen). Dies stellt das so genannte Induktionsproblem dar, das im nächsten Kapitel eingehender erläutert wird.
6.3
3. "Lösung": dogmatischer Abbruch
Prognose
Der Wert einer wissenschaftlichen Theorie wird an ihrer Erklärungskraft gemessen, d.h. an dem Umfang der beobachtbaren Phänomene, die aus der Theorie abgeleitet und somit aus dieser erklärt werden können. Die Beobachtung der periodischen Wiederkehr bestimmter Himmelskörper z.B. kann mit einer Theorie, in der sich die Planeten auf einer elliptischen Umlaufbahn befinden, erklärt werden. Aber genauso ist dies mit einer Theorie kreisförmiger Planetenbahnen möglich. Diese – wörtlich zu nehmende – Vieldeutigkeit der Phänomene zieht eine entspre-
Prognosefähigkeit als Gütekriterium einer wissenschaftlichen Theorie
74
Kapitel 6 Beweis, Erklärung und Prognose
chende Vielzahl möglicher – d.h. mit den Beobachtungen zu vereinbarender – Theorien nach sich. Da Theorien in der Regel ex post zur Erklärung schon beobachteter Tatsachen gebildet werden, und sich umgekehrt zu jeder Beobachtung immer eine Theorie finden lässt, mit der diese erklärt werden kann, ist allein die Fähigkeit einer Theorie, bestimmte Phänomene erklären zu können, offensichtlich noch kein besonders gutes Indiz für ihren wissenschaftlichen Wert. Ein weiteres wichtiges Kriterium zur Beurteilung der Güte einer Theorie stellt daher ihre Fähigkeit dar, die Formulierung von Prognosen zu erlauben. Die formale Struktur der Prognose entspricht der schon vom Beweis und der Erklärung her bekannten des allgemeinen Schlussschemas. Während bei der Erklärung die Konklusion eine schon gemachte Beobachtung ist, zu deren Erklärung die Prämissen herangezogen werden, stellt die Konklusion bei der Prognose eine zukünftige, noch zu machende Beobachtung dar, die aufgrund der in den Prämissen festgelegten Randbedingungen und Gesetze zu erwarten ist. So konnten z.B. Adams und Le Verrier aufgrund der Beobachtung bestimmter 'Störungen' in den Planetenbahnen von Jupiter, Saturn und Uranus und der Annahme der Gültigkeit des Newtonschen Gravitationsgesetzes voraussagen, dass diese Abweichungen durch einen noch unbekannten Planeten verursacht sein mussten. Darüber hinaus konnten sie sogar Angaben machen, an welcher Stelle sich dieser Planet ungefähr befinden müsste. Diese Prognose wurde am 23. September 1846 von Galle und d'Arrest durch die Entdeckung des Neptun bestätigt. Da Prognosen durch ihre Zukunftsbezogenheit nie mit dem Makel der Ex-Post-Rationalisierung belegt sind, gelten sie als besonders gewichtige Argumente für die Akzeptanz einer Theorie. Schwierigkeit der Formulierung von Prognosen in den Sozialwissenschaften
Allerdings ist es gerade in den Sozialwissenschaften sehr schwierig, auf der Basis bekannter Kausalzusammenhänge eindeutige deterministische Prognosen zu formulieren. Dies liegt zum einen daran, dass der Forschungsgegenstand der Sozialwissenschaften – Gesellschaft, Staat und soziale Interaktion – wesentlich kurzfristigeren Veränderungen unterliegt als etwa der Forschungsgegenstand der klassischen Physik. Zum anderen sind die meisten sozialen Phänomene in ihren Wirkungszusammenhängen sehr komplex, multikausal und interdependent. Daher ist es selten möglich, soziale Gesetze desselben Allgemeinheitsgrades zu formulieren, wie dies etwa für die Gesetze der Mechanik oder der Astronomie der Fall ist. Die Schwierigkeiten der Wahlforscher und Umfrageinstitute, Wahlergebnisse einigermaßen präzise vorauszusagen, illustrieren die Veränderungsanfälligkeit sozialwissenschaftlicher Prognosen nachdrücklich. So gelten Regelmäßigkeiten wie die sozialstrukturelle Prägung der Wahlentscheidung, die in den 40er-Jahren von Wahlforschern an der University of Columbia entdeckt wurden, heute nur noch eingeschränkt, da sich die Sozialstruktur der Gesellschaft stark verändert hat. Und die Komplexität und Multikausalität sozialer Phänomene zeigt sich beispielsweise an der Unfähigkeit aller Revolutionsforscher, die 'Revolution' des Volkes in der DDR vorherzusagen, die letztlich zur Wiedervereinigung des geteilten Deutschlands führte. Selbst diejenigen 'Gesetze' der Politikwissenschaft, die als weitgehend bestätigt gelten, wie die auf Kant zurückgehende Theorie, dass Demokratien gegeneinander keine Kriege führen oder die 'Cleavage-Theorie' von Lipset und
Kapitel 6 Beweis, Erklärung und Prognose
75
Rokkan (Lipset / Rokkan 1967) erlauben es allenfalls, Ereignisse, Zustände und Entwicklungen der Gegenwart und Vergangenheit zu erklären. So zeigt sich im Rückblick, dass in der Tat die meisten Länder, die heute als Demokratien westlicher Prägung eingeordnet werden, keine Angriffskriege gegeneinander führen. Ähnlich erscheint die Entstehung der Partei der 'GRÜNEN' als eine Bestätigung der Cleavage-Theorie, da sie als Reaktion auf eine neue Konfliktlinie in der Gesellschaft interpretiert werden kann, die sich zwischen Materialisten und Postmaterialisten ergeben hat. Eindeutige Prognosen über Kriegsentscheidungen demokratischer Staaten oder die Entstehung neuer Parteien erlauben diese Theorien jedoch nicht. Da sozialwissenschaftliche Gesetze und Theorien selten deterministische Aussagen erlauben, ist die übliche Form der sozialwissenschaftlichen Prognose die probabilistische Prognose, die vorhersagt, dass bestimmte Ereignisse mit einer gewissen Wahrscheinlichkeit eintreffen werden. Solche Prognosen können durch die Realität nicht direkt bewiesen oder widerlegt werden, die relative Häufigkeit des Eintreffens bestimmter Ereignisse erlaubt aber in der langfristigen Betrachtung, solche probabilistischen Theorien und Gesetze als mehr oder minder gut bestätigt anzusehen. Der Umgang mit probabilistischen Hypothesen wird ausführlich in Kapitel 9 vorgestellt.
Daher Übergang von deterministischen zu probabilistischen Prognosen
76
Kapitel 7 Induktive Logik und das Induktionsproblem
7 Induktionsproblem als zentrales Problem der empirischen Wissenschaft
Das Hauptproblem der empirischen Wissenschaft besteht im Finden allgemeiner Sätze, gesetzesähnlicher Aussagen, die nur aufgrund der Beobachtungen von einzelnen Tatsachen ermittelt werden können. Ein Verfahren, das diesen 'Schluss' von besonderen Sätzen auf einen allgemeinen Satz beschreibt, wird als Induktionsprinzip bezeichnet, der Schluss selbst als Induktion. Die Regeln des Schließens sind Gegenstand der induktiven Logik.
7.1 Das wissenschaftliche Programm Francis Bacons
Induktionsverfahren nach Bacon
Induktive Logik und das Induktionsproblem
Die induktive Logik Bacons und Mills
Francis Bacon7 muss das Verdienst zugeschrieben werden, als erster das Induktionsprinzip in einer modernen Fassung formuliert zu haben. Auch wenn eines der Hauptwerke Bacons in Anlehnung an Aristoteles 'Novum Organon' heißt, sein Anliegen war nicht die Entwicklung einer neuen (deduktiven) Logik, sondern einer (induktiven) 'Logik' der wissenschaftlichen Entdeckung. Bacons Programm war nicht philosophischer Art, sondern ein gesellschaftspolitisches. Es ging darum, die von Gott in der Bibel in Aussicht gestellte Herrschaft des Menschen über die Natur Wirklichkeit werden zu lassen. Es geht um den Einsatz wissenschaftlicher Erkenntnis zu ihrer technischen Anwendung zur Mehrung des Fortschritts zum Wohle der Menschheit. In dieser Sichtweise liegt das Moderne und Bahnbrechende Bacons8. Das geeignete Mittel, dieses hehre Prinzip zu erreichen, sah Bacon in seinem Verfahren der Induktion. Nach diesem Verfahren werden zunächst Beobachtungsdaten gesammelt, die auf 'Tafeln' festgehalten werden. Die Beobachtungen auf den Tafeln werden dann in drei Gruppen unterteilt: Die erste Tafel enthält alle Beobachtungen, bei denen das Phänomen, das erklärt werden soll, tatsächlich auftritt, sowie die dabei auftretenden Bedingungen. Die zweite Tafel enthält die Fälle, in denen ähnliche oder gleiche Bedingungen vorliegen, das Phänomen aber nicht
7
Bacon lebte von 1561 bis 1626. Er stammte aus einer politisch einflussreichen Familie, sein Vater war Großsiegelbewahrer. Im Alter von 23 wurde er Berater von Essex, dem Günstling der Königin. Als Essex des Hochverrats beschuldigt wurde, wechselte er allerdings die Partei. 1617, zur Zeit Jacobs I, wurde Bacon selbst Großsiegelbewahrer, 1618 sogar Lordkanzler. Schon zwei Jahre später wurde er der Bestechung angeklagt und verurteilt und "war gezwungen, sich aus dem öffentlichen Leben zurückzuziehen und den Rest seiner Tage damit zu verbringen, bedeutende Bücher zu schreiben" (Russell 1988: 551). Ironischerweise wurde Bacon ein Opfer seiner eigenen Experimentierlust: Er starb bei einem Kälteexperiment mit einem Huhn, das er mit Eis ausstopfte. Dabei holte er sich eine für ihn tödlich verlaufende Erkältung.
8
Die erste formale Wissenschaftsorganisation der westlichen Zivilisation, die 1660 gegründete Royal Society, war bei ihrer Gründung stark von Bacon beeinflusst. Ganz im Sinne seines wissenschaftlichen Programms hatte sie sich dem Ziel des systematischen Wissenserwerbs verschrieben. War ihr Name in der ihr 1662 von Charles II verliehenen "Charter of incorporation" noch einfach "The Royal Society", so erweiterte sie den Namen in ihrer zweiten Charter von 1663 zu "The Royal Society of London for promoting Natural Knowledge". Durch die Charter von 1662 war die Royal Society die erste verfasste Körperschaft in der Geschichte, deren Aufgabe explizit in der Forschung lag.
Kapitel 7 Induktive Logik und das Induktionsproblem
77
auftritt. Die dritte Tafel wiederum enthält die Fälle, in denen das Phänomen und die Bedingungen in verschiedenen Graden vorliegen. Da es sehr aufwendig und zeitraubend ist, lediglich solche Beobachtungsdaten zu sammeln, die einem sozusagen auf 'natürliche' Weise in den Schoß fallen, müssen die Beobachtungen darüber hinaus künstlich erzeugt werden. Bacon ist vermutlich der erste neuzeitliche Denker, der ein ausgeklügeltes experimentelles Design beschreibt. Induktion und Experiment sind für Bacon im Grunde nur zwei verschiedene Seiten derselben Medaille9. Aus den durch das Experiment gewonnenen Daten soll nun durch die eigentliche Induktion die Beziehung zwischen dem Phänomen, der interessierenden 'Eigenschaft', und den vorliegenden Bedingungen, den 'Bestimmungen', herausdestilliert werden. "Erstes Anliegen der wahren Induktion zur Erforschung der Formen ist, alle Bestimmungen zurückzuweisen oder auszuschließen, die in den Fällen fehlen, wo die betreffende Eigenschaft vorhanden ist, oder die noch da sind, obwohl die Eigenschaft fehlt. Dahin gehören auch die Fälle, wo die Bestimmung zunimmt, während die gegebene Eigenschaft abnimmt oder umgekehrt. Ist so das Zurückweisen und Ausschließen Schritt für Schritt geschehen, wird an zweiter Stelle, gleichsam als fester Grund, die bejahende, wahre und scharf umrissene Form zurückbleiben, während die flüchtigen Meinungen in Rauch aufgegangen sind." (Bacon 1990: 351). Wir können uns das Prinzip folgendermaßen veranschaulichen. Tabelle 7.1: Induktionsprinzip nach Bacon Bestimmungen
interessierende Eigenschaft
B1:
a
b
c
d
B2:
a
b
c
d
B3:
a
b
c
d
a
d
Die Beobachtung B1 sagt aus, dass die Eigenschaft d auftritt und gleichzeitig die 'Bestimmungen' a, b und c vorliegen. Da die Eigenschaft d auch in der zweiten Beobachtung festzustellen ist, obwohl die Bedingung b dort nicht vorliegt, kann b nicht die Ursache von d sein. Ebenfalls wird durch die dritte Beobachtung ausgeschlossen, dass c die Ursache von d sein kann, da c zwar vorliegt, aber d nicht.
9
Da sich Bacon bei der Beschreibung seines Designs – aus heutiger Sicht unglücklicherweise – auf chemische, um nicht zu sagen alchemistische, Vorgänge bezieht, sind seine Beispiele nicht nur umständlicher und weniger überzeugend, als es Beispiele aus der Astronomie und der Mechanik wären, sondern sie schließen damit leider genau diejenigen Wissensgebiete aus, auf denen die wichtigsten Entdeckungen seiner Zeit gemacht wurden.
78
Kapitel 7 Induktive Logik und das Induktionsproblem
Daraus wäre nach Bacon nun zu schließen, dass nur a die Ursache von d sein kann, ja, dass a die Ursache von d sein muss. Induktionsverfahren nach Mill
Methode der Übereinstimmung bei Vorliegen einer Bedingung
Bacons einfaches Design wurde wesentlich verfeinert und präzisiert durch John Stuart Mill. In seinem 'System of Logic' (1995) stellt Mill ebenfalls mehrere experimentelle Anordnungen vor, die einen induktiven Schluss erlauben sollen. Insbesondere drei davon sollen hier herausgegriffen und kurz erläutert werden, die so genannte 'Methode der Übereinstimmung', die 'Umgekehrte Methode der Übereinstimmung' und die 'Methode der Differenz'. Die 'Methode der Übereinstimmung' behauptet, dass wenn ein bestimmtes Phänomen unter mehreren Bündeln von Bedingungen auftritt, aber nur eine Bedingung in jedem dieser Bündel vorhanden ist, dann diese Bedingung die Ursache des beobachteten Phänomens darstellen muss. Tabelle 7.2: Methode der Übereinstimmung (Vorliegen einer Bedingung) Bestimmungen
interessierende Eigenschaft
B1:
a
b
c
d
B2:
a
b
c
d
a
d
Durch die Methode der Übereinstimmung können notwendige Bedingungen ausgeschlossen werden. Wenn d der Fall sein kann, ohne dass b und c vorliegen, wie in der zweiten Beobachtung in Tabelle 7.2, dann können beide keine notwendige Bedingung des Vorliegens von d sein. Jede Bedingung, die in irgendwelchen Beobachtungen nicht vorliegt, obwohl d vorliegt, kann als notwendige Bedingung von d ausgeschlossen werden. Beispiel: Meisterdetektiv (I) Man kann sich die Methode der Übereinstimmung am Vorgehen eines Meisterdetektivs veranschaulichen, der auf ähnliche Weise den Kreis der Verdächtigen in einem Mordfall einengt. Nach der Erfahrung unseres Meisterdetektivs sind Motiv und Gelegenheit notwendige Bedingungen, dieses Verbrechen zu verüben. Wenn für bestimmte Personen definitiv ausgeschlossen werden kann, dass sie sowohl Motiv als auch Gelegenheit hatten, also wenn bei ihnen nur eine der beiden Bedingungen nicht gegeben ist, dann kommen sie als Täter nicht mehr in Frage. Auf diese Weise kann der Kreis der Verdächtigen eingeschränkt werden. Da häufig mehrere Personen übrig bleiben, die sowohl ein Motiv als auch eine Gelegenheit gehabt hätten, führt diese Methode zwar nicht zu einem eindeutigen Ergebnis, sie hilft aber, die Anzahl der Verdächtigen zu reduzieren.
Ende Beispiel
Kapitel 7 Induktive Logik und das Induktionsproblem
79
Ein Mangel der originalen Mill'schen Analyse besteht darin, dass er sich nur auf die 'positive' Ausprägung von Eigenschaften bezieht. Tatsächlich aber kann die Abwesenheit einer Bedingung genauso für das Eintreten eines Ereignisses notwendig oder hinreichend sein. Es ist zum Beispiel eine notwendige Bedingung, um Präsident der Vereinigten Staaten zu werden, dass man nicht während des Wahlkampfs ermordet wird. Ähnlich ist es eine hinreichende Bedingung, um zu vermeiden, jemals Opfer eines Flugzeugabsturzes zu werden, einfach nie ein Flugzeug zu besteigen. Dies wird im folgenden Beispiel in Tabelle 7.3 deutlich. Möglicherweise ist f eine notwendige Bedingung für das Zustandekommen von d. Damit wäre dann f eine hinreichende Bedingung für das Nicht-Vorhandensein von d. Indirekt lässt sich in unserem Beispiel auf diese Weise erschließen, dass auch f und a keine notwendigen Bedingungen von d sein können.
Methode der Übereinstimmung bei Fehlen einer Bedingung
Tabelle 7.3: Methode der Übereinstimmung (Fehlen einer Bedingung) Bestimmungen
interessierende Eigenschaft
B1:
a
b
f
d
B2:
a
b
f
d
f
d
a
Beispiel: Meisterdetektiv (II) Wir wollen dies näher erläutern, indem wir noch einmal auf unser Bild des Meisterdetektivs zurückkommen. Wenn der Meisterdetektiv nicht gerade zuviel Oscar Wilde gelesen hat, dann geht er davon aus, dass man niemanden tötet, den man liebt. Die Liebe zu einem Menschen wird allgemein als hinreichender Grund angesehen, seinen Tod nicht zu wünschen. Die Menschen, die das Opfer geliebt haben, können somit aus dem Kreis der Verdächtigen gestrichen werden. Der Mörder kann das Opfer nicht geliebt haben, da er es sonst nicht umgebracht hätte, die Abwesenheit von Liebe zum Opfer ist eine notwendige Bedingung, um einen Mord zu begehen. (Literaturkenner merken, dass wir hier mehr der konventionellen englischen Tradition des Kriminalromans folgen. Komplexere psychologische Konstellationen, wie sie bei dem Mord aus Leidenschaft oder Verzweiflung auftreten, wollen wir hier beiseite lassen.)
Ende Beispiel Auf analoge Weise, wie bei der Methode der Übereinstimmung notwendige Bedingungen ausgeschlossen werden, können mit der umgekehrten Methode der Übereinstimmung hinreichende Bedingungen ausgeschlossen werden.
Umgekehrte Methode der Übereinstimmung
80
Kapitel 7 Induktive Logik und das Induktionsproblem
Tabelle 7.4: Umgekehrte Methode der Übereinstimmung Bestimmungen
interessierende Eigenschaft
B1:
a
b
c
d
B2:
a
b
c
d
B3:
a
b
c
d
b
d
Jede Bedingung, die vorliegt, obwohl d nicht eintritt, kann keine hinreichende Bedingung für d sein. Durch die zweite Beobachtung in Tabelle 7.4 fällt damit a, durch die dritte Beobachtung fällt c als potenziell hinreichender Grund für das Eintreten von d aus. Ebenfalls fallen durch die erste Beobachtung a und c als hinreichende Bedingung für d aus. Durch alle drei Beobachtungen wird zudem b als möglicher hinreichender Grund für das Eintreten von d eliminiert. Als einziger womöglich hinreichender Grund verbleibt demnach b. Methode der Differenz
Die wichtigste, weil aufschlussreichste, Methode bestand für Mill in der 'Methode der Differenz'. In ihr geht es um den Vergleich zweier Beobachtungen, bei denen jeweils nahezu identische Bündel von Bedingungen vorliegen, die sich nur in einer einzigen Bedingung unterscheiden. Tritt das kritische Phänomen in der einen Beobachtung auf und nicht in der anderen, so muss die Bedingung, die sich als einzige ändert, auch für den Wechsel des Zustands der kritischen Eigenschaft verantwortlich sein. Tabelle 7.5. Methode der Differenz Bestimmungen
interessierende Eigenschaft
B1:
a
b
c
d
B2:
a
b
c
d
a
d
Mit der Methode der Differenz kann in unserem Beispiel allerdings nicht zuverlässig ausgeschlossen werden, dass b oder (auch) c durchaus notwendige Bedingungen für d sein können. Ebenfalls möglich ist darüber hinaus, dass b oder c hinreichende Bedingungen für d sein könnten. Nehmen wir an, d kennzeichne die Entscheidung, an einer Wahl teilzunehmen. a sei schönes Wetter, b sei die Abwesenheit attraktiver Kandidaten und c die Abwesenheit eines attraktiven Programms. Danach behauptet die Beobachtung B1, dass eine Person bei schönem
Kapitel 7 Induktive Logik und das Induktionsproblem
81
Wetter wählen geht, auch wenn Kandidaten und Programm der Parteien schlecht sind. Ist allerdings auch noch das Wetter schlecht (B2), sinkt die Bereitschaft des potenziellen Wählers, sich überhaupt noch die Mühe zu machen, zum Wahllokal zu gehen, und er bleibt zu Hause. Wären aber z.B. attraktive Kandidaten aufgestellt (b), dann würde dies allein den Wähler schon genügend motivieren, unabhängig von Wetter und Programm der Parteien, zur Wahl zu gehen und seine Stimme abzugeben. Die von Bacon und Mill beschriebenen Designs entsprechen vermutlich im Wesentlichen vielen historischen experimentellen oder 'quasi-experimentellen' Anordnungen, aber die gezogenen Schlüsse sind in keinem Fall zwingend. Die beschriebenen Anordnungen haben schwerwiegende logische Mängel. Sowohl Bacon als auch Mill gehen bei ihrer Methode der Induktion davon aus, dass es möglich ist, alle Bestimmungsfaktoren, die eventuell für das Auftreten des Phänomens bedeutend sein könnten, zu erfassen. D.h., es wird suggeriert, dass die von Bacon aufgestellten Tabellen vollständig sind in dem Sinn, dass sie zumindest alle Daten enthalten, die für einen Schluss notwendig sind. Daher sind beide Verfahren auch Ausschlussverfahren, die die richtige Lösung durch den Ausschluss logisch nicht möglicher Lösungen finden. Diese Vollständigkeit kann aber nur konstatiert und nie bewiesen werden.
Logische Mängel der Ver-
Des Weiteren wird davon ausgegangen, dass diese verschiedenen potenziellen oder tatsächlichen Ursachen voneinander unabhängig ihre Wirkung auf das Phänomen ausüben, der Einfluss jeder Ursache lässt sich vom Einfluss anderer Faktoren isolieren und für sich allein beschreiben. Welche falschen Schlüsse daraus entstehen, lässt sich leicht zeigen, wenn man an das ursprüngliche Schema, das Bacons Induktionsprinzip veranschaulichen sollte, eine vierte Beobachtung hinzufügt.
Nicht zulässige Annahme
Tabelle 7.6: Erweitertes Beobachtungsschema Bestimmungen
interessierende Eigenschaft
B1:
a
b
c
d
B2:
a
b
c
d
B3:
a
b
c
d
B4:
a
b
c
d d
Durch die vierte Beobachtungsaussage wird deutlich, dass unser zuerst gefasster Schluss nicht richtig sein kann, da a in der vierten Beobachtung vorliegt, ohne dass d eintritt. Entweder gibt es eine weitere Bedingung, die d verursacht, die wir
fahren:
Keine vollständige Erfassung aller möglichen Bestimmungsfaktoren
der Unabhängigkeit der einzelnen Faktoren
82
Kapitel 7 Induktive Logik und das Induktionsproblem
in unser Beobachtungsschema aber nicht aufgenommen haben, oder d wird durch eine komplexe Beziehung von Bedingungen hervorgerufen. Für keinen einzelnen Bestimmungsfaktor können wir nach der Methode der Differenz ein Muster der Veränderungen erkennen, das sich gleichsinnig zum Muster der Veränderungen von d verhält. Nach den vorliegenden Beobachtungsdaten ist es allerdings möglich, dass a und c zusammen, d.h. wenn sie gemeinsam vorliegen, d verursachen können. Kausalprinzip
Die wichtigste und stillschweigende Voraussetzung dafür, notwendige oder hinreichende Bedingungen für d erkennen zu wollen, ist jedoch die, dass d überhaupt verursacht sein muss, eine Annahme, die man als Kausalprinzip bezeichnen kann. Diese Annahme behauptet, dass nichts geschieht, ohne dass es Gründe dafür gibt. Wenn d tatsächlich gilt, so muss es Ursachen dafür geben, warum dies der Fall ist und nicht das Gegenteil d. Ohne Annahme dieses Kausalprinzips wäre die 'Methode der Übereinstimmung' ohne jeglichen Aussagewert, denn d könnte dann ja 'grundlos' vorliegen.
Verfahren sind zwar
Das Bacon'sche und das Mill'sche Induktionsprinzip sollten jedoch nicht über Maßen kritisch begutachtet werden. Auch wenn sie unvollständig, also nur unter bestimmten zusätzlichen Bedingungen anzuwenden sind, so ist es doch auch Tatsache, dass diese Bedingungen in vielen klassischen Experimenten vorgelegen haben, auch wenn es den Experimentatoren selbst nicht bewusst war. Dies liegt an der besonders 'einfachen' Struktur vieler naturwissenschaftlicher Gesetze, insbesondere der Mechanik. Je komplexer jedoch die Struktur der relevanten Zusammenhänge wird, und das ist üblicherweise in den Sozialwissenschaften der Fall, desto schwerwiegender werden die Mängel des Designs. Das Design ist aber sehr wohl in der Lage, zwischen alternativen Theorien zu entscheiden, wenn eine von ihnen wahr sein muss und nur eine von ihnen wahr sein kann. Solange es um den Ausschluss notwendiger und hinreichender Bedingungen geht, ist auch die 'induktive' Logik vom Wesen her deduktiv. Dies ist jedoch nur ein Bestandteil des induktiven Vorgehens bei Bacon und Mill. Wesentlicher ist für sie der zweite Bestandteil der induktiven Logik, bei dem es darum geht, aus einer Menge potenzieller Ursache-Kandidaten die 'wahren' Ursachen herauszufinden. Diesen wird unterstellt, dass sie die kausale Ursache des Auftretens der Eigenschaft seien. Wenn durch systematische Modifikation einer Ausgangsbedingung eine Modifikation einer Beobachtungsgröße hervorgerufen wird, dann muss die erste auf die zweite ursächlich gewirkt haben. Vor allem bei Bacon geht die Sammlung der Daten allem anderen voraus. Die Hypothesen entsteigen den Daten dann gewissermaßen zwangsläufig, wenn man die Methode der Induktion in seinem Sinne anwendet. Bacons Methodismus führt zu Annahmen, Hypothesen, über die Natur, die das Resultat der Forschung darstellen. Die Hypothesen folgen der Forschung zeitlich nach, sie gehen ihr nicht voraus.
unvollständig, aber dennoch nützlich
Kapitel 7 Induktive Logik und das Induktionsproblem
Bacons Induktionsprinzip ist in der Lage, gewisse Faktoren als Ursachen auszuschließen. Die Hypothese über die verbleibende Ursache jedoch beruht immer nur auf einer endlichen Zahl von Beobachtungen. Wenn tatsächlich nur eine endliche Zahl von Hypothesen zur Erklärung der Wirkung zur Verfügung stände und eine nach der anderen ausgeschaltet werden könnte, müsste die letzte verbleibende Hypothese die wahre sein. In Wirklichkeit aber gibt es immer unendlich viele mögliche Hypothesen, die vielleicht nicht sehr plausibel sein mögen, die aber dennoch logisch möglich sind. Die allgemeine Hypothese gründet sich daher bei Bacon nicht wirklich auf den Ausschluss aller anderen Hypothesen, sondern auf die Verallgemeinerung einzelner Beobachtungen. Wenn ein Ereignis der Klasse a in allen beobachteten Fällen ein Ereignis der Klasse b nach sich zieht, ein Ereignis der Klasse c aber nicht, dann kann zwar nur überhaupt ein Ereignis der Klasse a und nicht der Klasse c die Ursache eines Ereignisses der Klasse b sein, aber dies muss nicht der Fall sein. Wir nennen a nur dann eine Ursache von b, wenn jedes Ereignis der Klasse a ein Ereignis der Klasse b nach sich zieht. Diese Induktion ist aber logisch nicht zwingend. Dieser Sachverhalt wird das Induktionsproblem genannt.
7.2
83 Schwierigkeiten des Bacon'schen Verfahrens liegen letztlich im Induktionsproblem begründet
Humes Formulierung des Induktionsproblems
Die scharfsinnigste Formulierung des Induktionsproblems stammt von David Hume (1711-1776), dessen Fassung mehr oder weniger unverändert auch heute noch gilt. Hume ist ein Empiriker reinsten Wassers, alle Vorstellungen ('ideas') können seiner Meinung nach nur aus den Erfahrungen gewonnen werden. Die inhaltliche Verknüpfung solcher Vorstellungen erfolgt bei Hume mit Hilfe von 'Assoziationen', die bewirken, dass bei der Erinnerung der einen Vorstellung auch die Erinnerung der anderen ins Bewusstsein gerufen wird. Diese Assoziationen sind daher ein Mittel, die Konsistenz bzw. innere Kohärenz eines Textes zu gewährleisten. Ohne sie wäre es nicht möglich, auch nur in irgendeiner Weise zusammenhängend zu argumentieren. Drei solcher Assoziationen nennt Hume: Ähnlichkeit, Berührung in Raum und Zeit und die Verknüpfung von Ursache und Wirkung, die Kausalität.
Assoziationen bei David
Nach Hume gibt es keinen inneren Zusammenhang zwischen Ursache und Wirkung. Lediglich ist es möglich, eine regelmäßig auf die gleiche Weise auftretende zeitliche Abfolge des einen Ereignisses nach dem anderen zu konstatieren. Stößt z.B. eine Kugel auf eine zweite ruhende Kugel, so setzt sich diese in Bewegung. Dadurch, dass diese Beobachtung immer wieder und wieder gemacht werden kann, wird diese Wahrnehmung zur Gewohnheit, und wir bilden Erwartungen dahingehend, dass sich diese Abfolge der zwei Ereignisse beim nächsten Mal wieder auf die gleiche Weise ereignen wird. Da wir bisher jeden Tag von neuem beobachten konnten, dass am Morgen die Sonne aufgeht und es hell wird, erwarten wir, dass es auch am nächsten Tag so sein wird. Diese Erwartungshaltung gerinnt schließlich zum Glauben an das Auftreten des zweiten Ereignisses, wenn das erste schon eingetreten ist.
Keine Möglichkeit, Kausalität zu beweisen
Hume
84
Kapitel 7 Induktive Logik und das Induktionsproblem
Die Wirkung ist also nach Hume etwas von ihrer Ursache vollkommen verschiedenes. "Sie kann daher in der Ursache nicht entdeckt werden, und was man sich zuerst a priori von ihr erfindet oder vorstellt, muss gänzlich willkürlich sein." (Hume 1973: 40). Humes Philosophie kann daher leicht als Bankrotterklärung jeglicher systematischer empirischer Wissenschaft verstanden werden und wurde genau so auch häufig verstanden. "Gibt die Ursache an sich keinen Hinweis auf die Wirkung, so dass jedes Aussinnen derselben völlig willkürlich sein muss, dann folgt daraus unmittelbar, dass Wissenschaft unmöglich ist, es sei denn, sie stelle völlig willkürliche Zusammenhänge her, die durch nichts im inneren Wesen der Ursache oder der Wirkung belegt sind. Irgendeine Spielart der Hume'schen Philosophie hat sich bei den Wissenschaftlern im allgemeinen immer durchgesetzt. Aber der wissenschaftliche Glaube war der Situation gewachsen und hat den philosophischen Berg stillschweigend versetzt." (Whitehead 1988: 14) Zwei Interpretationen des Induktionsproblems nach Hume
Es gibt zwei grundsätzliche Interpretationsarten des Hume'schen Problems. Die erste sähe so aus: Der Schluss von besonderen Sätzen, in denen ein Ereignis der Klasse a einem Ereignis der Klasse b vorausging, auf einen allgemeinen Satz, dass jedes Ereignis der Klasse a ein Ereignis der Klasse nach sich zieht, ist nicht möglich, da a nicht wirklich die Ursache sein muss, sondern diese auch ein anderes Ereignis c sein kann, das wir nicht in unsere Beobachtungsdaten aufgenommen haben. In dieser Interpretation gibt es Naturgesetze, aber aufgrund des unvollständigen Beobachtungsdatensatzes lässt sich nicht eindeutig und ein für allemal erkennen, welche Beobachtungsbestandteile die Ursachen der beobachteten Wirkungen sind. Der zweiten Interpretation zufolge gibt es möglicherweise überhaupt keine Gesetze, oder, was gestern noch wie ein Gesetz gewirkt haben mag, kann morgen schon keines mehr sein. Diese Interpretation sagt aus, dass wir aus logischen Gründen die Konstanz und zeitliche Gleichförmigkeit von Naturgesetzen nicht voraussetzen dürfen. Die zweite Interpretation scheint auf den ersten Blick zwar radikaler, ist tatsächlich aber wesentlich unbedeutender. Wenn es keine konstanten Naturgesetze gibt, wenn sich die Natur jeden Tag nach neuen Gestaltungsregeln offenbart, dann besteht überhaupt keine Möglichkeit des Lernens aus unseren Erfahrungen und Wissenschaft im Speziellen ist von vorneherein ein nutzloses Unterfangen, das niemals zu verwertbaren Ergebnissen gelangen kann. Die Annahme der Uniformität der Natur, dass die Zukunft der Vergangenheit ähnlich ist, ist grundlegend für jede noch so primitive Form intentionalen Handelns. Der abweichenden Haltung eines fundamentalen Skeptizismus, der behauptet, dass sicheres Wissen überhaupt unmöglich ist, ist zwar mit logischen Argumenten nicht beizukommen, doch sollte man sich hier einfach auf den gesunden Menschenverstand berufen und – noch einmal ganz im Sinne Bertrand Russells – eine solche Haltung als 'frivol' betrachten.
Kapitel 7 Induktive Logik und das Induktionsproblem
85
Die eigentliche harte Nuss, die Hume der empirischen Wissenschaft zu knacken gegeben hat, ist daher die erste Interpretationsart. Es gibt Naturgesetze und sie führen zu regulären Erscheinungen. Aber nicht jede Beobachtung von Regularitäten ist auf ein Naturgesetz zurückzuführen und es ist logisch nicht möglich, zwischen 'echten' Regularitäten, die auf kausalen Gesetzen beruhen, und zufälligen oder artifiziellen mit hundertprozentiger Sicherheit zu unterscheiden.
7.3
Beschreiben und Erklären oder das Wesen der Kausalität
Welcher Art sind nun die Zusammenhänge zwischen Ursache und Wirkung, wenn die zweite nach Hume nicht aus der ersten hervorgeht, und inwiefern ist dann die Ursache noch eine Erklärung des Auftretens der Wirkung? Beschränkt sich die Aufgabe des Wissenschaftlers dann nicht nur auf die Beschreibung der äußeren, sichtbaren Form des Zusammenhangs, der beobachteten Regularität oder kann man dennoch von einer kausalen Erklärung sprechen? Ich möchte das Problem der Induktion anhand des klassischen Beispiels für induktives Vorgehen überhaupt, der Entdeckung der Planetenbahnen, näher erläutern. Kopernikus' Hauptwerk De Revolutionibus Orbium Coelestium, in dem erstmals in der Neuzeit10 die heliozentrische Idee vertreten wurde, erschien 1543 (Kopernikus ahnte die weitreichenden theologischen Konsequenzen seines Werkes und ließ es daher erst posthum veröffentlichen). Kepler veröffentlichte seine Gesetze über die Planetenbahnen 1609 und 1619, Newton schließlich seine Principia Mathematica 1687. Kopernikus ging noch fälschlich von Kreisbahnen aus, in denen sich die Planeten um die Sonne bewegen, wofür er auf die Annahme von Epizykeln zurückgreifen musste, wie sie auch Ptolemäus verwendet hatte. Da die Anzahl der Kopernikanischen Epizykeln die des Ptolemäischen Weltbildes sogar noch übertraf, ist die Überlegenheit des neuen Weltbildes in der Tat schwer zu erkennen gewesen. Für die Gegner des heliozentrischen Weltbildes gab es keinen logisch zwingend notwendigen Grund, das neue Weltbild anzuerkennen, denn innerhalb ihrer eigenen Argumentation des geozentrischen, ptolemäischen Systems gab es keinen logischen Widerspruch , der sie zur Annahme der neuen Theorie hätte bewegen können. Auch gab es keine objektive Möglichkeit, die eine der beiden Sichtweisen als der anderen überlegen zu erweisen, sie stehen mehr oder weniger gleichberechtigt nebeneinander. Die Annahme der neuen Theorie konnte sich nicht als ein Schritt von der alten weg vollziehen, sondern nur als ein mutiger Sprung.11
10 Heliozentrische Theorien gab es sowohl schon bei den Ägyptern als auch bei den Griechen in der Antike. 11 Kuhn (1976) spricht daher in solchen Zusammenhängen von einem "Paradigmenwechsel".
Beispiel für induktives Vorgehen: Entdeckung der Planetenbahnen
86
Kapitel 7 Induktive Logik und das Induktionsproblem
1609 publizierte Kepler sein erstes Gesetz über die Planetenbahnen, das sich auf die immensen Aufzeichnungen des Tycho von Brahe stützt, und das besagt, dass sich alle Planeten auf einer elliptischen Umlaufbahn um die Sonne bewegen, wobei die Sonne die Position eines der beiden Brennpunkte einnimmt.12 Diese durch die bekannte Theorie geprägte Wahrnehmung ist uns so selbstverständlich geworden, dass es uns daher geradezu absurd erscheint, dass Kepler tatsächlich erst 22 andere Hypothesen über die Form der Planetenbahnen ausprobierte, bevor auf die scheinbar so offensichtliche richtige stieß.13 Der immense Vorteil der Keplerschen Planetenbahnen gegenüber der Epizykelntheorie der Ptolemäer, aber auch des Kopernikus, lag offensichtlich darin, dass damit alle Planetenbahnen mit demselben Typ einer geometrischen Kurve beschrieben werden konnten, sein Sonnensystem war einheitlicher als jedes zuvor konzipierte und daher überschaubarer und ästhetisch ansprechender. Allerdings konnte Kepler keine Erklärung angeben, warum die Bahnen genau dieser geometrischen Funktion entsprachen. Alle Planeten gehorchten der gleichen mathematischen Beziehung, aber über diesen Status der Beschreibung konnte Kepler nicht hinausgelangen. Keplers insgesamt drei Gesetze sind daher rein deskriptiv, sie geben keinen Kausalzusammenhang wieder. Erst 70 Jahre später konnte dieser Zusammenhang – zumindest scheinbar – hergestellt werden. In Newtons Principia Mathematica wurde die Kraft der Massenanziehung zwischen zwei Körpern beschrieben, die man als Gravitation bezeichnet, und die in der Lage ist, die elliptischen Bahnen Keplers zu 'erklären.' Denn, wenn die Anziehungskraft zwischen zwei Körpern genau so wirkt, wie von Newton beschrieben, dann, und nur genau dann wirkt sich die permanente Beschleunigung eines Trabanten, der sich mit einer bestimmten Geschwindigkeit durch das Weltall bewegt, zu seinem Gravitationszentrum so aus, dass er auf eine Umlaufbahn gezwungen wird, die genau einer elliptischen Kurve entspricht. Kausalität als gedankliche Brücke
Inwiefern aber ist die Gravitation tatsächlich eine kausale Ursache der Planetenbahnen, oder, anders ausgedrückt, was meint man damit, wenn man sagt, dass die Kraft der Gravitation auf die Planeten wirkt? Ist durch die bekannte Formel etwas ausgesagt über das Wesen dieser Kraft? Newton selbst hätte dies strikt verneint.14
12 Die Leistung Keplers ist in ihrer Einschätzung oft etwas herablassend behandelt worden. So sagt Russell "Kepler ist ein höchst bemerkenswertes Beispiel dafür, wieviel man allein durch Geduld und ohne besondere Genialität erreichen kann" (Russell 1988: S.539). 13 Charles Sanders Peirce, der früher diesen Suchprozess noch als ein "unbegreifliches Herumtapsen" von einer "irrationalen Hypothese" zur nächsten bezeichnet hatte, sprach später nur noch hochachtungsvoll von dieser Leistung Keplers. "Es ist nun meine wohlbedachte Meinung, dass es das wunderbarste Beispiel induktiven Denkens ist, das ich je gefunden habe" (Peirce 1975: S.86). 14 "Die Benennung: Anziehung, Stoss oder Hinneigung gegen den Mittelpunkt nehme ich ohne Unterschied und unter einander vermischt an, indem ich diese Kräfte nicht im physischen, sondern nur im mathematischen Sinne betrachte (Hervorhebung hinzugefügt). Der Leser möge daher aus Bemerkungen dieser Art nicht schließen, dass ich die Art und Weise der Wirkung oder die physische Ursache erkläre, oder auch dass ich den Mittelpunkten (welche geometrische Punkte sind) wirkliche und physische Kräfte beilege, indem ich sage: die Mittelpunkte ziehen an, oder es finden Mittelpunktskräfte statt" (Newton 1963: 25).
Kapitel 7 Induktive Logik und das Induktionsproblem
87
Auch Newton beschreibt, genau wie Kepler, lediglich mathematische Beziehungen zwischen verschiedenen Größen wie Massen und Entfernungen. Was aber ist dann die Gravitationskraft? Sie ist in gewisser Weise nichts anderes als eine Metapher, eine Art Bild, das benötigt wird, um das zu beschreiben, was die mathematischen Beziehungen bewirkt bzw. hervorruft, sie kann aber selbst nicht direkt erfasst werden. Begriffe wie 'Kraft' sind sozusagen die animistischen kognitiven Atavismen unseres Gehirns, die wir benötigen, um uns eine Vorstellung von der Welt zu machen. Das Beispiel Newtons veranschaulicht die grundsätzliche Beschränkung jeglicher empirischer Kenntnis: Das einzig mögliche Ergebnis empirischer Forschung ist die Beschreibung der äußerlich erfassbaren Beziehungen zwischen Objekten oder Größen. Es ist nur möglich, die Form dieser Beziehungen zu beschreiben, im Idealfall in mathematischen Termini, niemals aber kann der innere Wirkungszusammenhang bis ins Letzte aufgeklärt werden. Allerdings, und das ist das eigentliche Ziel einer auf Gesetzen aufbauenden Wissenschaft, können solche Beschreibungen von Beziehungen auf ein immer allgemeineres Niveau gehoben werden. Keplers Gesetze beschreiben die Beziehung vieler einzelner Messwerte zueinander, indem dadurch alle Messwerte als Punkte auf einer einzigen bestimmten geometrischen Kurve angeordnet werden. Das heißt nichts anderes, als dass jeder einzelne Punkt, ist die Kurve einmal bekannt, daraus 'abgeleitet' werden kann. Damit haben wir das ureigenste Wesen der Induktion erfasst: Eine Vielzahl von einzelnen empirischen Daten wird zu einer allgemeinen abstrakten Form 'verdichtet', aus der theoretisch alle einzelnen Daten 'entstanden' sein könnten, wenn die abstrakte Form sich extern realisiert, bzw. von der sie 'logisch' abgeleitet werden könnten. In diesem Sinne beschreibt Newtons Gravitationsgesetz einen allgemeinen Zusammenhang zwischen den Massen verschiedener Körper, aus dem, zusammen mit dem Trägheitsgesetz, die Kepler'schen Gesetze abgeleitet werden könnten. Das Induktionsproblem könnte also ganz einfach folgendermaßen definiert werden: Finde für eine Anzahl von singulären Sätzen einen allgemeinen Satz, aus dem alle singulären Sätze deduktiv abgeleitet werden können.
Grundsätzliche Beschränkung empirischer Erkenntnis: nur Form, aber nicht Wesen von Beziehungen kann erforscht werden
88
Kapitel 8 Poppers Theorie der Bewährung von wissenschaftlichen Theorien
"Soweit es sich um Wissen handelt, können wir für die Gesamtheit unserer Behauptungen nicht mehr beanspruchen, als dass sie ein umwegreiches aber bequemes System ist, um Erfahrungen mit Erfahrungen zu verknüpfen. Das System als ganzes ist bezüglich Erfahrung unterbestimmt; aber es liefert zu gewissen, gegebenen Erfahrungen gewisse andere als zu erwartende Folgen. Wenn sich solche Voraussagen über Erfahrungen als falsch herausstellen, muß das System irgendwie geändert werden. Aber es bleibt uns große Freiheit in der Wahl, welche Sätze des Systems erhalten bleiben und welche verändert werden sollen." Willard V. O. Quine (1974: 19) "There is a tradition of opposition between adherents of induction and of deduction. In my view it would be just as sensible for the two ends of a worm to quarrel." Alfred North Whitehead15
8 Deduktion oder Induktion? – Ein alter Streit
Poppers Theorie der Bewährung von wissenschaftlichen Theorien
Wie ein erkenntnistheoretisches Schisma zieht sich die Trennung zweier philosophischer Ansätze durch die Jahrhunderte, hier die kontinentaleuropäische Tradition eines Descartes und eines Leibniz, dort die angelsächsische eines Locke und Hume, hier Deduktion, dort Induktion, hier Erkenntnis a priori, dort a posteriori, hier der Rationalismus eines reinen Geistes, dort der ausschließlich auf Sinneswahrnehmungen fußende Empirismus. Beide philosophischen Traditionen lassen sich in ihren unterschiedlichen Konsequenzen in viele Bereiche hinein verfolgen16. In der Praxis war diese Unterscheidung allerdings nie so streng vorhanden, wie man vermuten könnte und wie das Zitat von Whitehead untermauert. Ein Rationalist wie Descartes verfolgte mit regem Interesse die Ergebnisse seiner empirisch und experimentell forschenden Kollegen, ein 'Induktionist' wie Kepler verhielt sich bei der Ablehnung seiner falschen Hypothesen intuitiv wie ein 'Deduktionist'. Vermutlich lässt sich überhaupt keine bedeutende empirische Theorie aufstellen ohne dabei sowohl auf deduktive als auch auf induktive Methoden zurückzugreifen.
15 Zitiert nach Newman (1988: 1319). 16 Dies zeigt sich beispielsweise auch an dem Unterschied zwischen einem positiven Recht, das analytisch begründet wird und auf festen unverrückbaren Rechtsgrundsätzen basiert einerseits und dem angelsächsischen Typus des Common Law andererseits.
88
Kapitel 8 Poppers Theorie der Bewährung von wissenschaftlichen Theorien
"Soweit es sich um Wissen handelt, können wir für die Gesamtheit unserer Behauptungen nicht mehr beanspruchen, als dass sie ein umwegreiches aber bequemes System ist, um Erfahrungen mit Erfahrungen zu verknüpfen. Das System als ganzes ist bezüglich Erfahrung unterbestimmt; aber es liefert zu gewissen, gegebenen Erfahrungen gewisse andere als zu erwartende Folgen. Wenn sich solche Voraussagen über Erfahrungen als falsch herausstellen, muß das System irgendwie geändert werden. Aber es bleibt uns große Freiheit in der Wahl, welche Sätze des Systems erhalten bleiben und welche verändert werden sollen." Willard V. O. Quine (1974: 19) "There is a tradition of opposition between adherents of induction and of deduction. In my view it would be just as sensible for the two ends of a worm to quarrel." Alfred North Whitehead15
8 Deduktion oder Induktion? – Ein alter Streit
Poppers Theorie der Bewährung von wissenschaftlichen Theorien
Wie ein erkenntnistheoretisches Schisma zieht sich die Trennung zweier philosophischer Ansätze durch die Jahrhunderte, hier die kontinentaleuropäische Tradition eines Descartes und eines Leibniz, dort die angelsächsische eines Locke und Hume, hier Deduktion, dort Induktion, hier Erkenntnis a priori, dort a posteriori, hier der Rationalismus eines reinen Geistes, dort der ausschließlich auf Sinneswahrnehmungen fußende Empirismus. Beide philosophischen Traditionen lassen sich in ihren unterschiedlichen Konsequenzen in viele Bereiche hinein verfolgen16. In der Praxis war diese Unterscheidung allerdings nie so streng vorhanden, wie man vermuten könnte und wie das Zitat von Whitehead untermauert. Ein Rationalist wie Descartes verfolgte mit regem Interesse die Ergebnisse seiner empirisch und experimentell forschenden Kollegen, ein 'Induktionist' wie Kepler verhielt sich bei der Ablehnung seiner falschen Hypothesen intuitiv wie ein 'Deduktionist'. Vermutlich lässt sich überhaupt keine bedeutende empirische Theorie aufstellen ohne dabei sowohl auf deduktive als auch auf induktive Methoden zurückzugreifen.
15 Zitiert nach Newman (1988: 1319). 16 Dies zeigt sich beispielsweise auch an dem Unterschied zwischen einem positiven Recht, das analytisch begründet wird und auf festen unverrückbaren Rechtsgrundsätzen basiert einerseits und dem angelsächsischen Typus des Common Law andererseits.
Kapitel 8 Poppers Theorie der Bewährung von wissenschaftlichen Theorien
89
Das erkenntnistheoretische Grundproblem, wie wir Wissen über die reale Welt erlangen können, bleibt jedoch bestehen. Die Deduktion ist ein Verfahren, das nicht zum Erkenntnisgewinn taugt. Sie kann lediglich etwas darüber aussagen, ob ein bestimmter Satz aus anderen Sätzen abgeleitet werden darf, sie kann aber keine Aussagen über die Wirklichkeit selbst machen. Letzteres, darüber besteht heutzutage ein allgemeiner 'empiristischer' Konsens, ist nur mit Hilfe von Sinnesdaten möglich. Sinneswahrnehmungen sind aber immer nur in singulären Sätzen beschreibbar, d.h. sie beziehen sich auf eine bestimmte Tatsache, die zu einem bestimmten Zeitpunkt an einem bestimmten Ort stattgefunden hat. Der induktive 'Schluss' von solchen singulären Sätzen auf einen allgemeinen, gesetzesmäßigen Satz, der diese gleichsam 'verdichtet', ist aber nicht logisch begründbar und immer mit einem Rest von Willkür behaftet. Die Brisanz des Induktionsproblems liegt daher nicht darin, dass es einfach irgendein erkenntnistheoretisches Problem darstellt, nein, die Formulierung des Induktionsproblems stellt die Frage nach der Legitimation von Wissenschaft schlechthin.
Zentrale Bedeutung des Induktionsproblems
Gerade auf diese Frage versucht Karl Popper mit seiner Theorie der Falsifikation von wissenschaftlichen empirischen Theorien eine Antwort zu geben. Der Kern der gesamten Popper'schen Argumentation liegt darin, dass er den Schwerpunkt bei der Beurteilung einer Theorie nicht auf die Begründung dieser Theorie sondern auf ihre Prüfung legt. Popper geht es nicht um eine systematische Anleitung zur Gewinnung von wissenschaftlichen Theorien über die Welt, wie es noch das Bestreben Bacons war, sondern um ein Kriterium, das die Beurteilung und den Vergleich schon formulierter und aufgestellter Theorien ermöglicht. Die ganze Induktionsproblematik entsteht nämlich nach Popper nur in dieser unzulässigen Vermischung von psychologischen (Wie gelangt ein Wissenschaftler zu seinen Theorien?) und logischen (Wie überprüft man eine Theorie?) Aspekten. Die Popper'sche 'Lösung' des Induktionsproblems besteht also schlicht in dieser 'Ausschaltung des Psychologismus', d.h. in der gänzlichen Missachtung des Entstehungsprozesses von Theorien. "Das Aufstellen der Theorien scheint uns einer logischen Analyse weder fähig noch bedürftig zu sein: An der Frage, wie es vor sich geht, dass jemandem etwas Neues einfällt– sei es nun ein musikalisches Thema, ein dramatischer Konflikt oder eine wissenschaftliche Theorie –, hat wohl die empirische Psychologie Interesse, nicht aber die Erkenntnislogik" (Popper 1989: 6). Es ist für Popper also vollkommen unerheblich, wie eine Theorie zustande gekommen ist, wichtig ist einzig und allein, dass sie der Prüfung standhält. Selbst wenn eine Theorie auf vollkommen aberwitzigen Annahmen über das Wirken von Luftgeistern, Hexen oder anderen Fabelgestalten fußen würde, so wäre das nach Popper allein kein Grund, diese Theorie abzulehnen, solange sie durch Überprüfung bestätigt werden kann. Vermutlich aber wird sie einer Prüfung anhand der Realität nicht lange standhalten und so bald verworfen werden müssen.17
Poppers Theorie der Falsifikation: Prüfung statt Be-
17 Dies ist ein, vielleicht der entscheidende Unterschied in der Popper'schen Argumentation zu einem modernen Positivisten wie z.B. Rudolf Carnap. Carnap würde Hypothesen, in denen
gründung
90
Kapitel 8 Poppers Theorie der Bewährung von wissenschaftlichen Theorien
Falsifizierung mit Hilfe des Modus Tollens
Dieses Popper'sche Prüfkriterium ist die Falsifizierbarkeit einer Theorie. Eine Theorie gilt dann als falsifiziert, wenn aus ihr (singuläre) Sätze abgeleitet werden können, die in Widerspruch zu anderen (singulären) Sätzen stehen, die durch die unmittelbare Beobachtung der Wirklichkeit gewonnen wurden. Das logische Schlussschema, dessen sich Popper bedient, ist also dasjenige des Modus Tollens. To S1 S2 S3 S4 … Sk … Sn Sk [Sko (S1 S2 S3 S4 … Sk … Sn)] ________________________________________ T Aus einer Theorie T können n singuläre Sätze abgeleitet werden. Anders ausgedrückt: Ist die Theorie T gültig, dann sind die Sätze S1 bis Sn wahr. Ist ein einziger dieser Sätze falsch, dann muss die Theorie verworfen werden. Die Theorie besteht aus allgemeinen, gesetzmäßigen (nomothetischen) Aussagen über die Welt. Diese Gesetze bestehen nur in den Theorien, sie kommen nicht in der Welt vor, im (für die Theorie) besten Fall gestaltet sich aber die Welt in ihren Tatsachen nach diesen Gesetzen. Aus den Gesetzen können singuläre Sätze abgeleitet werden, die nichts anderes sind als Aussagen über das Eintreffen oder NichtEintreffen von Tatsachen. Steht eine Tatsache im Widerspruch zu einer solchen abgeleiteten singulären Aussage, dann ist das Gesetz, aus dem diese Aussage abgeleitet wurde, falsch.
Verifikation, Falsifikation und Bewährung
Gesetze können somit zwar nicht induktiv bewiesen bzw. verifiziert werden, sie können aber auf deduktivem Wege widerlegt, d.h. falsifiziert werden. Widersetzt sich eine Theorie solchen Prüfungen durch die Konfrontation mit den Tatsachen erfolgreich, so gilt sie zumindest als bewährt in dem Sinne, dass es bisher nicht gelungen ist, sie zu widerlegen. Die Gültigkeit eines Gesetzes bzw. einer Theorie kann daher immer nur eine vorläufige sein, d.h. Gesetze verlieren im Popper'schen Sinne ihren ewigen, unverrückbaren Charakter. Dass dies für die praktische Forschung schon immer gegolten hat, belegt ein Zitat des wohl bedeutendsten Naturwissenschaftlers aller Zeiten. "In der Experimentalphysik muss man die, aus den Erscheinungen durch Induction geschlossenen Sätze, wenn nicht entgegengesetzte Voraussetzungen vorhanden sind, entweder genau oder sehr nahe für wahr halten,
Luftgeister vorkommen, von vorneherein nicht zulassen, da sie keine "sinnvollen" Sätze darstellen, weil in ihnen "sinnlose" Begriffe wie "Luftgeister" auftauchen. Der "Sinn" eines Satzes besteht nach Carnap in der Möglichkeit seiner Verifizierbarkeit, d.h. darin, dass es möglich ist, Kriterien anzugeben, unter welchen Umständen ein Satz als bestätigt, d.h. wahr angesehen werden soll.
Kapitel 8 Poppers Theorie der Bewährung von wissenschaftlichen Theorien
91
bis andere Erscheinungen eintreten, durch welche sie entweder grössere Genauigkeit erlangen, oder Ausnahmen unterworfen werden" (Newton 1963: 381). Die Annäherung an die Wahrheit im Sinne einer adäquaten Beschreibung der Wirklichkeit kann bei Popper also nur 'negativ' erreicht werden. Es werden nicht immer mehr 'wahre' Aussagen über die Welt gewonnen, sondern es werden immer mehr 'unwahre' Aussagen ausgesondert. Die Ähnlichkeit zu Induktionslogikern wie Bacon und Mill ist dabei nicht zu übersehen. Der entscheidende Unterschied zwischen diesen Induktionisten und Popper besteht darin, dass erstere glauben, durch den Prozess des Aussonderns mit einer gewissen Zwangsläufigkeit auf die 'wahren', nämlich verbleibenden Theorien zu stoßen, während Popper betont, dass jede Theorie immer nur vorläufig sein kann. Gehen Bacon und Mill von einer endlichen Menge an Theorie-Kandidaten aus, von denen nur einige die entsprechenden Methoden der Überprüfung überstehen, so setzt Popper immer eine einzelne Theorie der Bewährungsprobe aus, die als aktueller Kandidat gehandhabt wird. Während das Vorgehen von Bacon und Mill eher eine simultane Prüfung mehrerer Theorien und somit ein statisches ist, findet bei Popper eine sukzessive Abfolge von Theorienprüfungen statt. Dabei sind neue Kandidaten oft erst im Prozess der Prüfung älterer Kandidaten entstanden, die den Kriterien nicht standgehalten haben. Dies ist der dynamische Aspekt des Popper'schen Vorgehens.
Negative Annäherung an die Wirklichkeit durch sukzessiven Ausschluss falscher Theorien
Durch die sukzessive Ausschaltung falscher Theorien existiert auch bei Popper ein Fortschritt des Wissens, man spricht oft in diesem Zusammenhang von einer linearen Annäherung an die Wahrheit. Es gibt die Wahrheit, nur nicht die Sicherheit ihres Besitzes. Popper zufolge gibt es die absolute, objektive Wahrheit in dem Sinne, dass es eine absolute, objektive Wirklichkeit gibt, d.h. die Sätze, die diese Wirklichkeit adäquat abbilden, sind damit auch absolut wahr. Nur gibt es unglückseligerweise keine sichere Methode, diese Sätze zweifelsfrei zu erkennen. Allerdings werden sich diese absolut wahren Sätze sämtlichen Prüfungen durch die Wirklichkeit erfolgreich widersetzen, sie sind prüfungsresistent, sie sind 'immun' gegen die Tatsachen, da sie ja selbst die sprachliche Repräsentation dieser Tatsachen sind. Der Wissenschaftler bei Popper verhält sich nicht anders als Aschenputtel ('Die guten ins Töpfchen, die schlechten ins Kröpfchen.'), er verwirft die widerlegten Theorien und behält die bewährten. Man könnte auch sagen, die 'Wahrheitsdichte' aller verbleibenden Theorien steigt somit ständig an. Folgt man der Logik des Falsifikationismus, wie sie von Popper entwickelt wurde, so hat das große Auswirkungen auch für das eigene wissenschaftliche Vorgehen. Getreu dem Credo, dass man zwar die Wahrheit suchen, aber niemals Sicherheit darüber haben kann, und dass umgekehrt, wer Sicherheit sucht, niemals die Wahrheit finden kann, sollte man eigene wie fremde Forschungsergebnisse konsequent und kritisch hinterfragen. Das wissenschaftliche Vorgehen sollte nicht darauf gerichtet sein, die eigenen Vermutungen zu bestätigen. Vielmehr sollte man sich die größte Mühe geben, Tatsachen zu finden, die im Widerspruch zu den eigenen Vermutungen stehen, da man nur so eine Chance hat, sich der Wahrheit
Konsequenzen des Falsifikationismus für wissenschaftliches Arbeiten
92
Kapitel 8 Poppers Theorie der Bewährung von wissenschaftlichen Theorien
anzunähern. Auch die Betrachtung jeder wissenschaftlichen Erkenntnis als dezidiert vorläufig ist keine intellektuelle Spielerei, sondern Grundlage jeder soliden empirischen Forschung. Auch wenn Forschungsergebnisse, Theorien und Gesetze noch so gut bestätigt scheinen, können sie doch immer nur eine augenblicklich denkbar gute Repräsentation unseres Wissens über die Wirklichkeit sein, sie sind jedoch jederzeit der Herausforderung durch neue und bessere Erklärungen ausgesetzt.
Experte: Theorieentwicklung Nach Popper können Theorien an Beobachtungen scheitern. Die Sätze, mit denen wir unsere Beobachtungen beschreiben, nennt Popper Basissätze. Wenn aus der Falschheit eines Basissatzes demnach die Falschheit der Theorie folgen soll, aus der er abgeleitet ist, so muss die Falschheit oder Wahrheit des Basissatzes eindeutig feststehen. Basissätze können aber nach Popper nicht durch unsere Erfahrungen unmittelbar begründet werden, wie es z.B. die Positivisten des Wiener Kreises um Carnap annehmen. Hier nimmt Popper eine 'konventionalistische' Wendung, indem er fordert, dass die Basissätze, an denen unsere Theorien scheitern können, durch Beschluss festgesetzt werden sollen. Dies hat weitreichende Konsequenzen. "Logisch betrachtet geht die Prüfung der Theorie auf Basissätze zurück, und diese werden durch Festsetzung anerkannt. Festsetzungen sind es somit, die über das Schicksal der Theorie entscheiden" (Hervorhebung im Original; Popper 1989: 73). Der Unterschied zum normalen Konventionalismus, wie ihn z.B. Poincaré vertritt, besteht darin, dass dieser allgemeine Sätze zu Konventionen erklärt, während es bei Popper nur die besonderen Sätze sind. Kritiker des Popper'schen Ansatzes gehen so weit, damit das falsifikationistische Programm als undurchführbar zu erklären. "Popper's view of evidence statements seems to pull the rug from under falsificationism: it implies that no theory can really be falsified by evidence. The nearest thing to a refutation would occur when 'conventionally accepted' evidence was inconsistent with a theory, which could then, at best, be described as 'conventionally' rejected." (Howson/Urbach 1993: 132). Genauso wenig wie der Konventionalismus aber beseitigt ein naiver Sensualismus, der davon ausgeht, dass wir unsere Sinneswahrnehmungen korrekt in Sätzen beschreiben können, dieses grundsätzliche Basissatzproblem. Denn Wahrnehmungen können fehlerhaft sein. Eine zu rigide Anwendung des Falsifikationskriteriums würde daher dazu führen, dass wir mitunter eine wahre Theorie fälschlicherweise aufgrund fehlinterpretierter Beobachtungen zurückweisen. Aber selbst wenn wir die Falschheit eines Basissatzes als sicher annehmen können, stehen wir vor einem Problem. Die wenigsten Theorien sind so aufgebaut, dass durch den entstehenden Widerspruch unmittelbar klar ist, welcher Bestandteil der Theorie zurückgewiesen werden muss. Wie in dem Zitat von Quine am Anfang des Kapitels schon gesagt wurde, bleibt uns auch hier eine gewisse Freiheit, welchen Teil der Theorie wir als widerlegt betrachten wollen. Dieses Problem wird als Duhem- oder Duhem/Quine-Problem bezeichnet. Der Teil der Theorie, der als widerlegt betrachtet werden soll, ist gleichzeitig der Teil, der abgeändert werden muss. Unter Umständen müssen auch zusätzliche Hypothesen in die Theorie aufgenommen werden, um die Theorie nicht in Widerspruch zur Wirklichkeit gelangen zu lassen. Hilfsannahmen sollen nach Popper natürlich nicht dazu dienen, die Theorie zu immunisieren, sondern er betrachtet sie nur als zulässig, "wenn durch deren Einführung der 'Falsifizierbarkeitsgrad' des Systems … gesteigert wird; in diesem Fall bedeutet die Einführung der Hypothese eine Verbesserung: Das System verbietet mehr als vorher" (Popper 1989: 51). Der empirische Gehalt einer Theorie ist für Popper gleichbedeutend mit der Anzahl ihrer potenziellen Falsifikatoren. Je mehr die Theorie verbietet, desto präzisere Aussagen macht sie über die Wirklichkeit. Theorien mit hohem empiri-
Kapitel 8 Poppers Theorie der Bewährung von wissenschaftlichen Theorien
schem Gehalt sind insofern 'unwahrscheinlich', als ihr Überleben langfristig bei wiederholter Konfrontation mit der Realität äußerst unwahrscheinlich wäre, wenn sie nicht wahr wären. Eine gute und wertvolle Theorie zeichnet sich somit dadurch aus, dass sie 'riskante' Aussagen macht. Lässt man zu, dass eine Theorie durch die Hinzunahme weiterer Hilfsannahmen ad hoc passend gemacht wird, falls sie in Widerspruch zur Wirklichkeit gelangt, dann sinkt damit ihr empirischer Gehalt auf Null. Deshalb lehnt Popper die Rettung einer Theorie durch Ad-hoc Hypothesen ab. Natürlich kann jede neue Theorie unabhängig von alten Theorien der Prüfung an der Wirklichkeit ausgesetzt werden. Die Erweiterung der alten Theorie durch Hilfsannahmen ist also dann erlaubt, wenn durch die Hilfsannahmen neue Möglichkeiten der Überprüfung der Theorie entstehen. Es soll aber noch einmal betont werden, dass es nicht die alte Theorie ist, die durch die zusätzlichen Annahmen überlebt, sondern es ist die neue, aus der alten entstandene Theorie, die sich wieder ganz von vorne im Prozess der Prüfung zu bewähren hat. Ein naiver Falsifikationismus, der eine Theorie durch eine ihr widersprechende Beobachtung schon als widerlegt betrachtet und sie damit auf den Schrotthaufen unbrauchbarer Theorien wirft, führt nicht nur zu inneren Widersprüchen, sondern seine rigide Anwendung hätte darüber hinaus die Entwicklung jeder bedeutenden Theorie von vornherein unterbunden. Wie Theorien daher durch zulässige Ad-hoc-Modifikationen erhalten werden können und wie man solche zulässigen Modifikationen von nicht zulässigen unterscheiden kann, ist Gegenstand eines raffinierten Falsifikationismus, wie er von Imre Lakatos (1974) formuliert worden ist. Nach Lakatos bestehen viele Theorien, und gerade die bedeutendsten, meist aus einem 'harten Kern' und einem 'Schutzgürtel' von Hilfsannahmen. Die 'Rettung' der Theorie kann durch ein Passendmachen des Kerns oder einer oder mehrerer der Hilfsannahmen an die Beobachtungen ermöglicht werden. Diese dynamische Fortentwicklung der Ausgangstheorie wird von Lakatos als Forschungsprogramm bezeichnet. Bei den Modifikationen, die der Forscher an der Theorie vornimmt, um sie in Einklang mit Beobachtungen zu bringen, die der bisherigen Theorie widersprechen, wird der Forscher von einer Heuristik geleitet, die ihm die Schritte vorgibt, nach denen er vorzugehen hat. Eine der Regeln dieser Heuristik besteht zum Beispiel darin, nie den harten Kern der Theorie, sondern nur den Schutzgürtel abzuändern. Lässt sich eine Theorie nicht mehr aufrechterhalten, ohne auch den harten Kern anzugreifen, so kann man dies als den Beginn eines neuen Forschungsprogramms verstehen. Es bleibt allerdings ein Moment der Willkür in der Festsetzung, was denn zum Kern der Theorie und was 'nur' zu den Hilfsannahmen gehört, und somit, ob die Theorie durch die ihr widersprechenden Beobachtungen im Mark getroffen oder nur an der sie umgebenden Schutzhülle angekratzt ist.
Ende Experte
93
94
Kapitel 9 Probabilistische Hypothesen und die Logik eines statistischen Tests
9 Stichproben und probabilistische Schlüsse
Epistemischer und frequentistischer Wahrscheinlichkeitsbegriff
Probabilistische Hypothesen und die Logik eines statistischen Tests
Schlüsse, die aus einem gültigen deduktiven Argument abgeleitet worden sind, dessen Prämissen wahr sind, sind notwendig wahr, das Ziehen der Schlussfolgerung ist daher risikofrei. Anders verhält es sich mit Schlüssen, die wir aus induktiven Argumenten ziehen. Sie können bestenfalls als sehr wahrscheinlich betrachtet werden, wenn die Prämissen als wahr angenommen werden. Sie sind 'riskante' Schlüsse, da sie immer mit dem Risiko behaftet sind, falsch zu sein. Dies liegt daran, dass die Menge der von uns gemachten Beobachtungen immer nur eine Teilmenge aller möglichen Beobachtungen darstellt. Diese Teilmenge nennen wir Stichprobe. Die Menge, auf die wir hin verallgemeinern wollen, nennen wir die Grundgesamtheit. Wahrscheinlichkeiten kommen auf zweierlei Weise ins Spiel. Zum einen können sie sich auf die Wahrscheinlichkeit beziehen, mit der unser Schluss berechtigt ist, zum anderen aber können Wahrscheinlichkeitsaussagen selbst der Inhalt der Konklusion sein. Im ersten Fall sagt uns die Wahrscheinlichkeit etwas darüber aus, wie gerechtfertigt es ist, einen bestimmten Satz für wahr zu halten, wir nennen diese Wahrscheinlichkeit daher auch epistemisch. Im zweiten Fall wird mit der Angabe der Wahrscheinlichkeit eine Aussage über die relative Häufigkeit des Vorkommens eines Ereignisses getroffen, wir sprechen hier von einem frequentistischen Wahrscheinlichkeitsbegriff. Wir wollen uns dies an einigen Beispielen enumerativer induktiver Schlüsse klarmachen. Alle Kaffeebohnen aus einer Stichprobe, die wir einem Sack mit Kaffeebohnen entnommen und untersucht haben, haben die Güteklasse A. _________________________________________________________________ Alle Kaffeebohnen im Sack haben Güteklasse A.
Sicherheit des Schlusses hängt von Größe der Stichprobe ab
Die Wahrscheinlichkeit, mit der wir den Schluss für gerechtfertigt halten, hängt von dem Umfang der Stichprobe ab. Besteht die Stichprobe nur aus einem einzigen Fall, so würden wir die Schlussfolgerung als hochriskant ansehen, besteht die Stichprobe hingegen aus 1000 untersuchten Kaffeebohnen, so nimmt unser Glaube an die Wahrheit der Konklusion annähernd den Grad einer Gewissheit an. Im obigen Beispiel macht die Konklusion eine Aussage für alle Fälle der Grundgesamtheit. Solche Aussagen sind unter anderem in den Naturwissenschaften weit verbreitet. Da wir uns im Zusammenhang mit verallgemeinerten Aussagen bisher nur auf solche Allaussagen bezogen haben, stammten auch unsere Beispiele der vorhergehenden Kapitel überwiegend aus den Naturwissenschaften, insbesondere aus dem Bereich der klassischen Mechanik. Allaussagen sind in den Sozialwissenschaften hingegen ausgesprochen selten. Sozialwissenschaftliche Aussagen,
Kapitel 9 Probabilistische Hypothesen und die Logik eines statistischen Tests
95
die sich auf beobachtete Zusammenhänge beziehen, sind typischerweise probabilistisch, und zwar im frequentistischen Sinn. Allaussagen der Form "Alle F sind G" sind deterministisch, da sie für jedes Objekt, das ein F ist, festlegen, dass dieses Objekt auch ein G sein muss. Die FKomponente der Aussage enthält alle notwendigen Bedingungen für das Auftreten von G und mindestens eine hinreichende Bedingung. Bestimmte Komplexe solcher Bedingungen lassen sich in den Naturwissenschaften mit der Methode der Differenz erkennen. Dabei können einzelne Faktoren aus einer Versuchsanleitung herausgefiltert werden, deren Variationen in der Lage sind, Variationen der uns interessierenden Eigenschaft hervorzurufen, während alle anderen Faktoren konstant gehalten werden. Dies scheint für uns in der Regel ein starkes Argument zu sein, den Faktor als Bestandteil einer kausalen Verknüpfung zwischen sich und der interessierenden Eigenschaft zu betrachten. In den klassischen Experimenten der Mechanik stellte es kein Problem dar, alle Einflussfaktoren bis auf einen konstant zu halten, um so seine 'isolierte' Wirkung auf die interessierende Eigenschaft zu erfassen und in der Formulierung eines gesetzesartigen Zusammenhangs festzuhalten. Die Einfachheit der klassischen Experimente beruht unter anderem darauf, dass die Natur selbst gewisse wesentliche Faktoren kontrolliert, d.h. konstant hält, die dann als die berühmten Naturkonstanten in die Gesetze eingehen. Das Galileische Gesetz des freien Falls z.B. besagt, dass die im freien Fall zurückgelegte Strecke eines Gegenstands eine (quadratische) Funktion seiner Fallzeit und seiner als konstant angenommenen Beschleunigung ist. Galilei musste also nur die zwei Größen Zeit und Strecke erfassen, um sein Gesetz zu formulieren.
Deterministische Allaussa-
In den Sozialwissenschaften haben wir es hingegen mit komplexen Gefügen von Einflussfaktoren auf die interessierende Eigenschaft zu tun. Einzelne Faktoren lassen sich nicht isolieren, d.h. es ist unmöglich, alle anderen möglichen Einflussfaktoren unter Kontrolle zu halten. Daher kann die Variation eines einzelnen Faktors nur grob und unpräzise mit den Ausprägungen der interessierenden Eigenschaft variieren, da der Zusammenhang zwischen diesen beiden Variablen durch viele andere Zusammenhänge zwischen den nicht kontrollierten Einflussfaktoren und der abhängigen Variablen überlagert wird. So wie der Nebel als 'Störfaktor' die Umrisse des Hauses vor uns verwischt, so verwischen die nicht kontrollierten anderen Einflussfaktoren die klare Struktur des Zusammenhangs zwischen dem isolierten Einflussfaktor und der abhängigen Variablen. Allerdings bleiben auch durch den Nebel die Konturen des Gebäudes erhalten.
Komplexe Zusammen-
Auch probabilistische Aussagen werden durch Induktion gewonnen. Ein klassisches Anwendungsbeispiel für diese Art von Argumenten sind Prognosen, die sich auf Umfrageergebnisse beziehen.
gen in der Mechanik
hänge in den Sozialwissenschaften, deshalb probabilistische Aussagen
96
Kapitel 9 Probabilistische Hypothesen und die Logik eines statistischen Tests
45 Prozent der befragten Personen in unserer Stichprobe wollen bei der nächsten Bundestagswahl SPD wählen. _________________________________________________________________ 45 Prozent aller wahlberechtigten Bundesbürger wollen bei der nächsten Bundestagswahl SPD wählen. Die allgemeine Form des induktiven Arguments ist: Z Prozent der F in der Stichprobe sind G. ____________________________________ Z Prozent aller F sind G.
Die logische Form eines enumerativen induktiven Arguments, bei dem die Konklusion eine Allaussage darstellt, unterscheidet sich nicht von einem Argument, bei dem die Konklusion eine probabilistische Aussage ist. Wenn Z den Wert 100 annimmt, so ist dies nur ein Spezialfall der allgemeinen Form des Arguments. Während also Z für verschiedene Argumente verschiedene Werte annehmen kann, und damit die frequentistische Wahrscheinlichkeit, dass ein beliebiges F ein G ist, ist das Problem der epistemischen Wahrscheinlichkeit für alle Argumente sehr ähnlich. Der epistemische Gewissheitsgrad kann für ein Argument, das eine Allaussage als Konklusion besitzt, genau so hoch sein wie für ein Argument, das als Schlussfolgerung eine Wahrscheinlichkeitsaussage beinhaltet. Statistischer Syllogismus
Der Zweck induktiver Argumente besteht in der Begründung ihrer Konklusion, so dass diese wiederum in anderen Argumenten als Prämisse verwendet werden kann. Eine Argumentform, bei der eine Prämisse eine probabilistische Aussage enthält, heißt statistischer Syllogismus. Z Prozent aller F sind G. a ist ein F. _______________________ a ist ein G. Man kann sich die Angabe des Anteils oder der Prozentzahl auch als eine spezielle Art von Quantor vorstellen, der einer Implikation vorsteht. Die erste Prämisse könnte dann so formuliert werden: "Für Z Prozent der Fälle gilt: Wenn ein Element x die Eigenschaft F besitzt, dann besitzt es auch die Eigenschaft G." Die Umformulierung macht uns auf einen wichtigen Aspekt aufmerksam. Die Aussage "Mit einer Wahrscheinlichkeit von Z Prozent ist ein F auch ein G." ist nicht äquivalent zur Aussage "Jedes F ist mit einer Wahrscheinlichkeit von Z Prozent
Kapitel 9 Probabilistische Hypothesen und die Logik eines statistischen Tests
97
ein G." Ein F kann nur ein G sein oder nicht. Ein bestimmtes Objekt kann eine Eigenschaft nur besitzen oder nicht besitzen, es kann sie aber nicht mit einer bestimmten Wahrscheinlichkeit besitzen. Aber aus einer bestimmten Menge von Objekten können wir mit einer bestimmten Wahrscheinlichkeit zufällig ein bestimmtes Objekt herausziehen, das diese Eigenschaft besitzt. Dies ist der Grund, warum in der obigen allgemeinen Form des statistischen Syllogismus die Konklusion "a ist ein G." heißt und nicht – wie mancher vielleicht erwartet hat – "a ist mit einer Wahrscheinlichkeit von Z Prozent ein G." Die Konklusion eines Arguments muss eindeutig entscheidbar wahr oder falsch sein, sie kann daher keine Wahrscheinlichkeitsaussage sein. Die Wahrscheinlichkeit, mit der die Implikation der Prämisse zutrifft, taucht daher im Argument nicht in der Konklusion auf, sondern bezieht sich auf das Argument selbst, d.h. auf die Wahrscheinlichkeit, mit der uns das Argument eine wahre Konklusion liefert. Man könnte diese Argumentform in der Darstellung von der üblichen z.B. auf folgende Weise abheben. Z Prozent aller F sind G a ist ein F
ª Z Prozent a ist ein G In diesem Argument wird von der ersten Prämisse "a ist ein F.", die die Randbedingung darstellt, mit Hilfe der zweiten Prämisse, der probabilistischen 'Gesetzesaussage' "Z Prozent aller F sind G.", in Z Prozent der Anwendungsfälle des Arguments korrekt auf die Konklusion "a ist ein G." geschlossen. Offensichtlich kann das Popper'sche Falsifikationskriterium nicht zur Prüfung probabilistischer Aussagen angewandt werden. Da die Konklusion nicht notwendig aus den Prämissen gefolgert werden kann, können umgekehrt die Prämissen nicht in jedem Fall abgelehnt werden, wenn die Konklusion nicht zutrifft. Popper führt das Falsifikationskriterium in Bezug auf Allaussagen ja ein, weil diese zwar nicht verifiziert, aber immerhin falsifiziert werden können. Existenzaussagen hingegen können immer verifiziert aber niemals falsifiziert werden. Probabilistische Aussagen können nun weder verifiziert noch falsifiziert werden. Da nach Popper der empirische Gehalt einer Aussage dem Umfang der Menge ihrer Falsifikationsmöglichkeiten entspricht, müssten seiner Meinung nach Wahrscheinlichkeitsaussagen als empirisch gehaltlos und damit nicht sinnvoll abzulehnen sein. Dem widerspricht jedoch der große prognostische Erfolg, den Wahrscheinlichkeitsaussagen insbesondere in der Physik haben. Popper spricht in diesem Zusammenhang davon, dass im Rahmen der Theorie sehr unwahrscheinliche Ereignisse so behandelt werden sollten als würden sie durch die Theorie verboten. Popper nennt diese Art des Vorgehens 'praktische Falsifikation' (Popper 1989: 146). Diese Vorgehensweise entspricht weitgehend der Logik eines statistischen Tests, wie sie von R.A. Fisher entwickelt wurde. Nach Fisher sollte eine statistische Hypothese, die
Praktische Falsifikation
98
Kapitel 9 Probabilistische Hypothesen und die Logik eines statistischen Tests
üblicherweise als Nullhypothese H0 bezeichnet wird, dann abgelehnt werden, wenn Beobachtungen gemacht werden, die nach der Hypothese relativ zu anderen Beobachtungen nur mit geringer Wahrscheinlichkeit auftreten dürften. Man kann die Argumentform eines statistischen Tests demnach folgendermaßen skizzieren. Wenn H0 wahr ist, dann tritt ein Ereignis e nur mit sehr geringer Wahrscheinlichkeit ein. Das Ereignis e wird beobachtet. _________________________________________________________________ Die Nullhypothese ist nicht wahr. Tritt ein solches unwahrscheinliches Ereignis e auf, so wird sein Vorkommen als signifikant bezeichnet und die Wahrscheinlichkeit seines Auftretens als das Signifikanzniveau, auf dem der Test zur Ablehnung der Nullhypothese geführt hat. Beispiel: Probabilistische Wahrscheinlichkeit Um eine statistische Hypothese gezielt zu überprüfen, wird für eine vorab ausgezeichnete Klasse von Ereignissen e, die man die Teststatistik nennt, die Wahrscheinlichkeitsverteilung berechnet. Doch oft ist es alles andere als eindeutig, wie eine solche Teststatistik zu konstruieren ist. Betrachten wir das folgende Beispiel: Wenn ein Ziegel vom Dach fällt und in 1000 Splitter zerspringt, dann ist unter Zufallsbedingungen eine bestimmte Verteilung der Splittergröße und –form und ihrer Lage der und der Art nur mit einer äußerst geringen Wahrscheinlichkeit, die als nahezu Null betrachtet werden muss, zu erwarten. Das tatsächlich aufgetretene Muster beim Zerspringen des Ziegels muss als ein nahezu unmögliches Ereignis angesehen werden, d.h. bevor das Ereignis eingetreten ist, war die Wahrscheinlichkeit, dass es genau so eintreten würde, praktisch gleich Null. Die Verteilung der Größe, der Form und der Lage der Splitter entspricht gerade der und der Form. _______________________________________________________________________ Das Muster, in das der Ziegel zerfallen ist, kann nicht durch Zufall zustande gekommen sein. Wir würden daher möglicherweise daraus folgern, dass die Anordnung der Splitter, da sie nicht durch Zufall zustande gekommen sein kann, kausal verursacht sein muss. Ein 'naiver' Betrachter könnte dann weiter vermuten, dass eine Art von 'Ziegelgott' geben muss, der dieses Ereignis bewusst herbeigeführt hat. Er könnte annehmen, dass der Ziegelgott zwar möglicherweise unter den übrigen Göttern eine eher untergeordnete Rolle einnimmt, aber seine Aufgabe bei der bewussten Anordnung von einzelnen Splittern eines Ziegels doch sehr effektiv und vor allem mit großem Arbeitseinsatz bewältigt. Davon aufs Äußerste beeindruckt, würde er sich möglicherweise sogar hinreißen lassen, einen Tempel zu bauen, um diesem Ziegelgott auf die angemessene Weise seine Ehrerbietung zu zeigen. Die obige Argumentform könnten wir auch als teleologischen Fehlschluss bezeichnen, und wir würden in der Geschichte der Menschheit schnell fündig werden, wenn wir nach Fällen suchten, in der sie angewandt wurde. Die schiere 'Unwahrscheinlichkeit' bestimmter historischer Entwicklungen etwa verleitet uns oft fälschlicherweise dazu, diese
Kapitel 9 Probabilistische Hypothesen und die Logik eines statistischen Tests
99
als verursacht anzunehmen. Doch das Ziegelbeispiel zeigt, wie unangemessen dieser Schluss ist. Jede Anordnung der Ziegelsplitter wäre nahezu unmöglich gewesen und hätte daher zur Ablehnung der Zufallshypothese führen müssen. Es kann also nicht damit getan sein, eine Hypothese allein deswegen abzulehnen, weil ein beobachtetes Ereignis im Lichte der Hypothese als unwahrscheinlich einzustufen ist. Die Wahrscheinlichkeit, mit der wir auf ein derartiges 'unwahrscheinliches' Ereignis treffen würden, wäre in unserem Beispiel nämlich sehr hoch, um genau zu sein, wäre sie 1, d.h. das Eintreffen eines unwahrscheinlichen Ereignisses, das mit der Hypothese in Widerspruch gerät, wäre nicht nur äußerst wahrscheinlich, sondern sicher. Wir müssen unsere Teststatistik daher so anlegen, dass wir eine Klasse aller unwahrscheinlichen Ereignisse bilden, durch die wir die Hypothese als abgelehnt betrachten, und nur dann, wenn die Wahrscheinlichkeit des Eintretens eines beliebigen Ereignisses aus dieser Klasse als sehr gering einzustufen ist und wir tatsächlich eines der Ereignisse aus dieser Klasse beobachten, nur dann wollen wir die Hypothese als widerlegt betrachten. Leider wird diese Regel in der empirischen Praxis oft missachtet. Nichts ist einfacher als so genannte signifikante Ergebnisse in einem statistischen Test zu erzielen. Dabei sind diese Ergebnisse häufig alles andere als signifikant im Sinne inhaltlicher Relevanz, und sie sind es auch nicht im Sinne eines korrekt durchgeführten statistischen Tests.
Ende Beispiel
Die Wahrscheinlichkeit des Auftretens des unwahrscheinlichen Ereignisses e ist gleichzeitig die Wahrscheinlichkeit, mit der wir die Nullhypothese aufgrund von e ablehnen, obwohl sie zutrifft, denn genau in dem durch die Wahrscheinlichkeit genannten Umfang tritt e ja ein, wenn die Nullhypothese zutrifft. Daher nennen wir diese Wahrscheinlichkeit auch Irrtumswahrscheinlichkeit.
Irrtumswahrscheinlichkeit
Die Unwahrscheinlichkeit eines Ereignisses unter Annahme der Nullhypothese wird als Grund für ihre Zurückweisung betrachtet, da implizit angenommen wird, dass dieses Ereignis unter einer anderen Hypothese mit einer wesentlich höheren Wahrscheinlichkeit auftreten würde und dass daher die Ursache, die in der anderen Hypothese auftritt, eher die wahre Ursache des Ereignisses ist als die in der Nullhypothese genannte. Ähnlich argumentiert Popper, wenn er umgekehrt die Fähigkeit einer Theorie, riskante d.h. 'unwahrscheinliche' Prognosen hervorzubringen, als besonders starkes Bewährungskriterium wertet. Denn 'unwahrscheinlich' und gewagt sind diese Prognosen natürlich nur dann, wenn die besagte Theorie nicht zutrifft. In einem solchen Fall wäre auch das Überleben der Theorie unwahrscheinlich. Trifft die Theorie jedoch tatsächlich zu, dann sind diese Prognosen keineswegs unwahrscheinlich, sondern treten zwangsläufig, d.h. mit Sicherheit, ein.
Formulierung einer Null-
Die Logik des statistischen Tests unterscheidet sich allerdings in einem wichtigen Punkt vom ursprünglichen Programm des Falsifikationismus. Es ist bei statistischen Tests üblicherweise nicht die in den Prämissen enthaltene Nullhypothese, die sich bewähren soll, sondern die Gegenthese zu ihr, die üblicherweise als H1 bezeichnet wird. Wenn wir z.B. mit einem statistischen Test belegen wollen, dass ein Zusammenhang zwischen zwei Variablen besteht, dann gehen wir üblicherweise so vor, dass wir zu widerlegen versuchen, dass kein Zusammenhang zwi-
Logik eines statistischen Tests verwendet quasi
hypothese
spiegelverkehrte Vorgehensweise zum Popperschen Falsifikationskriterium
100
Kapitel 9 Probabilistische Hypothesen und die Logik eines statistischen Tests
schen den Variablen zu erkennen ist. Nehmen wir an, wir haben die Hypothesen "Männer wählen häufiger konservative und rechte Parteien als Frauen." Zur Untersuchung dieser Hypothese wird ein statistischer Test unternommen. Allerdings prüft der statistische Test nicht die These selbst, die in diesem Fall H1 wäre, sondern die Nullhypothese H0 "Männer wählen genau so häufig konservative und rechte Parteien wie Frauen." Wird durch den Test die Nullhypothese zurückgewiesen, wird im Umkehrschluss H1 als bewährt angesehen. Es wird oft übersehen, dass dieses Vorgehen eben nicht eine einfache Ausweitung der Popper'schen Theorie auf probabilistische Hypothesen ist, sondern in gewisser Weise eine spiegelverkehrte Version derselben darstellt. Die Vorgehensweise bei einem statistischen Test erinnert an die Struktur eines indirekten formalen Beweises. Dieser geht davon aus, dass der Satz, der bewiesen werden soll, falsch ist und leitet daraus einen logischen Widerspruch ab. Nullhypothese ermöglicht Verwendung einer Teststatistik
Der Grund, warum wir uns bei statistischen Tests meistens auf die Prüfung der Nullhypothese beziehen, ist einfach anzugeben. Die Nullhypothese verkörpert die Annahme, dass beobachtete Unterschiede auf zufälligen Schwankungen beruhen. Die Wahrscheinlichkeitsverteilung der Größen dieser Schwankungen lässt sich mit stochastischen Methoden berechnen. Daher können wir diese Abweichungen als Teststatistiken einsetzen, denn die wichtigste Eigenschaft einer Teststatistik besteht darin, dass ihre Wahrscheinlichkeitsverteilung bekannt ist. Es ist jedoch häufig wesentlich schwieriger, die Wahrscheinlichkeitsverteilung einer Teststatistik entsprechend der H1-Hypothese zu berechnen. Nehmen wir an, unsere Nullhypothese lautet, dass Männer und Frauen gleich groß sind. Wir können nun ohne weiteres eine Teststatistik berechnen, die angibt, wie unwahrscheinlich die tatsächlich beobachteten Größenunterschiede zwischen zwei zufällig gebildeten Gruppen von Männern und Frauen sind. Aufgrund dieses Ergebnisses würden wir die Nullhypothese, Männer seien gleich groß wie Frauen, ablehnen. Wir haben aber keine Möglichkeit, die Wahrscheinlichkeit bestimmter Beobachtungen unter der Annahme zu berechnen, Männer und Frauen seien verschieden groß, solange wir diese H1-Hypothese nicht in einer Weise explizit machen, die es uns erlauben würde, eine bezüglich der H1-Hypothese bedingte Wahrscheinlichkeitsverteilung von Beobachtungen zu berechnen. Dies wäre z.B. möglich, wenn wir als H1Hypothese formulieren würden, Männer seien im Mittel 10 cm größer als Frauen, und sowohl innerhalb der Gruppe der Männer und der Gruppe der Frauen gäbe es ansonsten zufällige Schwankungen der Körpergröße. Um die Popper'sche Methode des Falsifikationismus auch auf probabilistische Hypothesen korrekt zu übertragen, sollten wir daher immer anstreben, auch die Test-Statistik im Sinne der H1-Hypothese zu berechnen, wenn dazu eine Möglichkeit gegeben ist. Einen Schritt in diese Richtung geht die Weiterentwicklung der Logik eines Signifikanztests durch Neyman und Pearson und so genannte bayesianische Methoden der Hypothesenprüfung.
Kapitel 10 Erklären und Verstehen
101
10 Erklären und Verstehen Wenn wir bisher allgemein von Erklärungen gesprochen haben, so verstanden wir dabei meist kausale Erklärungen, ohne dies explizit hervorzuheben. Kausale Erklärungen verknüpfen eine Ursache mit einer Wirkung. Dabei geht die Ursache der Wirkung zeitlich voraus und die Wirkung ist eine notwendige Folge der Ursache. Naturwissenschaftliche Erklärungen fußen ausschließlich auf kausalen Erklärungen. Wie in dem Kapitel über Induktion angesprochen, gibt es keine logische Verknüpfung zwischen Ursache und Wirkung, beide sind logisch voneinander unabhängig. Der Glaube an die Notwendigkeit der Abfolge der beiden Ereignisse beruht, wie Hume gezeigt hat, auf Gewohnheit. Wir sind, da wir nur unsere Beobachtungen zur Interpretation der Ereignisse heranziehen können, darauf beschränkt, lediglich eine äußere Koinzidenz zweier Klassen von Ereignissen festzustellen. Obwohl wir immer nur diesen äußeren Zusammenhang erfassen können, so haben wir intuitiv doch oft das Gefühl, dass es auch einen inneren Zusammenhang zwischen Ursache und Wirkung geben muss. Man kann wohl sogar sagen, dass es die Vorstellung eines inneren Zusammenhangs ist, die das Konzept der Kausalität ursprünglich überhaupt erst entstehen ließ. Die Vorstellung, dass etwas verursacht ist, setzte in den Anfängen menschlichen philosophischen Denkens einen Willensakt voraus. Die ersten Erklärungen von Naturphänomenen wie Stürmen, Gewittern, aber auch den Bewegungen der Planeten griffen immer auf Willkürakte bestimmter Gottheiten zurück. Dies sind Vorstellungen, die sich in alten Mythen, seien es babylonische, indische, ägyptische oder griechische, wieder finden lassen, genauso wie in der Naturphilosophie des Aristoteles, der jede Bewegung als verursacht ansah und als letzten Grund des Kosmos daher folgerichtig die Existenz eines ersten Bewegers ableitete. Auch Kleinkinder entwickeln ihr Kausalitätsschema im frühen Alter durch die Entdeckung, dass sie selbst in der Lage sind, manipulativ in ihre Umwelt einzugreifen (Piaget 1988). Ebenso gehen so genannte emergenzphilosophische Anschauungen davon aus, dass ein innerer Zusammenhang zwischen Ursache und Wirkung besteht. Die Wirkung ist dabei immer schon in der Ursache enthalten als deren Potenzial, sich zu verwirklichen. Die Wirkung schlummert dieser Sichtweise entsprechend sozusagen in der Ursache, um sich dann aus ihr heraus zu entfalten.
Annahme kausaler Zusammenhänge ist urmenschliches Bedürfnis
Charakteristisch für die neuzeitliche Naturphilosophie hingegen ist die Reduktion des Kausalzusammenhangs auf seinen äußeren Aspekt. Unter anderem als Folge davon entwickelt sie sich erst zur Naturwissenschaft. Allerdings behielten gewisse Konzepte auch der neuzeitlichen Wissenschaft oft einen animistischen Zug, so wie der ominöse Begriff der Kraft, die sich zuweilen bis ins 20. Jahrhundert als Atavismen einer von Geistern und Dämonen beherrschten Naturauffassung hinüberretten konnten. Die 'Entzauberung der Welt', der Verzicht auf den inneren Zusammenhang zwischen Ereignissen, der durch göttliche Willkürakte hergestellt wurde, ist gleichzeitig notwendige wie hinreichende Bedingung für die Entwicklung einer Wissenschaft, die ihr primäres Ziel darin sieht, die Grundlage zur Entwicklung bestimm-
Verzicht auf Verständnis des inneren Zusammenhangs: Entzauberung der Welt
102
Kapitel 10 Erklären und Verstehen
ter technischer Verfahren zu stellen, die ihrerseits der Förderung des allgemeinen Wohlstands dienen sollen. Es genügt, den äußeren Zusammenhang zwischen bestimmten Ereignissen zu erfassen, um Maschinen oder Institutionen zu bauen, bei denen eine bestimmte Ursache bewusst manipulativ eingesetzt wird, um eine bestimmte Wirkung hervorzurufen. Für die Effizienz der Maschine ist es unerheblich, wie der innere Zusammenhang zwischen den Ereignissen aussieht oder ob es einen solchen überhaupt gibt. Für unser Verständnis eines beobachteten Zusammenhangs jedoch ist der innere Aspekt bedeutend, der zu erklären vermag, warum dieser Zusammenhang überhaupt besteht. Dies kann dadurch geschehen, dass wir einen bestimmten gesetzesähnlichen Zusammenhang auf einen allgemeineren gesetzesähnlichen Zusammenhang zurückführen. Dadurch gewinnt unsere Erklärung an Tiefe, und wir gewinnen ein weitergehendes Verständnis für das Wirken des kausalen Mechanismus. Keine natürliche letzte Ebene in der Begründung in den Naturwissenschaften
Natürliche letzte Ebene der Begründung in den Sozialwissenschaften: sinnhaftes menschliches Handeln
Teleologische Erklärung und praktischer Syllogismus
In den Naturwissenschaften erhöht sich so das Verständnis für ein Phänomen der höheren Ebene, wenn es durch Rückgriff auf tiefer liegende Ebenen erklärt werden kann. Gewisse thermodynamische Zusammenhänge, die nur auf der Makroebene beobachtet werden können, z.B. die Volumenveränderungen von Gasen durch Erwärmung, können durch die Rückführung auf eine allgemeinere und tiefere Ebene, in diesem Fall die der Brown'schen Molekularbewegung, besser verstanden werden. Der Prozess der Rückführung auf tiefere Ebenen findet jedoch kein logisches Ende. Das derzeitige Ende ist immer das des aktuellen Forschungsstandes. Auf der letzten, derzeit zur Verfügung stehenden Erklärungsebene, müssen die beobachteten Zusammenhänge schlicht akzeptiert werden; sie selbst können nicht mehr erklärt werden. In den Sozial- und Humanwissenschaften hingegen gibt es eine 'natürliche' logisch letzte Ebene der Erklärung, die sich aus der Selbstdefinition des Fachs ergibt. Dies ist diejenige des sinnhaften menschlichen Handelns, wie es z.B. Max Weber verstanden hat (Weber 1988). Im Unterschied zur Naturwissenschaft müssen wir Zusammenhänge auf dieser letzten Ebene nicht einfach akzeptieren, sondern können sie, indem wir ihnen einen Sinn unterstellen, "deutend verstehen" (Weber 1988: 542). Wir vertiefen z.B. unser Verständnis des Verhaltens eines sozialen Systems, wenn es mit Hilfe von individuellen Handlungen erklärt werden kann, die wir wiederum verstehen können. Wir können Handlungen erklären, indem wir auf den Zweck verweisen, der mit der Handlung offensichtlich oder vermutlich verfolgt werden sollte. Solche Erklärungen, die sich auf intentionale Akte beziehen, nennen wir teleologische Erklärungen. Eine Schlüsselrolle für diese Art von Erklärungen spielt der so genannte praktische Syllogismus.
Kapitel 10 Erklären und Verstehen
103
Die Person A beabsichtigt, den Zustand e herbeizuführen. A weiß, dass der Zustand e nur dann eintreten kann, wenn A die Handlung p vollzieht. _________________________________________________________________ A vollzieht die Handlung p. Der praktische Syllogismus ist keine logische Argumentform. Mit Hilfe des praktischen Syllogismus können wir aus den Absichten einer Person auf ihre Handlungen schließen. Wenn wir wissen, dass eine bestimmte Person gewisse Ziele verfolgt und dass diese Person glaubt, dass nur ein bestimmtes Mittel dieses Ziel verwirklichen kann, dann vermuten wir, dass die Person dieses Mittel einsetzen wird. Um das konkrete Mittel, die konkrete Handlung korrekt vorauszusagen, muss die Handlung die einzige sein, die zur Erreichung des Ziels geeignet ist. In den meisten Fällen ist es jedoch so, dass mehrere Handlungen zur Erreichung eines Ziels eingesetzt werden können. Wir können uns in solchen Fällen eine Handlung auch dann erklären, wenn das eingesetzte Mittel eines von mehreren ist, die alle gleichermaßen geeignet sind, das Ziel zu verwirklichen. Erklärungen in Argumentform werden auf zweierlei Weise angewandt. Der Sinn, in dem wir sie bisher erläutert haben, war der folgende: Wenn die Konklusion vorliegt und die Prämissen vorliegen, dann können wir das Vorliegen der Konklusion durch das Vorliegen der Prämissen hinreichend erklären. Häufig ist es jedoch der Fall, dass nur die Konklusion vorliegt und wir nach Erklärungen für das Vorliegen der Konklusion suchen. Denken wir wieder an das Beispiel der nassen Straße. Wenn wir wissen, dass es geregnet hat oder dass die Straßenreinigung heute früh unterwegs war, dann können wir uns damit erklären, dass die Straße nass ist. Wenn wir nur feststellen, dass die Straße nass ist, können wir nur Vermutungen anstellen, warum dies der Fall ist, wir suchen nach plausiblen Erklärungen. Eine plausible Erklärung könnte sein, dass es heute Nacht geregnet hat. Wenn es allerdings gestern ein schöner Abend war, dann kommt uns diese Vermutung nicht sehr nahe liegend vor. Wenn wir uns jetzt erinnern, dass heute Dienstag ist und jeden Dienstag früh die Straßenreinigung kommt, dann werden wir dies für die plausiblere und wahrscheinlichere Erklärung halten. Diese Ableitung der plausibelsten Erklärung für das Auftreten eines beobachteten Ereignisses ist eine neue Art der Ableitung und wurde von dem Philosophen Charles Sanders Peirce daher mit einem eigenen Namen, Abduktion, bedacht. Wie wir am Beispiel der nassen Straße gesehen haben, hängt, was wir für die plausibelste Erklärung einer Beobachtung halten, vom Hintergrundwissen ab, über das wir verfügen. Gerade bei Handlungen suchen wir häufig nach der plausibelsten Erklärung. Die schon früher angeführte Metapher des Detektivs kann auch hier wieder weiterhelfen. Meist steht ja der Detektiv vor der Aufgabe, die Gründe für eine schon verübte Handlung, das Verbrechen, zu finden. Ein Mord z.B. kann aus vielerlei
Zwei Möglichkeiten der Verwendung von Argumenten: 1. Erklärung der Konklusion aus Vorliegen der Prämissen 2. Keine eindeutigen Prämissen vorhanden – Suche nach plausibler Erklärung ("Abduktion")
104
Kapitel 10 Erklären und Verstehen
Gründen begangen werden, Habgier, Eifersucht, Neid usw. Die Suche nach dem Motiv ist gleichzusetzen mit der Suche nach der plausibelsten Erklärung. Wenn der Ermordete ein alter und armer Mann ist, dann schließen wir Habgier als Motiv aus, weil niemand finanziell von seinem Tod profitiert. (Anders verhält es sich natürlich, wenn wir erfahren, dass der Sohn kurz zuvor eine Lebensversicherung für das Opfer abgeschlossen hat, die ihn begünstigt.) Ist das Opfer eine schöne, junge Frau, von der wir zudem erfahren, dass sie ein bewegtes Liebesleben hatte, dann können wir uns gut vorstellen, dass Eifersucht ein Motiv gewesen sein könnte. Das Verstehen von Motiven hilft uns bei der Suche nach der Erklärung der Tat. Was bei naturwissenschaftlichen Gesetzen die geniale Intuition des Wissenschaftlers bewirkt, die ihn befähigt, die Form der Zusammenhänge zu erahnen, das bewirkt in den Sozialwissenschaften bei der Erklärung von menschlichen Handlungen das Einfühlungsvermögen, aufgrund dessen wir die Handlungen verstehen und somit auch erklären können.
Teil B
Statistik
11 Die Urliste, absolute und relative Häufigkeiten Eine der Hauptaufgaben der Statistik besteht darin, den ansonsten unübersichtlichen Datenwust in einer Form zu präsentieren, die übersichtlich ist, Komplexität reduziert und somit eine intuitive Erfassung des Wesens der Daten ermöglicht. Mit Hilfe der deskriptiven Statistik können – wie der Name schon sagt – mit sparsamen Mitteln Daten beschrieben werden. Sie hat den Vorteil, dass die wichtigen und charakteristischen Eigenschaften einer Menge von Daten so abgebildet werden, dass wir auf einen Blick die Struktur der Daten erkennen können. Die deskriptive Statistik vermittelt uns ein Gefühl der Vertrautheit mit den Daten, weil wir sehen können "was Sache ist". Außerdem stößt sie oft in den Bereich der so genannten explorativen Datenanalyse vor, indem sie uns zu Vermutungen über Zusammenhänge zwischen den Daten bringt, die uns auf Grund der deskriptiven Aufbereitung der Daten ins Auge fallen. Die Anwendung der Methoden der deskriptiven Statistik ist in diesem Fall der erste Schritt zur Bildung neuer Hypothesen, die wir dann mit den geeigneten Methoden der inferenziellen oder induktiven Statistik näher untersuchen können. Das Wesen jeder wissenschaftlichen Untersuchung besteht darin, von Einzelaussagen zu abstrahieren und zu Aussagen über Gesamtheiten bzw. Gruppen zu gelangen, wobei diese wiederum auf singuläre Aussagen zurückzuführen sind. Die einfachste mögliche Aussage, die man auch als elementar oder atomar bezeichnen kann, beruht auf der Zuweisung eines Merkmals zu einem Objekt, das wir deshalb auch einen Merkmalsträger nennen. Der Satz 'Johannes hat blaue Augen.' lässt sich z.B. kürzer formal in der Schreibweise der Prädikatenlogik mit 'Pa' darstellen, wobei das Prädikat P für 'Hat blaue Augen' stehen würde und das Objekt a für 'Johannes'. Genau die gleiche Information könnten wir auch tabellarisch in folgender Form darstellen. Tabelle 11.1: Einfache Urliste Name
Augenfarbe
Johannes
blau
Diese Darstellung mag für einen einzelnen Satz etwas übertrieben aufwendig scheinen, aber ihre Zweckmäßigkeit offenbart sich schnell, wenn es um die Darstellung einer großen Menge von elementaren Aussagen geht, die alle dasselbe Prädikat enthalten, also sich alle auf dieselbe Eigenschaft beziehen. Anstelle von 'Johannes hat blaue Augen', 'Nathalie hat grüne Augen', 'Peter hat braune Augen' usw. können wir auch tabellarisch schreiben:
Einfachste Aussage: Zuweisung eines Merkmals zu einem Objekt
106
Kapitel 11 Die Urliste, absolute und relative Häufigkeiten
Tabelle 11.2: Erweiterte Urliste
Urliste
Name
Augenfarbe
Johannes
blau
Nathalie
grün
Peter
braun
Michael
blau
Matthias
blau
Joachim
braun
Sabine
grau
Angelika
grün
Thomas
blau
Heike
braun
Udo
blau
Christian
blau
Die erste Spalte der Tabelle enthält die Namen, die der Identifizierung der Objekte bzw. der Merkmalsträger dienen. Die zweite Spalte der Tabelle enthält die beobachteten Merkmale bzw. Eigenschaften selbst. Eigenschaften nennen wir in der Statistik auch Variablen. Die Datenmenge, die die Ausprägungen von einer Variablen für eine Menge von Objekten enthält, nennen wir die Urliste, die Rohdaten oder Primärdaten. Die Urliste ist nie nur eine Sammlung von Werten einer Variablen, sondern enthält immer eine Verknüpfung der Werte mit den Objekten, an denen sie erhoben wurden. Diese Verknüpfung kann explizit sprachlich ausgedrückt sein wie in 'Johannes hat blaue Augen' oder durch die Definition der Tabellenstruktur, dass Zeilen immer Fällen (= Objekten) und Spalten immer Variablen (= Eigenschaften) entsprechen. Die Urliste ist daher nichts anderes als ein systematisch angelegtes Protokoll unserer empirischen Erfahrungen mit der realen Welt. Die Rohdaten sind gewissermaßen die Rückbindung unserer Aussagen an die Wirklichkeit und gewährleisten auf diese Weise die 'Bodenhaftung' unserer Forschung. Wissenschaftliche Aussagen jedoch, um deren Gewinnung es uns schließlich geht, zeichnen sich durch einen mehr oder weniger großen Grad von Abstraktheit und Allgemeinheit aus. Wissenschaftliche Aussagen lösen sich somit sukzessive von der Objektebene und gelangen im Idealfall zu Sätzen, die nur noch von Eigenschaften oder – genauer gesagt – von Beziehungen zwischen verschiedenen Eigenschaften handeln. Während besondere Sätze immer aus Verknüpfungen von Individualien und Universalien bestehen, enthalten allgemeine Sätze nur noch Universalien.
Kapitel 11 Die Urliste, absolute und relative Häufigkeiten
107
Die erste Stufe der Verallgemeinerung ist die Zusammenfassung der einzelnen Absolute und relative Häufigkeitsverteilung Beobachtungen zu einem Gesamteindruck. Dazu bilden wir die absoluten und relativen Häufigkeiten der Merkmalsausprägungen in einer Gruppe. Obwohl unsere Beispielgruppe aus zwölf Personen besteht und es demnach zwölf Werte der Variablen 'Augenfarbe' gibt, treten doch nur vier verschiedene Augenfarben auf. Als absolute Häufigkeit einer Ausprägung bezeichnen wir die Anzahl des Vorkommens der Variablenwerte mit dieser Ausprägung. Die Darstellung aller absoluten Häufigkeiten der Merkmalsausprägungen aller Merkmalsträger einer Gruppe nennen wir die absolute Häufigkeitsverteilung. Als relative Häufigkeit einer Ausprägung wird der Anteil der Werte mit dieser Ausprägung an allen Werten bezeichnet. Die relative Häufigkeitsverteilung ist die Gesamtdarstellung aller relativen Häufigkeiten aller vorkommenden Ausprägungen. Relative Häufigkeiten können auch in Prozent angegeben werden. Den entsprechenden Wert erhält man durch Multiplikation der relativen Häufigkeit mit 100. Die absolute und relative Häufigkeitsverteilung für unser Beispiel sind in der folgenden Tabelle zu sehen. Tabelle 11.3: Absolute und relative Häufigkeiten relative Häufigkeit*
Augenfarbe
absolute Häufigkeit
relative Häufigkeit (in Prozent)
blau
6
0,5
50
grün
2
0,17
17
braun
3
0,25
25
grau
1
0,08
8
(*auf zwei Kommastellen gerundet)
Oft werden in wissenschaftlichen Texten nur die relativen Häufigkeiten angegeben, da in der Regel nur die Verhältnisse des Auftretens verschiedener Werte interessieren und diese mit den relativen Häufigkeiten am schnellsten erfasst werden können. In diesem Fall muss aber unbedingt die Fallzahl, auf die sich die relativen Häufigkeiten beziehen, mit angegeben werden. Üblicherweise wird die Fallzahl mit n bezeichnet. Streng genommen ist die Häufigkeitsverteilung der Merkmalsausprägungen der Aggregation von individuellen MerkmalsausMitglieder einer Gruppe keine echte Verallgemeinerung, sondern lediglich eine prägungen aggregierte Darstellung der individuellen Sachverhalte. Dabei wird zwar vom Einzelindividuum abstrahiert, aber die Häufigkeitsaussagen beziehen sich immer auf eine spezifische Gruppe, die dadurch definiert ist, dass sie sich genau aus den betreffenden Einzelfällen zusammensetzt. Wenn wir von Variablen in einem ganz allgemeinen Sinn sprechen, d.h. wenn wir Formale Darstellung von Variablen z.B. über Eigenschaften einer bestimmten Sorte von Variablen sprechen (etwa über Variablen eines bestimmten Skalenniveaus) bietet es sich an, als Variablennamen kurze und semantisch sinnlose Zeichen oder Zeichenketten zu verwenden. Es hat sich daher eingebürgert, für die allgemeine Darstellung von Variablen, ins-
108
Kapitel 11 Die Urliste, absolute und relative Häufigkeiten
besondere in Formeln, große Buchstaben wie z.B. X oder Y zu verwenden. Werte oder Ausprägungen einer Variablen werden mit kleinen Buchstaben dargestellt. Um die Zuordnung eines Variablenwertes zu einem bestimmten Objekt zu zeigen, werden die Objekte einfach durchnummeriert und die Werte mit der Zahl, die dem entsprechenden Objekt zugeordnet ist, als Index versehen. Der Variablenwert xi ist demnach die Ausprägung der Variablen X des i-ten von insgesamt n Objekten. In unserem Beispiel von oben ist Peter die dritte Person in der Urliste. Peter hat braune Augen. Wenn X die Variable 'Augenfarbe' ist, hätte das Symbol x3 hier die Ausprägung des dritten Objekts (braun). Die verschiedenen logisch möglichen Ausprägungen einer Variablen werden mit dem kleinen Buchstaben a gekennzeichnet. Auch die Ausprägungen werden indiziert, wobei der Index j besagt, dass es sich bei der Ausprägung aj um die j-te Ausprägung aller möglichen Ausprägungen handelt. In unserem Beispiel hat die Variable 'Augenfarbe' vier mögliche Ausprägungen, nämlich 'blau', 'grau', 'grün' und 'grau'. Diese ließen sich darstellen als a1 (blau), a2 (grau), a3 (grün) und a4 (grau). Die Anzahl aller vorkommenden Ausprägungen wird mit k bezeichnet. Sowohl die absolute wie auch die relative Häufigkeit können als Funktionen der Ausprägungen aufgefasst werden, da sie jedem Wert der Menge aller möglichen Ausprägungen einen bestimmten Funktionswert eindeutig zuordnen. Üblicherweise wird die absolute Häufigkeit der Ausprägung aj als h(aj) geschrieben, und die relative Häufigkeit wird als f(aj) notiert. Die formale Definition der absoluten Häufigkeit sieht folgendermaßen aus:
hj
n
¦ V(x ,a ) i
j
i 1
mit ª¬ V(xi ,a j ) 1º¼ (xi a j ) und ª¬ V(xi ,a j ) 0 º¼ (xi z a j )
(11.1)
Hierbei ist V eine Vergleichsfunktion. Sie vergleicht die Werte xi und aj und nimmt den Wert 1 an, wenn sie gleich, den Wert 0, wenn sie verschieden sind. Im folgenden Kasten sind alle eingeführten formalen Notationen noch einmal zusammenfassend dargestellt.
Kapitel 11 Die Urliste, absolute und relative Häufigkeiten
Kasten 11.1: Sammlung formaler Notationen X
Variablenname
1, 2, 3 ... i ... n = {i | i N, i d n}
Indexmenge der Objekte
xi
Wert der Variablen des i-ten Objekts
x1, x2, … xi … xn = {xi| i N, i d n} Urliste, Rohdaten, Primärdaten 1, 2, 3 ... j ... k = {j| j N, j d k}
Indexmenge der Merkmalsausprägungen
aj
j-te Merkmalsausprägung
h(aj) = hj
absolute Häufigkeit der Ausprägung aj
f(aj) = fj =
hj n
relative Häufigkeit der Ausprägung aj
h1, h2 ... hj ... hk
absolute Häufigkeitsverteilung
f1, f2 ... fj ... fk
relative Häufigkeitsverteilung
109
110
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
12 Die grafische Darstellung von Häufigkeitsverteilungen Häufigkeitsverteilungen lassen sich auch grafisch darstellen. Die Verwendung von Diagrammen hat den Vorteil, dass sich die Form einer Verteilung auf einen einzigen Blick erschließt und einem Besonderheiten einer Verteilung auffallen, die beim bloßen Durchsehen der tabellarischen Notation vielleicht übersehen worden wären. Die elementarste grafische Darstellung ist das so genannte Stabdiagramm. Den Ausprägungen der Variablen wird dabei auf einer horizontalen Achse ein bestimmter Ort zugewiesen, und die Häufigkeit der entsprechenden Ausprägung wird durch die Länge eines senkrechten "Stabes" wiedergegeben, dessen unteres Ende sich auf der horizontalen Achse befindet. Die Verteilung der Augenfarbe im obigen Beispiel sieht in einem Stabdiagramm dargestellt folgendermaßen aus: Stabdiagramm
Säulendiagramm
Abbildung 12.1: Stabdiagramm – Häufigkeitsverteilung der Augenfarbe
Säulendiagramme sind vollkommen analog zu Stabdiagrammen aufgebaut, lediglich wird hier die Häufigkeit durch die Höhe einer Säule dargestellt. Säulendiagramme (englisch: Bar Charts) sind die wohl am weitesten verbreitete Form von Diagrammen.
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
111
Abbildung 12.2: Säulendiagramm 7 6 5 4 3 2 1 0 blau
grün
braun
grau
Balkendiagramme sind Säulendiagramme, bei denen die Achsen vertauscht sind, Balkendiagramm also die Ausprägungen auf der vertikalen Achse abgetragen werden und die Häufigkeiten durch die Länge horizontaler Balken abgebildet werden. Abbildung 12.3: Balkendiagramm grau braun grün blau 0
2
4
6
8
Auch wenn üblicherweise in Stab-, Säulen- oder Balkendiagrammen die absoluten Kreisdiagramm Häufigkeiten angegeben werden, so ist die Form des Diagramms für relative Häufigkeiten natürlich vollkommen identisch, lediglich der Maßstab, auf dem die Länge der Stäbe, Säulen oder Balken abgetragen wird, ändert sich. Eine Diagrammart, die sich jedoch schon aufgrund ihrer Struktur besonders gut für die Darstellung von Anteilen, also relativen Häufigkeiten, eignet, ist das so genannte Kreis- oder Kuchendiagramm. Die relativen Häufigkeiten entsprechen dabei dem Flächenanteil bestimmter Kreissegmente, bzw. dem Winkel des jeweiligen Kreissektors.
112
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
Abbildung 12.4: Kreisdiagramm grau 8%
braun 25% blau 50%
blau grün braun grau
grün 17%
Tabellarische Darstellung
Sowohl die tabellarische als auch die grafische Darstellung einer Häufigkeitsverteilung ist nur möglich, wenn die Anzahl der Ausprägungen einer Variablen nicht unübersichtlich hoch ist. Da insbesondere nominalskalierte Variablen aufgrund ihrer Struktur in der Regel über wenige Ausprägungen verfügen, werden diese Darstellungsformen auch besonders häufig zu deren illustrativer Abbildung herangezogen. Problematisch sind hingegen Variablen, die über eine sehr große Anzahl von Ausprägungen verfügen und bei denen darüber hinaus die meisten Ausprägungen nur einmal oder höchstens zwei- oder dreimal auftauchen. Die Variable "Anzahl der Wahlberechtigten" für die Gruppe "Bundestagswahlkreise 1994" hat genauso viele Ausprägungen wie es Fälle gibt, d.h. jede Ausprägung kommt genau einmal vor. Eine tabellarische Darstellung würde sich über mehrere Seiten erstrecken und kaum besonders interessante Gesamteindrücke vermitteln. Daher ist die Tabelle hier zur Illustration auch nur ausschnittsweise dargestellt.
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
113
Tabelle 12.1: Anzahl der Wahlberechtigten in Wahlkreisen Nr. Wahlkreis
Wahlberechtigte
Häufigkeit Prozent
1
Rostock-Land – Ribnitz-Damgarten – Teterow – Malchin
124126
1
0,3
2
Herne
130014
1
0,3
3
Gelsenkirchen I
130095
1
0,3
4
Wuppertal II
133021
1
0,3
5
Gelsenkirchen II – Recklinghausen III
134037
1
0,3
6
Dortmund II
134958
1
0,3
7
Bremen-West
135932
1
0,3
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
322 Hamm – Unna II
240224
1
0,3
323 Segeberg – Stormarn-Nord
241055
1
0,3
324 Heilbronn
241160
1
0,3
325 Montabaur
241371
1
0,3
326 Freising
245933
1
0,3
327 Augsburg-Land
247541
1
0,3
328 Rastatt
252253
1
0,3
n
328
100,0
Der erste Eindruck beim Lesen der Tabelle ist der, dass die Anzahl der Wahlberechtigten offensichtlich beträchtlich zwischen den Wahlkreisen schwankt. Der Wahlkreis mit den meisten Wahlberechtigten hat davon mehr als doppelt so viele wie der Wahlkreis mit den wenigsten Wahlberechtigten. Man kann aber kaum erkennen, wie sich die übrigen Werte innerhalb dieser Bandbreite verteilen. Auch ein Stabdiagramm hilft nur wenig weiter. Da jede Ausprägung nur einmal vorkommt, sind alle Stäbe gleich hoch. Allerdings lässt sich zumindest eine gewisse Häufung von Werten innerhalb bestimmter Bereiche erkennen, da dort die Dichte der Stäbe höher ausfällt. Trotzdem bleibt auch dieser Eindruck nur vage und kann kaum zu einer präzisen Beschreibung der Häufigkeitsverteilung herangezogen werden.
114
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
Abbildung 12.5: Stabdiagramm – Anzahl der Wahlberechtigten in 328 Wahlkreisen
Kontinuierliche Variablen
Das Problem besteht darin, dass das "Messverfahren" – exakte Zählung der Wahlberechtigten in einem Wahlkreis – genauere Ergebnisse liefert, als sie uns für bestimmte sprachliche Formulierungen der Verhältnisse lieb sind. Z.B. könnte es sein, dass wir nur grob zwischen "kleinen", "mittleren" und "großen" Wahlkreisen unterscheiden wollen. Wir müssen also unterscheiden zwischen einem für bestimmte Darstellungsformen relevanten Grad der Präzision der Daten und dem tatsächlich erhobenen Grad der Präzision der Daten. Im Falle der Wahlberechtigten pro Wahlkreis übertrifft letzterer ersteren offensichtlich erheblich, wenn wir eine sinnvolle Darstellung in Tabellen oder Diagrammen anstreben. Dieses "Problem" tritt generell auf bei so genannten kontinuierlichen Variablen. Während diskrete Variablen nur eine begrenzte Anzahl ganz bestimmter Ausprägungen haben, können kontinuierliche Variablen im Prinzip jeden beliebigen Wert innerhalb eines Kontinuums von Werten annehmen. Allerdings hängen die konkreten Werte innerhalb des Kontinuums, die einem Fall in der Praxis zugewiesen werden können, von der Präzision des verwendeten Messverfahrens ab. Die Variable Körpergröße z.B. ließe sich im Prinzip in extrem feinen Abstufungen erheben, wenn jedoch nur ein normaler Meterstab zur Messung verwendet wird, können wir bestenfalls auf das Präzisionsniveau von Millimetern gelangen. Übliche Messungen der Körpergröße begnügen sich zumeist mit der Messung in Zentimetern. Dies ist auch überaus sinnvoll, da bekanntlich die Schwankungen der Körpergröße über den Tag ebenfalls in der Größenordnung von Zentimetern liegen können. Darüber hinaus gibt es Messfehler und Messungenauigkeiten, die sich nie hundertprozentig ausmerzen lassen. Grundsätzlich gilt, dass wir die Maßeinheit der Messung immer so wählen sollten, dass die unvermeidlichen Fehler und Ungenauigkeiten in der Größenordnung der Maßeinheit bleiben und somit das Messergebnis nicht erheblich verändern.
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
Das Problem mit kontinuierlichen Variablen besteht nicht in ihrer Kontinuität an Gruppierung sich, sondern dass sie für bestimmte Interpretationszwecke sozusagen übergenau gemessen worden sind und über zu viele Ausprägungen verfügen, als dass eine prägnante kurze Darstellung in Häufigkeitstabellen oder –diagrammen noch möglich wäre. Die Variable "Wahlberechtigte" teilt mit kontinuierlichen Variablen diese Eigenschaft der übergenauen Messung, obwohl die Variable selbst natürlich diskret ist, da es ja nur eine bestimmte Anzahl von Wahlberechtigten geben kann. Um das Problem der übergenauen Messung zu entschärfen, werden Daten zu Gruppen von Werten zusammengefasst, die sich innerhalb eines bestimmten Intervalls von festgelegten Werten befinden. Z.B. können wir alle Wahlkreise zu Gruppen mit Intervallen von je 10 000 Wahlberechtigten zusammenfassen. Tabelle 12.2: Gruppierte Daten – Wahlberechtigte Wahlberechtigte
Häufigkeit
120000-129999
1
0,3
130000-139999
13
4,0
140000-149999
25
7,6
150000-159999
34
10,4
160000-169999
45
13,7
170000-179999
39
11,9
180000-189999
36
11,0
190000-199999
30
9,1
200000-209999
35
10,7
210000-219999
28
8,5
220000-229999
18
5,5
230000-239999
17
5,2
240000-249999
6
1,8
250000-259999
1
0,3
328
100,0
Gesamt
Prozent
Diese Zusammenfassung zu Gruppen ist logisch nur für Daten möglich, die min- Histogramm destens auf Ordinalskalenniveau erhoben worden sind, sinnvoll ist sie jedoch erst ab Intervallskalenniveau. Bei der Gruppierung von Daten handelt es sich gewissermaßen um einen künstlich ex post erzeugten Verlust an Präzision der Messung. Da die Intervallbreite jeder Gruppe im direkten Zusammenhang mit der Genauigkeit der Messung innerhalb dieser Gruppe steht – je größer das Intervall, desto gröber die Maßeinheit der Messung –, sollten die Intervallbreiten der einzelnen Gruppen oder Klassen – wenn möglich – gleich breit sein. Histogramme genügen dem so genannten Prinzip der Flächentreue, d.h. die Fläche (das Produkt aus Balkenbreite und Balkenhöhe) des zu einer bestimmten Klasse gehörigen Balkens ist
115
116
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
direkt proportional zur Anzahl der in dieser Gruppe enthaltenen Fälle. Die Höhe des einzelnen Balkens ist demnach direkt proportional zur empirischen Häufigkeitsdichte innerhalb einer Gruppe. Diese ist die durchschnittliche Anzahl von Werten in der Klasse, die sich innerhalb einer Maßeinheit befinden. Befinden sich z.B. 500 Fälle in einem Intervall mit der Breite 10, so ist die durchschnittliche Anzahl von Fällen pro Breiteneinheit 50. Die "gröbere" Messung durch Gruppierung der Daten erleichtert zwar manche Darstellung, ist aber immer auch mit einem Informationsverlust verbunden. Daher sollte bei der Gruppierung von Daten immer darauf geachtet werden, dass die ursprünglichen Daten dennoch irgendwo gespeichert bleiben. Gruppierte Daten können wie oben sinnvoll in Tabellen, aber auch in Säulendiagrammen dargestellt werden. Die entsprechenden Diagramme werden jetzt allerdings Histogramme genannt. Abbildung 12.6: Histogramm gruppierter Daten – senkrecht 50
45
45
39
40
34
35
36
35 30
30
25
28
25 18
20 15 10 5
17
13 6 1
1
12 00 00 -1 13 00 299 99 00 -1 14 00 399 99 00 -1 15 00 499 99 00 -1 16 00 599 99 00 -1 17 00 699 99 00 -1 18 00 799 99 00 -1 19 00 899 99 00 -1 20 00 999 99 00 -2 21 00 099 99 00 -2 22 00 199 99 00 -2 23 00 299 99 00 -2 24 00 399 99 00 -2 25 00 499 99 00 -2 59 99 9
0
Unterschied zwischen Histogramm und Säulen- oder Balkendiagramm
Der entscheidende Unterschied zwischen Histogrammen und Säulen- oder Balkendiagrammen besteht darin, dass in Histogrammen die Säulen aneinander grenzen, um darauf aufmerksam zu machen, dass es sich um die Darstellung von im Prinzip auf der horizontalen Achse mehr oder weniger kontinuierlich verlaufenden Variablen handelt. Während die Anordnung der Säulen in Säulendiagrammen beliebig ist, ist sie in einem Histogramm festgelegt. Histogramme können – genauso wie Balkendiagramme – auch waagerecht ausgerichtet sein.
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
117
Abbildung 12.7: Histogramm gruppierter Daten- waagrecht 1 240000-249999
6 17
220000-229999
18 28
200000-209999
35 30
180000-189999
36 39
160000-169999
45 34 25
140000-149999 13 120000-129999
1 0
5
10
15
20
25
30
35
40
45
50
Durch den Informationsverlust bei der Gruppierung lässt sich nicht mehr unter- Stamm-Blatt-Diagramm scheiden, ob zwei Werte innerhalb einer Gruppe eng beisammen liegen oder annähernd über die gesamte Intervallbreite voneinander entfernt sind. So genannte Stamm-Blatt Diagramme (englisch: Stem-Leaf Diagrams) versuchen, einen Teil der Information, der durch die Gruppierung in einem Histogramm verloren geht, zu erhalten. Der "Stamm" des Diagramms wird auf der Größenordnung gebildet, anhand derer auch die Gruppierung vorgenommen wird. In unserem Beispiel der Wahlberechtigten in einem Wahlkreis waren dies die vollen Zehntausender, die in einer Zahl enthalten sind. Die so erhaltenen Werte des Stamms werden untereinander abgetragen. Als "Blätter" wird – optisch vom Stamm leicht abgesetzt – nach rechts für jeden Fall eines Stamms die Ziffer abgetragen, die der nächst genaueren Größenordnung entspricht, im Beispiel wären dies die Tausender. Der durch den Umriss des Diagramms optisch vermittelte Gesamteindruck entspricht dem eines horizontalen Histogramms, zusätzlich jedoch kann man für jeden Fall die ungefähre Größe des durch die Gruppierung missachteten Rests des originalen Variablenwerts erkennen.
118
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
Abbildung 12.8: Stamm-Blatt Diagramm: Wahlberechtigte Stamm
Kumulierte Häufigkeitsverteilung
Blatt
Anzahl
12
4
1
13
0034456778999
13
14
0000223445577777888899999
25
15
0011222223333444444455566788888899
34
16
000001111222222233333455555566666777788888999
45
17
011111111222223344444555566666788899999
39
18
000000111112334444566777888888999999
36
19
000000111122333334456667789999
30
20
00011111112222333344455666677899999
35
21
0011111222333445556678888899
28
22
011122334445666899
18
23
00222345555577889
17
24
011157
6
25
2
1
In vielen Fragestellungen interessiert es uns lediglich, wie groß der Anteil der Fälle ist, die unter einem bestimmten Wert liegen, oder wie groß der Anteil von Ausprägungen ist, die zwischen zwei Werten liegen. Für die Beantwortung und Untersuchung solcher Fragestellungen benützt man die Darstellung der kumulierten Häufigkeitsverteilung. Diese kann sowohl für die absoluten Häufigkeiten als auch für die relativen Häufigkeiten berechnet werden. Die absolute kumulierte Häufigkeitsverteilung gibt für jede Ausprägung der Variablen die Summe der Fälle an, die diese oder eine geringerwertige Ausprägung besitzen. Kumulierte Häufigkeitsverteilungen lassen sich folglich nur dann bilden, wenn die Werte der Variablen in eine geordnete Reihenfolge gebracht werden können, wenn also die Variablen mindestens ordinalskaliert sind. Die relative kumulierte Häufigkeitsverteilung gibt für jede Ausprägung der Variablen den Anteil der Fälle an, deren Ausprägung der Variablen kleiner oder gleich dem kritischen Wert ist. Kumulierte Häufigkeiten sind Funktionen, die bestimmten Werten, den so genannten Argumentwerten, einen Funktionswert zuordnen. Für die absolute kumulierte Häufigkeitsverteilung wird zur Darstellung üblicherweise der Großbuchstabe H verwendet, für die relative kumulierte Häufigkeitsverteilung, die auch empirische Verteilungsfunktion genannt wird, der Großbuchstabe F. Formal lässt sich die kumulierte Verteilung – analog zum Verfahren bezüglich der einfachen absoluten Häufigkeit – mit Hilfe einer Vergleichsfunktion V definieren.
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
H x
119
n
¦ V(x , x) i
i 1
mit > V(xi , x) 1@ (xi d x) und > V(xi , x)
(12.1)
0@ (xi ! x)
Einfacher ist es, die Funktion H(x) als Summe der Funktionen h(ai), mit ai d x, darzustellen und die Funktion F(x) als Summe der Funktion f(ai), mit ai d x. H(x)
Anzahl der Werte xi, die kleiner oder gleich x sind j
¦ h(a )
H(x) = h(a1) + … h(aj) =
i
mit ai d x
i 1
F(x)
Anteil der Werte xi, die kleiner oder gleich x sind
F(x) =
H(x) n j
F(x) = f(a1) + … f(aj) =
¦ f(a ) i
mit ai d x
(12.2)
i 1
Die empirische Verteilungsfunktion erstreckt sich über einen kontinuierlich ver- Beispiel: Anzahl der Kinder von Ehepaaren laufenden Bereich der Menge der zulässigen Argumentwerte, da es für jeden Wert innerhalb dieses Kontinuums einen eindeutig definierten Funktionswert gibt, nämlich den Anteil der Werte, die kleiner oder gleich diesem Wert sind. Dies gilt auch dann, wenn die der kumulierten Häufigkeitsverteilung zugrunde liegende einfache Häufigkeitsverteilung diskreter Natur war. Nehmen wir an, die folgende Tabelle gibt für eine Gruppe von 1000 untersuchten Ehepaaren die Anzahl der Kinder an. Tabelle 12.3: Häufigkeit und kumulierte Häufigkeit – Anzahl der Kinder Anzahl der Kinder
Absolute Häufigkeit
Relative Häufigkeit
Absolute kumu- Relative kumulierte Häufigkeit lierte Häufigkeit
0
243
0,243
243
0,243
1
308
0,308
551
0,551
2
248
0,248
799
0,799
3
140
0,140
939
0,939
4
61
0,061
1000
1,0
n = 1000 Die Darstellung der absoluten Häufigkeiten als Säulendiagramm sieht folgendermaßen aus.
120
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
Abbildung 12.9: Absolute Häufigkeitsverteilung der Anzahl der Kinder von 1000 Ehepaaren 350
308
300 250
248
243
200 140
150 100
61
50 0 0
1
2
3
4
Die Darstellung der empirischen Verteilungsfunktion des Beispiels ist nachfolgend aufgezeigt. Abbildung 12.10: Empirische Verteilungsfunktion der Kinderanzahl bei 1000 Ehepaaren
Treppenfunktion
Für jeden Wert der Variable 'Anzahl der Kinder' gibt es einen entsprechenden Funktionswert, der den Anteil der Ehepaare wiedergibt, die höchstens diese Anzahl von Kindern haben. Die empirische Verteilungsfunktion besitzt auch Funktionswerte von Werten, die gar nicht als Ausprägungen der Variablen vorkommen. Der Anteil der Familien mit höchstens zweieinhalb Kindern ist nämlich gleich dem Anteil der Ehepaare mit höchstens zwei Kindern. Die Funktion verläuft daher stufenförmig und wird auch als Treppenfunktion bezeichnet. Die Funktion besteht allerdings nur aus den waagrechten Teilen der Treppe. Im Diagramm ist der Funktionswert an einer Sprungstelle der Funktion mit einem gefüllten Kreis angege-
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
121
ben, um anzuzeigen, wo sich der Funktionswert der Sprungstelle befindet. Für jeden Treppenabsatz gehört also der Punkt an der vorderen Kante zu den Funktionswerten und der Punkt an der hinteren Kante nicht. Auch wenn die Menge der Argumentwerte das ganze Kontinuum umfasst, so ist die Menge der Funktionswerte weiterhin diskret, da als Funktionswerte insgesamt nur die an den Sprungstellen auftretenden Werte auftauchen. Da die Funktion an den Sprungstellen nicht differenzierbar ist, besitzt die Steigung der Funktion an jedem differenzierbaren Punkt genau genommen immer den Wert Null, d.h. die Funktion verläuft an diesen Stellen immer waagrecht. Wenn wir daher von der "Steigung" der Funktion innerhalb eines Intervalls sprechen, meinen wir genau genommen die mittlere "Steilheit" der Stufen in diesem Intervall, d.h. das mittlere Verhältnis von Stufenhöhe zu Stufenbreite der Stufen in diesem Intervall. Diese "Steigung" steht wiederum in einem engen Zusammenhang mit der Dichte von Werten in einem Intervall. Je kleiner die Abstände zwischen den verschiedenen Ausprägungen der Variablen werden, also je mehr verschiedene Ausprägungen es gibt, desto weniger tritt der im Prinzip stufenförmige Verlauf der Funktion hervor, und die Funktion scheint sowohl hinsichtlich der Argumentwerte selbst also auch hinsichtlich der Funktionswerte kontinuierlich zu verlaufen. Im Gegensatz zu einfachen Häufigkeiten kann man kumulierte Häufigkeiten daher gut grafisch darstellen, wenn es sehr viele verschiedene Ausprägungen einer Variablen gibt. Dies liegt daran, dass die in Stabdiagrammen oft nur schwer erkennbare Häufung von Werten innerhalb eines bestimmten Bereichs, also die Dichte von Werten, sich in der kumulierten Häufigkeitsverteilung annähernd als "Steigung" der Funktion ausdrückt und Steigungen von Funktionen besser intuitiv mit bloßem Auge zu erfassen sind als die Dichte von Strichen. Die Gruppierung von Daten ist also in Bezug auf kumulierte Häufigkeiten wenig sinnvoll. Die kumulierten Häufigkeiten unseres Beispiels bezüglich der Wahlberechtigten in einem Bundestagswahlkreis sind in der folgenden Tabelle aufgeführt.
Zusammenhang zwischen Steigung und Wertedichte in einem Intervall
122
Kapitel 12 Die grafische Darstellung von Häufigkeitsverteilungen
Tabelle 12.4: Absolute und relative kumulierte Häufigkeitsverteilung Wahlberechtigte
kumulierte absolute Häufigkeiten
kumulierte relative Häufigkeiten
d 124126
1
0,0030
d 130014
2
0,0061
d 130095
3
0,0091
d 133021
4
0,0122
d 134037
5
0,0152
d 134958
6
0,0183
...
...
...
...
...
...
...
...
... d 240224
322
0,9817
d 241055
323
0,9848
d 241160
324
0,9878
d 241371
325
0,9909
d 245933
326
0,9939
d 247541
327
0,9970
d 252253
328
1,0000
Grafisch lässt sich die empirische Verteilungsfunktion für die Wahlberechtigten in den 328 Wahlkreisen wie in folgendem Diagramm darstellen. Abbildung 12.11: Empirische Verteilungsfunktion der Wahlberechtigten in 328 Wahlkreisen 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 120000
140000
160000
180000
200000
220000
240000
260000
Kapitel 13 Maße zur Beschreibung von Verteilungen
123
13 Maße zur Beschreibung von Verteilungen 13.1 Maße der zentralen Tendenz Häufigkeitsverteilungen und insbesondere grafische Darstellungen sind zwar oft schon gut geeignet, uns das Wesentliche einer Datenmenge sprichwörtlich vor Augen zu führen, aber sie gehen nicht über eine die Übersicht erleichternde Anordnung oder Gruppierung der ursprünglichen Daten hinaus. Die Komplexität der Daten ist nur unbedeutend reduziert, so dass es immer noch nicht möglich ist, das Wesen der Daten in ihrer Gesamtheit zu erfassen. Man stelle sich vor, wir könnten uns nur über die Einkommensverhältnisse in bestimmten Branchen oder in ganzen Ländern unterhalten, indem wir die Häufigkeiten aller vorkommenden Einkommen aufzählen. Man sieht schnell ein, dass eine solche Unterhaltung denkbar mühsam und ineffektiv wäre. Was wir also benötigen, ist die komprimierte Darstellung der Einkommensverteilung mit Hilfe weniger charakteristischer Kenngrößen, die wir auch Kennzahlen oder Parameter nennen. Die wichtigste Klasse solcher Parameter sind die Maßzahlen der zentralen Tendenz, die ebenfalls Lageparameter genannt und manchmal – etwas zu ungenau – auch einfach als Mittelwerte bezeichnet werden. Lageparameter sind Zahlen bzw. Werte, die einen "typischen Repräsentanten" der Datenmenge kennzeichnen, einen Stellvertreter für alle Datenwerte. Maße der zentralen Tendenz sind dabei unter Umständen hypothetische Werte, denn obwohl sie den "typischsten" Fall der Datenmenge darstellen, müssen sie nicht unbedingt selbst in dieser enthalten sein. Es gibt verschiedene Möglichkeiten "typische Vertreter" einer Menge von Datenwerten zu bilden. Welche davon überhaupt zulässig sind, hängt vom Skalenniveau der Daten ab.
Nutzen von Maßzahlen: komprimierte Beschreibung bestimmter Eigenschaften einer Verteilung
13.1.1 Der Modus Der einfachste Lageparameter, der selbst auf dem niedrigsten Skalenniveau, dem Modus der Nominalkategorie, gebildet werden kann, ist der Modus oder Modalwert, der die am stärksten besetzte Kategorie angibt. Definition 13.1: Modus (auch Modalwert genannt) Der Wert einer Datenmenge, der am häufigsten vorkommt. Nominalkategorisierte Variablen haben entweder einen bestimmten Wert, oder sie haben ihn nicht. Verschiedene Werte einer nominalkategorisierten Variablen können nicht in Beziehung zueinander gesetzt werden, das heißt, dass eine Veränderung eines Wertes nicht durch eine entsprechende Veränderung eines anderen Wertes ausgeglichen werden kann. Der Modus repräsentiert daher nur eine Gruppe der Datenmenge wirklich gut, diese allerdings hundertprozentig. Im Gegensatz zu anderen Lageparametern repräsentiert er nicht die Gesamtheit der einzelnen Werte und kann daher am wenigsten als der "mittlere" Vertreter einer Gruppe betrachtet werden. Dennoch ist er immer noch insofern der "typischste" Wert einer Gruppe, als er am häufigsten vorkommt. Da der Modus sich auf nominalkate-
124
Kapitel 13 Maße zur Beschreibung von Verteilungen
gorisierte Variablen bezieht, ist er selber auch immer der Wert eines "Zeichens", selbst wenn dieses Zeichen im Einzelfall eine Zahl sein mag. In einem Seminar, das insgesamt 30 Studenten besuchen, von denen 16 blaue Augen haben, 10 braune und 4 graue Augen, ist der Modus der Augenfarbe "blau".
Median
13.1.2 Der Median Der Median ist ein Maß der zentralen Tendenz, das nur für Variablen gebildet werden darf, die mindestens Ordinalskalenniveau besitzen. Der Median liegt in der "Mitte" der Verteilung der Werte, weil er diese Verteilung in zwei gleich große Hälften links und rechts von sich aufteilt. Parameter, die die "Mitte" einer Verteilung angeben, müssen sich auf mindestens ordinalskalierte Daten beziehen, da nur bei diesen eine räumliche Anordnung entlang einer horizontalen Achse möglich ist, so dass Begriffe wie "links", "rechts" und vor allem "weiter links" und "weiter rechts" überhaupt Sinn machen. Wir gehen davon aus, dass der Begriff "Mitte" in einem solchen Fall eindeutig (in einem räumlichen Sinn) bestimmt ist, so dass wir den Median wie folgt definieren können. Definition 13.2: Median Der Wert in der Mitte einer geordneten Datenmenge. Formalere Definitionen lauten: Der Wert einer geordneten Datenmenge, der diese so unterteilt, dass sich links und rechts von diesem Wert jeweils höchstens 50 Prozent der Datenwerte befinden. oder: Der Wert einer geordneten Datenmenge, der von mindestens 50 Prozent der Datenwerte nicht überschritten und von mindestens 50 Prozent der Datenwerte nicht unterschritten wird. Ist die Anzahl der Datenwerte ungerade, so ist dieser Wert eindeutig bestimmt. Ist die Anzahl der Datenwerte gerade, so gibt es zwei Werte in der Mitte der geordneten Datenmenge. Der Median ist dann der Wert in der Mitte zwischen diesen beiden Werten.
Kapitel 13 Maße zur Beschreibung von Verteilungen
125
Tabelle 13.1: Beispiele für die Berechnung des Medians Datenreihe
Anzahl der Werte
Median
1 2 5 8 11
5
5
1 4 5 6 18 111
6
5,5 = (5 + 6) / 2
10 17 17 19 243
5
17
2 2 2 2 2 17 29 1047
8
2 = (2 + 2) / 2
5 5 5 5 21 22 23 24
8
13 = (5 + 21) / 2
11
3
1 2 3 3 3 3 3 3 7 19 23
Der Median hat einige wichtige Eigenschaften: Zum einen gilt für gruppierte Daten, dass, wenn eine Gruppe mehr als 50 Prozent der Fälle enthält, der Median auf jeden Fall der Wert der Ausprägung dieser Gruppe ist. Zum anderen kann man besonders an der zweiten und dritten Datenreihe erkennen, dass der Median ein Maß für die "Mitte" der Verteilung ist, das ausreißerresistent ist. Das bedeutet, dass die Lage des Medians sich nicht ändert, wenn an den Rändern weit abweichende Werte auftauchen, die für die Datenmenge ausgesprochen untypisch sind und daher als "Ausreißer" bezeichnet werden. 13.1.3 Der arithmetische Mittelwert Das bekannteste Maß der zentralen Tendenz ist das arithmetische Mittel, auch Arithmetischer Mittelwert arithmetischer Mittelwert oder nur Mittelwert genannt, manchmal auch als Durchschnitt bezeichnet. Seien die Werte einer Datenmenge die Ausprägungen einer Variablen, die mit X bezeichnet wird. Dann sei xi der Wert der Ausprägung der Variablen für das i-te Element der Datenmenge bzw. das i-te Individuum einer Gruppe von Merkmalsträgern. Die übliche Schreibweise für den Mittelwert ist dann x. Wenn n die Anzahl der Elemente bzw. der Merkmalsträger bezeichnet, dann ist die formale Darstellung des Mittelwerts folgende: Definition 13.3: Arithmetischer Mittelwert Die Summe aller Werte einer Datenmenge dividiert durch die Anzahl der Datenwerte. x
1 n ¦ xi n i=1
(13.1)
Treten manche Werte mehrfach auf, so kann man die Berechnung vereinfachen, indem man auf die absoluten oder relativen Häufigkeiten zurückgreift.
126
Kapitel 13 Maße zur Beschreibung von Verteilungen
x
1 k ¦ hi xi ni1
k
hi
k
¦ n x ¦f x i
i 1
i
i
(13.2)
i 1
Aus der Formel kann unmittelbar abgeleitet werden: n
nx
¦x
i
i 1
n
¦x
i
nx
0
i 1 n
¦ (x
i
x) 0
i 1
Schwerpunkteigenschaft des Mittelwerts
Die Summe der Abweichungen der individuellen Werte zum Mittelwert ergibt Null, bzw. die Summe der Abweichungen auf der rechten Seite des Mittelwerts ist die Summe der Abweichungen auf der linken Seite des Mittelwerts. Man spricht daher auch von der Schwerpunkteigenschaft des Mittelwerts.
Voraussetzung für die Berechnung des arithmetischen Mittels: Intervallskalenniveau
Da bei der Berechnung des Mittelwerts arithmetische Funktionen wie Summenbildung und Division angewandt werden, kann der Mittelwert nur für Daten ermittelt werden, die mindestens auf dem Intervallskalenniveau erhoben worden sind. Wie erwähnt ist der Mittelwert das bekannteste Maß der zentralen Tendenz und findet vielfältig im Alltag Verwendung, sogar dann, wenn es eigentlich unangebracht ist. So ist es üblich, dass in Schulen Durchschnittsnoten berechnet werden, obwohl es sich bei Schulnoten im strengen Sinn lediglich um ordinalskalierte Daten handelt. Wegen des geringeren Bekanntheitsgrades des Medians ist es hingegen wesentlich seltener der Fall, dass für Daten, die auf dem Intervallskalenniveau erhoben wurden, als Maß der zentralen Tendenz der Median anstatt des Mittelwerts herangezogen wird. Zwar hat der Mittelwert auf Grund des höheren Skalenniveaus interessantere mathematische Eigenschaften als der Median, es ist jedoch ein Irrtum zu glauben, dass der Mittelwert daher auch in jedem Fall, wenn er im Prinzip berechnet werden darf, den "typischen Fall" einer Datenmenge besser erfasst. Dies kann demonstriert werden, wenn für einige der Datenreihen, für die schon der Median berechnet wurde, nun auch der Mittelwert ermittelt wird.
Kapitel 13 Maße zur Beschreibung von Verteilungen
127
Tabelle 13.2: Beispiele für Mittelwert und Median Datenreihe
Anzahl der Werte
Median
Mittelwert*
1 2 5 8 11
5
5,0
5,4
1 4 5 6 7 10
6
5,5
5,5
1 4 5 6 18 111
6
5,5
24,2
2 2 2 2 2 17 32 32 32 32 32
8
17,0
17,0
10 17 17 19 243
5
17,0
61,2
10 19 243 467 476
5
243,0
243,0
2 2 2 2 2 17 29 1047
8
22,0
137,9
(* auf eine Kommastelle gerundet)
Man sieht, dass der Mittelwert in einigen Fällen extrem vom Median abweicht. Ausreißerempfindlichkeit Dies liegt offensichtlich an den Ausreißern auf der rechten Seite der Datenreihen. Im Gegensatz zum Median ist der Mittelwert nämlich ausreißerempfindlich oder ausreißersensitiv. Sind die Werte einer Datenreihe hingegen symmetrisch um die Mitte verteilt, d.h. treten Abweichungen vom Mittelwert auf der linken Seite genauso oft und im gleichen Ausmaß auf wie auf der rechten Seite, dann sind Mittelwert und Median identisch. Die Frage, ob wir in einem bestimmten Fall den Median oder den Mittelwert für geeigneter halten, den typischen Fall einer Datenmenge darzustellen, hängt also in erster Linie davon ab, wie wir "Ausreißer" zu behandeln gedenken. Beispiel: Stellen wir uns folgenden Fall aus dem Bereich der so genannten kollektiven Entscheidungen vor: Der Festtagsausschuss eines Karnevalsvereins, der aus fünf Mitgliedern besteht, hat darüber zu entscheiden, wie viel Geld für den Faschingsumzug am Rosenmontag ausgegeben werden soll. Auf Grund des unterschiedlichen Naturells und der unterschiedlichen regionalen Herkunft (unter anderem befinden sich ein Rheinländer und ein Schwabe im Ausschuss) liegen die Vorstellungen darüber, welcher Aufwand angemessen ist, weit auseinander. Die vorgeschlagenen Budgetsummen liegen bei 2000 (der Schwabe), 3000, 5000, 8000 und 30 000 € (der Rheinländer). Da das Komitee seinen Beschluss einstimmig fassen muss und zu keiner Einigung gelangt, beschließen sie, ihr Problem einem Schlichter vorzustellen, der dann über den Betrag entscheiden soll. Der Schlichter wird nun versuchen, den Wert vorzuschlagen, den er für einen guten Kompromiss hält, also den Wert, der die Gesamtheit der unterschiedlichen Vorstellungen aus der Sicht des Schlichters noch am ehesten wiedergibt. Der erste Gedanke des Schlichters könnte nun darin bestehen, den Mittelwert vorzuschlagen, also 9600 €. Vier der fünf Mitglieder aber sprechen sich für einen niedrigeren Betrag aus. Der "Kompromiss"-Vorschlag ist aus ihrer Perspektive gar kein Kompromiss, sondern auf Grund der maßlosen Vorstellungen des Rheinländers vollkommen überhöht. Wenn alle die Entscheidungspraxis des Komitees kennen, in solchen Situationen einen Schlichter aufzurufen, der dann den Mittelwert als Lösung vorschlägt, besteht darüber hinaus ein Anreiz, zu strategischer Übertreibung. Der Rheinländer könnte einen noch weit höheren Betrag nennen, damit der dann schließlich zustande kommende Betrag seinen ursprünglichen Vorstellungen näher kommt. "Maßlosigkeit" zahlt sich hier aus, wenn das Einigungsgebot der Mittelwert wäre (die Ausreißerfälle nehmen die gemäßigten gewissermaßen in Haft). Sieht der Schlichter all diese Komplikationen jedoch voraus, dann wird er wahrscheinlich zu dem Ergebnis kommen, dass der Median, also 5000 €, einen wesentlich angemesseneren "Kompromiss"
128
Kapitel 13 Maße zur Beschreibung von Verteilungen
darstellt als der Mittelwert. Wenn er überdies in der so genannten "Social-Choice"Literatur bewandert ist und insbesondere das so genannte "Median-Wähler Theorem" von Duncan Black kennt, wird er sich in dieser Auffassung zudem dadurch bestätigt fühlen, dass er weiß, dass der Median auch unter dem Mehrheitsprinzip vermutlich die Lösung gewesen wäre.
Ende Beispiel Auch zur Beurteilung einer Einkommensverteilung ist der Median unter Umständen besser geeignet als der Mittelwert. Handelt es sich um eine Gesellschaft mit einem kleinen Prozentsatz von exorbitant reichen Leuten, während das Gros der Bevölkerung möglicherweise an der Armutsgrenze liegt, so kann sich ein ganz annehmbares mittleres Einkommen ergeben. In diesem Fall würde die extreme Ungleichverteilung durch den Mittelwert verdeckt werden, und der Median wäre auch hier das "ehrlichere" Maß, weil er das Einkommen angibt, das die eine Hälfte der Bevölkerung mindestens und die andere Hälfte der Bevölkerung höchstens verdient. Wegen des Problems der Ausreißersensitivität des Mittelwertes wird manchmal auch ein so genannter getrimmter Mittelwert berechnet. Dabei werden Daten aus den Randbereichen der Verteilung ignoriert, z.B. jeweils die 10 Prozent, die sich am weitesten links bzw. rechts der Verteilung befinden, und das arithmetische Mittel wird lediglich auf der Basis der verbliebenen Werte berechnet. Experte: Lageparameter und die Optima bestimmter Differenzfunktionen Maße der zentralen Tendenz entsprechen nicht nur einer intuitiven Vorstellung von den Eigenschaften, die ein geeignetes Maß für den "typischen Fall" besitzen soll, sie erfüllen darüber hinaus auch mathematische Bedingungen, die formal ausgedrückt werden können. Eine genaue Definition der Maße der zentralen Tendenz ist nur auf Grund dieser formalen Bedingungen möglich. (Auch formale Bedingungen können allerdings rein sprachlich ausgedrückt werden.) Der Modus ist die am häufigsten vorkommende Kategorie, der Median halbiert die Verteilung in zwei gleich große Hälften zur Linken und zur Rechten, und der Mittelwert balanciert die Abweichungen zu seiner linken und zu seiner rechten Seite so aus, dass sie in der Summe Null ergeben. Aus der Erfüllung dieser Bedingungen lassen sich weitere Bedingungen ableiten, die von den Maßen ebenfalls erfüllt werden, aber nicht ganz so unmittelbar erkannt werden können. Insbesondere können wir diese Bedingungen so interpretieren, dass die Lageparameter gewisse Differenz- bzw. Distanzfunktionen minimieren, die die Unterschiedlichkeit der anderen Werte der Datenmenge gegenüber dem Maß der zentralen Tendenz angeben. Die allgemeine Formulierung dieser Bedingung lautet: n
n
i 1
i 1
¦ D(xi ,xL ) ¦ D(xi ,z)
mit z z xL
(E 1)
Die Formel besagt nichts anderes, als dass die Summe der Distanzen aller individuellen Werte zum Lageparameter der Datenmenge kleiner ist als die Summe der entsprechenden Distanzen zu einem beliebigen anderen Wert z, der ungleich dem Lageparameter ist. Für die drei Maße der zentralen Tendenz gibt es je mindestens eine Distanzfunktion, für die diese Bedingung gilt.
Kapitel 13 Maße zur Beschreibung von Verteilungen
129
Bezüglich des Modus gilt: xL
xmod
D(xi ,z) 1 l x i z z und D(x i ,z)
0 l xi
z
(E 2)
Die Distanzfunktion bezüglich des Modus erhält den Wert 1, wenn ein Merkmalsträger eine andere Ausprägung als z hat, und den Wert 0, wenn der individuelle Datenwert mit z identisch ist. Die Summe dieser Distanzfunktion bezüglich des Wertes z ist nichts anderes als die Anzahl der Fälle, die einen anderen Wert als z haben. Da der Modus die Kategorie ist, die die meisten Fälle enthält, minimiert er dementsprechend die Anzahl der abweichenden Fälle. Bezüglich des Median gilt: xL = xmed D(xi ,z) = xi -z
(E 3)
Die Distanzfunktion bezüglich des Medians ist der absolute Abstand zwischen einem individuellen Wert und z. Für jeden Wert z, der nicht mit dem Median identisch ist, gilt, dass er die Verteilung der Werte in zwei nicht gleich große Teile zerlegt, d.h. die Anzahl der Fälle links und rechts von z ist verschieden. Sei m die Anzahl der Fälle links von z und n – m die Anzahl der Fälle rechts davon, außerdem sei m kleiner als n – m. Sei z' ein Wert, der sich im Abstand von d rechts von z befindet, aber dabei keinen Wert überspringt, so dass sich auch von z' aus gesehen m Fälle links und n – m Fälle rechts befinden. Der Abstand zu z' aller m Fälle zur Linken ist um den Betrag d größer als der Abstand all dieser Fälle zu z. Hingegen hat der Abstand zu z' für alle n – m Fälle zur Rechen im Vergleich zu z um den Betrag d abgenommen. Da sich zur Rechten mehr Fälle befinden als zur Linken, ist damit auch die Summe der Abstände über alle Fälle kleiner geworden. Solange z also nicht gleich dem Median ist, kann der Wert der Distanzfunktion weiter verringert werden, indem sich z zur Mitte hin bewegt.
Bezüglich des Mittelwerts gilt xL
=
x
D(xi ,z) = (xi z)2
(E 4)
Der Wert, bei dem die Distanzfunktion F, die Summe aller Einzeldistanzen D, ihr Minimum besitzt, lässt sich berechnen, indem man die erste Ableitung der Funktion berechnet und diese gleich Null setzt.
130
Kapitel 13 Maße zur Beschreibung von Verteilungen
Minimiere F
n
¦x i 1
dF dz
2
i
z in Abhängigkeit von z
0
n
¦ 2(x i z)(-1)
0
i 1 n
¦ (xi z)
0
i 1 n
¦ xi nz
0
i 1
z
1 ¦ xi ni 1 n
Da die zweite Ableitung der Funktion F nach z eine positive Konstante ist, muss es sich bei dem gefundenen Optimum um ein Minimum handeln. Die Summe der quadratischen Abstände der Einzelwerte zu z ist also dann minimal, wenn z gleich dem Mittelwert ist. Nehmen wir an, wir sollten für einen bestimmten Einzelfall der Datenmenge seinen Wert schätzen ohne Kenntnis seiner wahren Ausprägung. Da die Maße der zentralen Tendenz ja den typischen Fall der Menge angeben sollen, ist es nicht unplausibel, diese Maße auch als Schätzwerte für unbekannte Werte zu verwenden. Die oben angegebene Differenzbzw. Distanzfunktion kann dann auch als eine Funktion des Schätzfehlers betrachtet werden, wenn man den "Fehler" eben entsprechend definiert. Da die Lageparameter die oben angegebenen Distanzfunktionen minimieren, gilt dann logischerweise das Gleiche für die entsprechende Funktion des Schätzfehlers. Während die Interpretation einer Fehlklassifikation bezüglich des Wertes einer nominalkategorisierten Variablen als Schätzfehler sofort einleuchtet, ist es jedoch weit weniger klar, warum man im Falle von intervallskalierten Variablen die Summe der quadratischen Abstände als Schätzfehler interpretieren sollte. Wir werden später gute Argumente aus der Wahrscheinlichkeitstheorie kennen lernen, warum dies tatsächlich empfehlenswert ist.
Ende Experte
13.2 Streuungsmaße Lageparameter geben den typischen Fall einer Verteilung an, aber sie geben keine Auskunft darüber, wie typisch dieser Fall ist. Da alle drei Maße immer einen "typischen Wert" ermitteln, ist es nicht möglich, eine Unterscheidung dahingehend zu treffen, ob die übrigen Werte der Datenmenge vom repräsentativen Wert gut erfasst werden, also diesem relativ nahe sind, oder ob sie sehr von diesem abweichen. Streuungsmaße geben an, wie sehr die Werte einer Datenmenge variieren. Nicht alle von ihnen beziehen sich dabei explizit auf die Streuung um den Lageparameter einer Verteilung. Da über Größenordnungen von Abweichungen nur sinnvoll gesprochen werden kann, wenn diese in Zahlen angegeben werden, die das Ausmaß von Abweichungen bezeichnen, beziehen sich Streuungsmaße streng genommen immer auf Variablen, die auf Intervallskalenniveau gemessen worden sind.
Kapitel 13 Maße zur Beschreibung von Verteilungen
13.2.1 Die Spannweite Die einfachste Möglichkeit, sich ein Bild über die Variation der Merkmalsausprä- Spannweite gungen zu verschaffen, besteht darin, sich den kleinsten und den größten vorkommenden Wert anzusehen. Der Abstand zwischen diesen beiden Werten wird als Spannweite (englisch Range) bezeichnet. Die Spannweite gibt den Umfang des Bereichs an, innerhalb dessen sich alle empirisch vorkommenden Werte befinden. 13.2.2 Der Interquartilsabstand Auch das Streuungsmaß der Spannweite ist, ähnlich dem Mittelwert, ein ausrei- Interquartilsabstand ßersensitiver Parameter. Weit von den "normalen" Werten abweichende Werte an den Rändern erhöhen die Spannweite unter Umständen dramatisch und erwecken den nicht berechtigten Anschein von extremer Variation der Werte. Analog zum getrimmten Mittelwert können wir auch hier versuchen, zu treffenderen Maßen der Streuung zu gelangen, indem wir die Randbereiche aus der Berechnung der Parameter weglassen. Um dieses Vorgehen klarer und eindeutiger beschreiben zu können, müssen wir kurz das Konzept der Perzentile oder p-Quantile einführen. Auch diese sind Lageparameter im allgemeinen Sinn, allerdings können sie nicht als Maße der zentralen Tendenz bezeichnet werden. Perzentile unterteilen die Verteilung der Datenwerte in bestimmten Verhältnissen, die durch den Wert des Koeffizienten p angegeben werden. Ein beliebiges p-Quantil wird formal durch xp gekennzeichnet. Der Wert von p liegt daher immer zwischen 0 und 1. Manchmal werden die Werte von p allerdings auch mit 100 multipliziert und als Prozentzahlen angegeben. Definition 13.4: p-Quantil Der Wert, der eine geordnete Datenmenge so unterteilt, dass sich links davon höchstens p * 100 % der Werte und rechts davon höchstens (1 – p) * 100 % der Werte befinden. Der Median ist also nur ein Sonderfall eines p-Quantils, nämlich das 50 %- Median als 50 %Quantil Quantil. Weitere häufiger gebräuchliche Quantile sind das 10 %-Quantil x0,1, das 90 %-Quantil x0,9, das 25 %-Quantil x0,25 und das 75 %-Quantil x0,75. Der so genannte Interquartilsabstand errechnet sich dann aus der Verwendung des 25 %und des 75 %-Quantils, die auch Quartile genannt werden. Definition 13.5: Interquartilsabstand Abstand zwischen dem 25 %-Quantil und dem 75 %-Quantil einer Verteilung. formal: Interquartilsabstand = x0,75 – x0,25
131
132
Kapitel 13 Maße zur Beschreibung von Verteilungen Boxplot Durch die Angabe des Minimalwertes und des Maximalwertes sowie der beiden
Quartile und des Medians lässt sich die Verteilung einer Variablen oft in den wesentlichen Zügen hinreichend genau charakterisieren. Man spricht in diesem Fall von der Fünf-Punkte-Zusammenfassung. Eine grafische Methode zur Darstellung derselben sind so genannte Boxplots, die daher gut geeignet sind, sich einen ersten Eindruck über Variablen zu verschaffen. 13.2.3
Varianz, Standardabweichung und Variationskoeffizient
Varianz: Summe der Spannweite und Interquartilsabstand sind Maße für die Variation der individuellen quadrierten Abweichungen vom Mittelwert Werte. Wenn wir jedoch beurteilen wollen, inwieweit der Mittelwert tatsächlich
eine gute Schätzung eines typischen Falls einer Datenmenge darstellt, brauchen wir ein Streuungsmaß, das sich auf die Abweichungen der anderen Fälle vom Mittelwert bezieht. Im Zusammenhang mit den Distanzfunktionen haben wir schon zwei solcher potenzieller Streuungsmaße kennen gelernt, die Summe der absoluten und die Summe der quadrierten Abstände. In den Anfängen der Statistik kamen tatsächlich auch beide Maße vor. Aus später noch genauer zu erläuternden Gründen wird die Summe der quadratischen Abstände für das geeignetere Streuungsmaß gehalten. Allerdings interessiert uns nicht so sehr die Summe der Abweichungen, sondern vielmehr die mittlere Abweichung, die wir bei einem zufällig aus der Datenmenge herausgenommenen Fall erwarten würden. Dieser Mittelwert der quadratischen Abweichung vom Mittelwert wird Varianz genannt. Definition 13.6: Varianz Der Mittelwert der quadrierten Abweichungen der individuellen Werte zum Mittelwert der Verteilung. oder: Die Summe der quadrierten Abweichungen der individuellen Werte zum Mittelwert der Verteilung, geteilt durch die Anzahl der Fälle. formal: Varianz
1 n ¦ (xi x)2 ni1
(13.3)
Treten manche Werte mehrfach auf, so lässt sich die Varianz auch einfacher mit Hilfe der absoluten oder relativen Häufigkeiten der einzelnen Ausprägungen berechnen.
Kapitel 13 Maße zur Beschreibung von Verteilungen
Varianz=Var(x) k
hi
¦ n *(x
i
x)2
i 1
1 k ¦ hi *(xi x)2 ni1 k
¦ f *(x i
i
133
(13.4)
x)2
i 1
Die Varianz hat allerdings den kleinen Schönheitsfehler, dass sie durch die Quad- Standardabweichung rierung der Abstände eine andere Maßeinheit besitzt als die ursprünglichen Werte. Nehmen wir an, die ursprünglichen Variablenwerte hätten Längen in m gemessen. Die Varianz würde dann in der Einheit m² gezählt werden müssen. Um diesen Effekt wieder "rückgängig" zu machen, zieht man die Wurzel aus der Varianz und nimmt diese Größe als das Maß für die durchschnittliche Abweichung. Die Wurzel aus der Varianz wird als Standardabweichung bezeichnet. Definition 13.7: Standardabweichung Die Wurzel aus der Varianz einer Verteilung von Datenwerten. formal: Standardabweichung
s
1 n ¦ (xi x)2 ni1
Var(x)
(13.5)
Varianz und Standardabweichung sind aber vollkommen äquivalente Maße. Beide sind außerdem sensitiv gegenüber Ausreißern, d.h. große einzelne Abweichungen an den Rändern können den Wert der Varianz und der Standardabweichung deutlich erhöhen. Vergleicht man die Standardabweichungen zweier Verteilungen miteinander, so Variationskoeffizient kann dies zu einem missverständlichen Eindruck führen, wenn sich die Größenordnungen der Werte der beiden Datenmengen deutlich voneinander unterscheiden. Nehmen wir an, die Datenmenge A enthält Werte, die gleichmäßig um den Mittelwert 100 herum streuen, die Datenmenge B hingegen enthält Werte, die um den Mittelwert 10 herum streuen. Da die Datenwerte von A durchschnittlich das 10-fache der Datenwerte von B betragen, würden wir bei strukturell ähnlichem Verhalten der Werte erwarten, dass auch die durchschnittliche Abweichung im Fall von A größer ausfallen sollte als im Fall von B. Der Variationskoeffizient relativiert daher die Abweichungen und damit die Standardabweichung im Verhältnis zum durchschnittlich zu erwartenden absoluten Wert einer Verteilung, also dem Mittelwert.
Variationskoeffizient =
s x
(13.6)
134
Kapitel 13 Maße zur Beschreibung von Verteilungen
Der Variationskoeffizient "standardisiert" so die Standardabweichung in Einheiten des Mittelwertes der Verteilung.
13.3 Weitere Verteilungsparameter 13.3.1
Schiefe
Schiefe Lageparameter und Streuungsmaße sind die wichtigsten formalen Parameter einer
Verteilung. Sie reichen jedoch noch lange nicht aus, um all die Merkmale einer Verteilung zu erfassen, wie sie z.B. in einer grafischen Darstellung wie einem Histogramm auf einen Blick zu erkennen sind. Das unterschiedliche Erscheinungsbild von zwei Verteilungen sagt zunächst nichts darüber aus, ob sie sich auch hinsichtlich Mittelwert und Streuung unterscheiden. Wie unterschiedlich Verteilungen aussehen können, haben wir in den unten stehenden Abbildungen in drei Varianten dargestellt. Abbildung 13.1: Symmetrische Verteilung
Abbildung 13.2: Linkssteile Verteilung
Kapitel 13 Maße zur Beschreibung von Verteilungen
135
Abbildung 13.3: Rechtssteile Verteilung
Diese drei Verteilungen unterscheiden sich hinsichtlich ihrer Symmetrieeigenschaft. Zur Kennung dieser Charakteristik gibt es den Parameter der Schiefe (englisch skewness) einer Verteilung. Rechtsschiefe oder linkssteile Verteilungen wie in der zweiten Abbildung haben eine Häufung von Werten auf der linken Seite, während die Werte auf der rechten Seite weniger häufig vorkommen. Mitunter sind auf der rechten Seite auch Ausreißer zu beobachten. Linksschiefe oder rechtssteile Verteilungen steigen von links nach rechts immer stärker an und fallen dann nach rechts steil ab. Definition 13.8: Schiefe
Schiefe
1 n 3 ¦ x x ni1 i mit s = Standardabweichung s3
(13.7)
Die obige Formel wird auch Momentenkoeffizient der Schiefe genannt. Durch die Verschiedene Berechnungsformeln für die dritte Potenz bleiben die Vorzeichen der Abweichungen erhalten. Ufert die Vertei- Schiefe lung nach rechts aus, d.h. treten dort eher die "Ausreißer" auf, dann überwiegen die positiven Abweichungen die negativen, d.h. die Schiefe erhält einen positiven Wert, wenn die Verteilung rechtsschief bzw. linkssteil ist. Umgekehrt bekommt die Schiefe einen negativen Wert zugewiesen beim Vorliegen einer linksschiefen oder rechtssteilen Verteilung. Im Falle einer symmetrischen Verteilung ist der Wert der Schiefe gleich Null. Eine alternative Formulierung der Schiefe kann durch den so genannten Quantilkoeffizienten erfolgen.
Schiefe
(x1p xmed ) (xmed xp ) x1p xp
(13.8)
Für p = 0,25 erhält man den so genannten Quartilskoeffizienten der Schiefe.
136
Kapitel 13 Maße zur Beschreibung von Verteilungen Lageregeln Wie bei dem Vergleich von Mittelwert und Median schon zu bemerken war, gibt
es einen Zusammenhang zwischen der relativen Position von Median und Mittelwert und der Schiefe. Bezieht man überdies den Modus in den Vergleich mit ein, lassen sich Lageregeln formulieren. Definition 13.9: Lageregeln Symmetrische Verteilungen:
x | xmed | xmod
Linkssteile Verteilungen:
x > xmed > xmod
Rechtssteile Verteilungen:
x < xmed < xmod
Auf Grund des Zusammenhangs zwischen der Schiefe einer Verteilung und der relativen Lage der verschiedenen Maße der zentralen Tendenz lassen sich auch andere einfachere Formeln für die Schiefe finden.
Schiefe
x x mod s
(13.9)
Es gibt also mehrere Möglichkeiten, die Schiefe einer Verteilung zu berechnen. Beim Vergleich der Schiefen zweier Verteilungen ist daher immer sicherzustellen, dass diese auf dieselbe Weise gemessen wurden. Unabhängig von der konkret angewandten Formel zur Berechnung der Schiefe gilt jedoch natürlich immer, dass die Vorzeichen dieselben sind. Definition 13.10: Wert der Schiefe Symmetrische Verteilungen:
Schiefe | 0
Linkssteile Verteilungen:
Schiefe > 0
Rechtssteile Verteilungen:
Schiefe < 0
13.3.2
Die Wölbung
Wölbung Verteilungen, die symmetrisch sind, können sich auf andere Weise voneinander
unterscheiden. Sie können breitgipflig oder schmalgipflig sein, d.h. die Werte können sich in der Mitte der Verteilung annähernd gleichmäßig über einen weiten Bereich verteilen, oder sie können sich stark um einen engen Bereich in der Mitte gruppieren.
Kapitel 13 Maße zur Beschreibung von Verteilungen
137
Abbildung 13.4: Breitgipflige Verteilung
Abbildung 13.5: Schmalgipflige Verteilung
Den Parameter, mit dem diese Eigenschaft einer Verteilung gemessen wird, bezeichnet man als Wölbung oder Exzess einer Verteilung (englisch kurtosis). Analog zu den Schiefemaßen kann die Wölbung auf der Basis von Quantilen oder auf der Basis von Potenzmomenten berechnet werden. Verschiedene Formeln zur Berechnung der Wölbung
Auf der Basis von Quantilen berechnetes Wölbungsmaß:
Wölbung
x 0,75 x 0,25 2(x 0,9 x 0,1 )
Auf der Basis von Potenzmomenten berechnetes Wölbungsmaß:
(13.10)
138
Kapitel 13 Maße zur Beschreibung von Verteilungen
Wölbung
1 n ¦ (x i x)4 ni1 s4
(13.11)
Das Wölbungsmaß hat einen desto höheren Wert, je breitgipfliger die Verteilung ist. In der Literatur üblich ist auch das auf Potenzmomenten basierende Wölbungsmaß von Fisher:
J
1 n ¦ (x x)4 ni1 i 3 s4
(13.12)
Das Wölbungsmaß von Fisher ist in Bezug auf die später erläuterte Standardnormalverteilung normiert, deren Wölbung den Wert 3 besitzt. Das Wölbungsmaß von Fisher ist daher positiv, wenn die Wölbung stärker ausfällt als die der Standardnormalverteilung, und negativ, wenn die Verteilung der betrachteten Datenmenge im Vergleich zur Standardnormalverteilung schmalgipfliger ist.
13.4 Lorenzkurve und Gini-Koeffizient Maße für die Konzentra- Mittelwert und Varianz sind Parameter, die sich auf die Ausprägungen einer Varition einer Verteilung
ablen beziehen, im einen Fall wird der durchschnittliche Wert der Ausprägung angegeben, im anderen Fall die durchschnittliche Abweichung eines beliebigen Werts aus einer Datenmenge zum Mittelwert. Schiefe und Wölbung beziehen sich hingegen mehr auf die Verteilung der Häufigkeiten der einzelnen Ausprägungen. Bisher hatten wir allerdings noch kein Maß, das (sozusagen) die Kombinationen aus den Ausprägungen und den dazugehörigen Häufigkeiten erfasst. Solche Maße benötigen wir jedoch, wenn wir z.B. die Konzentration bestimmter Größen auf wenige Einheiten einer Gruppe betrachten wollen. In der nachfolgenden Tabelle sind als Beispiel die Verteilungen des Bruttosozialprodukts und der Bevölkerung für die drei Gruppen der Niedrig-Einkommen-Länder, der Mittleres-EinkommenLänder und der Hohes-Einkommen-Länder angegeben. Es handelt sich dabei um aggregierte Daten. Das bedeutet, dass für jede Gruppe von Ländern in den einzelnen Spalten die Summe der relevanten Variable (Bruttosozialprodukt bzw. Bevölkerung) ausgewiesen wird, die sich ergibt, wenn man die Werte aller einzelnen Länder einer Gruppe aufsummiert. Tabelle 13.3:Einkommen pro Bevölkerung Länder
GDP in Millionen US$
Bevölkerung in Millionen
Low-income Nations
1033240
2417
Middle income nations
5518750
2665
High income nations
24323299
896
(Daten für 1999; Datenquelle: WDI-Data-Query der Weltbank)
Kapitel 13 Maße zur Beschreibung von Verteilungen
139
Selbst bei den aggregierten Daten ist unmittelbar zu erkennen, dass es sich bei der Aufteilung der Bevölkerung nach Einkommen um eine rechtsschiefe Verteilung handelt, da wir einen überwiegenden Teil der Weltbevölkerung im niedrigen und mittleren Einkommensbereich haben, während ein relativ kleiner Teil, ungefähr ein Sechstel der Weltbevölkerung, die hohen Einkommen erzielt. Dieses Sechstel der Bevölkerung erzielt allerdings ca. 80 Prozent des Weltbruttosozialprodukts. Die so genannte Lorenzkurve ist ein äußerst anschauliches grafisches Mittel, um diese extreme Konzentration des Welteinkommens auf eine kleine Anzahl von Industrieländern zu veranschaulichen. Jeder vorkommenden Merkmalsausprägung wird dabei ein Koordinatenpaar zugeordnet. Die Koordinate auf der horizontalen Achse entspricht dem Anteil der Fälle, deren Merkmalsausprägungen kleiner oder gleich der kritischen Merkmalsausprägung sind. Die vertikale Koordinate entspricht dem Anteil an der Summe aller Merkmalsausprägungen, den die Summe der Merkmalsausprägungen, die kleiner oder gleich der kritischen Merkmalsausprägung sind, bildet. Lorenzkurve
Definition 13.11: Lorenzkurve Jeder Merkmalsausprägung xi wird ein Koordinatenpaar (ui, vi) zugeordnet mit den folgenden Eigenschaften. ui = Anzahl der Fälle, deren Merkmalsausprägung kleiner oder gleich xi ist, geteilt durch n
¦x
vi
x j d xi n
j
(13.13)
¦ xi i 1
Der im Ursprung beginnende Streckenzug, der diese Koordinatenpaare miteinander verbindet, in der Reihenfolge entsprechend ihrer Koordinate auf der horizontalen Achse, ist die Lorenzkurve. Um den Konzentrationseffekt anhand der Lorenzkurve zu verdeutlichen, seien als Illustration: Vier fiktive Gesellschaften Beispiele vier fiktive "Gesellschaften" mit jeweils 10 Mitgliedern betrachtet, die folgende Einkommensverteilung haben sollen.
140
Kapitel 13 Maße zur Beschreibung von Verteilungen
Tabelle 13.4: Konzentration des BSP in vier Gesellschaften Gesellschaft A
Gesellschaft B
Gesellschaft C
Gesellschaft D
10000
1000
1000
8000
10000
2000
2000
8000
10000
3000
4000
8000
10000
4000
7000
8000
10000
5000
11000
8000
10000
6000
16000
8000
10000
7000
22000
8000
10000
8000
29000
8000
10000
9000
37000
8000
10000
10000
46000
80000
In Gesellschaft A herrscht eine perfekte Gleichverteilung der Einkommen, in den Gesellschaften B und C gibt es einen gleichmäßigen Anstieg des Einkommens über die verschiedenen Mitglieder hinweg und in Gesellschaft D schließlich ist eine stark konzentrierte Einkommensverteilung zu bemerken, bei der der Bestverdienende mehr an Einkommen erzielt als alle anderen Mitglieder der Gesellschaft zusammen. Abbildung 13.6: Lorenzkurven der vier Gesellschaften
Kapitel 13 Maße zur Beschreibung von Verteilungen
Wie man sieht, ist die Lorenzkurve im Falle perfekter Gleichverteilung identisch Gini-Koeffizient mit der Diagonalen von links unten nach rechts oben. In jedem anderen Fall stellt die Lorenzkurve eine mehr oder weniger stark gekrümmte konvexe Funktion unterhalb der Diagonalen dar, die lediglich am Anfangspunkt und am Endpunkt mit dieser zusammentrifft. Die Lorenzkurve weicht desto dramatischer von der Diagonalen ab, je stärker die Konzentration ausfällt. Mit steigender Konzentration nimmt daher auch die Fläche zwischen der Diagonalen und der Lorenzkurve zu. Es bietet sich daher an, ein Konzentrationsmaß zu konstruieren, das diesen Zusammenhang berücksichtigt. Dieses Maß nennt man den Gini-Koeffizienten. Definition 13.12: Gini-Koeffizient Anteil der Fläche zwischen Diagonalen und Lorenzkurve an Fläche zwischen Diagonale und horizontaler Achse. Da das Dreieck zwischen der Diagonalen und der horizontalen Achse den Flächeninhalt ½ hat, gilt auch der Zusammenhang: Das Zweifache der Fläche zwischen der Diagonalen und der Lorenzkurve. Da die Fläche zwischen der Diagonalen und der Lorenzkurve gleich der Differenz der Fläche unter der Diagonalen und der Fläche unter der Lorenzkurve ist, kann der Gini-Koeffizient auch als das Zweifache dieser Differenz berechnet werden. Die Fläche unter der Lorenzkurve kann aus einzelnen Teilflächen zusammengesetzt werden, die einem Abschnitt zwischen zwei aufeinander folgenden Werten von ui entsprechen. Jede dieser Teilflächen besteht jeweils aus einem Rechteck und einem Dreieck. Der Teilabschnitt zwischen ui und ui – 1 besteht demnach aus dem Rechteck mit der Breite ui – ui – 1 und der Höhe vi – 1 und einem Dreieck mit derselben Breite ui – ui – 1 und der Höhe vi – vi – 1. Abbildung 13.7: Grafische Darstellung des Gini-Koeffizienten
141
142
Kapitel 13 Maße zur Beschreibung von Verteilungen
Formal lässt sich der Gini-Koeffizient wie folgt berechnen:
Die Koordinatenpaare (ui ,v i ) seien geordnet, so daß gilt: ui ! ui-1, v i ! v i-1 n ª (u ui1 )(v i v i1 ) º Gini Koeffizient 1 2¦ « i (ui ui1 ) v i1 » 2 ¼ i 1 ¬ n (u u )(v v ) ª i 1 i i 1 º 1 2¦ « i » 2 ¼ i 1 ¬ n
1 ¦ (ui ui1 )(v i v i1 ) i 1 n
1 ¦ (v iui v iui1 v i1ui v i1ui-1 ) i 1
n
¦vu i 1
mit u0
0, v 0
0 und un
i i 1
n
¦ v i1ui
1, v n
i 1
1
(13.14)
Normierung des Bei perfekter Gleichverteilung nimmt der Gini-Koeffizient den Wert 0 an, bei Gini-Koeffizienten
vollständiger Konzentration des Merkmals auf die letzte Gruppe mit m Fällen beträgt der Gini-Koeffizient
nm . Damit die maximal mögliche Konzentration n
den Wert 1 erhält, wird der Koeffizient normiert. Die maximale Konzentration ist dann gegeben, wenn die Summe aller Merkmalsausprägungen auf einen Fall vereinigt ist. Deshalb wird m zumeist mit 1 gleichgesetzt. Es sind jedoch auch Beispiele denkbar, in denen die Konzentration nicht für einzelne Fälle, sondern für Gruppen von Fällen gemessen wird, wie etwa in der hier angeführten Tabelle über reiche und arme Länder. In diesem Fall ist m > 1. Deswegen wird hier die Formel für den normierten Gini-Koeffizienten in der allgemeinen Form angegeben, oft findet man sie jedoch auch in der spezielleren Form mit m = 1. Definition 13.13: Normierter Gini-Koeffizient Normierter Gini-Koeffizient =
n * Gini-Koeffizient nm
Als Beispiel berechnen wir den Gini-Koeffizienten für die Verteilung des Bruttosozialprodukts über die Ländergruppen. Dazu nehmen wir vereinfachend an, dass innerhalb der Gruppen keine wesentliche Konzentration besteht. Um den Koeffizienten berechnen zu können, müssen wir zuerst die Werte der Koordinaten bestimmen.
Kapitel 13 Maße zur Beschreibung von Verteilungen
143
Tabelle 13.5: Gini-Koeffizient für Verteilung des Bruttosozialproduktes über Ländergruppen Länder
GDP
Bevölkerung
vi
ui
Low-income Nations
1033240
2417
0,033
0,404
Middle income nations
5518750
2665
0,212
0,850
High income nations
24323299
896
1,000
1,000
Summe
30875289
5978
Aus der Tabelle können wir jetzt unmittelbar herauslesen, dass z.B. 85 Prozent der Weltbevölkerung über nur 21 Prozent des Bruttosozialprodukts verfügen, oder umgekehrt, dass rund 15 Prozent der Weltbevölkerung über fast 80 Prozent des Bruttosozialprodukts verfügen. Gini-Koeffizient = 0,033 * 0,85 + 0,212 * 1 – 0,212 * 0,404 – 0,85
= 0,696
Um den "normierten" Koeffizienten zu erhalten, muss noch mit 100/85 multipliziert werden, so dass schließlich 0,818 herauskommt, also eine extrem starke Konzentration, was jedoch trivialerweise so zu erwarten war.
144
Kapitel 14 Bivariate Zusammenhänge
14 Bivariate Zusammenhänge Vermutungen aus Die Darstellung einer univariaten Verteilung kann zwar durchaus aufschlussreich Vorwissen und Alltagserfahrung und hilfreich sein, sie allein wird aber kaum jemals zu wirklich interessanten Ein-
sichten führen. Wenn wir dennoch bei Merkmalen der Verteilung einer einzigen Variable den Eindruck bekommen, eine interessante Entdeckung gemacht zu haben, so vermutlich dann, wenn wir diese Merkmale so nicht erwartet hätten. Diese Merkmale scheinen nicht typisch zu sein im Vergleich mit denen, die wir "normalerweise" erwarten würden. Wenn wir also auf solche "überraschenden" Ergebnisse stoßen, hegen wir offensichtlich Vermutungen, denen nicht entsprochen wird. Diese Abweichung von unseren Vermutungen würden wir dann zu erklären versuchen, indem wir nach einem Merkmal unseres Datensatzes suchen, das diesen als nicht "normal" erscheinen lässt. Nehmen wir z.B. an, wir wüssten, dass die durchschnittliche Körpergröße aller Deutschen 1,75 Meter wäre. Ein befreundeter Arzt erzählt uns nun von einer Untersuchung an einer Gruppe von Menschen, die im Mittel lediglich 1,63 Meter groß waren. Dieses Ergebnis würde uns nur so lange überraschen, bis uns der Arzt mitteilt, dass diese Untersuchung an Bewohnern eines Altenheims stattgefunden hat. Da wir aus unserer Alltagserfahrung wissen, dass alte Menschen im Durchschnitt kleiner sind, empfinden wir jetzt das Ergebnis als nicht mehr ungewöhnlich.
Höchste Abstraktions- Wissenschaftlich interessant sind Aussagen immer dann, wenn sie sich auf das ebene: Aussagen über Zusammenhänge Verhältnis mehrerer Eigenschaften zueinander beziehen, wie z.B. auf den Zuzwischen Merkmalen sammenhang zwischen Alter, Geschlecht oder regionaler Herkunft und Körper-
größe. Mit Aussagen, die sich nur noch auf solche Zusammenhänge zwischen Merkmalen beziehen, erreichen wir das höchste Ausmaß an Abstraktion, da wir uns vollends von der Ebene der Objekte erheben. Ein Satz wie 'Alte Menschen sind im Durchschnitt kleiner als junge Menschen.' besteht nur noch aus Universalien und enthält keinerlei Individualien – also Namen oder Identifikationsbezeichnungen von Objekten – mehr. Allerdings sind diese Aussagen Verallgemeinerungen von Zusammenhängen, die wir auf der Objektebene erheben. Urliste geordneter Paare Der Einfachheit halber werden wir uns im Folgenden vorerst auf die Beziehungen
zwischen zwei Merkmalen beschränken. Um diese zu untersuchen, muss die Urliste für jedes Objekt die Ausprägungen dieser zwei Merkmale enthalten. Wenn wir die Variablen allgemein als X und Y bezeichnen und die Ausprägungen der Variablen des i-ten Objekts mit xi und yi, dann besteht die Urliste aus einer Menge von geordneten Paaren (xi, yi). Die allgemeine tabellarische Darstellung sähe dann folgendermaßen aus:
Kapitel 14 Bivariate Zusammenhänge
145
Tabelle 14.1: Bivariate Urliste Objektindex
Variablen X
Y
1
x1
y1
2
x2
y2
3
x3
y3
...
...
...
i
xi
yi
...
...
...
n
xn
yn
Bei der Darstellung von Häufigkeiten einer Variablen wurden alle Fälle mit der- Kontingenztabelle selben Ausprägung der Variablen zu einer Gruppe zusammengefasst. Besitzt die Variable X insgesamt k Ausprägungen a1 bis ak und die zweite Variable Y l Ausprägungen b1 bis bl, dann existieren k * l Kombinationen der Ausprägungen der beiden Variablen. Der Funktionswert hij = h(ai, bj), der die Anzahl der Fälle mit der Merkmalskombination ai UND bj angibt, wird die absolute Häufigkeit der gemeinsamen Verteilung von X und Y genannt. Der Funktionswert fij = f(ai, bj), der den Anteil der Fälle mit der Merkmalskombination ai UND bj angibt, wird die relative Häufigkeit der gemeinsamen Verteilung von X und Y genannt. Solange die Anzahl der Merkmalsausprägungen überschaubar ist, lassen sich gemeinsame Häufigkeitsverteilungen in so genannten Kontingenztabellen darstellen. Die Zeilen der Tabelle entsprechen dabei den Ausprägungen der einen Variablen, die Spalten den Ausprägungen der zweiten Variablen, und eine bestimmte Zelle entspricht als "Schnittmenge" einer Zeile und einer Spalte einer bestimmten Kombination von Ausprägungen. Der Häufigkeitswert hij der gemeinsamen Verteilung befindet sich nach der üblichen Konvention in der Zelle, die durch die Schnittmenge der i-ten Zeile mit der j-ten Spalte gebildet wird. Werden die Werte der Zellen über die Zeilen oder die Spalten aufaddiert, so ergeben sich die so genannten Zeilen- bzw. Spaltensummen, die auch Randverteilungen genannt werden. Die Randverteilung der Zeilenvariablen wird durch die Häufigkeiten hi. erstellt, die Randverteilung der Spaltenvariablen durch die Häufigkeiten h.i. Durch den Punkt wird angezeigt, dass die Ausprägungen der an dieser Stelle indizierten Variablen alle so behandelt werden, als ob sie nicht unterschieden werden könnten. hi. = h(ai mit beliebigem bj) = hi1 + hi2 +… hij +…+ hil
(14.1)
h.i = h(bi mit beliebigem aj) = h1i + h2i +…hji +...+ hki
(14.2)
Die Randverteilungen sind dabei identisch mit der univariaten Häufigkeitsvertei- Randverteilung lung der entsprechenden Variablen.
146
Kapitel 14 Bivariate Zusammenhänge
Tabelle 14.2: Kontingenztabelle mit Randverteilungen Y=b1
Y=b2
X=a1
h11
h12
X=a2
h21
...
…
Y=bj
...
Y=bl
Zeilensummen
h1j
h1l
h1.
h22
h2j
h2l
h2.
...
...
...
...
...
X=ai
hi1
hi2
hij
hil
hi.
...
...
...
...
...
...
X=ak
hk1
hk2
hkj
hkl
hk.
Spaltensummen
h.1
h.2
h.j
h.l
n
14.1 Grafische Darstellung bivariater Zusammenhänge Die folgende Kontingenztabelle enthält die Ergebnisse einer fiktiven Umfrage bezüglich der Variablen Wahlabsicht, die für jeweils 1000 Befragte sowohl in den alten wie auch in den neuen Bundesländern erhoben wurde. Tabelle 14.3: Wahlabsicht in alten und neuen Bundesländern CDU/CSU
SPD
FDP
GRÜNE/ B90
PDS
Zeilensummen
Alte Bundesländer
370
415
69
123
23
1000
Neue Bundesländer
234
385
62
98
221
1000
Spaltensumme
604
800
131
221
244
2000
Dreidimensionales Zur grafischen Abbildung der Tabelle können wir ein dreidimensionales SäulenSäulendiagramm
diagramm verwenden, bei der die beiden Dimensionen der Grundfläche den Ausprägungen der beiden Variablen entsprechen und die Höhe der Säulen wie gewohnt der Häufigkeit.
Kapitel 14 Bivariate Zusammenhänge
147
Abbildung 14.1: Dreidimensionales Säulendiagramm zur Darstellung einer bivariaten Verteilung 500 400 300 200 100 0
CD
U CS U/
Neue Bundesländer D SP
P FD R G
E/ ÜN
0 B9
Alte Bundesländer S PD
Da dreidimensionale Abbildungen oft unübersichtlich sind und ein größeres räum- Gruppiertes Säulendiagramm liches Vorstellungsvermögen voraussetzen, ist es verbreiteter, zur Darstellung von bivariaten Zusammenhängen auf gruppierte Säulen zurückzugreifen. Da durch die Gruppierung aber die bisherige Symmetrie der Darstellung bezüglich beider Variablen aufgegeben wird, müssen wir uns überlegen, nach welchem Kriterium wir Säulen gruppieren wollen. Grundsätzlich wollen wir durch bivariate Untersuchungen herausfinden, welcher Zusammenhang zwischen zwei Variablen besteht. Dabei stellen wir die forschungsrelevante Frage: Inwiefern treffen Veränderungen der einen Variablen mit Veränderungen der anderen Variablen systematisch zusammen? Wenn wir über vorab formulierte Hypothesen oder Vermutungen verfügen – und dies sollten wir, wenn wir methodisch korrekt vorgehen wollen –, dann haben wir in der Regel eine Vermutung über die Richtung des Zusammenhangs, also die Veränderung welcher Variablen die Veränderung der anderen nach sich zieht. Im Falle einer echten Kausalhypothese können wir sogar von einer Ursacheund einer Wirkungsvariablen sprechen. Allgemein sprechen wir in der Statistik von abhängigen und unabhängigen Variablen, wobei die Veränderungen der unabhängigen Variablen sich auf die abhängige Variable auswirken. Wenn wir Säulen in einem Diagramm zur Darstellung eines bivariaten Zusammenhangs gruppieren, dann ist die Gruppierungsvariable die unabhängige Variable. Bei unserem Beispiel bezüglich des Wahlverhaltens und des Ost/West-Faktors gehen wir wohl kaum davon aus, dass die Wahlabsicht die regionale Herkunft beeinflusst. Vielmehr vermuten wir, dass die regionale Herkunft einen Einfluss auf die Wahlabsicht ausübt. Daher fassen wir die Säulen der Befragten aus den neuen und den alten Bundesländern bezüglich jeder Partei zu einem Block zusammen.
148
Kapitel 14 Bivariate Zusammenhänge
Abbildung 14.2: Gruppiertes Säulendiagramm zur Darstellung einer bivariaten Verteilung 450 400 350 300 250 200 150 100 50 0
Alte Bundesländer
PD S
P
C
D
U
FD
SP D
/C SU
Neue Bundesländer
Bedingte relative Bei den univariaten Verteilungen haben wir schon bemerkt, dass wir weniger an Häufigkeitsverteilung
absoluten Häufigkeiten als vielmehr an den Relationen zwischen bestimmten Häufigkeiten interessiert sind. Die Häufigkeiten werden dabei in Hinblick auf eine für die Fragestellung relevante Basisgröße relativiert. Wenn wir beispielsweise wissen wollen, ob Bürger der neuen Länder eine deutlich andere Verteilung ihrer Wahlabsichten aufweisen als Bürger der alten Länder, dann bilden diese beiden Untergruppen (Bürger der neuen und der alten Länder) die Basis für eine Relativierung der Häufigkeit der Wahlabsicht. Dies nennt man die bedingte relative Häufigkeitsverteilung. Die bedingte relative Häufigkeit der Ausprägung bj der Variablen Y für eine bestimmte Ausprägung ai der Variablen X schreiben wir als f(Y = bj | X = ai). Dies ist der Anteil der Fälle, die bezüglich der Variablen Y die Ausprägung bj und bezüglich der Variablen X die Ausprägung ai haben an allen Fällen, die bezüglich der Variablen X die Ausprägung ai haben.
f(Y
bj | X
ai )
h(ai ,b j )
hij
h(ai )
hi.
(14.3)
Konvention der Nach der Konvention bezeichnet X die unabhängige und Y die abhängige VariabTabellenkonstruktion: X (Zeilen) für die unab- le. Als bedingte relative Häufigkeitsverteilung der Wahlabsicht unter der Bedinhängige, Y (Spalten für gung einer bestimmten regionalen Herkunft ergibt sich die folgende Tabelle. die abhängige Variable
Tabelle 14.4: Bedingte relative Häufigkeitsverteilung CDU/CSU
SPD
FDP
GRÜNE/ B90
PDS
Gesamt
Alte Bundesländer
0,370
0,415
0,069
0,123
0,023
1,000
Neue Bundesländer
0,234
0,385
0,062
0,098
0,221
1,000
Gesamt
0,302
0,400
0,066
0,111
0,122
1,000
Kapitel 14 Bivariate Zusammenhänge
Die Zahlen in den Zellen sind nichts anderes als die relativen Häufigkeiten inner- Prozentuierung in Tabellen halb einer Zeile. Werden sie in Prozentzahlen dargestellt, werden sie daher auch Zeilenprozent genannt. Analog dazu können Spaltenprozent gebildet werden, indem man für jede Spalte den Anteil der Fälle in einer Zelle an allen Fällen in dieser Spalte berechnet. Ob man die unabhängige Variable in der Zeile oder in der Spalte anordnet, hängt von persönlichen Vorlieben ab. In der Literatur sind beide Vorgehensweisen üblich. Entscheidend ist, dass die abhängige Variable innerhalb der durch die unabhängige Variable gebildeten Untergruppen prozentuiert wird. Ist die bedingende bzw. unabhängige Variable die Zeilenvariable, dann werden Zeilenprozente gebildet, ist die bedingende Variable die Spaltenvariable, dann werden Spaltenprozentwerte berechnet. In unserem Beispiel einer fiktiven Umfrage erhält die PDS in den neuen Bundesländern 22,1 Prozent, während sie in den alten Bundesländern nur 2,3 Prozent der Stimmen auf sich ziehen kann. Der große Verlierer im Osten ist die CDU, die dort nur 23,4 Prozent erhält, während sie im Westen auf stattliche 37,0 Prozent kommt. Natürlich hätte man diese Verhältnisse auch an den absoluten Zahlen erkennen können, da in unserem speziellen Fall beide Teilgruppen die gleiche Anzahl von Fällen beinhalten. Wenn sich die Fallzahlen in den Untergruppen jedoch unterscheiden, können die bedingten Verteilungen der abhängigen Variablen nur auf Basis der relativen Häufigkeiten in den Zeilen sinnvoll verglichen werden. Für die grafische Darstellung von bedingten relativen Häufigkeiten eignen sich Gestapeltes Säulendiagramm gestapelte Säulendiagramme. Dabei gibt es für jede Ausprägung der unabhängigen Variablen eine Säule. Die Anteile der Ausprägungen der abhängigen Variablen innerhalb dieser Untergruppe sind übereinander in der Säule abgetragen, wobei der jeweilige Anteil der Fälle der Höhe dieser Teilsäule entspricht. Da es nur auf die Anteile der Ausprägungen der abhängigen Variablen innerhalb der durch die unabhängigen Variablen spezifizierten Untergruppen ankommt, sind die verschiedenen Säulen auf eine gleiche Höhe normiert, so dass man das Verhältnis der Anteile einer Ausprägung der abhängigen Variablen in verschiedenen Untergruppen gut mit dem Auge erfassen kann.
149
150
Kapitel 14 Bivariate Zusammenhänge
Abbildung 14.3: Gestapeltes Säulendiagramm zur Darstellung einer bedingten relativen Häufigkeitsverteilung 100% 90% 80% 70%
PDS GRÜNE/B90 FDP SPD CDU/CSU
60% 50% 40% 30% 20% 10% 0% Alte Bundesländer
Neue Bundesländer
Sowohl die Tabelle 14.4 als auch die Abbildung 14.3 zeigen einen auffälligen Zusammenhang zwischen regionaler Herkunft und dem beabsichtigten Wahlverhalten. Will man das Ausmaß (die Stärke) des Zusammenhangs charakterisieren, ist es sinnvoll, hierfür standardisierte Kennzahlen zu verwenden. Dafür bildet man Zusammenhangsmaße. Da es uns vorerst um die Darstellung von Zusammenhängen geht, wie wir sie in Kontingenztabellen finden, beziehen sich die entsprechenden Zusammenhangsmaße auf nominalskalierte Variablen. Das können auch Variablen sein, die ursprünglich auf einem höheren Skalenniveau erhoben wurden, dann aber auf Nominalskalenniveau transformiert wurden.
14.2 Zusammenhangsmaße für nominalskalierte Variablen Vierfeldertabelle Am einfachsten lassen sich solche Zusammenhänge oder Assoziationen am Fall
zweier nominalskalierter Variablen untersuchen, die jeweils nur zwei Ausprägungen haben. Die Häufigkeitstabelle besteht dann aus nur vier Zellen und wird daher auch Vierfeldertabelle genannt. Als Zellen einer Häufigkeitstabelle wird nur der Kern der Tabelle gezählt, der die Werte enthält. Die Zellen, die lediglich Beschriftungen enthalten, werden nicht zur Häufigkeitstabelle gezählt, da Beschriftungen auch außerhalb der Tabelle am Rand stehen könnten. Auch die Randverteilungen gehören nicht zur eigentlichen Wertetabelle, da sie erst aus den Werten der anderen Zellen errechnet werden. Tabelle 14.5: Vierfeldertabelle Y = b1
Y = b2
Zeilensummen
X = a1
h11
h12
h1.
X = a2
h21
h22
h2.
Spaltensummen
h.1
h.2
n
Kapitel 14 Bivariate Zusammenhänge
151
14.2.1 Prozentsatzdifferenz Als ein empirisches Beispiel für eine solche Vierfeldertabelle nehmen wir einen Prozentsatzdifferenz Ausschnitt der "Ewigen Tabelle" des DFB, in dem für die beiden Spitzenreiter "Bayern München" und "Hamburger SV" jeweils nur die gewonnenen und die verlorenen Spiele aufgeführt sind. Streng genommen ist diese Darstellung nicht ganz korrekt, da gewisse Fälle, nämlich alle Begegnungen zwischen den beiden Mannschaften, doppelt gezählt werden, doch für den Zweck der Illustration soll hier dieser kleine Schönheitsfehler der Tabelle ignoriert werden. Zusätzlich zu den absoluten Häufigkeiten der einzelnen Zellen sind in der Tabelle unter diesen die Zeilenprozente angegeben. Tabelle 14.6: Spielbilanz von Bayern und Hamburg Gewonnene Spiele
Verlorene Spiele
Zeilensummen
Bayern München
770 73,2 %
282 26,8 %
1052 100 %
Hamburger SV
596 56,9 %
452 43,1 %
1048 100 %
Spaltensummen
1366 65,0 %
734 35,0
2100 100 %
Quelle: http://www.fussballdaten.de/bundesliga/ewigetabelle/, Stand 05.10.2005
Beide Mannschaften zusammen haben von insgesamt 2100 Spielen 1366 Spiele gewonnen, also fast zwei Drittel. Dies ist nicht überraschend, da es sich ja um die Auswahl der beiden erfolgreichsten Mannschaften in Deutschland handelt. Allerdings hat Bayern München 73,2 % aller seiner Spiele gewonnen, während die Gewinnquote für den Hamburger SV "nur" 56,9 % beträgt. Die einfachste Form, diesen Unterschied auszudrücken, ist die so genannte Prozentsatzdifferenz d %, die in unserem Beispiel 16,3 beträgt. Die Prozentsatzdifferenz zweier Untergruppen der unabhängigen Variable, die durch die Ausprägungen ai und aj gebildet sind, bezüglich der Ausprägung der abhängigen Variablen bk, ist die Differenz der bedingten relativen Häufigkeiten dieser Ausprägung in den beiden Untergruppen mit Hundert multipliziert. Definition 14.1: Prozentsatzdifferenz d%(bk ,ai ,a j )
ª h(ai ,bk ) h(a j ,bk ) º « » 100 h(a j ) ¼» ¬« h(ai )
ª hik h jk º « » 100 ¬« hi. h j. »¼
(14.4)
Diese Formel stellt den allgemeinen Fall dar. Die Prozentsatzdifferenz bezieht sich immer auf eine Ausprägung der abhängigen Variablen im Hinblick auf zwei Untergruppen der unabhängigen Variablen. Mit Hilfe der allgemeinen Formel kann beispielsweise auch die Prozentsatzdifferenz zwischen zwei Zeilen in einer Spalte einer größeren Tabelle berechnet werden. Üblicherweise wird die Pro-
152
Kapitel 14 Bivariate Zusammenhänge
zentsatzdifferenz aber nur für Vierfeldertabellen ausgerechnet. In diesem (spezielleren) Fall ist sie für beide Ausprägungen der abhängigen Variablen gleich. Außerdem ist im Fall der Vierfeldertabelle klar, auf den Vergleich welcher Untergruppen sie sich bezieht, da es nur zwei Untergruppen gibt. Die (speziellere) Formel der Prozentsatzdifferenz für eine Vierfeldertabelle, in der die Zeilenvariable die bedingende Variable ist, lautet:
d% Darstellung einer Prozentsatzdifferenz im gestapelten Säulendiagramm
ª h11 h21 º « » 100 ¬ h1. h2. ¼
(14.5)
Wenn die abhängige Variable nur zwei Ausprägungen besitzt, sind gestapelte Säulendiagramme besonders gut geeignet, die Prozentsatzdifferenz grafisch darzustellen, wie man an dem DFB-Beispiel der ewigen Tabelle gut erkennen kann. Abbildung 14.4: Fußballspiele – Vergleich Bayern und Hamburg 100% 90% 80% 70% 60%
Verlorene Spiele Gewonnene Spiele
50% 40% 30% 20% 10% 0% Bayern München
Hamburger SV
Die Prozentsatzdifferenz betrachtet den Unterschied zwischen den Zeilen hinsichtlich der bedingten relativen Häufigkeit einer Ausprägung der abhängigen Variablen, also innerhalb einer Spalte. Man hätte aber auch erst einmal die Differenz innerhalb einer Zeile bilden und so zu der Aussage kommen können, dass die Differenz der Prozentsätze der gewonnenen und der verlorenen Spiele für den FC Bayern immerhin 46,4 Prozentpunkte beträgt, für den HSV jedoch nur 13,8 Prozentpunkte. Die Differenz dieser Überhänge von gewonnenen gegenüber verlorenen Spielen zwischen den beiden Vereinen ist demnach 32,6 Prozent. Dem aufmerksamen Leser wird dabei nicht entgangen sein, dass dies genau das Doppelte der Prozentsatzdifferenz ist, da die Differenz zwischen gewonnenen und verlorenen Spielen um genau den doppelten Betrag ansteigt, um den die gewonnenen Spiele zunehmen.
Kapitel 14 Bivariate Zusammenhänge
153
14.2.2 Odds-Ratio Genau denselben Vergleich können wir auch durchführen, wenn wir anstatt Diffe- Odds-Ratio renzen Verhältnisse bilden. Das Verhältnis der gewonnenen zu den verlorenen Spielen ist beim FC Bayern mit 676 / 259 = 2,61 deutlich günstiger als beim Hamburger SV mit 535 / 402 = 1,33, ja fast sogar doppelt so hoch. Dieses Verhältnis wird im Englischen als Odds bezeichnet und im Deutschen meist als Chance übersetzt. Der Begriff stammt aus dem Bereich der Wetten, da er die Quote bezeichnet, die jemand bei einer fairen Wette erhalten sollte. Jemand, der bereit ist, auf eine Niederlage des FC Bayern zu wetten, sollte dies daher nur dann tun, wenn er als Gewinn mindestens das 2,61-fache seines Einsatzes erhält, wenn die Bayern tatsächlich verlieren. Dies gilt allerdings nur, wenn man davon ausgeht, dass das bisherige Gewinn-Niederlage Verhältnis auch ungefähr den Wahrscheinlichkeiten zukünftiger Gewinne bzw. Niederlagen entspricht. (Sollten darüber hinaus so genannte "expressive Nutzen" entstehen, weil es einfach Spaß macht, gegen den FC Bayern zu wetten, gilt das Kalkül natürlich ebenfalls nicht.) Die bedingten Odds beziehen sich also auf das Verhältnis der bedingten Häufigkeiten zweier Ausprägungen der abhängigen Variablen bk und bl innerhalb einer Untergruppe, die einer Ausprägung ai der unabhängigen Variablen entspricht.
Odds(bk ,bl ,ai )
hik hil
(14.6)
Uns interessieren aber die Unterschiede der Odds bzw. der Chancen zwischen den Odds: Relative Chancen Untergruppen. Offensichtlich ist es bei gleicher Quote ja wesentlich aussichtsreicher, auf eine Niederlage des HSV zu wetten als auf eine des FC Bayern. Das Verhältnis zweier Odds zueinander wird als Odds-Ratio oder relative Chance bezeichnet.
Odds Ratio(bk ,bl ,ai , a j )
Odds(bk ,bl ,ai ) Odds(bk ,bl , a j )
hik /hil h jk /h jl
hik h jl h jk hil
(14.7)
Für die Vierfeldertabelle vereinfacht sich die Formel wieder entsprechend. Odds Ratio
h11 h22 h21 h12
(14.8)
Da in diesem Spezialfall die Odds-Ratio dem Verhältnis der Produkte entspricht, Kreuzproduktverhältnis die aus den auf den jeweiligen Diagonalen liegenden Zellen gebildet werden, wird die Odds-Ratio auch Kreuzproduktverhältnis genannt. Für unser Beispiel gilt: Odds Ratio
676 402 535 259
1,96
Wenn ich auf die Niederlage eines Vereins wetten würde, sollte die Quote bezüglich der FC Bayern also fast doppelt so hoch ausfallen wie die bezüglich des HSV.
154
Kapitel 14 Bivariate Zusammenhänge
14.2.3
Chi²-basierte Zusammenhangsmaße
Empirische Unabhän- Ein Zusammenhang oder eine Assoziation zwischen zwei Variablen besteht imgigkeit zwischen Variablen mer dann, wenn die eine Variable, die unabhängige oder bedingende, einen Ein-
fluss auf die andere, die abhängige oder bedingte, ausübt. Dies ist dann der Fall, wenn eine Änderung der unabhängigen Variablen eine Änderung der abhängigen Variablen nach sich zieht. Der stärkste vorstellbare Zusammenhang würde dann bestehen, wenn jede Änderung der unabhängigen Variablen eine eindeutig bestimmte Änderung der abhängigen nach sich ziehen würde. Bei dem speziellen Fall einer Vierfeldertabelle würde dies bedeuten, dass sich alle Fälle nur in den Zellen einer der beiden Diagonalen befinden. In unserem Fußballspiel wäre das z.B. dann der Fall, wenn der FC Bayern alle seine Spiele gewonnen hätte und der HSV kein einziges. Dieser Extremfall ist jedoch eher selten zu erwarten, wesentlich wahrscheinlicher ist der Fall, wie in unserem DFB-Beispiel, dass die Änderung der unabhängigen Variablen sich auf die Verteilung der relativen bedingten Häufigkeiten auswirkt. Nicht alle Ostdeutschen wählen die PDS, aber sie wählen sie in einem deutlich höherem Umfang, so wie die Gewinnquote des FC Bayern zwar nicht gleich Eins ist, aber eben deutlich höher als die des HSV. Einfacher lässt sich dieses Kriterium umgekehrt formulieren: Es besteht kein Zusammenhang zwischen einer bedingenden und der bedingten Variablen, wenn die bedingte relative Häufigkeitsverteilung für jede Ausprägung der bedingenden Variablen identisch ist. Wenn alle bedingten relativen Häufigkeitsverteilungen der abhängigen Variablen identisch sind, so sind sie auch identisch mit der relativen Häufigkeitsverteilung der abhängigen Variablen für die Gesamtheit, bzw. der relativen Häufigkeitsverteilung der entsprechenden Randverteilung. In diesem Fall sprechen wir von der empirischen Unabhängigkeit der beiden Variablen. Umgekehrt bedeutet dies: Wenn kein Zusammenhang zwischen den beiden Variablen besteht, dann erwarten wir eine annähernd identische Verteilung der bedingten relativen Häufigkeiten für die verschiedenen Ausprägungen der bedingenden Variablen. Gewisse Abweichungen zwischen den beiden Verteilungen sind dann zwar aufgrund von Zufallsschwankungen immer noch zu erwarten, sollten aber eher gering ausfallen, da sie eben nur auf dem Zufall beruhen. In jedem Fall sollten sie deutlich geringer sein als Abweichungen, die auf systematische Einflüsse der unabhängigen Variablen auf die abhängige zurückzuführen sind. Gehen wir von einem Beispiel aus, in dem 1000 Männer und 500 Frauen im Alter zwischen 20 und 35 danach befragt worden sind, welchen von fünf Kinoschauspielern sie am meisten schätzen. Die Ergebnisse dieser fiktiven Umfrage sollen folgendermaßen aussehen:
Kapitel 14 Bivariate Zusammenhänge
155
Tabelle 14.7: Empirische Häufigkeitstabelle (fiktiv) Brad Pitt
Harrison Ford
Tom Cruise
George Segal
Sylvester Stallone
Zeilensummen
Männer
194 19,4 %
122 12,2 %
243 24,3 %
127 12,7 %
314 31,4 %
1000 100 %
Frauen
181 36,2 %
130 26,0 %
117 23,4 %
23 4,6 %
49 9,8 %
500 100 %
Spaltensummen
375 25 %
252 16,8 %
360 24,0 %
150 10,0 %
363 24,2 %
1500 100 %
Während über alle Befragten hinweg Brad Pitt, Tom Cruise und Sylvester Stallone ungefähr jeweils von einem Viertel aller Befragten am meisten geschätzt werden, gibt es offensichtlich beträchtliche Unterschiede der Wertschätzungen in den beiden Teilgruppen. Frauen stehen besonders auf Brad Pitt, Männer dagegen sind in wesentlich höherem Maße angezogen von Sylvester Stallone. Ausgehend vom Postulat der empirischen Unabhängigkeit können wir nun eine Indifferenztabelle Tabelle konstruieren, die die Häufigkeiten in den Zellen angibt, die wir erwarten würden, wenn es keinen Unterschied des Geschmacks in Bezug auf männliche Kinoschauspieler zwischen Männern und Frauen gäbe. Diese Tabelle nennen wir Indifferenztabelle. Die nach dem Postulat der empirischen Unabhängigkeit erwartete absolute Häufigkeit eij in einer Zelle erhalten wir, indem wir uns die bedingte relative Häufigkeit dieser Zelle ansehen, die ja der relativen Häufigkeit in der Randverteilung entsprechen muss, und diese mit der Anzahl der Fälle in der entsprechenden Untergruppe multiplizieren. Wenn von allen Befragten 25 % z.B. Brad Pitt als den von ihnen am meisten geschätzten Schauspieler nennen, so muss das auch für 25 % der Männer zutreffen, wenn es keine Unterschiede zwischen Männern und Frauen geben soll. Also müssen 25 % der insgesamt 1000 befragten Männer für Brad Pitt sein, das sind 250. Formal ausgedrückt gilt:
eij
h.j n
hi.
h.j hi. n
n
h.j n
hi. n
n f j fi
(14.9)
Die erwartete absolute Häufigkeit der Zellenbesetzung ergibt sich als das Produkt der relativen Häufigkeiten mit den entsprechenden Werten der Randverteilungen und der Anzahl der Fälle.
156
Kapitel 14 Bivariate Zusammenhänge
Tabelle 14.8: Indifferenztabelle Brad Pitt
Harrison Ford
Tom Cruise
George Segal
Sylvester Stallone
Zeilensummen
Männer
250 25,0 %
168 16,8 %
240 24,0 %
100 10,0 %
242 24,2 %
1000 100 %
Frauen
125 25,0 %
84 16,8 %
120 24,0 %
50 10,0 %
121 24,2 %
500 100 %
Spaltensummen
375 25,0 %
252 16,8 %
360 24,0 %
150 10,0 %
363 24,2 %
1500 100 %
Wir können nun die Werte der Indifferenztabelle in eine gemeinsame Tabelle mit den Originalwerten eintragen. Tabelle 14.9: Vergleich der empirischen Häufigkeiten mit der Indifferenztabelle Brad Pitt
Maß für die Abweichung der Kontingenztabelle von der Indifferenztabelle: Chi-Quadrat-Koeffizient
Harrison Ford
Tom Cruise
George Segal
Sylvester
Zeilensummen
Stallone
Männer Originalwerte erwartete Werte Abweichungen
194 250 56
122 168 46
243 240 3
127 100 27
314 242 72
1000 1000 0
Frauen Originalwerte erwartete Werte Abweichungen
181 125 56
130 84 46
117 120 3
23 50 27
49 121 72
500 500 0
Spaltensummen
375
252
360
150
363
1500
14.2.3.1 Chi-Quadrat-Koeffizient Je stärker der tatsächliche Wert einer Zelle von dem Wert abweicht, den wir erwarten würden, wenn wir vom Postulat der Unabhängigkeit ausgehen, desto gerechtfertigter scheint unsere Vermutung, dass es sich bei dieser Abweichung nicht nur um eine zufällige handelt, sondern dass sie auf einen systematischen Einfluss zurückzuführen ist, den die unabhängige Variable auf die abhängige ausübt. Die Summe der Abweichungen über alle Zellen ergibt dann ein Maß für die Stärke des Zusammenhangs zwischen den beiden Variablen. Dieses Maß wird der Chi²-(oder F²-)Koeffizient genannt. Allerdings müssen wir dabei einiges beachten. Bei nominalskalierten Variablen gibt es keine Möglichkeit, eine "Richtung" des Zusammenhangs festzulegen. Man kann zwar sagen, welche Zellen in welchen Untergruppen relativ besonders stark besetzt sind, aber da die Anordnung der Zellen bei nominalskalierten Variablen beliebig ist, darf der Eindruck einer "Richtung" des Zusammenhangs nicht als solcher interpretiert werden, da er möglicherweise nur
Kapitel 14 Bivariate Zusammenhänge
157
durch eine willkürliche Zuordnung von Zahlen zu bestimmten Ausprägungen entstanden ist. Es zählt also nur die Größe der Abweichung, nicht ob sie positiv oder negativ ausfällt. Das Vorzeichen eines Ausdrucks kann unter anderem dadurch neutralisiert werden, dass man entweder den absoluten Betrag des Ausdrucks nimmt oder den Ausdruck quadriert. Wie bei der Berechnung der Varianz wird auch hier der zweite Weg gewählt. Als Maß für den Zusammenhang bilden wir also die Summe der quadrierten Abstände der Originalwerte und der unter der Bedingung der Unabhängigkeit erwarteten Werte. Aus Gründen, die später genauer erläutern werden, werden die quadrierten Abstände zusätzlich normiert, indem man sie durch die erwarteten Häufigkeiten dividiert. Definition 14.2: Chi²-Koeffizient F2
k
m
¦¦ i 1 j 1
h
ij
eij eij
2
mit k
Zeilenzahl, m
Spaltenzahl
(14.10)
Der F²-Wert ist immer positiv und kann theoretisch nach oben beliebig große Normierung des Zusammenhangs zwischen Werte annehmen. Zwar gibt es für eine bestimmte Anzahl von Fällen immer einen den Variablen maximal möglichen Wert, den F² einnehmen kann (s. Experte unten), der Wert von F² vergrößert sich jedoch mit der Anzahl der Felder einer Tabelle und mit der Anzahl der Fälle, weshalb er sich nicht als standardisierter Vergleichswert eignet. Ein Assoziationsmaß sollte jedoch nur von der Stärke des Zusammenhangs abhängen und nicht von der Anzahl der Fälle. Befinden sich in einer Vierfeldertabelle alle Fälle auf einer der beiden Diagonalen, dann ist dies der größtmögliche Zusammenhang zwischen den Variablen, und er sollte immer denselben Wert zugewiesen bekommen, unabhängig davon, ob in der Vierfeldertabelle 100 Fälle oder 1000 Fälle verteilt sind. Es bietet sich daher an, den Zusammenhang so zu normieren, dass man den tatsächlich auftretenden F²-Wert durch den maximal möglichen teilt. Dieser maximal mögliche F²-Wert ist für eine Vierfeldertabelle gleich der Fallzahl n. Der so erhaltene Wert ist auf einen Wertebereich von 0 bis 1 beschränkt. Der Wert '1' gibt dann den stärkstmöglichen Zusammenhang an. Dieser auf dem F²-Maß basierende auf einen Wertebereich von 0 bis 1 normierte Koeffizient heißt Phi-Koeffizient. Experte: Maximaler F²-Wert einer Tabelle Es wurde gesagt, dass für jede Anzahl von Fällen Chi-Quadrat einen maximalen Wert annehmen kann. Dies kann man am einfachsten für eine Vierfeldertafel zeigen. Der stärkste mögliche Zusammenhang in einer Vierfeldertafel besteht, wenn sich alle Fälle in einer der beiden Diagonalen befinden.
158
Kapitel 14 Bivariate Zusammenhänge
Tabelle E 1 Y = b1
Y = b2
Zeilensummen h11
X = a1 Originalwerte
h11
0
Erwartete Werte
h11 h11 n
h11 h22 n
e11
e12
X = a2 Originalwerte
0
h22
Erwartete Werte
h22 h11
h22 h22
e 21
e 22
n
Spaltensummen
h22 n
h11
h22
n
Der Chi²-Wert errechnet sich nach der Formel als:
F2
(e11 h11 )2 e11
(e12 0)2 e12
2
2
e11 2e11h11 h11 e11
(e 21 0)2 e21
e12
2
e12
2
e 21
e 21
(e 22 h22 )2 e22 2
e 22 2e 22h22 h22 e 22
2
e11 2h11
h11
e11
e12 e21 e22 2h22
h22
h11
e11
2
e 22
2
(e11 e12 e21 e22 ) 2(h11 h22 )
2
h22
2
e22
n 2n n n n
Beim stärkstmöglichen auftretenden Zusammenhang in einer Vierfeldertabelle beträgt der Chi²-Wert n, die Anzahl der Fälle. In der folgenden Tabelle ist ein konkretes Beispiel aufgeführt. Von insgesamt 40 Fällen befinden sich jeweils 20 in den beiden Zellen der Diagonalen von links oben nach rechts unten. Diese entsprechen daher auch den Häufigkeiten der Randverteilungen. Würde die bedingende Variable X keinen Einfluss auf Y ausüben, dann müssten in allen vier Zellen der Tabelle jeweils 10 Fälle enthalten sein. Tabelle E 2
Y = b1 Y = b2
Zeilensummen
X = a1 Originalwerte Erwartete Werte
20 10
0 10
20
X = a2 Originalwerte Erwartete Werte
0 10
20 10
20
Spaltensummen
20
20
40
Der entsprechende Chi²-Wert errechnet sich als:
Kapitel 14 Bivariate Zusammenhänge
F2
(20 10)2 10 4
102
(10 0)2 10
4 10
10
159
(10 0)2 10
(20 10)2 10
40
Ende Experte 14.2.3.2 Phi-Koeffizient Der Phi-Koeffizient ist ein auf Chi² basierendes Maß des Zusammenhangs zwi- Phi-Koeffizient schen zwei nominalskalierten Variablen. Dadurch, dass durch n (Anzahl der Fälle) dividiert wird, ist er als Koeffizient besser geeignet als Chi² selbst, da er weiter gehend standardisiert ist. Definition 14.3. Phi-Koeffizient I2
F2 bzw. I N
F2 N
(14.11)
Der Phi-Koeffizient kann so jedoch nur für die Vierfeldertabelle berechnet wer- Nur für Vierfeldertabelle den. Der stärkstmögliche Zusammenhang für eine beliebige quadratische Tabelle mit k Spalten und k Zeilen besteht dann, wenn es für jede Ausprägung der XVariablen genau eine Ausprägung der Y-Variablen gibt, die dieser zugeordnet werden kann, d.h. wenn für jede Ausprägung der X-Variablen mit 100-prozentiger Sicherheit der richtige Wert der Y-Variablen vorausgesagt werden kann. Dies ist genau dann der Fall, wenn sich alle Fälle einer Zeile auf eine einzige Spalte verteilen. Anders ausgedrückt, jede besetzte Zelle ist die jeweils einzig besetzte Zelle in ihrer Zeile und in ihrer Spalte. Tabelle 14.10 Y = b1 Y = b2 … Y = bj ... Y = bk Zeilensummen X = a1
h11
0
…
0
X = a2
0
0
…
0
...
…
…
…
…
X = ai
0
hi2
…
0
...
…
…
…
X = ak
0
0
…
h11
hi2
Spaltensummen
0
h11
h2k
h2k
…
0
hi2
…
…
…
hkj
…
0
hkj
h2k
n
hkj
…
Die besetzten Zellen müssen, wie man hier sieht, in ihrer Gesamtheit nicht unbedingt die Diagonale bilden. Die Diagonalstruktur bei der Vierfeldertabelle ergibt sich zwangsläufig aus der Bedingung, dass jede besetzte Zelle sowohl in ihrer
160
Kapitel 14 Bivariate Zusammenhänge
Zeile als auch in ihrer Spalte als Einzige besetzt sein darf und es eben nur je zwei Spalten und Zeilen gibt. Wir können aber die Spalten oder die Zeilen in der obigen Tabelle durch Umbenennung der Ausprägungen so vertauschen, dass wir eine Diagonalstruktur erhalten. Das Ergebnis sieht dann wie in der folgenden Tabelle aus: Tabelle 14.11: Y = b1 Y = b2 … Y = bi ... Y = bk Zeilensummen X = a1
h11
0
…
0
X = a2
0
h22
…
0
...
…
…
…
…
X = ai
0
0
…
hii
...
…
…
…
X = ak
0
0
…
h11
h22
Spaltensummen
0
h11
0
h22
…
0
hii
…
…
…
0
…
hkk
hkk
hkk
n
hii
…
Maximaler Wert von Durch das Vertauschen von Zeilen oder Spalten bei nominalskalierten Variablen Chi² in einer quadratischen Kontingenztabelle ändert sich nichts an der Stärke des Zusammenhangs, also auch nichts an der Grö-
ße von Chi². Der maximale Wert, den Chi² in einer quadratischen Kontingenztabelle mit k Spalten und Zeilen annehmen kann, ist (k – 1) * n.
Maximaler Wert von In vielen Kontingenztabellen ist jedoch die Anzahl der Spalten nicht identisch mit Chi² in einer rechteckigen Kontingenztabelle der Anzahl der Zeilen, d.h. die Tabelle ist nicht quadratisch, sondern rechteckig.
Da dementsprechend die Anzahl der Ausprägungen der unabhängigen Variablen nicht mehr gleich der Anzahl der Ausprägungen der abhängigen Variablen ist, ist auch keine eineindeutige gegenseitige Zuordnung der Werte mehr möglich. Nehmen wir an, es gäbe mehr Spalten als Zeilen. Dann muss es für mindestens eine Ausprägung der Zeilenvariablen verschiedene Ausprägungen der Spaltenvariablen geben, die dieser zugeordnet werden. Der stärkste mögliche Zusammenhang zwischen den beiden Variablen besteht in diesem Fall darin, dass die unvermeidliche Vieldeutigkeit zumindest auf das notwendige Minimum begrenzt wird. Dies ist dann gegeben, wenn jede Ausprägung der Spaltenvariablen zumindest nur in einer einzigen Zeile vorkommt. Der maximale Wert, den Chi² in einer rechteckigen Kontingenztabelle mit k Zeilen und m Spalten annehmen kann, ist gleich (q – 1) * n, wobei q das Minimum der Spalten- und Zeilenzahl ist Experte: KQuadrat-Theorem und Rechtecks-Theorem Wir haben behauptet, dass der Chi²-Wert einer quadratischen Tabelle maximal den Wert der Anzahl der Fälle (n) annehmen kann. Diesen Zusammenhang wollen wir als KQuadrat-Theorem bezeichnen und im Folgenden beweisen.
Kapitel 14 Bivariate Zusammenhänge
161
Theorem E 1: KQuadrat-Theorem Der maximale Wert, den Chi² in einer quadratischen Kontingenztabelle mit k Spalten und Zeilen annehmen kann, ist (k – 1) * n.
F
k
2
h
k
¦¦
ij
eij
2
mit hij
eij
i 1 j 1
0 i z j, eij
hii h jj n
2 2 ª hi1 ei1 2 hi2 ei2 2 hii eii hik eik º» 2 « F ... ... ¦ ei1 ei2 eii eik i 1 « »¼ ¬ 2 2 2 2 k ª h e e e e º ¦ « ei1 ei2 ... ii e ii ... eik » i 1 « i2 ii ik » ¬ i1 ¼ k
k
¦e
i1
ei2 ...eik
h
i 1
ii
eii
2
eii
(Achtung, ab der folgenden Zeile werden die Summanden umgruppiert, so dass dann das i-te und das k-te Element vertauscht sind!) 2 ª § hii2 · º « ¨ hii ¸ » n » h h h h «h h ¦ « ii n 11 ii n 22 ...... ii n kk © h 2 ¹ » i 1 i i « » n « » ¬ ¼ k
2 ª h 2 §h 2 · º « hii2 2hii ii ¨ ii ¸ » k n © n ¹ » «h ¦ « nii (h11 h22 ......hkk ) » 2 h i 1 ii « » « n » ¬ ¼ 2 k ª hii hii º ¦ « n (n-hii ) n 2hii n » i 1 ¬ ¼ k ª hii2 hii2 º ¦ «hii n n 2hii n » i 1 ¬ ¼ k
¦ n hii i 1
k
k n ¦ hii i 1
k n n (k 1) n
Da dieser Beweis gerade für mathematisch nicht ganz so geübte Leser vielleicht nicht unmittelbar nachzuvollziehen ist, soll das Theorem noch einmal an einem einfachen konkreten Beispiel demonstriert werden. Tabelle E 1 Y = b1 Y = b2 Y = b3 Y = b4
Zeilensummen
X = a1
40
0
0
0
X = a2
0
40
0
0
40 40
X = a3
0
0
40
0
40
X = a4
0
0
0
40
40
Spaltensummen
40
40
40
40
160
162
Kapitel 14 Bivariate Zusammenhänge
Die dazugehörige Indifferenztablle hat folgende Werte: Tabelle E 2 Y = b1 Y = b2 Y = b3 Y = b4
Zeilensummen
X = a1
10
10
10
10
40
X = a2
10
10
10
10
40
X = a3
10
10
10
10
40
X = a4
10
10
10
10
40
Spaltensummen
40
40
40
40
160
Der Chi²-Wert errechnet sich demnach: F2
40 10
2
10
0 10
2
10
0 10
2
10
0 10
0 10
2
2
10
40 10
0 10
2
10
0 10
10
2
10
0 10
2
2
0 10
0 10
2
10
0 10
10
2
10
40 10 2
10 10 10 § 302 102 102 102 · 4 ¨ ¸ 10 10 10 ¹ © 10 4 90 10 10 10
2
0 10
2
10
0 10
2
10
40 10
2
10
4 120 480
Da 480 gleich 3 * 160 ist, bestätigt sich der im KQuadrat-Theorem konstatierte Zusammenhang in unserem Beispiel. Im allgemeinen Falle rechteckiger Tabellen, wenn die Anzahl der Spalten nicht mit der Anzahl der Zeilen übereinstimmt, ist keine eineindeutige Zuordnung der Werte mehr möglich. Dann müssen in mindestens einem Fall mehrere Werte der einen Variablen einem einzigen Wert der anderen Variablen zugeordnet werden. Eine leichte Abänderung unseres obigen Beispiels mit fünf Spalten und vier Zeilen könnte folgende Tabelle ergeben: Tabelle E 3 Y = b1 Y = b2 Y = b3 Y = b4 Y = b5
Zeilensummen
X = a1
40
0
0
0
0
40
X = a2
0
40
0
0
0
40
X = a3
0
0
40
0
0
40
X = a4
0
0
0
20
20
40
Spaltensummen
40
40
40
20
20
160
Die zugehörige Indifferenztabelle unterscheidet sich nur leicht von der ursprünglichen in der vierten und fünften Spalte.
Kapitel 14 Bivariate Zusammenhänge
163
Tabelle E 4 Y = b1 Y = b2 Y = b3 Y = b4 Y = b5
Zeilensummen
X = a1
10
10
10
5
5
40
X = a2
10
10
10
5
5
40
X = a3
10
10
10
5
5
40
X = a4
10
10
10
5
5
40
Spaltensummen
40
40
40
20
20
160
F2
40 10
2
10
0 10
2
10
0 10
2
10
0 10
0 10
2
2
10
40 10
0 10
2
10
0 10
2
10
2
10
0 10
2
0 10
0 5
10
40 10
2
10
0 10
5
2
2
2
0 5
2
5
20 5
2
5
2
5
0 5
0 5
2
0 5
2
5
0 5
2
5
20 5
2
10 10 10 5 5 § 302 102 102 52 52 · § 102 102 102 152 152 · 3 ¨ ¸¨ ¸ 10 10 5 5 ¹ © 10 10 10 5 5 ¹ © 10 3 90 10 10 5 5 (10 10 10 45 45)
3 120 120 480
Der Chi²-Wert für den größtmöglichen Zusammenhang hat sich in unserem Beispiel also nicht verändert, als wir eine Spalte in zwei aufgespaltet haben. Ohne im Einzelnen den allgemeinen Fall zu beweisen, können wir ein weiteres Theorem aufstellen, das wir das Rechtecks-Theorem nennen wollen. Theorem E 2: Das Rechtecks-Theorem Der maximale Wert, den Chi² in einer rechteckigen Kontingenztabelle mit k Zeilen und m Spalten annehmen kann, ist gleich dem Wert, den Chi² in der größten quadratischen Kontingenztabelle, die in der rechteckigen Tabelle enthalten ist, annehmen würde, wenn sich alle n Fälle der rechteckigen Tabelle in dieser quadratischen Teiltabelle befinden würden. Anders ausgedrückt: Der maximale Wert, den Chi² in einer rechteckigen Kontingenztabelle mit k Zeilen und m Spalten annehmen kann, ist gleich (q – 1) * n, wobei q das Minimum der Spalten- und Zeilenzahl ist. Dies ist gleich bedeutend damit, dass q gleich der Anzahl der Spalten bzw. Zeilen der größten enthaltenen quadratischen Teiltabelle ist. Mit Hilfe der beiden Theoreme kann man analog zum Phi-Koeffizienten jetzt auch für beliebige rechteckige Tabellen ein Zusammenhangsmaß berechnen, das auf dem Anteil des tatsächlichen Chi²-Wertes am größtmöglichen basiert. Dieses Zusammenhangsmaß wird Cramer's V genannt.
Ende Experte
164
Kapitel 14 Bivariate Zusammenhänge
14.2.3.3 Cramer's V Cramer's V Ein weiteres Zusammenhangsmaß, das auf dem Chi²-Wert basiert, ist Cramer's V.
Während der Phi-Koeffizient nur für quadratische Tabellen verwendet werden kann, in denen die Anzahl der Spalten gleich der der Zeilen ist, kann mit Hilfe von Cramer's V auch ein Zusammenhangsmaß für rechteckige Tabellen berechnet werden, in denen die Zahl der Spalten größer als die der Zeilen ist oder umgekehrt. Es basiert auf der größten quadratischen Tabelle, die in die rechteckige Tabelle eingeschrieben werden kann. Der Phi-Koeffizient ist daher nur ein Spezialfall von Cramer's V für die Vierfeldertafel. Definition 14.4: Cramer's V V
F2 N (q-1)
(14.12)
mit q min(k,m)
Dabei ist k die Anzahl der Zeilen und m die Anzahl der Spalten. Je nachdem, welcher Wert kleiner ist, wird dieser für die Berechnung von V herangezogen. 14.2.3.4 Kontingenzkoeffizient C Kontingenzkoeffizient C Das älteste Chi²-basierte Assoziationsmaß, das immer noch weit verbreitet ist, ist
der von Pearson entwickelte Kontingenzkoeffizient C. Definition 14.5: Kontingenzkoeffizient C C
F2 N F2
(14.13)
Allerdings ist dieses Maß mit dem Makel behaftet, dass der größte Wert, den es annehmen kann, nicht auf 1 normiert ist.
Cmax
N (q-1) N N (q-1)
q-1 q
mit q min(k,m)
(14.14)
Die Normierung des Kontingenzkoeffizienten auf einen Bereich von 0 bis 1 erreicht man dadurch, dass man den Koeffizienten durch den maximal möglichen Koeffizienten dividiert. Diesen normierten Koeffizienten nennt man den korrigierten Kontingenzkoeffizienten.
Kapitel 14 Bivariate Zusammenhänge
165
Definition 14.6: Korrigierter Kontingenzkoeffizient C
Ckorr
C Cmax
F2 N F2 q-1 q
F2 q (N F 2 )(q 1)
mit q min(k,m)
(14.15)
14.2.4 Das PRE-Maß Lambda (O) So verbreitet die Chi²-basierten Assoziationsmaße auch sind, so ist es oft doch Chi²-basierte Maße sind schwer vergleichbar schwierig, sie inhaltlich sinnvoll zu interpretieren. Sie sagen lediglich aus, welchen Anteil der tatsächliche Chi²-Wert einer Tabelle am größtmöglichen ausmacht, doch darüber hinaus haben sie keine eigene substanzielle Bedeutung. Insbesondere der Vergleich Chi²-basierter Assoziationsmaße von Tabellen, die eine unterschiedliche Struktur haben, also nicht in der Anzahl der Spalten und Zeilen übereinstimmen, ist problematisch und sollte daher vermieden werden. Wie schon gezeigt wurde, ist der größtmögliche Chi²-Wert einer 4*5-Tabelle identisch mit dem einer 4*4-Tabelle, wenn die Fallzahlen übereinstimmen. Somit ist auch das Chi²-basierte Assoziatonsmaß für beide Tabellen gleich. Es würde sowohl in der 4*5-Tabelle als auch in der 4*4-Tabelle jeweils den Wert 1 erhalten. Trotzdem haben wir intuitiv das Gefühl, dass der Zusammenhang in der 4*4-Tabelle stärker ist als der in der 4*5-Tabelle, da im ersten Fall jedem X-Wert ein eindeutiger YWert zugeordnet werden kann, während es im zweiten Fall eine Vieldeutigkeit in der Form gibt, dass der zu einem bestimmten X-Wert gehörige Y-Wert lediglich einer von zweien sein muss. PRE-Maße (PRE steht für "Proportional Reduction of Error") geben uns die Grö- Proportional Reduction of Error (PRE) ße eines Zusammenhangs in einer inhaltlich bedeutenden und gut zu interpretierenden Weise an, da sie Auskunft darüber geben, inwiefern die Kenntnis des Wertes der unabhängigen Variablen hilft, den Wert der abhängigen Variablen zu schätzen. Grundlegend für diese Maße ist das Konzept eines Schätzfehlers E, der angibt, wie fehlerhaft die Schätzungen sind. Wenn man E0 als das Ausmaß des Fehlers bei der Schätzung des Wertes der abhängigen Variablen bezeichnet, der ohne Kenntnis des Wertes der unabhängigen Variablen auftritt, und E1 als das Ausmaß des Schätzfehlers unter Zuhilfenahme der Information, die in der Kenntnis des Wertes der unabhängigen Variablen besteht, dann kann man das PRE-Maß auf folgende Weise definieren:
166
Kapitel 14 Bivariate Zusammenhänge
Definition 14.7: PRE-Maß PRE
E0 E1 E0
ǻE E0
(14.16)
'E ist die Differenz des Fehlers ohne und mit Information, also der Betrag des Ausmaßes, um den der Fehler mit Hilfe der Information reduziert wird. Der Quotient aus 'E und dem anfänglichen Fehler E0 ist der Anteil, um den der anfängliche Fehler durch Hinzuziehung der Information, die die unabhängige Variable liefert, abnimmt. Das Ausmaß des Fehlers bezieht sich immer auf nicht vermeidbare Fehler, d.h. Fehler, die auch dann entstehen, wenn man die rational bestmögliche Schätzung liefert. Schätzregel bei nomi- Bei nominalskalierten Variablen ist der Fehler in Bezug auf einen einzelnen Fall nalskalierten Variablen: Modus offensichtlich, er besteht einfach darin, einen Fall der falschen Kategorie zuzu-
ordnen. Der Gesamtfehler für eine Verteilung von Werten wird berechnet, indem man zuerst eine Schätzmethode, eine Schätzregel formuliert, und diese dann anschließend auf jeden einzelnen Fall der Verteilung anwendet. Die beste Schätzregel, um den Wert eines beliebigen Falls aus einer Verteilung einer nominalskalierten Variablen zu raten, besteht darin, den Modus der Verteilung anzugeben. Alle Fälle, die der Modalkategorie der Verteilung angehören, werden dann richtig geschätzt, alle übrigen falsch. Der Fehler dieses Schätzmodells errechnet sich als: Definition 14.8: Schätzfehler bei Schätzung eines Wertes der Verteilung einer nominalskalierten Variablen mit Hilfe der Modus-Regel E = N – h(m) mit m ist der Modus der Verteilung Analog gilt auch, dass die beste Schätzung für den Wert einer bedingten Verteilung der Modus in dieser bedingten Verteilung ist. E
y | x
ai
hi h ai , mi
(14.17)
mit mi = Modus der bedingten Verteilung von Y unter der Bedingung X = ai
Der Gesamtfehler für die Schätzung der abhängigen Variablen unter Berücksichtigung der Kenntnis der Ausprägung der unabhängigen Variablen ist die Summe der Fehler der bedingten Verteilungen über alle Ausprägungen der unabhängigen Variablen.
Kapitel 14 Bivariate Zusammenhänge
EY X
k
¦ >hi h(ai ,mi )@ i 1
167
(14.18)
mit mi = Modus der bedingten Verteilung von Y unter der Bedingung X = ai k ist die Anzahl der Zeilen bzw. die Anzahl der Ausprägungen der unabhängigen Variablen X
Wir können nun diese so definierten Fehler in die allgemeine Formel eines PRE- Berechnung von Lambda Maßes einsetzen. Das erhaltene Maß nennt man Goodmans und Kruskals O (lambda). Definition 14.9: Der Koeffizient O von Goodman und Kruskal k
Ȝ
N-h(m)- ¦ >hi h(ai ,mi )@ i 1
N-h(m)
(14.19) k
¦ h(ai ,mi )-h(m) i 1
N-h(m)
Für eine bestimmte Kontingenztabelle gibt es für ein Chi²-basiertes Assoziationsmaß immer genau einen Wert. Es spielt dabei keine Rolle, ob die Zeilen- oder die Spaltenvariable die abhängige Variable ist. Im Gegensatz dazu gibt es für Goodmans und Kruskals O bezüglich einer Tabelle zwei verschiedene Werte, je nachdem, ob die Zeilen- oder die Spaltenvariable die unabhängige Variable ist. Beispiel: Der "Verein zur Förderung körperlicher Attraktivität" Die beschriebene Eigenschaft von Goodmans und Kruskals O, dass es zwei unterschiedliche Werte annimmt, je nachdem, ob die Zeilen- oder die Spaltenvariable die abhängige Variable ist, wird hier an einem Beispiel illustriert. Der "Verein zur Förderung körperlicher Attraktivität", hinter dem sich in Wirklichkeit eine Gruppe von Eigeninteresse nicht ganz freier plastischer Chirurgen verbirgt, hat im Rahmen seines Programms "Unsere Gesellschaft soll schöner werden" eine Umfrage in Auftrag gegeben, bei der der Zusammenhang zwischen körperlicher Attraktivität und Einkommen untersucht wird. 1000 Befragte wurden anhand ihres Einkommens in drei Kategorien eingeteilt, außerdem nach einem "Attraktivitätstest" entweder der Gruppe "Die Schönen" oder der "Die Anderen" zugeteilt. Die Ergebnisse dieser fiktiven Umfrage sind in der folgenden Tabelle aufgeführt.
168
Kapitel 14 Bivariate Zusammenhänge
Tabelle B 1 Einkommensklassen Niedrig Mittel Hoch
Zeilensummen
Die Anderen
138
347
165
650
Die Schönen
57
98
195
350
Spaltensummen
195
445
360
1000
Der Wissenschaftler, der mit der Untersuchung betraut ist, stellt die Hypothese "Schönheit lohnt sich" auf. Die Behauptung ist also, dass attraktivere Menschen mehr verdienen als weniger attraktive. Der behauptete kausale Zusammenhang konstatiert einen Einfluss der Schönheit auf das Einkommen, also ist die Attraktivität die unabhängige Variable und Einkommen die abhängige. Mit Hilfe von Goodmans und Kruskals O kann untersucht werden, inwieweit das Wissen darüber, ob jemand zur Gruppe der "Schönen " oder der "Anderen" gehört, die Schätzgenauigkeit zu verbessern hilft, welcher Einkommensgruppe er angehört. Die beste mögliche Schätzung ohne Information bezüglich der Attraktivität ist der Modalwert der Einkommensvariablen. Von den 1000 Personen werden auf diese Weise 445 der richtigen Gruppe und 555 der falschen zugeordnet. Besitzt man die Information, welcher Attraktivitätsgruppe eine Person angehört, so ist die beste Schätzung seiner Einkommensgruppe der entsprechende Zeilenmodus, von den "Schönen" werden auf diese Weise 195 und von den "Anderen" 347 richtig ihrer tatsächlichen Einkommensgruppe zugeordnet. Die Anzahl der richtigen Schätzungen erhöht sich somit unter Hinzuziehung der Information über die Attraktivität der Befragten von 445 auf 347 + 195, also 542. 97 Personen mehr werden richtig eingeschätzt als ohne die Information, die die unabhängige Variable liefert. Die Zunahme der richtigen Schätzungen ist aber gleich der Abnahme der falschen Schätzungen. Der ursprüngliche Fehler reduziert sich ebenfalls um 97, und zwar von 555 auf 458. Man kann die Zunahme der Anzahl der richtig geschätzten Fälle noch einfacher dadurch berechnen, dass nur die Änderungen der geschätzten Werte betrachtet werden. Nur in der Zeile der "Schönen" verändert sich die geschätzte Kategorie von der mittleren Einkommensklasse zur höchsten Einkommensklasse. Statt 98 Fällen werden 195 Fälle richtig beurteilt, also 97 mehr. Der Anteil der Fehlerreduktion am ursprünglichen Fehler ist 97/555, dies entspricht einem Prozentsatz von ungefähr 17,5 Prozent. Versucht man umgekehrt, die Kategorie der Attraktivität durch die Angabe der Einkommensklasse zu schätzen, so verringert sich der Fehler von ursprünglich 350 um 30 Fälle, also um 30 / 350 oder 8,6 Prozent. Das Ausmaß der Fehlerreduktion ist also im Fall der Schätzung der Einkommensklasse durch die Attraktivität mehr als doppelt so hoch wie im Fall der Schätzung der Attraktivität durch das Einkommen. Dies darf aber keinesfalls zu der Vermutung verleiten, dass die Richtung des tatsächlichen kausalen Zusammenhangs eher von Attraktivität zu Einkommen als von Einkommen zu Attraktivität verläuft. Der "echte" Kausalzusammenhang ist nicht aus den Daten zu erkennen, sondern kann nur theoretisch gesetzt werden. In unserem Beispiel sind beide Richtungen des Zusammenhangs plausibel. Attraktivere Menschen haben möglicherweise bessere Einstellungschancen, vor allem was besser bezahlte Jobs angeht, es kann aber auch sein, dass sich Besserverdienende die Pflege ihres Aussehens mehr kosten lassen können.
Ende Beispiel
Kapitel 14 Bivariate Zusammenhänge
169
14.3 Zusammenhangsmaße für ordinalskalierte Variablen Ordinalskalierte Variablenwerte lassen sich in eine Rangfolge bringen. Während der Zusammenhang zwischen zwei nominalskalierten Variablen lediglich in der Form ausgedrückt werden kann, dass die Änderung der einen Variablen eine Änderung der anderen nach sich zieht, kann bei ordinalskalierten Variablen darüber hinaus eine Richtung des Zusammenhangs angegeben werden. Ein Zusammenhang zwischen ordinalskalierten Variablen besteht dann, wenn die Änderung der unabhängigen Variablen eine Änderung der abhängigen Variablen der gleichen oder entgegengesetzten Richtung nach sich zieht. Bei gleichgerichteten oder gleichsinnigen Änderungen bezeichnen wir den Zusammenhang als positiv, bei entgegengesetzt gerichteten oder gegensinnigen Änderungen nennen wir den Zusammenhang negativ. Die Stärke des Zusammenhangs soll wieder so normiert werden, dass der Betrag des Assoziationsmaßes im Falle eines idealen Zusammenhangs den Wert 1 hat. Zusammenhangsmaße für ordinalskalierte Variablen bewegen sich daher innerhalb des Bereichs von –1 bis +1. 14.3.1
Zusammenhangsmaße auf der Basis konkordanter und diskordanter Paare Zur Konstruktion von Zusammenhangsmaßen für ordinalskalierte Variablen eig- Konkordante und diskordante Paare net sich hervorragend das Konzept konkordanter Paare bzw. diskordanter Paare. Ein Paar von Werten besteht aus zwei Fällen mit jeweils zwei Ausprägungen der beiden Variablen. Für die beiden Fälle i und j und die beiden Variablen X und Y kann das Wertepaar als [(xi,yi),(xj,yj)] notiert werden. Der Einfachheit halber gehen wir davon aus, dass die Werte der Variablen X und Y als natürliche Zahlen ausgedrückt werden, die ihren Rangordnungsplatz angeben. Von einem konkordanten Paar sprechen wir dann, wenn aus xj > xi folgt, dass yj > yi und aus xj < xi folgt, dass yj < yi. Oder: Um ein konkordantes Paar von Fällen handelt es sich dann, wenn der Fall, der bezüglich der einen Variablen den höheren Wert von beiden hat, diesen auch bezüglich der zweiten Variablen aufweist. Umgekehrt wird ein Paar als diskordant bezeichnet, wenn aus xj > xi folgt, dass yj < yi und aus xj < xi folgt, dass yj > yi. Derjenige der beiden Fälle, der bezüglich der einen Variablen den höheren Wert hat, besitzt bezüglich der anderen Variablen den niedrigeren. Besser und anschaulicher lassen sich die Konzepte konkordanter und diskordanter Paare an einer Tabelle verdeutlichen. Tabelle 14.12: Konkordante Paare Y = 1 Y = 2 Y = 3 Y = 4 Y = 5 Y =... X=1 X=2 X=3 X=4 X=5 X =…
Konkordante Paare
170
Kapitel 14 Bivariate Zusammenhänge
Jeder Fall aus der Zelle in der vierten Zeile und der dritten Spalte, die dunkelgrau unterlegt ist, bildet ein konkordantes Paar von Werten mit jedem Fall, der aus einer der hellgrau unterlegten Zellen stammt. Anders ausgedrückt: Für jedes Paar von Zellen, deren Verbindungsachse eine negative Steigung hat, gilt, dass ein Paar von Fällen, von denen jeweils einer aus einer der beiden Zellen stammt, ein konkordantes Paar bildet. Die Anzahl der konkordanten Paare, die aus Fällen dieser beiden Zellen gebildet werden können, ist das Produkt der beiden Zellenhäufigkeiten. Die Anzahl aller konkordanten Paare in einer Tabelle soll mit NC notiert werden. Sie kann berechnet werden, indem wir Zelle für Zelle durchgehen und die Anzahlen der konkordanten Paare, die von dieser Zelle mit Zellen rechts unterhalb von ihr gebildet werden können, aufaddieren. Dadurch, dass wir von einer bestimmten Zelle aus nur die rechts unterhalb liegenden Zellen betrachten, vermeiden wir Doppelzählungen, ohne dass uns ein einziges Paar entgeht.
NC
k m ª k m º ¦ ¦ «hij ¦ ¦ huv » i 1 j 1¬ u i1 v j1 ¼
(14.20)
Diskordante Paare Diskordante Paare bestehen analog dazu aus Fällen, die aus zwei Zellen stammen,
deren Verbindungsachse eine positive Steigung aufweist. Tabelle 14.13: Diskordante Paare Y=1 Y=2 Y=3 Y=4 Y=5
Y =...
X=1
X=2 X=3 X=4 X=5 X =…
Die Anzahl aller diskordanten Paare wird als ND bezeichnet und wird errechnet, indem wir Zelle für Zelle durchgehen und die Anzahlen der diskordanten Paare, die von dieser Zelle mit Zellen links unterhalb von ihr gebildet werden können, aufaddieren.
ND
j-1 k m k ª º ¦ ¦ «hij ¦ ¦ huv » i 1 j 1¬ u i 1 v 1 ¼
Verbundene Paare Neben konkordanten Paaren und diskordanten Paaren gibt es noch so genannte
verbundene Paare (englisch: ties). Diese treten dann auf, wenn die Werte mindestens einer der beiden Variablen für beide Fälle gleich sind. Je nachdem, für welche Variable dies der Fall ist, spricht man von X-verbundenen, Y-verbundenen
Kapitel 14 Bivariate Zusammenhänge
171
oder XY-verbundenen Variablen. X-Verbundene Paare haben bezüglich des XWertes dieselbe Ausprägung, unterscheiden sich jedoch hinsichtlich des YWertes. Tabelle 14.14: X-Verbundene Paare Y = 1 Y = 2 Y = 3 Y = 4 Y = 5 Y =... X=1 X=2 X=3 X=4 x=5 X =…
Die Anzahl aller X-verbunden Paare wird als TX bezeichnet. Es werden über alle Zellen alle Paare aufsummiert, die zwischen den Fällen dieser Zelle und den Fällen der Zellen, die in derselben Zeile rechts von ihr liegen, gebildet werden können.
TX
k
m
m
ª
¦¦ «h ¦ h i 1 j 1
¬
ij
iv
v j 1
º » ¼
(14.21)
Beide Fälle eines Y-verbundenen Paares besitzen denselben Y-Wert, unterscheiden sich aber in Bezug auf den Wert der X-Variablen. Tabelle 14.15: Y-Verbundene Paare Y = 1 Y = 2 Y = 3 Y = 4 Y = 5 Y =...
X=1 X=2 X=3 X=4 x=5 X =…
Die Anzahl aller Y-verbunden Paare wird als TY bezeichnet. Sie wird berechnet, indem man Zelle für Zelle die Anzahlen von Paaren aufaddiert, die von den Fällen dieser Zelle mit allen Fällen, die sich in Zellen in der gleichen Spalte unterhalb befinden, gebildet werden können.
172
Kapitel 14 Bivariate Zusammenhänge
TY
k
m
k
ª
¦¦ «¬h ¦ h ij
i 1 j 1
uj
u i 1
º » ¼
(14.22)
XY-verbundene Paare treten dann auf, wenn beide Fälle aus derselben Zelle stammen, d.h. beide Fälle haben dieselben X-Werte und dieselben Y-Werte. Tabelle 14.16: XY-Verbundene Paare Y=1 Y=2 Y=3 Y=4 Y=5
Y ...
X=1 X=2 X=3 X=4
x=5 X =…
Die Anzahl aller XY-verbunden Paare innerhalb einer Zelle ergibt sich als das Produkt der Zellenhäufigkeit mit der um 1 reduzierten Zellenhäufigkeit, geteilt durch 2. Jeder Fall der Zelle kann mit jedem anderen Fall ein Paar bilden. Für jeden der hij Fälle in der Zelle gibt es daher hij – 1 Fälle, mit denen er ein Paar bilden kann. Allerdings wird so jedes Paar doppelt gezählt. Daher muss das Produkt durch 2 geteilt werden. Die Anzahl aller XY-verbundenen Paare in einer Tabelle wird als TXY bezeichnet. Sie wird berechnet, indem man Zelle für Zelle die Anzahlen von Paaren aufaddiert, die durch die Fälle dieser Zelle mit sich selbst gebildet werden können.
TXY
k
m
¦¦
hij (hij 1)
i 1 j 1
2
(14.23)
Die Anzahl aller Paare, die aus den N Fällen einer Tabelle gebildet werden können, soll als NT bezeichnet werden. Sie berechnet sich entsprechend der obigen Formel.
NT
N (N 1) 2
(14.24)
Die Anzahl NT aller möglichen Paare muss der Summe der Häufigkeiten aller speziellen Typen von Paaren entsprechen. Dieser Zusammenhang kann zur Kontrolle der berechneten Größen herangezogen werden.
NT
N (N 1) 2
NC ND TX TY TXY
(14.25)
Kapitel 14 Bivariate Zusammenhänge
173
Die verschiedenen Arten von Paaren sind in der Tabelle noch einmal im Überblick dargestellt. Tabelle 14.17: Mögliche Paare von Fällen Typ Konkordantes Paar
Diskordantes Paar
Bedingung Entweder
xi > xj UND yi > yj
oder
xi < xj UND yi < yj
Entweder
xi > xj UND yi < yj
oder
xi < xj UND yi > yj
Anzahl NC ND
X-verbundenes Paar
xi = xj UND yi z yj
TX
Y-verbundenes Paar
xi z xj UND yi = yj
TY
XY-verbundenes Paar
xi = xj UND yi = yj
TXY
Konkordante Paare stehen für einen positiven Zusammenhang zwischen den bei- Differenz zwischen konkordanten und den Variablen, diskordante Paare für einen negativen. Die Differenz von konkor- diskordanten Paaren danten und diskordanten Paaren NC – ND ist daher ein gutes absolutes Maß für die Stärke und für die Richtung des Zusammenhangs. Übertrifft die Anzahl der konkordanten Paare die der diskordanten um einen deutlichen Betrag, so handelt es sich um einen bedeutenden positiven Zusammenhang. Tritt dagegen ein "Überschuss" an diskordanten gegenüber konkordanten Paaren auf, so ist der Zusammenhang insgesamt negativ. Wie schon bei den Assoziationsmaßen bezüglich der nominalskalierten Variablen sind wir mehr an normierten Zusammenhangsmaßen als an absoluten Größen interessiert. Die Normierung erfolgt auch hier wieder, indem wir die kritische Größe NC – ND zu einem Basiswert in Bezug setzen, d.h. der normierte Wert ist der Anteil der Differenz von konkordanten und diskordanten Paaren an diesem Basiswert. Es sind mehrere sinnvolle Werte für den Basiswert vorstellbar. Die Unterschiede zwischen den verschiedenen Werten beziehen sich auf eine unterschiedliche Behandlung der verbundenen Werte. Allen Basiswerten ist aber gemeinsam, dass der Betrag des normierten Zusammenhangsmaßes für den Fall des stärksten möglichen Zusammenhangs maximal den Wert 1 annehmen kann. 14.3.1.1 Goodmans und Kruskals Gamma Ignoriert man das Auftreten von verbundenen Werten, so ergibt sich als denkbar Goodmans und Kruskals Gamma einfachste Basisgröße die Summe aus konkordanten und diskordanten Paaren, also NC + ND. Dieser Wert wird Goodmans und Kruskals J (gamma) genannt.
174
Kapitel 14 Bivariate Zusammenhänge
Definition 14.10: Goodmans und Kruskals Gamma J
NC ND NC ND
(14.26)
Der Spezialfall von Gamma für die Vierfeldertafel wird auch Yules Q genannt. 14.3.1.2 Kendalls Tau-a Kendalls Tau-a Nimmt man als Bezugsgröße die Anzahl aller Paare, dann ergibt sich als Quotient
aus der Differenz der konkordanten und diskordanten Paare und der Anzahl aller möglichen Paarbildungen Kendalls Tau-a. Definition 14.11: Kendalls Tau-a Wa
NC ND NT
NC ND N(N-1) 2
(14.27)
PRE-Maß Sind alle Paare entweder konkordant oder diskordant, so dass NT = NC + ND, dann
erhalten Gamma und Tau-a denselben Wert. Darüber hinaus können in diesem Fall die Koeffizienten auch im Sinne von PRE-Maßen interpretiert werden. Die Schätzung bezieht sich dann allerdings nicht auf einen einzelnen Wert der YVariablen, sondern auf das Größenverhältnis zweier beliebig herausgegriffener Werte, also ob von zwei zufällig gewählten Werten yi und yj der erste größer oder kleiner als der zweite ist. Die Fehlerquote ohne Heranziehung weiterer Kenntnis, also E0, ist ½, da es bei zufällig gewählten Werten für jeden der beiden gleich wahrscheinlich ist, dass er der größere ist. Die Information, die im Wissen über die Werte der unabhängigen Variablen besteht, ist in diesem Fall die Größenbeziehung zwischen xi und xj. Es sei angenommen, dass xi größer ist als xj. Wenn die durch das Zusammenhangsmaß ausgedrückte Beziehung positiv ist, dann sollte die Information dazu herangezogen werden, bezüglich der Beziehung von yi und yj zu schätzen, dass auch yi größer als yj ist. Handelt es sich um ein konkordantes Paar, dann ist die Schätzung richtig, ist das Paar hingegen diskordant, dann ist die Schätzung falsch. Die Fehlerquote E1 ist daher der Anteil der diskordanten Paare an allen Paaren. Das PRE-Maß berechnet sich nach der bekannten Formel. ND 1 2 NC ND PRE 1 2 NC ND 2ND NC ND NC ND NC ND E0 E1 E0
1 2
ND NC ND
(14.28)
Das errechnete PRE-Maß ist identisch mit Gamma und Tau-a, vorausgesetzt, es gibt lediglich konkordante und diskordante Paare. Dies ist dann der Fall, wenn es
Kapitel 14 Bivariate Zusammenhänge
175
kein einziges verbundenes Paar gibt, das heißt, wenn es in keiner Zeile und in keiner Spalte zwei besetzte Zellen gibt und wenn jede besetzte Zelle nur einen einzigen Fall enthält, bzw. wenn weder ein einziger X-Wert noch ein einziger YWert doppelt auftreten. Wenn es nicht allzu viele Ausprägungen der Variablen gibt, ist dieser Fall eher unwahrscheinlich. Die Frage, die sich dann stellt, ist, wie verbundene Werte behandelt werden sollen. 14.3.1.3 Kendalls Tau-b Eine Beziehung zwischen zwei Variablen besteht dann, wenn eine Änderung der Kendalls Tau-b einen eine Änderung der anderen nach sich zieht. XY-verbundene Paare weisen lediglich darauf hin, dass gewisse Kombinationen der Ausprägungen der X- und der Y-Variablen bei mehreren Fällen auftreten. Wenn daher zwei Fälle, die denselben X-Wert haben, auch denselben Y-Wert besitzen, so steht das in keinerlei Widerspruch zum Vorhandensein einer Beziehung zwischen den Variablen. Da das Vorkommen von XY-verbundenen Paaren daher theoretisch keine Auswirkung auf die Stärke des Zusammenhangs haben sollte, kann man sie bei der Berechung des Zusammenhangsmaßes auch vernachlässigen. Genau dies wird in der Formel zur Berechnung von Kendalls Tau-b umgesetzt. Definition 14.12: Kendalls Tau-b Wb
NC ND (NC ND TX )(NC ND TY )
(14.29)
Gibt es weder X-verbundene noch Y-verbundene Paare, dann fällt Tau-b mit Gamma zusammen, aber nicht mit Tau-a, wenn manche Zellen mehrfach besetzt sind, also, wenn es XY-verbundene Paare gibt. 14.3.1.4 Kendalls Tau-c DerVollständigkeit halber soll auch noch ein dritter Tau-Koeffizient von Kendall Kendalls Tau-c vorgestellt werden, der in der Literatur allerdings eher wenig verbreitet ist. Es handelt sich um Kendalls Tau-c. Definition 14.13: Kendalls Tau-c IJc
NC ND 1 2 § q 1· N 2 ¨© q ¸¹
mit q min(m,k)
(14.30)
Kendalls Tau-c unterscheidet sich von den anderen beiden Koeffizienten durch den "Korrekturfaktor" hinsichtlich der Anzahl an Spalten und Zeilen, die in die Berechnung eingehen. Damit ähnelt er den Korrekturfaktoren, die wir bereits von den Kontingenzkoeffizienten für nominalskalierte Variablen kennen. Kommen keine verbundenen Werte in der Tabelle vor, dann ist die Anzahl der Spalten und die der Zeilen gleich der Anzahl der Fälle N. Die Formel für Tau-c ist dann iden-
176
Kapitel 14 Bivariate Zusammenhänge
tisch mit Tau-a. Je größer die Anzahl der Ties, desto mehr Spalten oder Zeilen sind doppelt belegt und q nimmt ab. Der Korrekturfaktor erfüllt also die gewünschte Funktion, den Nenner – die Basisgröße – mit zunehmender Anzahl von Ties zu vermindern. 14.3.1.5 Somers' d Somers' d Sowohl Gamma als auch Kendalls Tau-Koeffizienten sind symmetrische Assozia-
tionsmaße für ordinalskalierte Variablen, da sie nicht berücksichtigen, welche der beiden Variablen – die X- oder die Y-Variable – die unabhängige und welche die abhängige ist. Asymmetrische Zusammenhangsmaße hingegen berücksichtigen diesen Aspekt. Der Statistiker Somers hat ein asymmetrisches Assoziationsmaß d vorgeschlagen, bei dem die verbundenen Paare mit in die Basis aufgenommen werden, die sich auf die abhängige Variable beziehen. Ist Y die abhängige und X die unabhängige Variable, dann wird Somers‘ d folgendermaßen berechnet: Definition 14.14: Somers‘ dYX dYX
NC ND NC ND TY
(14.31)
Somers' dYX ist das Verhältnis des "Überschusses" von konkordanten gegenüber diskordanten Paaren zu allen Paaren, die nicht denselben X-Wert haben, also allen Paaren, die weder X-verbunden noch XY-verbunden sind. Dies lässt sich durch eine leichte Umwandlung der Formel zeigen.
dYX
NC ND NC ND TY
NC ND NT TX TXY
(14.32)
Obwohl also im Nenner die verbundenen Paare der abhängigen Variablen aufgenommen sind, geht es in Wirklichkeit darum, die verbundenen Paare der unabhängigen Variablen auszuschließen. Die Logik des asymmetrischen dKoeffizienten von Somers besteht darin, in die Basis nur diejenigen Paare als Bezugsgröße aufzunehmen, die überhaupt eine "faire" Chance haben, richtig ein konkordantes bzw. diskordantes Paar vorauszusagen. Diese Bedingung ist aber nur erfüllt, wenn die Werte der unabhängigen Variablen eines Paares verschieden sind. Der Nenner ist grob gesagt eine Größe, die das Ausmaß der Information angibt, die potenziell zur Formulierung einer Prognose zur Verfügung steht. Ein Paar von Fällen mit demselben Wert der unabhängigen Variablen bringt keinerlei Information für die Schätzung des Größenverhältnisses der beiden Werte der YVariablen. Nur Paare mit unterschiedlichen Ausprägungen der X-Variablen haben überhaupt das logisch notwendige Potenzial, das Größenverhältnis der Y-Werte der beiden Fälle richtig zu raten. Bedingtes Es handelt sich bei Somers' d gewissermaßen um ein "bedingtes AssoziationsAssoziationsmaß
maß", da der Wert darüber Auskunft gibt, wie gut aufgrund einer Änderung der
Kapitel 14 Bivariate Zusammenhänge
177
unabhängigen Variablen eine Änderung der abhängigen vorausgesagt werden kann, vorausgesetzt, es gibt eine Änderung der unabhängigen Variablen. Somers' d kann daher durchaus einen hohen Wert annehmen, wenn es viele verbundene Paare der unabhängigen Variablen gibt, solange die nicht-verbundenen Paare gut zur Prognose herangezogen werden können, ob es sich um ein konkordantes oder diskordantes Paar handelt. In den meisten Fällen taugt die unabhängige Variable dann zwar erst gar nicht für eine Voraussage, wenn sie dafür aber herangezogen werden kann, ist die Trefferquote der Prognose hoch. Ist X die abhängige und Y die unabhängige Variable, dann gilt: Definition 14.15: Somers‘ dXY dXY
NC ND NC ND TX
(14.33)
Da die Frage, welche Variable die abhängige und welche Variable die unabhängige ist, wie schon erwähnt, oft gar nicht so leicht zu beantworten ist, die verbundenen Paare aber nicht unberücksichtigt bleiben sollten, schlägt Somers darüber hinaus auch ein symmetrisches Zusammenhangsmaß vor. Definition 14.16: Somers‘ dS dS
NC ND T TY NC ND X 2
(14.34)
Die Logik von Somers‘ dS ist im Prinzip dieselbe wie die von Kendalls Tau-b. Der Unterschied besteht lediglich darin, dass bei Somers‘ dS der arithmetische Mittelwert und bei Kendalls Tau-b der geometrische Mittelwert aus den Summen (NC + ND + TX) und (NC + ND + TY) gebildet wird. Sind TX und TY gleich groß, so besteht keinerlei Unterschied zwischen den beiden Mittelwerten. Weichen TX und TY so sehr voneinander ab, dass sich auch die Summen (NC + ND + TX) und (NC + ND + TY) stark unterscheiden, dann ist der arithmetische Mittelwert größer als der geometrische. In diesem Fall wird Somers‘ dS etwas kleiner ausfallen als Kendalls Tau-b. Beispiel: Berechnung und Vergleich der Koeffizienten Die folgende Tabelle dient als Beispiel, anhand dessen wir die verschiedenen Koeffizienten berechnen und vergleichen können, die wir bis jetzt kennen gelernt haben.
178
Kapitel 14 Bivariate Zusammenhänge
Tabelle 1: Beispiel 1a Y=1 Y=2 Y=3 X=1
25
12
0
X=2
7
32
4
X=3
1
5
17
NC = 25 * (32 + 4 + 5 + 17) + 12 * (4 + 17) + 7 * (5 + 17) + 32 * 17 = 2400 ND = 12 * (7 + 1) + 0 * (7 + 32 + 1 + 5) + 32 * 1 + 4 * (1 + 5) = 152 TX = 25 * (12 + 0) + 12 * 0 + 7 * (32 + 4) + 32 * 4 + 1 * (5 + 17) + 5 * 17 = 787 TY = 25 * (7 + 1) + 12 * (32 + 5) + 0 * (4 + 17) + 7*1 + 32*5 + 4*17 = 879 TXY = (25 * 24) / 2 + (12 * 11) / 2 + (7 * 6) / 2 + (32 * 31) / 2 + (4 * 3) / 2 + (1 * 0) / 2 + (5 * 4) / 2 + (17 * 16) / 2 = 1035 NT = [(25 + 12 + 0 + 7 + 32 + 4 + 1 + 5 + 17) * (25 + 12 + 0 + 7 + 32 + 4 + 1 + 5 + 17 – 1)] / 2 = 5253 Zur Kontrolle überprüfen wir, ob die Summe aus allen Paartypen gleich der Anzahl aller möglichen Paare ist, also ob NC + ND + TX + TY + TXY gleich NT ist. 2400 + 152 + 787 + 879 + 1035 = 5235 Die Kontrolle zeigt, dass wir uns nicht verrechnet haben. Aus den entsprechenden Anzahlen der verschiedenen Paartypen können nun die verschiedenen Zusammenhangsmaße berechnet werden. Ȗ
IJa
IJb
IJc
NC ND NC ND NC ND NT
2400 152 2400 152 2248 5253
2248 2552
0,88
0,43
NC ND
2248
(NC ND TX )(NC ND TY )
NC ND
NC ND 1 21 N 2 2
1 2 § q 1· N 2 ¨© q ¸¹
(2552 787)(2552 879)
4
2248 1032
0,85
dYX
NC ND NC ND TY
2248 2552 879
2248 3431
0,66
dXY
NC ND NC ND TX
2248 2552 787
2248 3339
0,67
dS
NC ND T TY NC ND X 2
2248 787 879 2
2552
0,66
0,66
Kapitel 14 Bivariate Zusammenhänge
179
Mit 0,88 fällt Gamma als größter Wert mehr als doppelt so hoch aus wie Tau-a als kleinster Wert. Die Gründe sind schon erläutert worden. Alle Zusammenhangsmaße haben den gleichen Zähler, sie unterscheiden sich nur bezüglich des Nenners. Unterschiede zwischen den Maßen sind daher ausschließlich auf den Nenner zurückzuführen. Da in Gamma keinerlei Ties im Nenner enthalten sind, in Tau-a hingegen alle vorkommenden Arten von Ties, ist der Nenner in Gamma am kleinsten und in Tau-a am größten und der Quotient aus Zähler und Nenner für Gamma am größten und Tau-a am kleinsten. Die Zusammenhangsmaße, die nur X- oder Y-verbundene Paare in den Nenner aufnehmen, Taub und die verschiedenen Arten von Somers' d, befinden sich mit 0,66 bzw. 0,67 ziemlich genau in der Mitte zwischen den extremen Werten von Gamma und Tau-a. Wir wollen uns zunächst das Verhältnis von symmetrischen zu asymmetrischen Maßen näher betrachten. Da die Größenordnungen von TX und TY und erst recht die Größenordnungen der Summen (NC + ND + TX) und (NC + ND + TY) kaum voneinander abweichen, sind die symmetrischen Koeffizienten Tau-b und Somers' dS für alle praktisch relevanten Vergleiche gleich groß. Auch die asymmetrischen Maße von Somers' d fallen sowohl untereinander als auch in Bezug auf die symmetrischen Maße fast identisch aus. Es soll nun untersucht werden, was passiert, wenn die mittlere Ausprägung der YVariablen in zwei Ausprägungen aufgespalten wird. Tabelle 2: Beispiel 1b Y=1 Y=2 Y=3 Y=4 X=1
25
7
5
0
X=2
7
15
17
4
X=3
1
3
2
17
NC =
25 * 58 + 7 * 40 + 5 * 21 + 7 * 22 + 15 * 19 + 17 * 17 = 2563
ND =
7 * 8 + 5 * 26 + 15 + 17 * 4 + 4 * 6 = 293
TX =
25 * 12 + 7 * 5 + 7 * 36 + 15 * 21 + 17 * 4 + 22 + 3 * 19 + 2 * 17 = 1083
TY =
25 * 8 + 7 * 18 + 5 * 19 + 7 + 15 * 3 + 17 * 2 + 4 * 17 = 575
TXY = (25 * 24) / 2 + (7 * 6) / 2 + (5 * 4) / 2 + (7 * 6) / 2 + (15 * 14) / 2 + (17 * 16) / 2 + (4 * 3) / 2 + (1 * 0) / 2 + (3 * 2) / 2 + (2 * 1) / 2 + (17 * 16) / 2 = 739 NT =
[(25 + 7 + 5 + 0 + 7 + 32 + 4 + 1 + 5 + 17) * (25 + 7 + 5 + 0 + 7 + 32 + 4 + 1 + 5 + 17 – 1)] / 2 = 5253
Da sich die Gesamtfallzahl nicht verändert, bleibt NT gleich. Sowohl die konkordanten als auch die diskordanten Paare nehmen etwas zu, aber da diese Veränderungen für alle Koeffizienten gelten, haben sie keine Auswirkungen auf das Verhältnis der Koeffizienten untereinander. Die kritische Größe im Zähler der Koeffizienten, die Differenz NC – ND, ändert sich nur sehr geringfügig von 2248 auf 2270. Die Maße Tau-a und Tau-c, die diese Differenz auf eine Basisgröße beziehen, die sich durch die Aufsplittung der Spalten nicht verändert hat, nehmen daher ganz leicht zu. Für alle anderen Maße gilt, dass sie abnehmen. Dies ist darauf zurückzuführen, dass die Summe der konkordanten und der diskordanten Paare NC + ND von 2552 um über 300 auf 2856 zunimmt. Ȗ
NC ND NC ND
2563 293 2563 293
2270 2856
0,79
180
Kapitel 14 Bivariate Zusammenhänge
IJa
IJb
IJc
NC ND NT
2270 5253
0,43
NC ND
2270
(NC ND TX )(NC ND TY )
NC ND
NC ND 1 21 N 2 2
1 2 § q 1· N ¨ ¸ 2 © q ¹
dYX
NC ND NC ND TY
2270 2856 575
dXY
NC ND NC ND TX
2270 2856 1083
dS
(2856 1083)(2856 575)
NC ND T TY NC ND X 2
4
2270 1032
2270 3431
0,62
0,86
0,66
2270 3939
0,58
2270 1083 575 2856 2
0,62
Da alle diese Koeffizienten die fast unverändert gebliebene Differenz NC – ND im Zähler und die deutlich veränderte Summe NC + ND als Bestandteil des Nenners enthalten, fällt der Quotient dementsprechend niedriger aus. Obwohl die Unterschiede zwischen TX und TY deutlich angewachsen sind, sind die Werte der symmetrischen Maße Tau-b und Somers' dS immer noch gleich. Erst ab der dritten Kommastelle treten Unterschiede auf, wobei Tau-b mit 0,6175 – wie vorausgesagt – etwas höher ausfällt als Somers' dS mit einem Wert von 0,6160. Aufschlussreicher sind die Unterschiede zwischen den asymmetrischen Maßen zu interpretieren. Durch die Aufspaltung der Y-Ausprägung haben die Xverbundenen Paare zugenommen und die Y-verbundenen Paare abgenommen. Die Anzahl der X-verbundenen Paare ist jetzt sogar fast doppelt so hoch wie die der Yverbundenen Paare. Dementsprechend fällt dYX mit 0,66 jetzt deutlich höher aus als dXY mit 0,58.
Ende Beispiel
Beispiel: Wie geeignet sind einzelne Koeffizienten? Um ein Gefühl für die verschiedenen Koeffizienten zu bekommen, braucht man Erfahrung. Es ist daher hilfreich, wenn man sich einige Beispiele mit besonderen Eigenschaften ausdenkt und für diese die Werte der Koeffizienten ausrechnet. Besonders interessant ist es, herauszufinden, welchen Wert die verschiedenen Maße bei mehr oder weniger "perfekten" Zusammenhängen annehmen. Beispiel 1
Beispiel 2
Y=1 Y=2 Y=3 Y=4
Y=1 Y=2 Y=3
X=1
10
0
0
X=1
10
0
0
0
X=2
0
10
0
X=2
0
10
0
0
X=3
0
0
10
X=3
0
0
5
5
Kapitel 14 Bivariate Zusammenhänge
181
Beispiel 3
Beispiel 4 Y=1 Y=2 Y=3
Y=1 Y=2 Y=3
X=1
10
0
0
X=1
1
0
0
X=2
10
0
0
X=2
1
0
0
X=3
10
10
10
X=3
10
10
10
Tabelle B1 Beispiel 1
Beispiel 2
Beispiel 3
NC
300
300
400
40
ND
0
0
0
0
TX
0
25
300
300
TY
0
0
300
21
TXY
135
110
225
135
NT
435
435
1225
496
1
1
1
1
Wa
0,69
0,69
0,36
0,08
Wb
1
0,96
0,57
0,28
Wc
1
1
0,48
0,12
dYX
1
1
0,57
0,66
dXY
1
0,92
0,57
0,11
dS
1
0,96
0,57
0,20
J
Beispiel 4
Beispiel 1 zeigt einen idealen Zusammenhang zwischen einer unabhängigen und einer abhängigen Variablen für eine 3*3-Tabelle. Erwartungsgemäß liefern fast alle Maße einen Wert von 1. Lediglich Tau-a weist mit 0,69 einen deutlich niedrigeren Wert aus. Dies liegt an dem schon bekannten Umstand, dass bei Tau-a auch die XY-verbundenen Paare im Nenner enthalten sind. Es gibt allerdings keinen plausiblen Grund, warum der in der obigen Tabelle aufgeführte Zusammenhang nicht als perfekt anzusehen ist. Tau-a erscheint daher als Assoziationsmaß weniger geeignet, da es einen Wert angibt, der den tatsächlichen Zusammenhang unserem Empfinden nach als zu schwach erscheinen lässt. Der bekannteste und am weitesten verbreitete Koeffizient ist Gamma von Goodman und Kruskal. Allerdings erhält Gamma auch den Wert 1 für einen perfekten Zusammenhang in Beispiel 3, da es auch dort nur konkordante und keine diskordanten Paare gibt. Noch extremer tritt diese Schwäche des Gamma-Koeffizienten in Beispiel 4 auf. Die 40 konkordanten Paare werden in dieser Tabelle im Prinzip von nur 2 von insgesamt 32 Fällen gebildet. Da es wieder überhaupt keine diskordanten Paare gibt, erhält Gamma wieder den Wert 1. Die vollkommene Ignorierung von jeder Art von gebundenen Paaren führt zu Ergebnissen, die ebenfalls unserer Intuition, was ein "guter" Koeffizient leisten sollte, widersprechen. Am besten geeignet erscheinen daher Kendalls Tau-b und die verschiedenen Somers' d Koeffizienten. Legt man Wert auf einen symmetrischen Koeffizienten, bleiben nur noch Tau-b und Somers' dS als Kandidaten übrig. Diese liefern beide in der Regel kaum voneinander abweichende Werte. Beide Koeffizienten sind daher in den meisten Fällen eine gute und konservative Wahl für ein Zusammenhangsmaß bezüglich ordinalskalierter Variablen.
Ende Beispiel
182
Kapitel 14 Bivariate Zusammenhänge
14.3.2 Alternative zur Messung diskordanter und konkordanter Paare: Messung von Rangplatzdifferenzen
Ein Zusammenhangsmaß auf der Basis von Rangplatzdifferenzen: Spearman's R Alle Assoziationsmaße für ordinalskalierte Variablen, die bisher erläutert wurden, basierten auf konkordanten und diskordanten Paaren von Werten. Es gibt jedoch noch eine andere verbreitete Möglichkeit, den Zusammenhang zweier ordinalskalierter Variablen zu messen, indem man die Rangplatzdifferenzen zwischen ihren Ausprägungen berücksichtigt. Dazu betrachten wir die Werte der Variablen X und Y in der Urliste. Ein mögliches Beispiel für 10 Fälle zeigt die folgende Tabelle. Tabelle 14.18 Fallnummer
X
Y
R(X)
R(Y)
d
d²
1
21
1
1
1
0
0
2
25
2
2
2,5
0,5
0,25
3
32
2
3,5
2,5
1
1
4
32
4
3,5
5
1,5
2,25
5
43
3
5
4
1
1
6
48
6
6
6,5
0,5
0,25
7
61
6
7
6,5
0,5
0,25
8
84
11
8
9
1
1
9
85
13
9
10
1
1
10
1055
8
10
8
2
4
In den Spalten 2 und 3 sind die Originalwerte der Variablen eingetragen, in den Spalten 4 und 5 die in Rangplätze transformierten Werte. Dabei gilt, dass bei verbundenen Werten, wenn also ein Wert öfters auftritt, die Rangplätze dieser Werte alle den mittleren Rangplatz zugewiesen bekommen, wie es z.B. für den Wert 32 der X-Variablen der Fall ist. Dieser Wert kommt sozusagen an dritter und vierter Stelle vor, die transformierten Rangplätze sind daher jeweils 3,5. Spearman's R Ein perfekter Zusammenhang zwischen den beiden Variablen besteht dann, wenn
der Rangplatz des Wertes der X-Variablen dem Rangplatz des Wertes der YVariablen entspricht. Bilden wir die Differenz dieser Rangplätze, dann beträgt diese im Falle eines perfekten Zusammenhangs für jeden Fall 0. Da die Größe des Unterschieds der Rangplätze von Bedeutung ist und nicht das Vorzeichen, quadrieren wir die Rangplatzdifferenzen, um das Vorzeichen zu neutralisieren. Dies hat darüber hinaus den schönen Vorteil, dass die Summe aus den quadrierten Rangplatzdifferenzen maximiert wird, wenn dem niedrigsten Rangplatz der ersten Variablen der höchste Rangplatz der zweiten zugeordnet wird, dem zweitniedrigsten Rangplatz der ersten Variablen der zweithöchste Rangplatz der zweiten usw. Die Summe der quadrierten Differenzen ist daher ein gutes Maß für die Abwei-
Kapitel 14 Bivariate Zusammenhänge
183
chung vom idealen Zusammenhang. Sie beträgt 0, wenn der Zusammenhang perfekt gleichsinnig ist, und sie erzielt ihren höchsten Wert, wenn der Zusammenhang perfekt gegensinnig ist. Definition 14.17: Spearman's Rangkorrelationskoeffizient r N
rS
1
6¦ di2
(14.35)
i 1
N(N2 1)
Für die obige Tabelle ergibt sich, wenn man die Werte in die Formel einsetzt, ein Korrelationskoeffizient von 0,933.
rs
1
6 * 11 10(102 1)
0,933
184
Kapitel 14 Bivariate Zusammenhänge
14.4 Zusammenhangsmaße für intervallskalierte Variablen Linearer Intervallskalierte Variablen sind die informationshaltigsten unter den drei SkalieZusammenhang
rungstypen, mit denen wir uns beschäftigen. Erlauben nominalskalierte Variablen nur den Vergleich auf Identität zweier Werte, ordinalskalierte Variablen den Vergleich zwischen den Rangplätzen zweier Werte, so erlauben intervallskalierte Variablen darüber hinaus den Vergleich von Abständen von Wertepaaren. Bei intervallskalierten Variablen sind Aussagen der Form "Der Abstand von xi zu xj ist doppelt so groß wie der Abstand von xk zu xl." möglich. Der perfekte Zusammenhang zwischen der X-Variablen und der Y-Variablen besteht dann, wenn das Verhältnis der Werte-Paare der einen Variablen genau dem Verhältnis der WertePaare der anderen Variablen entspricht. Wenn also der Abstand von xi zu xj doppelt so groß ist wie der Abstand von xk zu xl, dann würde – im Falle des perfekten Zusammenhangs – auch der Abstand von yi zu yj doppelt so groß sein wie der Abstand von yk zu yl. Diese Bedingung kann nur dann erfüllt sein, wenn der Zusammenhang zwischen den beiden Variablen linear ist, also, wenn die Werte der einen Variablen als Funktionswerte einer linearen Funktion aufgefasst werden können, deren Argumentwerte die Werte der anderen Variablen sind. Der Konvention folgend nehmen wir an, dass Y eine Funktion von X ist, bzw. dass Y die abhängige und X die unabhängige Variable ist. Dann ließe sich Y auch in der Funktionsgleichung Y = a + b * X ausdrücken. Grafisch entspricht dieser Zusammenhang einer Geraden. Abbildung 14.5: Linearer Zusammenhang
14.4.1
Kovarianz und Korrelationskoeffizient
Kovarianz Wenn dieser perfekte lineare Zusammenhang besteht, dann gilt ebenfalls, dass der
Fall, der den kleinsten X-Wert besitzt, auch den kleinsten Y-Wert besitzen muss, und der Fall, der den größten X-Wert hat, auch die höchste Ausprägung der YVariablen aufweisen muss. Insbesondere gilt, dass der Funktionswert des Mittel-
Kapitel 14 Bivariate Zusammenhänge
185
werts von X auch der Mittelwert der Funktionswerte sein muss, also F(x) a b x y . Daher können wir die ursprüngliche Bedingung des gleichen Verhältnisses der Abstände von Wertepaaren für die abhängige und die unabhängige Variable auch in Bezug auf die Mittelwerte der beiden Variablen formulieren. Ein perfekter Zusammenhang zwischen zwei Variablen X und Y besteht dann, wenn das Verhältnis der Abstände bzw. Differenzen xi – x und xj – x dem Verhältnis der Abstände yi – y und yj – y entspricht. Verändert sich der X-Wert so, dass er doppelt so weit vom Mittelwert der X-Werte entfernt ist wie vorher, so verändert sich auch der zugehörige Y-Wert analog, das heißt, auch der neue YWert ist jetzt doppelt so weit vom Mittelwert der Y-Werte entfernt wie der alte YWert. Eine Änderung der X-Variablen zieht nicht nur eine gleichgerichtete Änderung der Y-Variablen nach sich, wie dies bei Zusammenhängen bezüglich ordinalskalierter Variablen der Fall war, sondern auch das Ausmaß der Veränderungen beider Variablen ist dasselbe, wenn es als Verhältnis von Abständen zum Mittelwert angegeben wird. Wir sagen daher in einem solchen Fall, dass beide Variablen kovariieren, d.h. eine Variation der einen Variablen zieht eine Variation der anderen Variablen nach sich. Da wir als Maß für die Variation der Werte einer Variablen die Varianz definiert haben, definieren wir jetzt als Maß für die Kovariation der Werte zweier Variablen analog die Kovarianz der Verteilungen zweier Variablen. In Anlehnung an die Varianzformel ergibt sich:
Kovarianz
1 n ¦ (xi x)(yi y) ni1
(14.36)
Als Maß für den Zusammenhang zwischen zwei Variablen definieren wir also das Kreuzproduktsumme durchschnittliche Kreuzprodukt aus den Abständen der Werte der X-Variable und der Y-Variable eines Falls zu den Mittelwerten der entsprechenden Variablen. Die Summe der einzelnen Kreuzprodukte, oder Kreuzproduktsumme, ist der entscheidende Bestandteil der Formel. Da sich negative und positive Summanden gegenseitig aufheben, ist der absolute Betrag der Kreuzproduktsumme am höchsten, wenn alle einzelnen Summanden, also Kreuzprodukte, entweder positiv oder alle Summanden negativ sind. Die Kreuzprodukte sind dann alle positiv, wenn jedem X-Wert, der größer ist als der Mittelwert der X-Werte, ein Y-Wert zugeordnet ist, der ebenfalls größer ist als der Mittelwert der Y-Werte und jedem X-Wert, der kleiner ist als der Mittelwert der X-Werte, ein Y-Wert zugeordnet ist, der ebenfalls kleiner ist als der Mittelwert der Y-Werte. In diesem Fall sprechen wir von einem positiven Zusammenhang zwischen der X-Variablen und der YVariablen. Umgekehrt gilt: Die Kreuzprodukte sind dann alle negativ, wenn jedem X-Wert, der größer ist als der Mittelwert der X-Werte, ein Y-Wert zugeordnet ist, der kleiner ist als der Mittelwert der Y-Werte und jedem X-Wert, der kleiner ist als der Mittelwert der X-Werte, ein Y-Wert zugeordnet ist, der größer ist als der Mittelwert der Y-Werte. In diesem Fall sprechen wir von einem negativen Zusammenhang zwischen der X-Variablen und der Y-Variablen. Nimmt die Kreuzproduktsumme einen Wert von ungefähr 0 ein, und damit auch die Kovarianz, dann besteht kein Zusammenhang zwischen den beiden Variablen.
186
Kapitel 14 Bivariate Zusammenhänge
Experte: Berechnung der Kovarianz Um ein intuitives Gefühl für die Kovarianz zu bekommen, wird deren Berechnung zunächst an einem Beispiel demonstriert. Tabelle E 1 Y– y (X– x )*(Y– y )
Fallnummer
X
Y
X– x
1
3
7
-0,4
0
0
2
1
5
-2,4
-2
4,8
3
2
4
-1,4
-3
4,2
4
5
10
1,6
3
4,8
5
6
9
2,6
2
5,2
Mittelwert
3,4
7
-
-
3,8
Alle Kreuzprodukte sind größer oder gleich Null, also besteht auch ein positiver Zusammenhang, der Wert der Kovarianz ist 3,8. In die Kovarianz gehen nicht die X- und die Y-Variablen direkt ein, sondern transformierte Werte derselben, nämlich die Abstände der Originalwerte vom Mittelwert ihrer Verteilung. Die Spalten, die uns in Bezug auf die Größe der Kovarianz interessieren, sind daher die vierte und die fünfte Spalte. Wir wollen unser Augenmerk des Weiteren auf die Kreuzprodukte einer Seite konzentrieren, also wenn beide Abweichungen positiv ausfallen. Die beiden Kreuzprodukte sind 1,6 * 3 und 2,6 * 2. Nehmen wir an, die Y-Werte des vierten und des fünften Falls wären vertauscht. Dann ergäben sich die Kreuzprodukte 1,6 * 2 und 2,6 * 3. Die Summe der beiden Kreuzprodukte wäre jetzt 3,2 + 7,8 = 11,0 statt 4,8 + 5,2 = 10. Die Kreuzproduktsumme und damit die Kovarianz würde sich also durch das Vertauschen der Y-Werte des vierten und des fünften Wertes erhöhen. Zwar wird der erste Faktor des ersten Kreuzprodukts, 1,6 jetzt nur mit 2 statt mit 3 multipliziert, d.h. das erste Kreuzprodukt fällt um 1,6 niedriger aus, dafür aber wird im zweiten Kreuzprodukt der erste Faktor, 2,6, jetzt mit 3 statt mit 2 mulitpliziert, wodurch sich dieses Kreuzprodukt um 2,6 erhöht. Die Summe beider Kreuzprodukte erhöht sich um die Differenz zwischen dem Zugewinn des zweiten und dem Verlust des ersten Kreuzprodukts, also um 1. Diese Differenz ist aber immer positiv, da jetzt der größere erste Faktor mit dem größeren zweiten Faktor multipliziert wird. Allgemein gilt: Theorem E 1 Die Kreuzproduktsumme aus zwei Reihen von Zahlen erhält ihren maximalen Wert, wenn der höchste Wert der ersten Reihe mit dem höchsten Wert der zweiten Reihe multipliziert wird, der zweithöchste Wert der ersten Reihe mit dem zweithöchsten Wert der zweiten Reihe usw.
Beweis: Die Summe der Kreuzprodukte ist dann maximal, wenn sie durch keinen Tausch von zwei Werten in zwei Kreuzprodukten mehr erhöht werden kann. Wir müssen die Gültigkeit des Theorems also nur für den Fall beweisen, dass die Kreuzproduktsumme nur aus zwei Summanden besteht, damit ist die Gültigkeit dann auch für jede beliebige Anzahl von Summanden bewiesen.
Kapitel 14 Bivariate Zusammenhänge
187
Die erste Zahlenreihe bestehe aus a und b, mit a > b. Die zweite Zahlenreihe bestehe aus c und d mit c > d. Wir müssen also beweisen, dass die Kreuzproduktsumme aus a * c + b * d größer ist als a * d + b * c. Da c größer ist als d, können wir c als d + e schreiben, wobei e positiv ist. Behauptung : ! a c b d!a d b c Beweis : a c b d ! a d b c a (d e) b d ! a d b (d e) a (d e) b d ! a d b (d e) a e ! b e a e ! b e a ! b
Ende Experte
Die Summe der Kreuzprodukte aus X und Y, die Kovarianz, erhält ihren höchsten Zusammenhang zwischen Kreuzprodukt und (positiven) Wert, wenn der höchste Abstand eines X-Werts vom Mittelwert der X- Kovarianz Werte mit dem höchsten Abstand eines Y-Wert vom Mittelwert der Y-Werte multipliziert wird, der zweithöchste Abstand eines X-Werts vom Mittelwert der XWerte mit dem zweithöchsten Abstand eines Y-Wert vom Mittelwert der Y-Werte multipliziert wird usw. Dies trifft genau dann zu, wenn der Fall mit dem höchsten X-Wert auch den höchsten Wert der Y-Variablen aufweist, der Fall mit dem zweithöchsten X-Wert den zweithöchsten Wert der Y-Variablen besitzt usw. Umgekehrt gilt, dass die Kovarianz ihren niedrigsten, d.h. (absolut) höchsten negativen, Wert erhält, wenn der Fall mit dem höchsten X-Wert den niedrigsten Wert der Y-Variablen aufweist, der Fall mit dem zweithöchsten X-Wert den zweitniedrigsten Wert der Y-Variablen besitzt usw. Damit erweist sich die Kovarianz offensichtlich als gut geeignet zur Messung des Zusammenhangs zwischen zwei Variablen. Allerdings ist der absolute Wert der Kovarianz abhängig vom angelegten Maßstab. Werden die Werte der Y-Variablen z.B. mit dem Faktor 10 multipliziert, dann Standardisierung von Variablen erhöht sich auch die Kovarianz um den Faktor 10, obwohl sich die Stärke des Zusammenhangs in keiner Weise verändert hat. Zusammenhangsmaße sollen aber vom gewählten Maßstab unabhängig sein. Entscheidend für die Stärke des Zusammenhangs ist ja, wie sich die Verhältnisse von Abständen von Werten zum Mittelwert bezüglich der X-Variablen zu den Verhältnissen der entsprechenden Abstände bezüglich der Y-Variablen verhalten. Diese Interpretation wird erleichtert, wenn man jeden Abstand als Verhältnis zu einem Standard-Abstand ausdrücken kann. Als Standard-Abstand nimmt man dabei die mittlere Abweichung, also die Standardabweichung. Im Folgenden soll die Standardabweichung von X mit sx und die Standardabweichung von Y mit sy bezeichnet werden. Die Standardisierung oder Normierung wird oft auch ZTransformation genannt, da es sich eingebürgert hat, die transformierte Variable mit Z zu bezeichnen. Sie wird nach folgender Formel vorgenommen:
188
Kapitel 14 Bivariate Zusammenhänge
Definition 14.18: Z-Transformation Z X
xi x sx
Xx bzw. z xi sx
(14.37)
Korrelationskoeffizient: Die Transformation besteht aus zwei Operationen. Durch die Subtraktion des Kovarianz aus zwei standardisierten Mittelwerts x erfolgt eine Verschiebung der X-Werte nach links oder rechts auf Variablen der X-Achse. Die so transformierten Werte haben jetzt den Mittelwert 0. Die
zweite Operation der Transformation besteht in der Division der neuen Werte, die ja nichts anderes sind als die Abstände der ursprünglichen Werte vom ursprünglichen Mittelwert, durch die Standardabweichung der Originalvariablen. Die standardisierten Z-Werte geben daher den Abstand zum Mittelwert in Einheiten der Standardabweichung wieder. Ein Z-Wert von 2 besagt z.B., dass sich dieser Wert in einem Abstand der zweifachen Standardabweichung rechts vom Mittelwert befindet. Die Standardabweichung der standardisierten Variablen muss logischerweise 1 betragen. Damit gilt das auch für die Varianz. Die Verteilung einer z-transformierten Variablen hat also immer den Mittelwert 0 und die Varianz 1. Die Kovarianz zweier standardisierter Variablen wird Korrelationskoeffizient von Bravais und Pearson genannt und üblicherweise mit dem Symbol r bezeichnet. Definition 14.19: Korrelationskoeffizient von Bravais und Pearson rxy
1 n (xi x) (yi y) ¦ n i 1 sx sy
1 n ¦ z(xi ) z(yi ) ni1
(14.38)
Durch Umformung gelangt man leicht zu einer alternativen und ebenfalls sehr gebräuchlichen Formel des Korrelationskoeffizienten.
rxy
1 n (xi x) (yi y) ¦ n i 1 sx sy 1 n ¦ ni1
(xi x)
(yi y)
(xi x)2 ¦ n i 1
(yi y)2 ¦ n i 1
n
n
¦ (x
i
n
(14.39)
x)(y i y)
i 1
n
¦ (x i 1
i
x)2
n
¦ (y
i
y)2
i 1
Der maximale Wert des Korrelationskoeffizienten beträgt 1 im Falle eines perfekten gleichsinnigen Zusammenhangs zwischen der unabhängigen und der abhängigen Variablen und –1 im Falle eines perfekten gegensinnigen Zusammenhangs zwischen den Variablen.
Kapitel 14 Bivariate Zusammenhänge
189
Experte: Der maximale Wert des Korrelationskoeffizienten Beweis: n
2
¦ > z(x ) z(y )@ i
i
t0
i 1
n
¦ ª¬ z(x i )2 2z(x i )z(y i ) z(y i )2 º¼ t 0 i 1 n
n
n
i 1
i 1
i 1
¦ z(x i )2 ¦ z(y i )2 t ¦ 2z(x i )z(y i ) 1 n 1 n 1 n z(x i )2 ¦ z(y i )2 t 2 ¦ z(x i )z(yi ) ¦ ni1 ni1 ni1 sZ(X) sZ(Y) t 2rXY
rXY d rXY rXY
sZ(X) sZ(Y) 2
1 1 d 2 d1
Aus dem Beweis lässt sich überdies unmittelbar erkennen, dass der Korrelationskoeffizient seinen maximalen Wert von 1 erhält, wenn der Ausdruck in der ersten Zeile des Beweises gleich Null ist. Dies ist aber genau dann und nur dann der Fall, wenn bezüglich jedes Falls der transformierte Wert der X-Variable gleich dem transformierten Wert der Y-Variablen ist. Dies entspricht genau der am Anfang aufgestellten Bedingung für die Geltung eines perfekten Zusammenhangs. Wenn der Wert der X-Variable k Einheiten der Standardabweichung vom Mittelwert der XVariablen entfernt ist, d.h. k-mal so weit vom Mittelwert entfernt wie der Punkt, der genau eine Standardabweichung vom Mittelwert entfernt ist, dann ist – im Falle eines perfekten gleichsinnigen Zusammenhangs – der zugehörige Y-Wert ebenfalls k Einheiten der Standardabweichung vom Mittelwert der Y-Variablen entfernt. Da die Kovarianz und auch der Korrelationskoeffizient den gleichen absoluten Wert behalten, aber ihr Vorzeichen wechseln, wenn alle Werte der X- oder der Y-Variablen ihre Vorzeichen wechseln, so ist daraus abzuleiten, dass der Korrelationskoeffizient im Fall eines perfekten gegensinnigen Zusammenhangs den Wert –1 erzielt.
Ende Experte
14.4.2 Der Korrelationskoeffizient als PRE-Maß Sowohl Kovarianz als auch der Korrelationskoeffizient sind symmetrische Maße des Zusammenhangs zwischen zwei Variablen. Die Korrelation selbst sagt nie etwas über die kausale Richtung des Zusammenhangs zwischen den beiden Variablen aus. Ob die Ausprägung der X-Variablen die Ausprägung der YVariablen beeinflusst oder ob es genau umgekehrt ist, kann nur durch theoretische Vorüberlegungen geklärt werden. Die Zahlen bleiben stumm bezüglich einer diesbezüglichen Aussage. Auch die Bezeichnung der einen Variablen als abhängige und der anderen als unabhängigeVariable ist immer eine Entscheidung, die innerhalb der Modellbildung getroffen wird.
Kausalrichtung des Zusammenhangs nur theoretisch zu erschließen
Zur grafischen Darstellung einer bivariaten Verteilung eignen sich – wie schon Streudiagramm gezeigt – mehrdimensionale Säulen- oder Balkendiagramme. Dies ist allerdings
190
Kapitel 14 Bivariate Zusammenhänge
nur dann eine mögliche und sinnvolle Form der Darstellung, wenn die Anzahl der Ausprägungen nicht zu groß ist, wie es üblicherweise bei nominalskalierten Variablen der Fall ist. Da intervallskalierte Variablen häufig sehr viele Ausprägungen haben, ist man zu ihrer Darstellung auf andere Formen angewiesen. Man kann beispielsweise Werte innerhalb eines Intervalls zu einer Gruppe zusammenfassen und diese zusammengefassten Werte in einem Histogramm mit einer zweidimensionalen Grundfläche darstellen. Da solche räumlichen Darstellungen jedoch oft unübersichtlich sind und überdies durch die Gruppierung der Werte Information verloren geht, ist eine andere Darstellungsform vorzuziehen, nämlich die mit Hilfe von Streudiagrammen. In einem Streudiagramm werden die Werte der beiden Variablen als Koordinaten in einem zweidimensionalen Raum interpretiert. Üblicherweise stellt der X-Wert die Koordinate bezüglich der horizontalen Achse und der Y-Wert die Koordinate bezüglich der vertikalen Achse dar. Jedem Paar aus zwei Werten (xi,yi) kann so eindeutig ein Punkt in diesem Koordinatensystem zugeordnet werden. Beispiel: Im folgenden Streudiagramm sind die Wertepaare von 100 zufällig ausgewählten Sympathieskalometer
Personen aus einer Wahlumfrage des Politbarometer im Jahr 1980 zur Bundestagswahl dargestellt. Die beiden Variablen sind die Sympathieskalometer für die CDU und für Helmut Kohl. Beide Skalen erstrecken sich über einen Wertebereich von 1 bis 11, wobei der Wert 1 "sehr unsympathisch" und der Wert 11 "sehr sympathisch" bedeuten. Für die Skalierung von 1 bis 11 wurden die ursprünglichen Werte, wie sie im Fragebogen angeboten werden, transformiert. Dort konnte man Werte zwischen –5 und +5 angeben. Der Informationsgehalt der Variablen wird durch die Transformation jedoch in keiner Weise berührt. Der Wert der Sympathie für die CDU ist auf der horizontalen Achse abgetragen, der Wert der Sympathie für Helmut Kohl auf der vertikalen Achse.
Sympathieskalometer Helmut Kohl
Abbildung 14.6: Streudiagramm 12 10 8 6 4 2 0 0
2
4
6
8
10
12
Sympathieskalometer CDU
Regressionsfunktion Streudiagramme sind ein hervorragendes Mittel, um auf einen Blick einen
vorhandenen Zusammenhang zu erfassen. Im vorangehenden Beispiel bestand ein (wenig überraschender) Zusammenhang zwischen den beiden Variablen Sympathie für die CDU und Sympathie für Helmut Kohl. Je höher die
Kapitel 14 Bivariate Zusammenhänge
191
Sympathiewerte zugunsten der CDU ausfielen, desto besser wurde auch Helmut Kohl bewertet. Normalerweise ist ein empirischer Zusammenhang jedoch nicht perfekt. Bei einem perfekten Zusammenhang liegen die Punkte alle auf einer Geraden, im Falle eines weniger als vollständigen Zusammenhangs streuen sie um eine Gerade herum. Dann weist die Punktewolke einen eindeutigen Verlauf von links unten nach rechts oben auf. D.h. es existiert eine Tendenz oder ein Trend zu einem typischen Verlauf der Koordinatenpaare. Wir können nun nach einer Funktion suchen, die diesen Trend in der bestmöglichen Weise wiedergibt. Dabei wollen wir uns auf den einfachsten Funktionstyp beschränken, also auf lineare Funktionen. Wir suchen also eine Gerade, die die Punktewolke "am besten" repräsentiert. Diese Gerade wird Regressionsgerade genannt und die dazugehörige Funktion die Regressionsfunktion oder Regressionsgleichung. Allerdings benötigen wir ein Kriterium, nach dem eindeutig bestimmt werden kann, welche Gerade die Punktewolke am besten repräsentiert, denn grundsätzlich können beliebig viele Geraden durch die Punktewolke gelegt werden. Der Wert auf der Regressionsgeraden soll ja der dem Trend typisch entsprechende Werte sein, wir bezeichnen diesen Werte als den durch die Regressionsgleichung geschätzten Wert. Sollen die Werte von Y geschätzt werden, so nennen wir die entˆ und bezeichnen die individuellen geschätzten Wersprechende Schätzfunktion Y ˆ te als y i . Der "Schätzfehler" ist somit umso größer, je größer die Distanz e = yˆ i – yi ausfällt. Diese Distanz wird auch als Residuum bezeichnet, da sie den
"Rest" der Streuung der Y-Werte darstellt, der nicht durch die Regressionsgerade "erklärt" werden kann. Da nur die Distanz selbst von Bedeutung ist, also die Abweichung des geschätzten vom tatsächlichen Wert, neutralisieren wir das Vorzeichen auf die übliche Weise, indem wir den Ausdruck quadrieren. Der gesamte Schätzfehler ist die Summe dieser quadrierten Abstände. Die Regressionsgerade wird nun so bestimmt, dass dieser Fehler minimiert wird. Anders ausgedrückt: Die Regressionsgerade ist diejenige Gerade durch die Punktewolke, die die Varianz der Residuen minimiert. Die Lage der Regressionsgerade innerhalb der Punktewolke unseres Beispiels zeigt die folgende Abbildung. Regressionsgerade
Sympathieskalometer Helmut Kohl
Abbildung 14.7: Regressionsgerade durch eine Punktewolke 12 10 8 6 4 2 0 0
2
4
6
8
Sympathieskalometer CDU
10
12
192
Kapitel 14 Bivariate Zusammenhänge
Die dazugehörige Regressionsgleichung lautet: Y = 0,85 + 0,74 * X. Wie die Parameter der Gleichung im Einzelnen ermittelt werden, wird im Kapitel 28 zur Regressionsanalyse genauer erläutert. Wenn die Varianz als Fehler interpretiert werden kann, dann kann mit Hilfe der Regression ein PRE-Maß für den Zusammenhang zwischen den beiden Variablen berechnet werden. Der Anfangsfehler E0 ist die Varianz der zu schätzenden Variablen Y, also Var(Y). Der verbleibende ˆ ). Es gilt die Formel der VaFehler ist die Varianz der Residuen, also Var(Y – Y rianzzerlegung: Gesamtvarianz ist gleich erklärter Varianz plus Varianz der Residuen. Varianzzerlegung
Var(Y)
ˆ Var(Y Y) ˆ Var(Y)
(14.40)
An dieser Stelle wird die Formel zunächst nicht bewiesen, Den Beweis finden Sie ebenfalls in Kapitel 28. Die Gesamtvarianz der Variablen Y lässt sich in zwei Teile zerlegen, die beide ˆ wiederum Varianzen darstellen, nämlich die Varianz der geschätzten Variablen Y ˆ und die Varianz der Residualvariablen E = Y – Y . Für das PRE-Maß ergibt sich dann:
PRE Determinationskoeffizient R²
E0 E1 E0
Var(Y) Var(E) Var(Y)
ˆ Var(Y) Var(Y Y) Var(Y)
ˆ Var(Y) Var(Y)
Dieses PRE-Maß wird als Determinationskoeffzient bezeichnet und mit dem Symbol R² versehen. Der Determinationskoeffizient gibt den Anteil der ursprünglichen Varianz von Y an, der durch die Regressionsgerade und damit durch X "erklärt" – bzw. genauer aufgeklärt – werden kann, denn die Regressionsgerade ist ja eine Funktion von X. Im bivariaten Fall besteht ein enger Zusammenhang zwischen dem Determinationskoeffizienten und dem Korrelationskoeffizienten, denn R² ist gleich dem Quadrat des Korrelationskoeffizienten, also R² = r². Der Determinationskoeffzient unseres Beispiels ist übrigens 0,64. Durch die Regressionsgerade werden also 64 % der Varianz der abhängigen Variablen aufgeklärt. Anders ausgedrückt: 64 % der Varianz der Sympathiewerte für Helmut Kohl können auf die Varianz der Sympathiewerte für die CDU zurückgeführt werden. Der Korrelationskoeffizient zwischen den beiden Variablen ist die Wurzel aus 0,64, also 0,8. Der Determinationskoeffzient R² und damit auch der Korrelationskoeffizient sind genau dann gleich 1, wenn alle Punkte auf der Regressionsgeraden selbst liegen.
Kapitel 14 Bivariate Zusammenhänge
193
Perfekter Zusammenhang
Sympathieskalometer Helmut Kohl
Abbildung 14.8: Regressionsgerade mit perfekter Anpassung 12 10 8 6 4 2 0 0
2
4
6
8
10
12
Sympathieskalometer CDU
Ein Korrelationskoeffizient von 0 bedeutet, dass es keinen Zusammenhang zwischen den beiden Variablen gibt. Die Interpretation des Korrelationskoeffizienten mit Hilfe der Regressionsgeraden verhilft uns zu der alternativen Formulierung, dass der Korrelationskoeffizient dann gleich 0 ist, wenn die Regressionsgerade eine waagrechte Gerade darstellt, deren Abstand zur X-Achse gleich dem Mittelwert der Y-Variablen ist. Denn in diesem Fall sind die Residuen gleich den Abständen der ursprünglichen Werte vom Mittelwert. Kein Zusammenhang
Abbildung 14.9: Waagerechte Regressionsgerade 9 8 7 6 5 4
y = 4,89-0,0014x R2 = 0,005
3 2 1 0 0
5
10
15
20
25
Der Korrelationskoeffizient kann nur zur Beurteilung eines vorhandenen linearen Zusammenhangs herangezogen werden. Gegenüber nicht-linearen Zusammenhängen ist er blind. Dies soll die folgende Abbildung verdeutlichen.
194
Kapitel 14 Bivariate Zusammenhänge
U-förmiger Abbildung 14.10: Nichtlinearer Zusammenhang Zusammenhang 120 100 80 60 40 y = 41,667 R2 = 0
20 0 0
5
10
15
20
25
Es gibt einen perfekten Zusammenhang zwischen der abhängigen Y-Variablen und der unabhängigen X-Variablen. Allerdings entspricht dieser Zusammenhang einer quadratischen Funktion, der dazugehörige Graph ist eine Parabel. Der Korrelationskoeffizient ist 0, da die Regressionsgerade waagrecht verläuft. Spearman'scher Rangkorrelationskoeffizient als Maß für intervallskalierte Variablen
Der Spearman‘sche Rangkorrelationskoeffizient, der im vorangehenden Abschnitt als Maß für die Korrelation zwischen ordinalskalierten Variablen eingeführt wurde, ist mit dem Korrelationskoeffizienten r nahe verwandt. Der Spearman‘sche Rangkorrelationskoeffizient kann ebenfalls nach der Formel des Korrelationskoeffizienten r von Bravais und Pearson berechnet werden, indem man anstelle der ursprünglichen Variablenwerte die Rangplätze in die Formel einträgt:
rSP
1 n r(xi ) r(x) r(yi ) r(y) ¦ ni1 sr(x) sr(y)
mit r(xi )=Rangplatz von x i r(yi )=Rangplatz von y i
(14.41)
15 Grundbegriffe der Wahrscheinlichkeitstheorie Wahrscheinlichkeiten geben uns die Möglichkeit, über Ereignisse zu sprechen, hinsichtlich deren Eintreten Unsicherheit besteht. "Wahrscheinliche" Ereignisse sind solche, die passieren können, aber unter Umständen auch nicht auftreten. Der Begriff der Wahrscheinlichkeit bzw. des Zufalls drückt unsere Erkenntnis darüber aus, dass es Geschehnisse gibt, die sowohl unserer bewussten willentlichen Kontrolle entzogen sind, als auch von uns mit Hilfe des Wissens über gewisse gesetzmäßige Zusammenhänge nicht vorhergesehen werden können. Diese Eigenschaft teilt der Wahrscheinlichkeitsbegriff mit dem Begriff des Schicksals, und es ist daher nicht verwunderlich, dass in vielen Sprachen Wörter für Zufall, Glück oder Schicksal oft den gleichen Ursprung haben. In Abgrenzung zur Willkür des Schicksals oder des "reinen" Zufalls drückt der Begriff der Wahrscheinlichkeit dennoch – trotz aller Unsicherheit – ein Element der Berechenbarkeit aus. Auch wenn bestimmte Ereignisse nicht konkret, d.h. im Einzelfall, voraussagbar waren, so war auch schon für die Menschen der Antike erkennbar, dass sie in scheinbar festen Proportionen auftauchten. Das offensichtlichste dieser "Zufallsereignisse", das in der ebenso offensichtlichen annähernden Proportion von 1/2 zu 1/2 auftrat, war das Geschlecht eines Neugeborenen. So diffus und schillernd der Wahrscheinlichkeitsbegriff auch ist, so ist es doch Zufallsexperiment möglich, ihm eine klare und präzise Bedeutung zu geben. Dazu ist es allerdings nötig, etwas auszuholen. Wesentlich für die formale Bestimmung des Wahrscheinlichkeitsbegriffs ist das Zufallsexperiment. Obwohl der Begriff Zufallsvorgang eigentlich angemessener wäre, da es sich in den wenigsten Fällen um Ereignisse handelt, die im Rahmen eines echten "experimentellen Designs" geplant wurden, halten wir an dem herkömmlichen Begriff fest, da er sich in der wahrscheinlichkeitstheoretischen Literatur eingebürgert hat. Definition 15.1: Zufallsexperiment Das Zufallsexperiment ist ein Vorgang, ein Verfahren, als dessen Ergebnis ein distinktes, wahrnehmbares und in bestimmten Aspekten beschreibbares Ereignis auftritt. Man könnte das Zufallsexperiment auch als Versuchsanordnung zur Erzeugung von Ereignissen bezeichnen. Zu jedem Zufallsexperiment gibt es eine Menge aller möglichen Ereignisse, die das Ergebnis des Zufallsexperiments sein können. Umgekehrt gilt, dass jedes dieser möglichen Ereignisse als Ergebnis des gleichen Zufallsexperiments erkannt werden kann. Manche Ereignisse sind anhand bestimmter Unterscheidungskriterien in mehrere sich gegenseitig ausschließende Teilereignisse zerlegbar. Ereignisse, die nicht weiter zerlegbar sind, werden die Elementarereignisse des Zufallsexperiments genannt. Elementarereignisse sind unvereinbar, d.h. sie schließen sich gegenseitig aus. Zwei Elementarereignisse können also niemals gleichzeitig das Ergebnis eines Zufallsexperiments sein. Die Menge aller Elementarereignisse ist der Ereignisraum. Der Ereignisraum des Zufallsexperiments 'Einmaliger Wurf eines
196
Kapitel 15 Grundbegriffe der Wahrscheinlichkeitstheorie
Würfels' z.B. besteht aus den sechs Elementarereignissen 'Augenzahl 1' bis 'Augenzahl 6'. Ereignisse, die sich aus mehreren Elementarereignissen zusammensetzen, werden komplexe Ereignisse genannt. Das komplexe Ereignis 'Wurf einer geraden Augenzahl beim einmaligen Würfeln' z.B. besteht aus den Elementarereignissen 'Augenzahl 2', 'Augenzahl 4' und 'Augenzahl 6'. Die Menge aller möglichen Ereignisse besteht aus den Elementarereignissen sowie allen aus diesen konstruierbaren komplexen Ereignissen. Existieren n Elementarereignisse eines Zufallsexperiments, so gibt es insgesamt 2n-1 mögliche Ereignisse.
Damit ist allerdings noch nichts darüber gesagt, wie die Wahrscheinlichkeitswerte selbst zu Stande kommen. Hier gibt es verschiedene Auffassungen.
15.1 Der Wahrscheinlichkeitsbegriff der klassischen Wahrscheinlichkeitstheorie In der klassischen Wahrscheinlichkeitstheorie geht man davon aus, dass alle Elementarereignisse "gleichmöglich" und damit auch gleichwahrscheinlich sind. Sei der Ereignisraum die Menge der Elementarereignisse E1, E2, E3, E4... En. Dann gilt für ein beliebiges Elementarereignis: Definition 15.2: Der Wahrscheinlichkeitsbegriff der klassischen Wahrscheinlichkeitstheorie Wahrscheinlichkeit eines Elementarereignisses Ei = P(Ei) =
1 n
mit Ei n A priori Wahrscheinlichkeit
beliebiges Elementarereignis Anzahl aller gleichwahrscheinlichen Elementarereignisse
Die Wahrscheinlichkeit der klassischen Wahrscheinlichkeitstheorie ergibt sich analytisch. Da Elementarereignisse sich nicht mehr in Teilereignisse zerlegen lassen, gibt es keine Kriterien mehr, anhand derer verschiedene Elementarereignisse unterschieden werden können, abgesehen davon, dass sie eben verschieden sind. Dieser Unterschied ist aber nur ein Unterschied des Labels, des Namens, der Bezeichnung. Es gibt keine den einzelnen Elementarereignissen zuschreibbaren Qualitäten, durch die sie sich voneinander abheben. Abgesehen vom Faktum ihrer Unterschiedlichkeit sind sich alle Elementarereignisse gleich. Die klassische Wahrscheinlichkeitstheorie, insbesondere in ihrer Prägung durch Pierre Simon de Laplace, geht von einem streng deterministischen Weltbild aus. Danach folgen alle Geschehnisse dieser Welt einem durch Naturgesetze vollständig bestimmten Ablauf der Ereignisse. Verfügte ein übermächtiges Wesen, der so genannte Laplace'sche Dämon, über das perfekte Wissen, so könnte es aus jedem Zustand der Welt jeden zukünftigen wie auch jeden vergangenen exakt bestimmen. Wahr-
Kapitel 15 Grundbegriffe der Wahrscheinlichkeitstheorie
197
scheinlichkeiten sind daher nur ein Ausdruck des Mangels an Wissen. Das Laplace'sche Kriterium des unzureichenden Grundes legt daher für alle Elementarereignisse dieselbe Wahrscheinlichkeit zu Grunde, da unser Wissensstand in Bezug auf alle Elementarereignisse gleich unvollkommen ist. Da wir über kein Wissen verfügen, das uns das eine Ereignis eher als das andere erwarten lässt, können wir allen Ereignissen notgedrungen nur gleiche Wahrscheinlichkeiten zuweisen. Wahrscheinlichkeitstheorien, die sich auf den Grad der Überzeugung oder des Glaubens beziehen, mit dem wir bestimmte Ereignisse erwarten, werden häufig epistemologisch (vgl. Hacking 1975; Gillies 2000) genannt. Der klassische Wahrscheinlichkeitsbegriff wird auch als A-Priori-Wahrscheinlichkeit bezeichnet, da er vorab der Erfahrung gebildet wird. Wenn alle Elementarereignisse gleich möglich und damit gleichwahrscheinlich sind, dann gilt für ein komplexes Ereignis A, das sich aus den Elementarereignissen E1 bis Em zusammensetzt, dass sich die Wahrscheinlichkeit P(A) des Auftretens von A aus den Wahrscheinlichkeiten der beteiligten Elementarereignisse berechnen lässt. Definition 15.3: Wahrscheinlichkeit eines komplexen Ereignisses in der klassischen Wahrscheinlichkeitstheorie P(A) P(E1 E2 ...Em )
m n
Anzahl der für A günstigen Elementarereignisse Anzahl aller Elementarereignisse
In der klassischen Wahrscheinlichkeitstheorie haben gleichwahrscheinliche Ele- Gleichwahrscheinliche Elementarereignisse mentarereignisse eine herausragende Bedeutung. Dies liegt daran, dass sie sich aus einer Beschäftigung mit Problemen aus dem Bereich der Glücksspiele entwickelt hat, bei denen die Annahme der Gleichwahrscheinlichkeit bestimmter elementarer Ereignisse besonders plausibel ist. So kann man bei einem "fairen" Würfel davon ausgehen, dass jede Augenzahl mit der gleichen Wahrscheinlichkeit auftreten kann. Als Anfang der Wahrscheinlichkeitstheorie wird üblicherweise ein Briefwechsel zwischen Pascal und Fermat aus dem Jahre 1654 angesehen, der sich mit einem Problem des Würfelspiels beschäftigte. Das erste Lehrbuch der Wahrscheinlichkeitstheorie von Huygens, erschienen 1657, trug den verräterischen Titel "De Ratiociniis in Aleae Ludo", was man ungefähr mit "Berechnungen des Würfelspiels" übersetzen könnte. Die Annahme gleichwahrscheinlicher Elementarereignisse wie beim Glücksspiel stellt außerdem den einfachsten Spezialfall des Rechnens mit Wahrscheinlichkeiten dar. Hiervon ausgehend wurden bestimmte Regeln des Rechnens mit Wahrscheinlichkeiten entwickelt, die im weiteren Verlauf der Entwicklung der Wahrscheinlichkeitstheorie auf kompliziertere Fälle verallgemeinert wurden. Auch heute wird in Lehrbüchern häufig von gleichwahrscheinlichen Zufallsereignissen ausgegangen, um die Theoreme und Axiome der Wahrscheinlichkeitstheorie zu
198
Kapitel 15 Grundbegriffe der Wahrscheinlichkeitstheorie
illustrieren. Wenn wir allerdings die empirische Welt ansehen, stellen wir fest, dass in ihr gleichwahrscheinliche Elementarereignisse nur äußerst selten und bestenfalls im idealisierten Fall auftreten. So wissen wir heute, dass selbst die Geburt von Mädchen und Jungen z.B. nicht genau gleichwahrscheinlich ist, sondern gewissen Schwankungen in Abhängigkeit von äußeren Umständen unterworfen ist. Ebenso ist vermutlich kein einziger Würfel im strengen Sinn hundertprozentig "fair". Vielmehr führen minimale Fertigungsfehler dazu, dass die verschiedenen Würfelseiten mit verschiedenen Wahrscheinlichkeiten auftreten. Dabei ist die Möglichkeit der bewussten Manipulation von Würfeln oder Münzen noch gar nicht berücksichtigt.
15.2 Der Frequentistische Wahrscheinlichkeitsbegriff Wahrscheinlichkeit abgeleitet aus relativer Häufigkeit des Auftretens
In den oben aufgeführten Beispielen scheint die klassische Wahrscheinlichkeitstheorie mit der Annahme gleichwahrscheinlicher Elementarereignisse nicht geeignet. Was können wir beispielsweise über die Wahrscheinlichkeiten eines Münzwurfs sagen, wenn wir von einer Münze wissen, dass sie derart manipuliert ist, dass die eine Seite mit 60-prozentiger Wahrscheinlichkeit auftritt und die andere Seite mit 40-prozentiger Wahrscheinlichkeit, uns aber nicht bekannt ist, welche der beiden Seiten bevorzugt vorkommt? Das Laplace'sche Argument würde lauten, dass wir beiden Seiten die gleiche Wahrscheinlichkeit zuweisen müssen, da wir uns in Hinsicht auf beide Seiten im gleichen Zustand der Unwissenheit befinden, obwohl wir wissen, dass beide Wahrscheinlichkeiten falsch sind. Die a priori Schätzung der Wahrscheinlichkeiten lässt uns in diesem Fall keine andere Wahl, als wider besseres Wissen falsche Wahrscheinlichkeiten anzugeben. Wollen wir als Empiriker zu möglichst guten Aussagen über die tatsächlich vorliegende Wirklichkeit gelangen, d.h. zu Aussagen, von denen wir glauben, dass sie eine adäquate Beschreibung der Wirklichkeit darstellen, dann wird uns die klassische Auffassung der Wahrscheinlichkeit daher eher unbefriedigt lassen. Wonach wir suchen, ist eine Möglichkeit, Wahrscheinlichkeiten so zu bestimmen, dass sie empirischen Sinn bekommen. Zwar können wir Wahrscheinlichkeiten nicht direkt in der Wirklichkeit beobachten, sehr wohl aber können wir durch Beobachtungen die relative empirische Häufigkeit ermitteln, mit der ein bestimmtes Ereignis in einer Serie von Zufallsexperimenten auftritt. Die Wahrscheinlichkeit eines Ereignisses und die relative Auftretenshäufigkeit dieses Ereignisses stehen aber in einem engen Zusammenhang. Nach Jakob Bernoulli gilt hierbei das so genannte "Gesetz der großen Zahlen", das erstmals in seinem Buch "Ars coniectandi" im Jahr 1713 veröffentlicht wurde.
Kapitel 15 Grundbegriffe der Wahrscheinlichkeitstheorie
Theorem 15.1: (Schwaches) Gesetz der großen Zahlen nach Jakob Bernoulli Für ein beliebig kleines H>0 gilt: ª § h(A) ·º lim «P ¨ P(A) d İ ¸ » 1 ¹¼ ¬ © n
n of
mit h(A) = Häufigkeit des Auftretens des Ereignisses A in einer Serie von n Zufallsexperimenten P(A) = Wahrscheinlichkeit des Auftretens des Ereignisses A Nehmen wir das einfache Beispiel des Wurfs mit einer "fairen" Münze. Die Beispiel Münzwurf Wahrscheinlichkeit des Auftretens von 'Wappen' oder 'Kopf' ist dann jeweils 1/2. Das Gesetz der großen Zahlen besagt nun, dass es für jeden Genauigkeitsbereich, der durch H angegeben ist, und für jede beliebige Wahrscheinlichkeit P eine Zahl n h(A) gibt, so dass die Wahrscheinlichkeit, dass die relative Häufigkeit von der n Wahrscheinlichkeit P(A) um weniger als den Betrag von H abweicht, größer als P ist. Sei H z.B. 0,05 und P = 0,99. Dann gibt es eine Zahl n, so dass mit einer Wahrscheinlichkeit von 99 Prozent die relative Häufigkeit von 'Wappen' oder 'Kopf' im Intervall zwischen 0,45 und 0,55 liegt. Erhöht man n weiter, so nimmt die Wahrscheinlichkeit, dass sich die relative Häufigkeit innerhalb dieses Intervalls befindet, zu. Setzt man die Reihe praktisch unendlich oft fort, so befindet sich die relative Häufigkeit sogar mit Wahrscheinlichkeit von annähernd Eins innerhalb des Intervalls. Einen Beweis des Gesetzes der großen Zahlen werden wir später entwickeln. Auch für das Werfen eines "fairen" Würfels gilt natürlich, dass sich die relativen Häufigkeiten für das Auftreten jeder Seite praktisch beliebig genau an 1/6 annähern lassen, wenn wir den Würfel nur oft genug werfen. Wir kennen nun also einen Zusammenhang zwischen einer a priori bekannten Wahrscheinlichkeit eines Ereignisses und der entsprechenden relativen Häufigkeit des Auftretens eben dieses Ereignisses. Wir haben aber immer noch keine Möglichkeit, die Wahrscheinlichkeiten selbst zu bestimmen, wenn sie uns noch unbekannt sind. Es scheint nun nicht unplausibel, die Beziehung des Gesetzes der großen Zahlen gewissermaßen umzukehren. Einer der wichtigsten Wahrscheinlichkeitstheoretiker des 20. Jahrhunderts, Richard von Mises, hat genau diesen Weg vorgeschlagen, die Wahrscheinlichkeit eines Ereignisses aus der relativen Häufigkeit seines Auftretens abzuleiten.
199
200
Kapitel 15 Grundbegriffe der Wahrscheinlichkeitstheorie
Definition 15.4: Der frequentistische Wahrscheinlichkeitsbegriff von Richard von Mises § h(A) · lim ¨ ¸ P(A) © n ¹
n of
A posteriori Wahrscheinlichkeit
Im Gegensatz zum Gesetz der großen Zahlen handelt es sich bei dieser Formel um eine Festlegung, die zwar Plausibilität für sich beanspruchen, aber nicht bewiesen werden kann. Ein anderer Einwand gegen diesen Wahrscheinlichkeitsbegriff ist aber noch bedeutsamer: Der frequentistische Wahrscheinlichkeitsbegriff fußt auf der Durchführung einer großen Anzahl von Zufallsexperimenten, die Wahrscheinlichkeit eines Einzelfalls lässt sich also immer nur in Bezug auf ein Kollektiv ausdrücken. Der frequentistische Wahrscheinlichkeitsbegriff beruht auf der Erfahrung und ist daher a posteriori gewonnen. Damit die Wahrscheinlichkeit eines Ereignisses aus der relativen Häufigkeit seines Auftretens in einer Serie von Zufallsexperimenten abgeleitet werden kann, müssen die Bedingungen, die sein Erscheinen bewirken, in allen Zufallsexperimenten die gleichen sein, d.h. die Zufallsexperimente müssen auf die exakt gleiche Weise reproduzierbar sein. Dies aber stellt in Bezug auf die praktische Durchführung eines Zufallsexperiments bestenfalls wieder eine plausible, schlimmstenfalls eine ungerechtfertigt kühne Annahme dar.
Nähe zum naturwissenschaftlichen Wissenschaftsverständnis
Der empirische Wahrscheinlichkeitsbegriff der frequentistischen Theorie ist ausschließlich in der Erfahrung verwurzelt und somit Ausdruck einer Auffassung von Wahrscheinlichkeit, die speziell einem klassischen naturwissenschaftlichen Verständnis entgegen kommt. Deshalb ist er heute vor allem in klassischen Naturwissenschaften wie der Mechanik weit verbreitet. Darüber hinaus ist er aber auch generell der in der Statistik wohl am weitesten verbreitete Wahrscheinlichkeitsbegriff, selbst in den Sozialwissenschaften. Seine Anwendung in den Sozialwissenschaften hat wiederum Auswirkungen auf die Interpretation statistischer Konzepte, wie wir beispielsweise bei der Diskussion des Konzepts des Konfidenzintervalls (Abschnitt 21.4) noch sehen werden.
15.3 Die Propensity-Theorie der Wahrscheinlichkeit nach Popper Der frequentistische Wahrscheinlichkeitsbegriff schließt die Möglichkeit aus, probabilistische Aussagen vor der Erfahrung zu machen. Dies führt jedoch zu dem absurden Ergebnis, dass wir bei der Anfertigung eines neuen Würfels vor dem vieltausendfachen Werfen mit demselben keinerlei Vermutungen über die Wahrscheinlichkeit machen könnten, mit der eine bestimmte Seite des Würfels oben liegt, selbst wenn wir wüssten, dass der Würfel hundertprozentig symmetrisch gefertigt ist. Man könnte sich bei dem Würfelbeispiel möglicherweise noch der Brücke bedienen, dass man ja schon hinreichend Erfahrung mit ganz ähnlichen Objekten, nämlich anderen Würfeln gemacht hat, so dass man auf Grund dieser Ähnlichkeit der Objekte eine Übertragung der Wahrscheinlichkeitserwar-
Kapitel 15 Grundbegriffe der Wahrscheinlichkeitstheorie
tungen für berechtigt hält. Aber spätestens bei der Konstruktion neuer mechanischer, ebenfalls vollkommen symmetrisch geformter Zufallsgeneratoren ermöglicht uns die frequentistische Theorie keinerlei Aussagen über die Wahrscheinlichkeiten der verschiedenen möglichen Zustände, die durch diesen Zufallsgenerator hervorgebracht werden können. Es scheint plausibel, bei der Bestimmung von Wahrscheinlichkeiten auch die physikalischen Eigenschaften von Zufallsgeneratoren wie Würfeln oder Münzen zu berücksichtigen. Dieser intuitiv einleuchtenden Auffassung trägt Poppers Bestimmung des Wahrscheinlichkeitsbegriffs Rechnung: Definition 15.5: Die Propensity-Theorie der Wahrscheinlichkeit von Popper Wahrscheinlichkeiten sind nach Popper Eigenschaften des Arrangements des Zufallsexperiments. Dieses besitzt demnach eine Disposition, "Propensitiy" oder "Verwirklichungstendenz", bestimmte charakteristische relative Häufigkeiten hervorzubringen, wenn es entsprechend oft wiederholt wird. Auf einen symmetrischen Zufallsgenerator wie z.B. einen Würfel bezogen heißt Theoretische Wahrscheinlichkeit dies: Alle potenziellen Ursachen, die das Auftreten des einen Elementarereignisses bewirken, können sich ebenso zu Gunsten des Auftretens jedes anderen Elementarereignisses auswirken. Kein einzelnes Elementarereignis bietet eine spezielle Angriffsfläche für bestimmte Ursachenfaktoren, die sich spezifisch zu Gunsten dieses einen Elementarereignisses auswirken. Im Unterschied zur klassischen Wahrscheinlichkeitstheorie spiegelt die Gleichwahrscheinlichkeit der Elementarereignisse hier die physikalischen Eigenschaften des Würfels wider – im Falle der Gleichwahrscheinlichkeit seine Symmetrieeigenschaft – und nicht den Informationsstand. Der Popper'sche Wahrscheinlichkeitsbegriff kann als theoretische Wahrscheinlichkeit aufgefasst werden, da er allein aus Kenntnis der Anlage des Zufallsexperiments und theoretischen Überlegungen die Wahrscheinlichkeit eines Ereignisse a priori vorab jeglicher Erfahrung voraussagen kann. Sowohl die theoretische Propensity-Wahrscheinlichkeit als auch die empirische frequentistische Wahrscheinlichkeitsauffassung werden – in Abgrenzung zu epistemologischen Ansätzen – als objektive Wahrscheinlichkeitstheorien bezeichnet.
15.4 Der Subjektive Wahrscheinlichkeitsbegriff nach Ramsey und de Finetti Allen bisher vorgestellten Wahrscheinlichkeitsbegriffen ist gemeinsam, dass sie vom Subjekt unabhängig sind, d.h. jeder Beobachter muss in der gleichen Situation zur gleichen Schätzung der Wahrscheinlichkeiten gelangen. Diese Bedingung wird von den Vertretern einer subjektiven oder subjektivistischen Wahrscheinlichkeitstheorie wie von Ramsey oder de Finetti aufgegeben.
201
202
Kapitel 15 Grundbegriffe der Wahrscheinlichkeitstheorie
Definition 15.6: Subjektiver Wahrscheinlichkeitsbegriff nach Ramsey und de Finetti Subjektive Wahrscheinlichkeiten geben den Grad einer Überzeugung (degree of belief) wieder, mit dem jemand an das Auftreten eines bestimmten Ereignisses glaubt. Subjektive Wahrscheinlichkeiten werden anhand einer spezifischen Operationalisierung erhoben, mit der der Grad der Überzeugung gemessen werden kann. Üblich ist die Abfrage von Quoten, mit denen die Befragten auf bestimmte Ereignisse selbst wetten würden und zu denen sie anderen Personen Wetten anbieten würden. Die Quoten bezüglich verschiedener Ereignisse müssen kohärent sein, d.h. die Quoten dürfen nicht so beschaffen sein, dass – unabhängig vom Ergebnis eines Zufallsexperiments – immer ein Verlust der einen und ein Gewinn der anderen Seite auftritt.
Die Logik des Verfahrens liegt darin, dass eine Person die Wettquoten festlegt, eine andere Person jedoch darüber entscheidet, ob die erste Person zu dieser Quote wetten darf oder Wetten annehmen muss. Wenn die erste Person daher Quoten festlegt, die für ein bestimmtes Ereignis "unangemessen" günstig sind, so muss sie damit rechnen, dass andere Personen mit dieser Quote auf dieses Ereignis wetten wollen, und sie muss deren Wetten annehmen. Legt sie hingegen eine ungünstige Quote bezüglich dieses Ereignisses fest, so kann die zweite Person sie dazu zwingen, zu dieser Quote zu wetten. Die Person muss die Quoten daher so festlegen, dass sie – zumindest ihrer Wahrnehmung nach – ausgewogen sind. Das Verfahren stellt eine Art von Spezialfall des "Divide and Choose" Verfahrens dar. Da jede Person aber verschiedene Wahrnehmungen der "echten" Wahrscheinlichkeiten hat, gibt es für jede Person ein individuelles System von Quoten. Da sich die subjektiven Wahrscheinlichkeitseinschätzungen tatsächlich zwischen Personen unterscheiden, kann es überhaupt so etwas wie Wetten z.B. bei Pferderennen geben. Subjektive Wahrscheinlichkeitstheorien sind sehr realitätsnah und stehen offensichtlich in einer sehr engen Beziehung zur Handlungswahl. Sie kommen daher in der formalen Entscheidungstheorie vor (vgl. u.a. Savage 1972), aber auch in sozialpsychologischen Einstellungs- und Handlungstheorien (vgl. u.a. Fishbein/Ajzen 1975).
15.5 Pluralistischer Wahrscheinlichkeitsbegriff Wahl des geeigneten Wahrscheinlichkeitskonzepts hängt vom Gegenstandsbereich ab
Auch wenn manche Vertreter eines bestimmten Wahrscheinlichkeitsbegriffs dazu neigen, diesen als den einzig möglichen anzusehen, so ist diese ausschließliche Gegenüberstellung der verschiedenen Wahrscheinlichkeitskonzepte nicht zwingend. Je nach Gegenstandsbereich kann der eine oder der andere Wahrscheinlichkeitsbegriff angemessener sein. Zu didaktischen Zwecken eignet sich z.B. bezüglich der Einführung von Rechenregeln weiterhin der klassische Wahrscheinlichkeitsbegriff am besten, hingegen ist der frequentistische Wahrscheinlichkeitsbegriff dann angebracht, wenn es um Wahrscheinlichkeiten in empirischen Kollektiven geht, die keine physikalischen oder sonstigen Eigenschaften besitzen, die es ermöglichen würden, im Sinne der Propensity-Theorie a priori Wahrscheinlich-
Kapitel 15 Grundbegriffe der Wahrscheinlichkeitstheorie
keiten zuzuweisen. Die Propensity-Theorie ist hilfreich, wenn es um physikalische Eigenschaften bestimmter Objekte bzw. experimentelle Arrangements geht, die sich auf Grund theoretischer Überlegungen in bestimmten fixen Verhältnissen darlegen lassen, aus denen wiederum die Verhältnisse von Wahrscheinlichkeiten abgeleitet werden können. Im einfachsten Fall sind das Symmetrieeigenschaften, die Gleichwahrscheinlichkeiten nach sich ziehen. Je komplexer und komplizierter jedoch eine experimentelle Anlage, desto schwieriger ist es, anhand theoretischer Vorüberlegungen zu bestimmten Relationen bestimmter Eigenschaften zu gelangen, und ein frequentistisches Vorgehen liegt nahe. Dies lässt sich gut am Beispiel so genannter geometrischer Wahrscheinlichkeiten illustrieren.
Beispiel: Ermittlung geometrischer Wahrscheinlichkeiten Betrachten wir eine Grundfläche G und eine in ihr enthaltene Teilfläche T. Nehmen wir weiter an, man werfe z.B. mit Dartpfeilen "zufällig" (mit verbundenen Augen) auf diese Fläche. Die Wahrscheinlichkeit, dass der Pfeil in der Teilfläche landet, ist das Verhältnis der Teilfläche T zur Grundfläche G. Sei jetzt die Grundfläche ein Quadrat mit Seitenlänge a und die Teilfläche ein in dieses Quadrat eingeschriebener Kreis.
Die Wahrscheinlichkeit, den Kreis zu treffen, ist damit das Verhältnis der Kreisfläche zur Fläche des Quadrats, also:
P
Kreisfläche Fläche des Quadrats
§a· ¨ ¸ ©2¹ a
2
2
ʌ
ʌ 4
| 0, 785
Der hier eingeschlagene Weg entspricht Poppers Propensity-Theorie, da auf Grund der geometrischen Eigenschaften bestimmter geometrisch regelmäßiger Formen die Wahrscheinlichkeit des Ereignisses a priori berechnet werden kann. Wenn der Dartwurf wirklich zufällig ist, dann kann diese Wahrscheinlichkeit also schon bestimmt werden, bevor überhaupt ein einziger Wurf ausgeführt worden ist. Nehmen wir jetzt dagegen an, die Teilfläche sei ein vollkommen irreguläres Gebilde.
Da wir in diesem Fall über keine Formeln zur Berechnung der Teilfläche verfügen, sind wir auf eine Ermittlung der Wahrscheinlichkeit auf empirischem Weg angewiesen. Nach 1000 Dartwürfen sei die relative Häufigkeit, mit der wir die Teilfläche getroffen haben,
203
204
Kapitel 15 Grundbegriffe der Wahrscheinlichkeitstheorie
0,311. Da wir aus der relativen Häufigkeit die Wahrscheinlichkeit ableiten und diese wiederum laut Definition dem Verhältnis der Flächen entspricht, haben wir so überdies eine Möglichkeit gefunden, den Flächeninhalt unregelmäßig geformter Flächen zu bestimmen, im Fall des Beispiels also 0,311a². Es wäre aber offensichtlich ein unsinniger Aufwand gewesen, auch im ersten Fall der eingeschriebenen Kreisfläche auf die empirische Methode zurückzugreifen.
Ende Beispiel
Da je nach Kontext unterschiedliche Wahrscheinlichkeitsvorstellungen angemessen scheinen, wollen wir uns hier für einen pluralistischen Wahrscheinlichkeitsbegriff (Gillies 2000) entscheiden. Die unterschiedlichen Auffassungen des Wahrscheinlichkeitsbegriffs entsprechen verschiedenen Konzeptionen der Philosophie der Wahrscheinlichkeit. Davon unberührt bleibt allerdings die mathematische Theorie der Wahrscheinlichkeit.
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
205
16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie Ereignisse können auch als Mengen dargestellt werden, deren Elemente Elemen- Wahrscheinlichkeit und Ereignismengen tarereignisse sind (vgl. Kapitel 5). Wenn wir die Menge der Elementarereignisse, den Ereignisraum, mit : bezeichnen, dann ist die Menge aller Ereignisse die so genannte Potenzmenge von :, d.h. die Menge aller Teilmengen aus :. Diese Menge aller Ereignisse wollen wir ME nennen. Zwei besondere Teilmengen von :, die somit Elemente von ME sind, sind : selbst und die leere Menge oder{ }. Da : jedes Elementarereignis enthält und eines dieser Ereignisse ja auf jeden Fall auftreten muss, wird : das sichere Ereignis genannt. Da das Ereignis hingegen kein einziges Elementarereignis enthält, ist sein Auftreten unmöglich, es wird daher das unmögliche Ereignis genannt. Wenn zwei Ereignisse A und B Elemente von ME sind, dann sind auch ihre Schnittmenge, ihre Vereinigungsmenge und ihre Differenz ein Element von ME. Außerdem ist das komplementäre Ereignis von A ebenfalls ein Element von ME. Das komplementäre Ereignis von A ist die Menge all derjenigen Elementarereignisse, die kein Element von A sind. Zum Beispiel ist beim einmaligen Werfen eines Würfels das Ereignis 'Gerade Zahl' die Menge {'Augenzahl 2', 'Augenzahl 4', 'Augenzahl 6'} oder einfacher {2, 4, 6}. Das komplementäre Ereignis hierzu 'Nicht-Gerade Zahl' ist demnach die Menge aus den drei verbliebenen Elementarereignissen {1, 3, 5}, also die Menge der ungeraden Zahlen.
16.1 Die Axiome der Wahrscheinlichkeitstheorie Basierend auf der Annahme, dass Ereignisse, die mit bestimmten Wahrscheinlichkeiten auftreten, sich mit Hilfe der Mengentheorie darstellen lassen, wurde von Andrej Kolmogoroff 1933 die erste axiomatische Begründung der Wahrscheinlichkeitstheorie geleistet. Ein axiomatisches System ist die möglichst sparsame Grundlegung einer Theorie. Die Axiome selbst sind nicht mehr hinterfragbar, sondern entweder einfach sinnvolle und fruchtbare Definitionen oder selbstevidente Einsichten. Aus den Axiomen lassen sich dann Theoreme ableiten.
206
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
Kasten 16.1: Die Axiome der Wahrscheinlichkeitstheorie nach Kolmogoroff 1. Sei A ein beliebiges Ereignis, d.h. A ist ein Element von ME (A ME). Dann gibt es eine Zuordnungsfunktion P, die wir die Wahrscheinlichkeit von A nennen, so dass gilt: P(A) t 0 2. P(:) = 1 3. Seien A und B zwei disjunkte Ereignisse, d.h. es gibt keine Elementarereignisse, die in beiden Mengen enthalten sind, also AB = . Beide Ereignisse schließen sich aus, es kann nicht sein, dass als Ergebnis eines Zufallsexperiments sowohl A als auch B eintritt. Dann gilt:
P(AB) = P(A) + P(B) Kolmogoroff führte die Axiomatisierung analog zu der damals ebenfalls neu begründeten Messtheorie durch. Wahrscheinlichkeiten werden also als etwas "Gemessenes" interpretiert, wobei der "Messwert" sich seinerseits durch mengentheoretische Operationen ermitteln lässt. Das heißt, die Wahrscheinlichkeit ist eine Funktion, die einer Menge, deren Elemente sich aus dem Ereignisraum : rekrutieren, eine Zahl zuordnet. Die Axiome 1 und 2 besagen nun nichts anderes, als dass diese Zahl zwischen 0 und 1 liegen muss. Die Axiome 1 und 2 legen somit lediglich die Normierung des Wahrscheinlichkeitsbegriffs fest, sichere Ereignisse bekommen die Wahrscheinlichkeit 1 zugewiesen, unmögliche Ereignisse die Wahrscheinlichkeit 0, die Wahrscheinlichkeit aller anderen Ereignisse muss dazwischen liegen. Da Festlegungen beliebig sind, verbleibt damit Axiom 3 als das einzige, dessen inhaltliche Aussage man aufgrund seiner Intuition – oder aus welchen Gründen auch immer – zu akzeptieren bereit sein muss. Wie faszinierend sparsam und genial dieses Axiomensystem von Kolmogoroff tatsächlich ist, kann man daran erkennen, dass sich aus diesen drei einfachen Sätzen alle wesentlichen Rechenregeln für Wahrscheinlichkeiten ableiten lassen.
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
207
Theorem 16.1: Die Wahrscheinlichkeit eines Komplementärereignisses P(A) 1 P(A) Beweis: Da A und sein komplementäres Ereignis A qua definitionem disjunkte Ereignisse sind, gilt nach Axiom 3: P(A A ) = P(A) + P( A ) A A ist aber identisch mit dem sicheren Ereignis :. Also gilt: P(:) = P(A) + P( A ) Nach Axiom 2 ist P(:) gleich 1. 1 = P(A) + P( A ) P(A) 1 P(A)
q.e.d.
Theorem 16.2: Keine Wahrscheinlichkeit kann größer als 1 sein P(A) d 1
Beweis: Nach Theorem 1 gilt P(A) = 1 – P( A ). Da nach Axiom 1 gilt, dass P( A ) t 0, muss Theorem 2 erfüllt sein. Theorem 6.2 folgt unmittelbar aus den Axiomen 1 und 2, so dass wir es eben schon bei der Interpretation dieser beiden Axiome stillschweigend vorausgesetzt haben. Der Vollständigkeit halber sei es hier dennoch aufgeführt. Der größte Vorzug eines Axiomensystems ist seine Sparsamkeit. Dies ist wohl der Grund, dass Kolmogoroff das Theorem 6.2 nicht in die Menge der Axiome mit aufgenommen hat. In vielen Lehrbüchern ist Axiom 1 allerdings so formuliert, dass das Theorem 6.2 eingeschlossen ist, also 0 d P(A) d 1.
16.2 Allgemeines Additionstheorem Die wichtigsten Theoreme, die sich aus den Axiomen ableiten lassen, sind dieje- Rechenregeln für Wahrscheinlichkeiten nigen, die den allgemeinen Rechenregeln im Umgang mit Wahrscheinlichkeiten entsprechen. Axiom 3 gibt an, wie sich die Wahrscheinlichkeit eines komplexen Ereignisses, das sich aus sich gegenseitig ausschließenden Teilereignissen zusammensetzt, aus den Wahrscheinlichkeiten der Teilereignisse berechnen lässt. Die Wahrscheinlichkeit, beim Würfeln eine '1' oder eine '2' zu werfen, ist gleich
208
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
der Summe aus den Einzelwahrscheinlichkeiten, also 1/6+1/6, da es nicht möglich ist, gleichzeitig eine '1' und eine '2' zu werfen. Was passiert aber, wenn sich die Ereignisse A und B auf die Durchführung verschiedener Zufallsexperimente beziehen? Nehmen wir an, man wirft einen Würfel und eine Münze. Wie groß ist dann die Wahrscheinlichkeit, eine '1' beim Würfelwurf oder (auch) 'Kopf' beim Münzwurf zu erhalten? Mit der Berechnung solcher Wahrscheinlichkeiten beschäftigt sich das allgemeine Additionstheorem. Theorem 16.3: Allgemeines Additionstheorem P(AB) = P(A) + P(B) – P(AB) Beweis: Die Vereinigungsmenge von A und B lässt sich aus den drei disjunkten Mengen A|B ("B unter der Bedingung A", vgl. Abschnitt 16.3), B|A ("A unter der Bedingung B")und AB ("A geschnitten B")zusammensetzen. Also gilt nach Axiom 3: L1: P(AB) = P(A|B) + P(B|A) + P(AB) Außerdem gilt:
L2: P(A) = P(A|B) + P(AB) L2': P(A|B) = P(A) – P(AB) L3: P(B) = P(B|A) + P(AB) L3': P(B|A) = P(B) – P(AB) (durch Einsetzen von L2' und L3' in L1) P(AB) = P(A) – P(AB) + P(B) – P(AB) + P(AB) P(AB) = P(A) + P(B) – P(AB)
q.e.d.
Der allgemeine Additionssatz lässt sich aus dem speziellen Additionssatz (Axiom 3) ableiten, indem man die Vereinigungsmenge in disjunkte Mengen zerlegt und die entsprechenden Wahrscheinlichkeiten addiert. Eine alternative Vorgehensweise bestände darin, zuerst die Wahrscheinlichkeiten der beiden Ereignisse aufzuaddieren, ungeachtet der Überschneidungen, und dann die Wahrscheinlichkeit der Schnittmenge von A und B zu subtrahieren, da diese bei der einfachen Addition doppelt gezählt worden ist. Das Ergebnis ist natürlich immer dasselbe und besagt, dass die Wahrscheinlichkeit des Ereignisses 'A oder B', das durch die Vereini-
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
209
gungsmenge von A und B dargestellt werden kann, gleich der Summe der Wahrscheinlichkeiten der Ereignisse A und B ist, minus der Wahrscheinlichkeit des gleichzeitigen Eintretens von A und B, das durch die Schnittmenge von A und B dargestellt wird.
16.3 Bedingte Wahrscheinlichkeit Im allgemeinen Additionstheorem kommt die Wahrscheinlichkeit eines Ereignisses vor, das durch die Schnittmenge zweier Ereignisse charakterisiert ist. Die Schnittmenge aus A und B, dargestellt als AB, enthält alle Elemente, die sowohl in A als auch in B enthalten sind. Wenn die Mengen Ereignisse darstellen, so enthält die Schnittmenge diejenigen Elementarereignisse, die in beiden Mengen vorkommen, also diejenigen Elementarereignisse, die sowohl im Sinne des Auftretens des einen Ereignisses als auch im Sinne des Auftretens des anderen Ereignisses gedeutet werden können. Das Würfeln der Zahl 6 kann z.B. sowohl auf das Eintreten des Ereignisses 'Gerade Zahl' {2, 4, 6} hinweisen als auch auf das Eintreten des Ereignisses 'Keine Primzahl' {1, 6} oder auch auf das Ereignis 'Größer als 3' {4, 5, 6}. Die '6' ist daher in jeder Schnittmenge enthalten, die aus diesen Mengen gebildet wird. Betrachten wir einmal die Schnittmenge von 'Gerade Zahl' und 'Größer als 3'. Sie enthält die zwei Elemente '4' und '6'. Die Wahrscheinlichkeit, eine Zahl zu würfeln, die sowohl gerade als auch größer als 3 ist, beträgt demnach 2/6 = 1/3. Die Wahrscheinlichkeiten für 'Gerade Zahl' und 'Größer als 3' sind jeweils 1/2. Wie lässt sich nun die Wahrscheinlichkeit des gleichzeitigen Eintreffens zweier Ereignisse, im Beispiel 1/3, aus den Wahrscheinlichkeiten der einzelnen Ereignisse berechnen, die im Beispiel beide 1/2 sind? Offensichtlich jedenfalls nicht unmittelbar durch eine der elementaren algebraischen Funktionen, denn 1/3 ist weder die Summe aus 1/2 und 1/2 noch das Produkt aus beiden. Stellen wir uns nun vor, dass zwei Ereignisse, die "gemeinsam" auftreten, niemals exakt gleichzeitig auftreten, sondern sich immer eines vor dem anderen ereignen muss, wenn auch in einem noch so geringen zeitlichen Abstand. Dieses nichtgleichzeitige Auftreten zweier Ereignisse darf selbst dann angenommen werden, wenn es uns vielleicht gar nicht möglich ist zu entscheiden, welches Ereignis sich zuerst ereignet hat. Nehmen wir von zwei Ereignissen A und B, die sich gemeinsam ereignen, an, dass A vor B passiert. Die bedingte Wahrscheinlichkeit von B unter A, dargestellt als P(BŇA), ist dann die Wahrscheinlichkeit von B, wenn A sich schon ereignet hat. In der mengentheoretischen Darstellung der Wahrscheinlichkeitstheorie bedeutet P(BŇA) nichts anderes, als dass A die "neue" Grundmenge, d.h. den "neuen" Ereignisraum bildet, auf den bezogen die Wahrscheinlichkeit von B ausgedrückt wird. Wir können es uns auch so vorstellen, dass "unter der Bedingung von A" bedeutet, dass alle Ergebnisse eines Zufallsexperiments, die nicht-A sind, überhaupt nicht "gewertet" werden, d.h. einfach ignoriert werden. Die Wahrscheinlichkeit P('Gerade Zahl'Ň'Größer als 3') ist also die Wahrscheinlichkeit einer geraden Zahl, wenn nur die Würfe, die eine Zahl größer als 3 ergeben, überhaupt berücksichtigt werden. Der "neue" oder "reduzierte" Ereignisraum ist 'Größer als 3', also {4, 5, 6}, und zwei von diesen drei gleichwahrschein-
Wahrscheinlichkeit, dass B passiert unter der Bedingung, dass A schon passiert ist
210
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
lichen Elementarereignissen sind gerade Zahlen. Also ist die bedingte Wahrscheinlichkeit P('Gerade Zahl'Ň'Größer als 3') gleich 2/3. Allgemein gilt: Definition 6.1: Bedingte Wahrscheinlichkeit P(A B ) Schnittmenge im VennDiagramm
P(A B) P(B)
Der Zusammenhang lässt sich gut mit einem Venn-Diagramm illustrieren. Wenn wir uns der Einfachheit halber vorstellen, dass in einem Venn-Diagramm alle Elementarereignisse über die Grundgesamtheit, d.h. über die diese repräsentierende Rechtecksfläche "gleich verteilt" sind, dann können wir in einem Venn-Diagramm die Wahrscheinlichkeit eines Ereignisses als den Anteil einer Teilfläche an einer Gesamtfläche bezeichnen. Die bedingte Wahrscheinlichkeit P(A B) ist dann der
Anteil der Fläche, den die Fälle einnehmen, die sowohl B als auch A sind, an der Fläche, den die Fälle einnehmen, die B sind.
Mit Hilfe der Definition der bedingten Wahrscheinlichkeit lässt sich durch eine einfache Umformung die Berechnungsformel für die Wahrscheinlichkeit für das gleichzeitige Auftreten zweier Ereignisse angeben.
16.4 Multiplikationstheorem für die Wahrscheinlichkeit des gemeinsamen Auftretens zweier Ereignisse Theorem 16.4: Multiplikationstheorem für die Wahrscheinlichkeit des gemeinsamen Auftretens zweier Ereignisse
P(A B)
P(A B) P(B)
Die Wahrscheinlichkeit des gemeinsamen Auftretens der beiden Ereignisse 'Gerade Zahl' und 'Größer als 3' errechnet sich damit als das Produkt der bedingten Wahrscheinlichkeit P('Gerade Zahl'Ň'Größer als 3') multipliziert mit der Wahr-
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
211
scheinlichkeit P('Größer als 3'), also 2/3 multipliziert mit 1/2. Das Ergebnis ist dann 1/3, wie wir ja schon aus der direkten Ermittlung der Wahrscheinlichkeit des gemeinsamen Auftretens der beiden Ereignisse gesehen haben. Generell gilt, dass die Wahrscheinlichkeit des gemeinsamen Auftretens zweier Ereignisse durch Multiplikation von Wahrscheinlichkeiten berechnet werden kann, während die Wahrscheinlichkeit des Auftretens mindestens eines von zweien Ereignissen durch Addition von Wahrscheinlichkeiten berechnet wird.
16.5 Satz der totalen Wahrscheinlichkeit Oft wissen wir, dass ein bestimmtes Ereignis unter verschiedenen Umständen bzw. Bedingungen zu Stande kommen kann und dass die Wahrscheinlichkeit des Eintretens des Ereignisses davon abhängt, welche Bedingung vorliegt. Nehmen wir an, das Ereignis B könne unter verschiedenen Bedingungen Ai eintreten, die sich gegenseitig ausschließen und die B vollkommen ausschöpfen, so dass immer eine der Bedingungen Ai auch vorliegt, wenn B eintritt. Wenn aber die verschiedenen Bedingungen Ai sich gegenseitig ausschließen, dann schließen sich auch die verschiedenen Schnittmengen BAi gegenseitig aus, da das Ereignis B nicht gleichzeitig mit zwei verschiedenen Bedingungen Ai vorliegen kann. Wenn sich das Ereignis B aus diesen verschiedenen Schnittmengen BAi vollständig zusammensetzen lässt, dann lässt sich auch die Wahrscheinlichkeit von B berechnen als die Summe der Wahrscheinlichkeiten, mit denen die jeweiligen Schnittmengen auftreten. Greifen wir noch einmal auf unser Beispiel des gleichzeitigen Werfens eines Würfels und einer Münze zurück. Das Ereignis, eine '6' gewürfelt zu haben, lässt sich dann in die disjunkten Ereignisse zerlegen, dass die '6' entweder zusammen mit 'Kopf' oder zusammen mit 'Zahl' aufgetreten ist. Die Wahrscheinlichkeit des Ereignisses P('6') ist demnach die Summe aus den Wahrscheinlichkeiten der disjunkten Ereignisse P('6''Kopf')+P('6''Zahl'). Wenn wir jetzt noch die Wahrscheinlichkeiten der Schnittmengen nach der Formel des Multiplikationstheorems berechnen, erhalten wir den Satz der totalen Wahrscheinlichkeit, dessen allgemeine Form so aussieht:
Berechnung der Gesamtwahrscheinlichkeit als Summe disjunkter Teilwahrscheinlichkeiten
212
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
Theorem 16.5: Satz der totalen Wahrscheinlichkeit
Gegeben sei eine Menge von k disjunkten Ereignissen Ai, so dass B eine Teilk
menge der Vereinigungsmenge aller Ai ist: B * A i . D.h., wenn das Ereignis i 1
B eintritt, ist immer ebenfalls ein Ereignis Ai gegeben. P(B)
k
¦ P(B A ) P(A ) i
i
i 1
Beweis: Da die verschiedenen Ai disjunkt sind, gilt: k
B
(B A1 ) (B A 2 ) ....(B A k )
* (B A ) i
i 1
P(B) P(B A1 ) P(B A 2 ) ...P(B A k )
k
¦ P(B A ) i
i 1
P(B) P(B A1 ) P(A1 ) P(B A 2 ) P(A 2 ) ...P(B A k ) P(A k )
k
¦ P(B A ) P(A ) i
i
i 1
q.e.d. Ein Spezialfall des Satzes der totalen Wahrscheinlichkeit ist dann gegeben, wenn die Ai nur aus A und A bestehen. In diesem einfachen Fall gilt: P(B)
P(B A) P(A) P(B A) P(A)
16.6 Statistische Unabhängigkeit Relevanz der Variation von Hintergrundbedingungen
Die Kenntnis bedingter Wahrscheinlichkeiten ist immer dann informativ, wenn sich die Auftretenswahrscheinlichkeit eines bestimmten Ereignisses in Abhängigkeit von bestimmten Hintergrundbedingungen verändert. Betrachten wir z.B. die "Wahrscheinlichkeit", mit der ein beliebiger Bundesbürger an den Bundestagswahlen teilnimmt. Für die Gesamtheit entspricht diese Wahrscheinlichkeit der Wahlbeteiligung. Nehmen wir nun an, dass die Bereitschaft zur Wahl zu gehen zunimmt, wenn man sehr viele Wahlspots im Fernsehen sieht. Die bedingte Teilnahmewahrscheinlichkeit eines Bürgers, der viele Spots gesehen hat, unterscheidet sich dann von der bedingten Teilnahmewahrscheinlichkeit eines Bürgers, der überhaupt keinen Spot gesehen hat. Ist eine Variation der Hintergrundbedingungen jedoch vollkommen irrelevant für die Auftretenswahrscheinlichkeit eines bestimmten Ereignisses, so nennen wir dieses statistisch unabhängig von diesen Hintergrundbedingungen. Es gibt also in diesem Fall keinen Zusammenhang zwischen dem Auftreten des Ereignisses und dem Vorliegen der Hintergrundbedingung.
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
213
Definition 16.2: Statistische Unabhängigkeit
Zwei Ereignisse A und B sind statistisch unabhängig voneinander, wenn die Auftretenswahrscheinlichkeit des einen Ereignisses unabhängig davon ist, ob das andere Ereignis vorliegt oder nicht. A und B sind statistisch unabhängig P(B A) P(B A) Wenn B statistisch unabhängig von A ist, dann sind nicht nur die bedingten Wahrscheinlichkeiten P(B | A) und P(B | A) gleich, sondern diese sind auch gleich P(B). Beweis: Nach dem Satz der totalen Wahrscheinlichkeit gilt: P(B) P(B A) P(A) P(B A) P(A)
Wenn B von A unabhängig ist, gilt außerdem: P(B A) P(B A) P(B) P(B A) P(A) P(B A) P(A) P(B A) P(A A) P(B A) q.e.d
In empirischen Untersuchungen geht es häufig darum, festzustellen, ob zwei Er- Beispiel für unabhängige Ereignisse: eignisse voneinander statistisch unabhängig sind, d.h. ob sich die Auftretenswahr- Roulettezahlen scheinlichkeit des einen Ereignisses ändert in Abhängigkeit vom Auftreten des anderen Ereignisses. In diesem Fall würden wir also vom Vergleich der bedingten Wahrscheinlichkeiten P(BŇA) und P(BŇ A ) darauf schließen, ob sich das Vorliegen von A auf das Eintreten von B ausgewirkt hat. In anderen Umständen jedoch gehen wir aus logischen Gründen davon aus, dass zwei Ereignisse statistisch voneinander unabhängig sind und schließen davon auf die Gleichheit der entsprechenden bedingten Wahrscheinlichkeiten. Zum Beispiel gehen wir bei der Durchführung eines Zufallsexperiments normalerweise davon aus, dass sich die Wahrscheinlichkeiten bestimmter Ergebnisse nicht verändern durch die Ergebnisse, die die früheren Durchführungen des Experiments erbracht haben. Die Wahrscheinlichkeit, dass beim Roulette beim nächsten Mal eine schwarze Zahl kommt, beträgt immer 18/37, unabhängig davon, welche Farben davor aufgetreten sind. (Solange es sich um ein "faires Roulette" handelt.) Das Rouletterad hat kein Gedächtnis und kann deshalb auch eine Häufung von roten Zahlen bei den letzten Würfen nicht dadurch "kompensieren", dass es jetzt häufiger eine schwarze Zahl hervorbringt. Bei reinen Zufallsexperimenten ist die Wahrscheinlichkeit, mit der ein bestimmtes Ergebnis eintritt, ausschließlich durch das Design des Experiments bedingt und in keinster Weise durch die Geschichte früherer Versuche beeinflusst.
214
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
16.7 Multiplikationstheorem für die Wahrscheinlichkeit des gemeinsamen Auftretens zweier statistisch unabhängiger Ereignisse Wie eben ausgeführt, sind die Ergebnisse mehrerer Durchführungen eines Zufallsexperiments unabhängig voneinander. Die Wahrscheinlichkeit des gemeinsamen Auftretens zweier unabhängiger Ereignisse kann nun durch eine besonders einfache spezielle Form des Multiplikationstheorems berechnet werden. Theorem 16.6: Multiplikationstheorem für die Wahrscheinlichkeit des gemeinsamen Auftretens zweier statistisch unabhängiger Ereignisse Wenn A und B zwei statistisch unabhängige Ereignisse sind, gilt : P(A B) P(A) P(B) Beweis : Nach dem allgemeinen Multiplikationstheorem gilt : P(A B)
P(A B) P(B)
Da die Ereignisse statistisch unabhängig sind, gilt : P(A B) P(A B)
P(A) P(B)
P(A)
q.e.d.
Die Wahrscheinlichkeit, dass beim zweimaligen Werfen eines Würfels zuerst eine '1' und dann eine '6' auftritt, ist nach obiger Formel gleich 1/6*1/6, also 1/36. Aber Vorsicht: Die Wahrscheinlichkeit, dass beim gleichzeitigen Werfen von zwei Würfeln die Kombination aus '1' und '6' auftritt, ist gleich 2/36, da diese Kombination auf zwei verschiedene Weisen auftreten kann. Stellen wir uns vor, die Würfel hätten zwei verschiedene Farben, blau und rot. Im einen Fall kommt die Kombination dadurch zustande, dass '1' beim roten Würfel und '6' beim blauen Würfel fällt, im anderen Fall dadurch, dass '6' beim roten Würfel und '1' beim blauen Würfel fällt.
16.8 Das Theorem von Bayes Bei der Herleitung des Multiplikationstheorems haben wir uns der Einfachheit halber vorgestellt, die beiden Ereignisse liefen nacheinander ab. Im Begriff "gemeinsames Auftreten" ist jedoch kein Hinweis auf eine bestimmte zeitliche Abfolge der beiden betrachteten Ereignisse enthalten. Tatsächlich handelte es sich bei der Annahme der zeitlichen Abfolge um einen Kunstgriff aus didaktischen Gründen. Da die Reihenfolge des Ablaufs der Ereignisse also beliebig ist, hätten wir statt P(A B) P(A B) P(B) genauso gut P(A B) P(B A) P(A) schreiben können. Aus diesem Zusammenhang lässt sich eines der wichtigsten Theoreme der Wahrscheinlichkeitstheorie überhaupt ableiten, nämlich das so genannte Bayes’sche Theorem.
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
Theorem 16.7: Das Theorem von Bayes
Gegeben sei eine Menge von k disjunkten Ereignissen Ai, so dass B eine Teilk
menge der Vereinigungsmenge aller Ai ist: B * A i . Dann gilt: i 1
P(A j B)
P(B A j ) * P(A j ) k
¦ P(B A ) P(A ) i
i
i 1
Beweis: Nach der Definition einer bedingten Wahrscheinlichkeit gilt: P(A j B)
P(A j B) P(B)
Nach dem Multiplikationssatz gilt:
P(A j B)
P(A j B)
P(B A j ) P(A j )
P(B)
P(B)
Nach dem Satz der totalen Wahrscheinlichkeit gilt:
P(A j B)
P(A j B)
P(B A j ) P(A j )
P(B)
P(B)
P(B A j ) P(A j ) k
q.e.d.
¦ P(B A ) P(A ) i
i
i 1
Die fundamentale Bedeutung des Theorems von Bayes liegt darin begründet, dass Berechnung inverser Wahrscheinlichkeiten mit ihm so genannte inverse Wahrscheinlichkeiten ermittelt werden können. Normalerweise können wir, wenn wir die zu Grunde liegenden Bedingungen kennen, z.B. die Wahrscheinlichkeiten, mit denen bestimmte Ereignisse auftreten, Erwartungen darüber entwickeln, welche Beobachtungen wir vermutlich machen werden. Wissen wir etwa – aus welchen Gründen auch immer – von einem Würfel, dass jede Seite mit der gleichen Wahrscheinlichkeit auftritt, so können wir die berechtigte Vermutung äußern, dass in einer sehr langen Serie von Würfen eine bestimmte Seite ungefähr in einem Sechstel der Fälle auftreten wird. Wüssten wir hingegen, dass der Würfel so manipuliert ist, dass die Wahrscheinlichkeit einer '6' 1/2 ist und die Wahrscheinlichkeit aller übrigen Zahlen 1/10, dann würden wir in einer großen Serie von Würfen die '6' ungefähr bei der Hälfte aller Würfe als Ergebnis erwarten. Nehmen wir nun an, dass wir eine Reihe von Würfen mit einem Würfel durchführen, von dem wir nicht wissen, ob er ein fairer Würfel oder ein manipulierter ist. Wir haben in diesem Fall nur unsere Beobachtungen zur Verfügungen und müssen mit ihrer Hilfe auf die zu Grunde liegenden Bedingungen schließen (d.h. im Beispiel auf die Art des Würfels) die diese Beobachtungen erzeugt haben könnten. Wenn in einer langen Reihe von Würfen die '6' in einem
215
216
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
Sechstel der Fälle auftritt, dann würden wir dementsprechend vermuten, dass es sich hierbei um einen fairen Würfel handelt, würde die '6' hingegen in ungefähr der Hälfte aller Fälle auftreten, so würden wir darauf schließen, dass der Würfel manipuliert worden ist. Allgemein gesagt: Wenn wir gewisse "Wirkungen" beobachten und verschiedene "Ursachenzusammenhänge" kennen, unter denen diese Wirkungen auftreten können, sowie die Wahrscheinlichkeiten, mit denen diese Wirkungen bei den jeweiligen Ursachenzusammenhängen auftreten, dann können wir auf Grund der beobachteten Wirkungen auf die Wahrscheinlichkeiten der verschiedenen Ursachenzusammenhänge schließen, die diese Wirkungen hervorgebracht haben könnten. Wegen der grundlegenden Bedeutung des Theorems von Bayes wollen wir es uns anhand einiger Beispiele noch klarer vor Augen führen. Beispiel: Zeitmaschine Ein begeisterter Fan von H.G. Wells findet in dessen Nachlass die Pläne für eine Zeitmaschine. Er baut sie nach und stellt fest, dass sie tatsächlich funktioniert. Auf Grund eines kleinen handwerklichen Missgeschicks ist allerdings der Chronometer unzuverlässig, so dass nach einem ersten Versuch für unseren Zeitreisenden nicht klar ist, ob er in den 70ern oder in den 90ern des vorigen Jahrhunderts gelandet ist. Die Wahrscheinlichkeit, mit der er von der Zeitmaschine in eine der beiden Epochen geschickt worden ist, ist jeweils 1/2. Allerdings hat sich unser Zeitreisender zuvor gut über die vergangenen historischen Epochen informiert, wenn auch nur unter dem sehr eingeschränkten Blickwinkel der jeweils vorherrschenden Mode. Von dem jeweiligen Stil der Architektur, der Technik etc. hat der Zeitreisende keine Erfahrung, aber er weiß genau, wer was wann getragen hat. Der erste Mann, der ihm begegnet, ist relativ jung und trägt Schlaghosen. Der Zeitreisende weiß, dass in den 70ern ca. 40 Prozent aller jungen Männer Schlaghosen getragen haben, in den 90ern jedoch nur 10 Prozent. Mit welcher Wahrscheinlichkeit befindet sich der Zeitreisende in welchem Jahrzehnt? Gesucht: Bekannt:
P('90er'Ň'Mann mit Schlaghosen') bzw. P('70er'Ň'Mann mit Schlaghosen') P('Schlaghosen'Ň'70er') = 0,4 P('Schlaghosen'Ň'90er') = 0,1 P('70er') = 0,5 P('90er') = 0,5
Nach dem Satz von Bayes gilt: P('90er' ' Schlaghosen')
P(' Schlaghosen' '90er') * P('90er' ) P(' Schlaghosen' '90er') * P('90er' ) P(' Schlaghosen' '70er') * P('70er' ) 0,1 0,5
1
0,1 0,5 0,4 0,5
5
0,2
Der Mann befindet sich also mit der Wahrscheinlichkeit von 1/5 in den 90ern und einer Wahrscheinlichkeit von 4/5 in den 70ern. Ohne seine Beobachtung des Manns mit den Schlaghosen hätte er nur auf Grund der Struktur der technischen Panne schätzen können, sich in einer der beiden Epochen mit der Wahrscheinlichkeit von 1/2 zu befinden. Diese vorab der Beobachtung bzw. Erfahrung erschlossenen Wahrscheinlichkeiten werden daher auch häufig a priori genannt, die auf Grund der gemachten Beobachtung "neu angepassten" Wahrscheinlichkeiten werden dementsprechend als a posteriori bezeichnet. Die-
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
se auf Grund von Beobachtungen vorgenommene Abänderung von Erwartungen bzw. Wahrscheinlichkeiten wird auch als Bayes'sches Updating bezeichnet.
Ende Beispiel
Beispiel: Medizinische Tests Für eine bestimmte Krankheit existiert ein bestimmter Test. Für alle Personen, die diese Krankheit haben, ist das Testergebnis positiv. Allerdings gibt es auch in 1/1000 der Fälle ein positives Ergebnis, wenn die untersuchte Person die Krankheit gar nicht hat. Die Krankheit ist relativ selten, nur jeder hunderttausendste ist von ihr befallen. Wie groß ist die Wahrscheinlichkeit, dass jemand mit einem positiven Testergebnis tatsächlich die Krankheit hat? Gesucht:
P('Krankheit' Ň 'Positiv')
Bekannt:
P('Positiv' Ň 'Krankheit') = 1 P('Positiv' Ň 'Nicht-Krankheit') = 0,001 P('Krankheit') = 0,00001 P('Nicht-Krankheit') = 0,99999
Nach dem Satz von Bayes gilt: P('Krankheit' 'Positiv' ) P('Positiv' 'Krankheit ')*P('Krankheit') P('Positiv' 'Krankheit ')*P('Krankheit') P('Positiv' 'Nicht-Krankheit ')*P('Nicht-Krankheit') 1 0,00001 1 0,00001 0,001 0,99999
0,0099
Obwohl der Test sehr gut diskriminiert, d.h. Kranke immer richtig als solche erkennt und nur sehr selten einen Gesunden als krank einstuft, bedeutet ein positives Testergebnis noch lange nicht, dass man die Krankheit hat, da die a priori Wahrscheinlichkeit dafür, krank zu sein, so gering ist.
Ende Beispiel
Eine weit verbreitete und sehr allgemeine Darstellung des Bayes'schen Theorems Urnenmodell verwendet ein so genanntes Urnenmodell. Es seien verschiedene Urnen A, B, C usw. mit einer bestimmten Wahrscheinlichkeit gegeben. Die Urnen enthalten Kugeln mit bestimmten Farben. Zum Beispiel enthält eine Urne des Typs A zu 60 % rote Kugeln, eine des Typs B zu 40 % und im Typ C kommen sie überhaupt nicht vor. Zieht man aus einer beliebig ausgewählten Urne, deren Typ man nicht kennt, eine rote Kugel, lässt sich mit Hilfe des Bayes'schen Theorems bestimmen, mit welcher Wahrscheinlichkeit es sich um eine Urne des Typs A, B oder C handelt. Da mit dem Bayes'schen Theorem aus Beobachtungen auf die Wahrscheinlichkeit zu Grunde liegender Ursachen geschlossen werden kann, wird die entsprechende Formel auch als Formel über die Wahrscheinlichkeit von Hypothesen (Gnedenko 1997: 60) bezeichnet. Allerdings gilt dies allgemein nur, wenn den konkurrierenden Hypothesen eine a priori Wahrscheinlichkeit zugeordnet werden kann. Eine Ausnahme davon bildet der Spezialfall, wenn die bedingte Wahrscheinlichkeit einer bestimmten Beobachtung unter einer bestimmten Hypothese gleich Null ist. Wenn wir diese Beobachtung dennoch machen, dann können wir mit Hilfe des
217
218
Kapitel 16 Axiome und grundlegende Theoreme der Wahrscheinlichkeitstheorie
Modus Tollens diese Hypothese mit hundertprozentiger Sicherheit zurückweisen, ohne etwas über die a priori Wahrscheinlichkeit der Hypothesen zu wissen.
Kapitel 17 Kombinatorik
219
17 Kombinatorik Bisher haben wir Elementarereignisse betrachtet, die sich aus der einmaligen Wahrscheinlichkeiten wiederholter ZufallsDurchführung eines Zufallsexperiments ergeben haben. Doch häufig ist dies nicht experimente eindeutig. Was ist z.B. das Elementarereignis beim zweimaligen Werfen einer Münze oder eines Würfels? Die eine Möglichkeit, diesen Vorgang zu beschreiben, bestände darin, diesen als die zweifache Ausführung eines Zufallsexperiments zu betrachten. Das Ereignis 'Doppel-Sechs' beim zweifachen Wurf mit Würfeln entspräche dann der Schnittmenge aus zwei unabhängigen Ereignissen, nämlich 'Sechs im ersten Wurf' und 'Sechs im zweiten Wurf', und die Wahrscheinlichkeit wäre demnach das Produkt aus den Wahrscheinlichkeiten der beiden einzelnen Ereignisse, also 1/6*1/6 = 1/36. Genauso könnten wir den Ablauf aber auch als die Durchführung eines einzigen Zufallsexperiments verstehen, das eben als das zweimalige Werfen eines Würfels definiert ist. Dies leuchtet ein, wenn wir uns vor Augen führen, dass wir statt des zweimaligen Werfen eines Würfels auch zwei Würfel auf einmal werfen könnten und sich dadurch an den möglichen Ergebnissen nichts ändern würde. Allerdings müssten die Ergebnisse eines Würfelwurfs in beiden Fällen danach unterschieden werden können, bei welchem der beiden Würfel sie auftreten. Beim zweimaligen Werfen eines Würfels ist die Identifikation der Würfel durch die Reihenfolge des Würfelns selbst festgelegt. Beim gleichzeitigen Werfen zweier Würfel könnten wir uns hingegen z.B. vorstellen, dass die beiden Würfel verschiedene Farben haben. Wie auch immer wir die beiden Würfel unterscheiden, es ist zumindest theoretisch immer möglich zu unterscheiden, ob es sich bei einem der beiden Würfel um den "ersten" oder den "zweiten" handelt. Wir können also auch das einmalige Werfen mit zwei Würfeln als ein Zufallsex- Wurf mit zwei Würfeln periment anzusehen. Wenn wir den Vorgang so betrachten, dann gibt es 36 Elementarereignisse, nämlich alle möglichen Kombinationen von Zahlen des einen Würfels mit den Zahlen des anderen Würfels. Ergebnis des Wurfs mit 1. Würfel
1
2
3
4
5
6
1
1,1
1,2
1,3
1,4
1,5
1,6
2
2,1
2,2
2,3
2,4
2,5
2,6
3
3,1
3,2
3,3
3,4
3,5
3,6
4
4,1
4,2
4,3
4,4
4,5
4,6
5
5,1
5,2
5,3
5,4
5,5
5,6
6
6,1
6,2
6,3
6,4
6,5
6,6
Ergebnis des Wurfs mit 2. Würfel
220
Kapitel 17 Kombinatorik
Nur ein einziges dieser "Elementarereignisse" entspricht dem Ereignis 'DoppelSechs' (das grau schraffierte in der rechten unteren Ecke der Tabelle). Also ist die Wahrscheinlichkeit wieder 1/36, da jedes dieser "Elementarereignisse" gleichwahrscheinlich ist und da es sich nach dem Multiplikationstheorem um das gemeinsame Eintreten zweier unabhängiger Ereignisse handelt, die jeweils mit der gleichen Wahrscheinlichkeit 1/6 auftreten. relevante und technische Elementarereignisse
Wie man sieht, bringt es gewisse Vorteile, das zweimalige Werfen des Würfels als ein Elementarereignis anzusehen, da so die Wahrscheinlichkeit von 'DoppelSechs' unmittelbar entsprechend der Laplace'schen Formel bestimmt werden kann und nicht erst mit Hilfe des Multiplikationssatzes errechnet werden muss. Um Verwirrungen zu vermeiden, könnte man von unter einem bestimmten Aspekt relevanten Elementarereignissen sprechen in Abgrenzung von technischen Elementarereignissen. Das technische Elementarereignis ist im Falle des Werfens von Würfeln immer ein einzelner Wurf, der Ereignisraum umfasst die sechs möglichen technischen Elementarereignisse von '1' bis '6'. Die relevanten Elementarereignisse bei einem Zufallsexperiment 'Werfen mit zwei Würfeln' sind äquivalent zu den relevanten Elementarereignissen des Zufallsexperiments 'Zweimaliger Wurf eines Würfels' und bestehen aus den 36 möglichen Kombinationen der Zahlen der beiden Würfel. Diese bilden den Ereignisraum bezüglich der relevanten Elementarereignisse. Es sind viele verschiedene Möglichkeiten vorstellbar, wie neue relevante Elementarereignisse aus den Kombinationen technischer Elementarereignisse entstehen können.
17.1 Permutationen Jedes Zufallsexperiment kann mit einem Urnenmodell dargestellt werden. Das Werfen eines Würfels z.B. kann durch eine Urne substituiert werden, in der sich sechs nummerierte Kugeln befinden. Das Ziehen einer Kugel aus dieser Urne ist dann äquivalent zum Werfen eines Würfels. Darüber hinaus eignet sich das Urnenmodell besonders gut, um eine Vielzahl von Auswahlproblemen zu illustrieren. Wir können statt vom Ziehen von Kugeln aus einer Urne auch ganz allgemein von der Ziehung von Elementen aus einer Menge von Elementen sprechen. Die spezifische Auswahl einer Menge von Elementen aus einer größeren Menge kann dann wie ein unter einem bestimmten Aspekt relevantes Elementarereignis behandelt werden, das durch eine spezifische Kombination mehrerer technischer Elementarereignisse zu Stande kommt. Wir könnten uns beispielsweise fragen, wie groß die Wahrscheinlichkeit ist, eine bestimmte Zahl zu erhalten, wenn wir aus einer Urne mit acht verschiedenen Elementen, die bestimmten Ziffern entsprechen, nacheinander die acht Ziffern ziehen. Dazu müssen wir zuerst bestimmen, wie viele mögliche Reihenfolgen aus acht verschiedenen Elementen überhaupt gebildet werden können.
Kapitel 17 Kombinatorik
221
Definition 17.1: Permutationen
Die Permutation P(n) bezeichnet die Anzahl der Möglichkeiten, n unterscheidbare Elemente in eine Reihenfolge zu bringen. P(n)
n (n - 1) (n - 2) ...3 2 1 n!
Bei drei verschiedenen Elementen gibt es also 3! (sprich: 3 Fakultät) verschiedene Berechnung von Fakultäten Anordnungen dieser Elemente, wie man leicht durch Aufzählen herausfinden kann. Dabei bietet es sich an, die Unterscheidbarkeit der Elemente durch die Zuordnung verschiedener Zahlen auszudrücken, also z.B. durch die Zahlen 1, 2 und 3. Jede beliebige andere eindeutige Kennzeichnung wäre genauso zulässig, z.B. könnte man die Verschiedenheit von drei Elementen auch durch drei verschiedene Buchstaben ausdrücken oder durch drei Farbwörter oder durch drei beliebige Symbole. Wir erhalten folgende mögliche Reihenfolgen aus drei unterscheidbaren Elementen: 1
2
3
1
3
2
2
1
3
2
3
1
3
1
2
3
2
1
Die Formel für die Permutation von n Elementen lässt sich durch einfaches Überlegen nachvollziehen. Als erstes Element in der Reihenfolge können wir eines aus n Elementen auswählen, als zweites Element können wir nur noch eines aus den verbliebenen n-1 Elementen auswählen usw.
17.2 Variationen Die Kombinatorik beschäftigt sich allgemein mit der Auswahl von k Elementen aus n Elementen. Dabei gilt es zweierlei Dinge zu berücksichtigen: Zum einen spielt es eine Rolle, ob die Reihenfolge, in der wir die k Elemente aus der Grundmenge ziehen, von Bedeutung ist oder nicht. Ist die Reihenfolge wichtig, dann sprechen wir von Variationen, ist die Reihenfolge nicht zu beachten, d.h. kommt es nur auf die Elemente an, die wir auswählen, dann sprechen wir von Kombinationen. Zum Zweiten ist es von Bedeutung, ob wir die gezogenen Elemente vor der jeweils nächsten Ziehung eines Elements wieder zurücklegen, so dass die Grundgesamtheit die gleiche bleibt, oder ob wir die gezogenen Elemente aus der Grundgesamtheit entfernen, so dass wir für jede neue Ziehung eine neue Grundgesamtheit haben. Man spricht auch von einer Auswahl mit oder ohne Wiederholung, da
Logische Fälle der Kombinatorik: mit oder ohne Reihenfolge; mit oder ohne Zurücklegen
222
Kapitel 17 Kombinatorik
je nachdem, ob die gezogenen Elemente zurückgelegt werden oder nicht, eine wiederholte Ziehung derselben möglich ist bzw. nicht möglich ist. Permutationen sind demnach ein Spezialfall von Variationen ohne Zurücklegen, bei denen alle n Elemente aus n Elementen gezogen werden. Mit Reihenfolge: Variation
Definition 17.2: Variationen (allgemein)
Werden k Zufallsexperimente hintereinander durchgeführt und das erste Zufallsexperiment hat n1 mögliche unterscheidbare Ergebnisse, das zweite n2, bzw. allgemein das i-te Zufallsexperiment ni, dann ist die Anzahl der möglichen Ereignisabfolgen V, die wir als Variationen bezeichnen, das Produkt aus allen ni. V
n1 n2 ...ni ...nn
k
n
i
i 1
In der Sprache der Urnenmodelle könnte man alternativ formulieren: Werden k Elemente aus k verschiedenen Urnen gezogen und enthält die erste Urne n1 verschiedene Elemente, die Zweite n2, bzw. allgemein die i-te Urne ni, dann ist die Anzahl der möglichen Anordnungen der k Elemente V das Produkt aus allen ni. Nehmen wir an, es sollen aus zwei Urnen zwei Elemente gezogen werden. Die erste Urne enthält dabei drei, die zweite Urne vier verschiedene Elemente. Dann lässt sich die Formel durch Aufzählung leicht bestätigen. Es gibt also 12 = 3*4 verschiedene Anordnungen.
1
2
3
4
1
1,1
1,2
1,3
1,4
2
2,1
2,2,
2,3
2,4
3
3,1
3,2
3,3
3,4
Gezogenes Element aus der zweiten Urne Gezogenes Element aus der ersten Urne
Wir können uns auch vorstellen, wir ziehen die Elemente alle aus einer Urne und legen vor jedem neuen Ziehen das vorher gezogene Element zurück, nachdem wir das Ergebnis notiert haben. Stellen wir uns z.B. vor, die Urne enthielte die 10 Ziffern von 0 bis 9 und wir ziehen 6 Elemente mit Zurücklegen aus der Urne. Da die Reihenfolge eine Rolle spielt, können wir die gezogene Ziffernfolge auch als na-
Kapitel 17 Kombinatorik
223
türliche Zahl interpretieren. Es ist offensichtlich, dass alle Zahlen von 0 (000000) bis 999999 möglich sind. Es gibt also 106 oder eine Million möglicher Reihenfolgen. Allgemein gilt für Variationen mit Zurücklegen: Definition 17.3: Variationen mit Zurücklegen (mit Wiederholung)
Wird dasselbe Zufallsexperiment k-mal hintereinander durchgeführt und hat dieses Zufallsexperiment n mögliche unterscheidbare Ergebnisse, dann gilt: V
k
n
nk
i 1
Oder: Die Anzahl der Anordnungen von k Elementen, die aus einer Urne mit n Elementen mit Zurücklegen gezogen werden können. Bei der Wiederholung eines Zufallsexperiments wie z.B. dem zweimaligen Werfen eines Würfels handelt es sich in der Sprache des Urnenmodells um die wiederholte Ziehung eines Elements aus derselben Urne, wobei jedes Element nach der Ziehung wieder zurückgelegt wird, damit sich die Zusammensetzung der Urne und damit das Design des Zufallsexperiments nicht ändern. Es gibt also 6² mögliche Variationen beim zweimaligen Werfen eines Würfels, 6³ Variationen beim dreimaligen Werfen usw. Die Ergebnisse der mehrmaligen Durchführung eines (identischen) Zufallsexperiments wie dem Werfen von Würfeln oder Münzen entsprechen immer Variationen mit Zurücklegen, da sich die Anzahl der Ergebnisse des Zufallsexperiments ja nie ändert. Stellen wir uns jetzt jedoch wieder das klassische Urnenmodell vor. Diesmal legen wir die Elemente nach der Ziehung nicht zurück. Bleiben wir bei unserem Beispiel der Urne mit den zehn Ziffern. Ziehen wir wieder zufällig sechs Elemente aus der Urne, ohne diese danach zurückzulegen, und ordnen diese in der Reihenfolge, in der sie gezogen wurden, dann könnten wir auf diese Weise alle Zahlen zwischen 012345 und 987654 generieren, bei denen keine einzige Ziffer mehr als einmal auftaucht. 101236 oder 224565 z.B. wären nicht möglich.
Wiederholte identische Zufallsexperimente entsprechen im Urnenmodell einer Variation mit Zurücklegen
224
Kapitel 17 Kombinatorik
Definition 17.4: Variation ohne Zurücklegen (ohne Wiederholung)
Werden aus einer Urne mit n Elementen hintereinander k Elemente ohne Zurücklegen entnommen, dann gibt es V mögliche Reihenfolgen aus k Elementen, die auf diese Weise zustande kommen können, wobei gilt: V
n (n - 1) (n - 2) ...(n - k 1) n (n - 1) (n - 2) ...(n - k 1) (n - k) ...3 2 1 (n - k) ...3 2 1 n! (n k)!
Bei der Ziehung von zwei Elementen aus einer Urne mit vier Elementen ohne Zurücklegen ergeben sich für das erste Element vier Möglichkeiten, für das Zweite nur noch drei, also gibt es 4*3 = 12 mögliche Reihenfolgen. Gezogenes Element bei der zweiten Ziehung
1
2
3
4
1
-
1,2
1,3
1,4
2
2,1
-
2,3
2,4
3
3,1
3,2
-
3,4
4
4,1
4,2
4,3
-
Gezogenes Element bei der ersten Ziehung
Es lässt sich mit der Formel für Variationen ohne Zurücklegen ebenfalls leicht zeigen, dass Permutationen lediglich einen Spezialfall davon darstellen, bei dem n Elemente aus n Elementen ausgewählt werden, wobei die Reihenfolge der Auswahl eine Rolle spielt.
V
n!
n!
(n n)!
0!
n!
P(n)
Ein weiterer Spezialfall von Variationen oder Permutationen ergibt sich, wenn einige der Elemente nicht voneinander unterschieden werden können, bzw. wenn manche Elemente von vorneherein mehrfach in der Urne vorhanden sind, es sich aber nicht um eine Auswahl mit Zurücklegen handelt. Nehmen wir z.B. an, in der Urne befänden sich insgesamt 8 Ziffern, die nacheinander alle gezogen werden. Diese acht Ziffern seien dreimal die '1', einmal die '2', zweimal die '5' und jeweils einmal die '7' und die '9'. Wie viele Reihenfolgen lassen sich aus diesen Ziffern bilden?
Kapitel 17 Kombinatorik
225
Definition 17.5: Variationen von n aus n Elementen ohne Zurücklegen, von denen einige untereinander nicht unterschieden werden können
Lässt sich eine Menge von n Elementen in k Gruppen unterteilen, so dass die i.te Gruppe ni nicht-unterscheidbare Elemente enthält und n1+n2+n3+...nk = n und die Elemente verschiedener Gruppen unterscheidbar sind, so gilt für die Anzahl der möglichen Anordnungen der n Elemente: V
n! n1 ! n2 ! ...nk !
n! k
n ! i
i 1
Kehren wir zurück zu unserem Beispiel mit den Zahlen, die sich aus acht Ziffern bilden lassen. Aus acht verschiedenen Ziffern lassen sich nach der Formel für Permutationen 8! verschiedene Zahlen bilden, das wären 40320. Wie viele Zahlen lassen sich aber aus den acht Ziffern '1', '1', '1', '2', '5', '5', '7', '9' bilden? Nach der eben aufgeführten Formel ist dies einfach.
V
8! 3! 1! 2! 1! 1!
8! 3! 2!
3360
Der "Trick" besteht darin, sich zuerst vorzustellen, dass alle Elemente voneinander unterschieden sind. Dann entspricht die Anzahl der möglichen Anordnungen den möglichen Permutationen, also 8!. Danach betrachten wir den 3er-Tupel aus den drei Einsen, die wir bisher wie verschiedene Zahlen behandelt haben, z.B. wie 11, 12 und 13. Da sie sich in Wirklichkeit aber nicht unterscheiden, ist die Reihenfolge ihres Auftretens irrelevant. Es gibt 3! Permutationen der drei Elemente 11,12 und 13. Also müssen wir durch 3! = 6 teilen, um die bisherige Vielfachzählung der Anordnung der drei Einsen zu neutralisieren. Ebenso verfahren wir mit der Zweiergruppe der Fünfen. Also dividieren wir die Anzahl der ursprünglichen Anordnungen auch noch durch 2! = 2. Damit erhalten wir die endgültige Zahl der Kombinationsmöglichkeiten.
17.3 Kombinationen Spielt die Reihenfolge keine Rolle, d.h. kommt es bei der Auswahl von k aus n Keine Reihenfolge: Kombination Elementen lediglich darauf an, welche k Elemente ausgewählt werden, handelt es sich um Kombinationen. In der obigen Tabelle z.B. kommt jedes Zahlenpaar zwei Mal vor und zwar in den beiden möglichen Reihenfolgen, in die man zwei Zahlen bringen kann. Das Paar aus den Zahlen '1' und '2' kommt z.B. sowohl als '1, 2' als auch als '2, 1' vor. Spielt die Reihenfolge jedoch keine Rolle, so handelt es sich in beiden Fällen um dasselbe Zahlenpaar. Es gibt also nur halb so viele Kombinationen von Zahlenpaaren wie Variationen.
226
Kapitel 17 Kombinatorik
Definition 17.6: Kombinationen ohne Zurücklegen (ohne Wiederholung)
Werden k aus n unterscheidbaren Elementen ausgewählt und spielt die Reihenfolge der Auswahl keine Rolle, dann gilt: K
Binomialkoeffizient
§n· ¨ ¸ ©k ¹
n! k! (n - k)!
Die Formel für Kombinationen ohne Zurücklegen lässt sich aus der Formel für Variationen ohne Zurücklegen ableiten. Es gibt demnach
n! verschiedene (n k)!
Anordnungen von k Elementen, die wir aus n Elementen ausgewählt haben. Für jeden spezifischen k-Tupel aus k Elementen gilt nach der Formel für Permutationen jedoch, dass wir diese in k! verschiedene Reihenfolgen bringen können. Also haben wir jedes spezifische k-Tupel k!-mal gezählt. Daher müssen wir die Anzahl der Variationen lediglich durch diesen Faktor dividieren, um die Anzahl der möglichen Auswahlen zu erhalten, wenn es nur um die Elemente und nicht um deren §n· Reihenfolge geht. Der Ausdruck ¨¨ ¸¸ wird auch Binomialkoeffizient genannt und ©k¹ als "k aus n" oder "n über k" bezeichnet. Kästchenmodell für Kombination ohne Zurücklegen
Eine oft sehr hilfreiche Darstellung bestimmter kombinatorischer Probleme ist das Kästchenmodell. Die Aufgabe, k aus n verschiedenen Elementen auszuwählen, kann dann so umformuliert werden, dass man aus n verschiedenen Kästchen k auszuwählen hat, auf die z.B. jeweils eine Kugel zu verteilen ist. Beispielsweise könnte eine Verteilung von drei Kugeln auf drei von zehn Kästchen folgendermaßen aussehen.
K1
K2
K3
K4
K5
K6
K7
K8
K9
K10
Die Unterscheidbarkeit der Elemente, aus denen ausgewählt wird, ist durch die Bezeichnung der Kästchen mit K1, K2 … K10 bzw. durch ihre Anordnung in einer Reihenfolge gegeben. Die Bedingung "ohne Zurücklegen" bzw. "ohne Wiederholung" ist dann erfüllt, wenn sich in keinem Kästchen zwei Kugeln befinden, d.h. kein Kästchen kann zwei Mal ausgewählt werden. Die beliebige Reihenfolge der Auswahl der Kästchen ist dadurch gewährleistet, dass die Kugeln sich nicht voneinander unterscheiden, d.h. eine endgültige Verteilung der Kugeln wie im Beispiel auf das 5te, 6te und das 8te Kästchen ist ja immer dieselbe, egal in welcher Reihenfolge man die Kugeln in die entsprechenden Kästchen hineingelegt
Kapitel 17 Kombinatorik
227
hat. Wenn wir jetzt eine Zuordnungsfunktion definieren, die jedem Kästchen den Wert 0 zuweist, wenn sich in ihm keine Kugel befindet, und den Wert 1, wenn eine Kugel in ihm enthalten ist, dann ist die obige Kästchendarstellung äquivalent (d.h. sie besitzt denselben Informationsgehalt) zu der Abfolge von Nullen und Einsen 0000110100. Die Anzahl der möglichen Auswahlen von k aus n Elementen ist damit nichts anderes als die Anzahl der möglichen Anordnungen von zwei Gruppen von nicht-unterscheidbaren Elementen, wobei die erste Gruppe k Elemente und die zweite Gruppe n-k Elemente enthält. Der Binomialkoeffizient ist somit nur ein Spezialfall der obigen Variationsregel aus Definition 17.5, wenn n Elemente aus zwei Gruppen angeordnet werden sollen und die erste Gruppe k und die zweite Gruppe n-k Elemente enthält. Kombinationen mit Zurücklegen sind nicht ganz so einfach zu berechnen, doch Kästchenmodell für Kombination mit lassen sie sich mit der Kästchendarstellung ebenfalls gut illustrieren. "Zurückle- Zurücklegen gen" heißt in diesem Fall, dass dasselbe Element wiederholt gewählt werden kann. In unserem Kästchenbeispiel heißt das, dass dasselbe Kästchen für verschiedene Kugeln gewählt werden kann, dass also in einem Kästchen auch mehrere Kugeln enthalten sein können. Betrachten wir als Beispiel den Fall von 6 Kugeln, die auf 10 Kästchen verteilt werden sollen. Eine konkrete Verteilung könnte dann so aussehen, dass sich im ersten Kästchen eine Kugel befindet, im vierten Kästchen zwei Kugeln und im achten Kästchen drei Kugeln.
K1
K2
K3
K4
K5
K6
K7
K8
K9
K10
Wie wir oben gesehen haben, können wir das Problem lösen, wenn es uns gelingt, jede Verteilung der Kugeln auf die Kästchen in eine eindeutige Folge von Nullen und Einsen zu transformieren. Allerdings gelingt uns dies nicht mehr mit der alten Zuordnungsfunktion, weil wir für ein einzelnes Kästchen jetzt mehr als zwei mögliche Zustände haben. Allerdings können wir feststellen, dass jede Verteilung der Kugeln auf die Kästchen durch eine bestimmte Abfolge von Trennwänden und Kugeln charakterisiert ist. Die obige Verteilung entspricht z.B. einer Folge von Trennwänden und Kugeln der Art xŇŇŇxxŇŇŇŇxxxŇŇ. Ersetzen wir die Trennwände durch Nullen und die Kugeln durch Einsen, dann ist die Folge auch darstellbar als 100011000011100. Jede Verteilung der Kugeln auf die Kästchen lässt sich demnach in eine entsprechende Folge von neun Trennwänden und sechs Kugeln bzw. neun Nullen und sechs Einsen darstellen. Die Anzahl der möglichen Anordnungen ist aber nach der Kombinationsregel für Gruppen von nichtunterscheidbaren Elemente gleich
15! 9! 6!
. Allgemein ist die Anzahl der Möglich-
keiten, k Kugeln auf n Kästchen zu verteilen, wobei in einem Kästchen auch meh-
228
Kapitel 17 Kombinatorik
rere Kugeln sein dürfen, gleich der Anzahl der Folgen aus n-1 Trennwänden und k Kugeln oder n-1 Nullen und k Einsen. Damit gilt: Definition 17.7: Kombinationen mit Zurücklegen (mit Wiederholung)
Werden k aus n unterscheidbaren Elementen ausgewählt und spielt die Reihenfolge der Auswahl keine Rolle und die gezogenen Elemente werden anschließend in die Grundgesamtheit zurückgelegt, dann gilt: K
(n k - 1)! k! (n - 1)!
§ n k - 1· ¨ ¸ © k ¹
Kapitel 18 Die Binomialverteilung
18 Die Binomialverteilung Zufallsexperimente können oft mehrere verschiedene Ergebnisse haben, aber un- Bernoulli-Experiment ter theoretischen Aspekten interessieren wir uns häufig lediglich dafür, ob ein bestimmtes Ereignis eintritt oder nicht, z.B. eine Doppel-Sechs beim Werfen von zwei Würfeln. Ein Zufallsexperiment, das lediglich zwei sich gegenseitig ausschließende Ereignisse A und A als mögliche Ergebnisse besitzt, bzw. dessen Ausgang nur in Bezug auf das Eintreten oder Nicht-Eintreten dieser Ergebnisse formuliert wird, nennen wir ein Bernoulli-Experiment. Eine Folge aus mehreren Bernoulli-Experimenten wird als Bernoulli-Kette bezeichnet. Definition 18.1: Zufallsvariable
Eine Variable X, deren Wert das Ergebnis eines Zufallsexperiments bezeichnet, heißt Zufallsvariable. Die konkrete reelle Zahl xR, die X aufgrund des Ausgangs des Zufallsexperiments zugewiesen wird, heißt die Realisierung von X. Wir wollen uns an die Konvention halten, dass Variablen durch großgeschriebene Variablen und Variablenwerte Platzhalter symbolisiert werden, während Variablenwerte durch kleingeschriebene Platzhalter dargestellt werden. Der Ausdruck X = x gibt demnach die Bedingung an, dass die Variable X den Wert x annimmt. Um Missverständnisse zu vermeiden, sind Variablenwerte oft indiziert, wodurch erkenntlich wird, dass sie die Realisierung oder Konkretisierung der Variablen in einem bestimmten Einzelfall darstellen. Vorerst wollen wir uns auf die Darstellung diskreter Zufallsvariablen beschränken, d.h. auf Zufallvariablen, die nur bestimmte konkrete Werte annehmen können. Welchen Wert eine Zufallsvariable aufgrund des Ausgangs eines bestimmten Zu- Konstruktion einer diskreten Zufallsfallsexperiments annimmt, ist durch die Definition der Variablen festgelegt. Zum variable Beispiel könnte man eine Zufallsvariable definieren, die beim n-maligen Werfen eines Würfels die Summe aller geworfenen Augenzahlen angibt, oder man konstruiert die Zufallsvariable, indem man die Anzahl der geworfenen Sechsen zählt. Dasselbe Zufallsexperiment kann also zur Konstruktion verschiedener Zufallsvariablen herangezogen werden. Die Struktur einer Zufallsvariablen wird also durch den Aufbau des Zufallsexperiments nicht festgelegt. Die Wahrscheinlichkeit P(X = x) gibt die Wahrscheinlichkeit an, mit der die (diskrete) Zufallsvariable X den Wert x annimmt. Die Verteilung dieser Werte wird die Wahrscheinlichkeitsverteilung der (diskreten) Zufallsvariablen genannt. Die Wahrscheinlichkeitsfunktion f(x) einer (diskreten) Zufallsvariablen ordnet jedem Wert x seine Wahrscheinlichkeit P(X = x) zu. Da eine Bernoulli-Kette eine Abfolge von einzelnen Bernoulli-Experimenten darstellt, bei denen es lediglich auf das Eintreten oder Nicht-Eintreten eines bestimm-
229
230
Kapitel 18 Die Binomialverteilung
ten Ereignisses ankommt, können wir für eine Bernoulli-Kette eine Zufallsvariable definieren, deren mögliche Ausprägungen die Häufigkeit des Auftretens des Ereignisses in der Kette angeben. Definition 18.2: Binomialverteilung
Die Wahrscheinlichkeitsverteilung einer Zufallsvariablen X, die beschreibt, wie oft ein bestimmtes Ereignis A in einer Bernoulli-Kette auftritt, nennen wir eine Binomialverteilung. Die Wahrscheinlichkeitsverteilung ist eindeutig durch die Länge n der Bernoulli-Kette – die Anzahl der einzelnen BernoulliExperimente – und durch die Wahrscheinlichkeit P – die Wahrscheinlichkeit, mit der A in einem einzelnen Bernoulli-Experiment auftritt – bestimmt. Zur Charakterisierung einer spezifischen Binomialverteilung mit der Länge n und der Wahrscheinlichkeit P schreiben wir daher B(n; P). Es gilt: P(X
k) B(X
k | n;P)
§n· k nk ¨ ¸ P (1 P) ©k ¹
Beweis: Für eine ganz spezifische Bernoulli-Kette aus A's und A 's wie z.B. A A A AA A A..., in der das Ereignis A k-mal auftritt, gilt, da eine BernoulliKette immer aus einzelnen unabhängigen Experimenten besteht, nach dem Multiplikationstheorem: P(AAAAAAA...) P(A) * P(A) * P(A) * P(A) * P(A) * P(A) * P(A)... P * (1 P) * (1 P) * P * P * (1 P) * P... mit P
P(A) und 1 P
P(A)
Da das Ereignis A k-mal auftritt und das komplementäre Ereignis A (n-k)mal, gilt weiterhin: P(AAAAAAA...)
Pk (1 P)n k
Jede spezifische Bernoulli-Kette, in der das Ereignis A k-mal auftritt, hat diese Wahrscheinlichkeit. Die Anzahl der Anordnungen aus n Elementen, in denen ein bestimmtes Element A k-mal vorkommt und ein zweites Element A (n-k)§n·
mal, ist nach den Kombinationsregeln ¨ ¸ . Demnach gilt: ©k ¹ P(X
k)
§n· k n k ¨ ¸ P (1 P) ©k ¹
q.e.d.
Kapitel 18 Die Binomialverteilung
231
Binomialverteilungen lassen sich sehr gut grafisch als Säulendiagramme darstel- Darstellung von Binomialverteilungen in len. Wir wählen als einfachstes Beispiel eine Binomialverteilung, die sich durch Säulendiagrammen das einmalige Werfen einer Münze ergibt, bei der jede Seite (Kopf oder Zahl) mit derselben Wahrscheinlichkeit 1/2 geworfen wird. Als Ereignis, dessen Auftreten oder Nicht-Auftreten in der Bernoulli-Kette wir feststellen wollen, nehmen wir den Wurf von 'Kopf'. Auf der X-Achse der entsprechenden Binomialverteilung wird also die Anzahl des Auftretens von Kopf aufgetragen, 0 oder 1, und die Höhe der Säulen entspricht der Wahrscheinlichkeit, mit der eine bestimmte Anzahl von 'Kopf'-Ereignissen beim einmaligen Werfen einer Münze auftritt. Beim einmaligen Werfen einer Münze können wir nur zwei mögliche Bernoulli-Ketten aus einem einzigen Kettenelement bilden, nämlich Z und K. Das Ereignis "Kopf" tritt in einer von zwei Bernoulli-Ketten, also mit der Wahrscheinlichkeit 0,5, 0mal auf, und in einer 1mal auf, ebenfalls mit der Wahrscheinlichkeit 0,5 (vgl. Abbildung 18.1.a). Beim zweimaligen Werfen einer fairen Münze erhalten wir insgesamt vier mögliche Bernoulli-Ketten, ZZ, ZK, KZ und KK. Das Ereignis "Kopf" tritt nur in einer der vier Bernouliketten, also mit Wahrscheinlichkeit 0,25, 0mal auf, in zwei der vier Bernoulli-Ketten 1mal (Wahrscheinlichkeit 0,5) und in einer einzigen 2mal (Wahrscheinlichkeit 0,25). Die entsprechende Wahrscheinlichkeitsverteilung ist in Abbildung 18.1b dargestellt. Abbildung 18.1a: B(1; 0,5)
Abbildung 18.1b: B(2; 0,5)
0,6
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
0 0
1
0
1
2
Eine Binomialverteilung muss aber natürlich keineswegs symmetrisch sein. Dies lässt sich leicht illustrieren, wenn wir die Binomialverteilungen untersuchen, die sich beim einmaligen und zweimaligen Werfen eines Würfels ergeben, wenn wir als untersuchtes kritisches Ereignis das Werfen einer Sechs annehmen, wobei wir von einem fairen Würfel ausgehen, bei dem die Zahl '6' mit Wahrscheinlichkeit 1/6 auftritt. Die sich in diesen Zufallsexperimenten ergebenden Binomialverteilungen sind in den Abbildungen 18.2a und 18.2b aufgeführt.
232
Kapitel 18 Die Binomialverteilung
Abbildung 18.2a: B(1; 1/6)
Abbildung 18.2b: B(2; 1/6)
0,9
0,8
0,8
0,7
0,7
0,6
0,6
0,5
0,5 0,4
0,4 0,3
0,3
0,2
0,2
0,1
0,1 0
0
0
Relative Häufigkeitsverteilung konvergiert gegen Wahrscheinlichkeitsverteilung bei sehr vielen Wiederholungen
1
0
1
2
Die Wahrscheinlichkeitsverteilung einer Zufallsvariablen ist offensichtlich einer relativen Häufigkeitsverteilung sehr ähnlich. Wie wir aus dem Gesetz der großen Zahlen wissen, nähert sich die relative Häufigkeit, mit der ein bestimmtes Ereignis in einer Reihe von Zufallsexperimenten auftritt, der Wahrscheinlichkeit an, mit der dieses Ereignis hervorgerufen wird. Die relative Häufigkeitsverteilung einer Zufallsvariablen konvergiert somit gegen die Wahrscheinlichkeitsverteilung, wenn wir das Zufallsexperiment sehr oft wiederholen. Wenn wir beispielsweise eine Münze zweimal hintereinander werfen, erhalten wir keine Wahrscheinlichkeitsverteilung, sondern ein ganz bestimmtes konkretes Ergebnis, das entweder in 0mal Kopf, 1mal Kopf oder 2mal Kopf besteht. Wir wollen dies an der realen Durchführung eines Experiments illustrieren. Dazu wiederholen wir 10mal das zweimalige Werfen einer Münze. Die Ergebnisse sind in den ersten zehn Zeilen der Tabelle 18.1 aufgeführt. Beim ersten Versuch erhalten wir zweimal Kopf, beim zweiten und dritten je einmal usw. Nach zehn Versuchen haben wir 4mal ein Ergebnis erhalten, in dem Kopf überhaupt nicht vorkam, 3 Ergebnisse mit einem Kopf und 3 Ergebnisse mit zweimal Kopf. Die relative Häufigkeitsverteilung 0,4; 0,3; 0,3 weicht deutlich von unserer Wahrscheinlichkeitsverteilung 0,25; 0,5; 0,25 ab. Wenn wir unsere Versuchsreihe um weitere 10 Durchgänge auf insgesamt 20 erhöhen, vergrößert sich die Abweichung sogar noch, und wir erhalten eine empirische relative Häufigkeitsverteilung von 0,45; 0,3; 0,25. Nach dreißig Versuchen landen wir bei 0,367; 0,367; 0,267, ein Ergebnis, das eine Gleichverteilung der Zufallszahlen 0, 1 und 2 suggerieren könnte. Wir führen diese Versuchsreihe fort, indem wir weitere Ergebnisse des Experiments durch den Computer simulieren lassen. Nach insgesamt 100 Versuchen des zweimaligen Werfens einer Münze landen wir bei 24 Ergebnissen ohne Kopf, 48 mit einmal Kopf und 28 mit zweimal Kopf. Wir sind jetzt der erwarteten Verteilung, das heißt der Wahrscheinlichkeitsverteilung, schon recht nahe gekommen. Nach 1000 Versuchen verfeinert sich das Ergebnis auf eine empirische relative Häufigkeitsverteilung von 0,238; 0,495; 0,267, nach 10 000 Versuchen schließlich auf 0,2523; 0,4960; 0,2517.
Kapitel 18 Die Binomialverteilung
233
Tabelle 18.1: Computersimulation zweimaliger Münzwürfe Experimentnummer
Ergebnis
Anzahl
Kumulierte
Kumulierte
Kumulierte
Kopf
Anzahl (relative
Anzahl (relative
Anzahl (relative
Häufigkeit) der
Häufigkeit) der
Häufigkeit) der
Fälle mit 0mal
Fälle mit 1mal
Fälle mit 2mal
Kopf
Kopf
Kopf
1
KK
2
0
0
1
2
KZ
1
0
1
1
3
ZK
1
0
2
1
4
ZZ
0
1
2
1
5
KK
2
1
2
2
6
KZ
1
1
3
2
7
KK
2
1
3
3
8
ZZ
0
2
3
3
9
ZZ
0
3
3
3
10
ZZ
0
4
3
3
(0,4)
(0,3)
(0,3)
11
ZZ
0
5
3
12
ZK
1
5
4
13
KZ
1
5
5
14
ZZ
0
6
5
15
KK
2
6
5
16
ZZ
0
7
5
17
KZ
1
7
6
18
ZZ
0
8
6
19
ZZ
0
9
6
20
KK
2
9
6
5
(0,45)
(0,30)
(0,25)
21
ZK
1
9
7
5
22
KK
2
9
7
6
23
KK
2
9
7
7
24
ZK
1
9
8
7
25
ZK
1
9
9
7
26
KK
2
9
9
8
27
ZZ
0
10
9
8
28
KZ
1
10
10
8
29
KZ
1
10
11
8
30
ZZ
0
11
11
8
(0,367)
(0,367)
(0,267)
...
...
234
Kapitel 18 Die Binomialverteilung ...
100
1000
10000
...
...
...
...
...
...
...
...
...
24
48
28
(0,24)
(0,48)
(0,28)
238
495
267
(0,238)
(0,495)
(0,267)
2523
4960
2517
(0,2523)
(0,4960)
(0,2517)
Die immer bessere Annäherung der empirischen relativen Häufigkeiten an die Wahrscheinlichkeiten und damit die immer bessere Annäherung der empirischen relativen Häufigkeitsverteilung an die Binomialverteilung lässt sich noch besser grafisch erkennen. Die Abbildungen 18.3a-f zeigen die entsprechenden Verteilungen als Säulendiagramme. Abbildungen 18.3a-f: Binomialverteilung und Empirische relative Häufigkeitsverteilung a) 10 Fälle
b) 20 Fälle
0,6
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0 0
Binomialvert eilung
1
2
0 0
Empirische relat ive Häuf igkeit svert eilung
c) 30 Fälle
Binomialverteilung
1
2
Empirische relative Häufigkeitsverteilung
d) 100 Fälle
0,6
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1 0
0 0 Binomialverteilung
1
2
Empirische relative Häufigkeitsverteilung
0 Binomialverteilung
1
2
Empirische relative Häufigkeitsverteilung
Kapitel 18 Die Binomialverteilung
e) 1000 Fälle
235
f) 10 000 Fälle
0,6
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
0 0 Binomialverteilung
1
2
Empirische relative Häufigkeitsverteilung
0 Binomialverteilung
1
2
Empirische relative Häufigkeitsverteilung
18.1 Erwartungswert und Varianz der Binomialverteilung Ähnlich wie bei einer empirischen Verteilung lassen sich auch für die Wahrscheinlichkeitsverteilung einer Zufallsvariablen Kennwerte der Verteilung berechnen. Wie wir gesehen haben, konvergiert die empirische relative Häufigkeitsverteilung gegen die Wahrscheinlichkeitsverteilung der Zufallsvariablen. Damit konvergiert auch der Mittelwert der Verteilung gegen einen festen Wert. Da dies der Mittelwert der empirischen Verteilung ist, den wir erwarten, wenn wir das Zufallsexperiment sehr oft durchführen, nennen wir diesen Wert den Erwartungswert der Zufallsvariablen. Der Erwartungswert der Zufallsvariablen X wird formal als E(X) oder der Einfachheit halber als µ (gesprochen: mü) ausgedrückt. Er kann analog zum Mittelwert (vgl. Abschnitt 13.1.3) berechnet werden, wobei statt der relativen Häufigkeiten der Werte deren Auftretenswahrscheinlichkeiten genommen werden. Definition 18.3: Erwartungswert der Verteilung einer Zufallsvariablen E(X)
m
P
¦p x i
i
i 1
mit pi
Auftretenswahrscheinlichkeit des Wertes xi der Zufallsvariablen X
m
Anzahl der Ausprägungen von X
Der Erwartungswert einer Binomialverteilung lässt sich noch leichter direkt errechnen. Er entspricht der erwarteten Anzahl, mit der ein bestimmtes Ereignis in einer Bernoulli-Kette der Länge n auftritt. Die Wahrscheinlichkeit P, mit der das Ereignis auftritt, entspricht der erwarteten relativen Häufigkeit, die erwartete absolute Häufigkeit ergibt sich demnach im Umkehrschluss als das Produkt aus P
236
Kapitel 18 Die Binomialverteilung
und n. Wenn wir ein bestimmtes Bernoulli-Experiment 1000mal durchführen und das Ereignis mit der Wahrscheinlichkeit 0,5 auftritt, dann erwarten wir, dass das Ereignis innerhalb der Bernoulli-Kette 500mal auftritt. Das heißt wenn wir dieses Experiment (also das Bernoulli-Experiment 1000mal durchzuführen) sehr oft wiederholen, dann wird sich der Mittelwert der Auftretenshäufigkeit des Ereignisses an 500 annähern. Definition 18.4: Erwartungswert einer Binomialverteilung B(n; P) E(X) n * P
mit X ist eine binomialverteilte Zufallsvariable Der zweite wichtige Kennwert zur Kennzeichnung einer Verteilung bezeichnet die Streuung der Werte. Auch bezüglich der Wahrscheinlichkeitsverteilung einer Zufallsvariablen kann die Varianz der Verteilung nach der üblichen Formel (vgl. Abschnitt 13.2.3) berechnet werden, wobei auch hier wieder die relativen Häufigkeiten durch die Wahrscheinlichkeiten und der Mittelwert in der Formel durch den Erwartungswert der Zufallsvariablen ersetzt werden. Die Varianz einer Zufallsvariablen wird mit dem griechischen ı 2 (gesprochen: sigma) bezeichnet. Es ist eine verbreitete Konvention, die Kennwerte empirischer Verteilungen mit lateinischen Zeichen zu belegen und die Kennwerte der Verteilungen von Zufallsvariablen mit griechischen. Definition 18.5: Varianz der Verteilung einer Zufallsvariablen Var(X)
V2
m
¦ p (x i
i
E(X))2
i 1
Auch für die Varianz einer Binomialverteilung gibt es wieder eine wesentlich einfachere Darstellung, nämlich als das Produkt aus n, der Wahrscheinlichkeit P und der komplementären Wahrscheinlichkeit (1-P).
Kapitel 18 Die Binomialverteilung
237
Definition 18.6: Varianz einer Binomialverteilung B(n; P) Var(X)
n
¦ P(X
k)(k E(X))2
k 0
n
¦ B(X
k n;P)(k E(X))2
n * P * (1 P)
k 0
mit X ist eine binomialverteilte Zufallsvariable n Länge einer Bernoulli-Kette Die Standardabweichung einer Binomialverteilung ist die Wurzel aus der Varianz. Definition 18.7: Standardabweichung einer Binomialverteilung B(n; P) STD(X)
Vx
nP(1 P)
Die Binomialverteilung weist noch eine weitere wichtige Eigenschaft auf: Alle Aufteilung von Bernoulli-Ketten möglichen Bernoulli-Ketten der Länge n lassen sich anhand des zuletzt aufgetretenen Bernoulli-Ereignisses in zwei Unterklassen aufteilen: die erste enthält alle Bernoulli-Ketten, deren letztes Glied aus A besteht, die andere Unterklasse enthält alle Bernoulli-Ketten, deren letztes Glied aus A besteht. Es gibt z.B. acht mögliche Bernoulli-Ketten der Länge 3. Diese lassen sich in zwei Untergruppen von jeweils vier Ketten zerlegen, bei denen die Verteilung der ersten beiden Elemente der Ketten in beiden Gruppen identisch ist (vgl. Abbildung 18.4). Daraus folgt: Jede Binomialverteilung lässt sich anhand des letzten Ereignisses der entsprechenden Bernoulli-Kette als aus zwei identischen "bedingten" Unterverteilungen zusammengesetzt interpretieren, wobei die erste Unterverteilung entsprechend der Bedingung des Nichtauftretens von A gebildet wird und die zweite entsprechend der Bedingung des Auftretens von A.
238
Kapitel 18 Die Binomialverteilung
Abbildung 18.4: Mögliche Bernoulli-Ketten der Länge 3
AAA
AAA
AA
AA A
AAA
AA
AAA
A AA
AA
AA A
A AA
AA
+A
=
| A AA
AA A
AA
AAA
AA A
AA
A AA
AAA
AA
AAA
AAA
AA
+A
Wir können diesen elementaren Zusammenhang auch vom Prozess der Entstehung her illustrieren. Gehen wir von einer Binomialverteilung entsprechend der Durchführung zweier Bernoulli-Experimente aus, z.B. des zweimaligen Werfens einer fairen Münze. Die dazugehörige Binomialverteilung bezüglich des Ereignisses 'Kopf' ist auf der linken Seite der Abbildung 18.5 zu sehen. Werfen wir jetzt die Münze ein drittes Mal, dann spaltet sich diese Verteilung entsprechend dem Ergebnis des Münzwurfs in zwei auf, die aber in ihrer Form jeweils identisch mit der Ausgangsverteilung sind. Die erste Verteilung entspricht dem Ereignis, dass nicht 'Kopf' gefallen ist. Die Werte der Zufallsvariablen sind also identisch mit den Werten der Ausgangsverteilung, allerdings tritt jeder Wert dieser Verteilung nur noch mit der Wahrscheinlichkeit (1-P) der Ausgangsverteilung auf. In unserem Beispiel des Münzwurfs ist (1-P) natürlich gleich 1/2, da 'Kopf' mit dieser Wahrscheinlichkeit nicht geworfen wird. Die erste Unterverteilung ist in Abbildung 18.5 in der Mitte oben dargestellt. Die zweite Unterverteilung ergibt sich, wenn beim dritten Münzwurf das kritische Bernoulliereignis, also 'Kopf', eintritt. Die Form der Verteilung ist auch hier identisch mit der Form der ursprünglichen Verteilung, allerdings werden die Werte der Zufallsvariablen alle um 1 erhöht, da sie ja der Anzahl des Eintretens des Ereignisses entsprechen. Der Wert k in dieser Unterverteilung entspricht demnach dem Wert k-1 in der Ausgangsverteilung, und die Wahrscheinlichkeit des Wertes k ist daher die Wahrscheinlichkeit des Wertes k-1 in der Originalverteilung, multipliziert mit der Wahrscheinlichkeit P. Die neue Binomialverteilung, die der Durchführung aller drei Münzwürfe entspricht, wird einfach dadurch gewonnen, dass wir für jeden Wert von k die Wahrscheinlichkeiten von k in den beiden Unterverteilungen aufsummieren. Anders ausgedrückt: Die Wahrscheinlichkeit, dass nach drei Münzwürfen zweimal 'Kopf' aufgetreten ist, ist die Summe aus der Wahrscheinlichkeit, dass bei den ersten beiden Würfen zweimal 'Kopf' und beim dritten Wurf 'Nicht-Kopf' aufgetreten ist, und der Wahrscheinlichkeit, dass bei den ersten beiden Würfen einmal 'Kopf' und beim letzten Wurf ebenfalls 'Kopf' aufgetreten ist.
Kapitel 18 Die Binomialverteilung
239
0
0,1
0,2
0,3
0,4
0,5
0
0,1
0,2
0,3
0,4
0
0,1
0,2
0,3
0,4 0
1
2
0,5
0,6
0 0,5
0,2
0,1 0,6
0,3
0,4
0,5
0,6
0
0
1
1
+
2
2
3
3
=
0,6
0
1
2
3
Abbildung 18.5:Unterverteilungen einer Bernoulli-Verteilung
240
Kapitel 18 Die Binomialverteilung
In der Schreibweise der Binomialkoeffizienten lässt sich dieser Zusammenhang folgendermaßen ausdrücken: § n· ¨ ¸ ©k ¹ Konstruktion des Pascal'schen Dreiecks
§ n 1· § n 1· ¨ ¸¨ ¸ © k 1¹ © k ¹
Dieser Zusammenhang lässt sich nutzen zur Konstruktion der Binomialkoeffizienten einer Bernoullikette der Länge n aus den Binomialkoeffizienten einer Bernoullikette der Länge n-1. Im Einzelnen geht man so dabei vor: Wir beginnen mit den Binomialkoeffizienten einer Bernoullikette der "Länge 0". Diese bestehen offensichtlich nur aus einem einzigen Element, nämlich dem Binomialkoeffizienten §0· ¨ ¸ , der laut Definition gleich 1 ©0¹ §1 · kette der Länge 1 sind ¨ ¸ und ©0¹
ist. Die Binomialkoeffizienten einer Bernoulli§ 1· ¨ ¸ . Der erstere errechnet sich als Summe aus © 1¹
§ 0· §0· ¨ ¸ und ¨ ¸ . Jeder Binomialkoeffizient, der eine negative Zahl in der unteren © 1 ¹ ©0¹
Zeile aufweist, ist jedoch gleich 0, da es keine Möglichkeiten gibt, weniger als 0 Elemente aus einer bestimmten Elementenmenge auszuwählen. Damit ist die Summe der beiden Binomialkoeffizienten gleich 0+1, also 1. Der zweite Binomi§ 1·
alkoeffizient ¨ ¸ lässt sich errechnen als Summe aus den Binomialkoeffizienten © 1¹ §0· §0· ¨ ¸ und ¨ ¸ . Da es aber unmöglich ist, aus einer Menge von n Elementen mehr 0 © ¹ ©1 ¹
als n Elemente auszuwählen, ist auch jeder Binomialkoeffizient "n über k" gleich 0, wenn k größer als n ist. Also ist der zweite Binomialkoeffizient gleich 1+0, also ebenfalls 1. Man kann diesen Konstruktionsprozess nun Reihe für Reihe durchführen. Wenn man die Binomialkoeffizienten der um ein Element erweiterten Bernoullikette jeweils in der Mitte der beiden der vorigen Kette, aus denen sie sich errechnen lassen, anordnet, erhält man als Ergebnis dieser Konstruktion dann das so genannte "Pascal'sche Dreieck".
Kapitel 18 Die Binomialverteilung
241
Abbildung 18.6: Pascal'sches Dreieck n=0
1
n=1
1
n=2
1
n=3
1
n=4
1
n=5
1
n=6
1
n=7 n=8
1 1
8
3
5
7
2
4
6
3
10
21
1 4
10 20
35 56
1
6
15
28
1
5 15
35 70
1 1 6 21
56
1 7
28
1 8
1
...
Die Varianz einer Verteilung ist ja nichts anderes als der mittlere quadratische Abstand der einzelnen Werte der Verteilung vom Mittelwert der Verteilung. Setzt sich die Verteilung aus zwei Unterverteilungen zusammen, so ist die Varianz dementsprechend das gewichtete Mittel der mittleren quadratischen Abstände der Werte der Unterverteilungen zum Mittelwert der gesamten Verteilung, wobei die Gewichte den Umfängen der Unterverteilungen entsprechen. Experte: Beweis der Formel zur Berechnung der Varianz einer Binomialverteilung Wir können die Übereinstimmung des Ergebnisses der üblichen Formel (Definition 18.5) mit dem der kürzeren für den Spezialfall der Binomialverteilung (Definition 18.6) leicht überprüfen, indem wir zunächst die Werte für die ersten zwei Fälle, also für Bernoulliketten der Länge 1 und 2, berechnen. n 1 E(X) n * P P
Var(X) (B(X
0 | 1;P)(0 P)² (B(X 1| 1; P)(1 P)²
§1 · 0 § 1· 2 0 2 ¨ ¸ P (1 P)P ¨ ¸ P(1 P) (1 P) 0 © ¹ © 1¹ (1 P)P2 P(1 P)2 [(1 P)P](P (1 P)) (1 P)P
242
Kapitel 18 Die Binomialverteilung
n
2
E(X) n * P
2P
Var(X) (B(X
0 | 2; P)(0 2P)² (B(X 1| 2; P)(1 2P)² (B(X
2 | 2; P)(2 2P)²
§ 2· 0 § 2· § 2· 2 2 2 2 0 2 ¨ ¸ P (1 P) * 4P ¨ ¸ P(1 P)(1 4P 4P ) ¨ ¸ P (1 P) * 4(1 P) ©0¹ ©1 ¹ © 2¹ 4(1 P)2 P2 2P(1 P)(1 4P 4P2 ) 4P2 (1 P)2 [(1 P)P][4(1 P)P 2(1 4P 4 P2 ) 4P(1 P)] [(1 P)P][8(1 P)P 2 8(P P2 )] 2 * (1 P)P
Mit dem Verfahren der vollständigen Induktion können wir im Weiteren beweisen, dass die Formel auch für n+1 gilt, wenn sie für n gilt, und damit auch für alle weiteren n. Allerdings benötigen wir für diesen Beweis noch eine andere Regel als Hilfsmittel. Es handelt sich hierbei um die so genannte "Verschieberegel", eine der wichtigsten Regeln im Umgang mit Varianzen und Quadratsummen. Diese besagt, dass der mittlere quadratische Abstand des Wertes einer Verteilung zu einem beliebigen Wert c gleich der Summe aus der Varianz der Verteilung und dem Quadrat des Abstands von c zum Mittelwert der Verteilung ist. Theorem E1: Verschieberegel Behauptung: MSQ(X; x d)
Var(X) d2
mit MSQ(X; x d ) Mittlerer quadratischer Abstand von X zu x+d Beweis: MSQ(X; x d)
1
n
¦ (x n
i
(x d))2
i 1
1
n
¦ ((x n
i
x) - d)2
i 1
1 n 1 n 1
n
¦ (x
i
x)2
i 1 n
¦ (x
i
x)2
i 1 n
¦ (x n
i
i
i 1
2d n
n
¦ (x
Var(X) d2
1 n
n
2
¦d i 1
x) d2
i
i 1
1
n
¦x n
x)2 2dx -
i 1
x)d
i
i 1
n
¦ (x n
n
¦ 2(x
x)2 2d
i 1
1
1 n
2d n
i
2d n
n
¦x d i 1
nx d2
2
Kapitel 18 Die Binomialverteilung
243
Mit Hilfe der Verschieberegel lässt sich unter anderem noch einmal der uns schon bekannte Sachverhalt zeigen, dass der Mittelwert derjenige Wert ist, der die Summe der quadratischen Abstände der Werte einer Verteilung minimiert (vgl. den Experten in Abschnitt 13.1.3). Die Summe der quadratischen Abstände zu einem anderen Wert c ist nach der Verschieberegel die Summe der quadratischen Abstände zum Mittelwert plus n mal den quadratischen Abstand d von c zu x . Da d 2 ja in jedem Fall positiv ist, wird die Summe minimiert, wenn d gleich 0 ist, bzw. wenn c identisch mit dem Mittelwert ist. Jetzt besitzen wir alle Zutaten, um den Beweis der Richtigkeit der Formel der Varianz der Binomialverteilung mit Hilfe der vollständigen Induktion durchzuführen. Behauptung: Var(X) = n*P(1-P) Beweis mittels vollständiger Induktion: 1. Die Behauptung gilt für n = 1. 2. Behauptung: Wenn die Varianz einer Binomialverteilung B(n; P) gleich n*P(1-P) ist, dann ist die Varianz einer Binomialverteilung B(n+1; P) gleich (n+1)P(1-P) Beweis: Wir beginnen mit der Formulierung der Varianz als dem mittleren quadratischen Abstand vom Mittelwert. Da es sich um eine Zufallsvariable handelt, ersetzen wir wieder den Mittelwert durch den Erwartungswert. Für eine Binomialverteilung B(n+1; P) wissen wir aber, dass der Erwartungswert gleich dem Produkt aus (n+1) und P ist. Var(X)
MSQ(X,E(X))
MSQ(X;(n 1)P)
Im nächsten Schritt zerlegen wir die Verteilung in die durch das Ergebnis des letzten Bernoulli-Experiments bestimmten zwei Unterverteilungen. Der mittlere quadratische Abstand zum Erwartungswert der gesamten Verteilung lässt sich dann als gewichteter mittlerer quadratischer Abstand zum Erwartungswert (der gesamten Verteilung) in den Unterverteilungen ausdrücken, wobei wir für die "bedingte" Unterverteilung von X unter dem Auftreten von A beim letzten Durchgang des Zufallsexperiments XŇA schreiben und XŇ A für die Unterverteilung, bei der bei der letzten Durchführung des Zufallsexperiments A nicht aufgetreten ist. Es gilt also: MSQ(X;(n 1)P)
(1 P) * MSQ(X A ;(n 1)P) P * MSQ(X A;(n 1)P)
Als nächstes formen wir den Bezugspunkt, zu dem die mittleren quadratischen Abstände berechnet werden, als Summe des Mittelwerts der jeweiligen Unterverteilung und einer Konstanten um. MSQ(X;(n 1)P)
(1 P) * MSQ(X A ;nP P) P * MSQ(X A;(nP 1) (P - 1))
Nach der Verschieberegel erhalten wir dann: MSQ(X;(n 1)P)
(1 P) * Var(X A) P
2
P * Var(X A) (P - 1) 2
Durch Ausrechnen gelangen wir schließlich zum gewünschten Ergebnis. MSQ(X;(n 1)P)
2
(1 P) * nP(1- P) (1- P)P P * nP(1- P) P(1- P) (1 P P) * nP(1- P) (1- P)P(P 1- P) nP(1- P) (1- P)P (n 1)P(1 - P)
Ende Experte
q.e.d
2
244
Kapitel 18 Die Binomialverteilung
Wir haben der Diskussion der Binomialverteilung deshalb so viel Platz eingeräumt, weil das Verständnis von Verteilungen unserer Meinung nach das A und O für das Verstehen statistischer Tests oder Schätzverfahren ist. Die Binomialverteilung ist dabei die wohl grundlegendste all dieser Verteilungen sowie die intuitiv zugänglichste. In gewissem Sinne kann die Binomialverteilung als die "Mutter aller Verteilungen" betrachtet werden.
18.2 Varianz und Standardabweichung von Anteilswerten Verhältnis von relativer und absoluter Breite der Streuung der Häufigkeit des Auftretens bestimmter Ereignisse
Wir wollen uns nun dem Phänomen der Binomialverteilung weiter nähern. In den Abbildungen 18.7a-f sind die Binomialverteilungen dargestellt, die BernoulliKetten der Länge 4, 10, 20, 40, 100 und 200 entsprechen, wobei das kritische Ereignis jeweils mit der Wahrscheinlichkeit 1/2 auftritt. Wir können die Verteilungen also auch wieder als das Werfen einer fairen Münze betrachten, wobei die Münze eben 4-, 10-, 20-, 40-, 100- oder 200mal geworfen wird. Das kritische Ereignis sei wieder 'Kopf'. Bei einer symmetrischen Verteilung, die sich bei P = 0,5 zwangsläufig einstellt, liegt der Mittelwert, d.h. der Erwartungswert, genau in der Mitte der gesamten Verteilung. Wir erwarten also bei 4 Münzwürfen, dass 'Kopf' 2mal auftritt, bei 10 Münzwürfen 5mal etc. Tatsächlich ist in den Abbildungen auch klar erkennbar, dass sich die Zufallszahlen symmetrisch um die Mitte der gesamten Verteilung anordnen. Weiter aber fällt uns auf, dass sich der Großteil der Zahlen immer "enger" um die Mitte verteilt, je höher die Anzahl der Münzwürfe ist. Der Eindruck "enger" bezieht sich hier allerdings auf die Spannweite der gesamten Verteilung. Bei vier Münzwürfen (Abbildung 18.7a) kann 'Kopf' zwischen 0mal und 4mal auftreten, wobei jedes dieser Ereignisse mit einer Wahrscheinlichkeit auftritt, die durch die Höhe des Balkens auch mit bloßem Auge erkennbar ist. So können wir sagen, dass wir den überwiegenden Teil der Verteilung nur erfassen, wenn wir alle Werte der Verteilung, also die gesamte Spannweite, berücksichtigen. Bei vierzig Münzwürfen jedoch haben wir den Eindruck, dass sich die Verteilung im Wesentlichen nur noch im Bereich zwischen 8 und 32 befindet, während die Ränder kaum noch belegt sind. Erhöhen wir die Anzahl der Zufallsexperimente weiter auf 100, dann gewinnen wir den Eindruck, dass sich fast alle Werte zwischen 30 und 70 befinden. Bei 200 durchgeführten Zufallsexperimenten geht das Intervall, das nach dem Eindruck des bloßen Auges fast alle Fälle beinhaltet, von ca. 75 bis ca. 125. Wir können also zwei Ergebnisse festhalten: Die absolute Breite des Intervalls um den Mittelwert, in dem sich nach dem bloßen Auge fast alle Fälle der Verteilung befinden, nimmt mit der Anzahl der durchgeführten Zufallsexperimente stetig zu, sie beträgt bei n = 4 ebenfalls 4, bei n = 100 ungefähr 40 und bei n = 200 ungefähr 50. Die relative Breite dieses Intervalls jedoch, d.h. in Relation zur Spannweite der gesamten Verteilung, nimmt hingegen kontinuierlich ab. Bei vier Fällen benötigen wir die gesamte Spannweite, um "fast alle" Fälle zu erfassen, bei 100 Fällen nur 4/10 der Spannweite, bei 200 Fällen nur noch ungefähr 1/4.
Kapitel 18 Die Binomialverteilung
245
Diese aus der reinen Anschauung abgeleiteten Ergebnisse lassen sich auch formal mit Hilfe der schon bekannten Formeln gewinnen. Ein Maß für die durchschnittliche Streuung um den Mittelwert ist ja die Standardabweichung, also die Wurzel der Varianz, die im Fall der Binomialverteilung als n*P(1-P) errechnet werden kann. Für n = 4 beträgt die Varianz demnach 1, für n = 100 ist sie 25 und für n = 200 beträgt die Varianz 50. Die Varianz der Binomialverteilung steigt also im gleichen Verhältnis wie die Anzahl der durchgeführten Zufallsexperimente. Verdoppeln wir die Anzahl, steigt auch die Varianz auf das Doppelte an. Das Maß der Streuung ist aber die Standardabweichung, also die Wurzel aus der Varianz. Verdoppeln wir die Anzahl der Fälle (und damit auch die Spannweite der gesamten Verteilung, weil ja alle Werte von 0 bis n theoretisch auftreten können), dann erhöht sich die Standardabweichung nicht um den Faktor 2, sondern nur um den Faktor 2 , also ungefähr um das 1,4fache. Abbildung 18.7a: B(4; 0,5)
0
1
2
Abbildung 18.7b: B(10; 0,5)
3
4
0
Abbildung 18.7c: B(20; 0,5)
0
2
4
6
8
10
12
14
16
10
20
30
40
50
60
70
80
2
3
4
5
6
7
8
9
10
Abbildung 18.7d: B(40; 0,5)
18
20
0
Abbildung 18.7e: B(100; 0,5)
0
1
4
8
12 16 20 24 28 32 36 40
Abbildung 18.7f: B(200; 0,5)
90
100
0
20
40
60
80
100
120
140
160
180
200
246
Kapitel 18 Die Binomialverteilung
Streuung der Verteilung bei relativen Häufigkeiten
Häufig interessieren uns bei einer binomial verteilten Zufallsvariablen weniger die absoluten Häufigkeiten, mit denen ein kritisches Ereignis auftritt, als vielmehr dessen relative Häufigkeiten. Bei 100 Münzwürfen interessiert wahrscheinlich meistens weniger, wie oft genau 'Kopf' auftritt, als vielmehr, ob 'Kopf' ungefähr in der Hälfte der Fälle auftritt. Natürlich ändert sich durch diese (lineare) Transformierung der Zufallsvariablen nichts an der Form ihrer Verteilung. Lediglich die Beschriftung der X-Achse muss dann auf die relativen Werte bezogen werden, wie in den Abbildungen 18.8a und 18.8b zu sehen ist. Abbildung 18.8a: B(100 0,5) mit X als absolute Häufigkeit
0
Abbildung 18.8b: B(100, 0,5) mit X als relative Häufigkeit t
10 20 30 40 50 60 70 80 90 100
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
Die Varianz und Standardabweichung der Anteilswerte lassen sich unmittelbar aus der Varianz und Standardabweichung der absoluten Häufigkeiten errechnen. Da die Standardabweichung den mittleren Abstand in Einheiten der X-Achse angibt, muss die Standardabweichung der absoluten Häufigkeit nur durch n dividiert werden, um die Standardabweichung der Anteile zu erhalten. Definition 18.8: Standardabweichung von Anteilswerten § X· STD ¨ ¸ ©n¹
VX n
nP(1- P) n
P(1- P) n
Daraus ergibt sich für die Varianz von Anteilswerten. Definition 18.9: Varianz von Anteilswerten § X· Var ¨ ¸ ©n¹ Interpretation der Standardabweichung
VX n
2
P(1- P) n
In Einheiten von Anteilen bzw. in relativen Einheiten reduziert sich also die Streuung auf die Hälfte, wenn man die Anzahl der Zufallsexperimente vervierfacht. Bei 100 Münzwürfen beträgt die Streuung des Anteilswertes z.B. 0,05, bei 400 Münzwürfen nur noch 0,025. Was bedeutet dies? Die Standardabweichung kann interpretiert werden als der "durchschnittliche Abstand" eines Wertes zum Mittelwert. Genau genommen ist sie jedoch die Wurzel aus dem durchschnittli-
Kapitel 18 Die Binomialverteilung
chen quadratischen Abstand. Da durch diese Art der Berechnung große Abweichungen vom Mittelwert stärker ins Gewicht fallen als kleine, folgt daraus, dass sich in dem Intervall von einer Standardabweichung um den Mittelwert mehr als die Hälfte der Fälle befinden müssen. Bei 100 Münzwürfen beträgt der Erwartungswert des Anteils von 'Kopf' 1/2 und die Streuung 0,05. Das heißt aber nach dem eben Gesagten nichts anderes, als dass sich in mehr als der Hälfte aller Durchführungen eines solchen Experiments (100 Münzwürfe) ein relativer Anteil von 'Kopf'-Würfen ergibt, der zwischen 45 und 55 Prozent liegt. Führen wir ein Experiment mit 400 Münzwürfen sehr oft aus, dann befinden sich in mehr als der Hälfte aller Experimente die Anteilswerte von 'Kopf' im Bereich zwischen 47,5 und 52,5 Prozent. Je mehr Münzwürfe wir durchführen, desto enger wird das Intervall, das in der Hälfte aller Experimente das Ergebnis der Reihe von Münzwürfen als Anteilswert von 'Kopf' enthält. Wir können auch umgekehrt vorgehen und das Intervall um den Mittelwert konstant halten, z.B. im Bereich 45 bis 55 Prozent. Halten wir das Intervall konstant und erhöhen die Anzahl der Münzwürfe, dann erhöht sich der Anteil der Ergebnisse, die in dieses Intervall fallen, bzw. es erhöht sich die Wahrscheinlichkeit für ein bestimmtes einzelnes Ergebnis, dass es in dieses Intervall fallen wird. Dies ist die genaue Bedeutung des Grenzwertsatzes von Bernoulli, den wir als "Gesetz der großen Zahlen" kennen gelernt haben. Anders formuliert bedeutet dieses: Für jedes beliebig enge Intervall um den Erwartungswert einer Binomialverteilung und jede beliebig hohe Wahrscheinlichkeit lässt sich eine Mindestlänge der BernoulliKette finden, so dass der Anteil der Ereignisse A an allen Ereignissen mindestens mit der besagten Wahrscheinlichkeit in dem entsprechenden Intervall liegt.
247
248
Kapitel 19 Die Normalverteilung
19 Die Normalverteilung Berechnung der Wahrscheinlichkeit von Intervallen
Mit Hilfe der Formel der Binomialverteilung können wir problemlos bei gegebenem n die Wahrscheinlichkeit berechnen, mit der der Anteil von A innerhalb eines bestimmten Intervalls liegt. Nehmen wir an, wir möchten die Wahrscheinlichkeit ermitteln, mit der der Anteil von 'Kopf' bei 100 Würfen zwischen 40 und 60 Prozent liegt, also dass 'Kopf' mindestens 40mal und nicht öfter als 60mal auftritt. Da es sich bei den Ereignissen jeweils um unvereinbare Ereignisse handelt (es kann in ein- und derselben Bernoullikette 'Kopf' z.B. ja nicht 41mal und 42mal gleichzeitig auftreten), ist die Wahrscheinlichkeit nichts anderes als die Summe der entsprechenden Wahrscheinlichkeiten, dass 'Kopf' 40mal oder 41mal oder 42mal oder … 60mal auftritt.
P(40 d k d 60)
60
¦ B(X
k 100; 0,5)
k 40
§ 100 · § 100 · 40 60 41 59 ¨ ¸ 0,5 *0,5 ¨ ¸ 0,5 *0,5 © 40 ¹ © 41 ¹ § 100 · § 100 · 58 42 59 41 ... ¨ ¸ 0,5 *0,5 ¨ ¸ 0,5 *0,5 © 58 ¹ © 59 ¹
§ 100 · 42 58 ¨ ¸ 0,5 *0,5 ... © 42 ¹ § 100 · 60 40 ¨ ¸ 0,5 *0,5 © 60 ¹
Es gibt auch eine grafische Entsprechung dieses Zusammenhangs. Wegen des Prinzips der "Flächentreue" entspricht die Wahrscheinlichkeit eines bestimmten Wertes der Binomialverteilung der Höhe der dazugehörigen Säule. Zwei Wahrscheinlichkeiten verhalten sich demnach wie die Höhen ihrer Säulen, aber auch wie die Flächen der Säulen zueinander, da ja die Breite aller Säulen gleich ist. Die Wahrscheinlichkeit P(40 d k d 60) entspricht somit auch dem Anteil der Summe der Flächen aller Säulen von 40 bis 60 am gesamten Flächeninhalt aller Säulen der Binomialverteilung. Obwohl sich die Wahrscheinlichkeit P(40 d k d 60) nach der oben angegebenen Formel im Prinzip zwar ausrechnen lässt, so ist doch klar, dass der Rechenaufwand dafür gigantisch ist. Dies liegt vor allem an den Binomialkoeffizienten und den darin enthaltenen Fakultäten. Heutzutage, im Zeitalter der Computer, lässt sich der benötigte Rechenaufwand leicht bewerkstelligen. Ein einfaches SPSSProgramm ermittelt uns in Bruchteilen von Sekunden die Wahrscheinlichkeit, dass bei 100 Würfen mit einer fairen Münze 'Kopf' mindestens 40mal und nicht öfter als 60mal auftritt, als 0,9648.1 Anders ausgedrückt: Das Ergebnis 'Anzahl Kopf' des Zufallsexperiments '100maliges Werfen einer fairen Münze' liegt mit einer Wahrscheinlichkeit von 96,48 Prozent innerhalb des Intervalls um den Mittelwert von 40 bis 60. Genauso ermitteln wir mit Hilfe des Computers, dass das Ergebnis mit Wahrscheinlichkeit 0,7287 in dem Intervall von 45 bis 55 liegt.
1
Wer sich für die genaue Berechnung interessiert, findet den Algorithmus im Anhang B1.
Kapitel 19 Die Normalverteilung
249
Während mit Hilfe von SPSS oder eines anderen Statistikprogramms eine solche Näherungsformeln für die Berechnung von Aufgabe in wenigen Augenblicken bewältigt werden kann, muss sie einen Ma- Hand thematiker des 17. oder 18. Jahrhunderts jedoch vor ein schier unlösbares Problem gestellt haben. Zumindest wäre dies der Fall gewesen, wenn diese Mathematiker die Binomialkoeffizienten tatsächlich Stück für Stück von Hand ausgerechnet hätten. Um nun solche Aufgaben tatsächlich lösen zu können, haben Mathematiker des 17. Jahrhunderts versucht, Formeln zu finden, mit denen man insbesondere die Fakultäten großer Zahlen wesentlich einfacher berechnen kann. Ein entscheidender Durchbruch in dieser Richtung bedeutete die so genannte "Stirlingsche Formel", mit deren Hilfe die Fakultät einer großen Zahl n! ziemlich genau als §n· 2ʌ n * ¨ ¸ ©e¹
n
geschätzt werden kann. Dabei ist e die so genannte "Eulersche
Zahl", die ungefähr 2,72 beträgt. Um ein Beispiel zu geben: Die Fakultät von 100, die wir direkt als 100*99*98*...*3*2*1 berechnen müssten, kann in ziemlich genauer Annäherung wesentlich einfacher berechnet werden durch 100
§ 100 · 2ʌ*100 * ¨ ¸ © e ¹
100
10 * 2ʌ * 36,79
. Auf diese Weise kann die aufwändige
Berechnung von Fakultäten durch die wesentlich einfachere Berechnung von Potenzen ersetzt werden. Auf eben solchen Näherungsformeln beruhend, hat nun Abraham de Moivre gezeigt, dass eine Binomialverteilung, wenn n eine sehr große Zahl ist, durch folgende Funktion angenähert werden kann, die als so genannte Normalverteilung in die Statistik eingegangen ist. Dieser Zusammenhang ist auch als so genannter Grenzwertsatz von De Moivre bekannt.2 Die durch die Normalverteilung gebildete Funktion hat folgende Form: Definition 19.1: Normalverteilung f(x)
1 ı 2ʌ
e
1 § x µ · ¨ ¸ 2© ı ¹
2
mit
2
e
Eulersche Zahl (2,71828...)
S
Kreiskonstante (3,1415926...)
P
Mittelwert der Verteilung
V
Standardabweichung der Verteilung
Die Herleitung dieses Satzes setzt mathematische Grundkenntnisse voraus, die über das aus der Schule bekannte Wissen hinausgehen, weshalb wir an dieser Stelle auf den Beweis verzichten. Der interessierte Leser möge den Beweis z.B. bei Gnedenko (1997) nachlesen.
250
Kennzeichnung der Normalverteilung durch Mittelwert und Standardabweichung
Kapitel 19 Die Normalverteilung
Da e und S Konstanten sind, ist die Funktion bzw. die dazugehörige Kurve allein durch zwei Parameter bestimmt, nämlich durch P und V, also durch den Mittelwert und die Standardabweichung der Verteilung. Das heißt für jedes Paar eines Mittelwertes P und einer Standardabweichung V lässt sich genau eine dazugehörige Normalverteilung konstruieren. Die symbolische Darstellung einer Darstellung ist daher N(P; V2). Man beachte, dass in der üblichen Kurzschreibweise als zweiter Parameter nicht die Standardabweichung der Normalverteilung sondern ihre Varianz angegeben ist. N(2; 4) ist z.B. eine Normalverteilung mit dem Mittelwert 2 und der Standardabweichung 2, N(2; 16) hat denselben Mittelwert, aber eine doppelt so große Standardabweichung, N(1; 4) wiederum hat dieselbe Standardabweichung wie N(2; 4) – nämlich 2 –, ist aber zu dieser um 1 nach links verschoben. N(0; 1) ist eine Normalverteilung mit dem Mittelwert 0 und der Standardabweichung 1. Die folgenden Abbildungen zeigen die entsprechenden Normalverteilungskurven. Abbildung 19.1a: Horizontal verschobene Normalverteilungskurven 0,25 0,2 0,15 0,1 0,05 0 -10
-8
-6
-4
-2
0
2
N(1;4)
4
6 N(2;4)
8
10
12
14
Kapitel 19 Die Normalverteilung
251
Abbildung 19.1b: Vertikal gestauchte bzw. gestreckte Normalverteilungskurven 0,25 0,2 0,15 0,1 0,05 0 -10
-8
-6
-4
-2
0
2
N(2;16)
4
6
8
10
12
14
N(2;4)
Durch die Veränderung des Mittelwertes P verschiebt sich die Normalverteilungskurve nach links oder rechts. Interessanter noch ist es zu beobachten, wie sich die Normalverteilungskurve durch die Veränderung der Standardabweichung verändert. Nehmen wir an, die Standardabweichung verdoppele sich von V1 auf V2. Dadurch wird die Verteilung entlang der X-Achse gestreckt. Da für einen beliebigen Wert xi der zugehörige Wert der Normalverteilungsfunktion berechnet wird, indem als Argument innerhalb der Exponentialfunktion das Verhältnis des Abstands von xi zum Mittelwert der Verteilung eingesetzt wird, entspricht derjenige "gestreckte" Wert xi’ dem ursprünglichen Wert xi, der sich auf derselben Seite doppelt so weit vom Mittelpunkt entfernt befindet. Der dazugehörige y-Wert ist allerdings nur halb so groß, da der gleiche Wert der Exponentialfunktion ja durch das V im Nenner des Bruchs am Anfang der Formel dividiert wird. Anders ausgedrückt: Im gleichen Verhältnis, in dem die Normalverteilung durch die Zunahme der Standardabweichung entlang der X-Achse gestreckt wird, wird sie entlang der Y-Achse gestaucht. Das bedeutet, dass die Fläche unter jeder Normalverteilungskurve immer gleich groß ist. Darüber hinaus können wir festhalten, dass alle Normalverteilungskurven insofern die "gleiche" Form haben, als jede Normalverteilungskurve durch höchstens eine Verschiebung entlang der X-Achse und eine horizontale und eine vertikale Streckung oder Stauchung in jede beliebige andere Normalverteilungskurve übergeführt werden kann. Diese Form der Normalverteilungskurve ist als so genannte Glockenkurve oder auch Gauß'sche Glockenkurve in die statistische Literatur eingegangen.
Auch bei Verschiebung, Streckung und Stauchung der 'Glockenkurve' bleibt die Fläche immer gleich groß
252
Kapitel 19 Die Normalverteilung
19.1 Approximation der Binomialverteilung durch die Normalverteilung Bei großer Fallzahl nähert sich eine Binomialverteilung einer Normalverteilung an und kann durch die Funktionswerte der Normalverteilung näherungsweise ersetzt werden.
Der Satz von De Moivre stellt sicherlich einen der bemerkenswertesten Durchbrüche in der Geschichte der Statistik dar. De Moivre war der Mann, zu dem der altersmüde und an Mathematik nicht mehr sonderlich interessierte Newton die Leute schickte, die sich mit einem mathematischen Problem an ihn wandten. Das Interessante ist nun, dass auch eine asymmetrische Binomialverteilung, also eine Verteilung, bei der die beiden möglichen Ausgänge des zugrunde liegenden Bernoulli-Experiments nicht gleichwahrscheinlich sind, sich in der Form einer Normalverteilung annähert, wenn die Fallzahl n groß genug wird. Dies ist in den Abbildungen 19.2a-f zu erkennen, die für n = 4, n = 10, n = 20, n = 40, n = 100 und n = 200 die entsprechenden Binomialverteilungen bei einer Wahrscheinlichkeit von P = 0,8 (und somit (1-P) = 0,2) aufzeigen. Abbildungen 19.2a-f: Annäherung der Binomialverteilung an die Normalverteilung Abbildung 19.2a: B(4; 0,8)
0
1
2
Abbildung 19.2b: B(10; 0,8)
3
0
4
Abbildung 19.2c: B(20; 0,8)
0
2
4
6
8
10
12
14
16
10
20
30
40
50
60
70
80
2
3
4
5
6
7
8
9
10
Abbildung 19.2d: B(40; 0,8)
18
20
Abbildung 19.2e: B(100; 0,8)
0
1
0
4
8
12
16
20
24
28
32
36
40
Abbildung 19.2f: B(200; 0,8)
90
100
0
20
40
60
80
100
120
140
160
180
200
Kapitel 19 Die Normalverteilung
253
Obwohl die Verteilung bei der Durchführung weniger Versuche noch sehr asymmetrisch ist, nähert sie sich der Symmetrie und auch einer Normalverteilungskurve immer stärker an, je größer n wird. Die Formeln für den Erwartungswert und die Varianz einer Binomialverteilung können immer angewandt werden, unabhängig vom konkreten Wert von P. Die Approximation einer Binomialverteilung durch die dazugehörige Normalverteilungskurve ist einfach. Wir wissen ja, dass die Normalverteilungskurve vollständig durch ihren Mittelwert und ihre Standardabweichung bestimmt ist. Für eine bestimmte Binomialverteilung sind uns diese Parameter ebenfalls bekannt, nämlich als n*P und n*P(1-P). Setzen wir diese in die Funktion der Normalverteilungskurve ein, so erhalten wir: Definition 19.2: Approximation einer Binomialverteilung durch eine Normalverteilung f(x B(n;P) )
1 nP(1-P)*2ʌ
e
1 § x nP · ¨ ¸ 2 ¨© nP(1-P) ¸¹
2
Für die Binomialverteilung B(4; 0,5) z.B. ergeben sich der Erwartungswert (Mittelwert) 2 und die Standardabweichung 1. Die entsprechende Normalverteilung lässt sich also als folgende Funktion darstellen:
f(x B(4;0,5) )
1 2ʌ
e
x 2 2 2
Für die konkreten einzelnen Ergebnisse des Bernoulli-Experiments lassen sich dann die durch die Normalverteilung approximierten Werte direkt errechnen.
f(0 B(4;0,5) )
f(1 B(4;0,5) )
f(2 B(4;0,5) )
f(3 B(4;0,5) )
1 2ʌ
1 2ʌ
1 2ʌ
1 2ʌ
e
e
e
2
1 2ʌ
e
0 2 2
1 2 2 2
1 2ʌ
2 2 2 2
1 2ʌ
3 2 2 2
1 2ʌ
e2
e
1 2
1 e*2ʌ
1
e0
e
1 e2 * 2ʌ
2ʌ
1 2
1 e*2ʌ
Approximation der Binomialverteilung durch die Normalverteilung
254
Kapitel 19 Die Normalverteilung
f(4 B(4;0,5) )
1 2ʌ
e
4 2 2
1
2
2ʌ
e2
1 e2 * 2ʌ
Die Ergebnisse sind in Tabelle 19.1 aufgeführt. Zum besseren Vergleich sind die "Originalwerte" der Binomialverteilung ebenfalls dargestellt sowie die Differenz zwischen den Werten der Binomialverteilung und denen der approximierenden Normalverteilungsfunktion. Tabelle 19.1: B(4; 0,5) und N(2; 1) P(X=k) Binomialverteilung X=k
Approximierende Normalverteilung
Differenz
0
0,0625
0,05399097
-,00850903
1
0,2500
0,24197072
-,00802928
2
0,3750
0,39894228
,02394228
3
0,2500
0,24197072
-,00802928
4
0,0625
0,05399097
-,00850903
Mit Hilfe der Funktion können wir aber natürlich nicht nur einen Funktionswert für die diskreten Werte der entsprechenden Binomialverteilung ausrechnen, sondern für jeden Wert der x-Achse, da die Normalverteilung – im Gegensatz zur Binomialverteilung – eine stetige Funktion ist, d.h. für jeden beliebigen reellen XWert gibt es einen dazugehörigen Funktionswert. Die die Binomialverteilung B(4; 0,5) approximierende Normalverteilung ist grafisch in Abbildung 19.3 dargestellt. Abbildung 19.3: B(4; 0,5) und N(2; 1) 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0
1
2
3
4
Wie man aus der Tabelle und der Grafik sieht, überschätzt die Approximation den Mittelwert um etwas mehr als 2 Prozentpunkte und unterschätzt die am Rand liegenden Werte.
Kapitel 19 Die Normalverteilung
255
Nachfolgend sind sowohl die Tabellen als auch die grafischen Darstellungen der Binomialverteilungen B(10; 0,5) und B(20; 0,5), sowie die entsprechenden approximierenden Normalverteilungen aufgeführt. Abbildung 19.4: B(10; 0,5) und N(5; 2,5) 0,3 0,25 0,2 0,15 0,1 0,05 0
0
1
2
3
4
5
6
7
8
9
10
Tabelle 19.2: B(10; 0,5) und N(5; 2,5) P(X=k)
Binomialverteilung
Approximierende Normalverteilung
Differenz
0
0,00097656
0,00169873
0,00072217
1
0,00976562
0,01027997
0,00051434
2
0,04394531
0,04169758
-0,00224773
3
0,1171875
0,11336568
-0,00382182
4
0,20507813
0,2065875
0,00150938
5
0,24609375
0,25233541
0,00624166
6
0,20507812
0,2065875
0,00150938
7
0,1171875
0,11336568
-0,00382182
8
0,04394531
0,04169758
-0,00224773
9
0,00976563
0,01027997
0,00051434
10
0,00097656
0,00169873
0,00072217
X=k
Die Approximation wird hier schon deutlich besser, der größte Fehler tritt wieder bei der Schätzung des Mittelwerts auf und beträgt nur noch ungefähr 0,6 Prozentpunkte.
256
Kapitel 19 Die Normalverteilung
Abbildung 19.5: B(20; 0,5) und N(10; 5) 0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0
0
2
4
6
8
10
12
14
16
18
20
Tabelle 19.3: B(20; 0,5) und N(10; 5) P(X=k)
Binomialverteilung
X=k
Approximierende Normalverteilung
Differenz
0
0,00000095
0,0000081
0,00000714
1
0,00001907
0,00005413
0,00003506
2
0,0001812
0,00029634
0,00011514
3
0,00108719
0,00132821
0,00024102
4
0,00462055
0,00487397
0,00025342
5
0,01478577
0,0146432
-0,00014256
6
0,03696442
0,03601844
-0,00094598
7
0,07392883
0,07253531
-0,00139352
8
0,12013435
0,11959414
-0,00054021
9
0,16017914
0,16143815
0,00125901
10
0,17619705
0,17841784
0,00222078
11
0,16017914
0,16143815
0,00125901
12
0,12013435
0,11959414
-0,00054021
13
0,07392883
0,07253531
-0,00139352
14
0,03696442
0,03601844
-0,00094598
15
0,01478577
0,0146432
-0,00014256
16
0,00462055
0,00487397
0,00025342
17
0,00108719
0,00132821
0,00024102
18
0,0001812
0,00029634
0,00011514
19
0,00001907
0,00005413
0,00003506
20
0,00000095
0,0000081
0,00000714
Kapitel 19 Die Normalverteilung
257
Wie man sieht, wird die Approximation mit höherem n immer besser und ist schon bei n = 20 auf Zehntel Prozentpunkte genau. Es gibt nun verschiedene Faustregeln, ab wann eine Binomialverteilung durch eine Normalverteilung hinreichend genau approximiert wird: Kasten 19.1: Faustregeln für die Approximation einer Binomialverteilung durch eine Normalverteilung Ferguson (nach Clauß/Ebner 1982: 172f; siehe auch Fahrmeir et al. 2001: 316) n * P t 5 UND n * (1- P) t 5 bzw. Min[n * P,n * (1- P)] t 5
Pflanzagl (nach Clauß/Ebner 1982: 161) n * P * (1 P) t 9
Hamilton (nach Kühnel/Krebs 2001: 204) n
P 1 P 1 P · § P ! 9 UND n ! 9 bzw. Min ¨ n ,n !9 1 P P 1 P P ¸¹ ©
Nach den Faustregeln von Ferguson und Hamilton wird die Binomialverteilung Faustregeln für die Approximation z.B. ausreichend genau durch eine entsprechende Normalverteilung approximiert, wenn n größer oder gleich 10 ist, solange P und (1-P) beide 0,5 sind. Nach der Faustregel von Pflanzagl sollte n mindestens 36 betragen. Wie groß n sein soll, damit die Approximation als hinreichend genau empfunden wird, hängt natürlich von der Größe des Fehlers ab, den zu akzeptieren man bereit ist. Wichtig ist, dass n umso größer ausfallen muss, je stärker sich P und (1-P) unterscheiden.
19.2 Wahrscheinlichkeitsdichtefunktion und Verteilungsfunktion der Normalverteilung Auch wenn die Wahrscheinlichkeiten der diskreten Ausprägungen einer binomialverteilten Zufallsvariablen X mit Hilfe der durch die Glockenkurve approximierten Werte gut geschätzt werden können, so wäre es ein Fehler, diese Werte ebenfalls als Wahrscheinlichkeiten zu interpretieren. Dies kann nicht sein, da es sich bei der Normalverteilungskurve um eine stetige Funktion handelt, d.h. es existieren unendlich viele X-Werte und die dazugehörigen Funktionswerte. Die Summe der Funktionswerte ist demnach ebenfalls unendlich groß, was aber eindeutig der Eigenschaft einer Wahrscheinlichkeitsverteilung widerspricht, dass die Summe sich zu Eins addieren muss. Tatsächlich muss die Wahrscheinlichkeit des Auftretens eines ganz bestimmten Wertes auch annähernd Null sein, da es ja unendlich viele solcher Werte gibt. Über die Wahrscheinlichkeit des Auftretens von Werten einer kontinuierlichen Variable lässt sich daher nicht in Bezug auf bestimmte
Bei stetigen Funktionen Wahrscheinlichkeiten nicht für einzelne Werte, sondern für Intervalle
258
Kapitel 19 Die Normalverteilung
Werte, sondern nur in Bezug auf Intervalle von Werten sprechen. Wir können daher bei einer kontinuierlichen Variable niemals eine Aussage der Art machen: "Die Wahrscheinlichkeit, dass die Variable X den Wert x annimmt, ist gleich p." Lediglich Aussagen von der Art "Die Wahrscheinlichkeit, dass die Variable X einen Wert zwischen z1 und z2 annimmt, ist gleich p." sind bezüglich stetiger Variablen zulässig. Der Wert der Funktion, die durch die Glockenkurve gebildet wird, an der Stelle z2 gibt dann an, in welchem Ausmaß die Wahrscheinlichkeit, dass x innerhalb eines bestimmten Intervalls von z1 bis z2 liegt, zunimmt, wenn wir die obere Intervallgrenze um ein kleines Stück nach rechts von z2 verschieben. Die Glockenkurve gibt somit die Änderung der Wahrscheinlichkeiten an in Abhängigkeit der Änderung der Intervallgrenzen, sie ist die Ableitung der Wahrscheinlichkeit. Man könnte auch sagen, der Wert der Glockenkurve gibt an, wie "dicht" die Wahrscheinlichkeit innerhalb eines bestimmten Abschnitts gepackt ist. Aus diesem Grund wird die Glockenkurve, bzw. die dazugehörige Funktion, die Wahrscheinlichkeitsdichtefunktion der Normalverteilung genannt. Da diese die Ableitung der Wahrscheinlichkeit ist, heißt dies, dass wir umgekehrt die Wahrscheinlichkeit als Integral der Dichtefunktion bilden können. Integrale können immer als Flächen unter der Kurve dargestellt werden. Beispiel zur Intervallberechnung
Kommen wir zu einem konkreten Beispiel. Wenn wir mit Hilfe der approximierenden Normalverteilungsfunktion die Wahrscheinlichkeit schätzen wollen, dass innerhalb von 10 Münzwürfen 3mal 'Kopf' auftritt, dann müssen wir als erstes das Intervall festlegen, das in der Normalverteilung dem diskreten Wert von 3 in der Binomialverteilung entspricht. Da ja für jede diskrete ganze Zahl ein solches Intervall festgelegt werden muss, muss die Intervallbreite genau 1 sein. Die nahe liegende Lösung der Festlegung der Intervallgrenzen liegt daher bei 2,5 und 3,5. Die Wahrscheinlichkeit von 3 in der diskreten Binomialverteilung wird durch die Wahrscheinlichkeit geschätzt, dass in der entsprechenden Normalverteilung ein X-Wert zwischen 2,5 und 3,5 auftritt. Das ist aber nichts anderes als das Integral der Wahrscheinlichkeitsdichtefunktion von 2,5 bis 3,5 bzw. die Fläche unter der Kurve, die durch diese Intervallgrenzen abgesteckt ist, wie sie in der folgenden Abbildung zu sehen ist.
Kapitel 19 Die Normalverteilung
259
Abbildung 19.6: Wahrscheinlichkeit als Intervall unter einer Normalverteilungskurve
Die entsprechende Integralfunktion lautet:
ˆ P(X
3,5
3) |
³ı
2,5
1 2ʌ
e
1 § t µ · ¨ ¸ 2© ı ¹
2
dt
mit Pˆ P
Schätzwert von P aufgrund der Normalverteilung nP
V
5
nP(1 P)
2,5 | 1,58
Das Integral von den Intervallgrenzen 2,5 bis 3,5 lässt sich auch als Differenz des Integrals von -f bis 3,5 und des Integrals von -f bis 2,5 berechnen. ˆ P(X
ˆ d 3) P(X ˆ d 2) 3) P(X 3,5
|
³V
-f
1 2S
e
1 § t P · ¨ ¸ 2© V ¹
2
2,5
dt ³
-f
1 V 2S
e
1 § t P · ¨ ¸ 2© V ¹
2
dt
Allgemein gilt: Das Integral von -f bis x umfasst also die Wahrscheinlichkeit, dass irgendein Wert von X kleiner oder gleich x ist. Diese Funktion von x wird die Verteilungsfunktion ) (gesprochen Phi) der Normalverteilung genannt. Die Werte von Verteilungsfunktionen geben immer den Anteil der Werte an, die unter einer bestimmten Grenze liegen.
260
Kapitel 19 Die Normalverteilung
Definition 19.3: Die Verteilungsfunktion der Normalverteilung x
)(x) P(X d x)
³ı
-f
1 2ʌ
e
1 § t µ · ¨ ¸ 2© ı ¹
2
dt
Der Wert der Verteilungsfunktion bei 3,5 ist z.B. die Fläche unter der Kurve von – f bis 3,5, wie in Abbildung 19.7 dargestellt. Abbildung 19.7
Verteilungsfunktion und Standardnormalverteilung
Die Verteilungsfunktion ist ziemlich komplex und lässt sich nicht ohne weiteres auf analytischem Wege gewinnen, so dass wir nicht einfach die entsprechenden Argumentwerte in die Funktion einsetzen können, um den Wert der Funktion selbst zu ermitteln. Dazu müssen relativ aufwändige numerische Berechnungen durchgeführt werden. Hierbei können wir uns jedoch unser Wissen zunutze machen, dass alle Normalverteilungskurven dieselbe Form haben. Das bedeutet nämlich, dass sich innerhalb bestimmter Teile der Kurven, die durch charakteristische Punkte der Kurve gekennzeichnet sind, immer der gleiche Anteil der Fläche unter der gesamten Kurve befindet. Solche charakteristischen Punkte sind etwa die beiden Wendepunkte der Glockenkurve. Diese befinden sich jeweils genau eine Standardabweichung rechts und eine Standardabweichung links vom Mittelpunkt entfernt. So können wir jeden X-Wert der Funktion als Abstand zum Mittelwert der Verteilung in Einheiten der Standardabweichung ausdrücken. Wenn wir die ursprünglichen X-Werte auf diese Weise transformieren, erhalten wir die so genannte Standardnormalverteilung. Die transformierten Werte geben jetzt die Distanz vom Mittelwert in Standardabweichungen wieder. Der Mittelwert der transformierten Werte ist daher 0. Die Standardabweichung der transformierten Werte muss außerdem gleich 1 werden, denn der Wert, der der ursprünglichen Standardabweichung entsprach, war ja genau einmal diese Standardabweichung vom Mittelwert entfernt. Kurz: Die Standardnormalverteilung ist diejenige aus der Familie aller Normalverteilungen, die den Mittelwert 0 und die Standardabweichung 1 besitzt, also N(0; 1). Es hat sich eingebürgert, für die Argumentwerte sowohl der Wahrscheinlichkeitsdichtefunktion als auch der Verteilungsfunktion der Stan-
Kapitel 19 Die Normalverteilung
261
dardnormalverteilung den Buchstaben z zu verwenden. Manchmal nennt man die Standardnormalverteilung daher auch einfach z-Verteilung. Definition 19.4: Wahrscheinlichkeitsdichtefunktion der Standardnormalverteilung 1
f(z)
2S
e
z 2
2
mit Der Mittelwert aller Z-Werte ist gleich 0. Die Standardabweichung der Z-Werte ist gleich 1. Grafisch sieht die Standardnormalverteilung folgendermaßen aus: Abbildung 19.8: Dichtefunktion der Standardnormalverteilung 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 -4
-2
0
2
4
Die Standardnormalverteilung ist derart normiert, dass die Fläche unter der Kurve 1 beträgt. Die Verteilungsfunktion der Standardnormalverteilung ist: Definition 19.5: Verteilungsfunktion der Standardnormalverteilung z
)(z)
³
-f
1 2S
e
t2 2
dt
Die dazugehörige Funktionskurve der Verteilungsfunktion steigt stetig an. Sie beginnt bei -f mit annähernd 0, erhält genau den Wert 0,5 bei z = 0 und nähert sich der 1, wenn z größer wird.
262
Kapitel 19 Die Normalverteilung
Abbildung 19.9: Verteilungsfunktion der Standardnormalverteilung 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 -4
-2
0
2
4
Die Werte der Verteilungsfunktion der Standardnormalverteilung können nun berechnet werden. Sie sind hier wie üblicherweise in Statistikbüchern als Tabelle im Anhang (A1) enthalten. Z-Transformation
Für jede beliebige Normalverteilung N(P; V2) kann nun für jeden X-Wert unter Zuhilfenahme der tabellierten Werte der Standardnormalverteilung der Wert der Verteilungsfunktion angegeben, bzw. aus der Tabelle abgelesen werden. Dazu ist es lediglich notwendig, den X-Wert als Abstand vom Mittelwert in Einheiten der Standardabweichung auszudrücken. Hierfür verwenden wird die uns schon aus Definition 14.18 bekannte Formel der Fisher-Z-Transformation. Definition 19.6: Fisher-Z-Transformierung z
x P V
Der so transformierte Wert kann nun aus der Tabelle der Standardnormalverteilung abgelesen werden. Kommen wir zu unserem Beispiel zurück, wie groß wir die Wahrscheinlichkeit schätzen, dass innerhalb von 10 Münzwürfen 3mal 'Kopf' auftritt. Dazu müssen wir das Integral von 2,5 bis 3,5 ausrechnen. Die Integralgrenzen entsprechen in der Standardnormalverteilung den folgenden Werten.
z(3,5)
z(2,5)
3,5 5
1,5
10 * 0,5 * 0,5
2,5
2,5 5
2,5
10 * 0,5 * 0,5
2,5
| 0,9487
| 1,5811
Kapitel 19 Die Normalverteilung
263
Die dazugehörigen Werte der Verteilungsfunktion können nun direkt aus einer Tabelle abgelesen werden. In diesem Buch sind im Anhang die Werte auf zwei Nachkommastellen angegeben, so dass wir in unserem Beispiel nach den Werten für í0,95 und –1,58 suchen. Wir erhalten dabei: )( 0,95)
0,1711
)( 1,58)
0,0571
Die Fläche unter der Kurve zwischen –1,58 und –0,95 ist die Differenz aus den beiden Werten. 0,95
³
f(t)dt
)( 0,95) )( 1,58) 0,1711 0,0571 0,1140
1,58
Der tatsächliche Wert der Binomialverteilung betrug auf vier Kommastellen ge- Güte der Approximation durch die Verteilungsrundet 0,1172 (vgl. Tabelle 19.2). Die Näherung ist also ziemlich gut, sie fällt funktion geringfügig besser aus als die Näherung mit dem Wert der Dichtefunktion, der bei 0,1134 lag (vgl. Tabelle 19.2). Manchmal sind in den Tabellen nicht alle Werte der Verteilungsfunktion der Berechnung ein- und beidseitiger Werte Standardnormalverteilung aufgeführt, sondern nur die der einen Seite der Funktion. Wegen der symmetrischen Struktur der Kurve der Normalverteilung ist dies ohne Informationsverlust ausreichend. Man muss unter Umständen lediglich folgende Umrechnungsformel verwenden: )( z) 1 )(z)
Da sich links von –z wegen der symmetrischen Struktur der Kurve eine genau so große Fläche wie rechts von z befindet, muss der Flächeninhalt links von –z auch identisch mit dem gesamten Flächeninhalt minus den links von z liegenden sein. Da der gesamte Flächeninhalt unter der Kurve aber 1 ist, ergibt sich unmittelbar die obige Umrechnungsformel. Dem einen oder anderen Leser mag sich langsam die Frage aufgedrängt haben, Berechnung kumulierter Wahrscheinlichkeiten wozu dies alles denn gut sei. Insbesondere das Konzept der Verteilungsfunktion liefert uns ja nur einen unwesentlich besseren Schätzwert für einen bestimmten Wert einer Binomialverteilung, als wir ihn mit der wesentlich einfacheren Dichtefunktion der Normalverteilung erzielt haben. Deren Wert konnten wir auf relativ einfache Weise noch selbst berechnen, indem wir die entsprechenden Werte in die Formel einsetzten. In der Tat, ginge es nur um die Schätzung bestimmter einzelner Werte einer Binomialverteilung durch die Normalverteilung, dann könnten wir uns mit der Dichtefunktion begnügen. Der eigentliche Gewinn der Annäherung der Binomialverteilung durch die Normalverteilung aber besteht darin, dass wir
264
Kapitel 19 Die Normalverteilung
mit Hilfe der Normalverteilung die kumulierte Wahrscheinlichkeit für einen ganzen Bereich von Werten errechnen können. Wenn wir die weiter oben erwähnte Wahrscheinlichkeit errechnen wollen, dass bei 100 Münzwürfen 'Kopf' zwischen 40- und 60mal auftritt, so können wir diese Wahrscheinlichkeit durch die Normalverteilung schätzen als die Fläche unter der Standardnormalverteilung, die genau diesem Intervall entspricht. Die Intervallgrenzen des kritischen Bereichs liegen bei 39,5 und 60,5. Der Mittelwert von B(100; 0,5) liegt bei 50, die Standardabweichung ist gleich 100 * 0,5 * 0,5 = 5. Die Intervallgrenzen liegen bei 50 r 10,5, sind also das 2,1fache der Standardabweichung vom Mittelwert entfernt. Wenn wir also die Wahrscheinlichkeit suchen, bei 100 Münzwürfen mindestens 40- und nicht mehr als 60mal 'Kopf' zu erhalten, dann entspricht das der Fläche unter der Standardnormalverteilung von –2,1 bis 2,1. Abbildung 19.10: B(100; 0,5) 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0 30
35
40
45
50
55
Abbildung 19.11: Standardnormalverteilung
60
65
70
Kapitel 19 Die Normalverteilung
265
)(2,10) 0,9821 )( 2,10) 1 0,9821 0,0179 )(2,10) )( 2,10)
0,9821 0,0179
0,9642
Die Summe aller konkreten Werte der Binomialverteilung von 40 bist 60 war 0,9648. Die Schätzung der Wahrscheinlichkeit, dass das Ergebnis in das betreffende Intervall fällt, ist also mit Hilfe der Normalverteilung bis auf die dritte Kommastelle, d.h. bis auf ein Zehntel Prozent, genau. Die Genauigkeit der Schätzung nimmt noch weiter zu, je größer n wird. Bedenkt man den ungeheuerlichen Rechenaufwand, der allein schon notwendig gewesen wäre, die Binomialkoeffi§ 100 ·
§ 100 ·
zienten von ¨ ¸ bis ¨ ¸ zu berechnen, und vergleicht ihn mit dem Zeitauf© 40 ¹ © 60 ¹ wand, den uns die Transformation der Intervallgrenzen und das Nachschlagen der entsprechenden Werte der Verteilungsfunktion der Standardnormalverteilung gekostet hat, dann kann man erst ermessen, welch einen gewaltigen Durchbruch die Approximation der Binomialverteilung durch die Normalverteilung bedeutet.
266
Kapitel 20 Das zentrale Grenzwerttheorem
20 Das zentrale Grenzwerttheorem Zufallsvariable: Summe der Würfelaugen
Den vollen Umfang der Bedeutung der Normalverteilung kann man erst erfassen, wenn einem klar wird, wie groß die Bandbreite ihrer Anwendungsmöglichkeiten ist. Wir wollen uns dazu eine andere Zufallsvariable betrachten, nämlich die Summe der Augenzahlen beim Werfen eines Würfels. Da bei der Durchführung eines einzelnen Wurfes mehr als zwei Ergebnisse möglich sind, handelt es sich bei dem zugrunde liegenden Experiment nicht mehr um ein Bernoulli-Experiment, und die Werte sind daher nicht binomialverteilt. (Tatsächlich handelt es sich hier um eine so genannte Multinomialverteilung.) Beim einmaligen Werfen eines Würfels kann die Summe der Augenzahlen 1 bis 6 betragen, beim zweimaligen Werfen 2 bis 12 usw. In den Abbildungen 20.1a-h sind die Wahrscheinlichkeitsverteilungen der Summen der Augenzahlen für 1, 2, 3, 4, 10, 20, 50 und 100 Würfe des Würfels aufgezeigt. Schon ab drei Würfen ist zu erkennen, dass die Verteilung der Summe der Augenzahlen die uns bekannte glockenförmige Form bekommt. Schon bei n = 10 ist die Form der Verteilung sehr nahe an der einer Normalverteilungskurve. Ebenfalls bemerken wir auch hier den aus der Binomialverteilung bekannten Effekt, dass sich der Großteil der Ergebnisse in einem Intervall um den Mittelwert befindet, dessen Breite in Relation zur ganzen Bandbreite der möglichen Ergebnisse abnimmt, je größer die Anzahl der Experimente wird. Abbildungen 20.1a-h: Augensummen bei Würfen Abbildung 20.1a: 1 Wurf
1
2
3
4
Abbildung 20.1b: 2 Würfe
5
6
2
Abbildung 20.1c: 3 Würfe
3
6
9
12
3
4
5
6
7
8
9
10
11
12
Abbildung 20.1d: 4 Würfe
15
18
4
8
12
16
20
24
Kapitel 20 Das zentrale Grenzwerttheorem
Abbildung 20.1e: 10 Würfe
10
15
20
25
30
35
40
45
Abbildung 20.1f: 20 Würfe
50
55
60
Abbildung 20.1g: 50 Würfe
50
75
100
125
150
175
200
225
267
20
30
40
50
60
70
80
90
100
110
120
Abbildung 20.1h: 100 Würfe
250
275
300
100
150
200
250
300
350
400
450
500
550
600
Wir sollten uns noch einmal verdeutlichen, wodurch die Glockenform entsteht. Warum eine Glockenform? Sie ist eine Folge davon, dass die Anzahl der Kombinationen, durch die ein bestimmtes Ergebnis zu Stande kommt, desto höher ausfällt, je näher sich dieses Ergebnis bei der Mitte der Verteilung befindet. Bei dreimaligem Werfen eines Würfels können z.B. Summen der Augenzahlen von 3 bis 18 auftreten. Insgesamt gibt es 216 = 6*6*6 verschiedene Sequenzen von drei Augenzahlen, die bei der Durchführung des Experiments auftreten können. Von diesen 216 möglichen Reihenfolgen von Augenzahlen gibt es nur eine einzige, bei der die Augensumme 3 beträgt, nämlich wenn der erste, der zweite und der dritte Wurf eine '1' ergeben. Die Wahrscheinlichkeit, dass die Summe der Augenzahlen dreier Würfelwürfe 3 ergibt, ist daher 1/216. Wie groß ist dagegen z.B. die Wahrscheinlichkeit, dass die Summe der drei Augenzahlen 6 ergibt? Es gibt mehrere Möglichkeiten, wie diese Summe zustande kommen kann, z.B. durch zweimaliges Werfen der '1' und einer '4', oder durch dreimaliges Werfen der '2', oder durch eine '1', eine '2' und eine '3'. Dabei gibt es für manche dieser so genannten Partitionen noch einmal verschiedene Reihenfolgen, in denen sie auftreten können. Während dreimal '2' nur in einer Reihenfolge auftreten kann, können '1', '2' und '3' in 3! = 3*2*1 – also 6 – verschiedenen Reihenfolgen auftreten. Sämtliche möglichen Reihenfolgen, die bei dreimaligem Werfen eines Würfels auftreten können, so dass die Summe der Augenzahlen 6 ergibt, sind in der folgenden Tabelle 20.1 aufgeführt.
268
Kapitel 20 Das zentrale Grenzwerttheorem
Tabelle 20.1: Mögliche Abfolgen von drei Würfen mit einem Würfel, die die Augensumme 6 ergeben Partitionen 1, 1, 4
1, 2, 3
1, 4, 1
1, 3, 2
4, 1, 1
2, 1, 3
2, 2, 2
2, 3, 1 3, 1, 2 3, 2, 1
Es gibt 10 verschiedene Reihenfolgen von drei Augenzahlen eines Würfels, die als Summe 6 ergeben. Die Wahrscheinlichkeit, bei dreimaligem Werfen diese Summe zu erhalten, beträgt demnach 10/216. Sog zur Mitte
Je mehr Würfe mit dem Würfel durchgeführt werden, deren Augenzahlen summiert werden, desto größer wird die absolute und die relative Anzahl der Kombinationen, die ein Ergebnis in der Mitte der Verteilung ergeben. Die Verzerrung oder der 'Bias' zugunsten der Mitte wird immer stärker. Wir können auch sagen, je mehr Versuche durchgeführt werden, desto stärker wird der "Sog", den die Mitte ausübt, das Ergebnis an sich heranzuziehen, oder wir könnten von einer Art "Gravitationskraft" der Mitte sprechen, die durch die Anzahl der möglichen Kombinationen bestimmt wird. Umgekehrt kann sich eine Randposition immer weniger wahrscheinlich behaupten, je häufiger gewürfelt wird. Bei einmaligem Werfen eines Würfels sind die "extremen" Ergebnisse '1' oder '6' genau so häufig wie jedes andere Ergebnis. Eine einmal so "erkämpfte" Randposition kann aber nur behauptet werden, wenn auch das nächste Ergebnis wieder extrem ausfällt. Nur wenn auf die erste '1' wieder eine '1' fällt, bleibt die Extremposition am linken Rand erhalten. Randpositionen sind insofern ausgesprochen instabil, da sie, wenn einmal verlassen, nie wieder "zurückerobert" werden können. Positionen in der Mitte jedoch sind insofern stabil, da man zu ihnen aufgrund zukünftiger Ergebnisse zurückkehren kann, auch wenn man sie aufgrund vergangener Ergebnisse einmal verlassen hat. Eine Randposition bleibt nur eine Randposition, wenn die Zukunft in einer einzigen ganz bestimmten Art und Weise verläuft, Positionen in der Mitte bleiben in vielen verschiedenen möglichen Zukünften erhalten.
Glockenform entsteht auch bei einer schiefen Ausgangsverteilung
Der durch die Mitte ausgeübte "Sog" ist so stark, dass er, wenn die Anzahl der Versuche groß genug ist, auch jede Schiefe oder Unregelmäßigkeit der Verteilung des zugrunde liegenden Basis-Zufallsexperiments ausgleicht und schließlich vollständig kompensiert. Der Vorteil der Mitte übertrifft am Ende jeglichen Positionsvorteil innerhalb der Verteilung des Basis-Zufallsexperiments. Wir konnten dies schon in den Abbildungen 19.2a-f erkennen, die die Binomialverteilungen eines Bernoulli-Experiments wiedergeben, bei dem das kritische Ereignis mit ei-
Kapitel 20 Das zentrale Grenzwerttheorem
269
ner Wahrscheinlichkeit von 0,8 auftritt. Der deutliche Vorteil des Auftretens von '1' im Gegensatz zu '0' als Ergebnis eines einzelnen Bernoulli-Experiments führt zunächst zu einer überproportionalen Häufung der Ergebnisse am rechten Rand der Verteilung. Wir erhalten eine rechtssteile bzw. linksschiefe Verteilung. Je größer die Anzahl der durchgeführten Experimente jedoch wird, desto symmetrischer wird die Form der Verteilung. Das Gewicht der Anzahl der möglichen Kombinationen setzt sich gegenüber dem größeren Gewicht des Einzelergebnisses schließlich durch. Bei hinreichend großem n wird das Verhältnis der Wahrscheinlichkeiten bestimmter Ergebnisse zueinander fast nur noch durch die Anzahl der Kombinationen bestimmt, mit denen diese Ergebnisse jeweils auftreten. Die Differenz der Wahrscheinlichkeit eines bestimmten Ergebnisses zur Wahrscheinlichkeit des unmittelbar benachbarten Ergebnisses ist schließlich allein durch die verschiedenen Anzahlen der Kombinationen determiniert. Daher ergibt sich immer die Normalverteilungskurve, wenn wir eine Zufallsvariable als Summe aus den Werten einer Basis-Zufallsvariablen bilden und diese Werte jeweils das Ergebnis unabhängig voneinander durchgeführter Zufallsexperimente sind. Zur weiteren Illustration dieses Zusammenhangs sind in den Abbildungen 20.2a-h Glockenform entsteht auch bei zweigipfliger die Verteilungen einer Zufallsvariablen für n = 1, n = 2, n = 3, n = 4, n = 10, Ausgangsverteilung n = 20, n = 50 und n = 100 wiedergegeben, die als Summe der Werte einer bimodalen Basis-Zufallsvariablen gebildet wurden. Die Basis-Zufallsvariable, deren Wert durch die Durchführung eines einzelnen Zufallsexperiments ermittelt wird, nimmt in diesem Beispiel die Werte '0' und '2' jeweils mit Wahrscheinlichkeit 0,4 an, während sie den Wert '1' mit der Wahrscheinlichkeit 0,2 annimmt. Führt man dieses Zufallsexperiment wiederholt durch und addiert jedes Mal den Ergebniswert des Experiments, so entsteht auch hier wieder eine Normalverteilung, wenn man das Experiment häufig genug wiederholt. Abbildungen 20.2a-h: Verteilungen der Zufallsvariablen als Summe der BasisZufallsvariable bei n Versuchen Abbildung 20.2a: 1 Versuch (0,4; 0,2; 0,4)
0
1
Abbildung 20.2b: 2 Versuche (0,4; 0,2; 0,4)
2
0
1
2
3
4
270
Kapitel 20 Das zentrale Grenzwerttheorem
Abbildung 20.2c: 3 Versuche (0,4; 0,2; 0,4)
0
1
2
3
4
Abbildung 20.2d: 4 Versuche (0,4; 0,2; 0,4)
5
6
0
Abbildung 20.2e: 10 Versuche (0,4; 0,2; 0,4)
0
2
4
6
8
10
12
14
10
20
30
40
50
60
70
2
3
4
5
6
7
8
Abbildung 20.2f: 20 Versuche (0,4; 0,2; 0,4)
16
18
20
Abbildung 20.2g: 50 Versuche (0,4; 0,2; 0,4)
0
1
0
5
10
15
20
25
30
35
40
Abbildung 20.2h: 100 Versuche (0,4; 0,2; 0,4)
80
90
100
0
20
40
60
80
100
120
140
160
180
200
Auch für eine noch unregelmäßigere Verteilung der Basis-Zufallsvariablen wie in Abbildung 20.3a ergibt sich bei häufiger Wiederholung der Versuche eine Normalverteilung für die Summe aus den Ergebnissen der einzelnen Experimente. Bei diesem Zufallsexperiment setzt sich die Basis-Zufallsvariable aus folgenden Wahrscheinlichkeiten zusammen: Die '0' tritt mit einer Wahrscheinlichkeit von 0,3 auf, die '1' mit 0,1, die '2' mit 0,15, die '3' mit 0,4 und die '4' mit einer Wahrscheinlichkeit von 0,05.
Kapitel 20 Das zentrale Grenzwerttheorem
271
Abbildungen 20.3a-h: Verteilungen der Zufallsvariablen als Summe der BasisZufallsvariable bei n Versuchen Abbildung 20.3a: 1 Versuch
0
1
2
Abbildung 20.3b: 2 Versuche
3
4
0
Abbildung 20.3c: 3 Versuche
0
1
2
3
4
5
6
7
8
9
5
10
15
20
25
10
30
11
12
20
40
60
80
100
120
140
35
160
3
4
5
6
7
8
0
2
4
6
8
10
12
14
16
Abbildung 20.3f: 20 Versuche
40
Abbildung 20.3g:50 Versuche
0
2
Abbildung 20.3d: 4 Versuche
Abbildung 20.3e: 10 Versuche
0
1
0
10
20
30
40
50
60
70
80
Abbildung 20.3h: 100 Versuche
180
200
0
40
80
120
160
200
240
280
320
360
400
Also: Unabhängig von der Ausgangsform der Verteilung einer Zufallsvariablen ergibt sich, dass die Summe aus n solcher Zufallsvariablen immer normalverteilt ist.
272
Kapitel 20 Das zentrale Grenzwerttheorem
Zentraler Grenzwertsatz
Dieser Zusammenhang ist als der zentrale Grenzwertsatz bekannt. Der Grenzwertsatz von De Moivre ist nur ein Spezialfall des zentralen Grenzwertsatzes. Da der zentrale Grenzwertsatz nicht nur für Binomialverteilungen, sondern für alle möglichen Verteilungsformen gilt, ist er sehr schwer zu beweisen. Seine Richtigkeit wurde zwar schon von Mathematikern des 18. Jahrhunderts vermutet, konnte aber erst in den 30er-Jahren des 20. Jahrhunderts von Lindeberg und Lévy unabhängig voneinander bewiesen werden. Genau genommen wurde zwar "nur" bewiesen, dass der Grenzwertsatz gilt, wenn bestimmte Bedingungen der zugrunde liegenden Verteilung der Zufallsvariablen erfüllt sind. In den Zusammenhängen, in denen uns der zentrale Grenzwertsatz begegnet, können wir aber problemlos davon ausgehen, dass diese Bedingungen erfüllt sind und das Theorem somit in diesen Zusammenhängen auch gültig ist. Mit Hilfe des zentralen Grenzwertsatzes können wir nicht nur die Form der Verteilung einer Zufallsvariablen, die als Summe von n Zufallsvariablen gebildet wird, als Normalverteilung identifizieren, wir können darüber hinaus sogar ihren Erwartungswert und ihre Varianz bestimmen.
Berechnung von Erwartungswert und Varianz einer Variablen, die durch Linearkombination einer oder mehrerer Zufallsvariablen gebildet wurde
Erwartungswerte und Varianzen von Zufallsvariablen, die als Linearkombination einer oder mehrerer Zufallsvariablen gebildet werden, können nämlich problemlos aus den Erwartungswerten und Varianzen der originalen Zufallsvariable berechnet werden. Nehmen wir beispielsweise an, eine neue Zufallsvariable Y werde durch eine lineare Transformation der Zufallsvariablen X gebildet. Dann ist Y eine lineare Funktion von X und lässt sich als Gleichung der Form Y = a+b*X darstellen und grafisch abbilden (s. Abbildung 20.4). Die Konstante a gibt dabei den YAchsenabschnitt der Geraden an, die Konstante b ist die Steigung der Geraden mit b = 'Y/'X. Abbildung 20.4: Lineartransformation von X 8 7 6 5
Y4
dY
3 2
dX
1 0 0
1
2
3
4
5
6
7
8
9
10
11
12
13
X
Durch die Konstante a wird der Wertebereich entlang der y-Achse verschoben, durch die Konstante b kommt es hingegen zu einer Streckung oder Stauchung des Wertebereichs entlang der x-Achse. Es sei beispielsweise Y = 1+0,5*X. Es gebe
Kapitel 20 Das zentrale Grenzwerttheorem
273
vier X-Werte, die auf diese Art transformiert werden. Die Argumentwerte sowie die Ergebniswerte sind in Tabelle 20.2 aufgeführt. Tabelle 20.2 X
Y=1+0,5*X
2
2
5
3,5
7
4,5
10
6
Der Erwartungswert und die Varianz von X und Y lassen sich direkt ausrechnen. 2 5 7 10 24 6 4 4 2 2 (2 - 6) (5 - 6) (7 - 6)2 (10 - 6)2 Var(X) 4
E(X)
STD(X)
8,5
16 1 1 16 4
8,5
2,915
2 3,5 4,5 6 16 4 4 4 2 2 (2 - 4) (3,5 - 4) (4,5 - 4)2 (6 - 4)2 Var(Y) 4 STD(Y) 2,125 1,458
E(Y)
4 0,25 0,25 4 4
8,5 4
2,125
Der Erwartungswert der transformierten Variable ist der Wert auf der Geraden bei X = 6, also beim Erwartungswert der Argumentvariable. Die Standardabweichung der transformierten Variable 1,458 ist die Hälfte der Standardabweichung der Argumentvariable, bzw. die Standardabweichung der Originalvariable, multipliziert mit der Steigung der Geraden. Entsprechend ist die Varianz der transformierten Variablen die Varianz der Originalvariable, multipliziert mit dem Quadrat der Steigung der Geraden. Allgemein gilt für jede transformierte Variable: Definition 20.1: Erwartungswert und Varianz einer Zufallsvariable, die durch eine lineare Transformation einer anderen Zufallsvariablen gebildet worden ist Y
ab* X
E(Y) E(a b * X) a b * E(X)
Var(Y)
Var(a b * X) b2 * Var(X)
274
Kapitel 20 Das zentrale Grenzwerttheorem
Ebenso lässt sich zeigen, dass für eine Zufallsvariable, die als Linearkombination zweier Zufallvariablen gebildet wird, folgende Gleichungen für den Erwartungswert und die Varianz gelten: Definition 20.2: Erwartungswert und Varianz einer Zufallsvariablen, die als lineare Kombination zweier anderer Zufallsvariablen gebildet worden ist Y
a * X1 b * X2
E(Y) E(a * X1 b * X2 )
a * E(X1 ) b * E(X 2 )
Var(a * X1 b * X2 ) a 2 * Var(X1 ) b 2 * Var(X2 )
Var(Y)
Mit Hilfe der Definitionen 20.1 und 20.2 können Erwartungswert und Varianz aller Zufallsvariablen berechnet werden, die sich als Linearkombination aus beliebig vielen Zufallsvariablen darstellen lassen. Dies gilt natürlich auch für den Spezialfall einer Variablen, die als Summe identisch verteilter Zufallsvariablen gebildet wird. Definition 20.3: Erwartungswert und Varianz einer Zufallsvariablen, die als Summe identisch verteilter Zufallsvariablen gebildet worden ist Y
n
¦X
i
i 1
§ n · E(Y) E ¨ ¦ Xi ¸ ©i1 ¹ Var(Y)
n
¦ E(X ) i
n * E(X j )
i 1
§ n · Var ¨ ¦ Xi ¸ ©i1 ¹
n
¦ Var(X ) i
n * Var(X j )
i 1
mit j ist ein beliebiges i Erwartungswert und Varianz einer binomialverteilten Zufallsvariable als Linearkombination
Auch Erwartungswert und Varianz einer binomialverteilten Zufallsvariable, wie wir sie in den Definitionen 18.4 und 18.6 kennen gelernt haben, können mit den eben eingeführten Formeln unmittelbar berechnet werden, denn die aufgrund einer Bernoulli-Kette gebildete Zufallsvariable gibt an, wie oft ein bestimmtes Ereignis aufgetreten ist. Wenn wir bei der Verteilung des zugrunde liegenden BernoulliExperiments dem Auftreten des Ereignisses den Wert '1' zuweisen und dem Nichtauftreten den Wert '0', dann ist die Anzahl des Auftretens in einer BernoulliKette gleich der Anzahl der Einsen, aber damit zugleich auch die Summe aller Zufallszahlen der einzelnen Experimente, da alle anderen Werte außer der Eins ja Null sind. Der Erwartungswert der einmaligen Durchführung eines BernoulliExperiments ist aber P, die Varianz P(1-P). Daraus ergibt sich für eine Zufallsva-
Kapitel 20 Das zentrale Grenzwerttheorem
riable, die als Summe n solcher einzelnen Zufallsvariablen gebildet wird, dass sie den Erwartungswert n*P und die Varianz n*P(1-P) hat. Als weiteren Spezialfall wollen wir noch einmal die Zufallsvariable der Summe der Augenzahlen beim mehrmaligen Werfen eines Würfels betrachten. Tabelle 20.3 enthält die Werte für das einmalige, zweimalige und dreimalige Werfen eines Würfels. Der Einfachheit halber haben wir die relativen Häufigkeiten, mit denen bestimmte Summen der Augenzahl auftreten, so normiert, dass das seltenste Ereignis mit Häufigkeit 1 auftritt. An der Berechnung des Erwartungswerts oder der Varianz der Verteilung ändert sich dadurch nichts. Bei einmaligem Werfen ergibt sich der Erwartungswert als der Mittelwert der Zahlen von 1 bis 6, also als 3,5. Die Varianz ist der durchschnittliche quadratische Abstand der Werte zu 3,5 und errechnet sich demnach als (2,52 + 1,52 + 0,52 + 0,52 + 1,52 + 2,52)/6 und ergibt 17,5/6, also ungefähr 2,92. Der Erwartungswert der Summe bei zweimaligem Würfeln ist 7, die Varianz ungefähr 5,83. Bei dreimaligem Würfeln beträgt der Erwartungswert 10,5 und die Varianz 8,75. Sowohl der Erwartungswert als auch die Varianz sind direkt proportional zu n, d.h. bei der doppelten Anzahl von Versuchen fallen Erwartungswert und Varianz bezüglich der Summe der Zufallsvariablen ebenfalls doppelt so hoch aus. Die Standardabweichung hingegen nimmt im Verhältnis der Wurzel aus n zu, d.h. vervierfacht man die Anzahl der Experimente, dann wird die Standardabweichung doppelt so groß. Im Verhältnis zur gesamten Spannweite aller möglichen Summenwerte fällt die Standardabweichung also immer geringer aus, je größer n wird. Auch hier gilt also, dass sich die Werte der Verteilung desto enger um den Erwartungswert versammeln, je größer die Anzahl der durchgeführten Basis-Zufallsexperimente ist. Auf einen Blick kann man dies erkennen, wenn man statt der Summe der Zufallsvariablen deren Mittelwert nimmt, denn dieser ist ja nichts anderes als die Relativierung der Summe bezüglich der Anzahl der durchgeführten Versuche (und damit auch die Relativierung zur Spannweite der gesamten Verteilung, da diese ebenfalls direkt proportional zu n ist). In Tabelle 20.4 sind die entsprechenden Werte aufgeführt.
275
276
Kapitel 20 Das zentrale Grenzwerttheorem
Tabelle 20.3 Häufigkeitsverteilung bei Summe der Augenzah- Einmaligem Werfen Zweimaligem Werfen len
Dreimaligem Werfen
1
1
-
2
1
1
-
3
1
2
1
4
1
3
3
5
1
4
6
6
1
5
10
7
-
6
15
8
-
5
21
9
-
4
25
10
-
3
27
11
-
2
27
12
-
1
25
13
-
-
21
14
-
-
15
15
-
-
10
16
-
-
6
17
-
-
3
-
-
1
Erwartungswert
18
3,5
7
10,5
Varianz
2,92
5,83
8,75
Standardabweichung
1,71
2,42
2,96
Kapitel 20 Das zentrale Grenzwerttheorem
Tabelle 20.4 Einmaliges Würfeln
277
Zweimaliges Würfeln
Summe
Mittelwert
Häufigkeit
Summe
1
1
1
-
2
2
1
3
3
4 5 6
Dreimaliges Würfeln Summe
Mittelwert
Häufigkeit
Mittelwert
Häufigkeit
-
-
-
-
2
1,0
1
-
-
-
1
3
1,5
2
3
1,00
1
4
1
4
2,0
3
4
1,33
3
5
1
5
2,5
4
5
1,67
6
6
1
6
3,0
5
6
2,00
10
-
-
7
3,5
6
7
2,33
15
-
-
8
4,0
5
8
2,67
21
-
-
9
4,5
4
9
3,00
25
-
-
10
5,0
3
10
3,33
27
-
-
11
5,5
2
11
3,67
27
-
-
12
6,0
1
12
4,00
25
-
-
-
-
13
4,33
21
-
-
-
-
14
4,67
15
-
-
-
-
15
5,00
10
-
-
-
-
16
5,33
6
-
-
-
-
17
5,67
3
-
-
-
-
18
6,00
1
Erwartungswert
3,5
Erwartungswert
3,5
Erwartungswert
3,5
Varianz
2,92
Varianz
1,46
Varianz
0,97
Standardabw.
1,71
Standardabw.
1,21
Standardabw.
0,99
Bildet man den Mittelwert aus mehreren identisch verteilten Zufallsvariablen, dann bleibt die Spannweite der gesamten Verteilung gleich, aber die Verteilung erstreckt sich über immer feiner abgestufte Werte. Auch der Erwartungswert bleibt konstant, wenn man den Mittelwert aus den aus mehreren Experimenten gewonnenen Werten bildet. Allerdings fällt der überwiegende Teil der Mittelwerte in ein immer engeres Intervall um den Erwartungswert, wie man leicht an der jetzt auch absolut abnehmenden Standardabweichung erkennen kann. Man kann entsprechend den Formeln aus den Definitionen 20.1 und 20.2 nun ebenso den Erwartungswert, die Varianz und die Standardabweichung für den aus mehreren identisch verteilten Zufallvariablen gebildeten Mittelwert berechnen. Die Ergebnisse sind in Definition 20.4 aufgeführt.
278
Kapitel 20 Das zentrale Grenzwerttheorem
Definition 20.4: Erwartungswert, Varianz und Standardabweichung einer Zufallsvariablen, die als Mittelwert identisch verteilter Zufallsvariablen gebildet worden ist Y
1 n ¦ Xi ni1
n
1
¦nX
§ n 1 · E(Y) E ¨ ¦ Xi ¸ ©i1n ¹
Var(Y)
STD(Y)
i
i 1
n
1 n * E(X j ) E(X j ) n
i
i 1
§ n 1 · Var ¨ ¦ Xi ¸ ©i1n ¹
Var(Y)
1
¦ n E(X ) n
§ 1·
¦ ¨© n ¸¹ i 1
2
2
§ 1· * Var(Xi ) n * ¨ ¸ * Var(X j ) ©n¹
Var(X j )
STD(X j )
n
n
1 Var(X j ) n
mit j ist ein beliebiges i Die Varianz ist beim Mittelwert indirekt (umgekehrt) proportional zu n, d.h. erhöht man n auf das Doppelte, dann beträgt die Varianz des Mittelwerts nur noch halb so viel. Die Standardabweichung des Mittelwerts verhält sich entsprechend indirekt proportional zur Wurzel aus n, d.h. die Standardabweichung halbiert sich, wenn die Anzahl der durchgeführten Versuche vervierfacht wird.
Kapitel 21 Stichprobe und Grundgesamtheit
279
21 Stichprobe und Grundgesamtheit In Kapitel 13 wurden so genannte Kennzahlen oder Parameter vorgestellt, die der Beschreibung von Verteilungen dienen sollen. Die beiden wichtigsten dieser Parameter zur Beschreibung der Verteilung einer metrischen Variablen sind der Mittelwert und die Standardabweichung. Das Konzept der Parameter, wie es ursprünglich von Karl Pearson entwickelt wurde, beruht darauf, dass eine Gesamtheit von einzelnen Messwerten, die Verteilung eben, durch wenige charakteristische Kennzahlen beschrieben werden kann, die bestimmte Eigenschaften der Verteilung konzentriert in einer Zahl wiedergeben. So gibt der Mittelwert die durchschnittliche Ausprägung aller Messwerte an, während die Standardabweichung eine Aussage darüber macht, wie weit ein einzelner Messwert durchschnittlich vom Mittelwert der Gesamtheit der Messwerte abweicht. Der Mittelwert kann somit als der Wert betrachtet werden, der als Einzelwert die Verteilung als Ganzes am besten repräsentiert, die Standardabweichung gibt darüber hinaus an, wie weit der Mittelwert im Durchschnitt von den Werten, die er repräsentieren soll, abweicht. Der Mittelwert einer Verteilung muss nicht selbst als Wert der Verteilung vorkommen, auch die Standardabweichung ist natürlich selbst kein Messwert. Daher auch der Name Parameter für diese Kennwerte der Verteilung, da sie echten Messwerten nur "ähnlich" sind, sie stellen eine Art von "Pseudo-Messwerten" dar. Karl Pearson ging davon aus, dass wir bei den meisten empirischen Daten immer über Verteilungen von Daten verfügen, und dass die Kenntnis der Parameter der Verteilung alles ist, was wir benötigen, um über diese empirischen Daten wissenschaftlich zu sprechen. Die Körpergröße von Männern und von Frauen z.B. liegt nur in Form einer Verteilung der Körpergröße vor. Wenn ich nun die Fragestellung untersuchen möchte, ob sich die Körpergröße von Männern von der von Frauen unterscheidet, dann muss ich demnach untersuchen, ob sich die beiden diesbezüglichen Verteilungen in wichtigen Parametern unterscheiden. Das eigentliche und grundlegende Ziel jeder wissenschaftlichen Analyse ist daher die angemessene Deskription der empirischen Daten, wie wir sie in der Wirklichkeit vorfinden. Inferenzstatistische Verfahren sind lediglich ein Hilfsmittel, um diesen eigentlichen Zweck der Deskription im bestmöglichen Sinne zu erfüllen. Man darf sich dadurch, dass die inferenzstatistischen Verfahren technisch anspruchsvoller sind, nicht dazu verleiten lassen, sie auch für den theoretisch relevanteren Teil zu halten. Genau so falsch ist es, die Deskription für eine Art von "low-level"Statistik und die Inferenzverfahren für die "high-level"-Variante zu halten. Die Deskription ist Anfang und Ende jeder Analyse, denn es sind letztendlich die deskriptiven Aspekte der Analyse, die uns etwas über die Struktur der Wirklichkeit aussagen. Inferenzstatistik hilft uns zu entscheiden, mit welcher Wahrscheinlichkeit wir unter bestimmten Bedingungen diese Struktur richtig abgebildet haben.
Deskription ist zentrales Anliegen der empirischen Wissenschaft
Warum aber benötigen wir überhaupt inferenzstatistische Verfahren, wenn es uns nur um die Deskription von Verteilungen geht? Die Antwort lautet: Weil die Verteilung, die uns aufgrund der gewonnenen empirischen Messdaten zur Verfügung steht, nicht die Verteilung ist, über die wir eigentlich eine Aussage machen wol-
Warum Inferenzstatistik? – Schluss von Stichprobe auf die Grundgesamtheit
280
Kapitel 21 Stichprobe und Grundgesamtheit
len. Wenn wir die oben erwähnte Vermutung, dass Männer sich in der Körpergröße von Frauen unterscheiden, untersuchen wollten, müssten wir theoretisch die Körpergröße aller Männer messen, die Parameter dieser Verteilung bestimmen und anschließend dasselbe mit den Frauen machen. Dies ist offensichtlich sowohl aus praktischen als auch aus theoretischen Gründen unmöglich. Wir verfügen immer nur über eine begrenzte Anzahl von Messungen der Körpergröße von Männern und Frauen. Das Objekt unseres theoretischen Interesses, die Gesamtheit der Männer und die Gesamtheit der Frauen, ist nicht identisch mit dem Objekt unserer empirischen Messungen, letztere stellen immer nur eine Teilmenge von ersteren dar. Wir sprechen in diesem Zusammenhang von der Grundgesamtheit oder Population, auf die sich unser theoretisches Interesse richtet, und von der Stichprobe aus dieser Grundgesamtheit, die die Menge der uns zu Verfügung stehenden empirischen Daten bildet. Mit Hilfe der Stichprobe wollen wir Wissen über die Struktur der Grundgesamtheit erlangen. Da uns vor allem bestimmte theoretisch interessante Parameter der Grundgesamtheit interessieren, stellt sich unser Analyseproblem als folgendes dar: Wie gelangen wir aufgrund der Messergebnisse in der Stichprobe zu einer möglichst guten Schätzung der Parameter der Grundgesamtheit? Unterscheidung von Stichprobe und Grundgesamtheit
Es ist nicht immer ganz eindeutig, was denn die Stichprobe und was die Grundgesamtheit ist. Bevor man sich an die Untersuchung bestimmter Zusammenhänge macht, sollte man sich darüber klar werden. Oft wird die so genannte Vollerhebung mit der Grundgesamtheit gleichgesetzt, mit der sich daraus ergebenden Folgerung, dass hier keine inferenzstatistischen Verfahren eingesetzt werden dürften. Nehmen wir an, wir wollten das beabsichtigte Wahlverhalten aller Bundesbürger unmittelbar vor einer stattfindenden Bundestagswahl erheben. Das einzige, was uns hier interessiert, ist das tatsächlich zu Stande kommende Wahlergebnis. Nähmen wir eine Vollerhebung aller wahlberechtigten Bürger vor, und gingen wir dabei davon aus, dass sie uns in dieser Erhebung ihre ehrliche Wahlabsicht bekunden, die sie bis zum Wahltag nicht mehr ändern, dann würde das Ergebnis der Vollerhebung alles liefern, woran wir interessiert sind, nämlich das unverfälschte Wahlergebnis. Da dies schon aus Kostengründen nicht möglich ist, nehmen Umfrageinstitute nur Befragungen an Stichproben vor und versuchen aufgrund der so gewonnenen Ergebnisse, das richtige Ergebnis zu schätzen. Natürlich sind diese Schätzungen mit Hilfe von Stichproben immer fehlerbehaftet, und das Ergebnis der Stichprobe weicht von dem, das wir in einer Vollerhebung erhielten, ab. In diesem Fall sagen inferenzstatistische Verfahren uns etwas darüber aus, wie groß der Fehler der Schätzung ist, mit dem wir zu rechnen haben. Wenn es uns also nur darum geht, mit Hilfe der Stichprobe z.B. den Anteil der CDU-Wähler an allen Wahlberechtigten zu schätzen, dann benötigen wir natürlich keine inferenzstatistischen Methoden, wenn wir eine Vollerhebung machen. Aber auch eine Vollerhebung kann als eine Stichprobe verstanden werden, wenn man sie als Realisierung einer konkreten Wirklichkeit aus einer unendlichen Vielzahl potenziell möglicher Wirklichkeiten versteht.
Kapitel 21 Stichprobe und Grundgesamtheit
Nehmen wir an, wir hätten die Wahlabsicht aller Bürger korrekt erhoben und fest- Grundgesamtheit und Vollerhebung gestellt, dass 45 % CDU wählen werden. Dies ist ohne Zweifel eine Vollerhebung, und man könnte daher jetzt behaupten, dass wir hier keine inferenzstatistischen Verfahren mehr einsetzen können. Aber wenn uns die Frage interessiert, ob Bürger ihre Wahlentscheidung mit Hilfe eines internen Zufallsgenerators treffen, dann untersuchen wir die Wahrscheinlichkeit, mit der ein Ergebnis von 45 % CDU-Wählern unter solchen Bedingungen zu Stande kommen würde. Die Grundgesamtheit wäre in diesem Fall die astronomisch hohe Zahl von allen Verteilungen der Wahlabsicht, die möglich wären, wenn die Wähler ihre Wahlabsicht für die Parteien tatsächlich nach dem Zufallsprinzip treffen würden. Das Konzept der Grundgesamtheit ist also wesentlich umfassender als das der Vollerhebung. Vollerhebungen können in bestimmten Zusammenhängen die relevante Grundgesamtheit sein, müssen es aber nicht. Grundgesamtheiten müssen auch nicht wirklich existieren, d.h. real sein. Grundgesamtheiten können wie eben im Hinblick auf eine Vollerhebung auch in Bezug auf jede Stichprobe als potenzieller Möglichkeitsraum von Stichproben begriffen werden. Nehmen wir an, wir wollten untersuchen, welches von zwei neuen Medikamenten besser wirkt. Dazu würden wir einen Test mit zwei Gruppen durchführen, wobei die jeweiligen Angehörigen der beiden Gruppen die beiden verschiedenen Medikamente verabreicht bekommen. Auffällige, d.h. "überzufällige", Unterschiede zwischen den Gruppen würden wir dann auf die unterschiedliche Wirksamkeit der Medikamente zurückführen. Dazu verwenden wir inferenzstatistische Verfahren, d.h. wir betrachten jede der beiden Gruppen als eine Stichprobe aus einer entsprechenden Grundgesamtheit. Mit den Methoden der Inferenzstatistik untersuchen wir dann, ob die Unterschiede auch aufgrund von Stichprobenfehlern entstanden sein könnten, d.h. unter der Annahme, dass beide Grundgesamtheiten die gleiche Verteilung hatten. Tatsächlich existieren aber diese beiden Grundgesamtheiten ja gar nicht, sie sind nur hypothetisch, denn nur die Personen in den Stichproben haben ja überhaupt die neuen Medikamente bekommen. Es lassen sich viele Möglichkeiten denken, eine Stichprobe zu ziehen. Möchte ich Repräsentative Stichprobe die Wahlabsicht der Bundesbürger z.B. anhand einer Stichprobe von 100 Bürgern erheben, dann könnte ich einfach die nächsten 100 Leute, die mir über den Weg laufen, nach ihrer Wahlabsicht befragen, oder ich gehe auf eine Uni-Party oder in ein Fußballstadion und befrage dort die Menschen, die mir begegnen, oder ich befrage die 100 ersten Hutträger oder Mercedesfahrer. Wenn es mir darum geht, von der Stichprobe auf die Grundgesamtheit zu schließen, dann sind alle diese Vorgehensweisen offensichtlich wenig geeignet, denn ich habe mit Verzerrungen der Ergebnisse zu rechnen, da z.B. Mercedesfahrer nicht sehr typisch für den "durchschnittlichen" Wähler sind, Fußballer und Hutträger ebenso wenig. Die so gewonnenen Stichproben weisen eine Verzerrung, einen so genannten Bias auf. Am besten wäre natürlich eine Stichprobe, die ein kleines Abbild der Gesamtheit der Wahlberechtigten ist, d.h. eine Stichprobe, in der alle für das Wahlverhalten relevanten Merkmale genau so verteilt sind wie in der Grundgesamtheit selbst. Da
281
282
Kapitel 21 Stichprobe und Grundgesamtheit
eine solche Stichprobe die Grundgesamtheit auf die bestmögliche Weise repräsentiert, nennen wir sie eine repräsentative Stichprobe. Das Konzept der repräsentativen Stichprobe ist eine Idealvorstellung. Es ist unmöglich, von einer bestimmten Stichprobe zu sagen, ob sie repräsentativ in dem obigen Sinne ist. Könnten wir das nämlich, dann wüssten wir einerseits, dass die Verteilung aller für die Wahlabsicht relevanten Merkmale der in der Grundgesamtheit entspricht, und wir wüssten andererseits genau, wie diese relevanten Merkmale im Einzelnen auf die Wahlabsicht wirken. Wenn wir aber alle diese Informationen besäßen, dann bräuchten wir keine Stichprobe mehr, denn dann könnten wir das Wahlergebnis auch direkt auf rein analytischem Weg bestimmen. Mit repräsentativen Stichproben verhält es sich ähnlich wie mit dem Wahrheitsbegriff bei Popper (vgl. Kapitel 2). Wir wissen zwar, dass es sie gibt, aber wir können uns niemals ihres Besitzes sicher sein. Um für eine konkrete Stichprobe festzustellen, ob sie repräsentativ ist, müssten wir also schon über die Informationen verfügen, die wir erst mit Hilfe der Stichprobe gewinnen wollen. Umfrageinstitute, die gerne mit ihren "repräsentativen" Stichproben werben, meinen damit lediglich, dass die Verteilung gewisser soziodemographischer Merkmale, wie z.B. Geschlecht, Alter oder beruflicher Status der Verteilung in der Grundgesamtheit entspricht. Für eine repräsentative Stichprobe müssten aber alle Merkmale, die einen Einfluss auf die Wahlentscheidung ausüben, in der Stichprobe genauso verteilt sein wie in der Grundgesamtheit. Da wir aber bei solch komplexen Entscheidungen wie der Stimmabgabe für eine Partei nicht alle Einflussfaktoren kennen und wohl auch nicht kennen können, können wir auch niemals wissen, wie "repräsentativ" eine Stichprobe bezüglich der Wahlabsicht tatsächlich ist. Zufallsstichprobe
Wir wissen also nicht, wie im Hinblick auf eine bestimmte Grundgesamtheit eine repräsentative Stichprobe konkret auszusehen hätte. Aber wir können sehr wohl ein Verfahren zur Konstruktion von Stichproben angeben, mit dem die Wahrscheinlichkeit relativ hoch ausfällt, dass die mit Hilfe dieses Verfahrens gezogene Stichprobe dem Idealbild der repräsentativen Stichprobe recht nahe kommt. Dieses Verfahren ist die so genannte Randomisierung, d.h. die Konstruktion der Stichprobe nach dem Zufallsprinzip. Wie sprechen daher von Zufallsstichproben. Definition 21.1: Zufallsstichprobe
Eine Stichprobe wird Zufallsstichprobe genannt, wenn für jedes Element der Grundgesamtheit die Wahrscheinlichkeit, dass es in der Stichprobe enthalten ist, gleich groß ist. Zufallsstichproben sind nicht repräsentative Stichproben an sich. Sie werden aber aufgrund eines Verfahrens gebildet, das die Wahrscheinlichkeit, dass sie eine repräsentative Stichprobe sein könnten, wenn nicht gerade maximiert, so doch relativ hoch werden lässt.
Kapitel 21 Stichprobe und Grundgesamtheit
Die Ziehung einer Zufallsstichprobe kann wie die wiederholte Durchführung eines Zufallsstichprobe als wiederholtes ZufallsZufallsexperiments betrachtet werden. Ein einzelnes Zufallsexperiment besteht experiment dabei in der Ziehung eines einzelnen Falls für die Stichprobe. Damit Zufallsstichproben dem Charakter eines Zufallsexperiments voll und ganz entsprechen, muss die Unabhängigkeit der Ziehung der einzelnen Fälle gewährleistet sein. Das bedeutet, dass, welcher Fall als nächster in die Stichprobe gelangt, nicht davon abhängen darf, welcher Fall zuvor in die Stichprobe aufgenommen worden ist. Die Ziehung eines einzelnen Falls kann insofern als Durchführung eines Zufallsexperiments betrachtet werden, als dieser Fall mit einer bestimmten Wahrscheinlichkeit ein bestimmtes Merkmal aufweist. Die Wahrscheinlichkeit ist dabei die relative Häufigkeit des Merkmals in der Grundgesamtheit. Wählen z.B. in der Grundgesamtheit aller Wahlberechtigten der Bundesrepublik tatsächlich ungefähr 50 % die CDU, dann ist die Wahrscheinlichkeit, bei der zufälligen Wahl eines beliebigen Bürgers für die Stichprobe einen CDU-Wähler zu erhalten, gleich 1/2. Wenn die Stichprobe nur einen sehr geringen Teil der Grundgesamtheit ausmacht, dann verändern sich durch die Ziehung einiger Fälle für die Stichprobe die relativen Häufigkeiten eines bestimmten Merkmals in dem restlichen Teil der Grundgesamtheit, der noch nicht in die Stichprobe aufgenommen worden ist, nur in einem geringen Ausmaß, so dass diese Veränderung vernachlässigt werden kann. Wenn wir von ca. 60 Millionen Wahlberechtigten z.B. eine Zufallsstichprobe von 1000 Personen ziehen, dann verändert sich die Wahrscheinlichkeit für den 501. Fall, den wir in die Stichprobe aufnehmen, ein CDU-Wähler zu sein, so gut wie gar nicht, selbst wenn die bisher der Grundgesamtheit entzogenen 500 Fälle ausschließlich Wähler einer bestimmten Partei gewesen wären. Als Faustregel gilt, dass die Stichprobe weniger als 5 % des Umfangs der Grundgesamtheit betragen sollte. Die Zufallsvariablen, als deren Realisation wir die gezogenen Einzelfälle betrachten, sind also alle identisch verteilt. Dies hat die gewichtige Folge, dass wir das zentrale Grenzwerttheorem anwenden können, wenn wir mit Hilfe von Stichproben den Mittelwert der Grundgesamtheit schätzen wollen. Unser Ziel ist es, mit Hilfe der Stichprobe Parameter der Grundgesamtheit wie den Mittelwert oder die Standardabweichung zu schätzen. Dabei liegt es nahe, den entsprechenden Kennwert für die Stichprobe auf dieselbe Weise zu berechnen, wie er für die Grundgesamtheit berechnet wird, und den für die Stichprobe ermittelten Kennwert als Schätzer für den Kennwert der Grundgesamtheit zu verwenden. Um die Kennwerte der Grundgesamtheit von denen der Stichprobe besser zu unterscheiden, hat es sich eingebürgert, nur die Kennwerte der Grundgesamtheit als Parameter im engeren Sinne zu bezeichnen und die Kennwerte der Stichprobe explizit als Stichprobenkennwerte zu benennen. (Im Englischen wird das Begriffspaar "parameters" und "statistics" verwendet.) Für die Parameter werden dabei griechische Symbole verwendet, für die Stichprobenkennwerte römische Buchstaben. Der Mittelwert der Grundgesamtheit wird daher mit µ (sprich: mü), die Standardabweichung der Grundgesamtheit mit ı (sprich: sigma) bezeichnet.
283
284
Kapitel 21 Stichprobe und Grundgesamtheit
Dies entspricht auch unserer Behandlung der unbekannten Verteilung der Grundgesamtheit als einer theoretischen Zufallsvariablen. Mittelwerte der Stichprobe werden üblicherweise mit x bezeichnet, die Standardabweichung mit s. Diese Notation haben wir auch in Kapitel 13 angewandt bei den Kennwerten empirischer Verteilungen.
21.1 Schätzung des Mittelwerts einer Grundgesamtheit mit Hilfe von Stichproben Den Mittelwert der Grundgesamtheit schätzen wir als Mittelwert der Stichprobe, d.h. es gilt: Definition 21.2: Schätzer des Mittelwerts einer Grundgesamtheit Pˆ
xSt
1 n ¦ xi ni1
mit µˆ
Schätzwert von µ
n
Umfang der Stichprobe
xi
Zufällig für die Stichprobe ausgewählter Wert aus der Grundgesamtheit
Es ist üblich, Schätzwerte mit einem Dach zu kennzeichnen. Wir wollen den Schätzvorgang anhand eines Beispiels illustrieren. Dazu gehen wir von einer Grundgesamtheit mit folgender Verteilung aus: Tabelle 21.1 Wert
Häufigkeit
Prozent
1
5955
29,8
2
8056
40,3
3
2008
10,0
4
3981
19,9
20000
100,0
Gesamt Beispiel: Anzahl Kinder je Familie
Die Grundgesamtheit besteht aus 20 000 Fällen. Die Variable hat vier Ausprägungen mit den vier Werten 1 bis 4. Wir unterstellen der Variablen eine metrische Natur, so dass wir ohne Bedenken Mittelwerte und Varianzen berechnen können. Nehmen wir an, die Variable wäre z.B. die Anzahl der Kinder je Familie in einem großen Verein, der als Mitglieder nur Familien aufnimmt, so dass der Wert '0'
Kapitel 21 Stichprobe und Grundgesamtheit
285
nicht auftritt. Ungefähr 30 % aller Familien haben ein Kind, ca. 40 % zwei Kinder, etwas 10 % drei Kinder und ungefähr 20 % haben vier Kinder. Für das Beispiel ist aber die inhaltliche Interpretation der Variablen vollkommen bedeutungslos, so dass wir nur noch allgemein von der Untersuchungsvariablen oder schlicht der Variablen reden wollen. Die Verteilung der Variablen in der Grundgesamtheit ist in Abbildung 21.1 abgebildet: Abbildung 21.1: Anzahl der Kinder je Familie 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 1
2
3
4
Der Mittelwert und die Varianz sollen uns zur Charakterisierung der Verteilung genügen. Tabelle 21.2: Mittelwert und Varianz der Grundgesamtheit Mittelwert
2,2008
Varianz
1,1541
N
20 000
Wir ziehen nun aus der Grundgesamtheit Stichproben, berechnen deren Mittelwert und schätzen damit den Mittelwert der Grundgesamtheit.3 Der Wert einer bestimmten gezogenen Stichprobe wird natürlich niemals oder fast nie genau dem Parameterwert der Grundgesamtheit entsprechen. Wie genau der Wert der Stichprobe den Wert der Grundgesamtheit trifft, hängt, wie wir wissen, vom Umfang der Stichprobe ab. Wir wollen in unserem Beispiel relativ kleine Stichproben mit einem Umfang von 20 Fällen ziehen. Wir wiederholen den Vorgang der Stichprobenziehung 100mal und erhalten dabei eine Verteilung der Stichprobenmittelwerte, wie sie in Tabelle 21.3 dargestellt ist. So erhalten wir etwa 7 Stichproben mit einem Mittelwert von 2,25, 3 Stichproben mit einem Mittelwert von 2,4 usw. Die
3
Um auf der Basis von Stichprobenwerten die Parameter der Grundgesamtheit zu schätzen, führen wir mit Hilfe von SPSS eine Simulation durch. Das dazugehörige SPSS-Programm findet sich im Anhang B2.
286
Kapitel 21 Stichprobe und Grundgesamtheit
Stichprobenmittelwerte streuen sehr weit, der niedrigste Mittelwert liegt bei 1,45, der höchste bei 2,85. Die Schätzung des Mittelwerts ist also relativ ungenau, was wir aufgrund der kleinen Stichprobe auch erwartet hätten. Die Verteilung ist in Abbildung 21.2 grafisch als Säulendiagramm dargestellt. Wir wissen, dass die theoretische Verteilung der Stichprobenmittelwerte eine Glockenkurve sein sollte. Davon weicht die empirische Verteilung deutlich ab. Würden wir die Anzahl der gezogenen Stichproben weiter erhöhen, dann würde sich die empirische Verteilung immer mehr der theoretisch erwarteten annähern. Obwohl die einzelnen Mittelwerte der Stichproben vom Mittelwert der Grundgesamtheit mitunter deutlich abweichen, haben wir doch den Eindruck, dass sie sich im Großen und Ganzen gleichmäßig um ihn verteilen. Dies bestätigt sich, wenn wir den Mittelwert der Stichprobenmittelwerte berechnen. Er beträgt 2,206 und ist in Tabelle 21.3 ebenfalls aufgeführt.
Kapitel 21 Stichprobe und Grundgesamtheit
Tabelle 21.3: Verteilung der Mittelwerte von 100 Stichproben aus jeweils 20 Fällen Mittelwert
Häufigkeit
Prozent
1,45
1
1,0
1,65
2
2,0
1,70
1
1,0
1,75
1
1,0
1,80
2
2,0
1,85
4
4,0
1,90
4
4,0
1,95
8
8,0
2,00
6
6,0
2,05
5
5,0
2,10
8
8,0
2,15
8
8,0
2,20
3
3,0
2,25
7
7,0
2,30
7
7,0
2,35
4
4,0
2,40
3
3,0
2,45
8
8,0
2,50
5
5,0
2,60
4
4,0
2,65
4
4,0
2,70
2
2,0
2,75
1
1,0
2,80
1
1,0
2,85
1
1,0
100
100,0
Gesamt Mittelwert
2,2060
287
288
Kapitel 21 Stichprobe und Grundgesamtheit
Abbildung 21.2 9 8 7 6 5 4 3 2 1 0 1,45
Erwartungstreue eines Schätzers
1,75
2
2,25
2,5
2,75
Der Mittelwert der Stichprobe ist offensichtlich ein guter Schätzwert für den Mittelwert der Grundgesamtheit. Dies ist er nicht, weil der Mittelwert einer bestimmten Stichprobe den Mittelwert der Grundgesamtheit unbedingt gut zu schätzen vermag, sondern weil der Mittelwert der Stichprobenmittelwerte sich dem Mittelwert der Grundgesamtheit sehr genau annähert, wenn wir sehr viele Stichproben ziehen würden. Der Stichprobenmittelwert selbst ist eine Zufallsvariable, der Mittelwert einer sehr großen Anzahl von Werten einer Zufallsvariable ist aber ihr Erwartungswert. Damit ist der Erwartungswert der Stichprobenmittelwerte gleich dem Mittelwert der Grundgesamtheit. Besitzt ein Schätzer diese Eigenschaft, dass der Erwartungswert des Schätzers gleich dem zu schätzenden Wert in der Grundgesamtheit ist, dann sprechen wir von einem erwartungstreuen oder unverzerrten Schätzer. Ist der Schätzer hingegen verzerrt, dann sagen wir, der Schätzer hat einen Bias. Die Verzerrung bzw. der Bias eines Schätzers ist die Differenz zwischen dem zu schätzenden Parameter und dem Erwartungswert des Schätzwertes. Definition 21.3: Erwartungstreue eines Schätzers
Der Schätzer eines Parameters ș (sprich: Theta) wird erwartungsgetreu genannt, wenn gilt: E Tˆ
T
Die Erwartungstreue des Mittelwerts einer Stichprobe als Schätzer für den Mittelwert der Grundgesamtheit lässt sich leicht unmittelbar beweisen.
E Pˆ
§ n · ¨ ¦ xi ¸ E(xSt ) E ¨ i 1 ¸ ¨ n ¸ ¨ ¸ © ¹
1 n ¦ E(xi ) ni1
1 nP n
P
Kapitel 21 Stichprobe und Grundgesamtheit
Der Erwartungswert des Schätzers ist zwar der gesuchte Mittelwert der Grundge- Standardfehler eines Schätzers samtheit, aber natürlich liegen die einzelnen Stichprobenmittelwerte mehr oder weniger weit neben dem Mittelwert der Grundgesamtheit. Als Maß der Güte der Schätzung gilt auch hier die durchschnittliche Abweichung eines Stichprobenmittelwerts vom Mittelwert aller Stichprobenmittelwerte, also vom Erwartungswert. Die Standardabweichung der Verteilung der Stichprobenmittelwerte um den Erwartungswert gibt uns diese Größe an. Die Standardabweichung einer Verteilung von Schätzwerten, d.h. die durchschnittliche Abweichung eines Schätzers aus der Verteilung vom gesuchten Parameter nennen wir den Standardfehler des Schätzers. Definition 21.4: Standardfehler eines Schätzers
Die Standardabweichung des Schätzers șˆ eines Parameters ș wird als Standardfehler des Schätzers bezeichnet. Aus dem zentralen Grenzwerttheorem wissen wir, dass die Stichprobenmittelwerte bei hinreichend großem Umfang der Stichproben normalverteilt sind und dass die Varianz der Verteilung der Stichprobenwerte die Varianz der Grundgesamtheit geteilt durch den Umfang der Stichprobe ist. Um also den Standardfehler des Schätzers für den Mittelwert der Grundgesamtheit zu ermitteln, müssen wir die Varianz der Grundgesamtheit kennen. Da wir in der Regel aber die Parameter der Grundgesamtheit nicht kennen, muss auch die Varianz der Grundgesamtheit mit Hilfe der Stichprobe erst geschätzt werden.
21.2 Schätzung der Varianz einer Grundgesamtheit mit Hilfe von Stichproben Wir greifen wieder auf die hundert gezogenen Stichproben des Umfangs 20 zurück und berechnen für diese die Varianz nach der bekannten Formel.
Var(X) St
s 2
1 n ¦ (xi xSt )2 ni1
Um die Verteilung dieser Varianzen besser darstellen zu können, fassen wir die so ermittelten Werte zu Gruppen mit der Intervallbreite 0,05 zusammen. Die Verteilung der nach obiger Formel ermittelten Varianzen, die wir ~s 2 nennen, ist in Tabelle 21.4 aufgeführt und in Abbildung 21.3 grafisch dargestellt.
289
290
Kapitel 21 Stichprobe und Grundgesamtheit
Tabelle 21.4: Verteilung der Varianzen ~s 2 von 100 Stichproben aus jeweils 20 Fällen Varianz
Häufigkeit
Prozent
0,225 - 0,275
1
1,0
0,475 - 0,525
2
2,0
0,525 - 0,575
2
2,0
0,575 - 0,625
2
2,0
0,625 - 0,675
1
1,0
0,675 - 0,725
2
2,0
0,725 - 0,775
4
4,0
0,775 - 0,825
5
5,0
0,825 - 0,875
1
1,0
0,875 - 0,925
2
2,0
0,925 - 0,975
7
7,0
0,975 - 1,025
4
4,0
1,025 - 1,075
11
11,0
1,075 - 1,125
7
7,0
1,125 - 1,175
14
14,0
1,175 - 1,225
2
2,0
1,225 - 1,275
6
6,0
1,275 - 1,325
4
4,0
1,325 - 1,375
6
6,0
1,375 - 1,425
4
4,0
1,425 - 1,475
5
5,0
1,475 - 1,525
2
2,0
1,525 - 1,575
2
2,0
1,625 - 1,675
2
2,0
1,725 - 1,775
1
1,0
1,775 - 1,825
1
1,0
100
100,0
Gesamt
Mittelwert
1,0953
Kapitel 21 Stichprobe und Grundgesamtheit
291
Abbildung 21.3 16 14 12 10 8 6 4 2 1,75
1,65
1,55
1,45
1,35
1,25
1,15
1,05
0,95
0,85
0,75
0,65
0,55
0,45
0,35
0,25
0
Der Mittelwert der Varianzen ~s 2 beträgt 1,0953 und weicht doch relativ deutlich von der Varianz der Grundgesamtheit ab, die 1,1541 beträgt. Der Bias ist demnach 1,0953í1,1541, also –0,0588. Wir können uns leicht erklären, warum die Varianz der Stichprobe die Varianz der Grundgesamtheit unterschätzen muss. Die Fehler durch die Stichprobe entstehen ja dadurch, dass wir einmal zu viele der größeren Werte der Grundgesamtheit in die Stichprobe aufnehmen, wodurch die Stichprobe einen Bias nach rechts bekommt, ein anderes Mal gelangen überdurchschnittlich viele der kleineren Werte in die Stichprobe, und diese hat einen Bias nach links. Die Varianz der Grundgesamtheit ist ja der durchschnittliche quadratische Abstand zum Mittelwert der Grundgesamtheit, also zu 2,2008. Wenn wir für jede Stichprobe den durchschnittlichen quadratischen Abstand der Werte in der Stichprobe zum Mittelwert der Grundgesamtheit berechnen würden, dann wäre die so berechnete Maßzahl ein erwartungstreuer Schätzer der Varianz der Grundgesamtheit. Tatsächlich aber berechnen wir die Varianz der Stichprobe mit dem durchschnittlichen quadratischen Abstand der Stichprobenwerte zum Mittelwert der Stichprobe, der z.B. 2,25 betragen könnte. Nach der Verschieberegel gilt aber, dass die Summe der quadratischen Abstände minimiert wird, wenn wir diese in Bezug auf den Mittelwert berechnen. Der durchschnittliche quadratische Abstand der Werte der Stichprobe zum Mittelwert der Grundgesamtheit muss daher höher sein als der durchschnittliche quadratische Abstand zum Mittelwert der Stichprobe. Daher muss die Varianz der Stichprobe die Varianz der Grundgesamtheit immer unterschätzen, d.h. die Fehler der Stichproben können sich nicht gegenseitig ausgleichen, wie es z.B. bei der Schätzung des Mittelwertes der Fall ist.
Unterschätzung der Varianz der Grundgesamtheit durch die Varianz der Stichprobe
Der Bias in unserem Beispiel beträgt – als Anteil des geschätzten Parameters be- Korrekturfaktor für die Schätzung der Varianz rechnet – 5,1 % des Parameters, also ziemlich genau 1/20. Berechnen wir die Va- der Grundgesamtheit rianz der Stichprobe auf die übliche Weise, dann unterschätzen wir die Varianz der Grundgesamtheit in unserer Simulation um ca. 1/20, wenn wir diese mit der Stichprobenvarianz schätzen. R. A. Fisher hat nun bewiesen, dass der Bias, um den die Varianz unterschätzt wird, immer genau dem Kehrwert des Umfangs der Stichprobe entspricht. Um einen unverzerrten, d.h. erwartungstreuen Schätzer der
292
Kapitel 21 Stichprobe und Grundgesamtheit
Varianz der Grundgesamtheit zu erhalten, müssen wir die Varianz der Stichprobe n mit dem Korrekturfaktor multiplizieren. n 1 Definition 21.5: Schätzer der Varianz einer Grundgesamtheit Vˆ 2
n §1 n 2· n s 2 ¨ ¦ (xi x) ¸ n 1 ©n i 1 ¹ n 1
1 n ¦ (xi x)2 n 1 i 1
Experte: Herleitung der Korrekturformel Wir können mit den uns zur Verfügung stehenden Mitteln sogar leicht selber die Korrekturformel berechnen: Die Standardabweichung der Grundgesamtheit ist der Mittelwert der quadratischen Abweichungen bzw. der Erwartungswert der quadratischen Abweichungen, was auf dasselbe hinausläuft. V2
E ª¬(X P )2 º¼
Wenn V2 aber der Erwartungswert eines einzelnen quadratischen Abstands ist, dann gilt dies natürlich genauso für den durchschnittlichen quadratischen Abstand einer Sammlung von Werten, also einer Stichprobe mit dem Umfang n, zum Mittelwert P der Grundgesamtheit.
V2
ª n 2 º « ¦ (xi P ) » » E« i 1 n « » «¬ »¼
Die quadratischen Abstände der Werte in der Stichprobe werden also nicht zum Mittelwert der Stichprobe berechnet, sondern zum Mittelwert der Grundgesamtheit. Nur dann ist der mittlere quadratische Abstand ein erwartungstreuer Schätzer der Varianz der Grundgesamtheit. Nach der Verschieberegel aus Kapitel 18 gilt nun:
V2
ª n º 2 « ¦ (xi x) » E« i 1 (x P )2 » n « » «¬ »¼
Der Erwartungswert aus einer Summe ist aber gleich der Summe der Erwartungswerte der Summanden. Also:
V2
ª n 2 º « ¦ (xi x) » i 1 » E ª¬(x P)2 º¼ E« n « » «¬ »¼
Der Erwartungswert des quadratischen Abstands eines Stichprobenmittelwerts vom Mittelwert der Grundgesamtheit ist aber natürlich nichts anderes als die Varianz der Stichprobenmittelwerte um den Mittelwert der Grundgesamtheit, die wiederum der Quotient aus der Varianz der Grundgesamtheit und dem Stichprobenumfang ist. Also gilt:
Kapitel 21 Stichprobe und Grundgesamtheit
V2
ª n 2 º « ¦ (xi x) » i 1 » Vx2 E« n « » «¬ »¼
293
ª n 2 º « ¦ (xi x) » V2 i 1 » E« n n « » «¬ »¼
Jetzt bedarf es nur noch einiger algebraischer Umformungen.
V2
V2
ª n 2 º « ¦ (x i x) » V2 i 1 » E« n « » n «¬ »¼ 2
V n
n -1 2 V n
V2
ª n 2 º « ¦ (xi x) » » E« i 1 n « » «¬ »¼ ª n 2 º « ¦ (xi x) » i 1 » E« n « » «¬ »¼
ª n 2 º « ¦ (xi x) » n i 1 » *E« n -1 n « » «¬ »¼
n ª 2 º « n ¦ (xi x) » i 1 » E« * n «n - 1 » «¬ »¼
ª n 2 º « ¦ (xi x) » i 1 » E« n -1 « » «¬ »¼
q.e.d.
Ende Experte
Um mit Hilfe der Stichprobe einen erwartungstreuen Schätzer der Varianz der Empirische und korrigierte StichprobenGrundgesamtheit zu erhalten, muss die Summe der quadratischen Abstände der varianz Stichprobenwerte vom Stichprobenmittelwert also nicht durch den Umfang der Stichprobe, sondern durch die Anzahl der so genannten Freiheitsgrade, das ist der Umfang der Stichprobe um eins vermindert, dividiert werden. n gegen 1, und daher ist es n 1 dann unerheblich, welche der beiden Formeln der Varianz man verwendet, ob man im Nenner also n oder n-1 stehen hat. In der Literatur wird dieser Schätzer selbst gelegentlich als die Stichprobenvarianz s2 bezeichnet (z.B. Fahrmeir et al. 2001) und von der "empirischen Varianz der Stichprobe" unterschieden, die nach der üblichen Formel für die Varianz berechnet wird, und die wir, um Missverständnisse zu vermeiden, hier mit ~s 2 bezeichnet haben. Andere Autoren (wie z.B. Gehring/Weins 2002) unterscheiden zwischen der Stichprobenvarianz, die sie s2 nennen und auf die herkömmliche Weise berechnen und dem Schätzer für die Varianz der Grundgesamtheit, der dann der entsprechend korrigierte Wert der
Ist n sehr groß, dann geht der Korrekturfaktor
294
Kapitel 21 Stichprobe und Grundgesamtheit
Stichprobenvarianz ist. Der Leser muss also den Kontext beachten, in dem das Symbol s2 verwendet wird. Manche Statistik-Computerprogramme (auch SPSS) berechnen jede Varianz immer anhand der Zahl der Freiheitsgrade n-1. Lässt man sich von SPSS die Varianz einer Verteilung berechnen und möchte diese Varianz selbst deskriptiv interpretien 1 ren, dann sollte man daher die von SPSS berechnete Varianz mit multiplin zieren, um die echte empirische Varianz der Verteilung zu erhalten. Diese "Korrektur der Korrektur" kann desto unbekümmerter unterlassen werden, je größer die Anzahl der Fälle der Verteilung ist, für die man die Varianz zu Deskriptionszwecken berechnen will.
21.3 Standardnormalverteilung und T-Verteilung Verteilung der Stichprobenmittelwerte
Nach dem zentralen Grenzwerttheorem wissen wir, dass die z-transformierten Stichprobenmittelwerte standardnormalverteilt sind. xP a N(0,1) Vx
Diese Formel können wir natürlich nur dann anwenden, wenn uns die Standardabweichung der Grundgesamtheit auch tatsächlich bekannt ist. Genau dies ist oft aber nicht der Fall, so dass wir die Standardabweichung der Stichprobenmittelwerte ı x , den Standardfehler des Mittelwerts, mit Hilfe der Standardabweichung der Stichprobe schätzen, wobei wir zuerst die Standardabweichung der Grundgesamtheit schätzen und aus dieser die Standardabweichung der Stichprobenmittelwerte ableiten. Dadurch gelangen wir zur folgenden Gleichung: xP Vˆ x
xP
xP
2 x
s2 n
Vˆ n n
mit s
2
¦ (x
i
a N(0,1)
x)2
i 1
n 1
Dieser Zusammenhang darf allerdings nur so angenommen werden, wenn der Stichprobenumfang relativ groß ist. Zwar ist nämlich s2 eine erwartungstreue 2 Schätzung von ı x , aber wenn wir den Schätzwert statt des tatsächlichen Wertes einsetzen, ist die kritische Prüfgröße des Quotienten aus dem Abstand von x zu H und der Standardabweichung des Mittelwertes nicht mehr standardnormalverteilt.
Kapitel 21 Stichprobe und Grundgesamtheit
295
Die Verteilungsform der Prüfgröße wird t-Verteilung oder auch nach ihrem Entdecker Student-Verteilung genannt. Definition 21.6: Die T-Verteilung T
xP s2 n
Student war das Pseudonym des Statistikers William Gosset, der bei der GuinessBrauerei beschäftigt war und die ehrenvolle Aufgabe hatte, mit wissenschaftlichen Methoden zur Herstellung besseren Bieres beizutragen. Bei seinen Experimenten verwendete Gosset nur kleine Stichproben, wobei er feststellte, dass bei kleinen Stichproben die Streuung der standardisierten Mittelwerte stärker ausfällt als bei großen Stichproben. Die t-Verteilung ist ebenfalls glockenförmig wie die Standardnormalverteilung, verläuft aber etwas flacher als diese, d.h. im inneren Teil liegt sie unter, im äußeren Bereich etwas oberhalb der Standardnormalverteilung. Abbildung 21.4: Die Student t-Verteilung 0,45 0,4 0,35 0,3
N(0,1) ST(2) ST(5) ST(20)
0,25 0,2 0,15 0,1 0,05 0 -4
-2
0
2
4
Man kann sich recht einfach verdeutlichen, warum die Verteilung der Prüfgröße nicht standardnormalverteilt ist, wenn man statt der tatsächlichen Varianz der Grundgesamtheit die aufgrund der Stichprobe geschätzte einsetzt. Da es sich ja nur um eine Schätzung handelt, wird diese einmal zu groß und auch wieder einmal zu klein ausfallen. Das Problem entsteht nun dadurch, dass die Varianz im Nenner der Prüfgröße steht. Wird die Standardabweichung unterschätzt, dann fällt die Prüfgröße größer aus, als es der Fall gewesen wäre, wenn wir die tatsächliche
Erklärung für die Abweichung der Form der t-Verteilung von der Standardnormalverteilung
296
Kapitel 21 Stichprobe und Grundgesamtheit
Standardabweichung in die Formel eingesetzt hätten, womit wir eine standardnormalverteilte Prüfgröße erhalten hätten. Wird die Standardabweichung hingegen überschätzt, dann fällt die Prüfgröße zu klein aus im Vergleich zu dem, was die eigentlich aufgrund der "richtigen" Standardabweichung angemessene zverteilte Prüfgröße gewesen wäre. Die Verzerrung der Prüfgröße aufgrund einer zu groß geschätzten Standardabweichung fällt aber dramatischer aus als die Verzerrung aufgrund einer zu klein geschätzten Standardabweichung. Stellen wir uns als Beispiel vor, der Abstand von x zu H betrage 4 und die Standardabweichung der Grundgesamtheit 2. Dann beträgt die kritische z-verteilte Prüfgröße das Verhältnis aus beiden, in diesem konkreten Fall also 2. Wenn wir jetzt jedoch die Standardabweichung nicht kennen und aufgrund der Stichprobe erst schätzen müssen, dann werden wir einmal z.B. als Schätzung der Standardabweichung den Wert 1 und einmal vielleicht den Wert 3 erhalten. (Tatsächlich ist die Stichprobenvarianz nicht symmetrisch um ihren Erwartungswert verteilt, aber dies können wir in unserem Demonstrationsbeispiel vernachlässigen.) Für den unterschätzten Wert der Standardabweichung erhalten wir als kritische Prüfgröße 4/1 = 4, für den überschätzten Wert der Standardabweichung hingegen 4/3 = 1,33. Die "Überschätzung der echten Prüfgröße" aufgrund der zu gering geschätzten Standardabweichung fällt also wesentlich dramatischer aus als die "Unterschätzung der echten Prüfgröße" aufgrund der zu hoch geschätzten Standardabweichung. Daher enthält die t-Verteilung im Vergleich zur z-Verteilung mehr Werte an den Rändern, bzw. weniger Werte im Zentrum der Verteilung. Anders ausgedrückt: Einem bestimmten Wert in der z-Verteilung entspricht eine Verteilung von t-verteilten Werten, deren Erwartungswert höher ist als der ursprüngliche z-Wert. Je größer der Stichprobenumfang ist, desto geringer werden die mittleren Abweichungen der geschätzten Standardabweichung von der tatsächlichen ausfallen, und die Prüfgröße kann als standardnormalverteilt angenommen werden. Als Faustregel gilt, dass man bei einem n>30 in den meisten Fällen die Prüfgröße so behandeln kann, also ob sie standardnormalverteilt wäre, ohne damit größere Probleme zu verursachen. t-Verteilung hängt von Stichprobengröße ab
Da die t-Verteilung eine Art von Verzerrung einer z-verteilten Variablen darstellt, wobei die auftretende Verzerrung auf den Schätzfehler der Standardabweichung zurückzuführen ist, ist die t-Verteilung dementsprechend von der Stichprobengröße abhängig, da der Schätzfehler ja desto größer ausfällt, je kleiner die Stichprobe ist. Für jede Stichprobengröße gibt es daher eine eigene t-Verteilung. Wie in den meisten Statistikbüchern sind auch hier im Anhang Tabellen mit den kritischen tWerten für bestimmte Stichprobengrößen und herausgehobene Wahrscheinlichkeitswerte der Konfidenzintervalle angegeben. Dabei werden die Werte der tVerteilung nicht auf die Stichprobengröße, sondern auf die Anzahl der Freiheitsgrade bezogen, also auf n-1.
Kapitel 21 Stichprobe und Grundgesamtheit
297
21.4 Das Konfidenzintervall Wir können für jeden beliebigen Bereich der Standardnormalverteilung die Wahrscheinlichkeit angeben, mit der ein bestimmter zufällig ausgewählter Wert der Verteilung sich innerhalb dieses Bereichs befindet. Zum Beispiel können wir den Bereich bestimmten, in dem sich 95 % der Werte der Verteilung um den Mittelwert herum gruppieren. Abbildung 21.5: Konfidenzintervall
Links und rechts von dem grau hervorgehobenen Bereich in Abbildung 21.5 be- P %-Quantil und P-Wert finden sich wegen der symmetrischen Struktur der Verteilung jeweils noch 2,5 % der Werte. Wir können die Flächenanteile unter der Kurve mit der uns schon bekannten Verteilungsfunktion der Standardnormalverteilung berechnen (vgl. Definition 19.3). Diese Werte sind in der Tabelle der z-Werte abgebildet (vgl. Anhang A1). Wir müssen nun umgekehrt die z-Werte suchen, die die oberen Grenzen von 2,5 % bzw. 97,5 % der Werte der Verteilung bilden. Diese Werte nennen wir z0,025 und z0,975 bzw. das 2,5 % und 97,5 %-Quantil der Normalverteilung. Sie sind genau genommen die Funktionswerte von 0,025 und 0,975 der Umkehrfunktion der Verteilungsfunktion ), also z0,025 = )-1(0,025) und z0,975 = )-1(0,975). Allgemein bezeichnen wir zP als das P %-Quantil der Normalverteilung. Der Anteil der Fläche unter der Normalverteilung, der sich rechts von einem bestimmten Z-Wert befindet, wird wiederum als der P-Wert oder P-Value dieses Wertes bezeichnet, da er die Wahrscheinlichkeit angibt, dass ein zufällig ausgewählter Wert der Normalverteilung eine extremere Ausprägung annimmt als der Z-Wert. Der PValue des 97,5 %-Quantils ist demnach z.B. 0,025 bzw. 2,5 Prozent. Für das 2,5 %- und das 97,5 %-Quantil erhalten wir durch Nachschlagen in der Tabelle die Werte –1,96 und +1,96. 95 % der Werte einer Standardnormalverteilung befinden sich in dem Intervall von –1,96 bis +1,96. Anders ausgedrückt: 95 % der Stichprobenmittelwerte befinden sich in einem symmetrischen Intervall um den Mittelwert P der Grundgesamtheit mit der Breite des 2*1,96fachen des Standardfehlers.
298
Kapitel 21 Stichprobe und Grundgesamtheit
Abbildung 21.6: 95 %-Wahrscheinlichkeitsintervall um den Mittelwert P der Grundgesamtheit
1,96 ı x
1,96 ı x
Hat die Grundgesamtheit wie in unserem Beispiel den Mittelwert 2,2008 und die Varianz 1,1541, dann befinden sich 95 % der Stichprobenmittelwerte von Stich1,1541 proben des Umfangs 100 in einem Intervall von 2,2008–1,96 bis 100 1,1541 also von ungefähr 1,99 bis 2,41. Eine Simulation mit 1000 100 Stichproben des Umfangs 100 ergibt, dass sich in diesen Intervallgrenzen 954 von 1000 ermittelten Stichprobenwerten befinden. 2,2008+1,96
Wahrscheinlichkeitsintervall
Das Intervall, in dem sich ein Wert einer Verteilung mit einer bestimmten Wahrscheinlichkeit befindet, nennen wir ein Wahrscheinlichkeitsintervall. Das 95 %Wahrscheinlichkeitsintervall der Standardnormalverteilung geht von –1,96 bis +1,96, das 99 %-Wahrscheinlichkeitsintervall der Standardnormalverteilung geht von –2,58 bis +2,58. Wahrscheinlichkeitsaussagen können sich immer nur auf zukünftige Ereignisse beziehen. Nach der frequentistischen Wahrscheinlichkeitsauffassung können Tatsachenaussagen über Ereignisse, die schon stattgefunden haben, immer nur entweder falsch oder wahr sein. Es ist daher zwar richtig zu sagen, der Stichprobenmittelwert einer noch zu ziehenden Stichprobe wird mit einer Wahrscheinlichkeit von 95 % im 95 %igen Wahrscheinlichkeitsintervall liegen. Falsch aber wäre es, dies von einem schon bekannten Stichprobenmittelwert zu behaupten. Er kann sich nur innerhalb des Intervalls oder außerhalb desselben befinden. Was auch immer der Fall ist, es ist mit 100 %iger Wahrscheinlichkeit der Fall.
Vom Wahrscheinlichkeitsintervall zum Konfidenzintervall
Der Zweck der Ziehung von Stichproben besteht in der Schätzung der unbekannten Parameter der Grundgesamtheit. Wenn ein bestimmter Stichprobenmittelwert eine Distanz d vom Mittelwert P der Grundgesamtheit entfernt liegt, dann ist umgekehrt auch P die gleiche Distanz vom Stichprobenmittelwert x entfernt. Für die
Kapitel 21 Stichprobe und Grundgesamtheit
299
Distanz ist es unerheblich, von welchem Bezugspunkt aus sie gemessen wird. Betrachten wir nun nur die Verteilung der Distanzen von P zu x , dann ist die Form der Verteilung dieser Distanzen ebenfalls davon unabhängig, ob wir die Distanzen vom Mittelwert der Grundgesamtheit oder vom Mittelwert der Stichprobe aus berechnet haben. Wir können die Verteilung der Stichprobenmittelwerte in Abbildung 21.6 ebenso als Verteilung der Distanzen der Stichprobenmittelwerte zu P um das Zentrum P betrachten, da es ja zu jedem konkreten Stichprobenmittelwert eine eindeutig bestimmte Distanz gibt. Aus einem nahe liegenden Symmetrieargument heraus scheint es daher zulässig, die Verteilung der Distanzen auch um das Zentrum x herum anzuordnen. Abbildung 21.7 gibt das Ergebnis dieser Verschiebung der Verteilung der Distanzen wieder. Analog zur Verteilung der Stichprobenmittelwerte um den Parameter P lassen sich dann ebenfalls Intervalle um den Mittelwert der Stichprobe bilden. Diese Intervalle wurden von Jerzy Neyman vorgeschlagen und von ihm Konfidenzintervalle genannt und die dem Intervall entsprechende Wahrscheinlichkeit wird Sicherheitswahrscheinlichkeit oder Konfidenzwahrscheinlichkeit genannt. Das 95 %-Konfidenzintervall liegt um den Mittelwert der Stichprobe, und die beiden Intervallgrenzen liegen wie gehabt das 1,96-fache des Standardfehlers vom Mittelwert entfernt. In den Sozialwissenschaften werden üblicherweise vor allem zwei Konfidenzintervalle angewandt, das 95 %-Konfidenzintervall und das 99 %-Konfidenzintervall. Die Gleichungen für diese beiden Konfidenzintervalle sind in Definition 11.7 wiedergegeben. Abbildung 21.7: 95 %-Konfidenzintervall um den Stichprobenmittelwert x
x 1,96 ı x
1,96 ı x
300
Kapitel 21 Stichprobe und Grundgesamtheit
Definition 21.7: Konfidenzintervalle K 95%
^x
i
x 1,96V x d xi d x 1,96V x `
K 99%
^x
i
x 2,58V x d xi d x 2,58V x `
Die allgemeine Definition des Konfindenzintervalls lautet: Definition 21.8: Konfidenzintervalle für die Konfidenzwahrscheinlichkeit 1-< K1-D
^x
i
x z1D / 2 V x d xi d x z1D / 2 V x `
mit
Interpretation des Konfidenzintervalls
Alternative Schreibweise
1-<
Sicherheits- oder Konfidenzwahrscheinlichkeit
z1-2
(1-2)*100 %-Quantil der Standardnormalverteilung
Das Konzept der Konfidenzintervalle ist nicht unumstritten, und es ist in der Tat nicht so einfach zu entscheiden, was sie eigentlich genau enthalten. Während man z.B. problemlos sagen kann, dass sich 95 % der Stichprobenmittelwerte im entsprechenden Wahrscheinlichkeitsintervall um P befinden, ist die umgekehrte Sprechweise nicht korrekt, da es nur einen einzigen Mittelwert der Grundgesamtheit gibt. Dieser befindet sich entweder innerhalb des Konfidenzintervalls oder nicht. Die Beziehung zwischen Konfidenzintervall und dem Parameter P kann lediglich indirekt ausgedrückt werden. Werden 95 %-Konfidenzintervalle in der angegebenen Weise konstruiert, dann befindet sich P in 95 % der so gebildeten Konfidenzintervalle. Anders ausgedrückt: Ziehen wir eine Stichprobe und bilden anschließend das Konfidenzintervall, dann haben wir mit 95 % Wahrscheinlichkeit eine Stichprobe gezogen, bei der sich P dann innerhalb des gebildeten Konfidenzintervalls befindet. Dies spiegelt die frequentistische Auffassung der Wahrscheinlichkeit wider. Nach ihr ist es demnach auch verboten zu behaupten, der tatsächliche Parameterwert liege mit der Konfidenzwahrscheinlichkeit innerhalb des ermittelten Konfidenzintervalls. Verwendet man allerdings einen subjektiven oder einen bayesianischen Wahrscheinlichkeitsbegriff, dann kann auch eine solche Aussage sinnvoll sein. Nach der subjektiven Auffassung wäre man z.B. bereit, bei einer Quote von mindestens 1:19 darauf zu wetten, dass sich der tatsächliche Parameterwert innerhalb des durch die Stichprobe gebildeten Konfidenzintervalls befindet. Oft wird in der Literatur für das Konfidenzintervall K1-< auch die Schreibweise x z1D / 2 V x d P d x z1D / 2 V x angewandt, die wir jedoch nicht empfehlen, da aus den oben genannten Gründen nicht klar ist, was dieses Intervall genau bedeuten könnte, denn das Intervall um den gefundenen Mittelwert enthält ja gerade
Kapitel 21 Stichprobe und Grundgesamtheit
nicht mit Sicherheit den Parameter H. Der Ausdruck kann aber als Bedingung verstanden werden, die mit der Wahrscheinlichkeit, die die Konfidenzwahrscheinlichkeit angibt, wahr ist. Es gilt also: P(x z1D / 2 V x d P d x z1D / 2 V x ) 1 D
Auch hier gilt es wieder, die zugrunde liegende Wahrscheinlichkeitsauffassung zu beachten. Unter der frequentistischen Auffassung ist obige Bedingung so zu lesen, dass aus einem sehr großen Kollektiv von Konfidenzintervallen ein Anteil von 1-< den Parameterwert H enthalten wird. Unter der subjektiven Sicht kann die Bedingung so verstanden werden, dass man für ein beliebiges Konfidenzintervall glaubt, dass der wahre Parameterwert mit einer Wahrscheinlichkeit von 1-< in diesem enthalten ist, d.h. man wäre bereit, bis zu 1-< Euro gegen < Euro darauf zu wetten, dass sich der Wert innerhalb des Intervalls befindet. Das Konzept der Konfidenzintervalle kann auch angewandt werden, wenn die Prüfgröße eine andere Verteilungsform als die Standardnormalverteilung hat. Wäre die Variable z.B. t-verteilt, dann wären die 2,5 % und 97,5 %-Quantile etwas weiter an den Rändern liegend, da die t-Verteilung etwas stärker ausufert als die Standardnormalverteilung, die Gesamtfläche unter der t-Verteilung aber ebenfalls 1 ist. Bei einer Stichprobengröße von 20 (19 Freiheitsgraden) z.B. liegen die Grenzen des 95 %-Konfidenzintervalls daher nicht das 1,96fache, sondern das 2,09fache des Standardfehlers vom Mittelwert entfernt.
301
302
Kapitel 22 Wie "normal" ist die Normalverteilung?
22 Wie "normal" ist die Normalverteilung? Alle Variablen sind eigentlich diskret
Das Grenzwerttheorem von de Moivre sagt uns, dass sich eine Binomialverteilung durch eine Normalverteilung annähern lässt, wenn die Anzahl der durchgeführten Basisexperimente hinreichend groß ist. Kontinuierliche Variablen, wie sie durch die Normalverteilung dargestellt werden, sind jedoch nur eine Idealisierung. In Wirklichkeit liegen uns immer Variablen vor, die wir nur in abgestuften Werten messen können. Wenn diese Abstufungen aber sehr fein sind, dann können wir die Messwerte einer Variablen so behandeln, als ob sie sich über das gesamte Kontinuum erstrecken würden. Während für einen Philosophen wie Leibniz die Vorstellung, die "Natur mache Sprünge", noch unannehmbar war, gehen wir heutzutage spätestens seit der Quantenphysik davon aus, dass die Natur in ihrem letzten Wesen diskret ist. Kontinuierliche Variablen können daher immer als im Wesen diskrete Variablen mit sehr feinen Abstufungen begriffen werden. Eine normalverteilte Variable kann daher immer so verstanden werden, als ob sie das Ergebnis von vielen einzelnen diskreten unabhängigen Einflussgrößen darstellte. Ein annähernd normalverteiltes Merkmal wie die Körpergröße kann daher so aufgefasst werden, als ob die Verteilung durch das Zusammenwirken vieler einzelner Ursachen zu Stande gekommen wäre.
Beispiel Körpergröße
Gehen wir davon aus, die Körpergröße, gemessen in Zentimeter, sei normalverteilt mit N (180; 64). Der Mittelwert ist also 180 cm, die Streuung 8 cm. Dann befänden sich ca. 95 % aller Körpergrößen in einem Bereich von 164 bis 196 cm. Wir können uns dann den Mittelwert einer normalverteilten Variablen als "Voreinstellungs-" oder "Default"-Wert vorstellen, oder eben als den "normalen" Wert der Körpergröße. Abweichungen nach oben oder unten sind dann verursacht durch bestimmte Faktoren. Nehmen wir an, es gäbe ungefähr 250 solcher Einflussfaktoren, die immer nur zwei Ausprägungen, also '+' oder '–', haben können. Jede dieser beiden Ausprägungen trete mit der Wahrscheinlichkeit von 1/2 auf, und alle Einflussfaktoren seien voneinander unabhängig. Ein positiv wirkender Einflussfaktor bewirkt eine Zunahme der Körpergröße um ein Millimeter, ein negativ wirkender Einflussfaktor eine Abnahme um denselben Betrag. Die 'Konstruktion' der Körpergröße erfolgt also wie bei einem Zufallsexperiment. Wir können uns statt jedes Einflussfaktors auch eine Münze vorstellen. Die Körpergröße eines jeden Menschen wird dann durch 250 solcher Münzwürfe bestimmt, bei 'Kopf' bekommt dieser Mensch einen Millimeter mehr an Körpergröße, bei 'Zahl' verliert er einen Millimeter. Die unterschiedlichen Körpergrößen von Männern und Frauen lassen sich dann z.B. darauf zurückführen, dass bei Männern mit einer Münze geworfen wird, die einen deutlichen Bias zugunsten von 'Kopf' hat, die Körpergröße von Frauen dagegen mit Hilfe einer Münze entschieden wird, die einen Bias zugunsten von 'Zahl' hat. Der Bias der Münze wird dann genetisch dadurch festgelegt, ob man ein "XX"- oder ein "XY"-Chromosom besitzt, die Auswirkung des Bias wiederum kommt durch bestimmte hormonelle Steuerungen zustande. Dies alles ist nur ein Modell, aber ein sehr nützliches Modell, weil es uns hilft, uns über
Kapitel 22 Wie "normal" ist die Normalverteilung?
das Wesen einer Variablen Klarheit zu verschaffen, indem wir uns ihre Verteilung ansehen. Experte: Historische Anmerkungen zur Entdeckung und Bedeutung der Normalverteilung Tatsächlich war es für Menschen des 18. und 19. Jahrhunderts eine bemerkenswerte Beobachtung, dass so viele physische Merkmale, wie z.B. die Körpergröße, tatsächlich normalverteilt waren. Das Grenzwerttheorem, wie es von Laplace als Vermutung formuliert wurde, geht in seiner Allgemeinheit auch weit über das von Lindeberg und Lévy hinaus. Nach Laplace ist nämlich jedes Merkmal normalverteilt, dessen konkrete Ausprägung durch eine Vielzahl von unabhängig wirkenden Faktoren bedingt ist, wobei diese Ursachenvariablen keineswegs identisch verteilt sein müssen. Ljapunoff zeigte die hinreichenden Bedingungen für die Geltung dieses allgemeinen Grenzwertsatzes auf, das Grenzwerttheorem von Lindeberg und Feller gibt zudem noch die notwendigen Bedingungen an. Wenn alle notwendigen Bedingungen und mindestens eine hinreichende Bedingung erfüllt sind, dann gilt die Annahme von Laplace. Wahrscheinlichkeiten waren für den Deterministen Laplace nur spiegelbildlicher Ausdruck unseres Unwissens (vgl. die Ausführungen in Kapitel 15). Die Streuung der Werte um den Mittelwert ist nach Laplace immer eine Art "Fehler" unserer bestmöglichen Schätzungen und gibt das Ausmaß unseres Unwissens wieder. Je mehr Ursachen wir kennen, die die Ausprägung einer Variablen bestimmen, desto genauer können wir den Wert dieser Variablen voraussagen. Dieser Vorstellung der "Varianzaufklärung" werden wir in den nächsten Kapiteln im Zusammenhang mit einigen der dort vorgestellten Tests und Schätzverfahren wieder begegnen. Hier wollen wir vor allem verdeutlichen, dass der Normalverteilung, neben ihrer offensichtlichen Nützlichkeit für die Schätz- und Testverfahren, eine unmittelbare deskriptive Bedeutung zukommt, weil uns die Form einer Verteilung auch sehr viel über das Wesen der Variablen zu sagen vermag. Erst die Normalverteilung z.B. gibt dem Mittelwert den tieferen Sinn, ihn als "typischen Repräsentanten" einer Verteilung zu betrachten, und Abweichungen vom Mittelwert als "Störungen" der Voreinstellung oder als durch bestimmte Ursachen hervorgerufen zu interpretieren. Das Konzept der Normalverteilung hat daher neben seiner mathematischen eine nicht zu unterschätzende kulturelle Bedeutung. Erst die Normalverteilung macht es sinnvoll, eine Gesamtheit durch einen aggregierten Wert wie den Mittelwert darzustellen. Zwar können natürlich auch nicht normalverteilte Verteilungen mit Hilfe des Mittelwerts charakterisiert werden, aber die besonders reiche Interpretationsfähigkeit des Mittelwerts ist eng an die Normalverteilung verknüpft. Zum Beispiel waren Mathematiker des 19. Jahrhunderts wie Quételet über alle Maßen erstaunt, dass die durchschnittliche Anzahl von schweren Verbrechen für bestimmte Nationen einen bemerkenswert konstanten Verlauf aufwies, und das bei einer Variablen, die im Einzelfall so irrational und unberechenbar ist. Mittelwerte wie die Verbrechensrate konnten also zur Charakterisierung einer bestimmten Gesellschaftsform herangezogen werden. Mehr noch, Zusammenhänge zwischen verschiedenen Variablen in der Gesamtheit können sich so als Zusammenhänge zwischen mehreren aggregierten Variablen begreifen lassen. Die wissenschaftliche Untersuchung der Gesellschaft als Forschungsobjekt beginnt überhaupt erst mit diesen Konzepten. Der Wahrscheinlichkeitstheoretiker Condorcet ist der erste, der zum Ende des 18. Jahrhunderts den Begriff der "Gesellschaftswissenschaft" gebraucht, und von den Untersuchungen Quételets führt ein direkter Weg zu den Stammvätern der modernen Soziologie wie Comte und Durkheim.
Ende Experte
Dieses Modell entspricht auch der Vorstellung von Laplace, dem zufolge jedes Normalverteilung bei nicht unabhängigen Merkmal normalverteilt ist, dessen konkrete Ausprägung durch eine Vielzahl von Basisereignissen unabhängig wirkenden Faktoren bedingt ist. Dabei müssen die Ursachenvariablen
303
304
Kapitel 22 Wie "normal" ist die Normalverteilung?
nicht identisch verteilt sein. Das bedeutet, dass zumindest in der Formulierung von Laplace die Annahme der identischen Verteilung der Basisvariablen aufgegeben wurde. Tatsächlich kann auch die andere Bedingung, die der Unabhängigkeit der einzelnen Zufallsexperimente, zumindest in Teilen gelockert werden. Das wollen wir uns verdeutlichen, indem wir wieder auf das schon bekannte Beispiel des mehrfachen Werfens eines Würfels und der Ermittlung der Augensumme zurückgreifen. Allerdings gehen wir jetzt davon aus, dass die verschiedenen Würfe nicht mehr unabhängig voneinander sind. Wir geben dem Würfel eine Art "Gedächtnis", das allerdings gewisse Lücken aufweist. Wir behaupten, der Würfel erinnere sich mit einer Wahrscheinlichkeit von 1/2 an das Ergebnis des letzten Wurfes und reproduziere dieses dann genau. Mit Wahrscheinlichkeit von 1/2 jedoch findet ein neuer unabhängiger Wurf des Würfels statt. Zur Ermittlung der Ergebnisse des Experimentes führen wir wieder eine Simulation durch. Dabei wiederholen wir die einzelnen Wurffolgen 40 000mal. Um die Augensumme beim zweimaligen Werfen des Würfels zu ermitteln, führen wir das zweimalige Werfen also 40 000mal durch. Durch diese hohe Zahl der Simulationen können wir relativ sicher sein, dass die durch die Simulation erzielte Verteilung der theoretisch zu erwartenden relativ nahe kommt. In den Abbildungen 22.1a-f sind die Ergebnisse der Simulation abgebildet. Es zeigt sich, dass z.B. bei zwei Würfen die geraden Augensummen besonders häufig auftreten. Dies ist natürlich eine direkte Folge davon, dass in der Hälfte der Fälle der erste Wurf unmittelbar reproduziert wird. Außerdem kann sich das Ergebnis des ersten Wurfs auch auf "normale" Weise wiederholen, wenn es tatsächlich unabhängig vom ersten Wurf noch einmal auftritt. Abbildung 22.1a: 2 Würfe
2
3
4
5
6
7
8
9
Abbildung 22.1b: 3 Würfe
10
11
12
Abbildung 22.1c: 4 Würfe
4
6
8
10
12
14
16
18
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18
Abbildung 22.1d: 10 Würfe
20
22
24
10
15
20
25
30
35
40
45
50
55
60
Kapitel 22 Wie "normal" ist die Normalverteilung?
Abbildung 22.1e: 20 Würfe
20
30
40
50
60
70
80
90
Abbildung 22.1f: 100 Würfe
100
110
120
100 150 200 250 300 350 400 450 500 550 600
Je mehr Würfe wir jedoch durchführen, desto geringer wird die Bedeutung der Reihen mit konstanten Ergebnissen, und die entsprechenden Häufigkeiten ordnen sich mit zunehmender Anzahl der Würfe mehr und mehr der "normalen" Form der Normalverteilung ein (allerdings entspricht die Streuung nicht der, die bei unabhängigen Würfen aufgetreten wäre, sondern ist größer). Wir können uns dies leicht erklären. Das "Gedächtnis" des Würfels ist nämlich in der von uns konstruierten Simulation nur lokal. Der Würfel erinnert sich mit Wahrscheinlichkeit von 1/2 an den letzten Wurf, die Wahrscheinlichkeit, dass sich ein Würfel über zwei Würfe hinweg korrekt erinnert, beträgt jedoch nur ein Viertel. Zwischen zwei Würfen, die zehn Würfe weit auseinander liegen, ist praktisch kein Zusammenhang mehr festzustellen. Betrachten wir ein beliebiges Paar von Würfen, so ist die Stärke der Korrelation zwischen ihnen also abhängig vom Abstand der Würfe zwischen ihnen. Die durchschnittliche Korrelation zwischen zwei Würfen ist dementsprechend gering, da das Gedächtnis nur sehr kurzfristig wirkt. Eine normalverteilte Zufallsvariable kann sich also auch dann ergeben, wenn diese als Summe oder Mittelwert von Zufallsvariablen gebildet wird, von denen ein Teil untereinander keineswegs unabhängig ist. Allerdings darf der Anteil der untereinander korrelierenden Basisvariablen nicht zu hoch sein. Nur zur Illustration sind in den Abbildungen 22.2a und 22.2b die Ergebnisse der Augensumme bei 20fachen und 100fachen Werfen des Würfels wiedergegeben, wenn der Würfel ein "globales Gedächtnis" besitzt, wenn also alle Ergebnisse einer Reihe von Würfen miteinander korreliert sind. Bei jedem beliebigen Wurf 'erinnert' sich hier der Würfel mit einer Wahrscheinlichkeit von 0,7 an den "ersten Wurf", den er immer wieder wiederholen möchte. Die Übereinstimmung aufgrund der gemeinsamen Erinnerung an das erste Mal beträgt daher für zwei beliebige Würfe immer 0,49. Abbildung 22.2a 20 Würfe
20 30 40 50 60 70 80 90 100 110 120
Abbildung 22.2b: 100 Würfe
100 150 200 250 300 350 400 450 500 550 600
305
306
Kapitel 22 Wie "normal" ist die Normalverteilung?
Die Normalverteilung ist also ein wesentlich allgemeineres Phänomen, als es der zentrale Grenzwertsatz vermuten ließe, nur lässt sich der Normalverteilungscharakter in den erwähnten Beispielen nicht zwingend aus bestimmten Bedingungen ableiten, sondern muss empirisch von Fall zu Fall überprüft werden. Zusammenwirken mehrerer Einflussvariablen
Entscheidend jedoch ist: Wenn eine Normalverteilung durch das Zusammenwirken vieler unabhängiger Ursachen entsteht, dann können wir umgekehrt das Vorliegen einer normalverteilten oder annähernd normalverteilten Variable als möglichen Hinweis darauf verstehen, dass sich diese kausal als Ergebnis des Wirkens mehrerer Einflussfaktoren eingestellt haben könnte. Dies stellt zwar keine logische Folgerung dar, denn dann würden wir den Fehlschluss der Bejahung des Konsequens (vgl. Abschnitt 5.3.3) begehen, aber es kann eine durchaus sinnvolle Plausibilitätsvermutung sein. Je weniger dagegen eine Variable der Form einer Normalverteilung entspricht, desto unwahrscheinlicher ist es, dass diese Variable durch mehrere unabhängig wirkende Faktoren bedingt worden ist, sondern wir können vermuten, dass es sich bei dieser Variable um einen Ausdruck von sich selbst und nichts anderem handelt.
Beispiel 'NatoDoppelbeschluss'
Wir wollen dies an einigen Beispielen illustrieren. Tabelle 22.1 zeigt die Verteilung der Einstellungen der Befragten in einer Bevölkerungsumfrage von 1983 zum damals aktuellen Thema der Stationierung von Mittelstreckenraketen (der sogenannte Nato-Doppelbeschluss).4 In Abbildung 22.3 ist die Verteilung grafisch dargestellt. Die Antwortvorgaben waren von '1' bis '5', wobei '1' das höchste Maß der Zustimmung zur Stationierung bedeutete, während die '5' den größten Grad der Ablehnung ausdrückte. Die Variable ist ordinalskaliert. Für die Diskussion der Verteilungsform jedoch behandeln wir die Variable so, als ob sie metrisch skaliert wäre. Die Verteilung ist demnach deutlich linksschief bzw. rechtssteil, der Modus der Verteilung liegt am rechten Extrem. Merkmale der Normalverteilung wie den erwähnten "Sog zur Mitte" und das symmetrische Abfallen nach links und rechts sind nicht zu erkennen. Wir können daraus zumindest bedingt den Schluss ziehen, dass es sich bei der Einstellung zur Raketenstationierung um keine Einstellung handelt, deren Ausprägung durch mehrere unabhängige Einflussfaktoren bestimmt wird. Vielmehr können wir bei dieser Variable die Vermutung äußern, es handele sich bei ihr um einen "Ausdruck von sich selbst", die Einstellungen sind selbst direkt und geben die unmittelbar und spontan generierte Ansicht der Befragten zu dem Thema wieder.
4
Der Datensatz, dem die Informationen entnommen sind, wird vom Zentralarchiv für Sozialforschung in Köln (ZA) unter der Studiennummer ZA 1276 geführt und kann von dort bezogen werden.
Kapitel 22 Wie "normal" ist die Normalverteilung?
307
Tabelle 22.1: Einstellung zur Raketenstationierung
Gültig
Fehlend
Häufigkeit
Prozent
Gültige Prozente
80
4,9
8,6
8,6
2
166
10,2
17,9
26,6
3
224
13,8
24,2
50,8
4
179
11,0
19,3
70,1
5 (sehr schlecht)
277
17,1
29,9
100,0
Gesamt
926
57,1
100,0
0 (nicht in der 3. Welle)
608
37,5
88
5,4
696
42,9
1622
100,0
1 (sehr gut)
9 (weiß nicht) Gesamt Gesamt
Kumulierte Prozente
Datenquelle: ZA 1276
Abbildung 22.3: Einstellung zur Raketenstationierung 300 250 200 150 100 50 0 1
2
3
4
5
Dieses Ergebnis ist nicht sehr verwunderlich, wenn man bedenkt, dass es sich bei der Beurteilung der NATO-Nachrüstung für viele um ein unmittelbares Lebensinteresse gehandelt hat, so dass es sowohl wahrscheinlich war, dass praktisch jeder Befragte tatsächlich eine Ansicht zu dem Thema hatte, als auch dass er diese Ansicht spontan äußern konnte, da sie unmittelbarer Ausdruck tief liegender Grundüberzeugungen war. Wenn diese Überlegungen richtig sind, dann sollten auch andere Verteilungen von Beispiel Abtreibung Einstellungen, die ähnlich tiefe oder unmittelbare Überzeugungen widerspiegeln, eher gleichmäßig mit gewissen Höhen und Tiefen über die Bandbreite der möglichen Einstellungen streuen, wobei die spezifische Form der Verteilung nicht vorhersehbar ist. Wir können diese Vermutung anhand eines anderen Themas unter-
308
Kapitel 22 Wie "normal" ist die Normalverteilung?
suchen, das mit Sicherheit eine der grundlegendsten Überzeugungen wiedergibt, nämlich die Einstellung zur Abtreibung. Tabelle 22.2 gibt die Verteilung der Meinungen der Befragten einer im Jahr 1987 durchgeführten Umfrage wieder,5 ob die Entscheidung über einen Schwangerschaftsabbruch unter Strafe gestellt werden oder vielmehr der Frau selbst überlassen werden sollte. Hier waren Antwortabstufungen von '1' bis '7' möglich, wobei '1' die Befürwortung eines gesetzlichen Verbots des Schwangerschaftsabbruchs bedeutete, '7' eine weitgehende Liberalisierung. In Abbildung 22.4 ist die Verteilung grafisch dargestellt. Tabelle 22.2: Einstellung zur Regelung des Schwangerschaftsabbruchs Häufigkeit Gültig
Prozent
Gültige Prozente
145
7,4
11,2
11,2
2
99
5,1
7,6
18,8
3
124
6,3
9,6
28,4
4
231
11,8
17,8
46,1
5
150
7,7
11,6
57,7
6
178
9,1
13,7
71,4
7 (der Frau überlassen)
371
19,0
28,6
100,0
1298
66,4
100,0
643
32,9
13
0,7
656
33,6
1954
100,0
1 (unter Strafe stellen)
Gesamt Fehlend
0 (nicht befragt) 9 (keine Antwort) Gesamt
Gesamt Datenquelle: ZA-Datensatz Nr. 1537
5
ZA-Datensatz Nr. 1537.
Kumulierte Prozente
Kapitel 22 Wie "normal" ist die Normalverteilung?
309
Abbildung 22.4 400 350 300 250 200 150 100 50 0 1
2
3
4
5
6
7
Ähnlich wie bei der Raketenstationierung zeigt sich eine Verteilung, die nicht die geringste Ähnlichkeit mit einer Normalverteilung aufweist. Wenn wir bei in Umfragen erhobenen Einstellungen bleiben, dann stellt sich nun Politische Einstellungen die Frage, bei welcher Art von Einstellung wir eine Verteilung erwarten könnten, die einer Normalverteilung zumindest hinsichtlich ihrer hervorstechendsten Eigenschaften – Konzentration in der Mitte, symmetrischer und kontinuierlicher Abfall zu den Rändern – ähnlich sein könnten. Nach unseren Überlegungen müsste es sich dabei um Variablen handeln, die als Ergebnis vieler unabhängiger anderer Variablen aufgefasst werden können. Betrachten wir einmal die politische Überzeugung eines Befragten, bzw. seine Selbsteinstufung auf einem Links-RechtsKontinuum politischer Ideologie: Es erscheint zumindest plausibel, dass es von einer Vielzahl von Faktoren abhängt, ob sich jemand als "links" oder "rechts" bezeichnet. Die politische Prägung durch das Elternhaus, eigene Erfahrungen mit politischen Parteien und ihren Kandidaten, professionelle oder sonstige Lebensumstände, die eigene Interessen mit politischen Programmen der Parteien verbinden, und nicht zuletzt politische Grundüberzeugungen von dem, was "richtig" oder "gerecht" ist, spielen hier eine Rolle. Es lassen sich eine Reihe weiterer Faktoren denken, wie etwa die physische Attraktivität von Kandidaten, tagespolitische Ereignisse u.ä., die ebenfalls einen Einfluss ausüben. Wenn die Selbsteinstufung auf der Links-Rechts-Skala in diesem Sinne tatsächlich ein komplexes Konglomerat vieler Ursachen ist, dann könnten wir hier eine Verteilung erwarten, die der Form der Normalverteilung näher kommt als in Fällen, in denen es um unmittelbar zugängliche spezifische Themen ging. In Tabelle 22.3 ist die Links-RechtsSelbsteinstufung der Befragten dargestellt, Abbildung 22.5 stellt die Verteilung grafisch dar.6 Die Links-Rechts-Einstufung wurde auf der für diese Frage häufig verwendeten Skala von '1' bis '11' erhoben, wobei '1' 'links' bedeutet und '11' 'rechts'.
6
Die Daten stammen aus der gleichen Befragung wie die zum Nato-Doppelbeschluss (ZA 1276).
310
Kapitel 22 Wie "normal" ist die Normalverteilung?
Tabelle 22.3: Links-Rechts-Selbsteinstufung Häufigkeit Gültig
Gesamt
Gültige Prozente
Kumulierte Prozente
1 (links)
36
2,2
2,3
2,3
2
38
2,3
2,4
4,7
3
92
5,7
5,8
10,5
4
166
10,2
10,5
20,9
5
204
12,6
12,9
33,8
6
491
30,3
30,9
64,7
7
152
9,4
9,6
74,3
8
149
9,2
9,4
83,7
9
122
7,5
7,7
91,4
10
54
3,3
3,4
94,8
11 (rechts)
83
5,1
5,2
100,0
1587
97,8
100,0
35
2,2
1622
100,0
Gesamt Fehlend
Prozent
99 (keine Antwort)
Datenquelle: ZA-Datensatz Nr. 1276
Tatsächlich bestätigt sich unserer Vermutung über die erwartete Form der Verteilung. Die Links-Rechts-Selbsteinstufung weist eine starke Konzentration in der Mitte auf, und die Häufigkeit nimmt immer mehr ab, je mehr man sich den Rändern nähert. Damit sich jemand als "links außen" oder "rechts außen" klassifiziert, muss unseren Vermutungen nach schon einiges an Gründen zusammenkommen, so dass diese Selbsteinstufungen dementsprechend selten vorkommen. Auffälligster "Schönheitsfehler" gegenüber unseren theoretischen Erwartungen ist die extrem hohe Ausprägung der Mittelkategorie. In der Umfragenforschung wird dieser Umstand mit so genannten "Non-Attitudes", also "Nicht-Einstellungen", erklärt. Manche der Befragten sehen sich außer Stande, eine Meinung zu der gestellten Frage zu äußern. Gleichzeitig scheuen sie sich jedoch – aus welchen Gründen auch immer –, dies zuzugeben. In diesem Fall neigen viele dieser Befragten dazu, einfach die in der Mitte liegende Antwort anzugeben. Leider können wir niemals genau wissen, wie viele der gegebenen Antworten tatsächlich auf "Non-Attitudes" zurückzuführen sind, aber wenn wir die Verteilung in Abbildung 12.5 in Gedanken an die "Non-Attitudes" korrigieren, dann kommt die Verteilung einer Normalverteilung zumindest näher.
Kapitel 22 Wie "normal" ist die Normalverteilung?
311
Abbildung 22.5 600 500 400 300 200 100 0 1
2
3
4
5
6
7
8
9
10
11
Wir wollen uns weiteren Beispielen von politikwissenschaftlich relevanten Vari- Beispiel Anzahl Wahlberechtigter pro ablen zuwenden, die wir als von vielen Faktoren verursacht betrachten können. Wahlkreis Nehmen wir z.B. die Anzahl der Wahlberechtigten in einem Wahlkreis. Nach dem Bundeswahlgesetz müssen die Wahlkreise möglichst gleichmäßig zugeschnitten werden, eine Korrektur bestehender Verzerrungen wurde zuletzt mit der Neueinteilung zur Bundestagswahl 2002 vorgenommen. Obwohl es eine klare Sollzahl der Bevölkerungszahl pro Wahlkreis gibt, nämlich die Gesamtbevölkerungszahl geteilt durch die Anzahl der Wahlkreise, lassen sich Abweichungen von der Sollzahl nicht vermeiden. So kommen Abweichungen etwa dadurch zu Stande, dass die Wahlkreiseinteilung sich an der Bevölkerungszahl und nicht an der Anzahl der Wahlberechtigten orientiert. Der Anteil der Wahlberechtigten an der Bevölkerungszahl fällt jedoch in den verschiedenen Wahlkreisen unterschiedlich aus, da er von der Altersstruktur der Bevölkerung abhängt. Außerdem soll sich die Wahlkreiseinteilung an bestehenden Verwaltungseinheiten orientieren, die ebenfalls nicht immer genau gleich viele Wahlberechtigte enthalten. So weist in der Realität die Anzahl der Wahlberechtigten in den einzelnen Wahlkreisen eine relativ große Streuung auf, wie man in Tabelle 22.4 sehen kann. In der Tabelle sind die wichtigsten Kennwerte der Verteilung wiedergegeben. Die durchschnittliche Anzahl der Wahlberechtigten liegt bei etwas über 205 000, der kleinste Wahlkreis hat ungefähr 152 000 Wahlberechtigte, der größte knapp 250 000. Eine grafische Darstellung der Originalwerte aller 299 Wahlkreise als Säulen- oder Stabdiagramm wäre wenig sinnvoll, da jeder Wert nur einmal vorkommt. Wir runden daher jeden Wert auf ganze Vielfache von Fünftausend und erhalten dann ein Säulendiagramm, das in Abbildung 22.6 zu sehen ist.
312
Kapitel 22 Wie "normal" ist die Normalverteilung?
Tabelle 22.4: Kennwerte der Anzahl der Wahlberechtigten pro Wahlkreis bei der Bundestagswahl 2002
Wahlberechtigte im Jahr 2002
N
Minimum
Maximum
Mittelwert
Standardabweichung
299
15 2141
24 9172
20 5313,28
21 610,40
Abbildung 22.6: Wahlberechtigte pro Wahlkreis in 1000 gerundet auf jeweils 5000 genau 35 30 25 20 15 10 5
25 0
24 0
23 0
22 0
21 0
20 0
19 0
18 0
17 0
16 0
15 0
0
Auch hier sehen wir unsere Erwartungen zumindest grob bestätigt. Die Verteilung hat eine gewisse Konzentration in der Mitte und nimmt nach beiden Seiten zu den Rändern hin ab. Natürlich ist die Verteilung selbst keine Normalverteilung, aber wir können nicht ausschließen, dass sie die Realisierung eines Zufallsexperiments "Zuschneiden von Wahlkreisen" ist, dessen theoretische Verteilung bei sehr häufiger Wiederholung des Experiments tatsächlich einer Normalverteilung entsprechen könnte. Wie wir wissen, bedarf es häufig ja Zehntausender von Experimenten, bis die empirische Verteilung der theoretischen weitgehend entspricht. Beispiel Anteil Erststimmen für die SPD
Als letztes Beispiel wollen wir nun den Anteil der Erststimmen der SPD in den Wahlkreisen bei der Bundestagswahl 2002 betrachten. In Tabelle 22.5 sind wieder die Kennwerte der Verteilung aufgeführt. Tabelle 22.5: Anteil der Erststimmen der SPD in den Wahlkreisen
Anteil der SPD
N
Minimum
Maximum
Mittelwert
Standardabweichung
299
0,1770
0,6324
0,4201
0,0928
Im Durchschnitt erhielt die SPD 2002 42 % der Erststimmen in einem Wahlkreis. Allerdings variierte diese Zahl beträchtlich von 17,7 % bis 63,2 %. Auch hier
Kapitel 22 Wie "normal" ist die Normalverteilung?
313
können wir uns leicht vorstellen, dass diese Variation auf eine Vielzahl von Ursachen zurückzuführen ist. Betrachten wir den bundesweiten Mittelwert von 42 % als eine Art von Voreinstellung, dann ergeben sich Abweichungen zwischen den Wahlkreisen schon einmal aufgrund des Bundeslandes, in dem der Wahlkreis lag. In einem traditionellen SPD-Land wie Nordrhein-Westfalen lag der durchschnittliche Anteil der SPD natürlich höher als in Bayern. Weitere Variationen innerhalb der Länder ergeben sich beispielsweise durch regionale Hochburgen, spezielle Kandidatenprofile und mögliche indirekte Wahlabsprachen oder durch die Anzahl der Kandidaten in einem Wahlkreis. Abbildung 22.7 zeigt die Anteile der Erstimmen der SPD grafisch. Abbildung 22.7: Anteil der Erststimmen der SPD (in Prozent) 25 20 15 10 5
63
60
57
54
51
48
45
42
39
36
33
30
27
24
21
18
0
Auch hier erkennen wir, dass die Verteilung wieder eine deutliche Konzentration "Gleitende" Histogramme in der Mitte aufweist und nach den Rändern hin abnimmt. Wenn wir auch nicht wissen, ob es sich tatsächlich um eine theoretisch zugrunde liegende Normalverteilung handelt, können wir zumindest die Ähnlichkeit feststellen. Unschön an der Verteilung sind allerdings die extrem großen zackigen Täler zwischen manchen Werten. So kommen '40 %' und '42 %' als Wert relativ häufig vor (21mal), während der dazwischen liegende Wert '41 %' wesentlich seltener auftritt (8mal). Solche Unregelmäßigkeiten entstehen durch zufällige Streuung der Werte über bestimmte Teilbereiche. Zum Teil haben wir diesen Effekt durch die Rundung schon etwas behoben. Die Rundung kann ja auch so verstanden werden, dass wir ein Histogramm gebildet haben, indem wir die Häufigkeiten innerhalb eines bestimmten Intervalls gezählt haben. Die 21 Fälle z.B., die durch die Rundung den Wert '40 %' zugewiesen bekommen, lagen in ihrer konkreten Ausprägung zwischen 39,5 % und 40,5 %. Wir könnten die Kurve daher von den zackigen Einbrüchen weiter befreien und somit "glätten", indem wir die Intervalle breiter machen. Allerdings kämen wir dann in Gefahr, gewisse Änderungen der Dichte innerhalb eines Intervalls nicht mehr zu erfassen, wenn die Intervalle zu breit werden. Die Lösung besteht in der Konstruktion so genannter gleitender Histogramme. Die Häufigkeit an einem bestimmten Punkt wird dann geschätzt durch die mittlere
314
Kapitel 22 Wie "normal" ist die Normalverteilung?
Häufigkeit bzw. Dichte in einem Intervall um diesen Punkt herum. Wir setzen dieses Intervall auf eine Breite von 5 Prozentpunkten. Der Wert von '41 %' wird dann berechnet als die Häufigkeit aller Werte in einem Intervall von 38,5 bis 43,5, geteilt durch die Intervallbreite, also 5. Auf diese Art und Weise verschwinden die Lücken in der Verteilung, ohne dass wir die Anzahl der Datenpunkte reduzieren müssen. die solchermaßen "geglättete" Verteilung ist in Abbildung 22.8 dargestellt. Abbildung 22.8: Verteilung der Anteilswerte mit gleitenden Durchschnitten, die bezüglich 5-Prozent-Intervallen gebildet wurden .. 16 14 12 10 8 6 4 2
61
58
55
52
49
46
43
40
37
34
31
28
25
22
19
0
Diese Methode, die "Häufigkeit" an einem bestimmten Punkt durch die Dichte der Verteilung in einem Intervall um den Punkt herum zu schätzen, kann für jeden einzelnen Datenpunkt angewandt werden, so dass wir auf diese Art und Weise auch dann eine kontinuierliche Verteilungskurve konstruieren können, wenn wir von einer kontinuierlichen Variable nur eine finite Menge von Werten besitzen. Abbildung 22.9: Kontinuierliche Verteilung auf der Basis einzelner Datenpunkte .. 16 14 12 10 8 6 4 2 0 15
20
25
30
35
40
45
50
55
60
65
Kapitel 22 Wie "normal" ist die Normalverteilung?
Bei kontinuierlichen Variablen wird der Wert auf der Y-Achse als Dichte interpre- Kern-Dichteschätzer tiert. Verfahren wie das eben genannte werden daher Kern-Dichteschätzer genannt, da zur Schätzung eines bestimmten Datenpunktes ein Kern um ihn verteilter Werte herangezogen wird. Während die eben illustrierte Methode als Kern ein so genanntes "Rechteckfenster" heranzieht, gibt es andere Kern-Dichteschätzer, die die Werte, die in einem bestimmten Intervall um den zu schätzenden Wert herum liegen und zur Schätzung der Dichte heran gezogen werden, mit verschiedenen Gewichten in die Schätzung eingehen lassen (vgl. Fahrmeir et. al. 2001: 98ff.).
315
316
Kapitel 23 Die Logik eines statistischen Tests
23 Die Logik eines statistischen Tests Bedeutungsgehalt von Wahrscheinlichkeitsaussagen
In den Sozialwissenschaften haben wir es üblicherweise mit Wahrscheinlichkeitsaussagen zu tun. Denn in den sozialwissenschaftlichen Zusammenhängen ist es selten möglich, den genauen Wert eines Merkmals in Abhängigkeit des Wertes eines anderen Merkmals zu bestimmen. Dies ist darauf zurückzuführen, dass die abhängigen Merkmale selbst in den Unterklassen, die durch die verschiedenen Ausprägungen des unabhängigen Merkmals gebildet werden, immer noch eine beträchtliche Variation besitzen. Diese Beobachtung kann man immer dann machen, wenn außer dem untersuchten Einflussfaktor noch andere Einflussfaktoren die abhängige Variable bestimmen, die aber in unser theoretisches Modell nicht aufgenommen wurden. Was meinen wir z.B. mit der Aussage, Männer seien größer als Frauen? Wir meinen sicherlich nicht damit, dass alle Männer größer sind als alle Frauen, denn es gibt einige Frauen, die größer sind als die meisten Männer, und es gibt einige Männer, die kleiner sind als die meisten Frauen. Dennoch halten wir eine solche Aussage offensichtlich nicht für sinnlos, sondern wir haben den Eindruck, uns durchaus etwas Sinnvolles unter dieser Aussage vorstellen zu können. Im Wesentlichen gibt es wohl zwei nahe liegende Interpretationen der Aussage 'Männer sind größer als Frauen.' Die eine lautet: 'Der Mittelwert der Körpergröße der Männer ist größer als der Mittelwert der Körpergröße der Frauen.' Die andere lautet: 'Wählen wir aus allen Männern und aus allen Frauen zufällig jeweils eine Person aus, dann ist die Wahrscheinlichkeit sehr hoch, d.h. deutlich größer als 1/2, dass der Mann bei diesem konkreten Paarvergleich größer ist.' Beide Aussagen hängen natürlich eng miteinander zusammen, aber sie sind durchaus analytisch zu unterscheiden. Man stelle sich vor, alle Frauen seien exakt 175 cm groß. Wenn 90 Prozent der Männer genau 174 cm groß wären und 10 Prozent der Männer genau 200 cm groß, dann wären die Männer im Durchschnitt größer als die Frauen, bei einem zufällig ausgewählten Paar würde aber in 90 Prozent der Fällen die Frau größer sein als der Mann. Wir müssen also auch auf die Verteilung der Körpergröße in den beiden Untergruppen achten. Am einfachsten ist der Fall zu untersuchen, wenn sich die beiden Untergruppen nur in ihrem Mittelwert unterscheiden, beide aber dieselbe Verteilungsform und dieselbe Streuung haben. In diesem Fall sind beide Interpretationen des Satzes 'Männer sind größer als Frauen' äquivalent. Wir nehmen z.B. an, die Frauen seien bezüglich der Körpergröße in cm normalverteilt mit N (170; 25) und die Männer seien normalverteilt mit N (180; 25). Beide Gruppen haben also dieselbe Standardabweichung von 5 cm, und die durchschnittliche Körpergröße der Männer liegt 10 cm über der durchschnittlichen Körpergröße der Frauen. In Abbildung 23.1. sind die beiden Verteilungen aufgezeigt. Beide Verteilungen überschneiden sich, da es ja Frauen gibt, die größer sind als Männer.
Verhältnis von Hypothese und Beobachtungen
Was wir also mit der Aussage 'Männer sind größer als Frauen' meinen, ist, dass Männer in den meisten Fällen größer als Frauen sind. Da dies aber nur eine pro-
Kapitel 23 Die Logik eines statistischen Tests
317
babilistische Aussage ist, können wir sie anhand eines Einzelfalls nicht überprüfen. Treffen wir ein Paar, bei dem der Mann größer als die Frau ist, dann bestätigt dies zwar unsere Erwartungen, treffen wir aber ein Paar, bei dem die Frau größer ist als der Mann, so würden wir deswegen unsere Hypothese nicht verwerfen, sondern wir würden zuerst einmal davon ausgehen, dass es sich hierbei um die Ausnahme handelt, die die Regel bestätigt. Treffen wir jedoch immer häufiger auf Paare von Männern und Frauen, bei denen die Frau größer ist als der Mann, dann würden wir langsam beginnen, an unserer Hypothese zu zweifeln und würden uns fragen, ob wir vielleicht eine wichtige Entwicklung auf dem Gebiet von Wachstumshormonen nicht mitbekommen haben. Abbildung 23.1: Verteilung der Körpergrößen von Frauen und Männern Frauen
150
160
170
Männer
180
190
200
Wir weisen eine Hypothese also dann zurück, wenn wir Beobachtungen machen, Praktische Falsifikation von denen wir wissen, dass sie nur sehr selten auftreten würden, wenn die Hypothese wahr wäre. Diese Weise des Schließens ist dem Modus Tollens relativ ähnlich. Als Prämisse gehen wir von einer Implikation aus, die besagt, dass bestimmte Ereignisse nur mit äußerst geringer Wahrscheinlichkeit auftreten, wenn eine bestimmte Theorie oder Hypothese wahr ist. Wenn nun ein solches Ereignis auftritt, dann behandeln wir es wie eine Negation der Aussage über die Unwahrscheinlichkeit seines Auftretens, d.h. wir gehen davon aus, dass Beobachtungen, die wir häufiger machen, nicht ihrem Wesen nach unwahrscheinlich sein können, bzw. halten es für sehr unwahrscheinlich, dass sie unwahrscheinlich sind. Wenn wir aber nicht mehr daran glauben, dass dieses Ereignis unwahrscheinlich ist, dann muss die Theorie falsch sein, aus deren Geltung die Unwahrscheinlichkeit des Ereignisses abgeleitet werden kann. Also lehnen wir die entsprechende Hypothese ab. Dieses Vorgehen nennt Popper auch "praktische Falsifikation" (Popper 1989: 146). Diese untersuchte Hypothese wollen wir im Zusammenhang mit statistischen Nullhypothese Tests die Nullhypothese H0 nennen. Wenn wir die Klasse der im Sinne der Nullhypothese "unwahrscheinlichen Ereignisse" mit e bezeichnen, dann hat das dem
318
Kapitel 23 Die Logik eines statistischen Tests
statistischen Test entsprechende Argument die Form eines statistischen Syllogismus (vgl. Kapitel 9): Wenn H0 wahr ist, dann tritt ein Ereignis e nur mit sehr geringer Wahrscheinlichkeit ein. Das Ereignis e wird beobachtet. ________________________________________________________________ Die Nullhypothese ist nicht wahr. Wir unterscheiden beim statistischen Test also drei Elemente: Elemente eines statistischen Tests
1. Die zu untersuchende Hypothese, die wir die Nullhypothese H0 nennen. 2. Eine Menge von Ereignissen bzw. Beobachtungen, deren Wahrscheinlichkeitsverteilung wir angeben können für den Fall, dass H0 wahr ist. Nur wenn wir solche Beobachtungen nennen und ihre Wahrscheinlichkeitsverteilung im Lichte der Nullhypothese angeben können, nur dann ist es möglich, die kritische Hypothese überhaupt zu überprüfen. Diese Beobachtungen sind das Maß, an denen sich entscheidet, ob wir weiterhin von der Wahrheit der Hypothese ausgehen wollen. Wir nennen diese Beobachtungen, deren Auftreten wir mit Wahrscheinlichkeiten quantifizieren können, eine Teststatistik. Die Teststatistik wird meistens aufgrund konkreter gemachter Beobachtungswerte auf eine bestimmte Weise konstruiert. Durch die Angabe der Konstruktionsvorschrift einer Teststatistik ist es erst möglich, dieser eine Wahrscheinlichkeitsverteilung zuzuordnen. Ein statistischer Test besteht daher immer in dieser Zweiheit von Hypothese und gleichzeitiger Angabe der Teststatistik. Hypothesen, zu denen wir keine Teststatistik angeben können, können auch nicht überprüft werden. Wir müssen daher schon bei der Auswahl der Nullhypothese mit berücksichtigen, ob es uns für diese Nullhypothese überhaupt möglich sein wird, eine entsprechende Teststatistik anzugeben. 3. Das dritte Element des Tests ist die "geringe Wahrscheinlichkeit", mit der bestimmte Beobachtungen unter Annahme der Gültigkeit der Nullhypothese auftreten müssen, so dass wir dann aufgrund dieser Beobachtungen, bzw. des entsprechenden Wertes der Teststatistik, die Nullhypothese ablehnen. Wie "gering" soll diese "geringe Wahrscheinlichkeit" nun ausfallen? Die Quantifizierung dieser Wahrscheinlichkeit ist die dritte der Größen, deren explizite Angaben einen statistischen Test hinreichend beschreiben. Wir nennen diese Wahrscheinlichkeit das Signifikanzniveau des Tests. In den Sozialwissenschaften sind übliche Signifikanzniveaus 5 %, 1 % und 1 ‰. Wenn also die Teststatistik einen Wert aus einem Bereich von Werten der Teststatistik erhält, der mit einer Wahrscheinlichkeit von weniger als 5 % auftritt, dann weisen wir die Nullhypothese zurück und sagen, das Ergebnis sei auf dem 5 %-Niveau signifikant. Ergebnisse auf dem 1 %-Niveau werden üblicherweise als hochsignifikant und Ergebnisse auf dem 1 ‰-Niveau als höchstsignifikant bezeichnet. Da die Wahrscheinlichkeit der "unwahrscheinlichen" Ereignisse aber entsprechend der Annahme berechnet worden ist, dass die Nullhypothese gültig ist, weisen wir
Kapitel 23 Die Logik eines statistischen Tests
die Nullhypothese in diesen Fällen mit dieser Wahrscheinlichkeit zurück, obwohl sie wahr ist. Das Signifikanzniveau gibt also die Wahrscheinlichkeit an, mit der wir die Nullhypothese fälschlicherweise zurückzuweisen. Daher bezeichnen wir das Signifikanzniveau auch als Irrtumswahrscheinlichkeit. Für die Bezeichnung der Irrtumswahrscheinlichkeit der Nullhypothese hat sich in der Statistik der griechische Buchstabe Į (alpha) eingebürgert. Oft wird die Irrtumswahrscheinlichkeit bezüglich der Nullhypothese daher auch einfach nur als Į-Fehler bezeichnet. Einige Aspekte der genannten Elemente bedürfen zusätzlicher Erläuterungen. Zu- Kritischer Wert der Teststatistik erst stellt sich die Frage, bei welchen Werten der Teststatistik die Nullhypothese genau abgelehnt werden soll. Nehmen wir unter Bezug auf unser altes Beispiel an, wir wollten durch das zehnmalige Werfen einer Münze darüber entscheiden, ob diese Münze fair ist. Unsere Nullhypothese sei, dass die Münze fair ist. Als Teststatistik lässt sich dann die Anzahl von 'Kopf' in zehn Würfen konstruieren. Wir erhalten die bekannte Verteilung der Teststatistik, wie sie in Abbildung 23.2 gezeigt ist. Die Werte der dazugehörigen Verteilung sind in Tabelle 23.1 aufgeführt. Bei der Festlegung der kritischen Werte der Teststatistik untersuchen wir nicht, mit welcher Wahrscheinlichkeit ein einzelner bestimmter Wert auftritt. Bei einer hinreichend fein abgestuften Verteilung der Teststatistik oder gar einer kontinuierlich verteilten Teststatistik, und mit solchen werden wir es in der Regel zu tun haben, ist fast jeder Einzelwert der Teststatistik hochgradig unwahrscheinlich. Wir legen daher gleichzeitig eine ganze Klasse von Werten der Teststatistik fest, bei deren Auftreten wir die Nullhypothese ablehnen. Ist die Irrtumswahrscheinlichkeit D z.B. gleich 5 %, dann muss die Wahrscheinlichkeit, dass ein beliebiger Wert aus dieser festgelegten Klasse auftritt, kleiner als 5 % sein, oder anders ausgedrückt, die Summe aller Wahrscheinlichkeiten der Teststatistikwerte in der AblehnungsKlasse muss kleiner als die entsprechende Irrtumswahrscheinlichkeit sein. Aber es wäre natürlich auch unsinnig, irgendeine Klasse von Werten der Teststatistik zu bilden, deren Summe der Auftretenswahrscheinlichkeiten kleiner als die Irrtumswahrscheinlichkeit ist. Bei der Klassenbildung sammeln wir daher gezielt solche Werte der Teststatistik, die im stärksten inhaltlichen Widerspruch zur Nullhypothese stehen. D.h. wir nehmen als erstes den Wert der Verteilung der Teststatistik in die Ablehnungs-Klasse auf, der der Nullhypothese am weitesten entgegensteht, dann den Wert, der ihr am zweitstärksten entgegensteht usw., bis mit dem nächsten Wert, den wir in die Klasse aufnehmen würden, die Summe der aufgenommenen Werte größer als die Irrtumswahrscheinlichkeit ausfällt.
319
320
Kapitel 23 Die Logik eines statistischen Tests
Abbildung 23.2
0
1
2
3
4
5
6
7
8
9
10
Tabelle 23.1: B (10; 0,5) X=k
P(X = k)
P(Xdk)
Binomialverteilung Binomialverteilung 0
0,000977
0,000977
1
0,009766
0,010742
2
0,043945
0,054687
3
0,117188
0,171875
4
0,205078
0,376953
5
0,246094
0,623047
6
0,205078
0,828125
7
0,117188
0,945312
8
0,043945
0,989258
9
0,009766
0,999023
10
0,000977
1,000000
Im konkreten Beispiel des Münzwurfes würden Ergebnisse von 10mal oder 0mal 'Kopf' am stärksten unserer Vermutung der Nullhypothese widersprechen, es handele sich bei der Münze um eine faire Münze. Diese treten mit einer Wahrscheinlichkeit von jeweils 0,00097656 auf. Als nächstes nehmen wir die Ergebnisse von 1mal oder 9mal 'Kopf' in die Ablehnungsklasse auf. Da die Binomialverteilung symmetrisch ist und wir die Aufnahme in die Ablehnungsklasse von den Rändern her betreiben, müssen wir nur solange die Werte der Teststatistik in die Klasse der Ablehnung aufnehmen, bis die kumulierten Wahrscheinlichkeiten auf einer Seite gerade noch 2,5 Prozent unterschreiten. Dies ist bei 1mal 'Kopf' der Fall. Die Wahrscheinlichkeit, dass bei 10 Münzwürfen mit einer fairen Münze 'Kopf' 0mal, 1mal, 9mal oder 10mal auftritt, ist also 2*0,00097656 + 2*0,00976563 (oder kumuliert 2*0,010742) = 0,021482. Würden wir noch die Ereignisse 2mal und 8mal
Kapitel 23 Die Logik eines statistischen Tests
'Kopf' in die Ablehnungsklasse aufnehmen, dann würden wir als Summe der Wahrscheinlichkeiten 2*0,054687 erhalten und damit die vorab festgelegt Irrtumswahrscheinlichkeit überschreiten. Auf einem 5 %-Signifikanzniveau lehnen wir also die Nullhypothese, es handele sich um eine faire Münze, dann ab, wenn 'Kopf' entweder 0mal oder 10mal, oder nur 1mal oder 9mal auftritt. Ist die Teststatistik kontinuierlich verteilt, dann besteht die Ablehnungsklasse aus Ablehnungsbereich einem Intervall oder mehreren Intervallen (zum Beispiel an den zwei Rändern) von Werten, und die Irrtumswahrscheinlichkeit ergibt das Integral der entsprechenden Intervalle bzw. die Fläche unter der Verteilungskurve der Teststatistik in den entsprechenden Intervallen. Im einfachsten Fall ist die Teststatistik standardnormalverteilt. Der Ablehnungsbereich besteht denn bei einem Į-Fehler von 5 % aus den Werten der Verteilung, die größer als 1,96 oder kleiner als –1,96 sind. Abbildung 23.3: Zweiseitiger Ablehnungsbereich bei einer standardnormalverteilten Teststatistik und einem Signifikanzniveau von 5 %
Wie oben erwähnt, können wir nur dann einen statistischen Test durchführen bzw. Alternativhypothese konstruieren, wenn wir zur Nullhypothese eine entsprechende Teststatistik konstruieren können, deren Wahrscheinlichkeitsverteilung bekannt ist. In der Regel aber kennen wir nur die Wahrscheinlichkeitsverteilung von Zufallsereignissen, oder zumindest ist deren Wahrscheinlichkeitsverteilung für uns relativ einfach zu berechnen. Dies hat inhaltliche und methodische Konsequenzen. Inhaltlich bedeutet dies, dass die untersuchte Hypothese eine Aussage über zufällige Ereignisse machen muss. Die Nullhypothese bezieht sich daher immer auf Beobachtungen, die wir erwarten würden, wenn es eben keinen systematischen Zusammenhang gibt, sondern alle Abweichungen vom Erwartungswert nur durch Zufall erklärt werden können. Wenn wir untersuchen wollen, ob Männer größer sind als Frauen, dann stellen wir die Nullhypothese auf, dass Männer gleich groß sind wie Frauen und untersuchen, wie wahrscheinlich unter dieser Annahme unsere Beobachtungen hinsichtlich der Körpergrößen von Männern und Frauen sind. Die Nullhypothese, die wir mit dem Test zu falsifizieren versuchen, ist also gerade nicht die
321
322
Kapitel 23 Die Logik eines statistischen Tests
uns substanziell interessierende These, sondern deren Negation. Diese Gegenthese zur Nullhypothese, d.h. die uns eigentlich interessierende Hypothese, nennen wir in Abgrenzung zur Nullhypothese H0 die Alternativhypothese H1 oder HA. Beim statistischen Test haben wir es also mit einer Umkehrung der Verhältnisse des Popper'schen Falsifikationismus zu tun. Dort versuchen wir die uns substantiell interessierende Hypothese zu falsifizieren und sehen unsere Hypothese als bewährt an, wenn sie den Falsifikationsversuchen erfolgreich zu widerstehen vermag. Beim statistischen Test verhält es sich genau umgekehrt: Wir sehen unsere Hypothese als bewährt an, wenn uns die Falsifikation der Negation der Hypothese gelungen ist. Hempel'sches Paradox der schwarzen Raben
Diese Umkehrung der Logik des Falsifikationsprozesses ist keineswegs unproblematisch. Die Problematik dieser Umkehrung hat eine gewisse Ähnlichkeit zu einem bizarren Paradox, das von Hempel formuliert worden ist und das als das "Hempel'sche Paradox der schwarzen Raben" in die Literatur eingegangen ist. Der allgemeine Satz 'Alle Raben sind schwarz.' gilt nach den Kriterien des Popperschen Falsifikationismus durch jede Beobachtung eines schwarzen Raben als weiter bewährt, da uns die Falsifikation des Satzes durch die Beobachtung misslungen ist. Der Satz ist jedoch äquivalent zu dem Satz 'Alles Nicht-Schwarze ist kein Rabe.' Wenn ein Satz durch eine Beobachtung als bestätigt oder weiter bewährt gilt, so muss dies aber auch für jeden Satz gelten, der diesem Satz äquivalent ist. Der allgemeine Satz 'Alle Raben sind schwarz.' würde demnach auch durch die Beobachtung jedes nicht-schwarzen Gegenstands, der kein Rabe ist, weiter bewährt. Die Beobachtung des weißen Kühlschranks, des roten Autos usw. würde die Wahrheit des Satzes untermauern. Dieses Paradox gilt allerdings nicht nur für die Popper'sche Falsifikationismus-Variante, sondern für jede Wissenschaftstheorie, die einen allgemeinen Satz zunehmend gestützt sieht durch Beobachtungen, die als Instanzen des Satzes aufgefasst werden können. Unsere erste Intuition geht dahin, dass die beiden Sätze keineswegs äquivalent sind. Aber betrachten wir die im Sinne des Falsifikationismus einzig relevante Klasse der Falsifikatoren. Der Satz 'Alle Raben sind schwarz.' wird falsifiziert, wenn wir einen Raben finden, der nicht schwarz ist. Der Satz 'Alles Nicht-Schwarze ist kein Rabe.' wird falsifiziert durch etwas Nicht-Schwarzes, das ein Rabe ist. Die Menge der Falsifikatoren ist für beide Aussagen tatsächlich gleich. Das Unbehagen, das wir bei diesem "Paradox" dennoch empfinden, lässt sich darauf gründen, dass wir bei der Wahl des Fokus auf die Objekte, an denen wir die Falsifikation vollziehen wollen, unterschiedlich verfahren. Da wir eine Aussage über Raben bewähren wollen, sollten wir uns auch bei der Auswahl der Objekte, die wir für die Überprüfung heranziehen, auf Raben konzentrieren. Beobachtungen der Farbe von Kühlschränken scheinen uns hingegen wenig geeignet, uns etwas über die Merkmale von Raben auszusagen. Es ist der Wechsel der Prüfungsinstanzen, der uns ein ungutes Gefühl vermittelt.
Problem: Wechsel der Prüfungsinstanz
Nicht viel anders aber verhält es sich, wenn wir statt der uns interessierenden Hypothese die Nullhypothese als "Strohmann" überprüfen. Auch hier vollziehen
Kapitel 23 Die Logik eines statistischen Tests
323
wir einen Wechsel dessen, was eigentlich geprüft werden soll. Nur ist dies hier nicht ganz so offensichtlich wie beim Hempel'schen Rabenparadox. Dass dieser Wechsel der zu prüfenden Hypothese entscheidend für die Interpretation des Ergebnisses des Tests ist, kann man sich dadurch vergegenwärtigen, dass man sich überlegt, was eine "Verschärfung" des Tests zu bedeuten hat. Kann die uns eigentlich interessierende Hypothese in stärkerem Maße als bewährt angenommen werden, wenn die Nullhypothese auf einem Signifikanzniveau von 1 Prozent falsifiziert worden ist, als wenn die Nullhypothese nur auf einem Signifikanzniveau von 5 Prozent falsifiziert worden wäre? Dass dem genau nicht so ist, werden wir an späterer Stelle zeigen. Der Umstand, dass die Wahrscheinlichkeitsverteilung der Teststatistik bekannt sein muss, hat auch methodische Konsequenzen: Es muss möglich sein, die Teststatistik selbst als Ergebnis eines Zufallsexperiments aufzufassen. Wir berechnen die Teststatistiken immer anhand der gezogenen Stichproben. Nur wenn die Stichprobe als Durchführung eines Zufallsexperiments interpretiert werden kann, können wir auch eine Wahrscheinlichkeitsverteilung der Teststatistik angeben. Dies ist der entscheidende Grund, warum Zufallsstichproben anderen Stichprobenverfahren vorzuziehen sind, da wir nur bei diesen auf relativ einfache Art und Weise eine Wahrscheinlichkeitsverteilung der Teststatistik berechnen können.
Notwendigkeit von Zufallsstichproben zur Berechnung einer Teststatistik
Die uns interessierende Hypothese HA kann durch die Ablehnung der Nullhypo- Prognosen müssen riskant sein these nur dann als bewährt angesehen werden, wenn die Werte der Teststatistik, deren Auftreten unter der Nullhypothese relativ unwahrscheinlich wäre, ganz im Sinne der uns eigentlich interessierenden Hypothese sind. Gerade weil wir aufgrund der eigentlichen Hypothese HA in der Lage sind, Ereignisse vorauszusagen, deren zufälliges Auftreten sehr unwahrscheinlich ist, können wir die Ausgangshypothese als bewährt ansehen. Die Voraussage von Dingen, die wir so oder so erwarten würden, nötigt niemanden Respekt ab. Horoskope etwa, die so unspezifisch gehalten sind, dass, egal was geschieht, immer als durch das Horoskop vorhergesagt interpretiert werden kann, sind wenig nützlich. Dem wissenschaftlich aufgeklärten Geist sind sie allein schon aus diesem Grund mit Recht verdächtig. Die Voraussage eines spezifischen und klar umrissenen Ereignisses jedoch, das wir unter normalen Umständen so nicht erwartet hätten, lässt uns vermuten, dass mehr als bloßes Raten hinter dieser Prognose stecken muss. Die Interpretation der Ergebnisse eines Signifikanztests macht daher nur dann Sinn, wenn wir vor der Durchführung eines Tests eine Hypothese formulieren können, unter der Beobachtungen wahrscheinlich sind, die unter der Nullhypothese unwahrscheinlich sind. Nur dann können wir den Test zur Überprüfung von Hypothesen einsetzen, und nur dann dürfen wir die Wahrscheinlichkeit des Auftretens eines bestimmten Wertes der Teststatistik überhaupt im Sinne einer Wahrscheinlichkeit interpretieren. Leider ist es nicht selten der Fall, dass "Forscher" eine ganze Serie von "Signifikanztests" mit allen zur Verfügung stehenden Variablen eines Datensatzes durchführen, um danach die "signifikanten" Ergebnisse herauszufischen und expost durch eine Erklärung zu untermauern. Aber die Irrtumswahrscheinlichkeit
324
Kapitel 23 Die Logik eines statistischen Tests
gibt uns ja genau den Anteil von fälschlich "signifikanten" Ergebnissen an. Führen wir z.B. 100 Tests durch, dann erwarten wir darunter 5 falsche "signifikante" Ergebnisse. Solche "over-all" durchgeführten Tests haben zwar die mathematischen Eigenschaften mit dem Signifikanztest gemein, die von ihnen produzierten Ergebnisse dürfen aber nicht auf dieselbe Weise interpretiert werden. Ein Signifikanztest ist nur dann ein Signifikanztest im eigentlichen Sinn, wenn die zu untersuchende Fragestellung vor der Durchführung des Tests klar umrissen ist, d.h. die HA-Hypothese so eindeutig formuliert ist, dass ihr ein Ablehnungsbereich von Werten der Teststatistik zugeordnet werden kann, die mit ihr vereinbar sind, aber unter der Nullhypothese nur selten auftreten würden. Ohne die explizite Formulierung von Hypothesen durchgeführte Tests können daher bestenfalls im Sinne einer so genannten explorativen Datenanalyse dazu benutzt werden, aufgrund "auffälliger" Ergebnisse zur Formulierung von Hypothesen zu gelangen, die dann wiederum mit einem unabhängigen, d.h. mit anderen Daten durchgeführten, eigentlichen Signifikanztest überprüft werden können. Ein- und zweiseitige Tests
Wir legen den Ablehnungsbereich der Teststatistik unter der Annahme der Nullhypothese immer im Lichte der uns eigentlich interessierenden Hypothese fest. Je spezifischer diese Hypothese ist, desto eindeutiger können wir den Ablehnungsbereich bestimmen. Wenn wir bei dem Münzwurfbeispiel lediglich die Vermutung haben, dass die Münze einen Bias hat, wir aber nicht wissen, zugunsten welcher Seite, dann legen wir den Ablehnungsbereich so fest, dass er die Werte der Teststatistik enthält, die der Nullhypothese am meisten widersprechen und zugleich die Möglichkeit eines Bias der Münze in die eine oder andere Richtung zulassen. Wir sprechen dann von einem zweiseitigen Test. Wenn wir aber vermuten, dass die Münze einen Bias zugunsten von Kopf besitzt, dann bilden wir den Ablehnungsbereich so, dass er diejenigen Werte der Teststatistik enthält, deren Summe der Wahrscheinlichkeiten erstens der Irrtumswahrscheinlichkeit entspricht, und die zweitens der Vermutung, die Münze habe einen Bias zugunsten von Kopf, am ehesten entsprechen. Der Ablehnungsbereich enthält ja immer unsere "riskanten Prognosen", die aber nur unter der Nullhypothese entsprechend riskant sind, unter der von uns tatsächlich vermuteten Hypothese hingegen die wahrscheinlichsten Werte sind. Aufgrund der einseitigen Vermutung, die Münze habe einen Bias zugunsten von Kopf, legen wir den Ablehnungsbereich der Nullhypothese so fest, dass wir die Zufälligkeit des Ergebnisses in Frage stellen, wenn 'Kopf' 8mal, 9mal oder 10mal auftritt (wobei wir ausnahmsweise eine leichte Erhöhung der Irrtumswahrscheinlichkeit auf 5,5 Prozent in Kauf nehmen). Ist unsere eigentlich interessierende Hypothese gerichtet, dann sprechen wir von einem einseitigen Test. Bei einer standardnormalverteilten Teststatistik z.B. umfasst der einseitige Ablehnungsbereich auf der rechten Seite bei einer Irrtumswahrscheinlichkeit von 5 % alle Werte, die größer als 1,65 sind. Abbildung 23.4 zeigt den entsprechenden Ablehnungsbereich.
Kapitel 23 Die Logik eines statistischen Tests
Abbildung 23.4: Einseitiger Ablehnungsbereich bei einer standardnormalverteilten Teststatistik und einem Signifikanzniveau von 5 %
325
326
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
24 Tests auf Unterschiede von Mittelwerten zweier Stichproben 24.1 Der T-Test für zwei unabhängige Stichproben Annahme: zwei verschiedene Grundgesamtheiten
Kommen wir zurück zu unserer Fragestellung, ob sich die Körpergröße von Männern von der von Frauen unterscheidet. Da wir diese Frage immer nur mit Hilfe von Stichproben untersuchen können, brauchen wir eine Teststatistik, die wir aus den Werten der Stichproben konstruieren, deren Wahrscheinlichkeitsverteilung wir berechnen können und deren Ausprägung wir inhaltlich im Sinne unserer Fragestellung interpretieren können. Umgangssprachlich verstehen wir unter der Aussage 'Männer sind größer als Frauen' häufig etwas Ähnliches wie 'Männer sind durchschnittlich größer als Frauen' oder 'Der durchschnittliche Mann ist größer als die durchschnittliche Frau'. Exakt formuliert meinen wir damit wohl 'Die durchschnittliche Körpergröße der Männer ist größer als die der Frauen'. Damit liegt es nahe, als Teststatistik die Differenz der Mittelwerte der beiden Stichproben zu nehmen. Aus der Differenz der Stichprobenmittelwerte können wir dann Rückschlüsse ziehen auf die Differenz der Mittelwerte der beiden Grundgesamtheiten, aus denen die Stichproben stammen. Die Nullhypothese behauptet, dass auftretende Abweichungen zufällig verursacht sind. In diesem Fall bedeutet das, dass die Nullhypothese behauptet, dass Differenzen der Stichprobenmittelwerte nur zufällig von Null abweichen, der Erwartungswert der Differenz aber Null ist. Anders ausgedrückt gehen wir unter der Nullhypothese davon aus, dass die beiden Grundgesamtheiten denselben Mittelwert haben. Wir bezeichnen den unbekannten Mittelwert der ersten Grundgesamtheit mit P1 und den der zweiten mit P2. Es gilt also:
Hypothesen
H0: P1 = P2 bzw. P1 – P2 = 0
Die Alternativhypothese lautet demnach: HA: P1 z P2 Teststatistik
Wir können uns nun überlegen, wie wir eine geeignete Teststatistik konstruieren. Die erste der beiden Stichproben, in unserem Beispiel die Männer, habe den Umfang n1, die zweite, die Frauen, den Umfang n2. Wir wissen dann, dass der Mit§
2 V ·
telwert der ersten Stichprobe aus einer Normalverteilung der Form N ¨¨ P1, 1 ¸¸ n1 ¹ © stammt und der Mittelwert der zweiten Stichprobe aus einer Normalverteilung der §
Form N ¨¨ P2 , ©
2 V2 · 2 2 ¸ . Die Varianzen der Grundgesamtheiten ı 1 und ı 2 können n2 ¸¹
durch die Varianzen der Stichproben s12 und s22 geschätzt werden. Wir wissen weiterhin, dass eine Linearkombination aus mehreren normalverteilten Zufallsvariablen wieder eine normalverteilte Zufallsvariable ergibt, wobei gilt:
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
E(a * X1 b * X2 )
327
a * E(X1 ) b * E(X2 )
Var(a * X1 b * X2 ) a2 * Var(X1 ) b2 * Var(X2 )
Als Spezialfall gilt: E(X1 X2 ) E(X1 ) E(X2 ) Var(X1 X2 )
Var(X1 ) ( 1)2 * Var(X2 )
Var(X1 ) Var(X2 )
Die Differenz der beiden Stichprobenmittelwerte ist demnach normalverteilt mit §
V
2
2 V ·
der Form N ¨¨ P1 P 2 , 1 2 ¸¸ . Man kann die Differenz der Mittelwerte der n1 n2 ¹ © Grundgesamtheiten P1 – P2 nun selbst wie einen Parameter einer hypothetischen Grundgesamtheit betrachten und die Standardabweichung, mit der die Differenzen der Stichprobenmittelwerte um diesen herum streuen, als den Standardfehler der Schätzung dieses theoretischen Parameters durch die tatsächlichen Differenzen der Stichprobenmittelwerte. Nach der Nullhypothese sind jedoch die beiden Mittelwerte der Grundgesamtheiten gleich. Die Mittelwertdifferenzen sind daher, unter der Annahme der Gültigkeit der Nullhypothese, normalverteilt mit § V2 V 2· N ¨ 0, 1 2 ¸ . Wir nehmen nun noch an der gefundenen Mittelwertdifferenz ¨ n n2 ¹¸ 1 ©
eine z-Transformation vor und erhalten so die endgültige Teststatistik T, die bei hinreichend großen Stichproben standardnormalverteilt ist. Definition 24.1: T-Wert bezüglich separater Varianzen für große Stichproben (x1 x 2 ) (P1 P 2 ) Vˆ x1 x2
T
x1 x 2 s12 s2 2 n1 n2
~ N(0,1)
mit n1
2
s1
¦ (x
1i
n2
x1 )2
i 1
n1 1
,
s2
2
¦ (x
2i
x 2 )2
i 1
n2 1
Betrachten wir unsere Untersuchung der Körpergrößen von Männern und Frauen. Anwendung der Teststatistik auf das Beispiel Dabei gehen wir jetzt davon aus, die durchschnittliche Körpergröße der Männer betrage 180 cm, mit Standardabweichung 4 cm, die durchschnittliche Körpergröße der Frauen betrage 174 cm bei einer Standardabweichung von 3 cm. Die Standardabweichungen wurden anhand der Freiheitsgrade berechnet, so dass wir die Stichprobenstreuung als Schätzer der Streuungen der entsprechenden Grundge-
328
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
samtheiten verwenden können. Sowohl die Stichprobe der Männer als auch die der Frauen enthalten jeweils 30 Fälle. Der T-Wert berechnet sich dann: T
180 174 42 32 30 30
6 25 30
6,57
Der (absolute) T-Wert fällt also deutlich höher aus als der kritische T-Wert für das 1-Prozent Niveau von 2,58. Er liegt sogar über dem kritischen Wert des 1Promille-Niveaus von 3,31. Der Unterschied zwischen der Körpergröße von Frauen und Männern ist in unserem Beispiel also höchst signifikant. Würden die beiden Stichproben aus Grundgesamtheiten mit dem gleichen Mittelwert stammen, so wäre die Wahrscheinlichkeit, dass sich die beobachtete Differenz der Mittelwerte aus Zufall ergibt, kleiner als 1‰. Die Irrtumswahrscheinlichkeit, dass wir die Nullhypothese, Männer und Frauen seien durchschnittlich gleich groß, fälschlicherweise zurückweisen, ist also kleiner als ein Tausendstel. Annahme: eine gemeinsame Grundgesamtheit
Bisher haben wir sehr allgemein überprüft, ob die beiden Stichprobenmittelwerte aus Grundgesamtheiten mit verschiedenen Mittelwerten stammen. Oft ist unsere Annahme jedoch weitergehend und wir gehen davon aus, dass beide Stichproben tatsächlich aus derselben Grundgesamtheit stammen und die Unterschiede nur durch zufällige Stichprobenfehler aufgetreten sind. D.h. das Kriterium des Geschlechts ist vollkommen unerheblich hinsichtlich der Körpergröße und daher sind die erwarteten Abweichungen von Stichproben, die eine Zufallsauswahl der Männer darstellen, in nichts verschieden von den erwarteten Abweichungen von Stichproben, die aus der Grundgesamtheit von Männern und Frauen gezogen wird. Die Nullhypothese lautet daher, dass alle unbekannten Parameter der Grundgesamtheiten der beiden Stichproben gleich sein müssen, da sie ja beide aus derselben Grundgesamtheit stammen, also sowohl der Mittelwert als auch die Varianz der Grundgesamtheit. H0: P1 = P2 und N12 = N22
Unterschied: Schätzung der Varianz der Grundgesamtheit
Bei einem T-Test, wie wir ihn oben beschrieben haben, bei dem wir von zwei verschiedenen Varianzen in den zwei Grundgesamtheiten ausgehen, sprechen wir von einem T-Test bezüglich separater Varianzen. Bei einem T-Test, bei dem wir annehmen, dass die Varianzen der beiden Stichproben nur Verzerrungen derselben Varianz der gemeinsamen Grundgesamtheit sind, sprechen wir hingegen von einem T-Test bezüglich gepoolter Varianzen. Das Einzige, was sich hierbei ändert, ist die Schätzung der Varianz der Grundgesamtheit. Während wir diese vorher für jede der beiden Grundgesamtheiten einzeln vorgenommen haben, müssen wir nun eine gemeinsame Varianz der Grundgesamtheit aufgrund der vorgefundenen Varianzen in den beiden Stichproben schätzen. Daher der Begriff "gepoolte
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
329
Varianzen", da wir die Varianz der Grundgesamtheit als gewichteten Mittelwert der beiden Stichprobenvarianzen berechnen. Definition 24.2: Geschätzte Varianz der Grundgesamtheit aufgrund gepoolter Varianzen der Stichproben n1
Vˆ 2
¦ (x i 1
n2
1i
x1 )2 ¦ (x 2i x 2 )2 i 1
n1 n2 2
2
(n1 1)s1 (n2 1)s2 n1 n2 2
2
Der T-Wert wird genauso wie vorher berechnet, nur dass wir bei der Berechnung der Varianz der Stichprobenmittelwerte auf die gleich geschätzte Varianz der Grundgesamtheit zurückgreifen. Definition 24.3: T-Wert bezüglich gepoolter Varianzen T
x1 x 2 Vˆ 2 Vˆ 2 n1 n2
x1 x 2 Vˆ
n1 n2 n1 * n2
Sind die beiden Stichprobenvarianzen ungefähr gleich groß, dann ändert sich nichts Wesentliches, ob man nun eine gemeinsame Varianz einer gemeinsamen Grundgesamtheit für beide schätzt oder ob man dies für jede Stichprobe einzeln vornimmt. Weichen die beiden Varianzen hingegen deutlicher voneinander ab, dann macht es einen Unterschied, für welche Vorgehensweise man sich entscheidet. Grundsätzlich ist die Schätzung der Varianz der Grundgesamtheit natürlich desto besser, je mehr Werte in die Schätzung eingehen, daher könnte man die gemeinsame Schätzung der Varianz der Grundgesamtheit mit Hilfe beider Stichproben für den grundsätzlich angemesseneren Weg halten. Aber je mehr sich die Varianzen der beiden Stichproben voneinander unterscheiden, desto unwahrscheinlicher ist es, dass sie beide aus einer einzigen Grundgesamtheit stammen. Man sollte also von Fall zu Fall entscheiden. Geht man davon aus, dass ein Gruppierungsmerkmal sich in keiner Weise auf die Ausprägung der untersuchten abhängigen Variable auswirkt, dass also Unterschiede sowohl der Mittelwerte als auch der Standardabweichungen zwischen den beiden Stichproben zufällig auftreten, dann sollte man diese Nullhypothese verwerfen, wenn sich die Stichproben auch nur hinsichtlich eines der beiden Kennwerte signifikant unterscheiden. Bevor man einen T-Test bezüglich gepoolter Varianzen durchführt, sollte man daher genau genommen einen Test auf Gleichheit der beiden Stichprobenvarianzen durchführen (z.B. mit einem F-Test), oder zumindest durch Betrachten der Werte der beiden Varianzen entscheiden, ob die Annahme, die beiden Varianzen könnten aus einer gemeinsamen Grundgesamtheit stammen, plausibel erscheint. Insgesamt scheint es daher risikoloser, den T-Test bezüglich separater Varianzen
Kriterien für die Verwendung separater oder gepoolter Varianzen: Größe des Unterschieds der Stichprobenvarianzen
330
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
durchzuführen. Denn entweder sind die Varianzen tatsächlich verschieden – in diesem Fall sollte dieser Test also auch aus inhaltlichen Gründen angewandt werden – oder die beiden Stichproben stammen aus derselben Grundgesamtheit. In diesem zweiten Fall werden die beiden Stichprobenvarianzen meistens nicht sehr weit auseinander liegen, und dann kommen beide Verfahren ohnehin zu ähnlichen Ergebnissen. Der einzige Fall, in dem der T-Test bezüglich gepoolter Varianzen dem T-Test bezüglich separater Varianzen vorzuziehen ist, ist dann gegeben, wenn die Stichproben zwar aus derselben Grundgesamtheit stammen, sich die beiden Varianzen aber aus Zufall dennoch so sehr unterscheiden, dass eine Schätzung der Varianz der Stichprobenmittelwerte mit Hilfe der gepoolten Varianz deutlich besser ausfällt als mit separaten Varianzen. Beispiel Sympathieskalometer
Wir wollen ein weiteres Beispiel an einem konkreten Datensatz behandeln. Tabelle 24.1 enthält für die beiden Geschlechtergruppen die Verteilung der Werte des so genannten "Sympathieskalometers" für Gerhard Schröder, das in einer Umfrage im Jahr 19987 erhoben wurde. Die Befragten konnten dabei einzelne Politiker auf einer Skala von 1 bis 11 einordnen, wobei der Wert '11' die höchste Sympathie und '1' die niedrigste Sympathie ausdrückte. In jeder Umfrage sind auch so genannte fehlende Werte (Missing Values) enthalten, da manche der befragten Personen auf bestimmte Fragen keine Antwort geben. Die Missing Values werden, um sie leichter erkennen zu können, mit einem herausgehobenen Wert codiert, wie in unserm Fall dem Wert '98'. Für alle inhaltlichen Analysen werden die fehlenden Werte außer Acht gelassen. In Abbildung 24.1 sind die beiden Verteilungen grafisch dargestellt. Die Forschungsfrage könnte hierbei lauten, ob Schröder von Frauen anders bewertet wird als von Männern. Zusätzlich sind in Tabelle 24.1 auch die Mittelwerte und die Standardabweichungen der beiden Untergruppen angegeben. Tatsächlich wird Schröder von den Männern mit einem Mittelwert von 7,16 besser bewertet als von den Frauen, die Schröder im Durchschnitt "nur" mit 6,82 bewerten.
7
Hier verwendeten wir den Datensatz ZA 3073.
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
331
Tabelle 24.1: Sympathieskalometer für Schröder nach Geschlecht Geschlecht
Männlich
Weiblich
1 Mag ich überhaupt nicht
27
68
2
31
38
3
55
54
4
48
57
5
100
127
6
103
103
7
98
102
8
141
129
9
112
99
10
131
128
11 Mag ich sehr
95
112
98 Weiß nicht
26
35
Mittelwert
7,1637
6,8201
Standardabweichung
2,6945
2,9467
gültige N
941
1017
N
967
1052
Skalometer für Schröder
Abbildung 24.1: Sympathiewerte für Schröder nach Geschlecht 160 140 120 100 Männlich
80
Weiblich
60 40 20 0 1
2
3
4
5
6
7
8
9
10
11
332
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
Wir wollen nun untersuchen, ob dieser Unterschied auch statistisch signifikant ist. Dafür berechnen wir zuerst den T-Wert unter der Annahme unterschiedlicher Varianzen der beiden Grundgesamtheiten. T
7,1637 6,8201
0,3436
0,3436
2,6945 2 2,9467 2 941 1017
7,2603 8,6830 941 1017
0,0163
0,3436 0,1275
2,695
Nun wollen wir noch einen T-Test bezüglich gepoolter Varianzen durchführen. Dazu berechnen wir zuerst die geschätzte Varianz der Grundgesamtheit aufgrund der gepoolten Varianzen der beiden Stichproben. Vˆ 2
(941 1) * 2,69452 (1017 1) * 2,94672 941 1017 2
940 * 7,2603 1016 * 8,6830 1956
7,9993
Anschließend können wir die T-Statistik nach der Formel in Definition 14.3 berechnen.
T
0,3436 7,9993*
941 1017 941*1017
0,3436 2,686 0,1279
Der T-Test bezüglich gepoolter Varianzen führt also im Wesentlichen zum gleichen Ergebnis wie der bezüglich separater Varianzen, beide T-Werte sind hochsignifikant, allerdings wird der berechnete T-Wert bei gepoolten Varianzen etwas kleiner. Wir können die Teststatistiken, die im Rahmen eines Signifikanztests berechnet werden, meistens auch zur Schätzung eines bestimmten Parameters heranziehen. Die Prüfgröße beim T-Test sind die Differenzen der Mittelwerte, der zu schätzende Parameter der Grundgesamtheit wäre demnach der Erwartungswert dieser Differenz, also P1-P2. Der Standardfehler der Schätzung dieses Parameters entspricht dem Nenner in den Formeln der Teststatistiken, denn anhand des Standardfehlers wird ja auch die vorgefundene Mittelwertdifferenz standardisiert. Definition 24.4: Standardfehler des Schätzers bezüglich der Differenz der Mittelwerte beim T-Test bezüglich separater Varianzen 2
Vˆ x1 x2
2
s1 s 2 n1 n2
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
333
Definition 24.5: Standardfehler des Schätzers bezüglich der Differenz der Mittelwerte beim T-Test bezüglich gepoolter Varianzen Vˆ 2 Vˆ 2 n1 n2
Vˆ x1 x2
Vˆ
n1 n2 n1 * n2
Die Konfidenzintervalle werden dann analog zu den Formeln in Definition 21.7 gebildet: K1-D
^x
(x1 x 2 ) z1D / 2 V x1 -x2 d xi d (x1 x 2 ) z1D / 2 V x1 -x2
i
`
Das 95 %-Konfidenzintervall für unseren T-Test wird demnach auf folgende Weise gebildet. K 95% K 95%
^x ^x
i
0,3436 1,96 0,1275 d x i d 0,3436 1,96 0,1275
i
0,0937 d x i d 0,5935`
`
Wir wollen uns noch kurz einem zweiten Beispiel zuwenden. Dazu verwenden wir wieder den gleichen Datensatz und untersuchen jetzt, ob sich die Sympathiebewertung von Schröder zwischen Personen, die angeben, bei der nächsten Bundestagswahl CDU wählen zu wollen, und solchen, die SPD wählen wollen, unterscheidet. Tabelle 24.2 gibt die Rohwerte der entsprechenden Verteilungen, Abbildung 24.2 die Verteilungen als Säulendiagramme wieder.
Beispiel: Einfluss der Parteiwahl auf Sympathiebewertung von Schröder
334
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
Tabelle 24.2: Sympathieskalometer für Schröder nach Parteiwahl Partei
CDU/CSU
SPD
1 Mag ich überhaupt nicht
51
6
2
31
8
3
59
14
4
58
12
5
89
36
6
61
41
7
49
64
8
41
107
9
26
114
10
16
170
11 Mag ich sehr
13
151
98 Weiß nicht
10
7
Mittelwert
5,14
8,62
Standardabweichung
2,583
2,219
494
723
Skalometer für Schröder
gültige N
Wie wenig überraschend ist, unterscheiden sich die Bewertungen zwischen den beiden Gruppen extrem. Während Schröder von den SPD-Anhängern durchschnittlich einen Sympathiewert von 8,62 erhält, schneidet er bei den CDUWählern mit einem Mittelwert der Beurteilung von 5,14 dramatisch schlechter ab. Ein durchgeführter T-Test ergibt einen T-Wert von ca. 24 oder 25, je nach verwendetem Verfahren. Wenn man bedenkt, dass T-Werte ab 1,96 als signifikant beurteilt werden, ist das ein mehr als eindeutiges Ergebnis. Doch bevor wir uns nun über diesen "Triumph der Statistik" zu Begeisterungsstürmen hinreißen lassen, sollten wir lieber kritisch hinterfragen, ob wir dabei nicht etwas vorschnell handeln würden. Statistische Signifikanz darf nicht mit inhaltlicher Bedeutsamkeit verwechselt werden, und die Anwendung mehr oder weniger raffinierter statistischer Methoden entbindet uns nicht von der Aufgabe, uns vor der Durchführung von Tests ausführlich mit der zu Grunde liegenden Theorie zu beschäftigen und die relevanten Prämissen zu überprüfen.
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
335
Abbildung 24.2: Sympathiewerte für Schröder nach Parteiwahl 180 160 140 120 100
CDU/CSU SPD
80 60 40 20 0 1
2
3
4
5
6
7
8
9
10
11
Die statistische Überprüfung der Behauptung, dass SPD-Wähler Schröder positiver bewerten als CDU-Wähler, ist daher im besten Fall banal, im schlimmsten Fall irreführend aufgrund eines methodischen Artefakts. Denn es muss mit Recht angezweifelt werden, dass die Wahlabsicht tatsächlich von der Bewertung der Kandidaten unabhängig ist. Jemand, der zu Schröder eine positive Einstellung hat, wählt ja unter Umständen gerade deswegen die SPD. Umgekehrt ist es sehr unwahrscheinlich, dass jemand, der Schröder extrem ablehnend gegenübersteht, dennoch die SPD wählt. Die Hypothese 'SPD-Wähler finden Schröder sympathischer als Nicht-SPD-Wähler.' scheint daher einen zumindest partiell zirkulären und somit tautologischen Charakter zu besitzen, denn die Ausprägung der Gruppierungsvariable ist nicht unabhängig von der Ausprägung der abhängigen Variable, die ja wiederum durch die Gruppierungsvariable erklärt werden soll. Es kommt also in diesem Zusammenhang sehr darauf an, was wir als erklärende Variablen, und was wir als erklärte Variablen betrachten. Bei einem T-Test ist die Gruppierungsvariable die erklärende Variable. Aber nicht die SPD-Wahl erklärt meine Sympathie für Schröder, sondern genau umgekehrt. Natürlich aber dürfen die Ergebnisse eines solchermaßen gearteten T-Tests durchaus als Indiz gewertet werden, dass möglicherweise ein bestimmter kausaler Zusammenhang in der vermuteten Richtung existiert. Aber zur Untersuchung dieser Fragestellung muss dann das Design entsprechend geändert werden (z.B. dahingehend, dass gezeigt wird, dass der Anteil der SPD-Wähler in einer Gruppe desto höher ausfällt, je höher die Sympathiebewertung Schröders in dieser Gruppe ist). Mit dem eben Gesagten soll auch keineswegs nahe gelegt werden, dass man Anwendung des T-Tests zur explorativen grundsätzlich auf die Untersuchung scheinbar trivialer Hypothesen verzichten Datenanalyse sollte. Vielmehr entstehen oft interessante Erkenntnisse gerade dadurch, dass sich das scheinbar Selbstverständliche bei genauerem Hinsehen als gar nicht so selbstverständlich herausstellt. Insofern gehört die explorative Untersuchung banaler Fragestellungen durchaus zur Alltagsroutine des wissenschaftlichen Arbeitens. Nur sollte man, wenn sich solche durchaus erwartbaren Erkenntnisse bestätigen, diese nicht allein deswegen schon für mitteilenswert und publikationswürdig er-
336
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
achten, weil es einem gelungen ist, Erkenntnisse, die sich bisher "nur" auf unseren Alltagsverstand gründeten, durch "harte statistische Methoden" zu untermauern. Auch die mit dem anspruchsvollsten statistischen Verfahren bewiesene Trivialität bleibt dennoch und letztendlich, was sie schon immer gewesen ist, – trivial. Berechnung der Prüfgröße
Die bisherigen Beispiele gingen alle von relativ großen Stichproben aus, so dass wir von einer standardnormalverteilten Prüfgröße ausgehen konnten. Sind die Stichprobenumfänge allerdings eher gering, ist die Prüfgröße t-verteilt. Kann aus theoretischen Gründen angenommen werden, dass die Varianzen beider Stichproben gleich groß sind, dann wird zuerst eine gepoolte Varianz der Stichproben berechnet, und die Prüfgröße wird wie in Definition 24.3 berechnet und ist jetzt tverteilt mit n1+n2-2 Freiheitsgraden. Komplizierter ist der Fall separater Varianzen. In diesem Fall wird die Prüfgröße wie in Definition 24.2 berechnet, schwieriger ist jedoch jetzt die Berechnung der Anzahl der Freiheitsgrade. Sie werden folgender Formel berechnet (vgl. Clauß/Ebner 1982: 213): Definition 24.6: Anzahl der Freiheitsgrade bei der t-verteilten Prüfgröße eines T-Werts bei separaten Varianzen df
1 c2 d2 n1 1 n2 1
mit
c
s12 n1 s12 s22 n1 n2
, d
s22 n2 s12 s22 n1 n2
Statistikprogramme wie SPSS berechnen die Signifikanz des T-Wertes aufgrund der T-Verteilung. Bei großen Stichproben führt dies – wie schon bekannt – zu denselben Ergebnissen, wie wir sie unter der Annahme erhalten würden, die TGröße sei standardnormalverteilt. Verhältnis von Nullhypothese und Alternativhypothese, Į- und ȕ-Fehler
Noch einmal einige Bemerkungen zur Logik eines Tests. In den Sozialwissenschaften führen wir fast ausschließlich Signifikanztests auf Abweichungen von der Nullhypothese durch. Dies entspricht der Logik eines statistischen Tests, wie er von R.A. Fisher konzipiert worden ist. Durch die übliche explizite Formulierung der Nullhypothese und der Alternativhypothese jedoch wird oft fälschlicherweise der Eindruck erweckt, hier handele es sich um eine Entscheidung zwischen Hypothesen. Dies entspricht eher der entscheidungstheoretischen Konzeption ei-
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
nes statistischen Tests, wie sie von Jerzy Neyman und Egon Pearson entwickelt wurde. Vereinfacht gesagt, gehen Neyman und Pearson davon aus, dass man immer nur eine Auswahl unter mehreren zur Verfügung stehenden Tests treffen kann. Die Wahrscheinlichkeitsverteilung der kritischen Prüfgröße wird dann für jede der zur Auswahl stehenden Hypothesen berechnet und es wird dann die Hypothese als die "richtige" gewählt, für die die bedingte Wahrscheinlichkeit der Prüfgröße am höchsten ausfällt. Da für eine Prüfgröße mehrere bedingte Wahrscheinlichkeiten vorliegen, kann nun neben dem <-Fehler auch ein so genannter =-Fehler oder Fehler zweiter Art berechnet werden, der angibt, wie hoch die Wahrscheinlichkeit ausfällt, dass wir fälschlicherweise an der Nullhypothese festhalten. Das Neyman / Pearson-Design ist vor allem in der statistischen Qualitätskontrolle verbreitet. In der sozialwissenschaftlichen Forschung jedoch ist das Neyman / Pearson-Design eher selten anzutreffen, da es hier meist nicht möglich ist, die Alternativhypothese so zu spezifizieren, dass man die entsprechende bedingte Wahrscheinlichkeitsverteilung der Prüfgröße ausrechnen kann. Die missverständliche Darstellung eines Tests in der Form eines Neyman / Pearson-Tests, obwohl es sich faktisch dabei um einen Fisher-Test handelt, führt nun häufig dazu, dass das Nicht-Verwerfen der Nullhypothese als eine Entscheidung für die Nullhypothese und gegen die Alternativhypothese missverstanden wird. Wird die Nullhypothese aufgrund des Testergebnisses nicht zurückgewiesen, dann hat sie sich aber eben keineswegs in diesem Sinne (und auch nicht in Poppers Sinne) bewährt, sondern die Frage, ob die Nullhypothese gilt oder nicht, bleibt einfach nur offen. Das Problem der Interpretation des Ergebnisses eines Fisher-Tests, bei dem die Nullhypothese nicht zurückgewiesen werden konnte, besteht nämlich darin, dass wir aufgrund des Tests nicht zwischen den Fällen diskriminieren können, in denen die Nullhypothese nicht zurückgewiesen wurde, weil sie tatsächlich wahr ist und solchen, in denen sie beibehalten wird, obwohl sie falsch ist. Bewähren kann sich bei einem Fisher-Testdesign daher nur die alternative Hypothese und zwar dadurch, dass die Nullhypothese zurückgewiesen wird.
337
338
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
24.2 Der T-Test für zwei abhängige Stichproben Unterschied zwischen abhängigen und unabhängigen Stichproben
Der T-Test, wie wir ihn im vorigen Abschnitt besprochen haben, bezog sich auf unabhängige Stichproben. Mehrere Stichproben werden als unabhängig bezeichnet, wenn jede Stichprobe als eigene Realisierung eines Zufallsexperiments betrachtet werden kann. Anders ausgedrückt: Wir sprechen dann von unabhängigen Stichproben, wenn der Vorgang des Ziehens eines Falls aus der Grundgesamtheit für die eine Stichprobe unabhängig ist von den Fällen, die in der anderen Stichprobe enthalten sind. Jede Stichprobe wird für sich neu geschaffen. Von abhängigen Stichproben sprechen wir hingegen, wenn einem Wert aus einer Stichprobe ein bestimmter Wert aus einer anderen Stichprobe zugeordnet ist. Für jeden Wert der einen Stichprobe gibt es einen Wert der anderen Stichprobe, mit dem zusammen er ein Wertepaar bildet. Als Beispiel sei Abbildung 24.3 herangezogen. Stichprobe 1 besteht aus fünf Kreisen und Stichprobe 2 besteht aus fünf Quadraten. Jedem Kreis aus Stichprobe 1 ist genau ein Quadrat aus Stichprobe 2 zugeordnet. Wir können uns zum Beispiel vorstellen, wir hätten fünf Kindern die Aufgabe gestellt, jeweils einen Kreis und ein Quadrat zu zeichnen. Dann gibt es fünf Wertepaare von Kreisen und Quadraten, eines für jedes Kind. Die beiden Stichproben sind offensichtlich abhängig. Abbildung 24.3: Abhängige Stichproben
Stichprobe 1
Stichprobe bezieht sich auf Merkmalsausprägungen, nicht auf Merkmalsträger
Stichprobe 2
Man könnte nun denken, es handele sich doch um dieselbe Stichprobe von fünf Kindern, und demnach handele es sich auch nicht um abhängige, sondern schlicht um identische Stichproben. Streng genommen jedoch bezieht sich der Begriff der Stichprobe immer auf eine Menge von Werten, d.h. Merkmalsausprägungen, und nicht auf eine Menge von Fällen, d.h. Merkmalsträgern. Solange wir nur ein Merkmal bezüglich zweier Gruppen untersuchen, erübrigt sich diese Unterscheidung, weil wir zwei Mengen von Merkmalsausprägungen anhand zweier unterschiedlicher Gruppen von Merkmalsträgern untersuchen. Wir können aber auch
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
339
mehrere Stichproben von Merkmalsausprägungen von verschiedenen Merkmalen anhand derselben Gruppe von Merkmalsträgern erheben. In diesem Fall haben wir abhängige Stichproben. Wir können im Prinzip zwei abhängige Stichproben wie zwei unabhängige Stich- Abhängige Stichproben beinhalten zusätzliche proben behandeln, aber dabei verschenken wir wichtige Informationen, die genau Information im gemeinsamen Auftreten zweier Werte bei ein und demselben Merkmalsträger bestehen. Nehmen wir an, wir hätten zwei kleine Stichproben von Männern und Frauen im Umfang zwischen 10 und 20 gezogen und dabei ungefähr eine Verteilung der Körpergröße wie in Abbildung 24.3 erhalten. Die Frauen seien im Mittel ungefähr 170 cm, die Männer 172 cm groß. Die Streuung sei 5 cm für beide Stichproben. Handelte es sich bei den beiden Stichproben um unabhängig gezogene Stichproben, so würden wir kaum behaupten können, dass Männer größer sind als Frauen, denn der geringe Unterschied der Mittelwerte könnte auch auf zufällige Schwankungen zurückzuführen sein. Abbildung 24.4: Verteilung der Körpergröße in zwei Stichproben (fiktiv)
Frauen Männer
150
160
170
180
190
200
Tatsächlich aber seien die beiden Stichproben nicht unabhängig voneinander, sondern stellen zufällig gezogene Paare in internationalen Tanzwettbewerben dar. Nehmen wir jetzt die einzelnen Paare genauer unter die Lupe, dann stellen wir fest, dass alle Männer jeweils größer sind als ihre Partnerin. Betrachten wir die beiden Stichproben als unabhängig, dann zeigt uns die Überschneidung der beiden Kurven in Abbildung 24.4, dass einige Frauen der Frauen-Stichprobe größer sind als einige Männer der Männer-Stichprobe. Berücksichtigen wir jedoch die Information, die uns die Paarbildung liefert, dann stellen wir fest, dass die Paarbildung selbst nicht durch Zufall zu Stande gekommen sein kann, zumindest wäre dies höchst unwahrscheinlich. Bei abhängigen Stichproben interessiert uns daher weniger, ob es in der Gesamtheit auffällige Unterschiede zwischen zwei Variablen gibt, sondern wir richten unser Augenmerk auf die Frage, ob es signifikante Unterschiede dieser beiden Variablen innerhalb der Paare gibt. Tests für abhängige Stichproben sind z.B. in der Medizin besonders wichtig, wenn wir in einem Versuch an einer Gruppe von Patienten die Wirkung eines bestimmten Medikaments
340
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
untersuchen wollen und dabei die Werte vor und nach der Behandlung miteinander vergleichen. Nehmen wir an, es handle sich um ein blutdrucksenkendes Mittel, und die Schwankungen dieses Merkmals innerhalb der Gruppe seien sowohl vor als auch nach der Behandlung sehr groß. Wenn das Medikament nun eine bestimmte Senkung des durchschnittlichen Blutdrucks herbeiführt, dann kann es sein, dass dies in einem Test mit unabhängigen Stichproben als nicht signifikant betrachtet würde, weil die herbeigeführte Senkung im Vergleich zu den Schwankungen innerhalb der Gruppe zu niedrig ausfällt, um ein statistisch signifikantes Ergebnis zu begründen. Tatsächlich kann es aber sein, dass das Medikament bei allen Patienten eine Blutdrucksenkung herbeigeführt hat, also hochwirksam ist. Führen wir hier einen Test bezüglich abhängiger Stichproben durch, dann würden wir ein hochsignifikantes Ergebnis erhalten. Tests für abhängige Stichproben reagieren also sensibler auf Mittelwertunterschiede, weil sie die Schwankungen der abhängigen Variablen innerhalb der Stichprobe "herausrechnen", bzw. für diese korrigieren und nur die "Netto-Schwankungen" der untersuchten Variablen innerhalb der Paare betrachten. Diese Korrektur erbringt nur dann einen Effekt, wenn die abhängige Variable zwischen den beiden Stichproben korreliert. In unserem Blutdruckbeispiel heißt dies, dass jemand, der vor der Behandlung einen wesentlich höheren Blutdruck hatte als der Gruppendurchschnitt, auch hinterher einen überdurchschnittlich hohen Blutdruck hat. Der überdurchschnittliche (hohe) Blutdruck bleibt ein überdurchschnittlicher, aber er wurde gesenkt. Im Extremfall beträgt die Korrelation zwischen den untersuchten Merkmalen in den beiden Stichproben 1, die Mittelwertunterschiede zwischen den Gruppen sind dann durch eine reine Verschiebung der gesamten Verteilung zu Stande gekommen. Im Beispiel unserer Tanzpaare hieße dies, dass bei jedem Paar der Mann genau 2 cm größer ist als die Partnerin. Korrelierende Stichproben
Wenn die Paarbildung keinen Effekt ausübt, dann ist die mittlere Differenz der abhängigen Variablen zwischen zwei aus den beiden Stichproben zufällig ausgewählten Fällen gleich groß wie die mittlere Differenz der speziellen Paare. Unsere Vermutung bei Tanzpaaren ist jedoch, dass die Paarbildung nach einer Art Sortierung verläuft. Aus Gründen des optischen Eindrucks finden sich meistens solche Paare zusammen, bei denen der männliche Tanzpartner größer ist als die Frau, wobei die absolute Größe keine Rolle spielt. Damit fällt die Varianz der Differenz der Körpergrößen zwischen den so sortierten Paaren größer aus, als es bei unsortierten, zufällig zustande gekommenen Paaren der Fall wäre, und es besteht eine Korrelation der abhängigen Variablen zwischen den beiden Gruppen. Man spricht in einem solchen Fall auch von "korrelierenden Stichproben".
Isolierung des Effekts der Gruppierungsvariable
Man darf aber den Begriff der abhängigen Stichprobe nicht gleichsetzen mit dem der korrelierenden Stichprobe. Vielmehr ist die Art und Weise, wie wir unsere abhängigen Stichproben bilden, oft gerade darauf angelegt, eine hohe Korrelation zwischen den Stichproben all der Merkmale zu erhalten, von denen wir glauben, dass sie neben dem Merkmal, das wir zur Gruppenbildung benutzen, ebenfalls einen Einfluss auf die abhängige Variable ausüben. Auf diese Weise gelingt es
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
341
uns, den isolierten Effekt der Gruppenbildungsvariablen auf die abhängige Variable zu untersuchen. Dies ist der statistische Grund, warum Tests für abhängige Stichproben sensibler auf Mittelwertdifferenzen reagieren als Tests für unabhängige Stichproben. Dadurch, dass wir nur jeweils die Differenzen innerhalb eines Paares berechnen und nur diese untersuchen, kontrollieren wir für den Einfluss all der Variablen, die innerhalb eines Paares jeweils den gleichen Wert haben, aber zwischen den Paaren variieren. Wir zerlegen so die beobachtete Variation des untersuchten Merkmals in einen Teil, der auf die Variation bestimmter Ursachenfaktoren zwischen den Paaren zurückzuführen ist und einen Teil, der auf den Unterschied zwischen den beiden Partnern eines Paares zurückzuführen ist. Dieser Teil der Variation wird genau dadurch ausgedrückt, dass die beiden Teile eines Paares in den zwei verschiedenen Stichproben enthalten sind. Abhängige Stichproben werden daher typischerweise bei Experimenten verwen- Anwendungsfall: Experimentelles Design det, bei denen man gezielt den möglichst isolierten Effekt des Merkmals auf die abhängige Variable untersuchen will, das in einem experimentellen Design bewusst manipuliert wird, wobei alle anderen Ursachenfaktoren möglichst kontrolliert werden sollen. Nehmen wir allgemein an, die dichotome "Behandlungs"-Variable ("TreatmentVariable") X übe einen Einfluss auf Y aus. Dann bilden wir zwei Stichproben A und B, wobei wir die Mitglieder von A der Behandlung aussetzen, wohingegen die Mitglieder von B keine Behandlung bekommen. Um den Effekt der Behandlung zu messen, vergleichen wir anschließend die Durchschnittswerte von Y zwischen den beiden Gruppen. Nehmen wir aber des Weiteren an, wir wüssten, dass zwei weitere "Stör"-Variablen S1 und S2 ebenfalls einen starken Effekt auf Y ausüben. Unser Problem besteht nun darin, dass wir nicht wissen, inwieweit der unterschiedliche Mittelwert von Y zwischen den beiden Gruppen auf das "Treatment" und inwieweit auf eine unterschiedliche Zusammensetzung der beiden Gruppen hinsichtlich der Merkmale S1 und S2 zurückzuführen ist. Wir können nun für den von S1 und S2 ausgeübten Effekt kontrollieren, indem wir Paare von "Merkmalszwillingen" hinsichtlich S1 und S2 bilden, also Paare, bei denen beide Partner die gleichen Ausprägungen von S1 und S2 aufweisen. Danach weisen wir per Zufallsgenerator jeweils einen aus dem Paar der Treatment-Stichprobe zu. Wenn wir jetzt die Unterschiede der abhängigen Variablen innerhalb der Paare betrachten, dann können diese zumindest nicht durch die kontrollierten Variablen S1 und S2 hervorgerufen worden sein, da jedes Paar hinsichtlich dieser Variablen ja die gleichen Ausprägungen hat. Unterschiede innerhalb der Paare können daher nur noch auf die Gruppierungsvariable selbst zurückgeführt werden (und auf weitere mögliche Einflussfaktoren, die nicht kontrolliert wurden, die aber Schwankungen innerhalb der Paare aufweisen). Da uns bei einem Test für abhängige Stichproben die Veränderungen innerhalb der Wertepaare interessieren, heißt die Nullhypothese, dass der Mittelwert der paarweise gebildeten Differenzen gleich Null ist.
342
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
H0: P X X 1
2
0
H1: P X X z 0 1
2
Wir bilden also eine Variable Y als Differenz zweier Variablen X1 und X2 und berechnen dann im Weiteren alle benötigten Statistiken anhand der Variablen Y. Die geschätzte Varianz der "Grundgesamtheit" der intra-individuellen Differenzen ergibt sich also als: n
Vˆ Y
2
sy
2
¦ (y
i
y)2
i 1
n 1
mit Y
X1 X2
Für den Standardfehler des geschätzten Mittelwerts der Differenzen gilt demnach: Vˆ Y
Vˆ y n
Die Prüfgröße T ist demnach: T
Panelumfrage
y Vˆ y
Wir wollen dies anhand eines Beispiels aus dem Datensatz ZA 1276 zur Bundestagswahl 1983 illustrieren. Der Datensatz enthält die Ergebnisse von drei Wellen einer so genannten "Panelumfrage". Panelumfragen sind Umfragen, die an verschiedenen Zeitpunkten die gleichen Personen mehrmals befragen. Die erste Welle des Panels fand vom 18. bis 25. November 1982 statt, die zweite Welle ging vom 11. bis 24. Februar 1983. Die Befragungen der dritten Welle wurden zwischen dem 16. und dem 29. März 1983 durchgeführt. Die Bundestagwahl fand am 6. März statt. Die ersten beiden Wellen des Panels sind daher so genannte Vorwahlbefragungen, die dritte Welle stellt eine Nachwahlbefragung dar. Tabelle 24.3 stellt die mittleren Skalometerwerte der Parteien SPD und CDU dar, wie sie in den drei Wellen dieser Panelumfrage erhoben wurden.
Kapitel 24 Tests auf Unterschiede von Mittelwerten zweier Stichproben
Tabelle 24.3: Mittlere Skalometerwerte für SPD und CDU N
Mittelwert
SKALOMETER SPD: 1. Welle (Nov. 1982)
1606
7,41
SKALOMETER:SPD: 2. Welle (Feb. 1983)
1188
7,34
SKALOMETER:SPD: 3. Welle (>16. März 1983)
1009
7,37
SKALOMETER:CDU: 1. Welle (Nov. 1982)
1605
7,33
SKALOMETER:CDU: 2. Welle (Feb. 1983)
1188
7,50
SKALOMETER:CDU: 3. Welle (>16. März 1983)
1010
7,89
Gültige Werte (Listenweise)
997
Vom November 1982 bis Februar 1982 nahmen die Sympathiebewertungen der SPD also leicht ab, danach wieder leicht zu. Interessanter sind die Veränderungen bei der CDU. Erwartungsgemäß stiegen die Sympathiewerte der erst kurz zuvor durch das Misstrauensvotum an die Macht gelangten Regierung von November bis Februar an, um dann nach der gewonnenen Wahl noch einmal deutlich zuzulegen. Wir möchten nun untersuchen, inwieweit die Differenzen der CDUBewertung zwischen erster und zweiter Welle und zwischen zweiter und dritter Welle signifikant sind. Dazu bilden wir zwei Variablen, die diese Veränderungen abbilden. Die Mittelwerte und Standardabweichungen der beiden Variablen sind in Tabelle 24.4 wiedergegeben. Tabelle 24.4: Mittlere Differenzen zwischen den Wellen N
Mittelwert
Standardabweichung
Differenz des Skalometerwertes: 1181 Welle 2-Welle 1
0,1372
2,5501
Differenz des Skalometerwertes: 1006 Welle 3-Welle 2
0,3141
2,0121
Wir berechnen nun die beiden Teststatistiken. T21
T32
0,1372 2,5501 1181 0,3141 2,0121 1006
0,1372 0,0742
1,85
0,3141 0,0634
4,95
Während also der Unterschied zwischen erster und zweiter Welle nicht signifikant ist, ist der zwischen zweiter und dritter Welle höchst signifikant.
343
344
Kapitel 25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können
25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können Die Standardnormalverteilung ist ohne Zweifel die wichtigste und grundlegendste Verteilungsform in der Statistik. Sie ist von fundamentaler Bedeutung für die Schätzung von Parametern, aber auch zur Konstruktion von Teststatistiken. Nicht alle Teststatistiken aber können so konstruiert werden, dass sie normalverteilt sind. Die Teststatistiken von wichtigen statistischen Tests haben oft auch andere Verteilungsformen, die allerdings aus der Standardnormalverteilung abgeleitet werden können. Die wichtigsten dieser weiteren Verteilungen sind die so genannte Chi2-Verteilung und die F-Verteilung. Die Chi2-Verteilung wird unter anderem bei der Untersuchung von Zusammenhängen zwischen nominalskalierten Variablen eingesetzt, aber sie kann in einem wesentlich weiteren Sinn in vielen Fällen für den Vergleich einer theoretischen Verteilung mit einer empirischen Verteilung herangezogen werden. Die F-Verteilung spielt vor allem für den Vergleich von Varianzen eine herausragende Rolle. Schon bekannt ist uns außerdem die TVerteilung, die im Prinzip überall dort Verwendung findet, wo auch die Standardnormalverteilung eingesetzt werden kann, wo aber die Standardabweichung der Grundgesamtheit erst mit Hilfe der Standardabweichung der Stichprobe geschätzt werden muss. Wir greifen die T-Verteilung in diesem Kapitel noch einmal kurz auf, um ihre Beziehung zur Standardnormalverteilung noch etwas genauer zu klären.
25.1 Die F2-Verteilung Aufhebung der Vorzeichen der Abstände vom Mittelwert
Die Standardnormalverteilungskurve gibt uns an, wie wahrscheinlich bestimmte Abweichungen einer normalverteilten Variablen sind, wobei diese Abweichungen immer als Abstände vom Mittelwert, gemessen in Einheiten der Standardabweichung der Verteilung, verstanden werden. Diese Abweichungen können nach links oder rechts vom Mittelwert auftreten, so dass sie negative oder positive Werte annehmen können. In vielen Zusammenhängen sind wir jedoch lediglich an der Größe der Abweichung interessiert und nicht am Vorzeichen, oder wir möchten die Summe mehrerer Abweichungen bilden, wobei sich diese dabei nicht gegenseitig aufheben sollen. Es gibt zwei übliche arithmetische Verfahren der Transformation der ursprünglichen Abweichung, die uns genau diese Informationen liefern. Die erste Möglichkeit besteht in der Bildung absoluter Abstände, die zweite besteht in der Quadrierung der Abstände. In beiden Fällen wird dadurch das Vorzeichen des ursprünglichen Abstands irrelevant.
Entdeckung der Methode der kleinsten Quadrate
Historisch gesehen wurden beide Verfahren angewandt, wobei sich aus einer Reihe von Gründen, auf die wir hier nicht näher eingehen können, die Methode der Bildung von quadratischen Abständen der Bildung von absoluten Abständen als überlegen erwiesen hat. Den wichtigsten Grund hierfür wollen wir kurz nennen, er besteht in der uns bekannten Eigenschaft des Mittelwerts, die Summe der quadratischen Abstände zu minimieren. Dieses Verfahren wird daher das "Verfahren der kleinsten Quadrate" (englisch: least squares) genannt. Es wurde um 1800 von Le-
Kapitel 25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können
345
gendre entdeckt und vor allem von Carl Friedrich Gauß propagiert, der auch die eigentliche Urheberschaft des Verfahrens für sich reklamierte. Das wichtigste Anwendungsbeispiel war dabei die Schätzung der "richtigen" Planetenposition aufgrund mehrerer, nicht ganz übereinstimmender astronomischer Beobachtungen. Von Gauß stammt die theoretisch wichtigste Begründung der Methode der kleinsten Quadrate. Unter der Annahme, die einzelnen Beobachtungsdaten stammten alle aus einer um den tatsächlichen Positionswert gestreuten Normalverteilung, konnte er zeigen, dass der durch die Methode der kleinsten Quadrate gefundene Schätzwert als so genannter Maximum-Likelihood-Schätzer interpretiert werden kann. Ein Maximum-Likelihood-Schätzer ist der Wert, unter dem die Auftretenswahrscheinlichkeit der tatsächlich gemachten Beobachtungen maximiert wird. Für jeden beliebigen Wert können wir ja die bedingte Auftretenswahrscheinlichkeit berechnen, mit der die gemachten Beobachtungen auftreten würden, wenn dieser Wert der tatsächliche Wert wäre, von dem die Beobachtungen lediglich durch zufällige Fehlerstreuungen abweichen. Es kann ja nur eine tatsächliche Planetenposition geben, auch hier könnte man von einer Art "Highlanderprinzip" sprechen, in diesem Falle bezogen auf astronomische Daten. Von allen gewonnenen unterschiedlichen Beobachtungswerten müssen daher mindestens alle bis auf einen falsch sein, unter Umständen sind sie sogar alle falsch. In diesem Sinne ist der Maximum-Likelihood-Schätzer gleichzeitig derjenige, der den Beobachtungsfehler minimiert, was wiederum zur Folge hat, dass wir die quadratischen Abweichungen als Maß des Fehlers bezeichnen können. Die Interpretation der Normalverteilung als Messfehlerkurve ist wohl der erste wichtige Anwendungsfall der Normalverteilung. Da sie auf diese Weise vor allem von Gauß bekannt gemacht wurde, wird die Normalverteilungskurve eben oft auch als GaußGlockenkurve bezeichnet, was zu Unrecht suggeriert, Gauß sei auch der Entdecker der Kurve selbst gewesen. Dieses Verdienst muss aber tatsächlich Abraham de Moivre zugesprochen werden. Wir können also, um die Summe der (quadratischen) Abweichungen einer Menge von Werten zu ermitteln, die aus einer Standardnormalverteilung stammen, diese direkt aus den entsprechenden z-Werten berechnen. Da der Mittelwert der Standardnormalverteilung Null ist, ist die Summe der quadratischen Abweichungen gleich der Summe der quadrierten Werte selbst. Der Name dieser Funktion lautet Chi2-Funktion, bzw. F2-Funktion. Die formale Definition der Funktion lautet: Definition 25.1: F2-Funktion F2df
n
Fn2
n
¦Z
2 i
Z12 Z22 ... Zk 2 ... Zn 2
i 1
Der einzige Parameter, der die Funktion bestimmt, ist die Anzahl der standard- Zahl der Freiheitsgrade normalverteilten Zufallsvariablen, die aufaddiert werden. Diese Anzahl wird die Zahl der Freiheitsgrade der Funktion (englisch: degrees of freedom, abgekürzt df) genannt. Für jeden Freiheitsgrad gibt es demnach eine spezifische F2-Funktion.
346
Kapitel 25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können 2
F 2df
1
F12
Z1
F 2df
2
F 22
Z1 Z2
F 2df
3
F32
Z1 Z2 Z3
2
2
2
2
2
...
Die Funktionskurven für mehrere F2-Funktionen sind in Abbildung 25.1 dargestellt. Abbildung 25.1: Die Wahrscheinlichkeitsdichte mehrerer Chi2-Verteilungen für verschiedene Freiheitsgrade 0,4 0,35 0,3
df=1
0,25 0,2 0,15
df=3 df=5 df=10
0,1
df=20
0,05 0 -0,05 0
Wahrscheinlichkeitsdichtefunktion
5
10
15
20
Wie die Normalverteilung selbst ist auch die aus ihr abgeleitete Chi2-Verteilung kontinuierlich, d.h. die Funktion kann jeden beliebig fein abgestuften reellen Wert annehmen. Die "relative Häufigkeit" oder Wahrscheinlichkeit eines bestimmten Wertes ist daher immer annähernd Null, und es können nur – wie bei der Normalverteilung – Wahrscheinlichkeitsdichtefunktionen der Chi2-Verteilung angegeben werden. Besonders einfach ist dies für die Chi2-Funktion mit einem Freiheitsgrad. Da die Quadratfunktion eine eindeutige Abbildung ist, es aber umgekehrt zu jeder positiven Zahl eine positive und eine negative Wurzel gibt, ist die Wahrscheinlichkeitsdichte eines bestimmten Wertes einer Chi2-Verteilung bezüglich eines Freiheitsgrades gleich der doppelten Wahrscheinlichkeitsdichte der Wurzel dieses Wertes in einer Standardnormalverteilung. Denn die Wahrscheinlichkeitsdichte eines beliebigen Wertes x in der F 2df 1 -Verteilung ist die Wahrscheinlichkeitsdichte von x plus die Wahrscheinlichkeitsdichte von – x in einer Standardnormalverteilung.
Kapitel 25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können
Relevanter als die Dichtefunktion ist bei einer kontinuierlichen Verteilung jedoch Verteilungsfunktion die Verteilungsfunktion, also die Integralfunktion über die Wahrscheinlichkeitsdichte. Alle Werte, die in der Standardnormalverteilung zwischen –z und +z lagen, liegen, wenn sie in eine F2df 1 -Verteilung transformiert werden, zwischen 0 und z2. Das heißt, der Anteil der Fläche unter der Kurve, der in der Standardnormalverteilung zwischen –z und +z liegt, entspricht in der Chi2-Verteilung mit einem Freiheitsgrad dem Anteil der Fläche unter der Kurve von 0 bis z2. Wenn sich 95 Prozent der Werte einer Standardnormalverteilung zwischen –1,96 und +1,96 befinden, dann befinden sich ebenfalls 95 Prozent der Werte einer F2df 1 Verteilung zwischen 0 und 1,962 bzw. 3,84. Oder, anders ausgedrückt: Wenn sich 2,5 Prozent der Werte einer Standardnormalverteilung links von –1,96 befinden, und 2,5 Prozente der Werte rechts von +1,96, dann befinden sich 5 Prozent der Werte einer F2df 1 -Verteilung rechts von 1,962. Da wir also sowohl die Wahrscheinlichkeitsdichtefunktion als auch die Verteilungsfunktion einer F 2df 1 -Verteilung unmittelbar aus der Standardnormalverteilung selbst gewinnen können, wird die Chi2-Verteilung erst interessant, wenn die Anzahl der Freiheitsgrade größer als 1 ist. Die Zahl der Anwendungsmöglichkeiten der Chi2-Verteilung ist groß. Dies liegt daran, dass quadratische Abweichungen und die Summen von quadratischen Abweichungen in der Mathematik eine herausragende Rolle spielen. Da z.B. die Varianz einer Verteilung nichts Anderes ist als die Summe der quadratischen Abweichungen geteilt durch die Anzahl der Fälle in der Verteilung, können wir die Chi2-Verteilungsfunktion auch verwenden, um die Wahrscheinlichkeit zu berechnen, mit der ein bestimmter Wert (oder ein von diesem aus extremer liegender Wert) der Varianz einer Stichprobe aus einer Grundgesamtheit mit bekannter Varianz auftritt. Am einfachsten wäre dies, wenn zudem noch der Mittelwert der Grundgesamtheit bekannt wäre. Dann würde gelten, dass die z-transformierten Werte Chi2-verteilt mit n Freiheitsgraden sind.
Fn2 ~
n
¦( i 1
Bei den Werten
xi P 2 ) V
1 V2
n
¦ x i 1
i
P
2
(25.1)
xi P handelt es sich um die in Bezug auf den Mittelwert und die V
Standardabweichung der Grundgesamtheit z-transformierten Werte. Ist der Mittelwert der Grundgesamtheit nicht bekannt, dann können wir die quadratischen Abstände der Werte in der Stichprobe lediglich zum Mittelwert der Stichprobe berechnen. Es gilt dann nach der Verschieberegel (vgl. Theorem 8.1):
347
348
Kapitel 25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können
Fn 2 ~
1 V2 1 V2 1 V2
n
¦ ¬ª x i 1 n
¦x
n 2 P x 2 V
x
i
x
n
i 1
x P x ¼º
i
i 1
¦x
i
2
P x
(25.2)
2
V2 n
Die Mittelwerte der Stichprobe sind um den Mittelwert der Grundgesamtheit mit V2 (P x)2 normalverteilt, d.h. die Größe ist der n V2 n
der Standardabweichung
quadrierte Wert einer standardnormalverteilten Zufallsvariablen. Daraus folgt, dass, wenn die Summe
1 V2
n
¦ x i 1
2
i
x
(P x)2 Chi2-verteilt mit n FreiheitsgraV2 n
den ist, der erste Summand Chi2-verteilt mit n-1 Freiheitsgraden sein muss.
Fn21 a Sum of Squares
1 V2
n
¦x i 1
i
x
2
Die Summe der quadrierten Abweichungen der Werte einer Verteilung von ihrem Mittelwert wird auch die Variation der Verteilung genannt, im Englischen als "Sum of Squares" bezeichnet und daher üblicherweise mit "SS" abgekürzt. Die Varianz einer Verteilung ist also die Variation, geteilt durch die Anzahl der Fälle. Definition 25.2a: Zusammenhang zwischen einer Stichprobenvarianz und einer Chi2-verteilten Zufallsvariablen 2 Fn-1 ~
1 V2
n
¦x i 1
i
x
2
1 SS V2
n SS V2 n
n 2 s V2
mit s2
1 n 2 ¦ xi x ni1
Wird die Stichprobenvarianz s2 nach der Formel berechnet, die im Nenner nicht die Anzahl der Fälle n, sondern die Anzahl der Freiheitsgrade n-1 enthält, gilt entsprechend:
Kapitel 25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können
349
Definition 15.2b: Zusammenhang zwischen einer Stichprobenvarianz und einer Chi2-verteilten Zufallsvariablen 2 Fn-1 a
1 V2
n
¦x i 1
i
x
2
1 SS V2
n 1 SS V2 n 1
n 1 2 s V2
mit s2
1 n 2 ¦ xi x n 1 i 1
Nehmen wir an, wir hätten eine Stichprobe mit zehn Fällen gezogen, die eine Va- Rechenbeispiel rianz von 3 hatte. Wir wollen nun wissen, wie hoch die Wahrscheinlichkeit einer solchen Varianz einer Stichprobe wäre, wenn die Stichprobe aus einer normalverteilten Grundgesamtheit mit der Varianz 2 gezogen worden wäre. Wir erhalten also als Chi2-Wert (10-1)*3/2 = 13,5. Der kritische Chi2-Wert bei 9 Freiheitsgraden ist 16,9 bei einem Signifikanzniveau von 5 Prozent und 21,7 bei einem Signifikanzniveau von 1 Prozent. Unser berechneter Chi²-Wert liegt bereits unter dem kritischen Wert des 5-Prozent-Niveaus, und damit natürlich erst recht unter jenem des 1-Prozent-Niveaus. Unsere Nullhypothese lautete: Die Stichprobe ist aus einer Grundgesamtheit mit einer Varianz von 2 gezogen worden. Wir können also die Nullhypothese nicht zurückweisen, solange wir mindestens ein Signifikanzniveau von 5-Prozent verlangen. Trotz der abweichenden Varianz kann die Stichprobe durchaus aus der genannten Grundgesamtheit stammen.
25.2 Die F-Verteilung Mit Hilfe der Chi2-Verteilung ist es uns möglich, für eine bestimmte gegebene Stichprobenvarianz bezüglich jeder theoretischen Varianz der Grundgesamtheit die Wahrscheinlichkeit zu berechnen, mit der die Stichprobenvarianz genau in dem gegebenen oder einem noch stärkeren Verhältnis von der Varianz der Grundgesamtheit abweicht. Oft aber interessiert es uns, ob die Varianzen zweier Stichproben signifikant voneinander abweichen, d.h. wir wollen die Wahrscheinlichkeit berechnen, mit der beide Stichproben aus einer Grundgesamtheit mit derselben Varianz stammen. Dazu müssen wir zuerst ein Maß für die Unterschiedlichkeit zweier Varianzen berechnen und danach die Wahrscheinlichkeitsverteilung, die angibt, mit welcher Wahrscheinlichkeit ein bestimmter Wert dieses Unterschiedlichkeitsmaßes bei den Varianzen zweier Stichproben auftreten würde, die beide aus einer Grundgesamtheit mit der gleichen Varianz stammen. Es gibt immer zwei nahe liegende Maße für die Unterschiedlichkeit zweier Werte, die Differenz aus den beiden Werten oder das Verhältnis daraus. Im ersten Fall steigt der Unterschied an, je mehr das Maß vom Wert "0" abweicht, im zweiten Fall zeigt sich die Unterschiedlichkeit zweier Werte in ihrer Abweichung vom Wert "1". Aus dem vorigen Unterkapitel wissen wir, dass das Verhältnis einer Stichprobenvarianz zur Varianz der Grundgesamtheit, multipliziert mit der Anzahl der Freiheitsgrade, Chi2-verteilt ist. Da die Stichprobe als Durchführung eines Zufallsexperiments betrachtet werden kann, kann auch jeder Kennwert der Stichprobe als
Berechnung/ Überprüfung der Unterschiedlichkeit von Varianzen
350
Kapitel 25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können
Zufallsvariable interpretiert werden. Im Falle des Mittelwerts einer Stichprobe sind wir es schon gewohnt, diesen als Zufallsvariable zu interpretieren, das Gleiche können wir nun in Bezug auf die Varianz einer Stichprobe machen. Wenn aber die Verteilung einer Zufallsvariablen bekannt ist, dann lässt sich auch die Verteilung der Differenz oder des Verhältnisses zweier solcher Zufallsvariablen ermitteln. Wir bilden nun als Maß für die Unterschiedlichkeit zweier Varianzen s12 und s22 (MUV) den Quotienten aus den beiden Varianzen. 2
MUV
s1 s2
(25.3)
2
Durch leichte Umformulierungen gelangen wir von diesem Quotienten zu einer Form, in der wir auf die Chi2-Verteilung bzw. auf leicht transformierte Formen der Chi2-Verteilung zurückgreifen können.
2
MUV
s1 s2
2
1 1 2 n 1 s1 1 2 Fn2 1 n1 1 V n1 1 1 | 1 1 2 n 1 s2 2 2 Fn2 1 n2 1 n2 1 2 V
Fn21 1 n1 1 Fn22 1 n2 1
Der Quotient aus der Varianz zweier Stichproben, die aus Grundgesamtheiten mit der gleichen Varianz N2 stammen, ist also verteilt wie der Quotient aus den Quotienten zweier Chi2-Verteilungen und ihren Freiheitsgraden. Diese Verteilung nennen wir die F-Verteilung. Definition 25.3: Die F-Verteilung Fn21 1 Fdf1,df2
df1 Fn22 1 df2
Asymmetrie der F-Verteilungen
So wie es für jede Anzahl von Freiheitsgraden eine Chi2-Verteilung gibt, gibt es jetzt sogar für jede Kombination von zwei Freiheitsgraden eine F-Verteilung. In Abbildung 25.2 sind einige der F-Verteilungen in ihrer Form als Wahrscheinlichkeitsdichtefunktion aufgeführt. Die Wahrscheinlichkeitsdichtefunktionen sind linkssteil bzw. rechtsschief. Je größer die Anzahl der Freiheitsgrade, desto weniger stark ist diese Asymmetrie, obwohl sie niemals verschwindet. Diese Asymmetrie lässt sich leicht intuitiv verständlich machen. Die F-Werte selbst können nur positive Werte sein, da sie ja Quotienten aus Varianzen darstellen und Varianzen selbst ebenfalls immer positive Zahlen sind. Der Argumentbereich der Funktion reicht also von 0 bis +f. Die asymmetrische Form der Kurve kommt daher, weil wir die Wahrscheinlichkeit von Verhältnissen berechnen, die auf der linken und rechten Seite der Funktion unterschiedlich dicht gedrängt sind. Genauso gut
Kapitel 25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können
wie ein Varianzverhältnis von z.B. 2 auftreten kann, kann ein Varianzverhältnis von 1/2 auftreten. Ob der Quotient 2 oder 1/2 beträgt, hängt schließlich nur davon ab, welche der beiden Varianzen wir in den Nenner und welche wir in den Zähler nehmen, diese Entscheidung ist aber beliebig. Die "Wahrscheinlichkeit" eines bestimmten F-Wertes ist also gleich der "Wahrscheinlichkeit" des Kehrwertes dieses F-Wertes. (Wir wollen kurz ignorieren, dass es streng genommen bei kontinuierlichen Variablen keine Wahrscheinlichkeiten bestimmter Werte gibt.). Die "Wahrscheinlichkeit" von F = 1/2 ist also der "Wahrscheinlichkeit" von F = 2, die "Wahrscheinlichkeit" von F = 1/3 ist gleich der "Wahrscheinlichkeit" von F = 3, die "Wahrscheinlichkeit" von F = 1/4 ist gleich der "Wahrscheinlichkeit" von F = 4 usw. Damit ist die Wahrscheinlichkeit eines Wertes von F zwischen 1/2 und 1/4 gleich der Wahrscheinlichkeit eines Wertes von F zwischen 2 und 4. Die Wahrscheinlichkeit für einen Wertebereich entspricht dem Integral der Wahrscheinlichkeitsdichtefunktion über diesen Bereich bzw. der entsprechenden Fläche unter der Kurve. Wenn also die Fläche unter der Kurve von 2 bis 4 gleich der Fläche unter der Kurve von 1/2 bis 1/4 sein soll, dann muss die Kurve im Bereich 1/2 bis 1/4 höher verlaufen als im Bereich von 2 bis 4, d.h. die Wahrscheinlichkeitsdichten auf der linken Seite von 1 müssen höher sein als die entsprechenden Wahrscheinlichkeitsdichten auf der rechten Seite von 1, die Wahrscheinlichkeitsdichte von 1/2 ist höher als die von 2 usw. Dies leuchtet unmittelbar ein. Wir können genau so viele Verhältnisse von Varianzen bilden, die einen Wert zwischen 2 und 3 erhalten, wie wir Verhältnisse von Varianzen bilden können, die einen Wert zwischen 1/2 und 1/3 erhalten. Die Verhältniszahlen sind also links von 1 "dichter gedrängt" als rechts von 1. Genau dies aber gibt die Wahrscheinlichkeitsdichte an, nämlich, wie dicht die anderen Werte der Verteilung um einen bestimmten Wert herum gestreut sind. Abbildung 25.2: Die Wahrscheinlichkeitsdichte mehrerer F-Verteilungen für verschiedene Kombinationen von Freiheitsgraden 1,6 1,4
df=50,50
1,2
df=20,20
1
df=10,10
0,8
df=5,5
0,6
df=2,2
0,4 0,2 0 -0,2 0
0,5
1
1,5
2
2,5
3
351
352
Stichprobengröße beeinflusst den Wert der Prüfgröße
Kapitel 25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können
Je größer die Stichproben sind, desto mehr nähern sich die Varianzen der Varianz der Grundgesamtheit an und desto unwahrscheinlicher werden größere Unterschiede zwischen den beiden Stichprobenvarianzen, die ja aus derselben Grundgesamtheit stammen. Je größer also die Stichproben, desto stärker konzentriert sich die Verteilung um den Wert "1". Die Verteilung der F-Werte konzentriert sich umso weniger um den Wert "1", je größer die durchschnittlichen Abweichungen zwischen den Varianzen der beiden Stichproben sind. Entscheidend für das zu erwartende mittlere Ausmaß des Unterschieds ist dabei vor allem der Umfang der kleineren Stichprobe. Haben wir zwei Stichproben, eine mit einem sehr kleinen Umfang und eine mit einem relativ großen Umfang, dann schwankt die Verhältniszahl immer noch stark, da sie vor allem durch die Varianz der kleinen Stichprobe bestimmt ist. Dies wird durch Abbildung 25.3 illustriert. In ihr sind zwei FVerteilungen dargestellt. Die Anzahl der Freiheitsgrade bezüglich der kleineren Stichprobe beträgt jedes Mal 3, aber die größere Stichprobe besitzt im ersten Fall nur 5, aber im zweiten Fall 50 Freiheitsgrade. Trotz der beachtlichen Zunahme an Freiheitsgraden der zweiten Stichprobe verschiebt sich das hügelförmige Zentrum der dazugehörigen F-Verteilung jedoch nur geringfügig in Richtung der "1". Abbildung 25.3: Wahrscheinlichkeitsdichtefunktionen mit unterschiedlich großen Stichproben 0,8 0,7 0,6
df=3,50
0,5
df=3,5
0,4 0,3 0,2 0,1 0 0
0,5
1
1,5
2
2,5
3
Entscheidend sind, wie bei jeder kontinuierlichen Variablen, auch bei der FVerteilung die Werte der Verteilungsfunktion. Üblicherweise sind diese in Tabellenform für bestimmte Kombinationen der Freiheitsgrade der beiden Stichprobe und für bestimmte ausgezeichnete Quantile wie das 90-Prozent-Quantil, das 95Prozent-Quantil, das 97,5-Prozent-Quantil, das 99-Prozent-Quantil und das 99,5Prozent-Quantil aufgeführt (vgl. die Tabelle zur F-Verteilung in Anhang A3). Als Beispiel sind in der folgenden Tabelle die entsprechenden kritischen Werte der F-Verteilung für Stichproben des Umfangs 21 angegeben. Die Anzahl der Freiheitsgrade bezüglich jeder Stichprobe ist also 20.
Kapitel 25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können
Tabelle 15.1: Kritische Werte der F-Verteilung für mehrere Quantile mit df1 = 20 und df2 = 20 D
fD;20;20
0,9
1,793843
0,95
2,124155
0,975
2,464484
0,99
2,937735
0,995
3,317786
Die Werte sind folgendermaßen zu interpretieren: Mit einer Wahrscheinlichkeit Interpretation der Tabellenwerte von 90 Prozent nimmt das Verhältnis der Varianzen zweier Stichproben aus Grundgesamtheiten mit der gleichen Varianz einen Wert von weniger oder gleich 1,79 an, mit einer Wahrscheinlichkeit von 95 Prozent einen Wert von weniger oder gleich 2,12 etc. Ist also der Wert, den wir für unsere Stichproben errechnet haben, größer als 1,79 bzw. 2,12, dann bedeutet das, dass wir auf einem Signifikanzniveau von 10 bzw. von 5 Prozent davon ausgehen können, dass die Stichproben tatsächlich aus unterschiedlichen Grundgesamtheiten stammen, dass wir die Nullhypothese also ablehnen können. Liegt unser berechneter Wert unter dem Tabellenwert, können wir die Nullhypothese nicht ablehnen und gehen weiterhin davon aus, dass die Stichproben aus der gleichen Grundgesamtheit stammen. Häufig werden in Tabellen nur die rechtsseitigen Quantile angegeben, da die Einseitige Quantile linksseitigen durch die Bildung des Kehrwerts des kritischen Werts berechnet werden können. Wenn wir mit fD;df1;df2 den kritischen Wert der F-Verteilung für eine bestimmte Kombination von D, df1 und df2 bezeichnen, so dass gilt, dass die Wahrscheinlichkeit, dass ein F-Wert kleiner oder gleich fD;df1;df2 mit einer Wahrscheinlichkeit von D auftritt, dann gilt:
fD;df1;df 2
1 f1D;df1;df 2
(25.4)
Wenn 95 Prozent der Werte der F-Verteilung kleiner oder gleich 2,12 sind und damit 5 Prozent größer als dieser Wert, dann sind auch 5 Prozent der F-Verteilung kleiner als der Kehrwert von 2,12, also ca. 0,47. Nehmen wir an, wir haben zwei Stichproben mit jeweils 20 Freiheitsgraden, also des Umfangs 21, mit den beiden Varianzen 2 und 4,5. Dividieren wir die zweite Varianz durch die erste, dann erhalten wir einen F-Wert von 2,25. Ein solcher oder noch extremerer Wert tritt jedoch nur mit einer Wahrscheinlichkeit von weniger als 5 Prozent auf, wenn die Nullhypothese zutrifft, dass beide Stichproben aus der gleichen Grundgesamtheit stammen und ihre Varianzen daher gleich sind. Wir könnten daher versucht sein, die Nullhypothese auf einem Signifikanzniveau
353
354
Kapitel 25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können
von 5 Prozent zurückzuweisen. Tatsächlich aber ist es beliebig, ob wir die zweite Varianz durch die erste oder die erste durch die zweite teilen. Wollen wir also wissen, ob sich die beiden Varianzen signifikant voneinander unterscheiden, dann müssen wir die Wahrscheinlichkeit ermitteln, mit der entweder ein F-Wert größer oder gleich 2,25 oder kleiner oder gleich 1/(2,25) = 0,44 auftritt. Diese Wahrscheinlichkeit, dass der F-Wert kleiner oder gleich 0,44 ist, beträgt ungefähr 0,039. Die (aufsummierte) Wahrscheinlichkeit, dass er entweder kleiner / gleich 0,44 oder größer / gleich 2,25 ist, ist demnach das Doppelte davon, also ungefähr 0,078. Das bedeutet, dass in 7,8 Prozent aller Fälle die Varianzen von zwei Stichproben, die aus der gleichen Grundgesamtheit gezogen wurden, tatsächlich so weit voneinander abweichen können, wobei es hier keine Rolle spielt, welche der beiden Stichproben die größere und welche die kleiner Varianz aufweist. Die Varianzen in unserem Beispiel unterscheiden sich somit nicht signifikant voneinander. Nur wenn wir von vornherein unsere Nullhypothese gerichtet formuliert hätte, also in der Form, dass wir vermuten, dass z.B. die Varianz der ersten Stichprobe größer ausfällt als die der zweiten, nur dann hätten wir die einseitige Wahrscheinlichkeit des F-Wertes berücksichtigen dürfen. Unsere gerichtete Vermutung über das Größenverhältnis der Varianzen der beiden Stichproben hätte dann natürlich schon vor der Ermittlung der Varianzen selbst geäußert werden müssen, müsste also theoretisch begründet sein. Da in der Tabelle nur die rechtsseitigen Quantile angegeben sind, also nur die kritischen Werte von F, die größer als 1 sind, empfiehlt es sich, von vornherein zur Ermittlung der Signifikanz des FWertes die größere Varianz durch die kleinere zu teilen. Wenn wir nun ermitteln wollen, ob dieses Verhältnis im Sinne eines zweiseitigen Tests auf dem 5-ProzentNiveau signifikant ist, dann müssen wir den kritischen F-Wert für das 97,5Prozent-Quantil suchen. Im Falle unserer beiden Stichproben mit 20 Freiheitsgraden liegt dieser Wert bei 2,46. Der ermittelte Wert in unserem Beispiel von 2,25 fällt darunter, also ist die Abweichung der Varianzen nicht auf dem 5-ProzentNiveau signifikant, was wir ja durch die Ermittlung des exakten "Signifikanzniveaus" von 7,8 Prozent schon wussten.
25.3 Die T-Verteilung Mit Hilfe der Chi2-Verteilung können wir jetzt auch die T-Verteilung noch konkreter formal darstellen. Die T-Verteilung haben wir bereits in Kapitel 21 und in Kapitel 24 bei der Berechnung des Mittelwertdifferenzentests kennen gelernt. Der T-Wert wird nach folgender Formel (vgl. Definition 21.6) berechnet: T
xP s2 n
(25.5)
Die Verzerrung der T-Verteilung gegenüber der Standardnormalverteilung ergab sich dadurch, dass im Nenner nicht die tatsächliche Varianz der Grundgesamtheit steht, sondern die durch die Stichprobenvarianz geschätzte. Nach Definition 15.2b
Kapitel 25 Verteilungen, die von der Standardnormalverteilung abgeleitet werden können
gilt, dass der Ausdruck
n 1 2 s Chi2-verteilt mit n-1 Freiheitsgraden ist. Wenn wir V2
den Ausdruck nach s2 auflösen, erhalten wir s2 als eine auf der Chi2-Verteilung basierende Zufallsvariable.
s2
V2 2 Fn1 n 1
(25.6)
Setzen wir jetzt diesen Ausdruck in die Gleichung der T-Verteilung ein, dann erhalten wir die T-Verteilung unmittelbar als Funktion einer standardnormalveilten Zufallsvariable z und einer Ȥ 2n 1 -verteilten Zufallsvariable. Definition 25.4: Die T-Verteilung als Funktion aus einer standardnormalverteilten und einer Ȥ 2n1 -verteilten Zufallsvariablen T
x P V2 Fn21 n n 1
Der Ausdruck
z Fn21 n 1 Fn21 n 1 ist die Standardabweichung einer Stichprobe, die aus n-1
standardnormalverteilten Zufallsvariablen gebildet worden ist. Wenn der Umfang der Stichprobe sehr groß ist, dann wird die Standardabweichung 1 approximiert, womit ein weiteres Mal gezeigt ist, dass sich die T-Verteilung der Standardnormalverteilung annähert, wenn die Stichproben sehr groß sind. Ist der Stichprobenumfang hingegen sehr klein, dann wird der Ausdruck
Fn21 n 1 einmal kleiner als 1
sein, ein anderes Mal größer als 1. Da er jedoch im Nenner der Gleichung für die T-Verteilung steht, wirken sich "zu kleine" Varianzen stärker aus als "zu große" Varianzen, so dass die T-Verteilung sich daher mehr zu den Rändern erstreckt als die Z-Verteilung.
355
356
Kapitel 26 Die einfaktorielle Varianzanalyse
26 Die einfaktorielle Varianzanalyse Beim T-Test wurde überprüft, ob sich die Mittelwerte zweier Stichproben unterscheiden. Die Varianzanalyse ist insofern eine Art von Verallgemeinerung des TTests, da es bei ihr um die Untersuchung geht, ob sich die Mittelwerte von mehr als zwei Gruppen signifikant voneinander unterscheiden. Der T-Test ist somit umgekehrt eine Art Spezialfall der Varianzanalyse. Standardinstrument zur Untersuchung experimenteller Designs
Die Varianzanalyse ist das statistische Standardinstrument zur Untersuchung kausaler Zusammenhänge, da es die vorrangige Methode ist, die zur Analyse der Ergebnisse von experimentellen Designs eingesetzt wird. Die Gruppierungsvariable wird daher auch als Treatment-Variable bezeichnet, da die Mitglieder der verschiedenen Gruppen im Experiment verschiedenen Treatments, also Behandlungen, ausgesetzt werden. Ziel der Varianzanalyse ist es, herauszufinden, ob die beobachteten Unterschiede der kritischen Variablen auf das unterschiedliche Treatment zurück zu führen und damit systematischer Natur sind, oder ob sie auch allein aufgrund zufälliger Schwankungen bei der Zusammensetzung der Gruppen zustande gekommen sein könnten. Die Nullhypothese behauptet also, dass die Mittelwerte der Grundgesamtheiten, aus denen die jeweiligen Gruppen als Stichproben gezogen wurden, gleich sind, bzw. dass alle Stichproben aus derselben Grundgesamtheit mit dem Mittelwert P stammen. H0: P1 = P2 = ... Pj = ... Pk= P
Die Alternativhypothese lautet dementsprechend: H1: Für mindestens ein j gilt: Pj z P Konstruktion der Teststatistik
Der zweite Schritt bei der Durchführung eines Signifikanztests nach der Formulierung der Nullhypothese besteht in der Konstruktion einer geeigneten Teststatistik. Diese muss im Sinne der Nullhypothese ein Maß für die Gleichheit bzw. Unterschiedlichkeit der Gruppenmittelwerte sein. Bei nur zwei Gruppen ist ein solches Unterschiedsmaß leicht zu finden, es ist die Differenz, die daher auch beim T-Test gewählt wurde. Bei mehr als zwei Gruppen ist die Varianz ein angemessenes Maß, um die Unterschiedlichkeit mehrerer Werte in einem einzigen Kennwert zusammenzufassen. Als grundlegendes Konzept unserer Teststatistik wählen wir daher die Varianz der Stichprobenmittelwerte. Unsere "Ausgangsteststatistik" TS0 ist somit: k
TS0
¦ (x
j
x)2
j 1
k 1
(26.1)
Die Logik der Varianzanalyse soll an zwei Beispielen erläutert werden.
Kapitel 26 Die einfaktorielle Varianzanalyse
357
Nehmen wir als Beispiel an, wir hätten drei Personengruppen jeweils vom Umfang 10 in einem medizinischen Experiment mit den Medikamenten A, B und C behandelt. Üblicherweise ist dabei eines der Medikamente ein Placebo, so dass wir die Gruppe, der dieses verabreicht wird, als so genannte Kontrollgruppe betrachten können. Die Kontrollgruppe erfährt also keinen Behandlungseffekt, aber sehr wohl den Effekt, dass sie dem experimentellen Design ausgesetzt wird. Kontrollgruppen sind unerlässlich, da wir ansonsten fälschlicherweise den Experimenteffekt für einen Behandlungseffekt halten können. Experimenteffekte entstehen z.B. durch das Phänomen so genannter sozialer Erwünschtheit. Patienten, die an einem solchen medizinischen Experiment teilnehmen, könnten allein dadurch ein verantwortungsvolleres Verhältnis zu ihrem Körper bekommen und sich dadurch unbewusst "gesünder" verhalten. Die daraus folgende allgemeine Verbesserung des Gesundheitszustands könnte dann irrtümlich dem Medikament zugeschrieben werden. Nehmen wir konkret an, bezüglich irgendeines beliebigen Gesundheitsmesswertes seien die Mittelwerte der drei Gruppen 100, 110 und 120. Der Gesamtmittelwert ist dann also 110. Die durch unsere "Teststatistik" T0 berechnete Varianz der Mittelwerte beträgt dann [(100-110)2 +(110-110)2 +(120-110)2]/(3-1) = 200/2 = 100. Um nun einen Signifikanztest durchzuführen, benötigen wir aber die Wahrscheinlichkeitsverteilung unserer Teststatistik. Nach dem zentralen Grenzwerttheorem wissen wir, dass die Varianz von Stichprobenmittelwerten der Varianz N2 der Grundgesamtheit, geteilt durch den Stichprobenumfang, entspricht. Wenn wir also die quadratischen Abstände der Gruppenmittelwerte vom Gesamtmittelwert mit dem jeweiligen Stichprobenumfang multiplizieren, entspricht dies den quadratischen Abständen von zufällig gezogenen Einzelelementen aus der Grundgesamtheit. Normieren wir diese Werte, indem wir sie durch die Varianz der Grundgesamtheit teilen, dann erhalten wir gemäß Definition 15.2b eine mit k-1 Freiheitsgraden Chi2-verteilte Zufallsvariable.
k
TS1
§ xj x · nj ¨ ¸ ¦ j 1 © V ¹ k
2
¦n x j
j
j 1
V2
x
2
k
nj
¦¦ (x j 1 i 1
V2
j
x)2 a & 2df
k 1
Das Problem ist jetzt allerdings wieder das schon bekannte, dass uns die Varianz der Grundgesamtheit nicht bekannt ist, sondern erst geschätzt werden muss. Analog zu Definition 14.2 beim T-Test berechnen wir die Schätzung der Varianz der Grundgesamtheit als gepoolte Varianz der Varianzen der Stichproben.
358
Kapitel 26 Die einfaktorielle Varianzanalyse
Definition 26.1: Schätzung der Varianz der Grundgesamtheit als gewichtetes Mittel der Stichprobenvarianzen k
s2
¦ (n
j
k
nj
¦¦ x
1)s j2
j 1
j 1 i 1
nk
ij
xj
2
nk
Nach Definition 15.2b gilt dann: k
nj
¦¦ x
ij
j 1 i 1
xj
2
a & 2df
V2
n k
Teilen wir jetzt die "Teststatistik" TS1 durch s2, dann erhalten wir die F-verteilte endgültige Teststatistik. Definition 26.2: Teststatistik der Varianzanalyse nj
k
¦¦ (x
j
x)2
j 1 i 1
TS
k
k 1
nj
a Fdf1
k 1;df2 n k
¦¦ (xij x j )2 j 1 i 1
nk
Der Ausdruck im Zähler
k
nj
¦¦ (x
j
x)2 wird auch Sum of Squares Between oder
j 1 i 1
kurz SSB genannt, da er die Unterschiede zwischen den Gruppen beinhaltet. Der Ausdruck im Nenner
k
nj
¦¦ (x
ij
x j )2 wird entsprechend Sum of Squares Within
j 1 i 1
oder SSW genannt, da es sich um die durch das Treatment "unerklärte Restvarianz" innerhalb der Gruppen handelt. Dividiert man die Summe der Abweichungsquadrate durch die Anzahl der Freiheitsgrade, dann erhält man das Mittlere Abweichungsquadrat, das auch Mean Square oder MS genannt wird. Auch die übliche Formel der Varianz entspricht der Darstellung als mittlere quadratische Abweichung. Es ist daher üblich, leicht vereinfachend, den kritischen F-Wert der Teststatistik bei einer Varianzanalyse als das Verhältnis der Varianz zwischen den Gruppen und der Varianz innerhalb der Gruppen zu bezeichnen. In Tabelle B1 sind alle Werte aufgeführt, die wir zur Durchführung einer Varianzanalyse in unserem Beispiel benötigen. Die erste Spalte enthält die Gruppennamen und die Gruppenmittelwerte, in der zweiten Spalte sind die individuellen Werte der kritischen Variablen aufgeführt. In Spalte 3 sind die Abstände der Gruppenmittelwerte zu dem Gesamtmittelwert enthalten, in Spalte 4 sind die quadrierten Werte davon dargestellt. Für die erste und die dritte Gruppe beträgt
Kapitel 26 Die einfaktorielle Varianzanalyse
359
der Abstand der Gruppenmittelwerte zum Gesamtmittelwert 10, der Gruppenmittelwert der zweiten Gruppe ist mit dem Gesamtmittelwert identisch, so dass die SSB sich insgesamt auf 2000 aufsummieren. Da es sich um drei Gruppen handelt, beträgt die Anzahl der Freiheitsgrade der Gruppenmittelwerte 2, und der mittlere quadratische Abstand ist daher 1000. Dies mag verwundern, da die Summe der quadratischen Abstände über alle individuellen Fälle gebildet wird, für die Bildung des mittleren quadratischen Abstands aber nur durch die Anzahl der Gruppen minus 1 dividiert wird. Es soll noch einmal daran erinnert werden, dass durch diese Vervielfältigung der Abstände der Gruppenmittelwerte zum Gesamtmittelwert mit der Gruppengröße kompensiert werden soll, dass die Varianz von Mittelwerten die Originalvarianz durch die Gruppengröße beträgt. In Spalte 5 und 6 sind die einfachen und quadrierten Abstände der individuellen Werte zu den jeweiligen Gruppenmittelwerten aufgeführt, als SSW ergibt sich demnach 2862. Der mittlere quadratische Abstand berechnet sich als der Quotient der SSW und der Freiheitsgrade der gepoolten Varianz, also als 2862, geteilt durch 27, wobei sich 106 ergibt. Tabelle 26.1: Notwendige Größen zur Berechnung der Varianzanalyse Gruppe x xj x x j x 2 x ij x j x ij x j 2 A xA
100
B xB
110
C xC
120
105 111 86 103 92 97 93 111 114 88 105 114 110 118 109 100 113 99 111 121 108 103 128 135 127 110 115 143 114 117
-10 -10 -10 -10 -10 -10 -10 -10 -10 -10 0 0 0 0 0 0 0 0 0 0 10 10 10 10 10 10 10 10 10 10
100 100 100 100 100 100 100 100 100 100 0 0 0 0 0 0 0 0 0 0 100 100 100 100 100 100 100 100 100 100 SSB = 2000 MSB = 2000/2 = 1000
5 11 -14 3 -8 -3 -7 11 14 -12 -5 4 0 8 -1 -10 3 -11 1 11 -12 -17 8 15 7 -10 -5 23 -6 -3
25 121 196 9 64 9 49 121 196 144 25 16 0 64 1 100 9 121 1 121 144 289 64 225 49 100 25 529 36 9 SSW = 2862 MSW = 2862/27 = 106
360
Kapitel 26 Die einfaktorielle Varianzanalyse
Der Wert der Teststatistik wird nach Definition 16.2 berechnet und ist daher das Verhältnis aus 1000 und 106, also 9,434. Wir müssen diesen Wert nun in unserer Tabelle der kritischen F-Quantile für die entsprechende F-Verteilung suchen. Leider sind in der Tabelle nur die F-Verteilungen für df1 = 2; df2 = 27 nicht enthalten. Wir betrachten daher die zwei F-Verteilungen, zwischen denen die von uns benötigte liegt, also Fdf1=2; df2=15 und Fdf1=2; df2=30. Da wir untersuchen, ob die Varianz zwischen den Mittelwerten deutlich höher ausfällt, als es aufgrund zufälliger Schwankungen vermutet werden kann, führen wir einen einseitigen F-Test durch. Die kritischen F-Werte f0,99; df1=2; df2=15 und f0,99; df1=2; df2=30 betragen 6,359 bzw. 5,390. Da unser errechneter Wert mit 9,434 über den kritischen Werten in der Tabelle liegt, ist das Ergebnis also mindestens auf dem 1-Prozent Niveau signifikant. (Tatsächlich beträgt der korrekte P-Wert 0,000782, das Ergebnis ist also mehr als höchstsignifikant.) Varianzzerlegung
Ziel der Varianzanalyse ist es zu untersuchen, ob die Behandlungsvariable auf die kritische Variable einen Einfluss ausübt, der "überwahrscheinlich" groß ist. Darüber hinaus kann es auch interessant sein, genauer zu bestimmen, wie groß dieser Einfluss denn nun genau ist. Um die Größe eines Einflusses zu messen, benötigen wir ein geeignetes Maß. Dazu verwenden wir das Mittel der Varianzzerlegung. Die Abweichung eines individuellen Wertes vom Gesamtmittelwert kann ja in zwei Komponenten zerlegt werden, nämlich in den Abstand dieses Wertes zum entsprechenden Gruppenmittelwert und den Abstand des Gruppenmittelwerts zum Gesamtmittelwert. Für die Summe der quadratischen Abstände SST, d.h. der quadratischen Abstände der Einzelwerte zum Gesamtmittelwert, gilt dann folgende Dekompositionsformel: Definition 26.3: Die Varianzzerlegungsformel SST
n
¦ (x
ij
x)2
i 1 k
k
x j x j x)2
k
nj
¦¦ ª¬(x j 1 i 1
ij
x j ) (x j x)º¼
x j )2 2 * (x ij x j )(x j x) (x j x)2 º¼
ij
x j )2 (x j x)2 º¼
nj
j 1 i 1
ij
ij
j 1 i 1
¦¦ ª¬(x
nj
j 1 i 1
nj
¦¦ ª¬(x
k
¦¦ (x
k
nj
¦¦ (x j 1 i 1
k
ij
2
nj
x j )2 ¦¦ (x j x)2 j 1 i 1
SSW SSB
Die Gesamtvarianz lässt sich also in einen Teil zerlegen, der durch die Unterschiede zwischen den Gruppen "aufgeklärt" werden kann, und in eine Restvarianz innerhalb der Gruppen. Der Koeffizient C2 (Eta-Quadrat) gibt an, wie groß der durch die Treatmentvariable aufgeklärte Anteil der ursprünglichen Varianz ist. Definition 26.4: C2 K2
SSB SST
SSB SSB SSW
Kapitel 26 Die einfaktorielle Varianzanalyse
In unserem obigen Beispiel beträgt die Gesamtsumme der quadratischen Abweichungen 2000+2862, also 4862. C2 beträgt demnach 2000/4862, also 0,41. 41 Prozent der Varianz der kritischen Variable können also allein auf die unterschiedliche Behandlung der Individuen in den verschiedenen Gruppen zurück geführt werden. C2 lässt sich im Sinne eines PRE-Maßes auch als Ausmaß der Reduktion des Schätzfehlers interpretieren. Nehmen wir an, man sollte einen Schätzwert für einen zufällig ausgewählten Fall der Stichprobe hinsichtlich der kritischen Variablen angeben. Als Fehler der Schätzung wird dabei das Quadrat der Abweichung des geschätzten Wertes vom tatsächlichen betrachtet. Der aufsummierte Schätzfehler über alle Fälle der Stichprobe entspräche des Weiteren den Sum of Squares Total, also SST. Will man den Schätzfehler, genauer den Erwartungswert des Schätzfehlers, minimieren, dann wäre ohne die Kenntnis der Gruppenzugehörigkeit der Gesamtmittelwert der beste Schätzwert. Kennt man hingegen die Gruppenzugehörigkeit eines Falls, dann kann man den Schätzfehler vermindern, indem man als Schätzwert den Gruppenmittelwert anstatt des Gesamtmittelwerts angibt. Der über alle Fälle aufsummierte verbleibende Schätzfehler ist dann die Sum of Squares Within, also SSW. Die Sum of Squares Between, bzw. SSB, entspricht der Reduktion des Schätzfehlers, und C2 gibt somit den Anteil des ursprünglichen Schätzfehlers an, um den dieser reduziert werden kann, wenn man die Information der Kenntnis der Gruppenzugehörigkeit verwertet. Beispiel: Bildungsgrad und Sympathiebewertung für Schröder In Kapitel 24 hatten wir einen T-Test verwendet, um zu überprüfen, ob die Beurteilung der Sympathie Schröders vom Geschlecht des Befragten abhängen könnte. Nun verfolgen wir die Frage, wovon die Beurteilung der Sympathie Schröders abhängen könnte, weiter und untersuchen die Vermutung, dass auch der Bildungsgrad eine wichtige Determinante sein könnte. Da die Bildungsvariable üblicherweise mehr als zwei Ausprägungen besitzt, können wir hier keinen T-Test anwenden. Das adäquate Verfahren ist daher die Varianzanalyse. Wir greifen wieder auf den Datensatz zurück, den wir schon in Kapitel 24 zur Berechnung des T-Tests verwendet haben, wobei wir die ursprüngliche Variable des erworbenen Schulabschlusses zu drei Gruppen zusammenfassen, so dass wir die Teilnehmer unserer Untersuchung in diejenigen mit einem "niedrigen", "mittleren" und "hohen" formalen Bildungsgrad einteilen.8 In Tabelle B1 sind die Mittelwerte der Sympathiebewertung von Schröder für diese Gruppen aufgeführt sowie die Fallzahlen der Gruppen und die Standardabweichung der Sympathiewerte innerhalb der Gruppen. Tabelle B1: Sympathiebewertung für Schröder nach Bildungsgrad BILDUNG Mittelwert
N
Standardabweichung
niedrig
7,29
553
3,057
mittel
6,92
841
2,809
hoch
6,76
540
2,574
Insgesamt
6,98
1934
2,826
8
Eine Illustration der folgenden Berechnungen mit Hilfe des Programms SPSS findet sich auf der CD.
361
362
Kapitel 26 Die einfaktorielle Varianzanalyse
Aus diesen Werten lassen sich nun die relevanten Größen berechnen, die wir zur Durchführung einer Varianzanalyse benötigen. SSB=(7,29-6,98)2*553+(6,92-6,98)2*841+(6,76-6,98)2*540=82,31 MSB=SSB/2=41,16 SSW=3,0572*552+2,8092*840+2,5742*539=15357,7 MSW=SSW/1931=7,95 F=MSB/MSW=5,18 C2=SSB/(SSB+SSW)=82,31/(82,31+15357,7)=0,005
Im Anhang suchen wir den kritischen F-Wert für eine Verteilung bezüglich 2 und 1931 Freiheitsgrade. Diese Kombination ist selbst nicht in den Tabellen enthalten, aber 1931 Freiheitsgrade können bei Stichproben problemlos wie unendlich viele Freiheitsgrade behandelt werden, d.h. der Wert, gegen den die Stichprobe bei unendlich vielen Werten konvergiert, wird bei 1931 Freiheitsgraden der Stichprobe schon ziemlich genau angenähert. Der relevante kritische Wert der F-Verteilung ist demnach nach der Tabelle 4,605 bezüglich des 99 %-Quantils. Da der gefundene Wert 5,18 größer ausfällt, ist das Ergebnis der Varianzanalyse auf dem 1 %-Niveau signifikant. Der zugehörige C2-Wert fällt mit 0,005 allerdings äußerst gering aus. Also, obwohl es deutliche signifikante Unterschiede zwischen den Mittelwerten der Gruppen gehört, beträgt der Anteil der Varianz, der durch die Gruppenzugehörigkeit, also durch die Bildung, aufgeklärt werden kann, gerade einmal 0,5 %. Das heißt, dass die Kenntnis des Bildungsgrades einer beliebigen Person unsere Schätzung deren Sympathiewerts für Schröder nur so weit verbessert, dass der durchschnittliche Schätzfehler um ein halbes Prozent abnimmt. Das niedrige C2 ist daher ein Hinweis darauf, dass die Varianz innerhalb der Gruppen immer noch so groß ist. Anders ausgedrückt, Bildung bestimmt den Sympathiewert Schröders nur zu einem sehr geringen Anteil.
Ende Beispiel
Kapitel 27 Der Chi2-Test
27 Der Chi2-Test Sowohl beim T-Test als auch bei der Varianzanalyse haben wir auf Mittelwertunterschiede zwischen Gruppen geprüft. Die Voraussetzung zur Durchführung eines solchen Tests ist, dass die abhängige Variable intervallskaliert ist. Die Gruppierungsvariable, d.h. die unabhängige Variable, war allerdings eine nominalkategorisierte Variable. Wenn jetzt sowohl die abhängige als auch die unabhängige Variable nominalskaliert sind, dann führen wir einen so genannten Chi2-Test durch. Bei der Durchführung eines Chi2-Tests untersuchen wir, ob sich die (bedingten) Verteilungen der abhängigen Variable in verschiedenen Untergruppen, die durch die unabhängige Variable gebildet werden, signifikant voneinander unterscheiden. Wir könnten uns z.B. für die Forschungsfrage interessieren, ob es einen Zusam- Zusammenhang zwischen Religion und menhang zwischen Religion und Wahlabsicht gibt. Wir nehmen dabei an, dass die Wahlabsicht Religionszugehörigkeit die Wahlabsicht beeinflusst. Die Konfession ist also die unabhängige Variable und die Wahlabsicht die abhängige. In Tabelle 27.1 sind die dazugehörigen Werte aufgelistet, die aus dem uns schon bekannten Datensatz mit einer Wahlumfrage aus dem Jahr 1998 stammen. Wir berücksichtigen dabei nur die Konfessionszugehörigkeiten "Evangelisch", "Katholisch" und "Konfessionslos" und die Wahlabsichten für "CDU/CSU", "SPD", "FDP", "Grüne" und "PDS". Personen, die bezüglich einer der beiden Variablen einen anderen Wert aufweisen, werden zu so genannten fehlenden Werten erklärt und in der Analyse nicht berücksichtigt. Die angemessene Darstellung von bivariaten Verteilungen nimmt man anhand einer Kontingenztabelle vor. Wir bevorzugen dabei die Konvention, die unabhängige Variable zur Spaltenvariable zu machen. Da wir an der durch die Religionsvariable bedingten relativen Häufigkeitsverteilung der Wahlabsicht interessiert sind, geben wir in der Tabelle in den Zellen neben den absoluten Häufigkeiten die Spaltenprozente an, also den relativen Anteil eines Wertes an allen Werten innerhalb einer Spalte.
363
364
Kapitel 27 Der Chi2-Test
Tabelle 27.1: Kontingenztabelle bezüglich Religion und Wahlabsicht Religion Wahlabsicht
Zeilensumme Evangelisch Katholisch Konfessionslos
CDU/CSU SPD FDP Die Grünen PDS Spaltensumme
Kontingenztabelle
179 29,3 % 294 48,1 % 42 6,9 % 51 8,3 % 45 7,4 % 611 100,0 %
178 45,9 % 151 38,9 % 24 6,2 % 30 7,7 % 5 1,3 % 388 100,0 %
111 19,4 % 257 45,0 % 21 3,7 % 46 8,1 % 136 23,8 % 571 100,0 %
468 29,8 % 702 44,7 % 87 5,5 % 127 8,1 % 186 11,8 % 1570 100,0 %
Die Eintragungen in der Tabelle sind also folgendermaßen zu interpretieren: 29,3 % der Evangelischen wählen CDU oder CSU, 48,1 % SPD, 6,9 % FDP usw. Unter den Katholiken hingegen beabsichtigt ein Anteil von 45,9 %, die CDU/CSU zu wählen, während hier nur 38,9 % SPD wählen wollen. Besonders auffällig ist noch, dass nur 1,3 % der Katholiken PDS wählen wollen, während dies für 7,4 % der Evangelischen und für 23,8 % der Konfessionslosen zutrifft. Um zu ermitteln, ob eine Zellenbesetzung über- oder unterdurchschnittlich ausfällt, vergleicht man diese mit der Randspalte. 44,7 % aller Befragten geben an, SPD wählen zu wollen. Der Anteil der Konfessionslosen liegt mit 45 % ziemlich gleichauf, während der Anteil der SPD-Wähler bei den Evangelischen deutlich überrepräsentiert und bei den Katholiken deutlich unterrepräsentiert ist. Die Unterverteilungen in den einzelnen Gruppen unterscheiden sich also sehr deutlich voneinander. Kasten 27.1: Tabellengröße
Auch wenn wir der Darstellung halber die Randverteilungen mit angegeben haben, so besteht der substantiell relevante Bestandteil der Tabelle natürlich nur aus den Eintragungen den Zellen, die durch eine bestimmte Kombination von Merkmalen eindeutig bestimmt werden. Es handelt sich also bei obiger Tabelle im statistischen Sinn um eine Kontingenztabelle mit 5 Zeilen und 3 Spalten bzw. um eine 5x3-Tabelle. Indifferenztabelle
Die mit dem Signifikanztest überprüfte Frage lautet: Sind diese Unterschiede eventuell durch zufällige Schwankungen bei der Stichprobenziehung zu erklären? Sind diese Unterschiede zufällig zustande gekommen, dann gibt es eine gemeinsame Grundgesamtheit, aus der alle drei Teilstichproben gezogen worden sind. Die erwarteten Unterverteilungen entsprechen dann der Verteilung der Wahlabsicht in der Grundgesamtheit. Die Verteilung der abhängigen Variablen in der
Kapitel 27 Der Chi2-Test
365
Grundgesamtheit ist aber nicht bekannt und muss erst durch die Stichprobe geschätzt werden. Analog zur Schätzung von gepoolten Varianzen der Grundgesamtheit wird bei Kontingenztabellen die "gepoolte" Verteilung der drei Teilstichproben durch die Verteilung geschätzt, die sich ergibt, wenn man die Teilstichproben zu einer einzigen zusammenfasst. Die so geschätzte Verteilung in der Grundgesamtheit entspricht somit der Randverteilung der Variablen. Wenn die Abweichungen in den verschiedenen Religionsgruppen nur zufällig zustande gekommen sind, dann stammen sie alle aus derselben Grundgesamtheit, deren Verteilung am besten durch die Randverteilung geschätzt wird. Die erwartete Verteilung in den Untergruppen ist dann mit dieser identisch, und es ergibt sich auf diese Weise die so genannte Indifferenztabelle (vgl. Abschnitt 14.2.3) in Tabelle 27.2. Tabelle 27.2: Indifferenztabelle bezüglich Religion und Wahlabsicht Religion Wahlabsicht
Zeilensumme Evangelisch Katholisch Konfessionslos
CDU/CSU
182,1 29,8 %
115,7 29,8 %
170,2 29,8 %
468 29,8 %
SPD
273,2 44,7 %
173,5 44,7 %
255,3 44,7 %
702 44,7 %
FDP
33,9 5,5 %
21,5 5,5 %
31,6 5,5 %
87 5,5 %
Die Grünen
49,4 8,1 %
31,4 8,1 %
46,2 8,1 %
127 8,1 %
PDS
72,4 11,8 %
46,0 11,8 %
67,6 11,8 %
186 11,8 %
Spaltensumme
611 100,0 %
388 100,0 %
571 100,0 %
1570 100,0 %
Je stärker die Eintragungen in den Zellen der Indifferenztabelle von denen der Chi²-Koeffizient Originaltabelle abweichen, desto unwahrscheinlicher ist es, dass die Unterschiede der bedingten Verteilungen durch Zufall zustande gekommen sind. Als Teststatistik sollten wir daher ein Maß verwenden, das genau diese Abweichungen erfasst. Ein solches Maß haben wir in der Form des Chi2-Koeffizienten (vgl. Definition 14.2) schon kennen gelernt.
366
Kapitel 27 Der Chi2-Test
Definition 27.1: Der Chi2-Koeffizient als Teststatistik k
Chi2 Koeffizient
m
¦¦
h
ij
eij
2
eij
i 1 j 1
mit k
Anzahl der Zeilen
m
Anzahl der Spalten
eij
h.j n
h.j hi.
hi.
n
n
h.j n
hi. n
n fj fi
Für unser Beispiel wird der Chi2-Koeffizient also folgendermaßen berechnet: Chi2-Koeffizient = (179-182,1)2 / 182,1 + (178-115,7)2 / 115,7 + (111-170,2)2 / 170,2 + (294-273,2)2 / 273,2 + (151-173,5)2 / 173,5 + (257-255,3)2 / 255,3 + (42-33,9)2 / 33,9 + (24-21,5)2 / 21,5 + (21-31,6)2 / 31,6 + (51-49,4)2 / 49,4 + (30-31,4)2 / 31,4 + (46-46,2)2 / 46,2 + (45-72,4)2 / 72,4 + (5-46,0)2 / 46,0 + (136-67,6)2 / 67,6 Als Summe erhalten wir 180,64. Jetzt benötigen wir nur noch die Wahrscheinlichkeitsverteilung der Teststatistik. Tatsächlich hat der Chi2-Koeffizient seinen Namen natürlich nicht aus Zufall. Der berechnete Koeffizient ist nämlich Chi2verteilt. Die Anzahl der Freiheitsgrade der kritischen Chi2-Verteilung ist die Anzahl der Zellen der (substantiellen) Tabelle, minus den Zellen, die am rechten und am unteren Rand liegen. Eine Tabelle mit k Zeilen und m Spalten hat demnach (k - 1)*(m - 1) Freiheitsgrade.
k
m
¦¦ i 1 j 1
h
ij
eij eij
2
a F2df
(k 1) (m 1)
(27.1)
Der errechnete Chi2-Koeffizient in unserem Beispiel ist also Chi2-verteilt mit 4*2, also 8 Freiheitsgraden. Das diesbezügliche 99 %-Quantil beträgt 20,09. Das Ergebnis ist demnach auf jeden Fall hochsignifikant. Achtung!!!: Die Summe der standardisierten quadrierten Abweichungen, der Chi2Koeffizient, wird über alle m*k Zellen einer Kontingenztabelle berechnet. Die so berechnete Variable ist aber, wenn die Abweichungen zufällig zustande gekommen sind, Chi2-verteilt mit (m - 1)*(k - 1) Freiheitsgraden.
Kapitel 28 Die bivariate lineare Regressionsanalyse
367
28 Die bivariate lineare Regressionsanalyse Bei der Varianzanalyse haben wir untersucht, ob sich Gruppenmittelwerte voneinander signifikant unterscheiden. Die unabhängige Variable war in dem Fall die Gruppierungsvariable. Zur Durchführung einer Varianzanalyse genügte es daher, dass die abhängige Variable intervallskaliert ist, die unabhängige Variable konnte auch Nominalskalenniveau haben. Wenn nun auch die unabhängige Variable intervallskaliert ist, können wir im Prinzip auch in diesem Fall eine Varianzanalyse durchführen, denn wir können immer ein höheres Skalenniveau wie ein niedrigeres behandeln. Aber dann würden wir wertvolle Informationen verschenken. Der entscheidende Vorteil von intervallskalierten Variablen besteht darin, dass für sie arithmetische Operationen zulässig sind, dass wir also mit ihnen mathematische Berechnungen durchführen können. Wenn sowohl die abhängige als auch die unabhängige Variable intervallskaliert sind, dann können wir die abhängige Variable als algebraische Funktion der unabhängigen Variablen darstellen. Genau diese Möglichkeit nutzen wir bei der Regressionsanalyse. Während die Varianzanalyse lediglich darüber Aufschluss zu geben vermag, ob ein bestimmtes Treatment einen Einfluss auf die abhängige Variable ausübt, können wir mit der Regressionsanalyse darüber hinaus die Form des Zusammenhangs im Sinne einer algebraischen Gleichung ermitteln. Ich kann also eine Aussage darüber treffen, wie stark sich die abhängige Variable verändert, wenn sich die unabhängige Variable auf der Intervallskala um eine Skaleneinheit verändert. Um ein Beispiel zu geben: Nehmen wir an, es gäbe einen linearen Zusammenhang zwischen dem Lebensalter einer Person (unabhängige Variable) und ihrem verfügbaren monatlichen Einkommen (abhängige Variable). Dann vermag ich mit Hilfe der Regressionsanalyse auszusagen, um wieviel das monatliche verfügbare Einkommen steigt, wenn die Person ein Jahr älter wird. Der beste bedingte Schätzwert für die Ausprägung der abhängigen Variable bei Schätzung einer Funktion einem bestimmten Wert der unabhängigen Variablen ist der Mittelwert der Verteilung der abhängigen Variable in dieser Untergruppe. Dies entspricht soweit auch der uns aus der Varianzanalyse bekannten Vorgehensweise. Das theoretische Modell der Regressionsanalyse geht nun insoweit darüber hinaus, als es annimmt, dass die Schätzwerte alle auf einer bestimmten Funktionskurve angeordnet werden können, dass sich also eine Ausprägung der abhängigen Variablen immer als eine Funktion der entsprechenden Ausprägung der unabhängigen Variablen darstellen lässt. Nehmen wir an, wir wollten den Zusammenhang zwischen politischem Interesse und dem Grad politischer Partizipation untersuchen. Unsere Hypothese lautet in diesem Fall: "Je höher das politische Interesse, desto höher der Partizipationsgrad." Politisches Interesse ist also die unabhängige Variable, der Partizipationsgrad die abhängige. In unserem Fall sei das politische Interesse auf einer Skala mit fünf Ausprägungen erhoben worden, während der Partizipationsgrad aufgrund
Beispiel: Zusammenhang zwischen politischem Interesse und politischer Partizipation
368
Kapitel 28 Die bivariate lineare Regressionsanalyse
einer Selbsteinstufung auf einem Thermometer mit einer Skala von 0 bis 100 erhoben worden ist.9 Es handele sich bei unserer Beispielstichprobe um eine relativ kleine Stichprobe vom Umfang 50, wobei jeweils 10 Personen für jeden Grad des politischen Interesses in der Stichprobe enthalten sind. In Tabelle 28.1 sind die entsprechenden Wertekombinationen aufgeführt. Tabelle 28.1: Ausprägungen für politisches Interesse und Partizipation Politisches Interesse
Politische Partizipation
Politische Partizipation Mittelwert
1
5; 4; 21; 24; 18; 7; 11; 34; 10; 11
14,5
2
32; 33; 16; 39; 29; 20; 24; 34; 33; 8
26,8
3
49; 31; 39; 34; 24; 42; 31; 28; 19; 41
33,8
4
42; 38; 38; 29; 41; 29; 31; 48; 51; 40
38,7
5
58; 68; 56; 61; 44; 47; 47; 53; 57; 45
53,6
Es gibt also z.B. 10 Personen mit der Ausprägung "1" bei "Politischem Interesse", deren Ausprägungen bei "Politischer Partizipation" "5", "4", "21" etc. sind. Ein intuitives Gefühl dafür, ob zwischen den Variablen ein Zusammenhang besteht, erhält man bereits durch eine geeignete grafische Darstellung. In Abbildung 28.1 sind daher die Wertepaare als Streudiagramm wiedergegeben.
9
Dem aufmerksamen Leser mag sich hier eine durchaus berechtigte Frage stellen: Die Regressionsanalyse setzt voraus, dass beide Variablen intervallskaliert sind, sowohl eine fünfstufige Skala der Intensität politischen Interesses als auch ein Thermometer der politischen Partizipation von 0 bis 100 sind aber streng genommen nur ordinalskaliert, da man nicht automatisch davon ausgehen kann, dass die Abstände zwischen den einzelnen Ausprägungen immer gleich groß sind. Dies ist ein verbreitetes Problem in der Sozialforschung: Es gibt nur sehr wenige Variablen, die tatsächlich intervallskaliert sind. Bei dieser Art von Skalen geht man aber aus pragmatischen Gründen üblicherweise davon aus, dass die Variablen behandelt werden dürfen, als ob sie intervallskaliert wären, man spricht hier auch von "quasiintervallskalierten" Variablen. Für die meisten praktischen Zwecke ist die Annahme, dass die Abstände zwischen den einzelnen Ausprägungen einer Skala ungefähr gleich groß seien, durchaus akzeptabel, die Annahme wird darüber hinaus unproblematischer mit der Anzahl der möglichen Ausprägungen.
Kapitel 28 Die bivariate lineare Regressionsanalyse
369
Abbildung 28.1: Streudiagramm 80 70 60 50 40 30 20 10 0 0
1
2
3
4
5
6
Offensichtlich besteht ein klar zu identifizierender Zusammenhang zwischen dem politischen Interesse und der Partizipation. Je höher das politische Interesse, desto höher auch der Grad der politischen Partizipation. Allerdings ist die abhängige Variable nicht eindeutig determiniert durch die unabhängige Variable, d.h. innerhalb einer Gruppe mit einer bestimmten Ausprägung des politischen Interesses streut der Grad der politischen Partizipation. In unserem Beispiel muss dies sogar zwangsläufig der Fall sein, da es mehr Ausprägungen der abhängigen als der unabhängigen Variable gibt. Nur wenn die Anzahl der Ausprägungen für die unabhängige und die abhängige Variable gleich ist, ist es im Prinzip möglich, einen eindeutigen Zusammenhang zwischen unabhängiger und abhängiger Variable zu erhalten, bei dem die abhängige Variable durch die unabhängige vollständig determiniert ist. Wir können uns die Streuung der abhängigen Variable innerhalb einer Gruppe bei Schätzung der abhängigen Variable mit Hilfe einer bestimmten Ausprägung der unabhängigen Variablen so erklären, dass dafür der unabhängigen weitere Einflussfaktoren verantwortlich sind, die wir bisher nicht berücksichtigt haben. Von dem Grenzwerttheorem von Laplace wissen wir, dass viele unabhängig voneinander wirkende Faktoren wie eine normalverteilte Zufallsvariable wirken. Aufgrund der unabhängigen Variable besitzen wir also einen besten Schätzwert für die abhängige Variable, um den herum die tatsächlichen Werte der abhängigen Variable annähernd normalverteilt streuen. Dieser "beste Schätzwert" der abhängigen Variable aufgrund der unabhängigen Variable soll nun durch eine algebraische Funktion ausgedrückt werden können. Wir schreiben für den ˆ , es gilt also der Zusammenhang: Schätzwert von Y im Folgenden Y Definition 28.1: Schätzwert von Y Yˆ
f(X)
bzw. yˆ i
f(xi )
370
Kapitel 28 Die bivariate lineare Regressionsanalyse
Schätzfehler und Residuen
Die tatsächlichen Werte der abhängigen Variable weichen allerdings von dem geschätzten Wert ab. Die Streuung um den geschätzten Wert herum kann als durch unbekannte Variablen verursacht betrachtet werden und als annähernd zufallsverteilt angenommen werden. Wir können diese Streuung daher wie einen Fehler behandeln. Die Abweichung des tatsächlichen Werts vom geschätzten Wert wird daher als Fehler e (für "error") der Schätzung bezeichnet, oder auch als Residuum oder Residualgröße, da sie den Einfluss der restlichen, nicht in das Modell aufgenommenen Faktoren beinhaltet. Demnach ergibt sich: Definition 28.2: Schätzwert von Y mit Residuum Y
Bestimmung der Schätzfunktion
f(X) E
bzw. y i
f(x i ) ei
Nun stellt sich aber die Frage: Welche Schätzfunktion sollen wir in die Gleichung einsetzen? Wir wissen, dass die Mittelwerte in den Untergruppen der beste Schätzwert für diese Gruppen sind. Somit wäre die bestmögliche Schätzfunktion diejenige, die für jede Untergruppe bezüglich der unabhängigen Variable als Schätzwert den Mittelwert der Untergruppe angibt. In unserem Beispiel gilt daher, dass jede Funktion, die durch die fünf Gruppenmittelwerte der einzelnen Ausprägungen des politischen Interesses geht, eine bestmögliche Schätzfunktion darstellt. Für jeden Wert der unabhängigen Variablen existiert damit ein Schätzwert der abhängigen Variablen. Wir können die Werte der Untergruppe wie eine Stichprobe aus einer "Subgrundgesamtheit" betrachten, die alle Werte mit dieser Ausprägung der unabhängigen Variablen enthält. Die 10 Fälle in unserem Beispiel, die bei politischem Interesse etwa die Ausprägung "3" aufweisen, wären somit eine Stichprobe aus der "Subgrundgesamtheit" aller Fälle mit einer Ausprägung des politischen Interesses vom Wert "3". Es ist dann anzunehmen, dass der Mittelwert der Untergruppe in unserer Stichprobe nicht genau mit dem Mittelwert der entsprechenden gedachten "Subpopulation" übereinstimmt, sondern dass er vielmehr in einem bestimmten Bereich um ihn herum streut. Das bedeutet, dass wir zwar faktisch die bestmögliche Schätzfunktion so konstruieren können, dass sie durch alle Mittelwerte der Untergruppen geht, dass man aber auch von einer theoretischen Schätzfunktion ausgehen kann, die im Einzelfall den Mittelwert der Untergruppe der Stichprobe nicht genau trifft. Die Bedingung für die theoretische Schätzfunktion ist also wesentlich weicher als die für eine bestmögliche Schätzfunktion. Für eine theoretische Schätzfunktion genügt es, wenn die Schätzwerte von den Mittelwerten der Untergruppen nicht stärker abweichen, als man es unter der Annahme einer zufälligen Streuung der Einzelwerte erwarten würde. Für die theoretische Schätzfunktion ist es wichtiger, theoretisch sinnvoll und leicht interpretierbar zu sein, als den höchstmöglichen Grad an Schätzgenauigkeit zu erzielen. Bei der Suche nach theoretischen Schätzfunktionen richten wir daher unser Augenmerk zuerst auf Funktionen, die möglichst einfach sind. Die einfachste Funktion mit einer unabhängigen Variable ist die lineare Funktion y = b0 + b1x. Und tatsächlich wird in der Sozial-
Kapitel 28 Die bivariate lineare Regressionsanalyse
371
forschung häufig davon ausgegangen, dass zwischen den Variablen ein linearer Zusammenhang besteht, dass also eine lineare Funktion als Schätzfunktion verwendet werden kann. Wir gehen also in mehreren Schritten vor. Zuerst wählen wir aus theoretischen 1. Schritt: Bestimmung des Funktionstyps Gründen einen möglichst einfachen Funktionstyp, der unseren theoretischen Erfordernissen genügt. In einem zweiten Schritt wählen wir aus dieser Klasse des Funktionstyps diejenige konkrete Funktion aus, die innerhalb dieser Klasse die bestmögliche Schätzfunktion darstellt. D.h. haben wir uns z.B. einmal dazu entschieden, die abhängige Variable mit einer linearen Funktion zu schätzen, dann suchen wir jetzt die konkrete Gerade, die von allen linearen Funktionen die bestmögliche Schätzfunktion darstellt. Im dritten Schritt untersuchen wir, ob die angenommene theoretische Schätzfunktion zu Schätzungen führt, die mit den tatsächlich gemachten Beobachtungen vereinbar sind. Wir untersuchen auf der dritten Stufe also, ob die Abweichungen der Einzelwerte der abhängigen Variablen von den geschätzten Werten grundsätzlich unvermeidbar sind, da wir ja sogar bei der bestmöglichen Schätzfunktion nicht alle Werte genau voraussagen könnten, oder ob sie auf einer falschen Modellierung der theoretischen Schätzfunktion beruhen. Wenn wir uns einmal für eine lineare Funktion als theoretische Schätzfunktion 2. Schritt: Ermittlung der Koeffizienten entschieden haben, besteht das Problem darin, die Koeffizienten zu ermitteln, d.h. die konkrete lineare Schätzfunktion zu berechnen. Dazu gehen wir davon aus, dass die gesuchte Funktion die bestmögliche Schätzfunktion dieses Funktionstyps darstellt. Daraus folgt, dass durch sie der Fehler der Schätzung minimiert wird. Der Schätzfehler wird dabei wieder – wie schon beim einfachen Mittelwert – als die Summe der quadratischen Abweichungen modelliert, also als die durch die Residuen gebildete Varianz. Umgekehrt gilt, dass wir, wenn wir eine Funktion gefunden haben, die die Summe der Fehlerquadrate minimiert, auch die bestmögliche Schätzfunktion erhalten haben. Wir definieren hierzu zuerst den Schätzfehler: Definition 28.3: Fehler einer Regressionsanalyse F
n
¦e i 1
2 i
n
¦ yˆ
i
i 1
yi
2
Für unser Beispiel, in dem die Schätzfunktion eine lineare Funktion ist, erhalten wir als Fehler:
F
n
¦ yˆ i 1
i
yi
2
n
¦ b i 1
o
b1xi yi
2
Die Koeffizienten sollen so gewählt werden, dass der Fehler minimiert wird, es handelt sich hier also um ein Optimierungsproblem. Da die x- und y-Werte fix
372
Kapitel 28 Die bivariate lineare Regressionsanalyse
sind, ist der Fehler eine Funktion der Koeffizienten; diese stellen die eigentlichen Argumentvariablen dar. n
¦ b
F F(bo ,b1 )
b1xi yi
o
i 1
2
Die Koeffizienten einer Regressionsgerade, die den Schätzfehler minimieren, können folgendermaßen berechnet werden. Definition 28.4: Koeffizienten einer bivariaten linearen Regressionsfunktion b1 b0
Cov(X, Y) Var(X) y - b1x
Experte: Berechnung der Koeffizienten einer linearen Regressionsgeraden Um das Minimum der Fehlerfunktion in Abhängigkeit von den Koeffizientenwerten zu ermitteln, müssen wir partielle erste Ableitungen bilden und diese gleich Null setzen. n
dF db0
¦ 2 b
dF db1
¦ 2 b
o
b1x i y i
o
b1x i y i x i
i 1
n
i 1
0
0
Wir erhalten also zwei Gleichungen mit den zwei Unbekannten b0 und b1 und können diese auf die übliche Weise auflösen. I
n
¦ 2 b
o
i 1
b1xi yi
nbo nb1x ny bo b1x y bo II
0
0
0
y b1x
n
¦ 2 b i 1
o
b1xi yi xi
n
n
n
i 1
i 1
i 1
0
bo ¦ x i b1 ¦ x i2 ¦ y i x i n
n
i 1
i 1
bonx b1 ¦ x i2 ¦ y i x i
0 0
Kapitel 28 Die bivariate lineare Regressionsanalyse
373
I in II n
n
i 1
i 1
(y - b1x)nx b1 ¦ x i2 ¦ y i x i
0
§ n · n b1 ¨ ¦ xi2 nx 2 ¸ ¦ y i x i nyx ©i1 ¹ i1 n
n
b1 ¦ xi2 - x 2 ¦ y i x i yx i 1 n
0
i 1
n
2
0
b1 ¦ xi - x ¦ (yi y)(xi x) i 1
n
b1
(Verschieberegel)
0
i 1
¦ (y
i
y)(xi x)
i 1
n
¦x i 1
i
- x
2
Cov(X,Y) Var(X)
b1
Ende Experte
Wir berechnen kurz die benötigten statistischen Kennwerte für unser Beispiel. Tabelle 28.2 Mittelwert Politische Partizipation Mittelwert Politisches Interesse Kovarianz zwischen Pol. Part. und Pol. Int. Varianz von Politischem Interesse
33,48 3,00 18,02 2,00
Wir erhalten dann:
b1 b0
18,02 9,01 2,00 33,48 - 9,01* 3 6,45
Die Schätzfunktion lautet also: Geschätzter Wert der Politischen Partizipation = 6,45+9,01*Wert Politisches Interesse
Die gefundene Regressionsgerade hat also einen y-Achsenabschnitt von 6,45 und eine Steigung von 9,01. Pro Zunahme auf der Skala des Politischen Interesses um eine Einheit steigt also im Schnitt die Selbsteinstufung auf dem Thermometer der Politischen Partizipation um 9,01 Punkte. Die Regressionsgerade kann nun auch in das Streudiagramm eingezeichnet werden.
374
Kapitel 28 Die bivariate lineare Regressionsanalyse
Abbildung 28.2: Regressionsgerade und Streudiagramm 80 70 y = 6,45+9,01x
60 50 40 30 20 10 0 0
Grenzen der Interpretation der Regressionsgerade
1
2
3
4
5
6
Die gefundene Gerade ist die bestmögliche Schätzfunktion dieses Typs, da sie die Varianz der Residuen um die Gerade herum minimiert. Eine solche Restvarianz wird immer bleiben, wenn nicht die unabhängige Variable allein den Wert der abhängigen Variablen vollständig determiniert. Von allen Geraden, die die Punktewolke repräsentieren könnten, ist die aufgrund der Methode der kleinsten Quadrate ermittelte die beste. Damit ist aber noch nicht gesagt, dass der Zusammenhang zwischen unabhängiger und abhängiger Variable tatsächlich dem einer linearen Funktion entspricht. Um nun zumindest ansatzweise zu überprüfen, ob die Gerade die tatsächliche Form des Zusammenhangs gut darzustellen vermag, vergleichen wir die Mittelwerte in den Untergruppen mit den durch die Gerade geschätzten Werten. Selbst wenn wir davon ausgehen, dass die gefundene lineare Funktion die des tatsächlich bestehenden Zusammenhangs ist, können wir aber natürlich nicht erwarten, dass die Mittelwerte der Untergruppen alle genau auf der Regressionsgeraden liegen werden. Vielmehr werden sie um den geschätzten Wert, der unter unserer Annahme auch der theoretisch richtige ist, herum streuen. Die Werte sind in Tabelle 28.3 aufgeführt. Tabelle 28.3: Vergleich der Werte der Regressionsgerade mit den Gruppenmittelwerten Politisches Interesse
Mittelwert für Politische Partizipation
Schätzwert für Politische Partizipation
Differenz
1
14,50
15,46
0,96
2
26,80
24,47
2,33
3
33,80
33,48
0,32
4
38,70
42,49
3,79
5
53,60
51,50
2,10
Kapitel 28 Die bivariate lineare Regressionsanalyse
375
Die größte Abweichung zwischen geschätztem Wert und Gruppenmittelwert tritt Konfidenzintervall der Gruppenmittelwerte in der Gruppe mit einer Ausprägung des politischen Interesses von "4" auf und beträgt dort 3,79. Wir können nun diese Situation ganz analog zur Streuung eines Stichprobenmittelwertes um den Mittelwert der Grundgesamtheit behandeln. Der "Mittelwert der Grundgesamtheit" für eine bestimmte Untergruppe ist der aufgrund der Regression ermittelte Schätzwert für diese Ausprägung der unabhängigen Variablen. Allgemein gilt: Die "theoretischen" Werte der abhängigen Variable in der Grundgesamtheit sind die Werte auf der Regressiongeraden. Die Varianz der Werte in dieser "Grundgesamtheit" kann dann durch die Varianz der Residuen geschätzt werden. Diese beträgt in unserem Beispiel 75,724. Die Varianz, mit der die Stichprobenmittelwerte von Stichproben des Umfangs 10 um den Mittelwert der Grundgesamtheit streuen, beträgt dann 7,57, die Standardabweichung die Wurzel daraus, also 2,75. Also, auch wenn die gefunden Regressionsgerade den tatsächlichen Zusammenhang zwischen unabhängiger und abhängiger Variable perfekt darstellen würde, müssten wir damit rechnen, dass die Gruppenmittelwerte einer Gruppe mit 10 Elementen um den für diese Gruppe geschätzten Wert mit einer Standardabweichung von 2,75 streuen würden. Erst wenn wir einen Gruppenmittelwert finden würden, der mehr als das Doppelte dieses Wertes (95 %Konfidenzintervall) auf der Regressionsgeraden abweichen würde, würden wir die Behauptung, bei der gefundenen Regressiongeraden handelte es sich um die tatsächliche, zurückweisen. Da dies in unserem Beispiel nicht der Fall ist, können wir weiter davon ausgehen, dass die gefundene Regressionsgerade den tatsächlichen Zusammenhang ganz gut widerspiegelt. Es gibt daher auch keinen handfesten Grund, zu bezweifeln, dass es sich bei dem gesuchten Zusammenhang tatsächlich um eine lineare Funktion handelt. Wir halten daher die Approximation des Zusammenhangs durch eine Gerade in diesem Fall für befriedigend. Wir möchten noch einmal betonen, dass die Ermittlung der besten Schätzfunktion mit der Methode der kleinsten Quadrate (OLS = Ordinary least squares) nur dann zu der richtigen theoretischen Funktion führen kann, wenn bezüglich des Fehlers gewisse Annahmen gemacht werden. Nur wenn diese Annahmen gerechtfertigt erscheinen, dürfen wir die OLS-Methode überhaupt einsetzen. Diese Annahmen sind folgende: Kasten 28.1: Annahmen bezüglich des Fehlers bei einer linearen Regressionsanalyse
1. Der Fehler ist normalverteilt. Dies ist eine Folge des Fehlerkonzepts selbst, da der Fehler als ein Konglomerat vieler unabhängiger Wirkungsfaktoren betrachtet wird, die im Sinne von Laplace wie eine Zufallskomponente wirken. Dazu können noch Messfehler kommen, die per Annahme ebenfalls normalverteilt sind.
Voraussetzungen für die Anwendung der Methode der kleinsten Quadrate bei der Regressionsberechnung
376
Kapitel 28 Die bivariate lineare Regressionsanalyse
2. Der Erwartungswert des Fehlers ist gleich 0. Die Fehler gleichen sich insgesamt aus, sie nehmen einmal positive und einmal negative Werte an. Diese Bedingung gilt für die Gesamtheit der Residuen, aber auch – noch wichtiger – für die Residuen bezüglich eines bestimmten Wertes der unabhängigen Variablen. Ähnlich wie der Mittelwert stellt der Schätzwert eines Regressionsmodells eine Art von Schwerpunkt dar, um den herum sich die Datenwerte der abhängigen Variablen, die sich auf dieselbe Ausprägung der unabhängigen beziehen, ausbalancieren müssen. Die Geltung dieser Bedingung kann aus der Annahme der richtigen Modellierung abgeleitet werden. Wenn das theoretische Modell der Schätzgleichung zutrifft, dann ist der Schätzwert gleich dem Erwartungswert der abhängigen Variablen. Damit gilt aber dann zugleich, dass der Erwartungswert des Fehlers gleich 0 ist. 3. Der Fehler korreliert nicht mit der unabhängigen Variablen. Wenn der Fehler mit der unabhängigen Variable korreliert, dann wird die Schätzung den Fehler wie eine inhaltlich bedeutende Streuung behandeln und somit ein falsches Schätzergebnis liefern. Nehmen wir an, der Fehler, d.h. die Abweichung des tatsächlichen Y-Wertes vom theoretisch richtigen, korreliert positiv mit der unabhängigen Variable X. Dann wird die Steigung der Geraden, die den Einfluss von X auf Y angibt, höher ausfallen, als es dem tatsächlichen Zusammenhang angemessen ist. Wir dürfen diese Bedingung nicht so interpretieren, wie es fälschlicherweise oft gemacht wird, dass diese Korrelation nicht mehr nach der Schätzung mit der OLSMethode auftreten darf. Denn dies wird niemals der Fall sein. Sondern diese Bedingung muss erfüllt sein, bevor wir überhaupt die OLS-Methode einsetzen dürfen. Da diese Bedingung aber in der Regel nicht überprüfbar ist, muss sie zumindest in der Form einer Plausibilitätsannahme gerechtfertigt sein.
4. Es gibt keine Autokorrelation des Fehlers. Der Schätzfehler bezüglich verschiedener Werte der unabhängigen Variablen darf nicht miteinander korrelieren. Dieses Problem tritt häufig bei Zeitreihen auf. Wenn aus bestimmten Gründen z.B. zu einem bestimmten Zeitpunkt der wahre Wert der abhängigen Variablen überschätzt wird, dann gilt dies häufig auch für den nächsten Zeitpunkt.
5. Die Größe des Fehlers ist unabhängig von der Ausprägung der unabhängigen Variablen. Diese Annahme wird auch Homoskedastizität des Fehlers genannt. Sie bedeutet, dass der Erwartungswert der Varianz der Residuen an jeder Stelle der Funktion gleich groß sein muss. Wie bei der dritten Annahme explizit gemacht, muss generell die Geltung der Annahmen vor der Durchführung einer OLS-Schätzung vorausgesetzt werden. Gibt
Kapitel 28 Die bivariate lineare Regressionsanalyse
377
es dann gute Gründe, z.B. daran zu zweifeln, dass die Annahme der Homoskedastizität des Fehlers gegeben ist, dann muss der Schluss gezogen werden, dass die Ergebnisse der OLS-Schätzung nicht unbedingt den wahren Zusammenhang wiedergeben. Für die vorhandene Punktwolke ist die ermittelte Gerade diejenige, die diese am Standardfehler der Parameter besten repräsentiert. Aber natürlich ist sie nur eine Schätzung der "echten" Geraden. Auch hier können wir den Standardfehler der Parameterschätzungen schätzen, wobei die Parameter die Koeffizienten der Regressionsgleichung sind. Da die Konstante b0 aus dem Wert von b1 folgt, genügt es, den Standardfehler des Steigungskoeffizienten zu ermitteln. Dieser wird nach folgender Formel berechnet: Definition 28.5: Standardfehler des Steigungskoeffizienten einer bivariaten Regression n
n
2 i
¦e
¦ (y
i 1
sb1
n
n2
¦ (x
2
i
i
ˆ 2 y)
i 1
x)
i 1
n
n2
¦ (x
i
x)2
i 1
In unserem Beispiel errechnet sich der Standardfehler des Steigungskoeffizienten Konfidenzintervall des Standardfehlers als 0,879. Analog zu Konfidenzintervallen von Mittelwerten können wir jetzt ein Konfidenzintervall des Steigungskoeffizienten angeben. Da der Standardfehler des Koeffizienten aus der Stichprobe geschätzt wird, ist der Parameter nicht standardnormalverteilt sondern t-verteilt mit n-2 Freiheitsgraden. Das 97,5 %-Quantil der T-Verteilung für 48 Freiheitsgrade ist in unserer Tabelle nicht aufgeführt. Wir greifen daher auf das nächstliegende größere Quantil in der Tabelle für 40 Freiheitsgrade zurück, das 2,021 beträgt. Das 95 %-Konfidenzintervall des Steigungskoeffizienten erstreckt sich also von 9,01 – 2,021 * 0,879 bis 9,01 + 2,021 * 0,879 bzw. von 7,23 bis 10,79. Schließlich interessiert es uns, wie wir Maße konstruieren können, die uns etwas PRE-Maß der Güte der Schätzung über die Güte der Schätzung durch unser Regressionsmodell aussagen. Es liegt auch hier wieder nahe, die Güte dadurch zu definieren, inwieweit der ursprüngliche Schätzfehler mit Hilfe der Regressionsanalyse vermindert werden konnte. Wir konstruieren also wieder ein PRE-Maß entsprechend der Logik aus Abschnitt 14.4.2.
PRE
E0 E1 E0
'E E0
Der anfängliche Schätzfehler E0 bezüglich der abhängigen Variablen Y ist die Varianz von Y. Der nach der Regression verbleibende Schätzfehler ist die Varianz ˆ . Das entsprechende PRE-Maß wird R2 genannt. der Residualgröße Y- Y
378
Kapitel 28 Die bivariate lineare Regressionsanalyse
R2 Varianzzerlegung
ˆ Var(Y) Var(Y Y) Var(Y)
1
ˆ Var(Y Y) Var(Y)
Wir können die Formel noch etwas umformulieren. Dazu zerlegen wir genauso wie bei der Varianzanalyse in Definition 16.3 die ursprüngliche Varianz der abhängigen Variable in einen durch die Regressionsgerade aufgeklärten Teil und in die verbleibende Restvarianz. n
¦ (y
Var(Y)
i
y)2
i 1
n
¦ (y i 1
n
i
yˆ i )2 ¦ (yˆ i y)2
ˆ Var(Yˆ Y) Var(Y Y)
i 1
Abbildung 28.3. zeigt den Zusammenhang grafisch. Wir können jeden einzelnen Abstand y i y in zwei Komponenten y i yˆ i und yˆ i y zerlegen. Da sich die Produkte y i yˆ i * yˆ i y zu Null addieren, ist die Summe der quadrierten Originalabstände gleich der Summe aus den quadrierten Residuen sowie den quadrierten Abständen des Schätzwertes zum Gesamtmittelwert der abhängigen Variable, womit sich die obige Formel der Varianzzerlegung ergibt. Abbildung 28.3: Varianzzerlegung 80 70 60 50
y i yˆ i {
40
}
yˆ i y
30 20 10 0 0
Determinationskoeffizient R²
1
2
3
4
5
6
Wir können nun die Formel für R2 aufgrund der Varianzzerlegung noch anders darstellen und gelangen zu der üblichen Darstellung von R2, das auch als Determinationskoeffizient bezeichnet wird.
Kapitel 28 Die bivariate lineare Regressionsanalyse
379
Definition 28.6: Der Determinationskoeffizient R2 einer Regressionsanalyse n
R
Var(Yˆ - Y) Var(Y)
2
¦ (yˆ
i
y)2
¦ (y
i
y)2
i 1 n i 1
R2 gibt also den Anteil der Varianz von Y an, der durch die Kenntnis von X erklärt – oder besser 'aufgeklärt' (da es sich nicht immer um kausale Zusammenhänge handelt) – werden kann. In unserem Beispiel beträgt R2 0,686, d.h. 68,6 % der ursprünglichen Varianz der abhängigen Variable 'Politische Partizipation' können allein durch die Kenntnis des Grades des politischen Interesses erklärt werden. Im Falle einer bivariaten linearen Regressionsanalyse ist R2 darüber hinaus mit r2, also dem quadrierten Korrelationskoeffizienten, identisch. R2 ist ein PRE-Maß, d.h. es sagt uns etwas aus über die relative Reduktion des R² ist nur ein relatives Maß Fehlers durch die Regressionsanalyse. R2 gibt hingegen keine Auskunft über die 2 absolute Größe des verbleibenden Fehlers. R eignet sich daher nur sehr bedingt zum Vergleich der Erklärungskraft der unabhängigen Variablen in verschiedenen Modellen. Dies wird illustriert durch die beiden Abbildungen 28.4a und 28.4b. Die Regressionsanalyse in Abbildung 28.4a schätzt die Werte der abhängigen Variable genauer als die in Abbildung 28.4b, d.h. der Fehler der Schätzung, die mittleren Residuen, fällt geringer aus. Dennoch erklärt die unabhängige Variable in Abbildung 28.4b mehr Varianz, d.h. das R2 fällt hier deutlich größer aus. Das Problem kommt dadurch zustande, dass die Varianz der zu schätzenden abhängigen Variable in beiden Abbildungen verschieden ist, d.h. sie ist in der zweiten Abbildung wesentlich höher. Dadurch ist es möglich, dass eine im Prinzip schlechtere Schätzung, d.h. eine mit größeren verbleibenden Fehlern, dennoch eine größere relative und absolute Fehlerreduktion verursachen kann. Abbildung 28.4a 350 300 y = 0,40+2,12x R2 = 0,5432
250 200 150 100 50 0 -50
0
10
20
30
40
50
60
380
Kapitel 28 Die bivariate lineare Regressionsanalyse
Abbildung 28.4b 350
y = 8,38+5,75x R2 = 0,7193
300 250 200 150 100 50 0 -50 0
10
20
30
40
50
60
-100
Wichtige Korrekturgröße: Varianz der Residuen
Beim Vergleich verschiedener Regressionsmodelle sollte daher nicht nur auf das R2 geachtet werden, sondern es sollte unbedingt auch immer die Varianz der Residuen bei der Interpretation der Ergebnisse mit berücksichtigt werden. Die Standardabweichung der Residuen wird auch als Standardfehler der Schätzung von Y bezeichnet. Sie ist das angemessene Fehlermaß, um zu beurteilen, wie weit im Durchschnitt der aufgrund der Regressionsanalyse prognostizierte Wert vom tatsächlich beobachteten entfernt liegt. Definition 28.7: Der Standardfehler der Schätzung von Y in einer bivariaten Regressionsanalyse n
se
¦ (y
i
yˆ i )2
i 1
n2
Beachte: Allgemein beträgt die Anzahl der Freiheitsgrade bei der Berechnung der Residuenvarianz bei einer Regressionsanalyse n-k, wobei k die Anzahl der geschätzten Parameter, also der Koeffizienten, in unserem Regressionsmodell ist. Da bei einer bivariaten Regressionsanalyse zwei Koeffizienten geschätzt werden, ist demnach hier die Anzahl der Freiheitsgrade gleich n-2.
Anhang A: Ausgewählte Quantile theoretischer Verteilungen Anhang A1: Ausgewählte Quantile der Z-Verteilung z-Wert
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
-2,9
0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,8
0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,7
0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,6
0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,5
0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,4
0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,3
0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,2
0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,1
0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,0
0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-1,9
0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-1,8
0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,7
0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,6
0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,5
0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,4
0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,3
0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,2
0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,1
0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,0
0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-0,9
0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-0,8
0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,7
0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,6
0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,5
0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,4
0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,3
0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,2
0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,1
0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
-0,0
0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
382
Anhang A
Fortsetzung: Ausgewählte Quantile der Z-Verteilung z-Wert
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
-0,0
0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
0,0
0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1
0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2
0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3
0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4
0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5
0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6
0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7
0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8
0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9
0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0
0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1
0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2
0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3
0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4
0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5
0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6
0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7
0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8
0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9
0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0
0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1
0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2
0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3
0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4
0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5
0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6
0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7
0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8
0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9
0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
Anhang A
383
Anhang A2: Ausgewählte Quantile der F2-Verteilung df
0,5%
1,0%
2,5%
5,0%
10,0% 90,0% 95,0% 97,5% 99,0% 99,5%
1
0,000
0,000
0,001
0,004
0,016
2,706
3,841
5,024
6,635
7,879
2
0,010
0,020
0,051
0,103
0,211
4,605
5,991
7,378
9,210
10,597
3
0,072
0,115
0,216
0,352
0,584
6,251
7,815
9,348
11,345 12,838
4
0,207
0,297
0,484
0,711
1,064
7,779
9,488
11,143 13,277 14,860
5
0,412
0,554
0,831
1,145
1,610
9,236
11,070 12,833 15,086 16,750
6
0,676
0,872
1,237
1,635
2,204
10,645 12,592 14,449 16,812 18,548
7
0,989
1,239
1,690
2,167
2,833
12,017 14,067 16,013 18,475 20,278
8
1,344
1,646
2,180
2,733
3,490
13,362 15,507 17,535 20,090 21,955
9
1,735
2,088
2,700
3,325
4,168
14,684 16,919 19,023 21,666 23,589
10
2,156
2,558
3,247
3,940
4,865
15,987 18,307 20,483 23,209 25,188
11
2,603
3,053
3,816
4,575
5,578
17,275 19,675 21,920 24,725 26,757
12
3,074
3,571
4,404
5,226
6,304
18,549 21,026 23,337 26,217 28,300
13
3,565
4,107
5,009
5,892
7,042
19,812 22,362 24,736 27,688 29,819
14
4,075
4,660
5,629
6,571
7,790
21,064 23,685 26,119 29,141 31,319
15
4,601
5,229
6,262
7,261
8,547
22,307 24,996 27,488 30,578 32,801
16
5,142
5,812
6,908
7,962
9,312
23,542 26,296 28,845 32,000 34,267
17
5,697
6,408
7,564
8,672
10,085 24,769 27,587 30,191 33,409 35,718
18
6,265
7,015
8,231
9,390
10,865 25,989 28,869 31,526 34,805 37,156
19
6,844
7,633
8,907
10,117 11,651 27,204 30,144 32,852 36,191 38,582
20
7,434
8,260
9,591
10,851 12,443 28,412 31,410 34,170 37,566 39,997
21
8,034
8,897
10,283 11,591 13,240 29,615 32,671 35,479 38,932 41,401
22
8,643
9,542
10,982 12,338 14,041 30,813 33,924 36,781 40,289 42,796
23
9,260
10,196 11,689 13,091 14,848 32,007 35,172 38,076 41,638 44,181
24
9,886
10,856 12,401 13,848 15,659 33,196 36,415 39,364 42,980 45,559
25
10,520 11,524 13,120 14,611 16,473 34,382 37,652 40,646 44,314 46,928
26
11,160 12,198 13,844 15,379 17,292 35,563 38,885 41,923 45,642 48,290
27
11,808 12,879 14,573 16,151 18,114 36,741 40,113 43,195 46,963 49,645
28
12,461 13,565 15,308 16,928 18,939 37,916 41,337 44,461 48,278 50,993
29
13,121 14,256 16,047 17,708 19,768 39,087 42,557 45,722 49,588 52,336
30
13,787 14,953 16,791 18,493 20,599 40,256 43,773 46,979 50,892 53,672
384
Anhang A
Anhang A3: Ausgewählte Quantile der F-Verteilung df1=1
df1=2
df2
90,0%
95,0%
97,5%
99,0%
99,5%
df2
90,0%
95,0%
97,5%
99,0%
99,5%
1
39,863
161,448
647,789
4052,181
2
8,526
18,513
38,506
98,503
16210,723
1
49,500
199,500
799,500
4999,500
19999,500
198,501
2
9,000
19,000
39,000
99,000
3
5,538
10,128
17,443
199,000
34,116
55,552
3
5,462
9,552
16,044
30,817
4
4,545
7,709
49,799
12,218
21,198
31,333
4
4,325
6,944
10,649
18,000
5
4,060
26,284
6,608
10,007
16,258
22,785
5
3,780
5,786
8,434
13,274
18,314
6 7
3,776
5,987
8,813
13,745
18,635
6
3,463
5,143
7,260
10,925
14,544
3,589
5,591
8,073
12,246
16,236
7
3,257
4,737
6,542
9,547
12,404
8
3,458
5,318
7,571
11,259
14,688
8
3,113
4,459
6,059
8,649
11,042
9
3,360
5,117
7,209
10,561
13,614
9
3,006
4,256
5,715
8,022
10,107
10
3,285
4,965
6,937
10,044
12,826
10
2,924
4,103
5,456
7,559
9,427
12
3,177
4,747
6,554
9,330
11,754
12
2,807
3,885
5,096
6,927
8,510
15
3,073
4,543
6,200
8,683
10,798
15
2,695
3,682
4,765
6,359
7,701
30
2,881
4,171
5,568
7,562
9,180
30
2,489
3,316
4,182
5,390
6,355
60
2,791
4,001
5,286
7,077
8,495
60
2,393
3,150
3,925
4,977
5,795
120
2,748
3,920
5,152
6,851
8,179
120
2,347
3,072
3,805
4,787
5,539
2,706
3,841
5,024
6,635
7,879
2,303
2,996
3,689
4,605
5,298
df2
90,0%
95,0%
97,5%
99,0%
99,5%
df2
90,0%
95,0%
97,5%
99,0%
99,5%
1
53,593
215,707
864,163
5403,352
21614,876
1
55,833
224,583
899,583
5624,583
22499,666
2
9,162
19,164
39,165
99,166
199,166
2
9,243
19,247
39,248
99,249
199,250
3
5,391
9,277
15,439
29,457
47,467
3
5,343
9,117
15,101
28,710
46,195
4
4,191
6,591
9,979
16,694
24,259
4
4,107
6,388
9,605
15,977
23,155
5
3,619
5,409
7,764
12,060
16,530
5
3,520
5,192
7,388
11,392
15,556
6
3,289
4,757
6,599
9,780
12,917
6
3,181
4,534
6,227
9,148
12,028
7
3,074
4,347
5,890
8,451
10,882
7
2,961
4,120
5,523
7,847
10,050
8
2,924
4,066
5,416
7,591
9,596
8
2,806
3,838
5,053
7,006
8,805
9
2,813
3,863
5,078
6,992
8,717
9
2,693
3,633
4,718
6,422
7,956
10
2,728
3,708
4,826
6,552
8,081
10
2,605
3,478
4,468
5,994
7,343
12
2,606
3,490
4,474
5,953
7,226
12
2,480
3,259
4,121
5,412
6,521
15
2,490
3,287
4,153
5,417
6,476
15
2,361
3,056
3,804
4,893
5,803
30
2,276
2,922
3,589
4,510
5,239
30
2,142
2,690
3,250
4,018
4,623
60
2,177
2,758
3,343
4,126
4,729
60
2,041
2,525
3,008
3,649
4,140
120
2,130
2,680
3,227
3,949
4,497
120
1,992
2,447
2,894
3,480
3,921
2,084
2,605
3,116
3,782
4,279
1,945
2,372
2,786
3,319
3,715
df1=3
df1=4
385
Anhang A
Fortsetzung: Ausgewählte Quantile der F-Verteilung df1=5
df1=6
df2
90,0%
95,0%
97,5%
99,0%
99,5%
df2
90,0%
95,0%
97,5%
99,0%
99,5%
1
57,240
230,162
921,848
5763,650
23055,854
1
58,204
233,986
937,111
5858,986
23437,151
2
9,293
19,296
39,298
99,299
199,300
2
9,326
19,330
39,331
99,333
199,333
3
5,309
9,013
14,885
28,237
45,392
3
5,285
8,941
14,735
27,911
44,838
4
4,051
6,256
9,364
15,522
22,456
4
4,010
6,163
9,197
15,207
21,975
5
3,453
5,050
7,146
10,967
14,940
5
3,405
4,950
6,978
10,672
14,513
6
3,108
4,387
5,988
8,746
11,464
6
3,055
4,284
5,820
8,466
11,073
7
2,883
3,972
5,285
7,460
9,522
7
2,827
3,866
5,119
7,191
9,155
8
2,726
3,687
4,817
6,632
8,302
8
2,668
3,581
4,652
6,371
7,952
9
2,611
3,482
4,484
6,057
7,471
9
2,551
3,374
4,320
5,802
7,134
10
2,522
3,326
4,236
5,636
6,872
10
2,461
3,217
4,072
5,386
6,545
12
2,394
3,106
3,891
5,064
6,071
12
2,331
2,996
3,728
4,821
5,757
15
2,273
2,901
3,576
4,556
5,372
15
2,208
2,790
3,415
4,318
5,071
30
2,049
2,534
3,026
3,699
4,228
30
1,980
2,421
2,867
3,473
3,949
60
1,946
2,368
2,786
3,339
3,760
60
1,875
2,254
2,627
3,119
3,492
120
1,896
2,290
2,674
3,174
3,548
120
1,824
2,175
2,515
2,956
3,285
1,847
2,214
2,567
3,017
3,350
1,774
2,099
2,408
2,802
3,091
df1=7
df1=8
df2
90,0%
95,0%
97,5%
99,0%
99,5%
df2
90,0%
95,0%
97,5%
99,0%
99,5%
1
58,906
236,768
948,217
5928,356
23714,595
1
59,439
238,883
956,656
5981,070
23925,429
2
9,349
19,353
39,355
99,356
199,357
2
9,367
19,371
39,373
99,374
199,375
3
5,266
8,887
14,624
27,672
44,434
3
5,252
8,845
14,540
27,489
44,126
4
3,979
6,094
9,074
14,976
21,622
4
3,955
6,041
8,980
14,799
21,352
5
3,368
4,876
6,853
10,456
14,200
5
3,339
4,818
6,757
10,289
13,961
6
3,014
4,207
5,695
8,260
10,786
6
2,983
4,147
5,600
8,102
10,566
7
2,785
3,787
4,995
6,993
8,885
7
2,752
3,726
4,899
6,840
8,678
8
2,624
3,500
4,529
6,178
7,694
8
2,589
3,438
4,433
6,029
7,496
9
2,505
3,293
4,197
5,613
6,885
9
2,469
3,230
4,102
5,467
6,693
10
2,414
3,135
3,950
5,200
6,302
10
2,461
3,217
4,072
5,386
6,545
12
2,283
2,913
3,607
4,640
5,525
12
2,331
2,996
3,728
4,821
5,757
15
2,158
2,707
3,293
4,142
4,847
15
2,208
2,790
3,415
4,318
5,071
30
1,927
2,334
2,746
3,304
3,742
30
1,980
2,421
2,867
3,473
3,949
60
1,819
2,167
2,507
2,953
3,291
60
1,875
2,254
2,627
3,119
3,492
120
1,767
2,087
2,395
2,792
3,087
120
1,824
2,175
2,515
2,956
3,285
1,717
2,010
2,288
2,639
2,897
1,774
2,099
2,408
2,802
3,091
Anhang A
386
Fortsetzung: Ausgewählte Quantile der F-Verteilung df1=9
df1=10
df2
90,0%
95,0%
97,5%
99,0%
99,5%
df2
90,0%
95,0%
97,5%
99,0%
99,5%
1
59,858
240,543
963,285
6022,473
24091,022
1
60,195
241,882
968,627
6055,847
24224,501
2
9,381
19,385
39,387
99,388
199,388
2
9,392
19,396
39,398
99,399
199,400
3
5,240
8,812
14,473
27,345
43,882
3
5,230
8,786
14,419
27,229
43,686
4
3,936
5,999
8,905
14,659
21,139
4
3,920
5,964
8,844
14,546
20,967
5
3,316
4,772
6,681
10,158
13,772
5
3,297
4,735
6,619
10,051
13,618
6
2,958
4,099
5,523
7,976
10,391
6
2,937
4,060
5,461
7,874
10,250
7
2,725
3,677
4,823
6,719
8,514
7
2,703
3,637
4,761
6,620
8,380
8
2,561
3,388
4,357
5,911
7,339
8
2,538
3,347
4,295
5,814
7,211
9
2,440
3,179
4,026
5,351
6,541
9
2,416
3,137
3,964
5,257
6,417
10
2,347
3,020
3,779
4,942
5,968
10
2,323
2,978
3,717
4,849
5,847
12
2,214
2,796
3,436
4,388
5,202
12
2,188
2,753
3,374
4,296
5,085
15
2,086
2,588
3,123
3,895
4,536
15
2,059
2,544
3,060
3,805
4,424
30
1,849
2,211
2,575
3,067
3,450
30
1,819
2,165
2,511
2,979
3,344
60
1,738
2,040
2,334
2,718
3,008
60
1,707
1,993
2,270
2,632
2,904
120
1,684
1,959
2,222
2,559
2,808
120
1,652
1,910
2,157
2,472
2,705
1,632
1,880
2,114
2,407
2,621
1,599
1,831
2,048
2,321
2,519
df1=12
df1=15
df2
90,0%
95,0%
97,5%
99,0%
99,5%
df2
90,0%
95,0%
97,5%
99,0%
99,5%
1
60,705
243,906
976,708
6106,352
24426,375
1
61,220
245,950
984,867
6157,306
24630,211
2
9,408
19,413
39,415
99,416
199,416
2
9,425
19,429
39,431
99,433
199,433
3
5,216
8,745
14,337
27,052
43,387
3
5,200
8,703
14,253
26,872
43,085
4
3,896
5,912
8,751
14,374
20,705
4
3,870
5,858
8,657
14,198
20,438
5
3,268
4,678
6,525
9,888
13,384
5
3,238
4,619
6,428
9,722
13,146
6
2,905
4,000
5,366
7,718
10,034
6
2,871
3,938
5,269
7,559
9,814
7
2,668
3,575
4,666
6,469
8,176
7
2,632
3,511
4,568
6,314
7,968
8
2,502
3,284
4,200
5,667
7,015
8
2,464
3,218
4,101
5,515
6,814
9
2,379
3,073
3,868
5,111
6,227
9
2,340
3,006
3,769
4,962
6,032
10
2,284
2,913
3,621
4,706
5,661
10
2,244
2,845
3,522
4,558
5,471
12
2,147
2,687
3,277
4,155
4,906
12
2,105
2,617
3,177
4,010
4,721
15
2,017
2,475
2,963
3,666
4,250
15
1,972
2,403
2,862
3,522
4,070
30
1,773
2,092
2,412
2,843
3,179
30
1,722
2,015
2,307
2,700
3,006
60
1,657
1,917
2,169
2,496
2,742
60
1,603
1,836
2,061
2,352
2,570
120
1,601
1,834
2,055
2,336
2,544
120
1,545
1,750
1,945
2,192
2,373
1,546
1,752
1,945
2,185
2,358
1,487
1,666
1,833
2,039
2,187
Anhang A
387
Fortsetzung: Ausgewählte Quantile der F-Verteilung df1=30
df1=60
df2
90,0%
95,0%
97,5%
99,0%
99,5%
df2
90,0%
95,0%
97,5%
99,0%
99,5%
1
62,265
250,095
1001,414
6260,655
25043,629
1
62,794
252,196
1009,800
6313,031
25255,992
2
9,458
19,462
39,465
99,466
199,466
2
9,475
19,479
39,481
99,482
199,483
3
5,168
8,617
14,081
26,505
42,466
3
5,151
8,572
13,992
26,316
42,149
4
3,817
5,746
8,461
13,838
19,892
4
3,790
5,688
8,360
13,652
19,611
5
3,174
4,496
6,227
9,379
12,656
5
3,140
4,431
6,123
9,202
12,402
6
2,800
3,808
5,065
7,229
9,358
6
2,762
3,740
4,959
7,057
9,122
7
2,555
3,376
4,362
5,992
7,534
7
2,514
3,304
4,254
5,824
7,309
8
2,383
3,079
3,894
5,198
6,396
8
2,339
3,005
3,784
5,032
6,177
9
2,255
2,864
3,560
4,649
5,625
9
2,208
2,787
3,449
4,483
5,410
10
2,155
2,700
3,311
4,247
5,071
10
2,107
2,621
3,198
4,082
4,859
12
2,011
2,466
2,963
3,701
4,331
12
1,960
2,384
2,848
3,535
4,123
15
1,873
2,247
2,644
3,214
3,687
15
1,817
2,160
2,524
3,047
3,480
30
1,606
1,841
2,074
2,386
2,628
30
1,538
1,740
1,940
2,208
2,415
60
1,476
1,649
1,815
2,028
2,187
60
1,395
1,534
1,667
1,836
1,962
120
1,409
1,554
1,690
1,860
1,984
120
1,320
1,429
1,530
1,656
1,747
1,342
1,459
1,566
1,696
1,789
1,240
1,318
1,388
1,473
1,533
df1=120
df1=
df2
90,0%
95,0%
97,5%
99,0%
99,5%
df2
90,0%
95,0%
97,5%
99,0%
99,5%
1
62,794
252,196
1009,800
6313,031
25255,992
1
63,33
254,3
1018
6366
25464
2
9,475
19,479
39,481
99,482
199,483
2
9,491
19,50
39,50
99,50
199,5
3
5,151
8,572
13,992
26,316
42,149
3
5,134
8,526
13,90
26,13
41,83
4
3,790
5,688
8,360
13,652
19,611
4
3,761
5,628
8,257
13,46
19,32
5
3,140
4,431
6,123
9,202
12,402
5
3,105
4,365
6,015
9,020
12,14
6
2,762
3,740
4,959
7,057
9,122
6
2,722
3,669
4,849
6,880
8,879
7
2,514
3,304
4,254
5,824
7,309
7
2,471
3,230
4,142
5,650
7,076
8
2,339
3,005
3,784
5,032
6,177
8
2,293
2,928
3,670
4,859
5,951
9
2,208
2,787
3,449
4,483
5,410
9
2,159
2,707
3,333
4,311
5,188
10
2,107
2,621
3,198
4,082
4,859
10
2,055
2,538
3,080
3,909
4,639
12
1,960
2,384
2,848
3,535
4,123
12
1,904
2,296
2,725
3,361
3,904
15
1,817
2,160
2,524
3,047
3,480
15
1,755
2,066
2,395
2,868
3,260
30
1,538
1,740
1,940
2,208
2,415
30
1,456
1,622
1,787
2,006
2,176
60
1,395
1,534
1,667
1,836
1,962
60
1,291
1,389
1,482
1,601
1,689
120
1,320
1,429
1,530
1,656
1,747
120
1,193
1,254
1,310
1,381
1,431
1,169
1,221
1,268
1,325
1,364
1,000
1,000
1,000
1,000
1,000
388
Anhang A
Anhang A4: Ausgewählte Quantile der T-Verteilung df
75,0%
90,0%
95,0%
97,5%
99,0%
99,5%
99,9%
100,0%
1
1,000
3,078
6,314
12,706
31,821
63,657
318,309
636,619
2
0,816
1,886
2,920
4,303
6,965
9,925
22,327
31,599
3
0,765
1,638
2,353
3,182
4,541
5,841
10,215
12,924
4
0,741
1,533
2,132
2,776
3,747
4,604
7,173
8,610
5
0,727
1,476
2,015
2,571
3,365
4,032
5,893
6,869
6
0,718
1,440
1,943
2,447
3,143
3,707
5,208
5,959
7
0,711
1,415
1,895
2,365
2,998
3,499
4,785
5,408
8
0,706
1,397
1,860
2,306
2,896
3,355
4,501
5,041
9
0,703
1,383
1,833
2,262
2,821
3,250
4,297
4,781
10
0,700
1,372
1,812
2,228
2,764
3,169
4,144
4,587
11
0,697
1,363
1,796
2,201
2,718
3,106
4,025
4,437
12
0,695
1,356
1,782
2,179
2,681
3,055
3,930
4,318
13
0,694
1,350
1,771
2,160
2,650
3,012
3,852
4,221
14
0,692
1,345
1,761
2,145
2,624
2,977
3,787
4,140
15
0,691
1,341
1,753
2,131
2,602
2,947
3,733
4,073
16
0,690
1,337
1,746
2,120
2,583
2,921
3,686
4,015
17
0,689
1,333
1,740
2,110
2,567
2,898
3,646
3,965
18
0,688
1,330
1,734
2,101
2,552
2,878
3,610
3,922
19
0,688
1,328
1,729
2,093
2,539
2,861
3,579
3,883
20
0,687
1,325
1,725
2,086
2,528
2,845
3,552
3,850
21
0,686
1,323
1,721
2,080
2,518
2,831
3,527
3,819
22
0,686
1,321
1,717
2,074
2,508
2,819
3,505
3,792
23
0,685
1,319
1,714
2,069
2,500
2,807
3,485
3,768
24
0,685
1,318
1,711
2,064
2,492
2,797
3,467
3,745
25
0,684
1,316
1,708
2,060
2,485
2,787
3,450
3,725
26
0,684
1,315
1,706
2,056
2,479
2,779
3,435
3,707
27
0,684
1,314
1,703
2,052
2,473
2,771
3,421
3,690
28
0,683
1,313
1,701
2,048
2,467
2,763
3,408
3,674
29
0,683
1,311
1,699
2,045
2,462
2,756
3,396
3,659
30
0,683
1,310
1,697
2,042
2,457
2,750
3,385
3,646
40
0,681
1,303
1,684
2,021
2,423
2,704
3,307
3,551
60
0,679
1,296
1,671
2,000
2,390
2,660
3,232
3,460
120
0,677
1,289
1,658
1,980
2,358
2,617
3,160
3,373
0,674
1,282
1,645
1,960
2,326
2,576
3,090
3,291
Anhang B: SPSS-Syntax zu den Beispielrechnungen Anhang B1: SPSS-Programm zur Berechnung des Flächenanteils eines Bereichs einer Binomialverteilung *Berechnen der Wahrscheinlichkeit, dass bei 100 Wuerfen mit einer fairen Münze das Ereignis "Kopf" zwischen 40 und 60 mal auftritt. compute p40b60=cdf.binom(60,100,0.5)cdf.binom(39,100,0.5). fre p40b60.
Ausgabe
Häufigkeiten Statistiken P40B60 N Gültig Fehlend
1 0 P40B60
Gültig
,96479980
Häufigkeit 1
Prozent 100,0
Gültige Prozente 100,0
Kumulierte Prozente 100,0
*Berechnen der Wahrscheinlichkeit, dass bei 100 Wuerfen mit einer fairen Münze das Ereignis "Kopf" zwischen 41 und 60 mal (das entspricht dem Intervall von 40,5 bis 60,5 bzw. *40,0 bis 60,0)auftritt. compute p41b60=cdf.binom(60,100,0.5)cdf.binom(40,100,0.5). fre p41b60.
Anhang B
390
Ausgabe
Häufigkeiten Statistiken P41B60 N Gültig Fehlend
1 0 P41B60
Gültig
,95395593
Häufigkeit 1
Prozent 100,0
Gültige Prozente 100,0
Kumulierte Prozente 100,0
*Berechnen der Wahrscheinlichkeit, dass bei 100 Wuerfen mit einer fairen Münze das Ereignis "Kopf" zwischen 45 und 55 mal auftritt. compute p45b55=cdf.binom(55,100,0.5)cdf.binom(44,100,0.5). fre p45b55.
Ausgabe
Häufigkeiten Statistiken P45B55 N Gültig Fehlend
1 0 P45B55
Gültig
,72874698
Häufigkeit 1
Prozent 100,0
Gültige Prozente 100,0
Kumulierte Prozente 100,0
Anhang B
391
*Berechnen der Wahrscheinlichkeit, dass bei 100 Wuerfen mit einer fairen Münze das Ereignis "Kopf" zwischen 46 und 55 mal (das entspricht dem Intervall von 45,5 bis 55,5 bzw. 45,0 bis 55,0) auftritt. compute p46b55=cdf.binom(55,100,0.5)cdf.binom(45,100,0.5). fre p46b55.
Ausgabe
Häufigkeiten Statistiken P46B55 N Gültig Fehlend
1 0 P46B55
Gültig
,68027268
Häufigkeit 1
Prozent 100,0
Gültige Prozente 100,0
Kumulierte Prozente 100,0
392
Anhang B
Anhang B2: SPSS-Programm zur Simulation von Stichproben Erstellen eines Makros, das aus der Datei "varx.sav" Stichproben zieht. Die Datei muss eine Variable mit dem Namen "varx" enthalten. Die auf der CD mitgelieferte Version der Datei enthält z.B. 20 000 Fälle und eine Variable varx mit folgender Häufigkeitsverteilung.
VARX
Gültig
1,00 2,00 3,00 4,00 Gesamt
Häufigkeit 5955 8056 2008 3981 20000
Prozent 29,8 40,3 10,0 19,9 100,0
Gültige Prozente 29,8 40,3 10,0 19,9 100,0
Kumulierte Prozente 29,8 70,1 80,1 100,0
Die Anzahl der gezogenen Stichproben wird durch die Makrovariable "anzstich" bestimmt. Der Umfang der gezogenen Stichproben wird durch die Makrovariable "umfstich" festgelegt. Diese beiden Variablen müssen beim Aufruf des Makros angegeben werden. Als Ergebnis produziert das Makro die Ausgabedatei "allest.dav", die als Fälle die Stichproben enthält und als Variablen den Mittelwert, die Standardabweichung und die Varianz der Stichprobe. Dabei werden die Standardabweichung "stdst" und die Varianz "varst" anhand der Freiheitsgrade berechnet, wie es für Stichproben auch angemessen ist. Die Variable "varstn" enthält den Wert der Varianz, wenn diese anhand der Anzahl der Fälle in der Stichprobe berechnet wird. Define Makragg(anzstich=!Tokens(1) /umfstich=!Tokens(1)). get file='allest0.sav'. save outfile='allest.sav'.
!Do !varz=1 !to !anzstich. GET FILE="varx.sav". Sample !umfstich from 20000. fre varx /stat=mean stdev var.
Anhang B
compute dum=1. !Let !varnam=!Concat('xxx',!varz,'.sav'). aggregate outfile=!varnam /break=dum /meanst=Mean(varx) /stdst=SD(varx).
add files /file='allest.sav' /file=!varnam. save outfile='allest.sav'/drop=dum. !Doend. get file='allest.sav'. compute varst=stdst**2.
compute varstn=varst*(!umfstich-1)/!umfstich. des all. !Enddefine.
Der folgende Makroaufruf produziert zwei Stichproben des Umfangs 10 und schreibt deren Parameter in die Ausgabedati "allest.sav". Makragg anzstich=2 umfstich=10.
393
394
Anhang B
Anhang B3: Berechnung von 'pid' So lautet der Befehl zum Berechnen einer neuen Variable 'pid', die die Stärke der Parteiidentifikation misst. compute pid = 0. if (v7=1) pid=1. if (v7=2) and (v14=1) pid=2. if (v7=2) and (v14=2) pid=3.a if (v7=2) and (v14=3) pid=4. if (v7=2) and (v12=2) pid3=5. missing value pid (0).
fre pid.
Weiterführende und vertiefende Literatur Zu Teil A: Wissenschaftstheorie Albert, Hans (1991): Traktat über kritische Vernunft. Tübingen Bacon, Francis (1990)[1620]: Neues Organon. Darmstadt Chalmers, Alan (2001): Wege der Wissenschaft. Berlin Gould, Stephen Jay (1999): Der falsch vermessene Mensch. Frankfurt am Main Howson, Collin / Peter Urbach (1996): Scientific Reasoning. Chicago, Ill. Hume, David (1973)[1748]: Eine Untersuchung über den menschlichen Verstand. Hamburg Keynes, John Maynard (1988): Newton, the Man. In: James R. Newman (Hg.): The World of Mathematics. Redmond. Lakatos, Imre (1974): Falsifikation und die Methodologie wissenschaftlicher Forschungsprogramme. In: Imre Lakatos / Alan Musgrave (Hg.): Kritik und Erkenntnisfortschritt. Braunschweig, 89-189. Lipset, Seymour Martin / Stein Rokkan (1967): Party Systems and Voter Alignments. New York, N.Y. Menne, Albert (1991): Einführung in die formale Logik. Darmstadt Mill, John Stuart (1995)[1874]: A system of logic: ratiocinative and inductive; being a connected view of the principles of evidence and the methods of scientific investigation. New York, N.Y. Newton, Isaac (1963)[1687]: Mathematische Prinzipien der Naturlehre. Darmstadt Opp, Karl-Dieter (1995): Methodologie der Sozialwissenschaften. Opladen Piaget, Jean (1988): Das Weltbild des Kindes. München Popper, Karl R. (1989)[1935]: Logik der Forschung. Tübingen Quine, Willard V.O. (1974): Grundzüge der Logik. Frankfurt am Main Russell, Bertrand (1988): Philosophie des Abendlandes. Wien Russell, Bertrand (1997)[1948]: Human Knowledge. Its Scope and Limits. London
Literaturverzeichnis
396
Zu Teil B: Statistik Agresti, Alan / Barbara Finlay (1999): Statistical Methods for the Social Sciences. Upper Saddle River, NJ: Prentice Hall Andreß, Hans-Jürgen / Jaques A. Hagenaars / Steffen Kühnel (1997): Analyse von Tabellen und kategorialen Daten. Berlin Backhaus, Klaus / Bernd Erichson / Wulff Plinke / Rolf Weiber (2000) (9. Aufl.): Multivariate Analysemethoden. Berlin Behnke, Joachim / Nina Baur / Nathalie Behnke (2005): Empirische Methoden der Politikwissenschaft. Paderborn Benninghaus, Hans (1976): Deskriptive Statistik. Stuttgart Benninghaus, Hans (2005) (7. Aufl.): Einführung in dies sozialwissenschaftliche Datenanalyse. München Berry, William D. / Stanley Feldman (1995): Multiple Regression in Practice (Quantitative Applications in the Social Sciences 50). Newbury Park, CA Bortz, Jürgen (1999) (5. Aufl.): Statistik für Sozialwissenschaftler. Berlin Clauß, Günter / Heinz Ebner (1982): Statistik. Für Soziologen, Pädagogen, Psychologen und Mediziner. Bd. 1: Grundlagen. Frankfurt a.M. Fahrmeir, Ludwig / Rita Künstler/ Iris Pigeot/ Gerhard Tutz (2001): Statistik. Berlin Fishbein, Martin / Icek Ajzen (1975): Belief, Attitude, Intention and Behavior: An Introduction to Theory and Research. Reading, Mass. Gehring, Uwe / Cornelia Weins (2004) (4. Aufl.): Grundkurs Statistik für Politologen. Wiesbaden Gillies, Donald (2000): Philosophical Theories of Probability. London Gnedenko, Boris Wladimirowitsch Wahrscheinlichkeitstheorie. Frankfurt a.M.
(1997):
Lehrbuch
der
Hacking, Ian (1975): The Emergence of Probability. Cambridge Hardy, Melissa / Alan Bryman (2004): Handbook of Data Analysis. London Kühnel, Steffen / Dagmar Krebs (2001): Statistik für die Sozialwissenschaften. Reinbek b. Hamburg: Rowohlt Savage, Leonard J. (1972)[1954]: The Foundations of Statistics. New York, N.Y. Schumann, Siegfried (2000): Repräsentative Umfrage. München: Oldenbourg Wagschal, Uwe Oldenbourg
(1999):
Statistik
für
Politikwissenschaftler.
München:
Literaturverzeichnis
Zur Einführung in SPSS Bühl, Achim / Peter Zöfel (2004): SPSS 12. Einführung in die moderne Datenanalyse unter Windows. Reading, Mass.: Brosius, Felix (2005): SPSS-Programmierung: effizientes Datenmanagement und Automatisierung mit SPSS-Syntax. Bonn Brosius, Felix (2004): SPSS 12. Bonn Schubö, Werner / Hans M. Uehlinger (1986): SPSS-X: Handbuch der Programmversion 2.2. Stuttgart Wittenberg, Reinhard / Hans Cramer (2003): Datenanalyse mit SPSS für Windows. Stuttgart: Lucius&Lucius Zöfel, Peter (2002): SPSS-Syntax. München: Pearson Studium
397
Index Abbildungstheorie der Wirklichkeit (siehe Korrespondenztheorie) Abduktion 103 Ablehnungsbereich 323 Absolutskala 39 Additionstheorem – allgemeines 209ff. Ad-hoc-Hypothesen 93 Albert, Hans 67 Alternativhypothese 323ff. Antezedens 46 Äquivalenz 47 Argument 53ff., 68 – Gültigkeit eines 55ff. – Konklusion eines 53 – Prämisse eines 53 – unvollständiges 54f. – Argumentformen 53ff. Aussagen (siehe auch Sätze) 16 – Aussagenlogik 43ff. – Allaussage 65, 95 – Existenzaussage 65 – Negation von 44 – Wahrheitswert von 43ff. – Disjunktion von 44 ff. – elementare 44, 105 – komplexe 44 – Konjunktion von 44f. Axiome 69 Bacon, Francis 76ff., 89, 91 Balkendiagramm 111 Basissätze 92 Bayes'sches Theorem 214ff. Bayes'sches Updating 217 Bedeutungsanalyse 30 Bedingung – hinreichende 56, 79, 82, 95 – notwendige 56, 78, 82, 95 Begriffe 25ff. Bernoulli, Jakob 198 Bernoulli-Experiment 229 Bernoulli-Kette 229 Beweis 68ff. Bias – einer Stichprobe 281 – eines Schätzers 288 Binomialverteilung 229ff., 302 – Erwartungswert einer 236 – Standardabweichung und Varianz einer 237 Carnap, Rudolf 89f., 92 Chi2-Koeffizient 156f., 365f.
Chi2-Test 363ff. Chi2-Verteilung 344ff. Cramer's V 164 de Finetti 202 de Moivre, Abraham 249, 252, 302, 345 Deduktion 18, 43ff. Definition 27ff. – Nominaldefinition 28 – Operationale Definition 28ff. Deskriptive Statistik 105, 279 Determinationskoeffizient 192f., 378ff. diskordante Paare 169ff. Dogmatischer Abbruch 73 Duhem-Quine-Problem 92 Eigenschaften (siehe Merkmale) Ereignis – Elementarereignis 195ff. – komplementäres 207 – sicheres 205 – unmögliches 205 – Ereignisraum 195 – komplexes 196 Erklärung 68ff., 101ff. Eta2 360f. Experimentelles Design 77, 95, 356 Explorative Datenanalyse 105 Falsifikation 89, 97 – praktische 97, 317 Fehler erster Art (siehe Irrtumswahrscheinlichkeit) Fehler zweiter Art 337 Fehlschlüsse 62ff. – Bejahung des Konsequens 64 – teleologische 98 – Verneinung des Antezedens 65 Fisher, R.A. 97, 336 Flächentreue – Prinzip der 115 Forschungsprogramm 93 Freiheitsgrade 293, 345 Fünf-Punkte-Zusammenfassung 132 F-Verteilung 349ff. Gauß, Carl Friedrich 345 Gesetz der großen Zahlen 198f. Gini-Koeffizient 141ff. Glockenkurve 251, 267ff. Grenzwertsatz – Zentraler 272ff. Grenzwertsatz von de Moivre 249, 252ff., 302 Grundgesamtheit 94, 280ff.
400
Gruppierung von Variablenwerten 115 Häufigkeiten, absolute und relative 107 Häufigkeitsverteilung 107 – bedingte relative 148 – grafische Darstellungen von 110ff. – kumulierte 118ff. – tabellarische Darstellung von 112f. Hempel-Oppenheim-Schema (nomologischdeduktive Erklärung) 66, 70 Hempel'sches Paradox 322 Hilfsannahmen 93 Histogramm 115f. – gleitendes 313ff. Homomorphismus 34 Homoskedastizität 376 Hume, David 83, 101 Hypothesen 105, 317 – probabilistische 94 Implikation 46f. Index 29f. Indifferenztabelle 155f., 364f. Indikatoren 29f. Induktionsprinzip 76 Induktionsproblem 18, 83ff., 89 Induktive Statistik (siehe auch Inferenzielle Statistik) Induktives Schließen 43, 76ff. Inferenzielle Statistik 105, 279 Infiniter Regress 71 Interquartilsabstand 131 Intervallskala 37f. – und Berechnung des Mittelwerts 126 Irrtumswahrscheinlichkeit 99, 319 Isolation von Einflussfaktoren 95, 340ff. Isomorphismus 33 Junktoren 44 Kausalität 85ff. Kausalprinzip 82 Kepler, Johannes 85ff. Kern-Dichteschätzer 315 Kolmogoroff 206 Kombinationen 225ff. Konfidenzintervall 297ff. – beim T-Test für unabhängige Stichproben 333 – Sicherheitswahrscheinlichkeit 299 konkordante Paare 169ff. Konsequens 46 Kontingenzkoeffizient 164f.
Index
Kontingenztabelle 145f., 364 Kontrolle von Einflussfaktoren 95 Kontrollgruppe 357 Kopernikus 85 Korrelationskoeffizient von Bravais und Pearson 188 Korrespondenzproblem 16 Korrespondenztheorie 20ff., 25, 32, 68 Kovarianz 184ff. Kreisdiagramm 111f. Lageparameter 123ff. Lakatos, Imre 93 Lambda 165ff. Laplace, Pierre Simon de 196 Laplace'scher Dämon 196 Legendre, Adrien Marie 344f. Leibniz, Gottfried Wilhelm 302 Logischer Zirkelschluss 71 Lorenzkurve 138ff. Maß der Konzentration einer Verteilung (siehe Gini-Koeffizient) Maße der zentralen Tendenz (siehe Lageparameter) Maximum-Likelihood-Schätzer 345 Median 124f., 129 Menge – Extension einer 26 – komplementäre 50 – Schnittmenge zweier Mengen 50f. – Vereinigungsmenge zweier Mengen 51 Merkmale 25, 105 Merkmalsträger 105 Messung 16,31ff. – Definition von 34 – und Sinneserfahrungen 16 Metasprache 23 Methode der kleinsten Quadrate 191, 344f., 375 Mill, John Stuart 76ff., 91 Mill'sche Induktionsschlüsse – Methode der Differenz 80f. – Methode der Übereinstimmung 78 – Umgekehrte Methode der Übereinstimmung 79ff. Mittelwert – arithmetischer 125f., 129 Modus 123f., 128 Modus Ponens 62, 63f. Modus Tollens 62, 64 Morphismus 33
Index
Multiplikationstheorem, allgemeines 210ff. – bei zwei statistisch unabhängigen Ereignissen 214 Münchhausen-Trilemma 70 Namen 25 Naturgesetze 84 Newton 85ff. Neyman, Jerzy 337 Nominalskala 35f. Normalverteilung 249ff., 302ff. – Form der (siehe Glockenkurve) – Verteilungsfunktion der 259 – Wahrscheinlichkeitsdichtefunktion der 258 Nullhypothese 98, 317ff. Nullpunkt – natürlicher einer Verhältnisskala 38 Objektsprache 23 Odds-Ratio 153 Ordinalskala 36f. Ordinary Least Squares Method (Siehe Methode der kleinsten Quadrate) Parameter 123ff., 279, 283 Pascal'sches Dreieck 240f. Pearson, Egon 337 Pearson, Karl 279 Peirce, Charles Sanders 103 Permutationen 220ff. Phi-Koeffizient 157, 159f. Poincaré, Henri 92 Popper, Karl 24, 26, 89ff., 317 PRE-Maß 165ff., 174, 189f., 192, 361, 377ff. Primärdaten 106 Prognose 68f., 73ff., 95f. Prozentsatzdifferenz 151f. P-Wert 297 Quantile 131 Quantoren 65 Quételet, Adolphe 303 Ramsey, Frank 202 Randverteilung in einer Kontingenztabelle 145f. Ratioskala (siehe Verhältnisskala) Regeln – semantische, Korrespondenz- 25, 68 Regressionsanalyse 367ff. – Koeffizienten 372 Regressionsfunktion 190ff. Relativ – empirisches 33ff. – numerisches 33ff. Residuum 191, 370 Riskante Aussagen 93 Rohdaten 106
401
Russell, Bertrand 23 Satz der totalen Wahrscheinlichkeit 211f. Sätze (siehe auch Aussagen) – allgemeine 17ff., 24 – analytische 18, 43, 68f. – empirische 18, 43 – kategoriale 65 – singuläre 17ff., 24 – synthetische 68 Säulendiagramm 110f. – gestapeltes 149f. – dreidimensionales 146f. –gruppiertes 148 Schaltalgebra 52ff. Schätzer – Bias eines 288 – der Varianz einer Grundgesamtheit 292f. – des Mittelwerts einer Grundgesamtheit 284 – Erwartungstreue eines 288 – Standardfehler des 289 Schiefe 134ff. Schlussschemata (siehe Argumentformen) scientific community 15 Signifikanz – eines statistischen Testergebnisses 98 Signifikanzniveau 98, 318 Skalen 34ff. – Transformationen von 41f. Spannweite 131 Sprache 25ff. Stabdiagramm 110 Stamm-Blatt-Diagramm 117f. Standardabweichung 132ff. –´von Anteilswerten 244ff. Standardfehler – der Teststatistik eines T-Tests für unabhängige Stichproben 332f. – des Steigungskoeffizienten einer bivariaten linearen Regression 377 – eines Schätzers 289 Standardnormalverteilung 260ff., 344ff. Statistischer Test – Logik eines 94ff., 99f., 316ff. ,336f. – einseitiger oder zweiseitiger 324f. Stichprobe 94, 280ff. – abhängige Stichproben 338ff. – Kennwerte 283 – repräsentative 281f. – unabhängige Stichproben 338 – Zufallsstichprobe 282ff. Stirling'sche Formel 249 Streuungsmaße 130ff.
Index
402
Sum of Squares 348 – between 358ff. – within 358ff. Syllogismus 55f., 65ff. – praktischer 55f., 102f. – Quasi-Syllogismus 66 – statistischer 96 Tarski, Alfred 23 Tatsachen 17ff. Teststatistik 98, 318ff. – bei Chi2-Test – bei T-Test für abhängige Stichproben 342 – bei T-Test für unabhängige Stichproben 327 – bei Varianzanalyse 358 Theorie – Bewährung einer 90 – empirischer Gehalt einer 92 – Falsifikation und Verifikation einer 90 – Begründung und Prüfung einer 89 Treatmentvariable 356 T-Test – für zwei abhängige Stichproben 338ff. – für zwei unabhängige Stichproben 326ff. – als Spezialfall der Varianzanalyse 356 T-Verteilung 295f., 354f. Unabhängigkeit – empirische zweier Variablen 154f. – statistische 212ff. Uniformitätsannahme 84 Urliste 106, 144 Variable 106 – abhängige 147, 154 – Ausprägung einer 108 – kontinuierliche 114 – unabhängige 147, 154 Varianz 132ff. – von Anteilswerten 244ff. Varianzanalyse, einfaktorielle 356ff. Varianzzerlegung 192, 360, 378 Variationen 221ff. Variationskoeffizient 133 Venn-Diagramme 49ff., 210ff. verbundene Paare 170ff. Verhältnisskala 38 Verschieberegel 242, 347f. Verstehen 100ff. Verteilung – gemeinsame zweier Variablen 145 Verteilungsfunktion – empirische 118ff. Vierfeldertabelle 150ff. Vollerhebung 281
von Brahe, Tycho 86 Wahrheit (siehe auch Korrespondenztheorie) – Annäherung an die 24, 91 Wahrheitsfunktion 44ff. Wahrheitswert 43ff. Wahrheitswerttabelle 44 Wahrscheinlichkeit – bedingte 209f. – geometrische 203 – inverse 215 Wahrscheinlichkeitsbegriff – epistemischer 94 – klassischer 196ff. – pluralistischer 202f. – Propensity-Theorie 200f. – subjektiver 201f. –frequentistischer 94, 198ff. Wahrscheinlichkeitsintervall 298 Wahrscheinlichkeitstheorie – Axiome der 205ff. Wirklichkeit 20ff. Wissen 15 Wissenschaft 15ff. Wölbung 136ff. Z-Transformation 188, 262 Zufallsexperiment 195ff., 219ff., 229ff., 283 Zufallsvariable 229 – Erwartungswert einer 235, 273f. – Varianz einer 236, 273f. – Wahrscheinlichkeitsverteilung einer 229 Zufallsvorgang (siehe Zufallsexperiment) Zusammenhangsmaße – für intervallskalierte Variablen (siehe Korrelationskoeffizient von Bravais und Pearson) – für nominalskalierte Variablen – Chi2-Koeffizient 156f. – Cramer's V 164 – Kontingenzkoeffizient 164f. – Lambda 165ff. – Odds-Ratio 153 – Phi-Koeffizient 157, 159f. – Prozentsatzdifferenz 151f. – für ordinalskalierte Variablen – Goodmans und Kruskals Gamma 173f. – Kendalls Tau-a 174 – Kendalls Tau-b 175 – Kendalls Tau-c 175 – Somers' d 176 – Spearmans R 182f., 194