Statistik im Forschungsprozess
Uwe Saint-Mont
Statistik im Forschungsprozess Eine Philosophie der Statistik als Baustein einer integrativen Wissenschaftstheorie
Prof. Dr. Uwe Saint-Mont Fachhochschule Nordhausen Fachbereich Wirtschafts- und Sozialwissenschaften Weinberghof 4 99734 Nordhausen Deutschland
[email protected]
ISBN 978-3-7908-2722-4 e-ISBN 978-3-7908-2723-1 DOI 10.1007/978-3-7908-2723-1 Springer Heidelberg Dordrecht London New York Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. c Springer-Verlag Berlin Heidelberg 2011 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandentwurf: WMXDesign GmbH, Heidelberg Gedruckt auf säurefreiem Papier Physica-Verlag und Springer-Verlag sind Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.com)
There is no escaping the fact that statistics, unlike most disciplines, demands philosophical investigation. (Healy 2000)
Meiner Familie
Inhaltsverzeichnis
1
Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Ausgangspunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Abbildung der Realität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Empirische Wissenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Subjektunabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Replikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Wechsel der Perspektive . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Die zentrale Bedeutung der Invarianz . . . . . . . . . . . . . . . . . . . . .
1 1 10 12 12 14 15 19
2
Messtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Formalisierung des Messvorgangs . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Äquivalente Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Skalenhierarchie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Bedeutsamkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Messtheorie in der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Gegenbeispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.2 Enge und Rigidität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.3 Verfeinerung und Mathematisierung . . . . . . . . . . . . . . . . 2.5.4 Distanzierung durch begriffliche Differenzierung . . . . . . 2.5.5 Instrumentalismus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Forschungsstrategien I (Deduktion und Induktion) . . . . . . . . . . 2.6.1 Deduktives Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.2 Deduktiv-induktives Schema . . . . . . . . . . . . . . . . . . . . . . . 2.6.3 Induktives Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Messtheorie (induktiv) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8 Reale Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 Messtheorie und Statistik I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23 23 25 27 31 37 37 40 42 47 50 54 55 58 60 61 65 68
3
Klassische Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Das Grundmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Fisher: Signifikanztests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Neyman und Pearson: Hypothesentests . . . . . . . . . . . . . .
77 78 83 83 89 vii
viii
Inhaltsverzeichnis
3.2.3 Tests in der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4 Likelihood-Ratio-Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.5 Bayessche Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.6 Vergleich der Verfahren anhand ihrer Voraussetzungen Testreplikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Forschungsstrategien II (Grundhaltungen) . . . . . . . . . . . . . . . . . 3.4.1 Deduktive Herangehensweise . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Induktives Verhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Der induktive Gegenpol . . . . . . . . . . . . . . . . . . . . . . . . . . . Parametrische Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wichtige klassische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Eine Umformulierung des Grundmodells . . . . . . . . . . . . . 3.6.2 Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.3 Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.4 Kanonische Korrelationsanalyse . . . . . . . . . . . . . . . . . . . . 3.6.5 Skalierung und Klassifikation . . . . . . . . . . . . . . . . . . . . . . 3.6.6 Operatorgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trends der aktuellen Datenmodellierung . . . . . . . . . . . . . . . . . . . 3.7.1 Rechenintensive Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.2 Komplexere theoretische Strukturen . . . . . . . . . . . . . . . . 3.7.3 Graphische Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hauptsatz der Datenmodellierung . . . . . . . . . . . . . . . . . . . . . . . . 3.8.1 Zeitreihenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.2 Messtheorie und Statistik II . . . . . . . . . . . . . . . . . . . . . . . Invarianzargumente in der Statistik . . . . . . . . . . . . . . . . . . . . . . . 3.9.1 Äquivalente formale Strukturen . . . . . . . . . . . . . . . . . . . . 3.9.2 Invarianz bei Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9.3 Skalentransformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . Semantische Aspekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.10.1 Die Qualität von Messungen . . . . . . . . . . . . . . . . . . . . . . . 3.10.2 Validität und Reliabilität . . . . . . . . . . . . . . . . . . . . . . . . . . 3.10.3 Die Bedeutung von Invarianzargumenten . . . . . . . . . . . . 3.10.4 Der wahre Wert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modelle und ihre Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . 3.11.1 Modellspezifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.11.2 Vom Instrument zum wahren Modell . . . . . . . . . . . . . . . . 3.11.3 Angemessene Interpretation . . . . . . . . . . . . . . . . . . . . . . . Diskussion der Datenmodellierung . . . . . . . . . . . . . . . . . . . . . . . .
92 95 98 99 101 106 106 117 121 125 129 129 130 132 134 137 138 139 141 143 146 148 150 151 152 153 154 155 160 160 162 164 167 172 172 176 187 189
Induktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Das allgemeine Induktionsproblem . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Induktive Standard-Argumente in der Statistik . . . . . . . . . . . . . 4.2.1 Stichprobe und Population: Repräsentativität . . . . . . . . 4.2.2 Der Fehlerterm: Approximation . . . . . . . . . . . . . . . . . . . . 4.2.3 Fehlende Werte: Interpolation . . . . . . . . . . . . . . . . . . . . . . 4.2.4 Prognosen: Extrapolation . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.5 Axiomatik der Wahrscheinlichkeitstheorie . . . . . . . . . . .
195 195 200 201 206 207 208 211
3.3 3.4
3.5 3.6
3.7
3.8
3.9
3.10
3.11
3.12 4
Inhaltsverzeichnis
4.2.6 Induktion bei deterministischen Modellen . . . . . . . . . . . . 4.2.7 Regression als Generalisierung . . . . . . . . . . . . . . . . . . . . . Orthodoxe Induktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Mills induktive Figuren . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Vergleichbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Randomisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.4 Systematisches Vorgehen und Randomisierung . . . . . . . 4.3.5 Resampling: Die Stichprobe als eigene Population . . . . 4.3.6 Bewertung der Randomisierung . . . . . . . . . . . . . . . . . . . . Induktive Logik und Bayessche Statistik . . . . . . . . . . . . . . . . . . . 4.4.1 Induktive Logik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 Bayessche Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.3 Diskussion der Bayesschen Statistik . . . . . . . . . . . . . . . . . 4.4.4 Einordnung des Bayesschen Ansatzes . . . . . . . . . . . . . . . Induktion und Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 Induktive Schlüsse mit Modellen . . . . . . . . . . . . . . . . . . . 4.5.2 Modellentwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.3 Die Rolle der Voraussetzungen . . . . . . . . . . . . . . . . . . . . . 4.5.4 Sozialwissenschaftliche Modelle . . . . . . . . . . . . . . . . . . . . . Induktive Orientierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6.1 Explorative Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 4.6.2 Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6.3 Data Mining versus konservative Statistik . . . . . . . . . . . 4.6.4 Empirische Fundierung und inhaltlicher Kontext . . . . . Philosophische Paradoxa der Induktion . . . . . . . . . . . . . . . . . . . . 4.7.1 Austauschbarkeit und GRUE-Paradoxon . . . . . . . . . . . . 4.7.2 Das Raben-Paradoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7.3 Das Lotterie-Paradoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7.4 Simpsons Paradoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lösung(en) des Induktionsproblems . . . . . . . . . . . . . . . . . . . . . . . 4.8.1 Tests und Repräsentativität . . . . . . . . . . . . . . . . . . . . . . . 4.8.2 Verschiedenartige induktive Schritte . . . . . . . . . . . . . . . . 4.8.3 Einordnung der induktiven Strategien . . . . . . . . . . . . . . . 4.8.4 Offenheit der Induktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8.5 Erste Lösung des allgemeinen Induktionsproblems . . . . 4.8.6 Zweite Lösung des allgemeinen Induktionsproblems . . .
212 215 217 217 223 226 234 242 244 247 248 251 258 269 271 271 278 284 289 293 294 300 303 308 314 315 316 319 321 325 327 329 332 334 340 346
Synthese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Forschungsstrategien III (Kombination) . . . . . . . . . . . . . . . . . . . 5.1.1 Primat der Deduktion in der Theorie . . . . . . . . . . . . . . . 5.1.2 Primat der Induktion in der Praxis . . . . . . . . . . . . . . . . . 5.1.3 Kombination beider Perspektiven . . . . . . . . . . . . . . . . . . . 5.1.4 Adaptive Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.5 Kreuzvalidierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Der Forschungszirkel I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Positionierung der Statistik . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Sich ergänzende Perspektiven . . . . . . . . . . . . . . . . . . . . . .
351 351 352 362 364 370 380 384 387 393
4.3
4.4
4.5
4.6
4.7
4.8
5
ix
x
6
Inhaltsverzeichnis
5.3 Der statistikinterne strategische Konflikt . . . . . . . . . . . . . . . . . . 5.3.1 Vorher versus Nachher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Konflikte um den wesentlichen Unterschied . . . . . . . . . . 5.3.3 Weitere Felder der Auseinandersetzung . . . . . . . . . . . . . . 5.3.4 Mainstream-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.5 Das Aufblühen des Neo-Bayesianismus . . . . . . . . . . . . . . 5.3.6 Gemeinsame Statistik ohne Kompromisse . . . . . . . . . . . . 5.4 Strategische Schnittstellen und Kausalschlüsse . . . . . . . . . . . . . 5.4.1 Kausale Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.2 Kritik an kausalen Graphen . . . . . . . . . . . . . . . . . . . . . . . . 5.4.3 Die innerstatistische Alternative . . . . . . . . . . . . . . . . . . . . 5.4.4 Statistik und Fachwissenschaft . . . . . . . . . . . . . . . . . . . . . 5.5 Das Informationsparadigma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1 Klassische Informationstheorie . . . . . . . . . . . . . . . . . . . . . 5.5.2 Moderne Informationstheorie . . . . . . . . . . . . . . . . . . . . . . 5.5.3 Das Prinzip der kompaktesten Beschreibung . . . . . . . . . 5.5.4 Universelle Prädiktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.5 Die Klärung des Wahrscheinlichkeitsbegriffs . . . . . . . . . . 5.5.6 Zufallsprozesse und zufällige Daten . . . . . . . . . . . . . . . . . 5.5.7 Latente Parameter und Strukturen . . . . . . . . . . . . . . . . . 5.5.8 Absoluter und relativer Zufall . . . . . . . . . . . . . . . . . . . . . . 5.5.9 Chaostheorie (Exkurs) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.10 Modernisierte Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6 Invarianzen, Symmetrien und Symmetriebrüche . . . . . . . . . . . .
396 396 399 406 410 419 422 428 429 437 441 447 455 456 462 471 478 482 495 501 506 512 517 529
Integrative Wissenschaftstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Der Forschungszirkel II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Induktion und Deduktion . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.2 Die historische Entwicklung von Wissenschaften . . . . . . 6.1.3 Funktionsfähigkeit und Ertrag des Forschungszirkels . . 6.2 Wissenschaftstheorie im Forschungszirkel . . . . . . . . . . . . . . . . . . 6.2.1 Unwuchten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.2 Philosophische Orientierung . . . . . . . . . . . . . . . . . . . . . . . 6.2.3 Wissenschaftssoziologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Konstruktive Antworten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.1 Ahistorische Wissenschaft . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.2 Konstruktiv-kritisch oder stagnierend . . . . . . . . . . . . . . . 6.3.3 Die skeptische Grundhaltung . . . . . . . . . . . . . . . . . . . . . . 6.3.4 Ertragsorientierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4 Adaptive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5 Schlussbemerkung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
539 539 541 543 549 554 554 560 573 577 577 581 582 587 589 595
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601 Personenregister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649 Sachregister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 661
Vorbemerkungen
E Pluribus Unum (Über die Aufgabe von Wissenschaftstheorie und Philosophie)
Wege durch das Buch Dieses Buch wurde für einen breiten Leserkreis geschrieben. Je nach Vorkenntnissen und Interessen gibt es deshalb verschiedene Wege durch die Kapitel. Kapitel 1 ist ein kurzer Abriss wissenschaftlicher Prinzipien, insbesondere betont es die Bedeutung der Mathematik. Kapitel 2 erläutert am Beispiel der Messtheorie den „Forschungszirkel“ und die Invarianzidee. Kapitel 3 ist eine „tour de force“ der klassischen Statistik: von den Grundbegriffen geht es über Hypothesentests zu Modellen. Kapitel 4 diskutiert das grundlegende Induktionsproblem und interpretiert die statistischen Vorgehensweisen als Strategien, ihm erfolgreich zu begegnen. Kapitel 5 führt Entwicklungen statistischer, philosophischer und fachwissenschaftlicher Provenienz unter dem Informationsgesichtspunkt zusammen. Kapitel 6 schließt mit einer integrativen Wissenschaftstheorie. Dem entsprechend könnte der Titel des Buches auch Statistik im Forschungszirkel: Induktion, Information und Invarianz (Saint-Mont 2009)
lauten, und man sollte auf keinen Fall die Synthese in Kapitel 5 überschlagen. Kapitel 4 dürfte ebenfalls für (fast) alle Leser interessant sein. Kapitel 6 wendet sich primär an Philosophen, Kapitel 3 an jene, die die Ideengeschichte der Statistik nachvollziehen wollen. Kapitel 2 ist eher für Spezialisten gedacht und kann deshalb bei einer ersten Lektüre übergangen werden. Kapitel 1 sollte zumindest für Wissenschaftler Allgemeingut sein.
Schwerpunktsetzung und mathematische Ausführungen In dieser Schrift geht es vordergründig um Statistik: ihre Stellung im Kanon der Wissenschaften, ihre aktuelle Positionierung und Ausrichtung sowie ihre „philosophische“ Fundierung. Tatsächlich handeln die Ausführungen jedoch xi
xii
Vorbemerkungen
nicht minder von Wissenschaftstheorie sowie deren aktueller Situation, auch wenn dieses Thema zunächst eher im Hintergrund steht und erst im letzten Kapitel explizit behandelt wird. Neben der Wissenschaftstheorie sehen wir die Wissenschaftsforschung. Darüber hinaus sind es die empirischen Wissenschaften, die sich ihrer bestimmenden Rolle bewusst sind und in den Vordergrund drängen. Der gesamte Ablauf wird umrahmt von Erkenntnistheorie, die mit ihren weitverzweigten und historisch gewachsenen Fragen dem Bild die nötige Tiefe verleiht. Doch es ist die Mathematik, welche dem Ganzen Struktur verleiht, die Geschehnisse klärt, mit ruhiger Hand ordnet, Argumenten logischen Halt gibt und ihnen Schärfe verleiht. Omnipräsent und zugleich an der Oberfläche weniger sichtbar, das ist die Rolle der Mathematik in diesem Buch. Viele der entscheidenden Ideen sind tatsächlich inhaltlicher, nicht formaler Natur und lassen sich anhand typischer Beispiele und mit geringem formalem Aufwand erläutern. Hinzu kommen jedoch Heuristiken, rationale Argumente und logische Figuren, die ihre Kraft erst voll entwickeln, wenn sie in Form gebracht, in ein Modell gegossen und mathematisch präzisiert worden sind. Wie die Logik und die erfolgreichsten Naturwissenschaften ist die Statistik untrennbar mit Mathematik verwoben. Würde man diese entfernen, büßte das Gebäude nicht nur seine Stabilität, sondern gleichzeitig auch seinen abstrakten Kern und seine Fundamente ein. Es kommt also nicht nur darauf an, an einigen entscheidenden Stellen exakt zu sein. Die Bedeutung der Mathematik reicht viel weiter: Sie ist die logisch strenge, alles verbindende Argumentationsebene. Damit ermöglicht sie gegenseitiges Verständnis, Kommunikation und Zusammenarbeit. Dazu gleich mehr im nächsten Kapitel. Es ist m.E. kein Zufall, dass die textorientierte Philosophie cum grano salis zu pointierten Positionen neigt, welche sich gerne zu Dogmen verhärten und deren Protagonisten sich häufig mit spitzen Argumenten begegnen, während Wissenschaftler ihre Meinungsdifferenzen mithilfe der neutralen Mathematik besprechen und klären können. Während Gegensätze im Bereich der Philosophie denn auch häufig zu „Ismen“ und Frustration führen, ist ihre Rolle im Bereich der empirischen Wissenschaften viel öfter konstruktiv und fruchtbar. Mit mathematischen Methoden werden zudem Einsichten und Gesetze zugänglich, die mit verbalen Mitteln unerreichbar bleiben. Mit revolutionär neuen, exakten Methoden beginnen schließlich auch wirkliche Lösungen klassischer Fragen zu reifen1 und bislang gänzlich neue Felder lassen sich erschließen. So begann mit Newtons (und Leibniz’) Differential- und Integralrechnung die klassische Physik und mit der Wahrscheinlichkeitsrechnung die traditionelle Statistik. Heute erleben wir, wie fundamentale Auseinandersetzungen um den zentralen Kausalitätsbegriff von einem systematischen Studium einschlägiger Zusammenhänge abgelöst werden, eben weil es den neuen Formalismus gerichteter Graphen gibt. 1
Man denke nur an Achilles’ Wettrennen mit der Schildkröte oder Epimenides’ LügnerParadoxon.
Vorbemerkungen
xiii
Aus all diesen Gründen habe ich die für den Fortgang der Argumentation notwendige Mathematik eher ausführlich erläutert. Mein Ziel war dabei, einem formal wenig vorgebildeten Wissenschaftler den Zugang zu ermöglichen. Der mathematisch versierte Leser möge diese Erläuterungen überblättern und bei Interesse die Quellen konsultieren, wo er eine Vielzahl zumeist weit formalerer Argumentationen findet.2 Im Vordergrund steht jedoch ganz eindeutig das Bemühen, die vorliegende Arbeit einem möglichst breiten Leserkreis zugänglich zu machen. Würde man sie zu sehr mathematisieren, so stünde der erzielte Gewinn an formaler Exaktheit in keinem Verhältnis zum Verlust an intuitiver Einsicht. Interdisziplinarität heißt nicht zuletzt, seine Gedanken so darzulegen, dass sie Vertretern möglichst vieler verschiedener Disziplinen auch zugänglich sind.
Dank Der angenehmen Pflicht, mich bei all jenen zu bedanken, die dieses Buch möglich gemacht haben, komme ich gerne nach. An erster Stelle ist Prof. Klaus Fischer zu nennen, der den Weg von der ersten Skizze bis zum fertigen „Produkt“ maßgeblich unterstützt hat. Durch seinen Ansporn ging es schnell voran und mir blieben zahlreiche fruchtlose Wege erspart. Er und seine Kollegen Prof. Krieger, Prof. Hellhammer und PD Gómez-Tutor (alle Universität Trier) sowie Prof. Rahnenführer (TU Dortmund) haben das Manuskript gründlich geprüft und viele Verbesserungsvorschläge gemacht. In Nordhausen hat Dr. G. Baumbach, der beste Kollege der Welt, das Manuskript nicht nur gründlich studiert, sondern mir auch während eines Forschungssemesters den Rücken freigehalten. Ich danke ihm und der Hochschule für die gewährte zeitliche Entlastung. Die Mitarbeiterinnen der Hochschulbibliothek haben selbst unzugänglichste Literatur gefunden und ohne ihre tatkräftige Unterstützung wäre das Buch nur eine Sammlung von Thesen. Schließlich hat der Springer-Verlag das Manuskript nicht nur umgehend als „gelbe“ Publikation akzeptiert, sondern bei seiner Fertigstellung auch professionell begleitet. Hierfür spreche ich Herrn Dr. Thomas und Frau Blanck meine Anerkennung aus. Viele Fachwissenschaftler lächeln, wenn man ernsthaft allgemeinere „fundamentale“ Fragen erörtert. Das liegt nicht zuletzt daran, dass derartige Diskussionen gerne ins Prinzipielle abgleiten und schnell wenig fruchtbare, weltanschauliche Meinungsverschiedenheiten aufbrechen. Jedoch stößt man auf reges Interesse, wenn man über das fachliche Detail hinausdenkt, punktuelle Resultate sinnvoll verknüpft, interpretiert und in einen größeren Zusammenhang stellt. Derartige „Philosophie“ war, zumindest früher, ehe Spezialisten 2
Ein Paradebeispiel ist die Messtheorie, siehe Kapitel 2. Auch in den Fußnoten habe ich meine „formale Zurückhaltung“ etwas gelockert.
xiv
Vorbemerkungen
das Feld beherrschten und Interdisziplinarität zu einem buzzword wurde, ein selbstverständlicher Bestandteil vieler Wissenschaften. Ich danke deshalb heute ausdrücklich all jenen Kollegen, die mir zugehört haben, für ihre Toleranz, ihr Verständnis und ihre Kommentare. Sie haben mich ermutigt, mich dem vermeintlich unmodernen Thema Statistik und Wissenschaftstheorie zu widmen. Selbstverständlich bin nur ich alleine für alle verbliebenen Fehler verantwortlich. Den größten Dank schulde ich jedoch nicht zuletzt, sondern zuallererst, meiner Familie, die durch ihre liebevolle Unterstützung das ganze Projekt erst möglich gemacht hat.
Kapitel 1
Einleitung Centuries ago, when some people suspended their search for absolute truth and began instead to ask how things worked, modern science was born. Curiously, it was by abandoning the search for absolute truth that science began to make progress, opening the material universe to human exploration. It was only by being provisional and open to change, even radical change, that scientific knowledge began to evolve. And ironically, its vulnerability to change is the source of its strength. Pagels (1985: 370), zitiert nach Kotz und Johnson (1993: xi)
Es gibt unzählige Bücher über Wissenschaft im Speziellen wie im Allgemeinen. Auch die Literatur zur Statistik und Wissenschaftstheorie füllt (kleinere) Bibliotheken. Einige Statistikbücher streifen bei bestimmten Themen nahezu zwangsläufig die Wissenschaftstheorie. Wenn es zum Beispiel um das Testen von Hypothesen geht, fällt mit großer Wahrscheinlichkeit der Name Poppers. Andererseits greifen auch manche wissenschaftstheoretische Bücher neben der (unvermeidlichen?) Logik zuweilen auf die Wahrscheinlichkeitstheorie und darüber hinaus gehend auf die Statistik zurück. Es gibt jedoch kaum Literatur über die Grundlagen der Statistik. Gewiss, es existieren grundsätzliche Überlegungen zum Fach, und es wurden auch schon vehemente Auseinandersetzungen über das richtige „Paradigma“ der Statistik geführt. Auch einige Philosophen haben sich - vor allem mit verbalen Argumenten - mit ihr auseinandergesetzt. Jedoch gibt es fast keine systematisch betriebenen, im Fach verankerten, einigermaßen neutrale Studien, die der Statistik in ihrer Breite und Tiefe gerecht würden. Das heißt, es gibt so gut wie keine etablierten Fachbücher oder eine im Curriculum gelehrte und gelebte, allgemein akzeptierte Philosophie der Statistik. Während die Philosophie der Mathematik so alt ist wie das Gebiet, mit dem sie sich beschäftigt, und seit den Anfängen der Stochastik auch ausführlich über Interpretationen des Wahrscheinlichkeitsbegriffs diskutiert wird, ist es bezüglich der Aufgabe und der Einordnung der Statistik bemerkenswert still geblieben oder aber, die Bemühungen von Fachwissenschaft und Philosophie laufen völlig auseinander.
1.1 Ausgangspunkt Es besteht [. . .] eine ungeheure Kluft zwischen logischen und wissenschaftstheoretischen Analysen von Begriffen der Prüfung, Bestätigung und der Bewährung von Hypothesen auf der einen Seite, und von Fachleuten im Gebiet der mathematischen
U. Saint-Mont, Statistik im Forschungsprozess, DOI 10.1007/978-3-7908-2723-1_1, © Springer-Verlag Berlin Heidelberg 2011
1
2
1 Einleitung Statistik angestellten Untersuchungen über diese Themenkreise auf der anderen Seite. (Stegmüller 1973: 1)1
Jedem Gebiet seine spezielle Wissenschaftstheorie ist zur Zeit eine populäre Forschungsstrategie. Sollte also nicht neben der Philosophie der Mathematik und ihrer Teilgebiete sowie all den speziellen Wissenschaftsphilosophien, insbesondere jener der Sozialwissenschaften (Mantzavinos 2009), Naturwissenschaften, z. B. Biophilosophie (Vollmer 1995b), Philosophie der Chemie (Baird et al. 2006), Philosophie der Physik (Feynman 2007) usw., noch eine spezielle Wissenschaftstheorie der Statistik treten? Ja, selbstverständlich! lautet die genauso naheliegende wie einleuchtende Antwort, womit der Autor dieser Arbeit sein Thema gefunden und zufrieden ans Werk gehen könnte. Das ist aber nicht alles, lautet die Antwort, wenn man etwas tiefer über die Problemstellung nachdenkt, also im besten Sinne des Wortes „philosophiert“. Denn womit beschäftigt sich die Philosophie, was sind ihre Gegenstände? Klassischerweise werden hier Logik, Metaphysik, Ontologie, Ethik und weitere praktische Philosophien sowie Erkenntnis- und Wissenschaftstheorie genannt. Die Erkenntnistheorie fragt ganz allgemein, inwiefern man in der Lage ist, einen bestimmten Gegenstand zu erkennen, also Erkenntnisse über einen Sachverhalt zu gewinnen. Wie belastbar sind unsere Erkenntnisse, wie lassen sie sich begründen oder auch kritisieren? Kann man subjektive Einflüsse vom zu Erkennenden trennen und wenn ja, wie? Warum sind wir als Subjekte in der Lage, scharf zwischen uns Selbst und dem Rest der Welt zu trennen und dabei zugleich vermeintlich stimmige und passende Einsichten über letztere zu formulieren? Diese allgemeinen Fragen verdichten sich im Bereich der Wissenschaftstheorie, weshalb heute Erkenntnis- und Wissenschaftstheorie als Einheit gesehen werden bzw. zu einem verbundenen, feststehenden Ausdruck geworden sind (Störig 1987: 635). Inwieweit ist eine Theorie intersubjektiv verbindlich? Lässt sich der Einfluss der speziellen Instrumente, der konkreten Messung, des sozialen Umfeldes bzw. der eingenommenen Perspektive erkennen, quantifizieren oder vielleicht sogar eliminieren? Inwiefern unterscheiden sich wissenschaftliche Erkenntnisse und Forschungsstrategien von anderen Ansätzen? Warum sind die modernen Naturwissenschaften so erfolgreich, und wo liegen die Grenzen der Erkenntnis? Fragen dieser Art habe ich in (Saint-Mont 2000) diskutiert, wobei der Fokus darauf liegt, die Wissenschaftstheorie aus der Erkenntnistheorie herzuleiten. Versteht man Wissenschaftstheorie als die Metatheorie der Wissenschaften, also als jene Wissenschaft, deren Forschungsfeld gerade die Wissenschaften sind, so kommt man konsequenterweise zu sehr konkreten, empirischen Fragestellungen. Denn wie der Erkenntisgewinnungsprozess der Natur- und Geisteswissenschaften funktioniert, ist letztlich eine empirische Frage. Anstatt darüber nachzudenken, wie Wissen gewonnen wird und und welche 1
Das gesamte Zitat wird im Original hervorgehoben. Soweit nicht ausdrücklich anders angegeben, sind im folgenden bei allen Zitaten Hervorhebungen im Original.
1.1 Ausgangspunkt
3
Probleme es dabei im Prinzip gibt, schaut man sich intensiv die Wissenschaftspraxis an. Es ist deshalb nur konsequent, dass das Studium der Wissenschaftsgeschichte im Rahmen der Wissenschaftstheorie eine immer größere Rolle einnimmt. Schon die berühmten Paradigmenwechsel (Kuhn 1962) entstammen nicht philosophischer Spekulation, sondern gründen sich auf eine (zugegebenermaßen umstrittene) Rekonstruktion der Geschichte der Physik. Auch die aktuelle wissenschaftstheoretische Kontroverse um die Frage, ob bzw. inwieweit die Maßstäbe und Methoden der Wissenschaft universell und ahistorisch sind oder aber mehr oder minder stark von nicht primär wissenschaftlichen Aspekten abhängen, lässt sich so interpretieren. Insbesondere politische, gesellschaftliche und wirtschaftliche Interessen werden von einer ganzen Reihe relativistischer Ansätze geltend gemacht (siehe Chalmers 1999, 2006), auch persönliche Faktoren wie Geschlecht (Gender Studies), sozialer Status2 und andere persönliche Faktoren werden diskutiert. Ganz allgemein wandelten sich in den letzten Jahrzehnten prinzipielle philosophische Diskussionen über das Wesen von Wissenschaft zu klarer umrissenen Fragen der Wissenschaftsforschung. Von besonderer Bedeutung sind dabei naheliegenderweise jene Wissenschaften, die in den letzten Jahrzehnten und Jahrhunderten außerordentlich erfolgreich waren und infolge dessen geradezu explosionsartig gewachsen sind - die Naturwissenschaften. Was ist das Geheimnis ihres Erfolges, wie funktioniert der Erkenntnisprozess der Naturwissenschaften? Die aktuelle Wissenschaftsforschung stellt sich dieser Aufgabe. Unbestritten ist, dass das Galileo Galilei zugeschriebene Zitat Miß alles, was sich messen läßt, und mach alles meßbar, was sich nicht messen läßt.3
zentrale Elemente erfolgreicher Erkenntnisgewinnung zumindest anreißt: • Eine dezidiert empirische Ausrichtung, welche auf aktives Forschen und Experimentieren, eng verbunden mit der Erschließung neuer Felder, großen Wert legt.4 • Die zentrale Bedeutung quantitativer Methoden und Aussagen. Gerade den letzten Aspekt unterstreicht Galilei (1623) mit seinem berühmten Zitat Die Natur spricht die Sprache der Mathematik.5 2
Wie heißt es schon bei Marx (1972a: 9): „Es ist nicht das Bewußtsein der Menschen, das ihr Sein, sondern umgekehrt ihr gesellschaftliches Sein, das ihr Bewußtsein bestimmt.“ 3
Siehe Kleinert (1988), der herausarbeitet, dass Galileo dieses Zitat wohl in den Mund gelegt wurde. 4 Selbstverständlich gab es mehr als einen „Vater“ der empirischen Forschung. Besonders erwähnt werden sollte der britische Empirismus und natürlich Bacon (1620). 5 Galilei (1623) etwas ausführlicher: „Die Philosophie steht in jenem großen Buch geschrieben, das uns ständig offen vor Augen liegt (ich spreche vom Universum). Aber dieses Buch
4
1 Einleitung
Heute würde man wesentlich profaner sagen, dass man es mit Daten zu tun hat. Alle erfolgreichen empirischen Wissenschaften sammeln, erheben und interpretieren Daten. Die Gewinnung aussagekräftiger quantitativer Daten also letztlich von Zahlen - ist der Kern jeder empirischen Untersuchung.6 Genau hier kommt die Statistik ins Spiel, versteht sie sich doch als die Wissenschaft von der Sammlung, Zusammenfassung, Analyse und Interpretation von Daten. Ein prototypische Definition geben Efron und Tibshirani (1993: 1): Statistical theory attempts to answer three basic questions: (i) How should I collect my data? (ii) How should I analyze and summarize the data I’ve collected? (iii) How accurate are my data summaries?
Auch viele andere Autoren heben auf einen oder alle diese Aspekte bei ihrer Begriffsbestimmung der Statistik ab. Für eine umfangreiche Sammlung siehe den ersten Abschnitt von Barnett (1999: 1ff) und Box et al. (1968). Versteht man „Daten“ in einem weiten Sinn, so muss es sich dabei nicht unbedingt um Zahlen handeln. Bei Daten handelt es sich bei diesem Verständnis um alle Informationen, die Auskunft über einen empirischen Sachverhalt geben - seien sie qualitativ oder quantitativ, schriftlich festgehalten oder auch nicht, als Zeichnung, Zahl oder natürlichsprachlich formuliert, präzise oder unpräzise. Entscheidend ist, dass Daten den Kontakt zur Empirie herstellen, es sich also z. B. um einen gelehrten Reisebericht des 19. Jahrhunderts statt um einen fiktiven Roman Jules Vernes’ handelt; man es mit einem gemessenen Wert und nicht mit einer beliebigen Zahl innerhalb einer rein mathematischen Rechenaufgabe zu tun hat.7 ist nicht zu verstehen, ehe man nicht gelernt hat, die Sprache zu verstehen, und die Buchstaben kennt, in denen es geschrieben ist. Es ist in der Sprache der Mathematik geschrieben, und die Buchstaben sind Dreiecke, Kreise und andere geometrische Figuren. Ohne diese Mittel ist es dem Menschen unmöglich, ein einziges Wort davon zu verstehen; ohne sie ist es ein vergebliches Umherirren in einem dunklen Labyrinth.“ Kurz zusammengefasst heißt es bei Schmutzer und Schütz (1989: 85): „Wer naturwissenschaftliche Fragen ohne Hilfe der Mathematik lösen will, unternimmt Undurchführbares. Man muss messen, was meßbar ist, und meßbar machen, was es nicht ist.“ Juhos und Schleichert (1966: 10f) verweisen auf einen wichtigen Vorgänger dieser eminenten Ideen, den Renaissance-Philosophen Zabarella und beschreiben Galileis konkrete Vorgehensweise. 6 Die einzige empirische Wissenschaft, welche sich bislang konsequent gegen diese Einsicht sperrt, ist die Soziologie. Dort dominieren nach wie vor eher prinzipiell-theoretische Überlegungen, Modelle werden typischerweise nicht-mathematisch formuliert und bei der Ausbildung des Nachwuchses spielen quantitative Methoden nur eine untergeordnete Rolle. Man beachte jedoch Lieberson (1985) und die sich auf ihn berufende Literatur. Vor allem in den USA gibt es eine wachsende Gruppe quantitativ arbeitender Gesellschaftswissenschaftler, und auch viele den Wirtschaftswissenschaften nahe stehende Forscher haben keine prinzipiellen Vorbehalte mehr. Ein Blick auf den berühmten Positivismusstreit (Dahms 1994) zeigt, dass dem nicht immer so war. 7
Will man prägnant den Unterschied zwischen Mathematik und Statistik beschreiben, so kann man sagen, dass sich die Mathematik mit Zahlen und darüber hinausgehend logisch in sich stimmigen Strukturen beschäftigt, während es in der Statistik um Daten geht, also um Zahlen mit empirischer Bedeutung.
1.1 Ausgangspunkt
5
So gesehen ist die Mathematik nicht mehr als eine Hilfswissenschaft, mit welcher sich die notierten Zahlen effizient weiterverarbeiten lassen. Genau aus diesem Grund schreibt auch Menges (1982: 15): „Am wichtigsten sind die Daten, das zweitwichtigste ist die jeweilige Sachtheorie (z. B. Biologie, Wirtschaftswissenschaften), dann erst kommen die Methoden. Bisher hat man in der Statistik die Methoden überbewertet.“ Zahlen und mathematische Methoden, gerne quantitativ genannt, haben jedoch den unschätzbaren Vorteil, präzise zu sein. Sie sind sogar in vielerlei Hinsicht exakt: 1. In sich unscharfe verbale Aussagen werden durch Zahlenangaben zumindest ergänzt. (Man blickt also bildlich gesprochen durch eine viel schärfere Brille.) 2. Man kann Effekte, insbesondere auch bei der Beobachtung auftretende Fehler, quantifizieren. 3. Das gesamte methodische Instrumentarium der Mathematik wird nutzbar, welches von numerischen Berechnungen über symbolische Umformungen bis hin zu vollständig formalisierten Theorien reicht. 4. Vorhersagen werden messbar. Dadurch lassen sie sich leichter prüfen. 5. Der innere Aufbau von Theorien wie auch deren Formulierung sowie die Datenerhebung werden stringenter und damit sowohl einfacher als auch transparenter. 6. Experimente lassen sich gezielter und mit größerer Genauigkeit durchführen. 7. Es lassen sich logisch exakte Folgerungen ableiten. 8. Widersprüche und Artefakte aller Art werden erheblich leichter aufdeckbar.8 Die Geschichte der Statistik selbst liefert einen anschaulichen Beleg für die Überlegenheit quantitativer Methoden. Im Rahmen der sogenannten Universitätsstatistik9 wurde mehrere Jahrzehnte, wenn nicht sogar Jahrhunderte lange dezidiert nicht-quantitativ gearbeitet. Menges (1982: 5) beschreibt die Folgen: „Die Universitätsstatistik war deskriptiv orientiert, die Politische Arithmetik analytisch; die Universitätsstatistik begnügte sich mit ungenauen Angaben, die Politische Arithmetik strebte nach Exaktheit; die Universitätsstatistik verwandte nur gelegentlich Zahlenangaben, die Politische Arithmetik basierte auf Zahlen; die Universitätsstatistik war eine Kathederlehre, die Politische Arithmetik kam aus der Praxis.“ Daraus schließt er: „Konfrontiert man diese Gegensätze mit dem Stil moderner Wissenschaftlichkeit, so erkennt man 8
Feynman (2007: 54) fasst viele der von uns genannten Gründe wie folgt zusammen: „[. . .] Mathematik ist eben nicht allein eine andere Sprache. Mathematik ist eine Sprache plus Schlussfolgerungen; sie ist gleichsam eine Sprache plus Logik. Mathematik ist ein Werkzeug, um Schlüsse zu ziehen. Sie ist eine gewaltige Sammlung logischer Denkresultate.“ (Hervorhebung im Original) 9 Etwa ab dem Jahr 1600, siehe z. B. Menges (1982: Kapitel 1; 2. Abschnitt).
6
1 Einleitung
die historische Überlegenheit der Politischen Arithmetik [. . .]“ Sogar der Name Statistik wurde von der Politischen Arithmetik „usurpiert“.10 Auch Kelvin (1891: 80f), zitiert nach Michell (2003b: 7), schreibt völlig unzweideutig: In physical science a first essential step in the direction of learning any subject is to find principles of numerical reckoning and methods for practicably measuring some quality connected with it. I often say that when you can measure what you are speaking about and express it in numbers you know something about it; but when you cannot measure it, when you cannot express it in numbers, your knowledge is of a meagre and unsatisfactory kind; it may be the beginning of knowledge, but you have scarcely in your thoughts advanced to the stage of science, whatever the matter may be.
Nun gibt es nicht nur quantitative Methoden, sondern auch in mathematischer Sprache formulierte Theorien, insbesondere in den besonders weit entwickelten und zugleich besonders erfolgreichen Wissenschaften. Man kann die Physik seit Newton nur verstehen, wenn man in der Lage ist, die von ihr verwendete Mathematik zumindest nachzuvollziehen. Physikalische Theorien sind untrennbar mit der Mathematik verwachsen, jeder Versuch, ihre Begriffe und Strukturen umgangssprachlich zu fassen oder auch nur zu erläutern führt unweigerlich zu einem substanziellen Verlust. Häufig wurde mathematische Theorie sogar für einen bestimmtes Feld entwickelt. Was ist der Grund dieser „unvergleichlichen Leistungsfähigkeit der Mathematik in den Naturwissenschaften?“ 11 Zumindest folgende Gründe sind zu nennen: 1. Präzision: Mathematische Begriffe erlauben es, sich exakt auszudrücken. Man kann auch subtilen Unterschieden gerecht werden. 2. Klarheit: Zahlen - aber auch alle anderen Begriffe der Mathematik - sind völlig unzweideutig. Es ist klar, was sie bedeuten. (Semantischer Vorteil) 3. Transparenz: Axiome legen den Rahmen fest, innerhalb dessen man sich bewegt. Deshalb sind auch sämtliche mit ihrer Hilfe errichteten mathematischen Strukturen völlig transparent. Logische Fehler lassen sich leichter aufspüren, als bei (in sich unscharfen) verbalen Formulierungen. 4. Verbindlichkeit: Die Axiome, und nichts sonst, bestimmen die Regeln. Da sie für alle Forscher gleich sind, folgt auch sofort intersubjektive Verbindlichkeit. 5. Strenge: Die Sprache der Mathematik ist logisch-streng. Dies gibt dem ganzen Projekt einen festen Halt. (Syntaktischer Vorteil) 6. Monotonie: Mathematische Ergebnisse bleiben gültig, egal wie sich verbale Diskussionen entwickeln, d.h., mathematisch tradiertes Wissen erodiert nicht.12 10 11
Für viele weitere Details siehe Sheynin (1977: 216-231, 255).
Siehe den berühmten Beitrag von Wigner (1960), der sogar von einer unreasonable effectiveness spricht. 12 Das Gegenteil ist sogar der Fall: Neue Einsichten können sich problemlos an die tradierten Gewissheiten anlagern oder diese verallgemeinern. Mathematische Strenge und Systematik sorgen zudem ganz automatisch für Ordnung.
1.1 Ausgangspunkt
7
7. Konstruktion: Mathematische Kritik ist konstruktive Kritik. Zumeist trägt sie zur Problemlösung aktiv bei, indem sie ein Begriffsgebäude bereitstellt, aus dem hervorgeht, wie etwas funktioniert.13 8. Kalkül: Last but not least ermöglicht es die Mathematik, logisch-strenge Schlussfolgerungen zu ziehen, insbesondere kann man, ausgehend von bestimmten Voraussetzungen, etwaige Folgen berechnen.14 Alle wirklich großen Philosophen und Naturwissenschaftler waren derselben Ansicht. Bei Galilei begann unsere Diskussion. Einige weitere, sehr klare Beispiele mögen genügen:15 Leonardo da Vinci (1452-1519): „Wer die erhabene Weisheit der Mathematik tadelt, nährt sich von Verwirrung.“ Newtons Hauptwerk (1687) heißt Philosophiae Naturalis Principia Mathematica und er schreibt im Vorwort:16 “[. . .] the moderns, rejecting substantial forms and occult qualities, have endeavored to subject the phenomena of nature to the laws of mathematics, I have in this treatise cultivated mathematics as far as it relates to philosophy [science] . . . and therefore I offer this work as the mathematical principles of philosophy [. . .]” Kant (1786: 14): „Ich behaupte aber, daß in jeder besonderen Naturlehre nur so viel eigentliche Wissenschaft angetroffen werden könne, als darin Mathematik anzutreffen ist.“ Einstein (1953): “Development of Western science is based on two great achievements: the invention of the formal logical system (in Euclidean geometry) by the Greek philosophers, and the discovery of the possibility to find out causal relationships by systematic experiment (during the Renaissance).” Tukey (1969: 728): “Bear in mind a simple fact: the great majority of the useful facts that physics has learned - and recorded in numbers - are specific 13
Oftmals lässt sich daraus sofort ein konkreter Bauplan für die konkrete Situation gewinnen, zuweilen sogar logisch-streng ableiten. 14 Wirtz (2007) schreibt sehr schön: „Wozu braucht der Ingenieur, Techniker oder Architekt Mathematik? [. . .] Merke: Mathematik ist die Sprache der exakten Naturwissenschaften und damit der Technik. Auf sie baut die Technik Effizienz und Sicherheit in komplexeren Situationen. Durch sie unterscheidet sich der Ingenieur vom Handwerker. Als Sprache der exakten Wissenschaften ist Mathematik Bedingung für interdisziplinäres Arbeiten wie auch für die Wissenskommunikation (speziell das Lesen von Fachliteratur oder Normen). Dem Ingenieur obliegt traditionell die technische Leitaufgabe: Als ‚Kopfwerker‘ dient er dem Handwerker - und nicht als tabellenkonsumierende oder ‚stuhlwärmende‘, marktschreiende Hilfskraft, der alles mangels Grundlagenkenntnissen noch erklärt werden muss, die mangels fundierten Einsichten für zentrale Anliegen nur lückenhaft Verständnis aufbringen kann und die sich auf das Vertrauen in die übernommene ‘black box’ stützen muss, so letztlich dem Zufall ausgeliefert statt auf Berechnungen gestützt. Ein Ingenieur muss seiner Aufgabe gewachsen sein, die übernommene Verantwortung bezüglich Sicherheit und Effizienz in allen Aspekten überprüfbar zu tragen - und nicht nur referenzbasiert mit Hilfe der Krücke von Verweisen.“ 15 16
Für viele weitere Beispiele siehe Michell (2000). Siehe Kline (1980: 54)
8
1 Einleitung
and detailed, not global and general. The qualitative properties of things have proved much less important than the quantitative ones.” 17 Feynman (2007: 74f): „Die Physik läßt sich in keine andere Sprache [als jene der Mathematik] übersetzen. Wenn Sie etwas über die Natur erfahren, sich ein Bild von ihr machen wollen, müssen Sie sich der Sprache bedienen, die sie spricht. Sie gibt ihr Geheimnis nur in einer Form preis [. . . Zuweilen stellt man einfach] eine Gleichung auf und hat damit das Gesetz entdeckt - allem Anschein nach eine recht effektive Methode, die einmal mehr beweist, wie gut sich die Mathematik eignet, die Tiefen der Natur auszuloten. Dagegen können alle Versuche, sie durch philosophische Prinzipien zu erfassen oder durch die Einbildung, sich auszudenken, einpacken.“ Hilbert (1930): „Die Mathematik ist das Instrument, welches die Vermittlung bewirkt zwischen Theorie und Praxis, zwischen Denken und Beobachten: sie baut die verbindende Brücke und gestaltet sie immer tragfähiger. [. . .] Wir beherrschen nicht eher eine naturwissenschaftliche Theorie, als bis wir ihren mathematischen Kern herausgeschält und völlig enthüllt haben. Ohne Mathematik ist die heutige Astronomie und Physik unmöglich; diese Wissenschaften lösen sich in ihren theoretischen Teilen geradezu in Mathematik auf.“ Bei einer so verstandenen „angewandten“ Mathematik handelt es sich also nicht um irgendeine randständige Hilfstätigkeit, die man im Prinzip auch anders ausführen oder gar vernachlässigen könnte. Ganz im Gegenteil: Bei einer mathematisch formulierten empirischen Theorie, handelt es sich um nicht weniger als um das kristallisierte Verständnis realer Sachverhalte - streng, deduktiv aus Prinzipien hergeleitet, komprimiert, verbindlich und unmittelbar konstruktiv verwertbar. Dies hat Rényi (1972) in seinen Dialogen meisterhaft zum Ausdruck gebracht und dem entsprechend sagt der häufig zitierte David-Report (1984): „Hochtechnologie ist im Wesentlichen mathematische Technologie!“ Lassen wir einem Philosophen in dieser Angelegenheit das letzte Wort: Die Vorteile der quantitativen Sprache sind so augenscheinlich, daß man sich wundern muß, warum so viele Philosophen ihren Gebrauch in den Wissenschaften kritisiert haben. (Carnap 1982: 118)
Wissenschaftstheorie, -forschung und Statistik Was bedeutet dies alles für die von uns angestrebte Untersuchung der Grundlagen der Statistik? Geht man von der eher allgemein-philosophisch vagen 17
Hervorhebung im Original, da Tukey programmatisch fortfährt: “Why should this not hold true for people? I believe that just this will prove to be so, but not without much effort. Even if the task is hard, is it not past time to begin, especially in selected, more or less well-understood, subfields?” Noch prägnanter sagt Thorndike (1918: 16), zitiert nach Michell (2000: 655): “Whatever exists at all exists in some amount. To know it thoroughly involves knowing its quantity.”
1.1 Ausgangspunkt
9
Erkenntnistheorie zu den schärfer umrissenen Problemen der Wissenschaftstheorie über, so ergibt sich ein erster Zugewinn an Präzision. Geht man den Schritt zur Wissenschaftsforschung, so gewinnt man zusätzlich die empirische Ausrichtung. Geht man schließlich einen weiteren Schritt zur Statistik, so erschließt man sich den Vorteil quantitativer und mathematisch-exakter Argumente. (Quantitative) Wissenschaftsforschung und (empirische) Statistik sind jedoch keine Gegensätze. Der Unterschied liegt vor allem in ihrer Positionierung: Die Wissenschaftsforschung erhebt sich als Metawissenschaft über den Einzelwissenschaften und versucht gewissermaßen aus der Vogelperspektive die Quintessenz von Forschung zu erspähen.18 Die Statistik betrachtet den Prozess der Erkenntnisgewinnung hingegen aus der Froschperspektive. Zwischen der wissenschaftlichen Theorie „oben“ und dem empirischen Grund „unten“ liegen die Daten, auf die sich jede empirische Wissenschaft maßgeblich stützt. Wie wir festgestellt haben, ist genau deren Erhebung, Analyse und Interpretation das Feld der Statistik. Einige Autoren bringen sogar den engen Zusammenhang zwischen Wissenschaftstheorie und Statistik explizit zum Ausdruck, etwa Hand (1998a: 245): Statistics [is] a scientific method or applied philosophy of science.19 Buja (2006: 329) führt dies aus: Indeed, similar to the way the natural sciences replaced what was formerly the ‘philosophy of nature’, statistics appropriated topics that used to belong to ‘epistemology’. Again similar to the natural sciences, statistics developed some aspects of epistemology beyond anything that philosophers of the past could have anticipated. In as far as the business of statistics [is] to ponder the question ‘how is it possible to extract knowledge from empirical observations?,’ our field is the legitimate inheritor of the quantifiable aspects of epistemology.
Das heißt, es geht bei einer Philosophie der Statistik bei weitem nicht nur um eine (weitere) spezielle Wissenschaftstheorie. Im Gegenteil: Die Fundamente der Statistik sind deshalb von besonderer Bedeutung, weil sich in ihrem exakten Rahmen allgemeine erkenntnistheoretische Probleme klären lassen. Alle empirischen Wissenschaften, aber auch die Wissenschaftsforschung, -theorie und darüber hinausgehend die allgemeine Erkenntnistheorie bauen auf Fakten und Daten auf bzw. beschäftigen sich mit dem Gewinn von Erkenntnissen. Versteht man nun den erfolgreichen Erkenntnisprozess der Naturwissenschaften und insbesondere deren Art und Weise, mit Daten umzugehen, so sollten sich allgemeine Rückschlüsse ziehen lassen. Statistische Verfahren, Theorien und Schlussweisen können also als quantitative Modelle einer allgemeinen Erkenntnis- und Wissenschaftstheorie dienen. Statistik ist Erkenntnis- und Wissenschaftstheorie im Kleinen und im Exakten. Poetischer formuliert: In der Statistik trifft sich die Tiefe der Philosophie mit der Schärfe der Mathematik zu einem „empirischen Stelldichein.“ 18
Dabei lädt ein Instrument wie der Science Citation Index zu statistischen, quantitativen Untersuchungen geradezu ein! 19
Meine Hervorhebung, siehe hierzu auch die gleichlautenden Bemerkungen von Dawid, S. 124.
10
1 Einleitung
Dieses „Rendezvous“ ist nicht ohne Folgen geblieben. Aus Anlass der 150Jahr-Feier der Royal Statistical Society bemerkte einer der beiden geladenen Festredner: We face continuing controversy and disagreement within our own ranks concerning the deepest of all issues which we claim as our own, the methodology of scientific inference. This is not a matter which we can safely ignore. If statistics is to be more than playing with numbers, it must address itself to the basic questions of the nature of the conclusions which the mind is entitled to draw from the numbers and the so-clever analyses of them that we as statisticians devise. These questions are not new, indeed they are among the very oldest that man has chosen to set before himself, and it is possible to feel that little enough progress has been made towards answering them in a period of 2000-3000 years. I think that we can justifiably claim that, during the last 150 years, more light has been shed on them by statisticians than by followers of other disciplines, whether scientific of philosophical. Many of the most difficult problems of epistemology have been illuminated by statistical thinking, and many current discussions of the scientific method would be more productive if they took on board the conceptual innovations which we are accustomed to associate with the names of Fisher, Savage or Birnbaum - to mention only some who are no longer with us. (Healy 1984)
1.2 Abbildung der Realität Thought is primarily practical; and only in the second place theoretical [. . .] without theory there would only be a few rudimentary types of practice, but without practice there would be no theory at all. (Collingwood 1942)
Alle wirklich realistischen Positionen in der Erkenntnistheorie gehen davon aus, dass die äußere Wirklichkeit von einem erkennenden Subjekt (mehr oder minder zuverlässig) wahrgenommen werden kann. Zudem wird die Realität typischerweise als sehr unabhängig vom Subjekt angenommen. Die projektive Erkenntnistheorie (siehe z. B. Vollmer (1995a: Kapitel 5)) formalisiert diese Idee. Dabei orientiert sie sich an der Abbildung bzw. Projektion (⇒) eines Objektes auf einen Schirm: Objekt =⇒ Bild ⊆ Schirm
(1.1)
und formuliert das folgende erkenntnistheoretische Modell:20 Reale Welt =⇒ Empfindung / Wahrnehmung ⊆ Erkenntnisapparatur (1.2) Man beachte, dass hierbei Welt und Projektion (das Signal und die Signalverarbeitung) „objektiv“ sein sollen, während Bild und Erkenntnisapparatur zum wahrnehmenden Subjekt gehören. Einfluss auf die subjektiv wahrgenommene Empfindung haben also drei Komponenten: 20
Siehe insbesondere Vollmer (1994: 122ff)
1.2 Abbildung der Realität
11
1. Das abgebildete Objekt bzw. die reale Welt 2. Die Projektion, also die Abbildungsvorschrift 3. Die Struktur des Schirmes bzw. des Wahrnehmungsapparates Vollmer schreibt hierzu (Hervorhebung im Original): Kennt man diese drei Bestimmungsstücke, so kann man das Bild bestimmen (konstruieren). Das Bild wird dabei nicht in allen Zügen mit dem Original übereinstimmen. Es bleibt jedoch immer eine gewisse partielle Isomorphie bestehen. Kennt man nur das Bild, so kann man deshalb „umgekehrt“ versuchen, aufgrund von Annahmen (Hypothesen!) über den eigentlichen Gegenstand, den Projektionsmechanismus und den Aufnahmeschirm das Bild zu „erklären“. Auf diese Weise ist es möglich, aus dem Bild hypothetische (!) Informationen über das projizierte Objekt zu gewinnen.
Das gerade aufgestellte Modell der subjektiven Erkenntnis ist sehr natürlich. Im wesentlichen stellt es die Gemeinsamkeiten fast aller realistischen Theorien unserer Erkenntnis anschaulich dar. Es gibt eine (äußere) Welt mit Objekten. Diese werden (zuweilen) auf unsere subjektive Welt abgebildet, wo wir sie als Sinneseindruck bzw. Empfindung wahrnehmen. Fast alle in der Erkenntnistheorie vorherrschenden realistischen Auffassung teilen diese Ansicht. Sie differieren jedoch im Ausmaß der „partiellen Isomorphie“. Während ein naiver Realist das Wort „partiell“ einfach streichen könnte, investieren kritischere Formen des Realismus viel Aufwand in die Frage, was unter „partiell“ genau zu verstehen ist. Bereits das Wort Projektion ist unscharf und stellt eine Einschränkung dar. Bei der Mercator-, Peters-, Behrmann- und anderen in der Geodäsie gebräuchlichen Projektionen wird der dreidimensionale Globus auf eine zweidimensionale Karte abgebildet. Diese speziellen Abbildungsvorschriften verallgemeinert man in der sogenannten projektiven Geometrie zu einer Gruppe zulässiger Transformationen.21 Häufig versteht man in der Mathematik jedoch unter Projektionen auch einfach Abbildungen, welche höherdimensionale Räume in Räume mit niedrigerer Dimension überführen, insbesondere wenn man aus einem n-dimensionalen Vektor (x1 , x2 , . . . , xn ) gewisse der Komponenten, etwa (x1 , x2 ), „ausliest.“ Versucht man diese Unschärfe zu umgehen und spricht stattdessen einfach von einer Abbildungstheorie der Erkenntnis, so ist das zwar genauer, stellt aber immer noch eine Einschränkung dar. Zum einen gibt es neben den Abbildungen im engen mathematischen Sinne noch allgemeinere Möglichkeiten, Realität und Empfindung in Relation zu setzen. Zum anderen werden - empirisch gesehen - im Allgemeinen zwei verschiedene Bilder von unseren Augen wahrgenommen, so dass offensichtlich erst eine konstruktive Leistung unseres Gehirn diese wieder zu einer Empfindung zusammensetzt. Noch an anderen Stellen bleibt das Modell vage. Zum Beispiel beschreibt es nur ungenau, wie der Übergang von (objektiver) äußerer Welt zu (subjektiver) Empfindung erfolgt. Es wird auch nicht erläutert, welche Eigenschaften des Objektes von uns überhaupt wahrgenommen werden können (hierauf gibt 21
Für eine klassische Darstellung siehe z. B. Courant und Robbins (2001: Kapitel IV, §2).
12
1 Einleitung
allerdings die evolutionäre Erkenntnistheorie eine sehr plausible Antwort).22 Schließlich bleibt ganz entscheidend offen, wie sich denn aus der Kombination aller Informationen im wahrgenommenen Objekt die jeweiligen Einflüsse von Objekt, Projektion und Wahrnehmungsapparat isolieren lassen. Zur Empfindung tragen ja alle drei Komponenten etwas bei. Wie kann man aus der Mischung aller dieser Einflüsse die einzelnen Beiträge zurückgewinnen? Hierzu ein kleines statistisches Modell: Das Objekt A werde auf die Erkenntnisapparatur B abgebildet. Die Abbildung entspreche gerade einer „Multiplikation“, welche zur Empfindung C führe. In einer Gleichung: C = A · B. Wenn man nun nur C kennt, ist man nicht in der Lage, auf A oder B zurückzuschließen. Man sagt dann, dass A und B nicht identifizierbar seien. Die Situation ist unterbestimmt, weshalb man nicht zwingend von C auf A schließen kann. Nur unter zusätzlichen Annahmen, z. B. dass B positiv ist, lässt sich aus der Kenntnis von C genaueres über A sagen. Ist z. B. das beobachtete C negativ, so muss auch A < 0 sein.
1.3 Empirische Wissenschaften The statistician cannot excuse himself from the duty of getting his head clear on the principles of scientific inference, but equally no other thinking man can avoid a like obligation. (Fisher 1966: 2)
Die empirischen Wissenschaften gehen im Prinzip ebenfalls von Modell (1.1) aus. Ein empirischer Sachverhalt, eine Struktur, ein Objekt wird beobachtet, und das Ergebnis sind gewisse Daten. Damit steht auch die Wissenschaft vor demselben erkenntnistheoretischen Grundproblem: Wie lassen sich - aufgrund der zur Verfügung stehenden Daten - Abbildung und Objekt trennen bzw. wie unterscheidet man zwischen den Eigenschaften der Abbildung und des Objekts?
1.3.1 Subjektunabhängigkeit Die Situation ist insofern einfacher, weil man - anders als in der Erkenntnistheorie - in den meisten Fällen vom erkennenden Subjekt absehen kann. Der in der Erkenntnistheorie immer sehr problematische Übergang von objektiven 22
Eine Präzisierung des Modells findet sich in Saint-Mont (2000: 36-64). Dort wird zum einen Shannons Theorie der Signalübertragung, welche zwischen Signal und Fehler unterscheidet, verwendet. Zudem wird diskutiert, dass nur ein Teil der im Prinzip vorhandenen Informationen beim Subjekt ankommt (Selektionseffekte) und schließlich wird argumentiert, dass das Subjekt die empfangenen Informationen noch (in einem Kontext) interpretieren muss. Ein anderer Versuch der Präzisierung mithilfe der modernen mathematischen Abbildungstheorie ist Saint-Mont (2000), Anhang A.
1.3 Empirische Wissenschaften
13
Fakten zu subjektiven Anschauungen entfällt, da die Daten - z. B. notiert in einem Labortagebuch, einer elektronischen Datei oder aber auch einem wissenschaftlichen „Paper“ - genauso objektiv wie die anderen Komponenten des Modells sind. Handelt es sich bei den Ergebnissen um Zahlen, so hat dies einen weiteren Vorteil. Der „Schirm“ ist dann nämlich streng genommen die gesamte Mathematik. Alle empirischen Strukturen, die sich in Form von Zahlen und deren Beziehungen abbilden, können mit den genauso exakten wie umfangreichen Methoden der Mathematik analysiert werden. Dies ist ein immenser Vorteil gegenüber vagen Anschauungen oder gar einer subjektiven Empfindung! Intersubjektive Verbindlichkeit, sowohl was die Daten als auch was die Ergebnisse der numerischen Analyse anbelangt, wird so möglich. Auch sehr große Datenmengen können bequem gespeichert und ausgewertet werden, wobei die Präzision lediglich von der Güte der Messung, also der Genauigkeit der Übertragung von der empirischen Welt auf den uns zur Verfügung stehenden Datenträger abhängt. Das Grundmodell nimmt somit für die empirischen Wissenschaften die folgende Gestalt an: Empirische Struktur =⇒ Daten ⊆ Mathematik
(1.3)
Das Potenzial dieser Art der Aufzeichnung und Auswertung von Informationen ist immens. Zum ersten demonstrieren zahlreiche Naturwissenschaften, dass äußerst aussagekräftige Daten gewonnen werden können. Zum zweiten ist die Mathematik der einzige Bereich unserer Erkenntnis mit sicherem Wissen,23 und es lassen sich alle zuvor genannten Vorzüge der Mathematik ausspielen. Zum dritten ist aufgrund der Theorie der Berechenbarkeit (Turing 1936) sichergestellt, dass unsere Computer - Universalrechenmaschinen aus Daten im Prinzip alles berechnen können, was überhaupt sinnvollerweise berechenbar genannt werden kann. Auch hier wäre es wünschenswert, die „Projektion“ (⇒) präziser zu beschreiben. Wie man sich leicht klar macht, handelt es sich im einfachsten Fall um eine Beobachtung ohne weitere Hilfsmittel, etwa wenn ein Arzt zählt, wie oft das Herz eines Patienten pro Minute schlägt, oder ein Astronom mit dem „unbewaffneten Auge“ die Positionen von Sternen bestimmt. Im Allgemeinen wird man den Übergang von realer Welt in das Universum der formalen Strukturen als Messung bezeichnen, an der auch mehr oder minder sophistizierte Instrumente beteiligt sein können. Den Extremfall stellen womöglich die tonnenschweren Detektoren der Teilchenphysiker oder die riesigen Teleskope der Astronomen dar. Wie auch immer die Details im konkreten Fall aussehen - Der zentrale Punkt ist, dass bei einer Messung eine reale Gegebenheit oder Struktur in Zahlen und formale Zusammenhänge überführt wird. 23
Dem Autor ist bewusst, dass nicht jeder zeitgenössische Philosoph diese Ansicht teilt, siehe Kline (1980) und Zimmermann (1995). Der Leser, dem der Begriff „sicher“ zu weitgehend ist, wähle stattdessen die schwächere, aber wohl unstrittige Formulierung „Mathematische Erkenntnisse sind die sicherste Art von Wissen, die der Mensch kennt.“
14
1 Einleitung
Genau das ist auch die mittlerweile klassische und sehr weite Definition von Stevens (1951: 29): “The most liberal and useful definition of measurement is the assignment of numerals to things so as to represent facts and conventions about them.”
1.3.2 Replikation Die Ergebnisse eines einzelnen Experiments, einer isolierten Untersuchung oder Studie sind in den seltensten Fällen für sich genommen überzeugend. Der Grund ist ebenfalls in Modell (1.1) bzw. (1.3) zu erblicken: Untersucht man einen Sachverhalt nur ein einziges Mal, so vermengen sich im Ergebnis überdauernde, permanente Effekte und spezifische Faktoren. Beide determinieren das Ergebnis, doch sind die einen vorübergehend oder der speziellen Situation geschuldet, und damit letztlich unerheblich, während die anderen über das konkrete Experiment hinaus stabil und von erheblicher Bedeutung sein können. Zudem können sich bei einer einzelnen Untersuchung leicht Fehler einschleichen. Bei einem beobachteten Effekt könnte es sich schon deswegen schlicht um ein Artefakt handeln, der auf „glücklichen“ Umständen, Messungenauigkeiten oder aber auch Auswertungsfehlern beruht. Umso mehr drängt sich die Frage auf, wie man im Prinzip zwischen Wesentlichem und Unwesentlichem, Objekt und Abbildung, Struktur und Zufall bzw. Stabilem und Vorübergehendem unterscheiden kann. Replikation lautet die ganz zentrale, konstruktive Antwort der empirischen Forschung: Replication on fresh data, preferably by another group of experimenters, is a mainstay of ‘the scientific method.’ (Diaconis 2006: 18)24
Wenn sich ein Ergebnis zuverlässig reproduzieren lässt, so ist ein wesentlicher „realer“ Einfluss auf Dauer weit plausibler als eine fortgesetzte „Glückssträhne“, also spezifische und sich zugleich ständig ändernde Faktoren, die das Resultat ebenfalls beeinflussen. Tritt ein Effekt immer wieder auf oder lässt er sich sogar gezielt herbeiführen, so wird man ihn kaum auf ständig wirksame Störfaktoren, Messfehler oder gar Wahrnehmungstäuschungen zurückführen können. Ist er darüber hinaus interessant, so tut man sogar gut daran, ihn genauer zu untersuchen. Bei potenziell wichtigen Resultaten bedeutet das in aller Regel, dass andere Forscher versuchen werden, ein Ergebnis mit ihren Mitteln zu replizieren. Nicht immer ist dies ganz einfach. Zum Beispiel gab es jahrhundertelange 24
Für eine Sammlung ähnlich griffiger Zitate siehe Falk (1998: 313ff) und die S. 384 genannte Literatur. Judson (2004) wirft einen kritischen Blick auf die aktuelle Wissenschaftspraxis, bei der nur allzu oft auf die Replikation von Ergebnissen verzichtet wird. (Siehe S. 553.)
1.3 Empirische Wissenschaften
15
sehr glaubwürdige Berichte über Kugelblitze. Viele, auch naturwissenschaftlich geschulte und sehr kritische Beobachter bezeugten, dass sie Kugelblitze gesehen hätten. Allein, es gelang nie, diese Objekte unter kontrollierbaren Umständen zu erzeugen, geschweige denn eingehend zu studieren. So führte der Kugelblitz ein Dasein am Rande der Wissenschaft, ähnlich wie die Homöopathie, die Parapsychologie oder die Astrologie. Dies könnte sich nun geändert haben, da vor kurzem brasilianische Wissenschaftler ein nachvollziehbares Verfahren angegeben haben, mit dem sich Kugelblitze zuverlässig erzeugen lassen (siehe Muir (2007)). Zweifelsfreie Replikation ist notwendig für einen potenziell beachtenswerten wissenschaftlichen Effekt, denn lässt sich eine interessante Beobachtung nicht replizieren, so wird ihn die Fachwelt kaum ernst nehmen. In der Physik spricht man dann von einem okkulten Effekt, den man auf unbekannte Faktoren, zufällige Randbedingungen, Fehler oder sonstige unwesentliche Umstände zurückführt. Man denke an die Parapsychologie: Seit Jahrzehnten wird behauptet, es gäbe einschlägige Effekte wie Hellsehen, Psychokinese oder außersinnliche Wahrnehmung. In sorgfältig kontrollierten Experimenten konnten diese jedoch nie dingfest gemacht werden. Zusammengefasst heißt das: Substantive replication is required by science in order to help ensure objectivity. (Guttman 1985: 9)
1.3.3 Wechsel der Perspektive Replizieren heißt wiederholen, womit sich vorübergehende Fluktuationen von permanenten Effekten unterscheiden lassen sollten. Ein Blick auf Modell (1.1) bzw. (1.3) zeigt, dass die Replikation jedoch das Grundproblem nicht vollständig löst. Selbst wenn alle Wiederholungen erfolgreich sind, also von einem ernstzunehmenden Effekt gesprochen werden kann, so sind die Daten doch noch immer vom Objekt als auch seiner speziellen Abbildung, z. B. dem konkreten Messinstrument, abhängig. In den Daten vermengen sich nach wie vor die Einflüsse von realem Objekt und Messvorgang, von Abzubildendem und der vom Beobachter eingenommenen Perspektive, wie auch das obige „statistische Modell“ verdeutlicht. Systematische Variation ist die zentrale, konstruktive Antwort der empirischen Forschung an dieser Stelle. Man muss die Perspektive systematisch verändern, um zwischen (den Eigenschaften von) Objekt und Abbildung unterscheiden zu können. Das läuft darauf hinaus, ein und dieselbe Sache mit verschiedenen Instrumenten, einer anderen Messmethode, in einem externen Labor, unter anderen Randbedingungen, zu beobachten. Zielt die Replikation eines Ergebnisses primär darauf ab, einen Effekt überhaupt erst zweifelsfrei zu fassen, ihn sozusagen zu fixieren, möchte man mit der „Variation der Situation“ so genau wie möglich zwischen all’ jenen Faktoren trennen, die auf äußere
16
1 Einleitung
Einflüsse zurückzuführen sind und jenen Eigenschaften, die auf das Objekt selbst zurückgehen. Wie wir schon deutlich gemacht haben, ist man an letzteren weit mehr interessiert als an ersteren. Man möchte einen Aspekt der Welt besser verstehen - die Instrumente und Methoden sind hingegen letztlich nur geeignete Hilfsmittel. Selbstverständlich ist es auch nötig, deren Verhalten zu kennen, die Erhebungsverfahren und Messmethoden zu begreifen, doch lediglich, um zum Kern der Angelegenheit - der Realität - vorzustoßen. Die grundlegende Entscheidungsregel ist, völlig analog zur Replikation, auch hier ganz einfach: Alle Eigenschaften, die sich bei einer Variation der Situation, also bei einem Wechsel der Perspektive, nicht verändern, sozusagen „innert“ bleiben, sollten als Eigenschaften des untersuchten Objekts betrachtet werden, während alle Merkmale, die sich mit der Situation verändern, spezifisch für die Situation sind, von dieser zumindest (in gewissem Maße) abhängen und damit nicht zum eigentlich interessierenden Objekt gehörig. Im einfachsten, aber typischen Fall entdeckt man unter speziellen Umständen, vielleicht sogar einem einmaligen Entdeckungszusammenhang, auf jeden Fall aber unter einer ganz bestimmten Perspektive, ein neues Phänomen. Erfolgreiche Replikationen zeigen, dass das Phänomen nicht okkult ist. Variiert man die Bedingungen mehrfach und bleibt es dabei stabil, so hat man es isoliert. Dies gilt erst recht, wenn man schließlich zu einem interessanten Phänomen gerade die Klasse all jener Situationen angeben kann, in denen es sich zeigt. Man kann auch von einer Generalisierung sprechen, da es gelungen ist, von einer einzigartigen, konkreten Situation auf eine ganze Reihe von Beobachtungszusammenhängen überzugehen, in denen die gemachte Entdeckung von Bedeutung ist. Das mag sich hier noch trivial anhören, doch ist gerade die Generalisierung eine der wichtigsten Antriebsfedern wissenschaftlichen Fortschritts. Der Schluss von den Daten auf die Struktur in der realen Welt ist natürlich immer hypothetisch. Bei der soeben skizzierten Strategie handelt es sich ja um nicht mehr als eine sehr nahe liegende und oftmals erfolgreiche Heuristik, um den Einfluss von Objekt und Instrument auseinander zu halten. Diese Strategie der (systematischen) Perspektive-Wechsel funktioniert nicht, wenn sich die Situation gar nicht variieren lässt. Astronomen können z. B. nur den Himmel beobachten, der sich über ihnen erhebt. Häufiger noch ist, dass ein originelles Experiment unter neuen, bislang nicht untersuchten Randbedingungen zeigt, dass eine Eigenschaft eben gerade nicht - wie bislang angenommen - zum Objekt, sondern zur Situation gehört bzw. von dieser wesentlich beeinflusst wird. Einige Beispiele: 1. In der Physik misst man grundlegende Naturkonstanten in ganz verschiedenen Situationen. Die Elementarladung eines Elektrons lässt sich zum Beispiel mithilfe der Bewegung von Elektronen in elektrischen Felder bestimmen, aber auch mithilfe von elektrochemischen Experimenten. Die Tatsache, dass die Elementarladung in allen untersuchten Situationen immer exakt dieselbe ist, lässt sie uns als eine Eigenschaft des Elektrons erscheinen.
1.3 Empirische Wissenschaften
17
2. Ein historisch und philosophisch sehr wichtiges Beispiel ist die Bestimmung der Avogadroschen Zahl (siehe Nye (1972), Perrin (1990)). In den Jahren 1908-1913 maß Perrin die fragliche Größe mit 13 voneinander unabhängigen und völlig verschiedenen Methoden. Im Rahmen der Messungenauigkeit führten alle Messungen zu ein und demselben Wert der fraglichen Zahl. 3. Die Chemie widmet sich dem Studium der Elemente und ihrer Beziehungen. Zu jedem chemischen Element lassen sich lange Listen von Eigenschaften, wie z. B. Atommasse, -Radius, Dichte, Magnetismus, Wärmeleitfähigkeit, Elektronegativität usw. angeben. Schaut man genau hin, so werden bei manchen der vermeintlichen Elementeigenschaften jedoch zusätzliche Bedingungen genannt, welche angeben, in welcher Situation ein bestimmter Wert gültig ist. Von besonderer Bedeutung sind die sogenannten „Standard-“ und „Normalbedingungen“. 4. Die Biologie teil sich im Wesentlichen in zwei „Reiche“. In der Molekular-, Zell- und Entwicklungsbiologie sowie der Physiologie betrachet man den jeweiligen Organismus als solches und seine Entwicklung, also seine Veränderung mit der Zeit. Die Ökologie, Verhaltens- und Evolutionsbiologie beschäftigen sich hingegen ganz spezifisch mit den Wechselwirkungen von Organismus und Situation, also der Umwelt, in der er lebt. Eine spezielle Eigenschaft, z. B. „Agressivität“ wird man einer Art nur dann zuschreiben, wenn sie oft oder sogar unter (nahezu) allen Umweltbedingungen zu beobachten ist. 5. In der Sozialpsychologie ist die Trennung von Umwelt- bzw. Situationsvariablen auf der einen Seite und personenbezogenen Merkmalen auf der anderen Seite von besonderem Interesse. Zum Beispiel ist eine wichtige Frage der Entwicklungspsychologie, inwieweit beobachtete Fähigkeiten auf individuelle Prädispositionen, etwa genetischer Art, zurückzuführen sind und inwieweit sie von Umwelteinflüssen „moduliert“, also beeinflusst werden.25 Zwillings- und Geschwisterstudien sind genau deshalb besonders wichtig, weil man mit ihrer Hilfe den jeweiligen Einfluss zumindest abschätzen kann. Wer würde nicht von individuellem, angeborendem Talent ausgehen, wenn zwei eineiige Zwillinge, die bei der Geburt getrennt wurden, und in völlig unterschiedlichen sozialen Verhältnissen groß wurden, später genau denselben Beruf ergriffen? 6. Die allgemeine Psychologie, und hier speziell die Intelligenzmessung, liefert ein Beispiel, was geschieht, wenn die Trennung von Objekt und Randbedingungen nicht befriedigend möglich ist. Intelligenz sollte - genauso wie die Körpergröße - eine Eigenschaft des Indivduums sein, egal wie man sie misst. Leider konnte man sich auch nach vielen Jahrzehnten der Intelligenzforschung auf keine allgemein verbindliche Definition einigen. Eher spricht man von vielen Facetten der Intelligenz (z. B. numerischmathematischer, sprachlicher, emotionaler, sozialer usw.), die alle zum 25
Die Biologie spricht völlig analog vom „Phänotyp“, dessen Ausprägung sowohl vom „Genotyp“ als auch von der jeweiligen Umwelt abhängt.
18
1 Einleitung
Erfolg des Individuums beitragen.26 Schlimmer noch: Die Facetten von Intelligenz entsprechen ziemlich genau den Teilen von Intelligenztests und im Extremfall definiert man Intelligenz als das, was ein Intelligenztest misst. „Intelligenz“ ist damit keine Eigenschaft der Person, sondern untrennbar mit der Art und Weise ihrer Messung verbunden, ganz so, als würde das Gewicht eines Menschen von der Art des Wiegevorganges abhängen.27 Die Beispiele zeigen, dass die Trennung in „reine“ Objekteigenschaften und ebenso isolierte äußere Aspekte nur der Anfang einer Analyse ist. Die Daten hängen im Allgemeinen von Objekt und Perspektive ab. Anders gesagt: Eine reale Begebenheit hinterlässt je nach Blickwinkel einen anderen Eindruck beim Beobachtenden; sie ist in diesem Sinne nicht absolut, sondern relativ. Es ist häufig sogar von größerem Interesse, diese qualitative Einsicht zu quantifizieren - also möglichst genau zu fassen, wie das Zusammenspiel des Merkmals und der Perspektive ist -, als beide nur nebeneinander zu stellen. Lässt sich das zu Beobachtende in Abhängigkeit von einer speziellen Situation, also je nach Perspektive, charakterisieren, und kann man auf diese Weise exakt zwischen Objekt und Perspektive diskriminieren bzw. in einer Formel ihren jeweiligen Einfluss quantifizieren, so hat man damit noch weit mehr erreicht. Ein erstes solches Relativitätsprinzip geht schon auf Galilei zurück. Es besagt, dass physikalische Größen bzw. Eigenschaften von Objekten immer nur relativ zu einem Bezugssystem definier- und messbar sind. Ausgangspunkt war der Begriff der Bewegung bzw. Geschwindigkeit, definiert man doch letztere über die gleichförmige Bewegung eines Objektes in28 einem Bezugssystem. Galilei (1632) - siehe auch Schmutzer und Schütz (1989: 98) - motivierte das Prinzip u.a. mithilfe der damals umstrittenen Frage, ob sich eine Kugel an Bord eines fahrenden Schiffes in Bewegung oder in Ruhe befinde. Seine Antwort lautete, dass die Beantwortung der Frage von der Position des jeweiligen Beobachters abhängt: Ein Beobachter, der sich ebenfalls an Bord des Schiffes befindet, sieht die Kugel in Ruhe, während ein Beobachter am Ufer die Kugel sich zusammen mit dem Schiff bewegen sieht. Die Eigenschaft, in Bewegung zu sein, hängt also von der Wahl des Bezugssystems („Schiff“ versus „Ufer“) ab. Es handelt sich nicht um eine Eigenschaft, die der Kugel alleine zukommt. Daraus zog Galilei den Schluss, dass physikalische Eigenschaften eingeteilt werden müssen in relative, welche von den Eigenschaften 26
Insbesondere hat das Multi-Facetten-Modell von Guilford (1967) eine große Bedeutung erlangt. 27
Im Rahmen der Messtheorie werden wir in Abschnitt 2.5.5 ausführlicher auf den Instrumentalismus bzw. Operationalismus eingehen. 28 - also „relativ zu“ -
1.4 Die zentrale Bedeutung der Invarianz
19
des Bezugssystems abhängen, und absolute, die unabhängig von der Wahl des Bezugssystems definiert oder gemessen werden können.29 Allgemein wird man daran interessiert sein, erstens die relevanten (realen) Faktoren zu kennen, zweitens deren Beziehungen untereinander zu erfassen und drittens den Einfluss der Perspektive zu beschreiben. Am eindrucksvollsten gelingt dies wieder in der Physik, wenn man einen deterministischen, in einer einfachen mathematischen Funktion ausdrückbaren Zusammenhang zwischen den relevanten Merkmalen angeben kann, der noch dazu in der Empirie (nahezu) exakt gültig ist. So ändert sich die Masse eines Objektes mit seiner Geschwindigkeit. Je schneller sich ein Objekt bewegt, desto schwerer wird es, und die genaue - sehr wichtige - Formel liefert Einsteins spezielle Relativitätstheorie. Lässt sich also sagen, dass die Masse keine Eigenschaft des Objektes, sondern eine Eigenschaft von Objekt und Bewegung ist? Im Allgemeinen ja. Deshalb spricht man präziser von der Masse mv des Objekts bei einer bestimmten Geschwindigkeit v und zeigt bereits durch die Notation, dass eine Abhängigkeit zwischen Masse und Geschwindigkeit besteht. (Man könnte auch sagen, dass v überabzählbar viele mögliche Situationen „parametrisiert“, in denen sich das Objekt betrachten lässt.) Andererseits ist die sogenannte Ruhemasse m0 eine Eigenschaft des Objektes. Ein Kubikzentimeter Gold wiegt 19, 25g, ein Kubikzentimeter Silber 10, 49g, die Geschwindigkeit spielt hier keine Rolle.30
1.4 Die zentrale Bedeutung der Invarianz Eine nur ist sie für alle, doch siehet sie jeder verschieden; Daß es eines doch bleibt, macht das Verschiedene wahr. Schiller (1987: 309), „Wahrheit“
Egal ob man nun ein Objekt relativ zu einem Bezugssystem betrachtet, oder aber ob man ein Objekt auf verschiedene Arten abbildet - die obige Diskussion sollte deutlich gemacht haben, dass es in beiden Fällen von großem Interesse ist, genau zu studieren, was sich ereignet, wenn man die Perspektive wechselt. Das eine Mal ist zu beschreiben (unabhängig von jeder potenziellen Messung), was sich bei einer Änderung des Bezugssystem verändert und was gleich bleibt. Das andere Mal ist zu analysieren, welche Objekteigenschaften 29
Formuliert man diesen Gedanken mathematisch aus, so kommt man zur sogenannten Galilei-Transformation, aus der die wichtigsten Erhaltungssätze der klassischen Mechanik (Energie, Impuls, Drehimpuls) folgen! 30 In der modernen Physik hat der Ausdruck „invariante Masse“ oder einfach „Masse“, die nur eine Eigenschaft des untersuchten Objektes ist, den Ausdruck „Ruhemasse“ verdrängt. Dies nicht zuletzt deshalb, weil auch Licht - also Photonen, die sich immer mit Lichtgeschwindkeit bewegen - gemäß m = E/c2 , also der berühmten Einsteinschen Formel, eine Masse besitzt.
20
1 Einleitung
bei der Messung erhalten bleiben und welche von der speziellen Situation abhängen (bzw. allgemeiner, wie beide zusammenwirken). In beiden Fällen ist Invarianz der entscheidende Begriff. Ließe sich zum Beispiel „Geschwindigkeit“ unabhängig von einem speziellen Bezugssystem beschreiben, so wäre sie mit Fug und Recht eine Eigenschaft des Objektes. Dem Bezugssystem, relativ zu dem es sich bewegt, kommt dann nur eine Hilfsfunktion zu. Genau das gilt in der Newtonschen Mechanik: Ein Körper bewegt sich im Raum während die Zeit vergeht und beeinflusst beide nicht. Man kann den Rahmen, d.h. hier das Koordinatensystem, zumindest in gewissen Grenzen beliebig wählen, was bei Anwendungen „nebenbei“ den großen Vorteil hat, dass sich das Bezugssystem problemadäquat wählen lässt. Genau dasselbe gilt für eine Messung: Ist eine Größe unabhängig vom speziellen Messvorgang oder -instrument, so lässt sie sich zurecht als eine Eigenschaft des Objektes bezeichnen. Zentrale physikalische Größen wie Masse, Ladung, Temperatur oder Radioaktivität sind allesamt unabhängig von der Art der Messung definiert und damit Eigenschaften des untersuchten Objektes. Invarianz in dem von uns verwendeten Sinn bedeutet im einfachsten Fall, dass sich ein Merkmal beim Übergang in eine andere Situation überhaupt nicht verändert, also konstant bleibt. (Klassische Beispiele hierfür sind die elektrische Ladung und die S. 17 erwähnte Avogadrosche Zahl.) In einem etwas weiteren Sinne ist mit Invarianz Folgendes gemeint: Transformiert man ein Bezugssystem A in ein Bezugssystem B, so macht das Merkmal diese Transformation mit. Ist zum Beispiel Objekt A doppelt so schwer wie Objekt B in einem ersten Bezugssystem, so ist es dies auch in einem zweiten Bezugssystem.31 In der klassischen Physik ist das Bezugssystem oftmals einfach ein Koordinatensystemen (das z. B. den Raum beschreibt, in dem sich ein Objekt bewegt) und die Koordinaten werden transformiert. Ändern sich die interessierenden Merkmale dann mit den Koordinaten, sind sie also „kovariant“, so sind Aussagen über die Merkmale in allen (bzw. sehr vielen) Koordinatensystemen gültig. Verwendet man den kurzen Begriff „Gesetz“ anstelle des länglichen „Aussagen über Merkmale“ und ersetzt man „kovariant“ durch den sehr eng verwandten Begriff der Invarianz, so kommt man zu der durchaus nicht ganz trivialen Einsicht, dass physikalische, aber auch andere Gesetze mit allgemeiner Gültigkeit, invariant32 gegenüber (möglichst vielen) Koordinatentransformationen sein sollten und es de facto auch sind. Die Invarianz von Gleichungen bei Transformationen heißt oft schlicht Symmetrie, und gemäß dem Noether-Theorem ist jede solche Symmetrie mit einem Erhaltungssatz verknüpft.33 Vor ca. 90 Jahren zeichnete sich in der Physik ab, wie ungemein weitreichend diese Art der Betrachtung ist. E. Noether (1918: 240) selbst schreibt: „Mit diesen Zusatzbemerkungen enthält Satz I alle in Mechanik u. s. w. bekannten Sätze über erste Integrale, wäh31 32
Diese Art der Invarianz wurde früher in der Physik gerne „Forminvarianz“ genannt. Genauer natürlich: kovariant bzw. forminvariant.
33
Siehe auch Feynman (2007: 128ff)
1.4 Die zentrale Bedeutung der Invarianz
21
rend Satz II als größtmögliche gruppentheoretische Verallgemeinerung der ‚allgemeinen Relativitätstheorie‘ bezeichnet werden kann.“ 34 Die damalige Einschätzung wird von heutigen Physikern nicht nur geteilt, sondern sogar noch einmal deutlich erweitert. Anderson (1972: 394) sagt prägnant: “By symmetry we mean the existence of different viewpoints from which the system appears the same. It is only slightly overstating the case to say that physics is the study of symmetry.” 35 Zwar sprechen die Erfolge der modernen Physik für sich, gleichwohl wäre die herausragende Bedeutung von Invarianzüberlegungen ohne die vorangestellte grundsätzliche Überlegung kaum zu verstehen. Symmetrien und Invarianzen sind eine konstruktive, allgemeine Antwort auf das fundamentale Problem der Erkenntnis: Wie lässt sich rational bzw. begründet zwischen Objekt und Perspektive differenzieren? Damit sind sie auch für alle empirischen Wissenschaften und die Philosophie von Belang: 1. Hume (1739)36 argumentiert, wir könnten nicht beweisen, unsere Wahrnehmung sei zuverlässig. Als Grund gibt er an, dass uns nur unsere (subjektiven) Sinneseindrücke zur Verfügung stehen, wir also keinen direkten Kontakt zur (hypothetischen) Außenwelt aufnehmen können (siehe Modell 1.1). Argumente zugunsten der Reliabilität der Wahrnehmung seien deshalb entweder unbegründet oder zirkulär, weil wiederum auf Sinneseindrücken beruhend. Doch wie steht es um jene Objekte und Eigenschaften der Wahrnehmung, die unter ganz verschiedenartigen Perspektiven invariant bleiben? Sie beweisen natürlich nicht, dass unsere Wahrnehmung zuverlässig ist, aber sie sind zumindest ein starkes Indiz dafür, dass die diversen Sinneseindrücke auf ein reales Phänomen zurückgehen. Die Alternativerklärung, dass unsere Wahrnehmung jedesmal Wesentliches beiträgt, wird nämlich umso unplausibler, je mehr Perspektiven uns zur Verfügung stehen. Akzeptiert man das völlig analoge und dort als sehr stark eingeschätzte Invarianzargument Perrins37 in der Realismusdebatte, so muss man es auch hier würdigen. 2. Die Anhänger des von Stegmüller (1979, 1986) initiierten Strukturalismus präzisieren mit formal-logischen Argumentationen wissenschaftstheoretische Überlegungen. Wie der Name schon andeutet, gilt ihr besonderes Interesse der Struktur wissenschaftlicher Theorien, welcher sie sich mithilfe mathematischer Definitionen und Beweise nähern. Mühlhölzer (1996) beleuchtet die große Bedeutung des Invarianzbegriffs für eine so verstandene 34
Sie schließt mit der Fußnote: „Hiermit ist wiederum die Richtigkeit einer Aussage von Klein bestätigt, dass die in der Physik übliche Bezeichnung ‚Relativität‘ zu ersetzen sei durch ‚Invarianz relativ zu einer Gruppe‘.“ 35 Meine Hervorhebung, siehe auch Laughlin (2007) 36 37
Siehe z. B. Howson (2000: 172) Siehe S. 17, 68 und Perrin (1990)
22
1 Einleitung
Wissenschaftstheorie. Im gleichen Sammelband verwendet Balzer (1996) Invarianzen, um theoretische Terme zu identifizieren. 3. Auch die Replikation neuer Phänomene lässt sich als spezielle Invarianzeigenschaft deuten: Nur Effekte, die sich zuverlässig replizieren lassen, sind nicht von einem konkreten Experiment und dessen flüchtigen Randbedingungen wesentlich abhängig. Das heißt, sie sind keine zufälligen Artefakte, sondern für sich genommen von Bedeutung, weshalb man sie womöglich näher untersuchen sollte. Auch in einer abstrakten Theorie der Messung sollte gemäß den obigen Überlegungen die Idee der Invarianz grundlegend sein. Dort sollte das Wesentliche und realistisch Interpretierbare in Form von Symmetrien und Invarianten auf sich aufmerksam machen. Die nachfolgende Messtheorie formalisiert diese Grundüberlegung und arbeitet sie dann systematisch aus. Schließlich vertiefen wir in Abschnitt 5.6 die bisherigen Überlegungen.
Kapitel 2
Messtheorie
Measurement began our might. W. B. Yeats, zitiert nach Duncan (1984: xiii)
2.1 Formalisierung des Messvorgangs Die klassische Messtheorie, eingeführt von Stevens (1946, 1951) und zur Blüte gebracht durch Krantz, Luce, Suppes und Tversky,1 geht von einem einfachen mathematischen Modell des Messvorgangs aus. Eine Menge W , welche die Realität (Welt) repräsentiert, wird durch eine feststehende Vorschrift s auf eine Menge Z von Zahlen abgebildet. Die Vorstellung ist, dass dabei einem realen Objekt a ∈ W eine Zahl z = s(a), sein Messwert, zugeordnet wird.2 Mathematisch gesehen ist s nichts anderes als eine Abbildung der Menge W in Z. Empirisch gesehen entspricht s einer Messvorschrift, welche determiniert, was wie gemessen wird. Das Ergebnis einer Messung ist ein numerischer Wert z, welcher via s auf der Realität ( also a) basiert. Deshalb charakterisiert Stevens jede Messung mit den Worten “[. . .] the assignment of numerals to things so as to represent facts [. . .] about them” (siehe S. 14). Eine gute Messung sollte auf W existierende (reale) Strukturen respektieren, also geeignet in die Menge der Zahlen transportieren. Man spricht auch von der repräsentationalen Theorie des Messens, da so in Z ein Abbild der realen Verhältnisse entsteht. Diese Idee formalisiert die Messtheorie mithilfe von Relationen: Man betrachte hierzu zunächst die Menge Z. Eine bekannte Relation ist „kleiner“, also „<“. Genauer gesagt handelt es sich bei „<“ um eine zweistellige Relation auf der Menge der reellen Zahlen. Der Ausdruck x < y verwendet nämlich genau zwei reellen Zahlen x und y und lässt sich für beliebige reelle Zahlen x, y interpretieren. D.h., man kann immer sagen, ob x < y gilt oder nicht.3 1 2
Siehe insbesondere Krantz et al. (1971), Suppes et al. (1989) und Luce et al. (1990) Ganz ähnlich heißt es bei Menger (1955: 167): “Thus quantity = (object, value).”
3
Allgemein ist eine zweistellige Relation zwischen zwei Mengen A und B nichts anderes als eine Teilmenge des cartesischen Produktes A × B. Wichtig ist dabei nur, dass man für jedes Element (a, b) ∈ A × B zweifelsfrei sagen kann, ob für dieses die Relation besteht oder nicht. Im Beispiel ist A × B gerade IR × IR, also die Ebene IR2 .
U. Saint-Mont, Statistik im Forschungsprozess, DOI 10.1007/978-3-7908-2723-1_2, © Springer-Verlag Berlin Heidelberg 2011
23
24
2 Messtheorie
Wie lässt sich die Relation „<“ charakterisieren? Offensichtlich dadurch, dass man sämtliche möglichen Tupel (x, y) ∈ IR2 , also jeden Punkt in der Ebene, betrachtet und aufschreibt, ob die Beziehung x < y für dieses Zahlenpaar gerade gilt oder nicht. Es genügt sogar die Menge M all jener Punkte zu betrachten, wo die Relation gilt,4 Im gewählten Beispiel ist M einfach die Fläche oberhalb der Winkelhalbierenden.5 Der Schritt von zweistelligen zu i-stelligen Relationen ist offensichtlich. Auch eine solche Relation lässt sich völlig analog charakterisieren durch die Menge M ⊆ IRi , auf der sie gilt.6 Auf Mengen von Zahlen Relationen einzuführen, stellt also kein Problem dar. Doch wie sieht es mit der realen Welt aus? Die Messtheorie betrachtet auch auf W Relationen, die per konstruktionem7 als empirische Beziehungen zu interpretieren sind. Typischerweise stellt man sich die Elemente a ∈ W als Objekte vor, die in einem gewissen Verhältnis zu einander stehen. Das klassische Beispiel ist die empirische Größerbeziehung, welche gerne mit dem Zeichen „≺“ abgekürzt wird. Formal gesehen lassen sich wieder alle Vergleiche a ≺ b bilden und die Menge M≺ charakterisiert alle Tupel, für die die Relation gilt, also z. B. die Körpergröße von Person a kleiner als jene von Person b ist. Aus naheliegenden Gründen nennt man die Menge W samt der dort definierten Relation „≺“ empirischen Relativ E, während man die Menge Z mit der dort definierten Relation „<“ als numerischen Relativ N bezeichnet. Sind E und N gegeben, so wird eine Abbildung s : E → N als Skala aufgefasst, wenn sie die auf den beiden Mengen definierten Relationen respektiert. Das heißt, s ist eine Skala, wenn gilt: a, b ∈ W stehen in Relation RW (a, b) ⇐⇒ s(a), s(b) ∈ IR stehen in Relation RZ (s(a), s(b)).
(2.1)
Dabei deuten die Subskripte W bzw. Z an, wo die jeweilige Relation RW bzw. RZ definiert ist. Im Beispiel gilt die empirische Relation a ≺ b also genau dann, wenn auch die numerische Relation s(a) < s(b) wahr ist. Mathematisch gesprochen ist s ein Homomorphismus.8 Man beachte, dass a und b reale Objekte sind, die in einer empirischen Beziehung, z. B. a ≺ b, zueinander stehen. Die entscheidende Anforderung 4
Da M und ihr Komplement M c (also die Menge aller Tupel, für die die Relation nicht gilt), disjunkt sind und ihre Vereinigung gleich IR2 ist. „Disjunkt“ bedeutet, dass die beiden Mengen keine gemeinsamen Punkte haben, sich bildlich gesprochen nicht überschneiden. 5
Diese Gerade wird durch x = y, also alle Punkte der Gestalt (x, x) definiert. Bewegt man sich oberhalb von ihr, so heißt das, dass die zweite Komponente größer als die erste ist (y > x). Anders gesagt: Die Relation „<“ ist wahr für alle Punkte (x, y) mit x < y. 6 Allgemein ist eine i-stellige Relation R(i) der Mengen A , . . . , A eine Teilmenge des 1 i cartesischen Produktes A1 × . . . × Ai , so dass sich für jedes Element (a1 , . . . , ai ) ∈ A1 × . . . × Ai sagen lässt, ob die Relation besteht oder nicht. 7 Denn genau so wurde das Modell ja gemacht. 8
Man konsultiere Pfanzagl (1968: 6ff) für Details.
2.2 Äquivalente Messungen
25
an jede Skala ist also, dass dann auch die Messwerte s(a) und s(b) in Relation zueinander stehen, also s(a) < s(b) gilt. Die Messung bzw. der Messvorgang ist insofern zuverlässig, als dass er in der realen Welt existierende Relationen korrekt wiedergibt. Ist das Objekt a „tatsächlich“ kleiner als das Objekt b, so spiegelt sich dies auch in den ihnen zugeordneten Messwerten wider. Aufgrund der Äquivalenz in (2.1), gilt hiervon auch die Umkehrung. Aus der Tatsache, dass der beobachtete Wert von a numerisch kleiner als der beobachtete Wert von b ist, lässt sich folgern, dass in der realen Welt a ≺ b der Fall ist. Man kann also - aufgrund dieser Forderung an Messvorgänge - bequem und zuverlässig von den Messergebnissen auf die reale Welt zurück schließen!9 In voller Allgemeinheit ist bzw. steht nun der empirische Relativ E = (W, Σ) für einen Teil der Wirklichkeit, oft eine Menge von Objekten W , versehen mit einer Struktur Σ, modelliert als eine gewissen Anzahl j von i-stelligen Relationen. Völlig analog ist der numerische Relativ N = (Z, σ) nichts anderes als eine Menge von Zahlen Z versehen mit derselben Anzahl i-stelliger Relationen. Bei gegebenen Strukturen Σ und σ werde die Menge aller Skalen mit S = S(Σ, σ) bezeichnet. Da jede zusätzliche Relation Anforderungen stellt, wird S umso kleiner, je mehr Relationen in Betracht gezogen werden, d.h. mit wachsendem j schrumpft S. In vielen praktisch relevanten Fällen lässt sich jedoch zeigen, dass S nicht leer ist. Narens (1985: 5) schreibt zusammenfassend: The view that measurement consists in specifying homomorphisms of some qualitative (or empirical) structure into a numerical one is called representational theory of measurement, and since the late 1950s it has gained wide support among measurement theorists [. . .] The existence theorem for S consists in showing S = ∅. The uniqueness theorem for S consists in describing how the elements in S are related to one another. (Hervorhebungen im Original.)
2.2 Äquivalente Messungen Dem zuletzt genannte Problem wenden wir uns nun zu: Betrachtet man empirische Messungen, so stellt man nämlich nahezu unmittelbar fest, dass ein und dasselbe empirische Merkmal ganz verschieden gemessen werden kann. Zum Beispiel wird die Temperatur in Europa typischerweise in ◦ C gemessen, während man in Nordamerika ◦ F benutzt und Physiker gerne ◦ K verwenden. Entfernungen werden standardmäßig in Metern, oft aber auch in cm, mm oder km angegeben. Darüber hinaus sind auch Inches, Feet, Meilen usw. gebräuchlich. Diese Unterschiede können eher oberflächlicher Natur sein, denn bei der Verwendung eines Lineals werden Entfernungen in cm oder mm auf ein und dieselbe Weise bestimmt. Hinter verschiedenen Einheiten - gerne auch „Dimensionen“ genannt - können sich jedoch auch völlig verschiedene 9
Dies stellt natürlich eine sehr starke Forderung dar, die in der Praxis nicht immer erfüllt sein wird. Man denke nur an unvermeidliche Messungenauigkeiten.
26
2 Messtheorie
Messtechniken verbergen. Es ist ein fundamentaler Unterschied, ob eine Entfernung mithilfe der Laufzeit eines Signals ermittelt wird oder aber ob man einen Zollstock im Wortsinne als Maß-Stab „anlegt“. Leider müssen sich völlig verschiedene Messmethoden nicht in der Einheit niederschlagen. Abgesehen von wissenschaftlichen Arbeiten wird nicht ausgewiesen, wie z. B. eine Entfernung tatsächlich bestimmt worden ist. Es bleibt also nichts anderes übrig, als zum einen verbal exakt zu beschreiben, auf welche Art und Weise eine Größe bestimmt worden ist. Dies könnte man als konkrete empirische Messtechnik bezeichnen. Zum anderen sollte jede mathematische Theorie des Messens in der Lage sein, mit einem Wechsel des Maßstabs umzugehen. Oder, anders gesagt, es ist eine Mindestanforderung an jede Theorie des Messens, dass sie eine Änderung der Einheit adäquat berücksichtigt. Mathematisch gesehen führt dies zu sogenannten Transformationen γ : N → N , die also einen Messwert s ∈ N in einen transformierten Wert s = γ(s) überführen. Bei N handelt es sich typischerweise ebenfalls um die Menge der reellen Zahlen, versehen mit denselben Relationen wie zuvor. Eine Transformation γ heißt zulässig, wenn γ(s) ebenfalls wieder eine Skala ist, also die Beziehung (2.1) einhält. Ein Beispiel: Gilt a ≺ b für beliebige a, b ∈ W , so muss auch für die Messwerte s(a) < s(b) gelten. Ist γ zulässig, so gilt darüber hinaus s (a) = γ(s(a)) < γ(s(b)) = s (b). Zudem folgt bei einer zulässigen Transformation aus s (a) < s (b), dass in der Empirie a ≺ b gilt. Insgesamt hat man also die Beziehung
a ≺ b ⇔ s(a) < s(b) ⇔ γ(s(a)) < γ(s(b)) ⇔ s (a) < s (b),
(2.2)
die prägnant zum Ausdruck bringt, dass die beiden Skalen s und s völlig äquivalent sind. (2.2) zeigt auch, dass der vermeintliche Unterschied zwischen s und s , nämlich s als „grundlegender“ Skala und s = γ(s) als „abgeleiteter“ Skala nicht wirklich existiert: Die empirische Beziehung a ≺ b gilt genau dann, wenn eine der beiden Skalen dies anzeigt. Es ist also völlig beliebig, welche der beiden Skalen man verwendet. Um festzustellen, ob ein Stab länger ist als ein anderer, genügt es also, die beiden Stäbe nur einmal - z. B. mithilfe der Einheit cm - zu messen. (Dies ist die erste Äquivalenz.) Gemäß der obigen Theorie ist es auch völlig gleichwertig, das in cm gemessene Ergebnis in m umzurechnen (also eine zulässige Transformation γ anzuwenden, dies ist die zweite Äquivalenz) oder aber die beiden Stäbe unmittelbar mithilfe der Einheit m zu messen. (Dies ist die dritte Äquivalenz.) Es sollte aufgrund des eben Gesagten nun auch nicht weiter verwunderlich sein, dass man sogar von einer beliebigen Skala s0 ∈ S ausgehen kann und mithilfe einer geeigneten, zulässigen Transformationen γ jede andere Skala s ∈ S in der Form s = γ(s0 ) darstellen kann (siehe z. B. Pfanzagl (1968: 26ff)). Dieser Sachverhalt wird gerne so formuliert, dass in einer gegebenen Situation die Skala bis auf eine zulässige Transformation eindeutig bestimmt
2.3 Skalenhierarchie
27
ist.10 Auch die Aufgabe, zwei Skalen s, s ∈ S, welche denselben empirischen Sachverhalt E messen, zu vergleichen, ist damit, nämlich mittels des Werkzeugs der zulässigen Transformationen, vollständig beantwortet worden. Nicht zuletzt deshalb kommt den Transformationen eine zentrale Bedeutung innerhalb der Messtheorie zu. Anders gesagt: Die Objekte in W und Z legen zusammen mit den Relationen die Menge aller Skalen S = S(Σ, σ) fest. Es sind die „Außenbedingungen“, also E = (W, Σ) und N = (Z, σ), welche über die Menge aller „vernünftigen“ Skalen bestimmen. Alle Skalen s ∈ S sind als gleichwertig zu betrachten. Da man zudem in der Wahl der Relationen auf Z ziemlich frei ist, kommt es entscheidend auf den Gegenstandsbereich W und vor allem auf die dort (real!) existierenden Relationen (die wir in der Struktur Σ zusammenfassen), an, welche Skalen äquivalent sind. Es ist maßgeblich der empirische Sachverhalt selbst, der bestimmt, wie „gut“ er vermessen werden kann. Suppes und Zinnes (1968: 9) geben einige Beispiele: In general, any empirical procedure for measuring mass does not determine the unit of mass. The choice of unit is an empirically arbitrary decision made by an individual or group of individuals [. . .] The measurement of distance is a second example of measurement of this sort [. . .] An empirical procedure for measuring temperature by use of a thermometer determines neither a unit nor an origin [. . .] Examples other than measurement of temperature are provided by the usual measurements of temporal dates, linear position, or cardinal utility.
Es sollte hinzugefügt werden, dass zwar der empirische Relativ bestimmt, wie genau (im obigen Sinne) eine Größe im Prinzip gemessen werden kann. Da das numerische Ergebnis jedoch immer das Resultat einer Abbildung der Realität auf eine Menge von Zahlen ist, hat auch die konkrete Messmethode einen ganz erheblichen Einfluss auf das „Niveau“ der Messung (siehe den nächsten Abschnitt). Etwa zeigt das Beispiel der Temperatur, dass diese absolut in ◦ K gemessen werden kann. In diesem Fall liegt der Nullpunkt der Messung sehr wohl fest. Und auch wenn die Geschwindigkeitsmessung im Prinzip bis auf die Wahl der Einheiten präzise möglich ist, so kann ein schlechtes Messverfahren, z. B. das Urteil von Passanten, die angeben sollen, welches von zwei vorbeifahrenden Autos schneller war, zu einem sehr unzuverlässigen Ergebnis führen.
2.3 Skalenhierarchie Historisch gesehen wurde die nachfolgende Einteilung bereits von Stevens ab den 1940er Jahren vorgeschlagen. Die detaillierte mathematische Ausarbeitung folgte erst einige Jahre später. Sie spielt bis heute bei jeder Diskussion und Anwendung der Messtheorie eine zentrale Rolle. 10
Daher auch die Bezeichnung “uniqueness theorem” bei Narens, siehe S. 25.
28
2 Messtheorie
Nominal-, Ordinal-, Intervall-, Verhältnis- und Absolutskalen sind Stevens’ wichtigste Beispiele für Skalen. Sie alle werden durch eine zugehörige Klasse zulässiger Transformationen beschrieben:11 Skala Zulässige Transformationen Nominalskala Injektive Abbildungen: Ordinalskala Monotone Abbildungen: Intervallskala Affin-lineare Abbildungen: Verhältnisskala Lineare Abbildungen: Absolutskala Identische Abbildung:
f (x) = f (x ) ⇒ x = x x < x ⇒ g(x) < g(x ) h(x) = ax + b mit a = 0 h(x) = ax mit a = 0 h(x) = x
Da die weiter unten stehenden Transformationen jeweils Spezialfälle der weiter oben stehenden sind, hat man es mit einer Skalen-Hierarchie zu tun. Zudem enthalten tiefer stehende Skalen mehr Information über die reale Welt als weiter oben stehende. Einige typische, in der Literatur häufig genannte Beispiele sind:12 Bei Nominalskalen denkt man zumeist an Kategorien, in die eine Reihe von Objekten eingeordnet werden. Objekte in einer Kategorie werden als gleich betrachtet, Objekte verschiedener Kategorien als ungleich. Das heißt, die Relation zwischen den Klassen von Objekten ist „=“. Beispiel: Bei einer Erhebung geben die befragten Personen ihr Geschlecht an. Das heißt mathematisch, dass jeder Person ihr Geschlecht zugeordnet wird. Der empirische Relativ besteht aus den Personen zusammen mit der zweistelligen Relation „Geschlecht“. Diese ist genau dann für zwei Personen erfüllt, wenn jene dasselbe biologische Geschlecht besitzen. Eine Skala ordnet nun jeder Person eine (völlig willkürliche) Zahl zu, wobei nur darauf zu achten ist, dass Personen unterschiedlichen Geschlechts auch weiterhin unterschieden werden können. D.h. allen Frauen ist (ein und dieselbe) Zahl x zuzuordnen und allen Männer eine andere Zahl x = x. Zulässige Transformationen f müssen diese Unterscheidung aufrecht erhalten, d.h. f (x) muss ungleich f (x ) sein. Genau dies leisten die oben genannten injektiven Transformationen. Ordinalskalen enthalten mehr Information: Die Objekte oder eine Reihe von Klassen von Objekten sind geordnet. Man kann also entscheiden, welches Objekt (in irgendeinem Sinne) größer als ein anderes ist. Genau diese Ordnung bleibt bei der Messung erhalten, und genau diese Ordnung müssen zulässige Transformationen auch respektieren. Dies leisten die in der Tabel11 12
Unsere Aufstellung orientiert sich an Duncan (1984: 123).
Für die von Stevens von 1951-1975 angegebenen Beispielfälle siehe Duncan (1984: 124). Schleichert (1966) beschäftigt sich ebenfalls intensiv mit dem Messproblem und zeigt, dass Carnap ganz ähnlich argumentiert (siehe insbesondere S. 38 ibd.)
2.3 Skalenhierarchie
29
le angegebenen monotonen Transformationen g, da für diese a ≺ b ⇔ x = s(a) < x = s(b) ⇔ g(x) < g(x ) gilt.13 Bislang wurde nur qualitative Information bei der Messung übermittelt. Die Intervallskala ermöglichst es, quantitative Aussagen zu machen. Beispielsweise sind die Längengrade der Geodäsie intervallskaliert: Bei den Objekten handelt es sich um Orte auf der Erdoberfläche, z. B. Städte.14 Die Messung ordnet diesen ihren Längengrad zu, also z.B s(London) = 0, s(Dresden) = 13 und s(Lissabon) = −9.15 Offenkundig ist der Nullpunkt der Messung das Ergebnis einer historischen Zufälligkeit. Würde man heute den Nullmeridian festlegen, so liefe er wohl eher durch einen markanten geographischen Ort oder fiele mit der Datumsgrenze zusammen. Formal gesehen heißt das: Verschiebt man die Längengrade um eine feste Zahl b, so ändern sich die Distanzen (gemessen in Längengraden) zwischen den Orten nicht. Sei zum Beispiel b = 9, dann hat man die neuen Positionen s (y) = h(s(y)) = s(y) + 9 = 9 für London, s (z) = h(s(z)) = s(z) + 9 = 22 für Dresden und s (x) = h(s(x)) = s(x) + 9 = 0 für Lissabon. s entspricht also einer Längengradskala, deren Nullmeridian durch Lissabon läuft. Die Abstände sind bei beiden Mess-Systemen dieselben, z. B. ist nach wie vor die Distanz d zwischen Lissabon und Dresden
d(x, z) = s(x) − s(z) = 13 − (−9) = s (x) − s (z) = 22 − 0 = 22 Längengrade. Auch eine Streckung um a, zum Beispiel a = 2, ist unabhängig von der Skala, wird also von der Lage der Orte auf der Erdoberfläche bestimmt. Denn s∗ (x) = 2 · s(x) = −18, s∗ (y) = 2 · s(y) = 0, s∗ (z) = 2 · s(z) = 26. Scheinbar hat sich die Distanz zwischen Dresden und Lissabon auf 26−(−18) = 44 Längengrade verdoppelt, da sich auch alle übrigen Abstände verdoppelt haben, bleibt die Gültigkeit der Aussagen erhalten. Zum Beispiel ergibt sich mit Skala s d(x, y) + d(y, z) = d(x, z),
da 9 + 13 = 22.
Mit der Skala s∗ kommt man auf d(x, y) + d(y, z) = d(x, z),
da 18 + 26 = 44 bzw. 2 · (9 + 13) = 2 · 22.
Das heißt, die Beziehung bleibt weiterhin gültig. Anschaulich gesprochen überzieht man die Erde mit einem doppelt so feinen Netz von Längengraden. 13
Siehe (2.2). Man beachte, dass für monotone Abbildungen auch g(x) < g(x ) ⇒ x < x gilt, da x < x ⇒ g(x ) < g(x), was im Widerspruch zu g(x) < g(x ) steht. Zudem ist x = x ⇔ g(x) = g(x ). 14
Falls diese aufgrund ihrer Ausdehnung nicht als punktförmig bezeichnet werden können, gehe man stattdessen vom Stadtzentrum aus. 15
Im folgenden schreiben wir x für Lissabon, y für London und z für Dresden.
30
2 Messtheorie
Auch wenn sowohl a als auch b ungleich Null sind, ändert sich daran nichts. Das heißt, die Abstände zwischen den Städten hängen nicht wesentlich von der verwendeten Skala ab, können also inhaltlich interpretiert, bzw. auf die realen Sachverhalte zurückgeführt werden. Mathematisch drückt man dies so aus, dass für vier Orte x, y, u, v ∈ W bzw. je zwei Distanzen d(x, y), d(u, v) immer gilt: d(x, y) = d(u, v) ⇔ s(x) − s(y) = s(u) − s(v) ⇔ a(s(x) − s(y)) + 2b = a(s(u) − s(v)) + 2b ⇔ (as(x) + b) − (as(y) + b) = (as(u) + b) − (as(v) + b) ⇔ s∗ (x) − s∗ (y) = s∗ (u) − s∗ (v) Aus dieser Eigenschaft rührt der Name „Intervallskala“ her. Äquivalent dazu ist die Sprechweise, dass durch die Messung weder Einheit noch Nullpunkt festgelegt werden, sondern frei gewählt werden können. Bei Verhältnisskalen ist schließlich nur noch die Einheit frei wählbar. Wie der Name schon andeutet, lassen sich nun sogar Quotienten von Messwerten empirisch interpretieren, da gilt s(x) s(v) a · s(x) a · s(v) s∗ (x) s∗ (v) = ⇔ = ⇔ ∗ = ∗ . s(y) s(w) a · s(y) a · s(w) s (y) s (w) Bei einer Absolutskala liegt alles fest, auch die Einheit, mit der gemessen wird. Ein typisches Beispiel ist eine Anzahl von Objekten oder aber auch der Kontostand (bei einer festen Währung). Wie am Ende des letzten Abschnitts festgehalten wurde, hängt das Skalenniveau einer empirischen Messung sowohl vom Gegenstandsbereich als auch von der Art der Messung ab. Die Struktur des Objektbereichs legt fest, wie gut eine Größe im Idealfall gemessen werden kann. Es kommt jedoch auf das konkrete Verfahren an, ob sich dieses prinzipiell erreichbare Niveau auch tatsächlich einstellt. Misst man z. B. die Temperatur mit einem üblichen Thermometer, so bewegt man sich auf Intervallskalenniveau, obwohl bestenfalls eine Verhältnisskala möglich wäre. Unterschiede im Skalenniveau ergeben sich erst recht, wenn man die historische Entwicklung der Temperaturmessung betrachtet, wie Duncan (1984: 147ff) es tut. Man beachte darüber hinaus, dass jedes Skalenniveau mit nicht trivialen Forderungen an die empirische Struktur verknüpft ist. Es ist z. B. keinesfalls selbstverständlich, dass eine Menge von Objekten samt einer empirischen Relation angeordnet ist. Zirkuläre Strukturen treten nicht nur bei Wahrnehmungstäuschungen häufig auf. Sehr oft hat man es z. B. auch mit lediglich partiell geordneten Gegenstandsbereichen zu tun. Solche Phänomene genügen, um eine Messung auf Ordinalskalenniveau unmöglich zu machen. Die entscheidende Trennung bei den Skalenniveaus verläuft zwischen Ordinal- und Intervallskala (siehe die gestrichelte Linie in der obigen Tabelle). Sie markiert im hierarchischen System der Messtheorie den Unterschied zwi-
2.4 Bedeutsamkeit
31
schen qualitativen und quantitativen Aussagen. Wissenschaftlicher sind in der Tradition Galileis quantitativ orientiert und man kann sich anhand einfacher Beispiele leicht klar machen, warum. Kennt man z. B. nur die Rangfolge der Sieger in einem sportlichen Wettbewerb (Schnellster, Zweitschnellster, usw.), so lässt sich zwar entscheiden, wem die Medaillen zustehen, wichtige Informationen aber fehlen: Handelte es sich bei der Siegerzeit um einen neuen Weltrekord? War der Erfolg unangefochten oder setzte sich der Sieger nur um Haaresbreite durch? Fiel die Entscheidung auf den letzten Metern oder handelte es sich um einen nie gefährdeten Start-Ziel-Sieg? Noch dramatischer zeigt sich der Unterschied im Informationsgehalt beim Ergebnis einer politischen Wahl: Nur die wenigsten wären mit der Nennung der Reihenfolge der Parteien aufgrund der abgegebenen Stimmen (am meisten Stimmen, am zweitmeisten, usw.) zufrieden, lässt sich doch hieraus nicht ermitteln, wer die Wahl gewonnen hat, wie sich das neue Parlament zusammen setzt und wer wohl die neue Regierung stellen wird. Im Politikerjargon würde man sagen, dass zwischen qualitativen und quantitativen Aussagen, ein „riesiger Quantensprung“ liegt. Deshalb ist es höchst verblüffend, wenn sich eine empirische Wissenschaft mit qualitativen Aussagen begnügt, etwa Aussagen über die Richtung eines Effekts oder die bloße Anordnung von Objekten. Über seine Bemerkung von 1969 (siehe S. 7) noch weit hinausgehend, formuliert Tukey (1991: 104) sein Unverständnis darüber in aller Deutlichkeit: For pure intellectual curiosity - and perhaps for writing treatises for the intellectually curious - it may be that confident directions (up, uncertain, or down) can suffice. It would be good to understand why many psychologists, for example, seem to be content with only confident directions. Is this a desire for abstract knowledge? Or a sign of inability to make use of more quantitative results? Or an unwillingness to price (or a lack of experience in pricing) comparisons as a basis for real-world actions? Or a belief that qualitative knowledge is all that psychologists can hope for? Or what?16 (Hervorhebung im Original.)
2.4 Bedeutsamkeit Führt man auf der Menge Z eine neue Relation ein, so sollte man aufgrund des bislang Gesagten darauf achten, dass diese nicht wesentlich von einer speziellen Skala abhängt. Formal: Eine Relation R(n) auf der Menge Z heißt bedeutungsvoll, wenn für beliebige Objekte a1 , . . . , an ∈ W gilt, dass die mit einer ersten Skala s ∈ S erhobenen Messwerte s(a1 ), . . . , s(an ) genau in dann in Relation R(n) zueinander stehen, wenn sie dies auch für eine beliebige 16
Das Gegenteil ist hingegen umso bemerkenswerter: „Thus, while starting out from a purely qualitative system of axioms, one arrives at a quantitative measure of probability, and then at the theorem of total probability which permits the construction of the whole calculus of probabilities. (De Finetti 1937), zitiert nach Suppes (2009: 30).
32
2 Messtheorie
andere Skala s∗ ∈ S tun. Beispiel: s(a1 ) < s(a2 ) gilt genau dann, wenn auch s∗ (a1 ) < s∗ (a2 ) wahr ist. Anders gesagt, für die Gültigkeit der Relation R(n) ist es egal, welche der zur Verfügung stehen Skalen man bemüht. Ist also Werkstück A auf der Kilogramm-Skala schwerer als Werkstück B, so gilt diese Relation auch für die Pfund-Skala und jede andere Skala in S. Darüber hinaus kann man aufgrund der grundlegenden Eigenschaft (2.1) sicher sein, dass Werkstück A auch „tatsächlich“ schwerer ist als Werkstück B.17 Nun will man nicht zuletzt Daten auswerten. Das heißt, formal gesehen, dass man aus einer Reihe von Messwerten x1 , . . . , xn eine Statistik t berechnet. Hat man z. B. mehrfach das Gewicht eines Brotes mit einer Waage gemessen und kam dabei nacheinander auf 500, 499 und 504 Gramm, so läge es nahe, das arithmetische Mittel, also t = (500 + 499 + 504)/3 = 501 Gramm als den „wahren Wert“ des Brotes anzusehen. Es sollte dabei keine Rolle spielen, ob wir das Brot mithilfe der Gramm-Skala oder aber mit der Einheit kg wiegen. Dieser Gedanke führt auf die folgende Definition: Eine Statistik t ist eine Abbildung von Z n nach IR. Die Statistik hängt also nur von den Messwerten ab. Sie heißt bedeutungstragend bzw. zulässig genau dann, wenn die von ihr auf dem numerischen Relativ N erzeugte (2n)-stellige Relation {(x1 , . . . , xn , x1 , . . . , xn ) ∈ Z 2n : t(x1 , . . . , xn ) = t(x1 , . . . , xn )} bedeutungsvoll ist. Es darf also nicht passieren, dass für eine Skala s die Gleichheit gilt, dass also, ausgehend von den Objekten a1 , . . . , an ; a1 , . . . , an die Gleich heit t(s(a1 ), . . . , s(an )) = t(s(a1 ), . . . , s(an )) besteht, während es für eine gewisse zweite Skala s∗ zu einer Ungleichheit, also t(s∗ (a1 ), . . . , s∗ (an )) = t(s∗ (a1 ), . . . , s∗ (an ))) kommt.18 Der Wahrheitswert der Aussage
t(s(a1 ), . . . , s(an )) = t(s(a1 ), . . . , s(an )) hinge dann nämlich von der speziellen Skala s ∈ S ab.19 Aufgrund der Gleichheitsbedingung heißt diese Methode, die Bedeutsamkeit einer Statistik begrifflich zu fassen, auch comparison invariance: Die obige Aussage gilt also für beliebige Skalen s. Sie stellt gewissermaßen eine Minimalanforderung an bedeutungstragende Statistiken dar. Sie ist schwächer (siehe Pfanzagl (1968: 42ff)) und weniger gebräuchlich als die folgende Definition, welche sich direkt zulässiger Transformationen bedient: Werden Objekte a1 , . . . , an mit der Skala s ∈ S gemessen, so erhält man die Messwerte s(a1 ), . . . , s(an ). Darauf wendet man eine Statistik t an, z. B. das arithmetische Mittel, welches formal gesehen eine Abbildung von Z n nach 17
Für weitere Details siehe Pfanzagl (1968: 34ff). Wir hätten selbstverständlich wie in der Definition auch direkt von den Messwerten der Objekte, also x1 = s(a1 ), . . . , xn = s(an ), x1 = s(a1 ), . . . , xn = s(an ) ausgehen können. 18 19
Aufgrund der Darstellung s∗ = γ(s) hat man die Bedeutsamkeit von t gezeigt, falls aus t(x1 , . . . , xn ) = t(x1 , . . . , xn ) die Aussage t(γ(x1 ), . . . , γ(xn )) = t(γ(x1 ), . . . , γ(xn )) für alle zulässigen γ folgt.
2.4 Bedeutsamkeit
33
IR ist. Das heißt, t(s(a1 ), . . . , s(an )) ist eine reelle Zahl. Mit einer anderen Skala s∗ ∈ S wäre das Ergebnis t(s∗ (a1 ), . . . , s∗ (an )). Diese beiden Resultate sollten sich nicht wesentlich unterscheiden, also „vergleichbar“ bzw. ineinander umrechenbar sein. Nun wissen wir, dass es eine Darstellung s∗ = γ(s) mit einer zulässigen Transformation γ gibt. Beeinflussen s bzw. s∗ nicht wesentlich das Ergebnis, so sollte es egal sein, ob man γ „zu Beginn der Berechnung“ oder zu deren „Ende“ verwendet, d.h. es sollte die Gleichheit t(s∗ (a1 ), . . . , s∗ (an )) = t(γ(s(a1 )), . . . , γ(s(an ))) = γ(t(s(a1 ), . . . , s(an ))) gelten. Schreibt man kurz xi = s(ai ) für die Messwerte, welche bei Verwendung der Skala s entstehen, so ist also die Bedingung γ(t(x1 , . . . , xn )) = t(γ(x1 ), . . . , γ(xn )) zu fordern.20 Mit den Worten von Anderson (1961: 309): “It means that if a statistic is computed from a set of scale values and this statistic is then transformed, the identical result will be obtained as when the separate scale values are transformed and the statistic is then computed from these transformed scale values.” Eine prägnantere, mathematische Formulierung ist, dass die zulässige Transformation γ und die Statistik t kommutieren - also im o. g. Sinn vertauschbar sind.
Beispiele Die häufigste Klasse bzw. der häufigste Wert, auch Modus genannt, ist eine bedeutsame Statistik auf Nominalskalenniveau. Der Grund: Hat man einmal erkannt, welche Klasse am meisten Objekte enthält, so „vergisst“ man dies nicht bei zulässigen Transformationen, welche lediglich eine andere Nummerierung der Klassen bewirken. Formal: f (M odus(x1 , . . . , xn )) = M odus(f (x1 ), . . . , f(xn )) mit einer injektiven Transformation f . Bei geordneten Messwerten x(1) ≤ . . . ≤ x(2n−1) ist es sinnvoll, den Median x ¯M = x(n) zu berechnen, also jenen Messwert, der die Beobachtungsdaten in zwei gleich große Hälften vom Umfang n−1 teilt.21 Formal hat man zu zeigen, dass der Median dieser Werte, falls man ihn einer monotonen Transformation g unterwirft, gleich dem Median der zunächst transformierten Messwerte ist. 20
Diese Definition von Bedeutsamkeit impliziert die vorgenannte, da für alle zulässi gen γ gilt: t(x1 , . . . , xn ) = t(x1 , . . . , xn ) =⇒ γ(t(x1 , . . . , xn )) = γ(t(x1 , . . . , xn )) =⇒ t(γ(x1 ), . . . , γ(xn )) = t(γ(x1 ), . . . , γ(xn )) 21
Nämlich die kleineren Werte x(1) , . . . , x(n−1) und die größeren Werte x(n+1) , . . . , x(2n−1) .
34
2 Messtheorie
Und genau dies ist aufgrund von g(M edian(x(1) , . . . , x(2n−1) )) = g(x(n) ) = M edian(g(x(1) ), . . . , g(x(2n−1) )) der Fall.22 Das arithmetische Mittel x ¯ = (x1 + . . . + xn )/n der Werte x1 , . . . , xn ist bei Intervallskalenniveau eine bedeutungstragende Statistik, da es lineare Transformationen h(x) = ax + b mit a = 0 respektiert: n n n xi h(xi ) 1 h(¯ x) = a¯ x+b=a +b= (axi + b) = i=1 (2.3) n n i=1 n i=1 √ Eine völlig analoge Rechnung zeigt für das geometrische Mittel n x1 · · · xn der positiven Werte xi , dass es auf Verhälnisskalenniveau zulässig ist. Da es sich bei den genannten Skalen um eine Hierarchie handelt, ist eine bedeutungsvolle Statistik auf einem informationsreicheren „höheren“ Niveau auch automatisch bedeutungsvoll für ein informationsärmeres „niedrigeres“ Niveau, jedoch nicht umgekehrt. Das wichtigste Beispiel einer nicht zulässigen Statistik ist das arithmetische Mittel, falls das Messniveau nur einer Ordinalskala entspricht. Gleichung (2.3) gilt nur bei linearen Transformationen h, deshalb lässt sich bei einer beliebigen monotonen Transformationen g unmittelbar ein Gegenbeispiel angeben: Seien x1 = 1, x2 = 3 und g(x) = x2 . Man berechnet g(¯ x) = 22 = 4 = 5 = (12 + 32 )/2 = g(x)
(2.4)
Der Median ist auf Nominalskalenniveau nicht bedeutungstragend, weil formal gesehen mit den Werten x1 = 1, x2 = −2, x3 = 3 und f (x) = |x| gilt: |M edian(−2, 1, 3)| = 1 = 2 = M edian(1, 2, 3). Schließlich ist nahe liegend und völlig natürlich, nicht nur Relationen und Statistiken als bedeutungsvoll bzw. zulässig anzusehen, sondern die zentrale Idee auf beliebige Beziehungen zu verallgemeinern. Typischerweise nennt man eine numerische Aussage bedeutungsvoll, wenn sich ihr Wahrheitswert unter zulässigen Transformationen nicht ändert. Bei einer belieben numerischen Aussage kann es sich insbesondere um eine Gleichung oder Ungleichung (zwischen reellen Zahlen) handeln, in der eine Statistik vorkommt, womit der obige Fall von Statistiken mit abgedeckt ist. Darüber hinaus erinnere man sich insbesondere auch an das Beispiel der Physik (S. 20): Stoßen Physiker auf eine mathematische Beziehung, so studieren sie routinemäßig die Gruppe der Transformationen, die die entsprechende Aussage unverändert lassen. Man nennt dies die „Symmetrien“ der Aussage. 22
Analoges gilt im Fall einer geraden Anzahl von Messwerten.
2.4 Bedeutsamkeit
35
Die Bedeutung der Bedeutsamkeit Die Zulässigkeit einer Statistik (und vieler Relationen) lässt sich zumeist auch intuitiv leicht begründen. Wenn zum Beispiel die Daten nicht angeordnet sind - man also lediglich gleich und ungleich unterscheiden kann - so ist es nicht sinnvoll, eine Statistik wie den Median zu verwenden, der sich gerade auf die Anordnung stützt. Analoges gilt für das arithmetische Mittel: Sind die Messwerte lediglich angeordnet, ohne dass die „Distanz“ zwischen ihnen eine reale Bedeutung hätte, so ist es offenkundig fehlerhaft, das arithmetische Mittel zu berechnen, welches wesentlich auf dieser Information basiert. Ganz allgemein gilt: Ignoriert man die Randbedingung „Skalenniveau“ so arbeitet man mit Informationen, die man de facto gar nicht hat, was zumindest zum Dissens zwischen Forschern führt oder aber einfach zu empirisch nicht zutreffenden Aussagen, also Artefakten und Fehlern. Die Messtheorie warnt nachdrücklich davor, mehr in Daten hineinzulesen, als sich de facto in ihnen befindet. Das Subtile dabei ist, dass Messwerte mathematisch gesehen nichts anderes als Zahlen sind, mit denen man nahezu beliebig rechnen kann. Die Messtheorie beschränkt diese Freiheit wesentlich, da sie zeigt, dass viele formal wohldefinierte Operationen inhaltlich gesehen nicht sinnvoll sind. Eine Reihe von Autoren haben diesen normativen Aspekt der Messtheorie betont. Pfanzagl (1968: 34) verwendet die intersubjektive Übereinstimmung zwischen Forschern um die Idee zu illustrieren: “Assume that two experimenters measure temperature [. . . ], one of them using centigrade, the other Fahrenheit. Comparing temperatures x, y [. . .] they will always agree whether x < y is true or false, but never whether y = 2x, because y = 2x in centigrade implies y = 2x − 32 in Fahrenheit. Thus contrary to the relation x < y, the relation y = 2x [. . .] is meaningless without specification of the scale.” (Meine Hervorhebung.) Adams et al. (1965: 124) sprechen eine deutlichere Warnung aus: “The practice of ignoring scale type in making statistical tests could lead to the formulation of empirically meaningless hypotheses.” Noch drastischer äußert sich Luce (1959: 84): If the interpretation of a particular statistic or statistical test is altered when admissible scale transformations are applied, then our substantive conclusions will depend on which arbitrary representation we have used in making our calculations. Most scientists, when they understand the problem, feel that they should shun such statistics and rely only upon those that exhibit the appropriate invariances for the scale type at hand. Both the geometric and the arithmetic means are legitimate in this sense for ratio scales (unit arbitrary), only the latter is legitimate for interval scales (unit and zero arbitrary), and neither for ordinal scales. (Meine Hervorhebung.)
Lauth und Sareiter (2005: 176) schließen kurz und bündig: „Die richtige Festlegung des Skalenniveaus einer Meßgröße ist wichtig für statistische Auswertungen von entsprechenden Meßergebnissen. So ist zum Beispiel bei nominal- und ordinalskalierten Größen die Berechnung von Mittelwerten und Varianzen völlig sinnlos: Es gibt keinen durchschnittlichen Familienstand.“
36
2 Messtheorie
Ein Artefakt bleibt ein Artefakt auch dann, eine große „Forschergemeinde“ jahrelange ein bestimmtes Messverfahren angewandt und die Ergebnisse auf eine gewisse Art und Weise ausgewertet hat. Genausowenig wie ein Rechenfehler korrekt wird, wenn nur genügend viele Personen von seiner Richtigkeit überzeugt sind, genausowenig wird eine Auswertung, die ein zu hohes Skalnenniveau vorausgesetzt hat, dadurch richtig, dass lange Jahre ein Konsens bestand, jenes sei erfüllt. Wie nicht anders zu erwarten, ist gerade die normative Komponente der Messtheorie, welche zwangsläufig eine zuweilen deutliche Einschränkung in den Forschungs- und Auswertungsmethoden mit sich bringt, nicht unwidersprochen hingenommen worden. Den Anfang machten wohl die bissigen Bemerkungen in Lord (1953) mit dem vielsagenden Titel “On the Statistical Treatment of Football Numbers.” Wir beschäftigen uns mit diesem Problem ausführlich ab dem nächsten Abschnitt. Schon hier möchten wir jedoch darauf hinweisen, dass die Messtheorie auch relevant ist, wenn nur eine einzige Methode zur Messung eines Sachverhalts bekannt ist. Bei allen obigen Argumentationen zur Äquivalenz von Skalen kommen zwar zumindest zwei Skalen s, s∗ vor, doch ist es, wie wir festgestellt haben, die Gestalt des empirischen Relativs, welche über das mögliche Skalenniveau entscheidet. Ins Positive gewendet, sind im Falle einer einzigen bekannten Skala messtheoretische Überlegungen die Methode der Wahl, um relevante, auf die Realität zurückgehende Informationen, von willkürlichen Setzungen zu unterscheiden. So genügt der Nachweis, dass eine Messung nur Ordinalskalenniveau erreichen kann, um das arithmetische Mittel zu desavouieren. Da gesetzesmäßige Zusammenhänge formal gesehen nichts anderes als mathematische Aussagen sind, lassen sich die Einschränkungen der Messtheorie auch konstruktiv nutzen, indem man sie als Randbedingungen interpretiert. Das heißt, die Beschaffenheit des empirischen Relativs schränkt (insbesondere über das Skalenniveau) die Gestalt möglicher Gesetze ein, im bestmöglichen Fall legt der empirische Relativ sogar die Form eines Gesetzes fest. Luce (1959) hat diesen Ansatz bereits kurz nach Stevens Beiträgen ausgearbeitet. “On the possible psychophysical laws” charakterisiert die Gestalt solcher Gesetze in Abhängigkeit vom jeweiligen Skalenniveau. Zum Beispiel sind Gesetze auf Verhältnisskalenniveau von der Form y = axb , bei Intervallskalen kommt man wenig verwunderlich auf lineare Zusammenhänge der Gestalt y = ax + b. Zwar wurde der Ansatz schnell (z. B. von Pfanzagl (1968: 50ff)) als zu eng kritisiert und erweitert, die zentrale Idee jedoch ist überzeugend: Liegt ein gewisser empirischer Relativ vor, so schränkt einen dies zwar bei der Verwendung formaler Methoden ein, andererseits hilft einem das Wissen aber auch bei der Formulierung allgemeiner Gesetzmäßigkeiten. Die auf Buckingham (1914) zurückgehende Dimensionsanalyse, „eine Methode zur Auffindung der Form von Naturgesetzen, sofern gewisse Voraussetzungen gegeben sind“ (Juhos und Schleichert 1966: 81) ist eine eng verwandte Idee.
2.5 Messtheorie in der Praxis
37
2.5 Messtheorie in der Praxis Die Tatsachen bilden stets den Archimedischen Punkt, von dem aus auch die gewichtigste Theorie aus den Angeln gehoben werden kann. Planck (1913: 23)
2.5.1 Gegenbeispiele Eine typische Anwendung der Messtheorie sollte die folgende sein. In den frühen 1950er Jahren führte die Kinderärztin Virginia Apgar (1953) den heute nach ihr benannten Test ein. Er wird benutzt, um kurz nach Geburt die Vitalität des Neugeborenen zu bestimmen: Item Sign 1 Activity 2 Pulse 3 Grimace 4 5
0 Points absent absent no response
1 Point arms and legs flexed below 100 bpm23 grimace
Appearance blue-gray, normal, except for pale all over extremities Respiration absent slow, irregular
2 Points active movement above 100 bpm sneeze, cough, pulls away normal over entire body good, crying
Addiert man die Punkte, so erhält man den sogenannten APGAR-Score. Ein Wert von 7-10 wird als normal angesehen, Werte zwischen 4 und 7 deuten an, dass möglicherweise unterstützende Maßnahmen notwendig sind. Tiefere Werte sind besorgniserregend und erfordern sofortiges Handeln. Wie man mit unvoreingenommenem Blick leicht erkennt, misst jedes der Items einen anderen Aspekt von „Vitalität“. Es ist medizinisch gesehen deshalb nicht verwunderlich, dass die Summe der Punkte eine recht zuverlässige Aussage über den Gesundheitszustand des Neugeborenen erlaubt: Wenige Punkte bedeuten, dass die wichtigsten Vitalfunktionen kaum vorhanden sind, sehr viele Punkte hingegen zeigen, dass ein Baby atmet, strampelt und auf seine Umwelt reagiert. Messtheoretisch lässt sich jedoch kaum begründen, dass die Items des Tests ihre jeweiligen Gegenstandsbereiche intervallskaliert messen. Alle Items kennen nur jeweils drei Unterscheidungen, diese werden hauptsächlich verbalungenau beschrieben und selbst beim dritten Item wird kein Versuch unternommen, die Anzahl der Herzschläge pro Minute so abzubilden, dass gleiche Differenzen in der Realität auch identischen Differenzen zwischen Zahlen entsprechen. Wie das arithmetische Mittel, so ist auch die Summe einer Reihe von Messwerten nur sinnvoll im Sinne der Messtheorie, wenn mindestens Inter-
38
2 Messtheorie
vallskalenniveau erreicht wurde.24 . Das ist auch intuitiv offensichtlich: Sind die Messwerte lediglich angeordnet, also nur bis auf monotone Transformationen festgelegt, so ist ihre Summe völlig beliebig. Die Tatsache, dass die Items des APGAR-Tests verschiedene Aspekte eines Sachverhaltes messen, kommt zudem noch erschwerend hinzu. Denn kombiniert man „ähnliche“ Orinalskalen, also Ordinalskalen die verwandte Merkmale messen, so sollte die Summe auch wieder höchstens ordinalskaliert sein. Es ist nicht zu erkennen, woher die zusätzliche, metrische, also quantitative Information stammen sollte. Zusammenfassend lässt sich daraus nur der Schluss ziehen, dass der APGAR-Score ein Paradebeispiel für eine nicht sinnvolle Statistik ist. Dessen ungeachtet wird der APGAR-Score seit Jahrzehnten weltweit mit großem Erfolg eingesetzt. Es ist unter Fachleuten völlig unumstritten, dass er ein wertvolles Instrument ist und das Leben vieler Kinder gerettet hat. Der immer wieder genannte Grund hierfür ist, dass er zum einen die Vitalität des Neugeborenen zufriedenstellend misst (der für uns relevante Punkt) und darüber hinaus mit seiner klaren, einfachen Interpretationsregel Geburtshelfern sagt, wann sie eingreifen müssen. Der APGAR-Score ist kein Einzelfall. In vielen Bereichen der Wirtschaftsund Sozialwissenschaften wird mit Zahlen hantiert, als befänden jene sich auf (mindestens) Intervallskalenniveau. Es werden Mittelwerte berechnet, Varianzen analysiert, Steuungsmaße, Momente und eine Vielzahl anderer mathematischer Operationen angewandt. N. N. Cox (1996: 481) gibt ein sehr drastisches Beispiel: “Nominal scales are repeatedly said to allow only arbitrary numerical labels. Yet it is well known that assigning 0 and 1 to binary states leads to interpretable means and all manner of worthwhile analyses.” Gleich mehrere Klassen von Gegenbeispielen werden von Velleman und Wilkinson (1993) genannt: Alternative Typologien von Skalen (welche auch nicht hierarchisch angeordnet sein müssen), multidimensionale Skalen, „robuste‘ “ Statistiken, die sich nicht an eine strikte Skaleneinteilung halten. Ein schönes Beispiel sind getrimmte Mittel, welche insofern zwischen Median und arithmetischem Mittel stehen, als dass sie einen Teil der Daten bei der Mittelung nicht berücksichtigen. Hat man zum Beispiel die Daten xi = i2 für i = 1, . . . , 5 gegeben, so ist das arithmetische Mittel gleich (1 + 4 + 9 + 16 + 25)/5 = 11. Das 25%-getrimmte Mittel lässt den größten und den kleinsten Wert einfach weg und man erhält (4 + 9 + 16)/3 = 9, ¯6. Das 50%-getrimmte Mittel berücksichtigt die beiden größten und kleinsten Werte nicht und ist damit gleich dem Median, also 9. Auf welchem Niveau ist eine solche Vorgehensweise sinnvoll? Die Methode stammt bezeichnenderweise aus der Praxis, sie wird vor allem dann angewandt, wenn es Ausreißer gibt und hat sich gut bewährt. In der Stevensschen Typologie ist dafür jedoch kein Platz: Auf Intervallskalenniveau wertet das arithmetische Mittel die verfügbare metrische Information aus, für die „darunterliegende“ Ordinalskala ist der Median angemessen. 24
Siehe Gleichung (2.3) und Ungleichung (2.4)
2.5 Messtheorie in der Praxis
39
Nicht zuletzt kann es auch von der Fragestellung abhängen, wie Daten ausgewertet werden. Dann werden ein und dieselben Daten - je nach Verfahren - so behandelt, als befänden sie sich auf ganz unterschiedlichen Skalenniveaus. In der Statistik transformiert man darüber hinaus gerne Daten, bevor sie im eigentlichen Sinne ausgewertet werden. Die Rohwerte werden häufig zunächst logarithmiert, geglättet oder aber auch um sogenannte „Ausreißer“, also Beobachtungen, die sich erheblich von allen übrigen Daten unterscheiden, bereinigt. Bei alledem hofft man natürlich, durch die jeweilige Transformation besser interpretierbare Zahlenwerte zu erhalten.
Auf der Suche nach Alternativen Wir stehen vor einem Paradoxon: Auf der einen Seite legt die Messtheorie überzeugend dar, wann bestimmte Berechnungen nicht sinnvoll sind. Auf der anderen Seite führt die Missachtung dieser Empfehlungen sehr häufig zu empirisch sinnvollen Ergebnissen. Diese Diskrepanz hat - wie leider nicht anders zu erwarten - zu einer Polarisierung der Meinungen geführt, zuweilen kam es sogar zu hitzigen Wortgefechten.25 Dies ist nicht weiter verwunderlich, stehen doch letztlich mathematisch hergeleitete Sätze (samt ihren normativen Implikationen) empirischen Fakten gegenüber. Wird man vor diese unerquickliche Wahl gestellt, so hat man im Prinzip drei Möglichkeiten: Entweder man verteidigt die Mess-Theorie, lehnt sie ab, weil man der Empirie die Priorität einräumt, oder aber man sucht einen Kompromiss, der beiden Seiten gerecht wird. In dieser Reihenfolge gehen auch wir vor. Versuchen wir es zunächst mit der Verteidigung. Ein Protagonist könnte behaupten, die Messtheorie „habe doch recht“. Das heißt, man werde auf Dauer schon sehen, dass all jene, die sich nicht an die von ihr verordneten Vorsichtsmaßnahmen gehalten haben, letztlich Artefakten aufgesessen sind, auch wenn sie dies lange Zeit nicht wahrhaben wollten. In diesem Sinne schrieb mir ein anonymer Gutachter vor einigen Jahren: „Wenn eine Schutzmaßnahme (Beachtung des Skalenniveaus [. . .]) nicht realisiert wird, ohne daß die negativen Konsequenzen eintreten, vor denen man sich schützen will (sinnlose Ergebnisse [. . .]), dann widerlegt das nicht den Anspruch, daß die Schutzmaßnahme hinreichend zur Vermeidung dieser Konsequenzen ist.“ Dieses Argument ist umso überzeugender, je mehr empirische Beispiele zu seinen Gunsten angeführt werden können, d.h., wenn man in einer Reihe von Anwendungsfeldern zeigen kann, dass viele „unvorsichtige“ Untersuchungen zu nicht bedeutungsvollen Aussagen geführt haben. Da die Messtheorie seit gut 50 Jahren gelehrt und von einer ganzen Reihe von Gebieten zumindest zitiert wird, sollte es eigentlich nicht schwer fallen, solche Beispiele benennen. Jedoch - wirklich empirische Beispiele sind in der Literatur zur Messtheorie 25
Siehe z. B. Velleman und Wilkinson (1993: 68) und Hand (1996: 447): [. . .] “most of the debate has taken the form of polemics favouring one or the other side of the debate [. . .]”
40
2 Messtheorie
nicht allzu häufig, haben eher Lehrbuchcharakter,26 und typischerweise kommen Autoren zum genau gegenteiligen Schluss, nämlich dass “[. . .] in spite of the importance of measurement theory [. . .], many of these prescriptions and proscriptions are either premature or, if strictly applied, would represent a major hindrance to the progress of empirical research [. . .]” (siehe das Abstract von Briand et al. (1996)). Vorsichtsmaßnahmen, die sich permanent als überflüssig erweisen, können und werden in der Praxis ohne Schaden ignoriert werden. Man benötigt keine Dämme gegen Fluten, die nie kommen. Besonders schwer wiegen in dieser Hinsicht Beispiele wie jenes von N. Cox, in denen die Voraussetzungen massiv verletzt werden und trotzdem eine unzulässige Statistik - arithmetisches Mittel bei Nominalskalenniveau - sinnvolle Ergebnisse liefert. Schließlich kann der im Prinzip pessimistischen Haltung des weiter oben zitierten Gutachters auch eine optimistisch-zuversichtliche entgegengestellt werden, die noch dazu empirisch wesentlich besser fundiert ist: [We] may prefer the freedom to do something ‘impermissible’ and to judge a posteriori whether it was warranted. [Some author] may analyse only the attributes that he understands a priori and may constrain his analyses by his assumptions about measurements. But why ask others to wear that strait-jacket? We should instead champion the freedom to learn from the data [. . . Whereas critics] will not even let us look! (Velleman (1996: 486), Hervorhebungen im Original.)
Aufgrund der immensen Evidenz27 gegen die Messtheorie kann das Beibehalten der o.g. Position nur noch als dogmatisch bezeichnet werden. Sie gleicht einer Immunisierung (Lakatos 1974) gegen jegliche empirische Kritik. Es ist äußerst unplausibel, dass sich zehntausende von Wissenschaftlern auf Dutzenden von Gebieten über Jahrzehnte hinweg grundsätzlich getäuscht haben sollten, weil sie von der Messtheorie „verbotene“ Methoden und Statistiken verwendet haben.
2.5.2 Enge und Rigidität Kommen wir zu den entschiedenen Kritikern der Messtheorie. Tukey (1986b: 246) führt als Beispiel die Temperaturmessung an: “How were temperatures measured? With one of any of several kinds of thermometers. [. . .] Would there be agreement between the different kinds of thermometers? Approximate agreement, yes; exact agreement, certainly not. Would any one kind have sufficient theoretical support to be chosen as the standard over all others. No. Clearly temperature was not measured on an interval scale in those days. But equally clear, it made good sense to [. . .] calculate the arithmetic mean 26
Siehe z. B. Pfanzagl (1968), Bortz (2004), Narens (2002) sowie die Werke von Luce, Krantz, Suppes und Tversky 27
Dieser Begriff wird im folgenden eine große Rolle spielen. Für eine genauere Begriffsbestimmung siehe S. 199.
2.5 Messtheorie in der Praxis
41
of a group of temperatures. Temperature was not measured on a mere ordinal scale. It was measured on a scale which, though not an interval scale, was still quite well defined.” (Hervorhebungen im Original.) Er fährt fort (ibd., S. 247): “An oversimplified and overpurified view of what measurements are like cannot be allowed to dictate how data is to be analyzed.” Luces Standpunkt (siehe S. 35) zeigt nach Tukey (1986b: 246) “A lack of adequate recognition that knowledge is approximate, not precise.” Er kommentiert ihn mit den Worten (ibd., S. 243) The view thus summarized is a dangerous one. If generally adopted it would not only lead to inefficient analysis of data, but it would also lead to failure to give any answer at all to questions whose answers are perfectly good, though slightly approximate. All this loss for essentially no gain.
Schließlich fasst er seine Argumentation in einem badmandment28 (ibd., S. 201) zusammen: “BE EXACTLY WRONG, RATHER THAN APPROXIMATELY RIGHT.” (Hervorhebungen im Original.) Die Approximationsidee von Tukey widerspricht in ihrem konzilianten Geist den strikten und absoluten Denkmustern der Messtheorie. Velleman (s.o.) spricht explizit von einer Zwangsjacke und Duncan (1984: 129) von einem Prokrustesbett, weil es auf der anderen Seite unmissverständlich heißt: “As is perhaps obvious, meaningfulness is an all-or-none concept. Thus a statement can not be almost meaningful” (Townsend und Ashby 1984: 394). Auch die enge Skalenhierarchie (mit lediglich fünf Skalen) wird nicht in Frage gestellt: “Many of the discussions of scale types, and virtually all of the mathematical results, treat them as absolute categories. Data are expected to fit into one or another of the categories. A failure to attain one level of measurement is taken as a demotion to the next level” (Velleman und Wilkinson 1993: 70). In der typischen Situation, dass eine Messung „zwischen“ dem Ordinal- und Intervallskalenniveau liegt, ist man deshalb im Zweifelsfall gezwungen, Daten auf dem vermeintlich sichereren bzw. angemessenen, also tieferen Niveau auszuwerten. Der Informationsgehalt ist dort, wie wir weiter oben deutlich gemacht haben, insbesondere beim Übergang von einer Intervall- zu einer Ordinalskala, jedoch deutlich geringer. Wilkinson (1996: 487) hat hierfür nur Spott übrig: “And the popular device to those possessing ‘sloppy data’ (downgrade the measurement level to ordinal or nominal) can only be considered a parody of measurement theory.” (Hervorhebungen im Original, siehe z. B. Hartung et al. (2009: 408f).) Die Parodie wird vollends zur Farce, wenn Variablen „dichotomisiert“, also auf lediglich zwei mögliche Werte reduziert werden - eine genauso beliebte wie zugleich erschreckende Praxis (siehe MacCallum et al. (2002) oder Cohen (1983)). Schon Berkeley (1710) fand29 für diese Strategie treffende Worte: Upon the whole, I am inclined to think that the far greater part, if not all, of those difficulties which have hitherto amused philosophers, and blocked up the way to 28
- also in einem absichtlich schlechten Ratschlag -
29
Siehe die Einleitung zu seinem Werk
42
2 Messtheorie knowledge, are entirely owing to ourselves - that we have first raised a dust and then complain we cannot see. (Meine Hervorhebung)
Sich selbst Sand in die Augen zu streuen ist eine wirkungsvolle Möglichkeit, Daten gründlich zu missachten und potenziell wichtige Informationen zu ignorieren. Sie widerspricht diametral der ersten Maxime empirischer Wissenschaft, dass sich die Theorie den Fakten anzupassen habe und nicht umgekehrt.30 Dieser Aufforderung widersetzt sich ein Wissenschaftler, wenn er, statt eine praxistaugliche Theorie zu entwickeln, bei der einfachen Klassifikation der Messtheorie bleibt, obwohl “the assertion, common to many traditional statistics texts, that ‘data values are nominal, ordinal, interval or ratio’ simplifies the matter so far as to be false” (Velleman und Wilkinson 1993: 69).
2.5.3 Verfeinerung und Mathematisierung Protagonisten der Messtheorie haben die Kritik ernst genommen und konstruktiv darauf reagiert. Die hauptsächlichen Bestrebungen gingen dahin, die Messtheorie mathematisch zu verfeinern und zu erweitern. Die dabei erzielten erheblichen Fortschritte wurden etwa in Pfanzagl (1968), Falmagne (1985), Narens (1985, 2002) und dem schon öfters genannten fundamentalen dreibändigen Werk von Luce, Krantz, Suppes und Tversky (1971, 1989, 1990) eindrucksvoll dokumentiert. Solche Bemühungen sind sehr sinnvoll und auf alle Fälle zu würdigen. Die entscheidende Frage ist und bleibt jedoch, ob es mithilfe dieser Maßnahmen gelingt, besser mit typischen, also in der Realität häufig auftretenden Situationen, zurecht zu kommen. Die Antwort auf diese Frage muss natürlich zum Teil Ja lauten, da ein Mehr an mathematisch erforschten Strukturen prinzipiell die Wahrscheinlichkeit erhöht, dass eine dieser Strukturen in einer speziellen Situation angemessen ist. Die Antwort lautet jedoch Nein, wenn man sich davon erhofft hätte, dass nun in der alltäglichen Forschungspraxis messtheoretische Überlegungen konsequent (und nicht nur als Parodie) angewandt würden bzw. werden könnten. Auch wenn in der Psychophysik (also dem Gebiet Stevens) oder einschlägigen Artikeln des Journal of Mathematical Psychology messtheoretisches Denken gepflegt wird, so ist das beim großen 30
Mit den Worten von Galilei (1612): „Circa il qual particolare, io voglio solamente rappresentare a V. E. quello che egli sa molto meglio di me, et è che noi non doviamo desiderare che la natura si accomodi a quello che parrebbe meglio disposto et ordinato a noi, ma conviene che noi accomodiamo l’intelletto nostro a quello che ella ha fatto, sicuri tale esser l’ottimo et non altro; e perchè ella si è compiaciuta di far muover le stelle erranti circa centri diversi, possiamo esser sicuri che simile costitutione sia perfettissima et ammirabile, et che l’altra sarebbe priva d’ogni eleganza, incongrua e puerile.“ Die Übersetzung in Michell (1999: xiii.), lautet: “We must not ask nature to accommodate herself to what might seem to us the best disposition and order, but must adapt our intellect to what she has made, certain that such is the best and not something else.”
2.5 Messtheorie in der Praxis
43
Mainstream nicht der Fall. Bücher wie Luce (2000) sind die Ausnahme. Die Messtheorie hat es bislang nicht geschafft, ihre konzeptionelle Enge wirklich zu überwinden. Was sind die Gründe hierfür? Zunächst einmal sind auch alle wichtigen Erweiterungen der klassischen Messtheorie deterministisch.31 Sie verwendet im Wesentlichen algebraische Strukturen als empirischen Relativ, welche mittels die Struktur respektierenden Abbildungen auf die Welt der Zahlen übertragen werden. So reichhaltig deterministische mathematische Strukturen auch sind - sie sind bei weitem nicht so zahlreich und v.a. auch nicht so flexibel anpassbar wie Modelle, welche Wahrscheinlichkeiten und damit Unschärfen, Fehler und Schwankungen zulassen. Einem Objekt wird in einem fest gewählten messtheoretischen Modell immer dieselbe Zahl zugeordnet. Es ist nicht vorgesehen, dass ein und dasselbe Objekt, z. B. bei aufeinanderfolgenden Beobachtungen, etwas von einander abweichende Messwerte produziert. (Das ist auch eine Kritik von Duncan (1984: 121) und der dort genannten Literatur.) Im Prinzip genügt bei deterministischen Modellen sogar eine einzige Beobachtung, welche nicht mit dem gewählten Modell in Einklang zu bringen ist, um es zu falsifizieren. Als nächstes ist der grundlegende Homomorphismus (siehe S. 24, insbesondere Gleichung (2.1)) zu nennen. So natürlich er mathematisch ist, de facto stellt er sehr weitreichende Anforderungen an jede Messung. Es kommt einer naiv-realistischen Position gefährlich nahe, wenn man voraussetzt, dass eine Relation zwischen Zahlen genau dann gilt, wenn sie auch in der Realität zwischen Objekten besteht. Neben allen hochgradig philosophischen Problemen, die man sich damit einhandelt,32 bleiben auch ganz schlichte, jedoch allenthalben zu erwartende Messfehler unberücksichtigt; stattdessen modelliert man die perfekte Entsprechung empirischer und numerischer Strukturen. Beunruhigender noch ist, dass die Entwicklung der klassischen und mehr noch der aktuellen Messtheorie primär mathematisch-formalen Gesichtspunkten folgt. Schon die klassischen Skalen der Messtheorie wurden mithilfe grundlegender mathematischer Transformationen definiert. An keiner Stelle spielen empirische Überlegungen wirklich eine Rolle. Die Theorie stellt eine SkalenHierarchie bereit, weil die berücksichtigten Transformationen Teilmengen voneinander sind. Man vergleiche das mit dem Vorgehen in der Physik: Ist man dort auf eine interessante Gleichung gestoßen, so wird routinemäßig die Gruppe der zu ihr gehörigen Transformationen ermittelt. Es ist nicht nur völlig alltäglich, Invarianzbetrachtungen anzustellen, wichtiger noch ist, dass die Invarianzüberlegungen von einer konkreten Relation ausgehen und die Lösung auf den gerade betrachteten Fall zugeschnitten ist. Wir haben uns in der Einleitung vehement für die Mathematisierung ausgesprochen, wenn diese einem kristallisierten Verständnis (siehe S. 8) realer Sachverhalte entspricht. Was wir im Falle der Messtheorie jedoch sehen, ist ein Beispiel schlechter Mathematisierung, also von Abstraktion um der 31 32
Die einzige mir bekannte Ausnahme ist Katz (1981).
Sollten wir bei Zutreffen des Modells die Welt nicht exakt und fehlerfrei erkennen können?
44
2 Messtheorie
Abstraktion willen, wobei der Kontakt zu den konkreten Problemstellungen mehr und mehr verloren geht. Schlägt man die genannten Standardwerke zur Messtheorie, aber auch viele andere Bücher zum Thema, auf,33 so stellt man unschwer fest, dass man im Wesentlichen ein Mathematikbuch in Händen hält. Man erwartet eine Theorie des Messens - Ausführungen über konkrete Messvorgänge, experimentelle Prozeduren, Apparate, konkrete Beispiele gemessener Größen, Fehlerquellen usw. - und findet sich nach wenigen Seiten in reiner Mathematik wieder. Formale Definitionen, Sätze und Beweise, viele der modernen Algebra eng verwandt oder sogar entlehnt, folgen im Stakkato aufeinander, und nur selten verirrt sich ein wirklich empirisches Beispiel zwischen die Zeilen. Duncan (1984: 121) sagt dazu: The earlier remarks on a certain deficiency of realism in philosophical discussions of measurement could be applied here as well. The idealization of the measurement process is carried even further in this fully mathematical approach [. . .]
Krantz et al. (1971: 13) erklären zwar ausdrücklich “What is invariant, and so is not a matter of convention, is the empirical relational structure and its empirical properties, some of which are formulated as axioms. [. . .] We shall make an effort to point out the status of various axioms or classes of axioms as empirical laws.” Aber lassen die Autoren ihrer Ankündigung wirklich Taten folgen? Kaum 10 von über 500 Seiten dieses Hauptwerkes der Messtheorie beschäftigen sich mit der Verknüpfung von empirischen Fakten und ihren numerischen Repräsentationen. Der Rest des Buches widmet sich v.a. mathematischen Strukturen und ihren homomorphen Abbildungen. Dies provozierte schon früh Kritik. Estes (1975: 273), zitiert nach (Schönemann 1994: 149f), schreibt: One reason for the relative paucity of connections between measurement theory and substantive theory in psychology may arise from the fact that models for measurement have largely been developed independently as a body of abstract formal theory with empirical interpretations being left to a later stage. The difficulty with this approach is that the later stage often fails to materialize.
In den folgenden Bänden (Suppes et al. (1989), Luce et al. (1990)) setzt sich diese Entwicklung nicht nur fort, darüber hinaus wird auch, wie Schönemann (1994) überzeugend darlegt, die Theorie belastende Evidenz konsequent ausgeblendet, so dass er (ibd., S. 156 und 150) kommentiert: If one persistently ignores inconvenient empirical facts, it is hardly surprising if empirical connections fail to materialize in the long run [. . .] In hindsight it seems fairly plain that the virtually perfect absence of empirical support must have been one reason why the ‘measurement revolution’ (Cliff 1992) never happened.
Jedenfalls ist es außerordentlich treffend, dass viele einschlägige Bücher das Adjektiv abstract im Titel oder Untertitel verwenden. Sie demonstrieren eindrücklich, was geschieht, wenn mathematische Überlegungen eine Eigendynamik entfalten, die eine Theorie konsequent weg von konkreten empirischen 33
Ein typisches Beispiel ist Klein (1994).
2.5 Messtheorie in der Praxis
45
Fragestellungen führen. Wohin gelangt man auf dem mathematischen Weg? Einerseits zu mathematisch „glatteren“ Strukturen, da mit deren Hilfe zwar weiter reichende Resultate bewiesen werden können. Zum Beispiel ersetzt Narens (1985: 7) den Homomorphismus (siehe (2.1), S. 24) durch einen Isomorphismus und schreibt dazu explizit: “The primary reason for this is that isomorphisms preserve truth whereas homomorphisms do not. (The choice of homomorphisms as the basis for the representational theory of measurement has never been adequately justified, and in theoretical considerations about measurement it often leads to serious difficulties.)” Eine elegantere Mathematik bedeutet jedoch andererseits auch zumeist, dass die Situation stärker idealisiert wird als am Ausgangspunkt der Untersuchungen. Ein alltägliches Beispiel hierfür sind die reellen Zahlen. Man benutzt sie weit häufiger als die rationalen Zahlen, und auch als numerischer Relativ sind sie sehr beliebt. Warum? Es sind letztlich innermathematische Gründe - mit reellen Zahlen lässt sich besser arbeiten als mit rationalen. Doch eigentlich lehrt jede reale Messung, die immer zu einer Zahl mit endlich vielen Nachkommastellen, also einer rationalen Zahl führt, dass die Menge der rationalen Zahlen ein angemesseneres Modell für reale Messungen mit endlicher Messgenauigkeit wäre (siehe Barnard (1996a: 480)). Der Gipfelpunkt einer solchen Entwicklung ist, wenn Begriffe, die gerade die Verknüpfung zwischen Theorie und Praxis herstellen, formalisiert werden. In einem jüngeren Buch widmet sich Narens (2002) v.a. dem Bedeutsamkeitsproblem. Der Leser wird bereits ahnen, wie die dort entwickelte Lösung aussieht: Eine streng-formale Zwei-Ebenen-Theorie, entsprechend der klassischen Unterscheidung zwischen empirischem und numerischem Relativ, innerhalb derer sich Bedeutsamkeit exakt fassen lässt. Die zentralen Kapitel sind: “3. Axiomatic Set Theory, 4. Axiomatic Generalizations of the Erlanger Programm, 5. Representational Theory of Measurement.” Er trennt dabei konsequent zwischen rein formaler „Bedeutsamkeit“ und “real-world‘empiricalness”. Ersterer gilt sein Augenmerk, letztere wird lediglich und ziemlich spät34 eingeführt “to distinguish empiricalness from meaningfulness [. . .] Because of this concern’s limited nature, a detailed development of ‘empiricalness’ is not needed [. . .]” 35 Ein weiteres Resultat dieser Entwicklung ist, dass die aktuelle Messtheorie nur noch für einen mathematisch wirklich versierten Wissenschaftler zugänglich ist. Sie ist beeindruckend, wie jeder Berg, den man nur mit äußerster Anstrengung bezwingen kann, zugleich aber ist sie genauso schroff und unfruchtbar wie ein Hochgebirge. Davor hatte schon vor über vier Jahrzehnten Pfanzagl (1968: 9) ausdrücklich gewarnt: “A close relationship to applications is necessary, because otherwise the theory of measurement becomes rather fruitless [. . .]” Ganz allgemein schreibt Jaynes (2003: 674ff): 34 35
Narens (2002: 409)
Man vergleiche dies mit Krantz (1991): “Numerical statements are meaningful insofar as they can be translated, using the mapping conventions, into statements about the original qualitative [empirical] structure.”
46
2 Messtheorie [. . .] nothing could be more pathetically mistaken than the prefatory claim [. . .] that mathematical rigor ‘guarantees the correctness of the results’. On the contrary, much experience teaches us that the more one concentrates on the appearance of mathematical rigor, the less attention one pays to the validity of the premises in the real world, and the more likely one is to reach final conclusions that are absurdly wrong in the real world.
Aktuelle Mathematik (Exkurs) Am Rande sei bemerkt, dass zahlreiche Stimmen aus den empirischen Wissenschaften, aber auch der Mathematik selbst, Pfanzagls Warnung mit Blick auf die reine Mathematik wiederholen und vertiefen. Ausführlich, wenn auch ziemlich polemisch, geht Jaynes (2003) in seinem Anhang B auf den aktuellen mathematischen Mainstream ein. Dieser wird tatsächlich „seit Bourbaki“, also seit gut fünfzig Jahren, dezidiert von formal-abstrakten und eben nicht (mehr) echten empirischen Problemen geprägt. Auch der angewandte Mathematiker Kline (1980) widmet in seinem einflussreichen Buch ein ganzes Kapitel (XIII) der bedauerlichen „Isolation der Mathematik“. Ganz ähnlich äußert sich Feynman (2005a: 484ff). Schon J. von Neumann (1947: 191) ging auf das Thema mit einem besorgten Unterton ein: The symbolism of algebra was invented for domestic, mathematical use, but it may be reasonably asserted that it had strong empirical ties. However, modern, ‘abstract’ algebra has more and more developed into directions which have even fewer empirical connections. The same may be said about topology. And in all these fields the mathematician’s subjective criterion of success, of the worth-whileness of his effort, is very much self-contained and aesthetical and free (or nearly free) of empirical connections.
Er fährt fort (ibd., S. 195): “I think it is a relatively good approximation to the truth [. . .] that mathematical ideas originate in empirics [. . .] But, once they are so conceived, the subject begins to live a peculiar life of its own and is better compared to a creative one, governed by almost entirely aesthetical motivations, than to anything else and, in particular, to an empirical science.” Genau dies beunruhigt ihn, denn er schließt seinen Aufsatz eine Seite später mit dem Absatz: As a mathematical discipline travels far from its empirical source, or still more, if it is a second and third generation only indirectly inspired by ideas coming from ‘reality’, it is beset with very grave dangers. It becomes more and more purely aestheticizing, more and more l’art pour l’art. This need not be bad, if the field is surrounded by correlated subjects, which still have closer empirical connections, or if the discipline is under the influence of men with exceptionally well-developed taste. But there is a grave danger that the subject will develop along the line of least resistance, that the stream, so far from its source, will separate into a multitude of insignificant branches, and that the discipline will become a disorganized mass of details and complexities. In other words, at a great distance from its empirical source, or after much ‘abstract’ inbreeding, a mathematical subject is in danger of degeneration. At the inception the style is classical; when it shows signs of becoming baroque, then
2.5 Messtheorie in der Praxis
47
the danger signal is up. It would be easy to give examples, to trace specific evolutions into the baroque and the very high baroque [. . .] In any event, whenever this stage is reached, the only remedy seems to me to be the rejuvenating return to the source: the reinjection of more or less directly empirical ideas. I am convinced that this was a necessary condition to conserve the freshness and the vitality of the subject and that this will remain equally true in the future. (Hervorhebung im Original.)
Man kann durchaus noch weiter gehen und nach „tieferen“ Gründen für die Distanzierung der Mathematik von empirischen Problemen suchen. Arnold, zitiert nach Beutelspacher (2008: 107), sieht die Ursache auch in der dominierenden, auf Hilbert zurückgehenden formalistischen Philosophie der Mathematik: Zu Beginn dieses [des 20.] Jahrhunderts wurde ein selbstzerstörerisches demokratisches Prinzip in die Mathematik eingeführt (vor allem durch Hilbert), nach dem alle Axiomensysteme das gleiche Recht auf Analyse haben und der Wert einer mathematischen Leistung nicht durch seine Bedeutung und seinen Nutzen für andere Disziplinen bestimmt wird, sondern allein durch seine Schwierigkeit, wie beim Bergsteigen. Dieses Prinzip führte schnell dazu, daß die Mathematiker mit der Physik brachen und sich von allen anderen Wissenschaften abschotteten. In den Augen aller normalen Leute verwandelten sie sich in eine obskure priesterliche Kaste. . . Merkwürdige Fragen wie Fermats Problem oder Summen von Primzahlen wurden zu angeblich zentralen Problemen der Mathematik erhoben.
Wir gehen auf dieses Thema nochmals ab S. 548 ein.
2.5.4 Distanzierung durch begriffliche Differenzierung Aufgrund der offensichtlichen Schwierigkeit, den empirischen Relativ und die Bedeutsamkeit von Relationen oder Statistiken unmittelbar empirisch interpretieren zu können, hat man nach weiteren Wegen gesucht, dieses Problem zu entschärfen. Ein klassischer, von Adams et al. (1965)36 ausgeführter Ansatz, ist, zwischen „fundamentalen“ und „sonstigen“ Messungen zu unterscheiden: “Critics of Stevens [. . .] do not distinguish between measurements such as [test scores] and fundamental measurement systems for which there are clearly defined sets of permissible transformations.” Wieder steht die Physik Pate: “In physics, most measurement is ‘fundamental’, in the sense that it is not derived from other measurement” (Schönemann 1994: 152). Da nur bei fundamentalen Messungen ein empirischer Relativ zweifelsfrei zu erkennen ist und der grundlegende Homomorphismus (2.1) dann eine Analogie zwischen empirischen und formalen Beziehungen herstellt, kann man auch nur dort problemlos von zulässigen Transformationen usw. sprechen. In vielen anderen Fällen, insbesondere wenn unklar ist, was überhaupt gemessen wird, ist Stevens’ Theorie hingegen nicht anwendbar. In den 36
Zitiert nach Duncan (1984: 146)
48
2 Messtheorie
Augen der Verteidiger der Messtheorie ist diese häufige Nicht-Anwendbarkeit jedoch kein Makel der Theorie. Vielmehr schreiben Adams et al. (1965): “[. . .] the imprecision of the concept in these applications is inherent, and no deeper analysis can discover what the permissible transformations ‘really are’ in these cases.” Gleichwohl reicht es noch zu einer einschlägigen Warnung: “However, this is not to say that questions of appropriate statistics and significance cannot legitimately be raised about uses of statistics in connection with these scales [. . .]” Eine etwas subtilere Strategie „theoretisiert“ die problematischen Konzepte. D.h., anstatt die Anwendbarkeit der ganzen Theorie in Frage zu stellen, werden lediglich einige wenige, wenn auch zentrale Begriffe wie „empirischer Relativ“ und insbesondere „Bedeutsamkeit“ nicht mehr unmittelbar auf die Realität bezogen. Bei der Ausarbeitung dieser Alternative haben sich nicht zuletzt deutschsprachige Autoren hervorgetan. In einer vielbeachteten Buchrezension unterscheidet Niederée (1994) zwischen mehreren prinzipiell verschiedenen Arten von Bedeutsamkeit: • “Roughly, type-1 concepts of meaningfulness are understood here to be concerned with a semantically sound, i.e., unambiguous, reference to quantitative models (and other entities) [. . .]” (Ibd., S. 543.) • Wie zu erwarten, widmet er einen eigenen Abschnitt (Ibd., S. 545-554) den “Type-2 Concepts of Meaningfulness: Invariance.” • Schließlich führt er sogar “Type-3 Meaningfulness” ein: “The rationale of this interpretation is [. . .] that it is not the above statistical hypotheses themselves which [. . .] may be considered as being either true or false with respect to certain scales X. What often is doubtful is their significance in regard to other, more substantive, scientific hypotheses [. . .] However, to preclude misunderstanding, one had perhaps better simply use expressions like scientific significance (or practical relevance, respectively) [. . .]” (Hervorhebungen im Original.) Genauso entschieden differenzieren Steyer und Eid (1993) zwischen dem Bedeutsamkeitsbegriff der Messtheorie und der semantischen Interpretation des Begriffs. Sie schreiben (S. 19): „Dieses Beispiel macht klar, dass ‚bedeutsam‘ ein Terminus technicus ist und nicht mit dem umgangssprachlichen Begriff gleichen Namens verwechselt werden darf [. . .] Tatsächlich ist es manchmal sinnvoll und notwendig, auch die Mittelwerte einer Nominalskala zu berechnen. Richtig ist aber, daß die Wahrheitswerte der Aussagen über diese Kennwerte nicht invariant sind [. . .]“ Dies ist nur ein Beispiel von vielen im genannten Buch der Autoren. Fast wortgleich sagt Narens (2002: 56): “In the above and subsequent examples, ‘meaningfulness’ is used in a technical manner, and as such, it and its negation ‘meaningless’ should not be given the ordinary English interpretations of ‘having meaning’ and ‘having no meaning.’ As a technical term, it is always defined throughout the chapter with respect to some measurement scale.” Am Ende seines Buches kontrastiert
2.5 Messtheorie in der Praxis
49
er ausdrücklich (theoretisch-formale) “meaningfulness“ mit der tatsächlichen empirischen Bedeutsamkeit (Abschnitt 7.11.2 Empircalness). Scheinbar stellt diese Differenzierung eine überzeugende Lösung des Problems dar: Innerhalb der Messtheorie wird weiterhin von Bedeutsamkeit geredet, man verzichtet jedoch auf eine empirische Interpretation des Begriffes. Ein Resultat der Messtheorie kann streng-deduktiv beweisbar, also (Typ 2-)Invarianz-bedeutsam sein, ohne dass es in der Realität eine Entsprechung haben müsste. Und umgekehrt: eine Statistik kann eine große (Typ 1-)empirische Bedeutsamkeit erlangen, ohne dass sie deshalb messtheoretisch zulässig sein müsste. Das heißt, durch die Aufspaltung des Begriffes der „Bedeutsamkeit“ in zwei separate Begriffe entkoppelt man die empirischsemantische und theoretisch-formale Bedeutung desselben. Es bleibt dann eigentlich nur das Problem (jeder Theorie), zwischen vielen verschiedenen Nuancen ein und desselben Konzepts wählen zu müssen. Zum Beispiel sieht sich Klein (1994: 43) vor die Aufgabe gestellt, zwischen neun subtil verschiedenen Definitionen von (Typ 2-)Bedeutsamkeit zu entscheiden, Narens (1985: 168) hat drei Möglichkeiten zur Auswahl. Wir sprechen von einer Scheinlösung, da die Messtheorie durch diesen Schachzug zu einer rein mathematischen Unternehmung wird. Hie die rein formalen Zusammenhänge und Begriffe innerhalb der Theorie, da die empirischen Bedeutungen. Jede wissenschaftliche Theorie muss sich aber, das ist seit Galilei unbestritten, an der Wirklichkeit messen lassen. Huxley (1893) fand die heute wohl am häufigsten zitierte Formulierung: The great tragedy of science – the slaying of a beautiful hypothesis by an ugly fact.
Popper sprach prägnant vom Kriterium der „Falsifizierbarkeit“, welches jede wissenschaftliche Theorie erfüllen müsse. Und nach Tukey (1962: 397) ist “Reliance upon the test of experience as the ultimate standard of validity” entscheidend für jede wissenschaftliche Theorie.37 Selbstredend sind solche Forderungen gerade auch an jede Theorie des Messens zu richten, welche den Anspruch erhebt, wesentliche Aspekte empirischer Messvorgänge formal zu fassen. Zudem sollte eine solche Theorie in aller Regel anwendbar sein, denn was nutzt eine Mess-Theorie, die sich in den meisten praktischen relevanten Fällen für „nicht zuständig“ erklärt? Sie darf sich auch nicht durch eine Immunisierungsstrategie ihrer Falsifikation entziehen, was insbesondere dann geschieht, wenn man den syntaktischen vom semantischen Teil des Begriffes „Bedeutsamkeit“ entkoppelt. Die Konsequenz ist klar: “Axiomatic measurement theory is mathematics rather than science” (Velleman und Wilkinson 1993: 68), also unangreifbar und zugleich oftmals empirisch irrelevant. 37
Als weitere Prüfsteine für eine empirische Theorie nennt er intellectual content und organization into an understandable form, und er fährt fort: “By these tests mathematics is not a science, since its ultimate standard of validity is an agreed-upon sort of logical consistency and provability.”
50
2 Messtheorie
2.5.5 Instrumentalismus Die Messtheorie hat sich nicht nur auf den gerade beschriebenen Pfaden von der Realität entfernt. Darüber hinaus hat ein weiterer Faktor ganz erheblich zu einer Distanzierung der Messtheorie von der Empirie beigetragen: Viele Autoren im Bereich der Messtheorie vertreten dezidiert nicht-repräsentative Theorien des Messens. Während eine repräsentative Theorie von einer von uns weitgehend unabhängigen Realität ausgeht und betont, dass deren Eigenschaften ebenfalls weitgehend unabhängig von unseren Messinstrumenten erfassbar sind, stellt sich der Messvorgang für einen Operationalisten völlig anders dar: Messinstrumente und Operationalisierungen sind nicht randständiger Natur, sondern von entscheidender Bedeutung für unser Verständnis der Realität. Genau diese philosophische Strömung wurde von Stevens vertreten. Bis heute hat sie eher an Bedeutung gewonnen als verloren. Die operationale Theorie des Messens ist noch weit besser als die bislang genannten Strategien geeignet, die „Realität auf Distanz“ zu halten. Sie wird für gewöhnliche Bridgman (1927) zugeschrieben. Hand (1996: 453) fasst die zentrale Überzeugung des Operationalismus in einem Satz zusammen: “Thus, an attribute is defined by its measuring procedure, no more and no less, and has no ‘real’ existence beyond that.” Zuvor zitiert er Dingle (1950), welcher ausführt: Formerly science was regarded as the study of an external world, independent of the observer whose experiments and observations were simply means of finding out how the world was constructed and by what laws its behaviour was governed. The emphasis has now shifted from the nature of the world to the operations of experiment and observations. These are no longer regarded as more or less arbitrary means of discovering the already established order of nature, but rather as affording primary data for rational study; and any world that we may contemplate is no longer an independent existence whose nature demands or determines them, but rather a logical construct, formed and shaped and modified so as to afford a true picture of the relations which the observations exhibit.
„Im wissenschaftlichen Alltag ist eine Tendenz zum ‚lokalen‘ Konstruktivismus oder Operationalismus vorhanden, wenn der Forschungskontext experimentell geprägt ist. Wenn größere theoretische Zusammenhänge nicht wichtig oder gar nicht vorhanden sind, wird oft so getan, also ob eine Funktion operational definiert sei. Man akzeptiert im lokalen Kontext operationale Definitionen in dem Sinn, daß die mit gegebenen Meßmethoden ermittelten Werte fraglos als Werte für die Größen angesehen werden, die man messen möchte“ sagt Balzer (1997: 183). Bridgman (1927: 5) selbst schreibt: [. . .] the concept is synonymous with the corresponding set of operations.38 38
Koch (1992) führt jedoch aus, dass es Bridgman vornehmlich um die Präzisierung bereits vorhandener Begriffe ging und definitiv nicht um die Festlegung eines Begriffs mithilfe eines gewissen Mess-Verfahrens. Er schreibt (ibd., S. 265, Hervorhebungen im Original):
2.5 Messtheorie in der Praxis
51
Balzer führt sofort ein starkes Argument gegen eine solche „abhängige“ Art der Messung an. Es kommt zu einer Inflation von (theoretischen) Größen und Funktionen: „Dieser Ansatz hat jedoch weitreichende Konsequenzen für den globalen Aufbau der Wissenschaft, insofern für jede Größe oder Funktion jeweils genau eine Meßmethode ausgezeichnet ist, die die Größe operational definiert. Die anfängliche Einfachheit führt dadurch später zu größerer Komplexität. Es ist nämlich nicht möglich, verschiedene Meßmethoden zur Messung der gleichen Funktion zu benutzen.“ Wäre man nun konsequent, müsste man an dieser Stelle explizit Äquivalenzbedingungen formulieren, also definieren, wann eine Reihe von Messmethoden doch ein und dieselbe Größe erfassen. Dem ist jedoch nicht so, denn er fährt fort: „In mehr theoretischem Kontext will man dann aber von einer solch strengen Festlegung dann nichts mehr wissen.“ Andererseits ist man sich des Problems bewusst, denn „In der theoretischen Literatur wird sehr wohl die Problematik des einen oder anderen Begriffs, seiner Bedeutung, und seiner Meßmethoden erörtert [. . .] es wird versucht zu klären, was unter der zu messenden Funktion, der Bedeutung des ‚Begriffs‘, zu verstehen ist und man versucht zu begründen, wieso die gemessenen Werte dieser Bedeutung gerecht werden“ (Balzer 1997: 183). Vollmer (1993), widmet ein ganzes Kapitel (Nr. 9) der Diskussion instrumentalistischer Interpretationen von Theorien, wobei insbesondere Invarianzargumente eine Rolle spielen: „In mathematischer Sprechweise sind alle die Wechselwirkungen, die schließlich zu irgendwelchen Sinneseindrücken führen, Projektionen, und jeder Wechsel der jeweiligen Perspektive ist eine Transformation. Diese Transformationen bilden Gruppen39 , und reale Objekte sind nichts weiter als die Invarianten solcher Gruppen“ (ibd., S. 173, Hervorhebungen im Original.) Balzer (1997: 183) schließt sich dieser Meinung an: „Demgegenüber beschreibt die vorher skizzierte Lösung die tatsächlichen Verhältnisse, wo eine Funktion, etwa die klassische Masse, durch eine Theorie implizit definiert, aber durch viele verschiedene Meßmethoden gemessen wird, weit besser.40 Bei ihr wird die Identität von Werten, die nach verschiedenen Methoden gemessen wurden, zu einer empirischen Hypothese über verschiedene Meßmethoden.“ Zurückhaltender ist Hand (1996: 454ff), der einige prominente Beispiele aus den Sozialwissenschaften anführt, wo sich eben Messinstrument und Ge“Quite early on, for instance, the force of the notion of operation seems to shift from a set of activities constitutive of the ‘meaning’ of a concept to ones which help us find the meaning. Also, from an early point on, Bridgman repeatedly indicated that operations are necessary conditions for meanings, not sufficient ones. Moreover, he stressed - constantly and emphatically - that he was not advocating a theory or method of definition (or, still less, of concept formation), but only a method for analyzing, perhaps sharpening, the meanings of concepts already in place. He did not advocate ‘operational definition’ but rather ‘operational analysis’, or ‘operational method’.” 39 Im mathematischen Sinne. Anm. des Autors dieses Buches. 40
Anmerkung von mir: Bis auf den Bezug zu einer inhaltlichen Theorie, ist dies genau das, was die Messtheorie tut, wenn sie darangeht, äquivalente Skalen zu definieren.
52
2 Messtheorie
messenes nicht so einfach trennen lassen. Wir hatten schon das Beispiel von Intelligenztests (siehe S. 17) erwähnt. Es dürfte klar sein, dass ohne weitere Maßnahmen Messwerte zunächst einmal sehr stark und substanziell von der speziellen Art der Messung abhängen (siehe das grundlegende Diagramm (1.1), S. 10). Es ist ja gerade die klassische - repräsentative und realistisch interpretierte - Messtheorie, welche versucht, hier mehr Klarheit zu schaffen. Sie wurzelt nicht zuletzt in dem ernsthaften Bemühen, Instrument und Objekt, Messvorgang und empirische Fakten, empirische Strukturen und Relationen zwischen Zahlen auseinander zu halten bzw. zu trennen. Der Operationalismus erscheint genau dann gerechtfertigt, wenn man naiv bzw. schlecht misst. Ohne weitere Überlegungen oder Maßnahmen ist zunächst einmal anzunehmen, dass die Daten aus einer nicht überschaubaren Wechselwirkung von Objekt und Messung zustande gekommen sind. Anders gesagt sind erhebliche Anstrengungen experimenteller wie auch theoretischer Art notwendig, um über operationale Begriffe und Aussagen hinaus zu gelangen. Leider war es, wie Michell (1997) in seinem Buch ausführlich und überzeugend darlegt, in den Sozialwissenschaften nun so, dass der Operationalismus, auch von Stevens, ziemlich kritiklos akzeptiert wurde, letztlich wohl auch, um eigene Ergebnisse wissenschaftlich reputierlich präsentieren zu können. Wir stützen uns im folgenden wesentlich auf Kapitel 7 des vorgenannten Buches, welches den doppeldeutigen Titel “A definition made to measure” trägt.
Der Operationalismus der Psychophysik Die Geschichte spielte sich in den Grundzügen wie folgt ab: Harvard um 1930. Campbells (1920) klassische Theorie des Messens wird seit 1927, als das Mitglied der Physik-Fakultät, Bridgman (Nobelpreis 1946), seinen Operationalismus vorstellt, kontrovers diskutiert. Aus Europa kommt mit Feigl 1930 das erste Mitglied des Wiener Kreises nach Massachusetts. Als Positivist ist er von Bridgmans Auffassung begeistert.41 Die Psychologie, vom „oberflächlichen“ Behaviorismus geprägt, greift die neue Philosophie bereitwillig auf, und der Psychophysiker Stevens (1935) präsentiert eine an die Psychologie adaptierte Version. Stevens (1936a: 95) schreibt völlig unzweideutig: “Scientific psychology is operational and as such can have nothing to do with any private or inner experience for the simple reason that an operation for penetrating privacy is self-contradictory. Therefore, we need no longer think of immediate experience as the subject-matter of psychology.” Damit ist für ihn der Weg frei, z. B. bei der Tonwahrnehmung, wie folgt zu argumentieren. “[. . .] the response of the observer who says ‘this is half as loud as that’ is one which, for the purpose of erecting a subjective scale, can 41
Etwa schreibt Schlick (1986: 171): „Der Sinn eines Satzes [ist] die Methode seiner Verifikation.“
2.5 Messtheorie in der Praxis
53
be taken at its face value“ (Stevens (1936b), meine Hervorhebung.) Michell (1997: 169f) schreibt dazu: This conclusion followed from his operationalism: one tone’s being half as loud as another may be operationally defined by the operation used to determine it, i.e., by the subject judging it to be so [. . .] The relation of magnitude between sensations was seen as being defined by the judgement operation itself [. . .] The operationalist concludes that a ratio scale is obtained because of the character of the assignment rule, viz., the subject is instructed to judge ratios.
Im Ferguson-Komitee (1940) trafen die fundamental verschiedenen Standpunkte pointiert aufeinander, und Stevens psychopysikalische Skalen waren ein Kristallisationspunkt der Auseinandersetzung. Wie nicht anders zu erwarten, konnte keine Einigung erzielt werden, da für die Partei um Campbell nach wie vor galt: “not every assignment of numerals is measurement.” Bezüglich der Tonskalen bringt Michell (1997: 174) die Situation wie folgt auf den Punkt: “For such a procedure to count as ratio scale measurement, according to the nonoperationalist, subjects’ responses must manifest a special sort of empirical structure [. . .] Thus, to take numerical judgements as constituting measurements at face value, in according with operationalism, is to resort to postulating what one wants instead of looking to see what is the case.” Dies wertet Michell (1997: 172) wie folgt: “This is a way of thinking which non-operationalists would adjudge viciously circular, but that is because they presume the existence of independent attributes and regard as trivial those which can only be defined via rules for making numerical presumptions.” (Hervorhebung im Original.)
In einer Reihe von Artikeln zeigt Michell (2000, 2002, 2003a, 2004, 2005), dass der Operationalismus im Allgemeinen und Stevens’ Erbe im besonderen - zumindest in der Psychologie - noch lange nicht überwunden ist. Im Abstract von Michell (2002) heißt es: “Stevens’s theory of measurement has been an important methodological resource within psychology for half a century. It advanced the representational theory of measurement and promised to open up to scientific investigation the issue of the structure of psychological attributes [. . .] However, neither Stevens nor the psychometricians who adopted his theory used it in that way. They used it to foreclose scientific investigation of that issue.” Es spricht nichts dagegen, in philosophischen Werken zur Messtheorie, z. B. Savage und Ehrlich (1992), die klassische, repräsentationale Auffassung des Messens neben eine „liberale“ Auffassung von Messen zu stellen. Die klassische Auffassung wurde ja zurecht als zu eng kritisiert, und es ist oftmals nicht gerechtfertigt, den Einfluss der Operationalisierung oder des Instruments einfach zu vernachlässigen. Selbst wenn die Operationalisierungen in den „weichen“ empirischen Wissenschaften nicht mit den Präzisionsmethoden der zeitgenössischen Naturwissenschaften konkurrieren können - es hieße alle quantitativen Bemühungen in den Sozialwissenschaften zu diskreditieren, dürften jene nicht von „Messungen“ sprechen. Jedoch: Die Maxime zu messen was messbar ist und messbar zu machen, was noch nicht messbar ist,
54
2 Messtheorie
kann auch so interpretiert werden, dass man qualitativ hochwertige Messungen nicht geschenkt bekommt. Das heißt, man sollte nicht gleich bei jeder Zuordnung von Zahlen zu empirischen Sachverhalten von einer Messung zu sprechen. Vielmehr sollte man immer überprüfen, welche Eigenschaften das Messinstrument hat, welche Fehlerquellen vorhanden sind, wie die Übereinstimmung mit anderen Methoden ist und wie sich garantieren lässt, dass man das misst, was man messen will. Insofern ist Stevens Position des “anything goes” tatsächlich sehr liberal. Was für einen Wissenschaftler aber auf keinen Fall zulässig sein darf, ist, aus Bequemlichkeit einer operationalistischen Philosophie zu folgen und infolge dessen darauf zu verzichten, empirische Hypothesen auch empirisch zu überprüfen. Tut man dies, so verlässt man den Rahmen neuzeitlicher Wissenschaft. Zwar ist es akzeptabel, zunächst einfach anzunehmen, ein z. B. psychologisches Attribut habe eine gewisse Struktur (abhängig oder unabhängig vom Beobachter). Der nächste Schritt muss dann jedoch sein, eine solche Hypothese systematisch und kritisch zu testen. Stellt die Messtheorie hierfür geeignete Werkzeuge zur Verfügung - und das tut sie - so ist es die Pflicht der Experimentatoren, jene auch zu nutzen! Michell (2002) bezeichnet es deshalb zurecht als einen Skandal, dass die Messtheorie vorwiegend zur Rechtfertigung von Messverfahren benutzt wird, anstatt sie als Werkzeug zur Überprüfung empirischer Hypothesen einzusetzen. Gerade auch bei den Skalenniveaus der Messtheorie handelt es sich um empirische Hypothesen, welche von Fall zu Fall zu überprüfen sind. Einfach nur anzunehmen, es läge gerade das Niveau vor, welches man gerade benötigt, heißt, via Zitat das eigene Tun zu rechtfertigen, anstatt empirische Evidenz vorzulegen. Michell (2000: 639) fasst schon ganz zu Beginn seines Beitrags wie folgt zusammen: “A pathology of science is defined as a two-level breakdown in the process of critical inquiry: first, a hypothesis is accepted without serious attempts being made to test it; and, second, this first-level failure is ignored” (siehe auch ibd., S. 641 und 648ff).
2.6 Forschungsstrategien I (Deduktion und Induktion) [. . .] denn die Ueberzeugung beruht in allen Dingen entweder auf Schlüssen oder auf der Induktion. (Aristoteles 1877: 142)
Tukeys Kritik (S. 41) an Luces Standpunkt (S. 35) besteht tatsächlich aus zwei Teilen. Sein zweites Argument lautet: “A lack of appreciation that all useful conclusions are not fundamental” (Tukey 1986b: 246). Diese Kritik ist tiefgründig, und Tukey widmet ihr im schon genannten Sammelband mehrere weitere Artikel. Schon deren Titel deuten an, worauf es ihm ankommt: “Conclusions vs. decisions” (1960b) und “Analyzing data: sanctification or
2.6 Forschungsstrategien I (Deduktion und Induktion)
55
detective work” (1969).42 Letztlich geht es um prinzipiell verschiedene Herangehensweisen:
2.6.1 Deduktives Vorgehen Tukey (1961: 153) beschreibt die Welt der Mathematik: “[Mathematicians] work with abstract, uncertain entities (like a continuous function defined on [0, 1]) just so long as the assumptions about them which are to be used are unquestioned (like continuity). Unquestioned assumptions lead to secure conclusions. It is only in mathematics that a deep intellectual challenge and high intellectual standard are combined with security of conclusion [. . .] to most mathematicians, a good problem is one that is carefully and crisply formulated, one that has a clear-cut answer [. . .] It is by insistence upon clear-cut formulations and by solving clear-cut problems, that mathematics progresses, and constructs its imposing and important structures.” Wie wir schon sehr früh (S. 6) ausgeführt haben, ist diese Arbeit von großem Nutzen für die empirischen Wissenschaften. Tukey (1961: 154) erläutert: “Specific results [of mathematics] are indeed useful. But aid in formulating problems [. . .] is more important, as are both (i) assistance in crisper thinking, and (ii) the provision of an adequate supply of parts and schemes from which enough different, alternative, mathematical models can be constructed.” Dabei darf man jedoch nicht vergessen, dass die mathematische Art zu denken und zu argumentieren ziemlich eingeschränkt und einschränkend ist. (Tukey 1961: 153) sagt dazu: “How does one make a clear-cut problem? By choosing very precise and clear-cut hypotheses. And how does one solve problems completely? By wringing everything possible out of these hypotheses. These are basic mathematical techniques, essential in their place. Every clearcut problem is artificial, separated from the real world by idealization after idealization.” Und genau dies wird laut Tukey (1961: 154f) zu einer Gefahr, falls man solche Methoden auf die empirischen Wissenschaften überträgt: “The danger of mathematics to the outside world in general, and to science in particular, is simple. Pure mathematics must take its assumptions most seriously, [. . .] questioning them not at all. Pure mathematics must value its results in its own terms, with far less attention to the relation of the assumptions to the real world than to the aesthetic nature of the results. Upon such actions hang its speedy progress. Yet these are just what science and technology must not do. Science and technology [. . .] must use the products, and avail itself of the aid of mathematics, yet dare not accept its attitudes.” 42
Das Thema wird auch in Tukey (1962, 1986b) ausführlicher behandelt. Alle Hervorhebungen in den nun folgenden ausführlichen Zitaten finden sich im jeweiligen Original.
56
2 Messtheorie
Er plädiert deshalb für eine emanzipierte Einstellung der Mathematik gegenüber, welche der Erfahrung den höchsten Wert beimisst: “Science makes, as it must, ever-growing use of mathematical models, with whose power inevitably come the dangers of overacceptance, of transformation of assumptions into axioms, of placing mathematical models above experience (rather than beside or below it). The older sciences have learned to make powerful use of mathematical models [. . .]43 without letting these mathematical models use them. The newer branches of science and technology must learn to do the same.” In einem präzisierten Sinne wiederholt Tukey damit Galilei (S. 3) bzw. das Programm der neuzeitlichen Wissenschaften. Aus alledem lässt sich unschwer seine Kritik an der Messtheorie ableiten und schärfen: Weil die Messtheorie von ihren Protagonisten im mathematischen Stil betrieben wird, werden aus hypothetischen Annahmen Axiome und die aus ihnen hergeleiteten Ergebnisse stehen als normative Forderungen an die empirischen Wissenschaften im Raum. Ein solches Vorgehen führt umgehend zu prinzipiellen Diskussionen, was richtig und bedeutsam oder falsch und unzulässig ist. Es führt jedoch nicht zu fruchtbaren empirischen Resultaten, letztlich weil es gegen Galileis Maxime (S. 42) verstößt, dass sich unser Geist und seine Werkzeuge der Natur anzupassen haben und nicht umgekehrt. Jede Theorie, die “mathematics rather than science” ist, die also ihre Annahmen kaum hinterfragt, wohl aber auf die Strenge der Herleitung ihrer Ergebnisse größten Wert legt, ergeht es ebenso wie der Messtheorie: In vielen Fällen ist sie schlicht nicht anwendbar - d.h. ihre Prämissen sind nicht adäquat - oder aber, wenn man sie doch anwendet, passen ihre Vorhersagen nicht zu den empirischen Befunden. Es ist die Überbetonung des (logisch-strengen, mathematisch-exakten) Weges von den Prämissen zu den Folgerungen, welche zu einer Unwucht führt. Die for43
Hier erwähnt Tukey (1961: 154) ausdrücklich die Physik. Liest man herausragende Physiker wie z. B. Jaynes (2003), insbesondere den bereits erwähnten Anhang B oder Feynman (2007), so ist dieses Selbstbewusstsein - basierend auf exzellenten mathematischen Fertigkeiten - durchgängig zu spüren. Feynman widmet ein ganzes Kapitel der Beziehung zwischen Mathematik und Physik. Dabei unterscheidet er zwischen einer „Euklidischen Methode“, welche die Systematik, also die Axiome samt der Ableitung der Theoreme in den Mittelpunkt stellt, und einer „babylonischen Methode“ (S. 60ff), welche viele Resultate und ihre Beziehungen einfach nur nebeneinander stellt und bei praktischen Problemen einfach den Formalismus verwendet, der gerade nützlich ist. Feynman schreibt ausdrücklich: „Die Rolle der Mathematik in der Physik [. . .] ist gar nicht zu überschätzen (S. 49). Zugleich lässt er keinen Zweifel daran, wie mathematische Verfahren zu verwenden sind: „In der Physik brauchen wir die babylonische Methode und nicht die Euklidische [. . .] (S. 62). Er fährt fort (S. 74): „Mathematischer Rigorismus von großer Präzision ist in der Physik nicht unbedingt empfehlenswert.“ Denn: „Wer die Physik verstehen will, muß sich aufs Abwägen verstehen, [. . .] weil die Gesetze oft über den Bereich ihrer Ableitung hinaus gelten (S. 65).“ Und auf derselben Seite folgert er: „Wir haben also umfassende [physikalische] Prinzipien, die verschiedene Gesetze umschließen, und können die Beziehungen der verschiedenen Zweige der Physik untereinander nur verstehen, wenn wir ihre [mathematische] Ableitung nicht allzu ernst nehmen (Hervorhebung von mir).
2.6 Forschungsstrategien I (Deduktion und Induktion)
57
male Stärke der Theorie wird dann durch ihre empirische Schwäche mehr als aufgewogen. Marc Twain (2006) könnte hierzu mit scharfer Zunge bemerken: It ain’t what you don’t know that gets you into trouble. It’s what you know for sure that just ain’t so.
Ein lehrreiches Beispiel hierfür ist die Protophysik, ein konstruktivistischer Ansatz, welcher zum Ziel hat, die wichtigsten physikalischen Theorien aus Logik, Mathematik und sogenannten „idealen Normen“ herzuleiten. Sie ist von ihrer Grundeinstellung her noch extremer als die Messtheorie in ihrer strengsten Interpretation. Lorenzen (2000: 210f), einer ihrer Hauptvertreter, schreibt: „Die wahren Sätze der Protophysik sind solche Sätze, die auf der Basis von Logik, Arithmetik und Analysis, Definitonen und den idealen Normen, die Messen ermöglichen, verteidigbar sind. Diese idealen Normen sind deutlich unterschieden von den Konstruktionsregeln der Arithmetik, und sie sind keine Definitionen [. . .] Wir schreiben mit Normen vor, wie sich die Materie ‚verhalten‘ soll [. . .] Im Gegensatz zu material-analytischen Bestimmungen, wo wir Regeln für unsere Prädiktoren vorschreiben, um sie der Welt anzupassen, zwingen wir nun die Materie, sich unseren idealen Normen anzupassen.“ Es ist dann nur konsequent, dass „[. . .] diese protophysikalisch wahren Sätze, die von den idealen Normen abhängen, ‚mathematisch-synthetische‘ Wahrheiten genannt werden können.“ (Hervorhebung im Original.) Wir verzichten darauf, abermals auszuführen, dass eine solche Auffassung in diametralem Widerspruch zur Grundhaltung jeder empirischen Wissenschaft steht und zitieren lediglich Feynman (2007: 181): „Nicht hochtrabende Vorschriften sind unabdingbar ‚für die Existenz der Naturwissenschaften‘ oder für die Bestimmung der Eigenschaften der Natur. Diese werden stets durch unseren Werkstoff bestimmt, durch die Natur selbst.“ Lorenzen (2000: 200) räumt mit Blick auf die moderne Physik denn auch zurecht ein: „Die herrschende Meinung der Mathematiker ist seitdem, daß die euklidische Geometrie nur eine unter mehreren - mathematisch gleichberechtigten - ’Geometrien’ sei. Die Auszeichnung einer dieser ‚Geometrien‘ als der Geometrie des ‚wirklichen‘ Raumes wird der Physik überlassen.“ Interessant ist die Frage, wie die Protophysik versucht, ihrer allfälligen empirischen Widerlegung zu entgehen. Zum einen bezweifelt sie ganz direkt die entscheidende Bedeutung empirischer Methoden: „Einwände gegen diesen Anspruch der empirischen Physik, über die ’Struktur’ von Raum und Zeit entscheiden zu können, sind schon unmittelbar nach dem Bekanntwerden der Relativitätstheorie (um 1920)44 vielfach erhoben worden - und von der konstruktiven Wissenschaftstheorie unter dem Titel ‚Protophysik‘ seit 1960.“ (Lorenzen 2000: 200) Zum anderen lässt sich gerade bei einem Effekt wie der sogenannten Längenkontraktion der Relativitätstheorie trefflich argumentieren, dass es nicht der Maßstab, mit dem gemessen wird, ist, welcher sich verkürzt; sondern dass sich die Länge des gemessenen Objektes selbst ändert. Man ist gezwungen, 44
Meine Anmerkung: Siehe insbesondere H. Dingler, der sich nicht zuletzt auf Kant beruft.
58
2 Messtheorie
so zu argumentieren, wenn man zuvor - per Norm - bestimmt hat, welche Eigenschaften die Längenmessung besitzen muss. Lassen die eigenen Normen schließlich einen realen physikalischen Effekt, wie z. B. die Krümmung des Raumes, nicht zu, so bleibt einem nur der schon bekannte Ausweg, die entsprechende theoretische Größe (einen gewissen Tensor in den Einsteinschen Feldgleichungen) lediglich mathematisch zu interpretieren. Daraus ergibt sich die skurrile Situation, dass man eine physikalische Theorie, welche man - anders als oftmals die Messtheorie - problemlos empirisch anwenden kann, nicht empirisch interpretiert, weil eben dies unseren eigenen Vorurteilen, also den a priori vorgenommenen Setzungen, widerspricht.
2.6.2 Deduktiv-induktives Schema Die vorgestellten Beispiele sollten eines deutlich gemacht haben: Jede deduktiv-strenge Grundhaltung, die ihre Grundannahmen sehr ernst nimmt, aber zugleich wenig hinterfragt, tendiert dazu, Ergebnisse zu beweisen, welche als normative Forderungen formuliert werden. Wie nicht anders zu erwarten, kollidiert diese Haltung regelmäßig mit der Wirklichkeit, und dies umso heftiger, je weniger die Grundannahmen als zu überprüfende Hypothesen, sondern als nicht weiter zu hinterfragende Annahmen - Setzungen, Axiome - behandelt werden. Ein rigides System, welches seine Grundfesten nicht mit der Realität abgleicht, wird häufig unpassend sein, und zuweilen verfallen Theoretiker dann auf die (ironisch gemeinte) Lösung Herbert Marcuses: „Wenn die Tatsachen mit der Theorie nicht übereinstimmen – um so schlimmer für die Tatsachen.“ Ein derart isoliertes System ist dann zwar bestenfalls noch mathematisch-exakt, nicht aber mehr empirisch relevant. Die axiomatischen Theoriengebäude der auch empirisch höchst erfolgreichen Physik werden deshalb zurecht bewundert. Sie vereinigen höchste formale Strenge mit nahezu perfekter empirischer Passung. Doch wie bei jedem axiomatischen System zahlt man einen Preis: Es handelt sich um eine geschlossene Welt, in die - via Grundannahmen - alles hineingesetzt werden muss, was später herauskommen kann (bzw. soll). Man findet also bildlich gesprochen nur dass wieder, was man zuvor als Struktur (wenn auch implizit, in den Axiomen) vorausgesetzt hat. Ist diese Struktur der realen Welt nicht angemessen - und das ist leider die Regel, nicht die Ausnahme - so hat man bestenfalls blutleere Mathematik betrieben, und darf darauf hoffen, dass die untersuchten formalen Zusammenhänge irgendwann später, in einer anderen Situation, anwendbar sein werden. Ist das formale System noch dazu eng, so entwickelt sich schnell eine mit Scheuklappen versehene Geisteshal-
2.6 Forschungsstrategien I (Deduktion und Induktion)
59
tung, welche Shakespeare45 mit den Worten “home-keeping youth have ever homely wits” verspottet. Dass man hier ein Gegengewicht benötigt, ist offensichtlich und zumindest in den empirischen Wissenschaften unbestritten. Es gereicht der Philosophie zur Ehre, dass bereits Aristoteles ein passendes Modell entwickelt hat, das beiden Erkenntnisrichtungen gerecht wird und unter dem Namen deduktivinduktives Schema auch heute noch jedem Wissenschaftstheoretiker geläufig ist:46 Das Allgemeine (Gesetze und Theorien) | ↑ deduktiver Abstieg induktiver Aufstieg ↓ | Das Besondere (Beobachtungen) Wie das Motto dieses Abschnitts zeigt, war Aristoteles von der Allgemeingültigkeit des Schemas überzeugt. Unzählige Philosophen haben sich seitdem dezidiert und vom Grundton her eher kritisch bis ablehnend mit dem rechten, induktiven Teil des Schemas auseinander gesetzt. Es hieße deshalb eine Geschichte der Philosophie bis in unsere Tage zu schreiben, ginge man auf die Einzelheiten der Diskussion um das „Induktionsproblem“ ein. Jeffreys (1973: 13) gibt eine ernüchternde Zusammenfassung: This statement is at least as old as Plato, and was emphasized by Hume at considerable length. There is an element of uncertainty in all inferences of the kind considered. Most scientists have ignored Hume’s difficulty. Some philosophers have overemphasized it by declaring all sensory information unreliable. Others have claimed to answer it, but all the answers depend on elementary mistakes [. . .]
Wir werden später, in Kapitel 4, insbesondere in Abschnitt 4.1, ausführlich darauf zurückkommen. Trotz aller prinzipieller Kritik gehen wir davon aus, dass Induktionsschlüsse möglich und sinnvoll sind.47 45 46 47
The Two Gentlemen of Verona (Die beiden Veroneser), 1. Akt, 1. Szene. Die nachstehende Abbildung wurde Schurz (2006: 49) entnommen.
Als Evidenz hierfür sei an dieser Stelle nur angeführt, dass wir im Alltag ständig von ihr Gebrauch machen. Alle empirischen Wissenschaften stützen sich maßgeblich auf induktive Schlüsse. Ihre historische Entwicklung war ebenfalls induktiv: Sie begannn bei der Beschreibung schritt weiter zur Systematisierung und erreichte ihren Höhepunkt in Erklärung, mithin war also eine fortschreitende Strukturierung - und damit zwangsläufig auch Mathematisierung - zu erkennen. Aus isoliertem bruchstückhaftem Wissen entstanden zusammenhängende Ansätze und schließlich umfassende Theorien. Erst recht zeigt sich die Bedeutung der induktiven Richtung, wenn man nicht nach Naturgesetzen sucht, sondern selber die Regeln vorgibt: Juristen sprechen von der normativen Kraft des Faktischen, Softwareentwickler setzen erst Standards, nachdem man Erfahrungen auf einem neuen Gebiet gesammelt hat, Kreativitätstrainer haben den Slogan “Storming, Norming, Performing” geprägt und schließlich ist der Volksmund davon überzeugt, dass probieren über studieren gehe.
60
2 Messtheorie
2.6.3 Induktives Vorgehen Historisch gesehen entwickelten sich die erfolgreichen empirischen Wissenschaften, gerade auch die Physik, nicht deduktiv sondern induktiv. Das heißt, sie sammelten zunächst möglichst zahlreiche Erfahrungen und gingen erst danach ans Systematisieren und Formalisieren. Auch der Messvorgang selbst, ihr wohl wichtigstes Hilfsmittel, macht hier keine Ausnahme. Wie nicht nur Duncan (1984) und Tukey (1969, 1986b) ausführen, wurden jahrhundertelang interessante Größen benannt und so gut als möglich gemessen. Erst im 19. Jahrhundert begann die Formalisierung des Messvorgangs. Große Namen sind mit dieser Anstrengung verbunden: Die Arbeiten von von Helmholtz (1887), Kelvin (1891) und Hölder (1901) gipfelten schließlich im Werk von Campbell (1920, 1928).48 Tukey (1986b: 248) nennt das so erzielte Ergebnis “Monastic Measurement. Just as some have done for mathematics, measurement may be divided into ‘monastic’ and ‘secular’. The analogy of the ‘high church’ view, which we naturally call the ‘high monastery’ view is surely that provided by Norman R. Campbell [. . . His books] have been the source, proximate or remote, of many fears that assignment of numbers, many of which would have been perfectly useful, were not ‘measurements’ [. . .] There is little doubt that measurement which fulfills Campbell’s requirements, exactly or approximately, is measurement which deserves the highest social status, the highest prestige that we can today imagine.” 49 Genau diese Reihenfolge, also gezielte empirische Erfahrung, gefolgt und begleitet von einer immer präziseren Fassung der zentralen Erkenntnisse, war zuverlässig erfolgreich.50 Es ist genau diese Art von Mathematisierung, die als wichtige51 Tendenz in allen entwickelten Wissenschaften auszumachen ist. Im Prinzip52 spricht jedoch nichts dagegen, die Abfolge der Ereignisse umzukehren. Warum sollte man nicht bereits erzielte mathematische Kenntnisse nutzen, sie womöglich geeignet modifizieren oder ausbauen, und sie dann auf „ jüngere“ Wissenschaften anwenden? Wie hinreichend bekannt ist, ging gerade bei der erfolgreichsten Symbiose, jener zwischen Mathematik und Physik, zuweilen die mathematische Ent48
Für eine ausführliche Darstellung der Geschichte des Messens, insbesondere in den Sozialwissenschaften, siehe z. B. Michell (1997, 1999, 2003a, 2005). 49
Auch Duncan (1984) beschäftigt sich eingehend mit der Geschichte des Messens. Eine seiner wohlplatzierten Kritiken an Stevens lautet, dass auch ein zu liberaler Begriff des Messens, wie er in Stevens’ berühmter Definition zu Ausdruck kommt, schädlich ist. Man nimmt dem Begriff einen Gutteil seines Wertes, wenn man nahezu jeder Zuordnung von Zahlen zu Objekten als „Messung“ bezeichnet. Am Beispiel der Nominalskala führt er (ibd., S. 129ff) dies im Detail aus. 50
Wir verweisen beiläufig auf Bacon (1620: Buch 1, Aphorismus I, erster Satz), dem auch das Motto von Kapitel 6 entnommen ist: “Man, being the servant and interpreter of Nature, can do and understand so much and so much only as he has observed in fact or in thought of the course of nature.” 51
- womöglich sogar wichtigste -
52
Siehe das auf Aristoteles zurückgehende Schema
2.7 Messtheorie (induktiv)
61
wicklung der physikalischen Anwendung voraus. Von Neumann (1947: 191) nennt zwei konkrete Fälle: “Two strange examples are given by differential geometry and by group theory: they were certainly conceived as abstract, nonapplied disciplines and almost always cultivated in this spirit. After a decade in one case, and a century in the other, they turned out to be very useful in physics.” In vielen Fällen müssen sogar zuerst die mathematischen Werkzeuge vorliegen, um dann mit ihrer Hilfe bislang unerreichbare Probleme mit Aussicht auf Erfolg bearbeiten zu können. Liest man die frühen Autoren der Messtheorie in den 1950er Jahren, so ist genau diese Orientierung an der Geschichte des Messens und den etablierten Naturwissenschaften zu spüren. Sie sind beeindruckt von den Erfolgen der Physik, nicht zuletzt von der von Einstein zu einem (weiteren) glänzenden Erfolg geführten Invarianzidee. Warum sollte diese so einfache wie durchschlagende Idee nicht auch in den anderen empirischen Wissenschaften von großer Bedeutung sein? Wären nicht genauso revolutionäre wie tiefe Erkenntnisse zu erwarten, adaptierte man die zentralen Überlegungen nur geeignet an die Verhältnisse in den weniger entwickelten Wissenschaften? Dieser grundlegende Optimismus ist historisch verständlich, und wäre dem Ansatz durchschlagender Erfolg beschieden gewesen, so wäre damit ein „großer Sprung“ direkt aus der „Steinzeit“ rudimentärer Theorien - basierend auf ziemlich zweifelhaften Messungen - hin zu Modellen “of the highest social status” (Tukey) gelungen. Tatsächlich muss Cliff (1992: 187) jedoch feststellen: “[. . .] regrettably, the promise of the axiomatic measurement movement has not been fulfilled,” und der Titel seines Aufsatzes bewertet die Messtheorie ganz klar als eine “revolution that never happened.” Egal welchen Ansatz man wählt - den typischen, also ausgehend von empirischen Phänomenen zu formalisieren oder den selteneren, also ausgehend von mathematischen Theorien hin zu möglichen Anwendungsfelder - entscheidend ist, konsequent den Kontakt zur Empirie zu suchen und zu halten. Dies gilt selbstredend ganz besonders für jede praxisrelevante Theorie des Messens. Wie wir gesehen haben, ist die Messtheorie im Wesentlichen deswegen gescheitert, ihre Revolution im Ansatz verpufft, weil sie dem deduktiven Zweig der Erkenntnis zuviel Bedeutung beigemessen hat.53 Die Frage drängt sich deshalb auf, welche Gestalt eine eher induktiv motivierte Messtheorie hätte.
2.7 Messtheorie (induktiv) [Induction:] The glory of science and the scandal of philosophy. C. D. Broad, zitiert nach Ladyman (2002: 52)
Der wesentliche Unterschied ist, dass aus Axiomen Hypothesen werden. Alle Annahmen, die in der mathematisch orientieren Messtheorie so selbst53
Wir erinnern an Jaynes (2003: 674ff), siehe S. 45.
62
2 Messtheorie
verständlich getroffen werden, sind bei jeder Anwendung auf ihre empirische Gültigkeit hin zu prüfen. Genau dies ist die nachdrücklich vorgebrachte Forderung Michells. Es genügt nicht, zu Beginn einer Untersuchung einfach zu behaupten, die Daten befänden sich auf einem gewissen Niveau oder die Messtechnik stelle sicher, dass eine gewisse Struktur vorliegt. Vielmehr sind gewichtige Gründe, also letztlich empirische Belege und stringente theoretische Argumente, vorzuzeigen, weshalb ein Messverfahren angemessen ist und eine Skala die Eigenschaften hat, welche man postuliert. Oftmals wird dann die mathematisch motivierte, grobe Einteilung in wenige Skalenniveaus nicht ausreichen. Passt keines der von Stevens vorgeschlagenen Modelle, so helfen womöglich die von Krantz, Luce, Suppes, Tversky, Narens und anderen Messtheoretikern entwickelten axiomatischen Systeme weiter. Falls nicht, so ist ein neues Modell zu entwickeln, oder aber der deterministisch-enge Rahmen der Messtheorie ist ganz zu verlassen. Es geht also viel weniger um eine theoretische Verfeinerung oder Präzisierung potenziell möglicher empirischer und numerischer Relative, als um eine angemessene Beschreibung realer Messungen. Dabei ist es definitiv nicht sinnvoll, ein Messmodell, das dem konkreten Messvorgang nicht gerecht wird, „trotz alledem“ zu verwenden. Statt sich subtil oder in aller Deutlichkeit von der Realität zurückzuziehen, sucht eine so verstandene Messtheorie intensiv den Kontakt zu ihrem Gegenstandgebiet, also den in der Praxis verwendeten Messverfahren. Induktiv vorzugehen heißt, sich flexibel an wechselhafte Bedingungen anzupassen; Modelle zu entwickeln, die der Realität gerecht werden. Passt ein Modell nicht, so ist dieses geeignet zu modifizieren oder durch ein anderes zu ersetzen. Man muss offen sein für das Unerwartete, Unpassende, Überraschende. Es sind genau diese Herausforderungen des Alltags, der wissenschaftlichen Praxis, die eine Theorie wachsen (zuweilen aber auch sterben lassen) lassen. Entzieht sie sich ihnen, so degeneriert sie zu einer praktisch ziemlich irrelevanten Spielerei von Spezialisten. (Man denke an die Worte von Neumanns, S. 46, und Galileis, S. 42.) Neben der (unmotivierten) Mathematisierung bzw. dem Rückzug auf die mathematische Theorie haben wir als zweite wesentliche „Distanzierungsstrategie“ den Operationalismus besprochen. Hier nun führt ein Wechsel der Blickrichtung zu völlig neuen Einsichten. D. h., statt den Operationalismus als (letzte bzw. bequeme) Zuflucht zu sehen, verstehen wir ihn im folgenden als ausbaufähigen Ausgangspunkt, der zunächst einmal von nicht-äquivalenten Verfahren ausgeht. Systematische Forschung sollte dann versuchen, diese wenig befriedigende Situation sukzessive zu verbessern. Denn warum scheitert die Idee äquivalenter Skalen, also vergleichbarer Messverfahren, häufig in der Praxis? Wohl nicht zuletzt aus dem einfachen Grund, dass verschiedene Verfahren nicht äquivalent sind. Hand (1994) diskutiert ein elementares Beispiel,54 das wir hier zu Demonstrationszwecken unverändert übernehmen: 54
Sein Example 3
2.7 Messtheorie (induktiv)
63
Zwei Forscher (ein Engländer und ein Franzose) untersuchen eine Reihe von Autos Ai auf ihre „Effizienz“. Versteht man darunter die Wegstrecke, die mit einer bestimmten Menge Kraftstoff zurückgelegt werden kann, so ergibt sich die Auswertung in der ersten Zeile; interpretiert man „Effizienz“ hingegen als die Kraftstoffmenge, welche benötigt wird, um einen vorgegebene Strecke zu bewältigen, so kommt man zur Auswertung in der zweiten Zeile: Effizienz Gruppe A Gruppe B Forscher: A1 A2 Summe ∅ A3 A4 Summe ∅ English (miles per gallon) 1 4 5 2,5 2 2 4 2 French (gallons per mile) 1 0,25 1,25 0,625 0,5 0,5 1 0,5 Da die Autos der ersten Gruppe im Mittel weiter kommen als die Autos der zweiten Gruppe (2, 5 > 2), wird der englische Forscher ersteren den Vorzug geben. Zum genau gegenteiligen Ergebnis kommt der französische Forscher, da die Autos der zweiten Gruppe im Mittel weniger Kraftstoff als die Autos der ersten Gruppe verbrauchen (0, 5 < 0, 625). Dieses Ergebnis ist wenig befriedigend. Hand gibt eine Reihe von Interpretationen, eine davon (ibd., S. 324) ist der Messtheorie entlehnt: Die eigentlich interessierende Eigenschaft der Fahrzeuge ist „Effizienz“, welche auf die zwei genannten Arten gemessen wird. Nimmt man an, dass die gemessenen Größen (also „Englische Effizienz“ in miles per gallon bzw. „Französische Effizienz“ in gallons / mile) monoton von der (latenten) Eigenschaft „Effizienz“ abhängen, so sollte eine bedeutungsvolle Aussage invariant unter monotonen Transformationen sein. Das arithmetische Mittel ist nicht invariant unter monotonen Transformationen (siehe Ungleichung (2.4), S. 34), also ist es nicht angebracht, diese Statistik zu verwenden. Sie führt zu verfahrensabhängigen und damit letztlich bedeutungslosen Ergebnissen, wie die obige Auswertung nur allzu deutlich zeigt. Bei dieser Vorgehensweise hat man - im Sinne der Messtheorie - die beiden Operationalisierungen als äquivalent betrachtet. Deshalb sind nur diejenigen Statistiken bedeutungstragend, die unter allen zugehörigen Transformationen invariant bleiben. Eine andere Lösung, vorgetragen vom „Gentleman“ Hand, besteht darin, sich für eines der beiden Effizienzmaße zu entscheiden. Im konkreten Fall hält er die benötigte Kraftstoffmenge je Strecke für angemessener und gibt damit dem Ansatz des französischen Forschers den Vorzug. Eine solche Lösung setzt voraus, dass man die beiden Perspektiven als nicht gleichwertig betrachtet. Und genau diese Sichtweise scheint auch uns angemessener zu sein, was sehr deutlich wird, wenn man die ungebräuchlichen „Effizienzen“ des Beispiels einmal durch die weit anschaulichere Geschwindigkeit in m/s bzw. ihren Kehrwert (Einheit: s/m) ersetzt. Mit den obigen Zahlenwerten besteht Gruppe A dann aus zwei unterschiedlich schnellen Fahrzeugen. Der Ansatz des englischen Forschers besteht darin, die Zeitspanne (z. B. eine Sekunde) festzuhalten und zu ermitteln, wie weit
64
2 Messtheorie
die Fahrzeuge in dieser Zeit kommen. Er stellt fest, dass Gruppe A insgesamt 5 Meter zurücklegt, während Gruppe B lediglich vier Meter weit kommt. Hier gibt also das schnellste Fahrzeug A2 den Ausschlag, und der englische Forscher entscheidet sich für Gruppe A. Die Perspektive des französischen Forschers ist es, den Zähler, nun also die Länge der Teststrecke (z. B. einen Meter) festzuhalten, und zu messen, wieviel Zeit die beiden Fahrzeuge zusammen (bzw. gemittelt) benötigen. Gruppe A benötigt für die Teststrecke insgesamt 1, 25 Sekunden, was länger ist als Gruppe B (1 Sekunde). Das langsamste Fahrzeug A1 gibt bei seiner Art der Messung den Ausschlag, und der französische Forscher entscheidet sich folgerichtig für Gruppe B.55 Beide Verfahren sind also fundamental verschieden. Sie sind beide auf ihre Art sinnvoll, sollten jedoch nicht als äquivalent betrachtet werden. Anders gesagt: die verschiedenen Perspektiven sorgen für einen Unterschied - sie erfassen verschiedene Aspekte von „Effizienz“ bzw. „Schnelligkeit“. Mit beiden Verfahren gewinnen wir wichtige, wenn auch substantiell verschiedenartige Informationen über die Fahrzeuge. (Genau dies sollte man auch völlig unvoreingenommen erwarten: Andersartige Verfahren liefern substanziell verschiedene Daten.) Nur den Teil der Information auf die Fahrzeuge zurückzuführen, welcher sich bei allen Messverfahren zugleich zeigt, ist außerordentlich vorsichtig. Doch genau das ist die Haltung der Messtheorie, welche eine Eigenschaft nur dann der Empirie zuschreibt, wenn sie sich auf allen Skalen zeigt.56 Typischerweise wird es in der Forschung so sein, dass sich ein spannender neuer Effekt nur mit einem einzigen Verfahren „gerade eben noch so“ - also am Rand der Messungenauigkeit - feststellen lässt. Bei einem einzigen Verfahren lässt sich zudem prinzipiell nicht unterscheiden, ob eine Information auf das Objekt der Messung oder das Verfahren zurückzuführen ist. Deshalb ist es zum einen - kritisch bzw. konservativ gedacht - sehr sinnvoll, zu fordern, dass das Resultat mit einer anderen Methode repliziert werde. Andererseits ist es im Sinne wissenschaftlichen Fortschritts aber auch nicht angebracht, in solchen Zweifelsfällen immer für einen möglichen Artefakt zu argumentieren und nie in Betracht zu ziehen, dass der Effekt nicht von der Perspektive, sondern der Realität herrührt.57 55
Die Unterschiede werden ganz deutlich, wenn man sehr heterogene Gruppen betrachtet. Besteht Gruppe A aus einer Schnecke und einem Rennwagen und Gruppe B aus menschlichen Zwillingen, so wird deutlich, dass Gruppe A beim englischen Verfahren haushoch überlegen ist: Je Zeiteinheit legt das Rennauto ein Vielfaches der Strecke der Zwillinge zurück, und die Entfernung, welche die Schnecke zurücklegt, ist völlig unerheblich. Beim französischen Verfahren ist hingegen Gruppe A chancenlos: Egal wie wenig Zeit das Auto für die Teststrecke benötigt, die Schnecke wird am allerlängsten unterwegs sein und damit den Ausschlag gegen Gruppe A geben. 56
In der angewandten Mathematik spricht man in solchen Fällen von einem sehr konservativen Ansatz. 57
Auch wenn er zumindest im Moment nur unter diesem einen Blickwinkel zu erkennen ist. So wird jeder Arzt vorsorglich zu weiteren Untersuchungen raten, wenn sich eine potenziell krankhafte Veränderung nur mit einer Methode nachweisen lässt.
2.8 Reale Messungen
65
2.8 Reale Messungen Measurement: The real thing. (Duncan 1984: Kapitel 5)
Wie „stark“ wird das Gemessene vom Messvorgang bestimmt? Das Kontinuum der möglichen Antworten hat zwei Pole. Einer davon ist der Operationalismus, der alle Verfahren als fundamental verschieden, also nicht vergleichbar oder gar äquivalent auffasst: Objektbereich 1 — Prozedur 1 — Daten 1 Objektbereich 2 — Prozedur 2 — Daten 2 Objektbereich 3 — Prozedur 3 — Daten 3 Konsequenterweise kann er keine Realität über das spezielle Verfahren hinaus erkennen - die Eigenschaften eines Phänomens sind nämlich untrennbar mit dem einzelnen Verfahren verwoben.58 Weil die Realität nicht vom Verfahren getrennt werden kann, die tatsächlichen Eigenschaften mit anderen Worten also nicht isolier- oder identifizierbar sind, ist eine Variante hiervon die Objektbereiche gleich wegzulassen.59 Kurz gesagt ist ein so verstandener Operationalismus gleichbedeutend mit einer vollständigen Skalenabhängigkeit der Ergebnisse. Der entgegengesetzte Pol ist also, alle Messverfahren in „einen Topf“ zu werfen, d.h, als äquivalent zu betrachten: Objektbereich
Prozedur 1 — Daten 1 Prozedur 2 — Daten 2 Prozedur 3 — Daten 3
Eine grobe, mathematisch orientierte Messtheorie, die nur wenige Skalenarten kennt, kommt diesem Pol ziemlich nahe. Weil man bei der Messung einer Größe eine (sehr große) Äquivalenzklasse von Verfahren betrachtet, wird das spezielle Verfahren nebensächlich, es ist lediglich ein Mittel zum Zweck, die Realität zu erkennen. Hierzu passt eine realistische Interpretation der Invarianten, also derjenigen Eigenschaften der Daten, welche unter allen Messverfahren gültig sind bzw. nicht von einer speziellen Skala abhängen. Skalenabhängige Aussagen sind empirisch bedeutungslos, während man Invarianten auf die Realität attribuieren sollte. Schematisch: Objektbereich
Prozedur 1 Prozedur 2 Prozedur 3
Invarianten
58
Bridgman (1927: 5): “[. . .] the concept is synonymous with the corresponding set of operations.” 59
Hand (1996: 453): “Thus, an attribute is defined by its measuring procedure, no more and no less, and has no ‘real’ existence beyond that.”
66
2 Messtheorie
So verschieden beide Vorstellungen auch erscheinen mögen, tatsächlich sind beide Spezialfälle des allgemeinen Modells (1.3). Das zeigt sich auch historisch. Die tiefschürfende Kritik an der traditionellen Messtheorie des 19. Jahrhunderts60 führte nach Russell (1903: 158) zu einer strikten Trennung formaler und empirischer Sachverhalte: “The separation of number and quantity is thus complete: each is wholly independent of the other.” 61 Aufgabe des 20. Jahrhunderts war es deshalb, den Zusammenhang von number und quantity zu modellieren, was in Form der Abbildung empirischer auf formale Strukturen denn auch geschah. In der Praxis wird der häufigste Fall wohl jener sein, dass gewisse Messverfahren äquivalent sind, andere jedoch nicht. Das heißt, man hat schematisch: Objektbereich 1 Objektbereich 2
Prozedur 1 — Daten 1 Prozedur 2 — Daten 2 — Prozedur 3 — Daten 3
Eine solche Situation lässt sich auf drei verschiedene Arten interpretieren: • Betrachtet man die Zeilen bzw. die letzte Spalte, so erkennt man verschiedene Perspektiven, die alle zu unterschiedlichen Daten (1, 2, 3) führen, welche aber partiell vergleichbar sind (nämlich 1 und 2). Je nach Blickwinkel des Beobachters stellt sich die Situation verschieden dar. • Betrachtet man die Verfahren, also die mittlere Spalte, so kann man von einem partiellen Operationalismus sprechen, denn das Ergebnis hängt von der Prozedur (1 & 2 versus 3) ab. Andererseits lässt sich aber auch von einem partiellen Realismus sprechen, denn aufgrund der Äquivalenz der Skalen 1 und 2 gibt es Invarianten, die als Eigenschaften der Realität angesehen werden können. • Blickt man zuletzt auf die Objekte, so kann man entweder argumentieren, dass es sich um verschiedene Bereiche handelt (1 versus 2) oder aber um mehrere Facetten ein und desselben Gegenstands.62 Diese differenziertere Betrachtungsweise hat viele Vorteile. Zum Ersten wird sie der Realität gerechter als die obigen extremen Modelle.63 Zum Zweiten werden Objekte, Prozeduren und Daten auf eine Stufe gestellt. Jede der genannten Sichtweisen ist gerechtfertigt, und es kommt auf die konkrete Situation an, welche der möglichen Interpretationen am angemessensten ist. Zum Beispiel spricht man bei der Intelligenzmessung von verschiedenen Facetten der untersuchten Eigenschaft,64 ähnlich wie beim Gleichnis von den 60
Siehe z. B. Russell (1897) und Michell (2003a)
61
Michell (1997: 111) ergänzt: “and measurement must be understood anew.”
62
Etwa sprechen Cronbach et al. (1972) von einem “multifacet concept of observational procedures” in der Psychologie. 63
Auch wenn sie zuweilen immer noch zu grob sein könnte. Wenn sich Prozeduren z. B. teilweise überlappen, so kann man sie nicht mehr in strikt getrennte Äquivalenzklassen einteilen. 64
Also sprachlicher, mathematischer, räumlicher Intelligenz usw.
2.8 Reale Messungen
67
sechs blinden Weisen, die ein und denselben Elefanten untersuchen. Im Beispiel von Hand wird man wohl eher auf die Unterschiedlichkeit der Verfahren abheben, ähnlich einem sportlichen Mehrkampf, der ganz verschiedene Fähigkeiten, wie Kraft, Geschicklichkeit, Ausdauer, Geschwindigkeit usw. testet. Schließlich kennt jeder Fotograf diverse Filter, entsprechend verschiedenen Perspektiven, welche zu unterschiedlichen Ergebnissen - jedes untrennbar mit dem speziellen Verfahren verwoben, und doch höchst relevant für die Praxis - führen. Im Infrarot erkennen Bienen Muster, die uns verborgen bleiben, eine Falschfarbenaufnahme kann Kontraste betonen und Schwarzweißbilder heben Konturen deutlich hervor. Zum Dritten kann sich Fortschritt daran zeigen, dass skalenabhängige Merkmale nach und nach durch skalenunabhängige ersetzt werden. Dem entspricht, dass vergleichbare Messverfahren entwickelt werden (aus einer Prozedur werden viele) und aber enge operationale Definitionen durch Verallgemeinerungen ersetzt werden können, die von konkreten Messverfahren immer unabhängiger werden. Man startet pragmatisch-operationalistisch und kommt schließlich zu Theorien, die völlig zurecht den Anspruch auf eine realistische Interpretation erheben.65 Fortschritt kann sich jedoch auch so darstellen, dass sich neue Perspektiven eröffnen, also mit qualitativ anderen Verfahren ganz neue Eigenschaften messen lassen. Blickt man zurück, so wurden gerade mit neuen Methoden überraschende Entdeckungen gemacht, die sich völlig außerhalb unseres bisherigen Erfahrungsschatzes befanden. Schließlich animiert die Darstellung zu einer dezidiert empirisch-induktiven Sicht: Es ist durch Beobachtung und Experiment zu klären, welche Prozeduren tatsächlich (noch) als äquivalent angesehen werden sollten (siehe hierzu auch S. 75); es entscheidet sich in der Empirie, welche Aussagen „wirklich“ bedeutungsvoll sind; ebenso sollten für jede Gleichung die zu ihr gehörigen Symmetrien (siehe S. 20) ermittelt werden. Forschung ist ein offener und flexibler Prozess, der sich an der Realität orientiert. Messverfahren eröffnen Objektbereiche, welche nach und nach differenziert werden. Feste „A-PrioriEinstellungen“ (um nicht das abgenutzte Wort „Vorurteile“ zu verwenden) stören hierbei mehr als dass sie nützen. Und a priori zum Scheitern verurteilt ist der Versuch, aus prinzipiellen Überlegungen heraus der Realität vorschreiben zu wollen, wie sie sich zu verhalten habe. Man erkennt nun auch, wann die Messtheorie erfolgreich ist: Bei der klassischen Temperaturmessung nutzt man im Prinzip immer denselben Effekt, nämlich die Wärmeausdehnung von Gegenständen (typischerweise einer Flüssigkeit, zuweilen aber auch eines Festkörpers). Die scheinbar unterschiedlichen Arten der Messung von Kälte bzw. Wärme bzw. Hitze (denn nur so ungenau ließ sich die Temperatur vor Einführung von Thermometern fassen) sind nicht wirklich verschieden, sondern durchaus vergleichbar. Da man zudem Messfehler hier vernachlässigen kann, kommt man schnell zu einer großen Anzahl 65
Dazu mehr S. 164ff.
68
2 Messtheorie
gleichwertiger Messmethoden bzw. Skalen, bei denen Nullpunkt und Einheit frei wählbar sind, also von Forscher zu Forscher variieren - und genau so war es auch historisch gesehen. Das zur Messtheorie gehörige Schema zeigt, dass man in gewissem Sinne von einem Idealzustand ausgeht, der in der Praxis nicht allzu häufig der Fall ist. Die Physiker hatten sozusagen „Glück“, weil die Messung physikalischer Attribute - wie z. B. der Temperatur - problemlos möglich war. Bei vielen anderen Gegenstandsbereichen ist dem nicht so, und die optimistischen, weil sehr weitreichenden Annahmen der Messtheorie sind nicht erfüllt: Deshalb scheitert sie, wenn man es mit nicht-äquivalenten, also mit nicht gleichartigen Perspektiven zu tun hat oder aber viele Facetten eines Objekts eine Rolle spielen. Auch mit Messfehlern weiß sie nicht umzugehen, ebenso wenig mit Approximationen, die nicht exakt ihren engen Strukturen entsprechen. In allen diesen Fällen bleibt ihr nur der Rückzug in die Mathematik, d.h., ihre Schlüsse sind nicht direkt empirisch verwendbar. Da dies oft der Fall ist, sollte man den Term „bedeutungsvoll“ besser durch den neutraleren Ausdruck „skalenabhängig“ bzw. „nicht von der speziellen Skala trennbar“ ersetzen. Skalenabhängigkeit kann je nach Situation bedeuten, dass eine Statistik oder Beziehung tatsächlich nicht bedeutungsvoll ist oder aber, dass sie nur relativ zur gewählten Perspektive bzw. bedingt unter dem verwendeten Verfahren sinnvoll ist. Perrins Resultat ist deshalb so überzeugend, weil er über ein Dutzend völlig verschiedenartiger Perspektiven wählte und trotzdem immer dasselbe Ergebnis erhielt. Und genau deshalb ist er auch der Kronzeuge jedes Realisten. Wir führen die Diskussion in Abschnitt 3.9 weiter.
2.9 Messtheorie und Statistik I Statisticians have generally rejected the proscription of methods based on the limitations of permissible transformations. Velleman und Wilkinson (1993: 67)
Fast so alt wie die Stevenssche Messtheorie ist die Frage, welche Auswirkungen ihre Resultate und Empfehlungen auf die Analyse von Daten haben. Inwieweit sollte die Messtheorie uns bei der Wahl von statistischen Verfahren leiten, könnte man auch fragen. Die Diskussion wird dadurch erschwert, dass die Messtheorie dezidiert mathematisch betrieben wurde und Mathematiker der empirischen Interpretation ihrer Resultate wenig Bedeutung zumessen. Falls Theoreme normative Implikationen haben, so sollten empirisch arbeitende Wissenschaftler jene ohne Widerworte beherzigen; ansonsten sind jene in Gefahr, „bedeutungslose“ Ergebnisse zu produzieren. Das heißt, auf der einen Seite lässt sich mit Luce (S. 35) und Stevens (1946, 1951) argumentieren, dass die Messtheorie die Wahl des statistischen
2.9 Messtheorie und Statistik I
69
Verfahren wenn nicht vorschreibt, so doch zumindest eine ganze Reihe von Möglichkeiten als „nicht zulässig“ ausschließt. So schreiben Backhaus et al. (2003: XVIII f.) in ihrer Einführung in multivariate Anlaysemethoden: „Das Skalenniveau bedingt sowohl den Informationsgehalt der Daten wie auch die Anwendbarkeit von Rechenoperationen. [Bei Nominalskalen] handelt es sich lediglich um eine Kodierung der Merkmalsausprägungen [. . .] Mit derartigen Zahlen sind daher keine arithmetischen Operationen (wie Addition, Subtraktion, Multiplikation oder Division) erlaubt [. . .] Die Rangwerte 1., 2., 3. etc. sagen nichts über die Abstände zwischen den Objekten aus [. . .] Daher dürfen auch ordinale Daten [. . .] nicht arithmetischen Operationen unterzogen werden.“ (Hervorhebungen im Original.) Im Großen und Ganzen gefiel es Lehrbuchautoren sehr gut, mit der Skaleneinteilung der Messtheorie ein Ordnungsschema für statistische Verfahren zur Hand zu haben. Zuweilen ist dies sogar heute noch, insbesondere in den Sozialwissenschaften, der Fall, siehe z. B. Krauth (1988), Steyer und Eid (1993) und Bortz (2004). Insbesondere setzt man die Messtheorie ein, um die grundlegenden Unterscheidung von parametrischen und nichtparametrischen statistischer Verfahren zu motivieren. Damit ist folgendes gemeint: Statistische Analysemethoden nutzen oftmals nur einen gewissen Teil der in den Daten potenziell enthaltenen Informationen. Klassische parametrische Verfahren berücksichtigen die Distanz zwischen einzelnen Daten. Berechnet man z. B. die Varianz einer Stichprobe x1 , . . . , xn , also σ 2 (X) =
n (xi − x ¯)2 /n i=1
wobei die xi beliebige reelle Zahlen sind und x ¯ ihr arithmetisches Mittel, so erkennt man sofort, dass die Abstände xi − x ¯ eine wichtige Rolle spielen. Nichtparametrische Verfahren hingegen nutzen lediglich die Ranginformation, arbeiten also mit dem geordneten Datensatz x(1) ≤ . . . ≤ x(n) , ohne dass die Abstände zwischen den Zahlen in die Auswertung eingehen. Wie man unschwer erkennt, passt diese Differenzierung hervorragend zur Unterscheidung von Intervall- und Ordinalskalen in der Messtheorie. Die im Großen und Ganzen kooperative Haltung der theoretischen Statistik ist nicht weiter verwunderlich, geht man in der mathematischen Statistik doch im wesentlichen von Zahlen - nicht: Daten - aus, die gewissen formalen Voraussetzungen, gerne „Modellannahmen“ genannt, genügen. Messtheoretische Ideen und statistische Verfahren ergänzen sich hier sehr gut. Schlimmstenfalls arbeitet man mit nicht kompatiblen Annahmen und jeder betrachtet innerhalb des von ihm gesetzten Rahmens, was sich daraus folgern lässt. Nicht so in der angewandten Statistik. Aus den vielen bereits genannten Gründen waren angewandte Statistiker, die mit realen Daten arbeiten, erheblich kritischer, und die normativen Vorgaben der Messtheorie stießen nahezu unmittelbar auf entschiedenen Widerstand. Die am weitesten reichende Haltung ist, dass die Zahlen nicht wissen, wo sie herkommen (Lord 1953),
70
2 Messtheorie
was nichts anderes heißt, als messtheoretische Überlegungen bei statistischen Auswertungen zu ignorieren. Im Kern will man sich nicht von anderer Stelle vorschreiben lassen, wie mit Daten umzugehen ist; dies umso mehr als restriktive Regeln ganz allgemein nur dann respektiert werden, wenn man bei deren Verletzung unsinnige Ergebnisse erzielt. Genau das ist, wie wir oben gezeigt haben, zumeist nicht der Fall, weshalb in der Konsequenz die Vorgaben der Messtheorie in der Praxis - von Statistikern wie empirischen Forschern - in aller Regel beiseitegeschoben werden. Um zumindest auf dem Papier zu zeigen, dass man die Messtheorie kennt und ihr gerecht werden will, findet sich in Lehrbüchern bisweilen ein einschlägiger Vorspann, welcher sinngemäß den typischen und vielsagenden Satz enthält: „Oftmals werden - auch im vorliegenden Buch - Skalen benutzt, von denen man lediglich annimmt, sie seien intervallskaliert“ (Backhaus et al. 2003: XIX). Das heißt, weniger diplomatisch ausgedrückt, dass man bei der Datenanalyse genau die Annahmen voraussetzt, welche man gerade braucht (ohne dieselben empirisch zu prüfen), was genauso bequem ist wie ein sich selbst genügender Operationalismus im Labor. Man sollte sich daran erinnern, dass auch ein entschiedener Gegner der Messtheorie wie Tukey weit davon entfernt ist, die Empfehlungen der Messtheorie einfach zu ignorieren. Tukey (1986b: 245) sagt: “Not every quantity measured on an ordinal scale is such as to deserve the calculation of a sample mean [. . .]” und auf der nächsten Seite heißt es: “If a finding that ‘variance increases as we move up the scale’ is only useful if it can be taken as a contribution to the fundamentals of psychology, then we must be very careful about making such statements.” 66 Deshalb begründen Mallows und Tukey (1982: 902f) explizit, warum sie trotzdem die Messtheorie im Regelfall nicht beachten: “To say we require fundamental measurement on an interval scale before using an arithmetic mean may perhaps be correct for that one-tenth of one percent of the time when we are concerned with fundamental measurement. Yet, who would deny the arithmetic mean to the climatologist - purely as a matter of principle because most temperatures are measured on a practical scale or because interval-scale temperatures have been available only for about a century? Practical measurement is by far the most used and the most analyzed.” Tukey (1969: 729f) liest sich wie eine Folgerung hieraus: Campbellian measurement has scared us far too long [. . .] if physics had had to grow by Campbellian measurement, it would never have reached the state in which Campbell found it. While giving Campbell the respect which his insightful wisdom deserves, it is time to strive off the chains with which response to his writings have bound us, whether through acceptance, through reaction, or through optimism. 66
Er fährt fort: “But if it serves to guide us, perhaps in the design of an experiment, perhaps in the choice of a method of statistical analysis, perhaps in the directions in which we seek new or modified theories whose confirmation we realize must rest on approximate results, such a statement, although resting on a wholly approximate foundation, may be very useful.”
2.9 Messtheorie und Statistik I
71
Measuring the right things on a communicable scale lets us stockpile information about amounts. Such information can be useful, whether or not the chosen scale is an interval scale. Before the second law of thermodynamics - and there were many decades of progress in physics and chemistry before it appeared - the scale of temperature was not, in any nontrivial sense, an interval scale. Yet these decades of progress would have been impossible had physicists and chemists refused either to record temperatures or to calculate with them. I hope it is clear that if I had a 1818 physicist as a client I would not let the then scale type of temperature stop me from recommending the calculation [. . .] of means of temperatures. With a 1968 psychologist I would take a similar view about many numbers not on interval scales.
Diese Meinung vertrat zeitgleich auch Stevens (1968: 856), wenn er in seinen späten Jahren einräumte “The widespread use on ordinal scales of statistics appropriate only to interval or ratio scales can be said to violate a technical canon, but in many instances the outcome has demonstrable utility.”
Kompromisse Eine solche Lösung ist auch für Messtheoretiker möglich, welche wie Steyer, Eid oder Narens (siehe S. 48ff) die „bescheidene“ Auffassung vertreten, dass es sich beim Begriff der Bedeutsamkeit lediglich um einen ‚terminus technicus‘ handle. Bei dieser mathematisch-formalen Lesart fällt es leicht, nicht-bedeutungsvolle Aussagen und Statistiken zu akzeptieren, handelt es sich doch bei jenen lediglich um Aussagen, welche von einer speziellen Skala wesentlich abhängen.67 Derartige Aussagen sind zwar nicht so gehaltvoll wie „unbedingte“, also Aussagen, die von der Skala unabhängig sind, aufgrund der zurückhaltenden Interpretation des Begriffs „bedeutungslos“ wird daraus jedoch nicht gefolgert, dass skalenabhängige Begriffe oder Aussagen keine empirische Bedeutung hätten. Außerdem legt die genannte Haltung den weiteren Schritt nahe, Fortschritt daran festzumachen, dass sukzessive skalenabhängige Ergebnisse bzw. Aussagen durch skalenunabhängige ersetzt werden. Narens (2002: 408) schreibt: “As the fragment matures, the tendency of progression usually moves from non-meaningful to meaningful [. . .] formulations.” Eine etwas allgemeinere Lösung hatten wir auf anderem Wege in Abschnitt 2.8 hergeleitet. Auch bei einer strengen, normativen Lesart der Messtheorie sind tragfähige Kompromisse durchaus möglich. Das Hauptargument ist seit Burke (1953), dass es bei der Messtheorie um die Erhebung und anschließende Interpretation von Daten geht, während es die Statistik vornehmlich mit Verfahrensweisen zu tun hat, die auf mathematisch-formalen Annahmen basieren. Luce et al. (1990: 294) zitieren Michell (1986: 402): “The question never was one of permissible statistics or meaningfulness. It was always one of legitimate inference.” Dies kommentieren sie mit: “We give our view, which agrees with the 67
So lässt sich bereits Pfanzagl (1968: 34) im Fall der Temperaturmessung mit ◦ C und verstehen: “Thus contrary to the relation x < y, the relation y = 2x [. . .] is meaningless without specification of the scale.” ◦F
72
2 Messtheorie
latter but not the former of the two quoted sentences.” Aus dem folgenden geht dann hervor, dass Luce et al. (1990) nach wie vor eine strenge Version der Messtheorie vertreten, jedoch einen Unterschied zwischen den Annahmen statistischer Verfahren und der Messtheorie machen: “It seems resonable to require that the numerical relations defined by such funcitons be meaningful relative to the underlying empirical structure. But on the other hand, the logic of statistical inference seems to require only distributional assumptions, not assumptions about the way in which the measurements xi are used to represent empirical relations [. . .]” (ibd., S. 294). Bortz und Döring (1995: 168) erklären den Unterschied präzise und deutlich: In diesem Zusammenhang sei auf einen Irrtum aufmerksam gemacht, der seit der Einführung der vier Skalenarten [. . .] durch Stevens anscheinend nur schwer auszuräumen ist. Die Behauptung, parametrische Verfahren wie z. B. der t-Test oder die Varianzanalyse setzten intervallskalierte Daten voraus, ist in dieser Form nicht richtig. Die mathematischen Voraussetzungen dieser Verfahren sagen nichts über die Skaleneigenschaften der zu verrechnenden Daten aus. (Die Varianzanalyse setzt z. B. normalverteilte, unabhängige und homogende Fehlerkomponenten voraus.) Vor diesem Hintergrund wäre beispielsweise gegen die Anwendung varianzanalytischer Verfahren auf Daten wie z. B. Telefonnummern nichts einzuwenden, solange diese Zahlen die geforderten mathematischen Voraussetzungen erfüllen [. . .] Gaito (1980) diskutiert die Hartnäckigkeit dieses Mißverständnisses anhand zahlreicher Literaturbeispiele68 und fordert nachdrücklich, bei der Begründung der Angemessenheit eines statistischen Verfahrens zwischen meßtheoretischen Interpretationsproblemen und mathematisch-statistischen Voraussetzungen zu unterscheiden. Die Frage, ob verschiedene Zahlen tatsächlich unterschiedliche Ausprägungen des untersuchten Merkmales abbilden bzw. die Frage, ob - wie es die Intervallskala fordert - gleiche Zahlendifferenzen auch gleiche Merkmalsunterschiede repräsentieren, ist ein meßtheoretisches und kein statistisches Problem. Der statistische Test ‚wehrt‘ sich nicht gegen Zahlen minderer Skalenqualität, solange diese seine Voraussetzungen erfüllen. Die Skalenqualität der Zahlen wird erst bedeutsam, wenn man die Ergebnisse interpretieren will. Es sind dann meßtheoretische Erwägungen, die dazu veranlassen, die Ergebnisse einer Varianzanalyse über Nominalzahlen für nichtssagend zu erklären, weil die Mittelwerte derartiger Zahlen keine inhaltliche Bedeutung haben.“ (Hervorhebungen im Original.)
Wir fassen die Argumente im folgenden Schaubild zusammen, das strikt zwischen der mathematischen und der empirischen Ebene unterscheidet: Mathematik Daten bzw. numerischer Relativ =⇒ Numerisches Ergebnis ↑ | (Datenerhebung bzw. Skala) (Interpretation) | ↓ Realität bzw. empirischer Relativ Inhaltliches Ergebnis Empirie 68
Man vergleiche hierzu unsere Ausführungen am Anfang des Abschnitts, die womöglich verständlich machen, wie sich dieser Irrtum entwickeln konnte.
2.9 Messtheorie und Statistik I
73
Das heißt, bei der Datenanalyse hat man es mit drei nur teilweise von einander abhängigen Bereichen zu tun. Zum ersten sind die Daten zu erheben, technisch gesprochen wird gemessen (↑). Genau hierfür ist die Messtheorie zuständig. Beim Ergebnis der Erhebung handelt es sich in aller Regel um Zahlen. Eben jene Zahlen werden im zweiten Schritt mithilfe statistischer Verfahren ausgewertet (⇒). Diese Verfahren basieren auf mathematisch-formalen Annahmen. Nur wenn jene im Wesentlichen erfüllt sind, sollte man die Verfahren benutzen. Der Grund hierfür ist, dass es sich bei den Verfahren letztlich um mathematische Umformungen handelt, die nur unter den gegebenen Voraussetzungen zulässig sind. Ansonsten kann man Gegenbeispiele angeben, die zeigen, dass das Resultat unsinnig oder beliebig ist. Man beachte, dass die Mathematik an dieser Stelle lediglich eine Hilfswissenschaft ist, die aus den Daten Informationen extrahiert bzw. in der Lage ist, viele Daten in wenigen aussagekräftigen Zahlen, Diagrammen und Bemerkungen zusammenzufassen. Zuletzt interpretiert man die numerischen Ergebnisse, das heißt, man bezieht die Zahlen wieder auf die reale Welt (↓). Und genau hier kommt erneut die Messtheorie oder allgemeiner gesprochen die Art und Weise der Datenerhebung ins Spiel. Gewisse empirische Schlussfolgerungen sind nämlich nur dann gerechtfertigt, wenn die Datenerhebung bereits gewissen Anforderungen genügte. Hat man nur die Medaillenränge notiert, so wird man wohl nicht fundiert behaupten dürfen, der Sieger eines sportlichen Wettbewerbs haben nur ganz knapp gewonnen. Natürlich lässt sich alles Mögliche behaupten, es kommt jedoch entscheidend auf die Art der Datensammlung (und Auswertung) an, ob die Behauptungen auch gerechtfertigt oder glaubhaft sind. Informatiker haben den drastischen Satz “Garbage in, garbage out” geprägt, und genau so ist es auch schlimmstenfalls bei der Analyse und Interpretation von Daten. Alle drei Aspekte des statistischen Erkenntnisprozesses werden in der Definition von Efron und Tibshirani (siehe S. 4) angesprochen. Nur wenn man sich auf den rein mathematischen „Ast“ ganz oben beschränkt, lässt sich Lords Behauptung, dass die Daten nicht wissen, wo sie herkommen, vertreten. Nicht aber, wenn es darum geht, Daten inhaltlich zu interpretieren. Dann ist es sehr wohl relevant, wie die Daten zustande gekommen sind. Es ist gerade die orthodoxe Statistik in der Nachfolge R. A. Fishers, die diesen Gesichtspunkt betont und ihm allgemeine Anerkennung verschafft hat. (Nur eine Minderheit von Statistikern sind aus Gründen, die wir noch besprechen werden, etwas anderer Ansicht. Siehe insbesondere den Abschnitt 4.4.2.) Die Interpretation ist gewissermaßen die Umkehrung der Erhebung der Daten (wobei man zwischendurch die Dienste der Mathematik in Anspruch genommen hat). Sie ist deshalb besonders schwierig, weil hier alle potenziell relevanten Aspekte zu berücksichtigen sind:69 Erstens die Erhebung, zweitens die formale Analyse und drittens das ganze Umfeld. Genau deshalb ist 69
“How accurate are my data summaries” (siehe S. 4) ist also nur ein kleiner Aspekt der Interpretation.
74
2 Messtheorie
sie nie rein formal oder gar automatisiert zu bewältigen. Sie erfordert Fingerspitzengefühl bei der Gewichtung vieler Faktoren, Erfahrung bei der Bewertung von Zahlen und Fakten und insbesondere ein großes Verständnis des empirischen Bereichs, den man gerade untersucht. Ein numerisch höchst bedeutsam erscheinendes Resultat kann empirisch völlig unwichtig oder sogar irreführend sein, und andererseits kann ein statistisch unauffälliges Ergebnis inhaltlich außerordentlich bedeutsam sein. Eine originelle, weit über die formalen Aspekte hinausgehende Diskussion dieses Problems findet sich in Good (1983b), insbesondere S. 290. Man erkennt, dass Messtheorie und mathematische Statistik (im Sinne mathematischer Analyseverfahren) im Wesentlichen zwei verschiedene Aspekte der Datenanalyse bearbeiten. Mathematische Voraussetzungen, für die formale Analyse der Daten höchst bedeutsam, gehören zur oberen, nichtempirischen Ebene. Anders die Messtheorie: sie will gerade den Übergang von Empirie zum formalem Modell, von Fakten zu Zahlen, beschreiben. Schließlich fließen beide in die Interpretation der Resultate ein. Eine integrative Position sollte damit die Argumente der Messtheorie und der Mathematik ernst nehmen. Es geht um “Scales and Statistics”, und in seinem gleichnamigen Artikel hat P. Gardner (1975) eine sinnvolle Kompromisslösung formuliert. Zunächst unterscheidet er streng (wie wir gerade eben und viele andere Autoren auch) zwischen inhaltlich-empirischen und formal-mathematischen Aspekten. Um Platz für einen Kompromiss zu schaffen, argumentiert er sodann gegen die rigide Skaleneinteilung nach Stevens: “In short, the distinction between types of scales (and, by implication, appropriate statistics) is by no means clear-cut” (ibd., S. 47.) Insbesondere führt er eine “grey area” zwischen Ordinal- und Intervallskala ein, die er “ordinal/interval continuum” nennt und sehr praxisrelevant ist: “[This continuum is] occupied by a large number of instruments which can be conveniently labelled as summated scales.” Dazu gehören z. B. “summated-rating attitude scales, in which the total score is the sum of a set of ordinal weightings [. . .]”, also etwa der weiter oben besprochene APGAR-Test. Diese Instrumente sind von größter praktischer Bedeutung, denn “The summated scale category obviously includes a large proportion of all the instruments used in educational and psychological research.” Soweit die Skalen bzw. die „Anhebung“ des Skalenniveaus über die Ordinalskala hinaus. Auch von statistischer Seite aus kann man entgegenkommen. Wie die Physik und andere empirische Wissenschaften hat auch die Statistik erkannt, dass viele mathematische Voraussetzungen in der Praxis oft nicht exakt erfüllt oder sogar mehr oder minder stark verletzt werden. Anders als Mathematiker, die in solchen Fällen keine Aussagen machen bzw. nur eine Vermutung in den Raum stellen, haben Statistiker nun empirisch-systematisch getestet, wie sich ihre Verfahren verhalten, wenn die Annahmen eben nicht genau gelten oder sogar grob verletzt werden. Dabei hat sich im großen und ganzen erfreulicherweise herausgestellt, dass die Ergebnisse vieler Verfahren im We-
2.9 Messtheorie und Statistik I
75
sentlichen gültig bleiben, falls man ihre Voraussetzungen nicht allzu sehr bzw. nicht allzu viele Voraussetzungen zugleich verletzt. Hierfür hat sich der Terminus „robust“ eingebürgert, d.h. eine robuste Statistik bzw. ein robustes Verfahren ist ein(e) solche(s), die bzw. das bei Verletzungen der mathematischen Annahmen nicht in die Irre führt, sondern weiterhin sinnvolle Ergebnisse liefert.70 Es gehört mittlerweile zur Routine, Verfahren auf ihre „Robustheit“ zu überprüfen und es ist immer ein Gütesiegel, wenn ein Verfahren nicht allzu empfindlich auf die Verletzung seiner Annahmen reagiert. (Siehe hierzu aber auch S. 336ff) Insbesondere sind auch viele parametrische Verfahren, die also Abstände zwischen Datenpunkten auswerten, ziemlich robust. Insgesamt besteht der von P. Gardner (1975) ausgearbeitete Kompromiss also darin, das realistische Skalenniveau höher einzuschätzen als die traditionelle Messtheorie und zugleich robuste statistische Verfahren für derartige Daten zu verwenden. Dadurch geht man sowohl theoretisch fundiert als auch praxisnah vor.
Invarianz Oftmals sind die einfachsten Strategien die besten. Schon auf den Seiten 61ff und 67 hatten wir diesbezüglich viele Vorzüge einer empirisch-induktiven Strategie aufgezählt. Das heißt, anstatt höchst theoretische und zuweilen wohl auch dogmatische Argumente auszutauschen um schließlich zu komplexen „diplomatischen“ Übereinkünften zu kommen, spricht viel dafür, die TheorieBeladenheit der Diskussion hinter sich zu lassen und direkt-empirisch die Frage anzugehen: Welche Skalen und Auswertungen sind sinnvoll? Bei diesem Ansatz treten an die Stelle theoretischer Invarianzargumente empirische: [This] argument is founded upon empirical studies of the effect of transformations of data upon [. . .] various statistics. The basis of this argument is that, if one alters the metric properties of scales and still reaches the same conclusions regardless of whether the data have been transformed or not, then, for the purposes of statistical inference, it cannot matter very much what the scale properties are. (P. Gardner 1975: 50)
Wie die Physiker des 19. Jahrhunderts misst man also zunächst, was noch sinnvoll messbar ist, und fragt sich danach, welche Klasse von Transformationen (immer noch) zu derselben statistischen Schlussfolgerung führen. Das heißt nicht, die Messtheorie zu ignorieren, sondern ihren Kerngedanken Invarianz - empirisch umzusetzen. Dazu mehr in den Abschnitten 3.9 und 3.10.3. 70
Siehe z. B. Gelman et al. (2004), Maronna et al. (2006) und die beiden Klassiker Huber (1981), Hampel et al. (1986).
76
2 Messtheorie
Mathematik als gemeinsame Basis Wir möchten dieses von Auseinandersetzung geprägte Kapitel mit einem Beispiel beenden, das die integrative Kraft der Mathematik beleuchtet. Es wäre nicht allzu überraschend, hätten Luce und Tukey, zwei exponierte Vertreter diametral verschiedener philosophischer Haltungen, mit vielen Worten gegeneinander gestritten. Tatsächlich beschränkt sich nach Wissen des Autors die Auseinandersetzung zwischen den beiden jedoch auf die zuvor erwähnten Zitate (siehe S. 35 und S. 41) aus den 1950er Jahren, und auch diese sind sachlicher, nicht persönlicher Natur. Wie fruchtbar völlig verschiedenartige Denkansätze zusammenwirken können, bewiesen die beiden genannten Wissenschaftler mit ihrem gemeinsamen Artikel zu Conjoint Measurement. Dieser Artikel wird von allen Fachwissenschaftlern als ein großer Durchbruch der Messtheorie bezeichnet und er hat auch praktisch eine immense Bedeutung erlangt. Im Kern zeigt er, dass man mithilfe weniger Annahmen, allein durch systematische Vergleiche, zu Messungen auf Intervallskalenniveau gelangt: “The role usually played by the concatenation operation71 is replaced by the fact that the objects are ordered pairs. From the axioms we give, simultaneous measurement on interval scales is obtained [. . .]” 72 Es ist die Mathematik, welche den allgemeinverbindlichen Rahmen zur Verfügung stellt, innerhalb dessen selbst völlig verschiedene Ansichten fruchtbar zusammenwirken können. Dies ist keine geringe Leistung, verpuffen doch Energien nicht in fruchtlosen rhetorischen „Glaubenskämpfen“ - zu archivieren in umfangreichen Bibliotheken. Stattdessen wirkt der philosophische Dissens fachwissenschaftlich stimulierend und führt zu ebenso fundamentalen wie fundamental neuen Einsichten: Not the least of the attractions of mathematics is that it allows us to temporarily ignore the question of interpretation [. . .] Mathematics [. . .] offers [. . .] a common language, so that we can dispute about ideas but not about grammar. (Moore 1990) 71
Diese Operation des Zusammenfügens war für Campbell grundlegend für eine Messung auf Intervallskalenniveau. Sie führt dazu, dass man Messwerte addieren „darf“. Das Paradebeispiel sind hintereinander gelegte Stäbe bei der Längenmessung. 72
Siehe Luce und Tukey (1964: 487), für eine prägnante aktuelle Darstellung siehe auch Luce (2000: 293f).
Kapitel 3
Klassische Statistik
We are drowning in information, but starving for knowledge. (J. Naisbett, zitiert nach Hudec (o. J.))
Reichenbach (1951: 117) machte den Fortschritt der Philosophie daran fest, dass man mehr und mehr lernt, welche Fragen man besser nicht stellen sollte. Sich hierauf beziehend sagt Tukey (1961: 148): “[. . .] statistics has grown, and must continue to grow, by learning what questions not to fear.” Tukey (1986b: 289) ergänzt: “[. . .] the development of statistics can be portrayed as learning more and more things about which certainty should not be sought.” 1 Tukey (1986c: 588f) fasst zusammen: “[. . .] the history of statistics has involved indeed, very nearly consisted of - successive enforced retreats from certainty. Each step of that retreat has brought further gains. It is fair to say that statistics has made its greatest progress by having to move away from certainty, to move in a direction some would feel to be backward [. . .] Each of these steps has built on the past, most have led to a weaker and weaker form of certainty.” Dem entsprechend ist die Stochastik,2 also die mathematische Theorie der Wahrscheinlichkeit, so grundlegend für die Statistik geworden, dass gerade Mathematiker dazu tendieren, erstere lediglich als einen Zweig der angewandten Mathematik zu behandeln. Selbst ein R. A. (Fisher 1970: 1), den wir noch als glänzenden Vertreter der induktiven Erkenntnisrichtung kennenlernen werden, schrieb: “The science of statistics is essentially a branch of Applied Mathematics, and may be regarded as mathematics applied to observational data.” Ganz allgemein ist die Stochastik die allgemein anerkannte formale Grundlage der Statistik und deterministische Ansätze wie die Messtheorie spielen nur am Rande eine Rolle.3 1
Er ergänzt diese Aussage um eine kurze Geschichte der Statistik des 20. Jahrhundert unter diesem Gesichtspunkt. 2 3
Vom griechischen ó στ óχoς, das Vermutete Wir runden die Bezüge zwischen Messtheorie und Statistik in Abschnitt 3.8.2 ab.
U. Saint-Mont, Statistik im Forschungsprozess, DOI 10.1007/978-3-7908-2723-1_3, © Springer-Verlag Berlin Heidelberg 2011
77
78
3 Klassische Statistik
3.1 Das Grundmodell There’s never been a signal without noise. (Box et al. 2005: Einband)
Wie ist nun das statistische Modell der Abbildung der Realität auf die Welt der Zahlen? Was ist bzw. sind die grundlegenden Setzungen?
Zufallsvariable In der klassischen Analysis nennt man Zahlen, also feste Werte, auch Konstanten. Im Gegensatz dazu sind Variablen - wie der Name schon sagt - Veränderliche, die mehrere Werte annehmen können. Mit der Gleichung y = c, oft hervorgehoben durch die Notation y ≡ c, wird ausgedrückt, dass die Variable y einen konkreten (festen) Wert c annimmt. Man beobachtet c bzw. identifiziert das, was man gesehen hat, mit dem Wert, den eine Variable annehmen kann. “To be is to be a value of a bound variable” könnte man in Anlehnung an ein häufig gehörtes Zitat von Quine (1980: 15) deshalb sagen.4
Realisierung In der Statistik schreibt man X = x, und drückt damit aus, dass die Zufallsvariable X den Wert x annimmt. Der konkrete Wert x, eine Beobachtung, heißt auch die Realisierung der Zufallsvariablen X (in diesem ganz konkreten Fall).5 Eine Zufallsvariable wiederum wird charakterisiert durch die Menge aller Zahlen, die sie annehmen kann, d.h. die Menge der ihr möglichen Realisierungen x1 , . . . , xn , sowie den zugehörigen Wahrscheinlichkeiten p1 , . . . , pn . Man schreibt gerne auch p(X = x) für die Wahrscheinlichkeit, dass die Zufallsvariable X den Wert x annimmt.6 4
Tatsächlich heißt es aber an der genannten Stelle: “Now how are we to adjudicate among rival ontologies? Certainly the answer is not provided by the semantical formula ‘To be is to be a value of a bound variable’ [. . .]” 5
Im folgenden werden wir uns an die übliche Konvention halten, dass, soweit nichts anderes ausdrücklich gesagt wird, Konstanten bzw. Zahlen klein geschrieben werden und Zufallsvariablen groß. Funktionen werden zumeist mit Kleinbuchstaben am Ende des Alphabets, etwa t, u, x, y, aber auch f, g und h bezeichnet. Zahlen bzw. Konstanten werden zumeist mit den Anfangsbuchstaben des Alphabets, also c, d, a, b usw. notiert. 6
Das klassische Beispiel ist die Zufallsvariable „Würfeln“ mit den möglichen Werten von Eins bis Sechs und den zugehörigen Wahrscheinlichkeiten von je 1/6. X = 3 bedeutet also, dass in einem konkreten Wurf „Drei“ das Ergebnis des „Zufallsexperiments“ war.
3.1 Das Grundmodell
79
Verteilung Unter der Verteilung einer Zufallsvariablen X versteht man die Menge aller möglichen Werte xi zusammen mit den zugehörigen Wahrscheinlichkeiten pi = p(X = xi ). Es sind genau diese Werte und Wahrscheinlichkeiten, welche bis auf mathematische Feinheiten die Zufallsvariable X festlegen.7 Einen Münzwurf modelliert man z. B. mittels einer Zufallsvariablen X, die nur die Werte Null und Eins annimmt. Bezeichnet man mit p die Wahrscheinlichkeit, dass die Realisierung gerade 1 ist, so gilt p = P (X = 1) = 1 − P (X = 0). Man sagt dann, dass X gemäß einer Bernoulli-Verteilung mit dem Parameter p verteilt ist und schreibt ganz kurz X ∼ B(p). Es bedarf einiger technischer Anstrengungen, die grundlegenden Ideen auf abzählbar unendlich viele mögliche Realisierungen x1 , x2 , . . . und erst recht auf überabzählbar viele mögliche Realisierungen zu übertragen. An den grundlegenden statistischen Argumenten ändert das jedoch nichts. Um uns nicht in für unsere Zwecke unwesentlichen Formalia zu verlieren, geben wir deshalb im folgenden zumeist nur den leicht nachzuvollziehenden endlichen Fall an.
Das Standardmodell: IID Zufallsvariable In aller Regel bestehen nun Daten - der Plural deutet es schon an - nicht aus einer einzigen Beobachtung, sondern aus einer ganzen Reihe gleichartiger Werte. Das theoretische Modell hierfür ist, dass die Werte von einander unabhängig sind und dieselbe Verteilung besitzen.8 Etwas formaler heißt das, dass man mehrere „Exemplare“ X1 , . . . , Xp der Zufallsvariablen X nimmt, so dass jedes der Xi dieselbe Verteilung wie X hat. Darüber hinaus wird angenommen, dass die Realisierungen nichts miteinander zu tun haben, also unabhängig voneinander sind. Der Wert, den zum Beispiel X1 annimmt, beeinflusst hiernach also in keiner Weise, welche Realisierung bei X2 zu sehen ist und vice versa. Anders gesagt, aus der Kenntnis von X1 = x lassen sich keine Rückschlüsse auf X2 = x oder irgend eine andere von X1 unabhängige Zufallsvariable ziehen. Die Verteilung von X1 ist also dieselbe, egal was sich bei den anderen Zufallsvariablen tut. Das heißt formal: p(X1 = xi ) = p(X1 = xi |X2 = xj ), für alle i, j = 1, . . . , n, wobei | als „bedingt unter“ oder einfach nur „wenn“ gelesen wird. Empirisch geht man von unabhängigen Ereignissen aus, wenn das eine das andere nicht beeinflusst. Werfen z. B. zwei Personen nacheinander mit demselben Wür7
Technisch gesprochen ist eine Zufallsvariable X tatsächlich eine (messbare) Abbildung von einem Wahrscheinlichkeitsraum in die reellen Zahlen. Das heißt, es gibt noch diverse andere „Stellschrauben“. 8 Englisch: independent and identically distributed, abgekürzt iid.
80
3 Klassische Statistik
fel, so sollte das Ergebnis der ersten Person nicht beeinflussen, was die zweite Person wirft. Von unabhängigen Merkmalen spricht man, wenn sich aufgrund der Kenntnis des einen Merkmals (z. B. der Lottozahlen des letzten Wochenendes) nichts über ein zweites Merkmal (z. B. die Lottozahlen am nächsten Wochenende) sagen lässt. Scheinbar verhindert Unabhängigkeit das Lernen aus Erfahrung, da das Ergebnis eines Zufallsexperiments, also die Realisierung X1 = x1 keine weiteren Informationen über die Realisierungen von X2 (und aller anderen Xi ungleich X1 ) erschließt. Tatsächlich ist in der Statistik - anders als in der Stochastik - die Verteilung der Zufallsvariablen jedoch in aller Regel unbekannt. Anders als beim Würfeln oder anderen Glücksspielen, wo man die zugrundeliegende Verteilung kennt (weil man die Situation selbst festlegt), weiß man in der Realität typischerweise nicht, wie die Verteilung einer interessierenden Größe aussieht. Und genau hierfür wurde das IID-Modell gemacht: Man interessiert sich nicht dafür, welcher Wert sich bei der 17. Beobachtung eingestellt hat, und möchte daraus auch nicht den Wert bei der 37. Beobachtung prognostizieren. Vielmehr möchte man wissen, welche Werte überhaupt angenommen werden und wie die zugehörigen Wahrscheinlichkeiten aussehen. Beobachtung um Beobachtung lernt man etwas über die Verteilung hinzu, Schritt für Schritt kann man die zugrundeliegende „wahre“ Verteilung genauer erkennen. Wir weisen ausdrücklich darauf hin, dass es sich auch beim statistischen Grundmodell (und allen seinen nun folgenden Verfeinerungen und Erweiterungen) lediglich um eine empirisch zu prüfende Hypothese handelt. So omnipräsent das einfache Messmodell der Statistik auch ist, es kann - wie die Modelle der Messtheorie - zuweilen angemessen sein, also „passen“, zuweilen aber auch nicht. G. H. Fischer (1974: 27) bezweifelt zum Beispiel zurecht, ob das IID-Modell im Fall psychologischer Tests adäquat ist: „Die Schwierigkeit dieser Definition liegt in ihrem inneren Widerspruch mit der psychologischen Erfahrung, dass man denselben Test nicht wiederholte Male unter gleichen Bedingungen vorgeben kann.“ In diesem und vielen weiteren Fällen bewähren sich originelle, auf eine spezifische Situation zugeschnittene Modelle weit besser. Gerade bei Ansätzen, die fast immer praktikabel sind, sollte man besonders kritisch sein, und sie auf gar keinen Fall als Axiome behandeln.9
Verteilungsfunktion Genauer gesagt zeigt man in der klassischen Statistik, dass die Kenntnis der gerade beschriebenen wahren Verteilung äquivalent zum Wissen um den 9
Konventionen, die zuweilen leider nur die Macht der Gewohnheit widerspiegeln, machen natürlich auch vor der Wissenschaft nicht halt. Zu ihnen gehören Grundannahmen, die (fast) niemand (mehr) gründlich hinterfragt. Diese Tendenz rechtfertigt gleichwohl weder Gedankenlosigkeit noch eine dogmatische Haltung, die aus hypothetischen Annahmen sakrosankte Axiome macht.
3.1 Das Grundmodell
81
Verlauf der sogenannten (theoretischen) Verteilungsfunktion F ist. Dabei ist F (x) gerade die Wahrscheinlichkeit, dass X einen Wert kleiner oder gleich x annimmt. Kurz: F (x) = p(X ≤ x). Anschaulich gesprochen „kumuliert“ man die Wahrscheinlichkeit bis zum Punkt x. Man schreibt auch gerne FX um deutlich zu machen, dass die fragliche Verteilungsfunktion zur Zufallsvariablen X gehört. Von großer Bedeutung ist, dass man jede Funktion F von den Beobachtungen in die reellen Zahlen als eine Verteilungsfunktion auffassen kann, sobald die folgenden Bedingungen erfüllt sind: 1. 2. 3. 4.
limx→−∞ F (x) = 0 limx→∞ F (x) = 1 F ist monoton wachsend, d. h. x1 < x2 ⇒ F (x1 ) ≤ F (x2 ) F ist rechtsseitig stetig, d.h. für alle x0 ∈ IR gilt F (x0 ) = limx↓ F (x)
F kann mit anderen Worten ziemlich beliebig sein, was der Anwendbarkeit des IID-Modells in der Praxis sehr zugute kommt. Da man über F nichts Spezifisches voraussetzt, spricht man auch von non- oder nicht-parametrischer Statistik.10 Technisch gesehen vereinheitlichen Verteilungsfunktionen die Diskussion, da sich die Verteilungsfunktionen von diskreten wie auch stetigen Zufallsvariablen völlig gleichartig behandeln lassen. Diskrete Zufallsvariablen nehmen x höchstens abzählbar unendlich viele Werte an, und man hat F (x) = die überabzählbar xi P (X = xi ). Im Falle einer stetigen Zufallsvariablen, x viele Werte annimmt, hat man hingegen F (x) = −∞ f (t)dt mit der sogenannten Dichte ∞ f (t), also einer nichtnegativen, fast überall stetigen Funktion f , für die −∞ f (t)dt = 1 ist. Zudem sind Verteilungsfunktionen ziemlich „robust“, d.h. man kann mit ihnen viele Operationen durchführen, ohne dass technische Probleme auftreten, was insbesondere für Dichten nicht gilt.
Empirische Verteilungfunktion Mithilfe der Daten bzw. Beobachtungen x1 , . . . , xn definiert man die sogenannte empirische Verteilungsfunktion Fˆn als die Verteilungsfunktion jener Verteilung, die jede Beobachtung xi mit der Wahrscheinlichkeit 1/n versieht. Das heißt Fˆn (x) ist der Anteil der Beobachtungen, die kleiner oder gleich x sind. Anschaulich gesehen handelt es sich um eine Treppenfunktion mit Sprüngen in den Punkten xi . Die Funktion ist also konstant zwischen den Beobachtungen xi . Wurde xi gerade ni Mal beobachtet, so ist die „Höhe des Sprunges“ dort ni /n. 10
An obiger Monotoniebedingung lässt sich zudem sofort ablesen, dass sie so gut zum Ordinalskalenniveau von Daten passt, dass sich häufig die schon weiter oben beschriebenen Irritationen ergeben (siehe Abschnitt 2.9).
82
3 Klassische Statistik
Der Hauptsatz der Mathematischen Statistik Die grundlegende Annahme ist das IID-Modell. Das heißt zum einen, dass xi eine Realisierung der Zufallsvariablen Xi ist. Die Beobachtungen kamen also wie folgt zustande: X1 = x1 , . . . , Xn = xn . Zum zweiten seien die Zufallsvariablen X1 , . . . , Xn unabhängig und identisch verteilt. Warum kann es unter diesen Umständen zu einer Konvergenz bei wachsendem n, also größerem Beobachtungsumfang, kommen? Die Annahme einer Verteilung bzw. gleichbedeutend, identischer Verteilungen, ist notwendig, damit der Limes eindeutig bestimmt ist. Gäbe es mehr als eine Verteilung, so wüsste man nicht, gegen was das gesammelte Wissen aller Beobachtungen konvergieren soll. Würde man andererseits die Unabhängigkeitsannahme erheblich abschwächen, so könnte es passieren, dass man durch neue Beobachtungen nichts mehr hinzulernt. Dies ist z. B. dann der Fall, wenn eine Münze ab dem 10. Wurf immer so auf den Tisch gelegt wird, wie sie im 9. Wurf fiel. Es ist hier völlig gleichwertig, ob man lediglich 9 oder aber 999 Beobachtungen macht - was ab der 10. Beobachtung passiert, ist von vorneherein klar. Unter den Annahmen des IID-Modells passiert jedoch genau das, was man erwartet: Der „Abstand“ zwischen den beiden Funktionen F und Fˆ konvergiert in einem sehr starken Sinne für n → ∞ gegen Null.11 Das bedeutet anschaulich, dass sich die aus den empirischen Erfahrungen hervorgehende Verteilung (bzw. gleichbedeutend, Verteilungsfunktion) immer stärker der unbekannten theoretischen Verteilung annähert.12 Der Hauptsatz drückt also aus, dass man der Realität (also hier der tatsächlichen Verteilung) „asymptotisch“, also bei beliebig vielen Beobachtungen, beliebig nahe kommt.
Asymptotische Statistik Viele andere Sätze der mathematischen Statistik sind von dieser Gestalt. Sie erläutern, was bei wachsendem Stichprobenumfang geschieht. Etwa besagt das wichtige Gesetz der großen Zahlen, dass die relative Häufigkeit gegen die zugehörige Wahrscheinlichkeit konvergiert. Sind also X1 , X2 , . . . unabhängige, jeweils gemäß B(p) verteilte Zufallsvariablen und x1 , x2 , . . . die zugehörigen n Realisierungen, so konvergiert das arithmetische Mittel i=1 xi /n (also der Anteil der Einsen in der Stichprobe bzw. die relative Häufigkeit der Einsen) gegen p. Genauer gesagt ist die Wahrscheinlichkeit, dass dies geschieht, gleich Eins. Nur ganz wenige „extreme Folgen“, etwa 1, 1, 1, . . . oder 0, 0, 0, . . . konvergieren nicht gegen p.13 11
Siehe z. B. Müller (1991: 84ff).
12
Wir erwähnen am Rande, dass man das IID-Modell auch abschwächen kann. Insbesondere gilt er auch noch, wenn die Daten gewisse Abhängigkeiten aufweisen. 13
Siehe aber auch S. 212.
3.2 Statistische Tests
83
Im IID-Modell weiß man aufgrund der identischen Verteilung aller Zufallsvariablen, was geschehen sollte: Mit steigendem n, also einer sukzessiven Zunahme der Information, wünscht man immer eine Konvergenz gegen die wahren, aber zunächst unbekannten Verhältnisse. Die theoretische Verteilung ist der ruhende Pol bzw. die „Wahrheit im Hintergrund“ des IID-Modells, um die sich alles dreht. Aus empirischen Daten berechnete Statistiken sollten sich als Annäherungen an gewisse ihrer Eigenschaften verstehen lassen.
3.2 Statistische Tests Every experiment may be said to exist only to give the facts a chance of disproving the null hypothesis. (Fisher 1966: 16)
Bei statistischen Tests handelt es sich um die konzeptionell einfachste Anwendung der allgemeinen Argumentation des letzten Abschnitts. Trotzdem trat das im nächsten Kapitel ausführlich zu besprechende Induktionsproblem - wenn auch nicht unbedingt unter diesem Namen - bereits hier prominent in Erscheinung. Die Logik des Testens ist untrennbar mit der deduktiven und induktiven Erkenntnisrichtung verwoben.
3.2.1 Fisher: Signifikanztests Im prototypischen Fall hat man es lediglich mit einer einzigen Hypothese H und einer einzigen Beobachtung x zu tun. Eine Hypothese ist in der Statistik nichts anderes als eine Verteilung PH (X) und man schreibt auch X ∼ H, wenn die Zufallsvariable X nach H verteilt ist. Die Frage ist, was sich aufgrund einer Beobachtung x, die als Realisierung der Zufallsvariablen X aufgefasst wird, über H aussagen lässt.14 Sei X eine diskrete Zufallsvariable mit P (X = x) = 0, und x werde beobachtet. Spricht das gegen die Hypothese? Ganz entschieden, denn P (X = x) = 0 besagt nichts anderes, als dass die Beobachtung x nicht auftreten kann, falls H der Fall ist. Die einzelne Beobachtung x widerlegt also logisch streng die Hypothese. Die Widerlegung einer Hypothese aufgrund eines (einzigen) Gegenbeispiels ist Philosophen als modus tollens geläufig, und Poppers Wissenschaftstheorie stützt sich maßgeblich auf genau diese logische 14
Realistischer ist natürlich der Fall von IID-Zufallsvariablen Xi mit den Beobachtungen X1 = x1 , X2 = x2 , . . .. Die nachfolgende Argumentation wäre zwar technisch komplizierter, jedoch im Prinzip dieselbe, da man nach wie vor Beobachtungen mit Hypothesen vergleicht. Auf einige Aspekte gehen wir in Abschnitt 3.3 ein.
84
3 Klassische Statistik
Figur. Die Beobachtung von x, falls P (X = x) = 0, ist nichts anderes als die probabilistische Formulierung desselben logischen Arguments.15 Innerhalb der „kleinen Welt“, die die Hypothese H beschreibt, ist die Beobachtung von x unmöglich. Nur wenn man über das formale, von H beschriebene Modell hinausblickt, also zumindest implizit auch Alternativen als möglich ansieht, kann x beobachtet werden. Diese Unterscheidung mag zunächst sehr feinsinnig erscheinen, ist jedoch wesentlich für das folgende. Was ist, wenn P (X = x) = ε mit einem sehr kleinen Wert ε > 0, und x beobachtet wird? Spricht dies gegen die Hypothese? Innerhalb des Modells H sicherlich nicht. Das Modell H ist mit der Beobachtung von x prinzipiell vereinbar, das heißt, man hat ganz einfach eine selten auftretende Beobachtung gemacht. Jene mag bemerkenswert sein, und die Zeitungen sind alltäglich voll von solchen Meldungen, das ändert jedoch nichts an der Tatsache, dass die Beobachtung x unter H auftreten kann. “Improbable data are just that: improbable (Krueger 2001: 17). Möchte man wie Fisher (1973: 42) jedoch darauf hinaus, dass Either an exceptionally rare chance has occurred, or the theory [hypothesis] of random distribution is not true (Hervorhebungen im Original)
so blickt man in Wirklichkeit schon über das durch H beschriebene formale Modell hinaus. Man denkt nicht nur an H sondern auch daran, dass diese ¯ ihre Negation, oder sogar an Hypothese nicht gültig sein könnte, also an H, eine ganz konkrete Alternativhypothese H1 , auch wenn jene nicht formalisiert werden. Nur wenn man diesen etwas größeren Rahmen zugrundelegt, und der zweite Teil des letzten Zitats unterstreicht, dass dies wohl Fishers Gedanke war, so ist Fishers Formulierung stimmig.16 Nehmen wir z. B. der Einfachheit halber an, dass es nur zwei mögliche Werte, x und y gebe und ist P (X = x) = ε ist, so ist notwendigerweise P (X = y) = 1 − ε. Ist nun ε sehr klein, z. B. ε = 2−80 und beobachtet man x, so spricht dies ganz entschieden gegen die Hypothese, denn man sollte die Beobachtung x doch nur in einem von 280 Fällen sehen. Die Intuition ist hier also richtig. Man beachtete jedoch einen wichtigen, fundamentalen Unterschied: Ist P (X = x) = 0, so ist die Beobachtung von x prinzipiell nicht mit der Hypothese H vereinbar. Deshalb kann man logisch streng auf die Ungültigkeit von H schließen.17 Ist P (X = x) = ε > 0 und sei ε auch noch so klein, so ist x prinzipiell mit der Hypothese H vereinbar. Deshalb kann man nicht logisch streng auf die Ungültigkeit von H schließen. Obwohl der numerische Rx Bei stetigen Zufallsvariablen ist P (X = x) = x f (t)dt = 0 für alle x, wobei f die zu X gehörige Dichtefunktion (siehe S. 81) ist. Die Beobachtung von x lässt sich in diesem Fall nur dann als Gegenbeispiel zu H interpretieren, wenn f (x) = 0 ist. Man verwechsle nicht eine technische Feinheit mit einem substanziellen Argument! Man beachte jedoch auch die Bemerkung S. 96 und die Diskussion S. 117. 15
16
Ansonsten hat man, wie gesagt, einfach nur eine „seltene“ Beobachtung gemacht. Albert (1992: 3) nennt dies treffend den „deterministischen Teil einer Hypothese H“, also die Tatsache, dass eine nach H verteilte Zufallsvariable X einen erlaubten Wert annimmt. 17
3.2 Statistische Tests
85
Unterschied zwischen ε und 0 beliebig klein sein kann, ist doch der logische Unterschied so groß wie er nur irgend sein kann. Der fundamentale Unterschied zwischen Deduktion und Induktion reduziert sich in diesem Fall auf ε = 0 versus ε > 0! Einmal hat man einen logisch strengen Beweis; das andere Mal nur einen mehr oder minder plausiblen Hinweis auf die Gültigkeit von H. Praktiker werden ihn akzeptieren, solange ε nur klein genug, der benötigte „induktive Sprung“ 18 also nicht allzu groß ausfällt. Logiker müssen sich jedoch auch bei noch so kleinem ε > 0 verweigern.19 Die (kleine) Wahrscheinlichkeit von x kann allerdings nur in Ausnahmefällen als Evidenz gegen H interpretiert werden. Nimmt z. B. X die Werte 1, 2, . . . , n, jeweils mit Wahrscheinlichkeit 1/n an,20 und ist zugleich n groß,21 so ist die Wahrscheinlichkeit gerade die Zahl x = 1 (oder eine beliebige andere natürliche Zahl ≤ n) zu beobachten, verschwindend gering. Erhöht man n, so kann pn = 1/n beliebig klein gemacht werden. Es spricht in diesem Fall jedoch nicht gegen die Hypothese, dass für das beobachtete x die zugehörige Wahrscheinlichkeit P (X = x) sehr klein ist - ein bestimmtes x zu sehen ist genauso plausibel wie jede andere natürliche Zahl, die nicht größer als n ist.22 Gegen die Hypothese spricht jedoch, bei wiederholten Beobachtungen die Zahl x mehr als einmal zu sehen.
Der p-Wert Aus diesem Grund23 macht die Testtheorie von Fisher die Evidenz für bzw. gegen die Hypothese H in aller Regel nicht an der Einzelbeobachtung x und deren Wahrscheinlichkeit fest, sondern argumentiert wie folgt: Nehmen wir an, die Werte lassen sich sinnvoll anordnen. Das heiße im folgenden immer, kleine Werte von x seien extremer und damit „schwerer“ mit der Hypothese zu vereinbaren als große Werte.24 In diesem Fall ist die Wahrscheinlichkeit 18
Engl.: leap of faith
19
Man könnte von einem “law of insufficient reason” sprechen, hätte der Ausdruck in der Bayesschen Statistik nicht schon eine andere Bedeutung. 20
Es gilt also P (X = 1) = P (X = 2) = . . . = P (X = n) = 1/n = pn . Die Verteilung von X ist also die diskrete Gleichverteilung auf den ersten n natürlichen Zahlen. 21
Etwa n = 102 , 105 oder n = 1010
22
Spielman (1974) diskutiert diesen Punkt mit direktem Bezug zu Fisher ausführlich, siehe auch Nickerson (2000: 253), der sich auf Good (1983a) und Jeffreys (1961: 315) bezieht: “If mere probability of the observation, given the hypothesis, was the criterion, any hypothesis whatever would be rejected.” 23
Ein weiterer Grund sind stetige Zufallsvariablen. Für diese ist P (X = x) = 0, so dass man, falls man lediglich eine Hypothese H explizit betrachtet, nicht umhin kommt, einen Bereich, insbesondere natürlich P (X ≤ x), zu studieren, was im folgenden diskutiert werden wird. 24 Wir könnten auch den gegenteiligen Fall betrachten, dass große Werte „auffällig“ sind, oder aber den Fall, dass sich große und kleine Werte nur schwer mit der Hypothese vereinbaren lassen.
86
3 Klassische Statistik
p = F (x) = P (X ≤ x) ein sinnvolles Maß der Evidenz gegen die Hypothese. Anders gesagt: Man addiert alle Wahrscheinlichkeiten „extremer (möglicher) Werte“, beginnend mit der tatsächlichen Beobachtung x. Ein Beispiel: Die Wahrscheinlichkeit, dass ein Mädchen (i.Z. 1) geboren wird, sei gleich der Wahrscheinlichkeit für einen Jungen (0).25 Nehmen wir an, auf einer Geburtsstation werden pro Jahr n Kinder geboren. Dann sollte der Wert von S = X1 + . . . + Xn in etwa gleich n/2 sein, wenn Xi = xi gerade das Ergebnis der i-ten Geburt ist. Man erwartet, etwas anders gesagt, ca. 500 Mädchengeburten, wenn in einem Krankenhaus 1000 Geburten stattfinden. Deshalb wären wir verblüfft, wenn nun jedoch 800 Jungen und 200 Mädchen geboren worden wären und erst recht würden wir die Stirn runzeln, wenn auf 950 Jungengeburten nur 50 Mädchen kämen. Den Fall von insgesamt 0 Mädchen fänden wir erst recht äußerst bemerkenswert. Das heißt, mathematisch gesprochen, ein Maß gegen die Hypothese H ist die Summe der „extremen“ Wahrscheinlichkeiten, also p = P (S = 0) + P (S = 1) + . . . + P (S = s), wobei s gerade die Anzahl der tatsächlich beobachteten Mädchen ist.26 Genau das ist der berühmt(-berüchtigte) p-Wert, auch empirisches Signifikanzniveau genannt. Technisch gesehen ist er sehr einfach zu ermitteln. Ausgehend von einer Hypothese H berechnet man die Wahrscheinlichkeit des beobachteten Werts s und aller Werte, die noch „extremer“ sind als dieser. Auch seine Interpretation scheint naheliegend und geradezu trivial zu sein: Je kleiner der p-Wert, etwa p = 0, 000001, desto unplausibler ist es, dass tatsächlich H der Fall ist, ein großer Wert von p (etwa p = 0, 3) lässt sich andererseits nicht oder kaum als Evidenz gegen H verwenden. Die Literatur über p-Werte füllt viele Regalmeter und macht einen nicht unbeträchtlichen Teil der Kontroversen um die verschiedenen statistischen Testtheorien aus. Ein wesentlicher Grund ist, dass p-Werte eben doch notorisch schwer zu interpretieren sind. Zu klären sind zunächst einmal die Fragen: 1. Wie groß bzw. klein sollte p sein, um als „überzeugende Evidenz“ zu gelten? 2. Was heißt „extrem“? Sehr kleine, sehr große Werte oder beides? 3. Kann man die Werte wirklich immer von klein nach groß anordnen und damit in eindeutiger Weise von „extremer“ sprechen? Die Antworten der Fachliteratur sind: 25
Man geht also von der diskreten Gleichverteilung über {0, 1} aus, d. h. P (X = 0) = P (X = 1) = 1/2. 26
Der früheste statistische Test, über den in der Literatur berichtet wird, ist Arbuthnot (1710) und bezieht sich auf eine eng verwandte Situation. Arbuthnot wertete die Geburtenregister Londons aus und stellte dabei fest, dass in 82 aufeinanderfolgenden Jahren mehr Jungen als Mädchen geboren worden waren. Unter der Nullhypothese, dass Jungen- und Mädchengeburten gleich wahrscheinlich sind, ist die Wahrscheinlichkeit für dieses Ereignis gerade einmal 2−82 . Auch Arbuthnot entschied sich gegen die Nullhypothese, und sah in dem Ergebnis eine göttliche Fügung.
3.2 Statistische Tests
87
1. Ein p-Wert kleiner 5%, besser noch 1% oder sogar 0, 1% gilt als beachtenswert. 2. Es gibt sowohl „einseitige“ als auch „zweiseitige“ Tests. Bei letzteren sind sowohl kleine als auch große Werte auffällig, sprechen also gegen H. Bei ersteren ist immer nur eine Richtung der Abweichung kritisch. Ob man zweiseitig testen sollte oder sich auf einen einseitigen Test beschränken kann, hängt maßgeblich vom Vorwissen ab. 3. Selbstverständlich sind Situationen bekannt, in denen die Anordnung der Werte nicht eindeutig oder überhaupt nicht sinnvoll ist.27 Dies ist jedoch in der Praxis fast immer unerheblich. Je kleiner der p-Wert, desto größer die Evidenz gegen H, was schon Berkson (1942) betont hat. Liefern zwei Experimente denselben p-Wert, so sollte jener auch für dieselbe Evidenz stehen. Anders gesagt, p-Werte sollten unmittelbar miteinander vergleichbar sein. Ein solches „α-Postulat“ (Cornfield 1966: 19) ist jedoch, wie man zeigen kann, definitiv falsch. Insbesondere spielt auch n, also die Anzahl untersuchter statistischer Einheiten, eine wesentliche Rolle. Johnstone (1986: 496) schreibt dazu: “Thus, as Jeffreys explained in 1939, if the sample is very large, the level of significance P tends to exaggerate the evidence against the null hypothesis, i.e. P tends to be smaller than it ought to be. But in practice, if the sample is very large, a good orthodox statistician will ‘deflate’ intuitively the level of significance P accordingly.” McPherson (1989) schreibt dazu: “This is very likely true, but it is an inadequate base for presenting the p value approach to scientists.” In Efron und Gous (2001: 212) wird zumindest ein Schaubild angegeben, welches im Fall der Normalverteilung ein wachsendes n bei der Beurteilung der vorhandenen Evidenz berücksichtigt.28 Als Faustregel gilt, bei größerem n einen p-Wert nur dann für beachtlich zu halten, wenn er sehr klein ist, zumal es sich bei den Signifikanzgrenzen von 5%, 1% oder sogar 0, 1% um willkürliche Setzungen handelt. Fisher (1929: 191) selbst schreibt: “It is a common practice to judge a result significant, if it is of such a magnitude that it would have been produced by chance not more frequently than once in twenty trials. This is an arbitrary, but 27
Man erinnere sich an das Nominalskalenniveau. Es lassen sich auch Transformationen angeben, die eine Verteilung nicht verändern, zugleich jedoch extreme Werte auf mittlere, typischen Werte abbilden und umgekehrt. Siehe z. B. das von Albert (1992: 28) gebrachte Beispiel. 28
Royall (1986) zeigt sogar, dass man diametral entgegengesetzte Aussagen vertreten kann, also sowohl “A given P -value in a large trial is usually stronger evidence that the treatments really differ than the same P -value in a small trial of the same treatments would be” (Peto et al. 1976: 593), als auch “The rejection of the null hypothesis when the number of cases is small speaks for a more dramatic effect [. . .] if the p-value is the same, the probability of committing a Type I error remains the same. Thus one can be more confident with a small N than a large N ” (Bakan 1970: 241).
88
3 Klassische Statistik
convenient, level of significance for the practical investigator [. . .]29 Bis auf die Konvention, dass ein p-Wert größer als 5% nicht als Evidenz gegen die Hypothese interpretiert werden sollte, hat der Anwender also einen großen subjektiven Bewertungsspielraum. Das grundsätzliche Problem des Ansatzes ist, die empirische Erfahrung, also die tatsächliche Beobachtung x, mit nicht beobachteten Werten zu vermengen. Dies hat Jeffreys sofort erkannt und einen skurrilen Effekt dadurch erzeugt, dass er die Verteilung der Werte y < x geeignet abänderte. Ist zum Beispiel PH (X = x) = 0, 03 und PH (X < x) = 0, 01, so kann man bei der Beobachtung von x mit p = 0, 04 die Hypothese ablehnen. Aber ist das gerechtfertigt? Man betrachte dazu die etwas modifizierten Hypothese K mit PK (X < x) = 0, 4 und wie zuvor PK (X = x) = 0, 03. In diesem Fall wäre p = 0, 43, und wir hätten keinen Anlass, K abzulehnen. Man beachte, dass die Wahrscheinlichkeiten, gerade x zu beobachten, unter H und K gleich sind. Die Folgerungen sind jedoch allein aufgrund nicht beobachteter Werte völlig verschieden. Jeffreys (1939: 316) spießt das in einem bekannten Zitat wie folgt auf: An hypothesis that may be true is rejected because it has failed to predict observable results that have not occurred. This seems a remarkable procedure. On the face of it, the evidence might more reasonably be taken as evidence for the hypothesis, not against it.
Daraus sollte man schließen, dass “[. . .] a proper measure of strength of evidence should not depend on probabilities of unobserved values.” (Siehe Royall (1997: 69).) Dessen war sich auch Fisher (1973: 71), bewusst: Objection has sometimes been made that the method of calculating confidence limits by setting an assigned value such as 1% on the frequency of observing30 3 or less [. . .] is unrealistic treating values less than 3, which have not been observed, in exactly the same manner as 3, which is the one that has been observed. This feature is indeed not very defensible save as an approximation.
P -Werte werden oft falsch interpretiert, inbesondere als die Wahrscheinlichkeit P (H|x), dass H, gegeben die Daten x, zutrifft. Diese Interpretation ist jedoch nicht gültig, da man zu wenig vorausgesetzt hat, um eine solche Wahrscheinlichkeit zu berechnen. Fehlinterpretationen Vorschub leistet auch die Tatsache, dass der p-Wert sowohl als ein Maß für die Evidenz der Daten als auch als ein empirisches Signifikanzniveau - zur Entscheidung über die Hypothese H herangezogen wird.31 Entsprechend vielfältig sind die Formulierungen in Lehrbüchern. Royall (1997: Abschnitt 3.6) gibt eine kleine Auswahl; Nickerson (2000) macht sich die Mühe, viele in der Praxis beliebte Interpretationen genauer zu hinterfragen. 29
Wir ergänzen dieses Zitat S. 104. Siehe auch Upshur (2001: 567): “Why 5%?” und “Surely God loves the 0.06 nearly as much as the 0.05?” (Rosnow und Rosenthal 1989). 30 [in einem speziellen Experiment] 31
Dazu gleich mehr im nächsten Abschnitt.
3.2 Statistische Tests
89
Man hat auch kein Kriterium zur Verfügung, verschiedene Testverfahren zu vergleichen. Zuweilen gibt es aber mehr als ein „vernünftiges“ Verfahren und es bleibt die Frage, welches besser ist. Auch andere wichtige Fragen bleiben offen. Zum Beispiel, wie groß die Wahrscheinlichkeit ist, sich fälschlicherweise für H zu entscheiden bzw. wie groß die Chance ist, einen Effekt (der von H abweicht) zu entdecken.
3.2.2 Neyman und Pearson: Hypothesentests Vor allem aufgrund der formalen Mängel von Fishers Testtheorie schlugen Neyman und E. S. Pearson ab Ende der 1920er Jahre eine Alternative vor. Der wichtigste formale Unterschied ist, dass diese Autoren mit zwei Hypothesen, also zwei Wahrscheinlichkeitsverteilungen H0 und H1 , arbeiten. Man kennt also die Wahrscheinlichkeit PHi (X = x) unter beiden Hypothesen, dass x beobachtet wird, wenn Hi der Fall ist. Aufgrund der Beobachtung x will man zwischen den Hypothesen H0 und H1 wählen. Dies geschieht wie folgt: Man geht von H0 aus. Wie bei Fisher steht diese Null-Hypothese typischerweise für „kein inhaltlich bedeutsamer Effekt“ bzw. der „bloße Zufall regiert das Geschehen“. Dies möchte man verwerfen, jedoch nicht vorschnell. Deshalb legt man eine Wahrscheinlichkeit, das sogenannte Niveau α fest, und definiert als Ablehnungsbereich R = Rα all jene potenziellen Beobachtungen, die unter der Hypothese H0 , also falls H0 gültig ist, zu „extrem“ sind. Sind gerade kleine Beobachtungen auffällig, so definiert PH0 (X ≤ xα ) = α den Ablehnungsbereich der Nullhypothese. Da man bislang nur die Hypothese H0 berücksichtigt hat, gibt es mathematisch gesehen keinen Unterschied zu Fisher. Der entscheidende konzeptionelle Unterschied ist, dass α, das Fehlerniveau, a priori, also vor der Beobachtung festgelegt wird. Wie zuvor lautet die Konvention, α auf einen der Werte 5%, 1% oder 0, 1% zu setzen.32 Der danach konkret beobachtete Wert x spielt nur insofern einer Rolle, als dass er in die Region R fällt oder nicht.33 Hat man sich derart gegen eine vorschnelle Entscheidung zuungunsten von H0 abgesichert, berechnet man für einen konkreten Test, also mit einer Verteilung H1 , die Wahrscheinlichkeit eines Fehlers 2. Art. β ist entsprechend die Wahrscheinlichkeit, die inhaltlich interessante Hypothese H1 abzulehnen, obwohl sie tatsächlich gilt. Das geschieht genau dann, wenn x in den (mithilfe von H0 ) festgelegten Ablehnungsbereich fällt (obwohl H1 der Fall ist). Man hat also β = PH1 (X > xα ). Die Gegenwahrscheinlichkeit 1 − β quantifiziert 32
Was Neyman und Pearson ausdrücklich nicht vorschlugen - siehe (Lehmann 1993: 70) - sondern auf Fisher zurückgeht (siehe Johnstone (1987a: 489)). Interessanterweise lehnt Fisher (1973: 45) eine solche habitual practice mit dem S. 121 gebrachten Argument ab. 33
Ob also x ≤ xα ist (Ablehnung von H0 ) oder nicht. Bei Fisher wird hingegen aus dem konkreten numerischen Wert x der zugehörige p-Wert berechnet, weshalb man bei ihm auch vom empirischen Signifikanzniveau spricht.
90
3 Klassische Statistik
die Chance den Effekt H1 aufzuspüren (wenn die H1 tatsächlich gilt) und wird deshalb die Power des Tests genannt. Bei guten Tests ist 1 − β groß, z. B. 0, 8. Das heißt, man entdeckt oft einen tatsächlich existierenden Effekt. Genau dies ist auch der Weg zwischen Testverfahren zu unterscheiden: Dasjenige Testverfahren ist für eine bestimmte Stichprobengröße n optimal, welches bei festgelegtem α die Power maximiert, bei dem also PH1 (X ≤ xα ) maximal ist. Ein Test, der dies leistet, heißt optimal und das Lemma von Neyman und Pearson, das sich in jedem Lehrbuch der klassischen Statistik findet, gibt seine Gestalt an.34 Schließlich kann man auch anders herum vorgehen und aus den beiden Hypothesen sowie α und β die Stichprobengröße n berechnen, also die Anzahl an Beobachtungen, die nötig ist um bei festliegendem H0 , H1 sowie α den Effekt mit Wahrscheinlichkeit 1 − β zu erkennen. Mit den Worten von E. S. Pearson (1955: 207): The appropriate test is one which, while involving (through the choice of its significance level [α]) only a very small risk of discarding my working hypothesis [H0 ] prematurely will enable me to demonstrate with assurance [1 − β] (but without any unnecessary amount of experimentation)35 the reality of the influences which is suspect may be present [H1 ].
Zu dieser Sicht der Dinge sagen sie auch: “From the point of view of mathematical theory all that we can do is to show how the risk of the errors [α, β] may be controlled and minimized. The use of these statistical tools in any given case, in determining just how the balance [between the two kinds of errors] should be struck, must be left to the investigator.” Neyman und Pearson (1933: 79f) Eine wichtige Erweiterung des Verfahrens ist, H1 nicht präzise festzulegen, sondern eine ganze Menge von Alternativhypothesen zuzulassen. Während man zuvor von „Punkthypothesen“ spricht, da man ganz konkrete Hypothesen - Verteilungen - auszeichnet, ist im letzten Fall von unspezifischen Alternativen bzw. einer unspezifischen Alternativhypothese die Rede. Damit nähert man sich dem Verfahren von Fisher insofern an, als dass auch dieser keine spezifische Alternative formulierte. Dies erfolgte jedoch implizit. Hier ist der Vorteil, dass alle Alternativen explizit vorliegen, so dass man aus der Menge dieser Alternativen den “worst case” ermitteln kann und dafür quantitative Aussagen möglich sind. Die Erweiterung des Fisherschen Modells um eine explizite Alternativhypothese und die Festlegung des Signifikanzniveaus a priori entkräftet nicht alle weiter oben genannte Kritik. Nach wie vor ist das Ergebnis des Tests stark vom Stichprobenumfang abhängig. Insbesondere gilt: Null hypotheses of no difference are usually known to be false before the data are collected; when they are, their rejection or acceptance simply reflects the size of the 34
Wobei die Likelihood-Funktion, siehe S. 128, die entscheidende Rolle spielt.
35
[n so klein wie möglich, aber so groß wie nötig.]
3.2 Statistische Tests
91
sample and the power of the test, and is not a contribution to science. (Gelman et al. 2004: 193)
Etwas anders gesagt: Putting it crudely, if you have enough cases and your measures are not totally unreliable, the null hypothesis will always be falsified, regardless of the truth of the substantive theory. (Meehl (1978: 822), Hervorhebung im Original.)
Auch bei Neyman und Pearson lassen sich keine Wahrscheinlichkeiten berechnen, ob die Hypothesen stimmen. P (Hi ) kommt im Kalkül nicht vor und damit kann man auch nicht P (Hi |x) berechnen. Nur die Wahrscheinlichkeiten von Ereignissen, wenn eine der beiden Hypothesen der Fall ist, ist bekannt (nämlich P (x|Hi )). Insbesondere konstruiert man eine Entscheidungssituation, die bis ins Detail a priori festgelegt wird. Darauf kommen wir im in Abschnitt 3.4.1, zurück. Ein neues Gegenargument ist, dass der konkrete Wert der Beobachtung nicht relevant ist, man ignoriert also potenziell relevante Informationen. Man vergleiche die äußerst grobe Aussage „Die Beobachtung liegt im Ablehnungbereich“ mit „Der p-Wert ist gleich 0, 0004“ oder sogar der Angabe des beobachteten Wertes x. Während die Interpretation des p-Wertes, wie wir gesehen haben, eine subtile Angelegenheit ist, fällt die Bewertung hier nach der Beobachtung völlig „mechanisch“: Verwerfung von H0 , falls x ∈ R, ansonsten Beibehaltung von H0 . Dies ist nicht nur von Vorteil. Denn das Verfahren kann höchst sensitiv auf eine winzige Änderung in den Daten reagiert: “[. . .] an epsilon variation in the data can swing the decision one way or the other” (Rissanen 2007: 103). Wie bei Fisher ist zudem die Situation asymmetrisch, die beiden Hypothesen werden ungleich behandelt. Eine andere Kritik zielt auf die praktische Relevanz der Vorgehensweise. Zur Kontrolle einer industriellen Produktionsanlage, wenn häufig die H0 (gelegentliche, unsystematische Schwankungen in der Produktion) und manchmal die H1 (systematischer Fehler in der Produktion) gilt, ist das Modell geeignet. In diesem Fall ist implizit davon auszugehen, dass zuweilen die H0 und zuweilen die H1 zutrifft, also sollte man sowohl den Fehler 1. als auch den Fehler 2. Art kontrollieren. Wird eine Hypothese häufig getestet, deren Wahrheitswert variiert, so ist dies ein sinnvolles Vorgehen. Nicht jedoch zur Beurteilung einer (festen) wissenschaftlichen Hypothese, die entweder zutrifft oder nicht. Zwar ist es auch hier sinnvoll, sich gegen einen Fehler 1. Art abzusichern, also nicht vorschnell für die H1 zu votieren. Doch was ist, wenn die H1 zutrifft, es also einen interessanten Effekt gibt? Bei einer Power von z. B. 0, 7 werden ca. 30% der Testergebnisse gegen die H1 sprechen. Man hat aufgrund dieser Resultate also allen Grund, an der H1 zu zweifeln, da: “[. . .] a theory that has seven facts for it and three facts against it is not in good shape, and it would not be considered so in the developed science.” (Meehl (1978: 823), Hervorhebung im Original.) Vertritt man einen falsifikationistischen Rigorismus, so sollte die H1 schon bei einer einzigen Widerlegung verworfen werden! Bei einem Test mit Power
92
3 Klassische Statistik
0, 7 ist jedoch genau das obige, ambivalente Ergebnis - für H1 - zu erwarten. Die Argumentation mit α und β erscheint so wie die Formalisierung eines ungenauen Messinstruments, das es uns erheblich erschwert, die Wahrheit von H1 zu erkennen. Tatsächlich ist die Situation in den Sozialwissenschaften sogar noch problematischer, da dort zumeist überhaupt keine expliziten Power-Überlegungen angestellt werden (Sedlmeier und Gigerenzer 1989) und die Ergebnisse oft widersprüchlich sind.
3.2.3 Tests in der Praxis Über die gerade im Abriss vorgestellten Testtheorien sind in den letzten Jahrzehnten Bibliotheken geschrieben worden. Zwar hat sich offiziell die NeymanPearsonsche Theorie durchgesetzt, doch tatsächlich wird in der Praxis eine wenig attraktive Mischung Fisherscher- und Neyman-Pearsonscher Überlegungen benutzt. Spielman (1974: 211) schriebt sehr schön: This hybrid is essentially Fisherian in its logic, but it plays lip service to the NeymanPearson theory of testing [. . .] Some researchers do use the Neyman-Pearson theory of testing in a pure form, but they constitute a small minority [. . .] Regardless of their terminology and verbal allegiance, most researchers in the fields mentioned above use and/or accept as valid a pattern of inductive reasoning that is characteristic for the Fisherian test of significance.
Die Einzelheiten: 1. Verbale Erwähnung von H0 und H1 als Referenz an Neyman und Pearson 2. Angabe des exakten p-Werts als Referenz an Fisher 3. Kennzeichnung des erreichten Signifikanzniveaus durch Sternchen. Zumeist ein Stern, falls p < 0, 05, zwei Sterne, falls p < 0, 01 und drei Sterne, falls p < 0, 001. Was auf den ersten Blick wie eine überzeugende Mischung beider Ansätze aussehen mag, ist in Wirklichkeit Eklektizismus: Das Signifikanzniveau muss nach Neyman und Pearson a priori festgelegt werden. Zeichnet man den erzielten p-Wert jedoch erst im Nachhinein mit der größtmöglichen Anzahl von Sternchen aus, so tut man genau dies nicht; d.h., man hat gewiss auch nicht den Fehler 1. Art kontrolliert. Scheinbar werden zwar a priori aufgestellt Hypothesen getestet, man geht also wie Neyman und Pearson deduktiv vor. Tatsächlich steht jedoch der empirische p-Wert im Zentrum der Interpretation (s.o.) Die ohnehin schon problematische Interpretation von p-Werten wird durch diese Mischung von Hypothesentestund Signifikanztest-Argumentation vollends obskur.36 Es wäre wünschenswert, wenn sowohl die Null- als auch die Alternativhypothese je einer mathematisch adäquat operationalisierten substanziellen 36
Eine hervorragende Klärung gibt Goodman (1993).
3.2 Statistische Tests
93
Hypothese entspräche. Tests werden jedoch meist so angewandt, dass die Alternative nicht mathematisch präzisiert wird, also simultan eine ganze Familie von Verteilungen H1 betrachtet werden. Damit arbeitet man jedoch de facto (fast) nur mit einer konkreten Nullhypothese. Doch noch nicht einmal die Nullhypothese entspricht einer inhaltlich interessanten Hypothese. Zumeist ist sie lediglich eine nil-hypothesis, die man verwerfen „möchte“, da sie nur angibt, was zu erwarten ist, wenn der Zufall das Geschehen bestimmt.37 Es werden also nicht konkrete Belege für eine spezifische Hypothese H1 gesammelt, vielmehr wird lediglich der „Strohmann“ H0 verworfen. Die Ablehnung der H0 ist jedoch genauso Beleg für jede andere Hypothese H1 .38 Aufgrund der asymmetrischen Behandlung von Hypothese und Alternative(n) lässt sich zudem ein nicht signifikantes Ergebnis schwer interpretieren. Manche Autoren lehnen dies sogar vollkommen ab: „Im Ansatz von Fisher kann die H0 nur verworfen, nicht aber angenommen werden (Sedlmeier 1996: 43).39 Insgesamt hat man das Gefühl, es mit einem Testritual40 zu tun zu haben, dessen Ergebnis null science (Bower 1997), ist. Schon Tukey (1967: 585) erkannte dies: “Formal testing cannot rescue us from an absence of ideas.” Obwohl also jeden Tag unzählige Hypothesen verworfen werden - was nach Popper ein ziemlich sicheres Zeichen für den schnellen Fortschritt der Wissenschaft sein sollte - bleibt der kumulative Fortschritt aus. Der Versuch, die Vorzüge mehrerer Verfahren in einem Hybridmodell zu vereinen, ist also nicht von Erfolg gekrönt gewesen. Vielmehr haben die Schwierigkeiten durch die Vermischung teilweise inkompatibler Ideen noch zugenommen, und ebenfalls wie bei der Messtheorie zieht sich die Diskussion über die „richtige“ Anwendung der Testtheorien schon Jahrzehnte hin. Im großen und ganzen stehen Naturwissenschaftler der „offiziellen Statistik“ recht reserviert gegenüber, wobei Jaynes (2003) nur ein Beispiel von vielen ist. In den Sozialwissenschaften inklusive der Medizin wurden jedoch im Fahrwasser des Erfolgs quantitativer Methoden auch Hypothesentests und einige andere statistische Verfahren zum de facto Standard. Es sollte jedoch nicht verwundern, dass die Einsichten, welche man mithilfe der gerade beschriebenen „kochbuchartigen Schulstatistik“ gewonnen hat, eher dürftig sind. Analog der Messtheorie verwendet man zwar fleißig ihre Begriffe und berechnet darüber hinaus emsig p-Werte und andere Statistiken, betrachtet dieses jedoch nicht ganz zu unrecht als lästige Pflichtübung. Statistik nach strengen Regeln be37
Mehr dazu S. 101.
38
Das erinnert nicht zu Unrecht an das Raben-Paradoxon (siehe Abschnitt 4.7.2), bei dem man sich unter anderem fragt, inwiefern die Beobachtung eines weißen Taschentuchs die Behauptung stützt, dass alle Raben schwarz sind. 39 Dazu mehr in Abschnitt 3.4.1. 40
Siehe insbesondere auch Gigerenzer (2004), Gigerenzer et al. (2004), doch schon Hotelling et al. (1948: 103) schreiben: “Unfortunately, too many people like to do their statistical work as they say their prayers - merely substitute in a formula found in a highly respected book written a long time ago.”
94
3 Klassische Statistik
trieben hört sich wissenschaftlich an, beeindruckt mit exakten Zahlen, schwer verständlichen Argumenten und macht Arbeiten vor allem publikationsfähig. Primär aus diesen Gründen wird sie wohl von vielen Wissenschaftlern benutzt, nicht weil man ihren intrinsischen Erkenntnis-Wert schätzte. Insbesondere tut man wie bei der messtheoretischen „Bedeutsamkeit“ gut daran, trotz allen Aufwands nach wie vor präzise zwischen numerischer und fachwissenschaftlicher Signifikanz zu trennen. Es ist oberflächlich und schlecht, statistisch signifikante Resultate (p < 0, 05) ohne weiteres Nachdenken auch als substanziell bedeutsam zu sehen und umgekehrt. Eine numerisch bedeutsam erscheinende Signifikanz kann inhaltlich gesehen völlig unwichtig sein, während auch ein „noch“ nicht signifikantes Ergebnis ein wichtiger Hinweis sein kann. Viele wichtige Effekte waren zunächst experimentell kaum zu kontrollieren und entsprechend schwer mit statistischen Verfahren zu erkennen.41 Es gab schon viele Vorstöße, an diesem wenig vorteilhaften Status quo etwas zu ändern. Gigerenzer (2004) argumentiert genauso wie die “task force” (siehe Wilkinson (1999)) gegen mindless statistics, also den wenig inspirierten Einsatz statistischer Methoden und für statistical thinking (Mallows 2006: 324). Mit Bezug auf den Fehler 2. Art hat Cohen (1988) schon früh die Bedeutung der Größe von Effekten betont und ein klassisches Buch darüber geschrieben, wie man kleine, mittlere und große Effekte statistisch dingfest macht. Tversky und Kahneman (1971: 110) schreiben: [. . .] the emphasis on significance levels tends to obscure a fundamental distinction between the size of an effect and its statistical significance. Regardless of sample size, the size of an effect in one study is a reasonable estimate of the size of an effect in replication.
Zumindest in Epidemiologie und medizinischer Statistik setzt sich langsam durch, mit der absoluten und relativen Risikoreduktion (ARR bzw. RRR) sowie der Anzahl der benötigten Patienten42 die Größe von Effekten zu quantifizieren. Dies ist ein besonders wichtiges Beispiel für die allgemein zu hörende Empfehlung, doch Methoden zu verwenden, die mehr Informationen liefern, als die 0-1-Entscheidung eines Hypothesentests, wobei insbesondere auch Konfidenzintervalle hier häufig genannt werden (Fidler 2004). Für eine ganze Reihe weiterer, konkreter konstruktiver Vorschläge siehe insbesondere Harlow et al. (1997: 3-13). Trotz lang anhaltender, überzeugender, ja teils sogar massiver Kritik hat sich bislang jedoch noch immer die normative Kraft des Faktischen durchgesetzt. Mehr noch: Die Bedeutung von Signifikanztests hat über die Jahrzehnte sogar deutlich zugenommen, und dies nicht nur in der Psychologie.43 41
Siehe z. B. Kirk (1996), Mallows (1998) und Wilkinson (1999). Engl. number needed to treat (NNT). Vergleicht man z. B. eine neue mit einer Standardtherapie, so bedeutet N N T = 10, dass man je 10 Patienten einen günstigen Verlauf mehr erwarten darf. Die positive Wirkung der neuen Therapie ist groß, weil typischerweise schon 10 Behandelte genügen, um deren günstigen Effekt zu erkennen (Bender 2005). 42
43
Siehe Hubbard und Ryan (2000), aber auch schon Morrison und Henkel (1970).
3.2 Statistische Tests
95
Neben den schon genannten Artikeln verweisen wir hierzu auf die umfangreiche einschlägige Literatur, insbesondere Hubbard und Lindsay (2008), Hubbard und Bayarri (2003), Nickerson (2000),, Krueger (2001), Marden (2000), Chow (1998), Cohen (1994), Meehl (1990), die Bücher Morrison und Henkel (1970), Oakes (1986), Harlow et al. (1997) samt der Besprechung Krantz (1999) sowie die Beiträge von S. N. Goodman (1992, 1993, 1999a,b) mit epidemiologischem Schwerpunkt. Eine Sammlung aussagekräftiger Zitate „zum Thema“ hat Nester (1996) zusammengestellt.
3.2.4 Likelihood-Ratio-Tests Es ist verblüffend, dass so einfache Situationen, nämlich eine Beobachtung und eine bzw. zwei Hypothesen, zu den geschilderten Kontroversen führen konnten. Fangen wir deshalb nochmals von vorne an. Eine naheliegende Forderung an jede stochastische Testtheorie ist, dass sie den deterministischen Falls sinnvoll erweitert. Insbesondere sollte sie eine falsche Hypothese auch anhand einer mit ihr nicht vereinbaren Beobachtung sicher erkennen.44 Sowohl bei Fisher als auch bei Neyman und Pearson trifft das jedoch nur in extremen Ausnahmefällen zu. Im Fall einer diskreten Zufallsvariablen X impliziert PH (X = x) = 0 bei Fisher nur dann p = PH (X ≤ x) = 0, wenn auch für alle y < x die Gleichung PH (X = y) = 0 gilt. Da die Wahrscheinlichkeiten P (X ≤ x) für potenzielle Beobachtungen x nur bei der Definition des Ablehnungsbereichs Rα eine Rolle spielen, folgt bei Neyman und Pearson sogar, dass man aufgrund einer tatsächlichen Beobachtung x nie innerhalb des Modells logisch streng zwischen den beiden Hypothesen unterscheiden kann! Selbst wenn PH0 (X ≤ x) = 0 ist, was bei Fisher zur deduktiven Ablehnung der Nullhypothese reicht, führt das bei Neyman und Pearson nur zu der Bemerkung, dass x ∈ Rα liegt45 und die Nullhypothese deshalb abgelehnt werden sollte. (Und dies auch nur in dem Sinne, dass man sich so verhalten solle, als träfe die Nullhypothese nicht zu, wie wir später sehen werden.) Beidesmal sind Bereiche wesentlich, so dass die konkrete Beobachtung aus dem Blickfeld gerät. Natürlich könnte man die Modelle um den (trivialen) Hinweis „Vorsicht, zunächst die Wahrscheinlichkeit des Einzelwerts beachten!“ ergänzen, doch wird dies nicht getan. Stattdessen liest man die Verteidigung If x is a continuous variable [. . .] then any value of x is a singularity of relative probability equal to zero.46 We are inclined to think that as far as a particular 44
Was Albert (1992), wie erwähnt, den deterministischen Teil der Hypothese genannt hat. Falls wir wie immer von einem einseitigen Test ausgehen, bei dem kleine Werte auffällig sind. 46 Siehe dazu die Fußnote S. 84, die ausdrücklich davor warnt, eine technische Feinheit mit einem substanziellen Argument zu verwechseln. 45
96
3 Klassische Statistik hypothesis is concerned, no test based upon a theory of probability47 can by itself provide any valuable evidence of the truth or falsehood of that hypothesis. (Neyman und Pearson 1933: 74)48
Zuvor hatten wir Fishers Testtheorie als eine probabilistische Version des modus tollens aufgefasst. Bereiche kamen ins Spiel, weil bei einer einzigen Hypothese die Wahrscheinlichkeit des Einzelwerts zumeist kein fundiertes Urteil über die Hypothese zulässt. Es spricht jedoch nichts dagegen, bei zwei Hypothesen H0 und H1 den Quotienten q = PH0 (X = x)/PH1 (X = x), zu betrachten.49 Hier spielt nur die tatsächliche Beobachtung x eine Rolle und man vermeidet die zuvor genannten Probleme. Kann man aufgrund einer Beobachtung x eine der beiden Hypothesen sicher ausschließen, so entspricht das einem Widerspruchsbeweis bzw. einer eliminativen Induktion. Das ist offensichtlich für alle x mit PH0 (X = x) = 0 und PH1 (X = x) > 0, also q = 0, möglich, wenn man sich sicher für H1 entscheiden kann. Völlig analog kann man sich bei einer Beobachtung x∗ mit PH0 (X = x∗ ) > 0 und PH1 (X = x∗ ) = 0, also q = ∞, sicher für H0 entscheiden.50 Damit hat man die Tatsache, dass, wenn nur zwei Erklärungen in Frage kommen und die erste davon ausgeschlossen werden kann, die zweite richtig sein muss, in probabilistischer Sprache formuliert.51 In allen übrigen Fällen ist der Quotient ein relatives Maß für (q > 1) bzw. gegen (q < 1) die Nullhypothese. Wenn dieser Quotient (deutlich) größer als 1 ist, liegt eine Entscheidung für H0 nahe, ist er nicht weit von 0 entfernt, so drängt sich die H1 auf. Tests der obigen Gestalt heißen Likelihood-Tests und gehen ebenfalls auf Fisher zurück. Der Name ist nicht zufällig. Wir verweisen dazu auf die später (S. 128) zu besprechende Likelihood-Funktion und das dort gegebene allgemeinere Beispiel. Hier hat man lediglich zwei Verteilungen zur Auswahl, etwa 47
Einschränkende Fußnote im Original: “Cases will of course, arise where the verdict of a test is based on certainty [. . .]” 48 49 50
Siehe die Diskussion S. 117. Im Fall stetiger Zufallsvariablen verwendet man den Quotient der Dichtefunktionen.
Der Fall dass beide besagten Wahrscheinlichkeiten gleich Null sind deutet darauf hin, dass entweder die Beobachtung fehlerhaft war oder aber das Modell inadäquat ist. 51 Der Schluss ist - innerhalb des Modells - deduktiv. Man spricht trotzdem von eliminativer Induktion, weil man wie bei Fishers Testtheorie (implizit) über das Modell hinausdenkt. Bei einer wissenschaftlichen Fragestellung überträgt man die Schlussfolgerung des Modells auf die Realität, und genau dort stellt sich die Frage nach der Adäquatheit des Modells, zuweilen auch „Fehler dritter Art“ (siehe S. 273) genannt. Ganz konkret könnte man im Modell die richtige Hypothese nicht berücksichtigt haben, so dass man nicht zwischen der zutreffenden und einer unzutreffenden Hypothese unterscheidet, sondern zwischen zwei fehlerhaften. Wir vertiefen diesen Gedanken in Abschnitt 4.8.
3.2 Statistische Tests
97
x Hypothese 0 1 2 3 4 5 Summe H0 0,047 0,476 0,476 0 0 0 1 H1 0,001 0,044 0,265 0,442 0,221 0,026 1 In jeder Zeile steht eine Wahrscheinlichkeitsverteilung. Die LikelihoodBetrachtung wechselt nun einfach die Perspektive. Bei festgehaltener Beobachtung x wird spaltenweise betrachtet, welche Werte Lx (i) = PHi (x) angenommen werden. Beim Vergleich, also Test, (genau) zweier Alternativen reicht es aus, deren Quotienten zu bestimmen. Ist x = 2, so spricht der Quotient 0, 476/0, 265 = 1, 8 eher für H0 . Bei x = 3 kann man hingegen H0 ausschließen. Es sei noch erwähnt, dass Likelihood-Quotienten den Vorteil besitzen, invariant unter beliebigen Transformationen zu sein. Das heißt, berechnet man mit dem Parameter θ den Likelihood-Quotienten qx = PH0 ,θ (X = x|H0 )/PH1 ,θ (X = x|H1 ), so ändert sich dieser Quotient nicht, wenn man von dieser Parametrisierung des Problems zu der Parametrisierung φ = g(θ) mit einer beliebigen Funktion g übergeht. Man hat also auch in jenem Fall PH0 ,φ (X = x|H0 )/PH1 ,φ (X = x|H1 ) = qx . Für mehr Details siehe Pawitan (2001: Abschnitt 2.8). Wie bei Fishers ursprünglicher Testtheorie hat man ein quantitatives Maß an der Hand, nicht nur eine Entweder-Oder-Entscheidung. Wie bei Neyman und Pearson vergleicht man (basierend auf dem Likelihood-Quotienten), zwei Hypothesen. Doch anders als bei Neyman und Pearson ist die Situation nicht asymmetrisch, die Hypothesen stehen also gleichberechtigt nebeneinander. Darüber hinaus ist sowohl eine evidenz- als auch eine entscheidungsorientierte Vorgehensweise möglich. Royall (1997: 89) vergleicht die beiden (Hervorhebungen im Original): Evidential formulation: The experiment is a procedure for generating evidence about H1 vis-à-vis H2 . It can produce an unsatisfactory result, which can take either of two forms: strong evidence supporting the false hypothesis over the true one (misleading evidence), or weak evidence.52 We want to be pretty sure (respective probabilities at least (1 − M, 1 − W )) that the experiment will not produce an unsatisfactory result of either type. Neyman-Pearson formulation: The experiment is a procedure for choosing between H1 and H2 . It can result in an error, which can take either of two forms: choosing H2 when H1 is true (Type I), or choosing H1 when H2 is true (Type II). We want to be pretty sure (respective probabilities at least (1 − α, 1 − β)) that we will not commit an error of either type.
Wie zuvor lässt sich auch die H0 wieder gegen eine Menge von Alternativen testen. Auch dann ist man vor allem wieder am “worst case” interessiert. Das bedeutet, diejenige Hypothese H1 zu ermitteln, für welche der Quotient 52
Letzteres spielt bei Neyman und Pearson keine Rolle, da der numerische Wert von x keine Berücksichtigung findet; eine Entweder-Oder-Entscheidung kennt naturgemäß keine Grade der Sicherheit oder Evidenz.
98
3 Klassische Statistik
kleinstmöglich wird, womit man die geringstmögliche Evidenz zugunsten von H0 bei gegebenen Daten x ermittelt hat.53 Eine Reihe von Beispielen geben Goodman (1999b) sowie Berger und Sellke (1987). Nach wie vor lassen sich jedoch keine Wahrscheinlichkeiten berechnen, ob die Hypothesen stimmen. Diesen letzten Schritt geht das umfangreichste aller Modelle, der Bayessche Ansatz.
3.2.5 Bayessche Testtheorie Die Wahrscheinlichkeit, dass die Hypothese Hi (i = 0, 1), gegeben die Beobachtung x, zutrifft, ist gerade gleich der Posteriori-Wahrscheinlichkeit P (Hi |x). Nach dem Theorem von Bayes, das diesem Ansatz seinen Namen gegeben hat, erhält man sie gemäß P (Hi |x) =
P (x|Hi )P (Hi ) P (x|Hi )P (Hi ) = P (x) P (x|H0 )P (H0 ) + P (x|H1 )P (H1 )
Die Posteriori-Wahrscheinlichkeiten lassen sich dann, wie im letzten Abschnitt gezeigt, auswerten, nur dass der Quotient hier Bayes factor genannt wird.54 Um das Theorem anwenden zu können, benötigt man die Priori-Wahrscheinlichkeiten P (H0 ) und P (H1 ) vor der Beobachtung von x, wobei sich auch wieder leicht eine Asymmetrie berücksichtigen lässt (P (H0 ) = P (H1 )). Um die Priori-Wahrscheinlichkeiten zu ermitteln, gibt es mehrere Möglichkeiten: 1. Subjektive Methode: Der Anwender legt die Priori-Wahrscheinlichkeiten fest, welche er für die in der Situation am besten passenden hält. 2. Intersubjektive Methode: Unter Forschern wird eine prior elicitation durchgeführt. Darunter versteht man, dass sich eine Reihe von Wissenschaftlern auf die Werte der Priori-Wahrscheinlichkeiten einigen. 3. Simulation: Man ermittelt vor der Durchführung des Experiments, wie sehr sich gegebene Priori-Wahrscheinlichkeiten durch die Daten maximal ändern können, oder aber man berechnet nach dem Vorliegen der Daten, welche Prior-Wahrscheinlichkeit zum Quotienten q = 1 führt. (Das heißt, an welchem Punkt die Evidenz zugunsten der jeweils anderen Hypothese „umschlägt“.) 4. Intersubjektiv verbindliche Methoden (“objective Bayes”). Dabei sucht man diejenigen Wahrscheinlichkeiten, die am besten die „Unwissenheit a priori“ widerspiegelt. Im Beispiel wäre das P (H0 ) = P (H1 ) = 1/2. Die 53
Dieser Quotient heißt minimaler Bayes-Faktor, obwohl es sich (noch) nicht um einen Bayesschen Ansatz handelt. Mit seiner Hilfe lassen sich also die Likelihoodquotienten nach unten abschätzen. 54
Für Details siehe insbesondere Kass und Raftery (1995).
3.2 Statistische Tests
99
Gleichverteilung geht auf Laplace (1812) und sein “indifference principle” bzw. “law of insufficient reason” zurück.55 Diese wurde im 20. Jahrhundert von Jeffreys (1939), Jaynes (2003) und anderen erheblich weiterentwickelt, wobei Invarianzüberlegungen eine tragende Rolle spielen (siehe z. B. Berger (1985)). 5. Werden die Priori-Wahrscheinlichkeiten aus anderen empirischen Daten ermittelt, so spricht man vom „Empirical-Bayes-Ansatz“. 6. Zuweilen ist es möglich, aus einer wissenschaftlichen Theorie die gesuchten Priori-Wahrscheinlichkeiten herzuleiten. Nur die beiden zuletzt genannten Möglichkeiten erfreuen sich allgemeiner Zustimmung. Das am häufigsten vorgebrachte Argument gegen die anderen Vorgehensweisen ist deren mangelnde „Objektivität“. Wir diskutieren die Bayessche Statistik ausführlich später.56
3.2.6 Vergleich der Verfahren anhand ihrer Voraussetzungen Neben den bereits genannten Diskrepanzen unterscheiden sich die vorgestellten Ansätze ganz wesentlich in der Stärke der verwendeten Voraussetzungen. Fisher geht es um den einfachsten möglichen Fall. Eine explizite Hypothese und eine Beobachtung. Mangels anderer Vergleichsmöglichkeiten lässt sich diese nur über den Bereich P (X ≤ x), also den p-Wert auswerten. Neyman und Pearson halten bei zwei und mehr Hypothesen an einem Bereich fest und kommen so zu ihrer Konstruktion. Fisher hingegen schlägt bei mehreren Hypothesen den Weg über den Likelihood-Quotienten bzw. die LikelihoodFunktion ein. Dieser Ansatz lässt sich mit Priori-Wahrscheinlichkeiten abermals anreichern, so dass die Bayessche Theorie einen natürlichen Abschluss darstellt. Die von Fishers einfachstem Modell ausgehenden Erweiterungen lassen sich also nicht zuletzt als Versuche verstehen, unausweichliche Lücken und Mängel eines konzeptionell äußerst einfachen Ansatzes zu beheben. Dazu benötigt man stärkere, also zugleich auch einschneidendere Voraussetzungen, was insbesondere beim Bayesschen Vorgehen, die allgemeine „objektive“ Anwendbarkeit der Verfahren einschränkt. Ganz ähnlich liegen die Verhältnisse übrigens beim statistischen Schätzen. Lehmann und Casella (1997: 1) beschreiben zunächst die drei wichtigsten Ansätze (Hervorhebungen im Original): “Data analysis. Here, the data are analyzed on their own terms, essentially without extraneous assumptions [. . .] Classical inference and decision theory. The observations are now postulated to be values taken on by random variables which are assumed to follow a joint probability distribution, P , belonging to some known class P [. . .] Bayesian 55 56
Siehe S. 257 Siehe die Abschnitte 4.4.2 und 5.3.1.
100
3 Klassische Statistik
analysis. In this approach, it is assumed in addition that θ is itself a random variable (though unobservable) with a known distribution.” Und ihre Schlussfolgerung entspricht der unseren: These three methods of approach permit increasingly strong conclusions, but they do so at the price of assumptions which are correspondingly more detailed and possibly less reliable.57
Schon dies verbietet eine allgemein gültige Bewertung. Simple, robuste Verfahren können von Vorteil sein. Royall (1997: 63) nennt eine Reihe von Argumenten und Fürsprechern, und Pawitan (2001: 13) gibt ein konkretes Beispiel: “A new eye drug was tested against an old one on 10 subjects. The drugs were randomly assigned to both eyes of each person. In all cases the new drug performed better than the old drug. The P-value from the observed data is 2−10 = 0.001, showing that what we observe is not likely due to chance alone, or that it is very likely the new drug is better than the old one.” Er bewertet dies wie folgt: “Such simplicity is difficult to beat. Given that a physical randomization was actually used, very little extra assumption is needed to produce a valid conclusion.” Will man jedoch differenzierter arbeiten, so ist das mit einem simplen Signifikanztest nicht möglich. Ein typischer Einwand ist bereits, dass man eine Hypothese nur ablehnen sollte, wenn man gleichzeitig eine bessere andere Hypothese zur Hand hat:58 [. . .] the only valid reason for rejecting a statistical hypothesis is that some alternative hypothesis explains the observed events with a greater degree of probability. (E. S. Pearson 1938: 242)59
So gesehen ist der Test einer einzelnen Hypothese weniger aussagekräftig als der verschiedenartiger Hypothesen. Ganz allgemein ist es sicherlich bedenkenswert, das Fishersche Grundmodell anzureichern, um z. B. wie Neyman und Pearson den Fehler 2. Art zu kontrollieren oder mittels „PowerÜberlegungen“ ein optimales Verfahren auszuwählen. Bayesianer setzen noch mehr voraus und können deshalb Aussagen über die Wahrscheinlichkeit ableiten, dass eine gewisse Hypothese H zutrifft, wenn gewisse Daten x vorliegen, also P (H|x) berechnen. Es ist zwar einerseits nahe liegend, den einfacheren Ansatz von der Warte des komplexeren aus zu kritisieren,60 andererseits ist das jedoch nicht ganz fair. Gerade in der Anwendung darf man erwarten, dass ein Ansatz, der mit wenigen Annahmen auskommt, häufiger zu sinnvollen Resultaten führt, da 57
Für systematische Ausarbeitung dieser Idee siehe S. 338 und Manski (2008).
58
Also „konstruktive“ statt „einfache“ Kritik Siehe hierzu auch das auf das Jahr 1926 datierte Schreiben von Gosset an E. S. Pearson: “[. . .] if there is any alternative hypothesis [. . .] you will be much more inclined to consider that the original hypothesis is not true [. . .]”, zitiert in Royall (1997: 68) und die Diskussion in Hodges (1990: 76ff). 59
60
Siehe z. B. Spielman (1974: 218ff) und Spielman (1973)
3.3 Testreplikation
101
die Annahmen seltener verletzt werden. Dies ist einer der praktischen Vorzüge robuster Methoden sowie klassischer gegenüber Bayesianischer Verfahren. Man kann auch lange darüber diskutieren, ob es besser ist, einen kleinen p-Wert als Maß für die Größe eines vorhandenen Effekts zu wählen61 oder aber im elaborierteren Neyman-Pearson-Modell die Differenz der Mittelwerte beider Hypothesen, also d = μ(H1 ) − μ(H0 ). Während man im letzteren Fall sofort erkennt, wann ein Effekt signifikant wird (d groß und die Streuung beider Hypothesen möglichst klein), ist andererseits nicht so leicht zu sagen, wie klein ein p-Wert sein sollte, um von einem echten Effekt ausgehen zu können.
3.3 Testreplikation [. . .] the strength of the evidence is not to be measured by the frequency observed in ‘repeated sampling from the same population’ [. . .] Fisher (1973: 95)62
Um die Vorzüge und Nachteile der erörterten Testtheorien zu beurteilen, ist es wie bei allen statistischen Verfahren sinnvoll zu fragen, was geschieht, wenn die Anzahl der Beobachtungen wächst oder aber, wenn man ein und denselben Test mehrfach anwendet. Bemerkt man hierbei, dass das zu erwartende Ergebnis ungenau oder sogar unsinnig ist, so ist das ein klares Indiz gegen das jeweilige Verfahren. Nil-Hypothesis63 Meehl (1967) stellt die „starke“ Verwendung von Signifikanztests in den Naturwissenschaften ihrer „schwachen“ Verwendung in den Sozialwissenschaften gegenüber.64 Damit meint er, dass es naturwissenschaftliche Theorien ermöglichen, inhaltlich bedeutsame Nullhypothesen zu formulieren. Mit steigendem Stichprobenumfang wird ein solcher Test immer präziser, so dass es für die Hypothese schwierig ist, ihn zu bestehen.65 Kurz gesagt: Mehr Informationen 61
Je kleiner der p-Wert, desto mehr liegt die Beobachtung ja im Randbereich der Nullhypothese. Entsprechend unplausibel ist es, dass die H0 zutrifft. 62 Etwas ausführlicher schreibt er in einem Brief an Behrens (siehe Bennett (1990: 56)): “[. . .] the key thought [of tests of significance put forward by Neyman and Pearson] is the frequency with which a statement would be found to be correct in ‘repeated samples from the same population’, which is in fact very far from being a measure of the strength of evidence provided by the data against some specific and well defined hypothesis or group of hypotheses.” 63 64 65
Siehe schon S. 93. Siehe auch Meehl (1997)
Graphisch hervorragend gestaltete Beispiele aus der Astronomie bzw. Geologie finden sich in Starkman und Schwarz (2005: 36) und Valley (2006: 80).
102
3 Klassische Statistik
führen zu einem schwierigeren Test für die Hypothese. Oakes (1986: 29, 32) schreibt glasklar: “There are no inferential grounds whatsoever for preferring a small sample [. . .] the larger the sample the better [. . .] The larger the sample size the more stable the estimate of effect size; the better the information, the sounder the basis from which to make a decision [. . .]” 66 In der sozialwissenschaftlichen Praxis ist es, wie wir S. 90ff ausgeführt haben, genau anders herum: Weil die Nullhypothese gerade die inhaltlich nicht interessante Hypothese ist, ist die H1 umso mehr im Vorteil, je größer der Stichprobenumfang ist. Da in der Psychologie oder anderen Sozialwissenschaften zudem alles mit allem zusammenhängt, ist eine Nullhypothese, welche gerade Zufälligkeit, also keinen irgendwie gearteten systematischen Zusammenhang behauptet, von vorneherein falsch. Das heißt: Erhebt man nur genügend viele Daten, so kann man bei dieser „schwachen“ Anwendung der Testtheorie jedes behauptete Phänomen belegen. Je mehr Daten, desto leichter wird der Test für die substanzielle Hypothese, was Meehl zurecht ein Paradoxon nennt.67 P -Werte und Metaanalyse Dass p-Werte im Allgemeinen die Evidenz gegen H überzeichnen, bemerkt man ebenfalls bei Replikationsexperimenten. Selbst bei kleinem p ist die Chance auf eine erfolgreiche Replikation des Ergebnisses nicht allzu groß. Goodman (1992: 877) gibt (ziemlich ernüchternde) Wahrscheinlichkeiten an, siehe auch Nickerson (2000: 256), Sohn (1998) und Ottenbacher (1996). Für einen aktuellen Überblick konsultiere man Hubbard und Lindsay (2008), eine Sammlung interessanter Beispiele findet sich unter www.stat.duke.edu/berger (Schlagwort ‘p values’ ). Angesichts dessen betonte Fisher (1936b: 58),68 wie wichtig es ist, signifikante Ergebnisse (am besten mehrfach) zu replizieren: [. . . ] no one doubts, in practice, that the probability of being led to an erroneous conclusion by the chances of sampling only, can, by repetition [. . .] of the sample, be made so small that the reality of the difference must be regarded as convincingly demonstrated.
Tukey (1969: 726) ergänzt: “The modern test of significance [. . .] owes more to R. A. Fisher than any other man. Yet Sir Ronald’s standard of firm knowledge was not one very extremely significant result, but rather the ability to repeatedly get results significant at 5%.” 66
Ganz ähnlich schon Berkson (1938), zitiert nach Cohen (1994): “It would be agreed by statisticians that a large sample is always better than a small sample.” 67 Siehe auch Oakes (1986: Abschnitt 2.3). 68
Siehe auch Johnstone (1987a: 488ff)
3.3 Testreplikation
103
Die heutige Metaanalyse69 ist nichts weiter als eine Formalisierung dieser Idee. D.h., ausgehend von einer Fragestellung verrechnet sie die Resultate vieler einschlägiger, in der Literatur dokumentierter Studien. Falls man dabei die p-Werte mehrerer Untersuchungen zusammenfasst, basiert das Endergebnis jedoch auf einem in sich unzuverlässigen Maß, weshalb zumeist auf Effektmaße zurückgegriffen wird. Hubbard und Lindsay (2008: 82) kommentieren die historische Entwicklung insgesamt wie folgt: [Thus] there is more than a hint of irony in the fact that Fisher’s sanctioning of the vital role of replication has been overlooked, while at the same time his widely misunderstood and defective p values blanket the empirical literature.
Sammlung von Evidenz Direkter als die Metaanalyse führt der Likelihood-Test Beobachtungen zusammen. Mit den beobachteten Werten x1 , x2 , x3 , . . . ergeben sich nacheinander die Quotienten q1 =
PH0 (x1 ) PH0 (x2 ) PH0 (x1 ) PH0 (x2 ) PH0 (x1 ) PH0 (x3 ) , q2 = , q3 = usw. PH1 (x1 ) PH1 (x2 ) PH1 (x1 ) PH1 (x2 ) PH1 (x1 ) PH1 (x3 )
Man kann zeigen, dass bei Gültigkeit von Hi die Folge q1 , q2 , q3 , . . . in (fast) allen Fällen gegen den richtigen Grenzwert, also Null wenn H1 der Fall ist und ∞ wenn H0 der Fall ist, konvergiert. D.h., man erkennt asymptotisch mit Wahrscheinlichkeit 1 die richtige Hypothese. Bei endlichem und vor allem kleinem n könnte qn gleichwohl sehr klein sein, obwohl H0 zutrifft. Auch diese Wahrscheinlichkeit, dass die Daten lügen,70 lässt sich zumindest abschätzen. Für Details und eine ausführliche Diskussion siehe Royall (2000).
Evidenz und Voreinstellung Der Bayessche Ansatz verrechnet die relative Evidenz der Daten, also qn , mit den Priori-Wahrscheinlichkeiten der Hypothesen, also P (Hi ). Der Reihe nach ergibt sich für H0 : 69
Siehe insbesondere Glass (1976), Rosenthal (1978), Hedges und Olkin (1985), Cooper and Hedges (1994), Schmidt (1992, 1996), Konstantopoulos and Hedges (2004), Sedlmeier und Renkewitz (2008: Kapitel 22) sowie Rothman et al. (2008: Kapitel 33) 70
Engl.: misleading evidence
104
3 Klassische Statistik
P (H0 ) − die Voreinschätzung PH0 (x1 ) P (H0 |x1 ) = · P (H0 ) = q1 · P (H0 ) PH1 (x1 ) PH0 (x2 ) PH0 (x2 ) PH0 (x1 ) P (H0 |x1 , x2 ) = · P (H0 |x1 ) = · P (H0 ) PH1 (x2 ) PH1 (x2 ) PH1 (x1 ) = q1 q2 · P (H0 ) usw. Die sukzessiven Wahrscheinlichkeiten für H1 ergeben sich völlig analog oder schneller noch aus P (H1 |x1 , . . . , xi ) = 1 − P (H0 |x1 , . . . , xi ). Mithilfe der obigen Formeln lässt sich der Einfluss der Daten sauber vom Einfluss des (subjektiven) Voreinstellung bzw. des (objektiven) Vorwissens trennen. Die Kombination beider gibt die aufgrund der Evidenz der Beobachtung geänderte Wahrscheinlichkeit, dass eine der Hypothesen zutrifft. Mit anderen Worten sammelt sich in der Posteriori-Wahrscheinlichkeit P (H0 |x1 , . . . , xn ) die in den Daten x1 , . . . , xn steckende Information, verbunden mit der A-Priori-Einschätzung P (H0 ). Sofern die Anfangswahrscheinlichkeit nicht gerade Null ist, man also von vorneherein eine der Hypothesen ausschließt (was den Test obsolet macht), konvergieren auch diese Wahrscheinlichkeiten gegen 1 bzw. 0. Man lernt also aus der Erfahrung, und die Voreinstellung wird im Laufe der Zeit immer unbedeutsamer.
Fehlerkontrolle Neyman und Pearson kontrollieren aufgrund der Kenntnis der Wahrscheinlichkeitsverteilungen (also der Hypothesen H0 und H1 ) die Wahrscheinlichkeit von Fehlentscheidungen. Die Gültigkeit des Modells vorausgesetzt, minimiert ein solches Verfahren die Anzahl der über einen längeren Zeitraum hinweg gemachten Fehler. Das heißt, Neyman und Pearson verwenden das Verhalten der Verfahren aufgrund vieler (hypothetischer) Wiederholungen gleichartiger Experimente nicht als nachträglichen „Test“ bzw. Qualitätskriterium, sondern als Konstruktionsprinzip solcher Tests. Royall (1997: 38) fasst dies schön zusammen: The basic tenet of Neyman-Pearson theory is that solutions to statistical problems, that is, statistical procedures, should be evaluated in terms of their probabilistic properties (‘performance characteristics’ in Neyman’s words). These properties measure the expected, or long-run average, performance of the procedures - a procedure with good probabilistic properties will, if used repeatedly, give good performance, on average.
Womöglich ist das auch der Ursprung des bekannten Bonmots,71 dass sich die Statistik damit begnüge, in höchstens 5% aller Fälle daneben zu liegen. Schon Fisher (1929: 191) weist das entschieden zurück: “[5%] is an arbitrary, but convenient, level of significance for the practical investigator, but it 71
Siehe z. B. Cox (2006: 197)
3.3 Testreplikation
105
does not mean that he allows himself to be deceived once in every twenty experiments. The test of significance only tells him what to ignore, namely all experiments in which significant results are not obtained.” 72 Hacking (1980) ordnet den Ansatz philosophisch(er) ein. Er sieht in der NeymanPearson-Theorie eine Peircean theory of Brownian inference. (Hervorhebung im Original.) Der Grund für diese Benennung ist laut Johnstone (1988: 358): “Brown had the idea that inference is conclusion, not argument [. . .] Peirce proposed that a good argument is one which tends ‘for the most part’ to generate correct conclusions.”
Kritik am Kriterium der (hypothetischen) Replikation Zuweilen hört man zwar das Argument, dass nicht immer eine Replikation beabsichtigt wird, das Kriterium also nicht unbedingt immer relevant ist, im Allgemeinen wird es jedoch kaum in Frage gestellt. Selbst die meisten Bayesianer, welche Neymans konkrete Vorgehensweise entschieden ablehnen, überprüfen ihre Verfahren routinemäßig auf deren “long run properties”. Nun ist es eine Sache, ein Verfahren auf längere Sicht optimal zu adjustieren, eine andere jedoch, den Einzelfall adäquat zu würdigen. Gerade um die relative Bedeutung von Verfahren und Daten werden heftige, weil prinzipielle Auseinandersetzungen geführt.73 Offenkundig kann man das eine wie das andere für wichtiger halten,74 wobei, wie schon das obige Beispiel der industriellen Produktion (S. 91) zeigt, die Testtheorie von Neyman und Pearson das Verfahren in den Mittelpunkt stellt. Auch die Tatsache, dass noch nicht einmal ein deterministisches Gegenbeispiel (S. 95) als solches sicher erkannt und in seiner logischen Kraft gewürdigt wird, unterstreicht dies. Genau auf einen solchen Einzelnachweis kommt es jedoch in der Wissenschaft an. Wir sind nicht besonders daran interessiert, uns über viele Experimente hinweg im Mittel optimal zu verhalten - von zentraler Bedeutung ist die bestmögliche Bewertung einer konkreten (einzelnen) Hypothese in einem spezifischen (einzelnen) Experiment. Dieser Meinung sind fast alle Statistiker. Die Liste der von Johnstone (1988: 358) zusammengetragenen Namen (mit spezifischen Literaturfundstellen) für die Bedeutung des Einzelfalls liest sich wie ein “Who is Who” der moderneren Statistik: Good, Cox, Pratt, Lindley, Edwards, Jaynes, Rosenkrantz, Bernard und auch Fisher (1973: 96): In fact, as a matter of principle, the infrequency with which, in particular circumstances, decisive evidence is obtained, should not be confused with the force, or cogency, of such evidence. 72 73 74
Siehe auch S. 87. Siehe insbesondere Mayo (1996)
Aus Sicht des Verfahrens „kommen und gehen die Daten“, d.h., es muss sich in ganz verschiedenen Situationen bewähren. Aus Sicht eines konkreten Datensatzes kommt es hingegen darauf an, dass das Verfahren genau diesen adäquat behandelt.
106
3 Klassische Statistik
Die Philosophen Kyburg und Giere stimmen diesem Urteil genauso zu wie der schon (S. 91) zitierte Psychologe Meehl (1978: 823):75 “[. . .] a theory that has [. . .] three facts against it is not in good shape.” Selbst E. S. Pearson (1938: 239), zitiert nach Johnstone (1988: 358), schloss sich hierin ausdrücklich Gosset an: “[. . .] the prospect of very few errors in the ‘long run’ is cold comfort if the sample (in a single test) is patently atypical.”
3.4 Forschungsstrategien II (Grundhaltungen) [. . .] there seems to be no way to combine tightness and realism, and realism must win in the end. (Tukey 1997: 26)
Neben der eher technischen, aber ins Prinzipielle tendierenden Frage, ob es zulässig ist, mit dem beobachteten x76 genauso umzugehen wie mit allen extremeren (z. B. kleineren) Werten als x,77 schält sich über das Problem, ob Einzelereignisse wichtiger sind als Mengen von Ereignissen, eine grundlegende Schwierigkeit heraus: Wie viel Bedeutung misst man den Daten und außerhalb der Daten gelegenen Aspekten bei? Wie groß ist der Einfluss der Daten auf das Ergebnis?78
Es ist eine Gewichtung vorzunehmen, und am Beispiel der statistischen Testtheorie(n) sollte deutlich geworden sein, dass sich statistische Verfahren und mehr noch deren Anwendung im Sinne eines „Auswertungsstils“ prinzipiell in der Art unterscheiden, wie sie mit Daten umgehen. Je nachdem, wie viel Bedeutung man den Daten bzw. den außerhalb der Daten gelegenen Randbedingungen beimisst, empfiehlt es sich von den Daten auszugehen und diese - induktiv - zu Evidenz zu verdichten oder zuvor einen Rahmen festzulegen und dann - deduktiv - mithilfe der Daten zu einer Bewertung oder sogar Entscheidung zu gelangen.
3.4.1 Deduktive Herangehensweise Sieht man das Modell, ein Verfahren, die Art der Datenerhebung oder andere Rahmenbedingungen als primär an, so weist man den Daten einen genau zuvor definierten Platz in der Gesamtsituation, die gar nicht selten einem 75 76 77
Siehe auch schon Meehl (1967), insbesondere S. 112ff. und der zugehörigen Wahrscheinlichkeit P (X = x)
und der zugehörigen Wahrscheinlichkeit P (X ≤ x) Andere häufig genannte Gesichtspunkte, insbesondere die Berücksichtigung von Randbedingungen, die Verwendung mehr oder minder weitreichender Voraussetzungen und subjektive Einflüsse lassen sich hierunter subsumieren. 78
3.4 Forschungsstrategien II (Grundhaltungen)
107
Räderwerk gleicht, zu. So sehr sich die Neyman-Pearson-Theorie und die Bayesianische Schule auch unterscheiden mögen, in diesem Punkt gehen sie de facto gleich vor. Erstere spezifiziert in Vorüberlegungen einen Raum aller möglichen Beobachtungen, also einen Stichprobenraum,79 welcher sogleich mit einer Wahrscheinlichkeitsverteilung80 versehen wird. Großer Wert wird darauf gelegt, dass beide durch die (objektive) Vorgehensweise, also die konkrete (experimentelle) Situation, festgelegt werden.81 Letztere benutzt immer den Bayesschen Mechanismus von Priori-Verteilung und Bayesschem Theorem. Hier wird insbesondere der nicht von den aktuellen Daten abhängige und in diesem Sinne auf jeden Fall „subjektive“ Aspekt der Priori-Verteilung besonderes betont. Beidesmal ist jedoch die Rolle der Daten festgelegt: Sobald man sie kennt, setzen sie das vorher installierte Räderwerk in Gang und liefern ein eindeutiges, klares Ergebnis: Bei Neyman und Pearson die Entscheidung gegen oder für die Hypothese, bei Bayes die Posteriori-Verteilung. Die Diskussion des Bayesschen Ansatzes verschieben wir auf die Abschnitte 4.4.2 und 5.3.1. Wir beginnen hier zunächst mit den einfacher zu fassenden Top-Down- also theorie- und hypothesengetriebenen Methoden. Dies ist auch gerechtfertigt, da es vorsichtige Forscher in Anbetracht der Fährnisse subjektiver Willkür sowie der Unwägbarkeiten und sogar Paradoxien der Induktion82 vorgezogen haben, eher der Deduktion zu vertrauen. Die primär oder sogar rein deduktive Sicht der Dinge wurde im 20. Jahrhundert, besonders und insbesondere natürlich von Popper, nachdrücklich betont. Man kann die statistische Testtheorie nicht vollständig verstehen, wenn man diesen wissenschaftstheoretischen Aspekt außer Acht lässt. Poppers kritischer Rationalismus übte lange Zeit einen immensen, wenn nicht sogar dominierenden Einfluss sowohl auf Fachphilosophen als auch Wissenschaftler aus. Sätze wie “We need not only recognize the importance of deduction in clinical trials but the irrelevance of any sort of inductive argument for the purpose of using the results of our deductions.” (Senn 1991: 1691) oder “Inductive procedures - that is, inferring from the observed to the unobserved - are always illogical [. . . ]” (Shahar 1997: 111) lassen sich nur mit Verweis auf Popper formulieren. Die Statistik macht hier keine Ausnahme, vielmehr wurde die deduktive Erkenntnisrichtung83 von bedeutenden Statistikern wie Neyman und Pearson, Wald aber auch in Teilen von R. A. Fisher und der mathematischen Statistik im Allgemeinen mit Freuden aufgegriffen. 79
Engl. sample space
80
Engl.: sampling distribution Auch der p-Wert ist, da er alle Wahrscheinlichkeiten bis zur Beobachtung x kumuliert, erheblich vom Stichprobenraum, insbesondere der auf jenem definierten Verteilung, abhängig. Siehe hierzu auch Goodman und Royall (1988: 1569). 81
82
Siehe Kapitel 4 und insbesondere Abschnitt 4.7 In ihren diversen Formen, insbesondere dem Covering-Law- (Hempel 1963) und dem Conjecture-Refutation-Ansatz (Popper) 83
108
3 Klassische Statistik
Die Grundvorstellung des deduktiv-nomologischen Modells84 in der Wissenschaftstheorie ist, dass aus einer Theorie inhaltliche Hypothesen abgeleitet werden. Da es sich bei Hypothesen immer „nur“ um mehr oder minder begründete Vermutungen handelt, sind auch wenig fundierte Hypothesen im Sinne „freier Schöpfungen des menschlichen Geistes“ zugelassen. Entscheidend ist, dass man Hypothesen überprüfen will, etwa indem man sie als statistische Hypothesen (also spezielle Wahrscheinlichkeitsverteilungen bzw. sampling distributions) operationalisiert und schließlich testet. Bei Neyman und Pearson geschieht dies, indem man den Raum aller möglichen Beobachtungen in zwei Teile zerlegt und aufgrund der Lage der tatsächlichen Beobachtung (entweder x ∈ R oder x ∈ / R) eine Entscheidung für oder gegen die interessierende Hypothese H1 fällt. Darüber hinaus bekommen wir gemäß Popper (1974: 389) nur „durch die Falsifikation unserer Annahmen [. . .] tatsächlich Kontakt mit der ‚Wirklichkeit‘.“ Diese Einseitigkeit berücksichtigt die Testtheorie gleich in mehrfacher Hinsicht: H0 und H1 werden asymmetrisch behandelt, H0 soll abgelehnt werden, und falls dies nicht gelingt, so spricht man nicht offen von Evidenz für H0 . Aus einem einfachen “acceptance of one of the hypotheses and rejection of the other” (Neyman 1950: 259), wird bei Bortz (1999: 118): „Ein nichtsignifikantes Ergebnis ist kein Beleg dafür, daß die Nullhypothese richtig ist.“ Auch Krengel (1988: 96) meidet das Wort Annahme, stattdessen formuliert er einmal „Wir sagen dann, dass die Nullhypothese verworfen wird“ und im zweiten Fall „Die Annahme der Hypothese bedeutet nur, daß die beobachteten Daten keinen hinreichenden Anlaß zur Verwerfung der Hypothese bieten“ (Hervorhebung im Original). In der englischsprachigen Literatur heißt es oft85 “One can never accept the null hypothesis, only fail to reject it.” Das Standard-Lexikon (Müller 1991) wählt die Formulierung, dass entweder die Nullhypothese abgelehnt wird oder aufgrund eines bestimmten Tests „gegen die H0 nichts einzuwenden ist.“ Sogar ein R. A. Fisher schwankt zwischen einer negativen Formulierung, etwa der Form “This should not be interpreted as evidence in support of the hypothesis, but merely as a lack of evidence against it” und einer positiven Formulierung, wie “[. . .] it is a fallacy [. . .] to conclude from a test of significance that the null hypothesis is thereby established; at most it may be said to be confirmed or strenghtened.” 86 Erst in jüngster Zeit scheint sich hier wieder eine glattere Sprache durchzusetzen. Zum Beispiel schreiben Casella und Berger (2002: 374): “A hypothesis testing procedure or hypothesis test is a rule that specifies: i. For which sample values the decision is made to accept H0 as true. ii. For which sample values 84 85
Siehe z. B. Salmon (1989) für eine ausführliche, auch historische Darstellung.
Siehe z. B. Goodman (1993: 487) Siehe Johnstone (1987a: 487) und (Royall 1997: 76ff) für weitere Details und Zitate. Gardner (1996a: 490) passt hierher: “This sounds like denying that a man is happy because the horse he bet on won the race, and asserting, on the contrary, that he is jumping up and down because his horse failed to lose.” 86
3.4 Forschungsstrategien II (Grundhaltungen)
109
H0 is rejected and H1 is accepted as true.” 87 Es ist ihnen bewusst, dass sie hierbei eine weitreichende Formulierung gewählt haben, die fast schon als Beweis88 missverstanden werden könnte. Wohl auch deshalb folgt auf derselben Seite eine Erläuterung: On a philosophical level, some people worry about the distinction between ‘rejecting H0 ’ and ‘accepting H1 ’. In the first case, there is nothing implied about what state the experimenter is accepting, only that the state defined by H0 is being rejected. Similarly, a distinction can be made between ‘accepting H0 ’ and ‘not rejecting H0 .’ The first phrase implies that the experimenter is willing to assert the state of nature specified by H0 , while the second phrase implies that the experimenter really does not believe H0 but does not have the evidence to reject it.
Solche Unterscheidungen sehen die Autoren wohl eher als sophistisch an, denn sie schließen den Absatz mit den Worten: “For the most part, we will not be concerned with these issues. We view a hypothesis testing problem as a problem in which one of two actions is going to be taken - the actions being the assertion of H0 or H1 .”
Modelle als Auswertungsmaschinen Ganz im Sinn der deduktiven Tradition betonen alle Autoren der statistischen Testtheorie ausdrücklich, dass bei sauberer Arbeitsweise die Phasen der Bearbeitung eines Testproblems, nämlich 1. Formulierung der Hypothesen 2. Festlegung des Tests inklusive α 3. Auswertung der Daten und Interpretation aufeinander folgen. Zum Beispiel schreibt Krengel (1988: 107f) klar und deutlich: „All unsere Überlegungen setzten voraus, daß die Beobachtung X erst angestellt wird, wenn alles andere festliegt. Insbesondere muss α vorgegeben werden [. . .], wenn der Test und damit die Irrtumswahrscheinlichkeiten wohldefiniert sein sollen.“ Li und Vitányi (2008: 284) verdeutlichen dies am Beispiel einer Wahl: In einem Land werde 30 Mal in Folge die Regierungspartei gewählt. Deren Stimmenanteil x war immer größer als 50 %, so dass sie stets alleine regieren konnte, jedoch waren bei jeder Wahl die ersten dreißig(!) Nachkommastellen von x genau mit den ersten 30 Nachkommastellen der Zahl π identisch! Sie schreiben: However, if we complain about this, the election organizers tell us that some sequence has to come up, and the actual outcome is as likely as any other. We cannot criticize a regularity we discover after the fact, but only those regularities we have excluded in advance. (Hervorhebung im Original)89 87 88 89
Alle Hervorhebungen, auch des nächsten Zitats, im Original. accept [. . .] as true
Ganz ähnlich ist das folgende, häufig im Alltag anzutreffende Beispiel: „Der Physiker Richard Feynman machte gern einen Witz über im Nachhinein gewonnene Erkenntnisse
110
3 Klassische Statistik
Die Testtheorie ist nur ein besonders prominentes Beispiel der deduktiven Sicht. Wie wir noch sehen werden, setzte sich insbesondere R. A. Fisher in seinen Werken explizit für eine gezielte, hypothesengeleitete Datenerhebung ein. Mehr noch, mit einem seiner Hauptwerke, The Design of Experiments, begründete er die heute orthodoxe Statistik. Seine statistischen Experimente, die Hypothesentests nach Neyman und Pearson und auch die auf Wald (1950) zurückgehende Entscheidungstheorie sind vom mathematischdeduktiven Geist durchdrungen. Es ist gar nicht so selten, dass einschlägige Autoren die Statistik als spezielle Entscheidungstheorie präsentieren.90 Neyman (1967), zitiert nach Brown (2000: 1277), sagt explizit: The concepts of confidence intervals and of the Neyman-Pearson theory have proved immensely fruitful. A natural but far reaching extension of their scope can be found in Abraham Wald’s theory of statistical decision functions. The elaboration and application of the statistical tools related to these ideas has already occupied a generation of statisticians. It continues to be the main lifestream of theoretical statistics.
Deshalb ist es auch nicht „im Sinne des Erfinders“ die ebenfalls auf Fisher zurückgehende Varianzanalyse (siehe Abschnitt 3.6.2) lediglich als eine Methode der Posteriori-Datenmodellierung darzustellen. Tatsächlich ist die Varianzanalyse, welche von vielen Lehrbüchern sogar als eine Erweiterung des einfachen t-Tests eingeführt wird, mit demselben operationalen wie interpretativen Überbau versehen wie die Testtheorie. Man geht, zumindest klassischerweise, in aller Regel nicht von vorliegenden Daten aus. Vielmehr startet man mit einer Fragestellung, zu deren Beantwortung experimentellkontrolliert Daten erhoben werden. Aufgrund der speziellen Erhebungsmethodik91 ist es dann gerechtfertigt, die Varianzanalyse als Analyseverfahren anzuwenden. Primär sind bei dieser Sicht nicht die Daten, sondern die Forschungshypothese, welche mit einer gewissen statistischen Sicherheit (also a priori festgelegten Fehlerniveaus) unter Zuhilfenahme präziser, man ist versucht zu sagen „optimiert“ erhobener Daten gestützt oder verworfen werden soll. Folgt man konsequent dem deduktiven Pfad, so ist a priori möglichst vieles, am besten alles - bis auf die Daten - festzulegen. Aufgrund der Hypothese(n) wählt man ein passendes experimentelles Design, bestimmt die benötigte Anzahl zu untersuchender Einheiten, überlegt sich, welche Ergebnisse [. . .] ‚Auf dem Weg zur Vorlesung bin ich über den Parkplatz spaziert, und - Sie werden es nicht glauben: Ich entdeckte ein Auto mit dem Kennzeichen ARW 357. Stellen Sie sich das einmal vor! Wie groß ist die Wahrscheinlichkeit, von den Millionen Nummernschilder in diesem Staat ausgerechnet dieses zu sehen?‘ “ (Feynman 2003: 25), zitiert nach Bryson (2005: 321f). 90 Siehe z. B. Bamberg (1972), insbesondere Abschnitt 2 und Ferguson (1967). Zuweilen wird die Statistik auch als ein Spiel gegen die Natur im Sinne der mathematischen Spieltheorie aufgefasst. Etwa im Klassiker Blackwell und Girshik (1979) oder sehr pointiert in “Fishers Game with the devil”, siehe Senn (1994). 91
Orthogonale, experimentell zu prüfende Einflussfaktoren, zufällige Zuordnung der statistischen Einheiten auf die Versuchsbedingungen
3.4 Forschungsstrategien II (Grundhaltungen)
111
man erhalten könnte und legt auch schon im Vorhinein fest, wie ausgewertet wird. Nun ist ein wesentlicher Punkt der Neyman-Pearsonschen Testtheorie die Kontrolle des Fehlers 1. Art. Möchte man diesen auch bei einem komplexen Experiment mit vielen Einzelauswertungen kontrollieren, also die Wahrscheinlichkeit von fälschlichen Fehlentscheidungen gegen die Nullhypothese(n) unter einem vorgegebenen Niveau halten, so kommt man zur αAdjustierung. Darunter versteht man, das als akzeptabel erachtete Fehlerniveau α so zwischen allen geplanten Tests aufzuteilen, dass es insgesamt eingehalten wird. Beabsichtigt man also z. B. 10 Tests durchzuführen, bleiben je geplantem Test durchschnittlich α/10 an tolerierbarem Fehler.92 α wird so zur begrenzten, wertvollen Ressource, zumal gilt: “Once we have spent this error rate, it is gone” (Tukey 1991: 104f). Er fährt fort: The message has to be that it can be wise and necessary to focus on a very few prespecified questions, prespecified before data collection, whenever we cannot enjoy the luxury of enough data to work with either familywise (F) or Bonferroni (B) error rates. (Hervorhebung im Original.)
Manche Autoren dieser Denkrichtung sprechen sogar explizit von einem Missbrauch statistischer Tests, falls man α nicht adjustiert, und es deshalb zu einer Inflation des Fehlers erster Art kommt.93 Was ist die Konsequenz? [. . .] a very few prespecified comparisons will be allowed to eat up the available error rate, and the remaining comparisons have the logical status of hints, no matter what statistical techniques may be used to study them. (Tukey, ibd.)
Aus der Sicht der Entscheidungstheorie ist diese Vorgehensweise völlig konsequent: Es sind eine Reihe von Entscheidungen zu treffen, und mit einer gewissen Wahrscheinlichkeit geht man bei jeder einzelnen von diesen fehl. Will man nun insgesamt nur mit einer vorgegebenen Wahrscheinlichkeit (von typischerweise α = 5%) irren, so muss die Irrtumswahrscheinlichkeit bei jeder einzelnen Entscheidung entsprechend klein bzw. sogar winzig sein. Zudem kann man nur a priori ins Auge gefasste Vergleiche auf dem vorgegebenen Fehlerniveau a posteriori als belegt oder widerlegt ansehen, während alle weiteren Analysen nur den Status von Indizien haben.
Enge und Rigidität Gleichzeitig wird dadurch jedoch der ohnehin schon vorhandene Konservatismus der orthodoxen Statistik94 entschieden verschärft, was u.a. auch Rothman (1990) hervorhebt. Es ist deshalb kein Zufall, dass selbst drastische 92
Sogar genau α/10 bei der sogenannten Bonferroni-Methode. Es gibt mehrere Techniken, die verfügbare Fehlerrate von α auf die Einzelvergleiche aufzuteilen. 93 94
Siehe z. B. Dar et al. (1994: 76ff) oder Mattner (2009). β „klein“, jedoch α ≤ 5%, ≤ 1% oder sogar ≤ 0, 1%. Wir vertiefen dies ab S. 187.
112
3 Klassische Statistik
Fehleinschätzungen für95 die Nullhypothese von Seiten traditioneller Wahrscheinlichkeitstheoretiker und Statistiker ernsthaft vertreten wurden. In Feller (1971: 76) heißt es: For a time it was fashionable [. . .] to detect ‘hidden periodicities’ for sunspots, wheat prices, poetic creativity, etc. Such hidden periodicities used to be discovered as easily as witches in medieval times, but even strong faith must be fortified by a statistical test.96
Wie wir noch sehen werden, neigen Statistiker bei weniger klaren Effekten, etwa dem (potenziellen) Erfolg von Aktienhändlern (S. 185) erst recht stark der konservativen Ansicht zu und erklären das Marktgeschehen im Wesentlichen mit dem Zufall und der Selektion der „glücklichen“ Akteure. Dadurch übersieht man aber zwangsläufig die (sehr) erfolgreichen Akteure, die ähnlich wie die erfolglosen Händler eher zügig aus dem Markt ausscheiden, und man missachtet definitiv den Erfolg langfristig erfolgreicher Anleger mit ihren auch substanziell überzeugenden Strategien. Die Bewertung in Bruss (2007) ist überaus typisch: Ein starker Selektionseffekt zugunsten der (zufällig) Erfolgreichen wird für plausibler gehalten als die (zumeist wohl schwach ausgeprägte) Fähigkeit der Analysten, das Marktgeschehen vorherzusagen.97 Cornfield (1966: 19) verdeutlicht das Geschehen anhand eines in der Praxis äußerst häufigen Falls: An experimenter, having made n observations in the expectation that they would permit the rejection of a particular hypothesis, at some predesignated significance level, say .05, finds that he has not quite attained his critical level. He still believes that the hypothesis is false and asks how many more observations would be required to have reasonable certainty of rejecting the hypothesis [. . .] He also makes clear that had the original n observations permitted rejection he would simply have published his findings.98 95
nicht gegen?!
96
Jaynes (2003: 526) kommentiert dies mit den Worten: “Apparently, Feller did not believe in the sunspot periodicity, which no responsible scientist has doubted for over a century. The evidence for it is so overwhelming that nobody needs a ‘statistical test’ to see it [. . .] the eyeball is a more reliable indicator of an effect than an orthodox [test].” Es sollte angemerkt werden, dass Feller (1968, 1971) als die beste und einflussreichste Einführung in die Wahrscheinlichkeitstheorie und ihre Anwendungen (so der Titel) der letzten Jahrzehnte gilt. 97 Man beachte, dass man mit einem völlig analogen Argument auch einen Großteil aller publizierten Effekte als Artefakte abtun kann, zumal unerwartete oder „missliebige“ Resultate eher unter Verschluss gehalten werden als den Erwartungen entsprechende Ergebnisse (file drawer effect, Rosenthal (1979)) und die Annahmepolitik von Fachzeitschriften ausgesprochen selektiv ist. Man spricht vom publication bias, weil negative Resultate, selbst wenn sie wichtig wären, zumeist nicht publiziert werden. (Einschlägige “Journals of negative results” sind die große Ausnahme.) Deshalb besteht damit insgesamt die sehr reale Gefahr, dass sich falsch positive Resultate anhäufen und womöglich erst nach einiger Zeit als unrichtig erkannt werden. Diese Gefahr ist besonders groß, wenn wenig Wert auf die Replikation von Resultaten gelegt wird. (Siehe z. B. Oakes (1986: 11ff), Rennie und Flanagin (1992), Nelder (1999: Abschnitt 4.1), Scargle (2000), Feynman (2005b: 456ff), Moonesinghe et al. (2007) und Young et al. (2008) sowie die dort genannte Literatur.) 98
Siehe auch Royall (1997: 111)
3.4 Forschungsstrategien II (Grundhaltungen)
113
Aufgrund des zuvor Gesagten ist klar, wie die Antwort lauten muss. Das verfügbare Fehlerniveau ist verbraucht, weshalb Cornfield fortfährt: Under these circumstances it is evident that there is no amount of additional information, no matter how large, which would permit rejection at the .05 level. It the hypothesis being tested is true, there is a .05 of its having been rejected after the first round of observations. To this chance must be added the probability of rejecting after the second round, given failure to reject after the first, and this increases the total chance of erroneous rejection to above .05 [. . .] Thus no amount of additional evidence can be collected which would provide evidence against the hypothesis equivalent to rejection at the P = 0.05 level [. . .]
Kaum ein Wissenschaftler dürfte diese Art der Datenerhebung akzeptieren. Es kommt nämlich sehr häufig vor, dass ein tatsächlich existierender Effekt nur deswegen (noch) nicht signifikant geworden ist, weil noch nicht genügend viele Daten vorliegen. Es ist eben viel schwerer, einen Effekt einer gewissen Größe mit n = 10 Beobachtungen überzeugend zu belegen, als mit der zehnfachen oder gar hundertfachen Anzahl von Beobachtungen. Wertet man in einem solchen Fall zu früh aus, so ruiniert man den ganzen Versuch. Man muss dann ein neues gleichartiges Experiment mit weiteren 0, 05-Prozent Fehlermarge starten oder aber, wenn man die α-Adjustierung ernst nimmt und Cornfields Argument akzeptiert, es gleich ganz sein lassen, da man auch bei noch so vielen weiteren Experimenten den Effekt nie wieder auf dem 0, 05-Niveau statistisch belegen kann. Auch wenn diese Haltung verquer anmutet, so ist sie doch von großer praktischer Bedeutung. Sie zeigt sich am deutlichsten in klinischen Studien,99 welche die Wirksamkeit einer neuen Therapie, z. B. eines neuen Medikaments, testen. Hier wird größten Wert auf ein a priori zu erstellendes Untersuchungsprotokoll gelegt. In diesem sind die Hypothesen, das Design und die geplanten Auswertungen exakt und in vielen Details festzuhalten. Eine ganze „Zulassungsindustrie“ hat sich darauf spezialisiert, derartige große Studien zu planen, administrativ zu betreuen und auszuwerten. Da jede Auswertung entweder nur den Status von Indizien hat oder aber das a priori festgelegte Fehlerniveau belastet, geht die Tendenz dahin, die Daten ausschließlich zu ebenfalls zuvor festgelegten Zeitpunkten auszuwerten und sie ansonsten nicht zu be(tr)achten. Mit den Worten von Royall (1991: 57): There is a popular solution to this problem, a simple way to prevent experimental trials from evolving into demonstration trials: do not allow those who are conducting the trial to look at the results as they accumulate. That is, [. . .] conceal the evidence from the physician until the trial is completed. 99
Engl. clinical trial; oft auch mit RCT für randomized controlled trial abgekürzt. Eine prägnante Charakterisierung gibt Lee (1999: 349): “Clinical trials are scientific experiments involving human subjects [. . .] The goal of a clinical trial is to produce an objective inference as to the relative benefit of interventions under evaluation. This goal is achieved by comparing the clinical outcome from a group of patients receiving an intervention to a comparison group of patients receiving a placebo. Those groups should be made compatible except for difference in treatment [. . .] lest an unfair statistical comparison should result from the trial.”
114
3 Klassische Statistik
Eine Folge hiervon ist, dass Informationen, die in den Daten bereits vorhanden sind, erst mit Verspätung - nämlich zu den geplanten Auswertungsterminen - genutzt werden. (Man stelle sich einen Entscheider in Wirtschaft, Politik oder Militär vor, der wichtige Daten absichtlich erst mit Verspätung, nämlich nur zu vorab vereinbarten Terminen, zur Kenntnis nimmt.) Eine noch weit zweifelhaftere Konsequenz dieser Perspektive ist, dass es als problematisch angesehen wird, Daten überhaupt zu analysieren. Jede Analyse ist mit Kosten, eben dem „verbrauchten“, nicht erneuerbaren Signifikanzniveau, verbunden. Will man mehr als Indizien, so zehrt jeder Blick auf die Daten an der Sicherheit der Schlussfolgerung, und einige Autoren wie Pogue und Yusuf (1998: 50) fragen ganz offen und konsequent: Should there be any penalty for multiple looks at the data [. . .]?
Man muss den letzten Satz zweimal lesen. Empirisch arbeitende Wissenschaftler sollen allen Ernstes dafür bestraft werden, wenn sie mithilfe ihrer Daten Erkenntnisse gewinnen wollen. Keiding (1995: 242) schreibt völlig zurecht: [. . .] it is indeed unsatisfactory to have to defend, perhaps in the face of senior, highly qualified substantive scientists, our mainstream statistical thinking which assumes that you are not supposed to look at the data when searching for methods of optimal analysis with the purpose of gaining new knowledge.
Statt die Datenanalyse im statistischen Labor zu erleichtern, wird jenes nur zu bestimmten Zeiten aufgeschlossen und darf dann auch nur gemäß einem lange vorher festgelegten Plan benutzt werden. Wäre das nicht tägliche Praxis, so könnte man darüber lachen; so aber macht sich die Statistik in den Augen vieler Anwender lächerlich Finally, we should consider the subclass of practitioners who are ‘more holy than the Pope,’ so to speak. To these practitioners, the whole purpose of the religion of Statistics is to maintain the sanctity of the alpha level (which is another name for 0.05). No activity that appears to involve looking at data for sensible combinations of for interesting effects is allowed. It is forbidden, in fact, to do anything more than to compute the p value using a method determined in advance of the experiment and fully documented at that time. (Salsburg 1985: 221)
behindert die Forschung Statistical inference is a branch of mathematics, but is not an intrinsic part of substantive science. Rather, it belongs to the scaffolding [. . .] a good part of statistical inference is unsuitable for scientific development [. . .] Many practitioners have become disillusioned with declarative inference, especially that of hypothesis testing [. . .] The emphasis on statistical significance over scientific significance in education and research represents a corrupt form of the scientific method [. . .] It is curious that the idea of making go−no-go decisions in operations research should be regarded by some mathematicians as a basis for a general decision theory for all of science. (Guttman 1985: 3f)100 100
Lindley (2002: 22) schließt sich dem mit den Worten an: “Of course, this is understandable; it is much easier to instruct in a ritual than it is to teach reasoning, as all Churches have long since realized.”
3.4 Forschungsstrategien II (Grundhaltungen)
115
oder leistet zumindest einem einseitigen Verständnis von Wissenschaft Vorschub: Because frequentist inference requires the ‘long run’ to be unambiguous, frequentist designs need to be rigid (for example, requiring fixed sample sizes and prespecified stopping rules), features that many regard as requirements of science rather than as artifacts of a particular inferential philosophy (Goodman 1999a: 1000).
Statistik als angewandte Mathematik Auch wenn weder überraschend sein dürfte, dass die gerade beschriebene deduktive Haltung bei Mathematikern beliebt ist, noch verblüffend ist, dass die lange Zeit dominierende Philosophie Poppers ihren Abdruck auf der heutigen Statistik hinterlassen hat, stellt sich doch die ganz einfach Frage: Ist eine solche Sicht wirklich sinnvoll? Oder anders gefragt, welcher Wissenschaftler arbeitet besser; jener der 1. den Forderungen der orthodoxen Statistik Folge leistet und seine Daten nur mit äußerster Vorsicht auswertet? Oder jener, der flexibel und gewissenhaft nach potenziell interessanten, aber verborgenen Strukturen sucht? 2. die Daten als ein Bild der realen Verhältnisse auffasst und sich intensiv und ohne Vorbehalte mit ihnen beschäftigt um neue Erkenntnisse zu gewinnen, oder jener, der aus Angst vor Fehlern gar nicht erst genau hinschaut? 3. genau einem a priori festgelegten Weg folgt oder jener, der überraschenden Indizien, also a priori nicht erwarteten Effekten, nachgeht? 4. so schnell wie möglich die auflaufenden Informationen nutzen möchte oder jener, der aus prinzipiellen Gründen die Auswertung bis zum nächsten geplanten Termin aufschiebt? Man kann empirischen Wissenschaftlern nicht ernsthaft empfehlen, Daten nur nach einem a priori festgelegten Muster, gewissermaßen „nach Plan“, oberflächlich und zugleich extrem konservativ auszuwerten. Zudem grenzt es an Dogmatik, jegliche Suche nach substanziell interessanten Mustern101 reflexartig mit Polemik wie data dredging, data snooping, fishing for significant results oder sogar torturing the data until they confess abzutun.102 Natürlich ist es sinnvoll, Experimente zu planen, natürlich ist es weit überzeugender, prospektiv einen Effekt vorherzusagen anstatt retrospektiv zu „erklären“, dass alles so kommen musste, wie es denn kam.103 Selbstverständlich ist es richtig, Daten kritisch und skeptisch zu beurteilen. Doch schüttet man das Kind mit dem Bade aus, wenn man diese Haltung übertreibt! Es 101 102 103
Siehe S. 187ff Siehe z. B. Burnham und Anderson (2002: Abschnitt 1.5), sowie Chatfield (1995: 462).
Wer Aktienkurse wirklich prognostizieren kann, wird schnell reich; wer nur in der Lage ist, die Entwicklung im Nachhinein zu erklären, ist lediglich ein „Experte“.
116
3 Klassische Statistik
liegen Welten zwischen chaotischer Nicht-Planung und bürokratischer Planwirtschaft, und gesunde Skepsis ist von krankhafter Hysterie genauso weit entfernt wie die “conservative induction” eines Post (1971) vom Deduktivismus eines Popper (1935). Es ist wohl kein Zufall, dass gerade ein Physiker wie Jaynes (2003) eine solche rigide Haltung aufs Schärfste kritisiert, und es ist leider die Ausnahme, dass orthodoxe Statistiker ihre prinzipielle Art, an Daten heranzugehen, fundamental hinterfragen. Statistik wird von vielen maßgeblichen Protagonisten primär als angewandte Mathematik gesehen. Ergo dominiert in der klassischen Statistik der deduktiv-nomologische, oft auch normative Standpunkt. Das mathematische Modell, dessen Eigenschaften und deduzierbaren Folgen, die Widerlegung (mehr noch als der Beleg) von Hypothesen, die „Anwendungen“ der Verfahren und möglichst sichere “decisions” werden angestrebt.104 Schon Fisher (1935: 39) schreibt:105 . . . mathematicians [like Neyman] who have been trained, as most mathematicians are, almost exclusively in the technique of deductive reasoning [and who as a result (sic) would] . . . deny at first sight that rigorous inferences from the particular to the general were possible
Das führt zu äußerst großen Parallelen zwischen den gerade ausgeführten Argumenten und dem Diskurs in Kapitel 2. Hier wie dort beobachtet man eine primär von mathematischen Gesichtspunkten getriebene Entwicklung, die mit einer starken Tendenz zu normativen Vorgaben an die „Anwender“ einhergeht. Hier wie dort wird die Theorie der Praxis wenig gerecht, was nicht zuletzt zu einer „kreativen“ Semantik106 , zuweilen sogar einer barocken Begrifflichkeit107 führt. Und hier wie dort ist schließlich ein strikter Rationalismus die zugehörige, passende Philosophie (Reichenbach 1947: 452). Beidesmal stellten sich neben Tukey nur wenige gegen die Dominanz der deduktiven Strategie und seine schon zu Beginn von Abschnitt 2.6 genannten Beiträge „passen“ zielgenau auch hier. Man könnte den Gegensatz von Induktion und Deduktion (“conclusions versus decisions”, explorative versus konfirmatorische Datenanalyse) sogar das dominierende „philosophische“ Thema seines Lebenswerks nennen.108 104
Im Klassiker Chernoff und Moses (1959: vii) findet sich ganz am Anfang die ebenso klassische Formulierung: “In recent years, Statistics has been formulated as the science of decision making under uncertainty. This formulation represents the culmination of many years of development and, for the first time, furnishes as simple and straightforward model of exhibiting the fundamental aspects of a statistical problem.” (Meine Hervorhebung.) Siehe auch Wald (1950) und Brown (2000). 105 106 107
Zitiert nach Hubbard und Bayarri (2003: 172) Siehe Abschnitt 3.10, etwa die Interpretation der „Signifikanz“ eines Ergebnisses usw.
Z. B. Nicht-Ablehnung einer Hypothese statt Evidenz für eine Hypothese Zahlreiche weitere Beiträge in Jones (1986a,b), also in 2 seiner 8 Bände umfassenden gesammelten Werke, beschäftigen sich mit ihm. Auch eine seiner letzten Arbeiten (Tukey 1997) ist dem Thema gewidmet. Siehe insbesondere auch Abschnitt 4.6. 108
3.4 Forschungsstrategien II (Grundhaltungen)
117
3.4.2 Induktives Verhalten Trotz allem konnte die Statistik als angewandte Wissenschaft dem Induktionsproblem nicht ganz aus dem Weg gehen. Es spricht für den weiten Horizont Neymans, dass er sich des Problems explizit annahm. Da er wie Popper explizit induktive Schlüsse verwirft, plädiert er offen für „induktives Verhaltens“. Neyman (1950: 11) fasst dies zusammen: “Mathematical statistics is a branch of the theory of probability. It deals with problems relating to performance characteristics of rules of inductive behavior based on random experiments.” Aufgrund eines Test-Ergebnisses sollte also kein irgendwie geartetes induktives (nicht logisch zwingendes) Urteil über die Hypothesen gefällt werden. Ein Test führt zu keiner Evidenz oder Wahrscheinlichkeit, dass ein Hypothese zutrifft. Er empfiehlt uns jedoch eine gewisse Verhaltensweise, nämlich so zu handeln, als sei die akzeptierte Hypothese richtig und die verworfene Hypothese falsch. Ein Hypothesentest ist also nichts weiter als ein formalisierte Art, eine Entscheidung „unter Unsicherheit“ zu treffen, auf der dann das weitere Verhalten aufbaut.109 Die Annahme oder das Verwerfen einer Hypothese ist nur in genau diesem Sinne zu verstehen: The terms ‘accepting’ and rejecting’ a statistical hypothesis are very convenient and are well established. It is important, however, to keep their exact meaning in mind [. . .] to accept a hypothesis H means only to decide on action A rather than action B. This does not mean that we necessarily believe that the hypothesis H is true. Also if the application [. . .] ‘rejects’ H, this means only that the rule prescribes action B and does not imply that we believe H is false. (ibd., S. 259)
Induktive Schlüsse lehnt er darauf explizit ab: In the past, claims have been made frequently that statistical estimation involves some mental processes described as inductive reasoning [. . .] in the ordinary procedure of statistical estimation, there is no phase corresponding to the description of ‘inductive reasoning.’ [. . .] all reasoning is deductive and leads to certain formulae and their properties.110
Jedoch können wir uns trotzdem aufgrund des Tests (bzw. vieler gleichartiger Tests) sinnvoll „induktiv“ verhalten: 109
[. . .] any rule R prescribing that we take action A when the sample point [. . .] falls within a specified category of points, and that we take action B in all other cases, is a test of a statistical hypothesis. (ibd., S. 258) 110 Das heißt, negativ formuliert, “[. . .] no test based upon a theory of probability can by itself provide any valuable evidence of the truth or falsehood of a hypothesis” (Neyman und Pearson (1933: 74), meine Hervorhebungen). Siehe auch das nachfolgende Zitat: “Such a rule tells us nothing as to whether in a particular case H is true.” Wie wir bereits (S. 96) gesehen haben, sind dazu die von Neyman und Pearson vorgeschlagenen Hypothesentests auch nicht in der Lage. Deren technische Unvollkommenheit wird also mit einem prinzipiell-philosophischen Argument verteidigt! Der Likelihood-Test erkennen hingegen den deterministischen Teil der Hypothesen sicher.
118
3 Klassische Statistik
“A new phase arrives when we decide to apply these formulae and to enjoy the consequences of their properties. This phase is marked by an act of will (not reasoning) and, therefore, if it is desired to use the adjective ‘inductive’ [. . .] it should be used in connection with the noun ‘behavior’ rather than ‘reasoning’.“ (Neyman (1952: 210), Hervorhebungen im Original.) “Without hoping to know whether each separate hypothesis is true or false, we may search for rules to govern our behaviour with regard to them, in following which insure that, in the long run of experience, we shall not often be wrong. Here, for example, would be such a ‘rule of behaviour’; to decide whether H of a given type be rejected or not, calculate a specified character, x, of the observed facts; if x > x0 , reject H, if x ≤ x0 , accept H. Such a rule tells us nothing as to whether in a particular case H is true [. . .] But it may often be proved that if we behave according to such a rule, then in the long run we shall reject H when it is true not more, say, than once in a hundred times, and in addition we may have evidence that we shall reject H sufficiently often when it is false.” (Neyman und Pearson 1933: 74)
Diese Grundhaltung fasst Neyman (1950: 1)111 zusammen: [. . .] the term ‘inductive reasoning’ remains obscure and it is uncertain whether or not the term can be conveniently used to denote any clearly defined concept. On the other hand [. . .] there seems to be room for the term ‘inductive behavior.’ This may be used to denote the adjustment of our behavior to limited amounts of information. The adjustment is partly conscious and partly subconscious. The conscious part is based on certain rules (if I see this happening, then I do that) which we call rules of inductive behavior. In establishing these rules, the theory of probability and statistics both play an important role, and there is a considerable amount of reasoning involved. As usual, however, the reasoning is all deductive.
Die Theorie des induktiven Verhaltens wird heute kaum noch vertreten. In einer Reihe von Artikeln hat sie Johnstone (1986, 1987b, 1988) geradezu seziert. Ein wesentlicher Grund ist, dass Wissenschaft viel weniger mit Verhalten oder optimierten Handlungsstrategien, als mit Theorien und Argumenten zu tun hat, die in enger Auseinandersetzung mit empirischen Befunden gewonnen werden. Johnstone (1986: 491) schreibt: Scientists, as opposed to ‘shopkeepers’112 interpret the results in their tests as measure of evidence. There is often not a decision in sight. And even if there is literally a decision pending, e.g. the decision whether or not to market a new drug, scientists require evidence; evidence that is relevant in that decision. Thus no matter what their situation, scientists want evidence, if only out of that same natural curiosity which so inevitably killed the cat. This is accepted by all but Neyman’s most loyal advocates. (Hervorhebung im Original.)
Danach zitiert er Pratt (1976: 782) als ein typisches Beispiel: “The real problem is statistical inference: we want an interpretation of the evidence inherent in the data on the questions of interest, including an expression of the uncertainty involved. We don’t want to go directly to decisions, conclusions, or behavior.” Ganz ähnlich äußert sich Fisher 1962 in einem Brief an James: 111 112
zitiert nach Hubbard und Bayarri (2003: 173)
Fußnote im Original: In Kyburg’s terms, Fisher denigrated Neyman’s interpretation as ‘statistics for shopkeepers’, e.g. Kyburg (1974: 76)
3.4 Forschungsstrategien II (Grundhaltungen)
119
“I think a good many are dissatisfied with mere ‘decisions’, which essentially evade the problem of specifying the nature of uncertainty, or the true grounds for belief. . .” (siehe Bennett (1990: 148)) Wie Johnstone durch gründliches Literaturstudium in den o.g. Artikeln, insbesondere in (Johnstone 1987b: 274ff), nachweist, hat sich selbst Neyman in der Praxis nicht an seine eigenen theoretischen Schriften gehalten. Das verheerende Ergebnis war und ist jedoch eine Verwirrung der Begriffe und Ideen, was nicht anders zu erwarten ist, wenn man induktive Evidenz (conclusions) mit deduktiven Entscheidungen (decisions) vermengt: N-P-theory is not a logical or adequate theory for inference.113 Aware of this, Neyman took on a Peircean114 behavioristic interpretation of statistical tests, eschewing the classical inferential interpretation espoused by Karl Pearson and R.A. Fisher. No more was it ‘scientific’ to speak of evidence, support, belief, or anything explicitly subjective. Instead, Neyman introduced the rhetoric of ‘accept’ or ‘reject’, ‘decide that..’ ‘decide to state that..’ and other meaningless formalisms115 (siehe Johnstone (1987b: 275)).
Die fundamentale Unterscheidung lässt sich auf den p-Wert versus das Fehlerniveau α verdichten. Da beide Konzepte interpretativ zwar vollkommen verschieden, mathematisch gesehen jedoch äußerst ähnlich sind, war das heutige Chaos geradezu vorprogrammiert.
Prinzipien der orthodoxen Statistik Die spezielle Theorie des induktiven Verhaltens ist Geschichte. An den oben zitierten Schlüsselpassagen und Beispielen lassen sich jedoch auch die zentralen Stützpfeiler der orthodoxen Statistik herausarbeiten, die bis heute das Denken bestimmen: 1. Möglichst alles wird im vorhinein festgelegt. 2. Ist man in der Lage, die Daten in einem statistischen Experiment kontrolliert zu erheben, so schafft man damit einen logischen Rahmen (weshalb man auch von experimental design spricht), in dem man die Daten auch (möglichst weitgehend) interpretiert. Das Verfahren ist also explizit, steuerbar und objektiv.116 3. Technisch gesehen spielt dabei der Stichprobenraum, also die Menge aller möglichen Stichproben, samt der dort definierten Verteilung, eine zentrale Rolle, weshalb man auch von sample space inference spricht. 113
Fußnote im Original: e.g. Seidenfeld [1979, Ch.2] extends the Hacking [1965] refutation.
114
Siehe S. 105 Fußnote im Original: De Finetti (1974b: 128) regarded [this language as . . .] ‘the principle cause of the fogginess widespread all over the field of statistical inference.’ 115 116
Die offensichtliche Willkür, die z. B. in der Konvention α = 1% steckt, fällt demgegenüber kaum ins Gewicht.
120
3 Klassische Statistik
4. Die konkret gemachte Beobachtung spielt hingegen kaum eine Rolle. Im Extremfall hat sie wie bei Popper nur eine einzige, zuvor genau definierte Aufgabe, nämlich innerhalb des festgelegten Rahmens eine auf der Empirie basierende Entscheidung zu fällen. 5. Die Qualität eines Verfahrens - nicht nur Tests - wird an dessen (hypothetisch) gutem Abschneiden “in the long run” festgemacht.117 Dadurch übernimmt man die Häufigkeitsinterpretation der Wahrscheinlichkeit (Reichenbach 1968: 346ff). Das heißt, man knüpft die Wahrscheinlichkeitsaussagen via dem Gesetz der großen Zahlen (S. 82) an die empirisch beobachteten Häufigkeiten, ein weiteres Merkmal von Objektivität (siehe aber S. 212). In der englischsprachigen Literatur wurde deshalb sogar die Bezeichnung frequentist statistics geprägt.118 6. Mit dem “long run” bewertet man statistische Verfahren analog der Zuverlässigkeit von Messinstrumenten bei deren wiederholtem Einsatz. Was wir Replikation genannt haben119 heißt bei Cox (2006: 197) Kalibrierung: Frequentist analyses are based on a single and powerful unifying principle. The implications of data are examined using measuring techniques [. . .] calibrated, as are other measuring instruments, indirectly by the hypothetical consequences of their repeated use.120
Diese Punkte haben historisch gesehen den Ausschlag gegeben. In den letzten 60 Jahren konnten Bayesianer und andere Kritiker noch so ausgefeilte Argumente gegen viele Details „frequentistischer“ Verfahren vorbringen. Letztlich waren es die Objektivität des Aufbaus, der Durchführung und der Interpretation, gepaart mit der empirischen Basierung der Wahrscheinlichkeitsaussagen, die die meisten Statistiker für die klassische Statistik und gegen die „subjektiven“ Bayesianer einnahmen. Neyman (1977) stellt die Vorzüge explizit heraus und Efron (1986: 4) folgt ihm darin gerne: The high ground of scientific objectivity has been seized by the frequentists.
Auch Royall (1997: 84f), ein führender Vertreter des konkurrierenden Likelihood-Ansatzes räumt ein: For one thing, [Neyman’s and Pearson’s] finding of the optimal test procedure made choosing a test an objective process, driven by the mathematics of size and power, rather than by the experimenter’s subjective judgements [. . .] and gives the experimenter two remarkable advantages: it provides precise, objective measures of the 117
Die Alternative, z. B. ein und denselben Test an verschiedenen Stichproben derselben Population tatsächlich mehrfach durchzuführen, spielt praktisch eine untergeordnete Rolle. 118 Mehr zur Interpretation von Wahrscheinlichkeiten siehe S. 261ff und vor allem Abschnitt 5.5.5. 119
Und Psychologen womöglich Retestreliabilität nennen würden Ganz ähnlich schreiben Hubbard und Bayarri (2003: 181): Frequentism aims at reporting measures of performance that behave nicely in the long run, in the sense that the average reported performance is no better than the long run actual performance of the statistical procedure. (Hervorhebungen im Original) 120
3.4 Forschungsstrategien II (Grundhaltungen)
121
probability of results that are misleading or otherwise unsatisfactory; and, even more important, it gives methods for controlling those probabilities.
Es ist sicherlich kein Zufall, dass sich der Mathematiker Neyman der philosophischen Aspekte der Statistik annahm. Nur dadurch war er in der Lage, seinen Ansatz auch auf der prinzipiellen Ebene gegen Kritik zu verteidigen. Und nur dadurch konnte er einen breiten Geltungsanspruch frequentistischer (und nicht zuletzt seiner) Methoden begründen, ja sogar einen Alleinvertretungsanspruch formulieren. Da er und seine Schule sich durchgesetzt haben, prägt diese Grundhaltung bis heute das Verhalten der Statistiker: The frequentist’s theory of inductive inference, called either the theory of inductive behavior, or the theory of statistical decision functions, or, more simply, the modern theory of statistics, is meant for application in all those cases where a stochastic model has been adopted to represent a given class of phenomena. (Neyman (1955: 17), meine Hervorhebung)
3.4.3 Der induktive Gegenpol Die Begründer der heute orthodoxen Statistik, vor allem R. A. Fisher und Neyman, waren sich des fundamentalen philosophischen Unterschieds bewusst. Im Gegensatz zum Mathematiker Neyman verstand sich Fisher zeitlebens als empirischer Wissenschaftler (vor allem im Bereich der Genetik), welcher statistische Methoden benutzte und (oft entscheidend) weiterentwickelte. Es gibt nicht nur zahlreiche Artikel und Aussagen Neymans über Induktion, auch Fisher hatte die im Allgemeinen von den empirischen Wissenschaften verwendete Methode im Auge. Neymans Testtheorie wurde von Fisher primär nicht aufgrund mathematischer Details sondern wegen ihrer „unangemessenen“ deduktiven Auffassung von Wissenschaft bekämpft.121 Eine echte induktive Statistik, ironischerweise auch der Titel vieler einschlägiger mathematischer Lehrbücher, war für ihn Programm. Einige typische Zitate aus Fisher (1973) mögen dies belegen: The concept that the scientific worker can regard himself as an inert item in a vast cooperative concern working according to accepted rules is encouraged by directing attention away from his duty to form correct scientific conclusions, to summarize them and to communicate them to his scientific colleagues, and by stressing his supposed duty mechanically to make a succession of automatic ‘decisions’ [. . .] The idea that this responsibility can be delegated to a giant computer programmed with Decision Functions belongs to a phantasy of circles rather remote from scientific research. (S. 104f) [. . .] for in fact no scientific worker has a fixed level of significance at which from year to year, and in all circumstances, he rejects hypothesis; he rather gives his mind to each particular case in light of his evidence and his ideas. (S. 45) 121
Die Auseinandersetzung zog sich über Jahrzehnte hin, siehe insbesondere Neyman (1961). Für eine knappe Kontrastierung der Positionen siehe Gigerenzer (2004).
122
3 Klassische Statistik
[. . .] The conclusions drawn from tests constitute the steps by which the research worker gains a better understanding of his experimental material [. . .] More recently, indeed, a considerable body of doctrine has attempted to explain, or rather to reinterpret, these tests on the basis of quite a different model, mainly as a means to making decisions in an acceptance procedure. The differences between these two situations seem to the author many and wide, and I do not think it would have been possible had the authors of this reinterpretation had any real familiarity with work in the natural sciences, or consciousness of those features of an observational record which permit of an improved scientific understanding [. . .] (S. 79f) In choosing the grounds upon which a general hypothesis should be rejected, personal judgement may and should, properly be exercised. The experimenter will rightly consider all points, on which, in the light of current knowledge, the hypothesis may be imperfectly accurate, and will select tests so far as possible, sensitive to those faults, rather than to others. (S. 50)
Es ist charakteristisch, dass sich die fundamentalen Unterschiede an technischen Details festmachen lassen. Von den meisten Statistikern wird dies als Nachteil empfunden, denn wer möchte im Alltagsgeschäft schon ständig von prinzipiellen Problemen verfolgt werden? Andererseits kommt man nicht umhin, sich den fundamentalen Problemen zu stellen, und von unserer Warte aus gesehen ist es ein großer Vorteil, wenn sich vage prinzipiell-philosophische Positionen leicht fixieren lassen. Vergleichen wir diesbezüglich die verschiedenen Testverfahren, so könnte der Kontrast zu Neyman und Pearson kaum größer sein. Geht man von den Daten aus, so steht zunächst einmal der Einzelfall im Mittelpunkt. Was lässt sich aus den vorliegenden Daten lernen, welche Information lässt sich aus ihnen extrahieren, sind die naheliegendsten Fragen. In Fisher (1955: 73f) heißt es ganz deutlich: In an acceptance procedure [. . .] acceptance is irreversible, whether the evidence for it was strong or weak. It is the result of applying mechanically rules laid down in advance; no thought is given to the particular case, and the tester’s state of mind, or his capacity for learning is inoperative.
Datengetriebene Analysen handeln kaum von Entscheidungen nach Regeln oder Optimalitätskriterien samt den zugehörigen Beweisen, als vielmehr von plausiblen, induktiven Schlussfolgerungen. Fishers Gedanke, die Evidenz des Experiments im p-Wert zu kumulieren ist ein typischer Ansatz dieser Richtung. Der p-Wert quantifiziert in einer einzigen Maßzahl die gesammelte Evidenz des speziellen Experiments. Es ist sodann völlig natürlich, die Ergebnisse, also insbesondere die p-Werte, einer Reihe von Experimenten zusammenzufassen. Damit hat Fisher bereits begonnen122 und die Metaanalyse (siehe S. 103) ist eine konsequente Folge dieser Geisteshaltung. Ein Vor- und ein Nachteil der induktiv-datengetriebenen Sicht ist, dass die Interpretation des p-Werts, aber auch die Kombination der Evidenz, von der konkreten Situation abhängig ist, und deshalb letztlich in die Verantwortung des Anwenders gelegt wird. Das hierbei explizit erscheinende subjektive 122
Er empfahl z. B. das Produkt der p-Werte aller Experimente
3.4 Forschungsstrategien II (Grundhaltungen)
123
Element zeigt sich z. B. darin, dass ein Autor bei der Gestaltung einer Metaanalyse große Freiheiten genießt und es bei einem Signifikanztest keinen festliegenden Annahmebereich gibt. Likelihood-Überlegungen sind eng verwandt - diese subsummieren die gesammelten Informationen im Likelihood-Quotienten bzw. allgemeiner der Likelihoodfunktion. Zwar kann man hier, wie wir zuvor (S. 97) bemerkt haben, deduktiv und induktiv vorgehen, doch verzichtet der Likelihood-Ansatz typischerweise auf die explizite Angabe eines Ablehnungsbereichs. Weit üblicher ist es, den numerischen Wert des Quotienten q (siehe S. 96) anzugeben, verbunden mit einer groben Einteilung der Stärke der Evidenz,123 die von „schwach“ bis „sehr stark“ reicht. Diese quantitative oder zumindest (ordinal) geordnete Art, die Stärke von Evidenz zu unterteilen, ist sicherlich informativer als eine Null-Eins-Entscheidung. Zudem basiert die Kette der mathematischen Argumente auf dem tatsächlich beobachteten Wert x. Eine induktive Haltung legt Wert darauf, Beobachtung für Beobachtung aus der Erfahrung zu lernen, d.h. unsere Überzeugungen ändern sich mit der sich akkumulierenden Erfahrung. Der Bayessche Ansatz greift genau dies auf und interpretiert demgemäß Wahrscheinlichkeiten zunächst einmal als Grade der subjektiven Überzeugung, die sich im Licht neuer Erkenntnisse (also Daten) langsam ändern. Goodman (1999b: 1005) grenzt beide Ideen gegeneinander ab: [There is] the widespread misconception that the only utility of the Bayesian approach is a belief calculus. What is not appreciated is that Bayesian methods can instead be viewed as an evidential calculus.
Die Anzahl der Beobachtungen zu fixieren und eine 0-1-Entscheidung zu treffen, sobald die Posteriori-Wahrscheinlichkeiten P (Hi |x1 , . . . , xn ) eine feste Schranke überschreiten, widerstrebt dem Bayesschen Ansatz deshalb noch mehr als dem Likelihood-Argument. Viel natürlicher ist es, die sich in P (H0 |x1 ), P (H0 |x1 , x2 ) sammelnde Erfahrung so lange zu verfolgen, bis die Posteriori-Wahrscheinlichkeiten eindeutig in die eine oder andere Richtung tendieren. Wenn eine obere Schranke k1 , z. B. k1 = 0, 95, überschritten wird, wird man dann mit gutem Grund H0 präferieren. Im gegenteiligen Fall, etwa wenn die untere Schranke k2 = 0, 1 unterschritten wird, sind hingegen eher Zweifel an der H0 angebracht. Das entspricht der intuitiven Vorstellung, mit großer Sicherheit eine richtige Entscheidung treffen zu können, wenn genügend Information aufgelaufen ist.
Der Status Quo Fisher stand und steht mit seiner Grundauffassung nicht allein. Im Gegenteil, seine Zeitgenossen und Vorgänger, wie Gosset, Galton und K. Pearson verstanden sich alle als empirisch arbeitende Wissenschaftler, die Daten erhoben, 123
Siehe z. B. (Goodman 1999b: 1006, 1008).
124
3 Klassische Statistik
analysierten und interpretierten. Sie waren sich einig, dass quantitative Methoden, wo immer anwendbar, von Vorteil sind und gaben damit die Richtung vor. Doch waren für sie mathematische Argumente und der Wahrscheinlichkeitstheorie entliehene Methoden immer Werkzeuge zum Zweck der Datenanalyse. Dementsprechend ging es ihnen weniger um mathematisch-logische Deduktionen, als vielmehr um die Lösung wissenschaftlicher Fragestellungen, den Erkenntnisgewinn aus Experimenten bzw. allgemein, um das Lernen aus Erfahrung. Sie vertraten also, kurz gesagt, einen dezidiert empiristisch-induktive Grundhaltung, die K. Pearson (1892) sogar explizit darstellte.124 In der Nachfolge von Fisher waren es vor allem angewandte britische Statistiker (Barnard, Box, Chatfield, Cox, Good, Lindley), die ihn weiterhin vertraten und nie die tiefschürfenden „fundamentalen“ Probleme der Statistik aus den Augen verloren. Der bald ausführlicher zu besprechende Bayesianische Ansatz betont auch heute noch die wesentlichen wissenschaftstheoretisch-philosophischen Unterschiede und leitet aus ihnen seine Art, Statistik zu betreiben, ab.125 Ganz anders der statistische Mainstream, sowohl in Theorie als auch Anwendung. Nach endlosen, ziemlich fruchtlosen Debatten über die „Fundamente“ konzentrieren sich „konventionelle“ Statistiker auf konkrete Problemstellungen und -Lösungen, technische Fortschritte (sowohl was statistische Verfahren als auch Computer anbelangt) und natürlich mathematische Resultate. Es ist geradezu verpönt, prinzipiellere, philosophische Fragen zu stellen. Enttäuscht schreibt Dawid (2000: 326): It was the deep logical and philosophical conundra that beset the making of inductive inferences from data that attracted me into statistics [. . .] But I have always been disappointed that so few other statisticians seem to share my view of statistics as ‘applied philosophy of science’, and even that small number seems to be dwindling fast.
Bemerkenswerterweise betonen Autoren am Rand der klassischen Statistik, welche mit wesentlichen Neuerungen aufzuwarten haben, dezidiert die Bedeutung der induktiven Erkenntnisrichtung. Dies gilt insbesondere für die außerordentlich beeindruckenden Entwicklungen auf den Feldern des Data Mining, der kausalen Netze und der Informationstheorie samt den ihnen nahestehenden Anwendungsgebieten. Siehe dazu insbesondere die Abschnitte 4.6.2, 5.4.1 und 5.5. Mit Blick auf diese Entwicklung fährt Dawid fort: [. . .] there are increasing numbers of researchers in artificial intelligence and machine learning who are taking foundational issues extremely seriously and are conducting some very original and important work. It is ironic that, as statisticians devote more of their effort to computing, so computer scientists are applying themselves to statistical logic. 124 125
Man denke auch an die Titel der wichtigsten Bücher Fishers (1966, 1970, 1973).
Mehr noch: Viele Vertreter dieser Schule gründen darauf - wieder - einen Alleinvertretungsanspruch.
3.5 Parametrische Statistik
125
Zwei herausragende Beispiele hierfür sind Li und Vitányi (2008) und Pearl (2009a). Hingegen ist Reid (1995: 194) sehr typisch für den statistischen Mainstream. Zur bedingten Inferenz (siehe S. 403ff) schreibt sie nach einer langen, intensiven Diskussion nur: “I tried to avoid as much as possible a discussion of the foundations of inference, as I find their study confusing.” 126 Der Kontrast zu den Gründervätern der heutigen Statistik könnte größer nicht sein. Sie stellten sich explizit dem fundamentalen Problem der statistischen Inferenz und Induktion. Ihre gerade besprochenen Argumente im Rahmen der Testtheorie sind dabei nur ein kleiner Ausschnitt des gesamten Spektrums statistischer Fragestellungen, die immer mit tieferen „philosophischen“ Problemen, insbesondere der Induktion, einhergingen. Im folgenden wollen wir einige typische Generalisierungen in der Statistik vorstellen. Viele Autoren verstehen sogar das ganze Projekt der Statistik als den am weitesten ausgearbeiteten Versuch, fundiert(e) induktive Schlüsse zu ziehen. So schreibt Basu (1979: 324): “Data interpretation is not an objective scientific method. There cannot be a mindless weighing of evidence.” Wenige Jahre früher (Basu 1971: 244) sagt er noch pointierter: If we define mathematics as the art and science of deductive reasoning [. . .] then statistics (the art and science of induction) is essentially anti-mathematics. A mathematical theory of statistics is, therefore, a logical impossibility!
Wir vertiefen diesen Gesichtspunkt in Abschnitt 5.1 im Rahmen des allgemeinen Induktionsproblems. Zunächst verfolgen wir eine etwas komplexere, dafür aber auch erheblich flexiblere Idee Fishers, Daten mithilfe übersichtlich strukturierter Modelle auszuwerten. Konkret bedeutet das, das IIDGrundmodell (Abschnitt 3.1) geeignet zu verfeinern, was wir in den nächsten beiden Abschnitten tun wollen.
3.5 Parametrische Statistik The KISS principle: Keep things simple and smart127 126
Sie fährt fort: “However, it is difficult to delve very deeply into a study of conditional inference without coming up against foundational aspects, and Dawid and Goutis quite rightly raise some troubling issues.” Die Schlussfolgerung am Ende ihres Abschnitts über foundations ist bemerkenswert und folgerichtig: “[. . .] conditioning seems to be a convenient tool for a number of different purposes [. . .] most of the principles that statisticians espouse fail in one aspect or another, but luckily a pragmatic approach to problems seems to be fairly effective in applications. Still it is vaguely unsettling to be unable to pin the discipline down on a principled foundation.” (Meine Hervorhebungen) Viele haben darauf hingewiesen, dass der so fixierte Unterschied genau jener zwischen nützlicher Technik und fundierter Wissenschaft ist. Man vergleiche die gerade gebrachten Ausführungen z. B. mit jenen von Rissanen, S. 519. 127 Es gibt viele Varianten hiervon, etwa small and simple, simple and straightforward, sweet and simple, speckless and sane, sober and significant sowie natürlich keep it simple, stupid! Siehe insbesondere die deutsche und die englische Wikipedia zu diesem Stichwort.
126
3 Klassische Statistik
Wir haben schon des öfteren betont, wie wichtig es ist, zu detaillierten, quantitativen Aussagen zu kommen. Dem entsprechend ist anzunehmen, dass gewisse Verteilungsfunktionen wichtiger sind als andere. Insbesondere sollte man oft in der Lage sein, mittels weniger sogenannter Parameter ein stochastisches Modell, d.h. eine Verteilungsfunktion oder Familie von Verteilungsfunktionen, festzulegen. Genau dies ist eine der genialen Ideen des jungen Fisher (1922, 1925). Die mit Abstand wichtigste Verteilung ist die Normalverteilung, gegeben z. B. durch ihre Verteilungsfunktion
x (t−μ)2 1 Φμ,σ (x) = √ e− 2σ2 dt 2πσ −∞ mit dem Lage-Parameter μ und dem Streuungs-Parameter σ, die sich wohl in (fast) jedem Statistikbuch findet.128 Der Lageparameter μ gibt physikalisch gesprochen den Schwerpunkt der Verteilung an, die Varianz σ 2 das Drehmoment. Das ist typisch: Zumeist spiegeln sich in den Parametern wichtige Eigenschaften der jeweiligen Verteilungsfunktion wider. Neben der Normalverteilung gibt es noch Dutzende weitere mehr oder minder wichtige parametrische Modelle, die sowohl alltäglich benutzt als auch theoretisch intensiv analysiert werden. Nahezu erschöpfende Auskunft geben die ebenso zahl- wie einflussreichen Bände von Johnson und Kotz - sowie mittlerweile einiger weiterer Koautoren - über “Distributions in Statistics”, z. B. Johnson et al. (1994, 1995, 2005). Parametrische Modelle haben nicht nur den großen Vorteil, genauere Aussagen zu ermöglichen als nichtparametrische. Sie sind auch technisch weit leichter beherrschbar, da es sich in aller Regel um reellwertige Zahlen oder Zahlbereiche handelt. Im allgemeinen Fall muss man hingegen mit großen Familien ziemlich willkürlicher Verteilungsfunktionen zurecht kommen. Die Einfachheit hat jedoch auch einen Nachteil: Parametrische Modellannahmen sind weit einschränkender als nichtparametrische. Es sind die konkreten, sehr weitreichenden Verteilungsannahmen, die parametrische Modelle weit enger werden lassen als nichtparametrische. Wie in der Messtheorie erkauft man sich also den mathematischen Vorteil durch den Nachteil, dass ein parametrisches Modell in der Anwendung oft nicht adäquat sein wird. Es weist bildlich gesprochen nur eine eingeschränkte Flexibilität auf, und man muss damit rechnen, dass diese der Realität nicht gerecht wird.129 128
Man schreibt prägnant X ∼ N (μ, σ) für eine Zufallsvariable X mit dieser Verteilung. Sind die Parameter also fest - konkrete, konstante Zahlenwerte - so hat man es mit einer Verteilung zu tun. Betrachtet man sie als variabel, so kommt man zu einer ganzen Familie eng verwandter Verteilungen. Die Normalverteilung hat die bemerkenswerte Stabilitätseigenschaft, dass die Summe zweier unabhängiger, normalverteilter Zufallsvariablen wieder normalverteilt ist. q Genauer: Ist X1 ∼ N(μ1 , σ1 ) und X2 ∼ N(μ2 , σ2 ), dann ist X1 + X2 ∼ N (μ1 + μ2 , 129
σ12 + σ22 ).
Zwar heißt es, alles sei normalverteilt, doch ist das natürlich nicht der Fall. Man denke an radioaktive Zerfälle (näherungsweise Poissonverteilt), das Würfeln (diskrete Zufallsva-
3.5 Parametrische Statistik
127
Schätzverfahren Im Rahmen parametrischer Modelle besteht die Hauptaufgabe der Statistik darin, mithilfe der Beobachtungen die fraglichen, zunächst unbekannten Parameter (näherungsweise) zu identifizieren.130 Aus naheliegenden Gründen bezeichnet man diesen Vorgang als Schätzung und das arithmetische Mittel der Einzelwerte wäre ein Schätzer des Parameters μ, in Zeichen: μ ˆ=μ ˆ (x1 , . . . , xn ). Besonderes Interesse galt und gilt allgemein anwendbaren Verfahren, die sehr häufig optimale oder zumindest in der Praxis brauchbare Ergebnisse liefern. Beim Schätzen heißt das: Wie kann man routinemäßig „gute“ Schätzer konstruieren? Hier ist das Verfahren der Maximum-Likelihood-Schätzung von überragender Bedeutung, was nicht verblüfft, wenn man vom obigen Grundmodell ausgeht: Es sei eine Familie von Verteilungen gegeben, welche sich durch wenige Parameter beschreiben lasse. Nehmen wir z. B.131 die hypergeometrische Verteilung HW,S mit den Parameter W, S. Dabei bezeichnen W und S die Anzahl von weißen bzw. schwarzen Kugeln in einer Urne. pW,S (w, s) sei die Wahrscheinlichkeit, genau w weiße und s schwarze Kugeln aus einer solchen Urne zu ziehen. Man berechnet W S W +S pW,S (w, s) = / (3.1) w s w+s
mit den Binomialkoeffizienten nk = n!/(k! · (n − k)!) und n! = 1 · 2 · . . . · n. Es sei bekannt, dass W ≤ 7 und S = 5 gilt, und es werde eine Stichprobe vom Umfang n = w + s aus der Urne gezogen. Mithilfe dieser Daten soll die Gesamtanzahl W der weißen Kugeln in der Urne geschätzt werden. Mit den bekannten Wahrscheinlichkeiten aus (3.1) erhält man die folgende Tabelle: riable) oder Variablen, die nur nichtnegative Werte annehmen. Zwischen parametrischen und nichtparametrischen Modellen stehen, wie der Name schon andeutet, sogenannte semiparametrische Ansätze, die die Vorteile „beider Welten“ zu kombinieren suchen (Härdle et al. 2004). 130 Am wichtigsten ist der Erwartungswert μ = E(X) bzw. kürzer μ = EX einer ZufallsPn variablen X. Nimmt diese nur endlich viele Werte an, so ist μ = i=1 xi · p(X = xi ). Als Streuungsmaß ist die Varianz σ 2 = σ 2 (X) am wichtigsten. Im Fall einer Zufallsvariablen X, die nur endlich viele Werte annimmt, hat man σ 2 = E(X − EX)2 = Pn 2 i=1 (xi − μ) · p(X = xi ). Der Erwartungswert ist linear, d.h. mit Konstanten a, b gilt immer E(aX + b) = aE(X) + b. Für die Varianz hat man σ 2 (aX + b) = a2 σ 2 (X). Von großer Bedeutung ist zudem die Varianzzerlegung σ 2 (X) = σ 2 (E(X|Y )) + E(σ 2 (X|Y )). Weitere Eigenschaften finden sich z. B. in Krengel (1988: Abschnitte 3.3 und 3.5). 131 Das nachfolgende Beispiel wurde Krengel (1988: 62f) entnommen.
128
3 Klassische Statistik
w W 0 1 2 3 4 5 6 7
0 1 0,167 0,047 0,018 0,008 0,004 0,002 0,001
1 0 0,833 0,476 0,268 0,159 0,099 0,065 0,044
2 0 0 0,476 0,536 0,476 0,397 0,325 0,265
3 0 0 0 0,179 0,317 0,397 0,433 0,442
4 5 Summe 0 0 1 0 0 1 0 0 1 0 0 1 0,040 0 1 0,099 0,004 1 0,162 0,013 1 0,221 0,026 1
Da in jeder Zeile eine Wahrscheinlichkeitsverteilung steht, ist die Summe jeder Zeile genau Eins. Offenkundig können nicht mehr weiße Kugeln in der Stichprobe zu finden sein, als insgesamt weiße Kugeln in der Urne liegen, so dass die Wahrscheinlichkeit immer gleich Null wird, sobald w > W ist. Die Maximum-Likelihood-Schätzung wechselt nun einfach die Perspektive. Statt der Zeilen betrachtet sie die Spalten, genau gesagt diejenige Spalte, welche tatsächlich beobachtet wurde. Enthielt die Stichprobe zum Beispiel 5 weiße Kugeln, so sind nur die Zahlen der vorletzten Spalte, also neben den Nullen 0, 004; 0, 013 sowie 0, 026 von Belang. Die Maximum-LikelihoodSchätzung des unbekannten W , bedingt unter der Beobachtung w = 5, ist ˆ = 0, 026, also das Maximum dieser Zahlen. Der Name “Likelihood”, als „an W der Wahrscheinlichkeit orientierter Plausibilität“ rührt daher, dass man nicht - zeilenweise - die Beobachtungen x als Funktion des Parameter θ betrachtet, welches genau die Wahrscheinlichkeiten pθ (x) sind, sondern - spaltenweise den unbekannten Parameter als Funktion der bekannten Beobachtung, also lx (θ). Genau dies ist die bereits des öfteren erwähnte Likelihoodfunktion. Zahlenmäßig ist natürlich bei festem θ und x gerade pθ (x) = lx (θ). Schaut man über die Statistik hinaus, so kann man in der Maximum-LikelihoodSchätzung ein konkretes Verfahren im Geiste eines Schlusses auf die beste Erklärung sehen.132 Unter allen überhaupt in Betracht gezogenen Möglichkeiten wird die in einem natürlichen Sinne beste Alternative ausgewählt. Das Prinzip der Maximum-Likelihood-Schätzung lässt sich ganz allgemein anwenden. Wird die Familie der Verteilungen etwa durch Wahrscheinlichkeitsdichten repräsentiert, wie im wichtigsten Fall der Normalverteilung, so gelangt man durch (Logarithmieren und) einfaches Differenzieren am schnellsten zur Lösung, also zum Maximum-Likelihood-Schätzer eines gesuchten Parameters. In vielen Fällen ist der Maximum-Likelihood-Schätzer sehr gut oder sogar optimal.133 132 133
Engl.: inference to the best explanation, oft IBE abgekürzt
Siehe z. B. Pawitan (2001), insbesondere S. 101 sowie die Kapitel 3 und 9. Einen guten Überblick gibt Held (2008). Wichtige Erweiterungen besprechen wir S. 144, S. 475ff und S. 475.
3.6 Wichtige klassische Modelle
129
3.6 Wichtige klassische Modelle Linear models are a basic component of statistics. (Nelder 1994: 221)
3.6.1 Eine Umformulierung des Grundmodells Das IID-Grundmodell wird gerne in der folgenden Form eingeführt. Die Zufallsvariablen X1 , . . . , Xn seinen unabhängig und identisch verteilt und haben die Gestalt Xi = μ + Ui für i = 1, . . . , n.
(3.2)
Das heißt, die Daten setzen sich additiv aus dem (unbekannten) „wahren“ Wert μ und einem (ebenfalls unbekannten) „Fehler“ Ui zusammen. Die Vorstellung ist - in völligem Gegensatz zur Messtheorie - dass eine Beobachtung x = μ + dadurch charakterisiert ist, dass der tatsächliche Wert μ von einem unsystematischen „Rauschen“, der oftmals unvermeidbaren Messungenauigkeit (also dem konkreten Wert Ui = ) überlagert wird. Da sich jede Zufallsvariable X mit endlichem Erwartungswert μ in der Form (3.2) schreiben lässt, stellt das obige Modell zudem mathematisch gesehen keine wesentliche Einschränkung gegenüber der IID-Prämisse dar.134 μ ist für alle Beobachtungen gleich, d.h. konstant. Dies ist gleichbedeutend damit, dass die Messfehler unabhängig und identisch verteilt sind. Typischerweise wird (nichtparametrisch) vorausgesetzt, dass diese den Erwartungswert 0 und eine endliche Varianz besitzen. Sehr häufig kann man (parametrisch) davon ausgehen, dass die Fehler normalverteilt sind. Mit diesen Annahmen ergibt sich, dass man mit wachsendem n dem unbekannten Wert des Parameters beliebig nahe kommen kann, denn mit den Rechenregeln für die Varianz ¯ = n Xi /n sofort: und den Erwartungswert (siehe S. 127) ergibt sich für X i=1 √ ¯ = μ, σ2 (X) ¯ = σ 2 /n und σ(X) ¯ = σ/ n EX (3.3) So „harmlos“ die letzte Formel aussieht, so durchschlagend ist sie: σ ist ein Maß dafür, wie sehr der wahre Wert μ bei der Beobachtung „verschwimmt“. Je größer σ, desto mehr streuen die beobachteten Werte x1 , . . . , xn um den tatsächlichen Wert μ. Die Formel zeigt, warum n Beobachtungen erheblich besser sind als eine einzige: Weil man mit ihrer Hilfe den wahren Wert μ viel genauer erkennt. Hat eine Beobachtung die Streuung σ, so sinkt dieser Wert bei 25 Beobachtungen auf σ/5, und bei 100 Beobachtungen ist die Streuung 134
Der einzige Unterschied zwischen der Verteilung des Fehlers ε und der Daten X ist, dass der Erwartungswert des Fehlers aufgrund von EU = EX − E(μ) = μ − μ = 0 ist. Anders gesagt: Man erhält die Verteilung des Fehlers, in dem man den Schwerpunkt der Verteilung - also den Erwartungswert der Zufallsvariablen - in den Ursprung verschiebt.
130
3 Klassische Statistik
auf ein Zehntel ihres Ausgangswertes zurückgegangen. Asymptotisch (n → ∞) lässt sich der Wert von μ sogar exakt erkennen!135 Die Statistik verdankt ihre Flexibilität und damit auch einen Teil ihres empirischen Erfolges nicht zuletzt der Tatsache, dass sich (3.2) geradezu extrem verallgemeinern lässt. Zudem stellen die zuvor beschriebenen mathematischen Techniken sicher, dass sich die so gewonnenen Modelle (fast) so einfach routinemäßig - zumindest näherungsweise - lösen wie aufstellen lassen. Zuweilen wird deshalb die Statistik als Ganzes mit der Analyse von Variation gleichgesetzt: “[. . .] the use of probability to describe variation.” (Fraser 1976: 2). Zur nun folgenden Skizze orthodoxer statistischer Modellbildung passt auch Galton (1889: 3), zitiert nach Stigler (1986: 8), vortrefflich: The road to be travelled over [. . .] is full of interest in its own. It familiarizes us with the measurement of variability, and with curious laws of chance that apply to a vast diversity of social subjects. This part of the inquiry may be said to run along a road on a high level, that affords wide views in unexpected directions, and from which easy descents may be made to totally different goals to those we have now to reach.
3.6.2 Varianzanalyse Bei der Varianzanalyse - oft ANOVA für analysis of variances abgekürzt - werden die Beobachtungen nicht nur in eine Konstante μ plus Fehler ε zerlegt, sondern es gibt noch eine Reihe weiterer Konstanten αi , woraus sich das additive Modell Xi,k = μ + αi + Ui,k
(3.4)
für i = 1, . . . , p ergibt.136 „Die Zahl μ kann als allgemeines ‚Mittel‘, die Zahl αi als Wirkung der i-ten Stufe des Faktors A angesehen werden, während sich Ui,k als (zufälliger) Versuchsfehler interpretieren lässt.“ 137 Typischerweise ist A ein vom Experimentator kontrollierter Faktor, der mehrere Ausprägungen kennt. Da der Erfinder der Varianzanalyse, R. A. Fisher, auch in der Biologie und Pflanzenzucht arbeitete, handelte es sich ursprünglich z. B. um verschiedene Felder, Umweltbedingungen oder genetische Varietäten, die einen Einfluss auf den Ertrag haben. Die Varianzanalyse hat ihren Namen daher, dass sich aufgrund der Zerlegung (3.4), auch die Varianz in den erklärten Anteil „zwischen den Stufen“ und ein Residuum „innerhalb der Stufen“ zerlegen lässt. Etwas genauer: In Stufe i ist μi = E(X|i) = μ+αi und σi2 = σ 2 (X|i) = E((X|i)−μi )2 bezeichne 135
Sind die Xi unabhängig und alle gemäß B(p) verteilt, so ist μ = p und erhält man auf diesem Weg erneut das Gesetz der großen Zahlen (S. 82). 136 Für eine tiefergründigere Diskussion des Verfahrens siehe S. 110ff 137
Siehe Müller (1991: 462ff), der viele weitere Aspekte der Varianzanalyse bespricht.
3.6 Wichtige klassische Modelle
131
die bedingte Varianz dort. Dann gilt138 σ 2 (X) = σ 2 (E(X|i)) + E(σ 2 (X|i)) = σ 2 (μi ) + E(σi2 ) = E(αi2 ) + E(σi2 ). Die Terminologie erklärt versus residual wird klar, wenn man bedenkt, dass die Unterschiede zwischen den αi struktureller Natur sind, etwa weil die Dosis i eines Medikaments eine andere Wirkung αi entfaltet als die Wirkung αj der Dosis j. Werden hingegen eine Reihe von Personen mit derselben Dosis i behandelt, so sind die beobachteten Unterschiede zwischen ihnen nur auf Ui,k zurückführbar, also auf eine nicht weiter aufgeschlüsselte Variabilität zwischen den Personen. Ein Effekt ist umso leichter festzustellen, je mehr sich die Stufen untereinander unterscheiden (z. B. μ1 μ2 ) und je geringer zugleich die Variabilität innerhalb der Stufen ist (alle σi klein). Ein probates Mittel, um die „unerwünschte“ Variabilität klein zu halten, ist, möglichst homogenes „Material“ 139 zu verwenden. Xi,j,k = μ + αi + βj + Ui,j,k ist die naheliegende Verallgemeinerung des Modells auf zwei (typischerweise experimentell kontrollierte) Faktoren A und B. Auch sogenannte Interaktionen, gerne als AB notiert, lassen sich bei einer geschickten Versuchsplanung isolieren. Dazu stelle man sich ein großes Feld vor, wobei in West-Ost-Richtung der Düngereinsatz stufenweise erhöht wird und in Nord-Süd-Richtung die Bewässerung. Eine Analyse mittels des hierfür gemachten Modells Xi,j,k = μ + αi + βj + (αβ)i,j + Ui,j,k deckt dann auf, welche Kombination von Dünger und Bewässerung besonders wirkungsvoll ist. (Zum Beispiel: sehr viel gießen, eher wenig düngen.) Es dürfte klar sein, dass sich auf diese Weise noch weit kompliziertere Modelle konstruieren lassen. Insbesondere gibt es Modelle mit vielen Faktoren, hierarchisch angeordneten Faktoren (sogenannte “nested designs”) und Modelle, in denen nicht alle Faktorkombinationen auch wirklich experimentell geprüft werden. (Man spricht von lateinischen und griechischen Quadraten, wenn nur ganz spezielle Faktorkombinationen experimentell getestet werden.) Der Terminus technicus für die Kunst, mit möglichst wenig experimentellem Aufwand möglichst viele Effekte zu entdecken, heißt, wie schon am Rande erwähnt, experimentelles Design,140 wurde von Fisher (1966) systematisch entwickelt und gilt bis heute als die bestmögliche Art, statistische Schlüsse zu ziehen. Wesentliche Ideen gehen zudem auf Gosset141 zurück. Eine klassische 138
Siehe S. 127
139
Also Personen, Tiere, Pflanzen. . . Allgemein spricht man völlig neutral von statistischen Einheiten 140
Engl.: experimental design
141
etwa (Gosset 1931)
132
3 Klassische Statistik
Übersicht bieten Rasch et al. (1978), aber auch jedes traditionelle Statistiklehrbuch der Sozialwissenschaften wie Bortz (2004). Eine echte konzeptionelle Erweiterung bringt die folgende Überlegung: Alle bislang vorgestellte Modelle gehen von sogenannten „festen Faktoren“ aus. Nun ist es auch möglich, die Faktoren A bzw. B als Zufallsvariablen aufzufassen, d.h., die gewählten experimentellen Bedingungen α1 , α2 usw. sind lediglich gewisse Realisierungen derselben. Im Allgemeinen nimmt man an, dass es sich bei den αi um Beobachtungen unabhängiger, normalverteilter Zufallsvariablen Ai mit gemeinsamer Varianz und Erwartungswert Null han2 delt, also Ai ∼ N (0, σA ), so dass man als Modell Xi,j = μ + Ai + Ui,j 2 mit den unabhängigen, zufälligen Fehlern Ui,j ∼ N (0, σU ) bzw.
Xi,j,k = μ + Ai + Bj + (AB)i,j + Ui,j,k 2 bei einem weiteren Faktor Bj (mit Bj ∼ N (0, σB )) sowie Interaktionen ABi,j 2 2 (mit ABi,j ∼ N (0, σAB )) und dem unabhängigen Fehler Ui,j,k ∼ N (0, σU ) 142 anschreiben kann.
3.6.3 Regressionsanalyse Die wohl bedeutendste Klasse von Verfahren, zumindest in den Wirtschaftswissenschaften, sind die nachfolgend vorgestellten Regressionsanalysen.143 Im einfachsten Fall der linearen Regression ersetzt man die Konstante μ in (3.4) durch eine lineare Funktion, also die Gerade ax + b. Dadurch erhält man für die Beobachtungen144 xi,k = b + axi + εi,k .
(3.5)
Zumeist schreibt man yi statt xi,k , da je Person bzw. statistischer Einheit das Wertepaar (xi , yi ) beobachtet wird. Die Parameter a und b werden mit dem Kriterium der kleinsten Quadrate festgelegt. Das heißt, man minimiert die Abweichung der geschätzten Werte yˆi = axi + b von den beobachteten Werten yi , im folgenden Sinne: 142
Man beachte, dass auch diese Argumentation aufgrund der S. 127 genannten Zerlegung σ 2 (X) = E(σ 2 (E(X|Y )) + σ 2 (X|Y )) zum Ziel führt. 143
Für Details siehe wieder Müller (1991: 329ff) und Fahrmeir et al. (1996: Kapitel 4). Zur historischen Entwicklung siehe insbesondere Freedman (1997) und Morgan und Winship (2007). 144
Man könnte das Modell auch problemlos wie oben mit Zufallsvariablen schreiben.
3.6 Wichtige klassische Modelle n
(ˆ yi − yi )2 −→ M inimum!
133
(3.6)
i=1
Diese Art der Schätzung ist fast so bedeutsam wie die Maximum-LikelihoodSchätzung und wird gerne mit OLS (für Ordinary Least Squares) abgekürzt. Wieder ist eine Streuungszerlegung nach dem Muster der Varianzanalyse möglich. Den Quotienten aus erklärter und gesamter Varianz nennt man hier passenderweise Bestimmtheitsmaß. Es gibt an, wie gut das Modell zu einem konkreten Datensatz passt bzw. wie groß der Fehler ist, wenn man die Daten durch das Modell ersetzt. Dieses Grundmodell lässt sich in mindestens sechs Richtungen erweitern.145 Wir schreiben „mindestens“, da es sich bei der Regressionsanalyse um ein nach wie vor dynamisches Forschungsgebiet handelt, das ständig wesentlich erweitert wird: 1. Wie bei der Varianzanalyse können statt einer sogenannten „unabhängigen Variablen“ x eine ganz Reihe von Variablen x(1) , x(2) , . . . berücksichtigt werden.146 Man spricht dann von multipler linearer Regression und jeder, der ein beliebiges Lehrbuch der Ökonometrie aufschlägt, wird hierzu reichhaltige Informationen finden.147 2. Nichtlineare Ansätze. Das heißt, anstelle der Geraden yˆ = f (x) = ax + b bzw. yˆi = axi + b kommen nichtlineare Funktionen zum Einsatz. Besonders beliebt sind die Parabel, also f (x) = a + bx + cx2 , Polynome, also f (x) = a0 + a1 x + a2 x2 + . . . + ar xr , die Potenzfunktion, also yˆ = axb , wobei a, x > 0, der exponentielle Ansatz, also yˆ = abx , wobei a, b > 0 sowie die logistische Funktion, also yˆ = k/(1 + ea+bx ) mit b < 0 und der „Sättigungsgrenze“ k. 3. Die Kombination der ersten und zweiten Erweiterung führt zum verallgemeinerten linearen Modell yˆ = h(a1 x(1) + . . . + ap x(p) ) mit der (mathematisch hinreichend „schönen“) Responsefunktion h und der Linkfunktion h−1 .148 Zur Auswahl relevanter ai , also solcher Faktoren, die einen großen Einfluss auf die abhängige Variable haben, verwendet man gerne das „Lasso“ (Tibshirani 1996) und verwandte Verfahren. 4. Nichtparametrische Regression. Hier ist der Ansatz yi,k = m(xi ) + εi,k , wobei man keine spezielle Form der Regressionsfunktion m festlegt, son145
Für weitere Details siehe z. B. Müller (1991: 326ff)), Fahrmeir et al. (1996), Ruppert et al. (2003), Gelman und Hill (2007) und die auf Tibshirani (1996) aufbauende Literatur. 146
„Unabhängige Variable“ ist eine Redewendung, die ausdrückt, dass x das Argument einer Funktion f (x) ist. Entsprechend heißt y = f (x) die „abhängige Variable“ oder auch „Kriterium.“ Diese Sprechweise hat also nichts mit der Abhängigkeit oder Unabhängigkeit von Zufallsvariablen zu tun! 147 Am Rande sei bemerkt, dass es kein günstiges Licht auf einen Forschungsbereich wirft, wenn eine einzige Methode dominiert - ohne dass deshalb die Ergebnisse empirisch durchschlagenden Erfolg hätten. Dies ist auch Inhalt der von Freedman in den 1980ern und 1990er Jahren vehement und wiederholt vorgetragenen Kritik. Siehe z. B. Freedman (1991). 148
Für Details siehe Fahrmeir et al. (1996: 244) und McCullagh und Nelder (1990).
134
3 Klassische Statistik
dern nur annimmt, dass m hinreichend glatt, also genügend oft differenzierbar, ist. Es lässt sich zeigen, dass unter sehr allgemeinen Voraussetzungen das optimale m(x) gleich dem bedingten Erwartungswert E(Y |X = x) ist. (Siehe Müller (1991: 326ff).) Damit einher gehen „lokale“ Ansätze, das heißt, man sucht nicht eine Funktion für alle möglichen Werte von X, sondern gibt je nach „Abschnitt“ des Wertebereichs von X unterschiedliche Regressionsfunktionen an. 5. Wir hatten bislang nicht ausdrücklich erwähnt, ob es sich bei der bzw. den unabhängigen Variablen um Zufallsvariable Xi oder Zahlenwerte xi handelt. (Auch bei der Varianzanalyse gibt es ja Modelle mit festen bzw. zufälligen Faktoren.) Typischerweise hat man es hier mit Zufallsvariablen zu tun.149 6. Bei den Koeffizienten ai handelt es sich hingegen üblicherweise um feste Zahlenwerte. Doch auch diese lassen sich durch geeignet gewählte Zufallsvariable ersetzen.150
Kovarianzanalyse Eine interessante Kombination von Varianz- und Regressionsanalyse stellt die ebenfalls auf R. A. Fisher zurückgehende Kovarianzanalyse151 - oft mit ANCOVA, für analysis of covariances, abgekürzt - dar: Hierbei geht man davon aus, dass außer der (interessierenden) unabhängigen Variablen X noch weitere (miterhobene) sogenannt Kovariaten Z einen Einfluss auf das Kriterium Y haben. Typischerweise wird dann zunächst - mittels einer Regressionsanalyse das Kriterium um den Einfluss der Kovariaten „bereinigt“ und anschließend eine Varianzanalyse durchgeführt. Prägnant schreibt Bortz (1999: 350): „Eine Kovarianzanalyse ist eine Varianzanalyse über Regressionsresiduen.“ Eine ANCOVA ist also keine Analyse von Kovarianzen (siehe hierzu den nächsten Abschnitt), sondern eine Varianzanalyse, nachdem man zunächst Kovariate berücksichtigt hat.
3.6.4 Kanonische Korrelationsanalyse Die wohl wichtigste Erweiterung der bisherigen Ansätze besteht darin, nicht nur viele Einflussfaktoren (Prädiktoren) X1 , . . . , Xp zuzulassen, sondern darüber hinaus auch das Kriterium durch einen Vektor Y = (Y1 , . . . , Yq ) zu 149
In Shadish et al. (2002) werden beide Fälle ausführlich besprochen.
150
Siehe z. B. Swamy (1971) und Longford (1993). Ganz allgemein spricht man von Modellen mit zufälligen Koeffizienten, wenn die Parameter, also z. B. a und b bei der linearen Regression, ebenfalls Zufallsvariable sind. 151
Siehe z. B. Fisher (1973: Kapitel IX)
3.6 Wichtige klassische Modelle
135
ersetzen. An einer statistischen Einheit i werden also sowohl die unabhängi(i) (i) (i) (i) gen Variablen X1 , . . . , Xp als auch die abhängigen Variablen Y1 , . . . , Yq (i) (i) (i) (i) bzw. ihre Realisierungen (Messwerte) x1 , . . . , xp sowie y1 , . . . , yq erhoben. Dann werden sowohl Prädiktoren als auch Kriteriumsvariablen linear kombiniert, also (i)
X = v1 X1 + . . . + vp Xp bzw. xi = v1 x1 + . . . + vp x(i) p sowie (i)
Y = w1 X1 + . . . + wq Xq bzw. yi = w1 y1 + . . . + wq yq(i) , mit reellen Zahlen v1 , . . . , vp und w1 , . . . , wq . Hier angelangt geht es nun darum, die Koeffizienten vi und wj so zu bestimmen, dass die Korrelation zwischen X und Y , also r(X, Y ) =
vT DX,Y w (vT DX v)(wT DY w)
maximal wird. Dabei bezeichnen v = (v1 , . . . , vp ) bzw. w = (w1 , . . . , wq ) die Spaltenvektoren der jeweiligen Koeffizienten, T ist die Transposition, welche aus Spaltenvektoren Zeilenvektoren macht, und DX , DY und DX,Y sind die n (i) Varianz-Kovarianzmatrizen von X und Y . Das heißt, mit x ¯k = i=1 xk /n n (i) und y¯l = i=1 yl /n sind ihre Elemente dX (k, l) = dY (k, l) = dX,Y (k, l) =
n i=1 n i=1 n i=1
(i)
(i)
(i)
(i)
(i)
(i)
(xk − x ¯k )(xl − x ¯l ) (yk − y¯k )(yl − y¯l ) (xk − x ¯k )(yl − y¯l )
für k = 1, . . . , p und l = 1, . . . , p; für k = 1, . . . , q und l = 1, . . . , q; für k = 1, . . . , p und l = 1, . . . , q.
Für weitere Details siehe Bortz (1999: Kapitel 19), an dessen Darstellung wir uns anlehnen. Das gerade beschriebene Modell ist so allgemein, dass man darunter sowohl alle bislang beschriebenen Verfahren als auch weitere (im Wesentlichen lineare) Analysen abhandeln kann.152 Insbesondere verwendet man in der Praxis die folgenden Verfahren: 152
Der mathematisch weniger versierte Leser sehe lineare Modelle zum einen und Formeln mit Matrizen und Vektoren zum anderen als äquivalent an. Der Grund ist, dass sich lineare Abbildungen (zwischen endlichdimensionalen Vektorräumen) mithilfe von Matrizen darstellen lassen. Die Subtilitäten werden in der linearen Algebra behandelt, z. B. in (G. Fischer 2005).
136
3 Klassische Statistik
1. Multivariate Varianzanalyse (MANOVA). Man spricht von einer multivariaten Varianzanalyse, wenn das Kriterium Y ein Vektor ist. Hingegen heißt ein Varianzanalyse mehrfaktoriell, wenn es mehrere unabhängige Variablen X1 , . . . , Xp gibt. Auch zur Kovarianz- und Regressionsanalyse existieren multivariate Analoga. 2. Bei der Diskriminanzanalyse möchte man aufgrund eines oder mehrerer Kriterien zwei Gruppen bestmöglich unterscheiden, was heißt, sie mittels einer linearen mathematischen Struktur (Gerade bei einem Kriterium, Ebene bei zwei Kriterien oder einer (l − 1)-dimensonalen Hyperebene bei l Kriterien) voneinander zu trennen. Als Prädiktoren bzw. unabhängige Variable treten jetzt die (geeignet codierten) Gruppenzugehörigkeiten auf. 3. Ziel der Faktorenanalyse ist schließlich, aus vielen beobachteten Kriterien q (z. B. die Antworten auf Items - also Fragen - in einem psychologischen Test), auf wenige diesen zugrunde liegenden Faktoren p zu schließen. Die Idee ist, dass viele „äquivalente“ Items dasselbe latente, also verborgene, Merkmal erfassen, jedes Item für sich genommen jedoch ziemlich ungenau ist. Kombiniert man im Nachhinein jedoch die Antworten auf alle solchen Items, sollte sich gewissermaßen „hinter“ den Items der (gemeinsame) Faktor herausschälen, auf den die Antworten zurückgehen. Anders gesagt: Man möchte die Vielzahl von Items auf eine geringe(re) Anzahl erklärender Faktoren reduzieren. Aufgrund der obigen Interpretation sollte dabei, obwohl p << q ist, der Fehler gering bleiben. Die wichtigsten Spielarten der Faktorenanalyse sind die Hauptkomponentenanalyse (siehe z. B. Bortz (1999: Kapitel 15) und Backhaus et al. (2003: Kapitel 6)) sowie die Korrespondenzanalyse (siehe z. B. Blasius (2001) und Greenacre (1984)). Eng verwandt sind die im folgenden genannten Modelle mit latenten (also nicht direkt beobachtbaren) Variablen.
LISREL Die latente Strukturanalyse (Lazarsfeld and Henry 1968) und insbesondere LISREL stellen die wohl wichtigsten Weiterentwicklungen der Faktorenanalyse dar.153 LISREL, eine Abkürzung für “linear structural relations”, unterscheidet zwischen vier verschiedenen Arten von Variablen: 1. 2. 3. 4.
Nicht beobachtbare Variable ξ = (ξ1 , . . . ξs ) als (latente) Prädiktoren, Nicht beobachtbare Variable η = (η1 , . . . , ηr ) als (latente) Kriterien, Beobachtbare (manifeste) Variable X = (X1 , . . . , Xp ), Beobachtbare (manifeste) Variable Y = (Y1 , . . . , Yq ),
Die zusätzliche Unterscheidung „beobachtet versus latent“ führt also zu einer Verdoppelung der Variablen. Dann wird in einem sogenannten Strukturmo153
Siehe z. B. Jöreskog (1971) und seine zahlreichen späteren Publikationen sowie Fahrmeir et al. (1996: Kapitel 11), dem wir eng folgen.
3.6 Wichtige klassische Modelle
137
dell zunächst festgelegt, wie die latenten Variablen voneinander abhängen: η = Bη + Cξ + U B und C sind dabei Matrizen,154 deren numerische Einträge wie zuvor als Parameter interpretiert werden, und U ist ein Zufallsvektor, der nicht beobachtbare Fehler- oder Störvariablen modelliert. B charakterisiert die gegenseitige Beeinflussung der Kriterienvariablen. In C wird der (direkte) Einfluss der unabhängigen Variablen auf die abhängigen jeweils latenten Variablen erfasst. Da es sich bei B und C um Matrizen handelt, hat man es also mit einem durch und durch linearen Modell zu tun. Da die latenten Variablen per definitionem nicht beobachtbar sind, benötigt man zusätzlich ein Messmodell, welches klärt, wie latente und manifeste Variablen (nämlich X und ξ sowie Y und η) zusammenhängen. Auch in diesem Modell gibt es wiederum nur lineare Abhängigkeiten, nämlich X = μx + Λx ξ + δ sowie Y = μy + Λy η + , ; wobei μx = EX = (EX1 , . . . , EXp ) und μy = EY = (EY1 , . . . , EYq ) die Erwartungswerte der Zufallsvariablen X und Y sind. Λx sowie Λy sind wiederum Matrizen der Dimensionen (p × p) bzw. (q × q). Wie immer finden sich zufällige Schwankungen bzw. nicht durch das Modell erfasste Faktoren in den Fehlervektoren δ und 155 wieder. Man lasse sich durch die vielen Dimensionen und Variablen nicht blenden: Die beiden Gleichungssysteme sind nichts anderes als lineare, wenn auch multiple Regressionen der latenten Variablen X, Y auf ihre jeweils beobachtbaren Gegenstücke ξ und η. Dem entsprechend sind μx und μy gerade die (Vektoren der) gesammelten konstanten Koeffizienten der linearen Regression, während die Matrizen Λx , Λy die „Anstiege“ beinhalten.
3.6.5 Skalierung und Klassifikation Bei den meisten der gerade beschriebenen Verfahren wird eine KorrelationsMatrix zerlegt bzw. mathematisch weiterverarbeitet. Eine weitere große und wichtige Klasse von Verfahren geht von Ähnlichkeiten bzw. Distanzen zwischen Objekten aus und die entsprechende Matrix der Abstände zwischen den Objekten wird analysiert. Die (metrische wie nonmetrische) multidimensionale Skalierung stellt sich die Aufgabe, die Anordnung vieler Objekte in einem hochdimensionalen Raum möglichst fehlerfrei auf einem niedrigdimensionalen Raum wiederzugeben. Im Allgemeinen gelingt dies nur approximativ. Ist die Passung je154
Mit den Dimensionen (r × r) bzw. (r × s).
155
Mit den zugehörigen Dimensionen p bzw. q
138
3 Klassische Statistik
doch gut, so kann man anschaulich interpretieren, wie sehr sich die einzelnen Objekte entlang weniger Dimensionen unterscheiden. Dies ist die gängige Vorgehensweise in der Marktforschung, wo v.a. Produkte anhand einiger Dimensionen (z. B. Aussehen, Qualität und Preis) charakterisiert werden, doch auch soziologisch Klassifizierungen werden so ermittelt. Hier genügen in aller Regel die Dimensionen „Einkommen“ sowie die Einstellung bzgl. Neuem (also die Dimension konservativ versus progressiv), um Personen hinreichend gut zu klassifizieren bzw. „Milieus zu verorten“. Bei der Diskriminanzanalyse liegen die Klassen, nämlich die Gruppenzugehörigkeiten, fest. Nicht so bei der Clusteranalyse, einem der am häufigsten verwendeten Verfahren. Ausgehend von Abständen bzw. Ähnlichkeiten zwischen Objekten (analog der multidimensionalen Skalierung) versucht man nun Cluster (also Gruppen) derart zu bilden, dass diese in sich möglichst „homogen“ und untereinander möglichst „heterogen“ sind. Das heißt, die Variablität soll innerhalb der Gruppen möglichst gering sein, was ähnlichen Gruppenmitgliedern entspricht, zwischen den Gruppen jedoch möglichst groß - was wiederum sehr stark voneinander unterscheidende Gruppen bedeutet. Technisch gesehen benutzt man für diese Aufgabe dieselben Formeln wie bei der Streuungszerlegung der Varianzanalyse. Ein wesentlicher Unterschied ist, dass hier im Allgemeinen die Anzahl der zu bildenden Gruppen nicht im Vorhinein festliegt. Das Ergebnis einer Clusteranalyse überzeugt, wenn sie viele statistische Einheiten so auf (wenige) Gruppen verteilt, dass es kaum „Zweifelsfälle“ gibt und jede Gruppe leicht charakterisiert werden kann.
3.6.6 Operatorgleichungen Es ist verblüffend, dass man einen Großteil der klassischen Statistik auf lineare Strukturen und die Normalverteilung (insbesondere als Verteilung der Fehlerkomponenten) zurückführen kann. Neuere Entwicklungen distanzieren sich - soweit möglich - von diesen recht einschränkenden Voraussetzungen. Eine mit der (nichtparametrischen) Regression eng verwandte Klasse von Problemen sind Gleichungen der Gestalt Y = f (θ) + U, wobei Y = (Y1 , . . . , Yk ) für die experimentellen Daten steht, θ = (θ1 , . . . , θk ) für einen Vektor von unbekannten Parametern und U = (U1 , . . . , Uk ) für den zufälligen Fehler bzw. alle nicht explizit modellierten Effekte.156 Die ent156
(i)
(i)
Eine konkrete Beobachtung y(i) besteht also aus den k Komponenten (y1 , . . . , yk ), welche über f von θ abhängen und mit der Realisierung des zufälligen Fehlers Uj = j für j = 1, . . . , k kontaminiert sind. Für jede untersuchte Einheit i hat man also das k Gleichungen umfassende Gleichungssystem y(i) = f (θ1 , . . . , θk ) + i
3.7 Trends der aktuellen Datenmodellierung
139
scheidende Stellgröße ist der „Operator“, eine spezielle Funktion f , welcher die Parameter transformiert, also auf irgendeine systematische Weise verändert. Derartige Operatorgleichungen sind in den Naturwissenschaften und der Mathematik weit verbreitet. Sie werden zur Zeit auch von Statistikern intensiv erforscht. Im Wesentlichen lassen sich dabei zwei Aufgabenstellungen unterscheiden (siehe Bertero (1986: 52ff), zitiert nach Dale (1999: 2), Hervorhebungen dort): The problem which consists in the determination of the mapping [f ] from the set of all possible objects [θ] into the set of all possible data [Y] is usually called the direct problem [. . .] The inverse problem is the determination of the object f from the measured data [Y]. It corresponds to the inversion of the direct mapping.
Da man typischerweise die Daten, nicht aber den verborgenen Zusammenhang kennt, sind, wie man sich leicht denken kann, gerade die inversen Probleme von herausragender Bedeutung. Dale (1999: 3) listet eine Reihe von Beispielen auf: Fertile fields for the labours of those interested in inverse problems are provided by many natural and physical sciences, for example geophysics (seismology, the inverse kinetic problem, the study of the Earth’s internal structure, potential theory, the determination of the hypocentres of earthquakes), quantum mechanics (the inverse Sturm-Liouville problem), partial differential equations (the spectral inverse problem for Schrödinger’s equation), medical diagnostics, atmospheric sounding, radar and sonar target estimation, radio-astronomy, microscopy, wave propagation, X-ray medical imaging, and statistics.
Ein konkretes Beispiel ist die traditionellen Bildrekonstruktion (siehe z. B. MacKay (2005: Kapitel 46)). Dort entspricht die abhängige Variable Y einem beobachteten Bild und der unbekannte Parameter θ ist das zugrundliegende „wahre“ Bild. Der Zusammenhang zwischen wahrgenommenen und tatsächlichem Bild ist linear und wird durch die optischen Eigenschaften der fotographischen Abbildung f bestimmt, hinzu kommt der zufällige Fehler das Bildrauschen. Auch die zur Zeit sehr beliebte „Six-Sigma-Methode“ zur Analyse und Optimierung von Geschäftsprozessen, geht von dem obigen Ansatz aus. Y ist dabei das Prozessergebnis, (θ1 , . . . , θk ) sind die Eingangsgrößen, f beschreibt, was mit dem Input geschieht, und U ist die von f nicht erfasste Reststreuung. (Siehe z. B. Wappis et al. (2006).)
3.7 Trends der aktuellen Datenmodellierung Auf den Schultern von Riesen. (Merton 1983)
Die im letzten Abschnitt vorgestellten traditionellen Ansätze konstruieren mithilfe weniger Bestimmungsstücke zwar komplexe, aber im Kern einfach strukturierte Modelle. Die obigen Strukturen sind überwiegend linear, weil sie sich (bis heute) mathematisch am besten beherrschen lassen. In den
140
3 Klassische Statistik
Zeiten vor der modernen Informatik war dies sogar von essentieller Bedeutung: Modelle mussten mit Rechenschieber oder Taschenrechner zugänglich sein. Dementsprechend wurde viel Wert auf explizite Lösbarkeit - im besten Fall eine geschlossen angebbare Formel - oder etwas abschwächt, schnell konvergierende Lösungsverfahren gelegt. Ein klassischer Einwand gegen viele theoretisch bemerkenswerte Verfahren, insbesondere „Bayesscher Provenienz“ war, dass deren Lösungen aufgrund des hierfür benötigten Rechenaufwands unerreichbar blieben. Man schlage irgendein 100, 50 oder auch nur 25 Jahre altes Statistikbuch auf - immer spielt die praktische Berechenbarkeit eine erhebliche Rolle. Im äußersten Fall mussten mehrere Wochen auf die Berechnung einer einzigen komplexeren Analyse verwendet werden, eine Arbeit, die heutige Computer in wenigen Sekunden erledigen. Von größerer Bedeutung als heute waren auch „technische Tricks“, also letztlich die Fähigkeit, komplexe Probleme auf eine Reihe einfacherer, analysierbarer zu reduzieren. Gerade R. A. Fisher war hierin ein Meister. Geschickt gewählte und zugleich in der Praxis häufig erfüllte Annahmen - allen voran die Annahme, dass die Daten normalverteilt seien - waren zwingend notwendig, um Gleichungen auflösen zu können. Wenn irgend möglich wurden die Vereinfachungen mathematisch-begrifflich gefasst und streng bewiesen. Zentrale Begriffe der Statistik wie Suffizienz, Vollständigkeit, Effizienz und Information haben hier ihren Ursprung. Nicht allzu selten kam man jedoch nur auf näherungsweise gültige Heuristiken, und es dauerte zuweilen Jahrzehnte um festzustellen, ob eine „plausible“ Vereinfachung oder ein „intuitiver“ Ansatz wirklich gerechtfertigt waren. Berühmte Beispiele sind R. A. Fishers Testtheorie (nur eine Hypothese), p-Werte, aber auch seine Behandlung konkreter Testprobleme, z. B. des Vier-Felder-Tests; seine Ideen zum Schätzen und zur bedingten Inferenz, die von ihm durchgesetzte Randomisierung sowie vor allem sein Fiduzialargument.157 Man sollte sich auch vor Augen halten, dass die heute klassische Statistik in einer datenarmen Zeit entstand. Es war ebenso mühselig Daten zu sammeln, wie sie zu speichern und auszuwerten. Also war es wichtig, ein Maximum an Erkenntnissen aus wenigen Beobachtungen zu gewinnen. Verfahren, die möglichst alle verfügbaren Informationen nutzen, waren gefragt, und damit einher ging die Suche nach dem jeweils optimalen Verfahren. Etwa entstand so im Bereich der Parameter-Schätzung, den wir schon angesprochen haben, ein ganzer Reigen einschlägiger und zuweilen auch schillernder Begriffe: Schätzer (estimators) sind z. B. minimal sufficient, complete, UMV (uniformly minimum variance), MVB (minimum variance bound), MVUE 157
Da Fisher der bedeutendste Statistiker des 20. Jahrhunderts gewesen ist und sich eine ganze Generation von Statistikern um die Klärung der von ihm vorgeschlagenen Methoden und Ideen bemüht hat, ist die Literatur hierzu nahezu endlos. Seine wichtigsten Werke sind wohl Fisher (1922, 1925, 1966, 1970, 1973). Eine umfangreiche Sammlung seiner Zeitschriftenbeiträge hält die Universität Adelaide im Internet vor. Klassiker der Sekundärliteratur sind Savage (1976), Seidenfeld (1979), Rao (1992), Efron (1998) sowie das Buch seiner Tochter, Fisher Box (1978)..
3.7 Trends der aktuellen Datenmodellierung
141
(minimum variance unbiased), BLUE (best linear unbiased) oder RE bzw. ARE ([asymptotic] relative efficient). Mit diesen historischen Ausführungen haben wir schon angedeutet, in welche Richtungen sich die zeitgenössische Datenmodellierung entwickelt:158 1. Rechenintensive Verfahren 2. Komplexere theoretische Strukturen 3. Graphische Modellierung
3.7.1 Rechenintensive Verfahren Klassische Modelle stützen sich auf vereinfachende und damit oftmals unrealistische Annahmen. Doch nur mit deren Hilfe ist es möglich, den mathematischen Rahmen so eng zu halten, dass sie überschaubar bleiben und explizite Lösungen in Form von schönen, geschlossen angebbaren Formeln existieren. Zum Beispiel heißt es im Klappentext von Robert and Casella (2004): Until the advent of powerful and accessible computing methods, the experimenter was often confronted with a difficult choice. Either describe an accurate model of a phenomenon, which would usually preclude the computation of explicit answers, or choose a standard model which would allow this computation, but may not be a close representation of a realistic model. This dilemma is present in many branches of statistical applications, for example in electrical engineering, aeronautics, biology, networks, and astronomy.
Genau dies ist heute nur noch bedingt der Fall: Es genügt, dass die Konsequenzen der Modelle wenigstens soweit rechnerisch zugänglich sind, dass man mit ihnen (noch) arbeiten kann. Kurz gesagt ersetzt man den formalmathematischen Herleitungs-Aufwand durch Programmier- und anschließend Rechenaufwand. Ein äußerst prominentes Beispiel hierfür ist der Bootstrap (siehe z. B. Efron (1979) und Efron und Tibshirani (1993)). Man kann ihn wie folgt motivieren: ¯ = (X1 + . . . , Xn )/n lässt sich Im Fall des arithmetischen Mittels μ ˆ=X mit den Rechenregeln von Erwartungswert und Varianz eine Formel für die Genauigkeit des Schätzers angeben (siehe (3.3), S. 129). Dies klappt leider nur in Ausnahmefällen, schon beim Median einer Verteilung scheitert man kläglich. Zwar kann man ohne Probleme aus der vorliegenden Stichprobe ihren Median berechnen (man wählt einfach diejenige Beobachtung, welche „in der Mitte“ liegt) jedoch gibt es keine Formel, die einem sagt, wie genau diese Schätzung ist. Das Bootstrap-Verfahren besteht deshalb darin, die beobachteten Werte x1 , . . . , xn in eine Urne zu legen und dann daraus eine weitere Stichprobe vom Umfang n∗ zu ziehen. n∗ kann beliebig groß sein, da man mit Zurücklegen aus der Urne zieht, also - anders als beim Lotto - jede gezogene Kugel 158
Eine aktuellen Überblick, der einem Kaleidoskop gleicht, bieten Green et al. (2003).
142
3 Klassische Statistik
wieder in die Urne legt, nachdem man ihren Wert notiert hat. Sample ist das englische Wort für Stichprobe, und man spricht naheliegenderweise von einem Resampling-Verfahren, wenn man nun nicht nur eine „Re-Stichprobe“ 159 vom Umfang n∗ aus der Urne zieht, sondern eine große Anzahl m (typischerweise mindestens 50) solcher Stichproben. Für jeder dieser „Re-Stichproben“ lässt sich der Median berechnen, und die Standardabweichung jener (z. B. 50) empirischen Mediane zeigt, wie gut der Median der ursprünglichen Stichprobe x1 , . . . , xn den Median der unbekannten Verteilung schätzt.160 Im ersten Fall liefert Formel (3.3) durch einmaliges Einsetzen der konkreten Stichprobe einen numerischen Wert für die Präzision der Schätzung. Im zweiten Fall liefert ein Verfahren, welches die konkrete Stichprobe vielfach auswertet (und dabei jedesmal eine Zahl berechnet) schließlich ebenfalls einen numerischen Wert für die Präzision der Schätzung. Efron und Tibshirani (1993: 14ff) schreiben zusammenfassend: “For most statistics we don’t have a formula [. . .], but in fact no formula is needed. Instead we use the numerical output of the bootstrap program [. . .] It is easy to write a program that works for any computable statistic [. . .] With these programs in place, the data analyst is free to use any estimator, no matter how complicated, with the assurance that he or she will also have a reasonable idea of the estimator’s accuracy. The price, a factor of perhaps 100 in increased computation, has become affordable as computers have grown faster and cheaper.” Mit Blick auf die traditionelle Vorgehensweise schließen sie: The payoff for all this computation is an increase in the statistical problems that can be analyzed, a reduction in the assumptions of the analysis, and the elimination of the routine but tedious theoretical calculations usually associated with accuracy assessment.
Computational Statistics Beim gerade beschriebenen “Bootstrap” handelt es sich um ein Beispiel für einen allgemeinen Trend: Der langsamen Abkehr von glatten mathematischen Modellen, hin zu komplexen Strukturen, die noch berechen- oder auch nur simulierbar sind. Im besonderen treten an die Stelle expliziter Lösungsformeln algorithmische, effizient programmierbare Verfahren. Damit einher geht eine relativer Bedeutungsverlust mathematischer Herleitungen und ein relativer Bedeutungszuwachs informationstechnischer wie -theoretischer Methoden. Efron und Tibshirani (1991: 394) schreiben: “The methods we have discussed are modern versions of traditional statistical tools [. . .] All of these developments, and a host of others we have not mentioned, differ in one important way from their classical predecessors: they substitute computer algorithms for the traditional ways of getting a numerical answer.” Efron (2006: 159
Man spricht auch von einem “bootstrap sample” um es von der ursprünglichen Stichprobe begrifflich zu unterscheiden. 160
Siehe Efron und Tibshirani (1993: 13ff) für mehr mathematische Details.
3.7 Trends der aktuellen Datenmodellierung
143
331) ergänzt: “The computer broke the bottleneck of mathematical tractability that constrained classical statistics, and statisticians responded with a ferocious burst of algorithmic-based technology. Theory and applications worked together in this creative outburst, a healthy situation that continues today.” Oftmals zählt in der Praxis sogar mehr, was machbar ist, und weniger, was sich (noch) theoretisch begründen lässt. Auch Ansätze, die früher schnell mit dem Hinweis „schön, aber viel zu kompliziert“ in der Schublade verschwanden, erleben heute ihre Renaissance.161 Der Bedeutungszuwachs der Informatik zeigt sich nicht nur an den Prozeduren, mit denen Daten ausgewertet werden. Er zeigt sich auch schon elementarer an den Daten, welche der Statistik zu Verfügung stehen. Analysierte man früher kleine Datensätze etwa von einigen Dutzend und höchstens einigen Hundert Beobachtungen, so umfassen moderne Datenbanken Gigaund Terabyte an leicht zugänglichen Informationen. Nicht mehr der Mangel an aussagekräftigen Daten ist das Problem, sondern ihr Überfluss. Und täglich wachsen durch systematische elektronische Datenerhebungs- und Managementverfahren in Betrieben, Verwaltungen aber auch der Wissenschaft diese Mengen. Man denke nur an die Substanzdatenbanken pharmazeutischer Unternehmen, übernationale epidemiologische Register oder das “Human Genome Project.” 162 Alle diese Versuche stehen auf den Schultern eines Riesen, dem Computer.
3.7.2 Komplexere theoretische Strukturen Auch die theoretische Statistik, auf den Schultern der Mathematik stehend, ist nicht stehen geblieben. Geht man vom Standard-IID-Modell aus, so bieten sich zwei Entwicklungsrichtungen an. Auf der Verteilungsseite wäre dies das Studium realistischerer Verteilungen (z. B. solche mit heterogenen Varianzen), systematisch variierender Verteilungen oder aber auch allgemeiner nichtparametrischer Verfahren. Auf der anderen Seite sollte man sich für voneinander abhängige Zufallsvariablen interessieren, wie z. B. Zeitreihen oder Netze von Zufallsvariablen, deren wechselseitige Beeinflussung man noch überblickt bzw. berechnen kann. Auf beiden Seiten hat es große Fortschritte gegeben. Schon vor dem Boom der Finanzmathematik wurden systematisch sogenannte stochastische Prozesse unter die Lupe genommen, also Familien von Zufallsvariablen mit wohldefinierten Abhängigkeiten. Am wichtigsten erwiesen sich zum einen ganz 161
Dieser Trend ist natürlich nicht auf die Statistik beschränkt, auch die Mathematik insbesondere unter dem Stichwort „Computeralgebra“ - und alle empirischen Wissenschaften versuchen sich aktuell an hochkomplexen Modellen, die noch vor kurzem als völlig unberechenbar gegolten hätten, man denke nur an die Klimaforschung. 162 Der Vollständigkeit halber muss man wohl auch den Datenhunger von Behörden und Firmen bei ihrer Jagd nach Terroristen, Steuersündern und Kunden erwähnen.
144
3 Klassische Statistik
konkrete „parametrische“ Ansätze, die meist wieder schillernde Namen haben: ARIMA-, GARCH-, Gauss-, Bernoulli-, Poisson- und viele andere Prozesse. Zum anderen studiert man, ganz in der „nonparametrischen“ Tradition, stationäre und ergodische Prozesse, Lévy-Prozesse mit unabhängigen und identisch verteilten Zuwächsen, Prozesse mit stationären oder unabhängigen Zuwächsen, Martingale (samt ihren Verwandten) sowie Markov-Ketten. Stationäre Prozesse geben zwar die Unabhängigkeitsannahme auf, erhalten aber im Wesentlichen die Annahme der identischen Verteilung bei; bei Martingalen ändert sich im Laufe der Zeit der Erwartungswert nicht, weshalb man sie auch als „faire“ Spiele interpretieren kann; Markov-Prozesse haben schließlich die schöne Eigenschaft, dass alle Abhängigkeiten nur genau einen Berechnungsschritt zurückreichen, was sie zu idealen Bausteinen komplexerer Modelle macht.163 Die Grundidee bei Prozessen ist immer, die Unabhängigkeitsannahme im Standard-IID-Modell auf eine mathematisch noch beherrschbare Art abzuschwächen. Das sehr weite Feld der nichtparametrischen Statistik behält stattdessen die Unabhängigkeitsannahme bei und verzichtet andererseits auf eingrenzende parametrische Annahmen. Das heißt, statt mit konkreten Parametern arbeitet man unmittelbar mit den Verteilungsfunktionen. Wie die allgemeinen Sätze der Statistik schon nahe legen, funktionieren vielen Ideen der parametrischen Statistik auch im nichtparametrischen Fall. Insbesondere gibt es eine ähnlich allgemeine Methode zu Schätzen: F sei die unbekannte Verteilungsfunktion, und θ = t(F ) irgendein aus ihr berechneter Wert. Steht eine Stichprobe x1 , . . . , xn zur Verfügung, so lässt sich aus ihr die empirische Verteilungsfunktion Fˆn berechnen. (Siehe Seite 81.) Das “plug-in principle” verwendet nun einfach als Schätzer θˆ = t(Fˆn ), ersetzt also die wahre aber unbekannte Funktion F durch deren „intuitivste“ Näherung. Der Schätzer für den Erwartungswert einer nach F verteilten Zufallsvariablen X ist damit z. B. einfach der Erwartungswert von Fˆ , also (x1 + . . . + xn )/n, das arithmetische Mittel der Beobachtungen. “How good is the plug-in principle? It is usually quite good, if the only available information about F comes from the sample x. Under this circumstance θˆ = t(Fˆ ) cannot be improved upon as an estimator of θ = t(F ), at least in the usual asymptotic n → ∞ sense of statistical theory [. . .] The plug-in principle is less good in situations where there is information about F other than provided by the sample x.” (Siehe Efron und Tibshirani (1993: 36f).) Genau dies war auch zu erwarten, da jedes spezifischere (A priori)Wissen, welches zusätzlich zu den Beobachtungen vorhanden ist, zumindest im Prinzip eine gezieltere Vorgehensweise ermöglicht. 163
Eine „abenteuerliche“ Einführung in dieses Teilgebiet der Mathematik ist Resnick (2002). Siehe auch Chow und Teicher (1997) und Schilling (2005).
3.7 Trends der aktuellen Datenmodellierung
145
Zwischen den gerade geschilderten „reinen Ansätzen“ sind z. B. semiparametrische Verfahren angesiedelt. Jene machen gewisse, situationsadäquate parametrische Annahmen, um zu präzisen Aussagen zu kommen, verwenden jedoch ansonsten den weiten nichtparametrischen Rahmen. Etwa sind sogenannte Copula ein aktueller Ansatz, Abhängigkeitsstrukturen zu bearbeiten, siehe z. B. Nelson (2006). Damit einher gehen immer praktisch anwendbare Algorithmen, die auf die jeweilige theoretische Struktur zu geschnitten sind. „Markov Chains Monte Carlo“ (MCMC) heißt das wohl bedeutendste aktuelle Verfahren. Es kombiniert die theoretische Überschaubarkeit der Markov-Ketten mit der Rechenkraft moderner Computer (siehe Robert and Casella (2004) und Andrieu et al. (2003)), so dass sich mit seiner Hilfe auch realistische, hochkomplexe Probleme angehen lassen. Damit eng verwandt sind hierarchische Ansätze, Bäume (zuweilen auch Wälder) sowie Netze bzw. Netzwerke, deren zeitliche Entwicklung man entlang ihrer Verknüpfungen Kanten genannt - Schritt für Schritt, also von Knoten zu Knoten gehend, nachvollziehen kann.164 Doch nicht alles, was man berechnet, versteht man auch. Deshalb ist eine offene Frage, wie weit man dabei gehen sollte. Kritische Wissenschaftler betonen zurecht, dass jede Methode nur ein Mittel zum Gewinn von Einsichten darstellt. Kurzsichtig oder sogar blind alles Mögliche zu berechnen, mag zunächst beeindruckend sein, muss jedoch auf längere Sicht nicht zu tieferen Erkenntnissen führen. Haben uns all die komplizierten psychologischen Testverfahren bei unserer Suche nach unseren verborgenen Fähigkeiten, Wünschen und Trieben wirklich weiter gebracht? Und welche Fortschritte hat die Ökonometrie mit den allgegenwärtigen Regressionsverfahren gemacht? Andererseits lässt sich pragmatisch argumentieren, dass auch ein Verfahren, von dem sich nachweisen lässt, dass es zuverlässige Vorhersagen macht, einen großen Wert hat - insbesondere auch dann, wenn man nicht alle seine Einzelheiten wirklich versteht. Dieses an den Ergebnissen orientierte Vorgehen wird seit längerem im Zusammenhang mit neuronalen Netzen kontrovers diskutiert, auch sogenannte Scoring-Verfahren, wie sie gerne in der Kreditwirtschaft eingesetzt werden, gehören zu den Verfahren, die man nicht wirklich durchdringt. Mit der Diskussion der globalen Erwärmung, also der Erstellung von Klimaprognosen, haben die Argumente einiges an Brisanz gewonnen, letztlich ist das Problem aber im Geschäfts- und Privatleben schon lange unser Wegbegleiter: Wem bzw. was soll man vertrauen, wenn man die betreffende Person, Institution oder einen Sachverhalt nicht wirklich versteht? Die Frage spitzt sich dann zu, wenn man es nicht mehr nur mit einer “grey box” zu tun hat, deren Verhalten man zumindest im Prinzip bzw. in den Grundzügen noch nachvollziehen kann, sondern nur noch mit einer “black box” deren innere Mechanismen völlig unzugänglich bzw. gänzlich unverständlich sind: 164
Ein Klassiker hierzu ist Breiman et al. (1984). Große Bedeutung hat auch der in Dempster et al. (1977) eingeführte “Expectation-Maximization-Algorithm”, der durch eine wesentliche Erweiterung der Maximum-Likelihood-Methode latente Parameter schätzt, erlangt.
146
3 Klassische Statistik
The more opaque the box, the less likely it is that one will spot potential problems. (Huber 2006: 333)
3.7.3 Graphische Methoden Die Statistik ist nicht die erste Wissenschaft, die sich vor dem Problem sieht, komplexe Begriffe und Abläufe übersichtlich darzustellen. Wie andere Wissenschaften sucht sie dabei Hilfe bei der Anschauung, stützt sich also auf einen weiteren „Riesen“. Schon ein populärer Spruch aus dem 16. Jahrhundert besagt: Was die Gelehrten durch die Schrift verstahn, das lehrt das Bild den gemeinen Mann.
Heutzutage sind flexible, vom Benutzer ad hoc modifizierbare, computergraphische Darstellungen, die erlauben, das Wesentliche mit einem Blick zu erkennen, die Methode der Wahl. Ein wichtiger Vorläufer dieser Entwicklung war LISREL, denn dort verwendet man schon seit langem Pfaddiagramme zur Darstellung komplizierter Abhängigkeiten. Mit der Notation (siehe Fahrmeir et al. (1996: 735)) x beobachtbare, manifeste Variable ξ nicht beobachtbare, latente Variable → direkter Einfluss, Effekt (zumeist kausal interpretiert) v Korrelation zwischen zwei Variablen lassen sich leicht komplexe Zusammenhänge übersichtlich darstellen. Zum Beispiel gibt ξ → x ←ε einen direkten kausalen Effekt von ξ auf x wider, wobei ε für einen x ebenfalls beeinflussenden Zufallsfehler steht. (Es handelt sich also nur um eine Erweiterung des Grundmodells x = μ + ε, siehe S. 129.) Im Modell ξ → x ←ε η → y ←δ beeinflussen beide latenten Variablen die Beobachtung x, jedoch lediglich η die manifeste Variable y. Das heißt, es fällt leichter, begründete Aussage über η zu machen, als über ξ. Fügt man mehr Bausteine zusammen, so kommt man leicht zu erheblich komplexeren Modellen, z. B. jenem in Fahrmeir et al. (1996: 736ff) mit fünf latenten und neun manifesten Variablen, und es
3.7 Trends der aktuellen Datenmodellierung
147
treten zudem noch Korrelationen und kausale Abhängigkeiten zwischen den Variablen auf. Zur gerade eingeführten Notation gibt es einige Variationen und Erweiterungen, siehe insbesondere Spirtes et al. (2000: Kapitel 12) und Lauritzen (1996), welche beide auf komplexere graphentheoretische Strukturen zielen. Neben latenten und manifesten Variablen spielen auch fehlende und zensierte Daten eine große Rolle. In solchen Fällen sind die verfügbaren Informationen sinnvoll zu ergänzen. Doch auch bei den Objekten kann man variieren und verallgemeinern. Etwa können als Knoten statt einfacher Zufallsvariablen auch stochastische Prozesse auftreten und eine Notation wie G → ϑi → xi
n
ist gebräuchlich, um anzudeuten, dass eine Stichprobe von n Parameterwerten ϑi aus der Population G gezogen wird.165 Die ϑi treten wiederum als „zufällige“ Parameter von Verteilungsfunktionen Fθi auf.166 Auf diese Weise lassen sich die Verteilungsfunktionen Fϑ gemäß G „mischen“. Es erfordert nur wenig Fantasie, alle genannten Einzelteile zu höchst komplexen Strukturen zu kombinieren. Das praktische Hauptproblem besteht darin, die Rechenlast zu bewältigen, da es vieler Simulationsschritte (z. B. Schätzungen) bedarf, um zu einem zu den Daten passenden Modell zu kommen. Das theoretische Hauptproblem besteht darin, die verborgenen Variablen samt ihrer Struktur zu identifizieren. Es kann nämlich sehr leicht passieren, dass die Beobachtungen nicht ausreichen, um eine latente Struktur zu erkennen, etwa zwischen zwei latenten Variablen zu unterscheiden. Man betrachte z. B. die Situation ξ → x ←ε ↑ η Wie wir bereits auf Seite 12 gezeigt haben, ist es unmöglich aufgrund der Kenntnis von x auf ξ oder η zurückzuschließen, selbst wenn es keinen zufälligen Fehler ε gibt. Gibt man keine Struktur fest vor, sondern versucht auch noch die bestmögliche Struktur aus den Daten zu berechnen, so stellt sich das Problem der optimalen Modellwahl (model choice). Wie man sich leicht vorstellen kann, ist dieses Problem noch um einiges schwieriger als die bloße „Anpassung von Parametern“ innerhalb eines strukturell festliegenden Modells. Typischerweise muss man dann zwischen Modellkomplexität und -Passung einen Kompro165
D. h. die Zufallsvariablen Θi sind iid mit Θi ∼ G und den Realisierungen Θi = ϑi für i = 1, . . . , n. 166
Also Xi ∼ Fϑi mit der Realisierung Xi = xi , wobei Θi = θi ebenfalls fest, aber gemäß G zufällig gewählt ist.
148
3 Klassische Statistik
miss finden.167 Zwar lässt sich ein elaboriertes Modell hervorragend an die Daten anpassen, doch hilft dies wenig, wenn man für 1000 Datenpunkte 500 Parameter benötigt. Dem Statistiker fällt hier wohl zudem sofort das Problem des overfitting ein, womit gemeint ist, dass man aufgrund der Zufallseinflüsse nicht darauf bedacht sein sollte, sowohl wahre Struktur als auch zufällige Schwankungen im Modell als strukturelle Merkmale auszuweisen. Das führt zwar beim konkret vorliegenden Datensatz zu einer hervorragenden Passung - jedoch bezahlt man dies mit einer viel schlechteren Passung auf einen weiteren Datensatz aus derselben Population.168 Der Philosoph denkt hier wohl eher an das Induktionsproblem in der Gestalt einer underdetermination of theory by evidence: Auch noch so viele Daten legen das Modell nicht fest. Prinzipiell passen unendlich viele, strukturell völlig verschiedene Modelle zu einer Stichprobe. Egal wie groß die Stichprobe ist, aus prinzipiellen Gründen kann es gar keine einziges, richtiges Modell geben, das bestmöglich zu den Daten passt. Der Schluss von den konkreten Daten auf das allgemeine Modell generalisiert, ist also gehaltserweiternd, und kann damit immer nur eine Heuristik sein - ohne mathematisch-deduktive Beweiskraft. Deshalb man muss sich immer (a priori) auf eine Klasse von Modellen beschränken, will man mathematisch-streng optimieren.169
3.8 Hauptsatz der Datenmodellierung Divide et impera. (Römisches Sprichwort)
Wir haben bewusst alle obigen Modelle lediglich angerissen. Eine mathematisch einigermaßen befriedigende Darstellung - mit allen wesentlichen Annahmen und wichtigen technischen Details - würde viele hundert Seiten umfassen. Eine mathematisch exakte Darstellung wird auch dadurch erschwert, dass alle genannten Modelle erheblich modifiziert und erweitert wurden, so dass etwa mit „Clusteranalyse“ ein ganzes Spektrum gleichartiger Verfahren gemeint ist. Zudem gibt es speziellere Analysetechniken, die auf einen bestimmten Anwendungsbereich zugeschnitten sind, und dies nicht nur in den Ingenieurund Naturwissenschaften sondern auch in der Sozio- und Psychometrie. Zum Beispiel gibt es viele spezielle statistische Verfahren für die Auswertung psychologischer Tests, die sowohl eng mit Skalierungsverfahren als auch latenten Analysen verknüpft sind. (Siehe z. B. Rost (2004), Lienert und Raatz (1998), Lord and Novick (1968) sowie Lazarsfeld and Henry (1968).) 167
Parsimony versus model fit lautet, kurz gesagt, das Dilemma.
168
Wir führen diesen Gedanken in den Abschnitten 3.12, 4.6.3, 5.1.4 und 5.5 weiter aus. Wir führen diesen Gedanken in Abschnitt 4.1 bzw. Kapitel 4 weiter.
169
3.8 Hauptsatz der Datenmodellierung
149
Die meisten der erwähnten Modelle bestehen aus simplen Grundbausteinen, die sich nach einfachen Regeln zu komplexen Gesamtstrukturen zusammensetzen lassen. Damit sind sie äußerst flexibel, was mit Blick auf ihre Anwendbarkeit ein großer Vorteil ist. Es scheint insbesondere nicht von vorneherein aussichtslos zu sein, auch umfangreiche, verwickelte Strukturen mit ihrer Hilfe realitätsnah zu erfassen. Der Preis hierfür kann jedoch ein erheblicher Verlust an intuitiver Erfassbarkeit, Anschaulichkeit und Verständlichkeit, verbunden mit einer diffizilen Interpretation der Ergebnisse, sein. Die mathematischen Formalismen vermögen die Modelle zwar adäquat zu beschreiben, vermittelt jedoch keine unmittelbare Einsicht in das Geschehen. Eine Erleichterung bringen hier besonders graphische Veranschaulichungen, etwa Pfaddiagramme. Die Beispiele sollten auch hinreichend deutlich gemacht haben, dass der Kern einer so verstandenen statistischen Analyse ist, die Daten in diverse Komponenten zu zerlegen. Eine statistische Erklärung besteht darin, den unsystematischen Anteil in den Daten, also jener Teil ihrer Variabilität, der nicht einer Struktur zuzuweisen ist, möglichst gering zu halten. Ausgangspunkt war die Fehlertheorie des 19. Jahrhunderts, die Stigler (1999: 190) in der Formel zusammenfasst: observation = truth + error. Analog schreibt Tukey (1986c: 595) ebenso knapp und treffend: data = f it + residual. Das Residuum ist dabei immer ein unsystematischer, zufälliger Fehler. Beim “fit” handelt es sich um deterministische aber auch mit Zufallselementen versehene Strukturen. Das heißt, die Zerlegung der Gestalt Daten = Systematischer Anteil (Strukturkomponente) (3.7) + unsystematischerAnteil (Zufall, nicht erklärte Komponente) ist der „Hauptsatz der Datenmodellierung“ bzw. der „Hauptsatz der angewandten Statistik“. Im Wesentlichen zielte die mathematisch-statistische Entwicklung darauf ab, dieses Erklärungsmuster immer weiter auszubauen, wobei X = μ + ε, also Gleichung (3.2), als die Keimzelle des ganzen Projekts betrachtet werden kann. Der Unterschied zwischen Mathematik und Praxis ist, dass im formalen Modell Daten mit gewissen Eigenschaften vorausgesetzt werden. Das heißt, man nimmt an, dass die Daten gewissen Annahmen (z. B. stochastische Unabhängigkeit, Verteilungsannahmen) genügen. Die mathematische Aufgabe besteht dann darin, in der gegebenen Situation die Passung zu optimieren, also zu ermitteln, welche Wahl der Strukturkomponente optimal ist, um die Fehlerkomponente so klein wie möglich machen. Zum Beispiel werden bei der linearen Regression die Parameter a und b so ermittelt, dass die Summe der
150
3 Klassische Statistik
quadratischen Abweichungen (das Kriterium, wie gut die Regressionsgerade passt) minimal wird. In der angewandten Statistik liegen die Daten hingegen in aller Regel vor. Sie auszuwerten bedeutet hier, mit dem zuvor entwickelten mathematischen Apparat die (theoretisch) bestmöglich passende Struktur zu ermitteln. Anders gesagt, es stellt sich das Problem, zwischen (realer, überdauernder, wesentlicher, systematischer) Struktur und einem (aus technischen Gründen notwendigen, nur lokal vorhandenen, unwesentlichen, unsystematischen) Rest zu diskriminieren. Wird der Fehleranteil dabei nicht allzu groß und lassen sich in ihm durch einfache Tests keine systematischen Anteile mehr ausmachen, so wird das mathematische Modell als geeignete Approximation der Daten akzeptiert.
3.8.1 Zeitreihenanalyse Ein schönes Beispiel hierfür ist die bislang nicht erwähnte Analyse von Zeitreihen. Dort betrachtet man die Veränderung einer Größe (Inflationsrate, Arbeitslosenquote, Wirtschaftswachstum, Pro-Kopf-Einkommen, Verschuldung usw.) im Laufe der Zeit. Mithilfe gegebenen Daten versucht man dann, diese zu erklären, also ein Modell, etwa der Gestalt Beobachtungen = T rend + Saisonkomponente + Residuum so anzupassen, dass das Residuum möglichst klein wird. Gelingt das, so lässt sich insbesondere die weitere Entwicklung gut prognostizieren. Dass dies oft nur unzureichend gelingt, zeigt der Vergleich von Prognose(n) und tatsächlichem Verlauf. Häufig war die reale Entwicklung, selbst bei den genannten volkswirtschaftlichen Kerngrößen, völlig anders als zuvor erwartet. Dasselbe gilt für die Börse. Schließlich verwendet man mathematische Modelle auch, um die reale Entwicklung zu simulieren. Als Komponenten werden sogenannte stochastische Prozesse mit wohlverstandenen Eigenschaften verwendet. Stochastische Prozesse eignen sich insbesondere gut, um gewisse Abhängigkeiten zwischen den Daten zu erfassen. Dann kann man darangehen, viele konkret mögliche „Pfade“ der stochastischen Prozesse zu berechnen. Heraus kommen viele mögliche Entwicklungen des Systems, die alle mehr oder minder wahrscheinlich sind. Stand der Technik ist heute, zum einen diese Simulationsläufe anhand historischer Daten zu kalibrieren und zum anderen durch systematische Variation der Annahmen diverse Szenarien durchzuspielen. Die aufwändigsten Simulationen sind zur Zeit Klimamodelle, bei denen die Szenarien verschiedenen politisch-technischen Strategien entsprechen und die Kalibrierung anhand historischer Klimadaten erfolgt.
3.8 Hauptsatz der Datenmodellierung
151
3.8.2 Messtheorie und Statistik II Unsere knappe Skizze statistischer Modelle und mehr noch klassischer sowie aktueller Modellbildungen sollte deutlich gemacht haben, warum die Statistik eine weit größere Bedeutung erlangt hat als die Messtheorie. Das Grundmodell der Messtheorie ist deterministisch und damit zugleich auch eng. Ein solches formales Korsett gibt zwar Halt, lässt aber, wie auch statistische Tests, wenig Raum für Flexibilität und problemorientierte Experimente. Versuch und Irrtum sind wichtig. Wenn es schwer fällt, überhaupt Kandidaten für eine empirischen Überprüfung zu generieren, so ist dies ein Fortschrittshindernis. Und kommen diese darüber hinaus noch axiomatisch-normativ daher, so wird der ganze Prozess überaus schwerfällig. Hingegen bietet die Statistik einen umfangreichen, flexibel anwendbaren Werkzeugkasten. Der Zufall spielt eine zentrale Rolle, wodurch sich die Modelle leicht an die jeweiligen Bedürfnisse adaptieren lassen. Prinzipielle Diskussionen hat es zwar auch in der Statistik gegeben,170 doch haben sie die Mainstream-Statistik nicht daran gehindert, praxisnah zu operieren. Datenmodellierung ist induktiv-pragmatisches Vorgehen par excellence: Gib’ mir Deine Daten (egal wie sie zustande gekommen sind), und wir versuchen, uns darauf „einen Reim“ zu machen, also ein Modell zu entwickeln, das die Daten in eine (stabile) Struktur plus einen nicht erklärten „Rest“ zerlegt. So zweifelhaft bzw. zu Zweifeln berechtigend viele Theoretiker eine solche Strategie auch finden mögen, es ist nicht sie, sondern genau die mathematischdeduktiv-normative Sicht, welche die Statistik - völlig analog zur Messtheorie - in jüngerer Zeit in Bedrängnis gebracht hat.171 Bei der induktiven Sicht geht es vor allem darum, sukzessive stabile Muster und Struktur in den Daten und ihrer Variation zu entdecken. Das Grundmodell X = μ + ε und seine überaus zahlreichen Verallgemeinerungen bis hin zum Hauptsatz der Datenanalyse sind wie dafür gemacht, immer größere Teile der beobachteten Variation auf systematische Einflüsse zurückzuführen. Ein prominenter Vertreter dieser Haltung ist Jeffreys (1973: 81): [. . .] we recognize that observations vary and regard scientific method as a procedure for analysing the variation. Our starting-point is to consider all variation as random; then [. . .] more and more of it [is] predictable, and we explicitly regard the method as one of successive approximation.
Eine solche „Destillation der Essenz“ aus vielen reichlich unzuverlässigen Daten ist die Quintessenz der statistischen Modellierung, jedoch - nicht nur, aber insbesondere auch - der Messtheorie völlig fremd. Ohne stochastischen Fehler lässt sich eine reale Struktur im Prinzip einfach und beliebig genau erkennen. Entsprechend wenig Verständnis bringt denn auch mancher Mess170
Siehe vor allem die nachfolgenden Ausführungen zur Bayesschen Statistik ab Abschnitt 4.4.2, und sie waren zumindest nach außen hin eher schädlich 171
Siehe die Ausführungen ab Abschnitt 4.6.3.
152
3 Klassische Statistik
theoretiker, wie wir in Abschnitt 2.9 ausgeführt haben, approximativen Ideen entgegen.172 Für die Statistik ist die Extraktion des Wesentlichen jedoch typisch: Der zufällige Fehler bzw. alle nicht erklärten Anteile bewirken, dass die wahren Verhältnisse nur sehr verschwommen in den Daten erscheinen. In einer solchen Situation ist es angemessen, Fehler und Struktur vorsichtig zu trennen, also rechnerisch-approximativ auf die Suche nach der „wahren Struktur“ hinter den Daten zu gehen. Auch wenn dabei jedes Datum nur ganz wenig Information mit sich bringt - zusammen ergibt sich doch ein klares Bild.173 Dieses Verfahren funktioniert sogar immer noch bei einer reichlich komplexen latenten Struktur. Zentraler Gesichtspunkt ist hier die Identifizierbarkeit, was heißt, dass die Daten genügend Information enthalten, um an die latenten Variablen heranzukommen. Wie wir ebenfalls schon festgestellt haben, ist das Verhältnis von Messtheorie und Statistik insgesamt gesehen nur dann gestört, wenn erstere der letzteren normative Vorschriften machen möchte. Hierauf lässt sich nun, über die Antwort in Abschnitt 2.9 hinausgehend, mit dem der Statistik eigenen stoachastischen Messmodell argumentieren. Die stochastische Sicht, niedergelegt schon im Grundmodell X = μ+ , dessen Erweiterungen und der allgemeinen IID-Überlegung, scheinen ein wesentlich realitätsnäheres Messmodell zu sein, als jenes der Messtheorie.
3.9 Invarianzargumente in der Statistik (1) reliability and replicability, and (2) external validity [. . .] can be met only when social researchers find an invariant law. (Numagami 1998: 2)
Es bleibt die Idee der Invarianz, das zentrale Thema der Messtheorie. Wie geht die Statistik mit ihm um, welche Bedeutung haben Invarianzargumente in der Statistik? Um die Antwort vorwegzunehmen: Invarianzbetrachtungen spielen auch in der Statistik eine Rolle, sind aber nicht so dominierend wie in der Messtheorie. 172
Ein wichtiges Beispiel: Selbst noch so viele Beobachtungen auf Ordinalskalenniveau rechtfertigen es nicht, deren Summe als näherungsweise intervallskaliert anzusehen. Der Grund ist, dass jeder einzelnen Messung die metrische Information fehlt, und sich nicht durch irgendeine arithmetische Operation herbeizaubern lässt. (Von nichts kommt nichts.) Man vergleiche dies mit Gleichung (3.3), S. 129. 173
Beispielsweise schreiben Efron und Tibshirani (1993: 17) sehr anschaulich: “No one mouse provides much information, since the individual results are so variable, but seven, or nine mice considered together begin to be quite informative.”
3.9 Invarianzargumente in der Statistik
153
3.9.1 Äquivalente formale Strukturen Ein grundlegendes Prinzip ist formal invariance. (Casella und Berger 2002: 257) erläutern es: “It states that if two inference problems have the same formal structure in terms of the mathematical model used, then the same inference procedure should be used in both problems [. . .] Formal invariance is concerned only with the mathematical entities involved, not the physical description of the experiment.” 174 Diese Art von Invarianz ist nicht unumstritten. Berger nennt spezielle formale Gründe, die darauf hinauslaufen, dass im abstrakten Modell typischerweise nicht alle empirisch relevanten Informationen abgebildet werden. (Modelle sind gerade in der Statistik oftmals nur ganz grobe Annäherungen an die Realität.) Löst man in solchen Fällen das mathematische Problem und wendet die Lösung dann an, so ist sie natürlich inadäquat, falls das Modell die tatsächlichen Verhältnisse nur schlecht wiedergibt. Dies haben wohl auch Casella und Berger (2002: 300) im Sinn, wenn sie schreiben: [The formal invariance principle] equates any two problems with the same mathematical structure, regardless of the physical reality they are trying to explain. It says that one inference procedure is appropriate even if the physical realities are quite different, an assumption that is sometimes difficult to justify. (Hervorhebung im Original.)
Ansonsten kann man wenig gegen das Prinzip einwenden! Es ist ja gerade eine der großen Stärken der Mathematik, dass sie strukturelle Ähnlichkeiten aufdeckt, wo man diese gar nicht erwartet hätte. Das heißt, man kann oft ein und denselben mathematischen Formalismus, ein und dieselbe Klasse von Modellvorstellungen, auf völlig unterschiedliche empirische Sachverhalte anwenden. Die Differentialgleichungen der Akustik können Schwankungen von Tönen genauso wiedergeben wie Fluktuationen in biologischen Populationen. Mithilfe von Verzweigungsprozessen lässt sich die Ausbreitung einer Idee oder der Erfolg einer Innovation genauso modellieren wie die Nachkommenschaft eines Individuums oder eine kernphysikalische Kettenreaktion. Die formale Beschreibung ist dieselbe, die Schätzung - etwa der durchschnittlichen Anzahl von Nachkommen je Generation - ebenfalls. Das einzige was sich unterscheidet ist die Semantik. Das bislang vorgestellte Invarianzkonzept ist nicht das einzige, welches in der Statistik eine Rolle spielt. Es wird typischerweise mit dem nun zu diskutierenden Prinzip der “measurement equivariance” 175 verbunden. 174
Berger (1985: 390) gibt mithilfe der Terminologie von Entscheidungsproblemen dieselbe Definition. 175
Siehe Casella und Berger (2002: Abschnitt 6.4) bzw. “principle of rational invariance”, siehe Berger (1985: 390)
154
3 Klassische Statistik
3.9.2 Invarianz bei Messungen Das statistische Analogon zu einer Skala, welche den empirischen mit dem numerischen Relativ verbindet, ist ein Schätzer, der Daten und Parameter miteinander in Beziehung setzt. Wie in der Messtheorie, so wird auch bei Schätzungen üblicherweise die Auffassung vertreten, dass jene nicht wesentlich von der verwendeten Skala oder anderen willkürlichen Momenten abhängig sein sollten. Zunächst findet sich die Unterscheidung zwischen kovariant und konstant, welche wir auf S. 20 getroffen haben, sehr präzise in Casella und Berger (2002: 296): “As many other texts [. . .] we distinguish between equivariance, in which the estimate changes in a prescribed way as the data are transformed, and invariance, in which the estimate remains unchanged as the data are transformed.” (Hervorhebungen im Original.) Sie fahren fort: [Measurement equivariance] prescribes that the inference made should not depend on the measurement scale that is used. For example, suppose two foresters are going to estimate the average diameter of trees in a forest. The first uses data on tree diameters expressed in inches, and the second uses the same data expressed in meters. Now both are asked to produce an estimate in inches. (The second might conveniently estimate the average diameter in meters and then transform the estimate to inches.) Measurement equivariance requires that both foresters produce the same estimates. No doubt, almost all would agree that this type of equivariance is reasonable.
Damit wiederholen sie nahezu wortwörtlich die in der Messtheorie übliche Definition von Bedeutsamkeit (siehe Abschnitt 2.4). Nur etwas allgemeiner nennt dies Berger (1985: 390) “Principle of Rational Invariance. The action taken in a decision problem should not depend on the unit of measurement used, or other such arbitrarily chosen incidentals.” (Hervorhebung im Original.) Zu seiner Bedeutung sagt er lediglich (ibd.): “The principle of rational invariance is so intuitively sensible [that] it merits little discussion.” Derselben Meinung sind Casella und Berger (2002: 300): “Measurement equivariance is intuitively reasonable.” Schon R. A. Fisher (1973: 140) führte die grundlegende Idee mit den Worten ein: “If an unknown parameter θ is being estimated, any one-valued function of θ is necessarily being estimated by the same operation. The criteria used in the theory must, for this reason, be invariant for all such functional transformations of the parameters.” 176 Schließlich formuliert Jeffreys (1980: 117): “There are cases of estimation where a law can be equally well expressed in terms of several different set of 176
Zitiert nach (Hacking 1965: 173). Die Seitenzahl bezieht sich auf die 1. Auflage von 1956. In der von uns herangezogenen Ausgabe Fisher (1973) findet sich das Zitat auf Seite 146. Bei Stegmüller (1973: 208) liest sich derselbe Textauszug - ohne auf Hacking Bezug zu nehmen - wie folgt: „Für FISHER ist ein Schätzwert eine exakte und konzentrierte Zusammenfassung dessen, was in den empirischen Daten für die Beurteilung des wahren Wertes einer Größe relevant ist. Schätzwerte müssen nach seiner Auffassung daher insbesondere gegenüber allen funktionellen Transformationen invariant sein.“
3.9 Invarianzargumente in der Statistik
155
parameters, and it is desirable to have a rule that will lead to the same results whichever set we choose. Otherwise we shall again be in danger of suing different rules arbitrarily to suit our taste.” Genau diese Art der Formulierung - verschiedene Parametrisierungen eines Modells sollten zu den denselben Resultaten führen - dominiert auch das Buch von Steyer und Eid (1993). Lindsey (1999: 3) schreibt kurz und knapp: If observables are important, inferences must be invariant to the parametrizations in which such models are specified [. . .].
3.9.3 Skalentransformationen Soweit der allgemeine Konsens. Zugleich erinnert die Argumentation bis ins Detail an die Debatte um Skalenabhängigkeit und Bedeutsamkeit. Auch dort ist es theoretisch völlig „natürlich“, Skalenunabhängigkeit zu fordern, und man muss dann praktisch schnell einsehen, dass viele Aussagen de facto von der speziellen Skala und Messmethode wesentlich abhängen. Hierauf sind Kritiker des gerade genannten Invarianzprinzips schon früh aufmerksam geworden. Carnap (1962: 531),177 gibt ein typisches Beispiel: „Angenommen, eine Größe x habe die drei möglichen Werte 1, 2 und 3. Als Schätzwert werde der Durchschnitt genommen, also 2. Der Schätzwert von x2 [= g(x)] ist dann 4. Andererseits sind die möglichen Werte von x2 1, 4 und 9, deren Durchschnitt 14/3 beträgt, also einen größeren Wert als 4 liefert. Dieses elementare Beispiel zeigt, daß es für eine Größe, die als nichtlineare Funktion von Größen definiert ist, einen Unterschied ausmacht, ob man sie selbst schätzt oder ob man die Schätzung in der Weise vornimmt, daß man zunächst die in der Definition benützten Größen schätzt und erst dann die funktionelle Operation anwendet.“ Das heißt, man hat die Ungleichung g(¯ x) = g((1 + 2 + 3)/3) = g(2) = 4 = 14/3 = (1 + 4 + 9)/3 =
3
g(xi )/3,
i=1
was - mit etwas anderen Zahlen - gerade Ungleichung (2.4), S. 34, ist. Stegmüller (1973: 201) fährt fort: „CARNAP nennt dies deshalb ein Paradoxon, weil die schätzende Person im obigen Beispiel vor zwei unvereinbare Alternativen gestellt ist: Nach der einen soll sie als Wert von x2 vernünftigerweise 4 erwarten und dies als Grundlage für ihre praktischen Entscheidungen wählen. Nach der anderen soll sie vernünftigerweise den größeren Wert 14/3 erwarten und so handeln, als wüßte sie, daß x2 den Wert 14/3 hat. Die Person kann sich aber nur für eine Handlung entschließen.“ Zurecht betont Stegmüller (1973: 202), dass das Problem „bereits dann auftritt, wenn man von einer Skala zu einer anderen übergeht: Was bei der 177
Zitiert nach Stegmüller (1973: 201f)
156
3 Klassische Statistik
Benützung (sic) der einen Skala als kleiner Wert erscheint, ist aufgrund der anderen ein großer Wert und umgekehrt. Ob ein Irrtum bei der Schätzung als groß oder als klein zu beurteilen ist, hängt somit davon ab, was für eine Skala gewählt wurde.“ Carnaps Beobachtung wirkt dann besonders paradox, wenn eine nichtlineare Transformation eine entscheidende Rolle spielt, so dass beide Arten der Beschreibung - mathematisch gesehen - deutlich verschieden sind, zugleich aber die inhaltliche Interpretation suggeriert, dass man es mit zwei völlig äquivalenten Darstellungen ein und derselben Situation zu tun hat. Man betrachte z. B. eine mit m Kugeln befüllte Urne, von denen g „günstig“ seien und u = m − g „ungünstig“. Ob man die Chancen beim einmaligen Ziehen aus der Urne als Günstige durch Mögliche, also gemäß der klassischen Definition von Wahrscheinlichkeit (p = g/m) oder aber als Günstige durch Ungünstige, also gemäß den “Odds” 178 (d = g/u) wiedergibt, sollte keinen Unterschied machen.179 Doch bereits in diesem einfachen Fall liegt eine nichtlineare Transformation vor, nämlich p=
g g 1 1 d = = = = . m g+u 1 + u/g 1 + 1/d d+1
Außerordentlich ähnlich ist die Struktur des bekannten „Wasser-WeinParadoxons“, das bereits im 19. Jahrhundert diskutiert wurde. Wir zitieren Seidenfeld (1979: 132):180 Suppose that a liter of a wine-water mixture is known only to contain between 50% and 90% wine. Therefore, the ratio of wine to water varies from 1 : 1 to a maximum of 9 : 1. Applying the Principle of Insufficient Reason,181 the prior probability for the contents of the mixture is uniform over the various possibilities, which form a continuum of values. However, expressed in terms of percentage wine,182 the prior probability is 1/2 that there is more than 70% wine; whereas, expressed in terms of the ratio of wine to water,183 the prior probability is 1/2 that the ratio is 178
Bzw., genauer, dem “Odds Ratio”
179
Die klassische Theorie arbeitet mit Wahrscheinlichkeiten, jedoch bevorzugt Barnard (1949) aus mathematischen Gründen die Odds. Auch in der medizinischen Statistik haben Odds eine große Bedeutung erlangt. 180
Siehe auch Keynes (1921: 45), der wiederum auf von Kries (1886) verweist. Ausgangspunkt der Diskussion war wohl die Reaktion von Venn (1888) auf Boole (1854). 181
Siehe S. 257
182
Diese Skala entspricht also der obigen „Wahrscheinlichkeit“. Ohne weitere Information über das Verhältnis von Wein zu Wasser, ist es plausibel eine Gleichverteilung über alle möglichen Werte von 50% bis 90% zu legen. Bei unserer obigen Argumentation mit dem arithmetischen Mittel kommt man damit auf einen Weinanteil von 70%. 183
Diese Skala entspricht also den obigen “Odds”. Hier ist es plausibel, eine Gleichverteilung über alle möglichen Werte von 1 : 1 bis 9 : 1 zu legen. Im Mittel kommt man nun auf einen Weingehalt von 5 : 1.
3.9 Invarianzargumente in der Statistik
157
greater than 5 : 1. But this last value corresponds to a minimum of at least (approximately) 83.5% wine.184 Drei nahe liegende Lösungsmöglichkeiten werden von Stegmüller ausgeführt: 1. „CARNAPS Lösungsvorschlag besteht darin, Regeln anzuwenden, in denen auf Vermögenswerte, bzw. allgemeiner: auf Nützlichkeiten, Bezug genommen wird“ (siehe Stegmüller (1973: 201)). Das heißt, er reichert das Problem um einen weiteren Gesichtspunkt an, und kann sich dann aufgrund dieser zusätzlichen Information rational für eine der Möglichkeiten entscheiden. Hacking (1965: 172) führt dies sehr schön aus: “This suggests that a request for an estimate should carry with it, explicitly or implicitly, a request for the scale on which the magnitude under estimate is measured. This implies not that the theory of estimation must include a theory of which scale to choose, but the theory should take for granted scales which are chosen on grounds independent of the theory.” 2. Stegmüller (1973: 202, Hervorhebung im Original) plädiert hingegen dafür, mehrere Skalen nebeneinander zu benutzen: „Im Rahmen der Schätzungstheorie sind Skalen (einschließlich ihrer Verwendungsweise) als vorgegeben anzusehen. Ist nicht eine, sondern sind mehrere vorhanden, so kann man die Schätzungen nach mehreren Skalen vornehmen.“ Hacking (1965: 172) schließt sich dem an: “Asked to estimate the cost of a house [. . .] one knows the scale desired [. . .] Indeed if a scale is not stated, [. . .] [one] will, perhaps, estimate along several different scales [. . .] For one purpose one scale may be fitting, for another, another.” Das heißt, man interpretiert die vorliegenden Skalen als verschiedenartig, verzichtet auf deren Vergleich und einschlägige Transformationen. 3. Beide Autoren ergänzen, dass man aufgrund der Ambivalenz natürlich auch keine Wahl treffen und auf eine Schätzung völlig verzichten kann. Die allgemeine Lösung der statistischen Schätztheorie besteht in einem Kompromiss, völlig analog jenem der Messtheorie. Weder betrachtet man Skalen isoliert, noch vergleicht man beliebige Skalen. Stattdessen studiert man wieder natürliche Gruppen von Transformationen, die jeweils eine Menge äquivalenter Skalen definieren. Statistiken hießen in der Messtheorie zulässig, wenn sie eine Gruppe von Transformationen respektieren, hier nun spricht man von invarianten Entscheidungsregeln (siehe Berger (1985: Abschnitt 6.2.3)), die völlig analog definiert sind. Um die Idee auszuführen, benötigt Berger (1985: 391), jedoch, ebenfalls wenig verwunderlich, ein ganzes (umfangreiches) Kapitel seines Buches, das unter einem bekannten Motto steht: “A proper understanding of invariance can be obtained only through the study of groups of transformations of a problem.” Es stellt sich dabei schnell heraus, dass wiederum lineare Transformationen g(x) = ax + b mit a = 0 von herausragender Bedeutung sind, wobei 184
Das ist wiederum der Effekt des nichtlinearen Zusammenhangs zwischen den Skalen.
158
3 Klassische Statistik
man b als Lageparameter und a nun als Skalenparameter (einer Verteilung) interpretiert. Die Motivation ist jedoch exakt dieselbe: Eine Schätzung soll unabhängig von der Einheit und dem Nullpunkt der Messung sein. Da es um bestmögliche Schätzungen, also letztlich um die Lösung eines Optimierungsproblems geht, führt man als nächstes sogenannte „maximale Invarianten“ ein, und kann mit deren Hilfe dann Schätzer angeben, welche sowohl optimal als auch invariant unter den zulässigen Transformationen sind.185 Auch Seidenfeld (1979: 132) löst das Wein-Wasser-Paradoxon auf diese Weise, d.h., er beschränkt sich auf eine Klasse „sinnvoller“ Transformationen: “As is well known to those who attempt a modified use of this principle, little difficulty is experienced if the unknown parameter (for continuous distributions) can be limited to a canonical set of alternative forms. Practically, a family of linear transformations often is admissible without fear of inconsistency. Thus, for example, the switch from the wine-water ratio to the inverse, water-wine ratio would be barred, as it employs a non-linear transformation (T : x → x−1 )[. . .]” 186 Leider kann man, wie schon das Beispiel von Standardabweichung σ und Varianz σ 2 zeigt, sich nicht immer auf lineare Transformationen beschränken. Ein guter Schätzer der Standardabweichung sollte auch ein guter Schätzer der Varianz sein und vice versa, da beide die Streuung messen. Dasselbe gilt für Wahrscheinlichkeiten und Odds, die jeweils „Anteile“ erfassen. D.h., man muss zumindest gewisse nichtlineare Transformationen studieren. Ein Beispiel hierfür ist Tukey (1957), der Transformationen gemäß ihrer „Stärke“ (im Wesentlichen die höchste auftretende Potenz) klassifiziert.187 Weiterführende mathematische Überlegungen verschieben wir auf die Diskussion des Partitionierungsparadoxons ab S. 258.188 Jene laufen mathematisch gesehen darauf hinaus, die „Verzerrung“ durch eine nichtlineare Transformation angemessen zu berücksichtigen. Inhaltlich gesehen empfiehlt es sich, genau diejenige Klasse nichtlinearer Transformationen zuzulassen, die aus empirischen Gründen als äquivalent angesehen werden können.
Verschiedenartige Skalen Alle gerade genannten Skalen sind sicherlich substanziell gesehen sinnvoll. Kann man sie zudem auf eine mathematisch befriedigende Art zueinander 185
Für weitere Details siehe Berger (1985: Kapitel 6). Dies ist eine in der Mathematik sehr häufige Vorgehensweise. Hat ein Problem keine allgemeine und zugleich elegante Lösung, so beschränkt man sich auf ein Teilproblem, das noch eine „glatte“ Lösung besitzt. Ein geflügeltes Wort unter angewandten Mathematikern ist denn auch: “Proofs are always for the nice cases.” 186
187
Siehe hierzu auch die auf Box und Cox (1964) aufbauende Literatur. Siehe aber auch die Bemerkungen zur Erwartungstreue eines Schätzers, S. 368 und S. 531. 188
3.9 Invarianzargumente in der Statistik
159
in Beziehung setzen, so überzeugt die Lösung des jeweiligen Invarianzansatzes. Gelingt dies nicht, sind die Skalen also verschiedenartig, so kann man zuweilen, Carnap folgend, eine von ihnen aufgrund weiterer, insbesondere nichtmathematischer Überlegungen auszeichnen. Ist dies nicht überzeugend, so stehen, wie Stegmüller ausführt, verschiedenartige Skalen nebeneinander. Deshalb läuft dessen Vorschlag darauf hinaus, den Unterschied zwischen inhaltlicher und formaler Sicht zu akzeptieren. Ein empirischer Sachverhalt kann eben auf verschiedene Arten mathematisch erfasst werden. Man denke an den „Weingehalt“ eines Getränks oder die „Größe“ einer Person. Eine eineindeutige Zuordnung realer Probleme zu mathematischen Strukturen existiert weder bei Skalen noch andernorts. Vielmehr ist zu erwarten, dass verschiedenartige Modellierungen jeweils andere Aspekte der Realität erfassen.189 So gesehen motivieren wesentliche mathematische Unterschiede die Suche nach inhaltlichen Diskrepanzen. Diese Strategie hatten wir bereits im Beispiel der Geschwindigkeits- bzw. Effizienzmessung von Autos verfolgt (siehe S. 62ff). Tukey (1986b: 223) gibt ein physikalisches Beispiel: “The measurement of the exact wave lengths of spectral lines went on for decades as a purely empirical matter. And when it was learned that using the reciprocal of the wave length made more sense, first because differences between reciprocal wave length were repeated at various places in the same spectrum, and then because the many observed reciprocal wave lengths could be described, empirically, as differences among a smaller set of numbers, empirical work was stimulated but remained empirical.” Ganz allgemein erscheint es sinnvoll und notwendig, über die empirische Bedeutung von Skalen nachzudenken. Die Frage nach der Zulässigkeit von Transformationen, also der (tatsächlichen, empirischen) Äquivalenz von Skalen, ist dabei nur ein Beispiel für den nicht-syntaktischen Teil der Statistik. Im Allgemeinen lautet die Aufgabe, den Zusammenhang zwischen dem mathematischen Modell und der zu beschreibenden Realität zu beleuchten. Im folgenden Abschnitt diskutieren wir dies ausführlich, wobei wir erneut auf ähnliche Argumentationsmuster wie in der Messtheorie stoßen. 189
Dies zeigt schon das klassische Betrandsche Paradoxon: Gegeben sei ein Kreis und ein gleichseitiges Dreieck, dessen Ecken alle auf dem Kreis liegen sollen. Eine Sehne ist eine gerade Linie, die einen Kreis in zwei Teile zerlegt. Wie groß ist die Wahrscheinlichkeit p, dass die Länge einer „zufälligen“ Sehne größer ist als die Seitenlänge des Dreiecks? (Z.B. werfe man auf Kreis und Dreieck einen langen Strohhalm.) Je nachdem, wie man das Problem formalisiert, kommt man zu drei verschiedenen, jedoch völlig natürlichen Lösungen (p = 1/2, p = 1/3 und p = 1/4). Siehe hierfür Krengel (1988: 134f), aber auch Jaynes (2003: 386-394) für einen Versuch, mithilfe von Invarianzen doch eine Beschreibung auszuzeichnen.
160
3 Klassische Statistik
3.10 Semantische Aspekte What does it mean? [. . .] Can the world in her head be real? (Wonderwall 2003)
3.10.1 Die Qualität von Messungen Wie schon ausgeführt helfen Maßeinheiten - in der Physik auch gerne „Dimensionen“ genannt - sehr beim Umgang mit verschiedenen Skalen. Jeffreys (1973: 91) schreibt: When we say that a density is 1.34 grams per cubic centimetre, the expression ‘1.34 grams per cubic centimetre’ must be taken as a whole; no item in it, neither ‘1.34’ nor ‘grams’ nor ‘cubic centimetre’ can be changed without altering the meaning of the whole. For this reason it is misleading to speak, as is often done in writings on the theory of dimensions, of a ‘mere change of units’. There is no such thing as a mere change of units. If we alter a unit without altering the number in the measure, we are speaking of a different physical system, and cannot assert anything about it without a physical law to guide us; while if we already know the physical law, a change of units tells us nothing that we cannot find out by keeping the same units and altering the numerical measure.
Im Weinbeispiel hat man es genau genommen das eine Mal mit der „Dichte“ bzw. der „Wahrscheinlichkeit“ p von Wein im Getränk zu tun, also dem Anteil des Weins an der gesamten Flüssigkeit. Das andere Mal betrachtet man die “Odds” d, also das Verhältnis von Weinteilchen zu Nicht-Wein-Teilchen. Die damit eng verwandte nichtlineare Transformation T : x → x−1 zeigt sich im Geschwindigkeitsbeispiel anhand der Einheiten. Einmal misst man in m/s und das andere Mal in s/m, also auf verschiedene Weisen. Darüber hinaus hängen die Maßeinheiten viel weniger von den Transformationen ab, als von dem Gemessenen, denn Jeffreys (1973: 94) fährt fort: It is widely supposed that dimensions are concerned entirely with transformations of units. This is not so. Dimensions of [. . .] magnitudes arise through the method of measurement itself; and even if we never had to change units the dimensions of a derived magnitude arise in describing the property it measures. Dimensions do help in transformations of units, but dimensions come first. One important feature is that quantities of the same dimensions can often be added, either in experiment or in calculation; quantities of different dimensions never can. This often provides a valuable check in theoretical work.
Misst man etwa die Zeit, so wird man als Einheit eine bestimmte Zeitdauer wählen; misst man eine Länge, so bietet sich als Einheit eine gewisse - willkürlich festlegbare - Wegstrecke an. Primär ist die Messung einer interessierenden Dauer oder Strecke, was formal heißt, den Faktor zu bestimmen, mit dem die Einheit multipliziert werden muss, um die gefragte Zeit oder Strecke zu erhalten. Der Eifelturm ist 325 Meter hoch bedeutet, dass der feste Maßstab von einem Meter 325 Mal aneinander gelegt werden muss, um
3.10 Semantische Aspekte
161
mit der gesuchten Höhe des Turmes übereinzustimmen. Mehr noch: Zuweilen gibt die Einheit auch an, wie gemessen wurde, ob also z. B. ein auf ◦ C oder ◦ F geeichtes Thermometer benutzt wurde. Transformationen der Einheiten, etwa von Sekunden in Stunden oder Tage sind also sekundär, und es wird auch sofort klar, dass 3 Meter etwas völlig anderes sind als 3 Sekunden. Man erkennt mittels der Einheiten sogar sofort, ob bzw. wie Größen voneinander abhängen, z. B. wird die Kraft in der Einheit „Newton“ gemessen, was nichts anderes ist als kg · m/s2 . Aus alledem lässt sich nur folgern, dass man die spezielle Skala, mit der man misst, ernst nehmen sollte. Unabhängig von allen Invarianzüberlegungen ist es eben doch wesentlich, was man misst und wie man es misst, wie man konkret versucht, einer ganz bestimmten Situation gerecht zu werden und welche numerischen Werte dabei herauskommen. Mit den Worten von Tukey (1969: 734): “Being so disinterested in our variables that we do not care about their units can hardly be desirable.” Deshalb spricht er sich an genau derselben Stelle explizit für die Verwendung skalenabhängiger(!) Regressionskoeffizienten und gegen die Verwendung skalenunabhängiger(!) Korrelationskoeffizienten aus. Er sieht in der großen Beliebtheit von Korrelationskoeffizienten und anderer skalenunabhängiger Statistiken sogar ein generelles Symptom dafür, dass die Forscher zu wenig an ihrem Forschungsgebiet interessiert seien. Seine Begründung (ibd.): Why then are correlation coefficients so attractive? Only bad reasons seem to come to mind. Worst of all, probably, is the absence of any need to think about the units for either variable. Given two perfectly meaningless variables,190 one is reminded of their meaninglessness when a regression coefficient is given, since one wonders how to interpret the value. A correlation coefficient is less likely to bring up the unpleasant truth [. . .] Sweeping things under the rug is the enemy of good data analysis. Often, using the correlation coefficient is ‘sweeping under the rug’ with a vengeance.
Ganz ähnliche Worte verwendet Cox (2001), der, wie wir noch sehen werden (S. 281), ausdrücklich dafür plädiert, dass Modellen eine empirische Struktur zugrunde liegt. Beachtet man die spezifische Situation nicht oder zu wenig, so passiert, das, was Cohen et al. (1999) im Abstract ihres Artikels eindrucksvoll beschreiben: Many areas of the behavioral sciences have few measures that are accepted as the standard for the operationalization of a construct. One consequence is that there is hardly ever an articulated and understood framework for the units of the measures that are employed. Without meaningful measurement units, theoretical formulations are limited to statements of the direction of an effect or association, or to effects expressed in standardized units. Thus the long term scientific goal of generation of laws expressing the relationships among variables in scale units is greatly hindered. 190
Meine Anmerkung: Inhaltlich gesehen, nicht im Sinne der Messtheorie. Man denke zum Beispiel an zwei unabhängige Zufallsvariablen ohne jede sachliche Bedeutung.
162
3 Klassische Statistik
3.10.2 Validität und Reliabilität Besser eine einzige „gute“ Skala, die das hervorragend erfasst, was man erfassen möchte, als ein Dutzend ungenauer, dafür aber äquivalenter Messmethoden, die allesamt wenig zuverlässig sind und an dem vorbeigreifen, was einen interessiert. Hierbei haben sich die folgenden Redewendungen durchgesetzt:191 1. Ein Verfahren heißt valide, wenn man mit ihm zuverlässig das erfasst, was man erfassen möchte. Man misst also keine verwandte „Proxy-Variable“ oder macht einen systematischen Fehler bei der Erfassung, was verheerende Folgen haben kann. Meehl (1978: 823), ein methodisch führender Psychologe, gibt ein Beispiel: It is as if we were interested in the effect of sunlight on the mating behavior of birds, but not being able to get directly at either of these two things, we settle for correlating a proxy variable like field-mice density (because the birds tend to destroy the field mice) with, say, incidence of human skin cancer (since you can get that by spending too much time in the sun!) You may think this analogy is dreadfully unfair; but I think it is a good one.192
In der Statistik193 spricht man zumeist eher grob und allgemein von einem nicht vorhandenen Bias, wenn eine systematische Verzerrung (etwa ein Selektionseffekt bei der Datenerhebung) ausgeschlossen werden kann. Ein Schätzer T heißt hierzu passend unbiased bzw. erwartungstreu, wenn er im Mittel gleich dem zu schätzenden Parameter θ ist, d.h., wenn für seinen Erwartungswert gilt: ET = θ. Im Allgemeinen ist sein Bias b = ET − θ, also seine Abweichung vom „wahren Wert“. Die statistische Schätztheorie operationalisiert also das komplexe Konzept der Validität einer Messung durch die Erwartungstreue eine Schätzers. 191
Für einen kurzen Überblick siehe z. B. (Bryman und Cramer 2004), (Bortz und Döring 1995) und die nachfolgend genannte Literatur. 192
Da Messungen in der Psychologie und vielen Sozialwissenschaften eher schwierig sind, unterscheidet man dort verschiedene Varianten von Validität: Die Kriteriumsvalidität hebt auf äußere Passung, nämlich die Übereinstimmung mit einem externen Kriterium, ab. Externe Validität besteht dann, wenn man die Ergebnisse einer Untersuchung auf eine Population bzw. eine praktisch bedeutsame Situation verallgemeinern kann, man also mit gutem Grund über den speziellen Kontext, in dem eine Studie durchgeführt wurde, hinausgehen kann. Kurz gesagt, ein Ergebnis lässt sich generalisieren. Eine Untersuchung ist intern valide, wenn die Studie per se, also für sich allein genommen, überzeugend ist. Die entscheidende Frage ist, ob man den Ergebnisse der Untersuchung vertrauen kann, insbesondere indem durch das Studiendesign Alternativerklärungen ausgeschlossen wurden. Bei der Inhaltsvalidität möchte man alle Aspekte einer theoretischen Größe (zumindest in Form einer repräsentativen Stichprobe) erfassen, und hat man schließlich ein theoretisches Konstrukt angemessen operationalisiert, so nennt man dies Konstruktvalidität. Der gemeinsame Kern aller Validitätsbegriffe ist, nicht an dem eigentlich Interessierenden vorbeizugreifen. Misst das Verfahren das, was es messen soll? ist die entscheidende Frage. 193
Siehe auch S. 367f.
3.10 Semantische Aspekte
163
2. Ein Verfahren heißt reliabel, wenn es zuverlässig und präzise ist. Ein zuverlässiges Verfahren weist mit anderen Worten einen geringen Messfehler auf, wird also möglichst wenig von unsystematischen Schwankungen tangiert.194 In der Statistik spricht man stattdessen ganz allgemein von precision. Speziell versteht man darunter zumeist ein Maß für die Variablilität, zumeist die Varianz einer Verteilung. Die statistische Schätztheorie operationalisiert also auch das durchaus mehrschichtige Konzept der Reliabilität durch die wesentlich leichter zugängliche Streuung eine Schätzers. Viele Schätzer sind in dem Sinne optimal, dass die Varianz der zu ihnen gehörigen Verteilung so klein wie theoretisch möglich ist. Cochran (1972)195 sagt klar, warum die Validität wichtiger ist als die Reliabilität: “The reduction of bias should, I think, be regarded as the primary objective - a highly precise estimate of the wrong quantity is not much help [. . .]” 196 Auch das IID-Grundmodell X = μ + U bringt dies klar zum Aus¯ tastet man druck: Mit einem erwartungstreuen Schätzer μ ˆ, insbesondere X, sich an die Wahrheit, formalisiert durch den (unbekannten) Parameter μ, ¯ zeigt, wie erfolgreich man dabei war. Ergo ist heran. Die Variabilität σ 2 (X) 2 ¯ 1/σ (X) ein natürliches Maß für die Information, die man über μ besitzt. Natürlich sollte man nun nicht ins Extrem des Operationalismus verfallen, also eine einzige Messmethode bzw. eine einzige Skala als gegeben hinnehmen und auf Transformationen überhaupt keinen Wert legen. Andererseits ist es jedoch sicherlich auch kein Zufall, dass Theoretiker - handle es sich dabei um Statistiker oder Philosophen - gerne von den Spezifika der konkret gemessenen Sache abstrahieren und Transformationen mitsamt ihren Invarianzen in den Vordergrund stellen. Der zuverlässige Kontakt, welcher durch ein valides Messverfahren zwischen numerischen Werten und der Realität hergestellt wird, ist jedoch grundlegender. In Abwandlung des Zitats von Collingwood (1942)197 könnte man sagen: “Knowledge acquisition is primarily practical; and only in the second place theoretical. Without the guidance of theory there are only a few rudimentary types of working knowledge, but without measurement there would be no science at all.” 194
Auch hier unterscheidet man diverse Aspekte. Kann man ein Ergebnis perfekt replizieren, so ist das gleichbedeutend mit der größtmöglichen Reliabilität des Messverfahrens. Im Allgemeinen zeigt einem die Streuung bei der wiederholten Anwendung eines Verfahrens, wie genau bzw. zuverlässig es ist. Die Kriteriumsreliabilität achtet wieder auf die Übereinstimmung der Methode mit einer anderen, die bereits als zuverlässig gilt. (Z. B. einem parallelen Test in der psychologischen Testtheorie.) Solch ein Test heißt intern reliabel, wenn seine Items im Wesentlichen dasselbe messen. Beobachter werden als reliabel angesehen, wenn sie zumeist übereinstimmen. Wie genau misst das Verfahren das, was es misst? ist die entscheidende Frage. 195 196
Zitiert nach Rubin (2006: 22) Siehe auch Tukeys badmandment, S. 41.
197
Siehe S. 10
164
3 Klassische Statistik
Ohne eine solche gelungene „Annäherung“ (im Wortsinn) bzw. Kopplung und sei sie noch so punktuell - nutzt die ganze Zahlenakrobatik wenig. Transformationen und Invarianzkonzepte, aber auch das ganze Arsenal der deskriptiven Statistik (z. B. graphische Zusammenfassungen, statistische Kennwerte und Verteilungen) sind letztlich alle sekundär. Mit ihrer Hilfe versucht man Informationen, die sich möglicherweise in den Daten befinden - zuweilen auch verstecken - zu erschließen. Offensichtlich ist dieses Bemühen potenziell umso erfolgreicher, je deutlicher sich die realen Strukturen in den Daten abgebildet haben. Statistik ist keine Zauberei, die aus dem Nichts empirisch interessante Strukturen erstehen lassen könnte, weshalb schlimmstenfalls sogar der Satz “garbage in - garbage out” greift. Nicht zuletzt deshalb legen Statistiker viel Wert darauf, sich gegen vermeintliche Strukturen in den Daten abzusichern.198 Das Beste, was einem bei einem nicht validen und unreliablen Verfahren passieren kann, ist nämlich, dass die statistische Analyse dies feststellt, und den Forscher davor warnt, solche Daten überzuinterpretieren, also bedeutungstragende Muster in den Daten sehen zu wollen, obwohl sie mit dem nüchtern-numerischen Blick der Statistik nicht zu erkennen sind.
3.10.3 Die Bedeutung von Invarianzargumenten Weil der Kontakt mit der Empirie primär und die Interpretation der gewonnenen Daten immer sekundär ist, haben wir hier letztlich den tieferen Grund entdeckt, weshalb selbst extrem skalenabhängige Aussagen sowie stark operationalistisch geprägte Definitionen bedeutsam sein können; sie sind umso bedeutsamer, je besser ihre zugrundliegenden Messmethoden die Realität zu erfassen vermögen. Entsprechend fahren Cohen et al. (1999: 315ff) fort: One of the most fundamental tasks in building a science is the establishment of standard operationalizations of the major constructs used in its theory [. . .] Measurement generally begins with some arbitrary reference unit around which information builds and familiarity is created (Mandel 1964).
Nach einer längeren Entwicklung ist es dann so, dass “ideally, theory and measurement are intertwined in a series of reciprocal approximations”, und man kennt die Klasse aller Transformationen, die zu äquivalenten Messverfahren gehören. Genau diese Entwicklung hat die Physik genommen: Ausgehend von einem groben Messverfahren auf einer speziellen Skalen ging man nach und nach zu äquivalenten Messverfahren derselben theoretischen Größe über und betrachtete schließlich im Allgemeinen Invarianzen und Symmetrien. Eingedenk dieser typischen Entwicklung, sollte man die „Botschaft“ des Operationalismus modifizieren. Die Charakterisierung “Thus, an attribute is defined by its measuring procedure, no more and no less, and has no ‘real’ 198
Für eine prägnante Übersicht siehe Diaconis (2006).
3.10 Semantische Aspekte
165
existence beyond that” 199 betont die Abhängigkeit des Attributs vom Messverfahren und leugnet deshalb eine objektive Welt hinter den Phänomenen. Daraus kann man berechtigterweise für die konkrete Situation (pessimistisch) folgern, dass wir keinen Zugang zu einer unabhängigen Realität haben. Dadurch jedoch gerät der empirische Boden der Naturwissenschaften ins Wanken, und zentrale Begriffe wie Objektivität und Wahrheit werden zumindest geschwächt. Neben solchen eher prinzipiellen Bedenken kann man zu bedenken geben, dass die Interpretation nicht wirklich gerechtfertigt ist, liefert ein gutes Messverfahren doch valide Informationen über die Realität. Auch der entschiedenste Operationalist wird ja nach wie vor darauf beharren, dass sein Messgerät nicht irgendwelche sinnfreien Daten „produziert’", gerade so, als sei es defekt. Eine optimistischere Lesart, die wir schon S. 67 kurz angerissen haben, wäre die folgende: Falls lediglich ein Messverfahren verfügbar ist, so ist jenes untrennbar mit dem Attribut verwoben. Um diese missliche Situation zu überwinden, kann die Aufforderung nur lauten, möglichst eine ganze Reihe äquivalenter Messverfahren zu entwickeln. Ist dieser optimistische Arbeitsauftrag von Erfolg gekrönt, so stehen nach einiger Zeit eine ganze Reihe vergleichbarer Verfahren zur Verfügung und es greifen Invarianzüberlegungen, mit deren Hilfe sich die realen von den methodenspezifischen Teilen der Daten trennen lassen. Fortschritt zeigt sich nicht zuletzt darin, eine lokale Methode zu einer Familie äquivalenter Verfahren weiterzuentwickeln. Es ist eine Sache, keine Informationen zu besitzen, eine ganz andere, potenziell vorhandene Informationen aufgrund ungünstiger Randbedingungen nicht zuverlässig extrahieren zu können. Die pessimistische Interpretation des Operationalismus legt nahe, man besäße keine Information über die Welt, die optimistische Interpretation baut darauf, Information über die reale Welt durch geeignete Nachbearbeitung von Daten und die Verbesserung von Messverfahren doch erschließen zu könnten. In der Messtheorie wird großer Wert auf bedeutsame Relationen und zulässige Statistiken gelegt. Dem entspricht hier, auf die Suche nach Schätzern zu gehen, die unter einer möglichst großen Klasse von Transformationen invariant sind. Typischer noch ist, dass man wichtige Schätzverfahren auf ihre Invarianzeigenschaften hin untersucht. Dabei stellt sich heraus, dass viele wichtige Schätzer Invarianzeigenschaften besitzen. Von besonderer Bedeutung ist, dass der Maximum-Likelihood-Schätzer sogar invariant unter beliebigen Transformationen ist.200 Eine andere Vorgehensweise ist, dass man zunächst in einer - durch eine Gruppe von Transformationen definierten - kleinen Klasse von Schätzern nach einem bestmöglichen sucht, und dann zeigt, dass der so ausgewählte Kandidat auch insgesamt optimal oder zumindest für praktische Zwecke brauchbar ist. Ein typisches Beispiel ist der schon erwähnte “best linear unbiased estimator” (BLUE). 199 200
Siehe S. 50 Wobei man eine geschickte Definition zu wählen hat, siehe Pawitan (2001: 45).
166
3 Klassische Statistik
Invarianz in der einen oder anderen Form ist immer ein Argument für die Verwendung eines bestimmten Schätzers. Doch anders als in der Messtheorie ist sie weder - falls vorhanden - ein entscheidendes Argument für die Verwendung eines Schätzers, noch - falls nicht vorhanden - ein „K.O.-Kriterium“. Das liegt nicht zuletzt daran, dass andere Aspekte, insbesondere Validität und Reliabilität, ebenfalls eine Rolle spielen. Dies führt insgesamt dazu, dass man in der heutigen Statistik ziemlich pragmatisch und flexibel mit Invarianzargumenten umgeht. Sie dienen nicht nur zur Auswahl und Bewertung von Schätzverfahren, vielmehr werden sie auch, neben anderen Prinzipien, zur Vereinfachung eines Problems eingesetzt (indem man sich z. B. auf eine kleinere Klasse von Schätzern beschränken kann) und ihr Wechselspiel mit anderen Ansätzen (z. B. Bayessche Priori-Verteilungen, Minimax-Theorie) wird intensiv studiert.201 Ließen sich Invarianzargumente durchgängig sowie routinemäßig anwenden und würden sie dann meist zu einer attraktiven Lösung führen, so wären sie sicherlich populärer. Tatsächlich ist dem jedoch nicht so, wie Berger (1985: Abschnitt 6.9) überzeugend ausführt. Problemstellungen können sowohl zu viele Invarianzen aufweisen, zuweilen aber auch zu wenig (bis hin zu gar keinen). Ein schönes Beispiel ist die Poisson-Verteilung. Deren einziger Parameter λ misst die „Intensität“ eines Prozesses, d.h. die mittlere Anzahl von „Ereignissen“ je fester Zeiteinheit (etwa die durchschnittliche, zu erwartende Anzahl von Kunden pro Stunde). Messtheoretisch gesprochen befindet man sich auf einer Absolutskala, so dass (außer der identischen Transformation) keine Transformation des Parameters zulässig ist. Da jegliche nichttriviale Abbildung f (λ) die Intensität verändert, stimmt dem auch die Statistik zu, doch würde niemand deswegen auf die Poisson-Verteilung verzichten wollen, formalisiert doch λ die entscheidende Eigenschaft des betrachteten Vorgangs. Wie die schon zitierten Ausführungen in Jaynes (2003) zum Bertrandschen Paradoxon zeigen (siehe S. 159), kann es zuweilen auch außerordentlich schwer sein, ein passendes Invarianzargument auf eine spezielle Situation zuzuschneiden (ohne dass zugleich der Eindruck der Willkür entsteht). Und wie wir ebenfalls schon bei der Diskussion der Messtheorie festgestellt haben, tut man auch gut daran, sich nicht von vorneherein auf eine kleine Menge „zulässiger“ Lösungen zu beschränken oder sich sogar „bedeutungslose“ Transformationen verbieten zu lassen. Weil die adäquate Abbildung der Realität primär und Invarianzen sekundär sind, erweisen sich schließlich auch in der orthodoxen Statistik oft andere Ansätze als bedeutsamer. Insbesondere sind suffiziente Statistiken zu nennen, die (fast) alle relevante Informationen in den Daten bündeln, und ihnen zur Seite stehen Hilfsstatistiken.202 Insgesamt heißt das, dass der Invarianz nicht ganz die Bedeutung zukommt, welche man zunächst erwarten sollte und die 201
Siehe z. B. Berger (1985: Kapitel 6), Pawitan (2001: Abschnitt 2.9), Casella und Berger (2002: Kapitel 6). 202
Siehe z. B. Krengel (1973: 188), Lehmann und Scholz (1992) und Yamada und Morimoto (1992).
3.10 Semantische Aspekte
167
womöglich sogar wünschenswert wäre. Dazu mehr im Kapitel 5, insbesondere in Abschnitt 5.6 und S. 531. Siehe auch die Ausführung über „bedingte Inferenz“ in den Abschnitten 5.1.4 und 5.2.2.
3.10.4 Der wahre Wert Mit oder ohne Hilfe der Invarianz möchte man via Messung letztlich „zur Sache selbst“ vorstoßen. Etwa haben wir schon des öfteren vom „wahren Wert“ eines Parameters oder der tatsächlichen, aber unbekannten Verteilungfunktion gesprochen. Was bedeutet „Wahrheit“? Analog zur Messtheorie gibt es zwei verschiedene Lesarten. Die mathematische beschränkt sich auf das formale Modell. Bei dieser „Binnenbetrachtung“ werden innerhalb des zunächst - warum auch immer gewählten Modells die Beobachtungen verwendet, um die unbekannten Parameter zu bestimmen bzw. die unbekannte Verteilungsfunktion zu ermitteln. Man operiert hier mit Zahlenwerten innerhalb einer mathematischen Welt und enthält sich im Extremfall jeder inhaltlichen Interpretation der ermittelten Schätzwerte. Hierzu passt eine operationalistische Deutung des Messvorgangs. In einem etwas allgemeineren Zusammenhang charakterisiert Balzer (1997: 182) diese „normative Lösung“ wie folgt: Danach wird der zu messende Wert per Definition als derjenige Wert erklärt, der im Meßmodell gemessen wurde. Im Vergleich zur [. . .] allgemeinen Lösung ist dieser Ansatz bestechend einfach. Die zu messende Größe wird, ohne daß man sich in komplizierte Begründungen verstrickt, durch eine Meßmethode operational definiert. Aufgrund dieser Definition entsteht gar kein Identitätsproblem zwischen gemessenem und zu messendem Wert. Der letztere ist per Definition mit ersterem identisch.
Die erweiterte, auch inhaltliche Interpretation geht über den rein mathematischen Rahmen hinaus. Sie betont, dass es sich bei einem „wahren“ Wert nicht nur um eine Konvention oder eine rein formale Setzung handelt, sondern dass es darüber hinaus entscheidend darauf ankommt, ob der innerhalb des mathematischen Modells ermittelte Wert mit dem tatsächlichen, empirischen Wert übereinstimmt. In diesem Sinne schreibt Dempster (1998: 252): It is nevertheless wise for statisticians to assume a need to assess differences between quantities computed from observations and unavailable quantities that the computed quantities are thought to approximate. When the latter are essential objects of investigation, formal procedures for assessing how much they differ from empirical quantities are inescapable [. . .]203
Die Analogie zur Messtheorie ist kaum zu übersehen. Es wird den Leser deshalb womöglich nicht allzu sehr verwundern, dass es auch an dieser Stelle 203
Diese Aspekte hatten wir weiter oben (S. 162) unter dem Begriff Validität zusammengefasst.
168
3 Klassische Statistik
ähnlich prinzipielle und prinzipiell ähnliche Diskussionen wie beim Begriff der „Bedeutsamkeit“ in der Messtheorie gegeben hat.204 Die Diskussion lässt sich am einfachsten anhand des Modells X = μ + U bzw. x = μ + (siehe S. 75) führen, da sich die Frage dann auf die Interpretation von μ verdichtet.205 G. H. Fischer (1974: 27) schreibt dazu: Der ‚wahre Wert‘ kann verschiedene Deutungen erfahren. Einmal kann er im Sinne einer Platonischen Idee oder eines Dinges an sich verstanden werden (Sutcliffe 1965) [. . .] Es ist aber auch möglich, auf eine semantische Interpretation zu verzichten und ihn, wie dies Guttman (1945), Gullikson (1950) und Novick (1966) getan haben, in tautologischer Weise als blosse (sic) Definition einzuführen.206
Noch präziser vergleicht Zimmermann (1975: 795ff) mit Blick auf die psychologische Testtheorie, die beiden Ansätze: According to one definition, the true score is the expected value of the observed score.207 According to another point of view, the true score is a fixed value, not necessarily equal to the expectation of the observed score, that is known, or hypothesized to exist, apart from the observations. Lord and Novick (1968) referred to these notions as the “operational” and the “Platonic” true scores. Es ist nicht nur „philosophisch“ wichtig, beide Interpretationen auseinander zu halten bzw. sich darüber im klaren zu sein, welche man gerade benutzt. Zimmermann (ibd.) fährt fort: In recent years it has been recognized that, if the definition of expected-value is adopted, the usual requirements that true scores and error scores are uncorrelated [. . .] are not assumptions about empirical data, but are mathematical consequences of other definitions [. . .] That is, the classical model is obtained by “construction” rather than by assumption.
Soweit die konstruktiv(istische)-mathematische Sicht. Bei der empirischen Interpretation des wahren Wertes gilt hingegen (ibd.): Under the latter ‘Platonic’ concept, true scores and error scores are not necessarily uncorrelated [. . .] To use alternative terminology, if we have a signal and noise that 204
Siehe insbesondere z. B. Zimmermann (1975), Balzer (1997: Kapitel 3) und die dort jeweils angegebene Literatur. 205 Die Interpretation der Fehlerkomponente diskutieren wir später, insbesondere in Abschnitt 5.5.6. 206 Hervorhebung im Original. Die Dritte von G. H. Fischer (1974: 27) angegebene Möglichkeit, nämlich dem wahren Wert „eine statistische Interpretation als jener durchschnittlichen Testleistung, welche die Vp [Versuchsperson] bei beliebig oftmaliger Testwiederholung unter gleichen Bedingungen erbringen würde“ ist Ausdruck der Tatsache, dass man im IIDModell den unbekannten Parameter μ durch das arithmetische Mittel approximiert (siehe Gleichung (3.3), S. 129). Formal gesehen bewegt man sich innerhalb eines mathematische Modells und beweist ein Theorem. Interpretiert man das IID-Modell jedoch (wie üblich auch) empirisch, nimmt also an, dass es eine adäquate Beschreibung des tatsächlichen Messvorganges ist, so lässt sich der Schätzwert inhaltlich, also als Approximation des „Platonischen Wertes“ interpretieren. Damit ist diese Alternative auf die beiden im Text genannten zurückgeführt. 207 Also μ = EX, siehe S. 129
3.10 Semantische Aspekte
169
depends upon the signal, the mean value of signal plus noise may not be representative of the signal [. . .]
Deshalb schließt er mit den Worten: “If these two points of view are clearly distinguished, perhaps difficulties can be avoided, but writers occasionally have adopted a Platonic concept while at the same time assuming formulas that hold only under the definition of expected-value.” Das heißt, wie zuvor (siehe S. 51) wird nicht genau zwischen beiden Interpretationen unterschieden, wohl auch, um „das Beste aus beiden Welten“ zu haben.
Der wahre Wert in der Praxis Die realistische Interpretation des Modells ist, dass es einen tatsächlichen empirischen Wert μ gibt,208 welcher sich jedoch nicht - anders als in der Messtheorie - fehlerfrei beobachten lässt. Jede Beobachtung x ist mit einem Fehler ε „kontaminiert“. Würden diese Fehler keinem Gesetz folgen, so könnte man in der Tat nicht auf μ zurückschließen. Unter den S. 129 beschriebenen natürlichen Annahmen kann man sich jedoch μ asymptotisch beliebig genau nähern. Misst man z. B. eine klassische physikalische Größe, so können wir aufgrund unseres Beobachtungs- und theoretischen Hintergrundwissens davon ausgehen, dass es einen eindeutig bestimmten, realen Wert gibt, welcher mit einem (kleinen) Messfehler gemessen wird. (Z. B. die Höhe des Eifelturms, die Momentangeschwindigkeit eines Autos beim Passieren einer Messvorrichtung oder Ihr aktuelles Körpergewicht.) Hier scheint eine realistische Interpretation von μ angezeigt zu sein. Zuweilen muss man die Interpretation von μ hin zu einem „mittleren“ Wert abschwächen. Man stelle sich ein Dorf vor, in dem 100 arme Tagelöhner und ein reicher Großgrundbesitzer leben. Beschreibt X das Einkommen dieser Menschen, so lässt sich μ allenfalls als Mittelwert bzw. Durchschnitt aller Einkommen interpretieren. Dieser Wert wird jedoch von keinem der Bewohner angenommen - entweder sie liegen weit darunter oder erheblich darüber, μ ist also alles andere als ein typisches Einkommen oder gar das eigentliche „wahre“ Einkommen der Personen. Streuen wie in diesem Beispiel die Werte einer Variablen erheblich um den Wert μ, wird insbesondere der Wert μ überhaupt nicht angenommen, so ist es nicht gerechtfertigt, von einem realen Wert μ auszugehen, der durch Messfehler „leicht gestört“ wird. Wie ein solcher Wert interpretiert werden sollte, wurde schon im 19. Jahrhundert insbesondere anhand von Quetelets “Average Man” - ausführlich diskutiert.209 Die wohl natürlichste Interpretation ist hier wohl eine „abgeschwächt“ realistische. D.h., die untersuchte Population weißt eine Einkommensverteilung auf, 208
Auf die Interpretation der Fehlerkomponente gehen wir ausführlich in Abschnitt 5.5.6
ein. 209
Siehe Stigler (1986: 169ff). Bezeichnenderweise lautet die Überschrift des gesamten Kapitels “The Struggle to Extend a Calculus of Probability to the Social Sciences.” Zu Quetelet siehe auch Stigler (1999: Kapitel 2).
170
3 Klassische Statistik
und μ ist als Lageparameter dieser Verteilung als „mittleres Einkommen in der Population“ eine (reale) Eigenschaft der Population. Ein operationalistische Interpretation hingegen besagt, dass μ wesentlich vom gewählten Messverfahren abhängt, der „wahre Wert“ μ also vom Verfahren abhängig oder sogar verfahrensimmanent ist. Cronbach et al. (1972: 367) sprechen von “Operational definition as a requirement” und sie nennen einige Beispiele (ibd., S. 387): The ‘true IQ’ is a hero-figure as well known to us as the Lone Ranger; we try to tell about it and suddenly realize that not even Wechsler210 himself knows what the ‘true Full Scale IQ’ might mean. The correction for attenuation, we find, takes on as many identities as the Old Man of the Sea. The regression estimate of the universe score has always been in the cast of the psychometrician’s ritual, but has never been given lines to speak; in the present theory it finds itself thrust to the center of the stage, as fraught as Hamlet with grand messages and grander uncertainties.
Selbst wenn in einem der genannten Beispiele ein realer wahrer Wert existiert, so ist mehr als zweifelhaft, ob zwei verschiedene Messverfahren ihn auch simultan erfassen, also genau dasselbe messen. Gerade Intelligenztests scheinen jeweils eine spezifische Art von Intelligenz zu erfassen (siehe S. 18). Hat man je Intelligenzart jedoch nur ein Messinstrument zur Verfügung, so ist es (mangels Invarianzbetrachtungen) äußerst schwierig, dessen Einfluss vom Wert als solchem abzugrenzen. Eine operationalistische Interpretation erscheint erst recht dann angemessen, wenn zweifelhaft ist, ob es überhaupt einen wahren bzw. mittleren Wert - unabhängig vom Erhebungsverfahren - gibt. Ein aktuelles Beispiel ist die technische Analyse von Aktienkursen. Geht man hier davon aus, dass jede Aktie einen sogenannten Fundamentalwert besitzt, also eine Zahl, die den tatsächlichen Wert einer Aktie, und damit des von ihr repräsentierten Unternehmens, widerspiegelt, so kommt man nahezu sofort in große Schwierigkeiten. Zwar ist der Wunsch nur allzu verständlich, dass der Grundstein jeder Analyse der Wert der betrachteten AG sein sollte - unabhängig von allen störenden Einflüssen des Aktienmarktes -, doch ist der am Aktienmarkt erzielte Kurs letztendlich entscheidend. Offenkundig spielen dabei nicht nur „harte“ Fakten der Firma (Mitarbeiter, Organisation, Kunden, Produkte usw.) eine Rolle, sondern auch ihre Stellung in der Branche, der nationalen und internationalen Wirtschaft, technische Weiterentwicklungen, die vorhandene Liquidität, das Zinsniveau usw. Kurzum, dem Umfeld, in dem sich die Firma bewegt, kommt eine erhebliche Bedeutung zu. Eine Firma kann ganz hervorragend aufgestellt sein - wenn die Branche, in der sie tätig ist, kränkelt, wird sich dies auf ihren Kurs auswirken. Häufiger ist wohl noch der umgekehrte Fall: Auch die Aktie einer unsoliden Unternehmung kann in Zeiten des Booms hervorragende Renditen erwirtschaften. Schließlich spielt die Psychologie eine nicht zu unterschätzende Rolle: In der Marktbewertung von Aktien spiegeln 210
Meine Anmerkung: Der Namensgeber des berühmtesten Intelligenztests, siehe Wechsler (1956).
3.10 Semantische Aspekte
171
sich immer auch die Erwartungen, Hoffnungen und Ängste der Marktteilnehmer wider. Sie sind untrennbar mit dem Kurs verbunden und gerade diese Faktoren neigen zur Übertreibung ins Positive wie ins Negative. Nicht zuletzt lautet wohl deshalb die gängige Redewendung, dass sich der Kurs einer Aktie erst „auf dem Markt bildet“, und eben nicht a priori, unabhängig vom Markt, vorhanden ist. Mit anderen Worten, Märkte werden heute als effiziente Instrumente der Preisfindung verstanden. Erst dort wird der Tausch-Wert eines Gutes ermittelt. Natürlich kann man (zumindest zuweilen) unabhängig davon berechnen, welche „Substanz“ ein Unternehmen211 hat oder wieviel Aufwand zur Herstellung eines Produktes vonnöten war. Dabei handelt es sich jedoch nur um Bewertungen bzw. Wertvorstellungen, die sich am Markt nicht realisieren lassen müssen. Es mutet heute eher befremdlich an, auf einem inneren, „wahren Wert“ von Waren zu bestehen, auch wenn zahlreiche klassische Autoren dieser Ansicht waren.212 Es ist u. E. kontraproduktiv, sich grundsätzlich für eine operationalistische oder realistische Deutung zu entscheiden (oder gar für den Operationalismus versus den Realismus). Vielmehr kommt es entscheidend auf die konkrete Situation an, ob eine zurückhaltendere oder weitreichende Interpretation angemessen ist. Nicht nur aufgrund ihres „instrumentalistischen Erbes“ (siehe S. 52ff) sind bei psychologischen Messungen wie die obigen Beispiele zeigen, eher operationalistische Deutungen angezeigt. In der Ökonometrie hingegen ist die Tendenz - aufgrund ihrer historischen Entwicklung (siehe S. 290ff und 452), als auch aufgrund ihres leichter zu fassenden Gegenstandsbereichs - eher realistisch zu interpretieren.213 In allen Fällen ist es als Fortschritt zu werten, wenn man aufgrund guter empirischer wie theoretischer - Gründe von der zurückhaltenden operationalistischen Perspektive, die oft gepaart mit einer mathematisch-definitorischen Sichtweise auftritt, zu einer realistischen Interpretation übergehen kann. Die in Abschnitt 2.8 ausgeführten Argumente lassen sich nahezu 1:1 auch hier verwenden. 211
Immobilien, Personal, Know How, Marktanteil etc.
212
Etwa schreibt Marx (1972b: 123f): “Wenn wir Waren als Werte betrachten, so betrachten wir sie ausschließlich unter dem einzigen Gesichtspunkt der in ihnen vergegenständlichten, dargestellten oder, wenn es beliebt, kristallisierten gesellschaftlichen Arbeit. In dieser Hinsicht können sie sich nur unterscheiden durch die in ihnen repräsentierten größeren oder kleineren Arbeitsquanta, wie z. B. in einem seidnen Schnupftuch eine größere Arbeitsmenge aufgearbeitet sein mag als in einem Ziegelstein. Wie aber mißt man Arbeitsquanta? Nach der Dauer der Arbeitszeit, indem man die Arbeit nach Stunde, Tag etc. mißt [. . .] durchschnittliche oder einfache Arbeit als ihre Einheit. Eine Ware hat Wert, weil sie Kristallisation gesellschaftlicher Arbeit ist. Die Größe ihres Werts oder ihr relativer Wert hängt ab von der größeren oder geringeren Menge dieser in ihr enthaltnen gesellschaftlichen Substanz; d.h. von der zu ihrer Produktion notwendigen relativen Arbeitsmasse. Die relativen Werte der Waren werden daher bestimmt durch die respektiven in ihnen aufgearbeiteten, vergegenständlichten, dargestellten Quanta oder Mengen von Arbeit.“ 213
Für einen Einstieg und Überblick siehe insbesondere Lawson (1989).
172
3 Klassische Statistik
3.11 Modelle und ihre Interpretation [. . .] statistical modeling is and must be reductive; although necessarily missing part of the complexity of the world, the simplified representation it gives of this world allows statisticians and others to reach decisions. Robert (2007: 58), Hervorhebung im Original
3.11.1 Modellspezifikation Die Interpretationsproblematik verschärft sich bei elaborierteren Modellen in mehrfacher Hinsicht.
Das Demarkationsproblem Gemäß dem Hauptsatz der angewandten Statistik werden die Daten bei der Modellierung in einen systematischen und einen unsystematischen Anteil zerlegt. Im Grundmodell x = μ + handelt es sich bei ersterem lediglich um die Konstante μ. Im Allgemeinen kann dieser Teil des Modells jedoch, wie wir gesehen haben, sehr komplex sein, und es stellt sich die Frage, wo die Grenze zwischen zwischen dem systematischen und dem unsystematischen Teil zu ziehen ist - zumal wenn man gerade den systematischen Teil realistisch interpretieren möchte. Zwar tut man die unsystematische Komponente oft kurz und knapp als „Fehler“ ab, doch sophistiziertere Autoren merken an, dass im „Fehleranteil“ auch alle systematischen Faktoren stecken, welche durch das Modell nicht abgedeckt werden. Box et al. (2005: 401ff) schreiben in aller Deutlichkeit: Inevitably, you cannot observe all the variable factors that affect a process. You tacitly admit this as soon as you write a model containing the error term e. The error term is a catchall for all the other ‘lurking’ variables that affect the process but are not observed or even known to exist.
Mit ganz ähnlichen Worten beschließt Lehmann (1990: 166) seinen Artikel über „Modellspezifikation“: [. . .] it is useful to distinguish between two aspects, both of which are typically present in the same model: the subject matter part of the model and the part played by ‘error’. Here the latter term is meant to include not only measurement error but impurities in the material, changes in temperature or time of day, in fact all the contributions to the observations of the various experimental and observer effects that are extraneous to the subject matter.
Nicht nur Cronbach et al. (1972: 6) differenzieren bei psychologischen Tests sogar explizit zwischen verschiedenen Arten von Variabilität: This line of criticism has led various workers to classify the types of variance that can contribute to ‘error.’ Thorndike (1947) classified variance into five categories:
3.11 Modelle und ihre Interpretation
173
1. Lasting and general. For example, level of ability, and general test-taking ability. 2. Lasting but specific. For example, knowledge or ignorance regarding a particular item that appears in one test form. 3. Temporary but general. For example, buoyancy or fatigue reflected in performance on every test given a particular time. 4. Temporary and specific. For example, a mental set that affects success in dealing with a particular set of items. 5. Other, particularly chance success in ‘guessing.’
In der auf Cronbach et al. (1963) zurückgehende Theorie der Generalisierbarkeit werden die verschiedenen Quellen der Variation als Ausdruck diverser „Facetten“ des Gegenstands aufgefasst.214 In der Ökonometrie unterscheidet man zwischen endogenen, explizit modellierten Faktoren und extrinsischen Störungen, die diverse Ursachen haben können. Die Bestrebung geht dahin, möglichst alle Quellen der Variation zu identifizieren.215 Auch Statistiker der Bayesianischen Schule betonen, wie wichtig es ist, die verschiedenen Quellen von Variabilität zu modellieren, also den Fehlerterm in mehrere isolierte Komponenten aufzuspalten, bzw., anders gesagt, weitere Faktoren zu isolieren. Savage empfahl sogar, “a model as big as an elephant” 216 zu definieren. Auf jeden Fall scheint das ursprüngliche Modell zu einfach gewesen zu sein, wenn man diverse Faktoren aus dem Fehlerterm isolieren kann. Man sollte jedoch auch nicht zu viele Komponenten isolieren und die Strukturkomponente überladen. Cox (2000: 324) warnt: “[. . .] I am deeply sceptical of the advice of Savage to take models as complex as we can handle. This seems a recipe for overelaboration and for the abandonment of an important feature of good statistical analyses, namely transparency, the ability to see the pathways between the data and the conclusions.” Schon zuvor schrieb Cox (1995: 217): “Computational simplicity is much less of an issue that it used to be, but conceptual simplicity remains important for effective application. Overelaboration is to be avoided!” Und Cox (1990: 173) empfiehlt die genau gegenteilige Strategie: “Minimal modeling. Especially in empirical modeling, it may be wise to model explicitly only those aspects of the data of direct concern.” Cohen (1990) schließt sich dem an: 1. less is more (fewer variables, more highly targeted issues, sharp rounding off) 2. simple is better (graphic representation, unit weighting of linear composites)217 Offenkundig haben beide Strategien etwas für sich: Im besten Fall hat man beim „Elefanten“ alle relevanten Faktoren erfasst und kann sich doch noch 214
Siehe Brennan (2001) für eine aktuelle Darstellung.
215 216
Siehe z. B. Pratt und Schlaifer (1984: 11) und die dort angegebene Literatur. Zitiert nach Diaconis (2006: 27), siehe auch Lindley (1999a) und Lindley (2000: 307)
217
Als dritten Punkt ergänzt er: “Some things you learn aren’t so.”
174
3 Klassische Statistik
immer orientieren.218 Ungünstigerenfalls hat man jedoch gleichwohl nicht alle relevanten Faktoren bzw. Zusammenhänge erfasst, oder aber, man verliert sich im Dickicht vieler Einflussgrößen. Darüber hinaus ist es auch kein Trost, wenn man die vielen freien Parameter des „Elefanten“ dazu genutzt hat, das Modell übermäßig an die Daten zu anzupassen.219 Das Grundproblem besteht offenkundig darin, einen vernünftigen Kompromiss zwischen Modell-Passung und Modell-Einfachheit zu finden. Overelaboration bzw. Overfitting bezeichnen den Fall, dass man zu viel Struktur in die Daten hineinlegt. Zu grobe Modelle bzw. Underfitting steht offenkundig für den gegenteiligen Fall. Hat man z. B. nicht alle wichtigen Faktoren modelliert, so werden diese sich zumindest als unliebsame, weil „nicht erklärte“ Streuung im Fehlerterm bemerkbar machen. Von einem guten Modell erwarten wir jedoch zurecht einen geringen Fehler, also eine zufriedenstellende Reliabilität bzw., etwas allgemeiner gesprochen, dass es zu den Daten „passt“.
Missspezifikation Wichtiger noch als die Reliabilität ist die Validität. Negativ formuliert: Eine falsches Modell kann völlig irreführend sein. Wer heute noch basierend auf den vier antiken Elementen Feuer, Wasser, Wind und Erde Medizin betreibt, ist einfach nur ein Scharlatan. Und es war nur ein glücklicher Umstand, dass Kolumbus auf Amerika stieß, während ihm seine auf das antike Wissen Ptolemäus zurückgehenden Karten suggerierten, er könne mit seinen technischen Möglichkeiten Asien erreichen. Unpassende Modelle sind die größte Fehlerquelle. Chatfield (1995: 421), ein angewandter Statistiker, äußert sich ganz deutlich: There are typically three main sources of uncertainty in a problem (Draper et al. (1987), Hodges (1987)): (a) uncertainty about the structure of the model; (b) uncertainty about estimates of the model parameters, assuming that we know the structure of the model; (c) unexplained random variation in observed variables even when we know the structure of the model and the values of the model parameters. Uncertainty about model structure can arise in different ways such as (i) model misspecification (e.g. omitting a variable by mistake), 218
Man denke an komplexe Modelle physikalisch-chemischer Vorgänge, etwa die Wettervorhersage oder Klimaprognosen 219
In einem etwas anderen Zusammenhang sagt Greenland (1990: 427): “More elaborate models have the virtue of explicitly accounting for known derivations from the ideal randomized study (the ideal under which elementary statistics are derived). Their drawback is of course their reliance on very detailed assumptions about processes (such as covariate effects) when there is little basis for such assumptions.”
3.11 Modelle und ihre Interpretation
175
(ii) specifying a general class of models of which the true model is a special, but unknown, case or (iii) choosing between two or more models of quite different structures.
Nicht alle diese Fehler sind gleich schwerwiegend. Bezeichnenderweise, so fährt er fort, widmet sich die statistische Theorie jedoch eher den leichteren als den wirklich gravierenden: Statistical theory has much to say about (b) and (c) and about the mechanisms of the choice in (ii) [. . .], but it has little to say about (iii) and even less about (i), and largely ignores the effects of (a) in ensuing inferences. This is very strange given that errors arising from (a) are likely to be far worse than those arising from other sources. For example, multiple-regression theory tells us about the errors resulting from having estimates of regression coefficients rather than their true values, but these errors are usually much smaller than errors resulting from misspecification, such as omitting a variable by mistake, failing to include non-linear terms, or failing to take account of the fact that the explanatory variables have been selected from a larger set. (Ibd., meine Hervorhebungen.)
Der Fehler in (a) hieße „Thema verfehlt!“ im Deutschaufsatz. Das heißt, man liegt prinzipiell daneben, was zu fundamentalen Fehleinschätzungen führen kann (und typischerweise auch führen wird). Mallows (1998: 2) spricht eingängig vom Problem (0): Considering the relevance of the observed data, and other data that might be observed, to the substantive problem [. . .] The results may be bad if the model that is assumed fails to correspond adequately to the real situation. And this badness may be much worse than simple statistical inefficiency; the model may completely ignore important aspects of the situation.220
Zur Verteidigung der Statistik muss man anfügen, dass gerade bei Fragen der Validität fachwissenschaftliche Argumente ganz entscheidend sind. Es sollte z. B. günstigerenfalls eine inhaltliche Theorie sein, die einem die wesentliche Struktur eines Problems und damit auch die in Frage kommenden statistischen Modelle „diktiert“. Ansonsten ist es vorsichtig, eher wenig vorauszusetzen, d.h. eine große Klasse von Modellen in Betracht ziehen, was 220
Derart prinzipiell unpassende Ansätze sind gar nicht so selten, wie man hoffen mag. Der Rationalitätsbegriff der Spieltheorie, eng verwandt mit dem „homo oeconomicus“ bzw. der Theorie des (zu maximierenden) erwarteten Nutzens in den Wirtschaftswissenschaften ist ein prominentes Beispiel. Versuche belegen, dass diese Modelle und die sie konstituierenden Annahmen äußerst weit von der sozialen Realität entfernt sind. Ein klassisches Beispiel ist der Pessimismus von Minimax-Betrachtungen, wenn man sich gegen den schlimmstmöglichen Fall absichert, anstatt die Möglichkeiten und Chancen einer Situation zu würdigen. Ariely et al. (2009) zeigen, dass größere Anreize nicht automatisch mit höherer Leistung einhergehen. Auch das kürzlich sehr populär gewordene Urlauberdilemma (siehe z. B. K. Basu (2007) und Pöppe (2007)) ist nur ein schlagendes Beispiel von vielen, wie sehr die üblichen Argumente und Verfahren der angewandten Spieltheorie an der Realität vorbeigehen. Alternative Entwürfe wie die Prospect Theory von Kahneman und Tversky (1979) sind offenkundig besser, aber auch komplizierter. Einfachheit ist jedoch spätestens dann keine „Tugend“ mehr, wenn sie kaum mehr als eine Karikatur der tatsächlichen Verhältnisse ist.
176
3 Klassische Statistik
ein wesentlicher Grund für die Beliebtheit nichtparametrischer Verfahren in den Sozialwissenschaften ist. Liegt das „wahre Modell“ nicht in der in Betracht gezogenen Modellklasse, so kann man typischerweise immerhin noch zeigen, dass viele Verfahren gegen das „nächstgelegene“ Modell in der Klasse konvergieren.221 Das ist ermutigend, wenn der Abstand gering ausfällt, nicht jedoch, wenn man ein hochgradig nichtlineares Phänomen durch ein lineares Modell oder aber die höchst unregelmäßige Verteilung einer kleinen Stichprobe durch eine Normalverteilung „approximiert“.
3.11.2 Vom Instrument zum wahren Modell Gerade in Situationen mit wenig Vorwissen, vielen Faktoren oder großer Variabilität ist es schwierig, geeignete Modelle zu spezifizieren. Das heißt, es ist um die Reliabilität und Validität eines Modells oftmals nicht allzu gut bestellt. Dies sollte sich auch in seiner Interpretation niederschlagen.
a) Philosophische Positionen Die Philosophie leistet an dieser Stelle nützliche Dienste und zwar, weil sie innerhalb der realistischen Positionen feiner differenziert. Interpretiert man z. B. nur die Parameter oder Variablen realistisch, so könnte man von einem Entitätenrealismus sprechen. Damit ist gemeint, dass man gewisse, einzelne Teile bzw. Bausteine des Modells, z. B. einige der in ihm auftauchenden Variablen oder Parameter, realistisch interpretiert, ihnen also eine Entsprechung in der realen Welt zuschreibt.222 Eine realistische Interpretation des gesamten Modells ist mit dem Strukturrealismus eng verwandt (siehe z. B. Greenough (2006), Lyre (2004), Zahar (2007)). Es gibt verschiedene Spielarten des Strukturrealismus, insbesondere eine weiterreichende ontische und eine vorsichtigere epistemische Version. Identifiziert man die Strukturkomponente eines statistischen Modells mit der Wirklichkeit, so ist die ontische Sicht natürlich die weitergehende. Diese ist streng genommen nur dann zu rechtfertigen, wenn man nachweisen kann, dass es die vom Modell aufgedeckten Muster auch wirklich gibt.223 221
Insbesondere im Sinne des Kullback-Leibler-Abstands, siehe S. 458 “If you can spray them, then they are real,” so das berühmte Zitat von (Hacking 1983: 47) zur Existenz von Elektronen. 223 Das wird im Allgemeinen ziemlich schwierig sein, benötigen doch z. B. Physiker oft Jahre, bis sein ein von Theoretikern postuliertes Phänomen dann auch experimentell nachweisen können. Denkt man gar an die Existenz stochastischer Prozesse (im Sinne der prinzipiellen Argumente von Dempster oder Lindsey, siehe S. 178ff), so diskutiert man sogar die sehr prinzipielle Frage, ob es in der Welt „echten Zufall“ gibt. So weit wollen 222
3.11 Modelle und ihre Interpretation
177
Der epistemische Strukturrealismus reduziert die „ontologische Verpflichtung“, indem er feinsinnig zwischen den intrinsischen (inhaltlichen) und den strukturalen (formalen) Eigenschaften von Objekten unterscheidet. Letztere sind leichter zugänglich als erstere, womit auch der historischen Situation Rechnung getragen wird, dass die (gesamte) Theorie formell korrekt sein kann, obwohl die von ihr verwendeten Entitäten tatsächlich - wie sich später herausstellte - nicht existieren.224 Da (größere) Strukturen typischerweise stabiler sind sind als (punktuelle) Begriffe bzw. Eigenschaften und Komponenten, ist der Entitätenrealismus in aller Regel weitergehend als der Strukturrealismus. Beide werden als Vertreter des wissenschaftlichen Realismus angesehen, dessen Kernthese die (reale) Existenz der studierten Sachverhalte ist. Damit ist letzterer der natürliche Gegenspieler des Empirismus, der hier im Sinne einer Position zu verstehen ist, die „hinter den Daten“ vermutete Sachverhalte eher skeptisch sieht (van Fraassen 1980). Eine extreme Ausprägung dieser Haltung ist der Positivismus, der vollends „an der Oberfläche“ bleibt, weil er nur das unmittelbar Beobachtbare als real ansieht. Insgesamt hat man also das folgende Schaubild, mit den von links nach rechts stärker werdenden Interpretationen:225 Empirismus Positivismus
Realismus Strukturrealismus Entitätenrealismus epistemisch ontisch
Letztlich hat man dieselben Interpretationsmöglichkeiten und damit auch denselben Interpretationskonflikt wie beim „wahren Wert“: Einer zurückhaltenden mathematisch-operationalistischen Sicht steht eine weitergehende realistische Auffassung gegenüber. Erstere passt gut zu einer eher oberflächlichpositivistischen Perspektive: Die statistischen Modelle sind Instrumente, welche uns bei der Interpretation gegebener Daten helfen. Inwieweit sich in ihnen reale Strukturen spiegeln, lässt man entweder offen, oder aber, man distanziert sich kritisch und explizit - ganz in der Tradition des Empirismus - von weitergehenden Deutungen. Auch wenn der logische Positivismus hier nicht mehr „en vogue“ ist, so gibt es doch genügend aktuelle antirealistische philosophische Strömungen, auf die man sich berufen kann (Hennig 2002, 2003). Eine solche Haltung ist pragmatisch, einfach und bequem, sie ist ohne weiteres (auch im Wortsinn) vertretbar: Man versucht gar nicht erst, die wir nicht gehen. Unter Strukturrealismus ist nur zu verstehen, dass man die vom Modell identifizierte Struktur auch in der realen Welt wiederfindet, also ein passendes Analogon in der Welt der Dinge existiert. (Man denke an einen mathematischen Verzweigungsprozess auf der einen und den Stammbaum einer lebenden Person auf der anderen Seite.) 224
Man denke an die berühmten Beispiele des Äther und des Phlogiston bzw. die Maxwellsche Theorie der Elektrodynamik. 225
Für einen Überblick über die historische Entwicklung und die Vielzahl weiterer zur Zeit vertretenen Positionen siehe Bartels (2007)..
178
3 Klassische Statistik
Komponenten des Modells empirisch zu interpretieren, ihnen also über die formale Welt hinaus eine reale Bedeutung zu geben. Dem Vorteil, dass eine solche zurückhaltende Deutung immer möglich ist, steht deshalb der nicht unbedeutsame Nachteil gegenüber, zumeist keine Mühe darauf zu verwenden, das Modell in einem tieferen Sinne zu verstehen. “Being so disinterested in our models and their interpretation can hardly be desirable” könnte man in enger Anlehnung an Tukey (1969: 734) sagen.226 Im Prinzip lassen sich beide Komponenten des statistischen Modells, also die systematische und die Fehlerkomponente entweder zurückhaltend oder „ontisch“ interpretieren. In aller Regel ist man jedoch weit mehr an der Struktur (wie zuvor an μ) interessiert und wird versuchen, dieser eine realistische Deutung zu geben.227 Das gilt insbesondere dann, wenn das Modell einen Erklärungsanspruch hat, also das Ziel verfolgt, die tatsächlich vorliegenden Mechanismen abzubilden.
b) Die ambivalente Haltung der Statistik Man könnte vermuten, dass der Hauptsatz der Statistik mit der von ihm garantierten Konvergenz gegen den wahren Wert zu einem verbreiteten Optimismus geführt hat. Sollten nicht gute Modelle die Realität repräsentieren, zumindest jedoch approximieren, und mit wachsendem Datenumfang gegen die tatsächlichen Verhältnisse tendieren? Man erwartet Aussagen wie If stochastic mechanisms truly exist, then it would be appropriate in practice to seek true stochastic models and to regard everyday imperfect models as approximations to corresponding unknown true models. In this case, the concept of a model error would mean what it says, namely, a difference between an adopted model and its associated true model. (Dempster 1998: 255ff)
Solche starken, realistischen Interpretationen von Modellen bilden jedoch die Minderheit. Dempster (ibd.) ergänzt sofort: An alternative view is that, try as we may in our daily experience of statistical applications, we are unable to locate in the objective world meaningful evidence of the alleged stochastic mechanisms that produce assumed random outputs. Even the motivating examples of gamblers’ games of chance whose simplicity led in the first place to the mathematics of probability cannot be supported with evidence that truly random mechanisms of tossing and shuffling exist in the objective world.
Und er hält eine zurückhaltendere Sicht für weit angemessener: I believe that this alternative view is almost always required for a viable working philosophy in practice, and hence that a statement that a model is wrong is operationally meaningless and should be avoided. In place of positing model error, one needs to compare models as being more or less successful for their intended purposes, including accurate representation and trustworthy inference. 226 227
Für das Originalzitat siehe S. 161.
Auf die Fehlerkomponente gehen wir kurz in den nächsten Absätzen ein und verweisen ansonsten abermals auf Abschnitt 5.5.6.
3.11 Modelle und ihre Interpretation
179
“Is there a True Model?” (Chatfield 1995: 428) wird zumeist als rhetorische Frage verstanden, differenzierte Arbeiten wie (Key et al. 1999) sind die absolute Ausnahme. Die meisten Autoren bescheiden sich mit weit weniger als „Wahrheit“, etwa einer in wesentlichen Zügen korrekten Modellstruktur. In diesem Sinne lässt sich Lindsey (1999: 5) verstehen: A model is a simplification of reality, constructed to aid in understanding it [. . .] We should rather think in terms of models being appropriate simplifications, which are useful for detecting and understanding generalizable patterns in data, and for predictions [. . .]228
Ganz ähnlich führt Hand (1995: 448) in der Diskussion von Chatfields Artikel aus: We must distinguish between two ways in which statisticians use the word ‘model’. One usage is a representation of what is thought to be going on. This might, for example, be a system of equations based on some theory. The other usage is a description of the data. In the former case there will be relatively little model uncertainty. It is the latter case when problems arise. In this case, there is great scope for selecting models - and consequently for model uncertainty. But, in this case, models are often, perhaps typically, merely a means to a predictive end. (Hervorhebungen im Original.)
Mit der genannten Unterscheidung - „Repräsentation“ versus „Beschreibung“ - lässt sich immer modellieren, es hängt von der Situation ab, ob ein Modell eher weitreichend oder zurückhaltend gedeutet werden sollte. Auf alle Fälle sind Modelle nützlich. Nicht ganz selten werden jedoch auch der realistische Ausgangspunkt und der mit ihm einhergehende Wahrheitsbegriff perfektionistisch überzeichnet karikiert - um damit die instrumentalistische Interpretation zu begründen. Etwa sagt Lindsey (1999: 5), in demselben Kapitel über “true models”: The only ‘model’ that one (not I) might call true would be that describing the history of every subatomic particle since the beginning of the universe, and that history is unobservable because observation would modify it. All other models involve marginalization that assumes that seemingly irrelevant differences can be ignored.
Das motiviert nicht nur ihn (ibd., S. 4f) zur folgenden Zusammenfassung: Most statisticians admit that their models are in no sense ‘true’, although some argue that there is a true underlying model; many like to cite a well-known phrase of Box (1976, 1979) that all models are wrong but some are useful229 (which models depend on the question at hand, might I add). 228
Das Modell sollte z. B. alle relevanten Variablen erfassen und ihren Zusammenhang (linear, nichtlinear etc.) qualitativ richtig wiedergeben. 229 Siehe auch Box et al. (2005: 440) und die erste Seite des Einbands: “All models are wrong; some models are useful”, was der wohl am häufigsten zu findende einzelne Satz über das Interpreationsproblem in der statistischen Literatur ist. Unmittelbar darauf heißt es poetischer: “Don’t fall in love with a model.”
180
3 Klassische Statistik
Ähnlich äußert sich von Neumann, zitiert nach Rao (1995: 137): „Die Wissenschaften versuchen nicht zu erklären, sie versuchen sogar kaum zu interpretieren, sie machen nur Modelle. Ein Modell ist ein mathematisches Konstrukt, das, versehen mit zusätzlichen verbalen Interpretationen, beobachtete Phänomene beschreibt. Die Rechtfertigung eines solchen mathematischen Konstruktes besteht einzig und allein in der Erwartung, daß es funktioniert.“ Damit, so sollte man denken, dominiert der Instrumentalismus, dem sich auch Lindsey (1999: 5) anschließt: By definition, no model, in science or statistics, is ever correct; nor does an underlying true model exist [. . .] It is an epistemological tool. (Meine Hervorhebung).
Jedoch schreibt er (S. 4f) zugleich: Nevertheless, in practice, statisticians, when making inferences, do not act as if this were so: almost all modern statistical procedures, Bayesian and frequentist, are implicitly based on the assumption that some one of the models under consideration is correct.
Es folgen eine ganze Reihe von Beispielen. Die Verteidigung, dass man „es mit der Wahrheit nicht so genau nehmen solle“, dass man also nur so tut, als wäre das ausgewählte Modell wahr, lässt er nicht gelten, denn er fährt fort: Many will argue that these are ‘as if’ situations: conditional statements, not to be taken literally. But all statistical thought is permeated by this attitude which, if we take modelling seriously, has far-reaching negative implications, from teaching to applications [. . .] Thus much of statistical inference revolves around the idea that there is some ‘correct’ model and that the job of the statistician is to find it.
Dies ist ganz klar eine realistische Haltung: Modelle werden als eine Approximation der Realität angesehen, und Statistiker suchen230 wie Physiker das am besten passende. Bei Box et al. (2005) heißt es schon im Einband: “Every model is an approximation” und später (S. 440): “The most that can be expected from any model is that it can supply a useful approximation to reality.” Im folgenden (ibd., S. 441), scheint der „Abstand“ zwischen Modell und Realität gering zu sein: Remember, however, that no model, mechanistic or empirical, can ever exactly represent any real phenomenon. (Hervorhebung im Original.)
Fragt der kritische Leser nun direkt nach dem Realitätsgehalt231 der Modelle, so ziehen sich jedoch die meisten Autoren unmittelbar auf die instrumentalistische Position zurück. Box et al. (2005: 441) antworten: “Even the theoretical models of physics, chemistry, or of any other science are really approximations good enough until a better one comes along (see Kuhn 1996).” Davies et al. (2009: 6) sagen sogar: “[Our] approach [was] motivated 230
Innerhalb einer Klasse von Modellen
231
[. . .] approximation to reality
3.11 Modelle und ihre Interpretation
181
by the desire to provide a theory of approximation for statistics without the assumption of truth, approximatio sine veritate (Davies 1995).” 232 Honi soit qui mal y pense. Tatsächlich ist das Lavieren charakteristisch. Einerseits werden Modelle gerne - weitreichend - realistisch interpretiert, andererseits weiß die Fachwelt, dass statistische Modelle zumeist nicht so stark sind wie etwa physikalische, weshalb sie nicht offen am traditionellen Wahrheitsbegriff und -anspruch festhält, so dass eine - vorsichtige - instrumentalistische Lehrmeinung dominiert. Zuweilen führt dies geradewegs in die Konfusion: “Models are rather crude approximations of reality, with epistemological, but no ontological, status.” (Lindsey 1999: 2f) Je nachdem, wie vorsichtig bzw. zuversichtlich der Autor ist, erfolgt die Distanzierung von der Realität entweder direkt oder sie wird mit zahlreichen verbalen Girlanden verziert. Wie wir gesehen haben, werden dabei einschränkende Begriffe wie „Approximation“, „epistemisch“, „Modell“, „hypothetische Struktur“ gerne gebraucht. Immer laufen die Bemerkungen darauf hinaus, die modellierten Variablen und Zusammenhänge nicht wortwörtlich zu nehmen, sie nicht unmittelbar auf die Realität zu beziehen. Philosophisch vorgebildete Autoren verweisen auch gerne auf passende philosophische Schulen, insbesondere den Empirismus oder den kritischen Rationalismus und Autoren des Wiener Kreises, Popper (alles Wissen ist hypothetisch) und Kuhn (s.o.)
c) Interpretationsdefizite Zumeist findet man noch realistische Deutungen schlichter, überschaubarer Modelle, wie z. B. eine lineare Regression mit zwei Parametern; je komplexer die Modelle jedoch werden, desto mehr wird ihr instrumenteller Charakter betont. Das ist nicht weiter verwunderlich: Es ist eine Sache, zwei Parameter mit einer inhaltlichen Bedeutung zu versehen, eine ganz andere, 10, 100 oder gar tausende von Parametern zu deuten. Erst recht lassen sich Strukturen, die sich nur implizit im Modell wiederfinden, schwer extrahieren und sodann interpretieren. Dies ist etwa bei neuronalen Netzen der Fall, wo die entscheidenden Informationen in der Matrix aller Verknüpfungen zwischen den Neuronen steckt (Bishop 1995). Mit dem Einsatz moderner Computertechnik hat sich die Tendenz zur eher pragmatisch-datenanalytischen Sicht, verbunden mit der häufigen „NichtInterpretation“ von Modellen noch verstärkt: Modelle lassen sich mittlerweile ohne großen Aufwand erzeugen. Benötigte vor 50 Jahren ein Doktorand mehrere Monate, um auch nur ein mäßig komplexeres Modell basierend auf wenigen Daten durchzurechnen, so erzeugt heutige Software Tausende plausibler Modelle im Sekundentakt. Früher war es schwer, Modelle überhaupt zu gewinnen. Hatte man deshalb nach langem Ringen ein Ergebnis gewonnen, so war nicht selten auch eine emotionale Bindung gewachsen, und entsprechend 232
Siehe auch Davies (2008: 199): “Statistics has no concept of approximation.”
182
3 Klassische Statistik
schwer fiel es typischerweise, das Modell wieder aufzugeben. Heute hat sich die Schwierigkeit ins Gegenteil verkehrt, sie besteht darin, aus einer Vielzahl von brauchbaren Kandidaten einen hervorzuheben.233 Zudem hat sich gezeigt, dass selbst strukturell völlig verschiedenartige Modelle oft ein und dieselben Daten ähnlich gut erklären.234 All dies vereitelt den Wunsch, genau eines der Modelle als das „wahre“ oder zumindest jenes mit der größten „Wahrheitsnähe“ auszuzeichnen. Einige Forscher haben daraus die Konsequenz gezogen, simultan mit mehreren Modellen zu arbeiten.235 Ein häufig verwendetes Kriterium für Wahrheitsnähe ist Stabilität. Die Newtonsche Mechanik konnte nur deshalb ihren unvergleichlichen Nimbus erlangen, weil sie über Jahrhunderte hinweg alle Prüfungen unangetastet überstand. Dies ist in den Sozialwissenschaften völlig anders. Geht man hier zu einem neuen Datensatz über, so zeigt sich nur allzu häufig die Bedeutung weiterer Faktoren, welche beim ersten Datensatz keine Rolle spielten. Und umgekehrt: Faktoren mit großer Erklärungskraft in Modell 1, basierend auf Datensatz 1, werden in Modell 2, basierend auf Datensatz 2, plötzlich völlig unwichtig. Auch wenn die Daten reliabel und valide sind, aufgrund unseres mangelnden theoretischen Verständnisses genügt es oft schon, dass sich die untersuchten Strukturen schnell ändern, um vermeintliche Gesetze zu pulverisieren. Gerade in der Ökonometrie ist man schon froh, Modelle zu besitzen, die eine „Halbwertszeit“ von einigen wenigen Monaten haben. Ist ein Modell instabil bzw. kaum generalisierbar, so hat man es an die verfügbaren Daten - genauer, deren flüchtige Eigenschaften - zu sehr angepasst, man hat überadaptiert. Das geschieht sehr leicht, und die Psychologie kennt sogar einige der Ursachen: Aufgrund unserer evolutionären Vergangenheit suchen wir unablässig nach verborgenen Absichten, Hinweisen und Mustern. Wir konfabulieren, d.h. wir versuchen ständig, Zusammenhänge und Regelmäßigkeiten aufzudecken. Deshalb sehen wir sogar Gesichter in Wolken, und meinen selbst bei Daten, die durch einen offensichtlichen Zufallsprozess erzeugt wurden (Glücksspiele), bemerkenswerte Muster zu beobachten. Darüber hinaus akzeptieren wir nur allzu freudig Daten, die zu unseren Vorurteilen passen. Zu den stärksten und zuverlässig replizierbaren Effekten der experimentellen Psychologie zählen der Versuchsleiter- und der Placeboeffekt.236 Efron und Tibshirani (1993: 1) schreiben klar und deutlich: Most people are not natural-born statisticians. Left to our own devices we are not very good at picking out patterns from a sea of noisy data. To put in another way, 233
Zumal für einen Blick ins Detail oder die Würdigung inhaltlicher Aspekt allein schon aufgrund der schieren Anzahl von Modellen und der Masse der Daten die Zeit fehlt. 234 Siehe das Induktionsproblem, Kapitel 4! 235
Sogenannte “Multimodel inference”, siehe z. B. Burnham und Anderson (2002, 2004). Bei letzterem fühlen sich Patienten, die behandelt werden, besser, selbst wenn die Pille, die ihnen verschrieben wurde, keinen Wirkstoff enthält. Bei ersterem glaubt man gerne, wenn man mit großer Mühe eine originelle Idee in einen überzeugenden Versuchsaufbau umgesetzt hat, dass die Ergebnisse der Erwartung entsprechen. Mehr dazu im Zusammenhang mit klinischen Studien, S. 225. 236
3.11 Modelle und ihre Interpretation
183
we are all too good at picking out non-existent patterns that happen to suit our purposes.
Eine statistische Ausbildung lehrt nicht zuletzt, sich vor solchen Trugschlüssen in Acht zu nehmen und sich möglichst durch geeignete Maßnahmen zu schützen. Zum Beispiel dienen Doppelt-Blind-Studien dazu, dass weder Proband noch Versuchsleiter sich etwas vormachen. Denn wenn sie beide nicht wissen, wer ein Medikament und wer ein Placebo verabreicht bekommt, so können sich auch keine falschen Erwartungen bilden, die die Ergebnisse verfälschen. Auch ein großer Teil der statistischen Testtheorie wurde entwickelt, um sich vor den Fehlern eines zu großen Optimismus zu schützen.237 Auch heute noch trifft man in der statistischen Beratung ständig auf unkritische „Anwender“, die überall Muster zu erkennen glauben. Poppers Philosophie ist nicht zuletzt deswegen in Fachkreisen beliebt, weil sie ihre Betonung auf die kritische Prüfung und die Falsifikation von Hypothesen legt. Auch in der Frühphase des Data Mining und der neuronalen Netze, innovativen Entwicklungen, welche maßgeblich nicht von der traditionellen Statistik vorangetrieben wurden, war der Fehler der Überadaptation an der Tagesordnung. Dies veranlasste Statistiker zu der treffenden Bemerkung: Those who ignore Statistics are condemned to reinvent it.238
Nicht nur an dieser Stelle verstärkt die statistische Tradition die Tendenz zur zurückhaltenden, konservativen Interpretation von Daten. Man ist risikoaversiv und möchte Fehler tunlichst vermeiden. Das heißt, Parameter und Modellbestandteile werden sehr zurückhaltend, aus Daten isolierte Strukturen selten realistisch interpretiert. Modelle werden zurzeit weit öfter als Werkzeuge denn als für sich genommen bedeutungstragende Strukturen aufgefasst. Interpretationsdefizite werden in der mathematisch orientierten Statistik kaum wahrgenommen, für die algorithmische Verfahren, “playing with numbers” und formale Strukturen (siehe schon S. 10) im Vordergrund stehen. Dem entsprechend wird in der einschlägigen Literatur auch fast immer vor Überadaptation, äußerst selten jedoch vor Unteradaptation (höchstens in der Form mangelnder “precision” eines Verfahrens) gewarnt. Gar nicht so selten wird auf die inhaltliche Interpretation der Ergebnisse sogar völlig verzichtet, was Lindley (1999c) mit deutlichen Worten kritisiert. Denn insgesamt gesehen ist weit weniger die Überinterpretation von Modellen und deren Bestandteile in der Praxis problematisch, also vielmehr ein systematisches Interpretationsdefizit. 237
Letztlich indem man die (längerfristige zu erwartenden) Wahrscheinlichkeiten von falschen Schlussfolgerungen kontrolliert. Ein interessanter Beitrag hierzu ist Diaconis (2006). 238
Efron, zitiert nach Friedman (2001: 8). Siehe auch Friedman (1997: 5) und Glymour et al. (1997).
184
3 Klassische Statistik
d) Weitergehende Interpretationen Eine nicht unbedeutende Folge der gerade beschriebenen (Zurück-)Haltung ist, dass Sachwissenschaftler die Interpretation übernehmen. Oft analysieren Wissenschaftler ohne fundierte statistische Ausbildung oder Konsultation Daten und schließen mit einer eher weit reichenden Interpretation. Gar nicht so selten werden auch auf das jeweilige Anwendungsgebiet spezialisierte Statistiker als „Hilfswissenschaftler“ beschäftigt.239 Ein klarer Beleg für den Konservatismus der „Schul-Statistik“ ist die Tatsache, dass mittlerweile risikobereitere Individuen neben und zuweilen auch im Gegensatz zur traditionellen Statistik Schulen der Datenauswertung begründet haben.240 Beide Entwicklungen haben dazu geführt, dass originär statistische Institute stagnieren, wenn nicht sogar erodieren. Es wirkt im Nachhinein wie ein Präzedenzfall, dass selbst ein R. A. Fisher, der größte Statistiker des 20. Jahrhunderts, vehement gegen den Kausalschluss „Rauchen verursacht Krebs“ zu Felde zog. Da sich in diesem Fall Experimente am Menschen aus ethischen Gründen verbieten, waren seines Erachtens die vorliegenden Daten nicht überzeugend. Fisher (1958, 1959) vermutete weit mehr genetische Ursachen für Lungenkrebs und war so sehr von seiner Meinung überzeugt, dass er sogar für die Tabakindustrie in einer einschlägigen Kampagne Partei ergriff. Als schließlich der Bericht des US-Gesundheitsministeriums (1964) erschien, waren es insbesondere Statistiker, die ihn aus methodischen Gründen bekämpften.241 Nach Ansicht vieler Wissenschaftler werden potenzielle Muster in Daten zu wenig ernst genommen. Im Extremfall sucht man gar nicht einmal mehr nach tieferliegenden Gesetzmäßigkeiten, obwohl es solche geben muss. Jaynes (2003: 329f), nicht ohne Grund ein renommierter Physiker, führt ein schönes Gedankenexperiment durch: Nehmen wir an, der Münzwurf wäre vor der Erfindung der deterministischen klassischen Mechanik studiert worden. Die klassische Wahrscheinlichkeitstheorie wäre ausgehend von ihm entwickelt worden und viele, viele Experimente bestätigen im Lauf die Zeit die stochastische Theorie. Then, suppose that someone was foolish as to suggest that the motion of a tossed object is determined [. . .] by its initial position and velocity. He would be met with scorn and derision; for in all the existing experiments there is not the slightest evidence for any such influence. The Establishment would proclaim that, since all the observable facts are accounted for by the volition theory, it is philosophically naive and a sign of professional incompetence to assume or search for anything deeper. 239
Dies nicht zuletzt deshalb, um die von Seiten der „reinen“ Statistik zu erwartende methodische Kritik abzufangen, welche nicht allzu selten auch auf die (zu?!) weitgehenden Interpretation zielt. 240
Data Mining, Mustererkennung, Machine Learning und kausale Graphen sind einige der später noch ausführlicher zu behandelnden Stichworte. 241
Eine interessante Einordnung des damaligen Geschehens aus heutiger Sicht geben Spirtes et al. (2000: Abschnitt 9.5) sowie Meek and Glymour (1994). Siehe auch S. 435ff.
3.11 Modelle und ihre Interpretation
185
Tatsächlich stellt sich aber nach vielen Jahren heraus, dass eine deterministisch-mechanische Theorie den Münzwurf besser beschreibt: After thousands of years of triumph of the statistical theory, someone finally makes a machine which tosses coins in absolutely still air, with very precise control of the exact initial conditions. Magically, the coin starts giving unequal numbers of heads and tails [. . .] With development of more and more precise machines, one finally reaches a degree of control where the outcome of the toss can be predicted with 100% accuracy [. . .] The existence of an underlying mechanical theory is proved beyond question; and the long success of the previous statistical theory is seen as due only to the lack of control over the initial conditions of tossing.
Blickt man auf die Finanzmärkte, so ist die Situation heute nicht unähnlich dem Münzwurf. Wer tieferliegende Gründe für die Entwicklung von Aktien sucht, wird mit Hohn und Spott bedacht, gilt doch die Entwicklung dort als ein Paradebeispiel für stochastische, nicht vorhersagbare Phänomene.242 Dem entsprechend stürzt sich die aktuelle Finanzmathematik mit viel technischem Aufwand auf die probabilistische Modellierung der Märkte (Malkiel 2008). Wie Jaynes richtig schreibt, gilt es sogar als naiv, die Entwicklung vorhersagen zu wollen. Wird jemand an der Börse durch seine Entscheidungen reich, so wird dies als Glück abgetan oder aber man sieht einen Selektionseffekt am Werk.243 Der statistische Beleg, von den Banken gerne verheimlicht: Selbst professionelle Fondsmanager schneiden in aller Regel eher schlechter als der Markt ab. Genau diese Sicht verhindert jedoch eine vorurteilsfreie Suche nach tieferliegenden Mustern. Genau solche muss es aber geben, manche sind sogar völlig offensichtlich: Die Aktie eines schlecht geführten Unternehmens wird immer mehr an Wert verlieren und die eines maroden Unternehmens sogar äußerst günstig zu bekommen sein. Profitable, expandierende Unternehmen in Zukunftsmärkten vervielfachen binnen kurzer Zeit ihren Aktienkurs. Das Kurs-Gewinn-Verhältnis ist seit Jahrzehnten ein guter Indikator dafür, ob eine Aktie überbewertet oder unterbewertet ist. Mit großer Regelmäßigkeit entstehen zudem am Markt Spekulationsblasen und platzen, wenn deutlich wird, dass die einschlägigen Unternehmen keine Substanz haben und kaum Gewinn abwerfen (Shiller 2005). Es ist ziemlich unbestritten, dass Börsen psychologische und wirtschaftliche Informationen zu einem Kurs verarbeiten. Wie sie das genau tun, dürfte um einiges schwerer zu entschlüsseln sein als beim Münzwurf. Deshalb scheitert man seit Jahrhunderten mit dem Versuch, Börsen zu modellieren; und da viel Geld im Spiel ist, gibt es auch immer genügend „Experten“, die versu242
Historisch gesehen dienten die Finanzmärkte sogar als Beispiel für den fundamentalsten und wichtigsten stochastischen Prozess, die Brownsche Bewegung (Bachelier 1900). 243 Wenn 1.000.000 Leute irgendwelchen Strategien folgen, ist es nicht verwunderlich, wenn ein kleiner Teil davon eine Weile Erfolg hat. Auch bei einer völlig zufälligen Lotterie gewinnt ja ein Bruchteil der Teilnehmer. Dieses Argument findet sich z. B. explizit in Bruss (2007), ein Essay über verblüffende Effekte der Selektion, siehe schon S. 112.
186
3 Klassische Statistik
chen, aus ihrem Halbwissen Kapital zu schlagen.244 Das ändert jedoch nichts an der Tatsache, dass Kurse nicht völlig willkürlich sind und es starke Indizien dafür gibt, dass die zur Verfügung stehenden Informationen erfolgreich in lohnende Entscheidungen umgesetzt werden können. Dies zu ignorieren, mit wenigen groben Argumenten (Glück, Selektion) wegzudiskutieren oder sogar von vorneherein als unmöglich zu deklarieren (Lange 2009), ist unwissenschaftlich. Man wünschte sich hingegen mehr empirische Analysen zu Beiträgen wie Prechter und Frost (2003) oder Murphy (2006), die den Erfolg oder Misserfolg solcher Strategien belegen könnten. Eine Moral der Geschichte(n) dürfte klar sein: Offenkundig kann zu viel Vertrauen in Modelle und Theorien schädlich sein. Dies insbesondere dann, wenn es sich wie bei statistischen Modellen in den Sozialwissenschaften um ziemlich grobe Abbildungen und erhebliche Idealisierungen der Realität handelt. Das Gegenteil ist aber auch zu vermeiden. Wer seinen Daten und Modellen nicht vertraut, erkennt schließlich auch die deutlichsten Effekte nicht mehr. Es ist eine Sache, leichtgläubig zu sein, eine ganz andere jedoch, hyperkritisch nach Fehlern und Überinterpretationen zu suchen. Wohl nicht ganz zufällig lassen sich die Grundhaltungen an den Fachgrenzen festmachen: Weil man Neues nur entdecken kann, wenn man nach ihm sucht, tendieren Wissenschaftler aller Fachrichtungen eher zu einer optimistischen Haltung, die aktiv nach Strukturen sucht, und wenn aufgedeckt, eher weitgehend interpretiert. Der Wissenschaftsrealismus ist die zu dieser Einstellung passende Philosophie. Eine solche Einstellung tendiert eher zur Überinterpretation vorhandener Daten, also zu weitgehenden Schlüssen bis hin zur Spekulation einerseits und einer Überadaptation an vorhandene Daten - um aus ihnen alle Information zu extrahieren - andererseits. Nicht unähnlich manchem Philosophen sucht hingegen auch die Statistik mit Akribie immer wieder nach Argumenten des Zweifels, d.h. diese Gruppen tendieren zu einer eher pessimistischen Haltung. Sie sehen ihre Hauptaufgabe mehr in der Kritik, der Mahnung zur Vorsicht, der Evaluation von Schlussfolgerungen und (vermeintlichen) Wissens. Eine solche Einstellung tendiert eher zur zurückhaltenden Interpretation vorhandener Daten, zu robusten, wenn auch oftmals eher groben Methoden und Modellen, mit denen sich jedoch solide Schlüsse begründen lassen. Schlimmstenfalls werden dabei wichtige Information ignoriert, und die Zensur des Zweifels erstickt originelle Ideen bevor sie geäußert werden. Es kann aber auch geschehen, dass ein Hauch des Zweifels in der einen Waagschale stärker gewichtet wird als alle überwältigende Evidenz auf der anderen Seite. 244
Nicht zuletzt dadurch, dass sie andere zu schlechten Verhaltensweisen animieren. Andererseits schneiden Fondsmanager mit mehr als zehnjähriger Erfahrung kontinuierlich besser ab als der Marktdurchschnitt. Gerade die erfolgreichsten „Spekulanten“ sind über Jahrzehnte hinweg erfolgreich und folgen klar begründeten Strategien. (Die Anlagegrundsätze eines Warren Buffett lassen sich sogar im Internet nachlesen.)
3.11 Modelle und ihre Interpretation
187
3.11.3 Angemessene Interpretation Die Interpretation von Daten ist angemessen, wenn sie weder zu weit geht, noch zu vorsichtig ist. Da sie immer über die Daten hinausgeht, ist sie immer auch untrennbar mit der Grundhaltung des „Interpreten“ verbunden. Neymans und Pearsons Modell zweier verschiedenartiger Fehler245 klärt darüber auf: Verhält man sich konservativ, so sichert man sich technisch formuliert gegen einen Fehler 1. Art ab. Das heißt, man votiert nur höchst selten für die Existenz eines Effekts, der gar nicht existiert, tappt also, allgemeiner gesprochen, selten in die „Optimismusfalle“. Mit dieser vorsichtigen Strategie erhöht man jedoch gleichzeitig den Fehler 2. Art, d.h. man übersieht leicht reale Effekte, obwohl diese sich deutlich in den Daten abzeichnen, tappt also, allgemeiner gesprochen, häufiger in die „Pessimismusfalle“. Es wird also, selbst bei identischen Daten, immer eine gewisse Bandbreite wohlbegründeter Meinungen von „skeptisch“ bis „zuversichtlich“ geben. Jaynes (2003: 504f) fasst unsere Argumentation zusammen: To counter this universal tendency of the untrained mind to see causal relations and trends where none exist, responsible science requires a very skeptical attitude, which demands cogent evidence for an effect; particularly one which has captured the popular imagination. Thus we can easily understand and sympathize with the orthodox conservatism in accepting new effects. There is another side to this; skepticism can be carried too far. The orthodox bias against a real effect does help to hold irresponsibility in check, but today it is also preventing recognition of effects that are real and important. The history of science offers many examples of important discoveries that had their origin in the perception of someone who saw a small unexpected thing in his data . . . Of course, they did not jump to sweeping conclusions from a single observation, as do the disastermongers; rather, they used the single surprising observation to motivate a careful investigation that cumulated in overwhelming evidence for the new phenomenon. (Hervorhebungen im Original.)
Die Lage in der Physik sieht Jaynes als befriedigend an, nicht jedoch in anderen Wissenschaften: In other fields we must wonder how many important discoveries, particulary in medicine, have been prevented by editorial policies which refuse to publish that necessary first evidence for some effect [. . .] This could well defeat the whole purpose of scientific publication; for the cumulative evidence of three or four such data sets might have yielded overwhelming evidence for the effect. Yet this evidence may never be found unless the first data set can manage to get published. How can editors recognize that scientific discovery is not a one-step process, but a many-step one, without thereby releasing a new avalanche of irresponsible, sensational publicity seekers?246 245
Siehe Abschnitt 3.2.2. Mit explizitem Verweis auf eine umfangreiche Literatur schließt sich Rosenthal (1990: 26f) dem an: “It has often been documented that behavioral researchers are far fonder of making type II errors [also einen vorhandenen Effekt nicht zu erkennen] than of making type I errors [. . .] 246
188
3 Klassische Statistik
Wie sollte man also mit statistischen Modellen umgehen? Der Situation angemessen ist die passende Antwort. Das heißt, etwas präziser: 1. Konstruiert man ein Modell ad hoc, ohne überzeugende theoretische Fundierung 2. ist es sehr groß, besitzt also viele anzupassende Parameter 3. ist man an einer lokalen guten Prognose aber weniger an einem generalisierbaren tieferen Verständnis der relevanten Faktoren interessiert 4. passt außerdem das Modell eher mäßig zu den vorliegenden Daten, 5. lassen sich die mathematischen Annahmen in der Realität kaum rechtfertigen, so liegt eine instrumentalistische Interpretation nahe. In solchen Situationen ist das Modell kaum mehr als ein nützliches Werkzeug, vielleicht sogar lediglich ein „Einmal-“ oder „Wegwerfmodell“ - hilfreich um Daten zusammenzufassen, oberflächlich zu analysieren und schnell eine Prognose zu generieren. Es wäre ungewöhnlich, wenn man bei einem solchen Modell die Parameter oder Struktur substanziell interpretieren könnte. Je mehr jedoch das Gegenteil der Fall ist, liegt eine realistische Interpretation nahe. Das heißt: 1. Das Modell wurde sorgfältig aus einer Theorie abgeleitet bzw. kann eine überzeugende fachwissenschaftliche Begründung des Modells geltend gemacht werden 2. Das Modell ist überschaubar, vielleicht sogar der Anschauung und direktem Vergleich mit der Realität zugänglich und passt hervorragend zu den Daten 3. Die Datenqualität ist hoch, das heißt, die Daten sind reliabel (insbesondere präzise), valide (etwa repräsentativ) und die Datenbasis ist umfangreich 4. Allgemeiner gesagt: Die vorliegende Evidenz ist beeindruckend, eine Reihe von Fakten, Beobachtungen und Experimenten sprechen für das Modell 5. Die Untersuchung und das Modell zielen auf möglichst allgemeines, tieferes Verständnis und detaillierte Erfassung der realen Verhältnisse 6. Die mathematischen Voraussetzungen lassen sich rechtfertigen und sogar empirisch überprüfen, wobei sie dieser Überprüfung stand halten Unter diesen Bedingungen ähnelt das Modell nun eher einer konzisen mathematisch-präzisen Beschreibung realer Gesetzmäßigkeiten. Sehr gute Modelle ermöglichen tiefe Einblicke, erlauben präzise Prognosen und haben eine lange Lebensdauer. Die klassischen Beispiele liefert die Physik: Viele heute fundamentalen Größen wurden zunächst als Hilfsterme eingeführt, damit die Rechnung aufging, waren Ergänzungen „ad hoc“ um das Gesamtgebäude zu stützen. Man denke an das Plancksche Wirkungsquantum, Einsteins kosmologische Konstante oder die von Pauli eingeführten Neutrinos. Alle diese Größen wurden nur erfunden, um Modelle zu stützen oder überhaupt erst ans
3.12 Diskussion der Datenmodellierung
189
Laufen zu bringen. Noch häufiger ist der Fall, dass zunächst rein formal eingeführte Objekte im Laufe der Zeit eine inhaltlich-hypothetische Bedeutung erlangen, sich die Hypothese mehr und mehr erhärtet, bis die entsprechenden Strukturen, Begriffe oder Objekte schließlich allseits akzeptierte Teile oder sogar tragende Säulen des etablierten wissenschaftlichen Gebäudes werden. Fortschritt zeigt sich also wieder in einer Verstärkung der Interpretation statistischer Modelle. Aus zunächst ziemlich willkürlich gewählten mathematischen Strukturen schälen sich im Laufe der Zeit stabile Muster mit realer Bedeutung heraus. Es kann z. B. sein, dass zunächst gewisse relevante Faktoren isoliert werden, dann deren Zusammenhang deutlicher wird, und sich schließlich die Einzelbefunde zu einer umfassenden Struktur entwickeln. In solchen Fällen wird man mehr und mehr zu einer inhaltlichen Interpretation übergehen, also Parametern und Mustern eine substanzielle Bedeutung beilegen. Was womöglich nur ad hoc, a posteriori oder als bloße Spekulation das Licht der Welt erblickte, wächst, gedeiht, präzisiert und stabilisiert sich und wird schließlich zu einer orthodoxen, zuweilen sogar fundamentalen Einsicht - hundertfach experimentell bestätigt und auf mannigfaltige Weise in das theoretische Beziehungsgeflecht integriert. Wir vertiefen die Konstruktion und Interpretation von Modellen in Abschnitt 4.5.1.247
3.12 Diskussion der Datenmodellierung The model is a hypothetical conjecture that might or might not summarize and/or explain important features of the data. Box et al. (2005), erste Seite des Einbands
In den vorangegangenen Abschnitten haben wir den Kern der angewandten Statistik als „Modellfindung und -Passung“ beschrieben. Man beschränkt sich im Wesentlichen auf den vorliegenden Datensatz und versucht diesen mithilfe mathematischer Methoden prägnant zu beschreiben. Eine solche Analyse ist zwar nicht sehr tiefsinnig, oft aber doch hilfreich: In doing so, they in effect opt for a primitive logic of asserting that a simplifying empirical model is an adequate representation for purposes at hand, implying that formal estimation and formal assessment of prediction errors are secondary. This 247
Insofern verblüfft es schon ein wenig, dass Physiker im Gefolge der Quantenmechanik und der mir ihr einhergehenden eher unfruchtbaren philosophischen Diskussion oft dem Rat Heisenbergs folgen und ontologische Fragen nicht (mehr) stellen. Damit weichen sie dem Problem, inwieweit ihre (hervorragenden!) Modelle realistisch sind, aus, obwohl sie sich in einer starken Position befinden und gerade der beeindruckende Erfolg der Theorie eine starke realistische Lesart nahe legt. Natürlich ist es schwierig, über Dinge zu reden, die sich kaum beobachten lassen, aber fast ganz auf Interpretationen zu verzichten, weil man sich schnell in “quantum weirdness” verstrickt, ist auch keine überzeugende Lösung. Siehe hierzu insbesondere Laughlin (2007).
190
3 Klassische Statistik
circumstance often holds, leading many scientists to do their own statistics, often well. (Dempster 1998: 252)
Hieran gibt es eine Reihe wesentlicher Kritikpunkte, die wir auf den nächsten Seiten zunächst kurz anreißen, um dann auf folgende Kapitel mit ausführlicheren Diskussionen zu verweisen. Zunächst einmal ist die Anpassung eines Modells an einen vorliegenden Datensatz reichlich flexibel, subjektiv und
Ad Hoc Man geht „datengetrieben“ vor, was heißt, dass je nach Situation gerade das Verfahren ausgewählt wird, welches ein Licht auf die Daten werfen könnte. Ein solches Vorgehen kann, wie man sich leicht überlegt, schnell willkürlich werden. Es entspricht einem sportlichen Wettkampf, bei dem man erst nachdem man die Teilnehmer gesehen hat, entscheidet, welche Wettbewerbe stattfinden werden. Genauso einfach ist es im Nachhinein zu „erklären“ warum z. B. eine Zeitreihe (etwa ein Aktienkurs) sich genau so entwickelt hat, wie er sich eben entwickelt hat. Den Statistiker erinnert das an das alte Bonmot, dass Prognosen dann besonders schwierig sind, wenn sie die Zukunft betreffen,248 wenn es also darum geht a priori zu sagen, welche Resultate ein Experiment zeitigen wird. Die Reihenfolge umzudrehen trivialisiert geradezu das Problem. Einen reichhaltigen Werkzeugkoffer vorausgesetzt - und den bietet die moderne Statistik - lassen sich immer einigermaßen passende Strukturen angleichen, und nur die wenigsten Autoren sind so ehrlich, ihre Entscheidungen, die zu dem von ihnen letztlich gewählten Modell geführt haben, transparent und wirklichkeitsgetreu darzustellen. Was nun, und dies ist in der Praxis ein sehr häufiger Fall, wenn umfangreiches Datenmaterial gesammelt worden ist, und man das Gefühl hat, dass damit weitreichende Schlüsse gezogen werden können? Zum Beispiel seien die Daten automatisiert über ein standardisiertes Formular erhoben worden, es stehen viele Datensätze zur Verfügung (die Stichprobe war also groß) und darüber hinaus kennt man eine ganze Reihe potenziell relevanter Merkmale. Ein prominentes Beispiel ist die Epidemiologie, wo man über eine Reihe von Krankheitsregistern verfügt, die Aufschluss über die regionale und soziale Verteilung einer Krankheit geben und neben dem Krankheitsverlauf viele weitere Variable umfassen. Reichen derartige Daten aus, um etwa einen weitreichenden Kausalschluss zu rechtfertigen? Viele, wenn nicht sogar die meisten Statistiker scheuen aus den oben genannten Gründen diesen Schritt. Was im Experiment durch einschlägige Vorkehrungen abgesichert wird, ist im Rahmen der „Freilandbeobachtung“ oft 248
Plickert (2008) nennt vier mögliche Urheber des Zitats: Mark Twain, Karl Valentin, Niels Bohr und Winston Churchill. Hand (2007: 235) legt das Zitat dem “baseball philosopher Yogi Berra” mit den Worten “prediction is a risky business, especially when it’s about the future” in den Mund.
3.12 Diskussion der Datenmodellierung
191
kaum mehr als eine zweifelhafte Annahme, die zurecht explizit kritisiert werden kann, also eine Angriffsfläche bietet. Die Verteidigung einer StandardProzedur in einem klassischen Experiment samt zurückhaltender Interpretation der Ergebnisse fällt natürlich weit leichter als ein sachlich weitreichender monokausaler Schluss der Form „Rauchen verursacht Krebs“ aufgrund von Beobachtungsdaten. Gerade die medizinische Statistik hat die leidvolle Erfahrung gemacht, wie wenig nicht-experimentellem Wissen, z. B. historischen Daten in Registern, zu trauen ist. Nun kommt es der Fachwissenschaft jedoch genau auf solche fundierten, nicht falsifizierten, korroborierten, belegten, empirisch gestützten249 Aussagen, zuweilen vereinfachend allgemeine Gesetze genannt, an. Kann man bei der Begründung solcher Zusammenhänge nicht auf formale Argumente zurückgreifen, so bleiben nur inhaltliche Gründe übrig.250 Es ist eine interessante Frage, wie stark fachwissenschaftliche Argumente sein müssen, um eine weitreichende Interpretation der Daten zu rechtfertigen. Können fachliche Argumente statistische ergänzen, verstärken oder vielleicht sogar ersetzen? Statistiker klammern diesen nichtmathematischen Aspekt gerne aus, Wissenschaftler kommen aber letztlich nicht umhin, die gesamte vorhandene Evidenz - egal ob inhaltlich oder formal, egal aus welcher Quelle - zu einem Urteil zu verdichten. Dazu mehr im Abschnitt 4.6.2.
A Posteriori Ein zweiter Gesichtspunkt ist eng mit dem gerade Besprochenen verwandt. Man hat sich bei der Anpassung eines Modells nicht im Vorhinein Gedanken gemacht, welche Analysemethode die richtige bzw. angemessene ist. Ohne von einer expliziten, formalisierten Theorie oder Hypothese geleitet zu sein, entscheidet man erst im Nachhinein über den Kontext, in den die Daten eingeordnet und bewertet werden. Neben den bereits genannten, ist dies aus mehreren, weiteren Gründen problematisch. Offenkundig lassen sich Fehler bei der Datenerhebung a posteriori nicht oder nur noch äußerst schwer korrigieren: Hat man in einem Fragebogen eine wichtige Frage vergessen, so wird man kaum kurz darauf ein weitere Umfrage starten. Wurden lediglich Jüngere befragt, so wird eine Aussage über Ältere aufgrund der Struktur der Stichprobe zweifelhaft sein, usw. Ohne ein vor der Datenerhebung festgelegtes Gerüst ist es auch schwer, zwischen Hypothesen vor der Datenerhebung und Meinungen zu unterscheiden, die maßgeblich von den Daten, also potenziell neu hinzugekommener Information, beeinflusst 249
Man wähle den Begriff derjenigen philosophischen Schule, für die man die meisten Sympathien hegt. Nur das Wort „verifiziert“ sollte man an dieser Stelle tunlichst vermeiden. 250
Und egal, wie die statistisch-formalen Argumente auch immer sind - letztlich müssen die numerischen Ergebnisse wieder in die reale Welt übersetzt, also inhaltlich interpretiert werden.
192
3 Klassische Statistik
worden sind. Man konfabuliert sich im Nachhinein gerne Dinge so zurecht, wie man es gerne hätte - und nicht, wie sie tatsächlich waren. Auch die Modellspezifikation fällt äußerst schwer. Meint man bei der Modellierung ein interessantes Muster gefunden zu haben, so stellt sich sofort die Frage, wie es vom Zufallsrauschen zu unterscheiden ist. Da man bei „fertig vorliegenden“ Daten in aller Regel die Mechanismen, welche bei deren Zustandekommen gewirkt haben, nicht kennt, heißt das, dass man wenig bis nichts über die (mathematischen) Eigenschaften der Daten weiß. Deshalb gleicht nicht nur die Unterscheidung in noise und signal, sondern auch schon die Festlegung der überhaupt in Betracht gezogenen Modelle dem berühmten Stochern im Nebel. Genau deshalb setzt die orthodoxe Statistik den entscheidenden Hebel früh(er), nämlich bei der Datenerhebung, an. Kontrolliert man diesen ersten Schritt, so kann man Eigenschaften von Daten (z. B. Unabhängigkeit, identische Verteilung usw.) fundiert begründen, wenn nicht sogar erzwingen. Zum Beispiel ist es offensichtlich ein großer Unterschied, ob „irgendwelche Personen in der näheren Umgebung“ befragt wurden, oder ob man sich bei der Datenerhebung bemüht hat, alle Altersgruppen, sozialen Schichten, regionalen Unterschiede, die einen Einfluss auf das Ergebnis einer Befragung haben können, zu berücksichtigen. Aufgrund der bekannten bzw. sogar kontrollierten Art der Erhebung ist es im Nachhinein gerechtfertigt, die Daten auf eine gewisse Weise zu interpretieren. Die Grundidee ist, dass das Endprodukt - also die möglichst weitreichende Interpretation der Daten - nur dann rational überzeugen kann, wenn bereits die Erhebung der Daten gewissen Regeln folgte. Nur wenn man ganz am Anfang richtig vorgeht, die Fundamente tief gründet, kann ganz zum Schluss, am Ende der experimentellen Konstruktion, ein argumentativ starkes, ja überragendes Ergebnis stehen. Die eigentlichen Daten werden so eingebettet in einen stringenten logischen Kontext von Erhebung, Auswertung und Interpretation. Ein spezielles, aber sehr instruktives Beispiel ist wiederum der Kausalschluss.251 Nicht nur wird jedem Studenten eingebläut, korrelative Zusammenhänge nicht mit einer kausalen Beziehung gleichzusetzen. Mehr noch: in der Lesart der (heutzutage) orthodoxen Statistik lässt sich ein Kausalschluss nur dann logisch rechtfertigen, wenn ein randomisiertes statistisches Experiment durchgeführt wurde. Der Kausalschluss wird kurz gesagt dadurch gerechtfertigt, dass zunächst randomisiert wird.252 Zudem hilft das Wissen, wie die Daten entstanden sind, auch bei der Beantwortung der inhaltlichen Fragen. In diesem Geist schreibt Dempster (1998: 250): The reasoning behind such interpretations seeks to lay bare the essential story emerging from the numbers in relation to the problem under analysis. Such informal 251
Siehe dazu ausführlich Abschnitt 5.4.1. Siehe hierzu Abschnitt 4.3.3 und auch S. 113ff. Ansonsten spricht man bezeichnenderweise von Quasi-Experimenten. 252
3.12 Diskussion der Datenmodellierung
193
‘logic’253 forms a part of the basis of ‘what we can say’. Wir vertiefen diese Idee in Abschnitt 4.3.1.
Kausalschlüsse sind eine wichtige Klasse von Schlussfolgerungen, die über die gerade vorliegenden Daten weit hinausgehen. Nun ist jedoch jede konkrete Stichprobe unter sehr spezifischen, im Detail oft nicht replizierbaren Bedingungen zustande gekommen.254 Zudem gleichen Stichproben oft dem sprichwörtlichen Tropfen aus einem Meer potenziell zugänglicher Daten und erst recht aus einem Ozean verfügbaren Hintergrundwissens. Ist es gerechtfertigt, von dieser engen, äußerst eingeschränkten Sicht der Dinge auf das große Ganze zu generalisieren? Könnte die Stichprobe nicht wie ein Zitat, das aus dem Zusammenhang gerissen wird, äußerst irreführend sein? Allgemein gesprochen steht man vor dem Problem der Rechtfertigung einer
Generalisierung Ohne weiteres ist ein solcher Schluss natürlich höchst spekulativ. Um ihn zu fundieren, bedarf es weiterer - guter - theoretischer wie empirischer Argumente und damit auch zusätzlicher Annahmen oder Vorkehrungen. Eine nahe liegende Strategie ist, Kontextwissen inhaltlicher Natur anzuführen. In Abschnitt 4.6.4 werden wir darauf genauer eingehen. Die Strategie der klassischen Statistik besteht hingegen darin, wie wir gerade angerissen haben, bereits bei der Datenerhebung dafür zu sorgen, dass gewisse formale Kriterien eingehalten werden, damit im Nachhinein allgemeine bzw. verallgemeinernde Schlüsse fundiert und damit gerechtfertigt sind. So versucht man dafür zu sorgen, dass die Stichprobe repräsentativ für die Gesamtheit ist, über die man Aussagen machen möchte. Mit einem geeigneten experimentellen Design möchte man Störfaktoren gezielt ausschalten usw. Wie die Taktik auch immer aussehen mag - Es ist wichtig zu erkennen, dass man nur mit solchen, die Daten ergänzenden Informationen bzw. Maßnahmen begründet über die bloße Anpassung von Modellen an Daten hinauskommt. Ansonsten besteht immer der Generalverdacht, dass ein Modell oder ein Schluss, basierend auf bekannten Daten, weder reliabel noch valide ist. Wie man sich leicht überlegt und wie wir schon angedeutet haben, handelt es sich bei der Kunst der Verallgemeinerung, auch im Rahmen mathematischstatistischer Argumente, um ein ebenso subtiles wie weites Feld, dem wir uns in Kapitel 4 ausführlich widmen. Einige zentrale Probleme haben wir schon angerissen: 1. Modellspezifikation. Wie vermeidet man Über- und Unteradaptation an die Daten? Welche Modellklasse ist die richtige? 253
In Anführungszeichen, da es sich hierbei nicht um die formale Logik im engeren Sinn handelt, sondern nur um ein stringentes, folgerichtiges Vorgehen und Argumentieren. 254
Im Allgemeinen ist ja noch nicht einmal klar, wie diese Bedingungen genau aussahen.
194
3 Klassische Statistik
2. Unterbestimmtheit. Prinzipiell gibt es immer völlig verschiedenartige Modelle, die gleich gut zu einem gegebenen Datensatz passen. 3. Hinreichende Evidenz. Mit logischen Mitteln lässt sich nie vom Besonderen aufs Allgemeine schließen. Welche bzw. wie viel Evidenz muss vorliegen, um einen induktiven Schluss zu rechtfertigen? Insgesamt können wir hier festhalten, dass die Datenmodellierung zwar von zentraler Bedeutung, jedoch um wichtige Aspekte zu ergänzen ist. Diese Diskussion setzen wir in Abschnitt 4.5 fort.
Kapitel 4
Induktion
Statistics is a broad field, whether or not you define it as ‘The science, the art, the philosophy, and the techniques of making inferences from the particular to the general.’ (Tukey 1961: 144)
Ihr volle wissenschaftstheoretisch-philosophische Tiefe erhält die Statistik erst mit der Betrachtung des allgemeinen Induktionsproblems. Man kann sie sogar als den am weitesten ausgearbeiteten theoretisch fundierten als auch praktisch erfolgreichen Versuch auffassen, jenes zu lösen. Die Formulierung von Tukey deutet bereits an, dass die Statistik nicht eine, sondern ein ganzes Spektrum spezieller Lösungen anbietet. Genauso wenig wie es den Stein der Weisen1 gibt, existiert ein Induktionsprinzip. Vielmehr gibt es eine ganze Reihe von Ansätzen und verschiedenartige Klassen von Argumenten um Verallgemeinerungen zu rechtfertigen.
4.1 Das allgemeine Induktionsproblem The mother of all problems. (Godfrey-Smith 2003: 39)
Wir sind schon in Abschnitt 2.6.3 kurz auf das Induktionsproblem eingegangen. In einem Satz gesagt besteht dieses darin, gehaltserweiternde Schlüsse zu rechtfertigen, also (begründet) vom „Spezielle(re)n aufs Allgemein(er)e“ zu schließen. Mit rein logischen Mitteln ist dies nicht möglich, was spätestens seit Hume (1748) allgemein akzeptiert wird. Denn in der Logik und der Mathematik setzt man gewisse Annahmen axiomatisch voraus und leitet dann nur mit formal-logischen Mitteln interessierende Aussagen - Theoreme - ab. Die Tatsache, dass letztere so verbindlich-sicher wie die Axiome sind, von denen man gestartet ist, bezahlt man mit dem Preis, dass die abgeleiteten Gesetze logisch gesehen höchstens so gehaltvoll sein können wie die Axiome, von denen man ausgegangen ist. Lediglich eine Einschränkung oder Spezialisierung ist möglich, und es ist auch von einigem Interesse, vermutete Sachverhalte aus den 1
Engl.: philosopher’s stone
U. Saint-Mont, Statistik im Forschungsprozess, DOI 10.1007/978-3-7908-2723-1_4, © Springer-Verlag Berlin Heidelberg 2011
195
196
4 Induktion
Axiomen und mithilfe anerkannter logischer Gesetze stringent herzuleiten, also zu beweisen. Es gibt auf diesem Weg jedoch kein Lernen, also keine Hinzunahme neuer Aspekte, keine Erweiterung um Gesichtspunkte, die noch nicht in den Axiomen (und logischen Schlussregeln) enthalten waren. Möchte man mehr beweisen, muss man am Beginn des deduktiven Weges zuallererst einmal mehr voraussetzen. Bei manchen philosophischen Autoren wird deshalb die Mathematik als langweilige Wissenschaft der formalen Schlüsse und Tautologien abgetan, die ja „nichts Neues“ bringen (Verein Ernst Mach 1929: 14, 18). Damit tut man ihr jedoch in mehrfacher Hinsicht Unrecht. Zunächst ist die Angabe eines „geeigneten“ Axiomensystems alles andere als leicht. Zum zweiten ist es eine Sache, festzustellen, dass „im Prinzip“ die Axiome die Spielregeln festlegen und aus ihnen alles herzuleiten ist. Eine ganz andere ist es jedoch, ein vermutetes Theorem tatsächlich streng-deduktiv aus den Axiomen herzuleiten, also einen logisch-schlüssigen Beweis zu führen. Zum dritten ist Information lokal. Das heißt, unser Wissen vergrößert sich tatsächlich mit jedem Beweis, den wir erfolgreich führen und auch unsere Fähigkeiten nehmen mit jedem Verfahren, das wir im Rahmen eines logischen Rahmens erfinden, zu.2 L. Cohen (1989) führt einige typische Paradoxien der Induktion aus, die verdeutlichen, was passiert, wenn man mit den gewohnten Regeln des deduktiven Schließens argumentiert. Er beginnt (S. 176f) bei Locke (1690) und Hume (1739): The classical paradox about induction arose as a by-product of empiricist epistemology in the late seventeenth and early eighteenth centuries. It was hinted at in Locke’s Essay [. . .] and explicitly formulated for the first time in Hume’s Treatise [. . .] The paradox was generated by the fact that, according to an empiricist, the premisses of our factual knowledge were all particular, distinct perceptual experiences, not general principles of any kind, whereas the content of our factual knowledge seemed to include many causal laws and other generalizations about natural processes [. . .] there was no way that these general conclusions, with their implications about the yet unperceived, could be so deduced from premisses about past events. (Hervorhebungen im Original.)
Es gibt zahlreiche Varianten, das allgemeine Induktionsproblem zu formulieren. Besonders häufig trifft man auf das Problem zu prognostizieren, also von der Vergangenheit auf die Zukunft zu schließen und auf das Problem zu extrapolieren, also aufgrund des (bislang) Beobachteten Aussagen über das (noch) nicht Untersuchte zu machen. Cohen (ibd.) fährt fort: So just at the very period at which the scientific revolution seemed to have produced its greatest theoretical achievement - Newtonian mechanics - the triumph of empiricist over rationalist epistemology seemed to imply, if Hume was right, that this achievement had no rational foundation. No valid inference was possible from the past to the future, or from what is in sight to what is out of sight. 2
Siehe hierzu auch Schlick (1986: Kapitel 10).
4.1 Das allgemeine Induktionsproblem
197
Ein schönes Beispiel gibt Heuser (1989: 25): „R. Pearl, L. J. Reed und J. F. Kish fanden 1940 anhand von Volkszählungsdaten ein perfekt logistisches Wachstum der US-Bevölkerung bis einschließlich 1940 - aber ausgerechnet ab 1940 vermehrten sich die US-Menschen dem druckfrischen Gesetz zum Hohn viel stärker als sie eigentlich durften.“ Das GRUE-Paradoxon von Goodman3 hebt ebenfalls auf die Unbestimmtheit der Zukunft relativ zu den bisherigen Beobachtungen, welche natürlich alle in der Vergangenheit lagen, ab:4 Suppose that all emeralds examined before a certain time t are green. At time t, then, all our relevant observations confirm the hypothesis that all emeralds are green. But consider the predicate ‘grue’ which applies to all things examined before t just in case they are green and to other things just in case they are blue. Obviously at time t, for each statement of evidence asserting that a given emerald is green, we have a parallel evidence-statement asserting that that emerald is grue. And each evidence-statement that a given emerald is grue will confirm the general hypothesis that all emeralds are grue [. . .] Two mutually conflicting hypotheses are supported by the same evidence.
Damit nicht genug. Darüber hinaus kann man auf völlig andere Eigenschaften oder sogar Objekte zielen: And by choosing an appropriate predicate instead of ‘grue’ we can clearly obtain equal confirmation for any prediction whatever about other emeralds, or indeed for any prediction whatever about any other kind of thing. For example, suppose ‘grue’ applies to all things examined before t if and only if they are green and to other things if and only if they exist in a world in which pigs have wings. Then, if emeralds examined before t are green, we can predict that after t pigs will have wings. (ibd.)
Die Tatsache, dass man immer nur einen beschränkten Bereich beobachtet, lässt sich nutzen, um eine „örtliche“ Variante des Paradoxons zu konstruieren, die auch von einiger praktischer Bedeutung ist: If ‘grue’ is redefined to apply to all things examined in the observer’s own laboratory if and only if they have one characteristic, and to other things if and only if they have a different one, then an analogous argument seems to lead to the absurd conclusion that no experimenter is ever entitled to draw universal conclusions about the world outside his laboratory from what goes on inside it. (ibd. Meine Hervorhebung.)
Mit solchen Einwänden eng verwandt ist die von Cartwright vertretene Auffassung „gesetzesschaffender Situationen“, die von ihr nomological machines genannt werden. Sie schreibt hierzu: “What is a nomological machine? It is a fixed (enough) arrangement of components, or factors, with stable (enough) capacities that in the right sort of stable (enough) environment will, with repeated operation, give rise to the kind of regular behaviour that we represent in our scientific laws” (Cartwright 1999: 50). Und weiter ibd., S. 49: “Sometimes the arrangement of the components and the setting are appropriate for a law to occur naturally, as in the planetary system; more often they are engineered by us, as in a laboratory experiment. But in any 3
Siehe insbesondere auch Abschnitt 4.7.1
4
Siehe L. Cohen (1989: 197ff), N. Goodman (1990) und Stalker (1992)
198
4 Induktion
case, it takes what I call a nomological machine to get a law of nature.” (Hervorhebung im Original.) In dieser Vorstellung ist enthalten, dass die vermeintlichen Naturgesetze nur lokal vorhanden sind. Wir stoßen auf Regularitäten, weil eine spezifische Situation vorliegt, die die Regularitäten maßgeblich erzeugt. Die klassische Vorstellung ist hingegen, dass wir in spezifischen Experimenten allgemein gültige Regeln finden, die konkreten Randbedingungen des Experiments also nebensächlich sind. Letztlich wird also auch hier der Induktionsschluss von den spezifischen Bedingungen eines Experiments, Labors etc. auf die weit größere „Welt“ in Frage gestellt.5
Humes ungebrochene Aktualität Dass das Induktionsproblem für die heutige Philosophie nach wie vor von einiger Brisanz ist, kann man etwa dem folgenden, ziemlich typischen Zitat entnehmen. (Hacking 2001: 190) schreibt: Hume’s problem is not out of date [. . .] Analytic philosophers still drive themselves up the wall (to put it mildly) when they think about it seriously.6
Trotzdem gibt es keine bislang allgemein akzeptierte Lösung oder auch nur einen Lösungsansatz, der Konsens wäre. Offenkundig ist lediglich, dass auch kein Induktionsprinzip hilft. Jenes müsste nämlich, um empirisch fundiert zu sein, selbst wieder aus (spezifischen) Erfahrungen abgeleitet werden, was zu einem Zirkel führt: An inductive inference [. . .] is justified by conformity to general rules, and a general rule by conformity to accepted inductive inferences. Predictions are justified if they conform to valid canons of induction; and the canons are valid if they accurately codify accepted inductive practice. (N. Goodman (1990: 64), zitiert nach Earman (1992: 161))
Beide o.g. zentralen Argumente gehen auf Hume zurück und Reichenbach (1968: 184f) hat meisterhaft erläutert, weshalb sie dem Induktionsproblem eine herausragende Bedeutung verleihen: Der nichtanalytische Charakter der Induktion ist Humes erste Behauptung [. . .] Humes zweite Behauptung ist [. . .], daß man die Induktion [auch] nicht durch die Erfahrung rechtfertigen kann. Der Induktionsschluß kann überhaupt nicht gerechtfertigt werden; dies sei, behauptet Hume, das Ergebnis seiner Kritik.
Stimmt dies, so ist die überaus betrübliche Schlussfolgerung, dass weder eine rationalistische noch eine empiristische Grundhaltung imstande ist, empirisches Wissen - und damit auch Wissenschaft - rational zu begründen: 5
Wir diskutieren das GRUE-Paradoxon in Abschnitt 4.7.1 weiter. Dem Thema „Natur im Labor“ widmen sich ausführlich Köchy und Schiemann (2006). 6
Siehe z. B. Fetzer (2001: Abschnitte 3, 18) für die aktuelle Auseinandersetzung einer weiteren „Koryphäe“ mit dem Problem.
4.1 Das allgemeine Induktionsproblem
199
Der Rationalist kann das Problem der empirischen Erkenntnis nicht lösen, weil er sich die Mathematik zum Vorbild nimmt und auf diese Weise den Verstand zum Gesetzgeber der Welt macht. Der Empirist kann aber das Problem auch nicht lösen; sein Versuch, die empirische Erkenntnis auf ihrem eigenen Grund und Boden zu verteidigen, sie nämlich als Schlußfolgerungen aus sinnlichen Wahrnehmungen hinzustellen, versagt, weil die empirische Erkenntnis eine nichtanalytische Methode voraussetzt, die Methode der Induktion, die man nicht als Produkt der Erfahrung auffassen kann [. . .] Das ist das Dilemma des Empiristen: entweder ist er ein radikaler Empirist und erkennt keine anderen Resultate als analytische Aussagen oder von der Erfahrung abgeleitete Aussagen an - dann kann er keine Induktionen machen und muß auf alle Zukunftsaussagen verzichten; oder er läßt den Induktionsschluß zu - dann hat er ein nichtanalytisches Prinzip anerkannt, das nicht aus der Erfahrung stammt, und den Empirismus aufgegeben. (Reichenbach 1968: 186ff)
Die philosophischen Bestrebungen des 20. Jahrhunderts gingen angesichts dessen dahin, entweder induktive Schlüsse vollkommen abzulehnen und lediglich die logische Deduktion als die einzig zulässige Schlussweise zu propagieren (Popper) oder aber, eine induktive Logik zu begründen (Carnap et al.)7 Für einige Lösungsansätze zeitgenössischer Philosophen siehe z. B. von L. Cohen (1989), Fitelson (2005) und Hawthorne (2005). Klassische Argumentationslinien, wie sie z. B. von J. S. Mill (1843) vertreten wurden, können zwar als nützliche Heuristiken gelten, besitzen jedoch keine Beweiskraft.8 Da das Problem in vielerlei Gestalt auftritt, konnte sich in philosophischen Arbeiten noch nicht einmal eine einheitliche Terminologie durchsetzen: Twentieth-century philosophers have used quite a variety of terms in their references to inductive reasoning as the topic of their analyses. They have spoken about a relationship of ‘confirmation’, ‘justification’, ‘validation’, or ‘support’, for example with or without assistance from the adjective ‘evidential’. (L. Cohen 1989: 204)
Da jedoch immer eine Generalisierung der Kern des Problems ist, ist es üblich und gerechtfertigt von dem Induktionsproblem zu reden. Es spricht für die Statistik, dies erkannt zu haben und zumeist den Begriff der Evidenz zu verwenden, wenn es um induktive Schlüsse geht. Goodman und Royall (1988: 1568) definieren prägnant: Evidence is a property of data that makes us alter our beliefs about how the world around us is working. Another way to say this is that evidence is the basis upon which we derive inferences.
Good (1988) führt die häufig gebrauchte Wendung weight of evidence sogar bis auf (Peirce 1878) und eine Bemerkung von Huxley aus demselben Jahr zurück. Die obigen Beispiele sollten verdeutlichen, dass induktive Schlüsse sehr leicht zu Fehlern führen können. (Es sind ja eben keine logischen, immer die Wahrheit erhaltenden Schlüsse!) Diese Gefahr ist damit auch jeder Datenanalyse immanent, insbesondere dann, wenn sie ihre Hauptaufgabe darin 7
Siehe den Abschnitt 4.4.1.
8
Dazu gleich mehr in Abschnitt 4.3.1.
200
4 Induktion
sieht, mithilfe spezifischer und immer endlich vieler Daten allgemeine Aussagen (Hypothesen, Modelle) zu stützen oder sogar herzuleiten. Überzeugende Antworten der Statistik auf das Induktionsproblem sollten wir u.a. daran erkennen können, dass sie obige Paradoxa nicht zulassen bzw. ihnen mit konstruktiven Vorschlägen begegnen. Allen induktiven Bemühungen schicken wir gleichwohl eine klare Warnung vorweg: “[. . .] while many physical phenomena are simple, because their data admit laws (or, as Einstein put it, God is good), to find the laws is inherently difficult! It has taken geniuses to discover even some of the simplest laws of physics.” (Rissanen 2007: 55)
4.2 Induktive Standard-Argumente in der Statistik Any statistical effort trying to search for the “true” underlying data-generating distribution by systematic (=mechanical) means is hopeless [. . .] human intuition and intelligence in this endeavor is indispensable. Rissanen (2007: 55)
Wir beginnen mit zahlreichen Beispielen häufig verwendeter induktiver Argumente.9 Unsere Motivation ist jene von Draper et al. (1993: 36): “We have tried to minimize confusion concerning their role by attempting to articulate (a) (b)
where such leaps of faith occur in inference and prediction and how analysts use data analysis to support them.
As a consequence, we think that explicit leaps of faith can only be avoided by slipping them in implicitly, via an assumption.” Diese Klarstellung ist notwendig, denn zuweilen wird die Ansicht vertreten, man könne mit rein deduktiven Modellen Humes Induktionsproblem umgehen: “The authors leave us still having to take ‘leaps of faith’. So what have they improved?” (Ehrenberg und Bound 1993: 30) “And it is disappointing that, with all the machinery, if we extend our knowledge about known units to unexamined units, we also need a leap of faith.” (Hartigan (1993: 34), Hervorhebung im Original) sind einige Kommentare zum obigen Beitrag.10 Es ist gar nicht so selten, dass mathematische Statistiker „induktive Diskussionen“ mit dem Hinweis auf die deduktive Verbindlichkeit statistischer Modelle zu unterbinden suchen. 9
Für eine Zusammenfassung siehe Abschnitt 4.5.1.
10
Zur Antwort der Autoren siehe S. 360.
4.2 Induktive Standard-Argumente in der Statistik
201
4.2.1 Stichprobe und Population: Repräsentativität Der wohl häufigste, geradezu omnipräsente induktive Schluss in der Statistik ist jener von einer (kleinen) Stichprobe auf eine (große) Population. Jeder Datensatz - und sei er noch so umfassend - wird zunächst einmal als ein kleiner, womöglich sehr facettenreicher Ausschnitt einer weit größeren Gesamtheit aufgefasst. Der Grund ist, dass die heute orthodoxe Statistik in der ersten Hälfte des 20. Jahrhunderts ihre Gestalt annahm. Da da das Erheben, Speichern und Auswerten von Daten ohne die Hilfe von Computern äußerst aufwändig war, lebte man nicht nur in einer rechnerisch mühseligen sondern vor allem auch datenarmen Zeit. Es standen, von einigen extrem aufwändigen Ausnahmen (z. B. Volkszählungen) einmal abgesehen, immer nur kleine, zuweilen sogar sehr kleine Stichproben zur Verfügung.11 Deshalb war entscheidend, ökonomisch vorzugehen und aus einem Minimum an Daten ein Maximum an Informationen „herauszuholen“. Auch E. S. Pearsons Haltung (siehe S. 90), nur gerade so viele Daten zu erheben, wie zum Nachweis eines gewissen Effektes wirklich notwendig sind, wird vor diesem Hintergrund verständlich. Bei einer Population der Größe N und einer Stichprobe der Größe n, wobei N > n, besteht der Induktionsschluss darin, aufgrund der Kenntnis (weniger) Einheiten in der Stichprobe über die gesamte Population eine Aussage zu treffen. Nur im Extremfall n = N , wenn also die ganze Population tatsächlich untersucht wird, ist dies zweifelsfrei möglich. Je größer jedoch die Differenz N − n zwischen Population und beobachteter Stichprobe ausfällt, umso größer wird die induktive Lücke. Hat man 99%, 95% oder 90% der Population untersucht, so wird man noch fundiert - also mit einem kleinen, abschätzbaren Fehler - auf die Gesamtpopulation schließen können. Was ist jedoch, wenn man, wie z. B. bei Befragungen üblich, nur 1000 von 100 Millionen Menschen - also ca. 0, 001% der Population, befragt hat? Bei einem Beispiel von Jaynes (2003: 277) gerät die Lücke vollends zum Abgrund: “In physics, suppose we have measured the energies of 1000 atoms, and found that 672 of them were in excited states, the rest in the ground state. Do we have any right to conclude that about 67% of the 1023 other atoms not measured are also in excited states?”
Gleichartigkeit Ohne weiteres mutet ein solcher Schluss äußerst gewagt an: “For the poorly informed robot (and, apparently, for Popper too), learning the opinions of any number of persons [or the states of any number of atoms] tells it nothing about the opinions [states] of anyone else.” Da er jedoch in der Phy11
Siehe Unwin et al. (2006) für eine Größeneinteilung. Typisch waren Erhebungen mit weniger als 100 Fällen und allenfalls ein paar Dutzend Merkmalen.
202
4 Induktion
sik kaum der Rede wert - alltäglich - ist, muss es einen wichtigen zusätzlichen Grund geben, der uns die Zweifel nimmt. Es ist die etablierte physikalischchemische Theorie, die uns versichert, dass sich alle Atome eines Elements chemisch nicht unterscheiden. Sie sind als völlig gleichwertig oder austauschbar zu betrachten, weshalb es völlig egal ist, welche der 1023 Atome man genauer untersucht.12 Bei einer Population menschlicher Individuen hingegen, welche man allenfalls vor dem Gesetz als gleich betrachtet,13 ist das Argument der Gleichartigkeit offenkundig nicht zutreffend. Besitzt ein Goldatom dieselben chemischen Eigenschaften wie ein zweites, und ist auch das sprichwörtliche Ei von einem anderen kaum zu unterscheiden, so ist dies schon bei Zwillingen und Drillingen nicht mehr der Fall, bei Geschwistern verlieren sich die Ähnlichkeiten, bis schließlich nicht verwandte Menschen in äußerst vielen Merkmalen voneinander abweichen. Wie kann man trotz dieser Variabilität der Individuen eine Aussage über die Population machen? Ist die untersuchte Teilmenge ein in den wesentlichen für die Fragestellung relevanten Aspekten ein verkleinertes Abbild14 der gesamten Population, so erscheint der Schluss gerechtfertigt. Ist die Stichprobe, egal wie sie zustande kam, in diesem Sinne repräsentativ für die gesamte Menge, so haben wir einen guten Grund, dem induktiven Schluss zu trauen: Zwar sind auch alle Hagelkörner eines Sturms voneinander verschieden, sammelt man jedoch eine Reihe von ihnen auf, so sollten diese eine Aussage über die nicht beobachteten Körner erlauben. Es genügen auch schon eine kleine Blutprobe oder einige wenige Zellen, um auf Erkrankungen des ganzen Körpers schließen zu können. Von großer Bedeutung ist deshalb die Frage, wie sich Repräsentativität erzielen lässt. Zwei Wege bieten sich an: 1. Die systematische Auswahl der zu untersuchenden Einheiten aufgrund relevanter und beobachtbarer Merkmale 2. Die zufällige Auswahl der zu untersuchenden Einheiten ohne Blick auf irgendwelche Merkmale Die erste Strategie wendet z. B. die Konsumgüterindustrie an. Ein neues Produkt in einem ganzen Land einzuführen ist teuer und hochriskant, verschwindet doch die große Mehrzahl der Produktinnovationen bereits nach kurzer Zeit wieder aus den Regalen. Deshalb werden neue Produkte in Testmärkten ausprobiert. Das heißt, man gibt einer Reihe von ausgewählten Haushalten, welche bezüglich konsumrelevanter Eigenschaften (also z. B. Einkommen, Alter, Geschlecht, Milieu, Ausbildung) eine repräsentative Auswahl der Gesamtbevölkerung darstellen, das Produkt zum testen. Entscheidend ist, dass die 12
Nur ganz selten muss man noch feiner hinschauen, und die verschiedenen Isotope der Atome unterscheiden, welche z. B. ein um Nuancen anderes Gewicht aufweisen. 13
Was der Autor dieser Zeilen, nebenbei bemerkt, für eine geniale Setzung hält: Anstatt Myriaden personenspezifischer Unterschiede gerecht werden zu wollen, wägt Justitia die von den Parteien vorgetragenen Argumente mit verbundenen Augen ab. 14
Um nicht Modell zu schreiben
4.2 Induktive Standard-Argumente in der Statistik
203
Haushalte, deren Konsum gemessen wird, sich in den kaufrelevanten Merkmalen nicht von der Gesamtbevölkerung unterscheiden. In vielen Ländern sind Konsumforscher sogar auf die Suche nach Ortschaften gegangen, die möglichst genau das Gesamtbild widerspiegeln. Hassloch in der Pfalz ist solch ein Ort. Da die dortigen Verhältnisse ein verkleinertes Bild Deutschlands sind, werden in den dortigen Supermärkten Produktinnovationen verkauft, die es sonst nirgends zu kaufen gibt. Das soll garantieren, dass man die vor Ort gewonnenen Kenntnisse auf das gesamte Land übertragen kann. Die erste Strategie funktioniert offensichtlich nur dann, wenn man die für eine Fragestellung relevanten Merkmale kennt. Man sollte zumindest die wichtigsten Einflussfaktoren und ihr Zusammenspiel verstehen, um beim Übergang von der kleinen Modellsituation zur großen „Welt“ nicht völlig daneben zu liegen. Häufig ist das nicht der Fall. Bei Meinungsumfragen zu irgendeinem Thema weiß man z. B. in aller Regel nicht, welche Faktoren eine Rolle spielen. Die Gefahr ist sehr groß, dass eine systematische Auswahl von befragten Personen auch systematisch verzerrte Prognosen ergibt. Deshalb macht man nicht nur in diesem Fall aus der Not eine Tugend und wählt die Teilnehmer an der Befragung zufällig aus. Dies hat zum einen den großen Vorteil, dass die Merkmale der Befragten nicht systematisch mit den untersuchten Fragen zusammenhängen, Fragen und Befragte sind in diesem Sinne unabhängig voneinander. Da man zum zweiten keine Gruppe der Population aufgrund ihrer Merkmale bevorzugt, ergibt sich, dass man zumindest bei einer größeren Zufallsstichprobe einigermaßen sicher sein kann, ein repräsentatives, wenn auch verkleinertes Abbild der Gesamtbevölkerung zu erhalten. Gerade in den weniger entwickelten Wissenschaften, wo die relevanten Faktoren in aller Regel kaum bekannt sind, ist die zweite Methode deshalb die Methode der Wahl. Schon Peirce, zitiert nach Stigler (1999: 194), schreibt (Hervorhebung im Original) The truth is that induction is reasoning from a sample taken at random to the whole lot sampled. A sample is a random one, provided it is drawn by such machinery, artificial or physiological, that in the long run any one individual of the whole lot would get taken as often as any other.
Wir erweitern diese Überlegungen in Abschnitt 4.3.3. Ein großer Vorteil der quantitativen Beschreibung des Problems ist, dass man die Genauigkeit einer Hochrechnung von der Stichprobe auf die Population in Abhängigkeit vom untersuchten Stichprobenumfang n angeben. Man weiß also im Vorfeld, wie viele Personen man befragen sollte, um z. B. das Ergebnis einer politischen Wahl bis auf 1% genau vorherzusagen. Nicht nur in diesem Fall reichen relativ wenige untersuchte, zufällig ausgewählte Einheiten aus, um sich ein reliables Bild der Gesamtsituation zu verschaffen. So genügt es, ein paar Tausend Menschen zu befragen, um die Stimmungslage in der Gesamtbevölkerung zuverlässig wiederzugeben.15 15
Dass es sich um einen induktiven Schluss handelt, bemerkt man spätesten am Wahlabend, wenn die Vorhersagen der Meinungsforscher stark vom tatsächlichen Ausgang abwei-
204
4 Induktion
Instanzenbasierte Induktion und Referenzklassen Was die Statistik Repräsentativität nennt, kennen andere Wissenschaften unter dem Begriff der instanzenbasierten Induktion.16 Man hat einige Beispiele - Instanzen - beobachtet und möchte mit diesen eine allgemeine Aussage begründen. Dieser Schluss wird nur dann überzeugend sein, wenn die beobachteten Fälle den Gesamtbereich überdecken. Es ist eben wenig überzeugend, aufgrund der Wetteraufzeichnungen an einem Ort - etwa des Wetters in London seit 1800 - auf den globalen Klimawandel zu schließen. Stützt man sich jedoch auf weit längere Zeitreihen von vielen verschiedenen Punkten der Erdoberfläche, sieht es schon ganz anders aus. Die Zufallsauswahl einer Stichprobe erscheint so als ein effizientes Verfahren, eine Population zu überdecken. Eine Generalisierung fällt leichter, wenn man es wie beim Beispiel der Goldatome mit einer homogenen Referenzklasse, also einer Population mit einer geringen natürlichen Variabilität, zu tun hat. Im Extremfall sind alle interessierenden Objekte völlig äquivalent, so dass es genügt, ein einziges Objekt als Repräsentanten der gesamten Klasse zu untersuchen. Die Chemie befindet sich in dieser beneidenswerten Situation. Es genügt, die Eigenschaften eines einzigen Goldatoms im Labor genau zu ergründen, um damit eine Aussage über das Verhalten jedes anderen Goldatomes im Universum zu begründen. Zudem hat sich herausgestellt, dass man die Ergebnisse der Laborchemie problemlos auf die Praxis übertragen kann, weil sich die Elemente im Labor genau so verhalten wie ihre zahllosen „Zwillinge“ außerhalb desselben. Auch falls es nur wenige zu unterscheidende Fälle gibt, ist es ein Leichtes, überzeugend vom Teil aufs Ganze zu schließen. Man greift einfach aus jeder der Klassen einen (typischen) Fall heraus, was genügt um über alle Mitglieder der Klasse eine Aussage treffen zu können. Gibt es jedoch sehr viele, sich voneinander unterscheidende Teilgruppen, insgesamt also eine heterogene Referenzklasse, so scheitert die gerade eben beschriebene Strategie. Will man z. B. auf der Basis weniger Befragter auf das Meinungsbild in der ganzen Bevölkerung schließen, so ist dies allein schon aufgrund derer großen Variabilität schwer möglich. Jegliches systematische Verfahren stößt aufgrund der schieren Anzahl potenziell relevanter Faktoren und der noch viel zahlreicheren Kombinationsmöglichkeiten schnell an seine Grenzen. So kommt man wieder auf das Verfahren der Zufallsauswahl,17 welches (bei geringem Vorwissen) als chen. Der Grund ist, dass die Formalisierung des Population-Stichproben-Modells nur etwas über die Unsicherheit aufgrund von n < N , also des Umfangs der Stichprobe, aussagt. Alle anderen, die Wahl beeinflussenden „Störfaktoren“ werden vom Modell der Zufallsauswahl nicht erfasst. Zum Beispiel kann die Bevölkerung kurz vor einer Wahl noch unentschlossen sein oder plötzlich ihre Meinung ändern. Dann hat man womöglich das Meinungsbild kurz vor der Wahl exakt erfasst, nicht aber das Ergebnis des tatsächlichen Urnengangs. Wie bei jedem Modell kann auch hier das Modell völlig inadäquat sein, womit aus einem „kontrollierten“ Induktionsschluss eine grobe Mutmaßung wird. 16
Siehe z. B. Osherson et al. (1990)
17
Bzw. einer Variante hiervon
4.2 Induktive Standard-Argumente in der Statistik
205
einziges die hinreichende Überdeckung auch einer heterogenen Referenzklasse garantiert. In der zuletzt erläuterten, eher philosophischen Betrachtungsweise, spielen Wahrscheinlichkeiten keine Rolle, während jene für die Argumentation der Statistik zentral sind. Das liegt vor allem daran, dass die Statistik an quantitativen Aussagen interessiert ist, welche sich nur mit einem expliziten Modell herleiten lassen. Die Wahrscheinlichkeitstheorie bietet sich nicht nur bei diesem Induktionsproblem als die Methode der Wahl an, zumal sie in der Lage ist, simultan mit der auf die Zufallsauswahl zurückgehende Unsicherheit und der Heterogenität bzw. Variabilität der Population umzugehen. Darüber hinaus leistet es nur das Verfahren der Zufallsauswahl, die gesamte Population mit großer Wahrscheinlichkeit (falls die Stichprobe nicht allzu zu klein ist) bei kleinem Aufwand und geringem Vorwissen zu überblicken. Schließlich ist eine Quantifizierung auch sehr wünschenswert, um die unterschiedliche „Weite“ der induktiven Sprünge zu vergleichen, was sich z. B. unmittelbar an der zu erwartenden Abweichung der Stichprobenwerte von den Populationsparmetern ablesen lässt. Von wenigen untersuchten Einzelobjekten auf eine viel größere Menge völlig gleichartiger Objekte zu schließen, erfordert wenig Vertrauen (Bsp.: Goldatome). Viel problematischer sind die zahlreichen Lücken, die sich in einer heterogenen Population auftun, wenn man sie nur stichprobenartig untersucht (Bsp.: Personen). Noch weit größer, nämlich prinzipiell nicht durch eine Vergrößerung von n zu überbrücken, ist die Lücke bei induktiven Schlüssen auf hypothetische, nicht beobachtbare, potenziell unendlich große Populationen. Ein wichtiges Beispiel hierfür sind empirische, insbesondere natürlich naturwissenschaftliche Gesetze. Jeffreys sagt aufgrund des Induktionsproblems vorsichtig, dass jene nur allgemein formuliert werden, What [a scientist] actually does is to state his laws in the most general and simple form possible, and modify them as later experience indicates (Jeffreys 1973: 14);
weil sie prinzipiell nur endlich oft, also gewissermaßen punktuell, überprüfbar sind: But the most that has ever been verified is that some general laws have had no exceptions hitherto (and it is very difficult to find such laws). It is not verified that any accepted general law will always hold in the future [. . .] (Jeffreys 1973: 58)
Gleichwohl sollte man einer begründeten Verallgemeinerung vertrauen, da eine zu vorsichtige Interpretation die Bedeutung der empirischen Erfahrung unterminieren würde: The rejection of the theory of inverse probability was for a time wrongly taken to imply that we cannot draw, from knowledge of a sample, inferences respecting the corresponding population. Such a view would entirely deny validity to all experimental science. (Fisher 1970: 10)
206
4 Induktion
4.2.2 Der Fehlerterm: Approximation μ sei der wahre Wert eines Parameters. Könnte man ihn einmalig fehlerfrei messen, so könnte man ohne Risiko schließen, dass der gemessene Wert gerade gleich dem bislang unbekannten Wert ist. Innerhalb des einfachsten möglichen Messmodells - dass es also nur einen Wert gibt, den es durch Beobachtung zu bestimmen gilt - könnte man μ deduktiv erschließen. Im stochastischen Grundmodell, x = μ + , ist es mit der deduktiven Sicherheit dahin, sobald sich die Ungenauigkeit > 0 nicht vermeiden lässt. Egal wie oft man misst man weiß nun nicht mehr zweifelsfrei, welcher Wert von μ tatsächlich richtig ist. Jedoch kommt man im klassischen Modell IID-Modell (siehe S. 129) dem unbekannten μ mit wachsendem n beliebig nahe. Aufgrund des Hauptsatzes der theoretischen Statistik (siehe S. 82) gilt dies auch für jedes valide statistische Modell der Gestalt data = f it + residual (siehe S. 148). Das heißt, auch wenn man bei endlich vielen Messungen niemals deduktive Sicherheit erreichen kann, kommt man im statistischen Modell dem wahren Wert μ bzw. der Strukturkomponente zumindest asymptotisch beliebig nahe: Je größer n, umso kleiner wird die induktive Unsicherheit, im Grenzwert verschwindet sie sogar ganz. Das deckt sich mit unserer Intuition: Jede Beobachtung liefert Information über den unbekannten Parameter bzw. die unbekannte Struktur. Bei unbeschränkt vielen Beobachtungen und einem nicht systematisch verfälschten Modell wird die anfängliche Unsicherheit auf einen beliebig kleinen Wert reduziert werden. Das heißt, die Struktur hebt sich immer deutlicher vom Zufallsrauschen des Fehlers ab - wie bei einem Nebel, der sich durch die Sonneneinstrahlung, also die sukzessive zunehmende Information, verflüchtigt. Letztlich basiert das ganze, immens umfangreiche Projekt der asymptotischen Statistik darauf, dass das Zufallsrauschen, welches bei jeder einzelnen statistischen Beobachtung vorhanden ist, sich Stück für Stück verflüchtigt, je mehr Informationen man sammelt. Mit Bezug auf Locke könnte man von einem statistischen “veil of perception” sprechen.18 Eine etwas andere Sicht ist, dass gemäß dem Hauptsatz der Statistik eine nach Pθ verteilte Zufallsvariable X genauso viel Information enthält wie unendlich viele, voneinander unabhängige Beobachtungen x1 , x2 , . . . eben jener Zufallsvariablen. Endlich viele Beobachtungen x1 , . . . , xn approximieren den unendlichen Fall und die Größe der induktiven Lücke ist umso geringer, je größer n ist. Das Standardargument der angewandten Statistik, n sei groß genug, um eine asymptotische Behandlung zu rechtfertigen, überbrückt zum einen die induktive Lücke und ist zum andern genau dann gerechtfertigt, wenn (zumindest in der Theorie) die Ergebnisse im endlichen, „exakten“ 18
Siehe aber die Stanford Encyclopedia of Philosophy (2007): “Yet Berkeley attributed the veil of perception interpretation of the representational theory of perception to Locke as have many later commentators [. . .]”
4.2 Induktive Standard-Argumente in der Statistik
207
Modell genügend nah an den Ergebnissen des approximativen, unendlichen Modells liegen.
4.2.3 Fehlende Werte: Interpolation Häufig liegen unvollständige Daten vor, man hat es also mit mehr oder minder vielen missing values zu tun; und man sieht sich vor die Aufgabe gestellt, die Lücken zu schließen, das heißt, die Daten sinnvoll um fehlende Werte zu ergänzen. Auch dies ist offenkundig eine induktive Aufgabe. Gibt es ein zugrundeliegendes Gesetz, welchem die Daten folgen und wäre einem jenes bekannt, so könnte man die Lücken durch logisches Schlussfolgern schließen. Wenn man weiß, dass die Datenreihe 1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, ?, 3, 4, 5, 1, 2, ?, ?, 5, 1, 2, 3, 4, 5, 1, ?, ?, ?, ?, ?, . . . periodisch ist, so fällt es sehr leicht, die fehlenden Werte zu ergänzen. In der Praxis kennt man die Gesetzmäßigkeit nicht, kann sie - falls sie existiert - jedoch mit den Methoden der Statistik (siehe insbesondere die Hauptsätze) beliebig genau approximieren. Der induktive Sprung schrumpft dann mit wachsendem n und lässt sich im Prinzip beliebig klein machen.19 Im Allgemeinen ist weder das eine noch das andere der Fall: Weder muss es eine verborgene, tieferliegende und noch dazu einfache Gesetzmäßigkeit geben, noch lässt sich jene ohne weiteres beliebig genau erkennen. Entsprechend groß kann der induktive Sprung und damit auch der Fehler werden. Letztlich bleibt einem nichts anderes übrig, als ein Modell an die Daten anzupassen und darauf zu achten, dass dessen Fehlerkomponente - unter Berücksichtigung der Gefahr der Überadaptation - möglichst gering ist. Hat man dies gemacht, so ergibt sich aus dem Modell wie aus einem bislang unvollständigen Puzzle, welche Teile zu ergänzen sind, also mit welchen Werten die Lücken aufgefüllt werden sollten. Lücken in den vorhandenen Daten können verschiedene Ursachen haben. Im Wesentlichen unterscheidet man (wieder) zwischen unsystematisch und systematisch fehlenden Daten. Am einfachsten zu behandeln sind zufällige Lücken, die unabhängig von den beobachteten Merkmalen auftreten, ähnlich einem Fernsehbild, bei dessen Übertragung völlig unsystematisch einige Pixel fehlen. Im Allgemeinen muss man auf die Suche nach Abhängigkeiten, Mustern und Strukturen gehen, welche eine bessere Annäherung erlauben. Zum Beispiel modellieren viele Verfahren den Ausfallmechanismus, der für das Fehlen der Daten verantwortlich ist. Bei der multiplen Imputation überprüft man sogar eine ganze Reihe solcher Mechanismen und studiert, wie sensi19
Dabei ist es ziemlich gleichgültig, ob man intrapoliert, also Lücken zwischen den vorhanden Daten auffüllt oder extrapoliert, also fehlende Werte am Rande des existierenden Datensatzes ergänzt, siehe dazu den nächsten Abschnitt.
208
4 Induktion
tiv das Ergebnis einer Analyse auf das jeweilige Datenergänzungsverfahren reagiert.20 Offensichtich ist der induktive Sprung hier umso größer, 1. je mehr Lücken zu ergänzen sind und 2. je weniger man über den Ausfallmechanismus weiß Auch bei zensierten Daten fehlen eine Reihe von Beobachtungen. Der wichtigste Fall ist, dass man nur bis zu einem Zeitpunkt t beobachtet, weil kurz danach die Daten auszuwerten sind. Bei allen Ereignissen, die vor t stattgefunden haben, weiß man, was passiert ist. Man weiß jedoch naturgemäß nicht, was nach t noch passiert wäre. Das klassische Beispiel ist der Erfolg einer medizinischen Behandlung, etwa eines chirurgischen Eingriffs: Die Patienten in einer Studie wurden alle vor dem Zeitpunkt t operiert, und bis t werden die Folgen der Operation erfasst, insbesondere, ob der Patient zum Zeitpunkt t noch lebte. Nun möchte man wissen, ob die Behandlung erfolgreich war. Arbeitet man nur mit den Daten aller bislang verstorbenen Patienten, so enthalten diese zwar keine Lücken - was man hier „nicht zensiert“ nennt jedoch stellen sie offensichtlich nur eine systematische Auswahl aller Patienten dar. Will man den Erfolg der Operation realistisch abschätzen, bleibt einem deshalb nichts anderes übrig, als mit der bis zum Zeitpunkt t aufgelaufenen Information (aller Patienten) zu schätzen, was nach t passiert wäre. Insbesondere ist man natürlich an der weiteren Lebenszeit aller Patienten interessiert, welche t erlebt haben. So gelangt man auch hier zur Modellierung: Mithilfe der vorhandenen Daten wird ein Modell erstellt, welches man dann zur Schätzung nicht vorhandener Daten, die in diesem Fall in der Zukunft liegen, heranzieht.
4.2.4 Prognosen: Extrapolation Die Fortsetzung zensierter Daten ist ein Beispiel für eine Prognose. Da diese die Zukunft betreffen haben Philosophen, wie wir schon ganz am Anfang des Kapitels beschrieben, in der Nachfolge von Hume hier prinzipielle Zweifel angemeldet (siehe auch S. 190). Solche prinzipiellen Zweifel kann, ja muss man in der Theorie hegen. Genausowenig kommt man in der Praxis jedoch darum herum, Prognosen zu erstellen. Eine seriöse Prognose zeichnet sich dadurch aus, dass sie ihre Erfahrungsdaten plus darüber hinausgehende Annahmen benennt, Unsicherheiten nicht unterschlägt, sondern klar identifiziert und im Ergebnis zu einer quantitativen Schätzung mit Angabe der Unsicherheit kommt. Letztlich ist die Situation der Statistik hier nicht anders als die aller empirischen Wissenschaften, die 20
Für einen schnellen Überblick siehe Jamshidian (2004). Klassische Bücher zu diesem Thema sind Little und Rubin (2002) und Rubin (2004). Einen ständig aktualisierten Überblick bietet www.multiple-imputation.com.
4.2 Induktive Standard-Argumente in der Statistik
209
maßgeblich auf den Erfahrungen und dem daraus destillierten Wissen der Vergangenheit basieren. Die Größe der induktiven Lücke ist gleichwohl von Fall zu Fall ganz unterschiedlich. Sie hängt ab von 1. dem Umfang und der Güte der bisherigen Erfahrungsbasis, 2. der Anzahl und v.a. der Stärke der zusätzlich benötigten Annahmen (samt derer Plausibilität), 3. der Passung des bzw. der daraus erstellten Modelle zu den bislang bekannten Fakten, 4. dem Abstand der zu prognostizierenden Situation vom aktuellen Kenntnisstand. Im einen Extremfall stützt man sich nur auf wenige, unzuverlässige Daten und benötigt zudem starke zusätzliche Annahmen, die der Situation nicht angemessen sind, um überhaupt auf ein Modell zu kommen, welches dann recht unzuverlässige Prognosen liefert, von denen man noch nicht einmal weiß, wie groß die Fehlermarge ist. Typisch hierfür ist eine völlig neuartige Situation. Man denke an die frühneuzeitliche Medizin, welche sich um 1500 den Krankheiten der Tropen und der Neuen Welt gegenübersah. Sie war fast hilflos, weil weder ihre Erfahrungsbasis solide war (Verbot von Sektionen), kaum Wissen über Krankheitsmechanismen (Erreger, Übertragungswege) existierte, ihre theoriegestützten Modelle (rudimentäre chemisch-pharmazeutische Kenntnisse) extrem ungenau waren und schließlich auch noch ganz neue Arten von Krankheiten zu behandeln waren.21 Im anderen Extremfall stützt man sich auf viele, sehr zuverlässige Daten, welche mit wenigen logisch strengen Prinzipien zu umfassenden, einleuchtenden Modellen kombiniert wurden, deren Passung so hervorragend ist, dass man sie Naturgesetze nennt. Stößt man derart gewappnet auf ein neues Problem, so weiß man, was zu tun ist, und ist in den allermeisten Fällen auch erfolgreich. Insbesondere Physiker gehen aufgrund ihrer zahlreichen Erfolge oft mit dem gesunden Selbstbewusstsein an ein Problem heran, zu wissen, „wie der Hase läuft“. Ein aktuelles Beispiel ist die gezielte Entwicklung neuer Werkstoffe basierend auf naturwissenschaftlich fundierten Theorien. Die prinzipielle Sorge, dass morgen alles ganz anders als gestern sein könnte, treibt Statistiker und empirisch arbeitende Wissenschaftler recht wenig um. Es kommt zwar vor, dass sich etablierte Regelmäßigkeiten plötzlich ohne ersichtlichen Grund ändern (siehe S. 197), doch ist das eher die Ausnahme. Viel schwerer wiegen zumeist die oben genannten Lücken, die zu großen Fehlern führen können. Solche Befürchtungen sind nicht unterschwellig-prinzipiell, sondern ganz konkret und zuweilen sogar völlig offensichtlich. Sie öffnen 21
Diaconis (1998: 799) bringt ein aktuelles medizinisches Beispiel: “ From mouse to man. Low-dose extrapolation from mouse to man is a very prevalent business. On its face this is unbelievably delicate; one takes specially bred laboratory mice (if you breathe on them, they fall over). These mice are subjected to extreme conditions, and then one attempts to extrapolate to man. This last involves a variety of curves and extrapolating far into the tails.”
210
4 Induktion
nicht nur Kritikern Flanken, sondern vor allem der Natur: Eine Prognose ist gewagt und die Wahrscheinlichkeit, dass sie eintrifft gering, wenn ihre Grundannahmen unangemessen, die Daten auf die sie sich stützt unzulänglich und noch dazu das verwendete Modell ungenau ist. Spätestens wenn das Modell kaum mehr als eine Karikatur der realen Verhältnisse ist - was gar nicht so selten der Fall ist22 - ist es ganz im Gegenteil eher verwunderlich, wenn seine Prognosen noch einigermaßen stimmen. Nicht zuletzt deswegen ist für die Wissenschaftstheorie gerade die prognostische Kraft einer Theorie ein wichtiges Qualitätskriterium.
Formale Prognose Die obige Argumentation verwendet ganz entscheidend Kontextwissen, das erheblich über die aktuellen Daten oder einen speziellen Formalismus hinausgeht. Diese Option steht theoretischen Informatikern nicht offen. Da sie sich mit der Erfassung und Verarbeitung jeglicher Information beschäftigen, können sie sich nicht auf einen konkreten inhaltlichen Kontext stützen, der in den meisten Fällen aufgrund seiner reichhaltigen Randbedingungen weiterhilft. Wollen sie möglichst automatisiert und doch fundiert bekannte, vorliegende Informationen sinnvoll ergänzen, so müssen sie hiervon abstrahieren und sich dem allgemeinen Induktionsproblem stellen. Die Frage reduziert sich letztlich darauf, wie man aus einer vorliegenden Kette von Zeichen das bzw. die nachfolgenden Zeichen prognostizieren soll. Seit den 1960er Jahren wurden hierzu viele Modelle entwickelt,und unter der eher unverdächtigen technischen Überschrift machine learning findet sich eine außerordentlich reichhaltige wie tiefgehende Literatur über inductive inference. Wie nicht anders zu erwarten, nutzt man dabei zum einen die (vermeintlichen) Abhängigkeiten zwischen den Daten, zum anderen verwendet man - unabhängig von der Datenlage - möglichst einfache Induktionsgrundsätze.23 Die hier angeschnittenen Fragen tendieren schnell ins Prinzipielle. Etwa ist Berechenbarkeit, also die Konstruierbarkeit eines Objekts mithilfe eines mechanischen Verfahrens, eng mit dem Halteproblem und damit Gödels berühmten Ergebnissen verknüpft.24 Dessen Unvollständigkeitsresultate haben, wie der Name schon andeutet, ebenfalls einen induktiven Flair: Jedes interessante logische System ist unvollständig in dem Sinne, dass sich immer 22
Siehe hierzu Diaconis (1998) sowie die zahlreichen noch zu besprechenden Arbeiten D. A. Freedmans. 23 Wir beschäftigen uns hiermit ausführlich in Abschnitt 5.5. Ein Ausgangspunkt ist Solomonoff (1964a, 1964b), Überblicksarbeiten sind Angluin und Smith (1983) sowie Gasarch and Smith (1997). Auch die aktuelle Literatur, insbesondere Wallace (2005) und Rissanen (2007), ist sich des zugrundeliegenden Induktionsproblems voll und ganz bewusst. Selbst in der enger gefassten Theorie der Berechenbarkeit spielen “inductive Turing machines” zur Zeit eine große Rolle. Siehe z. B. das provokative Buch von Burgin (2005). 24
Siehe Cover und Thomas (2006: Abschnitt 14.7)
4.2 Induktive Standard-Argumente in der Statistik
211
wahre Aussagen angeben lassen, welche sich mit den Mitteln des Systems nicht beweisen lassen, die also jenseits des Systems liegen, über das vorhandene (aber in sich abgeschlossene) System hinausgehen.
4.2.5 Axiomatik der Wahrscheinlichkeitstheorie Man wird vielleicht verblüfft sein, dass induktive Schlüsse selbst bei der Fundierung der Wahrscheinlichkeitstheorie, also der Kolmogorovschen Axiomatik des Wahrscheinlichkeitsbegriffs ein Rolle spielen. Das tun sie natürlich nicht, wenn man von einem festen Axiomensystem ausgeht. Gerade im Fall der Fundierung der Wahrscheinlichkeitstheorie gibt es neben zwei unstrittigen Axiomen25 noch das Axiom der Additivität von Wahrscheinlichkeiten. In seiner „endlichen Formulierung“ ist es nicht umstritten: Sind A1 , . . . , An wechselseitig disjunkte Teilmengen von Ω, gilt also für beliebige i = j immer Ai ∩ Aj = ∅, so addieren sich die Wahrscheinlichkeiten. Das heißt, man hat P (∪ni=1 Ai ) = P (A1 ∪ . . . ∪ An ) = P (A1 ) + . . . + P (An ) =
n
P (Ai ).
i=1
∞ Hingegen gab seine „unendliche Fassung“, also P (∪∞ i=1 Ai ) = i=1 P (Ai ) bei wechselseitig disjunkten Teilmengen A1 , A2 , . . . von Ω, Anlass zu einigen Diskussionen.26 Das Axiom ist in seiner letzten Form umstritten, weil eine Familie von endlich vielen Zufallsvariablen X1 , . . . , Xn mit ihrer zugehörige gemeinsamen Verteilung P (X1 , . . . , Xn ) nicht determiniert, wie groß eine Grenzwahrscheinlichkeit, also etwa P ( lim
n→∞
n
Xi /n = EX1 )
i=1
ist. Der endliche Fall enthält ganz einfach nicht genügend Informationen, um den Grenzwert festzulegen. Technisch gesagt: Das Gesetz der großen Zahlen (S. 82) ist unter reinen Endlichkeitsannahmen nicht zu beweisen, also deduktiv nicht zu begründen. 25
Nämlich (i) Sei Ω eine fest vorgegebene Menge. Dann ist P (Ω) = 1. Das heißt, bei allen Wahrscheinlichkeitsbetrachtungen beschränkt man sich auf die Menge Ω, die Wahrscheinlichkeit ein Element aus Ω zu beobachten, ist gleich Eins, und (ii) Sei A ⊆ Ω, so ist P (A) ≥ 0. Das heißt, jedes Ereignis A hat eine positive Wahrscheinlichkeit. (Wobei es gute Gründe gibt, nicht allen Teilmengen von Ω eine Wahrscheinlichkeit zuzuordnen, falls man mit überabzählbar unendlich vielen Teilmengen, also insbesondere stetigen Verteilungen, operieren möchte.) 26
Diese Eigenschaft wird in der einschlägigen Literatur zumeist σ-Additivität genannt.
212
4 Induktion
Arbeitet man ausschließlich im Endlichen, was einem empirisch orientieren Wissenschaftler gut ansteht, so ist eine induktive Verallgemeinerung erforderlich, um das „ideale Element“ für n = ∞ zu ergänzen. Damit geht man nochmals deutlich über die Extrapolation und erst recht die Interpolation hinaus. Anstatt diese Tatsache jedoch explizit herauszustellen, „schmuggelt“ man mit dem Gesetz der σ-Additivität genau die benötigte Voraussetzung in die Axiomatik der Wahrscheinlichkeitstheorie, welche man benötigt, um glatte Grenzwertaussagen zu erhalten. Dies ist eine wichtige Entdeckung von de Finetti, die Cifarelli und Regazzini (1996: 259) wie folgt kommentieren: [These] facts reveal that the validity of strong laws cannot be ascribed to reasons of physical and objective nature, but to the arbitrary choice of coherent extension to ‘infinitary events’ of a probability law assessed on ‘finitary events’ only.27 (Hervorhebung im Original.)
Die Erweiterung der Argumentation vom Endlichen aufs Unendliche ist nicht, wie die ersten beiden Axiome, empirisch fundiert, sondern erfolgt nur aus Gründen der mathematischen Einfachheit. Es handelt sich um eine bequeme Konvention aus formalen Gründen, nicht um eine adäquate axiomatische Fassung empirischer Sachverhalte. Damit trifft er die frequentistische Fundierung der Wahrscheinlichkeit ins Mark, diente doch das Gesetz der großen Zahlen nicht zuletzt dazu, die empirische, „objektive“ Fundierung des Wahrscheinlichkeitsbegriffs sicherzustellen. Zugespitzt formuliert: Observation of any finite number of experiments would tell us nothing about limits of relative frequencies (Fine 1973: 94).
Und Jeffreys (1973: 195), selbst ein führender Vertreter der Bayesianischen Schule, stößt in dasselbe Horn: Again, what reason is there to suppose that the limit exists? [. . .] The existence of the limit is in fact an a priori assertion about the result of an experiment that nobody has tried, or ever will try. (Hervorhebung im Original.)
De Finetti zog aus alledem die radikale Konsequenz, einen durchgängig subjektiven Wahrscheinlichkeitsbegriff zu vertreten. Das mag dem unvoreingenommenen (naiven?) Beobachter extrem erscheinen; er wendet das Argument jedoch ins Gegenteil: “[This is not a] harmless heresy, but [. . .] a heresy with which the official statistical church is being compelled, unsuccessfully, to come to terms” (siehe Cifarelli und Regazzini (1996: 257)).28
4.2.6 Induktion bei deterministischen Modellen Die von de Finetti beobachtete Lücke beim Übergang vom Endlichen ins Unendliche tritt nicht nur in der Wahrscheinlichkeitstheorie (siehe auch S. 27 28
Siehe auch Howson (2009) und die dort angegebene Literatur.
De Finetti ist neben Savage der maßgebliche Begründer des subjektiven Bayesianismus. Diesen besprechen wir in Abschnitt 4.4.2.
4.2 Induktive Standard-Argumente in der Statistik
213
205) auf. Vergleichbare „induktive Sprünge“ findet man schon in einfachen deduktiven Modellen. Wenn in einem psychologischen Test die Aufgabe darin besteht, die Zahlenreihe 1, 2, 4, 8, 16, 32, . . . fortzusetzen, so wird der Testkonstrukteur die Zahl 64 also die richtige Lösung ansehen. Warum? Kann man im Prinzip eine aus sechs Zahlen bestehende Reihe nicht beliebig fortsetzen? „Ja!“ antwortet die philosophische Kritik und betont die Unterbestimmtheit der Daten. Das heißt, es passen immer mehrere Erklärungen (Theorien, Hypothesen, Funktionen) zu einer Reihe gegebener Daten - egal wie umfangreich letztere sein sollten. Der Grund für die Musterlösung ist wieder ein implizit zugrundeliegendes29 Modell. Jenes besagt, dass die genannten Daten die Werte einer einfachen mathematischen Funktion sind. Die gestellte Aufgabe ist also tatsächlich, aufgrund der gegebenen Funktionswerte (induktiv) die unbekannte Funktion, das allgemeine Bildungsgesetz, zu finden und damit dann (deduktiv) den nächsten Funktionswert zu bestimmen.30 Auch im Falle realer Daten besteht der konstruktive optimistische Ansatz der Naturwissenschaften darin, anzunehmen, dass es ein deterministisches Modell mit einer einfachen Struktur gibt, das zu den Daten passt. Es ist dann eine Frage der Technik, möglichst zuverlässige Verfahren zu ermitteln, die häufig von den Daten zum Modell „finden“.31 Es hieße eine Geschichte der klassischen Physik samt der mit ihr zusammen entwickelten Mathematik schreiben, wollte man alle dort verwendeten deterministischen Modelle beschreiben. Die verwendeten mathematischen Strukturen sind extrem reichhaltig und umfassen letztlich die ganze nicht probabilistische Mathematik; denn jede Struktur kann als geeignetes Modell eines empirischen Phänomens in Frage kommen. Nach Bourbaki (1950) gibt es im wesentlichen drei Arten mathematischer Strukturen: 1. algebraische, bei denen Rechenoperationen eine entscheidende Rolle spielen 2. angeordnete, bei denen die Anordnung der Elemente also wesentlich ist 29 30
Bzw. zugrunde gelegtes
Im Beispiel handelt es sich um die Funktion 2i mit i = 0, 1, 2, . . . Dass dies nicht so unproblematisch ist, wie es lange Zeit schien, wurde mit der Chaostheorie offensichtlich. In dieser rein deterministischen Theorie steht man vor dem Problem, echte periodische Entwicklungen von quasi-periodischen und chaotischen Gesetzmäßigkeiten zu unterscheiden. Dabei stellte sich heraus, dass es chaotische Zeitreihen gibt, die beliebig lange periodische Anfänge besitzen. Beobachtet man also 100.000 Mal den Übergang von schwarz nach weiß und umgekehrt, so wäre ein klassischer Physiker sofort bereit gewesen, hier einen periodischen Vorgang zu sehen. Das heißt, er hätte den Wechsel der Farben ad infinitum fortgeschrieben. Ein zeitgenössischer, mit der Chaostheorie vertrauter Physiker wäre weit vorsichtiger, könnte es sich doch nur um den Beginn einer chaotischen Zeitreihe handeln, welche ab dem 109 . Wechsel plötzlich scheinbar völlig regellos zwischen den beiden Zuständen hin und her schwankt. 31
214
4 Induktion
3. topologische, bei denen der Geometrie verwandte Operationen den wichtigsten Part übernehmen Diese Strukturen werden einzeln (z. B. Algebra, Topologie, Geometrie) oder in Kombination miteinander in verzweigten Theorien eingehend studiert. Man könnte aber auch sagen, dass sich die hauptsächlichen mathematischen Theorien um wichtige Begriffe herum aufbauen. Dies sind z. B. Funktionen zusammen mit dem Stetigkeits-, Integral- und Differentialbegriff in der klassischen Analysis; Zahlen und die mit ihm verbundenen Eigenschaften in der Zahlentheorie; die Vorstellung von Punkten und deren Beziehungen (Linien, Figuren, Körper usw.) in einem Raum in der Geometrie. Die Reihe ließe sich nahezu beliebig fortsetzen, und es ist sicherlich kein Zufall, dass der Strukturalismus die zur Zeit wichtigste Philosophie der Mathematik ist.32 Immer wenn man nun einer Reihe von Daten, insbesondere empirischen Messwerten, eine Struktur unterlegt, errichtet man ein mathematisches Modell eines Naturvorgangs. Das hierbei am häufigsten angetroffene Modell ist seit der frühen Neuzeit eine deterministische Differentialgleichung, also eine Gleichung, in der Funktionen zusammen mit ihren Ableitungen, die tragende Rolle übernehmen. Im einfachsten Fall passte ein Ingenieur mit Bleistift auf Papier eine Funktion an eine Reihe von Messwerten an. In komplizierteren Fällen wählte der Anwender eine Funktionenklasse, z. B. Polynome, Winkelfunktionen usw., und suchte darin diejenige Funktion mit der besten Annäherung an die gemessenen Werte. Im fundiertesten Fall legt eine Theorie die zu wählende Funktionenklasse nahe oder bestimmt die passende Funktion sogar eindeutig. Wie die Details auch immer sein mögen, allen Fällen ist gemeinsam, dass man von endlich vielen empirischen Werten - also Daten - zu den überabzählbar vielen Werten einer Funktion übergeht bzw. allgemeiner, zu wenigen quantitativen Messwerten eine passende, erheblich reichhaltigere mathematische Struktur angibt. Der Schritt mag klein und völlig natürlich erscheinen, wenn man z. B. eine gezeichnete Linie durch eine Gerade bzw. die sie beschreibende Gleichung ersetzt. Er kann aber auch immens groß sein, wenn etwa ein Hubble (1929) aufgrund weniger Messwerte das allgemeine Gesetz der Expansion des Universums postuliert.33 32
Dem Autor ist bewusst, dass viele Philosophen dies anders sehen. Unter Mathematikern ist jedoch der Strukturalismus dominant. Einige der wichtigsten Gründe hierfür sind: Er wird dem aktuellen Mathematikverständnis gerecht, er trägt der gerade skizzierten historischen Entwicklung Rechnung, und er kann als konsequente Fortsetzung des von Hilbert vertretenen Formalismus gesehen werden. Eine aktuelle Darstellung des Strukturalismus gibt Shapiro (1997), ein Überblick über die sonstigen vertretenen Positionen sowie den Stand der Diskussion findet sich in Zimmermann (1995) und Shapiro (2005). 33 Tatsächlich musste der von Hubble angegebene Wert (530) bis heute auf ca. 72 - also um den Faktor 7 - nach unten korrigiert werden.
4.2 Induktive Standard-Argumente in der Statistik
215
4.2.7 Regression als Generalisierung Mathematisch gesehen ist das Vorgehen der Regression naheliegend und geradezu harmlos. Ausgehend von einer Reihe von beobachteten Punktepaaren (x1 , y1 ), . . . , (xn , yn ) passt man eine Funktion gˆ(x) so an die Daten an, dass der Abstand zwischen beiden minimal wird.34 „Induktionslogisch“ gesehen geht man jedoch von einer Handvoll Daten zu überabzählbar vielen Punkten über, eine Verallgemeinerung sondergleichen! Mehr noch, damit steht die Regression bei weitem nicht allein da. Alle Verfahren, die endlich viele Datenpunkte in einen großen Zusammenhang stellen, der also aus mindestens überabzählbar vielen Punkten besteht, überspringen eine ähnlich große Kluft. Ein solche Generalisierung ist theoretisch gesehen so weit, dass man kein Skeptiker von der Statur eines Hume sein muss, um daran größte Zweifel zu hegen. Wie lassen sich trotz alledem diese routinemäßig angewandten Verfahren rechtfertigen? Zieht man die Kriterien von Abschnitt 4.2.4 heran, so erkennt man, dass bei einer Regression lediglich der erste Punkt, also (i), der Umfang und die Güte der bisherigen Erfahrungsbasis, wirklich problematisch ist. Die zusätzlich benötigte Annahme (ii) beschränkt sich auf die Klasse der untersuchten Funktionen (z. B. Geraden, Parabeln usw.), welche man zudem variieren kann. Als Abweichungsmaß (iii) bietet sich die Summe der Quadrate an35 und schließlich wird schon jedem Studenten eingebläut, sich bei (iv) mit dem zu prognostizierenden Wert gˆ(z) nicht allzu weit vom Intervall [xmin , xmax ] in welchem man die beobachteten Werte angetroffen hat, zu entfernen. Oftmals ist sogar z ∈ [xmin , xmax ]. Dergestalt erscheint der induktive Schluss eher wie eine ökonomische Darstellung der Daten, und die Regressionsfunktion nur als eine prägnante, mathematisch einfach zu handhabende Form - nicht als ein äußerst allgemeines Gesetz, das nur von ein paar Beobachtungen gestützt wird. Wie bei Modellen im Allgemeinen36 werden auch hier zwei Interpretationen vertreten, und verwendet man die Regressionsanalyse rein deskriptiv, so ist sie nichts weiter als ein Glättungsverfahren,37 das die Daten zugleich übersichtlich als auch (bei kleiner Abweichung der Regressionsfunktion) angemessen repräsentiert.38 34
Für Details siehe S. 133
35
Andere Abweichungsmaße führen auf ähnliche Ergebnisse Siehe Abschnitt 3.11.2
36 37
Engl.: smoothing procedure Es gibt sogar eine Argumentationsrichtung, die darauf abhebt, dass letztlich alles im Universum endlich ist. Ein exaktes Modell muss also immer auf einzelne kleinste Elemente und deren ebenso diskrete Wechselwirkungen abheben. (Die Quantenmechanik lässt hier grüßen. Eine ausführliche Darstellung der diskreten Denkschule ist das Buch von Gerhardt und Schuster (1995).) Jegliches stetige, kontinuierliche Modell ist so gesehen immer nur eine rechentechnische Vereinfachung, welches von unendlich kleinen Veränderungen, beliebig feinen Unterteilungen usw. ausgeht. Leibniz Feststellung, dass die Natur keine Sprünge mache, wird also ins genaue Gegenteil verkehrt: Die Natur macht ausschließlich Sprünge, 38
216
4 Induktion
Problematischer wird es, wenn man das Modell, in diesem Fall also die Regressionsfunktion, realistisch interpretiert. Das ist in der Zeitreihenanalyse oft der Fall. Zerlegt man dort Daten etwa in einen Trend, einen saisonale Komponente und ein Residuum, so wird den ersten beiden Komponenten auch eine inhaltliche Bedeutung unterlegt. Es ist bei Temperaturdaten die saisonale Schwankung, die den realen Wechsel der Jahreszeiten wiedergibt; und es ist der Trend, der das Ausmaß des Klimawandels beschreibt. (Wie schnell steigt die Temperatur an?) In solchen Fällen ist die Regressionsfunktion nicht nur ein mathematisches Hilfsmittel, sondern ein Modell für ein real existierendes Phänomen, und man hat es wie in den Naturwissenschaften mit einem allgemein formulierten Gesetz zu tun, das letztlich nur von ein paar Beobachtungen gestützt wird. Ein solcher Sprung kann zwar vom Standpunkt der hierzu notwendigen Generalisierung aus gesehen gewaltig sein. Er erscheint unproblematischer, wenn man sich vor Augen hält, dass er nicht sicher ist; das postulierte empirische Gesetz also nicht notwendigerweise (wie ein mathematisches Resultat) gelten muss. Auch das beste mathematische Modell ist - prinzipiell gesehen nichts anderes als ein sophistizierter “educated guess.” Man kommt nur dann in Schwierigkeiten, wenn man in die Gültigkeit des Gesetzes zu viel hinein liest, insbesondere ist ein “general laws have been found to hold in the past” (siehe S. 205) problematisch. Wir ergänzen, dass auch die deduktive Herleitung eines Gesetzes keine wirkliche Verbesserung bringen würde. Selbst wenn wir z. B. mithilfe der Axiomatik der mathematischen Physik ein neues Gesetz herleiten, so haben wir in der Anwendung nicht wirklich etwas gewonnen. Die Natur hat nämlich nach wie vor die Freiheit, sich anders zu verhalten, als sie es gemäß unserer Annahmen sollte. Wir können mit allen (sicherlich zulässigen) deduktiven und (eher problematischen) induktiven Mitteln versuchen zu ergründen, wie die beobachteten Fakten sein werden. Allein, selbst wenn wir uns sicher sein mögen, dass ein Ereignis so und nicht anders sein wird, bleibt uns nur die Beobachtung relevanter Fakten, um zu entscheiden, ob wir mit unserer Prognose richtig liegen oder nicht. Kurz gesagt: Wir können zwar mit allen uns zur Verfügung stehenden Mitteln versuchen zu ergründen, wie etwas beschaffen ist und was unter bestimmten Bedingungen geschehen wird, beweisen können wir unser empirisches Wissen aber nie - völlig unabhängig, auf welchem Weg wir unsere Hypothesen und Theorien gewonnen haben. nur sind diese oft so klein, dass man sie als beliebig klein, d.h. mit einer stetigen Funktion, modellieren kann.
4.3 Orthodoxe Induktion
217
4.3 Orthodoxe Induktion What is called induction appears to me to be either disguised deduction or a mere method of making plausible guesses. Russell (1903), zitiert nach Greenland (1998b: 545)39
Im letzten Abschnitt haben wir die Größe der induktiven Lücke primär unter mathematischen Gesichtspunkten betrachtet. Die Abstufung folgt dann der dort üblichen Einteilung in endlich viele fehlende bzw. zu ergänzende Werte, dem Übergang von endlich vielen zu abzählbar vielen Werten, und schließlich sogar der Sprung zu überabzählbar vielen Werten. Wie bei der Messtheorie kommt man so zu einer einfachen Einteilung, die jedoch nicht immer praxistauglich ist. Denn der entscheidende induktive Schritt ist immer der vom Modell zur Realität, als grob gesagt von der Theorie in die Praxis. Gerade weil wir aus prinzipiellen Gründen diese induktive Lücke nie ganz schließen können, also die notwendige Verallgemeinerung nie auf reine Deduktion (innerhalb eines formalen Rahmens) reduzieren können, ist es von zentraler Bedeutung, das Ausmaß dieser Lücke zu überblicken, sie durch geeignete Maßnahmen zu kontrollieren und - falls beeinflussbar - so klein wie möglich zu machen. Dementsprechend bedeutend sind allgemein anwendbare Strategien, die es erlauben, begründet induktiv zu schließen. Man könnte auch von allgemeinen Modellen oder Denkfiguren des induktiven Schließens sprechen, die einen Rahmen schaffen, innerhalb dessen der induktive Schritt abgesichert wird.
4.3.1 Mills induktive Figuren Mill (1843) legte eine berühmte Liste bzw. Klassifikation induktiver Schlussweisen vor, die er bezeichnenderweise Four Methods of Experimental Inquiry nennt.40 Fishers für die Statistik des 20. Jahrhunderts grundlegende Idee statistischer Experimente lässt sich nicht zuletzt als eine Präzisierung und Formalisierung der Millschen Induktionsstrategien verstehen. 1. Methode der Übereinstimmung (Method of Agreement): If two or more instances of the phenomenon under investigation have only one circumstance in common, the circumstance in which alone all the instances agree, is the cause (or effect) of the given phenomenon. (Mill 1843: 224) 39
Siehe auch Jeffreys (1980: 452): “They bring us back to Russell’s old dictum, that what is called induction is either disguised deduction or a mere method of making plausible guesses. So far as I know no philosopher of science has got further.” 40
Ein Vorläufer sind Bacons Tafeln der Präsenz, Absenz und Intensität. Die folgenden Beispiele sind dem Eintrag „Induktion_(Denken)“ der deutschsprachigen Wikipedia (in der am 10.12.2007 gültigen Version) entnommen.
218
4 Induktion
2. Methode des Unterschieds (Method of Difference): If an instance in which the phenomenon under investigation occurs, and an instance in which it does not occur, have every circumstance in common save one, that one occuring only in the former: the circumstance in which alone the two instances differ, is the effect, or cause, or a necessary part of the cause, of the phenomenon. (Mill 1843: 225) 3. Methode der Residuen (Method of Residues): Subduct from any phenomenon such part as is known by previous inductions to be the effect of certain antecedents, and the residue of the phenomenon is the effect of the remaining antecedents. (Mill 1843: 230) 4. Methode der gleichzeitigen Änderungen (Method of Concomitant Variations): Whatever phenomenon varies in any manner whenever another phenomenon varies in some particular manner, is either a cause or an effect of that phenomenon, or is connected with it through some fact of causation. (Mill 1843: 233)
Methode 1 Das erste Modell unterscheidet zwischen einer Reihe von circumstances, also potenziellen Einflussfaktoren und dem phenomenon, also einem bestimmten Effekt. Will man nun ermitteln, auf welcher Ursache der Effekt beruht, so kommen dafür nur all jene Umstände in Frage (bzw. eine Teilmenge davon), unter denen der Effekt immer zu beobachten ist. Erleidet ein Patient beispielsweise Panikattacken in Aufzügen, vollen Kinos, Flugzeugtoiletten usw., so lautet die induktive Schlussfolgerung, dass die Beengtheit der Räume die Panikattacken verursacht hat. Die der Überlegung zugrunde liegende logische Funktion ist die Implikation, die nur dann falsch ist, wenn eine (vermeintliche) Ursache den Effekt nicht bewirkt. Im Beispiel ist die Ursache einer Panikattacke deshalb nicht im Aufenthalt in geschlossenen Gebäuden zu sehen, da Flugzeuge keine Gebäude sind; es liegt auch nicht an der Bewegung, da Kinos stillstehen; es handelt sich auch nicht um Flugangst, da die Panikattacken auch andernorts auftreten, usw. Eine Variante dieser Argumentation beschreiben Pratt und Schlaifer (1988: 45): The estimates of the effect of smoking were shown to remain almost unchanged when one concomitant after another was introduced into the analysis, until finally it became much easier to believe that smoking in fact had the effects it seemed to have than to believe that it was merely proxying for some other, as yet undiscovered variable or variables.
Hier wird ganz deutlich, dass man zunächst ein ganzes Bündel möglicher Ursachen in Betracht zieht, von denen man sukzessive Faktor um Faktor prüft und als unwesentlich erkennt, bis schließlich nur noch ein „Verdächtiger“ übrigbleibt. Ist das Modell vollständig, deckt es also alle relevanten Faktoren ab
4.3 Orthodoxe Induktion
219
bzw. hat man alle denkbaren Faktoren durchgeprüft, so hat man am Ende - innerhalb des Modells sogar streng deduktiv - die Ursache gefunden. Ansonsten ist es ein konkretes Beispiel für eine der Philosophie wohlbekannte eliminative Induktion. Das Problem in der Praxis ist, dass das Modell viele Annahmen benötigt, also sehr spezifisch und eng ist, um zur gewünschten Schlussfolgerung zu gelangen. Diese sind unter anderem: 1. Die Ursache muss ins Modell aufgenommen worden bzw. aus den berücksichtigten “circumstances” erschließbar sein. (Beengtheit bzw. Rauchen) 2. Es gibt einen deterministischen oder zumindest deutlichen stochastischen Zusammenhang zwischen Ursache und Wirkung (Beengtheit führt immer zu Panik bzw. Rauchen sehr häufig zu Krebs) 3. Es darf keine weitere Ursache geben, die dies auch leistet (Etwa die Einnahme eines Medikamentes oder Luftverschmutzung) 4. Interaktionen von Merkmalsausprägungen und Merkmalen werden nicht berücksichtigt. (Es könnte zum Beispiel sein, dass die Enge des Raumes und eine bestimmte Uhrzeit zusammenkommen müssen, damit es zu einer Panikattacke kommt, oder dass nur Rauchen und weitere Risikofaktoren zur Erkrankung führen) Hinzu kommt noch der allgemeine, also nicht modellspezifische Einwand, dass die immer endlich vielen betrachteten Situationen einen Zusammenhang nur vorgetäuscht haben könnten. Es ist ja durchaus möglich, dass die nächste, bislang nicht betrachtete Situation auch die einzige übrig gebliebene Ursache diskreditiert. All diese sehr weitreichenden Voraussetzungen öffnen möglicher Kritik Tür und Tor. Es ist eben höchst unplausibel, dass sie alle in einer Versuchsreihe näherungsweise erfüllt waren. Die prinzipielle Schwäche des Modells ist, dass man zunächst einmal viele potenzielle Faktoren zulässt und dann einen nach dem anderen eliminiert. Dadurch gelangt man zwar schließlich zu einer (oder wenigen) Ursachen, jedoch nur, wenn sich die anderen Faktoren auf die im Modell vorgesehene Art und Weise eliminieren lassen. Dementsprechend schwach ist der Schluss von der beobachteten Wirkung auf die (singuläre) Ursache. Das erste Modell funktioniert deshalb nur überzeugend, wenn man viel über die Situation weiß, so dass man zum ersten ein situationsadäquates Modell formulieren kann und der Algorithmus der sukzessiven Elimination dann mit vertretbarem Aufwand, also in wenigen Schritten, zur Lösung führt. Das ist zum Beispiel bei einem Kapitalverbrechen der Fall: Aufgrund der Indizien lässt sich leicht ermitteln, dass ein Verbrechen vorliegt, also ein Täter existieren muss. Kann man nun den Kreis der Verdächtigen auf wenige Personen
220
4 Induktion
einengen und ermöglichen es die Spuren (z. B. DNA-Material) praktisch sicher Unschuldige auszuschließen, so kann man den Täter leicht überführen.41
Methode 3 Betrachtet man das dritte Modell, so erkennt man, dass dieses noch spezifischer ist. Ein Patient habe z. B. drei pathologische Auffälligkeiten im Blutbild und drei Symptome. Weiß man bereits, dass zwei der Symptome von zwei der Auffälligkeiten verursacht werden, so lautet die induktive Schlussfolgerung das dritte Symptom auf die dritte Auffälligkeit zurückzuführen. Das Modell funktioniert nur dann, wenn man sehr genau Ursachen Wirkungen zuordnen kann, was eine sehr weitreichende Forderung ist. In einem solchen Fall lässt sich der Effekt in Einzelteile zerlegen, welche man auf spezifische Gründe zurückführen kann. Das Residuum geht dann auf die übrigen „Kandidaten“ zurück, und insgesamt ergibt sich die beobachtete Wirkung als Addition42 einzelner Ursachen. Man benötigt also sehr viel Vorwissen, um dieses Modell überzeugend anwenden zu können. Letztlich müssen alle Ursachen43 genauso bekannt sein wie deren Auswirkungen, und das möglichst quantitativ. Zudem kann man nur dann den Gesamteffekt in eine Reihe (unabhängiger) Komponenten zerlegen, wenn es zwischen diesen keine Wechselwirkungen gibt. Bei der multiplen Regression geht man im Prinzip so vor: Zunächst misst man eine abhängige Variable und mit ihr eine Reihe potenzieller Einflussfaktoren. Dann versucht man all jene Faktoren zu isolieren, welche auf die abhängige Variable einen maßgeblichen Einfluss ausüben. Der Effekt der Kolinearität, also der wechselseitigen Abhängigkeit der Faktoren, ist dabei der am schwierigsten zu beherrschende. Typischerweise stößt man auf eine Reihe von Einflussfaktoren, deren kombinierter Einfluss den Effekt grob approximiert. Die induktive Lücke bleibt aufgrund der weitreichende Voraussetzungen, die sich nur in seltenen Fällen rechtfertigen lassen, so groß, dass man praktisch nie eine kausale Beziehung behaupten kann.
Methode 4 Das vierte Modell nutzt zum einen die zeitliche Nähe von Ursache und Wirkung und zum anderen deren graduellen Zusammenhang, ganz im Sinne der allgemeinen Maxime, dass quantitative Aussagen qualitativen vorzuziehen 41
Der Fall der Nichteindeutigkeit, also mehrerer Täter ist nicht problematisch, sondern sogar erwünscht, da man alle Verantwortlichen und nicht nur einen der Täter ermitteln möchte. Es kann jedoch sein, dass der Täter nicht als verdächtig eingestuft wurde. 42 In dem Sinn, dass sich der Gesamteffekt e in die von den Ursachen u hervorgerufenen i P Effekte e(ui ) zerlegen lässt, dass also gilt e = i e(ui ). 43
- zumindest alle für die Fragestellung relevanten -
4.3 Orthodoxe Induktion
221
sind. Erhält z. B. Patient A eine kleine Dosis eines Medikamentes und verspürt er eine leichte Besserung; Patient B eine mittlere Dosis samt mittlerer Besserung, und Patient C eine hohe Dosis, womit eine starke Besserung einhergeht, so wäre die induktive Schlussfolgerung, dass das fragliche Medikament die Besserung bewirkt hat. Die Überzeugungskraft dieses Arguments stützt sich darauf, dass es extrem unplausibel ist, dass ein weiterer, unbekannter Faktor, in genau der Art variiert, wie es erforderlich wäre, um die Wirkung zu erklären. Beim Medikamentenbeispiel könnte dies etwa ein weiterer Stoff sein, mit dem die Tabletten verunreinigt sind. Zugleich müsste die Konzentration jener Substanz jedoch in Einklang mit dem beobachteten Effekt fallen oder steigen. Kann man eine exakte Dosis-Wirkungsbeziehung angeben, fällt es sehr schwer, eine überzeugende Alternative zu finden, also eine Ursache, die genau denselben quantitativen Zusammenhang erzeugt. Deshalb ist Modell 4, etwa unter dem Motto “Make your theories elaborate” (Fisher)44 eine wichtige Strategie beim Erschließen von Zusammenhängen. Auch das „No-Miracles-Argument“ für die realistische Interpretation von Theorien hat diese Gestalt - Denn käme es nicht einem Wunder gleich, dass gute naturwissenschaftliche Theorien immer wieder außerordentlich präzise Vorhersagen liefern, wenn sie komplett an den tatsächlichen Verhältnissen vorbeigingen? Darüber hinaus stützen sich moderne kausale Netze, die wir in Abschnitt 5.4.1 genauer besprechen werden, auf Mills viertes Modell.
Methode 2 Das zweite Modell ist das wichtigste der obigen Denkmuster. Es kommt mit sehr wenigen Annahmen aus, und ist deshalb sehr häufig überzeugend einsetzbar. Bei ihm ist entscheidend, dass zwei Situationen in allen Aspekten bis auf genau einen übereinstimmen. Anders als bei Modell 1, wo man mühselig und zuweilen auch zweifelhaft aus vielen potenziellen Faktoren den entscheidenden zu isolieren versucht, hat man hier von Anfang an nur einen einzigen „Kandidaten“. Innerhalb des Modells hat man einen strengen deduktiven Schluss, wenn alle Faktoren bis auf einen - den entscheidenden, oft experimentell manipulierten - festgehalten werden, womit die beobachtete Wirkung nur auf den einzigen vorhandenen Unterschied zurückgehen kann. Es muss der eine, zusätzliche Aspekt sein, der (streng genommen nur zusammen mit allen anderen festgehaltenen Faktoren) den Ausschlag gibt. Das wichtigste Beispiel von Modell 2 ist die klinische Prüfung von Medikamenten. Man vergleicht typischerweise eine Experimentalgruppe, welche ein neues Medikament erhält, mit einer Kontrollgruppe, welche ein nicht wirksames Präparat (Placebo) bekommt. Zeigt sich dann am Ende der Untersuchung eine Diskrepanz zwischen den Gruppen, so ist der gewünschte Kausal44
Siehe z. B. Cochran (1965: Paragraph 5)
222
4 Induktion
schluss „Weil die Patienten der Experimentalgruppe das neue Medikament eingenommen haben, wurden sie schneller gesund als jene der Kontrollgruppe“ offenkundig dann gerechtfertigt, wenn Medikament bzw. Placebo der einzige wesentliche Unterschied zwischen den beiden Gruppen ist: Experiment Anfang Eingriff Ende Äquivalente Gruppen Ja / Nein (Substanzieller) Unterschied Die Modellvorstellung ist also, dass die beiden Gruppen a priori gleich und a posteriori ungleich sind. Ist dazwischen die experimentelle Manipulation die einzige Differenz, so muss (innerhalb des Modells sogar deduktiv) der Unterschied am Schluss auf die experimentelle Ungleichbehandlung zurückzuführen sein. Das heißt, die Argumentation vermag in der Anwendung nicht zu überzeugen, wenn 1. Störfaktoren neben der experimentellen Intervention eine größere Rolle spielten, 2. zu Beginn der Untersuchung bereits deutliche Unterschiede zwischen den beiden Gruppen existierten. In beiden Fällen kann man den a posteriori zu beobachtenden Unterschied überzeugend auf andere Ursachen als den gewünschten, experimentell kontrollierten Faktor, zurückführen. Gegen die erste Möglichkeit ist Sorgfalt das beste Argument. Ein gutes Experiment zeichnet sich nicht zuletzt dadurch aus, dass es aktiv Maßnahmen ergreift, potenzielle Störfaktoren auszuschließen bzw. zu kontrollieren. Kennt man also plausible störende Größen, so tut man gut daran, das Experiment so zu gestalten, dass diese bestenfalls keine Rolle spielen. Dies kann man naturgemäß besser im Labor als im Freiland und im Experiment besser als bei der „passiven“ Beobachtung irgendeines Sachverhalts. Der zweite Fall läuft darauf hinaus, die Ausgangssituationen möglichst gleich zu gestalten. In der Physik oder Chemie ist das kein Problem, denn dort lässt sich ein und dasselbe Experiment im Prinzip beliebig häufig wiederholen. Leider sind viele andere Wissenschaften nicht in dieser beneidenswerten Situation. Ihre Untersuchungseinheiten ändern sich nicht nur irreversibel mit dem Experiment,45 es ist noch nicht einmal möglich, gleichartige Objekte auf zwei Gruppen aufzuteilen. Während alle Isotope eines chemischen Elements exakt dieselben Eigenschaften besitzen, unterscheiden sich in der Biologie und anderen Gebieten die untersuchten statistischen Einheiten. Selbst eineiige Zwillinge sind nicht exakt gleich, so dass zu Beginn des Experiments immer eine gewisse baseline imbalance46 vorhanden ist. Solche Unterschiede 45
Menschen erinnern sich zum Beispiel an das, was sie schon gemacht haben und man kann sie deswegen nicht einmal der Experimental- und ein weiteres Mal der Kontrollgruppe zuordnen. 46
Siehe V. Berger (2005a)
4.3 Orthodoxe Induktion
223
zu Beginn des Experiments stellen nicht einfach nur eine „lästige Ungenauigkeit“ dar. Vielmehr kommen sie immer als Ursache für einen später zu beobachtenden Unterschied in Betracht, womit sie - also konkrete, sehr plausible Alternativerklärung - die Aussagekraft des Experiments unterminieren.
4.3.2 Vergleichbarkeit Für die Logik des sozialwissenschaftlichen Experiments ist also eine ganz entscheidende Fragestellung, wie man vergleichbare Gruppen konstruieren kann. Nachdem Boring (1953) explizit die allgemeinen Millschen Strategien (mit historischen Bezügen zu Hume und Bacon) erörtert hat, fragt er (S. 583) mit aller Schärfe: You have to have equivalent groups, [but] how do you know that your control group is the equivalent to your principal group in every relevant attribute except in respect of the independent random variable, for which a difference is intended and assured?
Man beachte, dass der letzte Satz eine wichtige Abschwächung beinhaltet. Man benötigt nicht die exakte Gleichheit beider Gruppen, sondern lediglich deren Vergleichbarkeit, also die Äquivalenz der beiden Gruppen bezüglich der für den Ausgang des Experiments relevanten Variablen. Epidemiologen verwenden hier gerne den Begriff nicht konfundiert, den Pearl (2009a: 196) wie folgt definiert: “[. . .] the effect of treatment is unconfounded if the treated and untreated groups resemble each other in all relevant features.” Ganz ähnlich schreibt Lindley (1982b: 439): “We describe a possible allocation that the experimenter judges to be free of covariate interference to be haphazard [i.e., ] unlikely to involve a relevant covariate.” Ganz allgemein sagt Mallows (1998: 5): “The key concept seems to be a judgement of similarity between various parts of the data we have, and between these data and data we might observe in the future.” (Hervorhebung im Original.) Auch viele Bemerkungen R. A. Fishers zur bedingten Inferenz und richtigen Wahl einer „Referenzmenge“ (siehe S. 403ff) lassen sich unter dem Stichwort der Vergleichbarkeit diskutieren.47 Einige Wissenschaftler, wie Draper et al. (1993: 9), halten ihn sogar für wichtiger, weil fundamentaler, als die Begriffe der Wahrscheinlichkeit oder des Modells: Statistical methods are concerned with combining information from different observational units, and with making inferences from the resulting summaries to prospective measurements on the same or other units. These operations will be useful only when the units to be combined are judged to be similar (comparable or homogeneous). (Hervorhebung im Original.) 47
Einschlägige und sehr aufschlussreiche Zitate finden sich z. B. in Kapitel 7 “Samples alike in all ‘relevant’ respects”, siehe (Johnstone 1987a: 495ff). Siehe auch Draper et al. (1993: 25ff)..
224
4 Induktion
Eine Präzisierung der Idee ist der später noch verwendete Begriff der Austauschbarkeit,48 der auf de Finetti (1974a) zurückgeht:49 “[. . .] instead of judging whether two groups are similar, the investigator is instructed to imagine a hypothetical exchange of the two groups (the treated group becomes untreated, and vice versa) and then judge whether the observed data under the swap would be distinguishable from the actual data.” Das moderne Lehrbuch Gelman et al. (2004) ist ganz um den Begriff der Austauschbarkeit herum aufgebaut. Auch Mallows (2006: 323) stellt fest: “The key idea seems to be exchangeability [. . .] It is the analyst’s responsibility to determine how to organize the data so that comparisons are made of like with like.” Dass es dabei auch auf den untersuchten Aspekt ankommt, macht Feynman (2007: 188f) am Beispiel von Kernteilchen deutlich. „Neutronen und Protonen haben bis auf etwa ein Zehntel Prozent dieselbe Masse [. . .] bei der starken Wechselwirkung ist ein Proton nicht von einem Neutron zu unterscheiden [. . .] Mit elektrischen Messungen können Sie den Unterschied zwischen einem [positiv] geladenen und einem [elektrisch neutralen] Neutron auf Anhieb feststellen [. . .] In einem solchen Fall sprechen wir von einer partiellen Symmetrie, und Erscheinungen dieser Art machen uns nicht wenig zu schaffen.“ Bei statistischen Experimenten lässt sich die präexperimentelle Vergleichbarkeit prinzipiell auf zwei völlig verschiedene Arten herstellen: 1. Durch systematische Auswahl der Individuen, so dass die Unterschiede zwischen den Gruppen (bezüglich der bekannten, beobachtbaren Merkmale) minimiert werden. 2. Durch zufällige Zuordnung der Individuen auf die beiden Gruppen. Da die Zuordnung zufällig erfolgt, ist sie unabhängig von allen (bekannten wie unbekannten, beobachteten wie nicht beobachteten) Merkmalen der Individuen, weshalb es keinen systematischen Selektionseffekt geben sollte; womit die Gruppen - positiv formuliert - vergleichbar sein sollten.50 Nachdem man Mills Methode des Unterschieds in den Naturwissenschaften übernommen hatte, versuchte man es zunächst mit der ersten Strategie. Boring (1953: 583) gibt einige Beispiele: “You may match them individual for individual in respect to what seem to be their most important determinable and presumably relevant characteristics [. . .] You can match litter-mates in body-weight if your subjects are animals, and you can advertise for twins when your subjects are human.” Doch schon viele Jahre vorher stellt er fest, wie schwierig die kontrollierte Herstellung repräsentativer Stichproben und damit auch vergleichbarer Gruppen ist: 48
Siehe Barnard (1993) für eine kleine Geschichte des Begriffs. Er schlägt vor, ihn durch ‘permutability’ zu ersetzen, “which conveys the idea of replacing one thing by another similar thing.” 49 Pearl (2009a: 196), Hervorhebung im Original. Siehe ibd. auch S. 178ff. 50
Die Vorgehensweise ist analog zur Zufallsstichprobe (Abschnitt 4.2.1). Jene ist bei größerem n repräsentativ für die Gesamtheit, weil sie die spezifischen Merkmale ignoriert. Vielmehr werden die Objekte unabhängig von ihren Eigenschaften selektiert, d.h., man nimmt gerade keine systematische, objektabhängige Auswahl vor.
4.3 Orthodoxe Induktion
225
There are many uncontrollable factors that enter into the getting of human stuff; human beings are usually resistent to an indiscriminate mixing-up and to that arbitrary selection combined with complete ignorance of the nature of the individuals involved which constitutes ‘chance selection’ [. . .] anyone who has attempted to obtain ‘unselected’ samples with human material knows what very careful selection is required to achieve this ‘unselected’ state” (Boring (1919: 337), meine Hervorhebung).
Moderne Ansätze, Vergleichbarkeit herzustellen, werden in Senn (2000: 140) (insbesondere „Minimierung“ nach Taves (1974) sowie Pocock und Simon (1975)) beschrieben. Das Problem all dieser Überlegungen ist nicht nur, dass viele Merkmale zu berücksichtigen sind. Viel schwerer noch wiegt, dass die relevanten Merkmale in aller Regel nicht vollständig bekannt sind. Nur wenn man auf der Basis umfangreichen gesicherten Wissens agiert, wird man alle relevanten Einflussfaktoren kennen und wie in den entwickelten Naturwissenschaften adäquat kontrollieren können. Ansonsten besteht immer das nicht unerhebliche Restrisiko, dass man zwar nach bestem Wissen und Gewissen bekannte Störfaktoren berücksichtigt und insbesondere durch sorgfältige Konstruktion der Gruppen versucht hat, zu kontrollieren, gleichwohl jedoch ein wichtiger noch unbekannter und nicht kontrollierter Faktor das Ergebnis maßgeblich beeinflusst und damit konfundiert. Man meint, die Gruppen seien vergleichbar gewesen, doch tatsächlich handelte es sich nur um eine Illusion. Wie der Begriff schon mehr als andeutet, ermöglicht erst Vergleichbarkeit sinnvolle Vergleiche: “A major undertaking of medical researchers, including epidemiologists and biostatisticians, is to create comparison groups that are actually comparable. Otherwise, confounding can wreak havoc on the validity of the study findings.” (V. Berger 2005b: 47) Deshalb ist es mehr als verblüffend, dass Senn (2000: 140) schreibt: “[. . .] balancing for covariates is concerned with efficiency [. . .] No advantage in validity is brought on top of that [. . .]” (Hervorhebungen im Original), da man unter „Effizienz“ die Nutzung der Information in den Daten, also einen geringen Informationsverlust, versteht. Es hat sich sogar gezeigt, dass neben allgegenwärtigen Selektionseffekten (z. B. ungleichmäßige Zuordnung von Probanden zu Gruppen, Unterschiede, was die Befolgung von Anweisungen betrifft (sogenannte “compliance”), ungleichmäßiges Ausscheiden aus Studien), insbesondere der Versuchsleiter selbst oft der größte Störfaktor ist. Er beeinflusst schon bei randomisierten Experimenten das Ergebnis51 , und erst recht ist dies natürlich bei nichtrandomisierten Versuchen der Fall, wenn er mit der Zuordnung der Versuchseinheiten zu Gruppen eine wesentliche Stellgröße in der Hand hat. Es gibt eine ganze Reihe verwandter Effekte,52 und es ist unbestritten, dass man gut daran tut, diese zu kontrollieren.53 51
Siehe z. B. V. Berger (2005a)
52
Den Pygmalion-Effekt, sich selbst erfüllende und konterkarierende Prophezeiungen, soziale Erwünschtheit usw. 53
Siehe z. B. Rosenthal (1966, 1981), Rosenthal und Jacobson (1992) und Diaconis (2006).
226
4 Induktion
4.3.3 Randomisierung Gerade in der Medizin weiß man selbst heute noch typischerweise nicht, wie eine Therapie wirkt oder auch nur, welche Faktoren einen maßgeblichen Einfluss auf das Ergebnis haben. Es ist ein Verdienst R. A. Fishers, aus dieser Not eine Tugend gemacht und dafür argumentiert zu haben, Patienten bzw. statistisch Einheiten zufällig den jeweiligen Gruppen zuzuordnen. Diese Randomisierung führt er ausführlich in Fisher (1966: 18ff) ein und begründet sie exakt mit dem Argument unvollständigen Wissens: These are only examples of the differences probably present; it would be impossible to present an exhaustive list of such possible differences appropriate to any kind of experiment, because the uncontrolled causes which may influence the result are always strictly innumerable.
Er rät ausdrücklich davon ab, Faktor für Faktor mit entsprechend großem experimentellem Aufwand zu kontrollieren. Vielmehr solle man einfach randomisieren, da [. . .] whatever degree of care and experimental skill is expended in equalising the conditions, other than the one under test, which are liable to affect the result, this equalisation must always be to a greater or less extent incomplete, and in many important practical cases will certainly be grossly defective [. . .] The full procedure of randomization [is the method] by which the validity of the test of significance may be guaranteed against corruption by the causes of disturbance which have not been eliminated. (Fisher 1966: 19)
An anderer Stelle schreibt er eindrucksvoll “Designing an experiment is like gambling with the devil: Only a random strategy can defeat all his betting systems.” 54 Es ist lediglich von historischem Interesse, dass auch schon vor Fisher vereinzelt mit Randomisierung gearbeitet wurde,55 weit wichtiger ist, dass sich Fishers Idee in den Sozialwissenschaften und der Medizin auf der ganzen Linie durchgesetzt hat. Fast wortwörtlich schreibt Krauth (2000: 35) in seinem Standardwerk: Im Gegensatz zu allen anderen Techniken gestattet es eine Randomisierung, alle potenziell unendlich vielen bekannten und unbekannten Störvariablen zu kontrollieren.
Rosenbaum (2002: 21) schließt sich dem an: “Had the trial not used random assignment, had it instead assigned patients one at a time to balance [some] covariates, then the balance might well have been better than in [our table, reporting these covariates], but there would be no basis for expecting other unmeasured variables to be similarly balanced.” Randomisierte Experimente gelten insbesondere aufgrund dieser Eigenschaft als der Goldstandard, und einige Statistiker sind darüber hinaus sogar der Ansicht, dass man nur mit ihnen kausale Schlüsse rechtfertigen kann. 54
Zitiert nach Box et al. (2005), Einband. Siehe hierzu auch Senn (1994).
55
Siehe hierzu vor allem Hacking (1988)
4.3 Orthodoxe Induktion
227
Klinische Studien, der Eckpfeiler der heute führenden evidenzbasierten Medizin, werden durchgeführt, um die Wirksamkeit eines Medikaments zu zeigen. Durch die Randomisierung wird nach der vorherrschenden Ansicht sichergestellt, dass es a priori keine relevanten Unterschiede gibt. Beobachtet man a posteriori dann einen deutlichen Unterschied zwischen den Gruppen mit und ohne Medikament, so muss dieser - innerhalb des Modells “Zustand a priori, Intervention, Zustand a posteriori” sogar deduktiv - auf den einzigen vorhandenen Unterschied zwischen den Gruppen, also das Medikament, zurückzuführen sein.56
Diskussion der Randomisierung Leistet das Verfahren der Randomisierung das, was es leisten soll? Da die präexperimentelle Vergleichbarkeit für die Gültigkeit des induktiven Schlusses entscheidend ist, lautet die zentrale Frage, ob Randomisierung zu vergleichbaren Gruppen führt. In der weitreichendsten Formulierung kontrolliert die Technik der Randomisierung potenziell unendlich viele Störvariablen. Das ist sehr verblüffend! Noch nicht einmal die Mathematik ist ja in der Lage, aus den relativen Häufigkeiten der endlichen, realen Welt Wahrscheinlichkeiten zu machen. Sie benötigt die formale Zusatzannahme der σ-Additivität, damit der Schluss vom Endlichen aufs Unendliche gelingt (Abschnitt 4.2.5). Wie also sollte ein reales Verfahren der Gruppeneinteilung - einige Münzwürfe - ohne zusätzliche Annahmen in der Lage sein, beliebig viele Faktoren zu balancieren? Dem steht das Induktionsproblem entgegen und bezeichnenderweise behauptet Fisher (1966: 4) genau vor Einführung der Randomisierung, induktive Schlüsse seien mit statistischen Methoden möglich: We may at once admit that any inference from the particular to the general must be attended with some degree of uncertainty, but this is not the same as to admit that such inference cannot be absolutely rigorous, for the nature and degree of the uncertainty may itself be capable of rigorous expression.57 56
Ein Problem dabei ist, dass die Intervention oftmals nicht nur aus dem Medikament besteht. Es kann z. B. sein, dass zusammen mit dem Medikament der eigentlich wirksame Faktor gegeben wird. Man meint dann etwa, der in einer Tablette enthaltene Wirkstoff sei die Ursache des Unterschieds, obwohl es in Wirklichkeit die Umhüllung der Tablette gewesen ist, die den Unterschied ausmachte. Diese Kritik hat jedoch mit der „Logik“ des induktiven Arguments nichts zu tun. Auch bei irgendeiner anderen Vorgehensweise kann ein unbemerkter Störfaktor das Ergebnis maßgeblich beeinflussen. 57 Er fährt fort: “In the theory of probability, as developed in its application to games of chance, we have the classic example proving this possibility. If the gamblers’ apparatus are really true or unbiased, the probability of the different possible events [. . .] can be inferred by a rigorous deductive argument [. . .] The mere fact that inductive inferences are uncertain cannot, therefore, be accepted as precluding perfectly rigorous and unequivocal inference.” Siehe auch schon S. 116.
228
4 Induktion
Fishers Argument besteht aus drei Schritten. Im ersten Teilsatz reduziert er den induktiven Schluss auf die mit ihm einhergehende Unsicherheit. Im dritten Teilsatz beherrscht er die Unsicherheit in einem mathematischen Rahmen, so dass er im zweiten Teilsatz verklausuliert folgert, ein induktiver Schluss ließe sich beweisen.58 Letztlich vermengt er den deduktiven (probabilistischen) Schluss innerhalb des Modells mit dem (induktiven) Schluss, der über das Modell hinausgeht. Natürlich kann man “uncertainty” in einem mathematischen Rahmen u.a. als Wahrscheinlichkeit formalisieren und dann beweisen, welche Eigenschaften z. B. die Randomisierung hat. Wie wir bei der Diskussion der Testtheorien gesehen haben, führt der (echte) induktive Schluss jedoch immer über das Modell hinaus, und die entscheidende Frage ist, ob in der Realität via Randomisation erzeugte Gruppen automatisch auch vergleichbare Gruppen sind. Es stimmt zwar, dass große Stichproben der Population immer ähnlicher werden, es ist deshalb auch richtig, dass zwei per Randomisierung konstruierte große Stichproben - entsprechend den beiden Gruppen - auch einander ähnlich, also vergleichbar sind, und genau deswegen ist der induktive Schluss (wie bei einer repräsentativen Stichprobe) gerechtfertigt. Die induktive Lücke wird sogar, ganz wie man es erwarten sollte, immer kleiner, je größer die Stichproben werden. Aus alledem folgt jedoch nicht, dass sich, wie behauptet und erforderlich alle Störfaktoren gleichmäßig auf die beiden Gruppen verteilen. Denn ganz offensichtlich muss jedes reale, also endliche Verfahren an unendlich vielen Störfaktoren scheitern. Je mehr Störfaktoren, desto eher wird auch ein Ungleichgewicht bezüglich eines unbekannten Störfaktors a priori auftreten. Sei der Störfaktor S bei einer Person Eins mit Wahrscheinlichkeit p und Null mit Wahrscheinlichkeit 1 − p. Werden nun je n Personen auf zwei Gruppen verteilt, so ist die Wahrscheinlichkeit bei einer großen Population ziemlich exakt pn · (1 − p)n , dass genau die Personen von Gruppe 1 den Wert des Störfaktors S = 1, z. B. einen Gendefekt, haben, und die Personen der Gruppe 2 nicht, bei diesen also allesamt S = 0 ist. Bei großem n ist diese Wahrscheinlichkeit bei einem einzelnen Störfaktor natürlich verschwindend gering. Für weniger extreme Aufteilungen kann man ähnlich argumentieren, woraus insgesamt folgt, dass jede endliche Anzahl von Störfaktoren von einem hinreichend großen n kontrolliert wird.59 Fisher und die heute orthodoxe Statistik sprechen jedoch explizit von (potenziell) unendlich vielen Störfaktoren, was dazu führt, dass sich, selbst bei großem n, mit Wahrscheinlichkeit nahe Eins einer dieser Störfaktoren so extrem wie oben angegeben auf die Gruppen verteilen wird. Bei den üblichen (kleinen) Stichprobengrößen und zahlreichen Störfaktoren ist die Wahrscheinlichkeit deshalb auch unter Randomisierung sehr groß, dass zumindest einer der Faktoren extrem ungleich zwischen den beiden Gruppen aufgeteilt ist. Es ist genau dieser Unterschied a priori, der sich als exzellente Alternativerklärung aufdrängt und den induktiven Schluss 58
Im Klartext: Inference from the particular to the general can be absolutely rigorous.
59
Dieses Argument wird in Saint-Mont (2010) numerisch präzisiert.
4.3 Orthodoxe Induktion
229
unterminiert. Die Tatsache, dass man den Störfaktor möglicherweise nicht beobachtet hat, tut der Logik keinen Abbruch, sondern verschlimmert bei weitem die Situation. Denn ohne einen Anhaltspunkt in den Daten attribuiert man völlig zurecht die im Experiment festgestellte Wirkung auf die experimentelle Manipulation und sitzt ohne Verdacht zu schöpfen einem Artefakt auf! Box et al. (2005: 94) stellen klar fest: “Even with randomization the assumption of exchangeability can be violated.” Altman (1985: 125) schließt sich bereits im allerersten Satz seines Artikels fast wortwörtlich an: “Randomised allocation in a clinical trial does not guarantee that the treatment groups are comparable with respect to baseline characteristics.” 60 Ausführlich widmet sich V. Berger (2005a) dem Thema, seine Zusammenfassung (S. 9) lautet: “While it is certainly true that randomization is used for the purpose of ensuring comparability between or among comparison groups, we will see in Chapter 261 that it is categorically not true that this goal is achieved.” Austin (2008: 2039) stellt klar fest: “While randomization will, on average, balance covariates between treated and untreated subjects, it need not do so in any particular randomization [. . .] balance is a property of a given sample and not of a super-population.” Greenland (1990: 422) schreibt: “I chose the smallest possible controlled trial [. . .] to illustrate one thing randomization does not do: It does not prevent the epidemiologic bias known as confounding.” (Hervorhebungen im Original.) Und bezogen auf sein Beispiel fährt er fort: “No matter what the outcome of randomization, the study will be completely confounded, in that the two treatment groups [. . .] will be completely noncomparable.” Auch Altman (1985) und schon Lee et al. (1980) bringen drastische Beispiele, in denen nicht balancierte Störfaktoren das Ergebnis einer Studie maßgeblich beeinflussen. Berger und Weinstein (2004: 516) folgern: “Yet some of the benefits ascribed to randomization, for example that it eliminates all selection bias [. . .] can better be described as fantasy than reality.” Das Ergebnis jeder Zuordnung von Individuen und damit auch von Merkmalen auf Gruppen ist immer fest, gleichgültig mit welchem Verfahren die Zuordnung vorgenommen wurde. Das heißt, gewisse statistische Einheiten - mit ihren konkreten Eigenschaften - befinden sich in der Treatmentgruppe und dasselbe gilt für die Kontrollgruppe. Deshalb können bei jedem Verfahren Ungleichgewichte, also vor dem Experiment vorhandene Unterschiede zwischen den Gruppen auftreten, welche dann als Ursache für nach dem Experiment festgestellte Diskrepanzen in Frage kommen. Bei einer randomisierten Grup60
Als Grund gibt er auf derselben Seite an: “One area that has received little attention - even in many books on clinical trials now available - is the comparability of randomised groups. The neglect is undoubtedly due to the widespread lack of perception of this as a topic needing consideration [. . .] In contrast, in epidemiological circles there is considerable awareness of the importance of the comparability of non-randomised groups.” (Hervorhebung im Original.) 61
Siehe insbesondere die Schaubilder S. 31-34 dort
230
4 Induktion
peneinteilung ist es darüber hinaus noch nicht einmal möglich, im Verlauf der Zuordnung gegenzusteuern, da man damit ihr Kernelement - die Unabhängigkeit von Zuordnung und Merkmalen - unterläuft. Was also tun, wenn die Randomisierung eine „extreme“ Zuordnung erbringt, z. B. alle Männer der Experimental- und alle Frauen der Kontrollgruppe zugeordnet werden?
Korrektur der zufälligen Zuordnung „Nichts!“ lautet die ernsthaft vertretene, wenn auch verblüffende erste Antwort auf diese Frage. Die Argumentation ist wie folgt: Da die Randomisierung alle Merkmale „blind“ auf die Gruppen aufteilt, sind diese per konstruktionem vergleichbar, womit es nicht angemessen bzw. unnötig ist, dies durch einen Blick auf die Merkmale zu überprüfen.62 Urbach (1985: 266) schreibt hierzu: “Despite the advice of some statisticians always to carry out a postrandomization check on the test groups, many researchers refuse to do this; and here they are buttressed by the theory of randomization itself [. . . ]” Auch Fisher (1966: 44) sieht das so: “[Randomization] relieves the experimenter from the anxiety of considering and estimating the magnitude of the innumerable causes by which the data may be disturbed.” Obwohl man also überprüfen könnte, ob die Randomisierung bezüglich erhobener Faktoren zu einem Ungleichgewicht geführt hat63 - und falls ja, so liegt die Alternativerklärung eines vermeintlichen experimentellen Effekts auf der Hand - verzichtet man darauf aus prinzipiellen Gründen. Man stellt also (den Glauben an) eine Methode über die direkte kritische empirische Überprüfung eines Sachverhalts und verstößt mit dieser dogmatischen Haltung gegen das entscheidende Kriterium empirischer Wissenschaft. Urbach (1985: 266) schreibt eindrücklich: “It is a chilling thought that medical treatments that are worthless may have been endorsed, and valuable ones discarded, after randomized trials in which the treatment groups differed in ways that were known to be relevant to the disease under study, but where the strict rules of randomization were applied and no adjustment made.” Auch Rosenbaum (2002: 21) ist sich der Gefahr bewusst, denn er schreibt im Anschluss an das obige64 Zitat: “The statement that randomization tends to balance covariates is at best imprecise; taken too literally, it is misleading [. . .] What is precisely true is that random assignment of treatments can produce some imbalances by chance, but common statistical methods, properly used, suffice to address the uncertainty introduced by these chance imbalances.” Adjustment ist deshalb die an dieser Stelle am häufigsten verwendete Vorgehensweise.65 Sie bedeutet, zunächst die Balancierung der Merkmale zu 62
Dass diese Argumentation zu kurz greift, haben wir gerade ausführlich begründet.
63 64
Siehe insbesondere V. Berger (2005a: Kapitel 6) Siehe S. 226
65
Siehe z. B. Altman (1998)
4.3 Orthodoxe Induktion
231
überprüfen und dann, falls nötig, „nachzubessern“. Ist es etwa zu einem deutlichen Ungleichwicht der Geschlechter66 gekommen (viele Frauen in der Experimentalgruppe, wenige in der Kontrollgruppe), so vergleicht eine stratifizierte Analyse nur Frauen mit Frauen. Man bildet also z. B. nicht die Mittelwerte der abhängigen Variablen Y¯T und Y¯C in den beiden Gruppen und vergleicht diese. Vielmehr betrachtet man in beiden Gruppen nur die Frauen und vergleicht dann deren beider Mittelwerte. Mit den Männern verfährt man genauso. Allgemein gesprochen bedingt man die Auswertung unter einer (zwischen den Gruppen nicht balancierten) Kovariaten, wobei die von den Kovariaten angenommenen Werte die zu vergleichenden Schichten (Strata) bestimmen. Bedingt man unter mehreren Kovariaten, so werden die vergleichbaren Teilgruppen schnell sehr klein, was seinerseits eine allgemeine Aussage erschwert. Eine zweite Methode, Vergleichbarkeit herzustellen, ist, die Kovariablen im Nachhinein so zu gewichten, dass ihre Verteilungen in den Gruppen möglichst ähnlich werden. (Im obigen Fall bietet es sich an, die Frauen in der Experimentalgruppe unterproportional zu berücksichtigen, aber die Resultate der Frauen der Kontrollgruppe überproportional in Vergleiche eingehen zu lassen. Dazu mehr in Abschnitt 5.3.) Die am häufigsten angewandte Methode zu adjustieren ist jedoch: In many respects it is more natural to perform an adjustment using a regression model that allows for both qualitative and quantitative covariates simultaneously. (Rosenberger und Lachin 2002: 139)67
Hat man dergestalt den Einfluss der Kovariablen herausgerechnet, sollten die Residuen vergleichbar sein. Der Nachteil dieses und des vorangegangenen Verfahrens ist nicht nur, dass man natürlich nur bekannte Kovariable berücksichtigen kann. Darüber hinaus hängt bei der letzten Methode die Vergleichbarkeit von der Güte des Regressionsmodells entscheidend ab.68 Freedman (2008b: 180f, 191) schreibt dazu: “Regression adjustments are often made to experimental data.69 Since randomization does not justify the models, almost anything can happen [. . .] The reason for the breakdown is not hard to find: randomization does not justify the assumptions behind the OLS model [. . .] The simulations, like the analytic results, indicate a wide range of possible behavior. For instance, adjustment may help or hurt.” 70 Dieses deprimierende Ergebnis sollte eigentlich nicht weiter verwundern, ist es bei der Modellierung doch schon schwer, festzustellen, welche Kovaria66
Als anschauliches Beispiel für eine dichotome Variable. In der Praxis wird jedoch gerade das Geschlecht aktiv kontrolliert, also nicht randomisiert den Gruppen zugewiesen. Es steht also von vorneherein fest, dass die Hälfte der Personen je Gruppe Frauen sein werden. 67
Ein typisches Beispiel sind klinische Studien (Freedman 2008b).
68
Siehe den Kommentar zu Mills induktiver Figur (iii), S. 220. Siehe z. B. Freedman (2008a: 241)
69 70
Ganz ähnlich heißt es in Freedman (2008a: 241, 237): “Logit models, probit models, and their ilk are not justified by randomization [. . .] The logit model is often used to analyze experimental data. However, randomization does not justify the model, so the usual estimators can be inconsistent.”
232
4 Induktion
ten überhaupt relevant sind. (Welche Variablen weisen eine „deutliche“ Unbalanciertheit oder einen „bedeutsamen“ Einfluss auf die abhängige Variable auf?) Die an dieser Stelle beliebten (multiplen) statistischen Tests bringen nicht nur die üblichen Probleme mit sich, sie sind vor allem auch logisch unangemessen - weiß man doch aufgrund der Randomisierung von vorneherein, dass die H0 richtig ist.71 Selbst wenn alle relevanten Kovariaten bekannt sein sollten ist immer noch unklar, wie sie zusammenwirken. Insgesamt verflüchtigt sich auf diesen Wegen schnell die „Einfachheit“ der randomisierten Auswertung sowie ihre starke Interpretation (Kausalschluss).
Eingeschränkte Randomisierung Im Nachhinein eine „unglückliche“ Aufteilung statistischer Einheiten zu korrigieren ist immer weniger überzeugend, als schon im Vorfeld dafür zu sorgen, dass zumindest gewisse Ungleichgewichte gar nicht erst auftreten können. Legt man z. B. vor Beginn des Experiments per Münzwurf fest, wer in welche Gruppe kommen soll, so wird man sicherlich systematische Muster wie die periodische Zuordnung T, C, T, C, . . . ausschließen, eben weil auch diese Regelmäßigkeit eine naheliegende Alternativerklärung für jeden vermeintlichen Effekt wäre. Man akzeptiert also nicht alle Ergebnisse einer Randomisierung, sondern „bessert nach:“ Sir Ronald said he thought he would draw again and that, ideally, a theory explicitly excluding regular [plans] should be developed. (Urbach 1985: 260)
Dies ist natürlich ad hoc, denn welche Aufteilungen sind extrem bzw. welche Versuchspläne „schlecht“, weil (zu) regelmäßig? Lässt man dies den Versuchsleiter entscheiden, also festlegen, welche Zuordnungen bzw. Versuchspläne überhaupt in Betracht gezogen werden, so öffnet dies der Willkür Tür und Tor. Bei einer logisch einwandfreien Vorgehensweise müssen die in irgend einer Hinsicht einseitigen, ungleichmäßigen, und damit nicht erwünschten Zuordnungen schon vor dem ersten Münzwurf ausgezeichnet werden, was heißt, es ist eine Menge „zulässiger“, also nicht allzu extremer Aufteilungen, als Basis der Randomisierung zu wählen. (Siehe Abschnitt 3.4.1, insbesondere S. 109.) Der Fachterminus für eine Einschränkung der in Betracht gezogenen Zufallszuordnungen ist constrained randomization72 und läuft nach Kempthorne (1992: 25) darauf hinaus, dass “What one wants is a plan be balanced with respect to the variability among the units that one thinks may be present. The 71
Zudem ist das (quantitative) Ausmaß der Stärke der Unbalanciertheit bzw. des Einflusses weit wichtiger als die qualitative Aussage, ein Faktor sei „signifikant“. Schließlich können auch einzelne und erst recht eine Reihe nicht signifikanter Kovariablen die abhängige Variable deutlich verzerren. Für viele weitere Details siehe Altman (1985), Rosenberger und Lachin (2002) und V. Berger (2005a). 72 Siehe z. B. Bailey (1982) für einen Überblick. Ein früher Schritt in diese Richtung ist Grundy und Healy (1950). Siehe auch die Bemerkungen in Tukey (1960a), S. 109f.
4.3 Orthodoxe Induktion
233
choice of randomization process is then a matter of informal Bayesian thinking.” Von der Grundsatzdiskussion „über Bayes“ einmal abgesehen73 müssen hierzu natürlich die entsprechenden Merkmale bekannt sein, womit (erneut) ein wesentliches Argument für die Randomisierung - nämlich die Kontrolle unbekannter Störvariablen - entfällt. Howson und Urbach (2006: 193) folgern: Fisher (1947: 43)74 was therefore wrong in his view that randomization ‘relieves the experimenter from the anxiety of considering and estimating the magnitude of the innumerable causes by which the data may be disturbed.’
Eine Lösung des Problems liefert die moderne Komplexitätstheorie. Dort setzt man Regularität mit komprimierbar, also auf eine einfache Art beschreibbar, und so gesehen regelmäßig, gleich.75 Damit kann man im Prinzip auch, wie von Fisher gewünscht, „regellose“ Versuchspläne von regelmäßigen Plänen unterscheiden.76 Was Fishers einfaches Verfahren der Randomisierung aus der Sicht dieser Theorie rettet, ist die Tatsache, dass die meisten realisierten Folgen keine einfache Regelmäßigkeit aufweisen.77 Typischerweise ist deshalb das Ergebnis einer konkreten Randomisierung eine „unregelmäßige Zuweisung“ der Einheiten, also eine Aufteilung, die - wie gewünscht - keinem Muster folgt. Entdeckt man doch ein offenkundiges, nicht gewünschtes Muster im Versuchsplan, so kann man der Empfehlung Fishers folgen, nochmals die Münze werfen, und die Chancen sind hervorragend, dann eine typische, unregelmäßige Zuordnung zu erhalten. Der grundlegende Fehler der klassischen Argumentation ist jedoch, und darauf weist schon Fishers beschwichtigendes Ac-hoc-Argument hin, dass man verschiedene Ebenen vermengt. Mit den Worten von Barnard (1949: 117): “The confusion between statistical independence of variates, and absolute independence of observations of variates.” Merkmale, formalisiert als Zufallsvariablen Xi , werden mit den Merkmalsausprägungen, also den Beobachtungen xij , formalisiert also Realisierungen der Zufallsvariablen Xi = xij verwechselt, genauer gesagt, wird eine Eigenschaft (Unabhängigkeit) der Zufallsvariablen auf die zugehörigen Realisierungen übertragen. V. Berger (2005a: 9f) schreibt: 73
Kempthorne (1980) ist der schärfste Kritiker des Bayesianers Basu (1980), zu dessen Beitrag wir gleich kommen werden. Ausdrücklich auf diese Auseinandersetzung Bezug nehmend, ergänzt Kempthorne (1992: 29): “The obviously Bayesian nature of design surely needs consideration.” 74
4. Auflage von Fisher (1966) in der von uns in der Bibliographie genannten Auflage S. 44. 75 76
Für eine ausführliche Darstellung siehe Abschnitt 5.5.2.
Was jedoch kaum praktisch realisiert werden kann. Zum ersten ist die Komplexität nicht berechenbar. Man kann also nicht einfach zu einem Plan dessen Komplexität angeben und nachschauen, ob jene maximal ist. Zum zweiten sind die relevanten Faktoren, die es zu balancieren gilt, in der Regel nicht bekannt. Und zum dritten führen schon wenige Faktoren und zu untersuchende Einheiten zu einer immensen Anzahl möglicher Versuchspläne (kombinatorische Explosion), welche man unmöglich einzeln im Vorfeld evaluieren kann. 77 Siehe Abschnitt 5.5.6
234
4 Induktion
The idea of randomization is to overlay a sequence of units [. . .] onto a sequence of treatment conditions. If neither sequence can influence the other, then there should be no bias in the assignment of treatments, and the comparison groups should be comparable.78
Zwar ist es richtig zu sagen, dass die Gruppeneinteilung G (Zufallsvariable) von den Merkmalen Xi unabhängig ist, wenn die Einteilung der Gruppen randomisiert - also ohne Blick auf die Merkmale - erfolgt. Insofern hängen auf der Ebene der Merkmale die beobachteten inhaltlich relevanten Merkmale nicht von der Randomisierung ab. Und insofern wäre der Kausalschluss gerechtfertigt. Das muss jedoch nicht für die realisierte Gruppeneinteilung G = g gelten, und mit genau jener hat man es bei konkreten Experimenten immer zu tun! Jene kann, wie wir gerade gezeigt haben, genauso unausgegeglichen sein wie bei einer nicht-zufälligen Zuordnung. Mehr noch, im Allgemeinen wird sie bezüglich der beobachteten Merkmale sogar weniger balanciert sein als eine systematische Einteilung, hat man die Zuordnung doch nicht so getroffen, dass die Unterschiede bezüglich der beobachteten Merkmale wie bei der systematischen Zuordnung minimiert wurden. Das heißt, den von Rosenbaum (S. 226) hervorgehobenen Vorteil der Randomisierung, alle Faktoren - bekannte wie unbekannte - gleichermaßen zu kontrollieren, bekommt man nicht geschenkt. Vielmehr erkauft man diesen Vorteil damit, dass die Vergleichbarkeit der Gruppen bzgl. der bekannten Faktoren schlechter ist als bei einer systematischen Gruppeneinteilung, welche darauf bedacht ist, gerade die bekannten Faktoren zu kontrollieren, was heißt, die diesbezüglichen Unterschiede zwischen den Gruppen zu minimieren.79 Da das „ausgleichende Wesen“ der Randomisierung zudem erst bei größeren Gruppen (und auch Teilgruppen!) wirkt, kann der accidential bias, also die Unbalanciertheit der Gruppen aufgrund einer zufälligen Zuordnung, ganz erheblich sein.
4.3.4 Systematisches Vorgehen und Randomisierung Der Vorteil der Randomisierung überwiegt, wenn man sich in einer Situation mit potenziell vielen, unbekannten Faktoren befindet, man also mit der Forschung noch am Anfang steht und wenig weiß. Überlässt man dem Zufall hier die Einteilung (nicht zu kleiner) Gruppen, so sollten jene vergleichbar sein80 und man vermindert den Aufwand erheblich. Rubin (1978: 54) schreibt: “A comparable non-randomized design would generally be substantially more difficult to execute and analyze because of the need to deal explicitly with 78
In dem genannten Buch wird genau zwischen dem Prozess und der Realisierung unterschieden. Hingegen stehen oft der Zufallsprozess und dessen stochastische Eigenschaften im Vordergrund (Rosenberger und Lachin 2002). 79 Siehe z. B. Pocock und Simon (1975) 80
Da letzteres für den Kausalschluss entscheidend ist, sollte man dies als kritischer Forscher überprüfen, und falls nötig „nachbessern“ bzw. in der Auswertung berücksichtigen.
4.3 Orthodoxe Induktion
235
all covariates being balanced.” Es ist so gesehen überhaupt nicht verwunderlich, dass die Randomisierung von Fisher in einem biologisch-agrarischen Forschungsumfeld erfunden wurde, und nicht von Jeffreys, dem Geophysiker.81 Die Nachteile überwiegen jedoch in einem weiter entwickelten Forschungsfeld, wo die relevanten Faktoren bekannt und explizit kontrollierbar sind. Deshalb dominiert in den Naturwissenschaften der systematische Ansatz. Das Problem stellt sich noch nicht einmal, wenn man sogar völlig gleichartige Gruppen bilden kann, also z. B. ein physikalisches Experiment einfach mehrfach unter identischen Randbedingungen und mit demselben Material durchgeführt. (Auch die genau kontrollierte, systematische Variation von Bedingungen stellt dann keine unüberwindliche Schwierigkeit dar.) Im Verlauf kumulativer Forschung, wenn mehr und mehr Faktoren sowie deren Zusammenhänge bekannt werden, sollte man sich dementsprechend sukzessive von der Randomisierung entfernen und immer mehr systematische Auswahlelemente berücksichtigen. Randomisierung ist eine statistische Technik, Vergleichbarkeit herzustellen, sie ist kein Selbstzweck. Im Fall geringen Vorwissens ist sie die beste Methode der Wahl, sie ist jedoch kein Goldstandard für alle Fälle. Wie alle Verfahren hat sie ihre Grenzen, und Randomisierung gedankenlos immer einzusetzen macht sie zum „Opium des Experimentators“, dessen wundersame Kräfte ihn eher benebeln, als dass sie seinen kritischen Geist schärften. Sehr schön zitiert Lindley (1982b), ganz zu Beginn seines Artikels, aus Phineas Finn: Who is there that has not longed that the power and privilege of selection among alternatives should be taken from him in some important crisis of his life, and that his conduct should be arranged for him, either this way or that, by some divine power if it were possible, – by some patriarchal power in the absence of divinity, – or by chance even, if nothing better than chance could be found to do it?82
Basu (1980) lässt die beiden Grundeinstellungen drastisch aufeinanderprallen. In einem Experiment werden 15 Tierpaare untersucht. Zum einen achtet der Experimentator sehr darauf, dass die Tiere, welche ein Paar bilden, vergleichbar sind. Zum anderen erfolgt die Zuteilung der Tiere zur Experimental- bzw. Kontrollgruppe per Zufall, so dass je Paar immer eines der Tiere T und das jeweils andere C zugewiesen wird. Wie zu erwarten, betont der Experimentator seine systematischen Bemühungen, das Ergebnis des Experimentes aussagekräftig zu machen. Er verwendet z. B. Tiere desselben Wurfs und Geschlechts, analysiert ihre Nahrung, weiß um eine Infektion der Tiere, berücksichtigt die Ergebnisse vorangegangener Experimente usw. Deshalb ist er sehr erstaunt, als alle diese Anstrengungen in die Analyse der Daten nicht eingehen. Für den Statistiker einzig und alleine relevant - für den Wissenschaftler jedoch nahezu irrelevant - ist die Tatsache, dass die Tiere via Münzwurf der einen oder anderen Gruppe zugeordnet wurden, d.h., er analysiert das Expe81
Siehe hierzu auch die Bemerkung in Jaynes (2003: 496).
82
Siehe auch Hacking (1988: 427)
236
4 Induktion
riment im Lichte der Randomisierung. Es gibt 215 mögliche Aufteilungen der 15 Paare auf T und C, wobei jede Realisierung dieselbe Wahrscheinlichkeit hat.83 Beobachtet man nun das extreme Ereignis, dass die Experimentalgruppe 15 Mal besser ist als die Kontrollgruppe, so ist die Wahrscheinlichkeit, dieses Ergebnis per Zufall zu erhalten, p = 1/215 . Sowohl Fisher als auch Neyman und Pearson würden aufgrund dessen die Nullhypothese ablehnen. Die Mathematik eines sogenannten Randomisierungstests ist also wie bei den zuvor besprochenen statistischen Tests bestechend einfach. Darüber hinaus fügt sich die Technik der Randomisierung mit der von ihr erzeugten sampling distribution hervorragend in das allgemeine Denken der klassischen Statistik (siehe S. 106 und 119) ein. Diese entwirft zu Beginn immer ein Modell, das alle möglichen Vorkommnisse abdeckt. Im Anschluss wird dann die konkrete Beobachtung in diesen Rahmen eingeordnet und bewertet, wobei (die zur “sampling distribution” gehörigen) Wahrscheinlichkeiten die entscheidende Rolle spielen. Bei einer Randomisierung besteht die fragliche Grundgesamtheit in der Menge aller möglichen Zuordnungen von statistischen Einheiten zu Gruppen und ihren zugehörigen Wahrscheinlichkeiten. Da der Experimentator das verwendete Verfahren der Randomisierung in der Hand hat, welches seinerseits die Sampling Distribution definiert, ist die Verteilung bekannt und muss nicht aus den Daten geschätzt werden, was ein weiterer großer Vorteil ist. Der Konflikt der völlig verschiedenartigen Herangehensweisen wird deutlich, als der Experimentator ins Detail geht und zeigt, mit wie viel Sorgfalt er aufgrund bekannter Variablen die beiden Gruppen konstruiert hat. Für ihn ist dies der entscheidende Baustein für die Überzeugungskraft des Experiments. Mit jeder bewusst getroffenen Entscheidung verkleinert er jedoch den Einfluss des Zufalls, also technisch gesprochen den Stichprobenraum, womit die auf der Randomisierung beruhende Analyse immer weniger aussagekräftig wird. Der Statistiker wird deshalb immer ungehaltener, zumal im Extremfall Zufallsargumente gar keine Rolle mehr spielen. Zudem lässt Basu (1980: 581) den Wissenschaftler zu recht fragen: Your probability of 1/215 is defined in terms of a hypothetical experiment, a rerun of the original experiment with everything (repeat everything) but the randomization part fixed at the level of the original experiment. But how can you even think of such an utterly impossible experiment? My experimental animals have changed one of them died last week - the weather has changed, the virus epidemic is gone. I do not see how you can claim any objective reality for the randomization probability 1/215 .
Anders als bei einer „üblichen“ Stichprobe, wo man sich der Population dadurch empirisch annähern kann oder bei einer jederzeit möglichen Testreplikation basiert der Raum aller Möglichkeiten beim Verfahren der Randomisierung auf prinzipiell nicht realisierbaren Wiederholungen ein und desselben Experiments. Das Experiment realisiert ja nur eine einzige Zuordnung, und 83
Gemäß der klassischen Formel der Wahrscheinlichkeit 1/215 für jede der möglichen Zuordnungen.
4.3 Orthodoxe Induktion
237
genau unter diesen empirischen Randbedingungen wird das tatsächliche Experiment durchgeführt. Da ein “rerun” unter identischen Bedingungen nicht möglich ist, ist die Wahrscheinlichkeitsaussage rein hypothetisch und in diesem Sinne noch weniger greifbar als eine subjektive Überzeugung. Die Logik des Randomisierungstest muss sich deshalb auf ein Gedankenexperiment stützen. Diese geht zunächst davon aus, dass die beobachteten Daten Y eine Funktion aller möglichen Einflussfaktoren Xj (j = 1, 2, . . .) sind. Hält man sowohl die exogenen Faktoren als auch die endogenen Eigenschaften der untersuchten Individuen zu einem Zeitpunkt fest, so kann nach Mills Methode des Unterschieds nur noch der Unterschied zwischen Experimentalund Kontrollgruppe (T = 1 versus T = 0) Unterschiede in den Daten erklären. Beim Randomisierungstest ist also die Zufallsvariable der potenziellen Beobachtungen, welche im Allgemeinen von sehr vielen Faktoren abhängig ist, wegen Y = f (X1 = x1 , X2 = x2 , . . . ; G) = fx1 ,x2 ,... (G) nur eine Funktion der Zufallsvariablen G, deren Verteilung man über das verwendete Randomisierungsverfahren vollständig kontrolliert. Da in Basus Experiment die beiden zu einem Paar i gehörigen Individuen vergleichbar sein sollen, kann der Unterschied zwischen yT,i = fx1 ,x2 ,... (G = T ) und yC,i = fx1 ,x2 ,... (G = C) nur auf einen Unterschied zwischen T und C zurückgeführt werden. Der Randomisierungstest prüft kurz gesagt die Nullhypothese, dass sich Treatment und Control nicht unterscheiden, weshalb für alle 15 Paare von Individuen yT,i = yC,i gelten müsste. Je größer der Unterschied zwischen diesen Werten, desto sicherer kann man sich sein, dass es einen Effekt der experimentellen Manipulation gibt. Typischerweise fragt man, wie extrem die tatsächlich gemachte Beobachtung (etwa die Anzahl der Fälle, in denen die Experimentalgruppe besser war als die Kontrollgruppe), relativ zu allen anderen numerisch möglichen Ergebnissen bzw. durch Zufall zustande gekommenen Ergebnissen ist. (Zum Beispiel gibt es nur 1 Möglichkeit, dass die Experimentalgruppe immer besser abschneidet, 15 Möglichkeiten, dass sie genau 14 Mal besser ist usw.) Wie zuvor ist also wieder die Vergleichbarkeit - nun von jeweils zwei Individuen, die zu einem Paar zusammengefasst, gematcht, werden - die entscheidende Voraussetzung. Die weiter oben besprochene „gruppenweite“ Randomisierung ist ein Verfahren, Vergleichbarkeit von Gruppen sicherzustellen. Sie funktioniert hier nicht: Matcht man irgendwelche Individuen einer Population, so werden sich diese mit großer Wahrscheinlichkeit in vielen relevanten Faktoren unterscheiden. So bleibt nur die äußerst sorgfältige Konstruktion von Paaren oder man bildet aus offenkundig sehr ähnlichen Individuen, etwa eineiigen Zwillingen, Paare. Genau dies verleiht einschlägigen Zwillingsstudien, insbesondere zur Abschätzung erblicher bzw. sozialer Einflüsse, einen Großteil ihrer Überzeugungskraft. Und genau diese Idee, kombiniert mit der anschließenden zufälligen Zuordnung der Zwillinge auf zwei experimentelle Bedingungen war auch der klassische Vorschlag von Gosset (1931).
238
4 Induktion
Diesen Vorschlag aufgreifend verdeutlicht Basu den Unterschied zwischen interner (statistischer) und externer (empirischer) Validität, letztere hier im Sinne eines überzeugenden Kausalschlusses.84 Der Statistiker bewegt sich stets auf der Grundlage eines experimentellen Ergebnisses und schafft sich via Randomisierung den Rahmen für ein Gedankenexperiment, das Auskunft darüber gibt, wie „extrem“ das gerade erzielte experimentelle Resultat (dort) ist. Für den Wissenschaftler ist hingegen die Vergleichbarkeit der Tiere, also die möglichst große Homogenität der Tiere je Paar von größter Bedeutung. Dadurch schließt er substanzielle Alternativerklärungen aus: Sind zwei Tiere vergleichbar, so kann eine Differenz in ihren Ergebnissen nur auf einen Unterschied zwischen T und C zurückzuführen sein. (Bei diesen beiden Tieren wirkt T also anders als C.) Er kann also den numerisch erfassten Unterschied auf einen substanziellen Unterschied zwischen den Behandlungen übertragen (und in diesem Sinne weiter interpretieren, also generalisieren). Will er darüber hinaus eine fundierte Aussage über eine größere Population machen, so ist er gut beraten, eine repräsentative Teilmenge von Tieren aus der Population zu wählen. Dies kann über eine Zufallsstichprobe oder ein systematisches Verfahren geschehen. Wir würden je nach Vorwissen das eine oder das andere Vorgehen präferieren.
Mathematisierung Mathematische Statistiker stellen den Randomisierungstest gerne als nahezu voraussetzungsloses Verfahren dar. Ohne die Mühen der Konstruktion vergleichbarer Gruppen auf sich nehmen zu müssen und scheinbar ohne weitere Voraussetzungen bekommt man einen weitreichenden Schluss quasi geschenkt. Typisch ist die Aussage von Edgington (1995: 336): Randomization tests offer a unique opportunity to see what statistical inferences about treatment effects can be made with a bare minimum of statistical assumptions.
In einem von ihm (ibd., S. 3ff) gegebenen Beispiel wird z. B. eine Gruppe von 10 statistischen Einheiten auf zwei gleich große Gruppen und aufgeteilt. Dies ist auf genau 10 = 252 Arten möglich. Als (ziemlich frei bzw. will5 kürlich wählbares) Abstandsmaß D wählt er die Differenz der arithmetischen Mittel der Gruppen, geteilt durch die (geschätzte) Standardabweichung. Je mehr sich also die Werte der beiden Gruppen unterscheiden und je geringer die Streuung ausfällt, desto größer wird D. Die Hypothese H0 , dass sich beide Gruppen bezüglich eines interessierenden Merkmals nicht unterscheiden, wird dann verworfen, wenn das tatsächlich beobachtete d zu extrem ist, als dass es sich mit der Hypothese gut vereinbaren ließe. Er erläutert: The logical justification for this procedure for determining the significance level [. . .] is straightforward. The null hypothesis H0 is that the reaction time for every subject 84
Siehe S. 162.
4.3 Orthodoxe Induktion
239
is independent of the treatment assignment. The random assignment of subjects to treatments allows 252 equally probable ways in which the subject could be assigned. If H0 is true, a subject’s reaction time would have been the same if the subject had been assigned to the alternative treatment. Thus, given the random assignment of subjects in conjunction with H0 , there are 252 equally probable ways in which the 10 reaction times could have been divided between the two treatments. If H0 is true, how likely would it be that the random assignment performed in the experiment would provide one of the 10 largest values in the distribution of 252 values? The answer is 10/252, or about 0.04. Thus, the experimenter can conclude that such strong evidence against H0 as is provided by his experimental results would occur no more than four times in 100 with a true H0 . Or in terms of conventional significance levels, he can say that his results are significant at the 0.05 level.
Auch ein solcher Randomisierungstest ist statistisch (intern) valide, einfach deshalb, weil mit den experimentellen Daten die im konkreten Experiment vorhandene Realisierung der Störfaktoren festgehalten wurde. Da man den Einfluss des Zufalls damit vollständig überblickt bzw. selbst in der Hand hat, kennt man seine stochastischen Eigenschaften und kann zeigen, dass er diverse innerstatistische Qualitätskriterien erfüllt.85 Was der Experimentator jedoch will, ist externe Validität, hier also einen begründeten Kausalschluss, der weit über das konkrete Experiment hinausgeht. Jener beruht auf der zweiten logischen Figur Mills. Wird diese verletzt, weil Alternativerklärungen aufgrund der Vorgehensweise nicht ausgeschlossen werden können, so ist dieser induktive Schritt entsprechend kritisierbar und schwach. Im obigen Beispiel wird etwa mit keinem Wort auf die extrem plausible Alternativerklärung eingegangen, dass sich die Subjekte (der spezifischen, tatsächlich untersuchten Stichprobe) unterscheiden, also bezüglich der beobachteten Variablen nicht vergleichbar sind. In diesem Fall differieren mit den Subjekten auch ihre Reaktionszeiten, und das beobachtete Resultat könnte sehr wohl nicht die Folge eines Treatmenteffekts sein, sondern einfach daran liegen, dass im konkret durchgeführten Experiment z. B. viele (langsame) ältere Subjekte zufälligerweise der Kontrollgruppe und die meisten (schnellen) jüngeren Subjekte der Experimentalgruppe zugewiesen wurden.86 Die entscheidende Tatsache, dass die untersuchten Individuen vergleichbar sein müssen, wird mit Formulierungen wie “[The experimenter] is very careful in selecting the subjects [. . .]” (Edgington 1995: 3) eher übergangen als erklärt. Ganz anders Box et al. (2005: 93): The randomization tests [. . .] introduced in 1935 were the first examples of what were later called, ‘nonparametric’ or ‘distribution free’ tests [. . .] exchangeability theory test would be a more appropriate name for these procedures. The name would then point out the essential assumption involved. (Hervorhebung im Original.)
Nur wenn alle 10 Tiere gleichartig sind, sind auch alle 252 möglichen Gruppeneinteilungen völlig gleichwertig, was die Alternativerklärung unbalancier85
Siehe z. B. Edgington (1995: Abschnitt 3.2, 37ff) und Janssen und Pauls (2003). Wie zuvor ist es ein leichtes, sich viele weitere, nicht bekannte oder beobachtete Störfaktoren auszudenken. 86
240
4 Induktion
ter Gruppen ausschließt. Bei 10 heterogenen Tieren ist zwar die mathematische Argumentation dieselbe, doch sind bei vielen Gruppeneinteilungen Ungleichgewichte zu erwarten - es gibt eher wenige ausbalancierte „gute“ und zahlreiche unausgeglichene „schlechte“ Einteilungen -, was die Alternativerklärung, der beobachtete Unterschied zwischen den Gruppen sei auf deren Nicht-Vergleichbarkeit zurückzuführen, zumindest plausibel macht. Zudem ist es weit plausibler, dass ähnliche Tiere auch vergleichbar auf T und C reagieren, während heterogene Tiere womöglich ganz verschiedenartig auf T und C ansprechen. Es könnte also auch die Wechselwirkung eines Merkmals mit der Treamtmentbedingung sein, welche den beobachtbaren Unterschied bewirkt. Darüber hinaus lässt sich von irgendeiner Stichprobe schwerlich auf eine eigentlich interessierende Population generalisieren. Brillinger et al. (1978), zitiert nach Rosenberger und Lachin (2002: 94), formulieren wie folgt: “If we are content to ask about the simplest null hypothesis, that our treatment has absolutely no effect in any instance, then the randomization [. . .] provides the justification for a randomization analysis of the observed result [. . .] Under this very tight hypothesis, this calculation is obviously logically sound.” Das räumt auch Edgington (1995: 8) ein: Statistical inferences about populations cannot be made without random samples87 from those populations [. . .] In the absence of random sampling, statistical inferences about treatment effects must be restricted to the subjects [. . .] used in an experiment. Inferences about treatment effects for other subjects must be nonstatistical inferences - inferences without a basis in probability.
Sofort im Anschluss beschreibt er explizit, wie dies geschieht: We generalize from our experimental subjects to individuals who are quite similar in those characteristics that we consider relevant [. . .] The main burden of generalizing from experiments always has been, and must continue to be, carried by nonstatistical rather than statistical logic . . . Nonstatistical generalization is a standard scientific procedure.
Eine ähnliche, ebenso ausweichende Argumentation findet sich in Rosenberger und Lachin (2002: 95) und der dort genannten Literatur. Zwar ist es richtig, dass der induktive Schritt immer eine formale und eine inhaltliche Komponente hat, weshalb Cornfield und Tukey (1956) ihn sogar als eine „Brücke“ beschreiben, die aus zwei Teilen besteht.88 Bei einem überzeugenden induktiven Schluss übernehmen jedoch beide Komponenten einen Teil der Last, tragen als das ihnen Mögliche an Evidenz bei. Zum Beispiel ist der Schluss von einer Stichprobe auf eine Population überzeugend und lässt sich zuweilen sogar quantifizieren, weil die statistische Technik der Zufallsauswahl in aller Regel zu einer repräsentativen Stichprobe führt. Mills zweite Strategie 87
Man beachte den Plural beim letzten Wort. Tatsächlich gehen aber Randomisierungstest von einer (festen) Stichprobe aus. 88
Siehe hierzu ausführlich S. 310ff und Cronbach et al. (1972)
4.3 Orthodoxe Induktion
241
verdichtet sich im experimentellen Design zu einem überzeugenden Kausalschluss, wenn die Randomisierung zu vergleichbaren Gruppen geführt hat. Fisher sprach sich ausdrücklich gegen eine Standardisierung aus, wenn die Einschränkung der untersuchten Bedingungen, welche diese zwangsläufig mit sich bringt, die Generalisierbarkeit des Ergebnisses beeinträchtigt.89 Stattdessen drängte er dazu, die „induktive Basis“ zu verbreitern: “[. . .] we may, by deliberately varying in each case some of the conditions of the experiment, achieve a wider inductive basis for our conclusions, without in any degree impairing their precision” (Fisher 1966: 102). Beim obigen Randomisierungstest trägt die statistische Methodik jedoch nichts dazu bei, die Generalisierung zu untermauern. Deshalb wird verbal-vage auf „ähnliche“ Situationen verwiesen bzw. die ganze Bürde der Begründung auf die inhaltliche Ebene abgeschoben. Dies erkennt man am klarsten bei Single-subject Randomization Tests, denen Edgington (1995) bezeichnenderweise ein ganzes Kapitel (No. 12) widmet. Schon beim allerersten Randomisierungstest, Fishers berühmter Ladytasting-tea, wird nur ein einziges Subjekt untersucht.90 Offenkundig hat man so kein Problem mit der Vergleichbarkeit von untersuchten Einheiten und auch die numerische Aussage des Tests (p-Wert) ist richtig. Doch wie sieht es mit der Interpretation aus? Selbst wenn man im untersuchten Einzelfall Alternativerklärungen ausschließen könnte, also aufgrund der Leistung der Lady ihre Fähigkeit als untermauert ansieht, was sagt dies über die Population der Teetrinker oder irgend einer anderen Ansammlung von Menschen aus? Ein Einzelfall ist gleich nach dem degenerierten Fall völlig fehlender Information die schlechteste denkbare Ausgangssituation um über eine Gesamtheit eine Aussage zu machen. Der induktive Sprung von den Daten zu einer allgemeinen Aussage könnte größer nicht sein.91 89
Für ein einschlägiges Zitat siehe S. 311.
90
Siehe Fisher (1966) und Edgington (1995: Abschnitt 12.2). In Großbritannien wird Tee gerne mit Milch getrunken, und eine englische Lady behauptet, unterscheiden zu können, ob zunächst Milch oder Tee in eine Tasse gegeben wurde. Um die Nullhypothese, dass sie diese Fähigkeit nicht besitzt, zu überprüfen, werden ihr 8 Tassen Tee mit Milch verabreicht und es ist bekannt, dass genau 4 Tassen nach der Rezeptur „zuerst Milch, dann Tee“ und die restlichen 4 Tassen nach der Rezeptur “zuerst Tee, dann Milch“ hergestellt wurden. Von ` ´ den 84 = 70 möglichen Reihenfolgen wird genau eine experimentell realisiert. Erkennt die Lady alle Tassen richtig, so ist p = 1/70 < 0, 05. 91
Wie oben erläutert hat man selbst im Einzelfall potenzielle Alternativerklärungen nicht wirklich überzeugend ausgeschlossen. Zwar weist Fisher darauf hin, dass die Teetassen mit der größten Sorgfalt befüllt werden sollten, damit sie sich nach Gewicht, Aussehen, Temperatur usw. nicht unterscheiden (Vergleichbarkeit!), doch bleibt immer der Reihenfolgeeffekt, weil die Lady eine Taste nach der anderen verkostet. Es könnte z. B. sein, dass man die Herstellungsart umso leichter erkennt, wenn die Tassen alternierend angeboten werden, also immer eine Tasse mit „Tee zuerst“ auf eine Tasse mit „Milch zuerst“ folgt, weil dann der Kontrast am größten ist. In einem solchen Fall könnte die Diskriminationsleistung der Lady von der Reihenfolge des Konsums zumindest gefördert worden sein. Auch bei anderen Mustern, also Regelmäßigkeiten in der realisierten Reihenfolge, lassen sich leicht plausible Alternativerklärungen angeben.
242
4 Induktion
4.3.5 Resampling: Die Stichprobe als eigene Population Das fundamentale Problem von Randomisierungstests ist, dass nur das Zufallselement variiert wird, während die empirisch relevanten Faktoren völlig „eingefroren“ sind. Die Daten und damit auch alle Einflussfaktoren sind fest; es wurde nur ein einziger Datensatz basierend auf einer ganz speziellen Konstellation erhoben. Eine der wichtigsten Aufgaben von Experimenten ist jedoch, über die konkrete Konstellation hinaus zu verallgemeinern und zu klären, wie sich Daten bei (systematischer) Variation der Einflussfaktoren verändern. Somit ist der Randomisierungstest bezüglich der empirisch entscheidenden Frage, ob bzw. was sich denn ändert, wenn die Situation variiert, völlig irrelevant. Man kann, anschaulich gesprochen, kein (realistisches) Bild malen, wenn man nur einen einzigen (experimentellen) Punkt intensiv analysiert. Diese Kritik trifft alle sogenannten Permutationstests und allgemeiner auch Resampling-Verfahren, die neue (simulierte) Stichproben aufgrund der beobachteten Daten erzeugen.92 Wie der Name schon andeutet, konstruieren Permutationstests nach der obigen Blaupause93 durch einfache Permutation der Messwerte eines experimentell ermittelten Datensatzes einen Kontext, in welchem sie die Daten interpretieren. Im einfachsten Fall werden - wie oben geschehen - alle möglichen Permutationen betrachtet. Sind jene zu zahlreich, so begnügt man sich mit einer (oder einigen) repräsentativen Zufallsstichprobe(n) aller möglichen Permutationen. Immer jedoch gehen ResamplingVerfahren von einem konkreten, festen, empirischen Datensatz aus und betreiben mit ihm klassische Statistik. Der Datensatz fungiert so als die zugrundeliegende Population, auf Basis derer ein Computer Zufallsstichproben zieht. Am berühmtesten und bedeutendsten ist sicherlich der Bootstrap,94 eine Weiterentwicklung des klassischen Jackknife.95 Allgemeiner spricht Basu (1980: 575) von postrandomization, wenn After data x has been obtained, postrandomization is the generation of a further random entity y whose randomness characteristics may depend on x but are completely known to the randomizer. The statistician’s conclusions or decisions are then based on the extended data (x, y).
Doch auch wenn man noch so viel “re-sampled”, man bewegt sich immer innerhalb einer empirischen Erhebung. Lindley (2000: 334) kommentiert dies wie folgt: “The bootstrap goes to the extreme and operates within the sample, eschewing reference to outside aspects and using ad hoc methods [. . .] within a coherent framework.” Freedman (2005: 194) schließt sich dem an: “The bootstrap is in many cases a helpful way to compute standard errors - given the model. [It] usually cannot answer basis questions about validity of the 92 93
Siehe insbesondere Good (2000, 2001). Hothorn et al. (2006) sprechen sogar von einem „Lego System“.
94
Siehe S. 141, Efron (1979), Efron und Tibshirani (1993) und Davison und Hinkley (1997)
95
Siehe Quenouille (1949) und Tukey (1958)
4.3 Orthodoxe Induktion
243
model [. . .]” (Hervorhebung im Original). Und zum 15-jährigen Bestehen des Bootstrap schreibt Young (1994: 383): “[Bootstrapping] has tended to convey the notion of the statistician striving to obtain something for nothing, a hopeless endeavour.96 The thinking should rather be that of a procedure by which sound statistical conclusions can often be reached, but which, being entirely conditioned by the sample data, provides no direct guarantee of doing so.” 97 Ist die externe Validität, also Generalisierbarkeit, auch sehr fraglich, so wird diese teilweise kompensiert durch ihre hohe interne Validität. Weil es sich um echte, nicht verfälschte Zufallsstichproben und große Anzahlen handelt, greift die (zunächst für empirische Stichproben entwickelte) statistische Theorie ganz hervorragend. Das heißt hier, dass man mit Hilfe von Resampling-Verfahren Informationen aller Art hervorragend aus dem vorliegenden Datensatz extrahieren kann. Wir hatten dies S. 141 anhand des Medians demonstriert. Da es keine Formel für dessen Streuung gibt, kann nur eine geeignete Simulation Informationen über seine Variabilität liefern. Es ist wichtig zu erkennen, dass eine solche nachträgliche Randomisierung keine neuen Informationen hinzufügt - man hat ja nicht abermals „Kontakt“ mit der Realität aufgenommen. Völlig zurecht sagt Basu (1980: 576): “x summarizes in itself the whole of the relevant information available [. . .]” Technisch gesprochen ist x suffizient, und y enthält keine über x hinausgehenden Informationen. Deshalb besteht zwar die Gefahr (ibd.) “[. . .] of being influenced by irrelevant data characteristics such as, say, a postrandomization variable.” Doch seiner Schlussfolgerung (ibd.) “To incorporate y in the inference-making process will be a violation of the sufficiency principle98 [. . .]” muss man sich bei dieser Interpretation nicht anschließen. In den beobachteten Daten x ist, wie bei einem Gold-Nugget, schon alle potenziell wertvolle Information enthalten. Die statistischen bzw. chemischen Verfahren vermehren den „Stoff“ nicht, sondern erleichtert nur, ihn herauszulösen. Insgesamt ist es sicherlich sinnvoll, so viel wie möglich Information aus einer Erhebung zu holen. Gleichzeitig sollte man aber auch nicht aus den Augen verlieren, dass eine Reihe von echten Replikationsexperimenten methodisch gesehen noch weit überzeugender sind. Freedman (1991: 18f) schreibt klar und deutlich: 96
Von Tukey (siehe Davies (2008: 195)) stammt der Satz “There’s no such thing as a free lunch.” 97
Ein ähnliches Problem trat übrigens schon vor über 50 Jahren in der psychologische Testtheorie (Cronbach 1952) auf. Da es dort sehr aufwändig ist, einen Test zu wiederholen, wurden Formeln entwickelt, wie sich die Reliabilität und Validität (im Sinne der psychologischen Testtheorie) des Tests verändern sollten, wenn man z. B. doppelt so viele (vergleichbare) Items vorgibt. Auch in dieser Literatur hat man zuweilen den Eindruck, man könne - ohne empirische Untersuchung - den Effekt der Verdoppelung zweifelsfrei berechnen. 98
Siehe S. 267
244
4 Induktion
“Generally, replication and prediction of new results provide a harsher and more useful validation regime than statistical testing of many models on one data set.” 99
Wir führen diese Überlegungen in Abschnitt 5.1.5 weiter.
4.3.6 Bewertung der Randomisierung Als eines der wichtigsten Werkzeuge der klassischen Statistik ist die Randomisierung heute omnipräsent. Dem entspricht ein immenses Vertrauen in ihre Fähigkeiten. In der evidenzbasierten Medizin haben sich z. B. Levels of evidence durchgesetzt100 A Evidence obtained from a systematic review of all relevant randomised controlled trials B Evidence obtained from at least one properly designed randomised controlled trial C Evidence is from outcomes of uncontrolled or non randomised trials or from observational studies D Panel consensus judgement Die Ergebnisse randomisierter Studien werden als erheblich stärker eingeschätzt als die Evidenz aus Quasi-Experimenten und weit überzeugender als das Fachwissen eines Expertenkreises.101 Häufig spricht man bezeichnenderweise von randomised evidence und identifiziert bzw. verwechselt damit die Methode mit ihrem Zweck, nämlich einen überzeugenden Vergleich sicherzustellen. Nur selten wird dies in der Literatur hervorgehoben: In statistics, the purpose of randomization is to achieve homogeneity in the sample units [. . .] it should be spelled out that stability and homogeneity are the foundation of the statistical solution, not the other way around. (Wang 1993: 52, Hervorhebung im Original)
Bei Wissenschaftlern, die beständig mit stochastischen Modellen hantieren, erwartet man bei einem ganz zentralen Verfahren eine unemotionale, kritische, intensive Auseinandersetzung über die Stärken und Schwächen der Methode. Doch wie wir gesehen haben, distanzieren sich viele Autoren kaum 99
Man stoße sich nicht am Passus “statistical testing of many models”. Die Kritik wendet sich nicht nur gegen die Modellierung (mit ihren zuweilen zweifelhaften Annahmen), sondern vor allem auch gegen die Verwendung eines einzigen Datensatzes hierbei. 100 Die Quelle nachfolgenden Aufstellung ist The Australian Lung Foundation (2007). Für eine noch detailliertere Einteilung siehe das Oxford Centre for Evidence-based Medicine (2009). Oftmals werden auch römische Zahlen zur Einteilung der Evidenz verwendet. 101
Zu letzterem heißt es ausdrücklich: “This category is used only in cases where the provision of some guidance was deemed valuable but the clinical literature addressing the subject was deemed insufficient to justify placement in one of the other categories. The Panel Consensus is based on clinical experience or knowledge that does not meet the above-listed criteria.”
4.3 Orthodoxe Induktion
245
von Fishers vollmundigen Äußerungen und statt auf quantifizierbare Aussagen stößt man auf unscharfe verbale Formulierungen oder einschlägige autoritative Zitate. Randomisierung wird zu ganz verschiedenen Zwecken eingesetzt. Möchte man mit ihr präexperimentelle Vergleichbarkeit herstellen, so ist sie für die Logik des Experiments von zentraler Bedeutung. Im Fall der Postrandomisierung erschließt man mit ihr sonst unzugängliche Informationen. Eine Zufallsauswahl soll Repräsentativität garantieren, und bei Randomisierungstests prüft man anhand der induzierten, bekannten Verteilung, ob überhaupt ein Effekt vorliegen könnte (was immer dessen Erklärung sein mag). In allen diesen Fällen auf die „Macht“ der Randomisierung zu vertrauen, zu hoffen, dass sie schon die gewünschte Wirkung haben möge, ist zumindest unkritisch und zuweilen genauso dogmatisch wie der Glaube an die Wirksamkeit eines ungeprüften Medikaments. Wir haben gelernt, dass es keine wirkungsvollen Medikamente ohne Nebenwirkungen gibt, es vielmehr gilt, kritisch Risiken und Chancen zu überprüfen und gegeneinander abzuwiegen. Völlig analog ist auch die statistische Methode der Randomisierung kein Allheilmittel, das z. B. immer mühelos einen Kausalschluss rechtfertigen würde. Schlimmstenfalls wird sie, wie bei Single-Subject-Randomization-Tests, routinemäßig angewandt, ohne dass sie irgendetwas mit dem interessierenden induktiven Schluss zu tun hätte. Leider wird im Fall der Randomisierung die unkritische und damit auch unmotivierte Verwendung durch eine Reihe von Faktoren gefördert: Die Methode, richtig angewandt, hat ihre Meriten (Kontrolle unbekannter Störfaktoren), welche sogar ein Alleinstellungsmerkmal sind. Eine Autorität (Fisher) hat sie eingeführt, und sie ist zu einem Eckpfeiler der orthodoxen Statistik geworden, weil sie ganz hervorragend zu deren Denken in Stichprobenräumen passt. Die Randomisierung definiert in natürlicher Weise einen solchen Raum mit einer bekannten, ja sogar vom Experimentator definierten Wahrscheinlichkeitsverteilung. Insgesamt konnte es mit der Axiomatisierung der Wahrscheinlichkeitstheorie und deren Dominanz bei der Datenanalyse102 in den folgenden Jahrzehnten eigentlich nicht ausbleiben, dass auch kontrollierte, vom Zufall maßgeblich gesteuerte Experimente, eine dominante Position erringen würden. Die Überlegungen der klassischen Statistik haben bei klinischen Studien den stärksten Einfluss gehabt. Deshalb zeigen sich dort auch die Grenzen statistischer Experimente am deutlichsten. Die Kritik zielt vor allem auf deren interne und externe Validität. Ein strenges Studiendesign beschreibt genau die Gruppe von Patienten, die zu untersuchen ist, Ein- und Ausschlusskriterien grenzen die Stichprobe systematisch ein. Da jedoch jede Bedingung eine Selektion beschreibt, wird so die Menge der zuzulassenden Personen immer kleiner. Manche Gruppen, wie Schwangere oder Kinder, werden sogar zumeist von vorneherein ausgeschlossen. Will man von den verbliebenen 102
Man denke an die grundlegende Setzung X = x.
246
4 Induktion
„DIN-Patienten“ der Studie dann auf die Praxis schließen, sind die Ergebnisse oft kaum generalisierbar (Albrecht 2005). Es ist auch üblich, bekannte Faktoren entweder konstant zu halten oder gezielt auszubalancieren und erst am Ende zu randomisieren, um sich vor unbekannten Störfaktoren zu schützen. Die randomisierte, „blinde“ Zuordnung verhindert zwar eine Reihe von Schwierigkeiten, eine ganze Reihe von Selektionseffekten wird jedoch dadurch nicht überzeugend ausgeschlossen.103 Auch kann die gezielte, systematische Untersuchung einer kleinen, homogenen Gruppe weit mehr Erkenntnisse liefern als die eher grobe Analyse einer großen (heterogenen, wenn auch annähernd repräsentativen) Zufallsstichprobe. Erfolgreiche, wirklich neue Therapieansätze ergeben sich gar nicht so selten aus dem Studium kleiner Populationen, über deren Genetik und Lebensweise viel bekannt ist.104 In Tierexperimenten folgt man derselben (systematischen) Strategie,105 und auch die sehr erfolgreichen Experimente der klassischen Naturwissenschaften zeigen, dass man ohne Randomisierung weiterkommen kann.106 Trotz aller Bemühungen sind selbst große Studien zudem nicht wirklich replizierbar. Dafür hängen sie von zu vielen, nicht oder nur äußerst schlecht kontrollierbaren Randbedingungen ab. In einem satirischen Aufsatz beschrieben Sackett und Oxman (2003) zahlreiche, allgemein bekannte Manipulationsmöglichkeiten. Sie verwenden das drastische Wort Schlampe,107 um auf die vielfältigen Spielräume selbst bei strengen randomisierten Studien aufmerksam zu machen. Das Problem verschärft sich durch den immensen Interessendruck im pharmazeutisch-medizinisch Bereich (siehe z. B. Smith (2003, 2005), Jadad und Enkin (2007: 11) sowie Gøtzsche et al. (2009)), doch auch der Publikationsdruck in der aktuellen Wissenschaft ist nicht zu unterschätzen.108 Eine probate Maßnahme, die Manipulationsmöglichkeiten einzuschränken, ist ein a priori vorzulegendes detailliertes Untersuchungsprotokoll (Senn 2000: 138, 143). Dies verteuert jedoch nicht nur die ohnehin schon sehr aufwändigen Studien weiter, sondern leistet zudem der unflexiblen, sehr konservativen Haltung Vorschub, die wir schon weiter oben (siehe S. 111ff) kritisiert haben. 103 104
Siehe S. 225 und V. Berger (2005a). Siehe z. B. deCode genetics (2008) und Mantel und Pepys (2006).
105
Das heißt, man experimentiert mit sehr homogenen Tierstämmen, über deren biologische Eigenschaften viel bekannt ist. 106
Man denke an die schon häufiger erwähnten Zwillingsstudien. Wer wollte es einem Patienten zudem verdenken, wenn er den behandelnden Arzt auffordert, ihn gemäß seinem (vermeintlichen) Vorwissen zu behandeln: “Doctor, you know about me and about my disease. You must have a hunch about which treatment would be better for me. Please give me that treatment and forget about flipping coins.” (Kadane und Seidenfeld 1990: 341) 107
HARLOT: How to Achieve positive Results without actually Lying to Overcome the Truth. 108
Betrug in der Wissenschaft ist nicht so selten, wie man früher angenommen hat. Ernüchternde Überblicke geben Fischer (2004) und Judson (2004).
4.4 Induktive Logik und Bayessche Statistik
247
Die wohl wichtigsten Argumente für kontrollierte statistische Experimente sind ihre Objektivität und große Aussagekraft. Die vorgenannten Beispiele zeigen jedoch, wie leicht sich selbst etablierte Verfahren aushebeln lassen. Randomisierung ist keine Allheilmittel, vielmehr ist sie ein wichtiger Baustein des Experiments, zu dessen Aussagekraft alle (zufälligen wie systematischen) Faktoren und die sorgfältige Durchführung mindestens genauso wie sein Design, beitragen. Als Ökonom bewertet man solche Experimente nicht zuletzt aufgrund ihres Preis-Leistungsverhältnisses. Kurz gesagt: Wieviel Aufwand ist erforderlich, um ein gewisses Maß an Evidenz zu gewinnen? Der Aufwand ist zweifelsohne groß und lässt sich bei dieser Sicht der Dinge nur rechtfertigen, wenn die Evidenz entsprechend valide und reliabel ist. Je mehr Zweifel jedoch auf Seite der Evidenz angebracht sind, desto eher wird man sich nach Alternativen umsehen. Eine wachsende Anzahl von Forschern, welche von den realen Möglichkeiten der orthodoxen Statistik eher ernüchtert sind, blickt sich nach Alternativen um. Die bedeutsamste Entwicklung ist hierbei sicherlich die Renaissance Bayesscher Ideen und Methoden, der wir uns gleich zuwenden wollen. Für den aktuellen Stand der Diskussion im medizinischen Bereich siehe Senn (2003: 35): “Although other statistical methods are more popular, the Bayesian method is quickly gaining ground.”
4.4 Induktive Logik und Bayessche Statistik To resolve the obscurities about probability and inductive inference is equivalent in my opinion to laying out a philosophy of knowledge. Kempthorne (1971: 482)109
Vor R. A. Fisher dominierte die Bayessche Schule die Statistik. Ihren Namen verdankt sie ihrer Schlussweise, bei der das Bayessche Theorem eine Schlüsselrolle spielt. Doch reichen die Unterschiede tiefer und beginnen bereits bei der (subjektiven) Interpretation des Wahrscheinlichkeitsbegriffs. Wichtiger noch ist, dass Statistiker dieser Denkrichtung den zugehörigen Kalkül verwenden, um logisch-konsistent auch bei Unsicherheit zu argumentieren. Es waren vor allem Neo-Bayesianer seit den 1950er Jahren, die diesen Ansatz systematisch ausbauten. Für einen historischen Überblick siehe z. B. die ausgewogene Darstellung in Barnett (1999), insbesondere dessen Abschnitte 1.6 und 1.7 sowie Kapitel 6. Die am weitesten reichenden Überzeugungen sind dabei wie immer philosophisch und werden heute unter der philosophischwissenschaftstheoretischen Schule des Bayesianismus zusammengefasst. Zu dieser kommen wir später (siehe S. 559ff). Zunächst geht es uns darum, den 109
Wenig später (ibd., S. 485) heißt es: “I regard [the failure of philosophy of knowledge] as the crux of all our problems understanding statistics and statistical inference.”
248
4 Induktion
induktiven Ansatz - im Sinne einer strengen induktiven Logik - innerhalb der Statistik systematisch zu entwickeln.
4.4.1 Induktive Logik The idea of a reasonable degree of belief intermediate between proof and disproof is fundamental. It is an extension of ordinary logic, which deals only with the extreme case. . . Jeffreys (1955), zitiert nach Barnett (1999: 81)
Die klassische Logik kennt nur wahr und falsch, ist also zweiwertig. Geht man von wahren Aussagen aus, so kann man mit ihrer Hilfe neue wahre Aussagen herleiten, also beweisen. Anders gesagt ist sie der sichere, deduktive Weg vom Allgemeinen zum Speziellen. Darin liegt ihre große Stärke aber auch Schwäche. Denn weder kann man mit ihrer Hilfe Grade der Sicherheit ausdrücken, noch kommt man mit ihr vom Speziellen zum Allgemeinen, und sei die Diskrepanz noch so gering. Die Idee ist also naheliegend, in der Wahrscheinlichkeitstheorie eine Erweiterung der üblichen, deduktiven Logik zu sehen. Probability Theory as extended logic ist das Stichwort, das sich, zuweilen sogar wortwörtlich in der einschlägigen statistischen wie philosophischen Literatur findet.110 Ramsey (1926: 182) schreibt kurz und bündig: “[. . .] the laws of probability are laws of consistency, an extension to partial beliefs of formal logic, the logic of consistency.” De Finetti (1995: 181) schließt sich dem an: “[. . .] the calculus of probability can be considered as a many-valued logic (precisely: a continuous scale of values), and that this point of view is the best one for elucidating the fundamental concept and logic of probability.” Ganz ähnlich Lindley (2002: 22): “The language of uncertainty is that of probability which, as Laplace said, is ‘common sense reduced to calculation’ [. . .] the only language appropriate to statements of uncertainty is that of probability.” (Hervorhebung im Original.) Schließt man in der klassischen zweiwertigen Logik nur deterministisch, also mit Wahrscheinlichkeit Eins bzw. Null, so geht es in der induktiven Logik um Schlüsse, die lediglich mit einer gewissen Wahrscheinlichkeit P , wobei (0 ≤ P ≤ 1), gültig sind. Das prädestiniert die so erweiterte Logik dazu, zum formalen Kern einer allgemeinen induktiven Grundhaltung zu werden. Die meisten Autoren unterscheiden gar nicht explizit zwischen dem formalen Kalkül auf der einen und dessen Anwendung auf das Induktionsproblem auf der anderen Seite. Sie stützen sich dabei explizit auf die Tradition des britischen Empirismus, insbesondere das Buch von K. Pearson (1892) und ein Zitat von Maxwell (1850): 110
Siehe z. B. Jaynes (2003), Jeffreys (1973) sowie L. Cohen (1989) oder Carnap (1963).
4.4 Induktive Logik und Bayessche Statistik
249
The actual science of logic is conversant at present only with things either certain, impossible, or entirely doubtful, none of which (fortunately) we have to reason on. Therefore the true logic for this world is the calculus of probabilities, which takes account of the magnitude of the probability which is, or ought to be, in a reasonable man’s mind.
Schließlich formuliert de Finetti (1974a: Bd. 2, 201),111 völlig unzweideutig: “In the philosophical arena, the problem of induction, its meaning, use and justification, has given rise to endless controversy, which, in the absence of an appropriate probabilistic framework, has inevitably been fruitless, leaving the major issues unsolved.” Bevor man an dieser Stelle vorschnell weitergeht, sollte man sich zunächst über einen Spielraum klar werden, den es in der traditionellen Logik nicht gibt. Der Wahrheitswert einer Aussage A ist, wie die Formulierung bereits überdeutlich macht, eine Eigenschaft der Aussage. Spricht man jedoch von der einer Aussage bzw. einem Sachverhalt zugeordneten Wahrscheinlichkeit P (A), so gibt es zwei Interpretationen. Schon das Grundmodell (1.1), S. 10, macht deutlich, dass die Ursache der Unbestimmtheit sowohl im Objekt der Betrachtung liegen kann oder aber eine Konsequenz der mangelhaften Information des Betrachters aufgrund einer unzuverlässigen „Projektion“ ist: Probability is used in statistics in two different ways, to represent variability and to measure uncertainty. The first is an aspect of the physical world and the second is concerned with knowledge of an individual or group of individuals. Phenomenological and epistemological are the formal adjectives. (Cox 1986: 119)112
Da die Informationsstände verschiedener Beobachter unterschiedlich sein können, differenzieren manche Autoren bei der zweiten Interpretation darüber hinaus präzise und explizit zwischen your und my probability. Offenkundig kann die in der Praxis zu beherrschende Ungewissheit auch eine Mischung beider Aspekte sein, etwa wenn die natürliche Variabilität eines Merkmals von einer unzuverlässigen Messung überlagert wird. Ein zweiter Aspekt ist noch wichtiger. Jeder induktive Schluss ist umso plausibler bzw. überzeugender, je kleiner die dabei unweigerlich auftretende „induktive Lücke“ ist.113 Versteht man demgemäß die deduktive Logik als Grenz- bzw. Idealfall, so ist es natürlich zu fragen, wie weit man bei einem induktiven Schluss vom Fall zwingender Logik entfernt ist. Einige Beispiele sind 111
Zitiert nach Suppes (2009: 19), Über die grundlegende Unterscheidung besteht kein Dissens, wohl aber über die Bezeichnungsweise. Good (1988: 386f) verwendet z. B. die Adjektive epistemic und physical. Zugleich verweist er auf viele klassische Autoren und deren Interpretationen. 113 Es ist deshalb eine grobe und unfaire Vereinfachung, zu behaupten, viele Lehrbücher der Logik bestünden aus zwei Teilen. Einem ersten, welcher die deduktive Logik behandelt und in dem ausführlich auf logische Fehler und lückenhafte Schlüsse eingegangen würde; sowie einem zweiten, induktiven Teil, wo genau jene Fehler dann begangen würden. (Siehe Meehl (1990: 110) und Fetzer (2001: xix).) 112
250
4 Induktion
1. Die Entsprechung des Modus tollens (Gegenbeispiel) ist Fishers Signifikanztest mit der Beobachtung eines sehr unwahrscheinlichen, „extremen“ Ereignis 2. Eliminiert man sukzessive alle Möglichkeiten, bis nur noch eine einzige Alternative in Frage kommt, so besitzt dieses Verfahren bei endlich vielen Alternativen, darunter die Zutreffende, Beweiskraft. Auf der statistischen Seite entspricht diesem Ausschlussverfahren die sukzessiven Erhöhung bzw. Verminderung der Wahrscheinlichkeit der Alternativen bei statistischen Tests in Abhängigkeit von den Beobachtungen. (Siehe die Abschnitte 3.2.4 und 3.2.5.) 3. Verifiziert man eine Eigenschaft bei allen Mitgliedern einer Population, so ist auch dies ein deduktiver Schluss, falls die Population endlich ist. Dem entspricht der Wahrscheinlichkeitsschluss von einer (repräsentativen) Stichprobe auf die Gesamtheit. Darüber hinaus deckt sie im nichtdeduktiven Fall die Referenzklasse gleichmäßig ab. In allen diesen Fällen spielen Wahrscheinlichkeiten oder aus ihnen abgeleitete Größen die entscheidende Rolle, sie charakterisieren das Ausmaß der induktiven Lücke. Die Versuchung ist deshalb groß, angesichts solcher Beispiele den Wahrscheinlichkeitskalkül als die induktive Logik zu interpretieren. Carnap (1982: 31) schreibt:114 Anstatt von „logischer Wahrscheinlichkeit“ spreche ich manchmal von „induktiver Wahrscheinlichkeit“, weil meiner Meinung nach stets diese Art von Wahrscheinlichkeit im Spiel ist, wenn wir einen induktiven Schluß machen. Unter “induktiver Schluß“ verstehe ich [. . .] jeden Schluß [. . .] von der Art, daß die Konklusion nicht mit logischer Notwendigkeit aus der Wahrheit der Prämissen folgt. Solche Schlüsse müssen mit Hilfe des Grades der [. . .] Wahrscheinlichkeit ausgedrückt werden.
Damit unterstellt man jedoch nicht nur, dass es eine derartige Logik (des Schlusses vom Speziellen auf das Allgemeine!) gibt, zugleich nimmt man an, dass diese Logik auch immer angemessen ist, sie also nicht kontingent, abhängig von der speziellen Situation, sondern allgemein gültig ist. Schon das Beispiel der Fortsetzung einer deterministischen Zahlenreihe zeigt aber, dass Wahrscheinlichkeiten nicht jeden induktiven Schritt untermauern. Bei einer Approximation (bzw. Inter- und Extrapolation), also dem Schluss von endlich vielen Daten auf ein allgemeines Gesetz, kann man sogar noch nicht einmal von einem „Abstand“ zwischen endlich vielen und unendlich vielen Werten reden, geschweige denn ließe er sich mithilfe der Angabe eines einzelnen Zahlenwerts erfassen oder (logisch) überbrücken. Induktive Schlüsse sind verschiedenartig,115 und sie entziehen sich „naturgemäß“ einer logisch114
Siehe auch Schlick (1979: 433ff) und Reichenbach (1968: 191f, 343), Reichenbach (1947: 460). 115
Auch wenn man sie im Prinzip auf Datenkompression und Prädiktion reduzieren kann, siehe Abschnitt 5.5.4. Reichenbach war sogar der Ansicht, dass sich jegliche Induktion auf die enumerative Induktion zurückführen ließe, siehe Reichenbach (1968: 353f) und Reichenbach (1947: 461).
4.4 Induktive Logik und Bayessche Statistik
251
strengen Formalisierung. Deshalb es eine große Vereinfachung, bzw., gleichbedeutend, eine äußerst starke Annahme, man könne einen bestimmten induktiven Schritt durch die Angabe einer Wahrscheinlichkeit, also eines einzigen Zahlenwerts, der sein Ausmaß beschreibt, charakterisieren. Es wirkt geradezu verwegen, dass dies immer innerhalb eines Formalismus, also im Rahmen einer situationsunabhängigen induktiven Logik möglich sein soll. Richtig ist, Wahrscheinlichkeiten und ihr Kalkül als die bedeutendste, weil sehr allgemein anwendbare, in sich selbst widerspruchsfreie Möglichkeit zu interpretieren, induktiven Problemen zu begegnen. Nicht zuletzt ist die Statistik selbst durch und durch stochastisch. Zwar kann kein logisches Verfahren die Lücke wirklich überbrücken, ein “leap of faith” ist immer unausweichlich, doch lohnt es sicherlich, zu qualitativ formulierten Induktionsstrategien quantitative, insbesondere probabilistische Modelle auszuarbeiten: 1. Die Gewichtung einer Reihe von Hypothesen ist das probabilistischquantiative Gegenstück zur Abduktion bzw. der Inference to the best Explanation116 Ein rationaler Entscheider wird diejenige Erklärung als die plausibelste ansehen, welche am besten zu den Daten passt. Der Statistiker minimiert die induktive Lücke, indem er diejenige Hypothese (Verteilung) mit der kleinsten mathematischen Distanz zu den Daten (bzw. deren empirischer Verteilung) auswählt. 2. Mills Verfahren der Differenz führt einen a posteriori beobachteten Unterschied auf den einzigen a priori vorhandenen Unterschied zurück. Statistische Experimente stellen zum einen präexperimentelle Vergleichbarkeit her, definieren zum zweiten einen formalen Rahmen (z. B. die Varianzanalyse) und quantifizieren zum dritten den Zusammenhang zwischen Ursache (unabhängigen, experimentell variierten Merkmalen) und Wirkung (abhängige Variable). 3. Standardvorkehrungen (z. B. Variation der Bedingungen, Ausschluss und Kontrolle von Störfaktoren, Vergleichsgrößen und -gruppen, Replikation) in Experimenten aller Art lassen sich als Strategien verstehen, die Generalisierung vom einzelnen Experiment auf die realen Verhältnisse abzusichern. Die Statistik liefert zu vielen dieser Probleme quantitative Argumentationen.
4.4.2 Bayessche Statistik Every allowed extension of Aristotelian logic to plausibility theory is isomorphic to Bayesian probability theory. (Sog. Cox-Jaynes-Argument)117 116
Siehe z. B. Klärner (2003) oder Lipton (2004)
117
Benannt nach den Physikern R. T. Cox (1898-1991) und E. T. Jaynes (1922-1998).
252
4 Induktion
Meist beginnen Bayesianer nicht direkt mit einer Erweiterung der deduktiven Logik in Form einer „induktiven“ Logik, was zumeist gleichbedeutend mit der axiomatischen Behandlung der Wahrscheinlichkeitstheorie ist, sondern starten sogar noch einen Schritt früher. Wie auch in der Wirtschaftswissenschaften, der Spiel- und Entscheidungstheorie üblich, gehen sie von einem (idealisierten) rationalen Subjekt aus. Der homo oeconomicus ist das bekannteste dieser Geschöpfe, Jaynes (2003) führt zeitgemäßer einen Roboter als Entscheider ein. Der erste Konstruktionsschritt besteht dann darin, zunächst den Begriff der Rationalität zu axiomatisieren. Dabei stößt man schnell auf die Schwierigkeit, dass sich ein so vager Begriff wie „Rationalität“ auf sehr verschiedene Arten axiomatisieren lässt - je nachdem welchen Aspekt man betont, oder welche Situation man im Auge hat. Berger (1985: 121) zählt, beginnend mit Ramsey (1926), eine lange Liste solcher Axiomensysteme auf, und die philosophische Diskussion über das Wesen rationaler Überzeugungen und Schlüsse ist noch weit umfassender. Insbesondere Lecam (1977) wertet den Nutzen dieser Anstrengungen eher gering.118 Berger zieht daraus den weit häufigeren und weniger radikalen Schluss, sich nicht auf eines der Systeme zu fixieren, sondern ihre Gemeinsamkeit, nämlich die logische Konsistenz119 beim Umgang mit Überzeugungen in den Vordergrund zu stellen. Dies ist kein Zufall, denn beginnt man mit bzw. modelliert man ein rationales Subjekt, so muss man in einem mathematisch-formalen Rahmen fordern, dass sich dessen Überzeugungen nicht widersprechen und neue Informationen so verarbeitet werden, dass die Konsistenz erhalten bleibt. Außerdem ist Widerspruchsfreiheit auch inhaltlich gesehen eine Mindestforderung an jede Art von Rationalität. Nun stellt sich sofort heraus, dass sich rationale Überzeugungen120 als Wahrscheinlichkeiten ausdrücken lassen. Die klassische Arbeit hierzu ist R. T. Cox (1946). Sei x eine Aussage, x ¯ ihre Negation, B(x) der zu x gehörige Grad der Überzeugung (dass die Aussage richtig ist) und B(x|y) der Überzeugungsgrad in x, wenn y richtig ist. Gelten dann die drei Axiome 1. Überzeugungsgrade sind transitiv, also B(x) > B(y) und B(y) > B(z), so gilt auch B(x) > B(z); 118
Er schreibt ibd., S. 144f: “Any person indulges in beliefs, preferences and prejudices. As far as beliefs are concerned ordinary language makes a small and obviously inadequate provision for their expressions by means of words such as probable, very probable, likely, certain, possible, impossible. It is very tempting to try to construct a mathematical framework describing these states of mind more accurately as well as their possible modifications through the intervention of fresh observational evidence or other information. Such an attempt should be considered as reasonable as the early attempt to formalize the concepts of temperature and quantity of caloric. Unfortunately the attempts of a theory of pistimetry which have come to our attention are not very convincing and not very precise.” 119 Engl. zumeist coherency, also innere Widerspruchsfreiheit 120
Engl. zumeist belief
4.4 Induktive Logik und Bayessche Statistik
253
2. Es gibt eine Funktion f , welche die Überzeugungsgrade B(x) und B(¯ x) verknüpft, d. h. B(x) = f (B(¯ x)); 3. Die Überzeugungsgrade von x und y lässt sich mit einer Funktion g darstellen als B(x, y) = g(B(x|y), B(y)), so kann der Grad der Überzeugung als Wahrscheinlichkeit dargestellt werden.121 Nicht nur dieser Ansatz führt zu Wahrscheinlichkeiten. Carnap (1962) hebt darauf ab, dass Überzeugungsgrade nur dann gute Schätzer relativer Häufigkeiten sind (welche den Wahrscheinlichkeitsaxiomen genügen), wenn sie selbst schon die einschlägigen Axiomen respektieren. Lindley (1982a) geht von Scoring Rules aus und zeigt, dass solche Regeln ebenfalls nur dann rational sind, wenn auch sie den Axiomen des Wahrscheinlichkeitskalküls folgen. Für eine Zusammenfassung solcher Begründungen siehe Earman (1992: Abschnitt 2.5). Es gilt sogar noch weit mehr: Ramsey (1926) und de Finetti (1937) haben gezeigt, dass sich ein Wettender (also ein Entscheider in einer kompetitiven Situation) an die Axiome der Wahrscheinlichkeit halten muss, um nicht übervorteilt zu werden. Tut er es nicht, werden sogenannte “Dutch Books” möglich, welche es einem Gegenspieler erlauben, aus dem System des Wettenden Gewinne zu erzielen. Nur wenn die Einsätze des Wettenden im Sinne der Axiome der Wahrscheinlichkeitstheorie konsistent sind, ist ein solches gegnerisches System von Einsätzen, bei dem der Wettende auf längere Sicht zwingend verliert, nicht möglich.122 Wie werden nun innerhalb der Wahrscheinlichkeitstheorie Überzeugungen aufgrund von zusätzlicher Informationen in kohärente neue Überzeugungen umgesetzt? Dies ist der dritte und entscheidende Schritt. Hier spielt das Bayessche Theorem die zentrale Rolle, welchem der ganze Ansatz seinen Namen verdankt. Zunächst bezeichne P (B|A) die Wahrscheinlichkeit für das Eintreten von B, wenn A eingetreten ist. In logischer Sprechweise: P (B|A) gibt die Wahrscheinlichkeit von B an, wenn A wahr ist. In der elementaren Wahrscheinlichkeitstheorie setzt man P (B|A) = P (A∩B)/P (A), woraus sich sofort das Theorem von Bayes ergibt: P (A|B) = P (B|A) · P (A)/P (B) Als mathematisches Theorem ist es - wie jedes Ergebnis der reinen Mathematik - völlig unstrittig. Seine typische Anwendung ist wie folgt: Eine Reihe von sich wechselseitig ausschließenden Hypothesen H1 , . . . , Hk komme in Frage. P (Hi ) > 0 sei die Überzeugung eines Subjekts, dass die Hypothese i zu121
Wir folgen in unserer Darstellung MacKay (2005: 26). Mit Wahrscheinlichkeiten geschrieben lesen sich die Axiome wie folgt: i) Seien A, B und C Mengen bzw. „Ereignisse“ ¯ geraim Jargon der Statistik mit A ⊆ B ⊆ C, dann ist P (A) ≤ P (B) ≤ P (C); ii) Ist A ¯ = 1 − P (A); iii) de die zu A komplementäre Menge, so ist ihre Wahrscheinlichkeit P (A) P (A ∩ B) = P (A|B) · P (B). 122
Für Details siehe z. B. Earman (1992: 38ff), Greenland (1998a: 324ff), de Finetti (1980), insbesondere Kapitel 7-9 und Howson (2008, 2009).
254
4 Induktion
trifft. Wie muss sich dessen Überzeugung ändern, wenn es B beobachtet? Das Bayessche Theorem gibt die Antwort. Ein rationales Subjekt muss auf P (Hi |B) = P (B|Hi ) · P (Hi )/P (B) kommen. In der statistischen Testtheorie ist, wie wir oben gesehen haben, eine Hypothese nichts anderes als eine Verteilung. Das Bayessche Theorem gibt dann an, wie sich die Wahrscheinlichkeit der Verteilung, also die Wahrscheinlichkeit, dass die Hypothese zutrifft, aufgrund von zusätzlicher Information verändert. Man kann, anders gesagt, in Verteilungen niedergelegte Informationsstände ineinander umrechnen. Deshalb schreibt man das Bayessche Theorem auch gerne in der intuitiven Form Posterior
=
Evidence · Prior
Aus dieser Schreibweise wird auch sofort deutlich, dass sich die Information, welche eine Beobachtung bzw. ein Experiments liefert, nur in der Evidenz wiederfindet. Davon sauber getrennt ist das Wissen vor dem Experiment, welches durch die Priori-Verteilung123 repräsentiert wird. Eine einfache Multiplikation ergibt den Stand der Dinge nach dem Experiment, technisch gesehen die Posteriori-Verteilung.124 Wieder ist es wichtig, die Umrechnung von Überzeugungsgraden, die ein rational agierendes Subjekt aus Gründen innerer Konsistenz vornehmen muss von einem Induktionsschluss zu trennen. Es ist eine Sache, das gesamte Vorwissen in der Priori-Verteilung zu modellieren, dann die Evidenz, also die Wahrscheinlichkeit für das Auftreten der Daten bei Zutreffen der Hypothese, zu berechnen und daraus dann, ebenfalls deduktiv, die Posteriori-Verteilung zu ermitteln. Eine ganze andere Sache ist es jedoch, die Posteriori-Verteilung als Prognose zu interpretieren und damit einen induktiven Schritt zu begründen. Mit der Bayesschen Formel lässt sich genausowenig die induktive Lücke überbrücken, wie mit irgendeinem anderen mathematisch-logischen Verfahren. Es existiert weder eine induktive Logik noch ein mathematisches Modell, das routinemäßig induktive Schlüsse erlaubte. Leider erleichtern die obigen Bezeichnungen nicht gerade die Unterscheidung zwischen der modellinternen (subjektiven) Einschätzung und der auf die Realität bezogenen Prognose, womit Verwechslungen an der Tagesordnung sind.
Subjektiver Ansatz (Subjective Bayes) Die Schule des subjektiven Bayesianismus mit ihren führenden Vertretern de Finetti (1974a) und Savage (1972) ist in gewisser Hinsicht am konsequentesten. Dem Problem der verschiedenartigen Interpretationen von Wahrscheinlichkeiten begegnet sie dadurch, dass sie alle Wahrscheinlichkeiten als persönliche Überzeugungen interpretiert: 123
Engl. meist nur prior
124
Engl. meist nur posterior
4.4 Induktive Logik und Bayessche Statistik
255
Probability is a description of your (the reader of these words) uncertainty about the world. (de Finetti 1974a: vii)
Die Wahrscheinlichkeitstheorie ist dem entsprechend nichts anderes als ein logischer Kalkül eben jener persönlichen Überzeugungen bzw. Informationsstände, dessen Herzstück das Bayessche Theorem ist. Kritik an einer solchen durch und durch subjektiven Interpretation lässt sich zwar leicht formulieren, bleibt jedoch an der Oberfläche, wenn sie auf subjektive Freiräume zielt. Zwar sind persönliche Überzeugungen schwerer zu fassen als viele andere empirische Phänomene, doch beginnend mit Ramsey (1926) hat insbesondere de Finetti viel Mühe darauf verwendet, mit geeigneten Spielen und zugehörigen Wetteinsätzen persönliche Wahrscheinlichkeiten präzise zu messen. Damit beweist er erneut, wie fruchtbar sich das Studium von Glücksspielen auf die Entwicklung der Wahrscheinlichkeitstheorie ausgewirkt hat, lässt man diese doch für gewöhnlich mit der Anfrage des Chevalier de Méré an Pascal im Jahr 1654 beginnen,125 in der es um die faire Auszahlung von Wetteinsätzen beim vorzeitigen Abbruch eines solchen Spiels geht.126 Subjektive Bayesianer reden nicht der subjektiven Willkür das Wort, sondern achten bei der Verarbeitung von Wahrscheinlichkeiten auf Rationalität und bemühen sich auch schon bei der Priori-Verteilung durch sorgfältige Befragung von Experten127 den fachwissenschaftlichen Stand zu ermitteln. Im besten Fall arbeitet man damit auf der Basis etablierten Wissens oder eines intersubjektiven Konsenses. Ansonsten dokumentiert man zumindest präzise das vorhandene Meinungsspektrum: A scientific-report-writer should give the posterior probabilities with a variety of prior distributions, typical or bounding of the report-readers’ personal uncertainties. (Dickey 1973: 219)
Ihre logische Widerspruchsfreiheit, die Einheitlichkeit der Methodik und der Interpretation, ihre Würdigung des Vorwissens und damit auch die Anpassung an die Spezifika einer empirischen Situation, machen die subjektive Bayessche Schule zu einer großen Herausforderung der orthodoxen Statistik.
Objektiver Ansatz (Objective Bayes) Vorwissen ist immer fachspezifisch und variiert damit von Situation zu Situation. In vielen Fällen ist es jedoch schwierig, auf jeden Fall aber aufwändig, solches Vorwissen zuverlässig zu ermitteln. Während die „subjektive“ Teilschule genau diesen Weg geht und aus den verfügbaren Informationsquel125
Es wurden jedoch auch schon früher sporadisch wahrscheinlichkeitstheoretische Argumente eingesetzt, etwa von Galilei. Siehe hierzu Bernstein (1996), Duncan (1984: 93) und die dort genannte Literatur. Viele historische Studien findet man zudem in der vom Springer-Verlag herausgegebenen Zeitschrift “Archive for History of Exact Sciences”. 126
Siehe Pascal (2000).
127
Engl.: elicitation. Für eine ausführliche Behandlung dieses Themas siehe Lad (1996).
256
4 Induktion
len, insbesondere Expertenwissen, den Informationsstand vor einer Untersuchung extrahiert, also die Priori-Verteilung an die jeweilige Situation anpasst, schlägt die „objektive“ Schule den gegensätzlichen Weg ein. Sie sucht nach Klassen von Verteilungen, die als “Default” dienen können, also möglichst häufig sinnvoll einsetzbar sind. Ohne das Heranziehen inhaltlichen Wissens kann die Lösung dieses Fragestellung nur darin bestehen, gemäß bewährter theoretisch-formaler Kriterien Priori-Verteilungen zu identifizieren, die möglichst robuste Schlussfolgerungen garantieren - egal wie die konkrete Situation auch immer beschaffen sein mag. Man könnte auch anders argumentieren: Offenkundig haben Vorwissen und Daten eine andere Qualität. Ersteres ist ein Konglomerat aus bisherigem empirischem Wissen, Theorien und Überzeugungen. Letzteres sind konkrete, möglicherweise selbst in einem sorgfältig geplanten und durchgeführten Experiment gewonnene Informationen. In Anbetracht der Volatilität persönlicher Überzeugungen, auch jener von Experten, der Schwierigkeit, diese zuverlässig zu ermitteln und der Tatsache, dass immer erhebliches spezielles Fachwissen notwendig ist, um zu einer fundierten Meinung a priori zu kommen, sollte die im Experiment enthaltene Information auf jeden Fall auch möglichst für sich genommen, also ohne das (zuweilen wohl auch vermeintliche) Vorwissen analysiert werden. Genau dem dienen sogenannte neutrale Priori-Verteilungen, deren einzige Funktion es ist, das Bayessche Theorem anwendbar zu machen, um so zu einer im Wesentlichen durch das Experiment determinierten Schlussfolgerung zu kommen. Mit Blick auf Sensitivität bzw. Robustheit könnte man auf die Idee kommen, ein breiteres Spektrum von Priori-Verteilungen zu verwenden, um zu studieren, wie stark das Endergebnis der Analyse von den Priori-Setzungen einerseits und den Daten andererseits abhängt. Angesichts der heutigen Computerleistung wird dieser Ansatz auch mehr und mehr praktikabel. Eine solche Vorgehensweise empfehlen z. B. Carlin und Louis (2000: 12ff): “This agnostic view considers features of the prior (possibly the entire prior) as ‘tuning parameters’ that can be used to produce a decision rule with broach validity.” Bestenfalls stößt man so auf Verfahren, die in vielerlei Hinsicht günstig sind. Die genannten Autoren fahren fort: The experienced statistician prefers design and analysis methods that strike an effective tradeoff between efficiency and robustness [. . .] In a broad range of situations, one can gain much of the Bayes or empirical Bayes advantage while retaining frequentist robustness. Importantly, the Bayesian formalism properly propagates uncertainty through the analysis enabling a more realistic (typically inflated) assessment of the variability in estimated quantities of interest. Also, the formalism structures the analysis of complicated models where intuition may produce faulty of inefficient procedures.
Selbstverständlich lässt sich so auch der Einfluss mehr oder minder optimistischer bzw. pessimistischer Voreinstellungen überprüfen. Zum Beispiel lässt sich fragen, wie skeptisch jemand zu Beginn sein darf, um von den Daten (gerade noch) vom Gegenteil überzeugt zu werden, oder aber, wie stark die
4.4 Induktive Logik und Bayessche Statistik
257
Evidenz der Nullhypothese relativ zu der von den Daten am meisten gestützten Hypothese ist. Der minimale Bayes factor formalisiert die letztere Idee und ist eine Alternative zum p-Wert.128 Mathematisch motiviert sind schließlich sogenannte Conjugate Priors. Die Idee dabei ist, Priori- und Posteriori-Verteilung so zu wählen, dass sie zu einer gemeinsamen, mathematisch gut zu beschreibenden Klasse von Verteilungen gehören. Die Evidenz führt dann also nur dazu, dass man sich innerhalb einer zuvor gewählten Klasse von Verteilungen bewegt, was viele technische Vorteile mit sich bringt.129 Traditionellerweise versuchen Bayesianer Unwissenheit, also a priori fehlendes Wissen, zu formalisieren. Fehlt Vorwissen komplett, so hat man keinen Anlass, eine der in Betracht gezogenen Alternativen zu favorisieren. Die formale Entsprechung völliger Unwissenheit ist eine Gleichverteilung über alle möglichen (endlich vielen) Elementarereignisse. Laplace (1812) nennt dies principle of insufficient reason. Er wählte nämlich die Gleichverteilung “[because of] a lack of sufficient reason for assuming nonuniform priors.” (Siehe Kass und Wasserman (1996: 1347), an deren Darstellung wir uns auch im folgenden eng anlehnen.) Aufgrund diverser Paradoxa wurde dieses Prinzip von der heute klassischen Statistik heftig kritisiert. (Dazu gleich mehr im nächsten Abschnitt 4.4.3.) Eine andere, fast genauso direkte Methode stammt von Jaynes (1957, 1968). Shannon (1948) definiert den Informationsgehalt eines Ereignisses welches mit der Wahrscheinlichkeit pi auftritt, als dessen logarithmisch transformierte Wahrscheinlichkeit, nämlich pi · log(1/pi ).130 Dieser Ausdruck ist für 0 < pi < 1 definiert und größer als Null. Er ist umso größer, je kleiner pi ist, weshalb man ihn auch salopp von der mit dem Ereignis einhergehenden „Überraschung“ spricht. Die Ungewissheit oder auch Entropie H einer Wahrscheinlichkeitsverteilung ist nun einfach H=
n i=1
pi log(1/pi ) = −
n
pi log(pi ),
(4.1)
i=1
also die Summe aller Ungewissheiten im Einzelnen. Im Fall endlich vieler Werte maximiert gerade die diskrete Gleichverteilung über diesen Werten die Entropie. Liegt nun eine spezielle, durch ein Reihe von Randbedingungen eingegrenzte Situation vor, so schlägt Jaynes die Methode der maximalen Entropie (oft einfach mit „MaxEnt“ abgekürzt) vor. Das heißt, er empfiehlt dieje128
Siehe z. B. Goodman (1999b), Sellke et al. (2001) sowie zahlreiche weitere Artikel von J. Berger und Koautoren. (Eine ergiebige Quelle hierfür ist www.stat.duke.edu/ berger/papers.html). 129 Siehe z. B. Gelman et al. (2004: 41ff). 130
Wir schreiben im Folgenden log für die Logarithmusfunktion zu einer beliebigen Basis, etwa 10. Nur falls wir den Logarithmus zur Basis 2 verwenden, benutzen wir das Zeichen ld und ln für den natürlichen Logarithmus zur Basis e.
258
4 Induktion
nige Wahrscheinlichkeitsverteilung als Priori-Verteilung auszuwählen, welche H in der konkreten Situation maximiert.131
4.4.3 Diskussion der Bayesschen Statistik The 250-year debate between Bayesians and frequentists is unusual among philosophical arguments in actually having important practical consequences. Efron (2005: 1)
Paradoxa und Invarianzen Ein Hauptangriffspunkt der traditionellen Statistik war die Wahl der PrioriVerteilung und insbesondere das principle of insufficient reason. Man scheint, negativ formuliert, nur die Wahl zwischen Skylla und Charybdis, also einem erheblichen subjektiven Einfluss (Willkür) oder aber großen technischen Schwierigkeiten zu haben: Stellt man zum Beispiel die Frage, ob es in der Nähe des Sterns Sirius Leben gibt, so kann die Antwort darauf θ1 =ja oder θ2 =nein lauten. Es liegt also nahe, formal als Grundmenge Θ = {θ1 , θ2 } zu wählen, und das Prinzip besagt dann, dass P (θ1 ) = P (θ2 ) = 1/2 sein sollte. Ohne Vorwissen werden wir jeder der beiden plausiblen Möglichkeiten die Wahrscheinlichkeit 1/2 zuordnen. Stellt man die Frage jedoch nur etwas anders, z. B. 1. ω1 = es gibt kein Leben in der Nähe von Sirius 2. ω2 = es gibt zwar Planeten in einem Orbit um Sirius, aber kein Leben 3. ω3 = es gibt Leben auf Planeten in einem Orbit um Sirius, und wendet das Prinzip auf die Menge Ω = {ω1 , ω2 , ω3 } an, so sollte die Wahrscheinlichkeit für Leben um Sirius P (ω3 ) = 1/3 sein. Da die Ereignisse θ1 und ω3 übereinstimmen, erhält man für ein und dasselbe Ereignis zwei verschiedene Wahrscheinlichkeiten! Dieses Partitionierungsparadoxon132 ist im Wesentlichen die diskrete Version mangelnder Invarianz des Parameterraums im Allgemeinen. Sei zum Beispiel 0 ≤ θ ≤ 1. Die Annahme völligen Unwissens drückt sich als die stetige Gleichverteilung auf diesem Intervall aus. Reparametrisiert man jedoch z. B. mit der Funktion φ = eθ , so ist 1 ≤ φ ≤ e. Auf dieser Menge (neuer) Parameter liegt jedoch keine Gleichverteilung mehr vor. Dies passiert offenkundig immer dann, wenn man - ausgehend von der stetigen Gleichverteilung - eine nichtlineare Transformation zur Reparametrisierung verwendet.133 131
Fast unbekannt, aber vielleicht von einiger Bedeutung ist, dass man auch den Bayesfaktor 132
Engl.: partitioning paradox
133
Im Klassiker Fisher (1922) wird die Sinus-Funktion verwendet.
4.4 Induktive Logik und Bayessche Statistik
259
Wir treffen hier also auf dieselben Schwierigkeiten wie beim Wein-WasserParadoxon (siehe Abschnitt 3.9.3),134 und können analog zur dortigen Situation vorgehen. Neben den nicht-formalen Argumenten, die wir im obigen Abschnitt bereits ausführlich diskutiert haben, wie z. B. nach der inhaltlichen Bedeutung der Parametrisierung zu fragen, und damit wie beim subjektiven Bayes-Ansatz bzw. wie Carnap im Fall von Messskalen, gewisse Parametrisierungen auszuzeichnen (siehe S. 157), bieten sich zwei rein formale Auswege an. Der erste Ausweg fragt nicht primär nach Parametertransformationen, sondern sucht bei fester Parametrisierung nach einer Verteilung als PrioriVerteilung, die sich unter allen in Frage kommenden auszeichnet. Hierin stimmten die Methode der maximalen Entropie und das klassische Indifferenzprinzip überein: Beide gehen von einer Festlegung des Problems auf eine bestimmte Parametrisierung aus und lösen in dieser gegebenen Situation ein Optimierungsproblem (maximale Entropie bzw. minimale Information). Der zweite Ausweg besteht wie im Rahmen der Messtheorie darin, Familien von natürlichen Transformationen zu betrachten und relativ zu diesen invariante Wahrscheinlichkeitsverteilungen zu finden. Objektive Bayesianer haben diesen Ansatz in der Nachfolge von Jeffreys (1946) intensiv verfolgt.135 Von besonderer Bedeutung ist Jeffreys Überlegung. Analog der mächtigen Substitutionsregel der Integrationstheorie wählte er eine Priori-Verteilung πθ , welche proportional zur Determinante der Informationsmatrix einer gegebenen Parametrisierung θ ist. Dadurch erreichte er, dass bei einer Reparametrisierung, etwa γ = γ(θ), die Priori-Verteilung πγ dort der Gleichung πθ = πγ · | det(∂γ/∂θ)| genügt. Das heißt, kurz gesagt, dass die Priori-Verteilung genau die „Verzerrung“ durch den Wechsel der Parametrisierung mitmacht. Fasst man PrioriVerteilungen als Voreinstellungen, im Sinne von “[. . .] these priors serve as ‘defaults’; that is, choices that may be made automatically without any contemplation of their suitability in a particular problem” auf,136 so stellt sich heraus, dass Jeffreys Priori-Verteilung eine besondere Bedeutung zukommt. Zum Beispiel wird er von Kass und Wasserman (1996) mehrfach als the default among the defaults bezeichnet. Mit Blick auf die oben vorgestellten Modelle und Verfahren beachte man auch, dass hier zum ersten Mal die Enge der linearen Theorie wirklich überwunden wird. Die Messtheorie ordnet die Güte von Skalen hierarchisch an. Je höher das Skalenniveau, desto weniger Konventionen bzw. persönliche Freiräume gibt es bei der Konstruktion der Skala. Dementsprechend ist die Menge der zugehörigen zulässigen Transformationen umso kleiner, je mehr Information auf 134
Aber auch dem Kriterium der Erwartungstreue, siehe S. 368 Siehe insbesondere Berger (1985), Kass und Wasserman (1996) und die dort genannte Literatur 135 136
Siehe Kass und Wasserman (1996: 1360)
260
4 Induktion
die realen Verhältnisse zurückgeht. Diese Idee lässt sich hier verwenden, um eine Brücke zwischen der subjektiven und der objektiven Schule zu schlagen. Optimalerweise ist das Vorwissen so stark, dass es die Priori-Verteilung eindeutig festlegt. Analog zur Absolutskala hat man also keine Wahlmöglichkeit und die einzige zulässige bzw. relevante Transformation ist die identische Abbildung. Ist das Vorwissen kleiner, so genügt die Information nicht, um die Situation bis auf eine einzige Verteilung genau spezifizieren zu können. Je geringer das Vorwissen, desto mehr Freiheitsgrade hat man a priori. Dem entsprechend wird die Menge aller sinnvollerweise zu beachtenden Transformationen immer größer, und damit hier auch die Menge aller zulässigen Priori-Verteilungen. Ausgezeichnet sind insbesondere die linearen Transformationen (Einheit und Nullpunkt willkürlich), was im Großen und Ganzen auf „Location-Scale-Familien“ von Verteilungen hinausläuft sowie die monotonen Transformationen (nur die Anordnung der Daten lässt sich sinnvoll interpretieren, jedoch ist keine metrische Information verfügbar), was hier den sogenannten nichtparametrischen Verteilungsfamilien entspricht. Dem Extremfall der Nominalskala entsprechen beliebige injektive Transformationen des Parameterraumes, womit man verteilungsseitig bei der Klasse aller diskreten (bzw. stetigen) Verteilungen angelangt. Geht man noch darüber hinaus und lässt, wie beim Wein-Wasser-Paradoxon, sogar nichtinjektive Transformationen zu, so vergröbert man den Parameterraum, verliert also offensichtlich durch die Transformation Informationen.137 So gesehen sind Mengen von Parametertransformationen alles andere als willkürlich und man sollte auch nicht anstreben, dass eine Statistik möglichst invariant unter beliebigen Transformationen ist. Unter diesem Gesichtspunkt zeigt sich, dass das Sirius-Beispiel weit weniger ein Paradoxon ist, das gegen das Indifferenzprinzip spricht, als vielmehr ein Beispiel dafür, was passiert, wenn man pathologische Situationen als den Normalfall darstellt. Das Sirius-Beispiel stützt sich maßgeblich auf nicht-injektive Transformationen. In diesem sehr allgemeinen Fall verliert die Gleichverteilung, also jene Verteilung, welche keinen der zulässigen Parameterwerte „bevorzugt“, ihre ausgezeichnete Stellung.138 Vor die Wahl gestellt, auf die Gleichverteilung und ihre Verwandten (z. B. das Lebesguesche Maß) oder aber nichtinjektive Parametertransformationen zu verzichten, wird sich wohl jeder Stochastiker für letzteres entscheiden. Anders gesagt: Es ist eher ein pathologisches Zeichen, Extreme als Beispiele heranzuziehen, als ganz natürlich innerhalb eines festgelegten Rahmens ein Optimierungsproblem zu lösen bzw. nach Invarianzen zu fragen. Wohl deshalb hat das Partitionierungsparadoxon als Kritik eher theoretisch-prinzipielle Bedeutung, während die obigen Methoden erfolg137
Gewisse zuvor unterscheidbare Werte θ und θ fallen nämlich dann zusammen, werden also auf ein und dasselbe γ = γ(θ) = γ(θ ) abgebildet. 138
Zum Beispiel wird aus der Gleichverteilung über der Menge Ω durch die nicht-injektive Abbildung ω1 → θ1 ; ω2 , ω3 → θ2 eine Verteilung mit 1/3 = P (θ1 ) < P (θ2 ) = 2/3 über der Menge Θ.
4.4 Induktive Logik und Bayessche Statistik
261
reich angewandt werden.139 Eine Herausforderung stellt jedoch Hutter (2007: 40ff) dar, da er ein natürliches Beispiel für die Verfeinerung einer Partition angibt (nämlich den Übergang von „schwarz-weiß“ zu „Farbe“). Zugleich leitet er aber mit Invarianzüberlegungen einen aus der Informationstheorie stammenden “universal prior” her, der unabhängig von der Partitionierung und Parametrisierung ist (siehe S. 532).
Subjektivität Mit Blick auf Abschnitt 1.3 ist der wohl prinzipiellste Einwand die Subjektivität der Theorie. Ein rationaler Entscheider wird in den Mittelpunkt der Betrachtung gerückt und alle Argumente beziehen sich letztlich auf seine Überzeugungen und deren (rationale) Modifikation. Ein solcher Ausgangspunkt ist für die Spieltheorie natürlich, geht es dort doch um mehrere Parteien, die sich mehr oder minder konfrontativ gegenüberstehen und die Entscheidungen zu treffen haben. Es ist jedoch fraglich, ob dem Experimentator oder Beobachter eine ähnlich zentrale Rolle zukommt. Ist nicht ein wichtiges Ziel von Experimenten vom Beobachter möglichst unabhängige Ergebnisse zu erhalten? Fast genauso prinzipiell fällt die Kritik am zweiten Schritt beim Aufbau der Theorie aus. Wahrscheinlichkeit wird als subjektive Überzeugung bzw. subjektiver Informationsstand aufgefasst. Nun hatten wir aber schon weiter oben (S. 249) betont, dass es zwei fundamental verschiedene Arten der Interpretation dieses Begriffes gibt. Cox (1986: 119) fährt denn auch fort: “Much of the controversy about the foundations of statistical theory arises from disagreement about the relative importance of and relation between these ideas.” Auf der einen Seite steht die Auffassung, dass Wahrscheinlichkeiten eine Eigenschaft der realen Welt oder zumindest des Messvorgangs sind. Gerne wird in diesem Zusammenhang auch der Begriff objektiv verwendet (siehe S. 120), um zu untermauern, dass es sich auf keinen Fall um subjektive Einschätzungen handelt. Diese empirisch-phänomenologische Wahrscheinlichkeit identifiziert man mit beobachteten relativen Häufigkeiten bzw. deren idealem Grenzwert bei häufiger Wiederholung ein und desselben Vorgangs, zumeist „Zufallsexperiment“ genannt. Sowohl in der Fachstatistik (von Mises 1919) als auch in der Philosophie (Reichenbach 1949) wird dieser zwar enge, dafür aber auch gut empirisch fundierte Wahrscheinlichkeitsbegriff prominent vertreten.140 Wie wir schon gesehen haben (S. 120), stützen sich auch Neyman und Pearson explizit auf die Häufigkeitsinterpretation, und es ist gewiss kein 139
Zu MaxEnt siehe z. B. Soofi (2000: 1351). Die Beziehung zwischen dieser Methode und den obigen Reparametrisierungsparadoxa wird nicht ganz unparteiisch in Seidenfeld (1986) aufgearbeitet. 140 Gigerenzer (1993: 140) zeigt, wie klein die Welt der Ideen und wie stark die wechselseitige Befruchtung ist, wenn er darauf hinweist, dass von Mises maßgeblich von Fechner, einem der Begründer der Psychophysik, beeinflusst wurde.
262
4 Induktion
Zufall, dass Anhänger der heute orthodoxen Statistik von ihren Gegnern als frequentists bezeichnet werden. Bayesianer kritisieren zunächst zurecht die Enge des obigen Begriffs, der zum Beispiel dazu führt, dass einem Einzelfall keine Wahrscheinlichkeit zugeschrieben werden kann. Relative Häufigkeit und damit (frequentistische) Wahrscheinlichkeit ist in der Terminologie von Mises’, eine Eigenschaft eines Kollektivs und nicht eines Mitglieds desselben. Etwa ist die Wahrscheinlichkeit, dass ein Versicherungsnehmer vor Ablauf des nächsten Jahres stirbt, für die Kalkulation jeder Lebensversicherung von entscheidender Bedeutung. Sie wird sogenannten Sterbetafeln entnommen, also tabellarischen Werken, denen sich die relative Häufigkeit eines Todesfalls, die sogenannte Sterbewahrscheinlichkeit je Versichertengruppe (insbesondere nach Geschlecht und Alter differenziert) entnehmen lässt. Sie ist in frequentistischer Lesart nur für eine Gruppe von Versicherten wohldefiniert, nicht jedoch für eine einzelne Person, was man sofort erkennt, wenn man die Person einem anderen Kollektiv zuordnet.141 Dies hindert die meisten Menschen jedoch nicht daran, die in einer Sterbetafel genannte Häufigkeit als ihr persönliches Risiko zu interpretieren, das nächste Jahr nicht zu überleben. Wie wir gesehen haben, stellen genau solche quantifizierten, subjektiven Überzeugungen, für Bayesianer Wahrscheinlichkeiten dar. Ihr Wahrscheinlichkeitsbegriff ist dezidiert subjektiv und hat erst nachrangig mit Eigenschaften der realen Welt und derer Messung zu tun. Im 19. Jahrhundert war dies die übliche Interpretation von Wahrscheinlichkeit und neben Laplace wird schon Bernoulli (1713), dessen Hauptwerk die erste systematische Darstellung der Wahrscheinlichkeitstheorie war, als Vertreter einer solchen Auffassung genannt.142 Kommt es dem Frequentisten oder klassischerweise auch dem Experimentalphysiker zuallererst einmal darauf an, für seine spezielle empirische Problemstellung ein adäquates mathematisches Modell anzugeben, also eine „lokale“ Beschreibung des Phänomens zu geben; so ist der Bayesianer wie der Mathematiker oder auch der theoretische Physiker an einem in sich widerspruchsfreien, kohärenten Umgang mit Wahrscheinlichkeiten interessiert. Für Bayesianer im Speziellen steht wie für Mathematiker im Allgemeinen nicht die empirische Fundierung oder Verknüpfung von Tatbeständen, sondern die Widerspruchsfreiheit ihrer Überzeugungen im Mittelpunkt. Genau diese Kohärenz bzw. Konsistenz,143 also innere Widerspruchsfreiheit, gilt es, wie wir im letzten Abschnitt gesehen haben, sicherzustellen. Bemerkenswerterweise wurde im 20. Jahrhundert die klassische Auffassung nahezu völlig von der Häufigkeitsinterpretation ersetzt: “It is a challenging task of historical analysis [. . .] to sort out the processes of change among leading thinkers that produced the widespread 20th century belief that subjective probability is a discredited concept.” (Dempster 1990: 266) 141
Siehe S. 323ff
142
Siehe Dempster (1990: 266, 268) Engl. zumeist consistency, seltener coherency
143
4.4 Induktive Logik und Bayessche Statistik
263
Ein Teil der Antwort ist sicherlich der dominierende Einfluss der nichtbayesianischen Schule(n) über weite Strecken des 20. Jahrhunderts. Doch unbenommen davon haben wir gesehen, dass in der Statistik Wahrscheinlichkeiten in ganz unterschiedlicher Gestalt, und definitiv nicht nur als persönlicher Überzeugungsgrad, eine Rolle spielen. Man begegnet dem Zufall und allgemeiner stochastischen Argumenten in vielerlei Gestalt und Funktionen: 1. Als gezielter Eingriff des Experimentators, insbesondere bei der Zufallsauswahl (vor allem einer Stichprobe) um die Repräsentativität derselben, also die gleichmäßige Überdeckung der Population sicherzustellen und bei der Randomisierung, um vor der Durchführung des Experiments Vergleichbarkeit herzustellen oder in Form einer Postrandomisierung, um Informationen zu extrahieren. 2. Als schwer kontrollierbare Variabilität, insbesondere als natürliche Streuung eines Merkmals innerhalb einer Population (z. B. Körpergröße, Alter usw.), aber auch als Messfehler bei der Erfassung von Daten, Unzuverlässigkeiten bei deren Übermittlung und Speicherung.144 3. In Form unvollständiger Information, etwa als Ungewissheit über den Ausgang eines Experiments, als Risiko bei der Wahl einer Handlungsalternative oder als erwarteter Gewinn bei einem (noch nicht beendeten) Spiel, bis hin zu einer schwer fassbaren subjektive Überzeugung, z. B. der persönliche Einschätzung, wie wahrscheinlich das Eintreten eines einzelnen Ereignisses ist. Insgesamt kann man festhalten, das die Verengung auf subjektive persönliche Überzeugungen der Breite der Anwendungen nicht gerecht wird. Auch wenn das Interpretationsproblem dornig ist, es lässt sich nicht einfach als akademische Diskussion abtun. Bei jeder Anwendung der Wahrscheinlichkeitstheorie - also insbesondere in der gesamten Statistik - begegnet man ihm; Objektivität - oder zumindest das Bemühen um sie - nimmt in den modernen Wissenschaften einen zentralen Stellenwert ein. Schließlich tritt das Problem bei der Verwendung des Bayesschen Theorems offen zu Tage.
Interpretation des Bayesschen Theorems Je vager die philosophischen Probleme, umso leichter kann man sie als Fachwissenschaftler ignorieren. Deshalb hat die prinzipielle Diskussion über subjektiv versus objektiv wenig(e) bewegt. Bei den Interpretationen des Wahrscheinlichkeitsbegriffs sieht dies schon anders aus, und erst Recht polarisierte die Frage, in welcher Weise Informationen, die vor einer Untersuchung verfügbar sind, verwendet werden sollten. Wie ein Brennglas fokussiert nun das Bayessche Theorem, der entscheidende (dritte) Schritt des Bayesschen Ansatzes, die eher unscharfen Grundeinstellungen und zwingt geradezu zu einer Positionierung. 144
Das sogenannte „Rauschen“ des Kanals bzw. Mediums
264
4 Induktion
Bayesianer aller Schattierung favorisieren eine subjektive Wahrscheinlichkeitsinterpretation und arbeiten mit der Priori-Verteilung. Orthodoxe Statistiker verwenden hingegen eine dezidiert empirische Interpretation von Wahrscheinlichkeit und lehnen nicht empirisch motivierte Priori-Verteilungen kategorisch ab. Während die einen deshalb das Bayessche Theorem zum Drehund Angelpunkt ihrer Überlegungen machen, versuchen die anderen es wo immer möglich zu umgehen. Die Meinungsgegensätze beginnen eigentlich schon mit Bayes (1763) selbst und wurden, nachdem Laplace (1812) seine für die nächsten 100 Jahre wegweisende Abhandlung geschrieben hatte, bereits im 19. Jahrhundert zum Gegenstand heftigerer Auseinandersetzungen, insbesondere zwischen de Morgan (1838), Boole (1854) und Venn (1888). Im 20. Jahrhundert führte der Dissens über diesen Punkt zum heute noch aktuellen Schisma verschiedener statistischer Schulen.145 Der erste Einwand gegen die Anwendung des Bayesschen Theorems ist vor allem technischer Natur. P (B), die Wahrscheinlichkeit im Nenner, berechnet sich aus dem Satz der totalen Wahrscheinlichkeit, also P (B) = P (B|H1 ) · P (H1 ) + . . . + P (B|Hk ) · P (Hk ). In der realen Welt kann jedoch nur eine der sich wechselseitig ausschließenden Hypothesen H1 , . . . , Hk der Fall sein, womit sich die Frage stellt, wie man P (B|Hi ) für alle Hypothesen Hi , die nicht zutreffen, empirisch untermauern kann. Deshalb haben manche Autoren146 für die Anwendung des Bayesschen Theorems in seiner Odds-Ratio-Form plädiert: Für je zwei Hypothesen Hi und Hj ist nämlich der Quotient ihrer Posteriori-Wahrscheinlichkeiten P (Hi |B) P (Hi ) P (B|Hi ) = · P (Hj |B) P (Hj ) P (B|Hj ) ein Ausdruck, in dem P (B) nicht mehr vorkommt. Zum zweiten steht dem konzeptionellen Vorteil, alle Wahrscheinlichkeiten einheitlich als subjektive Überzeugungsgrade zu interpretieren, der Nachteil gegenüber, dass nicht zwischen experimentellen und Beobachtungsdaten unterschieden wird. Boorstin (1983),147 schreibt knapp: “To be an experiment, an experience ha[s] to be repeatable.” Es ist sicherlich problematisch, eine in der modernen Wissenschaft so fundamentale Unterscheidung nicht zu berücksichtigen und eine statistische Theorie, die hierzu schweigt, ist unvollständig. Lecam (1977: 134, 145) bemerkt: The neo-Bayesian theory makes no difference between ‘experiences’ and ‘experiment’. [Its proponents] do not attempt a formalization of the concept of experiment and tend to treat experiments and fortuitous observations alike [. . .] they claim to 145
Eine knappe tabellarische Übersicht gibt Oakes (1986: 116), ausführlich ist Barnett (1999). 146 Insbesondere Barnard (1949), siehe auch Senn (2003: 37) 147
Zitiert nach Kish (1987: 49)
4.4 Induktive Logik und Bayessche Statistik
265
hold the magic which permits to draw conclusions from whatever data and whatever features one happens to notice.
Damit paraphrasiert er Fisher (1966: 8): Experimental observations are only experience carefully planned in advance, and designed to form a secure basis of new knowledge; that is, they are systematically related to the body of knowledge already acquired, and the results are deliberately observed, and put on record accurately.148
So einfach bzw. theoretisch-elegant es drittens ist, alle Evidenz formal in einem Faktor, zu bündeln (etwa dem Ausdruck P (B|Hi )/P (B|Hj ) bzw., häufiger, der Likelihood-Funktion), so schwierig ist es, dies zu rechtfertigen: One of the claims is that the experiment matters little, what matters is the likelihood function after experimentation. Whether this is true, false, unacceptable or inspiring, it tends to undo what classical statisticians have been preaching for many years: think about your experiment, design it as best you can to answer specific questions, take all sorts of precautions against selection bias and your subconscious prejudices. It is only at the design stage that the statistician can help. (Lecam 1977: 158)
Kurz gesagt, es erscheint eine (zu) grobe Vereinfachung zu sein, sich auf den Bayesschen Formalismus und insbesondere die Likelihood-Funktion bei der Analyse von Daten zu beschränken. Mit den Worten von Lecam (1988: 184): “There is no shortcut to reporting what was actually done and observed.” Mehr noch: Der Bayessche Ansatz unterscheidet nicht nur im LikelihoodAusdruck nicht zwischen zuverlässigen (experimentellen) und unzuverlässigen Daten. Das heißt, er macht zum Vierten auch keinen Unterschied zwischen prior und evidence. Der vermeintliche Vorteil, Informationen, egal aus welcher Quelle, gleichartig zu behandeln, kann auch als Nachteil aufgefasst werden, zumal es viele Forscher für einen erheblicher Unterschied halten, ob man empirische Fakten (also die Evidenz) „sprechen lässt“ oder vor dem Experiment die Priori-Wahrscheinlichkeiten irgendwie schätzt. Evidenz, etwa die mithilfe der Likelihood-Funktion gemessene, ist empirisch fundiert, berechnet sich direkt aus den Daten, nicht jedoch eine Priori-Verteilung, die oft lediglich eine persönliche Überzeugung ist. Hier nicht zu differenzieren bedeutet, beide auf eine Stufe zu stellen. Fünftens sind bei einer Anwendung des Bayesschen Theorems die Daten fest, die Analyse erfolgt bedingt unter den gegebenen Daten. Damit ergeben sich auch die prinzipiellen Nachteile der Resampling-Verfahren, nämlich die starke Abhängigkeit der Ergebnisse von der konkreten Stichprobe. Der Stichprobenraum, also die Menge aller möglichen bzw. a priori in Betracht gezogenen Beobachtungen, spielt keine Rolle. Fokussiert man sich so auf den 148
Siehe auch Wang (1993: 32) und Fisher (1966: 35): “It is possible, and indeed it is all too frequent, for an experiment to be so conducted that no valid estimate of error is available. In such a case the experiment cannot be said, strictly, to be capable of proving anything. Perhaps it should not, in this case, be called an experiment at all, but be added merely to the body of experience on which, for lack of anything better, we may have to base our opinions.” (Hervorhebungen im Original)
266
4 Induktion
Einzelfall und betrachtet die Beobachtungen x als fest, so formalisieren die Wahrscheinlichkeitsverteilungen (priori, posteriori) die Unbestimmtheit bezüglich der Parameter θ. Das heißt, der Parameterraum rückt bei der Bayesianischen Sicht ins Zentrum des Interesses. Dies ist auch eine häufig in der mathematisch orientierten Literatur anzutreffende Unterscheidung. McPherson (1989: 228) verdichtet die konzeptionellen Unterschiede auf sehr übersichtliche Weise: „[There] are three statistical approaches which require the definition of either an exhaustive collection of possible models, M, or an exhaustive collection of possible data sets, D, where the proposed model, M0 , and the observed data set, D0 , are necessarily elements of M and D respectively. The options are 1. the Bayesian approach in which the set M must be explicitly defined, 2. the Fisherian approach in which the set D must be explicitly defined, 3. the likelihood ratio approach in which both M and D must be explicitly defined. Arbeitet man mit einer Familie von Wahrscheinlichkeitsverteilungen Pθ (x), so wird der Unterschied auch formal ganz deutlich. Das eine Mal sind die Beobachtungen X zufällig, das heißt die Daten variieren so, wie im Stichprobenraum (sample space) formalisiert; zugleich sind die Parameter zwar unbekannt, aber fest. Das andere Mal sind die Parameter Θ Zufallsvariablen, während zugleich die Daten bekannt und fest sind. Der Likelihood-Ansatz ist insofern orthodox, als dass er den Parametern keine Wahrscheinlichkeiten zuordnet, jedoch geht auch er von festliegenden Daten x aus.
Likelihood-Prinzip und Likelihood-Schule Jede statistische Schule, die vom Einzelfall, also den vorliegenden Daten, ausgeht, muss sich dem Einwand stellen, dass die Art der Erhebung der Daten einen Einfluss auf ihre Auswertung und Interpretation haben sollte. Es gibt jedoch ein starkes, formales Argument für eine konsequente Posteriori-Sicht, aufgrund dessen mancher Bayesianer die Art, wie die Daten zustande gekommen sind, als gänzlich unerheblich betrachtet.149 Das Likelihood-Prinzip (LP), besagt, dass alle Evidenz in der LikelihoodFunktion steckt, es also genügt, nur diese Funktion zu beachten. Alle anderen Gesichtspunkte, insbesondere jene, die in der heute orthodoxen Statistik wesentlich sind, sind in dieser Lesart irrelevant. Das zentrale Resultat geht auf Birnbaum (1962)150 zurück, der feststellt, dass das Likelihood-Prinzip (LP) 149
Entsprechend schwer können Bayesianern deshalb auch der Randomisierung etwas abgewinnen. Siehe hierzu insbesondere Kadane und Seidenfeld (1990) sowie Spiegelhalter et al. (1994) und die dort genannte Literatur. Jaynes (2003: 531) überschreibt einen Abschnitt seines Buches sogar mit “the folly of randomization.” 150
Siehe auch Barnett (1999: Abschnitt 5.6)
4.4 Induktive Logik und Bayessche Statistik
267
äquivalent zu den sehr plausiblen Forderungen nach Suffizienz151 und Bedingtheit152 ist, also LP ⇐⇒
CP und SP.
CP besagt, dass nur alles, was tatsächlich passiert ist, auch beachtet werden muss. Wird z. B. mit Wahrscheinlichkeit 1/2 Experiment A ausgeführt und mit Wahrscheinlichkeit 1/2 Experiment B, so ist bei der Auswertung der erhaltenen Daten nur relevant, welches Experiment tatsächlich stattgefunden hat. Das nicht durchgeführte Experiment ist irrelevant. Man betrachtet also alles bedingt auf das, was tatsächlich passiert ist; beschränkt sich also, kurz gesagt, auf die tatsächlichen Ereignisse. Das Suffizienzprinzip besagt zudem, dass es genügt, die für eine Fragestellung relevanten Daten zu betrachten. Alle Aspekte der Daten, die bezüglich der Fragestellung relevant sind, sind ausreichend oder suffizient, die darüber hinausgehenden Informationen sind randständiger Natur153 oder sogar störend.154 Akzeptiert man diese beiden ziemlich allgemeinen Prinzipien,155 was vielen Statistiker leichter fällt als das (scheinbar) spezielle Likelihood-Prinzip, so ist man logisch gezwungen, nur die Likelihood-Funktion als einzige Quelle der Evidenz zu akzeptieren. Da das Likelihood-Prinzip für Bayesianer von zentraler Bedeutung ist, wurde es insbesondere von dieser Schule intensiv untersucht und Berger und Wolpert (1988) widmen ihm ein ganzes Buch. In jüngerer Zeit ist es zudem gelungen, diese Prinzipien aus der Enge der ursprünglichen Formulierung zu lösen (Bjørnstad 1996). Man kann das Likelihood-Prinzip auch akzeptieren, ohne Bayesianer zu sein. Die Likelihood-Schule ist eine Mischung von bayesianischen und frequentistischen Ideen (Edwards 1992). Wie die Bayesianer akzeptiert sie das Likelihood-Prinzip. Wie ihre Gegenspieler zieht sie jedoch aus dem wesentlichen Unterschied zwischen prior und evidence und der Schwierigkeit, PrioriInformation zu fassen, den Schluss, nur die tatsächlich in den Daten enthaltene Information zu verwenden. Aufgrund des Likelihoodprinzips verschärft sich die Überzeugung “let the data speak for themselves” der klassischen Statistik zum Studium der in der Likelihoodfunktion enthalten Informationen. Das heißt, Vertreter dieser Schule gründen, wie Barnard (1996b: 266) im folgenden Zitat, alle Inferenz einzig und alleine auf die Likelihoodfunktion: “I spent the decade of the 1950s preaching the gospel of likelihood.” Ein ganz konkreter Vorteil dieser Selbstbescheidung ist, dass die spezielle Parametrisierung keinen Einfluss auf die Analyse der Likelihood-Funktion hat (Bjørnstad 1996: 798). Die Likelihood-Schule ist also insofern im Vorteil, als dass sie we151
Engl.: sufficiency principle, oft SP abgekürzt
152 153
Engl.: conditionality principle, oft CP abgekürzt Engl.: ancilliary
154
Engl.: nuisance
155
Was auch andere tun, z. B. Historiker und Journalisten: „Die beiden Bezugspunkte des Journalisten sind das Wirkliche und das Wichtige.“ (Steingart 2008)
268
4 Induktion
niger Voraussetzungen (Festlegungen) benötigt als die Bayesianer und dies an einer historisch heftig umstrittenen Stelle. Die prinzipielle Kritik von frequentistischer Seite ist offensichtlich: Es genügt nicht, lediglich die Posteriori-Situation gegebener Daten und noch dazu nur die Likelihood-Funktion zu betrachten.156 Genauso offensichtlich ist die Kritik von Bayesianischer Seite: Anstatt eine komplette Bayesianische Analyse, mit der Likelihood-Funktion an prominenter Stelle, durchzuführen, bleibt dieser Ansatz auf halbem Wege stehen. Da jedoch alle Schulen die Bedeutung der Evidenz und insbesondere der Likelihood-Funktion würdigen, sind sie mit der Analyse der Likelihood-Funktion einverstanden. Das heißt, die praktischen Ergebnisse dieses Standpunkts werden nicht prinzipiell in Frage gestellt, sondern zumeist nur ergänzt. Zu derartigen weitergehenden Analysen bemerkt Royall (1997: 173f), ein führender Vertreter der Likelihood-Schule, feinsinnig: “Naturally, Bayesians have devoted enormous efforts to the pursuit of non-informative priors, ones that would represent the absence of knowledge, belief, opinion, prejudice, or preference. These efforts have been unsuccessful for a simple reason - pure ignorance cannot be represented by a probability distribution.” Royall unterscheidet also zwischen völliger Unwissenheit und der Spezifikation des Problems mithilfe irgendeiner Wahrscheinlichkeitsverteilung. Mit seinen eigenen Worten (ibd.): The reason why pure ignorance cannot be represented by a probability distribution is that every probability distribution represents a particular state of uncertain knowledge; none represents the absence of knowledge [. . .] It is one thing to state that I do not know which of two possible values of θ is true [. . .] It is quite another to assert that two values are equally probable.
Damit macht er deutlich, dass jede Formalisierung unabdingbar auch Festlegungen bedeutet. Durch die Art und Weise der Formalisierung definiert man einen Rahmen, innerhalb dessen man sich im folgenden bewegt. Arbeitet man nun mit Priori-Verteilungen, ist also in weitestem Sinne Bayesianer, so muss man die Verteilungen auf einem Parameterraum definieren. Die Spezifikation jenes Raumes kann man nun einfach - unkritisch - akzeptieren (Laplace, Jaynes), sie unter Zuhilfenahme von Vorwissen präzisieren (subjektiver Bayesianismus), sie in einem gewissen, noch analysierbaren Rahmen modifizieren (Jeffreys und objektiver Bayesianismus), sie pathologisch verändern (Sirius-Paradoxon) oder sogar ganz in Frage stellen (Royall). Dieses Meinungsspektrum existiert bezüglich jeder Festlegung, also bezüglich einer jeden Voraussetzung, die in beliebigen Analysen gemacht werden können. Das Spektrum tritt hier offen zu Tage, weil sich in der entscheidenden Voraussetzung fundamentale „philosophische“ Differenzen auskristallisieren. So kann man mathematisch-präzise Fragen diskutieren, die ansonsten nur verbal-vage im Raum stünden. 156
Wir erinnern an die Kritik Lecams, S. 264.
4.4 Induktive Logik und Bayessche Statistik
269
4.4.4 Einordnung des Bayesschen Ansatzes The intellectual stature of Bayes himself is measured by the fact that it is still of scientific as well as historical interest to know what Bayes had to say on the questions he raised. (Barnard 1958: 293)
In der jüngeren Vergangenheit hat sich die Hitze der prinzipiellen Debatten abgekühlt. Barnett (1999), siehe insbesondere dessen Abschnitt 5.7.1, macht mit dem Wortpaar initial versus final precision nicht nur den entscheidenden Unterschied deutlich, sondern zeigt damit zugleich, dass man es mit zwei sich ergänzenden Perspektiven zu tun hat. Jede Bayessche Datenanalyse ist in einem wichtigen Sinn a posteriori: Ausgehend von den tatsächlichen Daten werden Aussagen über unbekannte Parameter gemacht. Aus dem konkreten Einzelfall werden Informationen extrahiert. Die Sicht der heute klassischen Statistik ist hingegen a priori. Sie richtet ihr Augenmerk auf die bestmöglichen Erhebung der Daten, damit diese möglichst aussagekräftig, also reliabel und valide, werden. Heute werden Daten routinemäßig unter beiden Perspektiven ausgewertet und viele Kompromisse versuchen alle Gesichtspunkte angemessen zu berücksichtigen. Dabei ist es jedoch wichtig, die vielschichtigen Unterschiede nicht vorschnell auf irgendein Detail einer formalen Problembehandlung zu reduzieren. Wesentliche Differenzen sind: 1. Die Interpretation des Wahrscheinlichkeitsbegriffs (subjektiv oder empirisch) 2. Der Umgang mit a priori verfügbarer Information, insbesondere der Priori-Verteilung (verwenden oder nicht) 3. Die Gewichtung von Planungsaspekten relativ zu konkreten Daten. (Zufallsvariable und deren Verteilung versus Realisierung) 4. Die Differenzierung zwischen experimentellen Ergebnissen und beliebigen Beobachtungen (Datenqualität, Bemühung um Validität und Reliabilität) 5. Das Erkenntnisinteresse: Will man ein Verfahren optimieren oder aus den vorhandenen Daten lernen? Sind die Daten also primär oder nicht? 6. Ist die Erkenntnisrichtung deduktiv, d.h., liegt der Rahmen, in den die Daten eingeordnet werden vorher fest, oder geht man induktiv vor, sucht also in den Daten nach bislang nicht vermuteten Mustern. 7. Die relative Bedeutung des Stichproben- und des Parameterraums. Werden die Daten oder die Parameter als zufällig aufgefasst? Jede konstruktive Antwort auf diese zahlreichen Aspekte sollte eine zu einseitige Positionierung vermeiden. Tukey (1960a: 117) warnt z. B.: “The problems of improved investigation are among [. . .] the most important problems in statistics. They cannot - I repeat, cannot - be wholly treated within a formal framework of a posteriori frequency probability theory.” (Hervorhebungen im Original.) Auch macht Tukey (1972: 771) darauf aufmerksam, dass es zuweilen unangemessen ist, immer das (vermeintliche) Vorwissen mit den aktuellen
270
4 Induktion
Daten zu einem „Kompromiss“ zu verrechnen: “[. . .] the discovery of the irrelevance of past knowledge to the data before us can be one of the great triumphs of science.” Die Hauptgefahr sieht Tukey (1986a: xli) darin, dass alle in einer Problemstellung relevanten Gesichtspunkte immer mit demselben Formalismus bearbeitet werden, auch wenn dieser überhaupt nicht passt: [. . .] the greatest danger I see from Bayesian analysis stems from the belief that everything that is important can be be stuffed into a single quantitative framework. Such a belief inevitably leads to emphasis on the manipulation of the framework, and the techniques for stuffing - and of a tendency for framework technicians to be skilled in such techniques at the expense of understanding of what is to be stuffed.157
Das ausgewogene Gesamturteil von Tukey (1986a: xlii) ist deshalb: “It is relatively clear that discarding Bayesian techniques would be a real mistake; trying to use them everywhere, however, would in my judgement, be a considerably greater mistake.” Die meisten angewandten Statistiker, so auch der Autor, können sich wohl Efron (2001) anschließen, der in einem Interview seinen Standpunkt darlegt: The only complete theory of statistics is the Bayesian theory and even though it’s unassailable it somehow misses part of the story, which is that you can’t use it as an actual driving theory for complicated problems. You always are then forced to do something too complicated, and make up your mind on things you have no opinions on. So somehow Bayesian theory is wonderful but it doesn’t tell the whole story. Frequentist theory is shot full of contradictions but it seems to work so well.
Man beachte jedoch, dass die Kritik an der Enge des Bayesschen Ansatzes auch auf die Entscheidungstheorie und orthodoxe Methoden zutrifft. Cox (1986: 119) schreibt zum Beispiel: “[. . .] the more unified the treatment the better, it seems to me that a single approach is not viable. For example, considerable confusion can be caused by trying to force all problems into a decision-making form.” Erst recht trifft die Kritik eine Reihe von statistischen Anwendungsfeldern. Es ist völlig unbestritten, dass in den Sozialwissenschaften und der medizinischen Forschung viel zu viel mit statistischen Tests, in der Ökonometrie zu häufig mit multipler Regression, in der Biologie mit Varianzanalysen und in wieder anderen Feldern mit den jeweils dort beliebten Methoden gearbeitet wird. Anstatt das passende statistische Werkzeug zu wählen und dieses präzise, situationsadäquat anzuwenden, wird typischerweise auf Standardmethoden zurückgegriffen, die von den inhaltlich arbeitenden Wissenschaftlern schlimmstenfalls nur als (zur Publikation) „notwendiges Übel“ benutzt werden. Ein häufiger gemachter Vorschlag ist, in der einschlägigen Lehre mehr Wert auf statistisches Denken und weniger Wert 157
Viele Äußerungen Tukeys gehen in diese Richtung. Ein Beispiel sei noch genannt. “Bending the data to fit the analysis can be vital [. . .] But bending the question to fit the analysis is to be shunned at all costs.” (Tukey 1969: 723). Siehe auch seine Bemerkung zur erwartungstreuen Schätzung, S. 368.
4.5 Induktion und Modellierung
271
auf Formalismen zu legen.158 Hodges (1996), zitiert nach Mallows (1998: 2), unterstreicht dies nachdrücklich: The product of a statistical analysis is not a posterior distribution, or a decision, or a p value or other summary of the data, but rather what a statistician produces is an argument, [. . .] including the assumptions, the logical steps involved, and the conclusions.
Eine tiefergehende Synthese der Ansätze verschieben wir ins nächste Kapitel. (Siehe insbesondere den Abschnitt 5.3.6.) Wir beschließen auch diesen Abschnitt mit der Bemerkung, dass es, bei allen Gegensätzen zwischen den rivalisierenden Schulen, wiederum die gemeinsame mathematische Methode ist, die einen konstruktiven Dialog ermöglicht. Es sind Worte, die eine Debatte anheizen. Sobald man in der Lage ist, Differenzen mathematisch zu fixieren, kommt man zu wesentlich geschärften Argumenten (die trotzdem niemanden verletzen), von jedem akzeptiert werden müssen (was fruchtlose, ausufernde Debatten beendet) und zugleich von allen weiterentwickelt werden können.
4.5 Induktion und Modellierung [. . .] formal model creation is a pivotal component of practice lying between data analysis and inference. (Dempster 1998: 252)
Ungeachtet der teilweise fundamentalen Differenzen zwischen den verschiedenen statistischen Schulen hat sich die Überzeugung durchgesetzt, dass die mathematische Modellierung von Daten das Herzstück der Statistik ist. Innerhalb mathematischer Modelle lässt sich streng-deduktiv schließen. Mit ihrer Hilfe kann man Algorithmen entwickeln oder doch zumindest Heuristiken motivieren. Modelle sind explizit und sie machen insbesondere auch Annahmen transparent. Dabei sind sie flexibel und erlauben es, Phänomene aller Art im Detail zu analysieren. All das hat ihre „Karriere“ nachhaltig befördert. Für viele weitere Aspekte der Modellierung verweisen wir auf Kapitel 3.
4.5.1 Induktive Schlüsse mit Modellen Statistical modeling is about finding general laws from observed data, which amounts to extracting information from the data. (Rissanen 2007: 44)
Neymans Theorie des induktiven Verhaltens ist die einzige Inferenztheorie, welche induktive Schlüsse explizit ablehnt. Es ist bezeichnend, dass er jene 158
So z. B. Wilkinson (1999), Gigerenzer (2004), Gigerenzer et al. (2008), Cooper and Hedges (1994) und Guttman (1985). Siehe auch S. 93 und 94.
272
4 Induktion
nur in der akademischen Diskussion - nicht aber in der Anwendung - vertreten hat; zumal er schreibt: However, whatever the choice of phenomena, the conclusions of a consistent theory of inductive inference will always be applicable within the mathematical models of these phenomena and not within the domains of the phenomena themselves. Since, in many instances, the phenomena rather than their models are the subject of scientific interest, the transfer from the phenomena of an inductive inference reached within the model must be something like this: granting that the model M of phenomena P is adequate (or valid, or satisfactory, etc.) the conclusion reached within M applies to P . (Siehe Neyman (1955: 17), Hervorhebung im Original.)
Das heißt, man bette die Phänomene in ein Modell ein und ziehe innerhalb dieses Modells gewisse Schlussfolgerungen. Ist das Modell mathematischer Natur, so sind diese Schlüsse in aller Regel logisch-streng. Lässt sich dann zudem die Anwendung des Modells in einem konkreten Fall rechtfertigen, so sind die Schlussfolgerungen des Modells auch in der Realität gültig. Eine typische statistische Argumentation ist genau deshalb eine nicht ganz triviale Mischung aus Deduktion und Induktion. Diese Strategie findet man nicht nur in der Statistik. Vielmehr ist sie für die gesamte angewandte Mathematik aber auch für alle empirischen Wissenschaften, welche sich mathematischer Modelle bedienen, typisch. Zunächst ist ein geeigneter formaler Kontext zu konstruieren, in dem die Daten ihren Platz haben. Solange man sich dann innerhalb des mathematischen Modells bewegt, genießt man die Vorzüge (auch die Sicherheit) der Deduktion, insbesondere kann man gezielt Konsequenzen ableiten. Ist zudem die Anwendung des Modells gerechtfertigt, so lassen sich die im Modell erzielten Ergebnisse auf die Realität übertragen. Die induktive Unsicherheit versteckt sich in dem Wort adäquat.159 Andere Formulierungen sind: Das Modell passt, seine Anwendung ist gerechtfertigt, es ist eine gute Näherung, es deckt die Situation ab usw. (Siehe auch die Artikel von Cox (1986, 1990, 1995) und Royall (1997: Abschnitt 8.3).) Zwei weitere klassische Formulierungen sind: 1. Insofern sich die Sätze der Mathematik auf die Wirklichkeit beziehen, sind sie nicht sicher, und insofern sie sicher sind, beziehen sie sich nicht auf die Wirklichkeit. (Einstein 1993: 119f) 2. Allerdings ist zur Anwendung der Theorie auf die Welt der Erscheinungen meines Erachtens immer ein gewisses Maass von gutem Willen und Takt erforderlich: dass man für Punkte möglichst kleine Körper, für Gerade möglichst lange etwa Lichtstrahlen etc. substituirt. Auch wird man bei der Prüfung der Sätze nicht allzu genau sein dürfen; denn das sind ja nur Sätze der Theorie. Uebrigens je weiter eine Theorie ausgeführt ist und je feiner verzweigt ihr Bau ist, desto selbstverständlicher wird die Art ihrer Anwendung auf die Welt der Erscheinungen und es gehört schon ein sehr grosses Maass vom bösem Willen dazu, wollte man die feineren 159
Von der Lippe (1996: 28) spricht bei der Operationalisierung theoretischer Konstrukte sogar explizit von einem Adäquationsproblem.
4.5 Induktion und Modellierung
273
Sätze der Flächentheorie oder der Maxwell’schen Elektricitätstheorie auf andere Erscheinungen anwenden, als sie gemeint sind. . . (Hilbert 1944: 19) In seiner negativen Form war uns dasselbe Problem schon bei der Diskussion der Modellpassung (Abschnitt 3.11.1) begegnet. Wir hatten dort festgestellt, dass ein schlecht passendes oder sogar missspezifiziertes Modell völlig an der Realität vorbeigehen kann. In Anspielung auf die Fehler 1. und 2. Art schreibt Krengel (1988: 100) prägnant: “Man könnte die Benutzung eines nicht hinreichend realistischen Modells vielleicht einprägsam einen Fehler 3. Art nennen, damit man sich dieser Gefahr stets bewußt bleibt.” Kimball (1957: 134) definiert denselben Fehler als [. . .] the error committed by giving the right answer to the wrong problem. (Hervorhebung jeweils im Original.) Selbst der Satz, dass kein Modell wahr ist, sondern Modelle lediglich mehr oder minder nützlich sind, lässt sich als eine versteckte Formulierung des notwendigen induktiven Schlusses interpretieren.
Der induktive Schritt Es ist leicht einzusehen, warum der induktive Schluss vom Modell auf die Phänomene - wie Neyman es formuliert - immer notwendig ist. Ein mathematisches Modell, und sei es noch so umfangreich, ist immer eine in sich geschlossene, „kleine Welt“. Deren Gesetze liegen durch die getroffenen speziellen wie allgemeinen Annahmen fest. Anders gesagt: Das Modell ist zwar präzise, aber zugleich auch immer beschränkt; beschränkt auf all jene Aspekte, die man mathematisch formuliert, also formalisiert, in Randbedingungen und Setzungen ausgedrückt oder in letzter Konsequenz sogar axiomatisiert hat. Alle anderen Eigenschaften der Realität kommen im Modell nicht vor. Das heißt, man idealisiert die Realität und ist dann erfolgreich, wenn das Modell bezüglich der interessierenden Fragestellung nützliche Hinweise liefert. In diesem Sinne stellt jeder Schluss von einem beliebigen - nicht unbedingt mathematischen - Modell auf die Realität eine Verallgemeinerung, also einen gehaltserweiternden, induktiven Schritt dar. Der Schluss ist sicherlich dann gerechtfertigt, wenn alle für die Fragestellung relevanten Informationen (genügend detailliert) ins Modell eingeflossen sind und im Modell adäquat - also der Situation angemessen - berücksichtigt wurden. (Siehe schon S. 187ff.) Wie Neyman (1955) nennen dies Mallows und Walley (1981: 11f) assessment of model adequacy und geben eine Reihe von Faktoren für letztere an: relevance, generalizability, plausibility, simplicity and tractability, accuracy, completeness und tolerance (Robustheit). Anders gesagt, typische Fehlerquellen sind: 1. Nicht alle für das Ergebnis relevante Aspekte wurden berücksichtigt 2. Die Faktoren wurden strukturell falsch zusammengefügt
274
4 Induktion
3. Die Datenerhebung war mangelhaft, so dass die resultierenden Daten mit gravierenden systematischen wie unsystematischen Fehlern behaftet sind. Dadurch kann es leicht passieren, dass ein Modell hochgradig verzerrt und unpräzise die tatsächlichen Verhältnisse wiedergibt. Zweifel sind sicherlich dann angebracht, wenn man noch nicht einmal sagen kann, ob seine Voraussagen überhaupt bedeutsam sind oder die Prognosen häufig daneben liegen. Angesichts der immensen Probleme ist es überhaupt nicht verwunderlich, wenn viele Modelle weniger Ertrag abwerfen, als ihre Konstruktion an Aufwand erforderte oder sogar völlig fruchtlos bleiben. Diaconis (1998: 799) beschreibt den schlimmsten Fall: “The [. . .] model turned out to be worse than useless; giving the illusion of knowledge, soaking up a large amount of money for development and support, and in the end giving wrong forecasts.” Ist man auf prinzipielle Zweifel abonniert, so fällt es genausowenig schwer, ein Verdikt gegen Modelle im Besonderen wie gegen induktive Schlüsse im Allgemeinen zu verhängen.
Äußerer Erfolg Ist anderseits jedoch die Anwendung des Modells gerechtfertigt, so lassen sich die im Modell erzielten Ergebnisse auf die Realität übertragen. Häufiger noch ist es sogar genau anders herum: Man weiß nicht, ob das Modell gerechtfertigt ist, und es ist der empirische Erfolg, der über die Angemessenheit eines Modells urteilt. Mit den Worten von L. Euler, zitiert nach Heuser (1989: 20): „Durch die Experientz kann man also leicht determinieren, welche Theorie mit der Wahrheit übereinkommt.“ Selbst wenn man überhaupt keine Gründe für die Anwendung einer Theorie geben kann, also keine PrioriRechtfertigung bekannt ist, kann man einfach ausprobieren, ob die Ergebnisse des Modells zu den verfügbaren Daten passen. Ist dies (immer wieder) der Fall, so rechtfertigt letztlich der Satz, dass nichts erfolgreicher ist als der Erfolg, die Ad-hoc-Anwendung des Formalismus. Man weiß zwar nicht, warum das Modell funktioniert, jedoch ist es allemal besser ein hilfreiches Modell zur Hand zu haben, das sich - warum auch immer - bewährt, als mit leeren Händen dazustehen.160 Selbst wenn sogar gute Gründe gegen den Einsatz eines Modells sprechen, insbesondere weil dessen Grundannahmen deutlich verletzt werden oder die Struktur des Modells offensichtlich unpassend ist, kann das Modell sich gleichwohl noch immer bewähren. Einige nicht-statistische Beispiele: 1. Bei der Messtheorie hatten wir Stevens (1968: 856) zitiert: “The widespread use on ordinal scales of statistics appropriate only to interval or 160
Man denke an die vielen nachweislich wirksamen Medikamente, deren Wirkmechanismus jedoch ganz und gar unverstanden ist. Obwohl z. B. Aspirin seit mehr als 100 Jahren im Einsatz ist, weiß man immer noch nicht genau, wie es funktioniert.
4.5 Induktion und Modellierung
2.
3.
4.
5.
275
ratio scales can be said to violate a technical canon, but in many instances the outcome has demonstrable utility.” Die Newtonsche Mechanik kann als definitiv widerlegt gelten. Trotzdem genügt die Präzision ihrer Ergebnisse allen Erfordernissen der klassischen Physik. Wigner (1960) führt ein konkretes Beispiel aus der Quantenmechanik an. Die „Theorie der freien Elektronen“ ist eine exzellente Beschreibung der elektrischen Eigenschaften zahlreicher Materialien, d.h. sie passt hervorragend zu den experimentellen Ergebnissen. Von der grundlegenderen Quantenphysik aus gesehen ist sie jedoch nicht mehr als eine sehr grobe Approximation an die realen Verhältnisse (so, wie sie die Quantenphysik sieht). Man weiß also, dass man es eigentlich mit einer primitiven, groben Vorstellung zu tun hat und es würde einen nicht wundern, wenn diese deshalb zu schlechten oder falschen Vorhersagen führen würde. Gleichwohl passt diese schlichte, eigentlich zu sehr vereinfachende Hypothese faszinierend genau zu den beobachteten Fakten - ganz entgegen der Erwartung. Es kann sogar der Fall eintreten, dass die Grundannahmen völlig falsch sind, und das Modell trotzdem gut passt. Ruelle (1992: 90f) demonstriert diesen Punkt mit einem Gedankenexperiment: Man nehme 100 Flöhe und setze sie auf einem Schachbrett aus. Jeder Floh besetzte zu einem Zeitpunkt genau ein Feld und springe völlig willkürlich herum. Postuliert man nun, daß Flöhe die Tendenz haben, sich gleichmäßig über den ihnen zur Verfügung stehenden Raum zu verteilen, so wird diese Hypothese gut zu den experimentellen Ergebnissen passen, denn den größten Teil der Zeit werden viele Felder besetzt sein und kaum mehr als 10 Flöhe auf einem Feld verharren. Das heißt, die experimentelle Passung ist gut, obwohl die tatsächliche Gesetzmäßigkeit ganz anders ist. (Die Flöhe springen einfach nur herum, es interessiert sie überhaupt nicht, ob der Platz gleichmäßig genutzt wird oder nicht.) Derselbe Effekt wurde auch schon beim “Data Mining” beobachtet (siehe Abschnitt 4.6.3), wenn man also darangeht, ausgehend von gegebenen Daten, interessante Effekte in denselben aufzudecken. Es ist gar nicht so selten, dass Modelle eine gute Prognose liefern, deren Grundstruktur bekanntermaßen massiv von den tatsächlichen Verhältnissen abweicht.
Empirischer Erfolg, insbesondere in Form präziser Vorhersagen, die denn auch eintreten - also Prognosekraft - ist unbestritten eines der wichtigsten Kriterien zur Beurteilung von Modellen.161 Denn egal ob richtig oder falsch, das Modell muss auf jeden Fall nützlich sein. Die obigen Beispiele zeigen jedoch zugleich, dass man mit einer vorschnellen realistischen Interpretation der Modelle und ihrer Komponenten vorsichtig sein sollte. Die induktive Lücke zwischen allgemeiner Modellvorstellung und speziellen Daten, die „Unterbe161
Unseres Erachtens ist es sogar das wichtigste Kriterium. Siehe hierzu auch Saint-Mont (2000: Abschnitt 2.3). Man beachte aber auch Sokal und Bricmont (1998: 68).
276
4 Induktion
stimmtheit“ der Daten, ist sogar eines der Hauptargumente antirealistischer Positionen. Kurz gesagt ist (äußerer) Erfolg, insbesondere die Passung zu vorhandenen Daten, alleine kein hinreichender Grund, an die Wahrheit des Modells zu glauben.
Passung und innerer Aufbau Nicht nur um realistische Interpretationen zu untermauern, sondern vor allem, um die Erfolgsaussichten zu erhöhen, ist es ratsam, vor dem Einsatz des Modells, (gute) Gründe anzugeben, warum ein Modell funktionieren sollte. Hilbert nennt eine offensichtliche Begründung - die Anschauung. Hat man es nämlich mit Objekten der Anschauung und ihren mathematischen Entsprechungen zu tun, wie in seinen geometrischen Beispielen, so kann man direkt prüfen, ob die Theorie mit „gutem Willen“ angewandt wurde. Im Allgemeinen wird man Entsprechungen zwischen Modell und (wahrgenommener) Realität heranziehen, um zu begründen, dass das Modell funktionieren sollte. Kann man zum Beispiel die wesentlichen Stellgrößen und ihre Zusammenhänge substanziell untermauern, so ist ein Erfolg weit eher zu erwarten, als wenn von Anfang an klar ist, dass Faktoren fehlen, die Zusammenhänge nur ganz grob abgebildet wurden und auch die verfügbaren Daten lücken- und fehlerhaft sind. Bayarri (1995: 228) warnt völlig zurecht: “[. . .] modelling should not be about blindly throwing in parameters, playing around with arbitrary reparametrizations, using over-the-counter probability links, etc.” Das Ziel sollte vielmehr von Anfang an sein, die induktive Lücke klein zu halten. Doch auch in jenen Fällen, in denen ein direkter Vergleich zwischen Realität und Modell nicht gangbar ist bzw. jener sogar deutliche Zweifel am Modell aufkommen lässt, ist eine Anwendung a priori noch begründbar. War das Modell oder ein „enger Verwandter“ schon einmal in der gegebenen oder einer verwandten Situation - warum auch immer - erfolgreich, so spricht das für einen weiteren Versuch. Hier argumentiert man letztlich mit Analogien. Analogien sind strukturelle Ähnlichkeiten zwischen verschiedenen Situationen und bestenfalls hat man genau diese im Modell abgebildet. Das heißt, ein Erklärungsmuster lässt sich aufgrund seiner Allgemeingültigkeit von Situation zu Situation übertragen, weshalb “borrowing strength” eine in der angewandten Statistik häufig gehörte Wendung ist. Nicht selten wird eine gegebene Theorie gerade für eine Familie von Phänomenen gemacht. So wird kein Physiker oder experimentell arbeitender Wissenschaftler in einer vertrauten Situation das Rad von Grund auf neu erfinden, sondern zunächst auf tradierte Erklärungen zurückgreifen. Ingenieure arbeiten nur deshalb so effektiv, weil sie ausgehend von bewährten Prinzipien zielgerichtet neue Produkte konstruieren können. Das Paradebeispiel sind Simulationen, also am grünen Tisch bzw. im Computer durchgespielte Modelle und ihre Ergebnisse. Diese sind deshalb so erfolgreich und zu einer Konkurrenz realer Experimente herangewachsen, weil die innerhalb der Simulatio-
4.5 Induktion und Modellierung
277
nen berechneten Ergebnisse so exakt zur Realität passen. Mehr noch: auch wenn man die Anfangs- und Randbedingungen variiert, sagen die Simulationen verlässlich, was in diesen Fällen zu erwarten ist. Man muss nicht mehr viele Experimente machen, wenn man über allgemein anwendbare Theorien verfügt, die beliebig genau passende Vorhersagen machen. Selbstverständlich ist dieses Argument - prinzipiell - der enumerativen Induktion eng verwandt, doch ist es offenkundig allemal besser, sich auf endlich viele Fälle zu stützen, in denen sich eine Theorie bewährt hat, als davon auszugehen, in jeder neuen Situation sei immerzu alles ganz anders. Mit dieser Verteidigung muss man sich jedoch nicht begnügen, man hat es nämlich mit weit mehr als nur einer (beeindruckenden) Reihe vieler Positivbeispiele zu tun. Auch Luhmanns bekannte Formulierung, zitiert nach Schülein und Reitze (2002: 184): „Es geht bei Technik [. . .] um das Ausprobieren von Kombinationsspielräumen. [. . .] Dass es funktioniert, wenn es funktioniert, ist [. . .] der einzige Anhaltspunkt dafür, dass die Realität so etwas toleriert“ führt eher in die Irre, als dass sie erklärt, wann ein Modell greift. Der entscheidende Punkt ist, dass in der Struktur des Modells, also dessen Annahmen, Setzungen, berücksichtigten Merkmalen und Zusammenhängen detaillierte Vorstellungen über das Gebiet, welches man untersucht, stecken. Je genauer das Modell die realen Wirkmechanismen beschreibt, desto eher kann man damit rechnen, dass seine Anwendung erfolgreich sein wird. Die medizinische Ausbildung legt so viel Wert auf das Studium der Anatomie, damit sich die angehenden Helfer ein genaues, eigenes Bild des menschlichen Körpers machen. Man gibt sich viel Mühe, physiologische und pathologische Prozesse im Detail zu klären und die Wirkmechanismen von Medikamenten zu entschlüsseln, weil man die relevanten Abläufe verstehen will. Jeder, der aufgrund einer solchen Ausbildung zumindest ungefähr weiß, wie die Dinge liegen und zusammenhängen, kann gezielter und damit auch erfolgversprechender handeln. Cox (2000: 323) drückt dies wie folgt aus: The reason for being interested in models is, however, clear. They are an imperfect but hopefully reasoned attempt to capture the essence of some aspect of the real physical, biological or social world and are in principle empirically at least partially testable. If we have a reasonably fruitful representation than in principle everybody is or should be interested in it.
Also greift letztlich auch hier das Argument der (kleinen) induktiven Lücke: Je besser die bei der Modellformulierung verwendeten Setzungen die Realität treffen - „wahrheitsnah“ sind - desto größer sind bei der Anwendung des Modells auch die Erfolgsaussichten. Erfolg ist kein Zufall: Er basiert auf im Modell kodi(fizi)erten Einsichten.162 162
Mit den der Psychologie entlehnten Begriffen Konstruktvalidität für den inneren Aufbau und externer Validität für die äußere Passung eines Modells entwerfen Shadish et al. (2002) eine (verallgemeinerte) Theorie kausaler Schlüsse. Damit betonen Sie den induktiven Schritt der Generalisierung und ihre Kriterien (zusammengefasst in ihrem Buch S. 357ff) lesen sich denn auch wie Spezifikationen von Mills allgemeinen Vorgaben. Ihre Kernaussage deckt sich mit der unseren: Generalisierung ist dann fundiert, wenn sie auf
278
4 Induktion
Allgemein ist die Situation die folgende: Direkt lässt sich nur der äußere Erfolg des Modells erfassen. Seine „oberflächliche“ Passung ist das Hauptkriterium dafür, ob man ein Modell verwenden sollte oder nicht. Eine erfolgreiche Passung (a posteriori), ist a priori gesehen eine Prognose, also ein induktiver Schluss vom Modell bzw. über jenes hinaus auf die Realität. Dieser Schluss wird umso eher gelingen, je kleiner die induktive Lücke ist. Je besser deshalb die Binnenstruktur des Modells ist, desto eher kann man davon ausgehen, dass er gelingen wird. Modelle mit hervorragender Binnenstruktur sind mathematisch, was die üblichen Vorzüge hat. Insbesondere werden alle verwendeten Annahmen explizit gemacht, die Zusammenhänge sind logischstreng-deduktiv und die Vorhersagen numerisch-präzise. Das Scharnier bilden die Daten. Diese werden zum einen verwendet, um als greifbarer Platzhalter der vagen „Realität“ ein (fertiges) Modell zu überprüfen. Hier heißt Erfolg, dass das Modell - inbesondere seine Vorhersagen - zu vorliegenden Daten passt. Zum anderen kann man ausgehend von ihnen auch ein Modell entwerfen, das heißt, aus Daten Informationen und Wissen generieren, oftmals geradezu extrahieren. Zur Entwicklung von Modellen gleich mehr im nächsten Abschnitt. Schlüsse innerhalb der Annahmen, die dem Modell zugrunde liegen, also innerhalb des damit gesteckten Rahmens, sind bei mathematischen Modellen zumeist deduktiv. Sind gewisse Daten integraler Bestandteil des Modells, so kann man sagen, dass man mit Daten plus zusätzlichen Annahmen einen Rahmen modelliert, innerhalb dessen man deduktiv argumentiert. Zum anderen kann man über die konkreten Daten und die spezifischen Setzungen des Modells induktiv hinausgehen. Dies geschieht insbesondere dann, wenn man ein Modell mit Daten, die nicht Teil des Modells sind (insbesondere neuen Fakten), experimentell überprüft.
4.5.2 Modellentwicklung [. . .] in model building we are up against the fundamental problem in science, which is to learn from nature [. . .] (Rissanen 2007: 6)
Der immense Vorteil von Modellen ist, dass man mit ihnen in der Lage ist, sich an die Wirklichkeit heranzutasten, sie immer genauer zu approximieren. Messvorrichtungen lassen sich sukzessive verbessern, so dass die Datenerfassung genauer wird, wichtige Faktoren schälen sich im Laufe der Arbeit mehr und mehr heraus und schließlich sollte auch der Mechanismus, über den die Faktoren zusammenhängen, transparenter werden. So gesehen gibt es beim Modellbau zwar ein völliges Scheitern, viel häufiger ist jedoch, dass zunächst einer angemessenen Modellbildung beruht. Dies gilt für experimentelle Designs, also formale Modelle des Experimentierens, genauso wie für die hier im Mittelpunkt stehenden deskriptiv-substanziellen Modelle mit erklärender und prognostischer Komponente.
4.5 Induktion und Modellierung
279
primitive Modelle durch immer feinere und besser passende ersetzt werden. Das Vorgehen ist zwar häufig mühselig, aber im Wesentlichen kumulativ, da die Genauigkeit der (äußeren) empirischen Passung sowie die (innere) Erklärungskraft letztlich die einzigen, entscheidenden Kriterien des Erfolgs sind. Cox (1990) klassifiziert Modelle danach, wie gut sie die realen Strukturen abbilden. Er unterscheidet im Wesentlichen zwischen empirischen Modellen (die ausgehend von Daten jene organisieren), weiter entwickelten sowie substanziellen Modellen. Ein größerer Teil von Lehmann (1990) ist ebenfalls der Unterscheidung von “empirical” und “explanatory models” 163 gewidmet, die er (ibd., S. 161) auf Neyman zurückführt. Letztere nennt er “theoretical” bzw. “mechanistic [because] they try to provide an explanation of the mechanism underlying the observed phenomena.” Cox (1990: 169) charakterisiert sie wie folgt: “In many ways, the most appealing models are those that connect directly with subject-matter considerations [. . .] These models aim to explain what is observed in terms of processes (mechanisms), usually via quantities that are not directly observed and some theoretical notions as to how the system under study ‘works’.” Er spezifiziert (S. 211) sogar eine Reihe von Kriterien, welche solche Modelle erfüllen sollten, darunter “The model should provide a link with the background substantive knowledge of the field [. . . It] should give some indication or pointer towards a process that might have generated the data and the parameters of interest should have clear subjectmatter interpretations.” 164 Typischer ist jedoch der Fall, dass zwar Daten vorliegen, jedoch keine hinreichend detaillierte Theorie, welche einem bei der Konstruktion des Modells wesentlich helfen würde. Cox (1990: 170) fährt fort: “The more common type of model in many fields of application is not based on any very specific subject-matter considerations but rather aims to represent in idealized form dependencies, often ‘smooth’ dependencies, thought likely to be present.” Inman (1994: 8) formuliert: “As an intellectual construct, the descriptive model has no claim to truth [. . .] such models ‘are good in so far as they give good fits to our observations of Nature’ (K. Pearson 1935).” Lehmann (1990: 161) spricht von “interpolation formulae [. . .] one of which is selected as providing the best fit to the data.” Darüber hinaus ordnet er (S. 163) den beiden Klassen von Modellen sogar verschiedene Zwecke zu: “Empirical models are used as a guide to action, often based on forecasts of what to expect from future observations [. . .] In contrast, explanatory models [. . .] constitute an effort to achieve understanding.” (Hervorhebungen im Original.) Wie wir im folgenden und in Abschnitt 5.5.4 noch ausführlicher beschreiben werden, sind Modellieren und Vorhersagen in der Statistik zuweilen sogar sich widersprechende Ziele, sie sind häufig 163
Die Terminologie ist nicht eindeutig. Box et al. (2005: 441) nennen letztere Modelle “mechanistic”. 164 Cox und Wermuth (1996) unterscheiden nicht nur zwischen verschiedenen Arten von Modellen (Abschnitt 1.6), sondern elaborieren auch die gerade genannte Liste (Abschnitt 1.8).
280
4 Induktion
entweder prognosestark oder theoretisch befriedigend. Dies erinnert nicht nur ein wenig an die Zeit, als das theoretisch falsche Ptolemäische Weltmodell die besseren astronomischen Vorhersagen lieferte, während das theoretisch weit bessere Kopernikanische Modell bei den Prognosen noch recht grob war. Oberflächlich gesehen kommt es primär auf eine gute Prognose, entscheidend gestützt auf die verfügbaren Daten, an. Bei näherer Betrachtung wird jedoch schnell klar, dass man ohne ein tieferes Verständnis dessen, was sich ereignet, nicht vorankommt. Hand und Vinciotti (2003) betonen deshalb ausdrücklich, dass “[. . .] in many problems simplicity and interpretability are advantages which can outweigh accuracy.” Gibt man sich vorschnell mit einer funktionierenden “black box” zufrieden, deren Binnenstruktur ziemlich beliebig ist, so arbeitet man leicht an einem „Ptolemäischen System“ (siehe S. 146), das irgendwann nicht mehr weiter zu entwickeln ist, weil seine grundlegenden Setzungen und Mechanismen überhaupt nicht mit der Realität übereinstimmen. Für ein (nicht nur) astronomisches Beispiel siehe Feynman (2007: 207f). Billige Rechenzeit hat leider die Tendenz zur „schnellen Prognose“ und zum „Wegwerfmodell“ (siehe S. 188) ebenso verstärkt wie die Neigung, Modelle zurückhaltend-instrumentell (siehe S. 181 und S. 184) zu interpretieren. Diaconis (1998: 798) kommentiert dies: “[. . .] modern model building seems to drive away from the truth into a fantasy land beyond objective reality.” Schon Bodmer (1987: 190) sah die Folgen sehr deutlich: “There can be too many parameters and too many models, so that we are spoilt for choice. We may no longer understand or have a feeling for what is in that sausage machine of the model builder.” Wie so oft, wenn die Gefahr besteht, dass der Erkenntnisprozess in der Sackgasse blutleerer Abstraktion und fruchtloser Simulation endet,165 schlägt auch Box sofort im Anschluss als Abhilfe wieder die konkrete Anwendungspraxis eines empirischen Forschungsbereichs vor: “That, again, is why I would go back to emphasising the value of statisticians who become embedded in a subject. I think they will have more of a ‘feel’ for the reality of models - even accepting the fact that models may never truly be real.” In allen Fällen muss man auf die eine oder ander Art über die Daten hinausgehen, und genau deshalb wird Modellierung als der wesentlichere Aspekt verstanden. In der Diskussion von Breiman (2001), der den größten Wert auf Vorhersage legt, merkt Cox (2001) kritisch an: [. . .] it may be desired to predict the consequences of something only indirectly addressed by the data available for analysis. As we move toward such more ambitious tasks, prediction, always hazardous, without some understanding of the underlying process and linking with other sources of information, becomes more and more tentative. Formulation of the goals of analysis solely in terms of direct prediction over the data set seems then increasingly unhelpful [. . .] From this perspective, fit, which is broadly related to predictive success, is not the primary basis for model choice and formal methods of model choice that take no account of the broader objectives are suspect in the present context [. . .] The absolutely crucial issue in serious 165
“[. . .] neither interesting mathematics nor useful in practice.” (Diaconis 1998: 798)
4.5 Induktion und Modellierung
281
mainstream statistics is the choice of a model that will translate key subject-matter questions into a form of analysis and interpretation [. . .] Better a rough answer to the right question than an exact answer to the wrong question [. . .]
Cox und Wermuth (1996) vertiefen die obigen Überlegungen, siehe auch unsere Ausführungen am Ende von Abschnitt 3.11.2. Wir zitieren nochmals Cox (2001: 218): “Professor Breiman takes a rather defeatist attitude towards attempts to formulate underlying processes; is this not to reject the base of much scientific progress?” Die unspektakuläre Realität des Alltags bewegt sich zwischen den Extremen: “Many, perhaps most actual modeling situations have an intermediate character” (Lehmann 1990: 165). Modelle sind teilweise deskriptiv und zum Teil explikativ, was Dempster (1983: 119) gut zum Ausdruck bringt “The essence of [exploratory data analysis] or [statistical modelling] is data reduction and manipulation so as to extract and exhibit comprehensible structure. Examples of structure are smooth approximations to empirical distributions or to empirical relations among variables. Such smooth forms are models.” Sie sind zum einen theoretische Idealisierungen, was ein Hauptgrund für ihre Fähigkeit, zu erklären, ist. Zum anderen werden sie dahingehend optimiert, die beobachtbaren Verhältnisse so gut wie möglich anzunähern, woher nicht zuletzt ihre Prognosekraft kommt. Aus beidem zusammen ergibt sich ihre Nützlichkeit, weshalb sie alltäglich in allen Bereichen der Wissenschaft und Praxis anzutreffen sind. Cox (1990) ist nicht der einzige, der ausdrücklich dafür plädiert, von empiristischen (rein datenanalytischen) Modellen zu substanzielleren Modellen voranzuschreiten: “This last point is important in trying to bring statistical analysis, with its strong purely empirical tradition, more in coherence with subject-matter considerations.” Diese Aufforderung ist nicht nur völlig natürlich, sondern, denkt man an Abschnitt 3.11.2 mit den dort referierten, zuweilen verworrenen Vorstellungen, mehr als überfällig.166 Den mühevollen Prozess der systematischen Modellentwicklung führt Dempster (1990: 269) explizit aus: Probabilistic uncertainty is very prominent due to its associated highly developed mathematical theory. Models that apply the theory are constructed, and often pass through stages from tentative and speculative to firm and well supported. Other uncertain aspects of scientific model construction that are even more fundamental also exhibit a progress from soft and partially formed structures to hard mathematical representations. For example, the statistician identifies and labels types of units, such as individual persons, or groups such as families of households. The statistician also identifies variables that characterize differences among units of the same type. Relations among the values of variables, whether deterministic relations holding by definition, or empirical relations with lesser degrees of precision, are likewise developed and modified over time. Knowledge structures are painfully constructed in this way and are stored in memories along with instructions for use so they can pass 166
Zum einen begnügt man sich mit einem Pauschalen „alle Modelle sind falsch, nur manche sind nützlicher als andere“. Das andere Extrem ist, dass ein Modell die Realität in allen Einzelheiten korrekt wiederzugeben habe.
282
4 Induktion
from person to person and generation to generation [. . .] In fact, the whole modelling enterprise is accurately perceived only as taking place against a background of interacting internal and external realms that tentatively advance and modify formal mathematical representations.
Am Beispiel der Witterungsprognose wird Titz (2005: 51) noch deutlicher: „Die statistische Methode ähnelt den Bauernregeln. Die aus den Messdaten ermittelten Korrelationen - zum Beispiel zwischen Meerestemperaturen und Niederschlag - werden allerdings mathematisch überprüft. Seit Längerem dient diese Methode in Indien zur Vorhersage des Monsuns.“ Dann charakterisiert er den Übergang von deskriptiven zu substanziellen Modellen: „Die Computermodelle laufen den statistischen Methoden allmählich den Rang ab. Das freut die Experten; denn die Simulationen gehorchen den physikalischen Gesetzen, weshalb sich Wetterprozesse mit ihnen auch meteorologisch interpretieren lassen.“ 167 Auch Forscher wie Glymour et al. (1987: 23) die nicht der statistischen Tradition entstammen, schließen sich ausdrücklich dieser Haltung an: “The natural sciences are successful exactly because of their search for latent factors affecting the phenomena to be explained and predicted.” (Hervorhebung im Original.)
Induktive Entwicklung Die gegebenen Beispiele sind typisch: Modellentwicklung ist in aller Regel induktiv, in dem Sinne, dass aus Daten „tieferliegende“ Strukturen, Muster und Regeln extrahiert werden. Man nennt das Vorgehen auch gerne hypothesengenerierend, explorativ oder neuerdings “Data Mining” (siehe Abschnitt 4.6.2). Dabei kann es auch zu tiefen Einschnitten und Umbrüchen kommen, d. h. die einbezogenen Faktoren wie auch deren Verknüpfungen können sich im Lernprozess wesentlich verändern. Immer geht es jedoch darum, ausgehend von gegebenen Daten allgemeinere bzw. grundlegendere Zusammenhänge und Gesetzmäßigkeiten zu erschließen. Bei diesem Prozess hat man psychologisch gesehen oft den Eindruck, aus vielen Fakten die wesentlichen Bestimmungsstücke sukzessive zu extrahieren, oder (in chemischen Jargon gekleidet), aus Roh-Daten die Essenz zu destillieren. Logisch gesehen ist dem jedoch nicht so. Es handelt sich um eine Generalisierung, nämlich um einen Induktionsschluss von den vorhandenen Daten auf eine vermeintlich weit allgemeiner geltende Regelmäßigkeit. Nur wenn man die Daten um eine außerhalb der Daten gelegene Struktur anreichert, oder aber, etwas klassischer gesagt, die Daten in einen formalen Rahmen 167
Siehe hierzu auch Lean und Rind (2009), die, um zuverlässige kurzfristige Klimaprognosen zu erstellen, wieder zurück zu einfachen statistischen Modellen gehen. In Darnbeck (2009) wird J. Marotzke, Direktor am Max-Planck-Institut für Meteorologie in Hamburg, hierzu mit der Worten zitiert, dass „Die ersten Wettervorhersagemodelle ebenfalls statistischer Natur gewesen [seien], und es habe Jahrzehnte gedauert, bis die numerischen, auf physikalischen Prozessen basierenden Wettervorhersagemodelle überlegen waren.“
4.5 Induktion und Modellierung
283
bettet und damit die diesem zugrunde liegenden Annahmen zu den Daten hinzunimmt, kann man (derart gut versteckt), deduktiv auf eine allgemeine Gesetzmäßigkeit schließen. Bei dieser zusätzlichen Struktur kann es sich zum Beispiel um ein Gleichungssystem handeln, Randbedingungen an Parameter oder die Beschränkung auf eine Familie von Verteilungen. Auch die Priori-Verteilung ist eine solches, von den Daten unabhängiges und über sie hinausgehendes Element, so dass alle Einwände gegen ihre Verwendung auch hier im Allgemeinen greifen. Lindley (2000) beschreibt den generalisierenden Schritt und die mit ihm einhergehende Verwirrung sehr prägnant: To scientists who grew up in the age of empiricism (e.g., you and me), the question: ‘How do I decide which set is correct?’ often amounts to asking ‘How do I decide, by looking at the available data, which set is correct?’ The answer to this latter question is, of course, ‘impossible!’; if the data were capable of helping us decide, then the functional model would not add any information to what we already have [. . .] So, the information as to which set of equations is appropriate must come from a different source, not from the data. (Meine Hervorhebung.)
Im nächsten Satz zeigt sich, warum Lindley ein überzeugter Bayesianer ist: “The most reliable source of this information (and one that is most acceptable to empiricists) comes from data obtained in the past, under various experimental conditions, including randomized trials.” Goodman (1999b: 1010) gibt eine aufschlussreiche Liste möglicher Quellen „externer Evidenz“. Die nicht nur in der Statistik tief verwurzelte empiristische Tradition, die jedem Schritt über das Beobachtete, unmittelbar Gegebene hinaus mit größerer Skepsis begegnet, führt dazu, dass viele zusätzlichen Annahmen misstrauen. Glymour et al. (1987: 23) fahren an der o.g. Stelle fort: “In the social and behavioral sciences, and in applied statistics generally, there is a much more radical train of thought which holds that, in constructing theories, we should not postulate unmeasured features or properties or entities. [. . .] These critics think it that it is somehow unscientific to introduce theoretical causes that are not directly measured.” (Hervorhebung im Original.) Ein solcher Posititivismus168 hat zwar heute noch einige Anhänger,169 wird jedoch in der wissenschaftstheoretischen Diskussion eher selten vertreten. Weit häufiger trifft man in der Folge von van Fraassen (1980) auf eine skeptisch-antirealistische Haltung, welche Theorien und Modelle lieber nur zurückhaltend-instrumentell interpretiert. 168
Im Sinne der Idee, dass „alles Oberfläche“ ist In der Psychologie muss die von B. F. Skinner begründete Schule des Behaviorismus genannt werden. Die Motivation seiner dezidiert positivistische Haltung lässt sich im Rückblick leicht verstehen, waren doch die psychoanalytischen Lehren, mit ihrer Vielzahl an nicht beobachtbaren Entitäten, dessen direkte Vorläufer. Nicht ganz unähnlich lässt sich auch der Positivismus des Wiener Kreises als Reaktion auf eine ihm vorangehende, idealistische Philosophie verstehen. 169
284
4 Induktion
4.5.3 Die Rolle der Voraussetzungen A ‘crucial’ assumption is one on which the conclusions do depend sensitively, and it is important that crucial assumptions be reasonably realistic. Solow (1956: 65)
Der philosophische Zweifel lenkt den mathematischen Blick auf die über die Daten hinausgehenden Voraussetzungen, auf denen ein Modell ganz wesentlich basiert. Sind jene (näherungsweise) erfüllt, sind sie plausibel, welche Evidenz und welche theoretischen Überlegungen sprechen für sie? Dies sind Fragen, die sich jeder Anwender und Statistiker stellen sollte. Einige Beispiele: 1. Freedman (1985a: 349) schreibt: “Even off-the-shelf statistical models make quite strong assumptions about the processes generating the data, and are likely to produce nonsense if these assumptions fail.” Ibd., S. 353, heißt es: “If the assumptions of the [. . .] model do not hold, the computer outputs do not describe anything: they are mere numerical artifacts.” Freedman (1985b: 389): “If the assumptions of a statistical method do not hold water, neither do the conclusions. Therefore, statistical methods should not be used without looking hard at their assumptions.” 170 2. Rissanen (1989: 5) sagt: “In general, then, when sufficient physical insight is lacking and one makes more or less arbitrary probabilistic assumptions about the data and proceeds to make logical deductions, the results must be considered irrelevant to the task at hand, which is to learn from the data.” 3. Wir erinnern an Jaynes (2003: 674ff), siehe S. 45: “[. . .] the less attention one pays to the validity of the premises in the real world, [. . .] the more likely one is to reach final conclusions that are absurdly wrong in the real world.” 4. Dawid (2003: 56) stimmt zu: “As we continually take pains to stress, assumptions [. . .] are assertions about the real world, and analyses that rest upon them can only be of interest when the underlying assumptions can be regarded as acceptable properties of those specific aspects of the world that our models are intended to represent.” 5. Morgan und Winship (2007: 271) ergänzen: “Hopefully, by now, we have convinced the reader that maintained modeling assumptions can have large consequences. Given this dependence, it is critical that researchers be explicit about the assumptions they have made and be able to defend those assumptions. Assumptions can be defended either theoretically or on empirical grounds. Often neither is done. In fact, they are made often without any explicit recognition.” 170
Siehe zudem Freedman (1997: 102) und Freedman (2008a,b) und Freedman (2010: xi): “[. . . ] all models are limited by the validity of the assumptions on which they ride.”
4.5 Induktion und Modellierung
285
Wie nicht anders zu erwarten, sind die Skeptiker zumeist methodisch versierte Fachwissenschaftler oder eben Stochastiker. Sie machen zurecht geltend, dass Voraussetzungen einen (formalen) Rahmen definieren, innerhalb dessen man sich bewegt. Deshalb werden unpassende Voraussetzungen in aller Regel zu Ergebnissen führen, die mit der tatsächlichen Situation wenig gemein haben: Bestenfalls erkennt man anhand der mangelhaften Passung umgehend den Fehler in den Annahmen. Wenn die Ergebnisse jedoch zur Realität passen, so meint man auf dem richtigen Pfad zu sein, was jedoch nicht der Fall sein muss. Interessanterweise unterscheidet auch Freedman (1987b: 220) zwischen deskriptiven und strukturellen Modellen: “A descriptive model passes a curve through a data set. This may or may not be useful, depending on the curve, the data, and what happens next.” Dieser oberflächlichen und eher unproblematischen Übung stellt er (ibd.) den versierteren, tiefergehenden strukturellen Ansatz entgegen: “A structural model involves an empirical commitment to a theory about how data were generated. The model has to correctly represent the causal relationship being studied; and this has to be demonstrated empirically, on balance of argument, not taken on faith.” Anstatt nun jedoch auf den graduellen Fortschritt von deskriptiven hin zu strukturellen Modellen zu sprechen zu kommen, verwendet er im folgenden genau diese Unterscheidung, um vor der Verwechslung beider Arten von Modellen zu warnen: All too often, social scientists write down a complicated set of regression equations, and draw causal conclusions from the coefficients, legitimized only by the complexity of the statistical analysis. This procedure is often defended as ‘data analysis’ but is disingenuous. Indeed, a descriptive model has been treated as if it were structural (Freedman 1987b: 220f).
Eine ganz ähnliche Kritik äußert Dawid (2000: 423): “[. . .] the counterfactual approach to causal inference is essentially metaphysical, and full of temptations to make ‘inferences’ that cannot be justified on the basis of empirical data and are thus unscientific. An alternative approach based on decision analysis [. . .] and the familiar ‘black box’ approach of experimental statistics [are] perfectly adequate for this purpose.” 171 Freedman (1985b: 389) hält die Auswirkungen einer solchen Praxis für selbstzerstörerisch: “In my opinion, the confusion between descriptive and structural models pervades the social-science scholarly literature of the past 20 years, and has distorted the research agenda of a generation. In the end, this confusion might easily destroy the idea of scientific right or wrong.” Er komprimiert seine Kritik auf einen zentralen Vorwurf: “Fienberg believes that fictitious models are useful data-analytic devices, and I disagree.” Der angegriffene Fienberg (1985: 379ff) verteidigt hingegen einen instrumentellen Umgang mit Modellen und wiederholt auch das Argument, dass, 171
Meine Hervorhebung. Zu einer ausführlicheren Kritik an dieser Kritik siehe S. 439ff.
286
4 Induktion
selbst wenn Voraussetzungen von mathematischen Verfahren markant verletzt werden,172 sie in der Praxis nützlich sein können: Many of the data sets analyzed [. . .] throughout the social science literature, consist of population data. Thus, the usual justifications of stochastic components used to model the underlying phenomena, namely urn models or sampling procedures, are absent. Using maximum likelihood estimation based on a fictitious model [. . .] seems to me just as useful as [standard graphical procedures]. The key here is recognizing that the ‘parameter estimates’ are simply the result of a form of curve fitting, and the p-values associated with test statistics have no direct probability interpretation. Relating such quantities to the assumed but non-existent stochastics often provides a convenient frame of reference.
Empirisch arbeitende Wissenschaftler, denen es zunächst einmal auf die äußere Passung ihres Modells ankommt und die sich noch dazu auf einen inhaltlichen Kontext stützen können, vermögen Modellen also auch dann noch etwas abzugewinnen, wenn Theoretiker den Rahmen ihrer Möglichkeiten bereits ausgeschöpft haben. Etwa schreibt M. Friedman (1953), zitiert nach Ietto-Gillies (2009: 164): [. . .] the relevant question to ask about the ‘assumptions’ of a theory is not whether they are descriptively ‘realistic’, for they never are, but whether they are sufficiently good approximations for the purpose at hand [. . .] The decisive test is whether the hypothesis works for the phenomenon it purports to explain.173
Ganz ähnlich reagieren Glymour et al. (1987: 32-40) auf die heftige methodische Kritik von Freedman (1981) an Blau und Duncan (1967), einer der meistzitierten sozialwissenschaftlichen Arbeiten. Zum einen stellen sie unmissverständlich fest: Real science has always proceeded by approximation and idealization. Many of Freedman’s objections fail to appreciate that Blau and Duncan were doing, in a different setting, exactly what Newton, Dalton, Gay-Lussac, Hertz, and Eddington did in theirs; approximating and idealizing, looking for simple, elegant, plausible, and probably not literally correct theories explaining the phenomena.
Zum zweiten zeigen sie im Detail, dass Blau und Duncan sehr wohl überprüften, ob die statistischen Voraussetzungen ihrer Analysen empirisch erfüllt waren. Sie gehen also wie wir weiter oben über das Passungsargument hinaus und verweisen auf im Modell gelegene Gründe für dessen Erfolg.174 172
Z. B. im folgenden keine Stichproben-, sondern Populationsdaten
173
Fußnote im Original: “Among the people who have contributed to the debate are Musgrave (1981) and Samuelson (1963).” Man beachte auch die Kritik Wilsons an ökonomischen Modellen, S. 452. 174
An einer Stelle werfen sie Freedman sogar explizit Pedanterie vor, ein, zumindest hinter verschlossenen Türen, nicht ganz selten gehörter Vorwurf an die Adresse „strenger“ Methodiker.
4.5 Induktion und Modellierung
287
Robustheit Damit Schlüsse gültig bleiben, schlagen viele Theoretiker vor, robuste Methoden zu verwenden.175 Jene verhalten sich entweder gutartig, wenn diverse Annahmen verletzt werden, oder aber sie basieren auf wenigen, schwachen Voraussetzungen. Diese Stoßrichtung passt zudem sehr gut zum Grundimpuls der Mathematik, welche auf der Basis möglichst schwacher Annahmen, möglichst weitreichende Schlüsse ziehen will. Es ist nämlich überaus typisch, dass man zunächst in einer speziellen Situation176 auf ein interessantes Resultat trifft. Die Alltagsarbeit des Mathematikers besteht dann darin, zu überprüfen, welche Voraussetzungen wirklich notwendig sind, also die speziellen Annahmen soweit abzuschwächen, also zu verallgemeinern, dass das Resultat immer noch gilt. Bestenfalls erhält man eine Charakterisierung, kann also angeben, welche Voraussetzungen genau nötig sind, um ein bestimmtes gewünschtes Resultat zu gewährleisten. Dieser Idee folgend hat sich ein Zweig der Statistik entwickelt, der so wenig wie möglich Annahmen macht. Am wichtigsten sind nichtparametrische Methoden, die oft lediglich die Anordnungsinformation in den Daten nutzen und auf detaillierte, parametrische Verteilungsannahmen verzichten. Die große Beliebtheit solcher Ansätze in Theorie wie Praxis zeigt zum einen, dass die mathematische Sicht im heutigen statistischen Mainstream dominiert. Zum anderen weist sie darauf hin, wie ungenau unser Wissen an vielen Stellen ist. Mit Blick auf die vermeintliche Sicherheit schwächerer Voraussetzungen schrieb schon Tukey (1961: 150) in markantem Gegensatz zur vorherrschenden Meinung: It is easy to say, ‘But why all this worry about failure of standard assumptions, just develop methods with fewer assumptions!’ Easy, but inadequate for two reasons: (i) No matter how weak the assumptions may be, they will sometimes fail. (ii) When certain assumptions almost hold, the methods these assumptions suggest are likely to be better methods than those suggested by weaker assumptions. It is neither possible nor wise to escape from uncertainty in the application of methodology.
Robuste Methoden sind grob. Präzision, Feinheit und damit auch die Sensitivität eines Modells oder einer Methode sind dem entgegengesetzt und mindestens genauso wichtig. Wir erinnern an Tukey (1969: 728): “Bear in mind a simple fact: the great majority of the useful facts that physics has learned - and recorded in numbers - are specific and detailed, not global and general. The qualitative properties of things have proved much less important than the quantitative ones. Qualitative properties are far less important than quantitative ones.” 177 Tukey (1986a) hält denn auch insgesamt die nicht-parametrische Statistik für einen Seitenzweig der Entwicklung. Die Ähnlichkeiten mit den Diskussionen rund um die Anwendung der Messtheorie (und der Bayesschen Statistik) sind nicht zufällig. Auch dort 175
Für einschlägige Literaturhinweise siehe S. 75.
176
- also unter starken, einschränkenden, weit reichenden Voraussetzungen -
177
Siehe S. 7 und 256. Eine ausführlichere Argumentation findet sich in Tukey (1969: 730).
288
4 Induktion
gibt es formale Zusammenhänge, welche normative Vorgaben machen. Auch dort warnen Theoretiker ohne Unterlass vor bedeutungslosen Resultaten sowie Artefakten und neigen zuweilen zu einem unfruchtbaren Purismus. Von „Praktikern“ werden andererseits nicht allzu selten auch berechtige Zweifel in den Wind geschlagen;178 und sie halten sich im Großen und Ganzen nicht an theoretische Ge- und Verbote. Warum? Neben den schon genannten Argumenten ist ein wesentlicher Grund ganz pragmatischer Natur. Ohne generell anwendbare statistische Verfahren, wie die vielen Varianten der Regression in den Wirtschafts- und Sozialwissenschaften, käme man gar nicht weiter, man scheiterte schlicht am Umfang der verfügbaren Daten. Nur mithilfe mathematischer Methoden - welchen auch immer - hat man eine Chance, die Daten, zumindest ansatzweise, zu durchdringen. Darüber hinaus haben statistische Methoden, wie z. B. Tests, in den Sozialwissenschaften und in der Medizin immerhin bewirkt, dass Forschung auf eine einheitliche Art und Weise und nicht zuletzt quantitativ orientiert, betrieben wird. Es ist ein großer Fortschritt gegenüber reinen Beobachtungsdaten oder gar lediglich anekdotischen Schilderungen von Einzelfällen, wenn man präzisere numerische Daten vieler Fälle eines statistischen Experiments mit Standardmethoden auswertet - mögen Theoretiker die Nase rümpfen, Dogmatiker Verbote aussprechen und Philosophen prinzipielle Zweifel anmelden. Was das pragmatische Vorgehen letztlich rechtfertigt, ist, dass Verfahren trotz vieler (verletzter) Voraussetzungen zu sinnvollen Ergebnissen führen können. Tukey (1980b: 823f) hat diese Einsicht prägnant zum Ausdruck gebracht: „In practice, methodologies have no assumptions and deliver no certainties.179 Man beachte jedoch, dass er von Methoden, also Instrumenten, nicht aber von Modellen spricht. Während der innere Aufbau von Instrumenten nebensächlich ist (solange sie nur nützliche Ergebnisse liefern), kommt es bei Modellen entscheidend auf genau diese innere Struktur an. Jene wird erheblich von den daten-unabhängigen Annahmen geprägt, so dass eben jene Annahmen für die Erklärungskraft und die Passung des Modells in einer spezifischen Situation (mit)entscheidend sind. Ein Blick ins Detail der Modellentwicklung macht dies deutlich. Um die induktive Lücke möglichst klein zu halten, werden (grobe) Modelle nicht irgendwie erweitert, sondern genau um diejenigen Komponenten (Voraussetzungen) ergänzt, von denen man sich eine bessere Passung verspricht. Eine solche Strategie der Internalisierung führt nicht nur zu einer sukzessiven Verfeinerung. Vor allem hat sie die Konsequenz, dass ein Teil des bei einem groben, also zugleich auch stark idealisierten Modell notwendigen (großen) induktiven Sprungs durch einen deduktiven Schluss innerhalb eines umfangrei178
Freedman hat durchaus Recht: Weder sollte man ein Modell überinterpretieren, noch sollten wichtige Schlussfolgerungen wesentlich auf Annahmen basieren, die kaum zu untermauern sind. 179
Alle Hervorhebungen im Original. Eine nähere Erläuterung dieses Standpunkts verschieben wir auf Abschnitt 4.6.1.
4.5 Induktion und Modellierung
289
cheren, also auch weniger idealisierten, der Realität angemesseneren Modells ersetzt wird. Auf diesem Weg sollte man insbesondere von nichtparametrischen zu parametrischen Ansätzen kommen. Bei sehr guten Modellen, etwa einer realitätsnahen Simulation, kann man dabei sogar (fälschlicherweise) auf die Idee kommen, dass gar kein leap of faith mehr nötig wäre. Wie bei einem Stockwerk um Stockwerk in die Höhe wachsenden Gebäude ist es so möglich, Aspekt um Aspekt in das Modell einzubauen, bis aus einem instrumentell zu interpretierenden, deskriptiven Entwurf ein realitätsnahe, wohlstrukturierte und gut fundierte Theorie geworden ist.
4.5.4 Sozialwissenschaftliche Modelle Natürlich muss Pragmatismus nicht von Erfolg gekrönt sein, und die Skepsis der Kritiker ist oftmals berechtigt. Deshalb ist die interessanteste, letztlich auf die Praxis zurückgehende Auseinandersetzung jene, wie weit man mit stochastischen Modellen im Erkenntnisprozess kommt bzw. gekommen ist. Die Diskussion hat sich insbesondere an Pfadmodellen - ähnlich LISREL - entzündet, die seit einigen Jahrzehnten in der Soziologie üblich geworden sind. Wie man vielleicht schon ahnen wird, war diesen, genauso wie der Regression in der Ökonometrie kein durchschlagender Erfolg beschieden: “We have been modeling social science data since the 1930s, taking advantage of modern data collection and computing resources. The bet may have been a reasonable one, but it has not paid off. Indeed, I have never seen a structural regression equation in economics or sociology or education or psychology or drug addiction, to name a few fields (not entirely at random) [. . . Models] may have heuristic value for certain investigators; and some day, there may be a real one” (Freedman 1987b: 221).180 Ein Teil des Konflikts rührt daher, wie viel man von einem Modell erwartet. Gerade mit den Naturwissenschaften gut vertraute Theoretiker, aber auch Philosophen fordern hier sehr viel, und zwar sowohl was den Erfolg des Modells als auch die ihm zugrunde liegenden Annahmen anbelangt. Freedman (1985a: 344) schreibt ganz typisch: “The great models in the natural sciences result from a search for truth, namely the laws governing the phenomena under investigation. Such a model expresses in definite mathematical form the investigator’s idea as to how the phenomenon really behaves.” (Meine Hervorhebungen.) Man erwartet von einem grundlegenden Modell in den 180
Überhaupt kein Verständnis hat Freedman (1985b) für die Verwendung von mathematischen Modellen, um mit ihnen die Öffentlichkeit zu beeindrucken oder einen Schein quantitativer Wissenschaft zu erzeugen: “In short, since regression models sell, they must be legitimate: like chiropractic, krebiozen, or est.” Dieselbe Kritik hatten wir auch schon an Teilen der heutigen Finanzmathematik geäußert, wo die Erfolge, insbesondere Prognosen, angesichts der geballt eingesetzten mathematischen Methoden, ebenfalls recht dürftig ausfallen.
290
4 Induktion
Naturwissenschaften, dass es so dauerhaft wie präzise ist, alle seine Komponenten systematisch, häufig und kritisch überprüft wurden, so dass man ihm voll und ganz vertrauen kann. All dies schlägt sich häufig auch in einer weitreichenen, realistischen Interpretation nieder. Ein Physiker wie Weinberg (1998) hat denn auch kein Problem damit, ein doppeltes Erfolgskriterium zu formulieren: “[. . .] a theory is taken as a success if it is based on simple general principles and does a good job of accounting for experimental data in a natural way.” Darüber hinaus ist es auch leider so, dass “Social science was born with the ambition to be social physics” (Glymour 1983: 126), was seit langer Zeit dazu geführt hat, dass “Many critics of social science continue to demand that the social sciences produce systematic theories explaining social phenomena from general laws.” (Siehe hierzu auch S. 362, Ietto-Gillies (2009: 164) und Mirowski (1989).) Gemessen an diesem Standard können aktuelle sozialwissenschaftliche Modelle natürlich nur schlecht abschneiden. Auf die Frage, warum das Niveau der Sozialwissenschaften so ist, wie es ist, verweisen Kritiker dann gerne auf deren Forschungspraxis und damit letztlich auf die unzureichend arbeitenden Sozial-Wissenschaftler: “By comparison, social scientists who do regressions are usually fitting curves [. . .] It should come as no surprise when such curves lose their fit after a short time. An investigator who is not looking for the truth will not find it.” (Freedman 1985a: 344). Die Angegriffenen verteidigen sich fast schon reflexartig mit einem Verweis auf ihren weit schwieriger zu fassenden und instabileren Gegenstand. Darüber lässt sich trefflich streiten und angesichts der bei personenbezogenen Angriffen fast unausweichlichen Polemik verliert man dabei leicht mehrere einfache Sachverhalte aus den Augen. Erstens, ein Forschungsfeld kann tatsächlich weit schwerer zu bearbeiten sein als ein anderes und es gibt tatsächlich gute Gründe - einige davon haben wir, z. B. beim Stichwort Randomisierung ausführlich erläutert - warum es wesentlich schwerer ist, in den Sozialwissenschaften zu belastbaren Aussagen zu kommen.181 Zweitens verhindert eine zu strenge Kritik, die zu viel verlangt, dass sich Ansätze entfalten können. Gerade die Anwendung von Modellen lebt von de181
Hand (2007: 77) schreibt dazu: “Whereas physics deals with basic entities such as electrons, all of which are identical [the social and behavioral] sciences deal with basic entities such as people, all of which are different. One might thus expect these sciences to be considerably tougher than physics, and this, some have argued, explains why the extraordinary advances in physics [. . .] have not been matched by corresponding advances and applications in economics and sociology.” Die technische Entwicklung zeigt dies auch ganz deutlich: All die Bereiche, welche sich rasant entwickelt haben, hatten es in gewisser Hinsicht leicht. Man denke an die fortschreitende Miniaturisierung in der Informatik seit 1950 oder die Luftfahrt im 20. Jahrhundert. Ihrem Fortschritt stand gewissermaßen nur wenig im Weg, die auftauchenden Schwierigkeiten konnten mit den bekannten Methoden zügig überwunden werden. Ganz anders die Entwicklung der Raumfahrt oder wirkungsvoller medizinischer Therapien. Auch mit dem größten Aufwand ist die bemannte Raumfahrt in den letzten 40 Jahren kaum vorangekommen, und heute sterben viele Menschen an denselben Krankheiten wie vor 50 oder 100 Jahren.
4.5 Induktion und Modellierung
291
ren Flexibilität, von der Möglichkeit, sie sukzessive zu verbessern und sich an ein Phänomen heranzutasten. Besser ein entwicklungsfähiges Modell - und sei es zunächst noch so ungenau und nur kurzfristig gültig - als gar kein Ansatzpunkt. Fortschritt ist oft graduell und lässt sich gewiss nicht mit puristischen Forderungen erzwingen. Ist man zu rigide und verbietet einen „freien“, spielerisch-experimentierfreudigen Umgang mit Modellen, so legt man sein wertvollstes Werkzeug weg, ehe man es benutzt hat. Drittens geht man selbst heute noch bei vielen naturwissenschaftsnahen Anwendungen datengetrieben-induktiv vor, wie Tukey (1961: 222ff) anhand einiger eindrucksvoller Beispiel ausführt. Er sagt ausdrücklich (Hervorhebung im Original): “The history of physical science is full of places where one precondition of the development of an effective theory was the recognition of an empirical regularity in quantitative terms. Why should matters be otherwise in behavioral science?” 182 Viertens zeigen nicht nur Fienberg (1985) und Glymour (1983), dass vieles erst im Rückblick klar wird. Wie bei einer induktiven Verallgemeinerung von Daten nicht anders zu erwarten - und genau so fassen wir hier Modellierungen auf - gibt es mehrere mögliche, einleuchtende, plausible Wege. Fienberg (1985: 371) schreibt sehr treffend: “But frequently the lines between mindlessness and wise exploration, between measurement guided by lame-brained theories and that inspired by a truly visionary world view are unclear, distinguishable only through the myopia-correcting lenses of hindsight.” An vielen historischen Beispielen belegen Fienberg und Glymour, wie schwer es selbst in den Naturwissenschaften fiel und fällt, bedeutsame Fortschritte von Artefakten zu trennen. Es ist eben nicht so, dass Daten und zugehörige Modelle sofort eine eindeutige Sprache sprechen und Effekte von Fehlern klar zu trennen wären. Selbst die statistische Auswertung von historisch wichtigen, ganz entscheidenden Experimenten (z. B. jenen von Mendel, Millikan und Eddington, siehe Fienberg (1985: 374ff) und die dort angegebene Literatur), lässt, auch rückwirkend betrachtet, einiges zu wünschen übrig. Es ist typischerweise erst die längerfristige Erfahrung, welche zeigt, welcher Weg der erfolgreichere war, welche Denkstrategie die meisten Früchte abwarf und sich (hoffentlich) infolge dessen durchsetzte. Oftmals zielt die Kritik auch weniger auf die Modelle bzw. die in Betracht gezogenen Klassen von Modellen, sondern, wie bei der Testtheorie, auf die routinemäßige, wenig durchdachte Anwendung immer derselben statistischen Methoden (siehe S. 93 und 270). Freedman (1985a: 353) nimmt genau diesen wunden Punkt ins Visier, wenn er schreibt: “In general, social scientists who run regressions are not doing data analysis. Instead, they are mechanically applying regression models in situations where the assumptions do not hold.” Genau darin sieht er die Hauptursache für den mäßigen Erfolg sowohl der Pfadanalyse als auch der Ökonometrie (siehe insbesondere Freedman (1987b: 221) und Freedman (1987a: 122ff)). Dempster (1983: 121) schließt sich dieser 182
Für eine Reihe bedeutender wissenschaftshistorischer Beispiele siehe Fischer (1995).
292
4 Induktion
Kritik an: “[. . .] adopting a probability model, fitting it by some reasonably efficient procedure, reporting a few canned tests of adequacy, and never really thinking hard or exploring for failures of the model which could compromise ultimate findings [is really bad practice]. There is something to the contention that the precision and elegance of many probability models may fool many users into acceptance without adequate safeguards.” Fienberg (1985: 371) stimmt dem ganz und gar zu: “Mindless applications of regression models to poorly measured data in the social sciences is what Freedman deplores. I yield it to nobody in my opposition to mindlessness - in the natural sciences as in the social sciences - and I am steadfastly in favor of good measurement of theoretical relevant constructs.” Alle Autoren sind sich einig, dass eine gute Datenanalyse kritisch sein muss, Fehlerquellen suchen, statt sie unter den Teppich kehren sollte. Annahmen sollten weder implizit noch unreflektiert sein. Vielmehr sollten sie explizit dargestellt, begründet und überprüft werden. Sind die Daten näherungsweise unabhängig, können Störeinflüsse ausgeschlossen werden, ist ein linearer Zusammenhang sichtbar, usw. Dies alles sind empirisch zu überprüfende oder theoretisch zu begründende Hypothesen. Freedman (1987b: 221) betont als traditioneller Statistiker z. B., wie wichtig schon die solide Datenerhebung ist: “Pretending that data were collected as if by experiment does not make it so. Confounding can be controlled by making the right comparisons, but this is a lot of work.” Dies setzt sich bei der Datenanalyse fort: “Data analysts work very hard to develop models for their data, and run diagnostics to see if the models are sensible. They spend endless hours dealing with outliers, or changes in the relationships from one region to another, or non-linearities. In the social sciences, this kind of analysis is quite rare.” (Freedman 1985a: 352).183 Wie ein Vermächtnis liest sich Freedman (2008b: 191): “Practitioners will doubtless be heard to object that they know all this perfectly well. Perhaps, but then why do they so often fit models without discussing assumptions?” Schließlich stimmen auch alle Autoren darin überein, dass gute empirische Wissenschaft auf soliden Daten beruht. Sie betonen explizit, wie wichtig ein stabiles Daten-Fundament für die Errichtung eines stabilen Modells ist. Fienberg (1985: 382) fasst zusammen: “What is needed [. . .] is careful measurements of social phenomena, measurements guided by evolving theory and analyzed by means of mathematical and statistical models thoughtfully constructed.” Mit diesem immer wiederkehrenden Archimedischen Punkt der Wissenschaft wollen wir den Abschnitt beenden, nicht ohne bezüglich der uns interessierenden Modelle sehr optimistisch zu schließen, dass gerade 183
Insbesondere verzichten diese Praktiker durchaus auf die Anwendung von Methoden, wenn sie nicht angemessen sind. Er fährt nämlich (ibd.) fort: “Data analysts seldom make conventional statistical tests [. . .] because such tests are valid only under severely restrictive mathematical assumptions.” Nicht so jedoch die meisten Sozialwissenschaftler, denn er schreibt anschließend: “There are few statistical papers in the social sciences without a battery of such tests.”
4.6 Induktive Orientierung
293
die Geschichte der Naturwissenschaften zeigt, welche Kraft mathematischen Modellen zu eigen sein kann - wenn das Zusammenspiel von Empirie, Daten und Theorie überzeugend ist.184 Wie Chatfield (2002: 8) ausführt, hat sich auch die traditionelle Statistik mehr und mehr von prinzipiell-dogmatischen Positionen entfernt und entwickelt sich in Richtung model selection and model criticism. Wir führen diese Diskussion im Wissenschaftstheorieteil weiter (Kapitel 6). Bezüglich der Sozialwissenschaften können wir bei bzw. trotz aller gerechtfertigter Kritik festhalten, dass sie sich etabliert haben. Verlangt man von einem Modell zumindest, dass es passt und nützlich ist, so gehört gerade die quantitative Modellierung zu den wertvollsten Methoden der Sozialwissenschaften. Genügt es einem mit Glymour (1983) zudem, dass die Sozialwissenschaften mit demselben empirisch-kritischen Geist der Naturwissenschaften kausale Zusammenhänge aufdecken - ohne gleich eine umfassende Theorie à la Newton hervorzubringen zu müssen - so kann man auch hier Erfolge nicht übersehen. Durch systematische soziologische, wirtschaftswissenschaftliche oder psychologische Forschungsarbeiten hat sich unser Verständnis der zugehörigen Bereiche deutlich verbessert. Es wäre unfair, dies zu leugnen und sogar töricht, den gegen große Widerstände durchgesetzten empirisch-quantitativen Weg wieder zu verlassen.
4.6 Induktive Orientierung [. . .] more than 95% of the inferential work of most applied statisticians is exploratory, as opposed to testing one precise model conceived before the present collection of data. (Lindsey 1999: 2)
Modelle sind immer abgeschlossen. Sie stecken einen Rahmen, innerhalb dessen die Argumentation verläuft. Der induktive Schritt ist jedoch offen - es gibt immer mehr als eine Möglichkeit der Verallgemeinerung. Deshalb ist eine wesentliche Erweiterung der induktiven Sicht, bei gegebenen Daten eine Reihe von Techniken (Methoden) anzuwenden bzw. auszuprobieren. Sind deren Voraussetzungen erfüllt, so kann man noch von einem Modell sprechen, innerhalb dessen die Daten analysiert werden, ansonsten dient die Methode lediglich als Hilfsmittel bei der Suche nach tiefer liegenden Strukturen in den Daten. 184
Sowohl Fienberg (1985) als auch Freedman (1985a, 1985b) geben viele entsprechende Beispiele an.
294
4 Induktion
4.6.1 Explorative Datenanalyse Exploratory data analysis (EDA) seeks to reveal structure, or simple descriptions, in data. We look at numbers or graphs and try to find patterns. Diaconis (2006: 1)
Der Kern der Bayesschen Statistik ist eine ausgearbeitete induktive Logik. Statistische Experimente reichern die Daten um einen formalen Kontext an. Die zentrale Idee der Modellentwicklung ist es, mithilfe adäquater modellinterner Annahmen die äußere Modellpassung zu optimieren, mit der Absicht, den induktiven Sprung vom Modell zur Realität so klein wie möglich zu machen. Im letzten Abschnitt haben wir zudem festgestellt, dass selbst der eigentliche Entwicklungsprozess von speziellen Modellen - wie auch häufig von Wissenschaft im Allgemeinen - im Wesentlichen induktiver Natur ist. Das heißt, man geht öfter von empirischen Erfahrungen - Daten - aus und entwickelt daraus approximativ-sukzessiv ein passendes Modell, als dass aus einer umfassenden Theorie ein situationsspezifisches Modell ableitet würde. Dieses Vorgehen dominiert in den Sozialwissenschaften, ist häufig in den Ingenieurwissenschaften anzutreffen, und tritt auch in naturwissenschaftlichen Anwendungsbereichen auf.185 Es war Tukey, der jahrzehntelange am nachdrücklichsten für eine dezidiert induktive Ausrichtung der Datenanalyse plädierte. Im Gegensatz zum mathematisch-deduktiven Mainstream (nicht nur) seiner Zeit setzte er sich für eine (zusätzliche) flexible, offene Form der Statistik ein. (Tukey 1961: 151) schreibt: “Mathematical statistics was once the knight in armor to save us from the dragon of ill-considered and ill-used descriptive statistics. This it did. Today it is the home of many respected colleagues, whose motivations are basically mathematical rather than scientific. Far less is heard of scientific statistics [. . .] where the motivations are basically scientific. Yet the latter field is more important.” Tukey (1972: 755) ergänzt: “Data analysis is in important ways an antithesis of pure mathematics [. . .] A similar antithesis holds for many, perhaps all, branches of applied mathematics, but often in a very much weaker form.” 185
Siehe abermals Tukey (1986b: 222ff) für einige beeindruckende Beispiele. Das gilt bezeichnenderweise selbst für die altehrwürdige Astronomie und die sehr weit entwickelte und deshalb vor allem deduktiv vorgehende Physik. In einem aktuellen Artikel (Lorenzen 2003) über „Dunkle Energie“, die erst vor wenigen Jahren entdeckt wurde und gleichwohl einen Großteil des Universums ausmacht, heißt es denn auch: „Das Schöne an der Kosmologie heutzutage ist, daß wir im Vergleich zu vor 30 oder 40 Jahren wirklich durch die Daten dominiert werden. Vor 30 oder 40 Jahren hat im Wesentlichen alles auf der Theorie basiert. Damals konnten die Theorien im Prinzip wenig mit den Daten überprüft werden. Das hat sich jetzt umgekehrt.“ Mit großem Respekt führt Dyson (2008) in einem Nachruf auf J. Wheeler, einen bedeutenden Physiker des letzten Jahrhunderts, aus: “He rejuvenated general relativity; he made it an experimental subject and took it away from the mathematicians.”
4.6 Induktive Orientierung
295
Statt also von vorneherein innerhalb mathematischer Modelle zu denken und Daten gemäß fester, vorgegebener Schemata auszuwerten, sollte man von den Daten selbst ausgehen und diese wie ein Wissenschaftler erforschen. Für diese Tätigkeit prägte er den Begriff „Explorative Datenanalyse“ (Tukey 1977), die er und andere Autoren zuweilen auch scientific statistics oder statistical science nennen. Er war sich dabei immer bewusst, dass sowohl eine induktiv-hypothesengenerierende als auch eine deduktiv-hypothesenprüfende Vorgehensweise ihre Berechtigung haben (Tukey 1980a).186 Es war die spezielle historische Situation, nicht eine philosophische Grundhaltung, die ihn im Laufe der Zeit immer deutlicher die Partei der von den Daten ausgehenden Analysten, ergreifen ließ.187 Die von uns schon häufig zitierten Bücher (Jones 1986a,b), die in etwa ein Viertel der gesammelten Werke Tukeys ausmachen, dokumentieren eindrucksvoll seine Grundhaltung und Entwicklung. Das entscheidende Element der EDA ist eine konsequente induktive Haltung in dem gerade beschriebenen Sinne. Ausgehend von empirischen Erfahrungen, also Daten aller Art, suche man nach Mustern, Strukturen, Regelmäßigkeiten usw. Diese Tätigkeit ist natürlich umso erfolgsversprechender, je valider, reliabler und umfassender die zugrunde liegende Datenbasis, das Fundament aller Schlussfolgerungen, ist. Nicht nur die philosophische Grundhaltung, auch die konkrete Vorgehensweise ist durch und durch datengetriebenflexibel. Da es die Daten, und nichts anderes als die Daten sind, welche den Kontakt zur realen Welt herstellen, weil sich - nach der Beobachtung bzw. dem Experiment - in ihnen die Realität abbildet, zielt deren kritische Analyse darauf ab, belastbare Aussagen über die reale Welt abzuleiten. Es geht darum, die Daten zu verstehen, mit ihnen als Fundament weiterreichende, allgemeinere Einsichten zu gewinnen. Die Aufgaben einer so verstandenen Statistik sind also “In my view, statistics has no reason for existence except as a catalyst for investigation and discovery” (Box (1990a: 390), siehe auch Huber (1997: 184) und Box et al. (2005)). Wie schon S. 288 erwähnt hat Tukey (1980b: 823f) dies klar formuliert: “In practice, methodologies have no assumptions and deliver no certainties.” (Hervorhebungen im Original.) Seine Erläuterung: “One has to take this statement as a whole. So long as one does not ask for certainties one can be carefully imprecise about assumptions. There are, of course, situations where a given methodology works very well, and others where it fails dismally. Sometimes we believe we know which is which. Sometimes, more often when our knowledge comes from experience (or perhaps insight into how the methodology’s ‘wheels go round’) than when it comes from theorems, we are right in our belief. We will do well, so long as we do not seek certainties, to be casual about ‘the assumptions’ when the technique will work very well, but to be 186
Für letztere hat sich der Begriff konfirmatorische Datenanalyse, CDA, eingebürgert.
187
Siehe insbesondere die Kapitel 9, 12, 15, 20, 21 und 27 in (Jones 1986b)
296
4 Induktion
firm about them when the technique would fail dismally.” 188 Brillinger und Tukey (1984), zitiert nach Beran (2008: 218), präzisieren: How is our understanding of their behavior to be described? As a generalization of an umbra with a penumbra. Here there are at least three successively larger regions, namely: An inner core of proven quality (usually quite unrealistically narrow). . .; a middle-sized region of understanding, where we have a reasonable grasp of our technique’s performance. . .; a third region, often much larger than the other two, in which the techniques will be used. . .
Wie man es auch dreht und wendet, der induktive Sprung von der beschränkten Modellsituation auf die Realität lässt sich prinzipiell nicht vermeiden. Ein statistisches Verfahren kann, anders als ein mathematisches Theorem, an der Realität scheitern. Andererseits eröffnet einem die induktive Lücke aber auch die Freiheit, trotz nicht erfüllter Voraussetzungen ein Verfahren in der Praxis auszuprobieren. Am Beispiel der Spektralanalyse erläutert Tukey (1980b: 824) dies: “ ‘Stationarity’ is part of the assumptions of the leading situation within which spectrum analysis was first developed and within which it is usually introduced. Yet many of the greatest triumphs of spectrum analysis have only been possible because what was being analyzed was not stationary.” (Hervorhebung im Original.) Damit sind wir wohl bei der umfassendsten induktiven Haltung angelangt. Sie geht weit über „kleine“ induktive Sprünge in einem eng gefassten Kontext hinaus. Sie bindet sich auch nicht an mathematische Beweise, Logik (deduktiv oder induktiv) oder einen formalen Kontext. Und so nützlich Modelle und der Prozess der Modellierung beim Verständnis von Daten sind - man denke nur an den ebenfalls von Tukey aufgestellten Hauptsatz der angewandten Statistik - auch darüber reicht sie hinaus. Zwar wird die große Bedeutung von Modellen als Mittel zum Zweck der Erkenntnisgewinnung in der explorativen Datenanalyse überaus deutlich, doch um dem Ziel, aus Daten fundierte induktive Schlüsse zu ziehen, näher zu kommen, lässt die EDA konsequent alle denkbaren Methoden zu, seien jene probabilistisch oder deterministisch, mathematisch oder anschaulich, handle es sich um explizite Modelle oder vage Heuristiken. Tukey (1961: 148) schrieb weit vorausblickend: For many years all statisticians fought bitterly against looking at one aspect of a body of data from several points of view; against ‘making comparisons suggested by the data.’ Yet today there are not one, but several methods for examining all the differences among a family of means (methods of multiple comparisons), and each 188
Wohl mit Blick auf manchen Theoretiker fährt er fort: “[If] we are striving for certainty, whether or not it is available, we shall have to come much closer to demand that ‘the assumptions’ hold. This may seem easier, but is not usually safer.” (Meine Hervorhebung.) Dann erläutert er, dass viele quantitative Verfahren mit Blick auf eine “leading situation”, also einen typischen Anwendungsfall hin, entwickelt werden. Man überprüft das Verfahren zunächst auch in solchen Fällen, und ist beruhigt, wenn dort alles gut geht. Jedoch: “Their performance in such a situation - or class of situations - may have little to do with their practical usefulness, since the differences between leading situations and practical arenas are often large, if not catastrophic.” (Für eine Erläuterung, warum viele Verfahren trotzdem funktionieren, siehe S. 503ff.)
4.6 Induktive Orientierung
297
scheme is seen to fit naturally into one or more of the classical patterns of statistics. Tomorrow we expect to have, and we know we will have to have, a very much wider variety of techniques in which a single body of data is examined from many aspects (many, not one, not a few). As we face more complex problems, just those things we once thought immoral must become our salvation. Again, many statisticians have fixed their thoughts on some one of the broad alternative approaches [. . .] and have taken their one approach as the mode of inference for all circumstances. The problems of the world are much too diverse in nature for any single approach to suffice. They are much more effectively met when a variety of approaches is at hand. To be bound to a single approach is to be handicapped seriously and unnecessarily. (Hervorhebungen im Original.)
Man mag diesen methodischen Eklektizismus beklagen, tatsächlich ist er, wie wir später sehen werden (siehe insbesondere Abschnitt 4.8 und S. 334ff) unumgänglich. Will man Neues entdecken, so ist nichts schädlicher als eine unreife Verengung auf eine bzw. wenige Perspektiven oder gar ein a priori festliegender verbindlicher Auswertungsplan von Daten, die noch gar nicht erhoben worden sind. Jedes Verfahren ist wie jedes Modell und jeder Argumentationsstrang auf ihre bzw. seine eigene Weise eine Festlegung. Entscheidend bei der explorativen Datenanalyse sind jedoch Flexibilität und Offenheit. Gerade das, was man nicht erwartet hat, was man kaum erkennen kann, ist häufig das Wichtigste: [. . .] exploratory data analysis is an attitude, a state of flexibility, a willingness to look for those things that we believe are not there, as well as for those we believe might be there. (Tukey 1986d: 806)
Dabei ist oft die Anschauung das beste Hilfsmittel: “Except for its emphasis on graphs, its tools are secondary to its purposes.” (Tukey 1986d: 806). Tukey (1977: vi) sagt ausdrücklich: “The greatest value of a picture is when it forces us to notice what we never expected to see.” Ein gutes Bild sagt mehr als tausend Worte, weil es Informationen komprimiert, relevante Aspekte, z. B. Ausreißer, hervorhebt und die Strukturierungsfähigkeit der menschlichen Wahrnehmung nutzt. Es ist weit einfacher in einem Diagramm oder auch nur einer Skizze eine Auffälligkeit zu bemerken, als in einem Tabellenwerk voller Zahlen. Tatsächlich kann man das Buch von Tukey auch als eine Kompendium graphischer Darstellungsmöglichkeiten auffassen, und oberflächliche mathematische Leser haben es deshalb auch eher belächelt. Die Kritik fällt jedoch auf den einseitig orientierten Leser zurück, denn jeder ernsthafte Statistiker, der reale Daten wirklich ergründen will, wird gerne auf Tukeys Methoden zurückgreifen. In einem originellen Artikel über “miracles and statistics” schreibt Kruskal (1988: 929): “[. . .] miracles are like apparent outliers that we study and worry over [. . .] One might even say that miracles are the extreme outliers of nonscientific life. It is widely argued of outliers that investigation of the mechanism for outlying may be far more important than the original study that led to the outlier; the discovery of penicillium is often given as an example.” Gerne sieht man in der explorativen Datenanalyse auch eine Erweiterung der elementaren, deskriptiven Statistik. In der Lehre beginnt man häufig
298
4 Induktion
mit der letzteren: Ein Datensatz liegt vor und dieser soll analysiert werden. Dabei erkennt man sehr schnell, dass nur eine prägnante Darstellung einen Überblick erlaubt. Ehe sich die Studierenden versehen, berechnen sie deshalb Kennwerte aller Art, z. B. Lage- und Streuungsmaße, Quantile, Konzentrationsindizes und Momente. Letztlich fließen diese alle aus der Idee der Verteilung, welche empirisch gesehen nichts anderes als eine Auszählung von Häufigkeiten ist, wie man es von jedem Wahlabend kennt, wenn die Stimmanteile der Parteien ermittelt werden. Bei mehr als einem Merkmal kommt die Idee der wechselseitigen Abhängigkeit hinzu, was neben einer Reihe weiterer Kennwerte (z. B. Korrelationen und Zusammenhangsmaße) zum Begriff der Unabhängigkeit und schließlich zur zentralen Idee unabhängiger und identisch verteilter Zufallsvariablen führt. Ein großer Teil der klassischen Statistik studiert solche Familien von Zufallsvariablen zusammen mit ihren Verteilungen Pθ (x). Die klassische Statistik hat seit 1950 das Grundmodell um (mathematisch beherrschbare) Abhängigkeiten189 zu stochastischen Prozessen erweitert und geht von (engen) parametrischen Verteilungsfamilien zu weit umfassenderen und damit auch robusteren nicht-parametrischen Situationen über. Diese formal-mathematische Entwicklungsrichtung gipfelt in den heute allgemein gebräuchlichen, flexiblen wie eleganten stochastischen Modellen, welche gemäß dem Hauptsatz der angewandten Statistik insbesondere eingesetzt werden, um Struktur in den Daten (also Wesentliches), von zufälligen Schwankungen (also Unwesentlichem), zu unterscheiden. Auch deshalb nahmen Modelle - die das Wesentliche erfassen sollen - und der Prozess der Modellierung weiter oben eine so prominente Rolle ein.
Intelligente Datenanalyse Die von Berthold und Hand so genannte und sicherlich auch von vielen anderen praktizierte Intelligente Datenanalyse (IDA) versteht sich als Fortführung der explorativen Datenanalyse. Auch sie geht von Daten, nicht Methoden oder Hypothesen aus. Die Analyse von Daten versteht sie als einen Prozess, in dem sukzessive die jeweils passenden Verfahren angewandt werden. Berthold und Hand schreiben:190 “The word ‘process’ is important here. There is, in some quarters, an apparent belief hat data analysis simply consists of picking and applying a tool to match the presenting (sic) problem. This [. . .] misconception has been dignified with a name: it is called the cookbook fallacy, based on the mistaken idea that one simply picks an appropriate recipe from one’s collection.” Es ist jedoch genau anders herum, denn er fährt fort: [. . .] Data analysis is not simply a collection of isolated tools, each completely different form the other, simply lying around waiting to be matched to the problem. 189
Insbesondere Martingal- und Markov-Eigenschaft sowie Stationarität
190
Berthold und Hand (2003: 3). Siehe zudem S. 270 und Box (1976: 797).
4.6 Induktive Orientierung
299
Rather the tools of data analysis have complex interrelationships [. . .] Only very rarely is a research question stated sufficiently precisely that a single and simple application of one method will suffice. In fact, what happens in practice is that data analysis is an iterative process [. . .] Each technique is being used to probe a slightly diffent aspect of the data [. . .] Often the process throws up aspects of the data that have not been considered before. [It] is a voyage of discovery - and it is this sense of and investigation which makes modern data analysis so exciting.
Bei diesem Voranschreiten ins Unbekannte kommt es maßgeblich auf Verstand und Augenmaß an, so dass Hand eine Seite später betont: “ ‘Intelligent’ data analysis is not a haphazard application of statistical and machine learning tools, not a random walk through the space of analytic techniques, but a carefully planned and considered process of deciding what will be most useful and revealing.” Da die Aufbereitung von Daten allein schon angesichts des Spektrums der Möglichkeiten zuweilen eher einer Kunst als einer Wissenschaft gleicht, wurde sie vom mathematischen Kern der Statistik eher vernachlässigt oder sogar mit Argwohn betrachtet. Anwender, wie Menges (1982: 14) sagten deshalb zurecht: „[. . .] bei den Kontroversen wie bei der theoretischen Grundlegung, hat man einen sehr engen Begriff von Statistik im Sinn; eigentlich nur die Inferenz, kontrovers ergänzt durch die Entscheidung. Tatsächlich umgreift aber die Theorie (und Technik) der Statistik noch viele andere Gebiete, die in der großen internationalen Diskussion so gut wie vernachlässigt werden: Spezifizieren, Beobachten, Beschreiben und Präsentieren [. . .] Während die syntaktische Verarbeitung statistischer Daten Bände füllt, ist die semantische Datenverarbeitung wenig entwickelt, und die Deskription konnte, obgleich bis zu einem gewissen Grad entwickelt, nicht Schritt halten mit der übrigen wissenschaftlichen Entwicklung [. . .]“ Dann stellt er die Statistik vom (mathematischen) Kopf auf die (empirischen) Füße und propagiert auf der folgenden Seite „die Entwicklung einer adaptiven Statistik, mit den folgenden Grundsätzen: 1. Das wichtigste sind die Daten, das zweitwichtigste ist die jeweilige Sachtheorie (z. B. Biologie, Wirtschaftswissenschaften), dann erst kommen die Methoden. Bisher hat man in der Statistik die Methoden überbewertet. 2. Die Methoden müssen sich an den Daten und an der Theorie orientieren, nicht umgekehrt. Die Methoden müssen insbesondere auf die Art und Qualität der Daten Rücksicht nehmen. 3. Die Methoden müssen aufnahmebereit sein für jede Art von Informationen, sie müssen die Information voll ausbeuten, und es sollte angestrebt werden, die Qualität der jeweiligen Information zu bewerten.“ Menges’ Wunsch wird nicht nur häufig zitiert, er ist auch größtenteils in Erfüllung gegangen:
300
4 Induktion
4.6.2 Data Mining Pulling diamonds from the clay. (Gell-Mann 1999: 155)
Seit Anfang der 1980er Jahre hat sich im Bereich graphischer Methoden eine Revolution ereignet. Computer wurden billig und die mit ihnen realisierbaren Grafiken entwickelten sich von schemenhaften Schwarz-Weiß-Skizzen über farbige Diagramme hin zur wirklichkeitsnahen 3D-Animationen. Wozu Foto und Film mehr als ein Jahrhundert gebraucht haben, nämlich aus schemenhaften, grobkörnigen und unbewegten Momentaufnahmen plastische, detailreiche und realitätsnahe Handlungsstränge zu schaffen, benötigte die Datenanalyse gerade einmal 25 Jahre. Es liegen Welten zwischen Tukey (1977) oder Tufte (1983) und Unwin et al. (2006) oder Chen et al. (2008), die sich alle mit der Visualisierung quantitativer Information befassen.191 Zugleich sind die erhobenen, gespeicherten und damit auch auswertbaren Datenmengen geradezu explodiert. In der Einleitung von Unwin et al. (2006: 11ff) findet sich eine übersichtliche historische Auflistung. Operierten die Väter der heute orthodoxen Statistik noch mit wenigen Zahlenwerten, die auf ein paar Blättern Papier Platz fanden, und galten in den 1950er Jahren Untersuchungen mit mehr als 1000 statistische Einheiten noch als überaus groß, so sind heute Datenbanken mit Millionen von Fällen und Tausenden von erhobenen Merkmalen keine Seltenheit mehr. Dem entsprechend kommen den informationstechnische Aspekte bei der Datenerhebung, -Haltung und -Analyse eine weit größere Bedeutung zu, also noch vor wenigen Jahren. Zur Zeit kämpfen Praktiker viel mehr mit der Organisation riesiger Datenmengen als mit deren Auswertung. Gleichwohl zeichnen sich auch hier Umwälzungen ab. Auswertungsverfahren, die bislang nicht realisierbar waren, weil sie mit einem zu großen Rechenaufwand verbunden waren, können nun durchgeführt werden, was inbesondere Bayesianern in die Hände spielt. Andererseits passiert es jedoch auch, dass Verfahren, die für kleine Datensätze entwickelt und in diesem Umfang brauchbar waren, bei größeren Datenmengen versagen. Sie sind nicht skalierbar. Durchaus typisch ist auch die bereits in Abschnitt 3.7.1 gemachte Bemerkung, dass effiziente Rechenalgorithmen mathematische Herleitungen zumindest teilweise ersetzen und eher simple, vereinfachende Modelle, die man noch geschlossen - also per Lösungsformel - lösen konnte, durch realitätsnähere und numerisch noch approximierbare Modelle ersetzt werden. Data Mining (DM) ist das aktuelle Schlagwort für die induktive Art, Statistik zu betreiben. Charakteristisch ist dieselbe philosophische Grundhaltung wie bei der EDA; ein methodischer Eklektizismus, wobei jedoch graphischen Darstellungen und probabilistischen Modellen eine herausgehobene Stellung 191
Aktuelle, hervorragend aufbereitete Daten finden sich unter www.gapminder.org Die dort versammelten Präsentationen zeigen eindrucksvoll, dass aussagekräftige Darstellungen unser Verständnis entscheidend befördern können. Auch das Motto des Projekts ist bemerkenswert: “Unveiling the beauty of statistics for a fact based world view.”
4.6 Induktive Orientierung
301
zukommt, sowie der massive Computereinsatz. Wer jedoch meint, DM damit auf eine „evolutionäre“ Erweiterung des bisherigen Vorgehens im Sinne von computational statistics, also eines Adjektives vor der eigentlich wesentlichen Statistik, verengen zu können, irrt. Informatiker denken nämlich nicht in Modellen, sondern in Algorithmen.192 Breiman (2001) schätzt, dass 98% aller Statistiker auf die Modellierung von Daten hin orientiert sind. Nur 2% aller Statistiker - und zugleich viele Wissenschaftler anderer Gebiete - folgen jedoch seines Erachtens einem algorithmischen Ansatz. Den Unterschied macht er bezeichnenderweise daran fest, welche Bedeutung dem Schritt zwischen Inputvariablen Xi und Outputvariablen Yj beigemessen wird. Dem algorithmischen Denken nahe stehende Wissenschaftler kümmern sich nicht sonderlich um die Details dazwischen. Egal wie man z. B. vom Input zu einer Prognose Yˆ = f (Xi ) des Outputs kommt, entscheidend ist der Unterschied zwischen Prognose und Realität - gemessen zum Beispiel als Abstand zwischen Y und Yˆ . Dies hatten wir bei der Modellierung als das grundlegende Kriterium der äußeren Passung identifiziert (siehe insbesondere Abschnitt 4.5.1). Statistische Modelle gehen darüber hinaus, ihnen geht es auch um die Binnenstruktur der Umsetzung von X in Yˆ . Die Hauptaufgabe anspruchsvoller statistischer Modellierung wird gerade darin gesehen, ein adäquates Modell dieses Zusammenhangs zu entwickeln, bis hin zu einer realistischen Interpretation der beteiligten Mechanismen.193 So gesehen ist Statistik die tiefer gehende, anspruchsvollere Tätigkeit, und Dawid (2000) wird in der Diskussion seines Artikels gerade für den von ihm propagierten ‘black box’ Ansatz (siehe S. 285) gescholten. Hand (1999: 436) fasst die unterschiedlichen Perspektiven in einem Satz zusammen: The key role of programs has led to an increased emphasis on algorithms in data mining, in contrast to the emphasis on models in statistics. The idea is that one applies the algorithm to data sets, learning how it behaves and what properties it has, regardless of any notion of an underlying model (or pattern) which it might be building.194
Gleichwohl ist Data Mining keine oberflächliche, auf schnelle Prognosen hin fokussierte Unternehmung. Durch den engen Kontakt mit einem Anwendungsfeld bekommen die Zahlenwerte häufig eine größere inhaltliche Tiefe als in der traditionellen Statistik, die substanzielle Gesichtspunkte ziemlich konsequent nicht formalisiert. Es ist gerade der Mangel an formalen Anhaltspunkten und einem einheitlichen logischen Rahmen, der einen dazu zwingt mithilfe des inhaltlichen Verständnisses (häufig sehr unpräziser Art), die Daten zu erschließen. In diesem Sinne schreibt Good (1983b: 288) bereits zur explorativen Datenanalyse: “Statistics as a whole is more concerned with superficial structure than with deep structure. To discover deep structure in a 192
Für ein umfassende Einführung aus Informatiksicht siehe Cormen et al. (2009) und den Klassiker Knuth (1999). 193 Siehe insbesondere die Abschnitte 3.11.2 und 4.5.2 194
Siehe hierzu auch Hudec (o. J.: Kapitel 3).
302
4 Induktion
science usually requires much familiarity with that science. Even an exploratory data analyst cannot expect to obtain truly deep results in a science with which he is unfamiliar unless he cooperates with a scientific specialist.” Mathematische Statistiker können einem solchen Vorgehen zwar eher wenig abgewinnen,195 dies hindert versierte Fachwissenschaftler jedoch nicht, das Feld voranzutreiben und regelmäßig Entdeckungen zu machen. Prominente Beispiele sind die Bioinformatik, die spätestens seit dem Human Genome Project in Daten ertrinkt; die Medizin, welche immer mehr Informationen elektronisch-standardisiert ablegt und große Konzerne, die insbesondere im E-Business-Bereich verstehen wollen, wie sich ihre Kunden verhalten. Nicht vergessen werden sollte aber auch die umfangreiche amtliche Statistik, komplexe industrielle Produktionsprozesse, wo Daten in Echtzeit erhoben und automatisiert analysiert werden, die Signalverarbeitung und insbesondere die Mustererkennung, aber auch so traditionelle Bereiche wie die Hochenergiephysik, die Astronomie und die Meteorologie (inklusive Klimaforschung). Alle genannten Gebiete sehen sich immensen Datenmengen gegenüber, welche es zu durchdringen gilt. Angesichts dessen spielt auch die automatisierte Analyse von Daten, insbesondere in dem Sinne, dass signifikante Muster von Suchalgorithmen erkannt und hervorgehoben werden, eine immer größere Rolle. Auch wenn traditionelle Statistiker hier wiederum aus guten Gründen eher skeptisch sind,196 kann man ab einem gewissen Datenumfang nicht mehr mit handwerklich-manuellem Geschick an jede einzelne Variable oder sogar jeden einzelnen Datensatz herangehen. Wie beim Übergang von Handwerk zu Industrie ist man gezwungen, allgemeine Regeln zu definieren und Strategien zu entwickeln, die im großen Maßstab und ohne ständige äußere Eingriffe funktionieren. Olson und Dehlen (2008: 6) bringen das zum Ausdruck: Data mining tools need to be versatile, scalable, capable of accurately predicting responses between actions and results, and capable of automatic implementation.
Darüber weit hinausgehend rückt sogar eine automatisierte Datenverarbeitungskette - von der Erhebung zahlreicher relevanter Datensätze, über deren Bereinigung, Aggregation und Anreicherung um Information aus anderen Quellen, bis hin zur Standard-Analyse - in Reichweite. Ein solcher reibungsloser Datenfluss, der ohne Brüche aus Daten Wissen generiert, ist wohl der Traum jedes Datenanalysten. Auch wenn er sich aufgrund des Induktionsproblems nie ganz realisieren lässt, ist in einem beschränkten Rahmen Automatisierung und deduktives Schließen immer möglich. Die Flussdiagramme moderner Data-Mining-Software implementieren bereits den mittleren Teil der genannten Kette. Ganz allgemein spricht man von “Informationsfusion” (siehe http://isif.org/). 195
Diaconis und Mosteller (1989: 859): “With a large enough sample, any outrageous thing is likely to happen.” 196
Etwa schreibt Huber (2006: 332): “On the whole, I take a pretty dim view of data mining [. . .] because it invites programmed self-deception [. . .] what had made those methods work in the first place - namely, the common sense judgement of a good old-fashioned statistician applying them - did not fit into a supposed fully automated package and was omitted.”
4.6 Induktive Orientierung
303
4.6.3 Data Mining versus konservative Statistik Data analysis can gain much from formal statistics, but only if the connection is kept adequately loose. (Tukey 1984: 551)
Man sollte meinen, angesichts der Größe der sich aufdrängenden neuen Aufgaben wären auch Statistiker eifrig dabei, ihre Methoden an die aktuellen und zukünftigen Verhältnisse zu adaptieren und wo nötig, mutig gänzlich neue Ansätze zu verfolgen. Gerade in unseren (zumindest rhetorisch) interdisziplinären Zeiten, würde man als Außenstehender erwarten, dass Statistiker und Fachwissenschaftler eng zusammenarbeiten, Daten erheben, analysieren, und gemeinsam die großen (und kleinen) Probleme angehen, die geradezu wie Pilze aus dem Boden schießen. Ganz so hatten es ja auch die Gründerväter der heute orthodoxen Statistik gehalten, die sich den Herausforderungen ihrer Zeit stellten.197 Es war ihre Anwender- und Problemorientierung, welche sie zu kreativen Methoden motivierte, allen voran R. A. Fisher, der auch in der Genetik Großartiges leistete. Noch Kruskal (1958) schrieb: “Statistics deals with some general methods of fitting patterns that are hidden in a cloud of irrelevances, of natural variability, and of error-prone observations and measurements,” eine Charakterisierung, die heute als Definition von Data Mining dienen könnte. Doch leider zeichnet sich heute ein ganz anderes Bild ab - die Statistik findet sich im Großen und Ganzen in der ersten Reihe der Kritiker und Bedenkenträger. Hand (1998b: 112) schreibt sehr plastisch: Statistics as a discipline has a poor record for timely recognition of important ideas. A common pattern is that a new idea will be launched by researchers in some other discipline, will attract considerable interest [. . .], and only then will statisticians become involved. By which time, of course, the intellectual proprietorship - not to mention large research grants - has gone elsewhere.
Neben Data Mining, wo sich eben dieses Muster abzuzeichnen begann, erwähnt Hand auf derselben Seite Mustererkennung, Expertensysteme, genetische Algorithmen, neuronale Netze und Maschinenlernen. Friedman (1997, 2001) ergänzt diese Liste um Datenverwaltung (data base management), graphische Modelle (Bayessche Netze), Datenvisualisierung und Chemometrie. Bei den kursiv gedruckten Feldern stellt er zudem fest, dass diese zwar von Statistikern mitbegründet worden sind, jedoch nur, um anschließend ignoriert zu werden. Datenvisualisierung hebt er dabei gleich doppelt hervor. Die Liste lässt sich ergänzen um viele Methoden, die zuerst in Data-Mining-Software verwendet wurden. Neben einigen Algorithmen, die den gerade genannten Feldern entstammen, zählt Friedman (2001: 6) unter anderem Decision tree induction, rule induction, association rules, feature extraction, visualization, self-organizing maps und neuro-fuzzy systems auf. Jene werden allenfalls ergänzt durch klassische statistische Methoden, insbesondere Cluster-, 197
Für einen kurzen Einblick siehe Box et al. (2005: 14).
304
4 Induktion
Diskriminanz-, Regressions- und Varianzanalysen. Er beendet das Kapitel mit der geradezu deprimierenden Schlussfolgerung (ibd., S. 7): “Thus, nearly all of the methodology currently being marketed (and used) in DM has been developed and promoted in fields other than statistics. Our core methodology has been ignored.” Und Hand (1998b: 113) ergänzt: For the health of the discipline of statistics as a whole it is important, perhaps vital, that we learn from previous experience. Unless we do, there is a real danger that statistics - and statisticians - will be perceived as a minor irrelevance, and as not playing the fundamental role in scientific and wider life that they properly do.
Woher rührt die reservierte Aufnahme des Neuen bzw. oftmals sogar der offene Widerstand? Aus Sicht der orthodoxen Statistik wird „festgestellt, dass Data Mining keine Lösungen [. . .] anbietet, die mit traditioneller Statistik nicht auch erreicht werden können, Vorteile des Data Mining nicht klar formuliert werden können, es aber einige deutliche Nachteile gegenüber der klassischen Statistik gibt.“ (Kladroba 2001: 460). Diese ablehnend-defensive Haltung lässt sich leicht mit einigen konkreten Kritikpunkten ins Offensive wenden. Kennt man als Anwender z. B. nicht die problemrelevante (statistische) Theorie, so probiert man Dinge aus, die unmöglich sind oder entdeckt am empirischen Beispiel, was theoretisch für den allgemeinen Fall schon längst bewiesen wurde. Etwa schreibt Lenz (1994: 342): “A theorem exists that says that f cannot be summarized if the underlying relationship [. . .] is m : n. I believe that there are many artificial intelligence specialists who propagate a fuzzy set approach to the data [. . .]!” Hand (2001) nennt mit overfitting und causation in association rules Beispiele klassischer Überinterpretation von Daten bzw. Stichproben, die wir auch schon weiter oben besprochen haben. Er empfiehlt “Data Minern” von der Statistik zu lernen, um nicht nochmals dieselben Erfahrungen sammeln, Methoden entwickeln und Kriterien erlernen zu müssen, welche die Statistik bereits mühselig erkämpft hat.198 In ihrem Artikel “Statistical Themes and Lessons for Data Mining” (meine Hervorhebung) zählen Glymour et al. (1996) unter der Rubrik “What can go wrong, will go wrong” eine Reihe von Fehlerquellen auf: Latente Variablen, fehlende Werte, Scheinkorrelationen,199 Selektion, Interventionseffekte usw. (Die Liste ließe sich problemlos ergänzen um z. B. mangelnde Repräsentativität, fehlende Attribute, Konfundierung und laufende Veränderung der datengenerierenden Prozesse.) Sie benennen auch die Hauptursache der meisten dieser potenziellen Fehlerquellen: Bei den Daten, und seien sie noch so zahlreich, handelt es sich letztlich um Beobachtungsdaten. Typischerweise wurden die Daten zwar systematisch, gemäß inhaltlich sinnvoller Einschluss198
Siehe auch das zeitgleiche Zitat Efrons (S. 183, 306). Trotz seines etwas altväterlichen Rats betont Hand, dass DM und Statistik voneinander profitieren sollten, und er beklagt, dass Statistiker sich nicht mit aller Aufmerksamkeit den spannenden, neuartigen Problemen des DM zuwenden. Eine derart kooperative Haltung ist jedoch eher die Ausnahme. 199 Wohl jedem Anfänger wird die hohe numerische Korrelation zwischen der Population der Störche und der menschlichen Geburtenrate nahegebracht, siehe z. B. Box et al. (2005: 8) und die sich dort S. 15 anschließenden Literaturhinweise.
4.6 Induktive Orientierung
305
und Ausschlussregeln erfasst (wobei sich genauso typischerweise die Regeln der Erfassung im Laufe der Zeit häufig ändern), doch wurde eben kein experimentelles Design zugrunde gelegt und die Daten wurden auch nicht gezielt zur Beantwortung einer Fragestellung erhoben. So hat man es mit umfassenden, häufig gut organisierten Datensammlungen zu tun, nicht aber mit hochkarätigen Ergebnissen eines sorgfältig geplanten und durchgeführten Experiments, das den Kern der klassischen Statistik bildet. Einerseits ist deshalb mit mehr Artefakten zu rechnen, andererseits blickt man unmittelbar auf die tatsächlichen Verhältnisse im Sinne eines Feldexperiments, und die Daten sind auch weit zahlreicher als in der Laborumgebung. Es ist insgesamt eine ziemlich einseitige Sicht, angesichts der zahlreichen potenziellen Fehler auf die Analyse von Beobachtungsdaten zu verzichten. Bis auf einige Akademiker im Elfenbeinturm wird dies niemand empfehlen. Stellt man sich hingegen der Aufgabe, „die Bürde des quantitativen Forschers“ (Tukey 1986b) zu tragen, so kommt man nicht umhin, mit der ganzen Bandbreite quantitativer Methoden, flexibel und doch kritisch-vorsichtig zu arbeiten, letztlich mit dem Ziel, den Daten Informationen und Einsichten abzuringen, was auch die Grundhaltung von Diaconis (2006) ist. Wie in allen empirischen Wissenschaften ist dies mühselig, zumal große Datensätze ihre ganz eigenen Probleme mit sich bringen. Sie sind nicht nur schwer überschaubar, sondern fast immer auch heterogen und komplex (Huber 2006: 333). Gleichwohl ist Konsens, dass solide Wissenschaft, basierend auf Beobachtungsdaten, möglich ist. Das Standardbeispiel hierfür ist die Astronomie, welche durch und durch empirisch-quantitativ, und zugleich nicht-experimentell ist. Die Astronomie liefert aber zugleich auch viele Beispiele für Artefakte, aufgrund nicht reliabler Daten. Zwar sind die Messungen der Astronomen typischerweise valide und präzise, nicht aber repräsentativ. Deshalb ist im Rückblick nicht verwunderlich, dass mit der Menge der noch beobachtbaren Himmelsbereiche auch immer ein drastischer Erkenntniszuwachs einher ging. Das gilt nicht nur für den Übergang von Ptolemäus zu Kopernikus, sondern auch für die Rotverschiebung, Quasare und schwarze Löcher, großräumige Strukturen im Universum, die kosmische Hintergrundstrahlung und in jüngster Zeit die dunkle Materie sowie Energie. Ignoriert man Daten oder fasst man sie nur mit Glaceehandschuhen an, so ist die Wahrscheinlichkeit, einen Fehler zu machen, zwar gering, genauso konsequent beraubt man sich aber auch der Chance, etwas wichtiges Neues zu entdecken. Wie wir schon bei Medikamententests (siehe S. 113ff) gesehen haben, finden sich Statistiker auch hier eher auf der Kritikerseite. Mit gar nicht so selten zu hörenden Schlagworten wie Fishing for significance; Data dredging; However, the data-snooping problem is endemic [. . .] (Freedman 1987b: 213),200 Peeking oder gar torturing the data until they confess wird die legitime wissenschaftliche Suche nach dem Unbekannten diskreditiert, noch ehe sie überhaupt begonnen hat. Und wie leicht ist es, falls sich ein Versuch 200
Siehe auch die zahlreiche, an jener Stelle genannte Literatur.
306
4 Induktion
als Fehlschlag erweist, ein vermeintlich neuer Effekt schließlich als Artefakt entpuppt, den Mutigen mit Hohn, Spott und Besserwisserei zu bedenken! Im später noch ausführlich zu besprechenden Fall kausaler Schlussfolgerungen schreiben Scheines et al. (1998: 165): Despite our best efforts to the contrary, our project is often characterized as ‘inferring causation from association’ or ‘discovering models by computer from no background knowledge’. Our experience has been that once such a label is attached, productive discussion is almost impossible.
Was ist die tiefere Ursache der vehementen Kritik? Es scheint, als klammere sich die aktuelle Statistik an eine überkommene Methodik und Geisteshaltung, die zu ihrer Zeit genauso innovativ waren, wie es die aktuellen informatiknahen Ansätze sind. Überwanden Neyman, E. S. Pearson, Wald, R. A. Fisher und viele andere den Widerstand der traditionellen Bayesschen Statistik, so sind es heute ebenfalls Wissenschaftler am Rand der orthodoxen Statistik, die das Banner des Fortschritts tragen und die traditionsverhafteten Statistiker mit jedem Tag mehr zurücklassen. Tukey hat vor 50 Jahren vor dieser Entwicklung gewarnt, er forderte schon damals seine Kollegen auf, die strategischen Chancen der Informationsrevolution zu nutzen. Schließlich stemmte er sich mit der explorativen Datenanalyse gegen den Mainstream der mathematischen Statistik: “[. . .] Theorem proving is seductive - and its Lorelei voices can put us on the rocks.” (Tukey (1986f: 1010), Hervorhebung im Original.) Zwar verbreiten führende Statistiker nach wie vor Optimismus; so stellt Efron (2001) nicht ohne Stolz fest: “The history since 1900 has been that statistics just takes over field after field in terms of being the methodology of choice, and I think that’ll continue [. . .] Statistics has been the most successful information science. Those who ignore Statistics are condemned to reinvent it.” (siehe S. 183). Und Efron (2006: 330) ergänzt: I believe that statistics is an information science (actually, the first information science), joined now by such fields as computer science, information theory, optimization (operations research), and signal processing.
Doch weil man genau der von Tukey angesprochenen Versuchung erlag, steht heute die Marginalisierung der Statistik als Fachgebiet auf der Agenda. Knapp, aber sehr treffend, stellt Viertl (2002: 241) fest: “[. . .] statistical methods are not the only ones for data analysis,” womit sich bewahrheitet hat, was Box (1976: 798) befürchtete: “The penalty for scientific irrelevance is, of course, that the statistician’s work is ignored by the scientific community.” Friedman (2001: 9) fasst den aktuellen Stand der Dinge zusammen: Statistics has no God given right to exist [. . .] We prosper to the extent that we produce useful methodology. If data analytic techniques originating in other fields become dominant, our field will correspondingly suffer [. . .] This ‘brain drain’ of students and researchers away from Statistics may represent the most serious threat to the future health of our discipline.201 201
Liest man die Biographien bedeutender Statistiker, so stellt sich unschwer heraus, dass es früher genau anders herum war. Oft handelt es sich bei ihnen um „Einwanderer“
4.6 Induktive Orientierung
307
Es wäre jedoch zu einfach, nur in einem durchgängigen Konservatismus den Grund der Krise zu sehen. Wie wir schon am Beispiel der klinischen Studien (S. 113ff) dargestellt haben, ist jener letztlich eine Konsequenz einer durchgängig deduktiven Grundhaltung. Genau jene hat sich in den letzten Jahrzehnten unter der Führung von Neyman und seiner Schule mathematischer Statistiker durchgesetzt. Zwar trug auch R. A. Fisher mit der Betonung der Bedeutung experimenteller Planung dazu bei, ganz wesentlich war jedoch der Einfluss des kritischen Rationalismus. Nur mit dessen Hilfe konnte der deduktive Part des deduktiv-induktiven Schemas so stark werden, dass man den völlig natürlichen, datengetriebenen, induktiven Teil nicht nur vernachlässigte, sondern ihn sogar gründlich diskreditierte. Jaynes (2003) hat dies klar erkannt, weshalb sein Buch bei aller technischen Kritik an den frequentistischen Schulen auch einen ausgeprägten philosophischen Teil mit einem Hauptgegner hat: Popper. Es sind heute die Wissenschaftler aller Gebiete, von den mathematischen Statistikern gerne lediglich als „Anwender“ (ihrer Methoden) gesehen, die nun gegen die Dominanz der Deduktion aufbegehren. Sie besitzen Daten in Hülle und Fülle und werden diese - mit wessen Hilfe auch immer, notfalls alleine auswerten. Bezeichnenderweise schreibt hierzu Friedman (2001: 9): Any statistician who has worked in other data related fields is struck by their ‘cultural gap’ with statistics. In these other fields the ‘currency’ tends to be ideas rather than mathematical technique. Heuristically motivated ideas are initially evaluated on the merits of their heuristic arguments. Final value judgements are postponed until more thorough validation (theoretical or empirical) becomes available. The paradigm is ‘innocent until proven guilty’ as opposed to the opposite one applied in our field.202
Spitz ergänzt Box, zitiert nach Huber (1997: 178): “I think we have settled to be second-rate mathematicians when we could aspire to be first-rate scientists.” Auch gegen die genannten Widerstände des Establishments hat sich das Projekt Data Mining wie zuvor bzw. mit ihm Machine Learning, neuronale Netze, Artificial Intelligence und die Mustererkennung etabliert. (Etwas allgemeiner könnte man durchaus auch die nicht-experimentellen Wissenschaften sowie die Sozialwissenschaften in die Überlegung miteinbeziehen.) Die entscheidende Frage ist, warum. Hätten die Kritiker nämlich recht bzw. wäre die Kritik wirklich durchschlagend, so müssten die Rückschläge ja den Erkenntnisfortschritt erheblich behindern. Doch offenkundig sind quantitative aus zahlreichen empirischen Wissenschaften, die zudem eine gründliche mathematische Ausbildung genossen hatten. Wir führen die Diskussion um den aktuellen Zustand der Statistik in Abschnitt 5.1.1 fort. 202 Führende aktuelle Werke bestätigen diesen Eindruck nachhaltig. Als Beleg seien lediglich Bishop (1995, 2006), E. Cox (2005), Han und Kamber (2006), Kumar et al. (2005), Olson und Dehlen (2008), Fayyad et al. (1996), Glymour et al. (1997), Petersohn (2005), Witten und Frank (2005), Hand et al. (2001) und Hastie al. (2001) genannt. Nur die letzten beiden Büchern wurden von bekannten Statistikern mit verfasst.
308
4 Induktion
Methoden aller Art erfolgreich, sie führen regelmäßig zu Entdeckungen und vertieften Einsichten.
4.6.4 Empirische Fundierung und inhaltlicher Kontext Statistics concerns the relation of quantitative data to a real-world problem, often in the presence of variability and uncertainty. It attempts to make precise and explicit what the data has to say about the problem of interest. Mallows (2006: 322)
Die Antwort auf die Frage, warum induktive, auf Beobachtungsdaten gestützte Methoden so erfolgreich sind, findet sich bezeichnenderweise in den “confessions of a pragmatic statistician.” Chatfield (2002) stellt dort die traditionelle statistische Inferenz, welche nur mit Modellen und Daten operiert, der pragmatischen statistischen Inferenz, gegenüber, welche neben formalen Strukturen und Zahlen die entscheidende Rolle beim Kontext sieht. Zu einer pragmatischen Haltung, wie sie de facto von den meisten angewandten Statistikern gelebt wird, gehören seiner Meinung (ibd., S. 8): 1. the paramount importance of context, 2. the key role that is played by pre-inferential descriptive and data analytic methods, 3. the iterative-interactive nature of statistical modelling, 4. that statisticians may use ideas from different schools of inference, not only in different problems but perhaps even within the same problem, and 5. that statisticians need to be flexible and to make good use of that hardto-define, but priceless, commodity called ‘common sense’. Angelehnt an die Informatik sagt Huber (2006: 334): “The meta-data (i.e., the story behind the data, how they were preprocessed, the precise meaning of the variables, and so on) are just as important as the data themselves.” In dieselbe Richtung stößt Draper et al. (1993: 36) vor, wenn er sagt: “For us, (probability) models are not primary; data and context are.” Ein einfaches Beispiel zeigt, wie richtig diese Haltung ist: In Savage (1961),203 werden drei verschiedene Kontexte eingeführt: 1. A lady, who adds milk to her tea, claims to be able to tell whether the tea or the milk was poured into the cup first.204 2. A music expert claims to be able to distinguish a page of Haydn score from a page of Mozart score. 3. A drunken friend says he can predict the outcome of the flip of a fair coin. 203
Zitiert nach Berger (1985: 2),
204
Offensichtlich eine Anspielung auf Fishers Lady-tasting-tea, siehe S. 241.
4.6 Induktive Orientierung
309
In allen drei Fällen werden sodann 10 Versuche durchgeführt, die allesamt erfolgreich verlaufen. Die statistische Behandlung ist in allen Fallen dieselbe. Berger (1985: 2) fährt fort: “In all three situations, the unknown quantity Θ is the probability of the person answering correctly. A classical significance test of the various claims would consider the null hypothesis (H0 ) that Θ = 0.5 (i.e., the person is guessing). In all three situations this hypothesis would be rejected with a (one-tailed) significance level of 2−10 . Thus the above experiments give strong evidence that the various claims are valid.” Gleichwohl sind die daraus zu ziehenden Schlüsse sehr verschieden, d. h. die Statistik ist also weit von der Devise entfernt, die Zahlen wüssten nicht, woher sie kommen (Lord 1953). Während die Behauptung des Musikexperten als belegt gelten kann, wird wohl kaum jemand viel auf die hellseherischen Fähigkeiten des Freundes geben, während man im Fall der Lady geteilter Meinung sein kann. Derartige Folgerungen hängen offensichtlich umso mehr vom nicht-formalen Kontext ab, je weniger formalisiert wird. Darüber hinaus kommt es entscheidend darauf an, die relevanten Aspekte zu modellieren. Cox (2006: 197) sagt: “How this translation from subject-matter problem to statistical model is done is often the most critical part of an analysis.” “Model formulation is crucial” schreibt Cox (1995: 253) und führt dies (ibd., S. 208) weiter aus: In analyzing and interpreting data the use of models, implicit or explicit, is unavoidable. The results of descriptive statistics or exploratory data analysis are meaningless numbers or graphs unless interpreted as representing aspects of subject-matter interest and this requires some schematic view of the system under study.
Natürlich spielen formale Aspekte bei der Auswertung eine nicht zu unterschätzende Rolle, gleichwohl kommt es primär auf die substanziellen Folgerungen an, also welches fachliche Gewicht Ergebnisse haben: “Indeed, data analysis operates in the outside world, not in the world of mathematics.” (Tukey 1997: 23) Wenn Bayesianer die Rolle des (substanziellen) Vorwissens betonen, welches sie in einer geeigneten Priori-Verteilung erfassen, so gehen sie explizit auf den fachlichen Kontext ein. Die Berechnung einer Posteriori-Verteilung im Bayesschen Paradigma ist die wohl strengstmögliche Art, Vorwissen und das Ergebnis der Erhebung zu kombinieren. (Es nämlich via mathematischem Theorem zu verrechnen, was den Bayesschen Ansatz leicht zum Korsett werden lässt.) Auch Frequentisten wissen um die Bedeutung des Umfelds, versuchen sie doch bestenfalls, ein situationsadäquates statistisches Experiment zu definieren. Ihr fehlt jedoch nach wie vor eine explizite Berücksichtigung des Kontextes. Substanzielles Hintergrundwissen wird meist genauso wenig formalisiert wie die Ziele einer Analyse. Häufig überlässt sie die inhaltliche Fundierung wie auch die Interpretation der Ergebnisse größerenteils den Fachwissenschaftlern. Pearl (2009a: 96) stellt zurecht fest: The benefit of incorporating substantive background knowledge into probabilistic inference was recognized as far back as Thomas Bayes (1763) and Pierre Laplace
310
4 Induktion
(1812),205 and its crucial role in the analysis and interpretation of complex statistical studies in generally acknowledged by most modern statisticians. However, the mathematical language available for expressing background knowledge has remained in a rather pitiful state of development.
Einerseits ist das wenig verwunderlich, niemand sollte erwarten, dass sich spezifische natur-, sozial- und wirtschaftswissenschaftliche Begebenheiten auf einfache und einheitliche Art und Weise modellieren lassen. (Siehe jedoch Abschnitt 5.4.1.) Doch scheint dies bei manchem mathematischen Statistiker zu der Auffassung geführt zu haben, Inhalte als nicht wesentlich anzusehen. Der von der orthodoxen Statistik übernommene Wahlspruch Fishers “Let the data speak for themselves” hat zusammen mit der Bayesschen Kontroverse und der von Neyman begründeten dominierenden mathematischen Schule dazu beigetragen, den Kontext weitgehend zu ignorieren. Genau diese Lücke füllen Fachwissenschaftler und angewandte Statistiker.
Die Brückenmetapher Cornfield und Tukey (1956: 912ff) unterscheiden fein säuberlich zwischen statistischen und substanziellen Aspekten: In almost any practical situation where analytical statistics is applied, the inference from the observations to the real conclusion has two parts, only the first of which is statistical. A genetic experiment on Drosophila will usually involve flies of a certain race of a certain species. The statistically based conclusions cannot extend beyond this race, yet the geneticist will usually, often wisely, extend the conclusion to (a) the whole species, (b) all Drosophila, or (c) a larger group of insects. This wider extension may be implicit or explicit, but it is almost always present. It we take the simile of the bridge crossing the river by way of an island, there is a statistical span from the near bank to the island, and a subject-matter span from the island to the far bank. Both are important.
Deshalb ist ihnen auch klar, wie die Prioritäten gesetzt werden müssen, falls es zu einem Konflikt zwischen inhaltlichen und formalen Gesichtspunkten kommt. Sie fahren fort: By modifying the observation program and the corresponding analysis of the data, the island may be moved nearer of farther from the distant bank, and the statistical span may be made stronger or weaker. In doing this it is easy to forget the second span, which usually can only be strengthened by improving the science or art on which it depends. Yet an unbalanced understanding of, and choice among, the statistical possibilities requires constant attention to the second span. It may often be worth while to move the island nearer to the distant bank, at the cost of weakening the statistical span - particularly when the subject-matter span is weak.206
Als Beispiel geben die Autoren die Varianzanalyse an. Dort werden im Allgemeinen mehrere Faktoren und ihre Ausprägungen, typischerweise Faktorstufen genannt, untersucht. Betrachtet man die Faktorstufen nun als fest 205
Für eine Darstellung der frühen Entwicklung siehe Todhunter (1865) und Stigler (1986)
206
Siehe auch Cronbach et al. (1972: 359ff) und die dort zusätzlich angegebene Literatur.
4.6 Induktive Orientierung
311
bzw. als eine bewusst fixierte Auswahl aller möglichen Ausprägungen eines Faktors, so hat man gewissermaßen lokal eine optimale Auswahl getroffen. Dies hat jedoch den Nachteil, dass man schwerer auf den eigentlich interessierenden Faktor generalisieren kann. Deshalb schlägt Cornfield und Tukey vor, eine Zufallsauswahl von Faktorstufen im Experiment zu realisieren, was zwar den Nachteil mit sich bringen kann, dass die Faktorstufen z. B. nicht äquidistant sind, dahingegen aber die Generalisierung (Repräsentativität!) erleichtert bzw. überhaupt erst ermöglicht. Damit wenden sie Fishers Maxime an, der das eigentliche Ziel eines Experiments in der Generalisierung, also dessen externer Validität, erblickt. Genau das ist auch der Grund, warum sich Fisher (1966: 102) explizit gegen eine (übermäßige) Standardisierung experimenteller Bedingungen ausspricht: “The exact standardisation of experimental conditions, which is often thoughtlessly advocated as a panacea, always carries with it the real disadvantage that a highly standardised experiment supplies direct information only in respect of the narrow range of conditions achieved by standardisation. Standardisation, therefore, weakens rather than strenghtens our ground for inferring a like result, when, as is invariably the case in practice, these conditions are somewhat varied.” Wir hatten im Fall der Randomisierung völlig analog argumentiert: Auch bei einer „optimalen“ Auswahl einer Stichprobe kann man nicht ohne weiteres von Repräsentativität ausgehen. Mehr noch: Auch wenn man durch sorgsames Balancieren bekannter Faktoren jene bestmöglich auf zwei zu untersuchende Gruppen aufteilt, so weiß man nichts über die unbekannten Faktoren (Rosenbaum 2002: 21). Ganz im Sinne von Cornfield, Tukey und Fisher bezahlt man bei der Randomisierung zwar den Preis, dass die beiden Gruppen bezüglich der bekannten Faktoren nicht bestmöglich balanciert sind (was Alternativerklärungen erleichtert), jedoch gibt einem die Randomisierung auch die Berechtigung, dass unbekannte Faktoren balanciert und damit kontrolliert wurden, so dass ein verallgemeinernder Schluss gerade dann, wenn man über potenzielle Störfaktoren wenig weiß, wesentlich gerechtfertigter ist als ohne Randomisierung. Man beachte, dass Cornfield und Tukey (1956) in der Brückenmetapher den typischen wissenschaftlich Schluss von der speziellen Untersuchung auf eine allgemeine Population oder Gesetzmäßigkeit beschrieben haben, und das es ihnen vor allem darum geht, diesen so überzeugend wie möglich zu gestalten. Ihre sehr nützliche und natürliche Unterscheidung zwischen formalem und inhaltlichem Kontext kann auch dazu verwendet werden, experimentelle und quasiexperimentelle Designs noch einmal zu durchdenken. Shadish et al. (2002), aber wohl auch die meisten Statistiker sehen diese vor allem unter formalen Gesichtspunkten. Wie die Wortwahl schon zeigt, gibt es starke, randomisierte Designs, die nach allgemeiner Lehrmeinung ohne weiteres sogar Kausalschlüsse ermöglichen und schwache Designs, bei denen eine Reihe von Einwänden gegen die gewünschte Schlussfolgerung auf der Hand liegen, weshalb man letztere als Quasiexperimente bezeichnet. Je mehr Alternativerklä-
312
4 Induktion
rungen ein bestimmtes Design aufgrund seiner formalen Struktur entkräftet, umso besser; so lautet die Devise. Cornfield und Tukey (1956) würden umfassender, und damit zuweilen im Widerspruch zu rein statistischen Überlegungen argumentieren. Selbst wenn z. B. ein Design A formal gesehen schwächer ist als Design B - wäre es in einer speziellen Untersuchung besser geeignet, die inhaltliche induktive Lücke zu überbrücken, so würden sie wohl trotzdem A empfehlen. Weiß man zum Beispiel, dass ein bestimmter Störeffekt sehr wahrscheinlich ist und das Resultat eines Experiments völlig in Frage stellen kann, so sollte man sich genau gegen diesen Effekt durch die Wahl eines geeigneten Designs absichern. Hier eine gezielte Vorkehrung im Sinne von Gefahrenabwehr zu treffen ist viel wichtiger, als ein vermeintlich stärkeres Standarddesign zu wählen, das gegen eine ganz Reihe möglicher, aber nicht sonderlich wahrscheinlich auftretender Störfaktoren, hilft. Kish (1987: 10) führt dies explizit aus: In practice we usually lack the resources to overcome all difficulties, and thus to achieve simultaneously the perfection of realism of measurements, of randomization to control treatments, and of representation over larger populations. Let us agree that often, even usually, we cannot satisfy all these three criteria simultaneously. After admitting that much, however, many writers proclaim an overall hierarchy among the criteria, so that one criterion is paramount in all situations. For example, some believe that randomization of treatments (or ‘internal validity’), when possible, must be had at all cost, before considering representation over populations (or ‘external validity’) or realism. On the contrary, I believe that there is no supercriterion that would lead to a unique, overall, and ubiquitous superiority among the three criteria. Rather, one must choose and compromise with a research strategy so as to fit our resources to the situation at hand.
Mehr noch, eine starke wissenschaftliche Theorie kann ein schwaches Design mehr als wettmachen. So genügt in der Physik zuweilen eine einzige auffällige Beobachtung, um grundsätzliche Schlüsse zu untermauern. Auch Fisher hat wiederholt und vehement auf die Bedeutung des Einzelfalls hingewiesen.207 Die Stärke der Theorie zeigt sich hier gerade darin, alternative Erklärungen von vorneherein unplausibel zu machen oder sogar völlig auszuschließen. Infolge dessen braucht das Design dann diese Aufgabe nicht mehr zu übernehmen und kann gerade jene Aspekte abdecken, über die die Theorie keine Aussage macht. Im besten Fall ergänzen sich natürlich statistische und substanzwissenschaftliche Überlegungen. Es zahlt sich jedoch auf jeden Fall aus, situationsadäquat zu agieren und im Vorfeld bewusst zu spezifizieren, welche Alternativerklärung aufgrund von Vorwissen ungefährlich bzw. welche Störfaktoren explizite Gegenmaßnahmen erforderlich machen. 207
Siehe Fisher (1955) und insbesondere das von uns S. 105 gebrachte Zitat aus Fisher (1973: 96).
4.6 Induktive Orientierung
313
Das Fundament Data Mining (in allen seinen Formen) funktioniert, weil ihr Fachwissen die Beteiligten nicht im Dunkeln darüber lässt, was im Vorfeld, bei der Gewinnung von Daten und bei deren Auswertung zu tun ist! Genau das versucht Chatfield mit dem Begriff „Kontext“ und dessen Elaboration zu verdeutlichen. Wie die angewandten Wissenschaften tagtäglich demonstrieren, ist es gerade das Zusammenspiel zwischen inhaltlichen, statistischen und neuerdings auch algorithmischen Aspekten, basierend auf einem soliden Verständnis des jeweiligen Fachgebiets, das sich als fruchtbar erweist. Hingegen ist es immer wieder Einseitigkeit, die zu irrelevanten Entwicklungen führt. Mathematisch-statistischen Purismus haben wir schon ausführlich erörtert. Die Klassifikation der evidenzbasierten Medizin208 zeigt, dass man aber auch dem Expertenwissen einzelner und selbst dem Konsens vieler nicht allzu sehr vertrauen sollte. Genauso notwendig ist die Warnung vor Einseitigkeit bzgl. einer an Algorithmen orientierten Datenanalyse. Data-MiningWettbewerbe, bei denen es primär um die Entwicklung von Algorithmen geht, sind theoretisch sinnvoll, doch sicherlich führt die automatische Analyse eines Datensatzes ohne Kenntnis seiner inhaltlichen Bedeutung und seines Zustandekommens nur selten zu einem interessanten Resultat. Es ist kein Zufall, dass auch die stärksten Verfahren und Computer gegen die schiere Quantität der Genome oder Neurone nahezu machtlos sind. Was fehlt, ist das biologische Verständnis der wesentlichen Zusammenhänge. Man ertrinkt in Details und weder die Statistik noch die Fachkenntnisse noch die Algorithmen alleine sind in der Lage, das Signal vom Rauschen, also die wesentlichen, interessierenden Phänomene von unbedeutenden Nebeneffekten oder zufälligen Fluktuationen zu trennen. Viel häufiger ist es eine Kombination aller zur Verfügung stehenden Methoden sowie des einschlägigen Fachwissens, das zum Erfolg führt: The moral is clear - ‘In union there is strength.’ (Diaconis 2006: 31)
Der Dreiklang bei Menges (1982) hatte zudem eine hierarchische Anordnung: Erst die Daten, dann die fachwissenschaftliche Theorie, dann die statistischen Aspekte. Dies unterstreicht Good (1983b: 288), wenn er in der EDA einen Baconian flavor sieht: “Whereas many elementary non-Bayesian textbooks, written with a pair of scissors and a pot of glue, say that hypotheses should be formulated before looking at the data, the Baconian, the exploratory data analyst, the clinician, the cryptanalyst, the scientist, and the detective, all tend to reverse this advice. Their Rule 1 is ‘look at the data’ [. . .]” Velleman (1997) belegt dies explizit, indem er Zitate von Bacon und Tukey nebeneinanderstellt. Der Leser wird sich vielleicht daran erinnern, dass es bei der deterministischen Messtheorie nicht anders war. Auch diese stützt sich letztlich auf 208
Siehe z. B. S. 244
314
4 Induktion
eine empirische Struktur, dort empirischer Relativ genannt, und dessen Abbildung. Die ganzen Invarianzüberlegungen dienen bei der fundamentalen Messung letztlich nur dazu, der zugrundeliegenden Struktur gerecht zu werden, und nicht mehr in die Zahlen hineinzuinterpretieren, als was tatsächlich vorhanden ist. Auch dort hatten wir festgestellt, dass die mathematischen Transformationen sekundär waren, und vielmehr der reliablen, validen Messung die entscheidende Rolle zukam. Es ist sogar so, dass das ganze beeindruckende Gebäude der Physik schließlich und endlich auf nicht mehr als einer Handvoll fundamentaler Größen und deren exakter Messung beruht!209 Aussagekräftige Modelle stehen immer auf einem Fundament belastbarer Daten und sie halten die induktive Lücke inhaltlich wie formal so klein wie möglich. Gelingt dies, wie im Bereich der Physik, so haben wir es mit einer erfolgreichen Wissenschaft zu tun. Einschlägige Anwendungen lassen sich dann kaum vermeiden, passen doch die entwickelten Modelle - per Konstruktion - nahezu perfekt zu den beobachteten Phänomenen. Und ebenfalls per Konstruktion vermitteln uns die Begriffe und Strukturen der Modelle eine tiefere Einsicht in die Geschehnisse. Auch wenn wir sie zunächst nur instrumentell lesen wollen; nach vielen erfolgreichen Anwendungen, Verfeinerungen und schließlich immer direkten Nachweisen kommen wir nicht umhin, sie realistisch zu interpretieren. All das vermittelt uns das Gefühl, die entscheidenden Zusammenhänge und Mechanismen verstanden zu haben. Angesichts der zahlreichen Belege ist die Versuchung nun groß, einem allgemeinen philosophischen Empirismus das Wort zu reden und der deduktiven Sicht eine eher nachgeordnete Bedeutung beizumessen. Doch auch wenn sich hierfür nicht nur zahlreiche eminente Autoren, sondern darüber hinaus sogar eine der Hauptströmungen der neuzeitlichen Philosophie heranziehen ließe, wäre das doch nicht gerechtfertigt, wie wir im nächsten Kapitel zeigen wollen.210 Zunächst kehren wir jedoch zum allgemeinen, in der Philosophie ausführlich erörterten Induktionsproblem zurück.
4.7 Philosophische Paradoxa der Induktion That a conclusion reached in one environment (say the laboratory) will apply in a different environment (say the full-scale process) is based not on statistical reasoning but on what Deming211 called “a leap of faith.” Good statistics and subject matter knowledge can narrow the chasm but not eliminate it. Box et al. (2005), zweite Seite des Einbands212 209
Laughlin (2007: 34) schreibt kurz und bündig: „An der Existenz universeller, genau bestimm- und messbarer Größen hängt die Physik als Wissenschaft.“ 210 Insbesondere zeigt Abschnitt 5.2, wie sich Induktion und Deduktion harmonisch ergänzen. 211 212
W. E. Deming (1900-1993), siehe www.deming.org. Für eine sehr ähnliche Formulierung siehe Mallows (1998: 6).
4.7 Philosophische Paradoxa der Induktion
315
Eine Reihe der in Abschnitt 4.1 genannten Paradoxa lassen sich mit den präzisen Werkzeugen der Statistik auflösen. Wir werden darüber hinaus auch noch einige weitere von Philosophen vorgebrachte wahrscheinlichkeitstheoretisch-statistische Paradoxa diskutieren, bis wir mit dem Simpsonschen Paradoxon zu einem für die Statistik richtungsweisenden Problem kommen.
4.7.1 Austauschbarkeit und GRUE-Paradoxon Der von de Finetti (1937) in die Statistik eingeführte Begriff der Austauschbarkeit liest sich wie eine Antwort auf das GRUE-Paradoxon,213 lange bevor letzteres formuliert wurde. Formal heißt eine Menge von Zufallsvariablen austauschbar, wenn ihre gemeinsame Wahrscheinlichkeitsverteilung nicht von der Reihenfolge der Zufallsvariablen abhängt. Es ist also P (X1 , X2 , . . . , Xn ) = P (Xτ (1) , Xτ (2) , . . . , Xτ (n) ) für jede Permutation τ .214 Gibt zum Beispiel die Zufallsvariable Xi an, ob im i-ten Versuch ein Erfolg auftritt und ist Sn = X1 + . . . + Xn die Anzahl der Erfolge in den ersten n Versuchen, so bedeutet Austauschbarkeit, dass es auf die Reihenfolge der Erfolge nicht ankommt, dass also “[. . .] the probability of m successes and (n − m) failures in n trials is invariant with respect to the order in which successes and failures alternate [. . .]” (siehe Cifarelli und Regazzini (1996: 265), meine Hervorhebung). Diese Forderung wird insbesondere von unabhängig und identisch verteilten (iid) Zufallsvariablen erfüllt, für welche gilt P (X1 , X2 , . . . , Xn ) = P (X1 ) · P (X2 ) · · · P (Xn ) = P (Xτ (1) , Xτ (2) , . . . , Xτ (n) ). In der scheinbar harmlosen und natürlichen Formulierung, dass die Reihenfolge der Beobachtungen keine wesentliche Information enthält, steckt auch der induktive Schluss von der Vergangenheit auf die Zukunft. Hat man nämlich die n − 1 ersten Zufallsvariablen beobachtet, so kann man innerhalb des gewählten Modells eine Aussage über die noch unbeobachtete, also n-te Zufallsvariable machen. Der Grund ist, dass man aufgrund der Austauschbarkeit so tun kann, als hätte man letztere bereits beobachtet. (Man vertausche lediglich den ersten und den n-ten Zeitpunkt.) Bei IID-Zufallsvariablen ist sogar die Verteilung von Xn gleich der Verteilung von X1 und aller übrigen Xi . Hier fixiert man also eine Verteilung, wodurch man durch sukzessive Beobachtung Informationen über die Verteilung und deren Eigenschaften sammeln kann, was z. B. darauf hinausläuft, 213
Siehe S. 197 Eine Permutation der Zahlen 1, 2, . . . , n ist eine beliebige andere Anordnung dieser Zahlen, etwa n, . . . , 1 oder n, 1, . . . , n − 1. 214
316
4 Induktion
dass Schätzungen (in den allermeisten Fällen) immer besser werden. Auch die großen Sätze der Stochastik, z. B. das Gesetz der großen Zahlen, sind so konstruiert. Wenn sich im Laufe der Zeit nichts verändert, sind die Beobachtungen heute und gestern - aber auch die noch nicht erfolgte Beobachtung morgen - als völlig gleichwertig anzusehen, was sich in gleichen Verteilungen ausdrückt. Austauschbarkeit ist schwächer, bei ihr spielt lediglich der Zeitpunkt, zu dem eine Beobachtung gemacht wird, keine Rolle. Beidesmal hat man jedoch die Idee bzw. Hypothese „konstanter“ äußerer Verhältnisse in eine mathematisch fixierte Form gebracht, also in einer exakten Definition gefasst. So ist es nicht verwunderlich, dass man im Falle austauschbarer Ereignisse leicht prognostizieren kann, denn man überblickt, auch wenn man erst einen Teil i < n aller möglichen Beobachtungen gemacht hat, die gesamte (probabilistische) Situation. Daraus folgt: Sind Smaragde bezüglich ihrer Farbe austauschbar, so kann das GRUE-Paradoxon nicht auftreten. Diese Annahme ist insbesondere dann gerechtfertigt, wenn man bislang eine Zufallsauswahl von Smaragden ausgegraben hat. Es genügt schon, wenn man argumentieren kann, dass die bisherigen Schürfungen die Menge aller möglichen Smaragd-Lagerstätten hinreichend engmaschig abgedeckt haben. Nur wenn es einen ausgeprägten Reihenfolgeeffekt gäbe, man also zum Beispiel einen Teil der möglichen Smaragdlagerstätten noch nicht erforscht hätte, oder die geschürften Smaragde im Laufe der Jahre z. B. immer dunkler geworden wären, wären Zweifel an der Hypothese der Austauschbarkeit gerechtfertigt. Die induktive Folgerung „alle Smaragde sind grün“ ist erst recht gerechtfertigt, wenn man den (unveränderlichen) chemischen Aufbau von Smaragden kennt, aus dem mithilfe der Eigenschaften von Licht folgt, dass Smaragde grün sein müssen. Um wieviel stärker die naturwissenschaftliche Theorie im Vergleich zum statistischen Argument ist, erkennt man daran, dass sie eventuelle Ausnahmen, also nicht-grüne Smaragde, von vorneherein ausschließt. Ist die Beschreibung der physikalisch-chemischen Eigenschaften von Smaragden und Licht adäquat, so lässt sich mithilfe der Theorie die Wellenlänge des reflektierten Lichts berechnen, weshalb Smaragde keine andere Farbe als grün besitzen können. Man muss also im Fall einer starken Theorie gar keine statistischen Argumente mehr bemühen.215
4.7.2 Das Raben-Paradoxon Dieses bislang noch nicht besprochene Paradoxon von Hempel (1945) zielt (unter anderem) auf die Fehlbarkeit intuitiv einleuchtender Voraussetzungen und Zusammenhänge ab. Besonders aber wirft es ein kritisches Licht 215
Dies erinnert an den bekannten Ausspruch von Rutherford: „Wenn Sie für ein Experiment Statistik benötigen, so machen Sie lieber ein besseres Experiment!“
4.7 Philosophische Paradoxa der Induktion
317
auf die Idee der Bestätigung und Stützung einer Hypothese aufgrund von Erfahrung. Das Paradoxon ergibt sich aus den folgenden drei „vernünftigen“ Annahmen:216 1. Any object that is both an A and a B confirms the hypothesis that everything which is an A is a B. 2. Any object that confirms a hypothesis confirms also any proposition that is logically equivalent to that hypothesis. 3. A white handkerchief does not confirm the hypothesis that all ravens are black. ¯ sei nun die Eigenschaft, nicht schwarz zu sein. B (im A (im folgenden S) ¯ bezeichne die Eigenschaft, kein Rabe zu sein. Wie steht es dann folgenden R) um die Hypothese „Alles, was nicht schwarz ist, ist auch kein Rabe“, also in ¯ Diese Aussage ist logisch äquivalent zu R ⇒ S, also Kurzschreibweise: S¯ ⇒ R. „Alle Raben sind schwarz.“ Beobachten wir nun ein Objekt, welches weder schwarz noch ein Rabe ist, z. B. ein weißes Taschentuch (oder einen weißen Schuh), so bestätigt diese die Hypothese, dass alle Raben schwarz sind. Das widerspricht natürlich der einleuchtenden These (iii). Offenkundig lässt sich logisch nichts gegen (ii) einwenden. Also liegt der Widerspruch darin, dass entweder (i) oder (iii) nicht unbedingt gültig sind. Eine Bayessche Analyse, die auf (i) zielt und auf Good (1967) zurückgeht, wird in Jaynes (2003: Abschnitt 5.7, 143ff) ausgeführt. Dabei werden im Rahmen eines Bayesschen Hypothesentests zwei mögliche „Welten“ konstruiert, so dass die Beobachtung eines einzelnen schwarzen Rabens die allgemeine Hypothese (alle oder zumindest sehr viele Raben sind schwarz) nicht bestätigt, sondern eher für eine Welt mit einem geringen Rabenanteil spricht. Dies ist nicht wirklich überzeugend, reagiert man doch damit auf das Paradoxon mit einer noch pathologischeren Situation, in der die Beobachtung eines Einzellfalls noch nicht einmal den allgemeinen Fall bestätigt. Eine direktere Widerlegung gibt Royall (1997: 177ff), indem er die verbalen Ungenauigkeit in einem sehr natürlichen Urnenexperiment aufdeckt. Eine erste Urne UR enthalte alle nR Raben, eine zweite Urne UR¯ alle nR¯ NichtRaben. Zudem werden alle schwarzen Objekte durch schwarze Kugeln in den Urnen repräsentiert und alle nicht-schwarzen Objekte durch weiße Kugeln. Die Hypothese H lautet, dass alle Raben schwarz sind, also Urne UR nur schwarze Kugeln enthält. Der Anteil pR schwarzer Raben (in dieser Urne) sei also gleich Eins. Zieht man nun aus UR eine schwarze Kugel, symbolisiert durch X = s, so ist dies tatsächlich Evidenz für die Hypothese. (Z. B. gegen die Alternative K, dass der Anteil schwarzer Raben kleiner als 1 ist (also pR < 1), d. h., dass manche Raben nicht-schwarz seien.) Die Evidenz, gemessen als LikelihoodQuotient, ist für eine Beobachtung L1 = pH (X = s)/pK (X = s) = 1/pR > 1 216
Siehe L. Cohen (1989: 188)
318
4 Induktion
und nach der Beobachtung von n schwarzen Kugeln sogar n
Ln = (pH (X = s)/pK (X = s)) = 1/pnR > 1. Da die Hypothesen H und K keine Aussagen über Nicht-Raben machen, liefert das Ziehen aus UR¯ auch keine Information über ihren Wahrheitsgehalt, womit der Likelihood-Quotient dort gleich Eins ist bzw. bleibt. Das heißt, die Beobachtung eines weißen Nicht-Raben sagt nichts über die Rabenhypothese aus. Man kommt zu einer anderen Schlussfolgerung als Hempel, weil man Raben und Nicht-Raben strickt getrennt hat. Das wird anders, wenn man die Urnen zusammenfasst, also bildlich gesprochen alle Kugeln in eine Urne U = UR ∪ UR¯ mit insgesamt nR + nR¯ Objekten wirft. Dem entspricht die Vorstellung, dass wir in einer Welt mit vielen verschiedenen Objekten - unter anderem bestückt mit Raben und Taschentüchern - leben. Zieht man nun eine weiße Kugel, die zudem nicht aus UR stamme (also keinen Raben symbolisiere), so ist dies Evidenz dafür, dass alle Raben schwarz sind! Das sieht man wie folgt: Uns interessieren nur die weißen Objekte in U . Diese können aus UR oder UR¯ stammen. Die Anzahl weißer Raben, also weißer Kugeln in Urne UR ist nR (1 − pR ). Bezeichnet pR¯ den Anteil schwarzer Kugeln in Urne UR¯ , so ist die Anzahl weißer sonstiger Objekte, also weißer Kugeln in Urne UR¯ , gerade nR¯ (1 − pR¯ ). Die Wahrscheinlichkeit p, dass eine aus U gezogene weiße Kugel nun aus UR¯ stammt, also ein weißer Nicht-Rabe ist, berechnet sich nach der Formel „Günstige durch Mögliche“ als p=
nR¯ (1 − pR¯ ) . nR (1 − pR ) + nR¯ (1 − pR¯ )
Laut Hypothese H ist pR = 1 und damit ist p bei Gültigkeit von H ebenfalls Eins, in Zeichen pH = 1. Ist hingegen K gültig, so hat man pR < 1 und damit ist auch p kleiner als Eins, in Zeichen pK < 1. Für den Likelihood-Quotienten als numerisches Maß für die Evidenz erhält man also L=
pH = pK
1 nR ¯ (1−pR ¯) nR (1−pR )+nR ¯ (1−pR ¯)
=
nR (1 − pR ) + nR¯ (1 − pR¯ ) > 1, nR¯ (1 − pR¯ )
In diesem Fall ist die Beobachtung eines weißen Taschentuchs also Evidenz für H, dass also alle Raben schwarz sind. Hempels Annahme (iii) ist nicht gültig. Warum klingt sie trotzdem so plausibel? Das liegt an der Anzahl der beteiligten Objekte. In der realen Welt, und sei es nur im Raum unserer begrenzten Alltagserfahrungen, ist nR groß und nR¯ noch einmal ganz erheblich größer. Folglich ist der Quotient pH /pK nur um eine verschwindend geringe Zahl ε > 0 größer als Eins. Anders gesagt: Die Beobachtung eines weißen Taschentuchs spricht zwar für H, aber nur einem quantitativ gesehen sehr geringen Umfang.
4.7 Philosophische Paradoxa der Induktion
319
Man beachte, dass wie beim Bertrandschen Paradoxon (siehe S. 159) die Antwort auf Hempels unscharfes, weil verbal formuliertes Paradoxon subtil davon abhängt, wie man es mathematisch präzisiert. Zieht man aus der Menge aller Taschentücher ein weißes, so sagt dies nichts über die Farbe von Raben aus. Wählt man jedoch aus der Menge aller weißen Objekte ein Taschentuch aus, so spricht dies für die Hypothese, dass alle Raben schwarz sind. Intuitiv ist dies klar: Beschränkt man sich auf die Welt der Taschentücher, so sagt einem dies nichts über Raben und deren Farbe. Betrachtet man jedoch alle weißen Objekte und wählt daraus ein Objekt aus, so gibt einem dies eine Information über die Farbe von Raben. Vor dem Ziehen aus der Urne aller weißen Objekte UW ist die Priori-Wahrscheinlichkeit, einen weißen Raben zu ziehen, gerade die Anzahl der weißen Raben geteilt durch die Anzahl aller weißen Objekte. Nachdem man ein Objekt, welches kein Rabe war, aus der Urne UW gezogen hat, ist die Posteriori-Wahrscheinlichkeit gleich der Anzahl der weißen Raben im Zähler geteilt durch die Anzahl aller weißen Objekte minus 1 im Nenner. Letzterer hat sich also verkleinert, das heißt, die PosterioriWahrscheinlichkeit ist echt größer als die Priori-Wahrscheinlichkeit. Aufgrund der immensen Anzahl weißer Objekte fällt der Unterschied jedoch so gering aus, dass (iii) approximativ(!) richtig ist.
4.7.3 Das Lotterie-Paradoxon Das Lotterie-Paradoxon von Kyburg (1961: 197) weist darauf hin, dass die Bestätigung vieler Hypothesen nicht automatisch auch eine Folgerung aus allen diesen Hypothesen unterstützt. Formal:217 1. If E states all the available evidence, and the [. . .] probability of H on E is within a suitably small interval from 1, it is rational to believe H (i.e. justifiable to accept H). 2. If it is rational to believe H1 , rational to believe H2 , . . . and rational to believe Hn , then it is rational to believe any logical consequence of H1 , H2 , . . . and Hn . 3. It is not rational to believe an inconsistent proposition. Wie zuvor sind alle drei Bedingungen wieder sehr plausibel. Eine Lotterie zeigt nun jedoch ein Paradoxon auf: “Consider a lottery with a million (or more) tickets, that is assumed to be administered fairly. There is a very high probability on this evidence that ticket no. 1 will not win, and that ticket no. 2 will not win, . . . and that ticket no. n will not win.” Gemäß (i) sollten wir davon überzeugt sein, dass keines der Lose gewinnt; aufgrund von (ii) also auch davon, dass überhaupt keines der Lose gewinnt. Bei einer Lotterie wird jedoch (mindestens) ein Sieger ermittelt, das heißt, mindestens eines der Lose 217
Siehe L. Cohen (1989: 206)
320
4 Induktion
ist keine Niete. Zugleich davon überzeugt zu sein, dass zwar keines der Lose gewinnt, gleichwohl aber ein Gewinner ermittelt wird, ist widersprüchlich, und damit ist es nicht rational an diese beiden Aussagen zugleich zu glauben. Hier ist die verbale Ungenauigkeit fast schon mit den Händen zu greifen. Sie versteckt sich zum einen im Ausdruck, dass die Wahrscheinlichkeit „nahe bei 1“ liegt und zum anderen im Terminus der „rationalen Überzeugung“. Betrachten wir ein einfacheres Beispiel: Die Wahrscheinlichkeit, mit einer Bewerbung erfolgreich zu sein, sei 1/10. Dann ist es rational anzunehmen, dass eine bestimmte konkrete Bewerbung nicht erfolgreich sein wird, liegt doch die Ablehnungswahrscheinlichkeit bei 90%. Es ist also sicherlich wenig rational, sich während des Studiums auf einen bestimmten Arbeitgeber zu versteifen. Schreibt man jedoch eine ganze Reihe potenzieller Arbeitgeber an, so ist die Wahrscheinlichkeit (bei Unabhängigkeit der Bewerbungen) nach n Anläufen noch immer ohne Job dazustehen, genau 0, 9n , was schnell gegen Null konvergiert. Es ist also offensichtlich auch rational, bei moderaten Erfolgsaussichten einer Bewerbung, an einen Erfolg bei genügend vielen Versuchen zu glauben. Der vermeintliche Widerspruch steckt in der falschen Intuition, welche sich durch die Präzision der Wahrscheinlichkeitstheorie nahezu sofort verflüchtigt. Durch das dritte Axiom der Wahrscheinlichkeitstheorie können sich nämlich genügend viele, im einzelnen auch sehr kleine Wahrscheinlichkeiten, zu einer beliebig nahe bei 1 gelegenen Wahrscheinlichkeit addieren. Darum ist es sowohl rational, von einem Misserfolg in jedem Einzelfall auszugehen, als auch - gleichzeitig - davon überzeugt zu sein, insgesamt zumindest einen Erfolg zu beobachten. Anders gesagt: Kyburgs Annahme (ii) ist extrem ungenau (any logical consequence), was dazu (ver)führt, aus p(Hi ) < ε für alle Hypothesen Hi auch die Ungleichung p(∪Hi ) < ε zu folgern. Tatsächlich gilt aber ledig lich p(∪Hi ) ≤ p(Hi ). Im Fall einer Lotterie ist die rechts stehende Summe gerade die Summe über alle Gewinnwahrscheinlichkeiten der Einzellose und damit sogar exakt gleich Eins!218 Die gerade besprochenen echten oder vermeintlichen Paradoxa sind keine Einzelfälle. Jaynes (2003: 144) schreibt reserviert: In the literature there are perhaps 100 ‘paradoxes’ and controversies which are like this, in that they arise from faulty intuition rather than faulty mathematics. Someone asserts a general principle that seems to him intuitively right.
Problematisch ist daran, wenn man der Intuition mehr vertraut als der axiomatischen Logik, denn er fährt fort: “Then, when probability analysis 218
Der Fairness halber sollte angefügt werden, dass sich das Paradoxon weniger gegen die Wahrscheinlichkeitstheorie als deren Interpretation im Sinne subjektiver rationaler Überzeugungen richtet. Wheeler (2007: 1f) schreibt dementsprechend: “The paradox remains of continuing interest because it raises several issues at the foundations of knowledge representation and uncertain reasoning: the relationships between fallibility, corrigible belief and logical consequence; the role that consistency, statistical evidence and probability play in belief fixation; the precise normative force that logical and probabilistic consistency have on rational belief.” Dass es solche und ähnliche Paradoxa der Rationalität gibt, sollte angesichts der Unschärfe des Begriffs nicht weiter verwundern. Man denke nur an die vielen verschiedenen einschlägigen Axiomensysteme (siehe S. 252).
4.7 Philosophische Paradoxa der Induktion
321
reveals the error, instead of taking this opportunity to educate his intuition, he reacts by rejecting the probability analysis.” Auf diese Weise kann man, im verbal-intuitiv Trüben fischend, ad infinitum diskutieren, ohne zu einem Ergebnis oder auch nur zu einer konsensfähigen Position zu kommen. Insbesondere haben sich (die Kommentare zu) Hempels Raben und Goodmans GRUE in der Literatur exponentiell vermehrt: “Enough ink has been spilled over Goodman’s ‘new problem of induction’ to drown an elephant” (Earman 1992: 104). Auf die Frage, warum Philosophen häufiger mit Gegenbeispielen und Paradoxa zu operieren scheinen als Fachwissenschaftler und Statistiker gehen wir später, vor allem in Abschnitt 6.3.3, ein.
4.7.4 Simpsons Paradoxon Ein echtes Paradoxon, welches in der Statistik seit Jahrzehnten diskutiert wird, ist das mit dem Lotterieparadoxon verwandte Simpsonsche Paradoxon.219 Auch hier geht es um die Verallgemeinerung eines Ergebnisses, das für alle Teilgruppen gilt, auf die Gesamtheit. Nehmen wir an, die Bewerbung von Männern und Frauen auf Studienplätze hätte insgesamt ergeben, dass 38% der Männer, aber nur 23% der Frauen zugelassen worden wären. Der Verdacht der Diskriminierung liegt nahe, weshalb jede(r) Antidiskriminierungsbeauftragte,der bzw. die etwas auf sich hält, eine genauere Analyse anberaumen würde. Dabei könnten sich die folgenden Zahlen je Geschlecht und Fächergruppe ergeben:220 Männlich Weiblich Fach Bewerberanzahl Anteil Bewerberanzahl Anteil Zulassungen Zulassungen A 560 63% 25 68% B 417 33% 375 35% C 373 6% 341 7% Summe 1350 38% 741 23% Es ist überraschend, dass sich in keinem der Fächer eine Benachteiligung der Frauen feststellen lässt. Es ist sogar genau das Gegenteil der Fall - Frauen werden zum Teil erheblich bevorzugt zum Studium zugelassen! Es liegt auch kein Rechenfehler vor, vielmehr werden Frauen tatsächlich in jedem Fach bevorzugt, insgesamt ist der Effekt jedoch genau umgekehrt! Der Grund für diesen paradox wirkenden Effekt ist, dass Fach und Geschlecht zusammenhängen, und zwar dergestalt, dass Frauen sich vermehrt in den Fächer mit geringer Zulassungsquote bewerben. Männer suchen sich also die Fächer aus, die viele Bewerber zulassen, Bewerberinnen wählen hin219
Siehe Simpson (1951), seine erste Erwähnung scheint in K. Pearson et al. (1899) zu sein. 220
Siehe Krengel (1988: 39)
322
4 Induktion
gegen bevorzugt die schwer zugänglichen Fächer. Dies sieht man an Fach A: Dessen Zulassungsquote liegt bei ca. 65% und über ein Drittel der männlichen Bewerber (560/1350=41%) entscheiden sich hierfür, jedoch nur 25/741=3% der Bewerberinnen. Genau entgegengesetzt sind die Verhältnisse in Fach C: Weil sich fast die Hälfte (341/741=56%) aller Frauen hierfür bewerben, werden die meisten wegen dessen sehr geringer Zulassungsquote von wenigen Prozent auch abgelehnt. Allgemein gesprochen kann jeder mithilfe von Beobachtungsdaten entdeckte Effekt ein Artefakt sein, und es hängt maßgeblich von der aus welchen Gründen auch immer gewählten Aggregationsebene ab, ob man Effekte überhaupt bemerkt. Besonders für kausale Schlüsse ist dies sehr unangenehm, erwartet man doch, dass eine Ursache-Wirkungsbeziehung nicht nur global, sondern auch in den Teilgruppen, eigentlich sogar bei jedem Individuum, zu beobachten sein sollte. Bei einer Selbstzuweisung oder irgend einer nicht zufälligen Zuordnung von Patienten zu verschiedenen behandelten Gruppen, kann es jedoch vorkommen, dass ein Medikament zwar insgesamt eine positive Wirkung entfaltet, dies jedoch in jeder einzelnen Teilgruppe genau anders herum ist. Hat das Medikament dann wirklich etwas bewirkt? Und wenn ja - in welche Richtung ging der Effekt? Es ist noch nicht einmal klar, ob ein Effekt, den man auf einer bestimmten Aggregationsebene bemerkt, wirklich vorhanden ist, da jeder Blick ins Detail221 den Effekt annulieren oder sogar umkehren kann. Leider lässt sich statistisch kaum begründen, welche Detaillierungsebene die „richtige“ ist, so dass man bei einer Frage, die eigentlich „objektiv“ durch die numerische Analyse von Daten entschieden werden sollte, wieder auf vermeintliches oder echtes Fachwissen zurückgreifen muss. Pearl (2009a: 177) schreibt: “Lindley und Novick (1981) were the first to demonstrate the nonstatistical character of Simpson’s paradox - that there is no statistical criterion that would warn the investigator against drawing the wrong conclusions or would indicate which table represents the correct answer.” Zugleich geben sie Beispiele an, wann es - aufgrund nicht-statistischer Zusatzinformationen - angemessen ist, die Situation im Detail (bedingt) zu betrachten, und wann die aggregierte Ebene angemessen ist. Doch Vorsicht! Reichert man z. B. den Münzwurf um physikalisches Fachwissen an, so wird die Analyse dadurch weder transparenter noch überzeugender. Diaconis (1998: 803) schreibt: “I call it the problem of thinking too much. It shows that the rational incorporation of information is not something to be undertaken lightly.” Simpsons Paradoxon ist ein guter Grund für randomisierte Experimente. Durch die Randomisierung wird ja nach der herrschenden Meinung die Unabhängigkeit von Faktoren sichergestellt. Hätten wir z. B. die Bewerber zufällig - und damit insbesondere unabhängig von ihrem Geschlecht - auf die Fächer aufgeteilt, so könnte sich keine Abhängigkeit zwischen Geschlecht (oder ir221
Bedingt man also unter dem Merkmal bzw. führt, anschaulicher, im DatenanalytikerJargon einen drill down durch
4.7 Philosophische Paradoxa der Induktion
323
gendeinem anderen Merkmal) und dem gewählten Fach zeigen.222 Bei einem Anteil von 1835/(1835 + 2691) = 41% weiblicher Bewerber müsste auch der Stundentinnenanteil in jedem Fach ca. 41% betragen.223 Diskriminierung und persönliche Vorlieben werden so vermieden, letztlich dadurch, dass man die Zuteilung gar nicht von irgendwelchen (substanziellen) Merkmalen abhängig macht, was nichts anders heißt, sie damit (notwendigerweise) dem Zufall zu überlassen. Eine allgemeinere konstruktive Auflösung des Simpsonschen Paradoxons gelingt erst im Rahmen einer statistischen Theorie, welche um kausale Elemente angereichert wird. Wir diskutieren das Simpsonsche Paradoxon deshalb in Abschnitt 5.4.1 zu Ende.224 Dort wird sich auch zeigen, dass nichtexperimentelle Daten besser sind, als es hier den Anschein hat.
Induktiv-statistische Argumente Unter dieser Überschrift, zumeist IS abgekürzt, diskutieren Philosophen ein verwandtes Problem.225 Angelehnt an die klassische Logik schreibt Schurz (2007: 77): „G[esetz]: 95% aller mit dem Malariavirus infizierten Personen erkranken an Malaria. A[ntecedens]: Jones hat sich mit dem Malariavirus infiziert. E[xplanandum]: Jones ist an Malaria erkrankt.
Solange die Prämissen sämtliche relevanten Informationen über Jones enthalten, ist obiges IS-Argument akzeptabel [. . .]“ Die Tatsache, dass man alle relevante Information berücksichtigt, bedeutet nichts anderes, als genau richtig zu bedingen, also eben jene Ebene bzw. Untergruppe zu betrachten, auf der sich der Effekt zeigt. Man hat also weder einen Faktor übersehen, noch bringt es etwas, weiter ins Detail zu gehen. Hempel (1965) nennt dies maximale Bestimmtheit, was im obigen Beispiel bedeutet, dass A (Infektion mit dem Malariavirus) alle für E relevanten Informationen über das Individuum enthält. „[. . .] andernfalls könnten wir zu widersprüchlichen Konklusionen gelangen [. . .] die bloße Hinzufügung von neuen (den bisherigen Prämissen logisch nicht widersprechenden) Prämissen kann ein korrektes IS-Argument inkorrekt machen [. . .]“, so Schurz weiter. Wäre nämlich z. B. „Alter“ ein relevan222
Siehe z. B. Spirtes et al. (2000: 229). Im Abschnitt 4.3.3 haben wir jedoch gezeigt, dass dies nur auf der Ebene der Zufallsvariablen gilt. Durch zufällige Fluktuationen kann es sehr wohl zu einer disproportionalen Zuordnung, und damit zu einer Abhängigkeit auf der Ebene der Beobachtungen kommen. 223
Genau das ist eine Charakterisierung von Unabhängigkeit: Alle bedingten Verteilungen (hier des Gechlechts, bei festgehaltenem Fach, also bedingt unter der Fächerwahl) stimmen überein, sind also vom Fach - wie der Name schon sagt - nicht abhängig. 224 225
Für eine „schnelle“ Lösung siehe Pearl (2009a: 180ff) Siehe z. B. Salmon (1989) und den dort gegebenen historischen Überblick.
324
4 Induktion
tes Merkmal, so stellt sich der Effekt in jungen Infizierten anders dar als in alten (womöglich erkrankt die eine Gruppe und die andere nicht), was jedoch zugleich hieße, dass A (Infektion) nicht das einzig relevante Merkmal, mit anderen Worten, A also nicht maximal bestimmt, war. Dies nennt Schurz auch die Nichtmonotonie von IS-Argumenten, und er betont, dass sie bei deduktiven Argumenten nicht auftreten kann: Ein Theorem, das für alle Vierecke gilt, muss zwangsläufig auch für die Teilmenge aller Rechtecke und Quadrate gültig sein. Wie nicht anders zu erwarten, stellt es sich als schwierig heraus, die Bedingung der maximalen Bestimmtheit technisch genau zu formulieren (Fetzer 2001: Abschnitte 6-8). Salmon (1989: 69) spricht von der “broadest homogeneous reference class available” (Hervorhebung im Original.) Wie wir erläutert er seine Formulierung: “we have not used any partitions that are not known to be relevant and we do not know how to make any further relevant partitions.” Auch Fisher schreibt, zitiert nach Bennett (1990: 9): “[. . .] rigorous inductive inference must include the totality of the available information.” (Meine Hervorhebung).226 Man beachte, dass das Wort available wesentlich ist. Ohne das Wort liegt ein gültiger Schluss vor, denn sieht man von nichtsystematischen Einflüssen - „zufälligen Schwankungen“ -, einmal ab, sollten alle statistischen Einheiten in der Referenzklasse gleichartig reagieren. Das Wort available zeigt aber, was wirklich passiert: Wir wählen die Ebene der Betrachtung (bestenfalls) aufgrund aller uns verfügbaren Information. Schurz’ Rat ist deshalb: „In diesem Sinne seien alle Anwender davor gewarnt, statistische Befunde vorschnell auf die von ihnen betreuten Einzelfälle anzuwenden, ohne zuvor gründlich zu prüfen, ob es weitere relevante Merkmale ihrer Einzelfälle gibt, welche die Wahrscheinlichkeit verändern und ein ganz anderes Bild liefern.“ (Hervorhebung im Original.) Das Problematische daran ist nicht nur, dass alle relevanten Merkmale typischerweise nicht bekannt sind, sondern, dass man, wenn nicht alle Einheiten in derselben Weise reagieren, immer Fälle herausgreifen kann, die sich entgegengesetzt zur Mehrheit verhalten. An diesen lassen sich dann in aller Regel auch Merkmalsausprägungen feststellen, die relevant für das gegenteilige Ergebnis sein könnten. Oftmals wird man noch viel schneller fündig: Drogenkonsum schadet der Gesundheit, was durch viele valide Untersuchungen mit großer Fallzahl hinreichend belegt ist. Nun gibt es aber (mäßige) Alkoholtrinker, bei denen der Konsum lebensverlängernd wirkt. Es ist nicht nur in diesem Fall leicht, eine Reihe von Merkmalsausprägungen zu finden, die hierfür verantwortlich sein könnten: konsumierte Menge, Art des Getränks, Geschlecht, Alter, Ernährungsgewohnheiten, regionale Besonderheiten usw. Schlimmstenfalls „quält“ man so die Daten, bis sie ein interessantes Ergebnis hergeben, was zuweilen auch als Munchhausen’s statistical grid (Martin 1984) bezeichnet wird. 226
Ein verwandtes Problem besteht darin, die richtige Referenzmenge anzugeben und bei Reichenbach, die engste Referenzklasse, siehe S. 404.
4.8 Lösung(en) des Induktionsproblems
325
Bestenfalls wird in der Praxis die „richtige“ Referenzklasse durch unser Vorwissen festgelegt und ist bzgl. der relevanten Merkmale homogen (konstant). Beispiel: Die Wahrscheinlichkeit, dass ein Kohlenstoff-14-Atom in den nächsten 5730 Jahren zerfällt ist 1/2. Man betrachtet also nur das Kohlenstoff-Isotop C-14, außerdem wird der radioaktive Zerfall von keinem anderen Faktor beeinflusst. Im Versicherungswesen konnte man immerhin aus vielerlei Faktoren einige mit starkem Einfluss isolieren und klassiert die Versicherungsnehmer nun gemäß jenen. Etwa ist die in der KFZ-Versicherung zu zahlende Prämie maßgeblich vom Fahrzeugtyp, dem Wohnort und der Anzahl der schadensfreien Jahre abhängig. Für jede solche Klasse (Automarke x, Wohnort y, Dauer der Schadenfreiheit z) wird eine Wahrscheinlichkeit berechnet, dass im nächsten Jahr ein Schaden eintritt. Im typischen medizinischen Beispiel ist noch weit unklarer, was die relevanten Faktoren sind. Liegt die Heilungschance bei allen Krebs-Erkrankungen bei ca. 50%, so ist die Wahrscheinlichkeit je Krebsart deutlich verschieden (Lunge 7%, Brust 50%, Haut über 95%). Weitere Detailinformationen (Krankheitsstadium, Zustand und Genetik des Patienten, Therapie und Ort der Behandlung usw.) modifizieren die Chance für jede der Untergruppen nochmals deutlich. In vielen sozialwissenschaftlichen Feldern ist schließlich völlig unklar, welche der Einheiten vergleichbar sind, also zu einer bzgl. der relevanten Faktoren homogenen Referenzklasse gehören.227
4.8 Lösung(en) des Induktionsproblems [. . .] there is no general justification of the principle of induction [. . .] Quite simply, some inductions are justified and others are not; or to be more precise, some inductions are more reasonable and others are less so. Everything depends on the case at hand [. . .] Sokal und Bricmont (1998: 59)
Chalmers (2006: 39) formuliert drei Bedingungen, „um einen induktiven Schluss von beobachtbaren Tatsachen auf wissenschaftliche Gesetze zu rechtfertigen: (i) Verallgemeinerungen müssen auf einer großen Anzahl von Beobachtungen beruhen. (ii) Die Beobachtungen müssen unter einer großen Vielfalt von Bedingungen wiederholt worden sein. (iii) Keine Beobachtungsaussage darf im Widerspruch zu dem entsprechenden allgemeinen Gesetz stehen. 227
Es sei noch darauf hingewiesen, dass mit dem Anstieg der als relevant erachteten Faktoren die Anzahl der Klassen explodiert, während die Anzahl der Fälle je Klasse ebenso schnell implodiert.
326
4 Induktion
An diesen Formulierungen und an seiner sich anschließenden scharfsinnigen Kritik an eben jenen Argumenten, erkennt man, dass er kein Statistiker, sondern Philosoph ist. Bei (i) fragt er, was denn eine große Anzahl sein sollte. Ein Statistiker würde mehr noch auf die Repräsentativität der Stichprobe (aller Beobachtungen) hinweisen. Bei (ii) wird auf die Bedeutung von Replikationen hingewiesen. Die „große Vielfalt“ von der die Rede ist, würden Statistiker wohl eher als vergleichbare bzw. austauschbare Bedingungen spezifizieren; denn es ist zum einen weder sinnvoll, eine Aussage unter irrelevanten Bedingungen experimentell zu testen oder aber, Bedingungen genau zu replizieren. Gemeint ist wohl, dass sich ein Effekt in einer Reihe verwandter Situationen stabil replizieren lässt. (iii) ist mit Blick auf Poppers Falsifikation bzw. den modus tollens ausführlich diskutiert worden. Gerade Statistikern ist dies geläufig - nur in den seltensten Fällen werden tatsächlich alle Daten für und keine einziges Datum gegen eine allgemeine Aussage sprechen. D.h., offenkundig fordert (iii) zu viel. Die Wissenschaftstheorie diskutiert das Problem im wesentlichen mit verbalen Argumenten. Stochastische Überlegungen und auch die Ausführungen zur Statistik im aktuellen Kapitel228 haben dem gegenüber den großen Vorteil, weit präziser und zumeist sogar mathematisch-quantitativ zu sein. Die Unterbestimmtheit von Daten zeigt sich bereits bei der elementaren Setzung X = x. Rechts steht die Beobachtung, die Messung, das empirische Faktum. Links steht hingegen eine weit größere Welt, nämlich eine Zufallsvariable, die durch eine ganze Reihe von Werten, samt zugehörigen Wahrscheinlichkeiten, charakterisiert ist. Man bettet also bereits mit dieser scheinbar harmlosen, weil omnipräsenten Festlegung, jede einzelne Beobachtung in einen formalen Rahmen ein. Der beobachtete Wert ist einer von vielen möglichen, und die Beobachtung legt nicht fest, mit welcher Verteilung sie verknüpft wird. Eine Art, Wahrscheinlichkeitstheorie von Statistik zu unterscheiden ist, dass bei ersterer oft nur mit einer Zufallsvariable X samt Verteilung PX gearbeitet wird, bei letzter hat man es jedoch fast immer mit vielen Zufallsvariablen X1 , X2 , . . . samt einer Familie von Verteilungsfunktionen Pϑ (x) zu tun. Diese formale Welt ist noch weit größer und entsprechend zahlreich sind die Möglichkeiten der Einbettung konkreter Beobachtungen x1 , . . . , xn . Zum einen lässt sich die Familie der Verteilungen größer oder kleiner wählen, was zur groben Einteilung nonparametrischer versus parametrischer Verfahren geführt hat. Zum anderen müssen die Zufallsvariablen X1 , X2 , . . . nicht unbedingt unabhängig sein, sondern können auf diffizile Art und Weise zusammen hängen. All dies liegt durch die Daten nicht fest, es sind Kontexte, die erst der mathematische Statistiker schafft und anwendet. Ganz allgemein werden Daten also immer „angereichert“ und es sind genau diese in einen formalen Kontext eingebetteten Daten, mit welchen die Statistik umgeht. Die Kunst dabei ist, geeignete, also situationsadäquate Kontexte zu schaffen, die sich gleichwohl allgemein verwenden lassen. Familien von Ver228
Siehe insbesondere den letzten Abschnitt
4.8 Lösung(en) des Induktionsproblems
327
teilungen sowie Zufallsvariablen mit ihren Abhängigkeitsstrukturen sind die omnipräsenten Modellierungselemente der Statistik und haben sich in den letzten Jahrzehnten hervorragend bewährt. Andere Ansätze wären denkbar, etwa deterministische, z. B. angelehnt an die Messtheorie, graphentheoretische, geometrische oder rein algebraische. Auch Kombinationen all dieser formalen Methoden sind denkbar und oftmals sind gerade sie am geeignetsten. Man kommt so nahezu unausweichlich auf den Begriff des Modells, also einer theoretischen Struktur, versehen mit zugehörigen empirischen Daten, bzw., anders herum, von Daten, einbettet in den überschaubaren Rahmen eines Modells.229 Wie wir insbesondere in Abschnitt 4.5.1 herausgearbeitet haben, liegen deduktive Ableitungen innerhalb von Modellen und induktive Schlüsse, die über ein Modell hinausgehen, dicht beieinander. Dies gilt besonders, wenn man simultan mit einer ganzen Reihe mehr oder minder umfassender Modelle arbeitet; so dass man induktive Schlüsse, die über ein „engeres“ Modell hinaus gehen, als deduktiven Schluss innerhalb eines „weiteren“ Modells begreifen kann. Der entscheidende induktive Sprung ist jedoch immer jener von der eingeschränkten Modellsituation auf die reale Welt. Damit er gelingt, trifft die Statistik Vorkehrungen bzw. gibt Bedingungen an, die den Erfolg gewährleisten sollen. Erfolg ist kein Zufall: Er basiert auf im Modell kodi(fizi)erten Einsichten (siehe S. 277).230 Lassen wir diese einmal, gemäß der Abfolge der letzten Kapitel, Revue passieren:
4.8.1 Tests und Repräsentativität Fishers Modell des Signifikanztests geht von einer Hypothese aus. Mit deren Hilfe berechnet man einen p-Wert und interpretiert diesen als Evidenz gegen die Hypothese. Der p-Wert ist also ein quantitatives Maß für den ungenauen Begriff „Evidenz“. Beim Likelihood-Ratio-Test operationalisiert 229
Zwar ist es richtig, dass aufgrund der Unterbestimmtheit der Daten im Prinzip immer beliebig viele Modelle existieren, doch muss man den Pessimismus der Philosophie (Antirealismus usw.) nicht teilen. Zum ersten werden die zusätzlich benötigten Annahmen zwar nicht durch die Daten determiniert, dadurch sind sie jedoch nicht willkürlich. Da der Kontext im Allgemeinen reichhaltig ist, gibt es sogar eher zu viele als zu wenige Randbedingungen. Zum zweiten lässt sich über konkrete Annahmen rational diskutieren. Zum dritten schließt das häufig angewandte Kriterium der Einfachheit zu komplizierte Modelle aus; und schließlich sind zum vierten (und wichtigsten) die mithilfe von Annahmen gewonnen Modelle nicht alle gleich gut. Selbst im eher unwahrscheinlichen Fall, dass zwei strukturell verschiedene Modelle vorliegende Daten genau gleich gut erklären, sollte sich der Unterschied zwischen den Modellen zur Konstruktion eines experimentum crucis nutzen lassen. 230 Negativ formuliert: “To the extent that relevant differences between individuals cannot be made explicit and quantified, an epistemologic gap between research and practice must remain.” (Tonelli 1998: 1238)
328
4 Induktion
der Likelihood-Quotient die Evidenz, während beim Bayesschen Testen die Voreinstellung bezüglich der untersuchten Hypothesen mit dem LikelihoodQuotienten zu einer Posteriori-Einschätzung verrechnet wird. Der induktive Sprung besteht bei den genannten Signifikanztests darin, dass man die Ergebnisse der konkreten Tests (z. B. die wenigen Datenwerte einer experimentellen Untersuchung), zunächst auf die theoretische Konzeption und von dort auf die reale Welt überträgt. Der induktive Schritt hat also zwei Stufen, was auch das Begriffspaar statistische versus praktische Signifikanz verdeutlicht. Von den Daten geht man zunächst zur statistischen Hypothese und von dort zur Realität. Auch Neymans und Pearsons Modell besteht in der simultanen Betrachtung mehrerer Hypothesen. Aufgrund des Tests fällen sie eine Entscheidung, welche Neyman als Basis induktiven Verhaltens dient. Das hat den Vorteil, dass der Induktionsschritt einstufig ist. Man vermeidet es gänzlich, über induktive Schlussfolgerungen innerhalb der Theorie (Belastung, Stützung usw.) zu reden. Stattdessen geht man unmittelbar zur Praxis über. Der induktive Sprung beim Übergang vom Modell zur Realität ist deckungsgleich mit dem empfohlenen induktiven Verhalten - man verhalte sich so, als sei die im Test bestätigte Hypothese richtig. Zugleich verstärkt sich auch an dieser Stelle der Eindruck, dass die Konzeption von Neyman (und Pearson) deshalb objektiv erscheint, weil sie es vermeidet, über nicht mathematisierte, jedoch zentrale Probleme wissenschaftlicher Forschung zu sprechen. Die konzeptionellen Auswirkungen, also die Beurteilung einer Theorie bzw. die Verschiebung von Gewichten in einem Geflecht von Argumenten, aufgrund von Beobachtungsdaten ist in der empirischen Wissenschaften von großer, wenn nicht sogar entscheidender Bedeutung. Dieser „Begründungszusammenhang“, also die Einordnung und Bewertung (neuer) empirischer Resultate macht sogar einen Großteil der fachwissenschaftlichen Diskussion aus. Spart man diesen Aspekt konsequent aus, so kommt man zwar zu einer eleganten mathematischen Theorie, wird jedoch einer wesentlichen Forderung an die Statistik, nämlich aufgrund von Daten quantifizierbare Schlussfolgerungen über unsere konzeptionellen Vorstellungen zu ziehen, nicht gerecht. Inwiefern der bzw. die induktiven Schlüsse gerechtfertigt sind, hängt von allen beteiligten Faktoren ab. Wie steht es um Reliabilität und Validität? Sind die Daten relevant für Fragestellung, passt die inhaltliche Hypothese zur statistischen, wurde die Fragestellung angemessen operationalisiert usw. Alle Aspekte von der Theorie über die Formulierung der Hypothesen bis hin zur konkreten Durchführung der Datenerhebung und die erhaltenen Daten sind letztlich relevant. Kaum einer dieser wesentlichen Aspekte wird jedoch formalisiert. Fisher war deshalb klar, dass alle statistischen Modelle des Hypothesentesten nicht mehr als einfache, geradezu minimalistische formale Modelle des tatsächlichen wissenschaftlichen Arbeitens sind. Daten und Hypothese(n) müssen um eine Kranz informeller Argumente ergänzt werden, um überzeugend
4.8 Lösung(en) des Induktionsproblems
329
zu sein. Umso bemerkenswerter ist, dass sich viele Jahrzehnte später gerade die Medizin und die Psychologie an sie klammern und man nicht allzu selten den Eindruck hat, dass statistische Rituale substanzielle Leere verdecken sollen. Und gar nicht so selten streitet man sich um methodisch-statistische Details, anstatt die zentralen inhaltlichen Fragen zu diskutieren, eine Kritik, die nicht nur Goodman (1999a, 1999b) wiederholt vorbringt. Dem Problem der Generalisierbarkeit von wenigen Daten auf eine allgemeine Gesetzmäßigkeit bzw. Population wird von der Stichprobentheorie direkt angegangen.231 Deren Antwort geht über die klassische enumerative Induktion weit hinaus: Es kommt nicht nur darauf an, möglichst viele Einzelfälle zu betrachten, wichtiger noch ist, dass die Einzelfälle ein reliables und valides Abbild der zu beurteilenden Gesamtheit (in der Philosophie auch Referenzklasse genannt) sind. Das heißt, die vorliegenden Daten dürfen weder systematisch noch in erheblichem Maße unsystematisch verfälscht sein. Aufgrund der vielfältigen Gefahren kann man die Vorbehalte gegen induktive Schlüsse von wenigen auf viele nur allzu gut verstehen. Die konstruktive Antwort der Statistik heißt Repräsentativität: Ist die Stichprobe ein maßstabsgetreu verkleinertes Abbild des Ganzen - zumindest bezüglich der interessierenden Fragestellung - so sind induktive Schlüsse gerechtfertigt. Davon zu unterscheiden ist die Technik, mit der man Repräsentativität sicherstellt, also die propagierte Zufallsauswahl von Elementen der Population. Zufallsstichproben sind das „A und O“ der Statistik, weil sie bei größerem n Repräsentativität gewährleisten. Sie sind jedoch kein Selbstzweck, denn es kann noch viele andere Verfahren geben, Repräsentativität zu erreichen. Die naheliegendste und wichtigste Alternative ist die systematische Zusammenstellung einer Stichprobe aufgrund inhaltlich relevanter Merkmale. Hier überlässt man also nicht dem blinden Zufall die Auswahl, was niemanden bevorzugt oder benachteiligt, sondern man bemüht sich selbst um eine angemessene Teilmenge des Ganzen. Repräsentativität ist ein in der Statistik häufig anzutreffender spezieller Fall eines allgemeineren Prinzips, jenes der Approximation. Bei einer endlichen Population besteht die Approximation durch die Stichprobe einfach darin, dass die Anzahl der nicht beobachteten Mitglieder der Population gegen Null tendiert, wenn man die Stichprobe immer mehr vergrößert.
4.8.2 Verschiedenartige induktive Schritte Im Allgemeinen gibt es immer eine (einfache, „kleine“) Näherung welche möglichst nah an ein (größeres) zu Approximierendes heranreichen soll. Sie tritt in mehreren, verschiedenen Arten auf. Gemäß dem Hauptsatz der angewandten Statistik (S. 148) werden die Daten in fit und residual zerlegt, also 231
Siehe Abschnitt 4.2.1.
330
4 Induktion
Daten = Struktur + unsystematische Variablilität
(4.2)
Die Daten werden also, anders gesagt, durch die strukturelle Komponente approximiert. Hier stellen also die Daten den Rahmen dar, und die Approximation ist dazu da, die Daten mit einer möglichst einfachen Grundstruktur möglichst genau zu erfassen. Ein Modell hatten wir beschrieben als Daten, zusammen mit einer zusätzliche (hypothetischen) Struktur, also M odell = Daten & zusätzliche (hypothetische) Struktur
(4.3)
Hier ist das Modell der formale Rahmen, das neben den Daten maßgeblich durch die zusätzlichen, theoretischen Annahmen oder Randbedingungen charakterisiert wird. In weit entwickelten Wissenschaften kann der Datenanteil äußerst gering werden und gewissermaßen nur noch punktuell vorhanden sein. Wegfallen wird er bei einer empirischen Wissenschaft jedoch nie. In wenig entwickelten Gebieten - wie den Sozialwissenschaften - wird jedoch der Einfluss der Daten auf die Modellbildung überwiegen. So verschieden (4.2) und (4.3) oberflächlich erscheinen, so eng sind sie tatsächlich verwandt. Bei (4.2) identifiziert man die Struktur, indem man die Variabilität, in der wir kein Muster zu erkennen vermögen, absondert. Die so gefundene Struktur soll aber nicht nur in der gerade untersuchten, spezifischen Situation gültig sein, d.h., sie ist allgemeiner als die (konkreten) Daten, denen sie scheinbar „entnommen“ wurde, weshalb sie, anders gesagt, als Modell einer Reihe ähnlicher Situationen dienen kann. Bei (4.3) wird der Aufstieg von den spezifischen Daten zum allgemeinen Modell hingegen direkt beschrieben. Ist das Modell logisch gesehen allgemeiner, so kann sein größerer Gehalt nicht nur auf die Daten zurückgehen. Vielmehr muss eine zwei Komponente hinzukommen - eben von den Daten unabhängige Hypothesen bzw. strukturelle Annahmen. Beidesmal ist also die Grundidee, wesentliche (allgemeine) Struktur von unwesentlichem „Rauschen“ zu unterscheiden. Bei (4.2) ergeben sich die konkreten Daten, indem die Struktur aufgrund von Beobachtungsfehlern „verschwimmt“, bei (4.3) wird aus dem unscharfen Bild (den Daten) das zugrundeliegende Muster - als Modell - „zurückgewonnen“. Schließlich ist der entscheidende Schritt, übers Modell hinauszugehen, um mit seiner Hilfe der Realität nahe zu kommen, also W irklichkeit = Modell & Nicht erfasste Faktoren und Zusammenhänge (4.4) Der Modellfehler entsteht durch all jene realen Faktoren, welche durch das Modell nicht bzw. nur ungenau erfasst werden. In diesem Sinne approximiert das Modell die Realität, und die Güte der Approximation hatten wir kurz die (äußere) Passung des Modells genannt. Die (gesamte) Wirklichkeit entspricht also dem „ultimativen“ größtmöglichen Rahmen. Man beachte, dass
4.8 Lösung(en) des Induktionsproblems
331
dieser Schritt nicht nur immer induktiv und entscheidend für die Bewertung des Modells ist, darüber hinaus ist er auch prinzipiell nicht formalisierbar. Gleichwohl ist es genau dieser weite Kontext, in dem sich das Modell bewähren muss. Da jedes Modell immer eine Idealisierung der Realität ist und stets nur einige wenige Faktoren explizit berücksichtigen kann, wird prinzipiell immer ein Fehler bleiben, welcher auf die strukturellen Mängel des Modells zurückgeht.232 Dies ist die Situation bei der Anwendung eines Modells in der Praxis, und genau auf diese möglichst geringe Abweichung kommt es dort an, ist die Prognose des Modells dann doch sehr zuverlässig, weicht also von dem, was tatsächlich passiert, nicht sonderlich ab. Man kann diesen Gedanken auch in Form technischer Anwendungen formulieren: „Die meisten von uns [gemeint sind Physiker] sehen es als höchste Errungenschaft an, Fakten so effektiv auf ihre wesentlichen Aspekte zurückzuführen [also ein Modell zu bauen], dass irgendeine praktische Erfindung möglich wird,“ (Laughlin 2007: 131); K. Lewins bekanntes Bonmot233 fasst beide Aspekte kurz zusammen: „Es gibt nichts, was so praktisch wäre wie eine gute Theorie.“ Neben dem indirekten Vergleich von Prognose und Realität im Sinne einer „Bewährung“ des Modells bei dessen Anwendung kann man auch unmittelbar das Modell prüfen. Dazu wird man relevante Daten erheben und diese dann in zwei Anteile zerlegen, nämlich den durch das Modell erfassten Part sowie einen Fehlerterm, welcher zum einen auf die Unvollkommenheit des Modells (siehe oben) zurückzuführen ist, zum anderen seine Ursache in der Ungenauigkeit der Beobachtung hat. Man hat also Daten = Modellierte Struktur + Systematischer Fehler + Beobachtungsfehler
(4.5)
Indem man letzteren Fehler durch geeignete Vorkehrungen so klein wie möglich macht, lassen sich konsequent Mängel des Modells aufdecken. Insbesondere kommen so relevante, vom Modell nicht erfasste Faktoren ans Licht. Dies ist die eigentliche Motivation hinter der Präzisionsbesessenheit der modernen Physik. Laughlin (2007: 35) sagt: „[. . .] In der Physik unterscheiden korrekte Wahrnehmungen sich insofern von irrigen, als Erstere klarer werden, wenn man die Genauigkeit des Experiments verbessert. Diese simple Vorstellung bringt das Denken der Physiker auf den Punkt und erklärt, warum sie stets so besessen von Mathematik und Zahlen sind: Durch Präzision wird das Falsche sichtbar.“ 234 Ist eine Aussage hingegen noch nicht einmal falsch, 232
Nur im Fall weniger relevanter Faktoren, die über einfache Beziehungen zusammenhängen, darf man auf eine nahezu perfekte Passung hoffen. Dies ist zum Beispiel in der klassischen Physik der Fall. 233
Siehe Marrow (2002: 5) Eine weitere wichtige Konsequenz ist, der (exakten) empirischen Erfahrung einen entscheidenden Stellenwert im Erkenntnisprozess einzuräumen. Laughlin (2007: 35f) fährt nämlich fort: „Als unauffällige, aber unvermeidliche Folge dieser Einstellung ergibt sich, 234
332
4 Induktion
so bedeutet das, dass man aufgrund des großen Messfehlers nicht zwischen einem modellbedingten, strukturellen Defekt oder der Unvollkommenheit des Messvorgangs differenzieren kann.235 Man erkennt, dass nun das Spiel von vorne beginnt. Denn Gleichung (4.5) ist nur eine verfeinerte Variante von Gleichung (4.2). Musste die Strukturkomponente jedoch beim ersten Durchlauf notgedrungen durch ein Standardverfahren und rein induktiv-datengetrieben ermittelt werden, so stellt sie nun den Output eines möglicherweise ziemlich differenzierten Modells dar. So kann man fortfahren und der Realität in diesem Sinne immer näher kommen: Durch die sukzessive Aufklärung von Struktur gewinnen wir systematisch Information und können hoffen, dass sich Wissen akkumuliert. Wir bauen diese Gedanken im folgenden zu einer integrativen Wissenschaftstheorie, deren Kern eben jener Forschungszirkel ist, aus.236 Zunächst ordnen wir die speziellen Schlüsse der letzten Abschnitte ein:
4.8.3 Einordnung der induktiven Strategien Die Interpolation (siehe Abschnitt 4.2.3) fehlender Werte entspricht genau dem in Gleichung (4.3) wiedergegebenen induktiven Schritt. Gegebene Daten werden um eine Gesetzmäßigkeit, z. B. Periodizität oder Linearität, angereichert, woraus sich die fehlenden Werte ergeben. In der Statistik geht man zumeist davon aus, dass kein systematischer Effekt, also auch keine deterministische Regelmäßigkeit wie Periodizität vorliegt, sondern, dass die Lücken gemäß einem Zufallsverfahren zu füllen sind. Der Ansatz ist dabei umso „Bayesianischer“, je mehr Struktur er zu den Daten hinzufügt, was gerechtfertigt erscheint, wenn viel über den Kontext und insbesondere den Prozess, welcher die Lücken gerissen hat, bekannt ist. Bei der Extrapolation (siehe Abschnitt 4.2.4) handelt es sich entweder um eine Interpolation auf Werte, die nicht in einem gewissen Sinne „innerhalb“ des bekannten Wertebereichs liegen. (Zum Beispiel eine Prognose auf die morgen gültigen Werte.) Häufiger noch handelt es sich um einen induktiven Schritt nach dem Muster von Gleichung (4.4). Entsprechend schwer ist zu sagen, wann die Induktion erfolgreich sein wird. Siehe hierzu insbesondere die in Abschnitt 4.4.1 und S. 209 angegebenen Kriterien. dass Wahrheit und Messtechnik unauflösbar verknüpft sind. Genau das, was man misst, wie der Apparat arbeitet, wie man die Fehler eliminiert, welche unkontrollierbaren Faktoren die Obergrenze der Reproduzierbarkeit festlegen und so weiter, all das ist am Ende wichtiger als die zugrunde liegende Vorstellung. 235 Siehe auch Feynman (2007: 194) und Woit (2006). 236
Siehe insbesondere Abschnitt 5.2. Der Forschungszirkel ist im deduktiv-induktiven Schema natürlich implizit enthalten, auch bei der IDA war bereits explizit von einem solchen Prozess die Rede. Siehe auch unsere Ausführungen zur Modellentwicklung. Gleichungen (4.2) - (4.5) greifen wir in Abschnitt 5.5.8 nochmals auf.
4.8 Lösung(en) des Induktionsproblems
333
Die Induktion in deterministischen Modellen (siehe Abschnitt 4.2.6) ist zumeist eine Verallgemeinerung nach Gleichung (4.4). Der Clou liegt fast immer darin, die zugrundeliegende Struktur zu erraten, in welche sich dann alle Beobachtungen perfekt einfügen. Wohl auch deshalb spricht man in den Naturwissenschaften oft von einem Puzzle, das es zusammenzusetzen gilt. Regression (siehe Abschnitt 4.2.7) wird meist im Sinne von Gleichung (4.2) angewandt, wobei die strukturelle Komponente oft weitreichend interpretiert wird. Man erinnere sich, dass genau diese Vermengung von oberflächlicher Anpassung einer Funktion an Datenpunkte, verbunden mit einer realistischen Interpretation der Struktur, die Hauptkritik versierterer Methodiker ist (siehe S. 285). Experimentelle Designs (siehe Abschnitt 4.3.1) lassen sich wie Zufallsstichproben als eine statistische Technik auffassen, die einen induktiven Schluss absichert. Zur externen Validität des Experiments sagen Shadish et al. (2002: 18) sehr schön: “Most experiments are highly local but have general aspirations.” Das induktive Muster bei experimentellen Designs verbirgt sich in Gleichung (4.3). Entscheidend ist nämlich die Anreicherung der (erst noch zu erhebenden) Daten um einen (selbst geschaffene) experimentell-formalen Kontext. Genau diese zusätzliche Struktur verleiht experimentell erhobenen Daten eine ganz andere Überzeugungskraft als einfachen Beobachtungsdaten. Fisher (1966: 4) behauptet sogar, dass der induktive Schluss dadurch eindeutig wird: [. . .] The mere fact that inductive inferences are uncertain cannot, therefore, be accepted as precluding perfectly rigorous and unequivocal inference. (Meine Hervorhebung.)
Eine Zufallsauswahl soll Repräsentativität, ein experimentelles Design einen Kausalschluss gewährleisten. Schließt bei letzterem insbesondere die Randomisierung alle möglichen Alternativerklärungen aus, so kann man tatsächlich logisch-sicher von dem beobachteten Effekt auf einen kausalen Zusammenhang schließen, da dann nur eine einzige Ursache für die beobachtete Differenz in Frage kommt.237 Die speziellen statistischen Techniken lassen sich als konkrete Realisierungen allgemeinerer, wenn auch vagerer philosophischer Überlegungen interpretieren. Zufallsstichproben sind eine Lösung für das Problem der Überdeckung bzw. der gleichmäßigen Abdeckung aller Möglichkeiten; bei randomisierten Experimenten orientiert man sich an der Millschen Methode der Differenz. Die induktive Logik und die mit ihr eng verknüpfte Bayessche Statistik (siehe die Abschnitte 4.4.1 und 4.4.2) wählen als formalen Rahmen immer den Bayesschen Aufbau von Prioriverteilung, Beobachtungsdaten und Posterioriverteilung. Damit reichern auch sie die Daten konsequent um weitere Strukturen an, folgen also Gleichung (4.3). Innerhalb des gewählten Modells 237
Wir haben in Abschnitt 4.3.3 den letzten Satz kritisiert und ihn nur deshalb nicht im Konjunktiv geschrieben, um die Schlussweise der traditionellen Statistik zu verdeutlichen.
334
4 Induktion
kann man deduktiv schließen, was sich im Bayesschen Ansatz als die Berechnung der Posteriori-Situation zeigt. Induktiv gesehen ist der Schritt vom Modell auf die Realität leichter anzugreifen als gerade eben, was ja einer der Hauptkritikpunkte der orthodoxen Statistik ist: Weder wird ein Unterschied zwischen experimentellen und Beobachtungsdaten gemacht, noch ist es einfach, jegliche Art von Vorwissen bzw. den Mangel an Information als konsensfähige Priori-Verteilung zu formalisieren. Bei der explorativen Datenanalyse und dem aktuellen Data Mining (siehe die Abschnitte 4.6.1 und 4.6.2) ist es hingegen der inhaltliche Kontext, das substanzielle Hintergrundwissen, in welches die konkreten Daten eingebettet werden. Jenes ist leider weit schwerer fassbar als formalisiertes Wissen, zugleich hat es jedoch den Vorteil, weniger weit durch Abstraktion von der Realität entfernt zu sein. „Induktionslogisch“ handelt es sich abermals um Gleichung (4.3), und der induktive Schluss ist umso besser zu rechtfertigen, je mehr substanzielles Wissen für ihn spricht. Er lässt sich hingegen kaum verteidigen und stellt wenig mehr als eine Spekulation dar, wenn unsystematisch zustande gekommene Daten vor dem Hintergrund eher banalen Alltagswissens interpretiert werden. Wir tun dies jeden Tag - und erleben jeden Tag, wie oft derartige Schlüsse einer genaueren Überprüfung nicht standhalten. In der Literatur lassen sich noch leicht weitere spezielle induktive Ansätze identifizieren. Einen gut lesbaren Überblick bietet z. B. die deutschsprachige Wikipedia unter dem Stichwort Induktion (Denken), viel Material findet sich auch unter dem Stichwort Generalisierung.238 Von besonderer Bedeutung für die Statistik ist, wie man korrelative Zusammenhänge so verstärken kann, dass sich Kausalschlüsse rechtfertigen lassen. Darauf gehen wir später (siehe Abschnitt 5.4.1) ausführlich ein.
4.8.4 Offenheit der Induktion Die Vielzahl der Ansätze mag verwirren, ist aber prinzipiell nicht zu vermeiden. Die Crux bei einem induktiven Schluss ist ja gerade die Gehaltserweiterung, welche auf beliebig viele verschiedene Arten möglich ist. Deshalb schreibt auch Fisher (1966: 7): [. . .] inductive inference is the only process known to us by which essentially new knowledge comes into the world.
Genau diese Tatsache unterminiert den Alleinvertretungsanspruch einer induktiven Methode genau in jenem Moment, in dem er geäußert wird. Bei Gleichung (4.2) können völlig verschiedene Arten von Kurven an die Daten angepasst werden; auch bei Gleichung (4.4) werden unterschiedliche Modelle zu divergierenden Prognosen führen. Selbst ein und dasselbe Modell muss nicht zu einer eindeutigen Prognose leiten, sondern kann eine ganze Reihe von 238
Siehe hierzu auch die gleichnamige Theorie von Cronbach et al. (1972).
4.8 Lösung(en) des Induktionsproblems
335
Möglichkeiten auszeichnen. Besonders bei Gleichung (4.3) wird die Freiheit in der Wahl zusätzlicher Struktur ganz deutlich, was insbesondere die letzten drei völlig verschiedenartigen Beispiele (traditionelle und Bayessche Statistik sowie Data Mining) veranschaulichen. Eine deduktive Ableitung ist in dem Sinne geschlossen, dass sich die Schlussfolgerung aus den Annahmen logisch streng - also wahrheitserhaltend - deduzieren lässt. Man bewegt sich immer innerhalb des Rahmens der nicht weiter hinterfragten Annahmen und verengt den Gehalt mit jeder echten Implikation. Bildlich gesprochen gibt es zwar einen logisch festen Weg von den Annahmen zur Folgerung, jedoch verjüngt sich der Gehalt der Aussagen, welche aufgrund der Methode notgedrungen immer spezieller werden. Mit den Worten von Mill (1843: 5): Logic is not the science of Belief, but the science of Proof, or Evidence. [Its province] must be restricted to that portion of our knowledge which consists of inferences from truths previously known [. . .]
Eine induktive Begründung ist hingegen auf zwei Arten offen. Zum einen ist die Schlussfolgerung nicht logisch streng, sondern nur mehr oder minder plausibel. Bildlich gesprochen gibt es keinen logisch festen Weg von den Daten zu allgemeinen Aussagen. Dafür erweitert sich jedoch auch der Gehalt der Aussagen, welche aufgrund der Methode immer allgemeiner werden, je weiter man die plausiblen Fäden spinnt, bis sie sich in Spekulation verlieren. Zum zweiten liegt auch nicht der Kontext fest, innerhalb dessen man sich bewegt. Er lässt sich ziemlich frei wählen, falls notwendig durch einen geeigneteren austauschen, oder aber, man fährt von Anfang an mehrgleisig. Im einfachsten Fall kann man sich zwar für einen Kontext, z. B. das Bayessche Paradigma, entscheiden und die Daten nur bezüglich dieser Perspektive analysieren. Dies wird jedoch spätestens dann kontraproduktiv, wenn man Daten immer genau nach derselben Methode auswertet oder immer in dasselbe Schema presst. Zum Beispiel schreibt Feiner (2005: 123): Probabilistische Lösungsansätze gehen davon aus, dass induktive Schlüsse Wahrscheinlichkeitsschlüsse sind und eine Theorie des induktiven Schließens daher unter Einbeziehung des Wahrscheinlichkeitsbegriffes bzw. der mathematischen Wahrscheinlichkeitstheorie konstruiert werden müsse.239
Andererseits kann auch das frequentisische “Let the data speak for themselves” nur als Näherung gemeint sein, müssen Daten bei einem fundierten induktiven Schluss doch immer um einen geeigneten, äußeren Kontext angereichert werden. (Außerdem argumentiert man zirkulär, wenn man den Kontext ausschließlich mithilfe der Daten definiert.) Pointiert sagt deshalb Greenland in (Rothman et al. 2008: 341): “Data alone say nothing at all.” Viele Paradoxien kommen gerade dadurch zustande, dass die Daten ohne Kontext betrachtet oder aber in einen inadäquaten oder sogar pathologischen 239
Meine Hervorhebung. Man denke auch an Tukeys „Stuffing-Argument“, S. 270 und Abschnitt 4.4.1.
336
4 Induktion
Kontext eingebettet werden. Ein nicht unwesentlicher Vorteil statistischer Experimente ist, dass sie mit dem „Erhebungskontext“ einen verlässlichen Rahmen schaffen. Das bisherige Kapitel im Allgemeinen und das Brückenargument (S. 310) im Speziellen zeigen jedoch, dass dies nur eine von vielen Möglichkeiten der Ergänzung und damit auch der Interpretation von Daten ist. Destruktiv werden statistisch-induktive Diskussionen spätestens dann, wenn Vertreter zweier nicht kompatibler Ansätze aufeinandertreffen und jeder der Meinung ist, gerade seine Vorgehensweise sei die einzige „richtige“. So angemessen diese Auffassung in der eindeutigen Welt der Deduktion ist, so falsch ist sie hier. Weder gibt es nur eine Perspektive, noch muss diese mit anderen vergleichbar sein, noch muss eine Blickrichtung immer die Beste sein.240 Anstatt Argumente hin und her zu schleudern, ist es weit konstruktiver, flexibel und offen zu sein und die induktive Freiheit dazu zu nutzen, aus der Menge aller bekannten Möglichkeiten einen situationsadäquaten Rahmen auszuwählen, vielleicht sogar (wie es in der orthodoxen Statistik oft geschieht) ah hoc einen sinnvollen Kontext zu erfinden. Prinzipiell wird man dabei den Vorschlag von Lindley (2000) sehr ernst nehmen müssen, dass “the most reliable source of this information (and one that is most acceptable to empiricists) comes from data obtained in the past [. . .]” Es ist sicherlich auch keine schlechte Idee, ein und dieselbe Datenbasis mit verschiedenen Ansätzen auszuwerten, also aus unterschiedlichen Perspektiven zu betrachten. Auf alle Fälle hilfreich ist es sodann, die vermeintlichen Erkenntnisse durch eine Replikationsstudie zu bestätigen. Wissenschaftlichinduktive Erkenntnisse sind ja nie logisch sicher, womit nur die Wahl bleibt, sie empirisch abzusichern. Erst wenn sich ein Resultat als intersubjektiv verbindlich und stabil erweist, wird es - oft mitsamt der mit ihm eingeführten Methode - ernsthaft zu beachten sein.
Robustheit versus Sensitivität Je weniger man weiß, desto wichtiger ist es, sich mit robusten Methoden abzusichern. Robuste Verfahren geben auch bei Verletzung der ihnen zugrunde liegenden Annahmen immer noch im wesentlichen richtige Antworten. Verwandt ist die Sensitivität eines Verfahrens. Greenland (1998a: 328) schreibt: As with conventional (frequentist) analysis methods, a thorough Bayesian analysis must consider many issues, including sensitivity and robustness. A result is insensitive if it does not change much under reasonable assumptions (of which the prior specification is just one), whereas a method is robust if the results it produces remain valid under reasonable departures from its assumptions. Insensitivity and robustness are related but do not imply one another: a nonrobust method may yield an insensitive result, and a robust method may yield a sensitive result. (Hervorhebungen im Original.) 240
Siehe nochmals die Bemerkung von Tukey, S. 296.
4.8 Lösung(en) des Induktionsproblems
337
Robuste Verfahren und insensitive Ergebnisse werden im Allgemeinen als wünschenswert angesehen: “A tacit hope in ignoring deviations from ideal models was that they would not matter; that statistical procedures which were optimal under the strict model would still be approximately optimal under the approximate model. Unfortunately, it turned out that this hope was often drastically wrong; even mild deviations often have much larger effects than were anticipated by most statisticians.” 241 (Hampel et al. 1986: 21). Doch ist dem nicht ganz so. Greenland (1998a: 328) führt nämlich weiter aus: “Furthermore, a robust method can be much less accurate than a nonrobust method that is well tailored to the topic at hand - which is another reason why the robustness of certain ‘objective’ Bayes and frequentist methods is not a compelling argument in their favor.” Sich auf die grobe, oberflächliche Analyse vorhandener Daten mithilfe robuster Verfahren zu konzentrieren ist keine wirklich befriedigende Lösung. Schon Barnard plädierte für robuste Daten und sensitive Methoden. Damit meinte er, dass die Daten zuverlässig sein sollten, Methoden jedoch auch fein und präzise sein müssen, da man sonst nur grobe, eher qualitative Aussagen machen kann. Jaynes (2003: 174) führt dies aus: “Robustness, in the general sense that conclusions are insensitive to small changes in the sampling distribution or other conditions; is often held to be a desirable property of an inference procedure [. . .] However, robustness in the usual sense of the word can always be achieved merely by throwing away cogent information!” (Hervorhebung im Original.) Ganz ähnliche Worte wählt Rissanen (1989: 10): The pragmatic requirement of robustness appears to be an often sought-for goal [. . .], but from a conceptual standpoint such a goal is quite unsatisfactory. After all, there is surely no difficulty in achieving any degree of robustness if we just make our models blunt enough. Such a goal, then, defeats the very purpose of all statistics: to learn from the data, and without such a purpose statistics would cease to exist as a scientific discipline, which some already feel is the case!242
Da die Methoden der heute orthodoxen Statistik maßgeblich in Feldern mit wenig Vorwissen entwickelt wurden, sind die heute allgemein gebräuchlichen statistischen Techniken dafür gemacht, gegen alle Arten von Störfaktoren abzusichern. Es ging bei ihrer Entwicklung nicht um filigrane Werkzeuge wie in der Uhrmacherei; eher sollte man an eine mittelalterliche Esse denken, in der robuste Waffen für den Kampf gegen grobe Gegner geschmiedet wurden. Vertreter weiter entwickelter Forscher-Gemeinschaften mögen sich deshalb über deren mangelnde Kunstfertigkeit ereifern - wer möchte sein kunstvoll ziseliertes Florett schon gegen einen schartigen Säbel eintauschen -, doch 241 242
Siehe jedoch die Einschätzungen Tukeys, S. 287 und Brillingers, S. 296.
Siehe hierzu auch das Kapitel über Non-Scientific Statistics in Nelder (1999), wo mehrfach ausdrücklich der unsensible Umgang mit potenziell wichtigen Informationen betont wird. Schon Deming (1940) schreibt: “[. . .] a statistician must be a scientist [. . .] a scientist does not neglect any pertinent information, yet students of statistics are often taught to do just the opposite of this [. . .]”
338
4 Induktion
sind Lanze, Schild und Armbrust weit wirkungsvollere Waffen, wenn es gilt, in einer wilden Welt voller unbekannter Gefahren zu bestehen. Mit Blick auf die Zukunft empfehlen sich, wie auch in anderen Feldern üblich, systematische Sensitivitätsanalysen von Daten und Methoden. (Siehe z. B. Satelli et al. (2004) sowie Vansteelandt et al. (2006).) Bei ersten variiert man die Daten systematisch, was bei den heutigen Rechnerkapazitäten kein Problem mehr ist, und ist darin interessiert, wann sich die Schlussfolgerung qualitativ ändert. Hängt die Schlussfolgerung von nur wenigen Datensätzen entscheidend ab, so wird man das Ergebnis zumeist als wenig stabil einschätzen müssen. Bei Methoden kann man nicht nur diverse Datensätze numerisch simulieren, sondern auch, wie schon beschrieben, Voraussetzungen systematisch variieren mit dem Ziel, die Grenzen eines Verfahrens auszutesten. Wie bei einem Werkzeugkasten sollten solche Untersuchungen weniger darauf hinauslaufen, feinere Werkzeuge als wenig robust zu ächten, als vielmehr Stärken und Schwächen der jeweiligen Ansätze zu überblicken, und dann situationsadäquat zu handeln. Adäquate Voraussetzungen sind der Dreh- und Angelpunkt jeder überzeugenden Datenanalyse. Jedoch ist nicht einfach zu ermitteln, welche Annahmen noch glaubwürdig sind, und welche nicht. Im Allgemeinen beschreibt Manski (2008: 2ff) das Problem: Inference always requires assumptions [. . .] Methodological research aims to illuminate the logic of inference by showing how data and assumptions combine to yield conclusions [. . .] Particularly pleasing are results showing that available data and credible assumptions permit one to draw strong conclusions. Negative findings are less welcome. Researchers are especially reluctant to learn that, given the available data, some desirable conclusion cannot be drawn unless untenable assumptions are invoked [. . .] Empirical researchers should be concerned with both the logic and credibility of their inferences. Credibility is a subjective matter, yet I take there to be wide agreement on [. . .] The Law of Decreasing Credibility. The credibility of inference decreases with the strength of the assumptions maintained. (Hervorhebung im Original.)
Er schlägt (ibd., S. xiii) deshalb vor, von den Daten ausgehend, sukzessive die Voraussetzungen zu verstärken: I [recommend] that researchers first ask what can be learned from data using knowledge of the sampling process alone, then ask what more can be learned when data are combined with weak but widely credible distributional assumptions, and finally ask what further can be learned when the data are combined with stronger, less credible assumptions. I reasoned that inferences predicated on weak assumptions can achieve wide consensus, while ones that require strong assumptions almost inevitably are subject to sharp disagreements. Hence beginning with data alone establishes a ‘domain of consensus’ among researchers and serves to bound their disagreements.
Manskis Vorschlag ist im Kern nichts anderes als eine systematische Robustheits- bzw. Sensitivitätsanalyse. Startet man bei Manski mit wenigen Voraussetzungen und ungenauen Ergebnissen, die man sukzessive verstärkt bzw. präzisiert, so ist es bei der Sensitivitätsanalyse genau anders herum. Bei letzteren leitet man ein eindeutiges Resultat - etwa eine Punktschätzung
4.8 Lösung(en) des Induktionsproblems
339
- unter eher starken Voraussetzungen her. Dann schwächt man die Annahmen sukzessive ab und beobachtet, in welchem Maße die Ungewissheit, etwa gemessen als Glaubwürdigkeitsintervall, wächst. Von besonderem Interesse sind bei dieser Sichtweise diejenigen Momente, in denen das Resultat qualitativ umschlägt, da sie zeigen, wie weit die Annahmen in der Lage sind, das Ergebnis zu stützen und man so auch Annahmen identifizieren kann, die kritisch sind. (Siehe hierzu auch S. 535)
Offenheit und Fortschritt Es ist auch genau die prinzipielle Offenheit der induktiven Schritte, welche Fortschritt so schwer machen (siehe unsere Warnung S. 200). Sobald man sich innerhalb eines einigermaßen wohldefinierten Rahmens bewegt, kennt man die Regeln, auf die es ankommt, man weiß, was geht und was nicht. Mathematik ist schwer, weil die Regeln abstrakt, die Begriffe komplex und der Weg von den Annahmen zu den bemerkenswertesten Folgerungen weit und beschwerlich ist. Sie ist jedoch höchst einfach, was die zulässigen Regeln anbelangt. Es ist einer ihrer größten Vorteile, dass sie bezüglich Voraussetzungen und zulässigen Methoden äußerst transparent und präzise ist, weshalb es auch fast nie Streit über die Richtigkeit eines Ergebnisses gibt. Ein schlüssiger Beweis bringt alle Kritiker nahezu sofort zum Verstummen. Ganz anders in den empirischen Wissenschaften, deren schwerstes Problem oft darin besteht, die Phänomene dingfest zu machen, sie überhaupt zu fassen zu bekommen. Es heißt, dass aus Fehlern weit eher Einsicht geboren wird als aus Verworrenheit. Ein Fehler zeigt einem nämlich klar und deutlich, dass etwas nicht funktioniert. Ist jedoch eine Überlegung „noch nicht einmal falsch“ so befindet man sich noch eher im Zustand der Verwirrung, d.h., weiß noch überhaupt nicht, wie man vorgehen soll. Zuweilen scheint die Suche nach einem ordnenden Prinzip fast aussichtslos, und viele vermeintlich Gebildete werden den Optimismus der trotz alledem Suchenden verspotten. Im Nachhinein werden die größten Theoretiker gerade deswegen gefeiert, weil sie in einer unübersichtlichen Situation, bevölkert mit Myriaden von Phänomenen und zuweilen auch widersprüchlichen Befunden ordnungsstiftende Prinzipien, einfache Regeln und nicht zu erwartende Gesetze entdeckten. Blickt man als Nachgeborener durch die Brille ihrer Konzepte, so erscheint alles ganz klar, einfach und fast schon selbstverständlich. Das liegt aber nur daran, dass ihr Genie uns diese Perspektive eröffnet hat. Freedman (1985a: 347) schreibt dazu: “The great models are brilliantly original; no two are alike. Each one was discovered through an act of intellectual creativity of high order. Regression models, by comparison, are right off the shelf.” Dem entsprechend bezeichnet er Verfahren, die den induktiven Schritt automatisieren wollen, als “philosophers’ stones” und in Freedman (2005: 194) zählt er gleich mehrere Dutzend vorwiegend induktiv eingesetzter Verfahren auf.
340
4 Induktion
Feynman (2007: 74) bemerkt ausdrücklich, „[. . .] daß Modelle für die wirklich großen Würfe nicht taugen.“ Der Grund ist, dass sich gebräuchliche Überlegungen immer schon innerhalb bekannter begrifflich-konzeptioneller Rahmen, also Modellen, abspielen. Fundamental neue Einsichten sind innerhalb dieser Denkgerüste nicht formulierbar. Deshalb muss man den (geschlossenen) Modellrahmen hier verlassen und ein völlig neues Modell für etwas bislang nicht Verstandenes, Unerschlossenes erbauen.
4.8.5 Erste Lösung des allgemeinen Induktionsproblems Damit können wir nun auch das philosophische Induktionsproblem, wie es z. B. in Wikipedia (2008a) formuliert wird, beantworten: „Es ist nicht ohne weiteres klar, weshalb und ob ein Induktionsschluss erlaubt ist. Sehr klar hat diese Frage David Hume erörtert. Hume argumentiert folgendermaßen: Ein Induktionsprinzip kann nicht analytisch sein, da hier sonst ein (deduktiver) logischer Schluss vorläge. Logische Schlüsse können aber nicht gehaltsvermehrend sein. Ein Induktionsprinzip kann auch nicht synthetisch a priori wahr sein, denn sonst müssten mit seiner Hilfe gefolgerte Sätze ebenso wahr sein. Sie könnten sich dann nicht mehr a posteriori als falsch erweisen. Dies ist aber ein wesentliches Merkmal von auf Erfahrung basierenden Sätzen. Man könnte argumentieren, wir wüssten aus Erfahrung, dass der Induktionsschluss funktioniert. Dazu benötigen wir entweder ein Induktionsprinzip höherer Ordnung, wir brechen die Begründung ab oder wir benutzen einen Zirkelschluss. In jedem Fall kann die Begründung des Induktionsprinzips nicht befriedigend sein.“ Negativ formuliert: Es gibt keine eindeutige Lösung des Induktionsproblems, kein von Philosophen so verzweifelt gesuchtes Induktionsprinzip. Wie wir hier und schon bei der Diskussion der induktiven Logik (S. 250) festgehalten hatten, kann es weder ein allgemeingültiges Prinzip noch eine (generelle) Logik des Schlusses vom Speziellen auf das Allgemeine geben. Deshalb muss, wie es Sokal und Bricmont (1998) (siehe S. 325) formulieren, jeder induktive Schluss situationsabhängig sein. Und je nachdem wie sich die jeweilige Situation - Daten plus Kontext - darstellt, sind induktive Schlussfolgerungen besser oder schlechter fundiert. Induktive Schlüsse sind möglich, können also im speziellen Fall gerechtfertigt werden; man kann sie nur nicht - gewissermaßen ein für allemal logisch-deduktiv bzw. auf einem allgemeinen Prinzip beruhend begründen. Das fundamentale Verständnis der Statistik findet sich schon im PopulationsStichproben-Modell. Man verallgemeinert von der (kleinen) Stichprobe auf die (große) Population, was sich als (induktive) Lücke zeigt. Diese Lücke ist zu überbrücken, was genau die Metapher von Cornfield und Tukey (1956) ist. Im Allgemeinen wählt man die Daten als Fundament und erweitert diese um zusätzliche Struktur. Der so in Angriff genommene Brückenschlag orientiert
4.8 Lösung(en) des Induktionsproblems
341
sich typischerweise am Grenzfall, also der vollkommenen Überwindung der Lücke, was auf einen gültigen logischen Schluss hinausläuft.243 Eher grobe Vorläufer der statistischen Argumentationen sind die enumerative und die eliminative Induktion, insbesondere, wenn man unter letzterer ein Verfahren versteht, welches mit eher vagen Argumenten Alternativerklärungen auszuschließen versucht bzw. deren Plausibilität untergräbt. Eng verwandt sind die Abduktion und die heute bei Philosophen sehr beliebte inference to the best explanation. Eine moderne Version im Rahmen der künstlichen Intelligenz findet sich in Glymour et al. (1987: 13ff): A heuristic search is a computer procedure that applies plausible steps to hunt through an enormous space of alternatives in order to locate the best (or a collection of the best) alternatives for some purpose. What makes the search heuristic is that the procedure does not guarantee that the outcome will be the best alternative [. . .] If [scientific discovery is a kind of heuristic search through alternative hypotheses or theories], then there is a formal structure to scientific discovery, and if we can get a grip on that computational structure, then computer programs can make scientific discoveries.
Die induktive Lücke Die eigentliche Problematik ist jedoch, die „Größe“ der induktiven Lücke zu erkennen, was insbesondere dann schwer fällt, wenn das „gegenüberliegende“ Ufer kaum zu erkennen ist. Es ist eine Sache, aufgrund einer Zufallsstichprobe der Größe N/2 ein Aussage über eine endliche, wohldefinierte Population der Größe N zu machen, ein ganz andere jedoch, mit einer Handvoll Knochen, die sich aufgrund glücklicher Umstände erhalten haben und die nur ausgegraben wurden, weil sie sich gerade in der Nähe der Erdoberfläche befanden, die Evolutionsgeschichte des Menschen nachzuzeichnen. Wenn die gesamte Situation überschaubar ist, kennt man zumeist auch den Abstand zur gewünschten allgemeinen Aussage und damit die Größe der Lücke. Genau in solchen Fällen lässt sich dann oft der bestmögliche Fall des Verschwindens der Lücke charakterisieren und genau der mit diesem Grenzfall einhergehende, dann mögliche deduktiv-logische Schluss lässt sich als “Benchmark”, also als Vergleichsmaßstab des in der Realität lediglich möglichen induktiven Schritts, heranziehen. Die meisten philosophischen Beispiele (siehe z.B. S. 323ff) sind so aufgebaut, und auch die statistischen Argumente erscheinen in solchen Fällen als approximative Verfahren, mit denen sich der Abstand quantifizieren lässt. Zwar ist der induktive Schritt nicht (mehr) mathematisch-beweisbar, doch zeigt der Erfolg der der empirischen 243
Wir hatten hierfür viele Beispiele gegeben: Die Differenz zwischen Populationsgröße N und Stichprobenumfang n, die Widerlegung einer Hypothese aufgrund einer bei Gültigkeit der Hypothese nicht möglichen Beobachtung sowie der Abschwächung dieses Arguments in Gestalt statistischer Tests bzw. des p-Werts, die sukzessive (deterministische) Elimination endlich vieler Alternativen versus die Wahrscheinlichkeitsupdates von Hypothesen im Bayesianischen Paradigma usw.
342
4 Induktion
Wissenschaften im Allgemeinen sowie der angewandten Wahrscheinlichkeitstheorie, die einen Teil der Unsicherheit formalisiert, im Speziellen, dass man ihn gehen kann. Auch die Rechtssprechung wagt ihn jeden Tag und spricht dann von weak, strong, overwhelming etc. evidence oder gar einem Beleg beyond reasonable doubt. Die eigentliche Schwierigkeit stellt jedoch der Fall einer nur vage fassbaren Situation dar, was, wie wir gerade ausgeführt haben, eher die Regel als die Ausnahme ist. Genau an dieser Stelle eröffnen sich in der Praxis die größten Interpretationsspielräume. Je weniger offensichtlich ist, was denn überhaupt approximiert wird, welche Faktoren eine Rolle spielen und was sich insgesamt alles ereignen könnte, desto mehr wird aus einem wohlbegründeten induktiven Schluss ein “educated guess” oder gar nur noch eine äußerst angreifbare, weil kaum auf Fakten basierende Spekulation. Verfahren greifen ins Leere, ungeahnte Effekte zeigen sich, Versuche sind nicht replizierbar und noch nicht einmal Artefakte lassen sich klar erkennen - all das sind Kennzeichen einer nicht verstandenen, verworrenen Situation, dem typischen Zustand des Alltags also. Generalisiert man trotz alledem, so ist nicht verwunderlich, wenn man daneben greift, und womöglich hat auch gerade deswegen die Induktion zuweilen einen so schlechten Ruf. Ein Induktionsschluss wird nicht von einem übergeordnetes Induktionsprinzip „beschützt“, es gibt auch keinen logisch-strengen „Satz vom zureichenden Grund,“ 244 und es ist auch nicht die empirische Erfahrung, die sich aus sich selbst heraus verallgemeinern ließe. Es muss sogar noch nicht einmal eine über den Einzelfall hinausgehende Regel geben. Kempthorne (1971: 486) sagt drastisch: So if I have seen 10 swans and they are all white, I have not the foggiest idea of the color of the 11th swan that I shall see.245 Vielmehr kommt man von speziellen Fakten zu allgemeinen Aussagen durch zusätzliche Information, woher diese auch immer stammen, und in welcher Gestalt sie auch eingesetzt werden mag. In der Statistik zeigt sich dies meist in der Form, dass man vorhandene Daten gezielt anreichern muss, sie durch experimentelle Vorkehrungen, substanzielles Wissen, formale Überlegungen usw. verstärkt. Alle diese über die Daten hinausgehenden, zusätzlichen Aspekte sind zwar zahlreich, je nach Situation verschieden, dabei zugleich aber alles andere als willkürlich. Vielmehr dienen sie dazu, sich dem gewünschten Allgemeinen anzunähern, und, falls man nur genug voraussetzt, es sogar deduktiv (typischerweise innerhalb eines Modells) zu fassen. Die Vorgehensweise wäre nur dann zirkulär, wenn die zusätzlichen Annahmen immer 244
Gibt es eine echte induktive Lücke, so wäre es sogar exakter, von mehr oder minder unzureichenden Gründen zu reden. Reichenbach (1968: 344f) spricht explizit vom Prinzip vom mangelnden Grunde. (Hervorhebung im Original.) 245 Wäre die Welt (im Regelfall) so beschaffen, so könnte es offenkundig auch kein Leben geben, da die Bedingungen morgen dann (typischerweise) völlig andere wären als heute oder gestern. Lebensformen könnten nicht aus Erfahrung lernen, und auch die sukzessive Adaptation an sich langsam verändernde äußere Bedingungen, eine der Triebfedern der Evolution, wäre unmöglich. So gesehen bestätigt die Tatsache unserer Existenz, dass in der Welt, in der wir leben, induktive Schlüsse möglich sind.
4.8 Lösung(en) des Induktionsproblems
343
so stark wären, dass man deduktiv schließen könnte. Tatsächlich besteht die Kunst jedoch auch hier darin, mit so wenig wie möglich zusätzlichen Annahmen auszukommen, so dass der Induktionsschluss - immer in einer konkreten Situation - noch funktioniert. Genau dann hat man nämlich jene wesentlichen Faktoren und Zusammenhänge eruiert, welche genügen, um in der Praxis eine erfolgreiche Prognose abgeben zu können. Allgemein formulierte empirische Gesetze kann man zwar in einem deduktiven Zusammenhang beweisen, aufgrund des unumgänglichen Sprungs vom Modell auf die Realität ist dadurch jedoch nicht viel gewonnen.246 Insbesondere ist nicht sichergestellt, dass ein theoretisch bewiesenes Gesetz auch tatsächlich funktioniert. Das Resultat unserer vermeintlich allgemein gültigen Gesetze ist immer nur ein “educated”, bestenfalls ein “sophisticated guess”. Wie wir schon weiter oben ausgeführt haben, kommt man nur dann in Schwierigkeiten, wenn man in die Gültigkeit des Gesetzes zu viel hinein liest. Naturwissenschaftliche Gesetze werden zwar allgemein formuliert, sie können jedoch zugleich prinzipiell nur endlich oft, also gewissermaßen punktuell, überprüft werden (siehe S. 205).247 Zwar ist einerseits die Evidenz, die zu ihren Gunsten spricht, nie so stark wie ein logischer Beweis, doch ist es andererseits alles andere als irrational, sich auf sie zu stützen. Mit dieser Auffassung vermeidet man nicht nur die übliche Formulierung des Humeschen Paradoxons, also “a common argument for induction is that induction has always worked in the past and therefore may be expected to hold in the future. It has been objected that this is itself an inductive argument and cannot be used in support of induction.” Wichtiger noch ist, dass man den Wert einer nicht erfolgreichen Induktion erkennt; er ergänzt nämlich unmittelbar: “What is hardly ever mentioned is that induction has often failed in the past and that progress in science is very largely a consequence of direct attention to instances where the inductive method has led to incorrect predictions.” (Jeffreys 1973: 14).
Die Rolle der Falsifikation Scheinbar wird einer der Hauptverfechter einer induktiven Logik hier zum Falsifikationisten, betont er doch, wie wichtig die Widerlegung unserer Voraussagen (basierend auf Hypothesen könnte man hinzufügen) ist. Gerade durch die Widerlegung unserer Überzeugungen lernen wir, sagen beide unisono. Der entscheidende Unterschied ist jedoch, welche Art von Hypothese widerlegt wird. Bei Jeffreys wird eine Prognose auf den Prüfstand gestellt, die er induktiv aus dem bisherigen Wissen gewonnen hat. Das heißt, es geht 246
Siehe hierzu auch die vielen Anmerkungen von Tukey, insbesondere S. 295, in Tukey (1969) und seinen gesammelten Werken. 247 In diesem Sinne sind sie, wie Popper nachdrücklich betont hat, immer und unausweichlich hypothetisch. Wir nehmen also letztlich an, sie seien allgemein gültig, und diese Ansicht ist wohlfundiert, wenn alle verfügbare Evidenz für sie spricht.
344
4 Induktion
ihm um eine Erwartungshaltung, welche sich maßgeblich auf unser aktuelles Wissensfundament stützt. Genau deshalb kann er hoffen, dass die Hypothese trägt.248 Scheitert sie wider alle Erwartung, so kann er aufgrund ihrer Verankerung jedoch zumindest hoffen, dass die Widerlegung dieser spezifischen Vermutung einen Hinweis darauf gibt, an welcher Stelle des theoretischen Gebäudes etwas nicht in Ordnung ist.249 Popper hingegen lehnt jeglich induktive Argumentation ab. Deshalb muss er Hypothesen als „freie Schöpfungen des menschlichen Geistes“ ansehen, und kann auch nur über den modus tollens, also durch Widerlegung, neue Erkenntnisse gewinnen. Dies verschleiert, ja verneint nicht nur die entscheidende Rolle positiven Wissens (von uns gerne Theorie oder Modell genannt), es überbewertet auch die Fähigkeiten von Kritik. Die Kritik ist zudem einfach, nicht konstruktiv, denn wenn die Hypothese vom Himmel fällt, so hat sie mit dem irdischen Räderwerk nichts zu tun, weshalb fraglich ist, was man aus ihrer Ablehnung lernen kann. Schließlich bleibt völlig unklar, was eine gute von einer schlechten Hypothese unterscheidet. Dies alles sind wohlbekannte Kritikpunkte an Poppers Wissenschaftstheorie. Aus der Warte von Jeffreys und im Lichte des bislang in diesem Buch zurückgelegten Wegstrecke erkennt man, dass eine solche Auffassung bestenfalls eine Halbwahrheit darstellt, womit das Urteil von Nagel (1982) (zitiert nach Gardner (2001)) nahe liegt: “[Popper’s] conception of the role of falsification [. . .] is an oversimplification that is close to being a caricature of scientific procedures.” 250 Poppers lebenslange Bemühungen gegen die induktive Erkenntnisrichtung kumulierten in Popper und Miller (1983). Diese kommentiert Jaynes (2003: 699) mit: “Written for scientists, this is like trying to prove the impossibili248
Jaynes (2003: 311) kommentiert dies mit direktem Bezug auf Jeffreys wie folgt: “If predictions made by a theory are borne out by future observation, then we become more confident of the hypotheses that led to them; and if the predictions never fail in a large number of tests, we come eventually to call them ‘physical laws’. Successful induction is, of course, of great practical value in planning strategies for the future.” 249
Jaynes (2003: 311) schreibt hierzu: “[. . .] if the predictions prove to be wrong, then induction has served its real purpose; we have learned that our hypotheses are wrong or incomplete, and from the nature of the error we have a clue as to how they might be improved.” 250
Eine subtilere Kritik findet sich in Fischer (1995). Sehr lesenswert ist auch Sokal und Bricmont (1998: 61ff). Die Autoren sprechen wohl vielen Wissenschaftlern aus der Seele, wenn sie (S. 68) feststellen, dass “It is obvious that, in order to be scientific, a theory must be tested empirically in one way or another - and the more stringent the tests, the better. It is also true that predictions of unexpected phenomena often constitute the most spectacular tests. Finally, it is easier to show that a precise quantitative claim is false than to show that it is true.” Genau darauf führen sie die Popularität Poppers zurück, jedoch “But these ideas are not due to Popper, nor do they constitute what is original in his work.” Zugleich stellen sie fest, dass man diese Grundsätze schwer präzisieren kann. Nimmt man sie allzu wörtlich, so strickt man schnell an einem normativen Gebäude, das der Forschungswirklichkeit nicht gerecht wird. Diese Tendenz wird noch erheblich verstärkt durch textorientierte Methoden, welche sich mehr auf die Argumentationen anderer Autoren stützen, als auf unmittelbare eigene Forschungserfahrung.
4.8 Lösung(en) des Induktionsproblems
345
ty of heavier-than-air flight to an assembly of professional airline pilots.” 251 Man beachte jedoch auch, dass die ganze Argumentation über die Wichtigkeit scheiternder induktiver Schlüsse auf dem Beispiel der Physik beruht. Sozialwissenschaftler können nur davon träumen, dass Prognosen (fast) immer eintreffen, womit gerade dem seltenen Versagen eine besondere Bedeutung zukommt. Sind Fehlschläge an der Tagesordnung und die Schwächen der theoretischen Gebäude offenkundig, muss niemand - wie in der Physik - nach Situationen suchen, in denen gerade das Scheitern die wertvollsten Informationen liefert. Erfolgreiche Hypothesen sind in den seltensten Fällen spontane Einfälle, weit entfernt vom bisherigen Wissen. Weit häufiger erwachsen sie durch Induktion aus dem aktuellen Forschungsstand. Funktionieren sie, so hat man (wie meist gewünscht) Erfolg gehabt und etwa den Geltungsbereich eines bekannten Gesetzes erweitert; wird die Hypothese widerlegt, so hat man die Grenze eines Gesetzes erkannt, also festgestellt, unter welchen Bedingungen es gerade nicht mehr gültig ist. Jeffreys (1973) beginnt das erste Kapitel seines Buches mit dem schönen Zitat: “The Master said, Yu, shall I tell you what knowledge is? When you know a thing, to know that you know it, and when you do not know a thing, to recognize that you do not know it. That is knowledge.” Man kann die Statistik als eine probabilistische Version dieses Arguments auffassen. Zusammengefasst heißt das: Die Widerlegung beliebiger Hypothesen bringt einen keinen Schritt weiter, Falsifikation ist kein Selbstzweck, sondern ein unvermeidbarer Effekt, wenn man empirische Gesetze gezielt überprüft und erweitern will. Sie ist wertvoll, wenn sie möglichst konkrete Hinweise zur Verbesserung eigener Vorstellungen liefert, weshalb nur die Widerlegung begründeter Hypothesen dem Fortschritt dient; der Ausgangspunkt aber auch das eigentliche Ziel der Übung sind und bleiben empirisch fundierte Modelle und deren systematische Verbesserung. Natürlich ist alles Wissen hypothetisch, prinzipiell revidierbar und nicht logisch sicher,252 doch verschleiert dies den eigentlichen Zweck von Wissenschaft: Wohlorganisierte und zugleich empirisch fundierte Strukturen zu schaffen, die zum einen theoretische Einsichten vermitteln, und, mehr noch, nützliche Anwendungen haben, womit sie unsere besten Werkzeuge sind, wenn es gilt, sich in der Welt zu orientieren und dort zu bestehen. Falsifikation ist zwar einerseits einfacher als die Konstruktion brauchbarer Modelle und funktionierender Methoden, deshalb aber andererseits auch weniger wert. 251
Für eine ausführlichere, ähnlich pointierte Kritik siehe Gardner (2001) und Stove (2000). Eine aktuelle, engagierte Verteidigung Poppers findet sich in Miller (2006). 252
Was auch schon vor Popper völlig klar war, siehe z.B. Schlick (1979: 433f).
346
4 Induktion
4.8.6 Zweite Lösung des allgemeinen Induktionsproblems Da wir auf die Paradoxien von Kyburg, Hempel und N. Goodman explizit geantwortet haben, wird der Leser nun auch eine explizite, konstruktive Antwort auf Hume erwarten. Zunächst schließen wir uns bei der logischen Bewertung des Paradoxons Vollmer (2003: 23) an: Das Induktionsproblem ist also, soweit es ein logisches Problem ist, gelöst; induktive Schlüsse oder Prinzipien, die irgendeine logische Symmetrie zu deduktiven Schlüssen aufweisen, die also - wie deduktive Schlüsse - wahrheitsbewahrend, zugleich aber im Gegensatz zu den deduktiven Schlüssen - gehalterweiternd sind, gibt es nicht. (Hervorhebung im Original.)
Grünwald (2007: 35) formuliert diese Lösung des Problem wie folgt: “[. . .] we can justify the use of [. . .] Occam’s razor only if we are willing to adopt some (possibly very weak) assumption of the sort ‘training data and future data are from the same source: future data should (at least with high probability) be subject to some of the same regularities as training data.’ Otherwise, [the data sets] may be completely unrelated and no method of inductive inference can be expected to work well.” (Hervorhebungen im Original.) Dies ist, bei Lichte betrachtet, trivial: Wenn die jetzigen und die zukünftigen Daten nichts gemeinsam haben, so liefern die aktuellen Daten offenkundig keinerlei Information über die Zukunft, und jede Methode, die von der Vergangenheit auf die Zukunft schließen will, greift ins Leere. Will man also deduktiv von etwas Speziellem auf etwas Allgemeineres schließen, hat man nur die Möglichkeit, das Spezielle um weitere Annahmen (Informationen, Strukturen etc.) zu erweitern, bis beide zusammen stark genug sind, um logisch auf ein allgemeines Gesetz zu schließen. Damit ist zur logischen Seite des Problems alles gesagt. Direkt vor der gerade zitierten Stelle schreibt Vollmer jedoch: Wie immer wir einen induktiven Schritt zu rechtfertigen versuchen, wir müssen dazu die Gültigkeit dieses oder eines anderen Induktionsprinzips schon voraussetzen. Wir geraten somit in einen Zirkel oder in eine unendliche Begründungskette [. . .] (Hervorhebung wiederum im Original),
womit wir scheinbar wieder ein Paradoxon haben. Man beachte, dass das Wort „rechtfertigen“ reichlich ungenau ist. Eine logische Rechtfertigung kann, wie wir gerade ausgeführt haben, nicht gemeint sein (sonst hätten wir keinen echten induktiven, also tatsächlich gehaltserweiternden Schluss vorliegen), also kann nur eine Rechtfertigung gemeint sein, die schwächer, mithin also nicht logisch-streng ist. Damit tut sich anders gesagt ein logische, von uns induktiv genannte Lücke auf, mit deren Überbrückung wir uns schon ausführlich beschäftigt haben. Betrachtet man nun diese Lücke genauer, so ergibt sich daraus eine prinzipielle Antwort auf Humes ebenso prinzipiellen Einwand. Bezeichne A den Gehalt der allgemeinen Aussage und S den Gehalt der speziellen Aussage, so haben wir formal
4.8 Lösung(en) des Induktionsproblems
347
S ⊂ A, wobei ⊂ für „weniger logischer Gehalt“ stehe. Bezeichnet L die Differenz zwischen beiden Aussagen, also gerade die logische Lücke, dann haben wir formal (S ∪ L) ⇔ A Bei einer deduktiven Überbrückung der Lücke werden Voraussetzungen V hinzugenommen, die mindestens so gehaltvoll sein müssen wie L, um logischstreng von S und V auf A schließen zu könnten, so dass also gilt (S ∪ V ) ⇒ A Man hat eine genaue Bedingung, wenn die zusätzlichen Annahmen gerade so stark ist, dass man A herleiten kann, wenn also gilt (S ∪ V ) ⇔ A Man kann dann also (gerade noch so eben) die Lücke deduktiv überwinden. Anders gesagt, man konnte genau charakterisieren, was die Lücke ausmacht. Bei einem echten induktiven Schluss wird die ursprüngliche Lücke L jedoch nicht gänzlich durch die weiteren Annahmen V gefüllt, man hat also formal (S ∪ V ) ⊂ A. Nun handelt es sich bei V in der verbalen Formulierung um ein vermeintliches Induktionsprinzip. Diese Wortwahl legt nahe, dass das Prinzip logisch mindestens so stark wie die zu schließende Lücke L ist. Wie die letzte Formel jedoch unmissverständlich zeigt, ist genau das Gegenteil der Fall: Die zusätzlichen Voraussetzungen V sind zu schwach um einen deduktiven Schluss zu rechtfertigen, sie haben also weniger logischen Gehalt als für einen deduktiven Schluss notwendig. Fährt man nun wie üblich fort mit (ibd.): Wir geraten somit in einen Zirkel oder in eine unendliche Begründungskette,
so hat einen die verbale Formulierung vollends in die Irre geführt. Der Zirkel entspräche der obigen Äquivalenz, die nicht der Fall ist. Setzt man deshalb die induktive Begründungskette mit S ⊂ S fort, so tut sich eine weitere logi sche Lücke L auf, die mit zusätzlichen Voraussetzungen V nicht vollständig geschlossen wird. Man erhält also
S ⊂ (S ∪ V ) ⊂ (S ∪ L ) ⇔ S ⊂ (S ∪ V ) ⊂ (S ∪ L) ⇔ A. Eine „unendliche Begründungskette“ mit den Informationsständen Si , so dass Si+1 ⊂ Si für i = 0, 1, 2, . . . und den zugehörigen Lücken hat also die Gestalt . . . Si+1 ⊂ (Si+1 ∪ Li+1 ) ⇔ Si ⊂ (Si ∪ Li ) ⊂ . . . ⊂ S0 ⊂ (S0 ∪ L0 ) ⇔ A
348
4 Induktion
In aller Regel bricht man die Kette nach wenigen Schritten ab und akzeptiert die Begründungslücken L0 , L1 , L2 , . . . als überschaubar. Im obigen allgemeinen Modell waren wir mit (4.2), (4.3) und (4.4) auf die wesentlichen Lücken Daten ⊂ Modell ⊂ Realität gestoßen; zumeist wird jedoch nur eine der Lücken thematisiert. Bei der statistischen Modellierung sucht man in den Daten nach einer Struktur, bei Anwendungen, etwa Prognosen, spielt der Sprung vom Modell auf die Realität die größte Rolle. Die Stichproben-Populationsidee ist insofern ungenau, als dass die Population innerstatistisch nur ein Modell ist, während sie andererseits realistisch interpretiert wird. Zusammenfassend heißt das, dass wie bei den anderen philosophischen Paradoxa auch, der Humeschen Einwand in seiner verbalen Fassung in die Irre führt. Bei der unendlichen Begründungskette von Induktionsschluss, Induktionsprinzip erster, zweiter und höherer Ordnung handelt es sich nicht um immer gehaltvollere Annahmen, sondern um logische Lücken, die tendenziell kleiner werden. (Sie müssen zwar nicht monoton abnehmen, gleichwohl konvergieren sie, falls der logische Gehalt von A endlich ist, zwingend gegen Null.) Nicht ganz unähnlich dem Paradoxon von Achill, der eine mit Vorsprung startende Schildkröte vermeintlich nie erreichen kann, weil diese in der Zeit, welche Achill braucht, um sie einzuholen, immer schon eine kleine Wegstrecke weitergekommen ist, löst sich das Paradoxon durch eine geeignete formale Betrachtung auf. Achill holt die Schildkröte ein, weil die Abstände schnell geringer werden und er so in endlicher Zeit gleichauf mit der Schildkröte liegt. Induktionsschlüsse sind prinzipiell möglich, weil die sukzessiven induktiven Lücken tendenziell kleiner werden und asymptotisch ganz verschwinden. Man muss, bildlich gesprochen, nicht immer stärkere Induktionsprinzipien aufrufen, um eine Folge von Induktionsschlüssen zu rechtfertigen, vielmehr werden die sukzessive benötigten Induktionsprinzipien höherer Ordnung immer schwächer. Das logische Monster eines unendlichen Regresses in Humes Argument entpuppt sich als ein Gespenst - je genauer bzw. häufiger man hinsieht, desto mehr verflüchtigt es sich. Das dominierende Problem in der Praxis ist deshalb nicht die Suche nach übergeordneten Induktionsprinzipien, vielmehr sind induktive Schlüsse mit schwächeren als logischen Mitteln zu begründen, was typischerweise heißt, die unvermeidbare(n) induktive(n) Lücke(n) zu kontrollieren und so klein wie möglich zu halten. Schon beim induktiven Schluss von heute auf morgen wird dies deutlich. Als induktive Begründung wird hier gerne die „Gleichförmigkeit“ der Natur genannt. Eine solche Gleichförmigkeit kann zum einen verschiedene Formen annehmen (Konstanz, Periodizität, linearer Trend usw.) und es ist auch nicht ausgeschlossen, dass alles ganz anders kommt als prognostiziert. Dies zeigt, wie schwach das vermeintliche Prinzip eigentlich ist. Auf der Suche nach
4.8 Lösung(en) des Induktionsproblems
349
einem Prinzip hinter dem Prinzip stößt man schließlich allenfalls noch auf vage Aussagen der Gestalt, dass die Natur keine Sprünge macht (Leibniz) oder sich gemäß gewisser Regeln verhält. Während sich so die philosophischen Zweifel verflüchtigen, besteht das tatsächliche Problem darin, eine spezifische Prognose mit situationsadäquaten Argumenten zu untermauern. Also: Morgen wird es regnen, weil es heute geregnet hat, die Luftfeuchtigkeit hoch ist, ein stabiles Tief die Wetterlage beherrscht usw. Smaragde werden auch weiterhin grün bleiben, weil sie eine sie definierende chemische Struktur haben, welche Licht auf eine bestimmte festliegende Art bricht usw. Nie verweist man bei wissenschaftlich-induktiven Begründungen auf vage Prinzipien, sondern immer auf möglichst konkrete Muster und Zusammenhänge, die auf vielfältigen empirischen Erfahrungen beruhen und häufig in der Gestalt allgemein formulierter (und realistisch interpretierter) Gesetzmäßigkeiten tradiert werden. Für einige weitere Bemerkungen zum allgemeinen Induktionsproblem verweisen wir auf Abschnitt 478, insbesondere S. 480.
Kapitel 5
Synthese
Now these two directions, the one active the other contemplative, are one and the same thing; and what in operation is most useful, that in knowledge is most true. (Bacon 1620: Buch 2, Aphorismus 4, letzter Satz)
5.1 Forschungsstrategien III (Kombination) We know a lot about the phenomena involved in the use of our techniques. Some of what we know has been learned deductively, using assumptions and mathematics. We do learn from practice, as well as from deduction and from experimental sampling. We can practice a science. We need not hide behind a mysterious shield of false-tofact deduction! Tukey (1982: 888)
Bislang, vor allem im letzten Kapitel, haben wir uns bevorzugt der induktiven Seite der Erkenntnis gewidmet. Da es unbestrittenermaßen keinen Weg gibt, der mit Notwendigkeit von den Daten zu allgemeinen Sätzen führt, hat man, anders gesagt, notwendigerweise viele Möglichkeiten, Daten zu interpretieren. Diese prinzipielle Mehrdeutigkeit eröffnet Freiheiten, welche man konsequent nutzen sollte. Sie zeigen sich in der großen methodischen Bandbreite der EDA, setzen sich fort in der intelligenten Auswahl sukzessiver Analysen in der IDA, finden ihren Niederschlag in flexiblen, leicht an konkrete Situationen anpassbaren Modellen und nicht zuletzt auch in der Würdigung des Kontextes bei Fragestellungen des Data Mining. Das häufig verwendete Bild ist jenes des Detektivs: Aus Bruchstücken, Hinweisen, Andeutungen und Spuren, welche aus einer Vielzahl von Quellen stammen, häufig verworren und zuweilen sogar widersprüchlich sind, ist ein in sich stimmiges Bild zu erstellen, das den Fakten und entscheidenden Indizien Rechnung trägt. Wer hier erfolgreich sein will, muss flexible Werkzeuge besitzen, offen für das Unerwartete sein und ein Gespür für das Wesentliche haben. Neben Offenheit, Flexibilität und Freiheit sind im Erkenntnisprozess jedoch auch Festigkeit, Stabilität, Sicherheit und Absicherung wichtig. Eine Idee ist kaum mehr als eine vage Spekulation, solange sie sich nicht auf zuverlässige Fakten und schlüssige Argumentationsketten stützen kann. Um irgendwelche fundierten oder sogar beweiskräftigen Aussagen machen zu können, muss man sich innerhalb eines festen Rahmens bewegen. Es darf nicht U. Saint-Mont, Statistik im Forschungsprozess, DOI 10.1007/978-3-7908-2723-1_5, © Springer-Verlag Berlin Heidelberg 2011
351
352
5 Synthese
alles mehr oder minder vage und damit zweifelhaft sein, also auch permanent in Frage gestellt werden. Vielmehr kommt man nicht umhin, Ideen, Begriffe und Konzepte in eine fixierte, am besten logisch-strenge Form zu bringen. Geeignete Definitionen, Axiome und Theoreme sind die stärksten mathematischen Ausdrucksmittel hierfür. So gelangt man nahezu zwangsläufig zu den nicht nur in der Statistik so beliebten Modellen, also empirisch adäquaten und zugleich theoretisch transparenten Strukturen. Jene beruhen - induktiv gesehen - auf zuverlässigen Fakten und insbesondere Daten. Deduktiv gesehen wird ihre Struktur durch geeignete mathematischen Setzungen bestimmt und in das so definierte begriffliche Gefüge sollten sich die Daten dann in der Folge zwanglos einordnen. Modelle besitzen ein Janusgesicht: Hält man die Daten fest, dann generiert man mit deren Hilfe Gesetzmäßigkeiten, die sich in möglichst allgemeinen Modellen niederschlagen. Hält man hingegen die formalen Annahmen fest, so lassen sich aus diesen konkrete Modelle entwickeln. Im besten Fall erfolgt diese Ableitung mit logisch-streng-deduktiven Methoden, so dass die Konzeption zwangsläufig aus den einmal festgelegten Axiomen hervorgeht. Wie wir bereits zuvor (insbesondere in den Abschnitten 2.6 und 3.4) festgestellt und diskutiert haben, ergänzen sich Deduktion und Induktion in natürlicher Weise. Es ist sehr unklug, nur eine von beiden sehen zu wollen, induktives Vorgehen als deduktiv zu verbrämen oder sogar ganz zu verbieten. In der Statistik wird die zugrunde liegende und zugleich grundlegende Unterscheidung zumeist mit den Termen hypothesengetrieben versus hypothesengenerierend belegt. Letztere Vorgehensweise wird auch gerne als datengetrieben bezeichnet. Etwas allgemeiner, und insbesondere konkrete Modelle hinter sich lassend, stellt man der (induktiv verstandenen) explorativen Datenanalyse EDA - die (deduktiv verstandene) konfirmatorische Datenanalyse - CDA gegenüber. Auch das Wortpaar conclusions versus decisions ist beliebt. Mit dem Zusammenspiel von induktivem und deduktivem Vorgehen beschäftigen wir uns später noch einmal ausführlich (ab Abschnitt 5.1.3), zunächst geht es uns um die relative Bedeutung der beiden Strategien, auch in historischer Hinsicht.
5.1.1 Primat der Deduktion in der Theorie Die generellen Vorzüge deduktiver Methoden wurden in der Philosophie spätestens von Popper und seiner Schule ausführlich gewürdigt. Auch wir sind im Zusammenhang mit statistischen Tests schon darauf eingegangen.1 Allgemeiner gesprochen gibt es wohl kaum ein wissenschaftstheoretisches Buch, das nicht an irgendeiner Stelle auf das Hempel-Oppenheim-Schema zu sprechen 1
Siehe v.a. Abschnitt 3.4.1
5.1 Forschungsstrategien III (Kombination)
353
kommt,2 also der (deduktiven) Ableitung von Versuchsergebnissen aus Naturgesetzen und Versuchsbedingungen; vergleichbar der logischen Herleitung einer spezifischen Konklusion aus allgemeinen und spezifischen Prämissen. Vergleicht man dies mit der Induktion, so ist der entscheidende Vorzug, dass man sich innerhalb eines klar definierten Rahmens bewegt. Alle Annahmen werden zu Beginn fixiert und die daraus folgenden Konsequenzen lassen sich logisch-sicher und völlig transparent gewinnen. Es gibt keine Interpretationsspielräume oder Zweideutigkeiten, keine Störfaktoren und Fehlerquellen, die aus dem Nichts auftauchen, keine lediglich mit einer gewissen Wahrscheinlichkeit wahre Mutmaßungen oder von äußeren Faktoren verursachte Überraschungen. Die Welt, in der man sich bewegt, ist zwar umfangreich, zuweilen auch unübersichtlich, aber sie ist in sich konsistent und geschlossen. Genau das erleichtert nicht nur die Argumentation, es macht sogar die Präzision der Logik erst möglich. Nur weil man sich konsequent auf eine „kleine Welt“ einlässt, kann man deren Voraussetzungen auch bewusst gestalten und vollständig überblicken. Im induktiven Bereich hingegen kann immer ein bislang nicht berücksichtigter Faktor plötzlich eine wesentliche Rolle spielen. Aus allen diesen Gründen müssen stringente Argumentationen in der Theorie eine ausgezeichnete Rolle spielen. Neben dem eher subtilen, schleichenden Effekt, dass man die mathematische Strenge zu ernst nimmt und den realen Bezug des Modells vernachlässigt, ist der entscheidende Nachteil deduktiven Denkens, dass es nach Sicherheit strebt, sich selbst genügt, abgeschlossen ist und damit oft auch eng wird. Es ist gewiss kein Zufall, dass Theoretiker und Mathematiker zu normativen Vorgaben neigen, Anwendern und Forschern von vorneherein Methoden oder Schlussweisen verbieten wollen. Innerhalb ihrer Konzepte haben sie damit gewiss Recht: Theorien sagen oft viel klarer, was nicht geht, als dass man aus ihnen herleiten könnte, wie etwas funktioniert. Andererseits ist aber jede konzeptionelle Vorstellung zunächst einmal nichts weiter als graue Theorie sie kann sich bewähren oder aber auch nicht. Eine Folge ist, dass sich die logisch-deduktive Seite leicht einheitlich darstellen lässt und ein ziemlich geschlossenes Bild abgibt, während die Gegenpartei eher als eine Ansammlung verschiedenartiger opponierender Gruppen und Positionen erscheint. Das ist nicht anders zu erwarten: Die philosophische Antwort auf die deduktive Schule3 muss eine generelle Verteidigung des induktiven Ansatzes sein. Genau diese wurde vornehmlich vom Wiener Kreis und dessen geistreichen Schülern geleistet, die nicht zuletzt an den gesunden Menschenverstand appellierten (Stöltzner und Uebel 2006). Hingegen sollte 2
Z. B. Lauth und Sareiter (2005: 69ff) oder Schurz (2006: Abschnitt 5.1). Die am häufigsten zitierte klassisch-moderne Originalarbeit ist Hempel und Oppenheim (1948). Spätestens seit Newton seine Axiome aufstellte und daraus die moderne Mechanik bzw. Physik herleitete, ist die Deduktion jedoch „en vogue“. 3 Sei sie nun falsifikationistisch oder deduktiv-nomologisch
354
5 Synthese
eine Replik auf das Hempel-Oppenheim-Schema anders geartete wissenschaftliche Erklärungen in den Vordergrund rücken.4 Es hieße eine Geschichte der Wissenschaftstheorie seit Popper (1935) schreiben, wollte man allen Entwicklungen und Auseinandersetzungen um die hypothesengeleitete Konzeption von Forschung gerecht werden.5 Auf der einen Seite stehen diejenigen Philosophen und Theoretiker, welche der Deduktion und ihren klar erkennbaren Vorteilen den Vorzug gaben. Auf der anderen Seite finden sich vor allem Wissenschaftler und Praktiker, die induktiv arbeitend oft besser voran kamen. Dabei ist es wichtig zu erkennen, dass der Konflikt weniger wegen des fundamentalen philosophischen Unterschieds so heftig und auf vielen Feldern geführt wurde, als vielmehr aufgrund des aggressiv artikulierten Alleinvertretungsanspruchs der deduktiven Schule. Schauplatz der Auseinandersetzung war nicht nur die Wissenschaftstheorie, sondern auch die Statistik mit ihren Anwendungsfeldern. Alle Versuche, wieder induktiver, also datengetrieben-explorativer vorzugehen, mussten gegen den entschiedenen Widerstand der deduktiven Grundhaltung durchgesetzt werden. Lieber nahm man eine „Schizophrenie“ in Kauf, als dass man der Induktion einen angemessenen Platz neben der Deduktion einräumte.
Der Weg in die mathematische Statistik Ein markantes Beispiel liefert die Messtheorie (siehe insbesondere Abschnitt 2.6.3). In der üblichen, stark mathematisch-deduktiven Lesart geht sie von bestimmten Skalenniveaus aus. Unter dieser zentralen Annahme untersucht sie dann diverse Statistiken und stellt fest, ob jene zulässig und aber bedeutungslos sind. Es ist dabei ziemlich schwer, normative Vorgaben zu vermeiden. Tut man es, so bestreitet man eine der Hauptaufgaben jeder Theorie, nämlich der Praxis relevante Richtlinien an die Hand zu geben, sie also im besten Sinne zu leiten. Die von uns nachdrücklich vertretene induktive Sicht der Messtheorie stellt hingegen ihren zentralen Gedanken - Invarianz - sowie ihr wichtigstes Werkzeug - Transformationen - in den Mittelpunkt. Nun geht es nicht darum, unter der Annahme eines gewissen Skalennniveaus Resultate (mathematisch) abzuleiten, sondern ausgehend von den Daten diejenigen Transformationen zu ermitteln, welche Symmetrien in den Daten am besten erfassen. Dergestalt ist die Klasse äquivalenter Skalen erst zu ermitteln, sie ist eine auf den Daten basierende Hypothese. Die Entwicklung der Statistik im 20. Jahrhundert spielte sich ebenfalls vor dem allgemeinen philosophischen Hintergrund ab.6 Theoretische Statistiker musste man nicht mehr von den Vorzügen7 mathematisch-deduktiver Metho4
Für einen Überblick siehe z. B. Woodward (2003).
5 6
Nicht nur Gillies (1993) und Godfrey-Smith (2003) haben dies getan. Siehe Abschnitt 3.4
7
Siehe Abschnitt 1.1
5.1 Forschungsstrategien III (Kombination)
355
den überzeugen. Als Hotelling (1940) dann vorschlug, eigenständige statistische Institute zu schaffen, war offenkundig, dass diese bestehenden mathematischen Fakultäten angegliedert werden sollten.8 Das nahezu zwangsläufige Ergebnis, Messtheorie und Statistik als angewandte Mathematik, hatten wir bereits in den Abschnitten 2.6.1 und 3.4.1 beleuchtet. Mallows und Walley (1981: 8) schildern die Folgen: Work in theoretical statistics, based on probability theory, has tended to adopt the standards of mathematics. But in mathematics one need not take responsibility for the accuracy of the assumptions all that matters is that the assumptions be stated precisely.
Wäre man sich also gleichwohl im Grundsatz einig gewesen, dass die Statistik (wie die Physik) neben einem formal-mathematischen Kern auch einen Mantel induktiven Denkens benötigt, so wäre die Entwicklung wohl harmonischer verlaufen. Auch eine tolerante Grundeinstellung, dass sich Deduktion und Induktion in natürlicher Weise ergänzen, hätte viele Auseinandersetzungen entschärft. Doch blickt man zurück, so liest sich die Geschichte der Statistik des 20. Jahrhunderts weit mehr als eine Abfolge langwieriger, heftiger Konflikte: Das erste große Schlachtfeld war die Testtheorie. Insbesondere wurde der fundamentale Unterschied zwischen [. . .] significance tests, as an aid in the summarization of evidence, and decision procedures [. . .] (Cox 1977: 51)9 zum Ausgangspunkt einer lange währenden, wenig fruchtbaren Diskussion, die nicht nur das Verhältnis zwischen Fisher und Neyman (1961) belastete. Viele wechselseitige Vorwürfe erübrigen sich, wenn man die prinzipiellen Stärken und Schwächen des induktiven bzw. deduktiven Vorgehens kennt. Selbstverständlich ist z. B. die Wahl des Niveaus α insofern willkürlich, als dass sie unabhängig von den noch zu erhebenden Daten erfolgt. Sie ist genauso willkürlich wie jede Setzung, die in einem mathematisch-deduktiven Rahmen vorgenommen wird, muss jedoch vorgenommen werden, will man logisch-streng beweisen. Es ist also wenig aufschlussreich “Why 5%?” (Upshur 2001: 567) zu fragen oder “Surely God loves the 0.06 nearly as much as the 0.05?” (Rosnow und Rosenthal 1989). Noch weniger hilfreich ist es andererseits jedoch, alles logisch-streng im Voraus festlegen zu wollen, und wegen der vermeintlichen Gefahr einer „Fehlerinflation“ Daten unter Verschluss zu halten. Selbst die Metaanalyse (siehe S. 103), also die natürliche Akkumulation von Evidenz, wird bis heute nicht vollkommen akzeptiert. So betont ihr epidemiologisches Pendant, der Cochrane Review ausdrücklich: “A Cochrane Review is a scientific investigation in itself, with a pre-planned Methods section and an assembly of original studies [. . .]” 10 Dieser Kampf war noch nicht ausgefochten, da begannen die Auseinandersetzungen zwischen Frequentisten und den Bayesschen Schulen (siehe Ab8
Siehe auch Mallows (2006: Kapitel 4)
9
Sie auch die dort gleich im Anschluss an das Zitat gegebene Autorenliste Meine Hervorhebung. Siehe www.cochrane.org/cochrane-reviews. Aufruf am 8.9.2010.
10
356
5 Synthese
schnitt 4.4.2, insbesondere S. 269ff). Bei den zahlreichen Differenzen ging es wiederum weniger um technische Details, als um grundsätzliche Fragen. Während die traditionelle Sicht strikt deduktiv ausgerichtet ist, geht es Bayesianern primär um eine induktive Logik. Kurze Zeit später (Tukey 1977) betrat mit der EDA und ihren Nachfolgern ein neuer, kraftvoller Ansatz das Feld.11 Glymour et al. (1996) fassen zusammen: In the mid 1960’s, the statistics community referred to unfettered exploration of data as ‘fishing’ or ‘data dredging’ (Selvin and Stuart, 1966). The community, enamored by elegant (analytical) mathematical solutions to inferential problems, argued that since their theories were invalidated by ‘looking at the data’, it was wrong to do so. The major proponent of the exploratory data analysis (EDA) school, J.W. Tukey, countered this argument with the obvious retort that statisticians were putting the cart before the horse. He argued that statistical theory should adapt to the scientific method rather than the other way around.12
Leamer (1978: vi) beschrieb als einer der ersten die sich ergebende, schizophrene Situation ehrlich und pointiert: “My interest in metastatistics stems from my observations of economists at work [. . .] We comfortably divide ourselves into a celibate priesthood of statistical theorists, on the one hand, and a legion of inveterate sinner-data analysts, on the other. The priests are empowered to draw up lists of sins and are revered for the special talents they display. Sinners are not expected to avoid sins; they need only confess their errors openly [. . .] As it happens, the econometric modeling was done in the basement of the building and the economic theory courses were taught on the top floor (the third). I was perplexed that the same [statistical] language was used in both places. Even more amazing was the transmogrification of particular individuals who only sinned in the basement and metamorphosed into the highest of high priests as they ascended to the third floor.” Pointierter könnten induktive Datenauswertung und deduktive Lehre kaum aufeinander prallen und zugleich auseinander fallen. Doch je größer die Entfremdung zwischen Theorie und Praxis, desto wahrscheinlicher wird ein Bruch. Und da in der Folge mathematische Aspekte immer mehr die Oberhand gewannen, die Empirie immer weiter vernachlässigt wurde, kam es schließlich zum kaum noch verhüllten Schisma. Genau davor hatten eminente Statistiker, etwa Tukey (1986e: 875), nachdrücklich gewarnt: “It is time to ask when derivations help us, and how much”. “Theorem proofing is seductive” (siehe S. 306), doch da man dem schönen Gesang der Loreley folgte, bleibt nur, die misslichen Folgen auszuführen (siehe Abschnitt 4.6.3). Hand (1998a: 246f) fasst zusammen: 11 12
Siehe Abschnitt 4.6.3
Tukey (1986b: 204) sagt in einem darauf zielenden badmandment: “At all costs be rigid an serious; follow the straight and narrow way to its inevitable end. (A scientist always knows where he’s going! [. . .] Don’t admit, even to yourself, that you had to begin with EXPLORATION.” (Hervorhebung im Original.)
5.1 Forschungsstrategien III (Kombination)
357
There is a clear but unfortunate tendency, in those sciences which have mathematics as their base, to regard more and more abstract and mathematical statements as somehow more profound [. . .] The harm is done by those statisticians who are unable to separate the important aspects of real practical problems from the twiddles of mathematical niceties [. . .] This is where much mathematical statistics goes astray. The explorations of mathematical niceties are swamped by the relatively gross simplifications made by the mapping from the real world to the mathematical model.
Der dem Artikel direkt vorangehende Beitrag von Sprent (1998) stimmt Hand nicht nur uneingeschränkt zu, er legt auch den Finger direkt in die Wunde: “Most editors of statistical journals give at least lip-service to a requirement that papers be relevant to statistics.” Mit der Publikationspolitik einher geht eine entsprechende Ausbildungs- und Berufungspolitik. Box (1990a: 318f) schildert sie: Unfortunately, its domination by mathematics has led to the teaching and propagation of ideas that I believe are in some cases actually antithetical to good statistical practice. Consider the process of investigation [which] employs induction and deduction in an iterative sequence, which is full of arbitrary judgment [. . .] Statisticians can, I believe, only learn good judgment in the same way as does the medical profession. They must in effect serve an internship in which they are involved with real ongoing investigation [. . .] The present policy of university department and granting agencies produces exactly the opposite result. Only doctoral theses concerned with mathematical theory and single authored mathematical papers bring acceptance and eventual tenure. Joint investigations with subject matter specialists and the resulting publications, which should be mandatory, are in fact discounted and discouraged.
Der Vergleich mit dem berühmten Schwimmenlernen auf dem Trockenen drängt sich hier auf. Auch Box bringt genau dieses Beispiel und fährt dann fort: “But it is actually worse than that [. . .] our greatest ambition for our Ph.D. students is that they never get wet. Instead we hope they will become professors and teach the next batch of students what they have learned.” Die Wunschvorstellung von Rubin (1993: 204) “The special training statisticians receive in mapping real world problems into formal probability models, computing inferences from data and models, and exploring the adequacy of these inferences, is not really part of any other formal discipline, yet is often crucial to the quality of empirical research” kommentiert Mallows (2006: 324) mit den Worten: “Would that students indeed were so trained!” Einen ähnlich ernüchternden Einblick in die aktuelle deutsche Ausbildungsrealität geben Krämer (2004) und Lorscheid (2009). Man findet deshalb, kurz gesagt, viele mathematisch-theoretisch Versierte, während „komplette“ Statistiker Mangelware sind. Schon viel früher hatte Box (1976: 797) hierfür den einprägsamen, bewusst abwertenden Begriff mathematistry geprägt: [. . .] the tendency to produce theory for theory’s sake, which since it seldom touches practice, has a tendency to redefine the problem rather than to solve it. Typically,
358
5 Synthese
there has once been a statistical problem with scientific relevance but this has long since been lost sight of.13
Angewandte Mathematik statt empirischer Wissenschaft Tukey (1960a: 118) beschreibt in enger Anlehnung an die Physik klar, wie die Statistik selbstbewusst und doch zugleich distanziert mit mathematischen Methoden, ihrer mathematischen Sprache, umgehen sollte:14 Every great theoretical physicist has, as one of his vital hallmarks, the ability to develop a particular mathematical structure just about so far - going as long as it continues to approach the physical situation, and not much farther. Indeed, every formal mathematical model is like an asymptotic series - taking too many terms can be devastating! The problem is always to follow the mathematical consequences of the hypotheses just far enough, without going too far.15 Extreme conclusions are excellent mathematics, but often lead to very sad applications of mathematics. All those who practice theoretical physics strive to learn and apply this skill. All who practice theoretical statistics must do the same.
Ein Denken, das sich an der deduktiven Methode des Beweises orientiert, strebt zudem nach Gewissheit und Sicherheit. Dies geht immer, so auch hier, mit einem neue Entwicklungen hemmenden Konservatismus einher. Tukey (1973a: 786) stellte fest: “Too much of our new statistics books is old statistics; computer access is here and can make things very, very different; it’s high time we all did something about it.” Etwa zur selben Zeit konstatiert Lecam, zitiert nach Huber (1997: 178): “What we [the Berkeley department of statistics] feel is that the subject of statistics by itself has not been evolving too rapidly in the past few years.” 16 13
Auch wenn sich das Problem in den letzten Jahrzehnten zugespitzt hat, so findet man schon viel früher einschlägige Klagen. Von der Lippe (1996: 28) bringt ein Zitat Tschuprows aus den 1930er Jahren: „Statistik spielende Mathematiker können nur von mathematisch ausgerüsteten Statistikern überwunden werden.“ Schon in einem Brief Campbells an Fisher heißt es 1922: “[. . .] I have read your paper with the very greatest interest, for it appeared to me a most welcome reversion to realities after the wholly abstract and impracticable dissertations to which we had become accustomed from mathematicians.” (Bennett 1990: 58). Fisher äußerst sich 1940 in einem Brief an Baker (ibd., S. 342f, Hervorhebung im Original): “I think it is unfortunate, at least in mathematics, that the aristocratic prestige of the word pure should be applied often to ineffectual pottering of a kind which avoids the real difficulties which come in sight when applications are attempted.” Bereits 1895 schreibt Weldon, zitiert nach Stigler (1986: 337): “But I am horribly afraid of pure mathematicians with no experimental training. Consider [Karl] Pearson.” 14 Siehe auch schon unsere Ausführungen in Abschnitt 2.6.1. 15
Das erinnert an das Aristoteles zugeschriebene Zitat „Der Gebildete treibt die Genauigkeit nicht weiter, als es der Natur der Sache entspricht.“ 16
Der Text fährt fort: “This last comment must be considered in relation to the extremely rapid progress of probability and statistics between 1920 and 1960.” Viele Zitate bedeutender Statistiker mit derselben Intention finden sich auch in Parzen (o. J.) und Huber (1997), der die Entwicklung von 1962-1995 detailliert dokumentiert.
5.1 Forschungsstrategien III (Kombination)
359
Die Zeichen der Krise verschärften sich über die Jahre. Efron (1990: 450) schrieb: “In the long run, any field is judged by the ideas it produces. We, the current bunch of academic statisticians, are living off the intellectual capital invested by Gauss, Pearson, Student, Fisher, Neyman, Wald, etc. I hope we are generating the ideas that will secure our successor’s place in the academy.” Hand (1998a: 248) bezweifelt, dass dies der Statistik gelungen ist: It seems to me that in recent decades the discipline of statistics has a record of lagging behind in new developments [. . .] One possible explanation is that the mathematical baggage associated with statistics encourages a fundamental conservativeness. This is in marked contrast with the adventurous spirit of computer scientists, who often have a ‘suck it and see’ attitude [. . .] I think that a tendency to want to be sure that a method will work before trying it out - to guarantee (or, at least, find mathematical conditions for) convergence, for example - leads to a hesitancy. Lack of mathematical rigour, although clearly not desirable, should not prevent ideas from being developed and published (provided there is evidence, perhaps computational, that they work). [. . .] Essentially, I am suggesting that opportunities have been lost because of a separation of the development from its original objectives.
Während sich so die Theorie mehr und mehr der Mathematik zuneigte, wuchs andererseits17 die Autonomie der Datenanalyse. Anders gesagt, völlig folgerichtig verlor die Statistik auf breiter Front aussichtsreiche neue Gebiete an risikobereitere Disziplinen.18 Mallows (1998: 8) fasst zusammen: Seventy-five years ago Fisher revolutionized our discipline by decoupling theoretical statistics from applications. This enabled development of the theory we all know and love. For the next half-century or so it made it possible and respectable and desirable (for young professionals wanting tenure) to write theoretical papers with no connection to reality [. . .] But over the last 25 years there have been several revolutions, in computing, graphics, communications, and data collection. The discipline that Fisher’s revolution created can no longer claim to be at the cutting edge.
Angesichts der inneren Zerrissenheit und des zunehmenden Auseinanderdriftens machte schließlich das Wort von der „Balkanisierung“ der Statistik die Runde. Jenes war umso mehr gerechtfertigt, als in den letzten Jahren stetig neue Konfliktfelder hinzukamen. Wie wir in Abschnitt 4.5.2 beschrieben haben,19 verschärften sich seit den 1980er Jahren die Diskussionen zwischen empirischen Wissenschaftlern, aber auch Philosophen und orthodoxen Statistikern.20 Mit den noch zu besprechenden kausalen Netzen (Abschnitt 5.4.1) gelang es dann Nicht-Statistikern in den 1990er Jahren erstmals, ein immens wichtiges, zuvor von der klassischen Statistik stiefmüttlerlich behandeltes Thema einer konstruktiven Lösung zuzuführen. Heute sind es vor allem informationstheoretisch motivierte Ansätze (Abschnitt 5.5), die, ebenfalls von der traditionellen Statistik weitgehend unabhängig bzw. ignoriert, die wichtigsten Fortschritte machen. 17
Siehe insbesondere die Abschnitte 4.6.1 - 4.6.3
18
„Dem Mutigen gehört die Welt!“ sagt schon ein altes Sprichwort. Und in Abschnitt 5.4.4 vertiefen werden
19 20
Für einen wenig schmeichelhaften Blick auf das Verhältnis von Medizinern und Statistikern siehe Hand und Everitt (1987) oder Lindley (2000: 335).
360
5 Synthese
Eine Statistik ohne äußere Richtschnur und damit Orientierung verirrt sich schlimmstenfalls, wie auch so manche Philosophie, in irrelevanter Pedanterie.21 Wie weit die Entwicklung schon gediehen ist, erkennt man an Zitaten, die belegen, dass mit der dominanten mathematischen Sicht zentrale Eckpfeiler wissenschaftlichen Denkens in Vergessenheit geraten sind: Miller (1995) empfiehlt nachdrücklich, ein Modell nicht mit einem Teil der Daten zu validieren, sondern “[. . .] the alternative of using all available data for model building is better.” Und weiter: “Suppose we then carry out a second data collection or experiment after the first has narrowed our choice of models. Should we combine both data sets in the next phase of model building? I think so.” Direkt danach zweifelt O’Hagan (1995) den Wert der Replikation an: “How is collecting more data different from arbitrarily splitting the existing data?22 After collecting more data, we again have a single, albeit larger, data set. To regard the part that we received first as that to be used for model building, and the new part as that for model confirmation, is just as arbitrary as splitting the original data into two parts for these purposes. Furthermore, the process makes little sense in either case. What if the ‘confirmation’ sample fails to confirm the model? However one describes it, the new data are being used for further learning about the model, and it is proper to use all the data explicitly for model inference, as a single data set.” (Hervorhebungen im Original.) In derselben Diskussion schreibt Gilmour (1995) zu klinischen Studien: “Replicated studies are just large, badly designed, single studies.” Kaum besser ist es um die philosophische Grundbildung bestellt. Wir erinnern an einige Diskutanten23 von Draper et al. (1993), die induktive Schritte bei der Datenanalyse für vermeidbar halten. Die Antwort der Autoren ist (S. 36): “[Some] feel that they can make predictions from seen to unseen without leaps of faith. We have not improved on Hume (1748) in somehow avoiding leaps of faith when extrapolating from past to future observables, because we believe that such leaps of faith are unavoidable.” Huber (1997) sah angesichts dessen zweifelhafte Zukunftsaussichten: “Statistics will survive and flourish through the sheer mass of statistical applications in most diverse fields. But whether the field as such will retain coherence is an altogether different question; the answer is up to us statisticians and data analysts, and to the actions we are going to take.” Möglicherweise ist es dafür schon zu spät: “Escapism will not survive. The world is not simple; the things we are asked to do as statisticians are not simple. To try to make them so is to seek for the impossible. Success can only cut statistics off from its 21
Für eine Fallstudie, die die einschlägige historische Entwicklung des Suffizienzbegriffs beleuchtet, siehe Yamada und Morimoto (1992), insbesondere S. 92ff. 22 Ein Beispiel ist der von uns betonte Unterschied zwischen Replikation und Kreuzvalidierung. 23 Siehe den Beginn von Abschnitt 4.2, S. 200ff
5.1 Forschungsstrategien III (Kombination)
361
real problems. Unnourished, such a statistics can only wither24 slowly away.” (Tukey (1973a: 791), meine Hervorhebung.)
Weitere Folgen des Deduktivismus Der Alleinvertretungsanspruch des Deduktivismus hatte noch weitere negative Folgen. Die gründliche Begriffsverwirrung, insbesondere um conclusions, decisions und evidence (S. 119ff) verhindert, dass Probleme überhaupt formuliert werden können. Auch diverse sprachliche Verrenkungen, etwa um die Bewertung von Hypothesen (siehe S. 108ff) machen es nicht einfacher, sachlich zu diskutieren. Schon die Tatsache, dass man bis heute weit häufiger von der Nichtablehnung statt der Bestätigung einer Hypothese spricht, macht deutlich, welch nachhaltigen Einfluss Poppers Philosophie auf die Statistik hatte. Eine solch erschwerte Kommunikation leistet der Polemik Vorschub, wie auch die Messtheorie eindrucksvoll zeigt. Andererseits werden die ungelösten methodischen Probleme zum Ballast für diejenigen Wissenschaften, die Statistik anwenden. Prinzipielle Diskussionen und unnötiges wissenschaftstheoretisches Gepäck bestimmen bis heute die Agenda der „weicheren“ Wissenschaften. Besonders in der Psychologie,25 aber auch in den Wirtschaftswissenschaften26 und der Medizin27 galt lange Zeit der hypothesengeleitete, dezidiert oder sogar rein deduktive Ansatz als der einzig wissenschaftliche. Größter Wert wurde und wird darauf gelegt, ausgehend von einer substanziellen Theorie (so trivial diese auch immer sein mag) eine konkrete inhaltliche Hypothese herzuleiten, daraus eine statistische Hypothese abzuleiten, welche am besten mit einem randomisierten Experiment geprüft wird. Auswertungsseitig erschwert oder vereitelt sogar der Streit um mathematisch-statistische Details (wie um fundamentale Differenzen) die weit wichtigeren fachlichen Diskussionen. Während es die Informatik in kurzer Zeit geschafft hat, dass Anwender komfortabel mit Computern an ihren eigentlichen Problemen arbeiten können, überschattet der deduktiv-normative Dogmatismus jede erfolgsversprechende originelle Anwendung statistischer Methoden. Kurz gesagt: Our present lamentable situation and somewhat dubious future arises from the fact that the mathematical tail has been allowed to wag the statistical dog for far too long. (Box 1990b: 448) 24
Ein von Robbins (1975) in einem vielbeachteten Artikel wieder aufgegriffenes Wort
25
Siehe Bortz und Döring (1995), Bortz (2004) und unsere Ausführungen zu Hypothesentests 26 Siehe Leamer (1978) und viele modernere Einführungen 27
Siehe S. 113ff sowie Rothman et al. (2008)
362
5 Synthese
5.1.2 Primat der Induktion in der Praxis Es dauerte lange, bis sich die Philosophie und die Einzelwissenschaften vom Diktat der deduktiven Methode befreiten, und erst heute scheint der Schwenk in vollem Gange zu sein.28 Im Fall der Statistik sind es zahlreiche erfolgreiche Entwicklungen an ihrem Rand (siehe insbesondere die folgenden Abschnitte), welche zum Umdenken zwingen. Erst unter dem Eindruck des nachhaltigen Erfolges immer zahlreicherer Alternativen zur klassischen Statistik werden nun die einstigen Sünden und Häresien zu Ernst zu nehmenden Innovationen. Einem Vermächtnis nahe kommt diesbezüglich Tukey (1997). Lehrbücher stellen gerne die explorative Datenanalyse (EDA) oder eine ihrer Varianten der konfirmatorischen Datenanalyse (CDA) gegenüber. Typischerweise finden sich Verfahren der CDA im ersten Teil umfangreicher Werke und Verfahren der EDA im zweiten. Hypothesengeleitete Verfahren lassen sich nämlich, wie schon ausführlich dargestellt, glatt in die deduktive Sicht der Dinge einordnen. Beginnend mit den Begriffen, Konzepten und Theoremen der Wahrscheinlichkeitstheorie kommt man zwanglos auf Anwendungen wie Tests und Schätzaufgaben zu sprechen, deren Lösung in einem eleganten mathematischen Rahmen abgehandelt werden kann. Dann kommt es zum Bruch. Plötzlich drängen sich die Daten in den Vordergrund. Bislang völlig passiv, lediglich geeignete Zahlenwerte zur Illustration hübscher Verfahren, wünschen Daten aus irgendwelchen, oft zweifelhaften Quellen, analysiert und interpretiert zu werden. Mathematische Voraussetzungen und erst recht strenge Herleitungen treten zusehends in den Hintergrund, während sich die ganz Breite induktiv begründeter Methoden, selbst ausgesprochen heuristischer Überlegungen, Bahn bricht. Nachdem die in der Praxis wichtigsten Methoden besprochen und häufig sehr anschaulich gemacht wurden, ist so mancher Autor froh, die Büchse der Pandorra zu schließen bzw. abzufeuern, indem er den Leser auf die nahezu unüberschaubare Literatur statistischer Verfahren und die ausuferenden Pull-Down-Menus moderner Software verweist. Viele Personen machen eine ähnliche Wandlung durch. Je nach Etage (siehe S. 356f) verhalten sie sich wie strenge Methodiker oder hemdsärmelige Praktiker. Schlimmstenfalls verbinden sie bei ihren eigenen Untersuchungen den Dünkel des halb gebildeten Theoretikers mit dem “anything goes” des 28
Rothman et al. (2008: Kapitel 1) zeigt überdeutlich, dass die Emphase der deduktiven Schule noch nicht überwunden ist. Ein Schlaglicht auf die Soziologie bietet Gorski (2004). Insbesondere schreibt er (S. 29): “Given that deductivism is such a poor description of how social science actually works, it is itself a bit of a puzzle how its influence could have waxed so great in the first place. The principal reason is perhaps suggested by Stephen J. Gould’s remark that the ‘soft sciences’ have at least one thing in common: a bad case of physics envy. Physics, with its formidable powers of prediction and control, still represents the ideal toward which many researchers in other sciences aspire. Like other social scientists, sociologists have long sought to replicate the successes of physics by appropriating its methods, as interpreted by philosophers of science. So far, this strategy does not appear to have worked.” (Siehe auch S. 290.)
5.1 Forschungsstrategien III (Kombination)
363
unkritischen Anwenders. Oft verliert sich im Laufe der Zeit der theoretische Ballast und sie lernen, nahe an den substanziellen Wissenschaften, Daten zu würdigen. Zuweilen überwiegen die prinzipiellen Zweifel, und jemand wird zum gefürchteten Verteidiger der reinen Lehre. Nur in glücklichen Fällen kommt es auch innerhalb der Person zu einer organischen Synthese beider Gesichtspunkte. Kurz gesagt: Während in Schriften und Vorträgen die deduktive Seite der Erkenntnis zumeist ausführlich gewürdigt wird, wird die induktive Seite häufig sträflich vernachlässigt. Allenfalls findet man eine ausgewogene Behandlung, weit häufiger aber ein Übergewicht der deduktiven Seite. Doch die Praxis, zumindest in den „weichen Wissenschaften“ spricht zugleich eine ganz andere Sprache: Die am häufigsten benutzten statistischen Verfahren haben einen dezidiert induktiven Flair. Sie sind nur zuweilen gleichermaßen induktiv wie deduktiv und höchst selten rein deduktiv. Eine kleine Aufstellung soll dies veranschaulichen:29 Problem bzw. Verfahren Testen
Verwendung bzw. Vorgehensweise deduktiv induktiv Hypothesentests nach Signifikanztests nach Fisher, Neyman und Pearson p-Werte, Metaanalyse Varianzanalyse Versuchspläne ergänzt um Post-hoc-Tests Faktorenanalyse konfirmatorische explorative Klassifikation Clusteranalyse zur Entdeckung von Gruppen Diskriminanzanalyse zur Entdeckung von diskriminierenden Faktoren Zusammenhänge Prüfung von Korrelations-, RegressionsZusammenhangsanalyse und hypothesen Assoziationsregeln Dimensionsreduktion Multidimensionale Skalierung Selbstverständlich könnten die meisten Verfahren, wie etwa die Regressionsanalyse, deduktiv (hypothesenprüfend) wie induktiv (hypothesengenerierend) eingesetzt werden. Box et al. (2005: 509) weisen zum Beispiel ausdrücklich auf die Unterschiede hin, und betonen den Vorteil des hypothesenprüfenden Ansatzes. De facto ist das jedoch nicht der Fall. Selbst dezidiert „deduktiv“ - nämlich im Rahmen statistischer Experimente - eingeführte Verfahren wie die Varianzanalyse werden in der Praxis vor allem induktiv, nämlich zur Aufdeckung von Strukturen, verwendet. Dasselbe gilt für die allgemeine Methodik: Daten werden mehr oder minder systematisch gesammelt und a posteriori u.a. mit den oben genannten Verfahren analysiert. Lediglich in einer zunehmend isolierten Fachliteratur stehen deduktive Herleitungen und mathematische Beweise im Vordergrund, wesentliche Fort29
Viele weitere Beispiele finden sich in Tukey (1973b) sowie Mallows und Tukey (1982).
364
5 Synthese
schritte werden jedoch,30 wie nicht nur die Geschichte der Statistik lehrt, auf induktivem Weg erzielt. Es ist kein Zufall, dass die Praxis statistische Standardverfahren benutzt, die in der Zeit ihres größten Anwendungsbezugs (vor 1960) aufkamen. Sie werden ergänzt um moderne Methoden, die in den letzten Jahrzehnten häufig außerhalb der traditionellen Statistik entwickelt wurden. In den letzten Jahren trifft man auch zunehmend auf umfangreiche Simulationen und aufwändige graphische Darstellungen. Vieles hiervon lässt sich unter dem weiten Stichwort Modellierung zusammenfassen (die ebenfalls, wie wir in Abschnitt 4.5.2 gezeigt haben, vorwiegend induktiv getrieben ist). Auch die hauptsächlichen Nutzer statistischer Methoden, also Sozial- und Wirtschaftswissenschaften sowie die Medizin, folgen dem schon vor Jahrhunderten von den Naturwissenschaften eingeschlagenen induktiven Pfad. Sie benötigen Statistik, weil in diesen Feldern zahlreiche Quellen der Variation existieren,31 die sich nicht ignorieren lassen, sondern explizit bei Modellierungen aller Art berücksichtigt werden müssen. Hierzu sind deterministische Modelle nicht in der Lage, wohl aber die Statistik mit ihrem probabilistischen Kern. Neben dieser durchgängig quantitativ-wahrscheinlichkeitstheoretischen Methodik ist es vor allem der enge Kontakt zur Realität im Allgemeinen und neuen Problemfeldern im besonderen, welche sie, wie auch die angewandte Statistik, am meisten vorangebracht haben. Dies betonte nicht nur Fisher Zeit seines Lebens,32 auch Tukey (1954: 77) schrieb schon vor über 50 Jahren: Difficulties in identifying problems have delayed statistics far more than difficulties in solving problems.
5.1.3 Kombination beider Perspektiven Wirklich erfolgreiche Statistik bestand immer schon aus einer Mischung beider Perspektiven. Eine typische statistische Argumentation kombiniert induktive wie deduktive Elemente. Dies gilt nicht erst für spezifische Modelle (siehe insbesondere Abschnitt 4.5.1), sondern schon für ganz einfache Statistiken. 1. Warum sollte man das arithmetische Mittel x ¯ benutzen? Was zeichnet diesen Mittelwert vor allen anderen aus? Lehmann und Casella (1997: 3) motivieren dies wie folgt: “The following are two properties of the mean, which were used in early2attempts to2 justify this procedure.” Zum einen ist (xi −μ)2 = (xi − x ¯) +n(¯ x −μ) . Der rechte Ausdruck ist genau dann minimal, wenn x ¯ = μ ist. Will man also den Mittelwert μ so wählen, dass sein Abstand von den Messwerten xi im Sinne von (xi −μ)2 so klein wie 30 31
Zumindest eine Zeitlang, dazu mehr in Abschnitt 6.1.2
Siehe z. B. Cox (1995: 208ff), Mosteller und Tukey (1986: 641), Tukey (1986b: 290ff) und S. 249. 32 Siehe z. B. Box (1976)
5.1 Forschungsstrategien III (Kombination)
365
möglich wird, so ist μ = x ¯= xi /n die beste Wahl. Zum zweiten könnte man auf die Idee kommen, die Residuen xi − μ auszubalancieren, also (xi − μ) = 0 zu fordern. Auch aus dieser plausiblen Forderung ergibt sich sofort, dass μ = x ¯ das Gewünschte leistet, da (xi − x ¯) = xi − n¯ x =0. Die vorstehende Diskussion ist induktiv, sie motiviert lediglich zur Benutzung des arithmetischen Mittels. Mit den Worten von Lehmann und Casella (ibd.): “These two principles clearly belong to the first (data analytic) level [. . .] They derive the mean as a reasonable descriptive measure of the center of the observations, but they cannot justify x ¯ as an estimate of the true value θ since no explicit assumption has been made connecting the observations xi with θ.” 2. Dem stellen die Autoren den formalen, deduktiven Ansatz gegenüber. Sie fahren fort: “To establish such a connection, let us now assume that the xi are the observed values of n independent random variables which have a common distribution depending on θ[. . .] More specifically, we shall assume that Xi = θ + Ui , where the measurement error Ui is distributed according to a distribution F symmetric about 0 so that the Xi are symmetrically distributed about θ with distribution P (x ≤ xi ) = F (x − θ).” Unter diesen Voraussetzungen lässt sich nun beweisen, wann “the mean provides a more precise value than a single observation.” Besitzt die Verteilung der Xi nämlich eine endliche Varianz σ 2 , so ist die Varianz der ¯ gerade σ 2 /n, was schnell gegen 0 konvergiert. Dies ist Verteilung von X jedoch nicht der Fall, wenn σ 2 unendlich ist - dann bringt es kurz gesagt nichts, zu mitteln. Man erkennt an diesem Beispiel den Vorteil der Deduktion. Ein Verfahren lässt sich nicht nur motivieren oder plausibilisieren. Durch die mathematische Fassung des Problems können Sachverhalte bewiesen und insbesondere exakte Bedingungen angegeben werden, wann sich ein Verfahren wie gewünscht verhält und wann es versagt. Für einen mathematischen Statistiker zeigt dies die deutliche Überlegenheit formaler Modelle und deduktiver Herleitungen. Man ist nicht auf empirische Evidenz oder Computersimulationen angewiesen, die in vielen konkreten Fällen zeigen mögen, dass die Ergebnisse so sind wie erhofft. Durch den mathematischen Beweis wird ein für allemal und völlig unzweifelhaft klar gestellt, was wann passiert. Das ist jedoch nur ein Teil der Wahrheit. Bei einer feststehenden Formalisierung gibt es tatsächlich nur eine Lösung des Problems, und auch im Fall einer nichteindeutigen Lösung wüsste man (sofern man einen Beweis findet), wie viele Lösungen existieren und welche Eigenschaften diese haben. Die vermeintlich endgültige Lösung des Problems ist damit jedoch nicht gefunden. Es gibt nämlich nahezu immer mehrere Möglichkeiten, ein und dieselbe Fragestellung sinnvoll zu formalisieren. Im obigen Beispiel könnte man etwa auf die Idee kommen, dass |xi −a| ein geeigneteres Abstandsmaß sei. Diese Setzung führt auf den Median als optimalen Mittelwert, und nicht nur Tukey (1986e:
366
5 Synthese
Kapitel 2) diskutiert das Für und Wider. Lehmann und Casella (1997: 52, 484) führen noch allgemeinere Abstandsfunktionen33 ein und zeigen, welche Schätzer hierzu jeweils optimal sind. Ihre Begründung ist ein Musterbeispiel für eine Mischung mathematischer und empirischer Argumente (ibd., S. 52f, Hervorhebungen von mir): Convex loss functions have been seen to lead to a number of simplifications of estimation problems. One may wonder, however, whether such loss functions are likely to be realistic [. . .] One may argue that all such losses are bounded, [however], no nonconstant bounded function can be convex [. . .] The most slowly growing even convex loss function is absolute error [. . .] Fast growing loss functions lead to estimators that tend to be sensitive to the assumptions made on this tail behavior, and these assumptions are typically based on little information and thus are not very reliable. It turns out that the estimators produced by square error loss often are uncomfortably sensitive in this respect. On the other hand, absolute error appears to go too far in leading to estimators which discard all but the central observations.
Auf diesem intuitiven Weg gelangen die Autoren schließlich zu Klassen von Abstandsfunktionen, die in einem mathematisch exakten Sinn „zwischen“ der Betrags- und der quadratischen Funktion angesiedelt sind. Gleichwohl schreiben sie (S. 2): “Throughout the book we shall try to specify what is meant by a ‘best’ statistical procedure [. . .] Ideally, this would involve a formal decisiontheoretic evaluation of the problem resulting in an optimal procedure.” Zwar ist es befriedigend, wenn man zu einem vorgegebenen Kriterium hier einer Abstandsfunktion - ein Optimierungsproblem eindeutig lösen kann, doch ist es in der Praxis weit wichtiger zu wissen, welche Abstandsfunktion wann am geeignetsten ist. Das arithmetische Mittel x ¯ reagiert z. B. sehr empfindlich auf Ausreißer, so dass es sinnvoll ist, getrimmte, Winsorisierte oder Hodges-Lehmann-Mittel zu benutzen, die extremere Beobachtungen weniger stark gewichten.34 Doch sofort stellt sich die nächste Frage: Was ist die beste Gewichtung? Soll man die kleinste und die größte Beobachtung einfach ganz weglassen oder sie irgendwie berücksichtigen. Wie steht es mit weniger extremen Beobachtungen usw. Der Punkt ist, dass man die Sicherheit der Mathematik zwar gewinnt, gleichzeitig das Problem aber auch einschränkt. Man kann nicht beides zugleich haben: Induktive Offenheit und damit auch Weite sowie deduktive Abgeschlossenheit und damit auch Str(enge). Blickt man nun nur auf die mathematischen Aspekte, so entwickelt man vorwiegend unter innermathematischen Aspekten eine glatte Theorie (was auch geschehen ist), an den wirklichen Problemen der Praxis geht man so jedoch schnell vorbei. Und was nützt es mir zu beweisen, dass das arithmetische Mittel in einer speziellen Situation optimal ist, wenn beliebig viele andere Kriterien zur Verfügung stehen, unter denen ein jeweils anderer Mittelwert dieselbe Eigenschaft hat? Der vermeintliche Vorzug des arithmetischen Mittels, der einzige, bestmögliche Schätzer zu sein, verflüchtigt sich so; zumal die Praxis zeigt, dass man 33
Engl.: loss functions
34
Siehe Krengel (1988: 165) für weitere Details.
5.1 Forschungsstrategien III (Kombination)
367
eigentlich zu jedem intuitiv einleuchtenden Schätzer ein passendes und zumeist gut motivierbares Kriterium angeben kann, unter dem genau er optimal ist.
Mathematisch-objektiv und doch ad hoc und praxisfern Ein guter Teil der klassischen Theorie hat diesen Nachteil. Allenfalls stehen Ad-hoc-Rechtfertigungen zu Verfügung, weshalb ein gewähltes Kriterium sinnvoller ist als andere. Damit verbrämt man jedoch zumeist nur die Tatsache, dass das Kriterium, bezüglich dessen optimiert wird, letztlich so gewählt wird, dass die mathematische Theorie funktioniert. Das macht Cornfield (1966: 21) mit Blick auf die Neyman-Pearsonsche Theorie des Testens ganz deutlich: One might ask why to minimize a linear rather than some other function of the errors [. . .] It is clear that the entire basis for sequential analysis depends upon nothing more profound than a preference for minimizing β for given α rather than minimizing their linear combination. Rarely has so mighty a structure and one so surprising to scientific common sense, rested on so frail a distinction and so delicate a preference.
Beim Schätzen35 ist es ganz ähnlich. Typischerweise hebt man zunächst auf die Erwartungstreue von Schätzern ab. Das heißt, der Erwartungswert des Schätzers T = g(X1 , . . . , Xn ) sollte gerade gleich dem zu schätzenden Parameter μ sein, also E(T ) = E(g(X1 , . . . , Xn )) = μ bzw. Bias(T ) = E(T )−μ = 0 und sucht dann in der Klasse aller erwartungstreuen Schätzer jenen mit der kleinsten Varianz. Dieser wird als minimum variance unbiased estimator (MVUE) bezeichnet. Statt diesem zweistufigen Verfahren36 ist es natürlich auch sinnvoll, die Abweichung des Schätzers von dem zu schätzenden Wert und seine Varianz simultan zu optimieren. Dies führt auf die Minimierung eines Ausdrucks, in aller Regel der erwarteten (mittleren) quadratischen Abweichung37 MSE = E([T − μ]2 ) = σ 2 (T ) + Bias2 (T ) = σ 2 (T ) + (E(T ) − μ)2 Der Term gibt an, mit welchen Abweichungen zwischen Schätzfunktion T und dem wahren Wert μ zu rechnen ist - dabei werden sowohl die unsystematische Streuung der Schätzstatistik als auch deren systematische Verzerrung (Bias) berücksichtigt. Andere Wortwahl: σ 2 (T ) ist ein Maß für die Reliabilität (Präzision) des Schätzers, d.h., wie stark streut der Schätzer für sich alleine betrachtet. Der Bias ist hingegen ist ein Maß für seine Validität, d.h. wie präzise trifft der Schätzer das, was er messen soll. Womöglich ist die Neyman-Pearson-Theorie gerade deswegen so beliebt, weil sie die im 35
Siehe S. 127ff
36
Das auch beim Testen verwendet wird: Fixiere zunächst α, minimiere dann β.
37
Engl.: mean squared error
368
5 Synthese
Allgemeinen schwer zu fassende, aber entscheidend wichtige Validität und Reliabilität einer Untersuchung auf diese simple Art und Weise statistisch operationalisiert. (Siehe S. 162ff.) Welche Vorgehensweise ist besser? Zwar dominieren zur Zeit in der Nachfolge von Neyman und Pearson die mehrstufigen Verfahren das Bild, doch geben Jaynes (2003: Abschnitt 17.2) sowie Cornfield (1966) und Royall (1997) starke Argumente gegen die zweistufige Vorgehensweise. Während Jaynes vor allem auf den damit einhergehenden Informationsverlust hinweist, betont Royall (insbesondere in Kapitel 4) dass die Neyman-Pearson-Theorie nicht dafür gemacht ist, Daten als Evidenz zu interpretieren. Messtheoretisch gesehen könnte man noch einwenden, dass ein fixierter Wert μ einer Absolutskala entspricht, was zumeist eine reichlich unrealistische Annahme ist (siehe aber S. 166). Kritik am Kriterium der Erwartungstreue ist sogar noch viel älter. Optimale erwartungstreue Schätzer bleiben bei einer nichtlinearen Transformation der Parameter weder erwartungstreu noch optimal. Schon R. A. Fisher (1973: 146) stellt fest:38 “This consideration would have eliminated such criteria as the estimate should be ‘unbiased’, meaning that the average value of the estimate should be equal to the true estimand; for if this were true of any parameter, it could not also be true of, for example, its square.” 39 Basus einst berühmte Zirkuselefanten40 zeigen schwergewichtig, dass das Standard-Kriterium der Erwartungstreue - verbunden mit reinen PrioriBetrachtungen - sogar völlig unsinnig sein kann:41 Ein Zirkusbesitzer möchte seine fünfzigköpfige Elefantenherde verschiffen, schreckt aus verständlichen Gründen jedoch davor zurück, alle 50 Tiere wiegen zu lassen. Also wählt er einen Elefanten namens Sambo aus, der vor einigen Jahren ein mittleres Gewicht besaß und bis heute ein „durchschnittlicher“ Elefant in der Herde geblieben ist. Der naheliegende Schätzer für das Gewicht der Herde ist das jetzige Gewicht von Sambo mal 50. Folgt man der klassischen Theorie, so muss man jedoch eine Stichprobe aus der Elefantenherde ziehen und der beste erwartungstreue Schätzer liefert zuweilen höchst unsinnige Resultate, nämlich mit Wahrscheinlichkeit 1/100 gerade 4900 mal das Gewicht von Jumbo, dem schwersten Elefanten der Herde! Tukey (1960a: 110) beurteilt solche Vorgehensweisen: “We have often been guided by a purer-than-thou philosophy of ‘unbiased estimation of something, whether or not it be what we really want to estimate!’ A biased estimate of what we really want to estimate can be more useful [. . .] than an unbiased estimate of something we don’t want.” Es beschleicht einen das Gefühl, dass die Neyman-Pearson-Theorie oft eine präzise, im Kern jedoch irrelevante 38
Siehe auch Bennett (1990: 58), wo er zudem auf (Fisher 1922) verweist. Das Kriterium der Erwartungstreue ist also nur sinnvoll, wenn man sich konsequent auf lineare Transformationen beschränkt, was messtheoretisch gesehen einer Intervallskala entspricht. 39
40
Siehe Basu (1971: 211ff)
41
Siehe auch Jaynes (2003: Abschnitt 17.3).
5.1 Forschungsstrategien III (Kombination)
369
Antwort liefert, und die Anspielung von Tukey (1986b: 201) liegt einem auf der Zunge: „The second badmandment [. . .]: “Be exactly wrong rather than approximately right.” Nicht nur die Neyman-Pearsonschen Konstruktionen leiden unter ihrer Enge, hängen also stark von speziellen Setzungen und Strukturen ab.42 Etwa führt der Klassiker von Rao (2001) die Linearität bereits im Titel. Basu (1969: 160) beendet seinen Beitrag mit den Worten: “[. . .] the principles of sufficiency and invariance are extremely sensitive to changes in model. For example, the spectacular data reductions we have achieved [. . .] become totally unavailable if the basic normality assumption is changed ever so slightly.” Fishers begriffliches Inventarium ist zwar weniger eingeschränkt, trägt jedoch auch nicht wirklich weit (siehe insbesondere (Ghosh 1988) sowie (Ghosh und Pathak 1992)). Insbesondere nutzt auch er intensiv lineare und andere spezielle funktionale Zusammenhänge, die Normalverteilung und weitere, eng mit dieser zusammenhängende Verteilungen. Wie man auch immer formalisiert: Es ist gut, jegliche mathematische Herleitung immer als eine Studie am grünen Tisch aufzufassen. In der mathematischen „Laborumgebung“, kann man Voraussetzungen fixieren, also kontrollierte Bedingungen schaffen, und dann studieren, was in einer solchen Situation optimal ist. Mit Stolz wird z. B. die theoretische Statistik verkünden, dass es für alle erwartungstreuen Schätzer eine untere Grenze der Varianz gibt, die nicht unterschritten werden kann. Ein solch allgemeines Ergebnis ist viel Wert, kann man doch nun alle erwartungstreuen Schätzer an dieser Schranke (die nach Cramér und Rao benannt ist) messen. Man geht im Prinzip sogar immer nach diesem Muster vor: Eine empirische Fragestellung oder die bisherige Theorie motivieren zum Studium einer mathematisch definierten speziellen Situation. Die so fixierte Fragestellung hat oft eine eindeutige Antwort: Ein bestmöglicher Schätzer, das kürzest mögliche Konfidenzintervall, ein Test mit der größten Power usw. Immerzu löst man Optimierungsaufgaben und erhält bei Erfolg die zu empfehlende, weil unter den betrachteten Bedingungen bestmögliche Lösung. Diese unablässige Suche nach dem Optimum ist nicht nur für Tukey ein Symptom der vorwiegend mathematischen Behandlung eines Problems. In Tukey (1986b) widmet er unter dem Titel “the tyranny of the best” ein ganzes Kapitel diesem Problem.43 Insbesondere werden Lehrbücher durch diese Art der Problembehandlung leicht zu Kochbüchern: Sammlungen von Rezepten, die man in einem speziellen Fall konsultiert, um das hierfür optimale Verfahren nachzuschlagen und anzuwenden. Angesichts der immensen Anzahl möglicher Randbedingungen (insbesondere Verteilungsannahmen und wechselseitige Abhängigkeiten), ist es nicht schwer, sich eine voluminöse Literatur vorzustellen, die möglichst vielen Fällen gerecht wird, und betritt man eine 42 43
Welche noch dazu oftmals, wie gerade gezeigt, ziemlich willkürlich sind. Siehe auch Tukey (1962: 399ff)
370
5 Synthese
einschlägige Bibliothek, so wird man von der Fülle der dadurch definierten Teilgebiete samt der zugehörigen Verfahren überwältigt sein. Jedoch: Ultimately, no matter how we settle the notion of ‘best’, the benefit of a selection rule44 is derived from the insights that it provides into real problems. (Hansen und Yu 2001: 758)
Man sollte also nie vergessen, dass auch die umfangreichsten Laborstudien nie Erfahrungen im Freiland ersetzen können. Wie in vielen anderen Wissenschaften bestehen diese auch in der Statistik mittlerweile aus zwei Teilen. Zum einen der Simulation: Was passiert, wenn Voraussetzung abgeschwächt, modifiziert und insbesondere auch verletzt werden. Verhält sich das jeweilige Verfahren dann noch zuverlässig oder genügt schon eine kleine Abweichung von den (idealen) mathematischen Bedingungen um zu qualitativ falschen Schlussfolgerungen zu kommen? Genau diesen Punkt hatten wir unter dem Stichwort robuste Verfahren mehrfach angesprochen.45 Zum zweiten gilt es die Verfahren in echten Praxissituationen zu erproben. Letztlich entscheidet sich hier wie bei anderen Technologien, was sich bewährt und was nicht. Auch die besten Vorschusslorbeeren welken schnell dahin: Such theoretical writing must at present be regarded as of a purely academic character, unless and until the methods proposed are found, by objective tests, to be appropriate to real bodies of data. (Fisher 1936a: 87)
Andererseits wird sich jede Methode behaupten, die hier Erfolg hat - egal was die Theoretiker sagen. (Siehe auch schon Abschnitt 4.6.1.) Es kommt auf die richtige Mischung von mathematischem Labor, numerischer Simulation und Praxiserfahrung an. Idealerweise greifen alle ineinander und die Grenzen bzw. Defizite des einen Bereichs werden von einem der anderen beiden kompensiert. Schlecht ist auch hier wieder die Einseitigkeit: Blutleere Idealisierungen sind charakteristisch für reine Mathematik mit zu wenig Praxisbezug, Computersimulationen ohne theoretischen oder praktischen Halt führen häufig zu genauso komplexen wie unbegreiflichen Modellen, und praxisnahes Data Mining ohne weiter reichende Ideen gleicht folgerichtig dem sprichwörtlichen Stochern im Nebel.
5.1.4 Adaptive Verfahren Bislang haben wir beide Erkenntnisrichtungen nebeneinandergestellt und betont, wie wichtige es ist, sie sinnvoll zu kombinieren um voranzukommen. Es wäre nun außerordentlich wünschenswert, könnte man die Perspektiven in einem einzelnen Verfahren auf natürliche Weise kombinieren. Gesucht sind also 44 45
Oder jeglichen anderen Verfahrens
Siehe insbesondere die Seiten 75, 256, 287, 298 und 336, für eine abschließende Bewertung siehe auch S. 535.
5.1 Forschungsstrategien III (Kombination)
371
Methoden, die aufgrund ihrer Konstruktion sowohl deduktiv als auch induktiv sind, und damit bestenfalls die Vorzüge beider „Welten“ in sich vereinen. Genau dies leisten die sehr beliebten adaptiven Verfahren. Ihre Grundidee ist ganz einfach. Anstatt den Daten nur eine randständige, passive Rolle in einem zuvor festgelegten Getriebe zuzuweisen, bestimmen die Daten über die Struktur mit.46 Oder anders herum: Anstatt wie beim anderen Extrem auf eine Struktur a priori ganz zu verzichten und aus den Daten heraus Muster zu erzeugen, kann man sich von vorneherein auf eine gewisse Klasse in Betracht gezogener Modelle beschränken und benötigt dann konkrete Daten um ein Modell auszuwählen bzw. um die Realitätsnähe der Modelle zu bewerten. Man erkennt sofort, dass es sich hierbei um ein Kontinuum handelt. Das eine Extrem sind klassische Hypothesentests, wenn alles festliegt und die Daten gerade einmal „ ja“ oder „nein“ sagen dürfen.47 Am anderen Ende des Spektrums befinden sich beliebige Datensammlungen, und es ist völlig offen, ob bzw. welche Strukturen sich möglicherweise in ihnen verbergen. Das eine Mal sind die Daten in einen feststehenden Rahmen eingebettet, ja einzementiert. Das andere Mal gibt es den Rahmen überhaupt nicht, so dass fast uneingeschränkt nach Mustern gesucht wird: “However, the only guide for data analysis is still the intuition that comes from experience.” (Ellis 1993). Dazwischen liegt die Praxis.
Bedingte und adaptive Tests Beim Testen liegt der Rahmen letztlich durch die in Betracht gezogenen Hypothesen ziemlich fest. Es gibt jedoch Unterschiede. Schon Signifikanztests erlauben den Daten mehr, als nur dichotom zu antworten. Der p-Wert ist ein Versuch, Evidenz zu quantifizieren, wobei aber auch hier typischerweise die Testsituation völlig festliegt. Noch weiter geht Fishers Idee bedingter Tests. D.h., je nach konkreter Datenlage wird ein etwas anderer Test gerechnet. Am berühmtesten ist der Vierfeldertest:48 B1 B2 Summe A1 a b n1 A2 c d n2 Summe m1 m2 n 46
Auch bei sogenannten evolutionären Algorithmen beeinflussen die Daten die Struktur ihrer eigenen Verarbeitung. Das heißt, selbst in der Informatik erweitert man das grundlegende Konzept des Programmes, welches ein für allemal (a priori) festliegt. Für eine nochmals erheblich weitere Perspektive - nämlich “behavior-based intelligence”, also das am Umfeld orientierte, adaptive Verhalten „intelligenter“ Maschinen siehe den Klassiker Brooks (1991). 47 Bzw. „nein“ und “nicht nein“ 48
Siehe z. B. Yates (1984). Bei mehr als zwei Merkmalsausprägungen spricht man allgemein von Kontingenztafeln.
372
5 Synthese
Man beobachtet a Einheiten mit der Merkmalskombination A1 , B1 ; b Einheiten mit der Merkmalskombination A1 , B2 usw. Daraus berechnet man typischerweise die Randsummen, also n1 und n2 sowie m1 und m2 . Mit zwei Stichproben desselben Umfangs n = 20 könnte sich z. B. ergeben: I jung alt Summe
groß klein Summe 4 5 9 7 4 11 11 9 20
II jung alt Summe
groß klein Summe 8 4 12 2 6 8 10 10 20
Fragt man sich nun zum Beispiel, ob der Anteil von B1 in der ersten Zeile kleiner ist als in der zweiten, ob also a/n1 < c/n2 gilt, so hat man das Problem, dass bei einer festen Anzahl von Beobachtungen n die Zeilenund Spaltensummen mit der Anzahl der Beobachtungen in den Zellen (also a, b, c und d) variieren. Das verkompliziert die Analyse erheblich. Die geniale Vereinfachung von Fisher war, zu argumentieren, dass die Randsummen n1 und n2 praktisch keine Information über das Problem enthalten. Yates (1984: 433) schreibt: [. . .] It seems to me obvious, as it did to Fisher, that the margins of a 2 × 2 table, however generated, provide virtually no information on the existence of association. In samples from two binomials, for example, absence of association implies that p1 = p2 .49
Variablen, die keine relevante Information bzgl. eines Problems enthalten, nannte Fisher randständig50 und er empfiehlt, diese bei der Schlussfolgerung nicht oder aber nur als Hilfsstatistiken (in Kombination mit den die eigentlichen Informationen tragenden Variablen) zu berücksichtigen. Dies läuft nicht nur wie im obigen Beispiel häufig auf Bedingen hinaus: “In other words, we must condition on the margins, whatever the origin of the table. Whether no, one ore two margins are ‘fixed’ in advance is irrelevant.” Dazu ist einiges zu sagen: 1. Wie viele plausible Argumente Fishers ist auch dieses bis heute umstritten. Für eine Auswahl kritischer Kommentare siehe Yates (1984) und Camilli (1990). In der Diskussion von Kalbfleisch und Sprott (1976: 271) heißt es: “Kalbfleisch: [. . .] the marginal totals usually contain very little information relevant to the question of independence. Lindley: But in a very small contingency table they contain all the information.” (Hervorhebungen im Original.) Eine Hauptrichtung der Kritik ist, dass es sich um eine eher heuristische, nicht verallgemeinerbare Ad-hoc-Problemlösung 49
Falls die Merkmale B (Größe) und A (Alter) nicht zusammenhängen, so sollte, kurz gesagt, der Anteil der Großen in jeder der beiden Gruppen (Junge bzw. Alte) etwa gleich sein. Daraus folgert er ibd., dass “if n1 = n2 , differences between p1 and p2 of a given magnitude but opposite signs occur with equal frequency.” Im Fall n1 = n2 gilt dies zwar nicht, “but the mean value of p1 − p2 for given m1 , m2 is still zero.” 50
Engl. ancillary, siehe z. B. Barnett (1999: 186f)
5.1 Forschungsstrategien III (Kombination)
373
der spezifischen 4-Felder-Situation handelt. Für eine elegante, theoriegeleitete Lösung siehe Bryant und Cordero-Braña (2000: 461f). 2. Die Technik des Bedingens ist genauso gebräuchlich wie schwer allgemein zu rechtfertigen. Zuweilen scheint es angebracht zu sein, sich auf gewisse Möglichkeiten einzuschränken, zuweilen nicht. Wir waren darauf schon in Abschnitt 4.7.4 gestoßen. Im Zusammenhang mit der Synthese von Bayesscher und frequentistischer Statistik (siehe Abschnitt 5.3.2ff) behandeln wir das Problem nochmals ausführlicher. 3. Schon Fisher (1925) war bekannt, dass Hilfsstatistiken bzgl. derer gerne bedingt wird, nicht so irrelevant sind, wie es zunächst den Anschein haben könnte. Im Zusammenhang mit anderen Statistiken können sie nämlich wertvolle Informationen liefern. Selbst nach über 80 Jahren ist die Situation nicht wirklich geklärt, siehe z. B. Fraser (2004), Casella und Berger (2002: 308) sowie Lehmann und Scholz (1992). Für unsere aktuelle Diskussion ist es wichtig, festzuhalten, dass die Rohdaten (über die aus ihnen hervorgehenden Zeilen- bzw. Spaltensummen) einen größeren Anteil an der Gestaltung der Situation, und damit an ihrer eigenen Auswertung haben, als zuvor. „Während robuste Tests - grob gesprochen - als unempfindlich gegenüber Abweichungen von dem im Modell postulierten Annahmen gekennzeichnet sind, werden adaptive Tests im Sinne einer Anpassung an vorliegende Daten erklärt: Es soll derjenige Test ausgewählt werden, der im Hinblick auf die gegebene Datensituation der geeignetste ist.“ (Büning 1991: v). Typischerweise sind solche Tests zweistufig. Büning fährt (S. 2f) fort: Datenanalyse und Entscheidung für einen bestimmten Test auf der 1. Stufe und die eigentliche Testprozedur auf der 2. Stufe. Die auf der 1. Stufe gewonnenen Informationen beziehen sich auf die (unbekannte) Gestalt der Verteilungsfunktion F , so auf die Stärke der tails oder der Asymmetrie [. . .] So werden häufig auf der 1. Stufe die Originaldaten geeignet transformiert, um dann auf der 2. Stufe einen Test anwenden zu können, der auf der Normalverteilung basiert. Eine andere Vorgehensweise in der Praxis ist es, die für die Anwendung eines bestimmten parametrischen Verfahrens unterstellte Verteilung vorab mit Hilfe eines Anpassungstests zu überprüfen, um dann bei Annahme dieses Verteilungsmodells den parametrischen Test durchzuführen.51
Schon beim klassischen t-Test benutzt man ein zweistufiges Verfahren. Um die Größe der Differenz zweier Mittelwerte d = x ¯1 − x ¯2 bewerten zu können, benötigt man die Streuung derselben. Jene wurde vor Gosset (1908) als bekannt angenommen. Dessen große Leistung bestand nun darin, aus den Daten zunächst die Varianz zu schätzen und dann die Verteilung von D = ¯1 − X ¯ 2 anzugeben. Ein solcher Test ist natürlich weit realitätsnäher als das X klassische, nach Gauß benannte Verfahren. Zu Ehren Gossets, der auch unter dem Pseudonym „Student“ publizieren musste, heißt er t-Test. 51
Es sollte den Leser nicht verwundern, dass nicht nur bei Büning sofort nach Einführung dieser weitreichenden Ideen das Problem der Kontrolle des Signifikanzniveaus bzw. dessen mögliche Inflation diskutiert wird.
374
5 Synthese
Adaptives Schätzen Im Allgemeinen lassen adaptive Verfahren zu, dass die Daten einen mehr oder minder großen Einfluss auf den Kontext nehmen, in welchem sie ausgewertet werden. Da jeder (sinnvolle) Schätzer von den Beobachtungen X1 = x1 , . . . , Xn = xn abhängt, typischerweise sogar als Funktion g(X1 , . . . , Xn ) bzw. g(x1 , . . . , xn ) aufgefasst wird, ist der Einfluss der Daten hier weit größer als beim Testen.52 Er wird jedoch begrenzt durch die a priori festgelegte Modellklasse PΘ (x). Im parametrischen Fall hat man es mit einer Reihe von (zumeist reellwertigen) Parametern θi zu tun und versucht diese „bestmöglich“ zu treffen. Das heißt, man schätzt den Vektor Θ = (θ1 , . . . , θk ) aller Parameter oder auch nur einen Teil von diesem. Die Daten bestimmen dabei weder über die Menge aller in Betracht gezogenen Parameterwerte, noch über die Form des Modells. Die Daten haben insbesondere keinen Einfluss darauf, welche Modellklasse überhaupt betrachtet wird. Eine traditionelle Art, Daten mehr Einfluss zu gewähren, sind nichtparametrische Verfahren. Bei diesen wird keine spezifische Klasse von Verteilungen oder Funktionen a priori festgelegt. Vielmehr nutzt man den Hauptsatz der Statistik, welcher garantiert, dass die empirische Verteilungsfunktion der Daten gegen die tatsächliche Verteilungsfunktion konvergiert. (Siehe Abschnitt 3.1.) Die Voraussetzungen sind hier erheblich weniger einschränkend als im parametrischen Fall.53 Einige der wichtigsten Schätzer sind nichtparametrisch und damit per Konstruktion stark datengetrieben. Der KaplanMeier-Schätzer, fast in jeder Analyse von Überlebenszeiten verwendet, zählt sogar wissenschaftsweit zu den am häufigsten zitierten Begriffen überhaupt. Spätestens seit dem Bootstrap hat sich auch der Begriff des Plug-in-Schätzers (siehe S. 144) durchgesetzt, das heißt, ein von der wahren aber unbekannten Verteilungsfunktion F abhängiger Wert t(F ), - oft ebenfalls einfach „Parameter“ der Verteilung genannt - wird durch t(Fˆn ) geschätzt, wobei Fˆn die empirische Verteilungsfunktion (S. 81) ist. Schon die empirische Verteilungsfunktion selbst ist ein gutes Beispiel, wie man rein datengetrieben zu einem allgemeinen Modell kommt. Denn bei ihr werden keinerlei Restriktionen benutzt, die a priori oder unabhängig von den Daten aufgestellt wurden. Die auf den ersten Blick kaum zu erkennende induktive Verallgemeinerung besteht (lediglich) darin, dass die zwischen zwei (geordneten) Beobachtungen xi < xi+1 liegenden Werte x, welche nicht beobachtet wurden, denselben Funktionswert zugeordnet bekommen wie xi .54 Das heißt, man macht auch eine Aussage über nicht beobachtete Werte. Dass dies nicht ganz trivial ist, erkennt man bei klassierten Daten. In jenem Fall 52
Zur Erinnerung: Die Zufallsvariable T = g(X1 , . . . , Xn ) ist der Schätzer - ebenfalls eine Zufallsvariable. Aufgrund der konkreten Beobachtungen x1 , . . . , xn berechnet man die Schätzung t = g(x1 , . . . , xn ), eine feste Zahl. 53 Z. B. Stetigkeit oder Forderungen an die Momente, wenn man Erwartungswert oder Varianz der unbekannten Verteilung schätzen will. 54 Man setzt also F ˆ (x) = Fˆ (xi ) für alle xi ≤ x < xi+1
5.1 Forschungsstrategien III (Kombination)
375
werden nämlich die Werte der Verteilungsfunktion linear interpoliert. Befindet sich x z. B. auf halbem Weg zwischen xi und xi+1 , so ist Fˆ (x) ebenfalls das arithmetische Mittel von Fˆ (xi ) und Fˆ (xi+1 ). Am Beispiel der Regression lässt sich zeigen, wie man den Einfluss der Daten stufenweise regulieren kann. Klassischerweise liegt das Modell, z. B. die lineare Funktion y = ax + b, fest, und mithilfe der Daten werden lediglich die Parameter a und b geschätzt.55 Häufig möchte man jedoch aus einer Reihe potenzieller Einflussfaktoren x(i) , etwa bei der multiplen linearen Regression y = a1 x(1) + . . . + ap x(p) , diejenigen ermitteln, welche tatsächlich wichtig sind. Man spricht von einer schrittweisen Regression, wenn man die fraglichen Merkmale sukzessive auswählt. Dabei kann man absteigend oder aufsteigend vorgehen; das heißt, entweder man startet mit allen vorhandenen Einflussfaktoren und schließt dann sukzessive die unwichtigeren aus, macht das Modell also Schritt für Schritt einfacher. Oder aber, man geht von wenigen Variablen aus und nimmt sukzessive weitere Variablen ins Modell auf, macht dieses also schrittweise komplizierter. Die Auswahl der Variablen erfolgt in aller Regel automatisch und zwar aufgrund der Ergebnisse einschlägiger statistischer Tests. Bringt zum Beispiel, grob gesagt, die Hinzunahme einer weiteren Variablen eine signifikante Verbesserung der Vorhersage, so wird man sie ins Modell aufnehmen bzw. eine Variable ausschließen, wenn deren Entfernen die Vorhersage nicht wesentlich verschlechtert (Mallows 1973). Da ein solches adaptives, also flexibles Vorgehen mit der traditionelldeduktiven Vorgehensweise nicht kompatibel ist, sollte es den Leser nicht verblüffen, dass sofort die orthodoxe Kritik auf dem Plan erscheint:56 “Critics regard the procedure as a paradigmatic example of data dredging [. . .]” und als spezifische Kritikpunkte werden genannt (meine Hervorhebungen): 1. Automatisierung ohne Bezug zur Semantik der Daten: “[. . .] intense computation often being inadequate substitute for subject area expertise.” 2. “A sequence of F-tests is often used to control the inclusion or exclusion of variables, but these are carried out on the same data and so there will be problems of multiple comparisons [. . .]” 3. “It is difficult to interpret the p-values associated with these tests, since each is conditional on the previous tests of inclusion and exclusion [. . .]” 4. “The tests themselves are biased, since they are based on the same data.”
Adaptive Modelle Dessen unbenommen überlassen moderne adaptive Vorgehensweisen den Daten darüber hinaus sogar die Modellauswahl. Etwa stehen bei Regressionsverfahren eine ganze Reihe von Funktionsklassen (lineare, quadratische, kubisch, . . ., Polynome höherer Ordnung; logistische, Potenz-, Exponentialfunktionen 55
Siehe Abschnitt 3.6.3.
56
Siehe Wikipedia (2008b)
376
5 Synthese
usw.) zur Verfügung. Legt man sich a priori nun z. B. auf die Klasse aller Polynome a0 + a1 x + a2 x2 + . . . + ak xk fest, so kann man den Daten auch die Auswahl eines geeigneten k überlassen. Anstatt sich also von vorneherein auf eine bestimmte Art der Regression (z. B. linear, also k = 1) zu beschränken, überlässt man es den Daten, über k, und damit auch die Komplexität des Modells, zu entscheiden. Die Anpassung des Modells an die Daten ist eine natürliche Erweiterung der Situation in der Testtheorie. Dort wird im einfachsten Fall eine allgemeine (feste) Hypothese mit einem gegebenen, speziellen Datensatz verglichen. Auch hier hat man es nur mit Daten einerseits und einem (flexiblen) Modell andererseits zu tun. Da beim Testen Daten und Hypothese fest sind, liegt es nahe, zu prüfen, ob beide zusammenpassen. Hier ist es hingegen natürlich, das zu den Daten am besten passende Modell zu suchen. Aufgrund von dessen Flexibilität, also seiner Anpassungs-Fähigkeit, ergibt sich jedoch sogleich ein prinzipielles Problem. Ein aufwändigeres, verfeinertes Modell passt fast immer besser zu den Daten als ein einfacheres, hat ersteres doch auch mehr Parameter, die adjustiert werden können. Nur in Ausnahmefällen wird ein schlichtes Modell die Daten nahezu genauso gut approximieren können wie ein komplexeres, etwa wenn die Datenpunkte allesamt fast exakt auf einer Geraden liegen. Ansonsten ist das komplexere Modell dem einfacheren immer bzgl. seiner Passung überlegen. Andererseits sinkt seine Erklärungskraft - jeder Parameter des Modells sollte ja bestenfalls auch eine substanzielle Interpretation haben - und es besteht natürlich auch immer die Gefahr der übermäßigen Adaptation, also des Overfitting. Weder ist es erstrebenswert, hervorragende Passung mit exorbitanter Komplexität zu erkaufen, noch ist es sinnvoll, ein primitives Modell zu wählen, das schlecht zu den Daten passt. Einfachheit und Passung auf die Daten sollten nach der herrschenden Meinung in einem Gleichgewicht stehen, das heißt, beide müssen angemessen berücksichtigt werden. Schon Menger (1960: 415) schreibt sehr schön: One of the most efficient methodological tools, Occam’s celebrated razor, is the maxim that it is vain to do with more what can be done with fewer. Occam’s principle is often called the Law of Parsimony [. . .] what is needed is a counterpart to the Law of Parsimony [. . .], that it is vain to try to do with fewer which requires more [. . .] and it may be construed as a maxim denouncing equivocations just as Occam’s law opposes synonyms.57 (Hervorhebungen im Original)
Betrachtet man die Daten als fest und begreift das (adaptive) Modell als eine Hülle, die sich um die Daten legt, sich gewissermaßen an die Daten anschmiegt, so ist die Gefahr des Overfitting offensichtlich umso größer, je flexibler das Modell ist. Die optimale Distanz wäre offenkundig jene, die alle durch das Modell erfassbare real vorhandene Struktur erkennt und zugleich die darüber hinausgehende Variabilität dem Fehlerterm zuordnet. Leider kennt man in der Praxis in aller Regel weder die wahre Struktur, noch 57
Sober (2004) nennt dies anschaulich “the contest between parsimony and likelihood” und sieht ebenfalls die philosophische Dimension des Problems.
5.1 Forschungsstrategien III (Kombination)
377
was sich von dieser im Modell niederschlägt, noch das Ausmaß der zufälligen Variation. Klar ist zumindest, dass die Gefahr der übermäßigen Anpassung umso größer ist, je mehr „natürliche“ Variabilität vorhanden ist, und je flexibler das Modell darauf reagieren kann. Gibt es keine Fehler-Variabilität, so befindet man sich in der klassisch-deterministischen Situation und kann die wahre Struktur im Prinzip genau erkennen. Die Gefahr der übermäßigen Anpassung besteht nicht - je näher man an die tatsächliche Struktur herankommt, umso besser. Je mehr Variabilität jedoch vorhanden ist, desto schwerer wird es, zwischen systematischen Komponenten und zufälliger Streuung zu unterscheiden, und die Gefahr ist erheblich, dass man beide miteinander verwechselt. Dies gilt insbesondere dann, wenn ein flexibles Modell gut in der Lage ist, Variabilität abzubilden und erst recht, wenn die konkrete Stichprobe einen maßgeblichen Einfluss auf dessen Gestalt ausübt.
Informationskriterien Denkt man also im Kontext spezifischer Daten und (zugehöriger) allgemeiner Modelle, so sollte man nach einem möglichst immer anwendbaren Verfahren suchen, welche zum einen eine Überadaptation an die gerade vorliegenden Daten vermeidet, zum anderen aber auch die Information in der Stichprobe so gut wie möglich erfasst, also alle in den Daten enthaltene Struktur auch tatsächlich erkennt. Dies läuft auf einen Kompromiss zwischen Über- und Unteradaptation bzw. eine „Optimierung der Distanz“ zwischen Modell und Daten hinaus. Konkret wird man nach Kriterien Ausschau halten, welche den notwendigen Kompromiss sinnvoll formalisieren und dann Modelle danach selektieren, dass sie das entsprechende Kriterium maximieren. Burnham und Anderson (2002: 454) schreiben: At a conceptual level, reasonable data and a good model allow a separation of ‘information’ and ‘noise.’ Here, information relates to the structure of relationships, estimates of model parameters and components of variance. Noise then refers to the residuals: variation left unexplained [. . .] We want an approximating model that minimizes information loss, [. . .] and properly separates noise (non-information or entropy) from structural information.
In Burnham und Anderson (2004) setzen sie das Zitat mit den Worten fort: “In a very deep sense, we are not trying to model the data; instead, we are trying to model the information in the data.” (Meine Hervorhebung.) Das ist nichts anderes als eine neue Formulierung des Hauptsatzes der angewandten Statistik (Abschnitt 3.8). Wie geht man nun konkret vor? Zunächst benötigt man ein Abstandsmaß zwischen Modellen. In aller Regel verwendet man die Kullback-Leibler-
378
5 Synthese
Entropie58
∞
I(f, g) =
f (x) log −∞
f (x) dx g(x)
im Falle stetiger Zufallsvariablen mit den Dichten f bzw. g. Im diskreten Fall hat man es mit zwei Wahrscheinlichkeitsverteilungen P und Q mit den Einzelwahrscheinlichkeiten P (xi ) = pi bzw. Q(xi ) = qi für i = 1, 2, . . . definiert man völlig analog pi I(P, Q) = pi log (5.1) qi i Auch wenn wir von einem „Abstandsmaß“ sprechen, so handelt es sich doch um keine Metrik im mathematischen Sinn.59 Zum zweiten ist es sinnvoll, auf ein Standardverfahren bei der Schätzung von Parametern aus Daten zurückzugreifen. Hier bietet sich die Maximum-Likelihood-Methode an. Das heißt, man sucht bei festen Daten x und einer festen Anzahl k von Parametern Θ = (θ1 , . . . , θk ) eines Modells PΘ (x) die Maximum-Likelihood-Schätzer θˆ1 , . . . , θˆk , welche die Likelihoodfunktion L(θ1 , . . . , θk ) maximieren: ˆ k = L(θˆ1 , . . . , θˆk ) = max L(θ1 , . . . , θk ) = max P(θ ,...,θ ) (x). L 1 k θ1 ,...,θk
θ1 ,...,θk
Das Informationskriterium von Akaike (1973, 1974) besagt dann zum dritten, dass man bei gegebenen Daten den Ausdruck ˆ + 2k AIC = −2 ln(L) als Funktion von k (k ∈ IN ) minimieren soll. Der Kompromiss zwischen Anpassung an die Daten und einer Vermeidung von Überanpassung kommt also in einer schlichten Differenz zum Ausdruck. Sei k zunächst fest. Unter allen Modellen PΘ weist dann per Konstruktion ˆ das maximale L ˆ auf. Also ist auch ln(L) ˆ der Maximum-Likelihood-Schätzer Θ 60 ˆ maximal und −2 ln(L) minimal. Typischerweise startet man mit einer kleinen Anzahl von Parametern, woˆ groß ist. Insgesamt liegt dann eine mangelhafte mit also 2k klein und −2 ln(L) Modellpassung aufgrund einer Unterparametrisierung vor, was sich in großem AIC ausdrückt. Erhöht man k, so wird bei monotonen Modellklassen (etwa den zuvor genannten Polynomen vom Grad k) der erste Teil der Differenz im58
Siehe Kullback und Leibler (1951) und Kullback (1987). Diese wird auch Informationsgewinn oder Informationsverlust, englisch zuweilen auch divergence oder expected weight of evidence (Good 1988: 390) genannt. 59 Weder ist die Kullback-Leibler-Entropie symmetrisch, noch gilt die Dreiecksungleichung. Für viele ihrer Eigenschaften siehe Cover und Thomas (2006: Kapitel 1 und 8). 60
Man hat also nichts anderes als eine traditionelle Maximum-Likelihood-Schätzung durchgeführt, die, nebenbei bemerkt, (nahezu) äquivalent zur Minimierung des KullbackLeibler-Abstands ist (Pawitan 2001: 370).
5.1 Forschungsstrategien III (Kombination)
379
mer kleiner, während zugleich 2k wächst. (Dieser Term verhindert also, dass k einfach sehr groß gewählt werden kann, was zu einer extremen Überadaptation führen würde.) Da typischerweise der erste Teil zunächst schneller fällt als der hintere Teil wächst, wird AIC insgesamt kleiner. Erhöht man k noch mehr, so kommen weitere Parameter hinzu, die jedoch die Modellpassung nicht mehr wesentlich verbessern. Der hintere Term wird groß und mit ihm steigt auch AIC wieder an, was man als Überparametrisierung bezeichnet. Insgesamt nimmt AIC (wie gewünscht) ein Minimum bei einer moderaten Anzahl von Parametern und guter Modellpassung an. Burnham und Anderson (2002: 454) fassen die Vorgehensweise wie folgt zusammen: The philosophy for this separation is the principle of parsimony; the conceptual target for such partitioning is Kullback-Leibler information; and the tactic for selection of a best model is an information criterion.
Wie zuvor beim arithmetischen Mittel61 kann man die Vorgehensweise auf zwei Arten kommentieren. Deduktiv gesehen ist unsere Argumentationsweise nichts weiter als eine unscharfe Heuristik. Es fehlt ihr die theoretischkonzeptionelle Fundierung und mathematische Strenge. Für erstere sorgen z. B. Burnham und Anderson (2002), indem sie den AIC-Ansatz in den Kontext der Informationstheorie und darüber hinaus in physikalische Theorien (Entroˆ −k pie, Thermodynamik) einordnen. Dann zeigen sie, dass −AIC/2 = ln(L) ein guter Schätzer der folgenden theoretischen Größe ist: Ey (Ex (ln gθ(y) ˆ (x))) Dies ist folgendermaßen zu verstehen: Man beginnt mit einer Familie von Modellen, etwa Dichten, gθ . Liegt ein Datensatz y vor, so bestimmt man mit ˆ dessen Hilfe die Maximum-Likelihood-Schätzung θˆ = θ(y). Bezeichnet f das wahre, aber unbekannte Modell (welches nur in den seltensten Fällen zur Familie gθ gehören wird), so möchte man den Abstand zwischen „Wahrheit“ und „Modell“, also I(f, gθ ) minimieren. Naheliegend wäre, nur über die Menge aller möglichen Beobachtungen x den Erwartungswert zu bilden, also Ex (ln gθˆ(x)) für alle möglichen g zu berechnen und dasjenige Modell mit dem kleinsten Wert auszuwählen.62 Hierbei würde θˆ jedoch als fest betrachtet, gerade so, als würde man den wahren Wert des Parameters θ kennen. Da es sich jedoch lediglich um einen Schätzer, also eine zufällige Größe handelt, sollte man auch von diesem den Erwartungswert bilden, also über alle möglichen Stichproben y mitteln. Wie viele Autoren verwenden auch Burnham und Anderson (2002) nach der Herleitung dieses Ergebnisses viel Energie darauf, zu zeigen, warum ge61 62
Siehe Abschnitt 5.1.3
Die Schreibweise Ex (ln gθˆ(x)) macht deutlich, über welche Werte gemittelt, also der Erwartungswert gebildet wird. Eine „mathematischere“ Notation wäre E(ln gθˆ(X)).
380
5 Synthese
rade AIC (bzw. eine Verfeinerung hiervon) die beste Wahl ist. Davon unbeeindruckt kann man induktiv gesehen von konkreten Daten ausgehen und fragen, ob der Kompromiss zwischen Anpassung an und Abstand von den Daten nicht auch auf andere Weise sinnvoll formalisiert werden kann. Wie nicht anders zu erwarten gibt es eine ganze Reihe von Möglichkeiten. Besonders bedeutend, da zumeist angewandt, sind neben AIC (und dessen Varianten) das Bayessche Informationskriterium (BIC) und einige informationstheoretische Kriterien, inbesondere MML und MDL. Mit dem BIC (Schwarz 1978), also ˆ + k ln(n), BIC = −2 ln(L) steht ein weiteres Maß zur Verfügung, das sogar die Anzahl n der Beobachtungen mit berücksichtigt. Ein für kleinere Stichprobenumfänge empfohlene Korrektur von AIC, nämlich AIC c = AIC + 2k(k + 1)/(n − k − 1) tut dies ebenfalls. Eine andere Möglichkeit, die Anzahl der Beobachtungen zu berücksichtigen ist nach Hannan und Quinn (1979) ˆ + c ln(ln(n)) HQ = −2 ln(L) mit einer Konstanten c > 2. Es gibt noch weit mehr sinnvolle Kriterien, siehe insbesondere Burnham und Anderson (2002: Kapitel 2), Wallace (2005), Grünwald (2007), Ye (1998), Foster und George (1994), Claeskens und Hjort (2003, 2008), Shen und Ye (2002) und Spiegelhalter et al. (2002). Auch wenn man wieder gute theoretische Gründe für jedes der genannten Kriterien angeben kann; in der Praxis gibt es keine gleichmäßig beste Wahl. Wie man nämlich zeigen kann, verbirgt sich hinter jedem der Kriterien eine etwas andere Perspektive: The philosophy underlying AIC and AIC c is that ‘truth’ is high-dimensional, requiring many (possibly infinitely many) parameters to describe it [. . .] we seek the best approximating model [. . .] By contrast, BIC is dimension consistent. It provides a consistent estimate of the true order of the model, at the expense of assuming that a true model exists and is low-dimensional. (Buckland et al. 1997: 606)
5.1.5 Kreuzvalidierung Viel wichtiger als Argumentationen für oder wider das „richtige“ Kriterium der Modellselektion - ähnlich der Suche nach dem „besten“ (Kriterium für den) Mittelwert eines Datensatzes - ist die Tatsache, dass man die Auswahl
5.1 Forschungsstrategien III (Kombination)
381
eines Modells mit AIC63 als die Simulation einer Kreuzvalidierung verstehen kann.64 Eine Kreuzvalidierung ist eine einfache experimentelle Technik, um einen Kompromiss zwischen Über- und Unteradaptation zu finden. Statt alle vorhandenen Daten zur Konstruktion eines Modells zu verwenden, behält jede Kreuzvalidierung einen Teil der Stichprobe zurück, um mit ihm das gefundene Modell zu validieren. Man trennt also, anders gesagt, fein säuberlich zwischen dem induktiven Schritt der Modellfindung aus den Daten65 und dem deduktiven Schritt der Modellüberprüfung, also der Passung des gefundenen Modells auf die Daten:66 The crucial feature of cross-validation is the separation of data for building and assessing the [model]. (Efron und Tibshirani 1991: 394)
Durch den ersten Schritt erhält man ein Modell, welches an die Daten angepasst ist, durch den zweiten Schritt vermeidet man eine zu große Annäherung. Nicht nur bei neuronalen Netzen hat sich die Nomenklatur Trainingsversus Testmenge durchgesetzt, da dort ein zunächst „naives“ Netz mithilfe der Trainingsdaten Erfahrung sammelt und dann anhand der Testdaten überprüft wird, ob man das so trainierte Netz auch in anderen Situationen verwenden sollte. Bei AIC wird mit einem Teil der Daten (nämlich y) der fragliche Parameter θ geschätzt und zusammen mit den übrigen Daten x lässt sich gθ(y) ˆ (x) berechnen. Vertauscht man in der Praxis dann die Rollen von x und y, so sollte beidesmal (in etwa) dasselbe herauskommen. AIC simuliert eine solche reale Kreuzvalidierung, weil es die Datensätze x und y als Realisierungen von unabhängigen und identisch nach f verteilten Zufallsvariablen X und Y auffasst. Die konkreten Datensätze x, y sind in der Theorie nur eine Denkhilfe, man arbeitet mit den Zufallsvariablen X, Y , und aus der Tatsache, dass man Erwartungswerte in beliebiger Reihenfolge bilden kann, erhält man sofort die Gleichheit E(E(ln gθ(Y (Y ))). ˆ ) (X))) = E(E(ln gθ(X) ˆ Ye (1998: 121) beschreibt klar, was ohne Kreuzvalidierung geschieht: “Often, inferences are made about the selected model based on the same data, assuminging (sic) that the selected model is given a priori. It is well known that goodness-of-fit statistics from this method are often too optimistic.” Dies hatten wir im Allgemeinen Überadaptation genannt. Unter der Überschrift Discussion: The cost of data analysis fährt er fort: 63
Und einiger anderer Kriterien
64
Siehe Stone (1977), Pawitan (2001: 381ff) und Claeskens und Hjort (2008: Abschnitt 2.9). 65 Genauer: Einem Teil der Daten 66
Genauer: Einen anderen Teil der Daten
382
5 Synthese
A good statistical analysis almost always involves careful graphical data exploration and model diagnostics for identification of a good model structure before estimation. Thus data analysis is, at a deeper level, a type of model selection. (ibd., S. 129)
Diese anfängliche, datengetriebene Suche nach einem guten Modell ist insofern mit Kosten verbunden, als dass sie auf der Basis eines Teils der Daten durchgeführt wird. Scheut man die Kosten, stützt man also Inferenz und Auswahl des Modells auf ein und dieselben Daten, so überadaptiert man. Je mehr man bereit ist zu zahlen, je größer also der Anteil der Daten ist, welchen man für die Auswahl des Modells (die Datenanalyse) verwendet, desto besser wird das Modell. Desto weniger Daten gehen jedoch andererseits in die eigentliche Inferenz, etwa eine Schätzung, ein, welche aufgrund dessen weniger zuverlässig wird. Auch dies rechtfertigt den Term Kosten. Man muss also auch bei dieser Sichtweise wieder einen Kompromiss zwischen “exploration” und “confirmation” finden. Zudem sind die Kosten von der zugrundliegenden Struktur bzw. deren Erkennbarkeit abhängig, denn Ye schreibt auf derselben Seite ausdrücklich: “The implication is that the identification of a clear structure bears little cost, whereas searching through white noise has a heavy cost.” Verwendet man bei einer echten Kreuzvalidierung jeweils genau die Hälfte der Daten, so spricht man von der Split-Half-Methode, doch selbstverständlich können auch andere Anteile gewählt werden. Beim Leave-One-OutVerfahren, wird mit n − 1 (von n) Datenpunkten ein Modell gebaut, und man überprüft, wie gut der letzte verbliebene Datensatz zum zuvor erstellten Modell passt.67 Dies wiederholt man mit allen möglichen n − 1 Datenpunkten. Man erstellt also insgesamt n Modelle, und überprüft, wie gut der jeweils nicht verwendete Datenpunkt zum entsprechenden Modell passt. (Zum Beispiel wird der Datenpunkt xi mit dem Fehler fi approximiert.) Ist die Modellierung stabil, so sollte der Mittelwert über alle diese Fehler fi möglichst klein sein. Da ein Datenpunkt mit der Split-Half-Methode entweder nur zum trainieren oder testen eingesetzt wird, ist das so erstellte Modell oftmals weit schlechter als ein mit der Leave-One-Out-Methode gefundenes. Letztere Methode ist jedoch weit rechenintensiver und kann bei Ausreißern unerwünschte Resultate liefern.68 Eine aktuell häufig verwendete Alternative, welche die 67
Zum Beispiel, wie groß seine Abweichung von der mithilfe der n − 1 Daten erstellten Regressionsfunktion ist, ob er genauso klassifiziert wird, wie wenn man mit allen Daten ein Modell erstellt oder ob eine Schlussfolgerung mit bzw. ohne ihn genauso ausfällt, also von diesem einen Datenpunkt maßgeblich abhängt oder nicht. 68
Die Idee der Leave-One-Out-Methode nutzt man schon bei der Schätzung eines Mittelwerts. Seien die Daten x1 , x2 , . . . , xn gegeben. Zunächst berechnet man alle Mittelwerte x ˜−i = (x1 +. . .+xi−1 +xi+1 +. . .+xn )/(n−1), d.h. x ˜−i ist gerade das übliche arithmetische Mittel des gesamten Datensatzes ohne die Beobachtung xi . Im zweiten Schritt bestimmt man nun das arithmetische Mittel der Werte x ˜−i , berechnet also x ˜ = (˜ x−1 + . . . + x ˜−n )/n. x ˜ heißt Jackknife-Schätzer des Mittelwertes (Quenouille (1949), Tukey (1958)). Man kann ihn als ein spezielles Resampling-Verfahren auffassen und über ihn führte der Weg zum Bootstrap. (Siehe Efron (1979), Shao und Tu (1995).) Letzterer ist auch eng mit der Kreuzvalidierung verwandt (Efron und Tibshirani 1991: 394).
5.1 Forschungsstrategien III (Kombination)
383
Vorteile beider Vorgehensweisen kombiniert, ist die k-fache Kreuzvalidierung. Hierbei werden die Datenpunkte statt nur in zwei Teilmengen wie bei SplitHalf in k Teilmengen aufgeteilt. Dann geht man wie bei Leave-One-Out vor, lässt also beim Modellieren immer eine der Teilmengen weg, anhand derer dann das gefundene Modell validiert wird. Man beachte die Analogie und den Unterschied zu Resampling-Verfahren (S. 242ff). Hier wie dort arbeitet man mit einem festen Datensatz, also einer Stichprobe x. Deshalb besteht beides Mal die Gefahr der Überadaptation. Bei Resampling-Verfahren wird nun häufig mit der ganzen Stichprobe gearbeitet. Falls nicht, so ist die Einteilung in Trainings- und Test-Sample eher ad hoc. Beim Einsatz von Informationskriterien begegnet man dem Risiko der Überadaptation hingegen explizit mit einer Theorie. Diese stellt in der Anwendung automatisch einen sinnvollen Kompromiss zwischen Über- und Unteradaptation her. Da die Datensätze zudem typischerweise größer sind als in der klassischen Statistik, wiegt auch das Argument einer zu eingeschränkten, „punktuellen“ Betrachtung weniger schwer.69 Man kann die Kreuzvalidierung als ein adaptives Verfahren einer höheren Stufe verstehen. Beim adaptiven Schätzen besteht die Lösung in einem Kompromiss zwischen dem Einfluss der Daten und der vorgegebenen Struktur des Schätzers. Weil man sich in einem festen Modellrahmen, z. B. der linearen Regression, bewegt, lässt sich der gesuchte Kompromiss als Optimierungsaufgabe formulieren. (Was ihn zugleich auch hervorragend maskiert.) Hier nun sucht man ein Modell, und nur bei einem klar definierten „Super-Modell“, welches als Rahmen dient, kann man wie zuvor agieren. Von Ausnahmefällen und dem Bayesschen Mechanismus einmal abgesehen, gibt es jedoch in der Praxis in aller Regel kein oder allenfalls nur ein vages „Super-Modell“, das die Vorgehensweise leitet. Ohne stringente äußere Vorgaben ist man deshalb gezwungen, beide Ziele simultan zu verfolgen und angemessen zu berücksichtigen. So bleibt einem nichts anderes übrig, als das Modell einerseits an die Daten zu adaptieren, andererseits jedoch auch immer einen gewissen Abstand einzuhalten, was nahezu unmittelbar auf die Idee führt, einen Teil der Daten zum Konstruieren und einen anderen Teil der Daten zum Überprüfen einzusetzen. In der Theorie führt das, wie wir am Beispiel des AIC gesehen hatten, wieder zu einer Optimierungsaufgabe. Jene kann man als Simulation einer echten Kreuzvalidierung auffassen kann, die tatsächlich verschiedene (vergleichbare) Datensätze einsetzt. Außerdem stellt sich heraus, dass die Kreuzvalidierung die kleine Schwester der Replikation ist. Der einzige Unterschied zwischen 69
Erst recht ist es mit klassischen Verfahren eher eine Kunst als eine Wissenschaft, reale, explorativ gefundene Muster von unwesentlichem Rauschen zu unterscheiden. Während der Konflikt zwischen (induktivem) Data Mining und (deduktiver) Statistik nur allzu deutlich ist (Abschnitt 4.6.3), hört sich “controlled magical thinking” (Diaconis 2006: 33) als Synthese beider reichlich vage an. P -Werte mit der Stichprobengröße zu „gewichten“ (S. 87) ist kaum zu objektivieren und eine formale α-Adjustierung ist zu konservativ (S. 111ff, 187).
384
5 Synthese
beiden ist, dass bei der Kreuzvalidierung Daten aus einer Quelle, zumeist ein und derselben Untersuchung, eingesetzt werden. Bei der Replikation eines Experiments geht man jedoch über die vorliegenden Daten einer Untersuchung hinaus. Die Daten werden in einem neuen Anlauf unter möglichst vergleichbaren Bedingungen wie zuvor erhoben. Man bewegt sich also nicht im eher kleinen „Teich“ ein und derselben Datensammlung, sondern fährt auf das Meer vergleichbarer Situationen hinaus, und hofft, dass die so „gefangenen“ Daten zu denselben Ergebnissen führen werden: Die Replikation ist also die am weitesten gehende Art der Validierung. Insbesondere geht sie den entscheidenden Schritt über die Empirie, weshalb auf diese Weise validierte Daten tatsächlich praktisch belastbar sind. Es ist eben eine Sache, innerhalb eines theoretischen Rahmens - „im statistischen Labor“ - die Wiederholung einer Untersuchung zu simulieren, eine zweite, eine echte Kreuzvalidierung durchzuführen und eine dritte, die Daten in einer echten Replikationsstudie abermals zu erheben. Man zieht bildlich gesprochen immer größere Kreise und hat deshalb mehr und mehr Anlass zu hoffen, dass sich die Ergebnisse als stabil bzw. der induktive Schluss auf die Realität als gerechtfertigt erweisen wird. Das heißt: Rather than ask what would happen in principle if a study were repeated, it is better to repeat the study - as is standard in physical science (Berk und Freedman 2010: 24). An ounce of replication is worth a ton of inferential statistics (Steiger 1990: 176). Repetition is the basis for judging variability and significance and confidence. Repetition of results, each significant, is the basis, according to Fisher, of scientific truth (Tukey 1969: 726). The salutary habit of repeating important experiments, or of carrying out original observations in replicate, shows a tacit appreciation of the fact that the object of our study is not the individual result, but the population of possibilities of which we do our best to make our experiments representative (Fisher 1970: 2f)70
5.2 Der Forschungszirkel I For a long time though, when only confirmation was thought to be moral, at least by statisticians, one had to conceal one’s explorations by talking about them as if they were confirmatory. This is less a need today, but we would all be better off if it were not a need at all. Tukey (1984: 987)
Im letzten Kapitel haben wir den induktiven Weg der Erkenntnis, von den Daten zur Hypothese, beschrieben. Letztlich geht es immer um die Verallgemeinerung einer speziellen Situation samt der sie beschreibenden Zahlen. 70
Für ein weiteres einschlägiges Zitat Fishers siehe S. 102. Man beachte auch die dort genannte Literatur sowie Falk (1998), Abschnitt 1.3.2 und S. 243.
5.2 Der Forschungszirkel I
385
Diese Generalisierung kann auf viele verschieden Arten geschehen, sie ist mehr oder minder gerechtfertigt und nie rein mathematisch. Genau deshalb ist sie ein nie versiegender Quell’ der Inspiration und Verwirrung. Den einen inspiriert sie zu etwas wirklich Neuem, während sie den anderen in die Irre führt. Jene, die sich konsequent vom Zwielicht der Induktion abwenden, vertrauen zumeist ihrer zwar langweiligeren, dafür aber auch verbindlichen Schwester, der Deduktion. Hier finden sie Sicherheit in axiomatischen Annahmen, Kraft im Beweis, messbaren Erfolg und unumstößliche Wahrheiten. So sie nicht zu Perfektionisten werden, die diesen Weg der Erkenntnis für den einzig richtigen halten, lässt sich mit Vertretern jener Richtung, allen voran Mathematikern, gut leben. In den letzten Abschnitten haben wir das Zusammenwirken von induktiven und deduktiven Gesichtspunkten beschrieben. Typischerweise wechselt man zwischen beiden hin und her. Dabei haben wir implizit mit der folgenden Vorstellung gearbeitet, die wir nun den Forschungszirkel nennen wollen.71 Ähnliche Überlegungen und sogar graphische Darstellungen finden sich u.a. bei Box (1976: 791, 796), Box et al. (2005: Abschnitt 1.1), Tukey (1961: 174ff), Tukey (1986b: 224), Mallows und Tukey (1982: 894, 897), Weed (1986: 966), Nelder (1999: 258ff), Hand (2007: 52ff), Juhos und Schleichert (1966: 91), Einstein (1952) und Balasubramanian (2005: 137). Auch das aristotelische deduktiv-induktive Schema (siehe S. 59) ist eng verwandt und Bacons Motto für das aktuelle Kapitel (S. 351) lässt sich ebenfalls in diesem Sinn interpretieren. Setzungen Hypothesen Substanzielle Generalisierung
Formale Ableitung Theorem
Numerisches Resultat
Operationalisierung
Formale Argumente Daten
Daten
Man erkennt, dass die beiden Wege, der induktive Aufstieg (vom Speziellen zum Allgemeinen) wie auch der deduktive Abstieg (vom Allgemeinen zum Speziellen) an der Spitze und dem Fußpunkt des Kreises verbunden sind. Oben stehen die Hypothesen bzw. allgemeinen Aussagen, welche zumeist induktiv generiert, zumindest aber motiviert, werden. Die induktive Seite ist offen, das heißt, „es führt kein Weg mit Notwendigkeit von irgendwelchen Tatsachen zu irgendwelchen Gesetzen, von den Daten zu der Hypothese“ 71
Poetischere Naturen könnten von einem „Ring der Erkenntnis“ sprechen; Lauth und Sareiter (2005: 15) bemerken neutral: „Das ‚Wechselspiel‘ von Theorie und Empirie bildet den eigentlichen Gegenstand der wissenschaftlichen Methodologie.“
386
5 Synthese
(Popper 1974: 389), so dass man nie sagen kann, aus den Daten folge eine bestimmte Hypothese. Es sind immer ein über die Daten hinausgehendes Konzept, zusätzlich Annahmen, Randbedingungen, ein Kontext oder einfach nur ein kreativer Einfall erforderlich, um (mit einer möglichst kleinen induktiven Lücke) von „unten“ nach „oben“ zu gelangen. Fixiert man die Hypothesen, so verwandeln sie sich in grundlegende Annahmen. Eine Reihe von Voraussetzungen definiert einen formalen Rahmen, innerhalb dessen sich nun mit den Regeln der Logik arbeiten lässt. So kommt man von allgemeinen Aussagen, etwa Axiomen, zu speziellen Folgerungen. Im besten Fall sind die Ableitungen streng deduktiv und führen zu eindeutigen Gesetzen und Vorhersagen. Operationalisiert man diese, so erreicht man konkrete empirische Situationen, mit deren Hilfe man nun den Wahrheitsgehalt der Annahmen prüfen kann. Genau hier zeigt sich nun das Janusgesicht der Daten. Top-down gesehen sind sie nichts weiter als der Prüfstein einer umfassenden Theorie, wie Popper (1974: 389) schön formuliert: „[. . .] durch die Falsifikation unserer Annahmen [bekommen wir] tatsächlich Kontakt mit der ‚Wirklichkeit‘.“ Andererseits können Daten aber auch einfach vorliegen, mehr oder minder systematisch gesammelt worden sein, und man beginnt von ihnen aus mit seinen weiterreichenden Überlegungen, geht also gewissermaßen bottom-up vor. Man beachte, dass im Zirkel eine Richtung ausgezeichnet ist. Von den Daten gelangt man über Generalisierungen zu allgemeinen Aussagen und von jenen wiederum über einschlägige Ableitungen zu (weiteren) Daten. Wenn überhaupt ein Punkt in diesem Rad der Forschung ausgezeichnet ist, so sind es die Daten, welche den Kontakt zur Realität herstellen und den ganzen Überbau dadurch erden bzw. das Fundament für alles andere darstellen. Wo man bei einer konkreten Fragestellung beginnt, ist jedoch nicht ausgemacht. Es kann sinnvoll sein, von einer allgemeinen Aussage oder Vermutung auszugehen, jedoch bietet es sich oft auch an, ohnehin vorhandene Beobachtungsdaten genauer unter die Lupe zu nehmen. Auch wenn wir nur einen Zirkel gezeichnet haben, so könnte man doch auch mehrere Kreise mit unterschiedlichen Radien verwenden. Das Ausmaß der Generalisierung ist nämlich genauso verschieden wie die Länge der Wege, die entlang des deduktiven und induktiven Pfads zurückgelegt werden. So erreichen die ausgereiften Theorien der Naturwissenschaften eine weit höhere Abstraktionsstufe als die eher rudimentären konzeptionellen Vorstellungen der Sozialwissenschaften. Es ist eine Sache, eine psychologische Ad-hocErklärung anhand eines kleinen Datensatzes zu entwickeln oder zu prüfen, eine ganz andere, aus dem mathematischen Gebäude der theoretischen Physik ein neuartiges Experiment herzuleiten. Bei der Entwicklung von Modellen und danach hatten wir mehrfach betont, wie leicht man zwischen Induktion und Deduktion umschalten kann. Dies geschieht einfach dadurch, dass man Hypothesen nicht als Schlussfolgerungen aufgrund von Evidenz sondern als feststehende Annahmen interpretiert. Hat man daraus gewisse Folgerungen hergeleitet, die mehr oder minder gut zu den
5.2 Der Forschungszirkel I
387
Daten passen, so lassen sich genauso schnell die Annahmen modifizieren. Im Prinzip kann man beliebig häufig und beliebig schnell zwischen beiden Richtungen hin und her schalten, so schnell, dass vereinzelt vorgeschlagen wird, Induktion und Deduktion, etwa in Form von CDA versus EDA, begrifflich nicht klar zu unterscheiden.72 Glymour et al. (1987: 47) schreiben: Except as a misleading terminology for distinguishing statistical hypothesis tests from other procedures for drawing conclusions from data and background information, this distinction is illusory. If an ‘exploratory’ procedure routinely turns up hypotheses that do well by statistical tests and make accurate predictions, and if the procedure rarely turns up hypotheses that do poorly by such criteria, then the fact that a particular hypothesis is turned up by the procedure provides some substantial reason to believe the hypothesis, or at least to give it more credence than those hypotheses rejected by the exploratory procedure.
Diese Verwischung eines fundamentalen Unterschieds geht damit einher, dass sie zugleich das Standardargument, Modellfindung und Modellevaluation sollten auf verschiedenen Datensätzen beruhen, in Frage stellen. Glymour et al. (1987: 46) sagen explizit:73 “[we] believe that there is often nothing wrong with using one and the same body of data to discover a theory and to confirm it or test it.” Beides hat zu energischen Protesten geführt, die voll und ganz gerechtfertigt sind, siehe etwa Mayo (1996: Abschnitt 9.3). Gleichwohl haben Glymour et al. (1987) insofern recht, also dass die theoretisch-konzeptionell gesehen fundamentale Unterscheidung in der Praxis der Datenanalyse gerne verwischt. Man hat nun einmal typischerweise einen Datensatz zur Verfügung und (induktive) Modellkonstruktion bzw. Hypothesengenierung sowie (deduktive) Modellüberprüfung bzw. Test diverser, möglicherweise gerade erst erdachter Hypothesen, gehen Hand in Hand. Genau das betont der Forschungszirkel und die in diesem Zusammenhang genannten Autoren, inbesondere Box et al. (2005) und die IDA. Im nächsten Kapitel verfolgen wird die allgemeinen wissenschaftstheoretischen Implikationen des obigen Modells. Der Rest dieses Kapitels ordnet die Statistik mit ihren verschiedenen statistischen Schulen in den Forschungszirkel ein und integriert sie zu einer einheitlichen Sicht.
5.2.1 Positionierung der Statistik Alle Statistik aber auch Wissenschaft beginnt mit Daten, in ihnen bildet sich die Realität ab, sie stellen den Kontakt mit der tatsächlichen Welt her. Die Daten stehen im Zirkel deshalb ganz unten,74 das heißt, auf den numerisch 72
Wir verweisen diesbezüglich auch auf die Auseinandersetzung um Neyman, der alle “conclusions” als “decisions” auffassen wollte, siehe S. 119. 73 Siehe hierzu auch S. 49ff im gleichen Buch 74
Denkt man an einen Kompass, so befinden sich die Daten genau im Süden.
388
5 Synthese
repräsentierten Fakten basiert alles Übrige. Sie sind, anders gesagt, fundamental, bzw. bilden den archimedischen Punkt, um mit Planck (1913: 23) zu sprechen. Box et al. (2005) schreiben schon auf der ersten Seite des Einbands: It is the data that are real. (They actually happened!)75
Genau deshalb kommt es, wie alle Autoren einhellig betonen, zunächst auf aussagekräftige Daten an. Am Wichtigsten ist dabei die inhaltliche Sicht, also die Validität der Daten. Wurde das Falsche erfasst oder so massiv verzerrt, dass man nichts mehr erkennen kann, so verhindert bereits die Art des Zustandekommens der Daten - vor jeder Analyse - dass man aus ihnen sinnvolle Schlussfolgerungen ziehen kann. Es handelt sich dann um den berühmt-berüchtigten „Datenfriedhof“, dem man auch mit den aufwändigsten Verfahren kein Leben mehr einhauchen kann. In den Sozialwissenschaften ist es deshalb meist schon die Art der Messung bzw. Erhebung, welche über Wohl und Wehe entscheidet. Etwas weniger gravierend sind systematische Fehler, die sich korrigieren lassen oder unsystematische Fehler, welche die Daten lediglich ungenauer werden lassen. Mit beiden kann die Statistik umgehen, wenn auch oft nur ansatzweise. Um diesen Kern legt sich ein Mantel von Vorher und Nachher, d.h. von Vorwissen und dem Informationsstand nach Berücksichtigung der Daten bzw., allgemeiner, von Datenbeschaffung und Dateninterpretation. Im einfachsten Fall sind die Daten x1 , . . . , xn gegeben und man geht einen Schritt nach rechts.76 Da alle Auswertungen dadurch maßgeblich auf den konkret beobachteten Werten xi basieren, ist es sinnvoll, von einer Posteriori-Analyse zu sprechen. In einer etwas allgemeineren Sprechweise nennt man jede Betrachtungsweise bedingt, die gewisse Variablen fest hält. Eine Posteriori-Analyse ist so gesehen bzgl. der tatsächlich erhaltenen Realisierungen x1 , . . . , xn bedingt. Eine Auswertung besteht typischerweise darin, die Daten zu komprimieren, also aus vielen Einzelwerten eine zusammenfassende Statistik, etwa einen Mittelwert, ein Streuungs- oder ein Schiefemaß zu berechnen. Solche Berechnungen von datennahen Kennwerten sind das Metier der deskriptiven Statistik. Die so ermittelten Werte und Verteilungen werden in den allermeisten Fällen durch übersichtliche Grafiken und andere Visualisierungen veranschaulicht. Solange man nicht über die Daten hinausblickt und die numerischen Resultate irgendwie interpretiert, handelt es sich um eine reinmathematische Fingerübung. Doch ist alle Mathematik hier lediglich technisches Hilfsmittel zum eigentlichen Zweck: Der Einordnung des konkreten Datensatzes und der aus ihm berechneten Kennzahlen in einen größeren Zusammenhang. Dieser Zusammenhang ist zum einen formaler und zum anderen substanzieller Natur. 75
Deshalb war es gewiss kein Zufall, dass gerade einem Physiker (Jeffreys) in der Testtheorie sofort der entscheidende Unterschied zwischen dem tatsächlich beobachteten Wert und dem mit dessen Hilfe konstruierten Bereich auffiel (siehe S. 95, 88). 76
Im Bild des Kompasses stößt man also immer weiter nach Nordosten vor, je weiter man eine Analyse vorantreibt.
5.2 Der Forschungszirkel I
389
Der Standardformalismus ist der in Abschnitt 3.1 vorgestellte: Die beobachteten Werte xi werden als Realisierung von Zufallsvariablen Xi aufgefasst. Über letztere lassen sich nun eine ganze Reihe von Annahmen treffen, was dann die weitere Auswertung bestimmt. Ein besonders wichtiger formaler Rahmen sind unabhängige Zufallsvariablen und parametrische Verteilungsfamilien, d.h. die Zufallsvariablen haben einen Verteilung P , welche zu einer durch wenige Parameter beschreibbaren Familie Pϑ (x) gehört. Kombiniert man Posteriori-Sicht und die Familie Pϑ (x), so kommt man fast zwangsläufig auf die Likelihood-Funktion Lx1 ,...,xn (ϑ) und alle ihre Anwendungen. Das Likelihood-Prinzip (siehe S. 266) besagt sogar, dass sie alle relevanten Informationen enthält, es also genügt, nur sie zu betrachten. Nur was de facto passiert ist, ist in dieser Perspektive relevant, genauer gesagt, ein Teil dessen, was sich tatsächlich ereignet hat. Alles, was hätte passieren können, aber nicht eingetreten ist, kann vernachlässigt werden. Wie ein Historiker geht sie vom jetzigen Stand der Dinge aus, und die unzähligen möglichen anderen Welten, in denen wir uns befinden würden, wäre die Geschichte nur ein wenig anders verlaufen, spielen keine Rolle. Der Wahlspruch “let the data speak for themselves” wird so gesehen von der Likelihood-Schule am meisten beherzigt. Sie arbeitet tatsächlich nur mit den Daten und der zu diesen gehörigen Likelihood-Funktion, womit sich die darüber hinausgehenden Annahmen in engen Grenzen bewegen, nämlich sich auf die zuvor gewählte bzw. vom Experiment motivierte Familie Pϑ (x) beschränken. Die explorative Datenanalyse und erst recht Data Mining gehen über die formalen Aspekte hinaus. Man könnte sogar sagen, dass für sie formale Aspekte nur insofern eine Rolle spielen, als dass sie die inhaltliche Interpretation der Daten unterstützen. Auch das ist eine Methode, primär die Daten sprechen zu lassen. Anstatt einen oftmals zweifelhaften formalen Rahmen zu verwenden, hält man die Formalia gering und konzentriert sich auf die Inhalte. Das gelingt umso besser, je mehr substanzielles Wissen bei der Analyse eingesetzt werden kann, und sei es noch so schwer explizit zu fassen. Das Ergebnis dieser Analyse(n) sind eine Reihe von Grafiken, Modellen oder Hypothesen. In ihnen sollten sich die für wichtig und belastbar gehaltenen wesentlichen Resultate niederschlagen. Es wäre jedoch künstlich, so zu tun, als flössen in die Ergebnisse nur die Daten ein. Aufgrund der induktiven Wegstrecke, also einer Verallgemeinerung kann dies sogar überhaupt nicht der Fall sein. Vielmehr ist man auf dem ganzen Weg über die Daten hinausgegangen. Diese zusätzlichen Annahmen mögen zunächst klein und formal-explizit erfolgt sein, spätestens wenn man die spezielle Auswertung jedoch in den Kanon einer Wissenschaft eingliedert, verknüpft man jedoch die Daten mit dem vorhandenen (tatsächlichen oder vermeintlichen) Wissen. Und es wäre auch naiv anzunehmen, nur die Daten bestimmten über die Richtung der Auswertung. Von Anfang an gibt es angestrebte Ziele, explizite und implizite äußere Ein-
390
5 Synthese
flüsse, antizipierte Analysen etc. Zudem werden bei jedem Schritt die Daten relativ zum Kontext von Hintergrundinformation bewertet.77 Man erkennt so zum einen, wie wichtig, ja von zentraler Bedeutung diese flexible, intelligente Auswertung der Daten ist. Zum anderen werden aber auch Defizite deutlich. Zuallerest, da alles auf den Daten basiert, wie zuverlässig sind jene? Kann man sich auf sie verlassen, bzw., etwas feiner gefragt, in wie weit sind sie zuverlässig und wo genau liegen die Defizite? So kommt man ebenfalls fast zwangsläufig dazu, die Daten im Vorfeld um Struktur anzureichern, und genau auf diesem Aspekt liegt das Hauptaugenmerk der traditionellen Statistik. “It is only in the design phase that the statistician can help.” ist ein klassischer und oft wiederholter Ausspruch Fishers. Nur wenn bereits die Erhebung der Daten, also insbesondere die Operationalisierung einer theoretischen Überlegung, überzeugend von statten geht, stehen die Chancen gut, dass die so gesammelten Daten jene Qualität haben, die vonnöten ist, um weitreichende Schlussfolgerungen zu stützen.78 Experimentelle Designs sind streng genug, um sowohl die Erzeugung von Daten zu regulieren, ihre Auswertung zu steuern und vor allem ihre Interpretationsmöglichkeiten zu erweitern. Deren argumentativer Kern ist oftmals Mills Methode des Unterschieds: Sorgt man dafür, dass es „Vorher“ keinen Unterschied gibt, interveniert dann und stellt schließlich „Nachher“ einen Unterschied fest, so muss der experimentelle Eingriff die Ursache der festgestellten Diskrepanz sein. Randomisierung stellt nach der herrschenden Meinung Vergleichbarkeit sicher, deshalb stützt gerade sie entscheidend den gewünschten Kausalschluss. Man beachte, dass die Argumentation typischerweise semi-formal ist: Weder ist sie wie Mills Beschreibung qualitativer Natur, noch ist sie vollkommen mathematisiert wie der Bayessche Ansatz, der über eine Formel aus Vorher und Daten das Nachher berechnet. Streng sollte sie gleichwohl sein: “[. . .] the actual and physical conduct of an experiment must govern the statistical procedure of its interpretation [. . .] if an experiment does allow us to calculate a valid estimate of error, its structure must completely determine the statistical procedure by which this estimate is to be calculated. If this were not so, no interpretation of the data could ever be unambiguous; for we could never be sure that some other equally valid method of interpretation would not lead to a different result.” (Fisher (1966: 34f), meine Hervorhebung.)
Formale Vorkehrungen bei der Datenerhebung sind jedoch nur ein Aspekt. Parallel dazu und häufiger noch im Vorfeld laufen inhaltliche Überlegungen ab. Sie stellen den Kontext dar, in den jede Untersuchung eingebettet ist. Zum einen motivieren sie ein konkretes Experiment, zum andern leiten sie 77
Im Kompassbild ist man ganz im Norden angekommen, wenn die Ergebnisse der aktuellen Untersuchung in das bisherige Wissen eingegliedert worden sind. Auf dem Weg dorthin greift man immer weiter über den aktuellen Datensatz hinaus. Zunächst oft nur syntaktisch, also formal-numerisch, dann immer mehr auch semantisch, also inhaltlich-substanziell, was oft auch zugleich nicht-formal, also „informell“ bedeutet. 78 In der Kompassmetapher entscheidet sich also bereits im Südwesten, wie gangbar der induktive Weg nach Norden wird.
5.2 Der Forschungszirkel I
391
dann auch die Analyse der Daten. Zwar kann ein Statistiker die optimale Art und Weise der Datenerhebung empfehlen, welcher Frage jedoch überhaupt nachgegangen wird, welche Motivation hinter der Untersuchung steht, ob die Hypothese, die in Frage steht, überhaupt plausibel ist, all das entscheidet der Fachwissenschaftler im Vorfeld.79 Und genau hier liegt ein Schwachpunkt der traditionellen Statistik, klar beschrieben von Mosteller und Tukey (1986: 689): When considerable advance information is available, classical methods of inference have not ordinarily incorporated such information into the analysis except perhaps qualitatively or verbally, though it is usually incorporated into the design of the investigation [. . .] We cannot say that advance information always needs to be included in the analysis - or that it never needs to be included.
Statistiker arbeiten mit diesem weiteren Vorfeld und ausladenderen Interpretationsrahmen nur ungern explizit, nicht zuletzt weil er weit vager ist als formale Randbedingungen. Außerdem können substanzielle Aussagen in den meisten Fällen von Fachwissenschaftlern weit besser motiviert und begründet werden als von mathematisch ausgebildeten Statistikern. Angewandte Statistiker und Datenanalysten, die fest in einem Feld verwurzelt sind, kennen diese Scheu weniger. Ihnen ist klar, dass sie nur mit statistischer Technik (verbunden mit entsprechender Rechenkraft) sowie substanziellen Überlegungen weiterkommen. Mit umfangreichen Beobachtungsdaten, aber wenig formaler Struktur ausgestattet, bleibt ihnen gar nichts anderes übrig, als auf das Umfeldwissen zu rekurrieren. Auch die meisten Wissenschaftstheoretiker zögern nicht, gerade das Umfeld als wesentlich anzusehen, sind nach der herrschenden Lehre doch alle Beobachtungen „theoriegeladen“, und wie sollten Daten für sich alleine genommen - ohne substanziellen Kontext - reden können? Die Daten sind ja letztlich nur ein Mittel zum Zweck; sobald man mit ihrer Hilfe weiter gekommen ist, kann man sie archivieren. „Tief im Westen“ ist die Art der Operationalisierung, der Übergang von der allgemeinen Theorie zur konkreten Umsetzung von entscheidender Bedeutung,80 ganz im Osten kommt es auf die Anknüpfung des konkreten Falls an die allgemeineren Modelle und Hypothesen an.81 Will man schließlich den Übergang „von West nach Ost“ auf einen sehr kleinen formalen Nenner bringen, so kommt man fast unweigerlich zum Bayesschen Mechanismus. Das Bayessche Inferenzmodell ist Statistik en miniature (siehe S. 270). Man könnte auch sagen, es ist der philosophische Kern der Statistik. Seine Anwendung wirkt überzeugend, wenn die Situation ohne große Blessuren darauf reduziert werden kann: Beim (konsistenten) Wandel einer subjektiven Überzeugung, beim Übergang eines klar fassbaren Informationsstandes in einen neuen (z. B. wenn a priori keine verwertbare Information 79
In der Kompassmetapher ist es so gesehen der Nordwesten, der bestimmt, welche Fragen man empirisch überhaupt untersucht. 80
Siehe insbesondere Abschnitt 5.4.1
81
Siehe insbesondere Abschnitt 5.4.4.
392
5 Synthese
vorhanden ist), im Fall, dass alle relevante Information in der LikelihoodFunktion steckt usw. Oft dauert diese Reduktion auf das Wesentliche jedoch lange Zeit, denn es ist in der Praxis zumeist weder klar, auf welches Vorwissen man sich genau stützen kann, noch, welche Aspekte wirklich relevant sind. “Let the data speak for themselves” ist auch im Bayesschen Rahmen möglich. Objektive Bayesianer ergänzen die Daten zwar um die Priori-Verteilung, doch wird diese gerade so konstruiert, dass sie möglichst „neutral“ ist bzw. so wenig wie möglich über die Daten hinausgehende Informationen enthält. In diesen Gedankenkreis gehört auch Fishers Fiduzialmethode. Obwohl jene heute im Allgemeinen als sein größter Lapsus angesehen wird,82 ist es wichtig, ihre Motivation zu verstehen: Die Herleitung einer Posteriori-Verteilung ohne explizite Verwendung einer Priori-Verteilung. Fisher selbst schreibt (zitiert nach Bennett (1990: 101), Hervorhebungen im Original): „[. . .] the absence of knowledge a priori is a pre-requisite for the fiducial argument [. . .] Neyman (1934) ergänzt (Hervorhebung im Original): “The possibility of solving the problems of statistical estimation independently from any knowledge of the a priori probability laws, discovered by R. A. Fisher, makes it superfluous to make any appeals to the Bayes theorem.” Insbesondere wenn in wenig entwickelten Forschungsfeldern kaum quantifizierbare Priori-Information zur Verfügung steht, wäre es sehr hilfreich, könnte man aus der Evidenz und weiteren Gesichtspunkten eine Posteriori-Verteilung konstruieren. Formal führte diese Idee jedoch zu immensen Schwierigkeiten, verbunden mit über Jahrzehnte anhaltenden Auseinandersetzungen.83 Insgesamt gesehen ist die Statistik das Gegenstück zur theoretischen wissenschaftlichen Arbeit. Während erstere vor allem für die „praktische Seite“, also den überzeugenden Kontakt mit der Empirie zuständig ist, sind es theoretische Wissenschaftler aller Fächer, die die so erlangten Ergebnisse in den Rahmen ihrer umfassenden Vorstellungen einordnen, bewerten und daraus neue Konzept und Hypothesen entwickeln. Sie halten sich vorzugsweise im oberen Halbkreis des Forschungszirkels auf, Statistiker vor allem im unteren. Nimmt man beide Aktivitäten zusammen, so schließt sich der Kreis der Erkenntnis. Bestenfalls arbeiten beide Parteien eng zusammen, gehen doch Theorien und Experimente, Datenerhebung und -Auswertung, formale wie inhaltliche Aspekte Hand in Hand. 82
Siehe z. B. Efron (1998: 105ff) und Robert (2007: 45f), aber auch viele andere Autoren. Für eine positivere Rezeption mit einem historischen Überblick siehe aber Hampel (2003, 2005) und Aldrich (2000). 83
Siehe insbesondere Pitman (1957) und Savage (1976: 466ff). Die einzige allgemein akzeptierte logisch schlüssige Lösung ist Frasers strukturelle Wahrscheinlichkeit, die - wieder einmal - Invarianzüberlegungen heranzieht, um jene und die Evidenz zu einer Posterioriverteilung zu kombinieren. Dies unterstreicht schon Barnard 1957 in einem Brief an Fisher (Bennett 1990: 36). Das Hauptwerk hierzu ist Fraser (1968), die Nähe zu Invarianzüberlegungen wird insbesondere in Fraser (1961) herausgearbeitet, und einen aktuelleren Überblick enthält Fraser (1996).
5.2 Der Forschungszirkel I
393
5.2.2 Sich ergänzende Perspektiven Da alle Schulen im Allgemeinen die Wahrscheinlichkeitstheorie nutzen und im Besonderen intensiv mit Familien von Wahrscheinlichkeitsverteilungen Pθ (x) arbeiten, scheinen die Differenzen auf der mathematischen Ebene eher gering zu sein. Oft werden dort alle Unterschiede auf das formale Detail reduziert, ob die Parameter oder die Beobachtungen zufällig sind (siehe S. 266). Man lasse sich von einer solchen eingeschränkten Betrachtungsweise jedoch nicht täuschen! Zwar verwenden alle dieselbe mathematische Sprache, jede Formalisierung ist jedoch immer auch eine implizite Festlegung der Fragestellung. Das heißt, inhaltliche Probleme werden aufgrund der verschiedenartigen Perspektiven auch andersartig operationalisiert. Royall (1997: 4) differenziert zum Beispiel zwischen den Fragen (meine Hervorhebungen) 1. What do I believe, now that I have this observation? 2. What should I do, now that I have this observation? 3. [. . .] How should I interpret this observation as evidence regarding A versus B? Im Wesentlichen stellen seines Erachtens Bayesianer die erste Frage, Frequentisten die zweite und Anhänger der Likelihood-Schule die dritte. Damit einher gehen verschiedenartige Formalismen, was wir schon bei der Behandlung von „Unwissenheit“ gesehen haben (S. 268). Einmal wird sie als Gleichverteilung, ein anderes Mal als Familie von Transformationen, ein weiteres Mal überhaupt nicht formalisiert. Es ist wenig verblüffend, wenn fundamental verschiedene Ansatzpunkte zu wesentlich anderen Perspektiven führen, deren Resultate zwar übereinstimmen können - was erfreulicherweise bei vielen praktisch wichtigen Anwendungen der Fall ist - dies jedoch nicht müssen. Ins Positive gewendet: Es ist immer ein Vorteil und kein Nachteil, ein und dasselbe Problem von mehreren Seiten zu beleuchten. Führt man zwei substanziell verschiedene Analysen eines Problems durch, so erhält man entweder eine im Wesentlichen übereinstimmende Antwort, das heißt, die Ergebnisse der Analyse stützen sich gegenseitig oder aber, die Antworten weichen voneinander ab, was einen dazu motivieren sollte, nach der Ursache der Diskrepanz zu suchen: In practice, it is often useful to model a problem in a number of different ways. One may be satisfied if there is reasonable agreement among the conclusions; in the contrary case, a closer examination of the different sets of assumptions will be indicated. (Lehmann und Casella 1997: 1f)
Ganz ähnlich äußern sich Speed (2006) und Chernoff (1986: 5): In doing applied statistics, I feel relatively uninhibited and engage in many practices that might be frowned on by careful dogmatists. With the help of theory, I have developed insights and intuitions that, I believe, prevent me from giving undue weight to generalizations drawn from excessive data dredging or other forms of statistical heresy. This feeling of ease and freedom, however, does not exist until I have formulated some decision theoretic and Bayesian view of the problem. Until
394
5 Synthese
then, there is discomfort and the feeling that the problem is not well understood. In this sense, I am a Bayesian and a decision theorist in spite of my use of Fisherian tools.
Jeder der klassischen Ansätze hat etwas für sich, und wie im Fall von Messtheorie und Statistik ergänzen sie sich zuweilen eher als dass sie einander widersprechen. Damit soll keinem Eklektizismus das Wort geredet werden, wohl aber einer Koexistenz und einer wechselseitigen Befruchtung. Gerade die „englische Schule“ spricht sich in diese Richtung aus, z. B. Barnard (1996b), Barnett (1999) und Cox (2006). Bayarri und Berger (2004: 78) schließen daraus: Philosophical unification of the Bayesian and frequentist positions is not likely, nor desirable, since each illuminates a different aspect of statistical inference.
So ist es sinnvoll, routinemäßig Bayessche Verfahren auf ihre frequentistischen Eigenschaften hin zu untersuchen und orthodoxe Ad-Hoc-Ansätze in einem Bayesschen Rahmen tiefer zu verstehen. Es gibt auch viele Artikel mit dem Wort reconciliation im Titel, Integrationsbemühungen auf einer eher formalen Ebene84 und sogar einen Ansatz, der, wie sein Name, Empirical Bayes, schon verrät, eine originäre Verbindung zwischen beiden Ideenwelten ist. Er geht auf Robbins (1956) zurück und wird von allen Seiten begrüßt. Dabei geht es kurz gesagt darum, die so strittige Priori-Verteilung des Bayesschen Ansatzes genauso durch Beobachtungen zu untermauern wie den wesentlich unstrittigeren Likelihood-Part.85 Es gäbe kaum Konflikte zwischen den Schulen, könnte man sie nebeneinander stellen, also jeder einen separaten „Abschnitt“ des Forschungszirkels zuweisen. Doch leider beschränkt sich nur die Likelihood-Schule im Wesentlichen auf die rechte Seite des Forschungszirkels. Ihre Auswertung besteht in der Extraktion der in der Likelihoodfunktion enthaltenen Informationen, das heißt, sie analysiert primär oder sogar ausschließlich die aus den Daten und dem Modell PΘ (x1 , . . . , xn ) hervorgehende Likelihoodfunktion. Auch wenn diese Denkrichtung das Likelihood-Prinzip ins Feld führt, so ist ihre Art, mit Daten umzugehen, offenkundig sehr eng. Insbesondere vernachlässigt man alle informellen Aspekte, da sich nur in PΘ formalisierte Überlegungen auch wieder in der Likelihood-Funktion niederschlagen. Das kann man jedoch auch ins Positive wenden: Die numerische Analyse ist eng umrissen und standardisiert. Damit kann sie als intersubjektiv verbindlich Basis weiter gehender, insbesondere substanzieller Diskussionen dienen. Misst zum Beispiel ein Likelihood-Ratio-Test eine Evidenz (Odds) von 10:1, so ist es am Fach84 85
Z. B. J. Hill (1990)
Einen Überblick bietet Carlin und Louis (2000). Nicht zuletzt hat Efron (2003) gezeigt, wie man diesen theoretisch überzeugenden Ansatz erfolgreich in der Praxis einsetzen kann. In einem Ausblick auf das 21. Jahrhundert schreibt er dazu optimistisch: „Perhaps we are verging here on a new compromise between Bayesian and frequentist methods [. . .] (Efron 1998: 110).
5.2 Der Forschungszirkel I
395
wissenschaftler, diese Aussage der Daten relativ zu seinem Kontextwissen zu beurteilen und in einer Publikation entsprechend zu würdigen. Die orthodoxe Statistik sieht ihre Hauptaufgabe vor allem im Vorfeld, also bei der Datenbeschaffung. Angesichts dessen ist es nicht verwunderlich, dass ein führender Vertreter der Likelihood-Schule der traditionellen Statistik eine herausgehobene Stellung bei der Erhebung von Daten, insbesondere bei der Planung von Experimenten zuweisen kann. Royall (1997: 108) schreibt: “The probabilistic properties of procedures for generating and analyzing statistical data are important for planning experiments. But after the experiment is done, these properties are not appropriate for representing and interpreting the evidence that has been produced.” Er kritisiert, dass sich ihre Rolle jedoch nicht darauf beschränkt. Vielmehr eben jene Verfahren auch für die Bewertung der erhaltenen Evidenz verwendet. Er fährt fort: “Nevertheless, their use for that purpose is central to scientific applications of the statistical methods based on the Neyman-Pearson and significance-testing paradigms.” Genau dies hält er für äußerst problematisch, und er spricht sich für die LikelihoodFunktion als entscheidenden „Träger aller Evidenz“ aus. Er schließt mit dem Satz: “The new paradigm restricts these probabilistic properties to their proper role (planning); it represents and interprets observed statistical evidence in terms of likelihood ratios, in accordance with the law of likelihood.” Der scharfe Konflikt zwischen Bayesianern und orthodoxer Statistik rührt daher, dass es zwischen beiden erhebliche Überschneidungen gibt. Um zur Posteriori-Verteilung zu kommen, benötigt das Bayessche Theorem Likelihood und Priori-Verteilung. Deshalb reichen Bayesianer der LikelihoodSchule die Hand (S. 266ff), und verwickeln sich zugleich mit Frequentisten bei der Datenerhebung in heftige Auseinandersetzungen: Wenn die (objektive) Priori-Verteilung „Unwissenheit“ repräsentiert, so ignoriert sie Vorwissen und insbesondere das formale, experimentelle Design. Formalisiert die PrioriVerteilung das vorhandene Wissen, so ist dieses nur dann nicht „subjektiv“, wenn es empirischer Natur ist. So schreibt zum Beispiel Barnett (1999: 249): “In situations where the prior information is quantitative and relates to a prior distribution admitting a frequency interpretation, one hears little objection expressed to the principle, or practice, of Bayesian inference.” Ähnlich äußern sich Mosteller und Tukey (1986: 689): The simplest and least controversial examples of Bayesian inference arise when the prior distribution is solidly founded upon past observations of other data.
Bestenfalls wird die Priori-Verteilung so zur Schnittstelle zum inhaltlichen Kontextwissen, d. h. sie operationalisiert fachspezifische Einsichten. Dabei berücksichtigt sie jedoch nicht den wesentlichen Unterschied zwischen beliebigen Beobachtungen und experimentellen Messungen. Im Allgemeinen sind beliebige, zahlreiche Randbedingungen nur schwer mithilfe einer einzigen Wahrscheinlichkeitsverteilung zu fassen. Bayesianer kritisieren andererseits die zahlreichen, komplexen Datenerhebungsregeln der klassischen Statistik. Nicht nur sind diese schwer logisch zu begründen, sie sind auf ihre Wei-
396
5 Synthese
se mindestens genauso eng. Gibt es schon bei der Datenerhebung erheblich Unterschiede, so müssen diese sich auch in der Analyse und Interpretation niederschlagen. Während das oft informelle Einbeziehen von Kontextwissen die orthodoxe Datenauswertung zu einem subtilen, zuweilen auch vagen Geschäft werden lässt, liefert der stringente Bayessches Formalismus eindeutige Ergebnisse. Das heißt, auch auf dieser Seite des Forschungszirkels lässt sich trefflich darüber streiten, welche Resultate stichhaltiger und angemessener sind.
5.3 Der statistikinterne strategische Konflikt Die Geschichte ist der beste Lehrer mit den unaufmerksamsten Schülern! Indira Ghandi, zitiert nach Köhler (2008: 123)
5.3.1 Vorher versus Nachher Der Konflikt zwischen den verschiedenen statistischen Schulen entzündet sich also am unteren Ende, „im Süden“ des Forschungszirkels. Die S. 269ff genannten Teilaspekte gruppieren sich vor allem um die Frage, wie mit der Situation vor und nach der Erhebung der Daten umzugehen ist. Eine Reihe von Begriffspaaren decken ihn ab: prä ↔ post, Priori-Verteilung ↔ Posteriori-Verteilung, prospektiv ↔ retrospektiv, Vorhersage ↔ nachträgliche Erläuterung, aber auch, etwas allgemeiner, Entdeckungs- ↔ Begründungszusammenhang. Box (1990a) unterscheidet zwischen estimation und criticism,86 Freedman (2008a: 238) zwischen “two styles of inference. • Randomization provides a known distribution for the assignment variables; statistical inferences are based on this distribution. • Modeling assumes a distribution for the latent variables; statistical inferences are based on that assumption. Furthermore, model-based inferences are conditional on the assignment variables and covariates.” (Meine Hervorhebungen.) Bjørnstad (1996: 798) differenziert: “[The likelihood principle] is concerned with evaluation of information in the actual data, whereas frequentist evaluation is concerned with method performance in hypothetical repetitions of the experiment.” Dies führt Barnett (1999: 192) genauer aus: On the one hand, the procedure of using the sample mean (or some other measure) to estimate μ could be assessed in terms of how well we expect it to behave; that is, 86
Ersteres hält er für eine Stärke des Bayesianischen Ansatzes, letzteres für dessen Schwäche. Bei der orthodoxen Statistik ist es seines Erachtens genau anders herum.
5.3 Der statistikinterne strategische Konflikt
397
in the light of different possible sets of data that might be encountered. It will have some average characteristics that express the precision we initially expect, i.e. before we take our data [. . .] The alternative concept of final precision aims to express the precision of an inference in the specific situation we are studying. Thus, if we actually take our sample and find x ¯ = 29.8, how are we to answer the question ‘how close is 29.8 to μ’ ? This is a most pertinent question to ask - some might claim that it is the supreme consideration. Within the classical approach we must rest on any transferred properties of the long-term behaviour of the procedure itself.87
Efron (1978) bringt die Unterschiede in einem einzigen Beispiel auf den Punkt. Es unterstreicht, dass die diametral verschiedenen Sichtweisen zu immensen Interpretationsunterschieden führen. Der unbekannte Erwartungswert μ einer Normalverteilung N (μ, σ 2 ) mit bekannter Varianz σ 2 sei aufgrund einer Stichprobe des Umfangs n zu schätzen. Bayesianisch arbeitet man mit Vorwissen und kommt auf ein „Glaubwürdigkeitsintervall“ (credibility interval) der Gestalt P (gu ≤ μ ≤ go ) = 0, 95, dessen untere und obere Grenzen gu sowie go vom Vorwissen und der konkreten Stichprobe abhängen. Dieses hat eine einleuchtende Interpretation: Mit einer Wahrscheinlichkeit von 95% liegt der unbekannte Wert von μ zwischen gu und go . Das Intervall ist umso kürzer und damit informativer, je größer n ist, je mehr Daten also gesammelt wurden, bzw. je mehr bereits vor Beginn der Untersuchung bekannt war. Nach Neyman und Pearson arbeitet man nur mit der Stichprobe x1 , . . . , xn , berechnet x ¯ = (x1 + . . . + xn )/n, und kommt auf das Konfidenzintervall (confidence interval) √ P (|¯ x − μ| ≤ 2σ/ n) = 0, 95, was bei kaum vorhandenem Vorwissen numerisch ziemlich exakt mit dem Glaubwürdigkeitsintervall übereinstimmt (siehe z. B. (Jaynes 1976), insbesondere S. 231). Das Konfidenzintervall hat√jedoch eine√völlig andere Interpretation, nämlich “The interval [¯ x − 2σ/ n, x ¯ + 2σ/ n] covers the true value of μ with frequency 95% in a long series of independent repetitions of x ¯ ∼ N (μ, σ 2 /n)” (Efron 1978: 234). Prägnant formuliert heißt das: “[. . .] a confidence interval is a probability statement about the data, given the parameter, rather than one about the parameter, given the data.” (Lindley 2002: 22f) Das Konfidenzintervall entstammt einer Prä-Betrachtung und bezieht sich damit auf die (unabhängig und identisch verteilten) Zufallsvariablen X1 , . . . , Xn . Aufgrund der konkreten Beobachtungen wird über die Verteilung dieser Zufallsvariablen (nämlich deren gemeinsamen Erwartungswert) eine Aussage gemacht. Nachdem die konkrete Stichprobe x1 , . . . , xn vorliegt und das Intervall I(x1 , . . . , xn ) berechnet wurde, gilt entweder, dass der wahre aber unbekannte Parameter μ im berechneten Intervall liegt oder nicht, also 87
Alle Hervorhebungen in den gerade zitierten Originalen.
398
5 Synthese
μ ∈ I(x1 , . . . , xn ) oder μ ∈ / I(x1 , . . . , xn ). Damit ist P (μ ∈ I(x1 , . . . , xn )) = 1 oder P (μ ∈ I(x1 , . . . , xn )) = 0. Die Zufälligkeit steckt, wie die Notation auch zeigt, in X1 , . . . , Xn , also im Prozess der Datengenerierung. Dem entsprechend ist das Konfidenzintervall I(X1 , . . . , Xn ) zufällig und die Aussage P (I(X1 , . . . , Xn )) = 0, 95 gibt Auskunft über die Art und Weise, wie die Daten erhoben wurden. Jene hat eine gewisse Zuverlässigkeit: Bei häufiger Wiederholung des Experiments liegt man in ca. 95% aller Fälle richtig. Ob man im konkreten Fall, also bei einem bestimmten Datensatz x1 , . . . , xn „Glück gehabt hat“, also μ im konkreten Intervall I(x1 , . . . , xn ) liegt, vermag man nicht zu sagen. Man erkennt so erneut, dass die traditionelle Statistik ihr Hauptaugenmerk auf den Prozess X1 , . . . , Xn und damit den zugehörigen Stichprobenraum lenkt, während es Bayesianern auf Aussagen über die Parameter einer Verteilung Pθ (x) und andere latente Strukturen ankommt, mit deren Hilfe sie die Daten x1 , . . . , xn beschreiben.88 Noch etwas anderes kommt hinzu. Erfährt man im Nachhinein, dass der Prozess der Datengewinnung ein anderer war als zuvor angenommen, so ändert dies Konfidenzintervalle, Schätzwerte usw., sind diese doch alle Funktionen der Zufallsvariablen X1 , . . . , Xn oder zumindest derer gemeinsamen Verteilung. Efron (1978: 236f) gibt ein schlagendes Beispiel: “On the day the score x ¯= 160 was reported,89 our test-grading machine was malfunctioning. Any score x ¯ below 100 was reported as 100. The machine functioned perfectly for scores x ¯ above 100.” Obwohl der beobachtete Wert weit oberhalb des „kritischen Bereichs“ fehlerhaft dokumentierter Werte liegt, ändert sich dessen Interpretation, einfach weil die Menge aller möglichen Werte, relativ zu denen die Beobachtung gesehen wird, nun eine andere ist. Efron ist über diese völlig natürliche Konsequenz der Prä-Perspektive alles andere als erfreut. Er fährt fort: “[. . .] it is disturbing that any change at all is necessary. [We received] no new information about the score actually reported, or about I.Q.’s in general. It only concerned something bad that might have happened but didn’t.” 90 Das gerade erzielte, vermeintlich absurde Resultat ist bei genauer Betrachtung nicht unsinnig, sondern lediglich bezüglich der gewählten Perspektive überaus folgerichtig. Es stellt sich nicht die Frage, ob diese Perspektive richtig oder falsch ist, sondern ob sie eher angemessen oder irrelevant ist. Würde es sich in Efrons Beispiel nicht um Intelligenzquotienten sondern um die Steigerung der globalen Durchschnittstemperatur handeln, so würden wir die Vorhersage einer sechsprozentigen Steigerung natürlich mit ganz anderen Au88
Wir erwähnen auch das nicht ganz unwesentliche, aber in der Fachliteratur nicht hinreichend gewürdigte Detail, dass sich Konfidenzintervalle auf suffiziente Statistiken stützen sollten. Ansonsten verschenkt man Information. Fisher, zitiert nach Bennett (1990: 187), warnt: “If for this purpose non-sufficient estimates are employed [our conclusions] will be as definitely erroneous as if we had arbitrarily rejected or ignored a portion of the available data and based our conclusion upon the selected remainder.” 89 Bei einer Intelligenzmessung, es handle sich also um einen Intelligenzquotienten. 90
Meine Hervorhebung, siehe auch die Bemerkung Jeffreys, S. 88.
5.3 Der statistikinterne strategische Konflikt
399
gen beurteilen, wenn wir wüssten, dass ein Anstieg ohnehin unvermeidlich, also ein Verminderung der Temperatur auf einen Wert unter 100%, gar nicht möglich war. Eine Posteriori-Perspektive, welche jede Interpretation unter den tatsächlich beobachteten Werten bedingt, hat den Vorteil, sich nicht mehr zu ändern. Efron beendet den Absatz mit den Worten: “Bayesian methods are free from this defect; the inferences they produce depend only on the data value x ¯ actually observed, since Bayesian averages [. . .] are conditional on the observed x ¯.” Auch Casella (1992: 3f) hebt die Unterscheidung klar hervor: Inference made conditional on the data must, necessarily, connect a statement about the unknown parameters to the data actually observed. This fact separates conditional confidence inference from unconditional, or pre-data, confidence inference.
Der S. 269 genannte, vermeintlich kleine formale Unterschied zwischen Parameter- und Stichprobenraum, zwischen „zufälligen“ Daten oder „zufälligen“ Parametern, ist also alles andere als nebensächlich. Vielmehr formalisiert er fundamental verschiedenen Perspektiven.
5.3.2 Konflikte um den wesentlichen Unterschied Formalisierung: Zufallsvariable X versus Realisierung x Die heute orthodoxe Statistik richtet ihr Augenmerk immer auf zufällige Vorgänge und Zufallsvariablen Xi oder zufallsgesteuerte Prozesse sowie deren Eigenschaften. Dem entsprechend ist die gemeinsame Verteilung aller Zufallsvariablen die entscheidende Begriffsbildung und man ordnet konkrete Stichproben, also zu erhaltende oder schon gemachte Beobachtungen Xi = xi in diesen Rahmen ein. Es ist der Raum aller möglichen Beobachtungen bzw. Stichproben, also der Stichprobenraum, in dem sich alles abspielt, was dessen zentrale Bedeutung in der klassischen Statistik begründet. Mit den nicht-technischen Worten von Tukey (1951: 16): [. . . ] the whole of modern statistics, philosophy and methods alike, is based on the principle of interpreting what did happen in terms of what might have happened.91
Bei dieser Grundüberlegung sieht man konkrete Daten immer relativ zu einer Gesamtheit aller möglichen Realisierungen, womit man - operationell betrachtet - bei der (hypothetisch) oftmaligen Wiederholung ein und desselben Zufallsexperiments angelangt ist und die Frage entscheidend wird, was sich auf lange Sicht ergibt. (Auch entdeckt man hier einen weiteren Grund für die vorherrschende Populations-Stichproben-Auffassung.) Die Zufallsvariablen X samt ihren Eigenschaften sind in dieser Perspektive wichtiger als die 91
Heute würde man von “counterfactuals” sprechen, auch wenn viele Statistiker lieber den Begriff “potential outcomes” benutzen (siehe S. 441f).
400
5 Synthese
eigentlich vorhandenen Daten x, es sind gerade nicht die konkreten Daten, sondern die Prozesse, die zu ihnen geführt haben, die im Mittelpunkt des Interesses stehen. Man muss weder Bayesianer noch Empirist sein, um dies zu missbilligen, schon allein deshalb, weil alles, was sich im Vorfeld, bei der Entstehung der Daten ereignet haben mag, weit weniger präzise zu fassen ist, als die vorliegenden Fakten, also die konkret vorhandenen Daten. Um einen anschaulichen Vergleich zu wählen: So sehr sich die Kriminalpolizei auch für den Hergang einer Tat und potenzielle Motive Verdächtiger interessiert, weit beweiskräftiger sind die vorhandenen Spuren, weshalb auch jede einschlägige Untersuchung mit deren Sicherung und Auswertung beginnt. Fakten lassen sich nur schwer abstreiten, während der Tathergang immer rekonstruiert werden muss, oft eine Reihe von Tätern in Frage kommen, und man sich verborgenen psychologischen Vorgängen nur mit einem Gutteil Spekulation annähern kann. Analog scheint die traditionelle Statistik tendenziell dem Vorfeld der Datenentstehung zu viel Aufmerksamkeit zu widmen und gleichzeitig die Daten selbst zu vernachlässigen. Verdächtig ist zudem, dass trotz der genannten Schwerpunktsetzung der Prozess der Datengenerierung zumeist idealisiert, etwa mithilfe des omnipräsenten IID-Modells behandelt wird. In diesem und anderen mathematisch gut handhabbaren statistischen Standardmodellen wird im Allgemeinen kein Versuch unternommen, den tatsächlichen Prozess der Datenentstehung realitätsnah zu erfassen. Etwa wurden frühe Arbeiten zum Selektionsproblem (siehe z. B. Blackwell und Hodges (1957) und Bayarri und DeGroot (1990)) nicht mit Emphase weiterentwickelt, auch wenn es neuerdings, insbesondere in der Ökonometrie, explizite assignment models gibt.92 Überaus typisch ist, dass mögliche Selektions- wie auch Versuchsleitereffekte fast immer als störend empfunden werden, man versucht sie in der Praxis durch geeignete Maßnahmen auszuschließen, und nicht, sie explizit zu modellieren. Die Lehrbuchstatistik erschöpft sich stattdessen meist in Mahnungen, also der verbalen Beschreibung von Gefahren, die außerhalb „kanonischer Methoden“ der Datenerhebung drohen. Eine solche Kritik ist jedoch schwach - da einfach, qualitativ und fundamental -, statt konstruktiv, quantitativ und spezifisch. Warum X wichtig ist (unbedingte Perspektive) Gemäß der üblichen Lesart des Likelihood-Prinzips (siehe S. 266) spielt die Art, wie die Daten zustande kommen, keine Rolle. Demgemäß sagen Edwards et al. (1963: 193):93 The likelihood principle emphasized in Bayesian statistics implies, among other things, that the rules governing when data collection stops are irrelevant to da92
Für einen Überblick siehe Gangl und DiPrete (2004). Wir vertiefen dieses Thema in Abschnitt 5.4.3 und vergleichen es in Abschnitt 5.4.4 mit der ökonometrischen Tradition. 93
Siehe auch ibd., S. 238f.
5.3 Der statistikinterne strategische Konflikt
401
ta interpretation. It is entirely appropriate to collect data until a point has been proven or disproven, or until the data collector runs out of time, money or patience.
Dies widerspricht diametral der unbedingten Sichtweise, die ja gerade die konkret beobachteten Daten in den Kontext aller möglichen Stichproben einordnet. Die von Bayesianischer Seite proklamierte Irrelevanz der Stoppregel haben Frequentisten sogleich genutzt, um ein Paradoxon, das StoppregelParadoxon, zu konstruieren (siehe insbesondere Ghosh (1988: 67ff, 85) sowie Mayo (1996: 352ff)). Das Paradoxon trifft jedoch jede reine PosterioriAnalyse, die sich nicht um die Art, wie die Daten zustande kommen, kümmert: Es sei bekannt, dass X standardnormalverteilt sei. Ein Test verwirft die Hypothese, dass der Lageparameter μ = 0 ist, wenn nach n unabhängigen Beobachtungen x1 , . . . , xn deren arithmetisches Mittel |¯ xn | eine gewisse (positive, große) Schwelle überschreitet. Mit Wahrscheinlichkeit 1 kommt man beim fortgesetzten Sammeln von Beobachtungen zu einem n, so dass |¯ xn | den √ Wert 3/ n übersteigt. Da dies anders gesagt mehr als drei Standardabweichungen von x ¯n sind, hat man auf dem 1%-Niveau die Hypothese abzulehnen - obwohl man weiß, dass jene richtig ist!94 Suppes (1982: 464ff) gibt ein verwandtes und noch einfacheres Beispiel: Es sei bekannt, dass in einer Urne mit n = 60 Kugeln zwei Farben (schwarz und weiß) möglich sind und eine der Farben deutlich häufiger ist als die andere. Mir wird erlaubt, 12 Kugeln (mit Zurücklegen) zu ziehen, um zu entscheiden, ob „schwarz“ oder „weiß“ häufiger ist. Natürlich sollte ich dann im Vorfeld darauf bestehen, dass die Kugeln gut durchmischt werden und „zufällig“ gezogen werden, also jede Kugel dieselbe Chance hat, in die Stichprobe zu gelangen. Ansonsten könnte ein böswilliger Versuchsleiter selektieren, also mir bevorzugt oder sogar ausschließlich Kugeln jener Farbe unterschieben, für die ich mich entscheiden soll. Der Versuchsleiter sorgt in diesem Beispiel für einen irreführenden Selektionseffekt, der die Daten so sehr verzerren kann, dass ein Rückschluss auf die Population (Urne) unmöglich ist. Eben dieser Effekt kann sich schon einstellen, wenn statt aller Daten nur ein vermeintlich relevanter Teil betrachtet wird. Die in Dalal et al. (1989) dargestellte Untersuchung zur ChallengerKatastrophe im Jahr 1986 liest sich wie das tragische Praxisbeispiel hierzu. Weil NASA-Ingenieure lediglich jene Daten der Shuttle-Missionen heranzogen, bei denen Störfälle auftraten, also die „problematischen Starts“ betrachteten, übersahen sie den engen Zusammenhang zwischen niedrigen Außentemperaturen beim Start und technischen Problemen, der bei der Betrachtung aller Daten, also aller Starts von Raumfähren, offenkundig ist. Die man94
Das Paradoxon ist praxisrelevant, da man oft auf eine völlig analoge Art testet, ob eine randomisierte Gruppeneinteilung balanciert ist. Auch dort gibt es keinen Zweifel an der H0 , da man ja selbst randomisiert hat. Ein signifikantes Ergebnis ist also zwangsläufig ein Fehler 1. Art. (Siehe z.B. V. Berger (2005a: 17)..) Warum testet man gleichwohl? Offensichtlich, um mit dem Test zu überprüfen, ob vergleichbare Gruppen vorliegen. Siehe S. 229ff.
402
5 Synthese
gelnde Erkenntnis führte zur Startfreigabe, was bei einer äußerst niedrigen Außentemperatur dann zur Explosion der Raumfähre führte. Sie belegt äußerst drastisch, wie wichtig es ist, die Art der Datenerhebung bei der Interpretation zu berücksichtigen, was die Orthodoxie völlig zurecht betont. Warum x wichtig ist (bedingte Perspektive) Schon Cox (1958) hat gezeigt,95 dass die unbedingte Sicht zwar nach den Kriterien der Neyman-Pearson-Theorie besser sein kann, gleichwohl eine bedingten Inferenz weit angemessener erscheint. Er wählt dazu zwei normalverteilte Zufallsvariablen X21 ∼ N (θ, σ12 ) und X22 ∼ N (θ, σ22 ) mit bekannten Varianzen, wobei zudem bekannt sein soll, dass die erste Varianz viel größer sei als die zweite. Ein Münzwurf entscheidet, welcher der beiden Normalverteilungen eine zufällige Beobachtung x entstammt. Man hat also ein zweistufiges Experiment, wobei X1 der Münzwurf ist und in Abhängigkeit von dessen Ergebnis die eine oder die andere Normalverteilung von Belang ist. Testet man nun z. B. die Hypothese θ = 0 bei vorgegebenem Niveau α = 0, 05, so stellt sich bei der bedingten Betrachtung, d.h. wenn man das Ergebnis des Münzwurfs kennt, heraus, dass x > 1, 64σi die kritischen Regionen sind. Gemäß der Vorgehensweise der orthodoxen Theorie ist dies jedoch nicht der Test mit der größten Power, welcher (in etwa) die folgende Gestalt hat: Geht x auf die erste Normalverteilung zurück, so wähle man x > 1, 28σ1 , im anderen Fall x > 5σ2 . Der Grund für diese Asymmetrie ist, dass man die über die gesamte Situation (vor dem Ergebnis des Münzwurfs, also mit den Zufallsvariablen X1 , X21 und X22 ) eine Aussage macht. Gilt die Alternativhypothese, ist also θ = θ∗ = 0, so lässt sich im zweiten Fall, also bei kleiner Varianz σ22 , dies nahezu perfekt erkennen. (Die Beobachtung fällt dann mit einer sehr großen Wahrscheinlichkeit nämlich in ein kleines Intervall um θ ∗ , so dass die Wahrscheinlichkeit, sich fälschlicherweise für H0 , also θ = 0 zu entscheiden, nahe Null ist.) Um insgesamt das Niveau von 5% einzuhalten kann man also im ersten Fall „großzügig“ sein und einen großen kritischen Bereich wählen, der in jenem Fall mit fast zehnprozentiger Wahrscheinlichkeit einen Fehler 1. Art begeht. Über die gesamte - zufällige - Situation betrachtet hält man das Fehlerniveau von 5% ein. Cox (1958: 360f) sagt dazu: Now if the object of the analysis is to make statements by a rule with certain longrun properties, the unconditional test just given is in order, although it may be doubted whether the specification of desired properties is in this case very sensible. If, however, our object is to say ‘what we can learn from the data that we have’, the unconditional test is surely not good. Suppose that we know we have an observation from X21 . The unconditional test says that we can assign a higher level of significance than we ordinarily do, because if we were to repeat the experiment, we might sample some quite different distribution. But this fact seems irrelevant to the interpretation of an observation which we know came from a distribution with variance σ12 . That is, 95
Ein ähnliches Beispiel geht auf R. A. Fisher zurück (siehe Efron (1978: 239)).
5.3 Der statistikinterne strategische Konflikt
403
our calculations of power, etc. should be made conditionally within the distribution known to have have been sampled, i.e. if we are using tests of the conventional type, the conditional test should be chosen.
Ein anderes instruktives Beispiel stammt von Basu96 und zeigt, dass der Unterschied der Perspektiven fundamental und gewiss nicht auf die Testtheorie beschränkt ist. Seien X1 , . . . , X100 einhundert Zahlen, von denen nur bekannt sei, dass genau eine von ihnen sehr groß (ca. 1010 ) ist und alle anderen zwischen 0 und 1 liegen. Will man deren Summe S = X1 + . . . + X100 aufgrund einer Stichprobe des Umfangs n < 100 schätzen, so gibt es offenkundig zwei Fälle: Die größte Zahl ist Teil der Stichprobe - wodurch sich S ziemlich genau ermitteln lässt; oder aber die größte Zahl ist nicht in der Stichprobe - wodurch sich praktisch keine Aussage über S treffen lässt. Das heißt, es gibt gute und schlechte Stichproben, also solche, die viel, und solche, die wenig Information liefern. Deshalb ist es naheliegend, den Stichprobenraum in mehrere Klassen zu zerlegen, deren jede (in etwa) dieselbe Menge an Information liefert, und jede konkrete Stichprobe sollte relativ zu ihrer „Äquivalenzklasse“ gleichinformativer Stichproben betrachtet werden. Eine Teilmenge des gesamten Stichprobenraums als Rahmen zu wählen, heißt, auf diese Teilmenge zu bedingen. Das Problem ist also nicht unähnlich der Einteilung in suffiziente Statistiken auf der einen und Hilfsstatistiken (siehe S. 372) auf der anderen Seite. Während man sich dabei jedoch auf bestimmte abgeleitete Größen beschränken kann, z. B. x ¯ bei der Schätzung von μ, so bedingt man hier auf einen Teil aller möglichen Stichproben, etwa all jene Stichproben mit x ¯ ≈ c, wobei c eine Konstante ist.
Versuch einer schnellen Lösung: Bedingte Inferenz Das gerade besprochene Problem - was ist der richtige Rahmen der Betrachtung - ist prinzipieller Natur. Es tritt im Zusammenhang mit dem Simpsonschen Paradoxon (Abschnitt 4.7.4) genauso auf wie beim Testen und Schätzen (siehe z.B. Kiefer (1977)). Im Grundmodell unabhängiger und identisch verteilter Zufallsvariablen lässt es sich am einfachsten als die Frage, welche bedingte Betrachtung die angemessenste ist, formulieren. Dabei stellt sich zunächst heraus, dass sowohl die unbedingte Betrachtung, also der gesamte Stichprobenraum, als auch die bedingte Betrachtung, also die Beschränkung auf die realisierten Daten, völlig natürlich sind. Diese beiden Perspektiven stellen zudem offenkundig zwei Endpunkte eines Kontinuums dar. Denkt man an sequentiell erhobene Daten, so ist es natürlich, den Fall zu betrachten, dass von n Beobachtungen die ersten i Stück schon bekannt sind. Für n = 2 wird die Lage besonders übersichtlich. A priori hat man es mit den Zufallsvariablen X1 , X2 zu tun, a posteriori mit den Beobachtungen x1 , x2 und nach der ersten Beobachtung mit x1 , X2 . Die Hoffnung ist 96
Siehe Ghosh (1988: 247ff)
404
5 Synthese
gerechtfertigt, mittels des Studiums solcher „Zwischensituationen“ zu erkennen, wann welche Art von Bedingen, also einer Beschränkung der Situation, angemessen ist. Leider stellt sich jedoch heraus, dass teilweises Bedingen das Problem nur verschiebt, ohne es wirklich zu lösen. Denn wenn nur in gewisser Hinsicht, insbesondere unter einem Teil der Beobachtungen, bedingt wird, vermengt man unweigerlich Priori- mit Posteriori-Gesichtspunkten und führt schnell wieder eine prinzipielle Diskussion. Argumentiert man, dass jede Betrachtung - auch die Ausgangssituation - relativ zu gewissen Randbedingungen ist, so sollte man entweder überhaupt nicht weiter bedingen, und genau diese Situation analysieren, oder aber konsequent sein, und nur die festen Daten zur Analyse heranziehen. Tatsächlich ist unter dem Stichwort bedingte Inferenz eine riesige Literatur entstanden, ohne dass zugleich ein Konsens erwachsen wäre: Fisher stellte sich dem Problem, indem eine ganz Reihe von Konzepten einführte, um zur richtigen Betrachtungsweise vorzustoßen (Casella 1992). Mit den Begriffen einer geeigneten Referenzmenge97 sowie hinreichender (suffizienter) Statistiken, Hilfsstatistiken98 und Störparametern99 versuchte er, die entscheidenden Informationen zu isolieren.100 Eine Referenzmenge ist z. B. eine ausgezeichnete, vom Statistiker als relevant erkennbare Teilmenge des Stichprobenraums, auf die sich eine Inferenz stützen sollte.101 Um sie zu identifizieren, werden die letzteren Begriffe herangezogen, wobei es letztlich immer darum geht, sich auf den für die Fragestellung wesentlichen Teil des Stichprobenraums zu beschränken. So einleuchtend diese Ideen zunächst klangen, so schwer erwies es sich, sie in eine formal befriedigende Form zu bringen. Für einige der Schwierigkeiten und die historische Entwicklung, welche nicht zuletzt durch scharfe Diskussionen zwischen Fisher, Neyman und Pearson geprägt waren, siehe Johnstone (1987a: 490ff). Insbesondere Basu machte sich verdient und bewies einige wichtige Theoreme, insbesondere, dass unter nicht allzu einschränkenden Voraussetzungen jede Hilfsstatistik unabhängig von der interessierenden suffizienten Statistik ist (welche per definitionem alle relevanten Informationen bezüglich eines Parameters enthält). Durchschlagend war der Erfolg gleichwohl nicht. Es ist nämlich überaus typisch, dass es keine oder gleich mehrere Hilfsstatistiken gibt, und Efron (1978) führt berühmte Beispiele von R. A. Fisher und C. Stein an, die zeigen, wie leicht man relevante Information übersieht bzw. wie schwierig es ist, potenziell relevante Informationen zu nutzen: Dabei spielt nicht nur die spezielle Parametrisierung eine wesentliche Rol97
Engl. reference set bzw. recognizable subset
98
Engl. ancillary statistics Engl. nuisance parameters
99
100
Verwandt ist der in Neyman (1957) eingeführte Begriff der Neyman Struktur, d.h. “A structure determined by a statistic that is independent of a sufficient statistic” (Nikulin 2002), welche insbesondere beim Testen von Hypothesen verwendet wird. 101
Siehe z. B. Box et al. (2005: 71).
5.3 Der statistikinterne strategische Konflikt
405
le, was Fisher (1973: 169ff) anhand des anschaulichen Problem of the Nile diskutierte. Zu allem Überfluss kann selbst die Verwendung statistisch offensichtlich irrelevanter „Informationen“ günstig sein! Möchte man die Erwartungswerte von n unabhängigen Zufallsvariablen X1 , . . . , Xn schätzen, so enthält offenkundig Xi keine Information über Xj (i = j). Ist Xi ∼ N (μi , 1), so sollte bei einer einzelnen Beobachtung Xi = xi eben jene die beste Schätzung des unbekannten Parameter μi sein. Stein (1956)102 zeigte jedoch, dass der Schätzer n μ ˆ i = Xi · (1 − (n − 2)/ j=1 Xj2 ) für n ≥ 3 in einem strengen Sinn besser ist! Dieser verblüffende Effekt übte einen bleibenden Einfluss auf die weitere Entwicklung der Statistik aus.103 Nach vielen Jahrzehnten bleibt festzuhalten, dass sich keine elegante, klare Theorie ergeben hat.104 Zwar ist unbestritten, dass Bedingen eine wichtige Rolle in der Statistik spielt und es existieren viele nützliche einschlägige Techniken.105 Da Bedingen jedoch immer auch bedeutet, sich auf etwas als relevant Erachtetes zu beschränken, erhebt sich sofort die Frage, wie man „richtig“ bedingt, also das Relevante vom Irrelevanten scheidet. In den wenigsten Fällen kann man dies a priori entscheiden. Es hat sich zudem als äußert schwer herausgestellt, relevante Informationen von irrelevanten sauber zu trennen. Nur in einzelnen, sehr einfachen Fällen war dies möglich. Efron (1978: 240) resümiert: “So far it has proved impossible to codify this statement in a satisfactory way.” Insbesondere kennt man auch keine allgemeingültige Strategie, um eine geeignete oder gar die beste Referenzmenge zu finden.106 Immerhin stellte sich bei den Untersuchungen heraus, dass Fishers eigenständiger Weg nur dann einer logischen Überprüfung standhält, wenn man seinen Begriffen und Resultaten eine Bayesianische Interpretation geben kann.107 Basu zog daraus Ende der 1960er Jahre die Konsequenz und 102
Siehe auch Casella und Berger (2002: 574) sowie Efron und Morris (1977) Siehe z. B. Efron (1993: 438), der sich auf ein eng verwandtes Resultat in James und Stein (1961) bezieht, schreibt dazu: “The James-Stein theorem seems to say that there is some sort of latent information existing between independent decision problems that cannot be seen when they are considered separately, but comes into play when they are considered together. This is exactly what it does say, in the most specific terms, for the most natural of simultaneous decision problems. The James-Stein effect is substantial.” Ibd., S. 440, heißt es schließlich noch: “The James-Stein estimator is best motivated by a Bayesian argument.” 103
104
Siehe z. B. Basu (1964: 13, 17; Kapitel VII). Auch in Jaynes (2003: Abschnitt 17.1), werden einige schlagende Gründe hierfür ausgebreitet. 105 Für einen Überblick siehe Reid (1995). 106
In der Philosophie gibt es, wie erwähnt, ein sehr ähnliches Problem, wenn man versucht, die engste Referenzklasse (Reichenbach 1949) zu bestimmen. Auch beim Simpsonschen Paradoxon ist ein wesentliches Problem, die „richtige“ Detaillierungsebene zu finden. 107
Siehe insbesondere Ghosh (1988) und Ghosh und Pathak (1992).
406
5 Synthese
wurde Bayesianer.108 Viele Statistiker sahen sich aus den gleichen Gründen gezwungen, sich für die orthodoxe oder die Bayesianische Perspektive zu entscheiden.
5.3.3 Weitere Felder der Auseinandersetzung Sequentielle Statistik109 Die grundsätzlich verschiedenen Perspektiven der Schulen haben bei einer sequentiellen Datenerhebung zur Folge, dass die Behandlung des Problems diametral verschieden ist. Während die einen minutiös die Entstehung der Daten verfolgen und genau darauf ihre Analyse aufbauen, ja sogar ein eigenes Teilgebiet, die sequentielle Analyse, begründen (Wald 1947, Chernoff 1959), ignorieren die anderen diese Entwicklung vollständig, da ihre Posteriori-Sicht besagt, dass die Art, wie die Daten der Reihe nach zustande gekommen sind, unwichtig ist. Wie schwer es ist, einen Kompromiss zu formulieren, der beiden Perspektiven gerecht wird, erkennt man schon am Stichprobenumfang n. Nur wenn man diesen von vorneherein fixiert, erhält man einen schönen Stichprobenraum X1 , . . . , Xn und kann in diesem festen Rahmen Statistik à la Neyman und Pearson betreiben. Dies hat die bekannten Vorteile, aber offensichtlich auch den Nachteil, dass man nicht einfach weitere Beobachtungen hinzunehmen kann, was den Ansatz (wie z. B. clinical trials deutlich machen) überaus unflexibel werden lässt. Favorisiert man hingegen die Posteriori-Betrachtung und stellt die Beobachtungen x1 , . . . , xn samt der in ihnen enthaltenen Information, oft technisch als Likelihood-Prinzip verkleidet, in den Mittelpunkt des Interesses, so kann man daraus zwar eine flexiblere Theorie der Bayesschen Datenanalyse entwickeln (B. Hill 1990), läuft aber immer Gefahr, wesentliche Aspekte der Datenherkunft zu ignorieren.
Randomisierung Es ist kaum verwunderlich, dass auch um die Randomisierung eine scharfe Auseinandersetzung geführt wurde. Frequentistisch führt sie ein vom Versuchsleiter kontrolliertes Zufallselement ein, das sowohl bei der Datenerhebung als auch bei der Datenauswertung von großer, wenn nicht sogar entscheidender Bedeutung ist. Dementsprechend spielt für die einen der assignment 108
Fast schon erschütternd ist die in Ghosh und Pathak (1992: 43) erzählte Anekdote: “Basu, you called me [Barnard] a likelihoodwallah, so I would call you Muhammad Tughlak. Why? Because, like the Indian Emperor of the Middle Ages you will destroy everything (in Statistics) by trying to be too logical!” 109
Engl.: sequential analysis
5.3 Der statistikinterne strategische Konflikt
407
mechanism, also die spezifische Art, statistische Einheiten Gruppen zuzuordnen, eine „kritische Rolle“ (Rubin 1991), und dies gilt gerade auch für Kausalschlüsse, macht die Randomisierung doch den entscheidenden Unterschied zwischen Experiment und Quasi-Experiment aus. Für andere (Pearl 2009a), denen es primär auf die Modellierung kausaler Abhängigkeiten ankommt, hat die Technik der Zusammenstellung vergleichbarer Gruppen lediglich eine randständige Bedeutung. Da zudem alle empirischen Informationen in den gesammelten Daten stecken, bringt eine nachträgliche Randomisierung, also eine Randomisierung, welche die bekannten Daten festhält, prinzipiell keinen Informationszuwachs, eher läuft man Gefahr, die Inferenz von einem unwichtigen, künstlich eingeführten Aspekt abhängig zu machen (siehe S. 242). Die periphere Rolle des Zufalls erkennt man schon bei suffizienten Statistiken, also einer Zusammenfassung der Daten, die um irrelevante, weil unsystematische, zufällige Einflüsse bereinigt wurden.
Interpretation des Wahrscheinlichkeitsbegriffs Zu jeder Zufallsvariable X gehört ihre Verteilung, und viele wichtige Verteilungen lassen sich auf dem Weg über ein einschlägiges Zufallsexperiment motivieren. Ein Münzwurf wird durch die Bernoulliverteilung (S. 79) modelliert, zählt man bei n unabhängigen solchen Würfen die Anzahl der Erfolge aus, führt dies auf eine Binomialverteilung.110 Lässt man dann n gegen unendlich gehen, kommt man nahezu zwangsläufig auf die Normalverteilung usw. Wohldefinierte (wiederholte) Zufallsexperimente sind gut verstandene Prozesse, die Daten erzeugen und gehen natürlicherweise mit einer Häufigkeitsinterpretation von Wahrscheinlichkeiten einher. (Siehe S. 261f.) Zur Realisierung x gehört in der Statistik nicht eine, sondern eine ganze Familie von Wahrscheinlichkeiten Pθ (x) = P (Xθ = x). Die Zufallsvariablen Xθ sind nur Hilfsgrößen, um Näheres über den latenten Parameter θ aussagen zu können. Somit steht der Informationsstand (state of knowledge) im Vordergrund der Betrachtung. Dieser ist notwendigerweise lokal und im Extremfall dezidiert subjektiv geprägt, also ein (personal) degree of belief.
Objektiv versus subjektiv Geht man von „alles ist subjektiv, Objektivität ist nur eine Illusion“ (siehe z. B. de Finetti oder Berger und Berry (1988)) aus, so verstößt man leicht gegen ein Grundprinzip der Wissenschaft, nämlich deren (Streben nach) Objektivität (siehe die Abschnitte 1.2 und 1.3.1). Bei diesem Ausgangspunkt ist Objektivität oft nur eine intersubjektive Übereinstimmung, was im folgenden, typischen Zitat deutlich zum Ausdruck kommt: “Objectivity only applies 110
Aus naheliegenden Gründen notiert als B(n, p)
408
5 Synthese
when the evidence is overwhelming and all are persuaded into agreement.” (Lindley 1995: 244). Eine solche Konsenstheorie der Wahrheit ist, obwohl zur Zeit en vogue, natürlich weit schwächer als die klassische aristotelische, von Tarski (1986) erneuerte Korrespondenztheorie der Wahrheit. Genau diese Schwäche ist für Efron (1986: 4) das entscheidende und häufig zitierte Argument gegen die Bayessche Statistik: “The high ground of scientific objectivity has been seized by the frequentists.” Sokal (1998: 18) hat vollkommen recht, wenn er schreibt “[. . .] nothing is gained by denying the existence of objective scientific knowledge; it does exist, whether we like it or not”. Auch andere führende Statistiker haben sich explizit in diese Richtung ausgesprochen. Charakteristisch ist die Stellungnahme von Cox (1986: 120): “Even for the study of ‘private’ behaviour, it can be argued that the current [Bayesian] theory puts first internal consistency, whereas anchoring in the real world is more important [. . .]” Es ist hier nicht der Ort, eine fundamentale Diskussion über den Wahrheitsbegriff zu führen. Stattdessen teilen wir nur die hoffentlich konsensfähige Position mit, dass selbstverständlich das Subjekt im Forschungsprozess unverzichtbar ist und man es ohne weitere Vorkehrungen lediglich rhetorisch schafft, das „subjektive Element unter den Teppich zu kehren“ (Good 1976). Dies ändert jedoch nichts an der von den meisten Wissenschaftlern wie auch Statistikern geteilten Ansicht, dass Wissenschaft nicht nur nach intersubjektiver Übereinstimmung sondern darüber hinaus auch nach Objektivität strebt. Eine Bayessche Schule, die diesem Aspekt nicht genügend Rechnung trägt, ist wenig überzeugend und entsprechend angreifbar. Andererseits haben nicht nur Bayesianer erkannt, dass vieles in der orthodoxen Statistik nur deshalb objektiv erscheint, weil das subjektive Element nicht explizit formalisiert wird. Es ist eine Sache, Objektivität durch entsprechende experimentelle Vorkehrungen (Randomisierung, Doppel-BlindStudien, Kontrollgruppen usw.) explizit zu befördern, eine ganz andere jedoch, wesentliche subjektive Einflüsse, z. B. bei der Erhebung oder Auswahl von Daten, nicht zu erwähnen, also explizit zu verschweigen. Allein schon die Beschränkung auf die Häufigkeitsinterpretation der Wahrscheinlichkeit kann dazu verleiten, andere zufällige Einflussfaktoren zu unterschätzen bzw. zu übersehen. Insbesondere ist auch die Wahl des Stichprobenraumes, wie wir bei unseren Ausführungen über „bedingte Inferenz“ gesehen haben, und der in der traditionellen Statistik die zentrale Rolle spielt, alles andere als eindeutig oder gar objektiv. Lindley zielt auf diese Schwachstelle mit den Worten: [. . .] whereas a Bayesian uses, as a prop for his methods, the prior distribution, the prop for the other approaches is the . . . [sample space]. Bayesians are often attacked for the arbitrariness of their prior. A reply is that the choice of . . . [sample space] involves similarly arbitrary selections (zitiert nach Barnett (1999: 199)).111
Noch um einiges schärfer schreibt Jaynes (2003: 550): “Orthodoxians, preoccupied with fantasies about nonexistent data sets and, in principle, unob111
Insbesondere verwirft Lindley (1999b: 75) wegen dieses Arguments P -Werte.
5.3 Der statistikinterne strategische Konflikt
409
servable limit frequencies - while ignoring relevant prior information - are in no position to charge anybody with ‘subjectivity’.” Tatsächlich sollte man die Häufigkeit und den Umfang subjektiver Setzungen, insbesondere in Form gerade benötigter Annahmen, in der traditionellen Statistik nicht unterschätzen. Jene gleicht weit mehr einer Sammlung häufig anwendbarer Methoden und vieler punktueller Ergebnisse als einem logisch-stimmigen Gebäude. Adhoc-Setzungen sind die Regel, nicht die Ausnahme, was Bayesianer unter dem Stichwort Adhocery massiv kritisiert haben (siehe z. B. S. 313 und S. 367ff). Die Wahl des Fehlerniveaus ist nur ein prominentes und dabei noch ziemlich harmloses Beispiel von vielen. Rissanen (2007: 104) schreibt allgemeiner zur Neyman-Pearsonschen Testtheorie: “The theory has other intricate definitions specifying desirable conditions, which invariably can be satisfied only in cases where the conditions are obvious.” Cox (1986: 124) bemerkt zwar, dass, “today’s good adhocery is the basis for tomorrow’s general theory,” doch kann das nicht über Efrons ehrliche Einschätzung (S. 270) hinwegtäuschen: „Frequentist theory is shot full of contradictions [. . .]” Gerade bei einem bis ins Detail geplanten statistischen Experiment müssen viele Entscheidungen getroffen werden, die zwar nicht explizit formalisiert werden und deshalb implizit bleiben, gleichwohl jedoch großen Einfluss auf das Ergebnis haben, allen voran Einschluss- und Ausschlusskriterien für die zu untersuchenden Einheiten. Berger (1988: 403) bemerkt mit einiger Genugtuung: “I have several times been cynically amused that some statisticians will have no qualms about basing a decision on a weighted likelihood ratio with rather arbitrarily chosen weight functions, but will cry out in horror at the thought of using a Bayes factor with a prior that is actually thought about!” Wang (1993: 167) gibt sogar eine ganze Liste subjektiver Einflussfaktoren. Howson und Urbach (2006: 182) fahren allgemein fort: [. . .] classical methods necessarily introduce arbitrary elements that are at variance not only with scientific practice and intuition, but also with the objectivist ideals that motivated them. The founders of the classical philosophy were seeking an alternative to Bayesian philosophy, which they dismissed as unsuited to inductive method because it was tainted by subjectivity. It is therefore particularly curious and telling that classical methods cannot operate except with their own, hefty subjective input.
Mit Genugtuung zitieren sie dann E. S. Pearson (1962: 396), der offen und undogmatisch über seine Motivation Auskunft gibt: “Of necessity, [. . .] we left in our mathematical model a gap for the exercise of a more intuitive process of personal judgement in such matters” und er führt dann eine ganze Reihe zentraler Bausteine der klassischen Statistik an: “the choice of the [. . .] class of admissible hypotheses, the appropriate significance level, the magnitude of worthwhile effects and the balance of utilities.” 112 112
E. S. Pearsons unverstellte Haltung ist bewundernswert. Courant und Robbins (2001: XXII) würdigen sie mit den Worten: “Glücklicherweise vergessen schöpferische Menschen ihre dogmatischen Vorurteile, sobald diese die konstruktive Leistung behindern.” Man wünschte sich, dass auch Philosophen sie mehr zu schätzen wüssten, erwachsen aus ihr doch wirkliche Problemlösungen und echter Konsens.
410
5 Synthese
Wie viele philosophisch-prinzipielle Erörterungen neigt auch die vorhergehende zum Dogmatismus, und die heftigen Auseinandersetzungen zwischen den Schulen machen hier (leider) keine Ausnahme. Es ist schwierig, Distanz zu wahren und ruhig zu bleiben, wenn so grundlegende Vorwürfe wie Irrationalität einerseits bzw. unwissenschaftliche Subjektivität andererseits erhoben werden. Wer mag sich schon offen für Objektivität aussprechen, wenn er sich damit zugleich den Vorwurf der Engstirnigkeit bzw. philosophischer Naivität einhandelt? Andererseits fällt es schwer, einem in sich zwar kohärenten Subjektivismus zu folgen, wenn dieser alle Zufälligkeit im Auge des Beobachters sieht und Vorzüge einer konsequenten empirischen Verankerung - insbesondere via relativer Häufigkeiten - eher herunterspielt. Die Auseinandersetzung wird wie bei der Messtheorie durch die normative Komponente weiter verschärft, und gerade die Forderung, dass sich eine rationale Person gemäß gewisser, sogar axiomatisch fixierbarer Regeln verhalten muss verleiht dem Bayesschen Ansatz einen nicht zu unterschätzenden normativen Biss. Als Beispiele wenig freundlicher Auseinandersetzungen mag die Diskussion von Lindley (1982a) dienen, auch Harper and Hooker (1976) und Godambe and Sprott (1971) sind konfliktgeladen. Van Dantzig (1957) ist ein Klassiker. Angesichts der vielen genannten Aspekte sind auch Bayesianer keine einheitliche Gruppe. Wir haben lediglich, wie allgemein üblich, zwischen der „subjektiven“ und „objektiven“ Schule differenziert. In einem häufig zitierten Artikel unterscheidet Good (1983a: 20f) hingegen “46656 varieties of Bayesians.”
5.3.4 Mainstream-Statistik Der pragmatische Status Quo Wollten wir die in Abschnitt 5.1.1 dargestellte Geschichte der Statistik im 20. Jahrhundert kurz zusammenfassen, so war die wesentliche Entwicklung der Weg in die mathematische Statistik, verbunden mit dem Primat der Deduktion. Aufgrund der Positionierung der Statistik im Forschungszirkel formierte sich dagegen heftiger Widerstand. Konsequenterweise ist das Gebiet heute zersplittert und hat sich von einem einheitlichen Denkmuster, wie es zu Fishers Zeiten oder im 19. Jahrhundert etabliert war, verabschiedet. Man probiert Vorschläge jedweder Provenienz aus und entscheidet sich schließlich für die Algorithmen, welche generell einsetzbar sind bzw. im konkreten Fall zum besten Ergebnis führen. Zwar gibt es keine allgemeine Theorie der bedingten Inferenz, doch sind Mischungen von Priori- und Posteriori-Sicht gleichwohl populär. Adaptive Statistiken haben sich genauso einen festen Platz erobert wie eine ganze Reihe von Kombinationen konfirmatorischer sowie explorativer Verfahren. Arbeitet man mit Modellen, so verschwimmt erst recht die Grenze zwischen fester Modellsetzung und flexibler Modellanpassung, und
5.3 Der statistikinterne strategische Konflikt
411
es ist unklar, wo die Deduktion endet und die Induktion einsetzt. Perspektiven werden ohne große Bedenken nebeneinander gestellt und auch munter kombiniert; der Eklektizismus ist also omnipräsent. Bei allen Unterschieden und Konflikten im Detail hat sich ein „pragmatischer“ Konsens herausgebildet. Es ist heute eher unstrittig, dass zu einer umfassenden Würdigung von Daten deren Beleuchtung unter allen sinnvollen Gesichtspunkten (prä- und post, formal wie auch inhaltlich) gehört. Eine Analyse ist nur überzeugend, wenn sie möglichst umfassend ist und keinen wichtigen Aspekt übersieht. Beispiele für eine solche Herangehensweise sind Hand et al. (2001) und Hastie al. (2001), wo Ansätze vieler Gebiete verwendet werden und deren systematische Zusammenhänge eine untergeordnete Rolle spielen. Was in Zeiten hitziger Auseinandersetzungen (Cox (1978), Durbin (1987)) durchaus ein Fortschritt in Richtung auf eine Besänftigung der Gemüter gewesen sein mag, wirkt heute jedoch eher wie Resignation oder sogar intellektuelle Trägheit. Das Pendel hat sich vom einen Extrem grundsätzlicher, scharfer Konflikte ins andere Extrem eines eher durchgängigen Quietismus bewegt. Man schweigt zu den prinzipiellen theoretischen Fragen und huldigt in der Praxis als toolkit statistician der Beliebigkeit. Einerseits ist das “good statistical practice”, andererseits ist es wenig überzeugend, sich mit mangelhafter Logik oder auch nur Plausibilität von Ergebnissen einfach abzufinden. Auch wenn Feynman (S. 56) die „Babylonische Methode“ im Umgang mit der Mathematik empfiehlt um problemorientiert voranzukommen, strebt gerade er nach einem tieferen Verständnis und ist sich logischer Mängel schmerzhaft bewusst (Feynman 2007). “[. . .] as in other areas of philosophy, we need to reach what is known as a ‘reflective equilibrium’ between our pre-philosophical beliefs and the results of philosophical inquiry” (Ladyman 2002: 54), also irgendein „Kompromiss“ zwischen einer naiv-plausiblen, wenn auch nur schwer begründbaren und einer differenzierten, vermeintlich gut fundierten Haltung, die aber nur allzu oft dem SkurrilAbsurden nahe kommt, gleicht hingegen einer intellektuellen Bankrotterklärung. Es gilt, die logischen Fehler in einer Argumentation zu finden bzw. eine belastbare, in sich selbst konsistente Position zu entwickeln. Genau dieses umfassende, neue Paradigma, das die scheinbar völlig verschiedenartigen Ansätze vereinen könnte, fehlt jedoch bislang. Es konnte sich noch kein Ansatz empfehlen, der zum einen streng genug wäre, als dass sich aus ihm auf methodischem Weg neue Verfahren gewinnen ließen, als dass er zum anderen flexibel genug wäre, den verschiedenartigsten Perspektiven bei der Erhebung und Auswertung von Daten gerecht zu werden. Man könnte einwenden, dass es selbst der Physik an einer einheitlichen Grundlage fehlt. “There seems no evidence - especially when one looks at the progress, and lack of unification, of theoretical physics in my lifetime - that a unified approach is needed for effective progress or effective application.” (Tukey 1986a: xli). Gleichwohl legt die Physik großen Wert auf stringente Argumente, sie bedient sich eines zusammenhängenden Begriffsgebäudes
412
5 Synthese
und der Verlust klassischer Einheitlichkeit wird einhellig bedauert. Eine Statistik, die sich als Wissenschaft versteht, sollte - ja muss - ebenfalls zumindest eine zusammenhängende Struktur aufweisen, durchgängige Prinzipien besitzen und einheitliche Argumentationsmuster haben. Ansonsten ist sie nur eine Sammlung von Ad-hoc-Ansätzen, für jede neue Problemklasse schnell entworfen, lokal erfolgreich, doch insgesamt ohne verbindende Theorie. Evett (2000: 332) bemerkt sehr treffend: I have heard classical statisticians [. . .] say things like ‘I have nothing at all against Bayesian methods - indeed, I use them myself when they are appropriate’. But this is the cry of the toolkit statistician - a statistician who lacks a philosophy. In the world of science here lies the distinction between the scientist and the technician.
Der Weg in die Erstarrung Der gerade geschilderte, geschäftige Pragmatismus ist oberflächlicher Ausdruck der tiefen Krise, in den das Schisma zwischen den statistischen Schulen die Statistik geführt hat. Die fundamental verschiedenen Prä- bzw. PostPerspektive stießen in der Frage, wie mit A priori vorhandenem Wissen umzugehen sei, heftig aufeinander, und dieser Konflikt „im Südwesten“ des Forschungszirkels war denn auch historisch gesehen der Ausgangspunkt der klassischen Statistik. E. S. Pearson (1962: 395) schreibt ausdrücklich über die Anfänge seiner Arbeiten mit Neyman: “We were certainly aware that inferences must make use of prior information [. . .], but after some considerable thought and discussion round these matters we came to the conclusion, rightly or wrongly, that it was so rarely possible to give sure numerical values to these entities, that our line of approach must proceed otherwise.113 Thus we came down on the side of using only probability measures which could be related to relative frequency.” Die klassische statistische Schule war im 19. Jahrhundert auch an physikalisch-astronomischen Themen gereift. Bei der Bearbeitung von Problemen standen ihnen hervorragende Theorien zur Verfügung und entsprechend betonten sie, wie wichtig es sei, diesen (zu physikalischen Gesetzen geronnenen) Erfahrungsschatz zu verwenden. Die historische Wende hin zur heute orthodoxen Statistik stellt sich aus dieser Warte ganz anders dar. Jaynes (2003: 316) urteilt: In any event, a radical change took place at about the beginning of the 20th century when a new group of workers, not physicists, entered the field. They were concerned mostly with biological problems and with Venn’s encouragement proceeded to reject virtually everything done by Laplace. To fill the vacuum, they sought to develop the field anew based on entirely different principles in which one assigned probabilities 113
Fußnote in Original: „This is perhaps the central problem over which opinions differ. In setting down my thoughts on some of the difficulties to be faced my purpose is not to nail a flag to any mast, but to encourage discussion which may in the end lead to a clearing up of certain dusty corners of our minds.“
5.3 Der statistikinterne strategische Konflikt
413
only to data and to nothing else. Indeed, this did simplify the mathematics at first, because many of the problems solvable by Laplace’s methods now lay outside the gambit of their methods. As long as they considered relatively simple problems (technically, problems with sufficient statistics but no nuisance parameters and no important prior information), the shortcoming was not troublesome. This extremely aggressive school soon dominated the field so completely that its methods have come to be known as ‘orthodox’ statistics, and the modern profession of statistician has evolved mostly out of this movement. Simultaneously with this development, the physicists - with Sir Harold Jeffreys as almost the sole exception - quietly retired from the field, and statistical analysis disappeared from the physics curriculum.
Jaynes ist nicht der einzige Bayesianer, der versucht, die Genialität Fishers kleinzureden. Neben der Tatsache, dass man viele seiner formalen Resultate mit dem Bayesschen Theorem schneller und fundierter erhält, lässt sich auch auf zahlreiche logischen Brüche in seinen Argumentationen, die Unschärfe seiner Ideen und ein polemisches Wesen verweisen. Gleichwohl ist es das große und bleibende Verdienst Fishers, die Enge des Bayesianischen Ansatzes konsequent hinter sich gelassen, prinzipiell andere Wege statistischer Induktion geöffnet und dann auch beschritten zu haben. Wie alle wirklich großen Theoretiker arbeitete er problemorientiert, und als die überkommenen Konzepte und erst recht Rezepte zur Lösung nicht mehr ausreichten, entschloss er sich zum radikalen Schnitt, also gänzlich neuen Ansätzen. Das heute allgemein akzeptierte Denken in (parametrischen) Familien von Verteilungen stammt genauso von ihm, wie die Idee der Randomisierung, also die systematische Nutzbarmachung des Zufalls. Der damit erreichte Gipfel wird in G. Cox (1957) selbstbewusst beschrieben, doch begann damals, spätestens mit Fishers Tod (1962) und der in Abschnitt 5.1.1 ausführlich beschriebenen Entwicklung, der Abstieg des Fachs. Dem entsprechend ist “Most statisticians are used to winning arguments with subject-matter colleagues because they know BOTH statistics and the subject matter” (Tukey (1988), zitiert nach Brillinger (2002a: 1561)) ein Satz aus längst vergangenen Zeiten.114 Dies musste schließlich selbst einer der glänzendsten Vertreter an der von Neyman aufgebauten führenden mathematischen Institution einräumen (siehe S. 358). Heute sind die meisten Ideen aus der 1. Hälfte des 20. Jahrhunderts wie die Regression oder die MaximumLikelihood-Schätzung in die Jahre gekommen, ihnen ist kaum noch ein wirklicher neuer Aspekt abzugewinnen. Die Rückständigkeit ist geradezu mit Händen zu greifen, wenn es in Box et al. (2005: 14) heißt: “Sir Ronald Fisher [. . .] was the originator of most of the ideas in this book [. . .]” Schon 1974 stellte Huber auf einer Konferenz über die Zukunft der Statistik fest:115 “[. . .] too many problems in mathematical statistics [have] reached maturity and [are] simply being squeezed try.” Pyke konstatiert zugleich mit großem Bedauern die Vernachlässigung praktischer Probleme, und Robbins (1975) diagnostizierte: 114
Fast vergessen ist, dass gerade ein Tukey heute so zentrale Begriffe wie „Bit“ und „Software“ prägte, siehe Brillinger (2002b: 200) und Shannon (1948: 379). 115
Die beiden nachfolgenden Referenzen finden sich in Huber (1997: 179ff).
414
5 Synthese
An intense preoccupation with the latest technical minutiae, and indifference to the social and intellectual forces of tradition and revolutionary change, combine to produce the Mandarinism that some would now say already characterizes academic statistical theory and is most likely to describe its immediate future. The statisticians of the past came into the subject from other fields - astronomy, pure mathematics, genetics, agronomy, economics etc. - and created their statistical methodology with a background of training in a specific scientific discipline and a feeling for its current needs.
Statistische Dogmen Man wünschte der orthodoxen Statistik, dass ihre ersten, vehementen Kritiker, die Bayesianer, nicht den schwächsten Punkt ihrer eigenen Position Subjektivität - als Speerspitze ihrer Attacke gewählt hätten, was fast notwendigerweise zu einer fruchtlosen weltanschaulichen Auseinandersetzung führen musste. Auf der Bayesianischen Seite kam es zu einer geradezu manischen Beschäftigung mit der Priori-Verteilung. Auf orthodoxer Seite grub man sich auf dem Standpunkt ein, die Daten für sich selbst sprechen zu lassen. Während Fisher noch intensiv nach Möglichkeiten suchte, das relevante Vorwissen zu berücksichtigen, wandelte sich das Ideal statistischen Experimentierens dahin, keine über die Daten hinausgehenden Informationen bei der Auswertung formal zu berücksichtigen: “Current belief about statistical inference in clinical trials are dominated by extreme skepticism regarding the use of information not generated within the immediate study” (Royall 1997: 105). Nelder (1999: 262) spricht von einem “cult of the single study, considered in isolation”. Dies ist zwar sicherlich „objektiver“ als der konsequente subjektive Bayesianismus, der den diametral entgegengesetzten Weg ging. Schnell schälten sich aber auch die nicht zu unterschätzenden Nachteile heraus: 1. Jede eingeschränkte formale Betrachtung muss einen Großteil der Dateninterpretation informellen Argumenten überlassen. Neben der Gefahr, dass hiermit der informelle Teil einer Untersuchung überlastet wird, führt dies zu dem Vorwurf, dass frequentistische Verfahren lediglich formal objektiv erscheinen. Viele Quellen der Unsicherheit und der subjektiven Einschätzung werden einfach nicht explizit gemacht. 2. Man schießt weit über das Ziel hinaus, wenn man, statt (vermeintlichem) Erfahrungswissen mit einer gesunden Dosis Skepsis zu begegnen nur noch die Daten für sich selbst sprechen lässt und Beobachtungsdaten neben experimentell erfassten Fakten kaum noch würdigt. Es ist eine Sache, vages Vorwissen bewusst nicht zu formalisieren. Eine ganz andere jedoch, “let the data speak for themselves” zum Dogma zu erheben und jegliche nicht in den üblichen Rahmen passende Information zu ignorieren oder sogar als „Vorurteil“ abzuwerten. Nur den Stichprobenraum zu betrachten ist eine enge, einseitige Perspektive. Sie führt nicht selten zu wenig problem-
5.3 Der statistikinterne strategische Konflikt
415
orientierten Verfahren mit schwieriger Interpretation (Konfidenzintervall, p-Wert). 3. Deduktive Sicherheit und Struktur sind wichtig, Evidenz und deren quantitative Erfassung - unauflöslich mit dem induktiven Zweig des Forschungszirkels verknüpft - sind jedoch noch wichtiger. Die hypothesengeleitete formale Sicht leistet einem Deduktivismus Vorschub, der Evidenzüberlegungen zu kurz kommen lässt.116 Durch die Betonung der formalen Theorie wird zudem die (konservative) Mathematik übermächtig und die (originelle) Fachwissenschaft vernachlässigt. Auch neue, zunächst eher heuristische Ansätze werden eher von Anwendern aller Gebiete entwickelt, statt von Statistikern. Mit der Entscheidung, nur klar fassbare, experimentell kontrollierbare Information zu formalisieren, gelang es der klassischen Statistik ein eingeschränktes Feld erfolgreich zu kultivieren und sich in all jenen Bereichen als Standardmethodik durchzusetzen, die durch wenig substanzielles Vorwissen sowie „zufällige“ Variation charakterisiert sind. Doch diese Selbstbeschränkung erschwerte auch mögliches Wachstum. Insbesondere verhindert die selbstgewählte Isolation den segensreichen Austausch mit anderen Wissenschaften, der durch die Explosion des Wissens (gerade in den letzten Jahrzehnten) tendenziell immer wichtiger geworden ist. Statt nach Wegen zu suchen, vorhandenes Vorwissen geeignet zu formalisieren, hat der vermeintliche Vorteil der Abgrenzung zu einer schnellen Erstarrung beigetragen. Eine “pvalue culture” (Nelder (1999: 261ff), siehe auch den obigen Abschnitt 3.2.3) regt genauso wenig zum Denken an, wie die Randomisierung. In der Psychologie, der Medizin und vielen anderen Feldern spricht man unverblümt von statistischen Ritualen,117 oder gar einer „Religion“ (Salsburg 1985). Mittlerweile werden auf dem Altar statistischer Dogmen sogar Menschen geopfert. Der in Royall (1997: Abschnitt 4.6) und Worrall (2007) ausführlich geschilderte, unrühmliche Nachweis, dass eine Therapie mit ECMO118 sich als deutlich besser erwies als das herkömmliche Vorgehen, ist solch ein Fall. Obwohl reichlich Erfahrung mit der wenig erfolgreichen, bisherigen Therapiemethode vorhanden war, und obwohl medizinisch leicht und überzeugend zu begründen ist, warum das neue Verfahren besser sein sollte (Entlastung der unreifen Lunge), bedurfte es mehrerer einschlägiger Studien mit altem und neuem Verfahren, um schließlich auch die letzten methodischen Zweifler zum Schweigen zu bringen. Man stelle sich vor, ein Pasteur wäre vor über 100 Jahren bei der Entwicklung der Tollwut-Schutzimpfung so vorgegangen! Das damalige Vorwissen ignorierend, hätte er von tollwütigen Tieren gebissene Menschen randomisiert zwei Gruppen zugeordnet und die Kontrollgruppe 116
Siehe z. B. Shahar (1997) für eine sich auf Popper stützende, grundsätzliche Ablehnung der evidenzbasierten Medizin. 117
Etwa Guttman (1985), Keiding (1994), Gigerenzer (2004), Gigerenzer et al. (2004) sowie Sedlmeier (1996). 118
Extracorporeal membrane oxygenation
416
5 Synthese
ohne Impfung - dem fast sicheren Tod überantwortet. Im Fall von ECMO wurde nicht nur eine, sondern sogar eine ganze Reihe einschlägiger Studien durchgeführt, und der Unterschied zwischen beiden Gruppen war deutlich zu erkennen.119 Eine in zementierten Positionen, Parolen und Ritualen erstarrte Statistik maßregelt als „Forschungsbürokratie“ mehr, als dass sie die Bürde des quantitativ arbeitenden Wissenschaftlers (Tukey) mittragen würde.120 Anstatt dessen Vorwissen formal angemessen zu würdigen, wird es als Vorurteil abgetan, anstatt “let the data speak for themselves” als Aufforderung zu verstehen, ausgehend von den Daten intensiv nach tieferliegenden Mustern zu suchen, wird solches Arbeiten als „Foltern der Daten“ denunziert. Wäre man wissenschaftstheoretisch nur etwas sensibel, so müsste klar sein, dass zur grundlegenden Idee kumulativer Wissenschaft sowohl die angemessene Berücksichtigung vorhandenen Wissens als auch die nachträgliche Kombination der Ergebnisse mehrerer Experimente gehört. Auch Interdisziplinarität sollte eigentlich eine Selbstverständlichkeit sein, was für einen Statistiker wie Fisher heißt:121 “I think consultant work is immensely important, but on condition that the consultant is concerned to learn, and not merely to pontificate.” Es ist ein Gemeinplatz, dass sich vernetzte Gebiete wechselseitig befruchten, womit sie sich gemeinsam weit schneller entwickeln als alleine (Wilson 2000). Man denke nur an die seit Jahrzehnten isolierte und verdorrte Psychoanalyse, wenn Rand und Ilardi (2005: 7), sich auf Wilson sowie Meehl (1978) berufend, eine consilient science of psychology, skizzieren: “the linking of fact, theory, and method across disciplines (and subdisciplines) and across nested levels of informational complexity.”
Der Verlust des Neuen Bis lange ins 20. Jahrhundert hinein verstand sich die Statistik als Institution zwischen Mathematik und empirischer Wissenschaft. Dieses institutionelle Gleichgewicht, ähnlich jenem zwischen theoretischer und experimenteller Physik, ist in den letzten Jahrzehnten immer mehr verloren gegangen. Es ist die ganze Last der jüngeren, dezidiert mathematischen Tradition, welche die Statistik nun lähmt, und, von Ausnahmen wie dem Bootstrap einmal abgesehen, dafür sorgt, dass sich spannende neue Entwicklungen außerhalb ihrer Grenzen abspielen. Anderen gelingen nun regelmäßig die großen Wür119
Zur letzten Studie schreibt Royall (1997: 107): “That large study randomized more than 90 babies to each therapy and resulted in 25 more infant deaths under CMT than under ECMO.” Es fällt schwer, Jaynes (2003: 507) zu widersprechen, wenn er etwas allgemeiner schreibt: “For many years, orthodox methods of data analysis, through their failure to take into account all the relevant evidence, have been misleading us in ways that have increasingly serious economic and social consequences.” 120 Siehe S. 305 und S. 585 121
Zitiert nach einem Brief an A. T. James 1961, siehe Bennett (1990: 147)
5.3 Der statistikinterne strategische Konflikt
417
fe, während die eigentliche Statistik darbt und abgestandenes Wasser aus versiegenden Quellen schöpft. Nirgendwo kommt das Versagen der klassischen Statistik deutlicher zum Ausdruck als bei der drängenden Analyse riesiger Datenbestände. Die heutigen Datensätze und die mit ihnen einhergehende, neuartigen Probleme, wie insbesondere der curse of dimensionality122 sowie das verwandte Problem „nicht-skalierender Algorithmen“ lassen klassische Werkzeuge versagen. Man macht die unerquickliche Erfahrung, dass Methoden, welche für „kleine“ Größenordnung entwickelt wurden und dort auch gut funktionieren, ab einem gewissen Umfang des Problems nicht mehr praktikabel sind oder sogar völlig zusammenbrechen. Das beginnt schon bei der traditionellen Inspektion der Daten. Es ist gute statistische Praxis, Daten vor ihrer Analyse einer groben, überblicksartigen Kontrolle zu unterziehen. Das heißt, man schaut sich die Wertbereiche der Variablen auf der Suche Auffälligkeiten, etwa Ausreißern oder fehlenden Werten, an; überprüft, ob die Datenübertragung geklappt hat, kontrolliert stichprobenartig, ob es bei der Erfassung der Daten mit rechten Dingen zuging usw. Stellt sich hierbei heraus, dass die Daten mangelhaft sind, wird man vor jeder weitergehenden Analyse gewarnt sein und eventuelle Ergebnisse entsprechend kritisch würdigen. Ein solches „händisches Vorgehen“ ist selbstredend nur möglich, wenn der Datenumfang überschaubar bleibt. Nun ist es leicht (siehe z. B. Hand (2007)) Datensätze anzugeben, deren oberflächlichste manuelle Inspektion einige Jahrzehnte in Anspruch nehmen würde. Ergo ist man gezwungen, völlig anders vorzugehen, was nicht nur in diesem Fall heißt, Verfahren zu entwickeln, die Muster in den Daten, welche auf Fehler hinweisen, automatisiert und doch zuverlässig erkennen. So berechtigt die Kritik an einer derartigen „semantikfreien“ Statistik auch sein mag - es hilft nichts. Die Datensätze sind riesig und gerade weil wir in Daten fast ertrinken haben wir gar keine andere Wahl als schwimmen zu lernen. Friedman (2001: 7) schreibt drastisch:123 Every time a technology increases in effectiveness by a factor of ten, one should completely rethink how to apply it. Consider the historical progression from walking to driving to flying [. . .] A favorite quote of Chuck Dickens (former Director of Computing at SLAC) over the years has been ‘Every time computing power increases by a factor of ten we should totally rethink how and what we compute.’ A corollary to this might be ‘Every time the amount of data increases by a factor of ten, we should totally rethink how we analyze it.’
Nimmt man es ernsthaft mit den Daten auf, so stellt sich der vermeintliche Fluch zuweilen als Segen heraus, ergeben sich doch bei vielen Dimensionen ganz neue Möglichkeiten der Analyse. Zum Beispiel lassen sich Objekte 122
Belman (1961), siehe auch Hastie al. (2001: Abschnitt 2.5), Härdle et al. (2004) und Bishop (2006: Abschnitt 1.4) 123 Siehe z. B. die Diskussion von Breiman (2001), wo die traditionelle und die automatisierte, moderne Sichtweise engagiert aufeinanderstoßen.
418
5 Synthese
mit vielen Eigenschaften weit leichter (fehlerfrei) trennen als dieselbe Anzahl von Objekten, wenn nur wenige Eigenschaften zu deren Unterscheidung zu Verfügung stehen. “Support vector machines” (Steinwart und Christmann 2008) sind nicht zuletzt deswegen sehr beliebt geworden, weil sie absichtlich zu einem höherdimensionalen Raum übergehen, um dort Regressions- und Klassifikations-Aufgaben zu lösen, die im niedrigdimensionalen Ausgangsraum nicht bewältigbar sind. Andererseits stellt sich auch häufig heraus, dass sich auf kleinen Teilmengen die entscheidenden Dinge abspielen, was unmittelbar eine erheblich Reduktion ermöglicht. Technisch werden solche Fragen zurzeit oft unter dem Titel p n diskutiert, d. h., die Anzahl der Merkmale p ist weit größer als die Anzahl der Beobachtungen n. Für einen aktuellen Überblick siehe Candes und Tao (2007) und die dort angegebene Literatur. Ist eine Reduktion nicht angezeigt, so hilft die Idee, dass viele Dimensionen weit häufiger mit gutem Grund als vergleichbar angesehen werden können als wenige, die völlig verschiedene Eigenschaften abbilden. (Man denke an die wenigen Dimensionen, die einen Studenten charakterisieren und vergleiche dies mit dem Aktivitätsmuster seiner Gene, wie sie heutige Microarrays erfassen. Es lässt sich schwerlich argumentieren, dass die Dimensionen Alter, Geschlecht und Studienfach austauschbar sind, wohl aber die Aktivität vieler Gene.) Auch Approximationen, die ja oft auf asymptotischen und Stetigkeitsargumenten basieren, sind leichter möglich. Für die ersten blessings of dimensionality siehe Sinkkonen (2002) und Donoho (2000).124 Die Bayessche Statistik wurde ab 1920 von der heutigen Orthodoxie überrannt, weil sie sich zu lange an überkommenen Strukturen festhielt. Genauso ist es heute höchste Zeit, die isolierte Insel der mathematischen Statistik zu verlassen und den weiten Kontinent exorbitanter Datenmengen zu betreten. Es bedarf keiner ausgeprägten prophetischen Fähigkeiten, um zu erkennen, dass nur effiziente computerintensive Verfahren in der Lage sind, die dort lauernde Komplexität, z. B. im menschlichen Genom, zu ergründen. Auch wird dies nur gelingen, wenn, wie einst bei R. A. Fisher, Fachwissenschaftler und Statistiker wieder enger zusammenarbeiten, insbesondere, indem die Fachwissenschaftler ihr Vorwissen einbringen, das Statistiker formalisieren. Nur aus Kontextwissen lässt sich der Ariadnefaden weben, der durch das Labyrinth der Daten leitet, ohne ihn ist man hingegen hoffnungslos verloren: I think the brilliant minds of mathematical statistics would do well to leave the construction of abstract admissible decision functions, cease to ride martingales into the teeth of zero-one laws and join the few of us who are attempting to stem the tide of confusion. [. . .] (Salsburg 1973: 154) 124
Letzterer ist bezeichnenderweise ein Schüler von Tukey. Rust (1997) ist in mehrfacher Hinsicht interessant. Zum einen verwendet er die Komplexitätstheorie um den Fluch der Dimensionaliät zu definieren, zum zweiten geht er auf die Geschichte des Begriffs sowie seine Verbindung zu anderen Arbeiten Bellmans ein, und zum dritten verwendet er stochastische Methoden, um den Fluch zu überwinden.
5.3 Der statistikinterne strategische Konflikt
419
5.3.5 Das Aufblühen des Neo-Bayesianismus Der statistikinterne Konflikt kennt zwei Hauptkombattanten. Während wie im Kalten Krieg eine Seite immer mehr erstarrte und zurückfiel, wirkte der Gegensatz auf der anderen Seite eher anspornend. Um zu überzeugen, mussten Bayesianer jahrzehntelang detaillierte Kritik entkräften, was ihrem Ansatz zugute kam und ihn letztlich stärkte. Parallel dazu stieg die Zahl seiner Vertreter stetig an. De Finetti (1937) stand mit Jeffreys (1939) fast alleine. Good (1950) galt als Außenseiter und die Kritik an Savage (1954), der de Finettis Beiträge weiterentwickelte und in der englischsprachigen Welt verbreitete, war beißend (van Dantzig 1957). Um 1970 sahen sich wenige, nicht zuletzt auch von der Fisherschen Begriffswelt enttäuschte Bayesianer (Basu, Box, Lindley, Jaynes) einer geschlossenen Phalanx frequentistischer Statistiker gegenüber.125 Auf den Valencia International Meetings on Bayesian Statistics sammelte sich ab 1979 die Bayessche Bewegung und wurde von Treffen zu Treffen stärker. Wegweisend wurden die Beiträge von Howson und Urbach (2006),126 Berger (1985), Berger und Wolpert (1988) und Earman (1992). Heute erscheint kaum noch ein angewandtes Statistikbuch ohne zumindest einen Abschnitt über Bayessche Methoden. Carlin und Louis (2000), Gelman et al. (2004), Rubin (2006) und Robert (2007) sind typische Beispiele aktueller Bayesscher Lehrbücher. Bezeichnenderweise berufen sich einschlägige Autoren am Rand der traditionellen Statistik viel häufiger auf die logisch kohärenten Bayesianer als auf Frequentisten. Einige motivieren ihre Methoden sogar explizit als Erweiterung des Bayesschen Rahmens (z. B. MacKay (2005), Wallace (2005)) und schon Box (1962) schrieb: [. . .] it would be very difficult to persuade an intelligent physicist that current statistical practice was sensible, but that there would be much less difficulty with an approach via likelihood and Bayes’ theorem.
Auch Grundsatzfragen haben zur so entstandenen Vernetzung beigetragen, ohne die die Statistik noch viel isolierter dastünde. Gleichwohl ist „Beherrsche die Sache, die Worte werden dann schon folgen“ 127 das Motto zeitgenössischer Vertreter der Schule. Sie vermeiden möglichst ideologische Wortgefechte und richten ihr Augenmerk auf die Entwicklung erfolgreicher Methoden und mathematischer Modelle. Wie in der empirischen Wissenschaft üblich, 125
Eine Momentaufnahme ist Godambe and Sprott (1971). Der Sammelband beginnt bezeichnenderweise mit einem programmatischen Aufsatz von Neyman, und die sich an Bayesianische Beiträge anschließende Diskussionen sind weit schärfer und prinzipieller als heute. Insbesondere die subjektive Seite der Theorie (Wahrscheinlichkeitsinterpretation und Priori-Verteilung) wird vehement kritisiert, aber auch die prinzipielle Vorgehensweise (Likelihood- und Indifference Principle, feste Daten). Übrigens setzt sich nur ein einziger Beitrag (Buehler 1971), eingehend mit informationstheoretischen Konzepten auseinander. 126 1. Aufl. 1985 127
Cato dem Älteren zugeschrieben
420
5 Synthese
überzeugt auch der Bayesianische Ansatz heute weit mehr durch seine praktischen Erfolge als durch seine „Philosophie“. Aufgrund ihres größeren, häufig sogar immensen Rechenaufwands wurden Bayessche Analysen lange Zeit lediglich diskutiert. Sie ließen sich, bei allen theoretischen Vorteilen, schlicht nicht realisieren. Da dies immer weniger gilt, arbeitet die Zeit, genauer gesagt die immens schnelle Entwicklung der Computertechnik, für rechenintensive Methoden. Bayesianer drängen auch nachdrücklich auf die adäquate Formalisierung von Wissen, sie fordern die explizite Modellierung aller relevanten Aspekte. Die sich dabei ergebenden, umfangreichen Simulationen, gerne neutral full probability modelling genannt, sind mit einer einheitlichen Methodik beherrschbar, kaum aber mit klassischen Ad-hoc-Ansätzen. Selbstverständlich sind Bayesianer auch im Vorteil, wenn es darum geht, ein Modell aus einheitlichen Prinzipien abzuleiten. Dieses ist dadurch automatisch fundiert und logisch konsistent. Wer hingegen in jeder neuen Problemstellung aufs Neue Methoden erfinden muss, darf sich nicht wundern, wenn die Kompatibilität über eine Reihe von Situationen hinweg problematisch ist. Darüber hinaus bietet die Bayessche Statistik ein einheitliches Denkmuster, das sich mit den der Statistik nahestehenden Gebieten vernetzen lässt, so dass die heutige Statistik ohne Bayessche Theorie noch viel isolierter wäre, als sie es ohnehin schon ist. Aufgrund dessen sagte Lindley (1975) ein „Bayesianisches 21. Jahrhundert“ voraus, und auf der persönlichen Ebene konstatierte er:128 Inside every Non-Bayesian, there is a Bayesian struggling to get out.
Eine wesentliche Kritik am Bayesschen Mechanismus ist seine Enge: Man nehme die Priori-Verteilung, kombiniere sie mit den Daten und erhalte so „automatisch“ das formale Ergebnis der Posteriori-Verteilung. Es ist nicht verwunderlich, dass diese Vorgehensweise die große Mehrzahl der Statistiker nicht wirklich überzeugt, zumal, wenn die Vorinformation im Wesentlichen subjektiver Natur ist. Liest man die Bayessche Formel als ein „Update“ persönlicher Überzeugung im Angesicht von Evidenz, technisch gesagt, bedingt unter gewissen Daten, so ist eine erste Idee der Erweiterung, die Operation des Bedingens zu verallgemeinern. Jeffrey hat in einer Reihe von Arbeiten gezeigt, wie man dies bewerkstelligen kann, ohne dabei Dutch-Book-Argumente zuzulassen.129 Unter dem Stichwort imprecise probability haben sich eine ganze Reihe von Ansätzen versammelt, mit dem Ziel, die Enge des Bayesschen Formalismus zu überwinden: The notion of Imprecise probability is used as a generic term to cover all mathematical models which measure chance or uncertainty without sharp numerical probabilities. It includes both qualitative (comparative probability, partial preference 128 129
Zitiert nach Jaynes (2003: 553)
Der aktuelle Stand dieser Überlegung wird ausführlich in Jeffrey (2004) erörtert; siehe auch Zaffalon und Miranda (2009).
5.3 Der statistikinterne strategische Konflikt
421
orderings,. . .) and quantitative modes (interval probabilities, possibility theory, belief functions, upper and lower previsions, upper and lower probabilities,. . .) Imprecise probability models are needed in inference problems where the relevant information is scarce, vague or conflicting, and in decision problems where preferences may also be incomplete. Imprecise Probability Theory aims not to replace, but to complement and enlarge the classical notion of Bayesian probability, approach to probability theory, by providing it with tools to work with weaker information states. (Wikipedia 2009)130
Ein besonders wichtiger Vorstoß ist die Dempster-Shafer Theorie der “belief functions” support (sp) und plausibility (pl). Man kann jene unter anderem nutzen, um die Wahrscheinlichkeit eines Ereignisses A durch ¯ ist. Die Difsp(A) ≤ P (A) ≤ pl(A) abzuschätzen, wobei pl(A) = 1 − sp(A) ferenz pl(A) − sp(A) ist dann ein natürliches Maß für die Unsicherheit, mit der eine Einschätzung behaftet ist. Die wichtigsten Arbeiten dieser Theorie werden in Yager et al. (2008) zusammengefasst: Ausgehend von einer Verallgemeinerung des Bayesschen Ansatzes (Dempster 1968) ergibt sich zwanglos eine „Theorie der Evidenz“ (Shafer 1976) mit mannigfaltigen Erweiterungsmöglichkeiten,131 Bezügen zu nichtadditiven Theorien (Shafer 1978), insbesondere den Fuzzy-Mengen (Dubois und Prade (1986), Yen (1990)), formalen Sprachen (Shafer und Tversky 1985), den noch zu besprechenden kausalen Graphen (Shenoy und Shafer (1990), Smets (1993)) sowie der Informationstheorie (Yager 1983). Auch ein expliziter Bezug zu Carnap lässt sich herstellen (Ruspini 1987). Das Problem bei solchen und ähnlichen, „konsistenzorientierten“ Überlegungen ist, dass man zumeist nahe am Bayesschen Mechanismus als grundlegendem Inferenzmuster verbleibt. Als Spezialfall erhält man (fast) immer die klassische Wahrscheinlichkeitstheorie, d.h. man geht nicht wirklich über rein probabilistische Überlegungen hinaus. Philosophen diskutieren insbesondere unter dem Stichwort “belief revision” zur Zeit weit über die Wahrscheinlichkeitstheorie hinaus gehende Kalküle, nicht zuletzt mit dem Hintergedanken, rationale Meinungsänderungen zu formalisieren.132 Das ist sehr zu begrüßen, sind induktive Schlüsse im Allgemeinen doch offen und nicht auf die Stochastik und ihre Logik beschränkt. Ab Abschnitt 5.4.1 widmen wir uns solchen Ansätzen, die typischerweise am Rande oder sogar außerhalb der traditionellen Statistik entwickelt wurden. Die Entwicklung konvergiert im Informati130
Siehe insbesondere auch die Webseiten der “Society for Imprecise Probability” (SIPTA), www.sipta.org. 131
Siehe insbesondere Liu und Yager (2008), Shafer (1990a, 1990b), Walley (1991) und Weichselberger (2001). Ein sich explizit auf die frequentistische Tradition berufender Autor ist Hampel (1996). 132
Beispiele sind Spohn (1988), Rott (1998) und Williams and Rott (2001). Durchaus verwandt sind die in der künstlichen Intelligenz gebräuchlichen Methoden der Wissensrepräsentation und -Änderung, siehe z. B. Minkler (2000) und Antoniou (1997). Auch in der Psychologie ist die Einstellungsmessung und -Änderung von Menschen ein aktuelles Thema. Denkt man hierbei an Wissenschaftler, so kommt man zur aktuellen Wissenschaftstheorie, die nicht zuletzt subjektive Faktoren in den Vordergrund rückt.
422
5 Synthese
onsbegriff, der mit seiner zugehörigen Theorie das natürliche Fundament der Statistik darstellt.
5.3.6 Gemeinsame Statistik ohne Kompromisse Der Grundkonsens Verbale Kompromissformeln sind kaum dazu in der Lage, fundamentale Meinungsdifferenzen zu überdecken. Weit stärker ist die normative Kraft des Faktischen, und die Praxis hat sich zumeist aus ganz anderen als ideologischen Gründen für den einen oder anderen Ansatz - zumindest vorläufig entschieden. Dominieren z. B. frequentistische Methoden in der klinischen Statistik, so sieht es in der Ökonometrie schon eher gemischt aus. Die Mustererkennung und jene Teile der Statistik, welche Physiker wirklich benutzen, sind hingegen bayesianisch.133 Wie wir auch schon bei der Diskussion der Messtheorie S. 76ff festgestellt haben, dämpft auch die gemeinsame Mathematik Konflikte. Bei allen Interpretationsunterschieden, praktisch alle Statistiker akzeptieren das von Kolmogorov angegebene Axiomensystem als Arbeitsgrundlage. Die σ-Additivität ist zwar etwas umstritten, aber nicht wirklich ein prinzipielles Zerwürfnis. Auch in anderen Gebieten sind gewisse Variationen des fundamentalen Axiomensystems üblich und nicht wirklich problematisch. Wem ein Axiom zu weitreichend scheint, verwendet eben eine weniger fordernde Variante davon und gelangt zumeist zu ganz ähnlich Ergebnissen wie sein zuversichtlicherer Kollege. Der Forschungszirkel weist der Statistik die zentrale Aufgabe zu, Datenentstehung und -Analyse harmonisch zu verbinden. Diese datenzentrierten Tätigkeiten sind eng verwoben mit allen ihren Anwendungsfeldern und umfasst deduktive wie induktive Aspekte. Statistik geht damit sowohl weit über eine Bayessche Formalisierung als auch eine rein mathematische Aspekte hinaus. Es geht um die adäquate Fassung von Information, deren Verarbeitung und Interpretation. Diese Aufgabe kann sich als Extraktion zeigen, wie beim Data Mining, sie kann aus einer Formalisierung im Vorfeld bestehen, wie beim randomisierten Experiment. Sie schlägt sich aber auch in einer Vielzahl konkreter Methoden nieder und vor allem in einer adäquaten Modellierung aller relevanten Aspekte. Die nicht nur bayesianische „Dreieinigkeit“ von Vorher, Daten, Nachher ist eine zentrale Einsicht, die jedoch situationsspezifisch umgesetzt werden muss. 133
Eine Vielzahl von Anwendungen Bayesscher Analysen zählt Berger (2000) auf. Wie wir schon erwähnt haben, lag es viele Jahrzehnte ganz schlicht am gewaltigen, mit Bayesschen Methoden einhergehenden Rechenaufwand, der Wissenschaftler zu den einfach handhabbaren klassischen Verfahren greifen ließ.
5.3 Der statistikinterne strategische Konflikt
423
Das grundsätzliche Problem Soweit der Konsens. Ebenfalls mithilfe des Forschungszirkels lässt sich das Grundproblem veranschaulichen. Blickt man von den Daten aus nach links und rechts, wird offensichtlich, dass völlig unklar ist, wie weit der Einfluss der Datenerhebung bei der Auswertung der Daten reichen sollte. Es ist sicherlich ein Extrem, alle Posteriori-Evidenz im Rahmen der Priori-Planung darstellen zu wollen. Dies zeigt sich am markantesten bei klinischen Studien, wenn bereits vor Beginn der Datenerhebung eine Liste aller geplanten Auswertungen zu erstellen ist und die Daten weggeschlossen werden, damit das Fehlerniveau nicht gefährdet wird. Kaum ein Statistiker wird andererseits “The data do not know where they come from” (Lord 1953) ernst nehmen. Ganz im Gegenteil: Gerade bei einer kontrollierten Datenerhebung in einem statistischen Experiment liegt mit dem Experiment auch die (primäre) Art der Auswertung fest. Paradebeispiel ist die Varianzanalyse, die mit Fishers experimentellen Designs das Licht der Welt erblickte. Ganz allgemein ist ein wesentlicher Teil jeder Auswertung, wie die Daten zustande kamen. Genauso wenig wie die „linke Seite“ dominieren sollte, was „rechts geschieht“, wäre es töricht, die Augen bei der Datenanalyse vor dem zu verschließen, was im Vorfeld geschehen ist. Abgesehen von solchen Extremen ist schwer zu sagen, wie die Rolle der Erhebung bei der Auswertung von Daten sein sollte. Alle Formen von Data Mining, also jede nicht von a priori aufgestellten Hypothesen geleitete Datenanalyse, gleich als “Data Dredging” zu diskreditieren, geht sicherlich zu weit. Wie soll man dem Unerwarteten auf die Spur kommen, wenn man immerzu mit Scheuklappen ans Werk geht? Deshalb jedoch jegliche Richtschnur abzulehnen und die Vorgeschichte ganz zu vernachlässigen, wie es das Likelihood-Prinzip nahelegt, ist sicherlich das andere Extrem. Auch der Satz “let the data speak for themselves” ist nur scheinbar moderat. “Data alone say nothing at all” (Rothman et al. 2008: 341) wäre weit treffender. Denn auch wenn es durchaus natürlich ist, in einem ersten Schritt nur die erhaltenen Zahlenwerte zu studieren, muss selbstverständlich diese oberflächliche Analyse um darüber hinausgehende Gesichtspunkte ergänzt werden. Dazu gehört der formale wie der substanzielle Kontext, und auch das Ziel einer (fundierten) Verallgemeinerung sollte nie aus den Augen verloren werden. Ein bekanntes Sprichwort besagt, dass die Wahrheit in der Mitte liege. Schaut man jedoch, wie der amerikanische Schriftsteller Henry Miller betont, genau hin, so erkennt man, dass die Wahrheit meist am Rande und nie genau in der Mitte liegt, also eine mehr oder minder deutlich ausgeprägte Präferenz vorhanden ist. Entsprechend divergieren auch bei den großen Protagonisten der letzten Jahrzehnte die Meinungen. Zwischen den Exponenten einer konsequenten Haltung, etwa Jeffreys und de Finetti auf der einen, sowie Neyman und die ihm nahestehenden Entscheidungstheoretikern auf der anderen Seite, findet sich ein großes Spektrum von Meinungen. Die Auseinandersetzung hat sogar führende Statistiker zu Diagrammen motiviert, welche anzugeben
424
5 Synthese
versuchen, wo bedeutsame Personen und Methoden der letzten Jahrzehnte positioniert sind.134 Bezeichnenderweise findet sich Fisher, den alle Seiten gerne für sich reklamieren, ziemlich genau in der Mitte. Nun ist das Urteil der Geschichte eindeutig: Unter der Führung Fishers erblühte die Statistik als Fachdisziplin, unter der Leitung „Berkeleys“, also Neymans und seiner Schule, welkte sie dahin. Betont die deduktive Seite den Prozess der Datenerhebung und der method performance, so legen Fisher wie auch die Bayesianer größeren Wert auf den Einzelfall und die in ihm enthaltene Information (siehe schon Abschnitt 3.3).
Die Daten und ihre Struktur Die Stochastik untersucht Zufallsvariablen und deren Eigenschaften, die Statistik wendet die gefundenen Gesetzmäßigkeiten an. Das hat dazu geführt, dass die Statistik mehr auf den die Daten erzeugenden Prozess Wert legt, als auf die Daten selbst. Die traditionellen statistischen Methoden sind von der Theorie aus gesehen nur zuverlässig oder auch nur angemessen, wenn die sehr weitreichenden Annahmen über die zugrunde liegenden Prozesse erfüllt sind, was sich zumeist nicht oder nur sehr schwer überprüfen lässt. Edgington (1995: 6) schreibt ganz deutlich und überaus typisch: “[. . .] a random sample is random because of the sampling procedure used to select it, not because of the composition of the sample. Thus random selection is necessary to ensure that samples are random.” Diese Herangehensweise führt nahezu zwangsläufig dazu, dass Anwender gescholten werden, wenn stochastische Annahmen über eben jene Prozesse nicht erfüllt sind - was eher die Regel als die Ausnahme ist. An gleicher Stelle schreibt deshalb Edgington: “Parametric statistical tables are applicable only to random samples, and the invalidity of application to nonrandom samples is widely recognized.” Er fährt unmissverständlich fort (S. 8): “Statistical inferences about populations cannot be made without random samples from those populations [. . .]” Ein Blick auf den Forschungszirkel zeigt jedoch, dass die Daten x und nicht das Vorfeld, also X, im Zentrum des Interesses stehen. Man greift am Wesentlichen vorbei, sitzt einem durch die Setzung X = x äußerst naheliegenden, aber subtilen Artefakt auf, wenn man die Bedeutung beider vertauscht. Schon bei einfachen Anwendungen wird dies ganz deutlich. Etwa schreibt Greenland (1990: 422): “The last example illustrates a basic discrepancy between the statistical concept of bias and the epidemiologic concept of confounding (when the latter is defined in terms of noncomparability or nonexchangeability of the compared groups (Greenland und Robins 1986)). Epidemiologic confounding is a property of an allocation, and for each allocation in the above example there is confounding in the extreme. In contrast, statistical bias refers to a nonzero average deviation over the probability distribution of results, and there is no statistical bias in the example.” Und er fährt 134
Siehe z. B. Good (1983a: 150) und Efron (1998: 98, 111).
5.3 Der statistikinterne strategische Konflikt
425
fort: “Nevertheless, we can build a link between the two concepts: [. . .] The statistical unbiasedness of randomized trials corresponds to an average confounding of zero over the distribution of study results [This] should provide little comfort for an epidemiologist trying to interpret a single result; after all, what matters is the degree of confounding in the observed result.”
Die mathematische Statistik ist demzufolge wenig valide, weil sie einen systematischen Konstruktionsfehler, einen Bias zuungunsten der Daten aufweist. Jener wird deutlich, wenn man ihre Ergebnisse interpretiert (long run, impliziter Übergang von X zu x), sie verallgemeinern will (n variabel, Berücksichtigung von Vorinformation), sie konsequent anwendet (klinische Studien, Tests), oder auf ihren logischen Aufbau hin überprüft (sich widersprechende Ad-hoc-Lösungen, ungenügende Invarianzeigenschaften). Eigentlich kann man die grundsätzlichen Probleme schon bei der artifiziellen Behandlung von Test- und Schätzproblem (Umgang mit den Fehlern 1. und 2. Art, wachsendes n; Erwartungstreue, Interpretation Konfidenzintervalle) kaum übersehen. Die Defizite sind so gravierend, dass sie, nicht unähnlich der Messtheorie, zu permanenten, grundsätzlichen Konflikten innerhalb der Statistik, aber auch zwischen Statistikern und „Anwendern“ aller Gebiete führten. Kann man eine beliebte Vorgehensweise, wie den Propensity Score (S. 445), theoretisch kaum noch verteidigen, also eine stringente Argumentation angeben, wann bzw. wie das Verfahren funktioniert - was eigentlich der Sinn einer mathematischen Statistik sein sollte -, so wird meist auf die Praxis verwiesen. Neyman (1977: 97) schreibt unverblümt:135 Next, I feel a degree of amusement when reading an exchange between an authority in ‘subjectivistic statistics’ and a practicing statistician, more or less to this effect: The Authority: ‘You must not use confidence intervals; they are thoroughly discredited!’ Practicing Statistician: ‘I use confidence intervals because they correspond exactly to certain needs of applied work.’
Die Geschichte gibt darüber Auskunft, wie eine derart mangelhafte Theorie die Bedeutung erlangen konnte, die sie heute besitzt. Fisher korrespondierte auf einer guten kollegialen Basis mit Jeffreys.136 Als dieser und andere jedoch auf Unvollkommenheiten in Fishers Theorie hinwiesen und sie zum Teil mit ihren Methoden lösten, ignorierte er die Einwände oder spielte sie herunter.137 Neyman tat es ihm, nachdem er und Fisher sich überworfen hatten, gleich. Zugleich agierte er hochschulpolitisch geschickter. Anders als 135
Siehe hierzu auch Efrons Rückzug auf den Pragmatismus, S. 270, trotz seines mahnenden Zitats S. 183. Man beachte auch die Bemerkungen zum toolkit statistician S. 411f und Heckman (2005: 145). 136 Siehe Bennett (1990), auch wenn Jaynes (2003) etwas anderes behauptet 137
Von besonderer Bedeutung ist das sogenannte Behrens-Fisher-Problem, das Jeffreys mit klassischen, Bayesschen Methoden lösen konnte, während Fishers Fiduzialmethode nur eine heuristische Lösung ergibt (siehe z. B. Kim and Cohen (1995) und Sawilowsky (2002)). Die Testtheorie (siehe S. 88) und die Fiduzialmethode selbst sind weitere Beispiele. Bei letzteren ist die Korrespondenz zwischen Tukey und Fisher außerordentlich bezeichnend.
426
5 Synthese
der wenig gesellige Fisher gründete er Ende der 1930er Jahre in Berkeley ein bestens ausgestattetes statistisches Institut,138 etablierte dort die wichtigsten Fachzeitschriften139 und Kongresse,140 und stellte durch eine systematische Berufungspolitik sicher, dass seine Anhänger in Nordamerika und anderswo141 dominierten.142 So drängte er die britisch-indische Schule mehr und mehr in die Defensive. Neymans philosophischen Beiträge können auch als Versuch verstanden werden, auf diesem bzw. über dieses Gebiet die Vorherrschaft zu erringen, zumal mit Reichenbach vor Ort ein führender Philosoph der frequentistischen Schule angesiedelt war und seine fachlichen Argumente nicht durchschlagend waren. Nach Fishers Tod ging die Initiative auf die Bayesianer über. Von Berkeley aus gesehen war es nun nur folgerichtig, jenen ebenfalls mit einer gemischten Strategie zu begegnen und mit Schlagworten wie „Objektivität“ die Oberhand zu behalten. Es spricht für die innere Stärke der Bayesschen Statistik, dass sie sich trotz alledem etabliert hat. Die Gründe liegen auf der Hand: Ihr Grundmodell „Vorher-Daten-Nachher“ stellt die Daten in den Mittelpunkt und weist keinen systematischen Fehler auf. Der Bayessche Mechanismus ist logisch konsistent und lässt zu, dass relevante Vorinformationen berücksichtigt werden. Auch die Interpretation der Ergebnisse fällt leicht, weil sie natürlich ist. Man kann Berger (1985: 122) nur zustimmen, wenn er schreibt: In spite of the limitations and ‘weak spots’ in the rationality and coherence developments, they provide very powerful evidence that ‘truth’ lies in a Bayesian direction. They also provide devastating weapons in exposing the ‘irrationality’ of many other purported truths in statistics.
Struktur in den Daten und darum herum Denkt man in den modernen Termini der Struktur und Information sowie an den Hauptsatz der angewandten Statistik, so ist die Lösung des Rätsels nahe liegend. Die Daten sind zwar primär, doch prägt die Art ihrer Erhebung ihnen zugleich ein Muster auf. Experimentelle Daten lassen sich leicht auswerten und weitreichend interpretieren, weil ihnen mit der Erhebung eine überzeugende, einfache Struktur mitgegeben wurde, die ein wesentlicher Tukey versucht die Methode zu verstehen, während Fisher nur ausweichende Antworten gibt (Bennett 1990). 138 139 140 141 142
Das International Statistical Institute, ISI Die Annals of Mathematical Statistics Das regelmäßig stattfindende Berkeley Symposium on Mathematical Statistics Auch in Deutschland
Da Neymans fachliche Beiträge in dieser Arbeit eher „kritisch“ gewürdigt werden, möchte ich an dieser Stelle ausdrücklich betonen, dass dies nichts mit der Wertschätzung seiner oder irgendeiner anderen Person zu tun hat. Gerade Neyman wird fast durchgängig als herzlicher und hilfsbereiter Mensch beschrieben, siehe insbesondere Reid (1982).
5.3 Der statistikinterne strategische Konflikt
427
Schlüssel zu ihrer Auswertung ist.143 Doch auch die immer wieder als Gefahr genannten Selektionseffekte verlieren einen Teil ihres Schreckens, denn auch sie hinterlassen einen charakteristischen Abdruck, meistens in Form (systematisch) fehlender Datensätze. Allgemeiner gesprochen hinterlässt jede Datenerhebung ihre Spuren in den Daten. Bei experimentellen Daten sind diese gewollt, da steuer- und analysierbar. Bei nicht-experimentellen Daten weiß man hingegen typischerweise nicht, was sich alles in den Daten verbirgt, was seinen Stempel auf den Daten hinterlassen hat und was nicht. Im schlimmsten Fall - Data Mining - ist man gezwungen, nur den wenig zuverlässigen Hinweisen vagen Kontextwissens zu folgen, um mutmaßliche Strukturen - und Artefakte! - in den Daten zu entdecken. In diesem Sinne ist (fast) nur das bedeutsam, was tatsächlich geschehen ist. Es genügt sogar vollauf, lediglich die für eine Fragestellung relevanten „Teile“ der Daten - samt der in ihnen enthaltenen Strukturen - zu betrachten. Auch der „naive“ Anwender wird so vorgehen, sind es doch die Daten, die konkret, scharf umrissen, vorliegen. Jedoch tut man zugleich gut daran, jegliche über die Daten hinausgehende Information nicht zu ignorieren. Denn genau diesem Umfeld können wertvolle Hinweise entnommen werden, was in den Daten zu sehen sein sollte. Zwar ist der Kontext immer sekundär, doch ist insgesamt eine Datenanalyse nur dann überzeugend, wenn sie sowohl in einem ersten Schritt die Daten würdigt als auch in einem weiteren Schritt über jene hinausgehendes, relevantes Kontextwissen einbezieht. Dass dabei die Datenerhebung adäquat zu berücksichtigen ist, steht mittlerweile außer Frage und wird auch in aktuellen Bayisanischen Lehrbüchern, wie Gelman et al. (2004: 205), nicht mehr bestritten: “Our notation also highlights the incorrectness of the claim for the irrelevance of study design in general [. . .]” Dies widerspricht der klassischen Lesart des Likelihood-Prinzips (S. 266), weshalb sie ausführen: A naive student of Bayesian inference might claim that because all inference is conditional on the observed data, it makes no difference how those data were collected [. . .] The essential flaw in [this misplaced appeal to the likelihood principle] is that a complete definition of ‘the observed data’ should include information on how the observed values arose, and in many situations such information has a direct bearing on how these values should be interpreted. (Gelman et al. 2004: 198)
Die im folgenden Abschnitt zu besprechenden kausalen Netze sind noch weit mehr in der Lage, über die Daten hinausgehende Informationen elegant zu berücksichtigen. Insbesondere lässt sich mit ihrer Hilfe die systematische „Anreicherung“ der Daten im statistischen Experiment sauber formalisieren. Anstatt wichtige Eigenschaften experimenteller Maßnahmen, etwa der Randomisierung, eher informell oder sogar lediglich rein verbal zu behandeln, gibt ein kausales Netz explizit Auskunft über die bestehenden Abhängigkeiten. 143
Man denke an die Varianzanalyse. Im Extremfall rechtfertigt dies Fisher Ausspruch, dass auch induktive Schlüsse unzweideutig sein können, siehe S. 227 und 333.
428
5 Synthese
5.4 Strategische Schnittstellen und Kausalschlüsse An honest man can maintain an ideology only as long as he confines himself to problems where its shortcomings are not evident. (Jaynes 2003: 497)
Bei aller Betonung der Bedeutung der Daten; jene sind letztlich nur ein Mittel zum Zweck, nämlich, Unwissenheit zu beseitigen, etwas über die Realität zu lernen. Genau deshalb ist formal gesehen der Parameterraum wichtiger als der Stichprobenraum, und genau deshalb kann man Daten auch, sobald man mit ihrer Hilfe weiter gekommen ist, archivieren. Der Blick schweift also fast automatisch von den Daten ab und richtet sich zum einen (in der Geographie des Forschungszirkels) „gen Westen“. Wie sollte eine Hypothese operationalisiert werden? Schon beim Übergang von der allgemeinen Theorie zur konkreten Untersuchung entscheidet sich - ganz im Sinne der klassischen Statistik - wie weitreichend die Daten „tief im Osten“ interpretiert werden können. Es kommt sowohl hier wie auch dort auf die überzeugende Verknüpfung des konkreten Falls mit den allgemeinen Modellen und Hypothesen an. Den beiden Schnittstellen „im Osten und Westen“, also zwischen Fachwissenschaft und Statistik, widmen wir uns in diesem Abschnitt.
Kausalschlüsse Kausale Schlussfolgerungen sind das nahezu ideale Beispiel, um die genannten Felder zu beleuchten, denn sie • gehen weit über die Daten hinaus • stellen in natürlicher Weise den Kontakt zwischen Statistik und Fachwissenschaft her • sind von großer Bedeutung, da Kausalität ein eminent wichtiger wissenschaftlicher Begriff ist, also • sind auch für sich alleine betrachtet von großem Interesse • sind ein klassisches Thema der Philosophie und Wissenschaftstheorie144 • werden von vielen Fachrichtungen bearbeitet Zudem handelt es sich um ein sehr aktuelles Thema. In den 1980er Jahren setzte nämlich eine konsequente Formalisierung kausaler Zusammenhänge ein, die den Umgang mit Kausalität erheblich erleichtert, die begriffliche Verwirrung gelindert und das allgemeine Verständnis erheblich vertieft hat. Die nachfolgenden Abschnitte stellen von Wissenschaftlern und Statistikern erarbeitete Modelle der Kausalität vor, die als Paradebeispiel einer gelungenen Mathematisierung gelten können und die Diskussion auf ein zuvor nicht erreichtes Niveau gehoben haben. 144
Siehe Cartwright (2007), für einen kurzen Abriss Winship und Sobel (2004)
5.4 Strategische Schnittstellen und Kausalschlüsse
429
5.4.1 Kausale Graphen The task of causal modeling [may be viewed] as an induction game that scientists play against Nature. (Pearl 2000a: 43)
Eine wichtige Frage ist, wie man Wissen und Maßnahmen im Vorfeld der Datenerhebung geeignet berücksichtigen kann. Bei der Diskussion Bayesscher Verfahren wird dies ganz deutlich, doch nicht nur dort wird man dazu motiviert, nach einem flexiblen Formalismus Ausschau zu halten, der in der Lage ist, relevante Informationen aller Art elegant zu modellieren. Natürlich lässt sich auch der beste solche Formalismus keinesfalls immer anwenden. Dies hieße nämlich, ein (geschlossenes) Modell für alle Fälle gefunden zu haben, was mit der (prinzipiell offenen) Seite des Forschungszirkels nicht vereinbar ist. Gleichwohl wäre eine häufig einsetzbare Vorgehensweise, die die routinemäßige Modellierung formaler und inhaltlicher Aspekte gestattet, von großem Nutzen. Mit der Theorie kausaler Netze ist nun in den letzten 25 Jahren ein Formalismus entstanden, der die Enge der vorangegangenen Ansätze weit hinter sich lässt, ohne jedoch auf traditionelle stochastische Methoden als entscheidendes Hilfsmittel zu verzichten. Er verbindet elegant Struktur und Zufall, also deterministische und stochastische Elemente. Eine kausale Interpretation der Graphen ist, wie der Name schon sagt, möglich; zudem erlaubt die Theorie eine Simulation von Interventionen und bietet darüber hinaus eine Lösung für das Simpsonsche Paradoxon an.145 Solche kausale Graphen sind zudem ein wichtiges Beispiel für eine Entwicklung im Bereich der Statistik, bei denen aus anderen Fachgebieten stammende Wissenschaftler die Führung übernommen haben.146 Ein Ausgangspunkt sind graphische Modelle in der Nachfolge bzw. Anlehnung an LISREL (siehe S. 136ff), Pfaddiagramme und - mit beiden eng verbundenen -, lineare Strukturgleichungsmodelle.147 Letztere haben eine lange Geschichte, wobei zumeist auf Wright (1921) als Ausgangspunkt verwiesen wird. Für eine ausführlichere Darstellung der Geschichte in diversen angewandten Feldern siehe z. B. Pearl (2009a: Abschnitte 3.6.2 und 5.1), Morgan und Winship (2007), Heckman (2005) und Meehl und Waller (2002). Ein Graph besteht, wie schon zuvor beschrieben (Abschnitt 3.7.3) aus sogenannten Knoten und deren Verbindungen, sogenannten Kanten. Sind letztere 145
Zentrale Arbeiten sind Glymour et al. (1996), Halpern und Pearl (2005), und Pearl (2009a). Shipley (2000) und Morgan und Winship (2007) sind aktuelle, für Anwender geschriebene Bücher, während Studený (2005) die mathematisch-algebraischen Aspekte vertieft. Insbesondere Pearl, Lauritzen (2001) sowie Spirtes et al. (2004) machen deutlich, dass diese Modelle über die klassische Wahrscheinlichkeitstheorie hinausgehen. 146
Dass dies wiederum zu heftigen Konflikten geführt hat, muss eigentlich kaum noch erwähnt werden. 147 Engl. oft SEM, für structural equation models. Eine kurze Einführung ist Ullman und Bentler (2004), eine längere Grace (2006).
430
5 Synthese
gerichtet, so lassen sie sich anschaulich als Pfeile darstellen, und man spricht von gerichteten Graphen. Im Wesentlichen, denn es gibt zahlreiche Variationen der Grundidee, ordnet man nun jedem Knoten eine Zufallsvariable (samt einer Wahrscheinlichkeitsverteilung) zu und interpretiert die gerichteten Kanten als (kausale) Beeinflussung. Zum Beispiel bedeutet A → B → C, dass A direkten Einfluss auf B und dieses wiederum direkten Einfluss auf C hat. Die graphische Methode ist in der Lage, sowohl substanzielle Abhängigkeiten als auch formale Zusammenhänge abzubilden. Etwa ist S
A ↓ B
das typische Modell für eine Störvariable148 S, die den kausalen Einfluss von A auf B moduliert. In einem statistischen Experiment geht man aufgrund der Randomisierung davon aus, dass dies nicht möglich ist, weil die Randomisierung, bildlich gesprochen, alle nicht gewünschten Kausalbeziehungen effektiv unterbindet. Spirtes et al. (2000) untersuchen in Kapitel 9 ausführlich die Eigenschaften experimenteller Designs, indem sie diese als entsprechende gerichtete Graphen darstellen. (Siehe auch dessen Kapitel 7 und 12 für eine umfassendere Argumentation.) Die Inferenz in graphischen Modellen läuft im einfachsten Fall analog zum Bayesschen Paradigma. Beginnend mit einem graphischen Modell der Wirkzusammenhänge werden Daten erhoben, welche das Modell verändern. Dabei lässt sich zwischen (passiver) Beobachtung und (aktiver) Intervention unterscheiden, was nicht unerheblich ist. Auf das so modifizierte Modell, also die Posteriori-Situation, stützt sich dann die weitere Inferenz. Damit umgeht man die schwerfälligen Begriffe der traditionellen Statistik, die zuweilen gefährlichen Untiefen der bedingten Inferenz, aber auch die enge Mechanik des Bayesianischen Grundmodells. Graphische Modelle erlauben also 1. A priori umfassend und präzise zu modellieren 2. Daten jeglicher Provenienz gezielt zu berücksichtigen und logisch-korrekt zu verarbeiten 3. A posteriori ein Modell zu haben, welches Vorwissen und Daten berücksichtigt Zum einen arbeitet man formal-streng, denn die Rechenregeln innerhalb eines kausalen Graphen stehen fest. Zum andern ist man jedoch flexibel darin, welche Faktoren man in welcher Tiefe modelliert. Mit einem solchen Beziehungsnetz von Faktoren und (hypothetischen) Zusammenhängen zu arbeiten, ist weit mehr, als lediglich eine Priori-Verteilung zu spezifizieren (egal 148
Engl. confounder
5.4 Strategische Schnittstellen und Kausalschlüsse
431
ob im subjektiven Bayesschen Rahmen oder als H0 ) und eklatant mehr, als eine Ausgangsverteilung zu wählen, welche lediglich für Unwissen bzw. „den Zufall“ (im objektiven Bayesschen Rahmen bzw. beim üblichen Hypothesentesten) steht. Die Gedanken werden so noch vor der Erhebung der Daten auf die substanziellen Zusammenhänge und deren angemessene Operationalisierung gelenkt. Denn nur dann, wenn sich beide überzeugend im kausalen Modell niederschlagen, wird auch das Ergebnis der Analyse wiederum überzeugen. Unter der Überschrift “Importance of Modeling” schreiben Burnham und Anderson (2002: 100) über die Bedeutung einer von Vorwissen geleiteten Modellierung: Akaike (1981) believed that the most important contribution of his general approach was the clarification of the importance of modeling and the need for substantial, prior information on the system being studied.
So kommt man nahezu zwangsläufig auf umfangreichere Graphen, baumartige Strukturen, gerichtete Zusammenhänge und Interventionen, welche sich allesamt im Rahmen kausaler Graphen elegant erfassen lassen. Die klassischen Verfahren - egal ob orthodox oder Bayesianisch - sind (wichtige) Spezialfälle in einer umfassenderen Sicht kausaler und stochastischer Zusammenhänge. Es ist ein immenser Vorteil, dass kausale Netze über die Wahrscheinlichkeitstheorie hinausgehend, zusätzliche Möglichkeiten bieten, Information zu erfassen. Letztlich kombiniert man die umfangreichen „Werkzeugkästen“ von Graphentheorie und Stochastik und kann so auch komplexere Zusammenhänge wohlstrukturiert erfassen. Shafer (1996) schreibt unter dem Registereintrag Sample-space framework, inadequacy: In most twentieth-century mathematical discussions of probability, especially since the influential work of Kolmogorov (1933), the sample space has been taken as fundamental. A probability tree [. . .] includes a sample space but adds further structure to it.149
Pearl (2000b: 431) fügt mit Blick auf kausale Netze hinzu: “The success of counterfactual language stems from two ingredients necessary for scientific progress in general: (a) the use of modeling languages that are somewhat richer than the ones needed for routine predictions, and (b) the use of powerful mathematics to filter, rather than to muzzle, the untestable queries that such languages tempt us to ask.” Die Wahrscheinlichkeitstheorie dient so als Kalkül, mit dem sich die Gestalt des Netzes nach Beobachtungen oder Interventionen einfach berechnen lässt. Zudem erweitert diese Betrachtungsweise die Argumentation um einen neuen, algorithmischen Aspekt. Kausale Graphen sind durch und durch nichtparametrisch, lassen sich jedoch zugleich auch beliebig verfeinern. Das erhöht ihre Einsatzmöglichkeiten, 149
Fußnote im Original: There are other ways of adding dynamic structure to the bare idea of a sample space. The most widely studied way is to index variables by a measure of time, thus obtaining a [stochastic process . . .] they provide a framework in which many aspects of causality can be understood (Spohn (1990), Eerola (1994)). But the greater simplicity and generality of probability trees makes them far more useful for these purposes.
432
5 Synthese
und es ergibt sich die Chance, mit ihnen sukzessive von groben zu feinen Modellen vorzustoßen. Typischerweise ist das Vorwissen zunächst sehr vage, so dass es sich anbietet, nur ein ganz einfaches Modell zu verwenden oder ganz auf dessen Verwendung zu verzichten. Gleichzeitig macht einen diese Situation darauf aufmerksam, dass es weit besser - sprich überzeugender wäre, wenn man die Daten gezielt um Struktur anreichern würde, womit man bei klassischen statistischen Experimenten, nun im neuen Gewand kausaler Netze, angekommen ist. Je mehr Vorwissen zur Verfügung steht, umso präziser und umfassender kann dieses innerhalb der Theorie auch berücksichtigt werden, und der ursprüngliche Bayessche Mechanismus mit seiner Priori-Verteilung erscheint als weitere Zwischenstation auf dem Weg, alle relevanten Faktoren und Zusammenhänge formal abzubilden. Bestenfalls kommt man so, im Wesentlichen kumulativ fortschreitend, zu einem empirisch basierten Modell einer gewissen theoretischen Tiefe, das gerade die entscheidenden Mechanismen erfasst, und nichts spricht dagegen, auf diesem Weg schließlich zu einem exakt passenden, quantitativen Gesetz vorzudringen. (Siehe hierzu nochmals Abschnitt 4.5.2.) Sobald man mit einem differenzierten und im Kern sogar deterministischen Modell der realen Situation arbeitet, können die Vorhersagen weit exakter werden, als im stochastischen Rahmen. Insbesondere erläutert der kausale Graph, was aufgrund gewisser Interventionen geschieht. Damit präzisiert er die letzte logisch-induktive Argumentationsfigur Mills, also die Methode der gleichzeitige Änderung (siehe S. 218). Jene geht davon aus, dass die gemeinsame Variation zweier Variablen, hier der experimentellen Manipulation und einer Kriteriumsvariablen, ein Hinweis auf einen kausalen Zusammenhang ist. Mill hält die induktive Folgerung, also die Ursache-Wirkungsbeziehung zwischen der Intervention und der beobachteten Reaktion in der Kriteriumsvariablen deshalb für überzeugend, weil es sehr unplausibel ist, dass eine störende Drittvariable parallel zur eigentlichen Intervention genau dieselben Auswirkungen auf das Kriterium hat. Der kausale Graph geht hierüber noch wesentlich hinaus, weil er sogar den expliziten Mechanismus angibt. Eine Intervention ändert das kausale Netz auf eine definierte Art und Weise. Der Einfluss von im Netz berücksichtigten Störvariablen wird so offenkundig, häufig sogar quantifizierbar. Je besser das Netz in der Lage ist, den Effekt der Intervention vorherzusagen, desto weniger Raum bleibt für das Wirken einer nicht erfassten Störvariablen. Man muss sich also nicht auf Mills qualitatives Argument verlassen (welches übrigens nach wie vor für alle nicht explizit berücksichtigten Störfaktoren zutrifft). Vielmehr präzisiert die stochastischkausale Modellbildung seine philosophisch-prinzipielle Überlegung bis hin zur quantitativen Prognose. Es lassen sich sogar150 drei verschiedenartige Strategien für die Abschätzung eines kausalen Effekts angeben, was die Validierung eines Ergebnisses sehr erleichtert. Dabei ist es noch nicht einmal notwendig, dass alle wechselseitigen Abhängigkeiten bekannt sind. 150
Siehe Morgan und Winship (2007: 26ff)
5.4 Strategische Schnittstellen und Kausalschlüsse
433
Der womöglich größte Vorteil solcher Modelle ist neben ihrer Anschaulichkeit, und damit intuitiven, leicht fassbaren Art, Zusammenhänge darzustellen, dass sie explizit sind. Man wird schon vor einer Untersuchung gezwungen, auszuformulieren, wie die Komponenten zusammenwirken und welche Abhängigkeiten vorliegen könnten. Dies gilt nicht nur für die Art der Datenbeschaffung, sondern ganz allgemein. Pearl (1995: 707) hebt diesen Aspekt hervor: The transference of such [subject matter] knowledge requires a language in which the causal relationship [e.g.] ‘vitam C does not affect survival’ receives symbolic representation. Such a language, to the best of my knowledge, so far has not become part of standard statistical practice. Moreover, a language for stating assumptions is not very helpful if it is not accompanied by the mathematical machinery for quickly drawing conclusions from those assumptions or reasoning backward and isolating assumptions that need be tested, justified, or reconsidered. Facilitating such reasoning comprises the main advantage of the graphical framework.
Kausale Graphen lassen sich zudem so einsetzen, dass sie alle Phasen des statistischen Prozesses „unten“ im Forschungszirkel unterstützen. Sie sind hinreichend allgemein und umfassen insbesondere die bisherigen Inferenzmodelle. Dabei sind sie logisch streng und konsistent, wobei sie über den Rahmen der Wahrscheinlichkeitstheorie hinausgehen und auf elegante Art und Weise deterministische (kausale) Struktur und probabilistische Einflüsse berücksichtigen. Zugleich lassen sie sich ohne Probleme an eine konkrete Situation anpassen, sind also flexibel genug für den alltäglichen Praxiseinsatz. Insbesondere kann man dem Konfundierungsproblem dadurch konstruktiv begegnen, dass man einen situationsabhängigen Graphen kausaler Abhängigkeiten entwirft. Graphen zwingen dazu, explizit zu sein, wobei auch inhaltliche Argumente formalisierbar sind. Man kann sogar sagen, dass ein kausales Netz nur so gut sein kann wie die Theorie, auf die es sich stützt, die es operationalisiert. Damit macht der Ansatz die Bedeutung einer differenzierten und präzisen Theorie eindringlich deutlich. Wie die orthodoxe Statistik betonen kausale Netze also die Modellierung vor Erhebung der Daten, die auch die Auswertung der Daten maßgeblich beeinflusst. Andererseits kann ein Modell, welches Experiment A auf induktivem Weg geliefert hat, bei einem nachfolgenden Experiment B unmittelbar als Grundlage einer deduktiven Argumentation dienen. Es lassen sich bei alledem sogar simultan viele Modelle durchspielen, es ist nicht nötig sich auf ein einzelnes, möglicherweise stark elaboriertes zu beschränken. Vielmehr kann man mit ganz unterschiedlichen Voraussetzungen arbeiten und so den Daten einen (mehr oder minder) großen Einfluss auf das Ergebnis einräumen. Wie bei klassischen wahrscheinlichkeitstheoretischen Effizienzmaßen kann man auch in einem kausalen Graphen Evidenz messen, indem man die strukturelle Veränderung des Graphen bedingt unter den Daten betrachtet. Nimmt man alle genannten Vorteile zusammen, so erkennt man das große Potenzial dieser Familie von Modellen. Der Eindruck verstärkt sich noch durch die Tatsache, dass Kausalität bzw. Ursache-Wirkungsbeziehungen und
434
5 Synthese
entsprechende Mechanismen einen ganz zentralen Aspekt empirischer Wissenschaft erfassen. Anstatt dem entscheidenden success word (Stove 2000) Kausalität - aus dem Weg zu gehen, hat man einen Weg gefunden, kausale Zusammenhänge direkt, intuitiv und konstruktiv zu nutzen. Die Chancen stehen sehr gut, dass man mit einer solchen Methode gerade in den Wirtschaftsund Sozialwissenschaften weit größere Erfolge einfahren wird, als mit den eher groben Verfahren der klassischen Statistik, allen voran der Regressionsanalyse in ihren vielen Spielarten.151 Kausale Netzen, die Faktoren und deren Zusammenhänge elegant erfassen, sollten auch weit mehr in der Lage sein, Wissen zu kumulieren, als klassische Methoden, die typischerweise in einer isolierten Studie nur einige wenige Faktoren und manche ihrer wechselseitigen Abhängigkeiten erfassen. Insgesamt heißt das: Moderne kausale Netze sind eine erfolgreiche Klasse von Modellen, weil sie • • • • • •
explizit sind, insbesondere Mechanismen offenlegen, graphisch-anschaulich Zusammenhänge deutlich machen, formale und inhaltliche Informationen abbilden, die Folgen von Interventionen beschreibbar machen, flexibel an die jeweilige Situation adaptierbar, sowie deduktiv und induktiv einsetzbar sind.
Korrelation, Kausalität und Simpsons Paradoxon Mit Bezug auf Korrelation und Kausalität stellt schon Tukey (1986b: 309) fest: “Causation can only be established as a theoretically inevitable consequence of empirical observations. (Failure to recognize this dual requirement leads to asking too much of statistics, and to consequent dissatisfaction.)” Salmon (1989: 168) ist derselben Ansicht: “[. . .] causal concepts cannot be fully explicated in terms of statistical relationships [. . .]” Genau diese zusätzlich benötigte Struktur stellen kausale Graphen bereit. Mit ihrer Hilfe lässt sich von korrelativen Zusammenhängen auf kausale schließen. Anstatt eines negativen „Korrelation ist keine Kausalität“ lässt sich positiv sagen, was zur Korrelation hinzukommen muss, um einen kausalen Schluss zu rechtfertigen. Mit ihnen lässt sich damit eine über einhundertjährige „statistische Agonie’"(Pearl (2009a: Abschnitt 6.1.2)) überwinden. Natürlich fällt die zusätzlich benötigte Struktur nicht vom Himmel, sollte also nicht einfach postuliert werden. Im klassischen Fall ergibt sie sich aus dem experimentellen Design. Im Allgemeinen kann die zusätzlich benötigte Struktur sowohl formal fundiert als auch theoretisch begründet sein. Wenn fachwissenschaftlich gesehen nur wenige Ursachen in Frage kommen und alle bis auf eine - aus welchen Gründen auch immer - ausgeschlossen werden 151
Siehe insbesondere Freedman (1997), Glymour (1998) und Morgan und Winship (2007: 12f): “[. . .] enthusiasm for regression approaches to causal inference had declined dramtically by the mid-1990s.”
5.4 Strategische Schnittstellen und Kausalschlüsse
435
können, so greift die eliminative Induktion und spezielle statistische Überlegungen werden irrelevant. Ein schwaches Design ist nicht schlimm, wenn der inhaltliche Rahmen stark ist und beides in ein entsprechendes kausales Netz einfließt. Der klassische Präzedenzfall ist der schon erwähnte Bericht152 des US-Gesundheitsministeriums (1964), in dem explizite Kriterien aufgestellt werden, wann es gerechtfertigt ist, eine Korrelation kausal zu interpretieren. Zunächst heißt es allgemein:153 “The causal significance of an association is a matter of judgment which goes beyond any statement of statistical probability [. . .] when a scientific judgment is made that all plausible confounding variables have been considered, an association may be considered to be direct (causal) [. . .]” Dann werden die Kriterien ausgeführt (ibd., Hervorhebungen im zitierten Original): • Consistency of the association. Diverse methods should provide similar conclusions. The association should be found in replicated experiments [. . .] • Strength of the association. Measures of association [. . .] should be large, indicating a strong relationship [. . .] • Specificity of the association. Specificity refers to the precision with which one component of an associated pair predicts the occurrence of the other component [. . .] • Temporal relationship of the association. Exposure [. . .] must always precede the disease. • Coherence of the association. The association must make sense in light of our knowledge of the biology and natural history of the disease. Die Epidemiologie hat sich dies im folgenden zu eigen gemacht. Robins und Greenland (2000: 431f) schreibt: “Causal inference from observational data and broken experiments historically has been viewed as problematic, and even illegitimate by most statisticians. [Contrary to this,] in epidemiology, it has been common to view the association adjusted for all measured pretreatment covariates as most likely to be causal. [There] is a theorem that the association of treatment and the outcome within the levels of the measured covariates, say W , has a causal interpretation if either (a) the other elements X\W is independent of [treatment] T given W or (b) X\W is independent of Y given W and T [. . .] Unfortunately, these sufficient ‘conditions for no confounding’ are never empirically testable from observational data, because by definition X contains all nontreatment causes, including those unmeasured and those not even known to exist.” Zwangsläufig muss sich der obige Bericht und die Praxis auf “all plausible confounding variables” beschränken. Noch einfacher und allgemeiner hat diese Ideen Stone (1993) dargestellt. Er unterscheidet zunächst zwischen der „Suffizienz“ einer Menge von Kovariaten (d.h. alle potenziellen Einflussfaktoren 152
Siehe S. 184
153
Zitiert nach Rosenberger und Lachin (2002: 5), siehe auch A. Hill (1965)
436
5 Synthese
sind bekannt) und Randomisierung, die garantiert, dass alle Kovariaten unabhängig von den untersuchten Faktoren sind. Diese beiden Bedingungen - und zwar jede für sich - garantieren, dass keine Störvariable den zu beobachtenden Unterschied zwischen Experimental- und Kontrollgruppe verursacht.154 Mit kausalen Netzen lässt sich auch eine Lösung des Simpsonsche Paradoxons angeben.155 Die Idee ist, dass kausale Beziehungen deterministisch sind und auf der Individuenebene wirken. Das heißt, beeinflusst ein Medikament eine Krankheit positiv, so sollte dieser Effekt in jeder Person auftreten. Geht man dann vom Individuum zu einer Gruppe über, so sollte sich der Effekt auch dort zeigen. Er kann nicht, wie für das Simpsonsche Paradoxon typisch, „kippen“. Das gilt auch anders herum: Hat man einen Effekt auf einer gewissen Ebene (unbedingt) beobachtet, so muss er auch „bedingt“ vorhanden sein (insofern das Merkmal, unter dem man bedingt, nicht seinerseits eine entgegengesetzte Wirkung entfaltet). Formal gesehen benötigt man zunächst eine mathematische Beschreibung von Interventionen in kausalen Graphen. Dies stellt der Do-Calculus bereit, welcher drei plausible Annahmen über solche Eingriffe formalisiert, zum Beispiel, dass die Wegnahme von Beziehungen keine neuen Abhängigkeiten schafft. Unter der zusätzlichen Annahme, dass sich die Verteilung eines Merkmals durch Interventionen nicht ändert, folgt daraus als Theorem das SureThing Principle, also “An action C, that increases the probability of an event E in each subpopulation must also increase the probability of E in the population as a whole [. . .]” (Pearl 2009a: 181) Das heißt mit anderen Worten, dass sich die Richtung eines Zusammenhangs beim Aggregieren nicht umkehrt. Wirkt ein Medikament z. B. bei Frauen und Männern günstig auf den Verlauf einer Erkrankung, so ist dieser Effekt auch in der gesamten Population festzustellen. Die entscheidende Voraussetzung bei alledem ist, dass das Medikament keinen geschlechtsspezifischen Effekt hat, was man in einem kausalen Netz an einer einschlägigen Abhängigkeit 154
Technisch gesprochen Nicht-Konfundierung, siehe schon S. 223. Cochran und Rubin (1973: 44) schreiben jedoch: “One of the most common criticisms of the conclusions drawn from an observational study is that they are erroneous because the investigator failed to adjust or match for another confounding variable [that affects the outcome . . . ] Even under simple models, however, investigations of the effects of such a variable [. . .] leads to no crisp conclusion that either rebuts or confirms this criticism in any generality.” Sicherheitsbehörden würden von einer (schwachen) „abstrakten Bedrohung“ der Validität sprechen. Das heißt, es ist nicht auszuschließen, dass die nicht berücksichtigte Variable einen missliebigen Einfluss hat: Die Störvariable kann für das beobachtete Resultat verantwortlich sein. Weit stärker ist eine konkrete Bedrohung der Validität, d. h. es können empirische oder theoretische Gründe genannt werden, dass oder sogar wie eine Störvariable das Ergebnis beeinflusst. Aufgrund dessen sollte man einerseits prinzipiell vorsichtig mit Kausalschlüssen und anderen weit reichenden Folgerungen aus Beobachtungsdaten sein. Andererseits sollte man Beobachtungsdaten aber auch intensiv nutzen, insbesondere wenn man auf Informationen zurückgreifen kann, die über rein formal-statistische Gründe hinausgehen und sich mit ihnen im spezifischen Fall die prinzipiellen Zweifel ausräumen lassen. 155
Für Details siehe Pearl (2009a: 85ff).
5.4 Strategische Schnittstellen und Kausalschlüsse
437
erkennen würde. Die Schwierigkeit, genau die richtige Ebene der Betrachtung bzw. Referenzmenge zu finden, wird bei einem kausalen Effekt also dadurch gelöst, dass der Effekt überhaupt nicht von der Ebene abhängt, sondern als deterministisches Phänomen im Individuum auftritt und von dort „nach oben durchgereicht“ wird. Im Allgemeinen könnte ein kausaler Effekt auch nicht deterministisch sein. Dies versuchen Theorien der probabilistic causation bzw. probabilistic causality zu berücksichtigen, die auf Reichenbach (1956) zurückgehen. Außerhalb der Philosophie haben sie jedoch keine große Bedeutung erlangt. (Siehe Sobel (1995) und Pearl (2009a: Abschnitt 7.5), der einige Gründe hierfür nennt.) Unangenehmer ist die Kritik, man könnte eine entscheidende Störvariable übersehen, also nicht im kausalen Netz berücksichtigt haben. Darauf gibt es mehrere konstruktive Antworten: Zunächst sollte das inhaltliche Wissen eine wesentliche Rolle bei der Formulierung eines kausalen Graphen spielen und damit auch einen Hinweis auf die richtige Detaillierungsebene geben. Tritt gleichwohl ein Simpsonsches Paradoxon auf, so ist gerade dies ein wichtiges Indiz dafür, dass man einen wesentlichen Faktor übersehen hat. In diesem Sinne weist ein kausaler Graph auf seine eigene Unzulänglichkeit hin, er ‚sagt‘ einem gewissermaßen, dass er zu ergänzen ist. Repräsentiert ein kausaler Graph andererseits die wesentlichen Zusammenhänge, so teil er einem mit, welche Variablen welchen Einfluss ausüben. Daraus lässt sich sofort ableiten, wo störende Einflüsse wirksam werden und wie jenen begegnet werden kann. Das heißt insbesondere auch, zu wissen, welche Variablen adjustiert werden müssen bzw. wie zu bedingen ist.
5.4.2 Kritik an kausalen Graphen Of course it is easy to avoid making erroneous causal inferences: make none at all. The challenge is to find methods that make correct causal inferences where possible while avoiding, insofar as possible, incorrect causal inferences. (Glymour 1998: 24)
Wie schon gewohnt, reicht die Kritik an einem weitgehenden, neuen Ansatz von technisch-detailliert bis philosophisch-prinzipiell, wobei sich nicht selten fundamentale Kritik im formalen Detail festmacht. Den aktuellen Stand spiegeln Morgan und Winship (2007: Kapitel 10) und Cartwright (2007) wider. Fragen sich Anwender vor allem, wie weit sich die neuen Methoden einsetzen lassen, so werden (erneut) gerade von statistischer Seite die prinzipiellsten Zweifel vorgebracht, etwa am Ende des Buchs (Freedman 2005). Zahlreiche weitere Vorbehalte von Statistikern finden sich auch ibd., Kapitel 8, in Holland (1986) und Dawid (2000). Ein nahe liegender Einwand ist, dass solche Modelle noch weit mehr voraussetzen als der Bayessche Mechanismus und es doch schon beim Bayesschen Vorgehen schwierig ist, eine (nicht triviale) Priori-Verteilung zu spezifizieren. Rosenbaum (1995: 699) sagt: “Path diagrams allow one to make a large num-
438
5 Synthese
ber of complex, interconnected assumptions, but this is not desirable, because it is much more difficult to ensure that the assumptions are warranted.” In Situationen mit wenig Kontextwissen ist dieser Einwand stichhaltig. Jedoch hat die Maxime “let the data speak for themselves” die traditionelle Statistik konsequent in die Isolation getrieben (siehe S. 414ff), und man kann auch erwidern, dass hierzu die Unfähigkeit der klassischen Wahrscheinlichkeitstheorie, selbst einfache kausale Zusammenhänge adäquat zu formalisieren, beigetragen hat (siehe S. 309). Pearl (2009a: 97) prognostiziert: “It can be anticipated, therefore, that the language of causal graphs will find applications in problems requiring substantial domain knowledge.” Insgesamt ist seine Einschätzung (ibd., S. 96): Causal diagrams offer an alternative language for combining data with causal information. This language simplifies the Bayesian route [. . .] statements, which merely indicate whether a causal connection between two variables of interest exists, are commonly used in ordinary discourse and provide a natural way for scientists to communicate experience and organize knowledge.156
Die von Dawid (2000: 409, 413) vorgeschlagene traditionelle „Black-BoxAlternative“ haben wir (S. 285) schon zitiert.157 Zusätzlich zu der in der Diskussion jenes Artikels genannten Kritik (etwa S. 301), die sich insbesondere gegen das „Ptolemäische“ und „Positivistisch-Oberflächliche“ des Ansatzes richtet,158 erwidert Pearl (2000b: 429): This quasi-deterministic functional model mirrors Laplace’s conception of nature [. . .] (The structural equation models used in economics, biology, and stochastic control are typical examples of Laplacian models.) Dawid detests this conception. This is not because it ever failed to match macroscopic empirical data [. . .], but rather because it appears to stand contrary to the ‘familiar statistical framework and machinery’ [. . .] I fail to see why a framework and machinery that did not exactly excel in the causal arena should be deprived of enhancement and retooling.
Der letzte Satz wird in Pearl (2009a: 180) elaboriert: “[Probability] calculus cannot adequately handle causal relationships without the proper extensions.” Eine wichtige Folge ist: “To a large extent, this history of controversy and miscommunication stems from the absence of an adequate mathematical notation for defining basic notions of causal modeling” (ibd., S. 97). Auch Freedman (2005: 200) erneuert im aktuellen Zusammenhang seine Kritik: “In the social and behavioral sciences, far-reaching claims are often 156
Fußnote im Original: Remarkably, many readers of this chapter (including two referees of this book) classified the methods presented here as belonging to the ‘Bayesian camp’ and as depending on a ‘good prior’. 157
“For inference about the effects of causes, a straightforward ‘black box’ decision-analytic approach, based on models and quantities that are empirically testable and discoverable, is perfectly adequate [. . .] Any account of causation that requires one to jettison all of the familiar statistical framework and machinery should be treated with the utmost suspicion, unless and until it has shown itself completely dispensable for its purpose.” 158
Siehe die zahlreichen negativen Kommentare zu Dawid (2000), die Aufarbeitung in Morgan und Winship (2007: 282ff) unsere Abschnitte 3.11.2 und 4.5.2 sowie S. 301.
5.4 Strategische Schnittstellen und Kausalschlüsse
439
made for the superiority of advanced statistical methods - by those who manage to ignore the far-reaching assumptions behind the models [. . .] we saw there was considerable skepticism about disentangling causal processes by statistical modeling.” Er schließt (ibd.) mit der Einschätzung: “The problems are not in the studies, but in the modeling technology. More precisely, bad things happen when the technology is applied to real problems - without validating the assumptions behind the models. Taking assumptions for granted is what makes statistical techniques into philosophers’ stones.” Zu diesem Einwand sagt Pearl (1995: 707f): [. . .] people will be careful with their assumptions if given a language that makes those assumptions and their implications transparent; moreover, when assumptions are transparent, they are likely to be widely discussed. No matter how powerful, a notational system that does not accommodate an explicit representation of familiar processes will only inhibit people from formulating and assessing assumptions. As a result, instead of being brought into the light, critical assumptions tend to remain implicit or informal, and important problems of causal inference go unexplored [. . .] Graphs provide a powerful deterrent against forgetting assumptions unmatched by any other formalism. Scientific progress also demands that we not re-test or re-validate all assumptions in every study but, rather, that we facilitate the transference of knowledge from one study to another, so that the conclusions of one study may be imposed as assumptions in the next.159
Da Kausalität ein klassisches Thema philosophischer Diskussion ist, spielt auch die Historie des Problems eine nicht unwesentliche Rolle. Kausale Netze sind nicht zuletzt Modelle latenter Zusammenhänge, gehen also offensichtlich über das direkt Beobachtbare hinaus. Der klassische Empirismus und sein jüngerer Bruder, der Positivismus, betonen die Fakten und die Oberfläche des Geschehens. Das heißt, sie sind bei allen theoretischen Termen, die sich vom direkt Beobachtbaren entfernen, skeptisch. Diese Haltung mag heute nicht mehr so ausgeprägt sein wie in den Hochzeiten des Wiener Kreises, Skinners oder auch des Operationalismus, existent ist sie deshalb immer noch. Pearl (2000b: 430) schreibt dazu: A pragmatic empiricist insists on asking empirically testable queries, but leaves the choice of theories to convenience and imagination; the dogmatic empiricist insists on positing only theories that are expressible in empirically testable vocabulary [The latter] rejects [a] model a priori because it starts with unobservable [. . .] terms. What is gained by by this prohibition [. . .] is protection from asking nonidentifiable queries [. . .] Unfortunately, it also ensures that one never asks or answers important questions [. . .] that cannot be expressed in his restricted language. It is a stifling insurance policy, analogous to banning division from arithmetics to protect one from dividing by 0 [. . .] Science rejected this kind of insurance long ago. The Babylonians astronomers were masters of black box prediction, far surpassing their Greek rivals in accuracy and consistency [. . .] Yet science favored the creative-speculative strategy of the Greek astronomers [. . .] It was this wild modeling strategy, not Babylonian rigidity, that jolted Eratosthenes (276-194 B. C.) to perform one of the most creative experiments in the ancient world and measure the radius of the earth. This creative 159
Welch’ ein Unterschied zum “cult of the single study”, siehe insbesondere S. 414ff.
440
5 Synthese
speculate-test-reject strategy (which is my understanding of Popperian empiricism) is practiced throughout science because it aims at understanding the mechanisms behind the observations and thus gives rise to new questions, new experiments, which eventually yield predictions under novel sets of conditions.
Jede Formalisierung bedeutet, wie wir mehrfach betont haben, immer auch eine Einschränkung. Mündet nun eine lange (wenig fruchtbare), vornehmlich mit verbalen Mitteln geführte philosophische Diskussion in einem einfachen, anschaulichen Kalkül, so kann die Kritik eigentlich nicht ausbleiben, die Formalisierung würde wesentlichen Aspekten des Phänomens nicht gerecht. Folgt man z. B. den „manipulativen Theorien“ der Kausalität, etwas überspitzt formuliert in dem oft zitierten No causation without manipulation (Holland 1986), so sind kausale Netze zu weitreichend, da sie auch nicht experimentell manipulierbare Sachverhalte als „Ursache“ zulassen. Zugleich sind sie deterministisch, also in einem gewissen Sinne eng, was Probabilisten eine Flanke öffnet (s.o.) Die Syntax kausaler Netze lässt auch weitgehend offen, was unter einer kausalen Beziehung „eigentlich“ zu verstehen sei, d. h. es wird mit wechselseitiger Beeinflussung gearbeitet,160 ohne zuvor zu erläutern, was eine kausale Relation ist. (Pearl 2000a) wird z. B. von Winship und Sobel (2004: 485) mit den Worten kritisiert: “[. . .] the failure in much of this work to first define what is meant by causality has been a major problem.” Wie schwach diese Kritik ist, bemerkt man sofort, wenn man die aktuelle Literatur z. B. mit Rothman (1988) vergleicht. Tatsächlich hat die mathematische Fixierung des Problems die Diskussion auf ein völlig anderes Niveau gehoben.161 Neben solchen eher allgemeinen philosophischen Vorbehalten existiert auch eine über einhundertjährige, dezidiert fach-statistische Tradition, mit kausalen Zusammenhängen umzugehen. Diese war dezidiert abweisend bis feindselig. Jahrzehntelang war es verpönt, überhaupt von Kausalität zu sprechen. Nicht nur Russell (1913) hielt „Kausalität“ für einen überholten Begriff, da er mit „Korrelation“ zusammenfiele. Tukey (1986b: 314) ergänzt: “At the time of its introduction, path analysis was attacked [. . .] by proponents of Karl Pearson’s (1892ff) view (which has a long philosophical history) that causation was merely close correlation. (Fortunately this attempt to find certainty in uncertainty seems to have lost its popularity among users of quantitative method, though it seems still to be popular among philosophers.)” 162 Pearl (2000b: 428) ist ausführlicher: 160
Letztlich nur gerichteten Kanten in einem Graphen
161
Eine ganz ähnliche Kritik wird übrigens bis heute am „semantikfreien“ Informationsbegriff (Shannon 1948) geäußert. Informatiker werden hingegen nicht müde, den großen Vorteil der rein syntaktischen Theorie der Information zu betonen, konnte doch nur so eine große, mathematisch-exakte und unstrittige Theorie wachsen, die sich nicht in den semantischen Untiefen des Begriffs (insbesondere Subjektivität, siehe (von Baeyer 2005)) verheddert. 162
Meine Hervorhebung. Siehe auch Tukeys Bemerkungen S. 77.
5.4 Strategische Schnittstellen und Kausalschlüsse
441
The field of statistics has seen many well-meaning crusades against threats from metaphysics and other heresy. In its founding prospectus of 1834, the Royal Statistical Society resolved ‘to exclude carefully all opinions from transactions and publications - to confine its attention rigourously to facts [. . .]’ Karl Pearson launched his own metaphysics ‘red scare’ about causality in 1911. [His] objection to theoretical concepts such as ‘matter’ and ‘force’ was so fierce and his rejection of determinism so absolute that he consigned statistics to almost a century of neglect within the study of causal inference [. . .] Attitudes of suspicion toward counterfactuals and structural equation models are currently pervasive among statisticians [. . .]
5.4.3 Die innerstatistische Alternative [. . .] we may define a cause to be an object followed by another, and where all the objects, similar to the first, are followed by objects similar to the second. Or in other words where, if the first object had not been, the second never had existed. Hume (1748: Kapitel VII), Hervorhebungen im Original
Es gibt noch einen weiteren, sehr einfachen Grund, warum die MainstreamStatistik kausale Netze ablehnt. Und zwar existiert eine innerhalb der Statistik entwickelte Alternative, das Rubin Causal Model bzw., etwas allgemeiner, Counterfactual Causal Inference.163 Diese statistische Tradition ist eine direkte Konkurrenz und wird gerne bis auf (Neyman 1923) zurückgeführt, der als erster eine heute allgemein übliche Notation einführte (Winship und Sobel 2004: 486). Ausgangspunkt sind statistische Experimente, also der Vergleich zweier Gruppen, die durch Randomisierung zustande gekommen sind. Stellt die Technik der Randomisierung die Vergleichbarkeit der Gruppen sicher, so ist der Kausalschluss gerechtfertigt (siehe Abschnitt 4.3.3 und Kempthorne (1955)). Kempthorne (1979: 125f) sagt: “Only when the treatments in the experiment are applied by the experimenter using the full randomization procedure is the chain of inductive inference sound, it is only under these circumstances that the experimenter can attribute whatever effects he observes to the treatment and to the treatment only.” Der Terminus counterfactual rührt daher, dass man gleichwohl eine Einheit nur entweder unter T = t oder T = c beobachten kann, weshalb (Rubin 1978) und andere oft von einem missing data problem (auf der Subjektebene) sprechen.164 163
Siehe insbesondere Rubin (2006), Morgan und Winship (2007), Freedman (2006), Rubin (1990) und Holland (1986). 164
Man beachte, siehe S. 399, dass dies kein Spezifikum kausaler Fragestellung ist. (Obwohl dieser Punkt fast immer bei kausalen Schlüssen explizit und betont hervorgehoben wird.) Tatsächlich ist der von der frequentistischen Perspektive immer wieder zitierte “long run” bzw. der Stichprobenraum ebenfalls kontrafaktisch (engl.: counterfactual). Auch dort vergleicht man eine reale Beobachtung mit einer Reihe von nicht beobachteten, lediglich potenziellen Alternativen.
442
5 Synthese
Offenkundig ist es wenig befriedigend, nur in der randomisierten Situation fundierte Aussagen machen zu können, zumal Beobachtungsdaten in der Praxis weit häufiger sind als experimentelle. Deshalb hat man sich schon früh darum bemüht, nicht-randomisierte Experimente genauer zu untersuchen. Alle diese Untersuchungen sehen die randomisierte Situation als die ideale an und studieren dann Abweichungen von ihr. Schon die übliche Bezeichnung Quasi-Experiment für alle nicht-randomisierten statistischen Studien ist bezeichnend. In einem eigenen Kapitel begründen Shadish et al. (2002: 104ff) “The logic of quasi-experimentation in brief.” Sie schreiben: [. . .] randomized experiments make alternative explanations implausible by ensuring that they are randomly distributed over the experimental conditions. Because quasiexperiments do not use random assignment, they rely on other principles to show that alternative explanations are implausible.
Diese eng verwandten Strategien sind: 1. Verwendung von Studiendesigns mit Kontrollelementen, so dass spezifische Alternativerklärungen ausgeschlossen werden können. 2. Komplexe Vorhersagen, die sonst - also bei der Nicht-Gültigkeit einer Hypothese - nicht vorkommen sollten.165 3. Identifikation potenzieller Störfaktoren und Abschätzung ihrer Auswirkungen. Rosenbaum (1995) verwendet eine ähnliche Einteilung und Rosenbaum (2002) ist ein Buch, das, in der statistischen Tradition stehend, systematisch die Leistungsfähigkeit der Strategien erforscht. Shadish et al. (2002: 105) betonen nachdrücklich, dass “None of these three principles provide the ease of causal inference or the elegant statistical rationale associated with random assignment. Instead, the logic of causal inference in quasi-experimentation requires careful and detailed attention to identifying and reducing the plausibility of alternative causal explanations.” Wie der Untertitel ihres Buches schon ankündigt, läuft dies darauf hinaus, ausgehend von der idealen, randomisierten Situation, eine fundierte Theorie der “generalized causal inference” zu entwickeln:
Der Propensity Score Eine zufällige Zuordnung achtet nicht auf Merkmale X1 , . . . , Xk der statistischen Einheiten, im einfachsten Fall wird jede Einheit mit einer konstanten Wahrscheinlichkeit P (T = t) = p der Treatment-Gruppe zugeteilt. Eine naheliegende Abschwächung dieses Inferenzmusters ist, zuzulassen, dass die Zuordnungswahrscheinlichkeit von den (bekannten) Kovariaten X1 , . . . , Xk abhängen darf. Diese Wahrscheinlichkeit, also 165
“Make your theories elaborate” ist ein oft zitierter Satz Fishers, siehe z. B. Cochran (1965: Paragraph 5).
5.4 Strategische Schnittstellen und Kausalschlüsse
443
P (T = t|X1 , . . . , Xk ) heißt Propensity-Score. Er ist von zentraler Bedeutung, da er den Einfluss der Kovariaten auf die Zusammenstellung der Gruppen erfasst. Im Allgemeinen werden sich die Gruppen systematisch unterscheiden. Das zeigt sich insbesondere darin, dass die Verteilung eines Merkmals Xi für T = t eine andere ist als für T = c. (In der Treatmentgruppe könnte z. B. auf 2 Frauen ein Mann kommen, während das Geschlechterverhältnis in der Kontrollgruppe ausgeglichen ist.) Mithilfe einer geeigneten Gewichtung kann man jedoch dafür sorgen, dass die Gruppen doch vergleichbar werden. (Etwa indem man im Beispiel die Ergebnisse je zweier Frauen der Treatmentgruppe zusammenfasst, also nur je zur Hälfte berücksichtigt.) Formal gesehen versteht man unter einem Balancing Score b(X) = b(X1 , . . . , Xk ) eine Funktion der Kovariaten, so dass die Verteilung der Merkmale, bedingt unter b(X), in beiden Gruppen dieselbe ist. Zumeist wird hier die Notation von Dawid (1979) verwendet: X ⊥⊥ T | b(X) Dies ist zu lesen als: Bedingt unter b(X1 , . . . , Xk ) sind die Merkmale Xi von der Gruppenzuweisung T unabhängig. In diesem Sinne eliminiert ein Balancing Score den Einfluss der Kovariaten. Im einfachsten Fall hält man eine Reihe von Kovariaten fest, bedingt also unter ihnen. (Vergleicht man Frauen in der Treatmentgruppe mit Frauen in der Kontrollgruppe, so sind beide gewiss bezüglich des Merkmals „Geschlecht“ vergleichbar.) Gleichzeitig unter allen Kovariaten zu bedingen ist die „feinste“ Möglichkeit, Vergleichbarkeit herzustellen. Sie führt jedoch zu außerordentlich vielen, sehr kleinen Teilgruppen, die alle miteinander zu vergleichen sind. Zumal es auch passieren kann, dass viele dieser Teilgruppen leer sind. Hier kommt der Propensity Score zu Hilfe. Da er gerade formalisiert, wie sich die Kovariaten auf die Zusammenstellung der Gruppen auswirken, ist er in einem gewissen Sinne der „gröbste“ Balancing Score. Mit anderen Worten genügt es, nur ihn zu betrachten. Für Details siehe Rosenbaum und Rubin (1983), insbesondere S. 171ff. Die gewünschte Abschwächung der Randomisierung liegt nun in der Ignorierbarkeit der Mechanismen, welche die Zuordnung experimenteller Einheiten zu den Gruppen regeln. Vergleicht man die beiden Gruppen bezüglich einer abhängigen Variablen Y 166 und gilt Y ⊥⊥ T | X so heißt der Zuweisungsmechanismus (stark) ignorierbar. (Bei einer Randomisierung hat man offenkundig Y ⊥⊥ T , da die Art der Zuweisung nichts mit X zu tun hat.) Dies veranschaulicht man sich am einfachsten mithilfe eines Diagramms: 166
Typischerweise ebenfalls ein Vektor von Variablen, also Y = (Y1 , . . . , Ym ). Oft wird auch mit der Notation (Yt , Yc ) zwischen der “Response” in der Treatment- und der Kontrollgruppe unterschieden.
444
5 Synthese
X
T ↓ Y
Die Kovariaten X = X1 , . . . , Xk beeinflussen im Allgemeinen sowohl die Zusammenstellung der Gruppen, also T , als auch die in beiden Gruppen gemessene abhängige Variable Y . Zudem haben auch die Unterschiede zwischen den Gruppen einen direkten Einfluss auf das Ergebnis. Ignorierbarkeit bedeutet, dass, sobald man unter X bedingt, T von Y unabhängig ist. Beobachtet man also nach der experimentellen Manipulation einen Unterschied zwischen den Gruppen, so kann er nicht darauf zurückzuführen sein, wie die Gruppen zusammengestellt wurden. Der Einfluss der Kovariaten wurde ja - über den Propensity Score - berücksichtigt, womit sie als potenzielle Ursache eines Effekts ausscheiden. Für Details siehe Stone (1993: 462) und Gelman et al. (2004: Kapitel 7).167 Sehr beliebt geworden ist Propensity-Score-Matching (siehe Rubin (2006: Teil IV)). Das heißt, zu einem Subjekt in der Treatmentgruppe werden Einheiten der Kontrollgruppe gesucht, die bzgl. des Propensity-Scores möglichst ähnlich sind. Der große Vorteil ist, dass man nur auf dem eindimensionalen Propensity-Score nach möglichst ähnlichen „Zwillingen“ suchen muss und nicht auf dem Raum aller Kovariaten (Rubin 2006: Teil III). Winship und Sobel (2004: 494) schreiben z. B.: “Matching works because it amounts to conditioning on the propensity score.” Beim obigen Ansatz spielt wie überall in der klassischen Statistik der Stichprobenraum und damit auch der Zuweisungsmechanismus von Individuen auf die verschiedenen Treatments eine entscheidende Rolle. Zudem werden, ebenfalls ganz klassisch, zumeist (Differenzen von) Erwartungswerten verwendet, um die Größe von Effekten zu messen. Rubin (1991: 403) zählt vier verschiedene Arten kausaler Inferenz auf, um dann zu schreiben: A more important message than their differences, however, is that all modes share a common conceptual framework in which causal inferences can be drawn [. . .] this common framework requires the specification of a posited assignment mechanism describing the process by which treatments were assigned to units [. . .] (Hervorhebung im Original.)
Kritik Wie bei kausalen Graphen werden auch hier nur eine Reihe von Einflüssen explizit berücksichtigt. Man muss letztlich annehmen, dass unberücksichtigte Variablen keine wesentlichen Einfluss auf das Ergebnis haben. Damit nicht genug. Tatsächlich werden gar nicht alle in den Kovariaten X1 , . . . , Xk erfassten Einflüsse ins Kalkül einbezogen, sondern lediglich deren Auswirkung auf 167
Man beachte bei alledem, dass sich die Argumentation immer auf der Ebene der Zufallsvariablen bewegt. Die in Abschnitt 4.3.3 immer mögliche Konfundierung auf der Ebene der Realisierungen ist hiervon unbenommen.
5.4 Strategische Schnittstellen und Kausalschlüsse
445
den Propensity-Score. Es fragt sich, ob das wirklich ausreichend ist oder ob man den Propensity-Score nicht ähnlich überlädt wie Bayesianer die PrioriVerteilung. Schon in Rosenbaum und Rubin (1985) stellt sich heraus, dass man trotz aller Theorie doch auf ein mehrdimensionales Distanzmaß zwischen den Kovariaten angewiesen ist. Das ist nicht wirklich verwunderlich, denn zwei Personen mit demselben Propensity-Score haben lediglich dieselbe Wahrscheinlichkeit, der Treatment-Gruppe zugeordnet zu werden. Das sagt fast nichts über ihre Ähnlichkeit in den Kovariaten aus.168 Nichts verhindert, dass zwei völlig verschiedene Personen dieselbe Wahrscheinlichkeit besitzen, der TreatmentGruppe zugeordnet zu werden. Salopp gesagt wird der Erste für das Olympische Team ausgewählt, weil er jung und stark, der Zweite, weil er jung und schnell, der Dritte weil er ein hervorragender Arzt und der Vierte, weil er ein einflussreicher Funktionär ist. Die vermeintliche Dimensionsreduktion des Problems kommentiert auch Manski (2008: 76): [Rosenbaum and Rubin] assert that dimension reduction simplifies statistical analysis with sample data. Curiously, their argument neglects the fact, that propensity scores are not known with sample data - they are regressions that must be estimated. Thus conditioning on the propensity score does not really reduce the dimensionality of the conditioning variables. Rather, it transfers the multidimensional inference problem to estimation of the propensity score.
In aller Regel wird der Propensity-Score bzw. der Zuweisungsmechanismus mit einer logistischen (Cox-)Regression geschätzt. Dazu schreiben Ho et al. (2007: 218): “In practice, however, we do not know the true propensity score (except in unusual situations like experiments). We would still be able to appeal to some of [its] properties if we had a consistent estimate for it, but such an estimate would require knowing the correct functional form for the assignment model, which is highly unlikely. Moreover, few useful theoretical results exist for the case when the true form of the propensity score remains unknown. These theoretical results would therefore seem to be entirely self-defeating: In order to use nonparametric matching to avoid parametric modeling assumptions, we must know the parametric functional form of the propensity score equation.” (Hervorhebung im Original.) Aufgrund dessen sprechen Ho et al. (2007) (ibd.) insgesamt von einer propensity score tautology, d. h. [. . .] it works when it works, and when it does not work, it does not work [. . .]169 168
Eine Bemerkung am Rande. Beim Auffinden relevanter Information steht man auch in der Informatik vor dem Problem, Dokumente zu finden, die einer Suchanfrage möglichst ähnlich sind. Wie geht man in der Praxis vor? Berechnet man, ähnlich dem PropensityScore, für jedes Dokument eine Zahl, macht also aus dem mehrdimensionalen Problem ein eindimensionales? Mitnichten; vielmehr werden aus jedem Dokument zahlreiche relevante “Features”, also Merkmalsvektoren, extrahiert und dann - im Mehrdimensionalen miteinander verglichen (Bodendorf 2006: Abschnitt 3.3.2). 169 Siehe hierzu schon S. 425 und die dort angegebene Literatur.
446
5 Synthese
Aufgrund des Zuweisungsmechanismuses unterscheiden sich die Gruppen systematisch. Vergleichbarkeit wird mithilfe des Propensity Scores hergestellt, indem man die Gruppen geeignet ausbalanciert oder zueinander passende Individuen „matcht“. Letztlich versucht man wie bei anderen Adjustierungsverfahren (etwa der Kovarianzanalyse S. 134, siehe auch S. 111) im Nachhinein Einflüsse herauszurechnen. Dies kann mehr oder minder explizit geschehen, doch sollte klar sein, dass jeder Versuch, a posteriori Vergleichbarkeit herzustellen, natürlich nur so überzeugend wie das Modell sein kann, welches die relevanten Faktoren und potenziellen Selektionseffekte erfasst. Nur wenn jenes alle relevanten Störeffekte berücksichtigt, valide und reliabel ist, ist die „Posteriori-Strategie“ überzeugend. Kang Fu et al. (2004: 424) schreiben zurecht: “In an important set of papers Manski [. . .] shows the overwhelming role that assumptions play in producing estimates from selection models.” Dasselbe gilt selbstredend auch für das Propensity-Modell und allgemein: The problems of modeling have been discussed at length in the literature, with the fundamental criticism being the dependence of modeling results on the correctness of the assumed model. (Greenland 1990: 427)170
Anstatt potenzielle Einflussfaktoren im Nachhinein numerisch zu korrigieren ist es im Allgemeinen weit überzeugender, von Anfang an mit augenscheinlich vergleichbaren Einheiten zu arbeiten oder zu zeigen, dass die Einheiten in allen relevanten, zumindest aber in möglichst vielen Faktoren übereinstimmen, als erst im Nachhinein einen dann festgestellten Unterschied rechnerisch zu zerlegen. Deshalb, nicht aufgrund des Propensity Scores, empfahl schon Gosset (1931) Zwillingspaare zu „matchen“, also einander sehr Ähnliches zu vergleichen. Bei Zwillingen bzw. allgemeiner, schon a priori vergleichbaren Einheiten ist es zumindest sehr plausibel, dass die am Ende festgestellte Diskrepanz auf die unterschiedliche Behandlung „dazwischen“ zurückgeht. Ansonsten bleibt immer der prinzipielle Einwand, die A-PrioriUnterschiede seien für die A-Posteriori-Differenz maßgeblich gewesen. (Siehe Abschnitt 4.3.2 und insbesondere Mills induktive Figuren (i) und (ii).) Wie bei anderen frequentistischen Größen hat man auch hier den Eindruck, mit dem Propensity Score dicht am eigentlich Wesentlichen vorbeizugreifen. Bei Konfidenzintervallen und der Randomisierung arbeitet man mit Zufallsvariablen, deren Eigenschaften man implizit auf die Realisierungen überträgt. Bei der Testtheorie fokussiert man sich auf P (x|H) und daraus abgeleiteten Größen und ist doch eigentlich an P (H|x) interessiert. Betrachtet man statt dem Propensity Score, also P (T |X) wieder P (X|T ), bzw., genauer, die Verteilung der Kovariaten bedingt unter T = t bzw. T = c, so erkennt man 170
Siehe auch die dort angegebene Literatur und die von uns zitierte Fortsetzung des Zitats (S. 174). Wie sollte es auch anders sein? Natürlich sind nichttriviale Folgerungen entscheidend von einem passenden, ebenfalls nicht trivialen Modell abhängig. Gerade deshalb ist die einzig konstruktive Antwort, möglichst wahrheitsnahe bzw. zumindest situationsadäquate Modelle zu konstruieren. “Why do physicists see this more readily than others? Because, having created this knowledge of physical law, we have a vested interest in it and want to see it preserved and used” (Jaynes 2003: 327).
5.4 Strategische Schnittstellen und Kausalschlüsse
447
unmittelbar die Vergleichbarkeit der beiden Gruppen. Sind diese beiden Verteilungen gleich, so sind die beiden Gruppen mit anderen Worten bzgl. der berücksichtigten Einflussfaktoren stochastisch nicht zu unterscheiden, also in einem präzisierten Sinn vergleichbar. Nicht zuletzt muss man auch fragen, ob der Zuweisungsmechanismus wirklich die ihm zugeschriebene Bedeutung hat. Wie wir schon mehrfach festgestellt haben, ist nicht die Art der Zuweisung entscheidend, sondern deren konkretes Resultat, also die tatsächlich vorliegenden Gruppen. Die Spuren, die der Zuweisungsmechanismus hinterlässt, bestimmen das Ergebnis einer Untersuchung, nicht der Mechanismus selbst. Schließlich verwechselt man, wie am Ende des nächsten Abschnitts ausführlicher beschrieben, bei der obigen Behandlung auch gerne operative Fragen mit konzeptionellen. Statt auf die wesentlichen substanzielle Zusammenhänge zu achten, wird die Aufmerksamkeit auf Feinheiten experimenteller Technik gelenkt.
5.4.4 Statistik und Fachwissenschaft As realized by Hume centuries ago and reinforced by many authors since, all causal171 inference is based on assumptions that cannot be derived from observations alone. (Greenland et al. 1999: 47)
Will man den Einfluss der Kovariaten detailliert(er) erfassen, kommt man um (explizite) Modellierungen nicht herum. Bei dieser Strategie liegt es nahe, möglichst alle Einflüsse explizit zu beschreiben, vom Zustandekommen der Gruppen bis hin zum Verhalten des Systems unter Interventionen. So kommt man dann nahezu unausweichlich auf allgemeinere, nicht unbedingt nur stochastische Abhängigkeiten, Strukturen und Zusammenhänge, die kausale Netze zumindest übersichtlich darstellen können. Man beachte, dass es mehr als nur subtile Unterschiede zwischen den einzelnen Ansätzen gibt,172 die insbesondere daher rühren, ob man solche Modelle nur als eine anschauliche Art sieht, wahrscheinlichkeitstheoretische Abhängigkeitsstrukturen auszudrücken oder aber, (zumeist deterministische) kausale Zusammenhänge darzustellen.173 Die Sprache der Statistik beschränkt sich zumeist auf die Wahrscheinlichkeitstheorie, und ihre Neuerungen orientieren sich am Idealtypus klassischer (randomisierter) Experimente, der nur zögerlich erweitert wird. Ganz anders 171
Man könnte dieses Adjektiv auch weglassen. Siehe insbesondere Greenland und Brumback (2002), Rubin (2006: 141), Pearl (2009a) sowie Heckman (2005). 172 173
Die sich auch daraus ergebenden Auseinandersetzungen waren gravierend, wovon etwa Pearl (2000a), Abschnitte 5.4, 7.4 und 7.5, S. 104ff, aber auch seine Ausführungen in 6.1.2 und 6.1.3 zeugen. Die Entwicklung der letzten zehn Jahre schildert Pearl (2009a: Kapitel 11).
448
5 Synthese
die „Anwendung“. Die Epidemiologie hat sich unter den Stichworten „Konfundierung“ bzw. “baseline imbalance” dem grundlegenden Selektionsproblem in einiger Allgemeinheit gestellt (Rothman et al. 2008, V. Berger 2005a). Auch die Soziologie unterscheidet zwischen diversen Typen von Selektion (Kang Fu et al. 2004). Am weitesten geht die Ökonometrie, die seit Jahrzehnten explizite Sample Selection Bias Models entwickelt und benutzt,174 welche eine große Nähe zu Strukturgleichungsmodellen aufweisen. Die Unterschiede werden bereits anhand des benutzten Vokabulars deutlich. Genügt Statistikern die dichotome Unterscheidung zwischen randomisiert und nicht-randomisiert (Rosenbaum 2002), so unterscheiden Greenland und Robins (1986) zwischen identifiability, exchangeability, confounding, confounders und collapsibility und Ökonometriker untersuchen diverse, explizit definierte Kontrollfunktionen175 Bemerkenswerterweise ist auch der Grad der expliziten Formalisierung umso höher, je weiter man sich von der traditionellen Statistik entfernt (Heckman 2005). Zusätzlich existiert eine umfangreiche, auf Lewis (1973a, 1973b) aufbauende philosophische Diskussion, die counterfactuals eine herausragende Bedeutung einräumt (Cartwright 2007). Die Konvergenz der Literaturen zur Kausalität erlaubt nun einen direkten Vergleich der Ansätze, der zuweilen einem Experimentum crucis ähnelt. Schon die vorangegangenen „kritischen“ Abschnitte zeigen, wer hierbei die Oberhand behält: Während die Kritik an kausalen Netzen eher allgemeinprinzipiell ist, und sich einfach und stark parieren lässt, sieht es mit der detaillierten, geradezu schmerzhaften Kritik am Propensity Score ganz anders aus. Und während kaum zu begründen ist, warum dem randomisierten Experiment (samt seinen etwas verallgemeinerten Abkömmlingen) verbunden mit der Stichprobenraumperspektive176 eine derart herausgehobene Position zuteil werden soll, ist die Behandlung des Kausalitätsproblems mithilfe kombinierter Methoden einfach und stark. Die zum Teil heftigen Attacken von Statistikerseite ähneln den immer verzweifelteren Ausfällen einer nach langer Belagerung zermürbten Burgbesatzung, die das ihr verbliebene Territorium mit allen verfügbaren Mitteln verbissen verteidigt, während innovativere und beweglichere Kräfte das offene Feld für sich in Besitz nehmen. Das wird auch beim direkten Vergleich der führenden Autoren Pearl und Rubin deutlich. Pearl geht es primär um die elegante Abbildung kausaler Zusammenhänge in Form relevanter Faktoren und Einflüsse. Insbesondere will er relevantes Hintergrundwissen und Interventionen adäquat formalisieren. Als übersichtlichste Art der Darstellung wählt er hierfür Graphen, und die Frage, wie man solche netzartigen Zusammenhänge empirisch überprüft (z. B. ihre Parameter schätzt) ist für ihn zunächst einmal zweitrangig. Pearls kausale Netze fallen bei Rubin unter die Kategorie “full probability modelling for causal effects”, eine Teilmenge Bayesianischer Methoden, und spielen 174
Für einen Überblick siehe Vella (1998), Kang Fu et al. (2004), Heckman (2005) und Manski (2008). 175
Engl.: control functions (Heckman und Robb 1986).
176
“Sample space inference”, „randomized controlled trials“, “randomized evidence” etc.
5.4 Strategische Schnittstellen und Kausalschlüsse
449
ansonsten keine Rolle. Die Bemühungen Rubins zielen ganz im Gegensatz dazu und in vollem Einklang mit der statistischen Tradition darauf ab, über die Daten hinausgehende, hypothetische Strukturen möglichst gering zu halten. Das hat zur Folge, dass sein Formalismus für Pearl nur ein spezielles „Potential-Outcome-Modell“ ist. Bemerkenswerterweise geht Rubin (2006) mit keinem Wort auf Pearl ein,177 auch in Gelman et al. (2004) findet er sich lediglich unter “bibliographic notes”. Die Reaktion in Imbens und Rubin (1995: 695) ist kritisch und sehr vage: “We feel that Pearl’s methods [. . .] can easily lull the researcher into a false sense of confidence [. . .]” Pearl (2009a) widmet hingegen einen ganzen Abschnitt (3.6) alternativen Ansätzen und deren Zusammenhängen, um schließlich (ibd., S. 102) beide wesentlichen Ansätze zu würdigen: [. . .] one cannot overemphasize the importance of the conceptual clarity that structural equations178 offer via-à-vis the potential-outcome model [. . .] The thought of having to express, defend, and manage formidable counterfactual relationships [. . .] may explain why the enterprise of causal inference is currently viewed with such awe and despair among rank-and-file epidemiologists and statisticians - and why economists and social scientists continue to use structural equations instead of the potential-outcome alternatives [. . .] On the other hand, the algebraic machinery offered by the potential-outcome notation, once a problem is properly formalized, can be quite powerful in refining assumptions, deriving probabilities of counterfactuals, and verifying whether conclusions follow from premises [. . .]
Robins und Greenland (2000: 435f) heben ebenfalls die Bedeutung expliziter Modellierung hervor: “In summary, we regard counterfactuals as a powerful tool for eliminating, to the extent possible, vagueness as to the causal contrasts and hypothetical interventions under consideration. They do so by requiring interested parties to explicate the scientifically important features of the ‘closest possible worlds’ in which all subjects receive or do not receive treatment.” Wie nicht anders zu erwarten, mischt die Praxis counterfactuals und causal nets, um von den Vorzügen beider Ansätze zu profitieren (Morgan und Winship 2007).
Explizitheit der Annahmen und Modelle Wie bei den Auseinandersetzungen zwischen orthodoxer und Bayesscher Statistik lasse man sich jedoch von oberflächlichen Gemeinsamkeiten und häufig anzutreffendem Eklektizismus nicht täuschen. Noch nicht einmal die scheinbar leicht zu klärende Frage, welche Beitrage wie zu würdigen sind, ist unumstritten. Wie Heckman (2005) in seiner Antwort auf Sobel (2005) überaus deutlich hervorheben muss, ist dies zwar für Pearl (2000a) selbstverständlich, nicht aber bei vielen Statistikern, die entweder nicht-statistische Literatur 177
Und genauso wenig auf Heckman (einen der beiden Gewinner des Wirtschaftsnobelpreises 2000). Siehe hierzu die nachfolgenden Ausführungen. 178
In denen er eine andere Darstellungsweise kausaler Graphen sieht
450
5 Synthese
kaum zur Kenntnis nehmen oder aber ihren bevorzugten Ansätzen unterordnen. Ein wesentlicher Konfliktherd sind bei Selektionsmodellen wie kausalen Graphen die Explizitheit der Darstellung und die Offenlegung der wesentlichen Voraussetzungen. Im Großen und Ganzen bemühen sich führende Fachwissenschaftler hierum mehr als die Mainstream-Statistik und machen sich dadurch angreifbar. Dies gilt erst recht für ausgearbeitete, detaillierte Modelle, die unausweichlich mit eher zahlreichen, oft weitreichenden Annahmen einhergehen. So sagt Tukey (1986g: 58) in der Diskussion von Heckman und Robb (1986): [. . .] knowledge always comes from a combination of data and assumptions. If the assumptions are too important, many of us get unhappy [. . .] all the formal ways that have been found for attacking [the selection] problem ended up being very dependent upon these assumptions. Therefore, people like me have to be very uncomfortable about the results.
Heckman (2005: 48) antwortet darauf: “The absence of explicit models is a prominent feature of the statistical treatment effect literature.” Ibd., S. 86, heißt es: “Statistical causal models, in their current state, are not fully articulated models. Crucial assumptions about sources of randomness are kept implicit.” Darauf (S. 145) sagt er: “[. . .] a large statistical community implicitly appeal to a variety of conventions rather than presenting rigorous models and assumptions.” Schließlich fasst er (S. 139) zusammen: Structural models do not ‘make strong assumptions.’ They make explicit the assumptions required to identify parameters in any particular problem. The treatment effect literature does not make fewer assumptions; it is much less explicit about its assumptions.
Das wird schon in der Diskussion von Glynn et al. (1986: 146ff) deutlich, wo ein Diskutant (mutmaßlich Heckman) hartnäckig nachfragen muss, bis wichtige Voraussetzungen ans Licht kommen. Nachdem Heckman und Robb (1986) gezeigt haben, dass beliebte statistische Ansätze, insbesondere der Propensity Score, Spezialfälle der in der Ökonometrie verwendeten Kontrollfunktionen sind, schließen sie (S. 105): In the absence of genuine experimental data, some assumptions must be invoked to solve the problem of selection bias. The choice of appropriate assumption requires appeal to context, a priori beliefs, and prior knowledge. There is no context-free solution to the problem of selection bias despite apparent claims to the contrary in the recent literature in statistics which solves selection problems by imposing ad hoc mathematical structures onto the data. (Hervorhebung im Original.)
Zu letzteren bemerkt er in Heckman (2005: 138): Two cornerstone assumptions: STUVA [Stable Unit Value Treatment Assumption]179 and Strong Ignorability (SI) are especially unappealing [. . .] In the form advocated by Sobel and many other statisticians, [STUVA] precludes social interactions 179
Das heißt, eine statistische Einheit reagiert, unabhängig von der Umgebung und anderen Einheiten, immer gleich auf eine bestimmte Behandlung. Die Reaktion der Einheit auf die Behandlung lässt sich also durch eine Konstante erfassen.
5.4 Strategische Schnittstellen und Kausalschlüsse
451
and general equilibrium effects [. . .] The SI assumption, by ruling out any role for unobservables in self selection, justifies matching by assuming away any interesting behavior of the agents being studied. While Sobel criticizes econometrics for making various assumptions, he ignores the fact that the approach that he favors makes implicit assumptions that are stronger and less tenable.180 (Hervorhebungen im Original.)
Heckman und andere „Anwender“ schlagen also die klassische Statistik mit ihren eigenen Waffen. Führende Statistiker wie Tukey und Freedman (S. 284ff und 439) betonen zu recht, wie wichtige realistische Modellannahmen sind, und drängen die Nutzer statistischer Methoden nachdrücklich dazu, Voraussetzungen empirisch zu überprüfen, sich über die tatsächlichen Mechanismen und Prozesse im Klaren zu sein und sich sogar an die strikten deduktivnormativen Vorgaben der Methodiker zu halten. Man erwartet darum, dass sie selbst mit dem besten Beispiel vorangehen. Doch wie so häufig sind es gerade die vehementen Kritiker, die gerne mit zweierlei Maß messen. Schon bei der Entwicklung von Modellen hatten wir gesehen, dass viele Statistiker diese gerne operationalistisch interpretieren und realistische Positionen eher weit von sich weisen.181 Im Fall konkreter Verfahren wie dem Randomisierungstest (S. 238), dem Bootstrap (S. 243) und dem Potential-Outcome-Modell wird die Ausweichstrategie erst recht offenkundig. Versteckte Annahmen bringen taktische Vorteile mit sich. Sie sind schwerer zu attackieren und die zugehörigen Modelle wirken allgemeingültig. Insbesondere kann auch leicht der Eindruck entstehen, man wäre in der Lage, nahezu voraussetzungfrei weitreichende Schlüsse ziehen. Doch wie die letzten Abschnitte gezeigt haben (siehe aber auch schon die allgemeinen Ausführungen im ersten Kapitel), sind die strategischen Nachteile gravierender. Eine begriffliche Klärung sowie Differenzierung wird nicht gefördert, sondern erschwert, Fragestellungen werden vermengt, und auch konstruktive Kritik lässt sich schwerer fokussieren. Dies demonstriert Heckman (2005: 21, 146, 155) unter anderem anhand der Randomisierung: By focusing exclusively on mean outcomes, the statistical literature converts a metaphor for outcome selection - randomization - into an ideal [. . .] Even under ideal conditions, unaided randomization cannot answer very basic questions such as what fraction of a population benefits from a program. And in practice, contamination and cross over effects make randomization a far from sure-fire solution [. . .] Sobel’s discussion of the benefits of randomization illustrates all of the problems with the ad hoc statistical approach he favors [. . .] Randomized trials cannot identify P r(Y1 > Y0 ). The parameter P r(Y1 > Y0 ) is not even contemplated in the Neyman (1923)-Rubin (1978) setup [. . .] Sobel says that ‘much stronger assumptions’ 180
Am Rande sei bemerkt, dass Sobel, wie andere Statistiker (siehe S. 426), dann auf die philosophische Ebene wechselt, wenn er fachlich in die Defensive gedrängt wird. So unterstellt er Heckman aufgrund dessen (missverständlichen) Satzes “causality is in the mind” eine antirealistische Position. (Siehe Heckman (2005: 106, 142f)) 181
Und dies obwohl sie in der Theorie ständig von einem „wahren Modell“ ausgehen, „Black-Box-Überlegungen“ energisch ablehnen (siehe z. B. die Kritik an Dawid (2000) und (Breiman 2001), S. 280, 285 und 301) und der Hauptsatz der angewandten Statistik (samt induktiver Datenanalyse) ihr Tun bestimmt.
452
5 Synthese
are required to estimate this parameter. In any specific case, this is not true. The assumptions to justify randomization (no randomization bias, no contamination or crossover effects [. . .]) are different and not weaker or stronger than the assumptions [econometric models use]. (Hervorhebungen im Original.)
Die Schnittstellen von Statistik und Wissenschaft Die Auseinandersetzungen sind heftiger als sie sein müssten. Offenkundig gibt es „im Osten und im Westen“ des Forschungszirkels Schnittstellen zwischen der Statistik (unten) und der theoretischen Fachwissenschaft (oben). In Erweiterung der dreistufigen Einteilung von Fisher (1922), der zwischen der Spezifikation eines Problems, der Schätzung struktureller Parameter sowie der Verteilung der Daten unterschied, definiert insbesondere Mallows (1998) ein nulltes Problem182 im Vorfeld und ein viertes Problem (Mallows 2006) im Nachgang: “[it] comes after the statistical analysis has been completed; it is to interpret the results in terms that are intelligible to the nonstatistical worker.” Es ist dabei völlig natürlich, dass sich Statistiker mehr auf die Daten fokussieren als Fachwissenschaftler, für die viele darüber hinausgehende Aspekte eine Rolle spielen. Durch die ganz besondere Betonung der Daten in der heutigen Statistik (siehe S. 414ff) kommt es an den Schnittstellen jedoch zu strategischen Konflikten. So hat Tukey (1986g: 109) wenig Probleme damit, die fachwissenschaftliche Theorie in Zweifel zu ziehen: To say that causal interpretations are resolved by ‘context beliefs, and a priori theory is to demote causal interpretations to the level of transient opinions or fads. Much great progress in physical science has come from destroying unfounded belief [. . .] and widely accepted a priori theory [. . .]183 (Hervorhebungen im Original.)
Dieses schon zuvor (S. 270) gebrachte Argument klingt bei einer subjektiven Priori-Verteilung überzeugend und sicherlich ist auch eine generelle Skepsis gegenüber Theorien, Hypothesen oder Methoden gesund, insbesondere wenn diese beliebt oder allgemein üblich sind und nicht (mehr) kritisch hinterfragt werden.184 Gerade den Theorien der Wirtschaftswissenschaften, die gar nicht so selten nach Universalität streben, und dabei ihre empirische Fundierung vernachlässigen, sollte man nicht allzu viel zutrauen. Wilson (2000: 263ff) charakterisiert sie überzeugend als „Newtonisch, weil Ökonomen nach einfachen, allgemeinen Gesetzen suchen“ (siehe S. 290) und „hermetisch, weil sie die Komplexitäten des menschlichen Verhaltens und der umweltbedingten Zwänge nicht in Rechnung stellen“.185 182 183 184
Siehe S. 175 Für eine direkte Antwort hierauf siehe Heckman und Robb (1986: 111ff).
Man denke als Statistiker an die Randomisierung. Am Rande sei erwähnt, dass das Versagen der Makroökonomie angesichts der Wirtschaftskrise 2009 zu einer Grundsatzdiskussion über die Rolle mathematischer Modelle 185
5.4 Strategische Schnittstellen und Kausalschlüsse
453
Doch kann man die Skepsis, wie schon Jaynes (S. 187) betont, zu weit treiben. Es grenzt an Chuzpe, wenn man den Sozial- und Wirtschaftswissenschaften nach Jahrzehnten der Modellierung und Jahrhunderten der Theoriebildung noch nicht einmal zutraut, (zumindest grob) wesentliche kausale Zusammenhänge zu kennen, zumal gerade die Makroökonomie auf präzise, quantitative Methoden und Modelle den größten Wert legt. De Finetti (1969: 30, 176), zitiert nach Ietto-Gillies (2009: 164f), gibt eine angemessenere Sicht wider und zielt auf eine Symbiose: Whether it is appropriate to use mathematics in economics and to what extent, is not something that can be judged in the abstract and a priori: it all depends on what use one makes of it and whether mathematics is useful to the problem at hand. Mathematics can help to reach sensible solutions; however, in order to reach sensible and exact conclusions it is not enough to resort to the use of mathematical techniques [. . .] Any mathematical development, and mathematical critique may emerge from requirements or curiosities that are purely mathematical in nature; however, if they do only this without making us ponder on the economic interpretation they cannot be of relevance to economics; they risk giving rise to confusions by suggesting incautious and gratuitous interpretations.
Auch Wilson (2000) betont nachdrücklich die immense Bedeutung der weitreichenden, harmonischen Vernetzung aller Forschungsgebiete, wozu zunächst einmal gehört, das Wissen anderer zumindest zu würdigen. Besser noch ist, Fachkenntnisse explizit zu verwenden, was klassischerweise informell geschieht. Fisher nutzte wann immer möglich solches Vorwissen und statistische Tests sind am überzeugendsten, wenn den statistischen Hypothesen inhaltlich bedeutsame Aussagen entsprechen. Die im Bayesschen Ansatz explizit formalisierte Schnittstelle wird von fachwissenschaftlich fundierten kausalen Graphen abermals erheblich erweitert. Noch umfassender argumentiert Heckman (2005: 3, 8). In seinem „wissenschaftlichen Modell der Kausalität“ unterscheidet er drei Ebenen, die sich unschwer in den Forschungszirkel einordnen lassen: 1. Die Datenebene. Hier stellt sich das Problem der internen Validität und man macht Aussagen über the impact of interventions actually experienced bzw. historical interventions. 2. Die Populationsebene. Hier stellt sich das Problem externer Validität und man macht Voraussagen. Heckman spricht von forecasting the impacts (constructing counterfactual states) of interventions implemented in one environment in other environments. 3. Die theoretische Ebene. Formuliert man allgemeine Gesetze, die die Auswirkungen von noch nie erprobten Interventionen in völlig neuen Situadort geführt hat. Die einfache Tatsache, dass inadäquate Modellannahmen zu wenig validen Modellen führen und seien jene auch noch so exakt, scheint nicht allgemein geläufig zu sein. Siehe hierzu die lebhafte Diskussion in der Frankfurter Allgemeine Zeitung (2009). Insbesondere ist der homo oeconomicus kaum mit aktuellem sozialpsychologischem Wissen vereinbar (siehe S. 175).
454
5 Synthese
tionen erlauben, so stellt sich das Induktionsproblem in seiner ganzen Schärfe.186 Diese Differenzierung erlaubt, sauber zwischen verschiedenen Abstraktionsstufen einer Untersuchung zu unterscheiden. Nur auf der untersten Ebene spielen statistische Aspekte eine dominante Rolle, insbesondere wenn man mithilfe realer Daten testet und schätzt. Für die mittlere Ebene hat sich der Terminus Identifikation (Koopmans 1949) eingebürgert.187 Hier tut man so, als würde man die Population kennen bzw. äquivalent, es lägen beliebig viele, perfekte Daten vor. Auf der theoretischen Ebene sind vor allem begriffliche und konzeptionelle Fragen zu klären, die eine wissenschaftliche Theorie zu einem umfassenden, sehr viele konkrete Situationen abdeckenden Gedankengebäude machen. Heckman (2005) zeigt, dass Statistiker selten eine solche Differenzierung vornehmen und deshalb regelmäßig die Ebenen vermengen. Etwa schreibt er S. 4: „Some analysts associate particular methods of estimation [. . .] with causal inference and the definition of parameters. Such associations confuse the three distinct tasks of definition, identification, and estimation. Ibd., S. 147, nennt er das wichtigste Beispiel und kommentiert es (S. 4): Holland claims that there can be no causal effect of gender on earnings. Why? Because we cannot randomly assign gender. This confused statement conflates the act of definition of the causal effect [. . .] with empirical difficulties in estimating it [. . .] Since randomization is used to define the parameters of interest, this practice sometimes leads to the confusion that randomization is the only way - or at least the best way - to identify causal parameters from real data.
Eine solche Sichtweise nimmt nicht nur der Randomisierung ihre herausgehobene Stellung, sondern weist die gesamte Statistik eher der konkreten, operativen Ebene zu. Damit muss sie sich nicht begnügen, sie könnte vom Formalen bis weit ins Inhaltliche vorstoßen. Doch weil die traditionelle Statistik ihre Schnittstellen zu den empirischen Wissenschaften vernachlässigt hat, decken nun Fachwissenschaftler diese genauso sensiblen wie für Untersuchungen ganz entscheidende Bereiche ab, und die Statistik befindet sich weit in der Defensive. Neuentwicklung wie der Propensity Score werden eher kritisch beurteilt, genauso wie die als künstlich oder zumindest sehr einschränkend empfundene Ignorierbarkeitsbedingung.188 Während Heckman (2005) dem Rubin-Modell189 kaum einen positiven Aspekt abzugewinnen vermag, nimmt er Pearls Vorschläge sehr ernst. Morgan und Winship (2007) sind weniger parteiisch, doch fällt auf, dass nach Kapitel 6 ihres Buches, in dem 186
In einer Fußnote verweist Heckman auf Knight (1921: 313): “The existence of a problem in knowledge depends on the future being different from the past, while the possibility of a solution of the problem depends on the future being like the past.” 187 Für einen aktuellen Überblick siehe v.a. Manski (1999, 2003, 2008). 188
Siehe etwa die Äußerungen S. 445 von Ho et al. (2007) und Manski (2008: 76): “Whatever merits conditioning on the propensity score may have for statistical inference, the idea is unrelated to identification.” 189
Siehe insbesondere (Rubin 2006)
5.5 Das Informationsparadigma
455
sie von „einfachen“ zu „schweren“ Problemen übergehen (ibd., S. 184) häufig die Namen Heckman, Manski und Pearl fallen, nicht aber Rosenbaum oder Rubin.190 Die Anwender haben sich emanzipiert. Unter dem Stichwort selection on the unobservables ist eine reichhaltige Literatur entstanden, die mehrere Strategien kennt, um auch noch in ungünstigen Situationen kausale Effekte zu schätzen (Morgan und Winship 2007: 169). Anhand des Simpsonschen Paradoxons (siehe S. 436ff) und der Konfundierung demonstriert Pearl (2009a: Kapitel 6), dass kausale Argumente völlig natürlich mit solchen Phänomenen umgehen können, während rein statistische Lösungen - falls sie überhaupt ernsthaft in Angriff genommen wurden - versagen. Diese Effekte sind Teil des in Philosophie wie Statistik völlig ungeklärten und zugleich ganz zentralen Problemfelds, wie man die richtige Detaillierungsebene bzw. Referenzklasse findet, unter welchen Variablen zu bedingen ist, wie man wechselseitige Abhängigkeiten geeignet modelliert, relevante Einflussfaktoren identifiziert, welche Auswirkungen experimentelle Maßnahmen - etwa die Randomisierung - haben, wie man kausale Effekte nachweist und all dies adäquat formalisiert. Das Simpsonsche Paradoxon wird so lange ein Fanal und wesentlicher Bestandteil einer tale of statistical agony (Pearl 2009a: Abschnitt 6.1.2) bleiben, bis man die Kraft expliziter Darstellungen, die wahrscheinlichkeitstheoretische und graphische Methoden elegant und flexibel verknüpfen, zu würdigen versteht. Structural Causal Models (Pearl 2009b), die gezielt die Vorteile aller bisherigen Ansätze verbinden, haben eine gute Chance, sich zu einer ausgereiften, allgemeinen Theorie kausaler Beziehungen zu entwickeln. Dawid (2003) und erst recht Pearl (2009a: Kapitel 11) sind Dokumente des Umdenkens. Schon Pearl (1995: 708) schließt angesichts des großen konstruktiven Beitrags kausaler Netze: [. . .] I do not think over-confidence is currently holding back progress in statistical causality. On the contrary, I believe that repeated warnings against confidence are mainly responsible for the neglect of causal analysis in statistical research, and that such warnings have already done more harm to statistics than graphs could ever do.
5.5 Das Informationsparadigma The key word in statistics is information. After all, that is what the subject is all about. (Basu in Ghosh (1988: 21))
Das am häufigsten benutzte Wort in der Statistik lautet nicht „Wahrscheinlichkeit“, „Likelihood“, „Population“ oder gar „Zufallsexperiment“, sondern zweifelsohne Information. I. und M. Miller (1994), zitiert nach Barnett (1999: 3), sprechen wie Basu den meisten Statistikern aus der Seele, wenn 190
Auch der Unterschied zwischen Morgan und Winship (2007) sowie Winship und Sobel (2004) ist sehr beachtlich!
456
5 Synthese
sie sagen: “The object of statistics is information. The objective of statistics is the understanding of information contained in data.” Zahlreiche weitere Beispiele könnten genannt werden,191 wir erinnern nur an Efron (S. 306), der in der Statistik die “most successful information science” erblickt. R. A. Fisher ging das Wort nicht nur leicht über die Lippen,192 tatsächlich kreist sein ganzes Denken, wie auch seine Korrespondenz (Bennett 1990) eindeutig belegt, um die Gewinnung und den effizienten Umgang mit Information. Bei vielen der in Kotz und Johnson (1993) versammelten wichtigsten Arbeiten der letzten Jahrzehnte193 ist das nicht anders. Die Idee der Information ist alles andere als peripher, sondern von grundlegender Bedeutung für die Statistik im Speziellen und die Wissenschaft im Allgemeinen. Bildlich gesprochen hat der Forschungszirkel ein Zentrum, um das er sich dreht und das ihn zugleich in Gang hält: Setzungen Hypothesen Substanzielle Generalisierung
Formale Ableitung Theorem
INFORMATION
Operationalisierung
Numerisches Resultat Formale Argumente
Daten
Daten
Mit der Formalisierung des Informationsbegriffs, der Entwicklung der Informationstheorie und ihrer Anwendungen hat sich eine ungemein kraftvolle Entwicklung ergeben, die heute alle Bereiche berührt, wenn nicht sogar mehr und mehr prägt. Trotz ihrer offenkundigen Nähe zur Statistik wurde diese Entwicklung von der Mainstream-Statistik weitgehend ignoriert, weshalb (wieder einmal) Tukey schon früh vor “the coming collision between computer science and statistics” warnte.194 Es ist offensichtlich, dass eine zurzeit ausreifende Theorie der Information vehemente Auswirkungen auf die Statistik haben wird und es bislang wiederum „Externe“ waren, die die Akzente setzten.
5.5.1 Klassische Informationstheorie A mathematical theory of communication. (Shannon 1948) 191
Siehe insbesondere den Registereintrag „Statistik, Definition” Siehe z. B. Fisher (1966: Kapitel 11), Fisher (1973: 154ff), Jaynes (2003: 514), nicht zuletzt ist ein Informationsbegriff nach ihm benannt 193 Z. B. Fisher (1922), Rao (1945), Akaike (1973) 192
194
Siehe Barnard (1968: 38)
5.5 Das Informationsparadigma
457
Schon bei Hume (1748) kann man die Idee der Information finden. In einem kurzen Satz beschreibt er die Induktion im Allgemeinen wie im Speziellen, und reißt zudem die heutige Definition der Information an:195 Im Allgemeinen richten wir uns bei unseren Überlegungen nach der Maxime, daß die Objekte, die unserer Erfahrung fremd sind, denen ähneln, die ihr bekannt sind; daß das, was uns am üblichsten vorkommt, immer am wahrscheinlichsten ist und daß wir überall, wo verschiedene Argumente aufeinanderstoßen, denen den Vorzug gegen sollten, die auf der größten Anzahl früherer Beobachtungen beruhen [. . .]
Seit Shannon (1948) ist Information ein formal fassbarer und damit ernst zu nehmender wissenschaftlicher Begriff. Ein Ereignis, eine „Nachricht“, im Jargon der Informationstheorie, ist grob gesagt umso informativer, je überraschender es ist, das heißt, je kleiner die Wahrscheinlichkeit ist, mit der es eintritt. Formal: Sei p > 0 eine Wahrscheinlichkeit. Dann ist die zugehörige Information I(p) = −p log(p) = p log(1/p) ≥ 0. Da der Logarithmus auf dem offenen Intervall ]0, 1[ negative Werte annimmt, ist die Information umso größer, je kleiner die zugehörige Wahrscheinlichkeit ist. Niemand wird verwundert sein, wenn die Sonne aufgeht (p groß), jedoch äußerst überrascht, wenn er erfährt, dass er den Hauptgewinn in einer Lotterie gezogen hat (p klein). Da der Logarithmus eine nichtlineare Funktion mit limx↓0 log(x) = −∞ ist, sind Ereignisse, die mit winziger Wahrscheinlichkeit auftreten, ganz besonders informativ. Für p = 0 setzt man deshalb I(p) = ∞, da ein Ereignis A mit p = p(A) = 0 völlig „aus dem Rahmen fällt“, also unmöglich in dem Sinne ist, dass es nur mit Wahrscheinlichkeit 0 auftritt. Das Gegenteil hiervon ist das sichere Ereignis, also ein Ereignis mit p = 1. Wie man sofort nachprüft, ist I(p) = 0 ⇔ p = 1. Das heißt, ein sicher eintretendes Ereignis liefert keine (neue) Information. Von herausragender Bedeutung für alles Folgende ist, dass Information äußerst eng mit Wahrscheinlichkeit verwandt ist. Die gerade hergestellte Verbindung ist nämlich erst der Anfang: Der „Informationsgehalt“, welcher mit einer diskreten196 Wahrscheinlichkeitsverteilung P (bzw. einer Zufallsvariablen X ∼ P ) einher geht, ist gleich ihrer Entropie (siehe Gleichung (4.1), S. 257), also H(P ) = H(X) = pi log(1/pi ) = −E(log P (X)), i
wobei pi = p(xi ) = P (X = xi ) die Wahrscheinlichkeit ist, mit der der Wert xi angenommen wird. Die relative Entropie ist ein Maß für den Zusammenhang zwischen zwei Zufallsvariablen X und Y mit den Verteilungen P = PX und 195
Ibd., Kapitel X, „Über Wunder“, zitiert nach Durant und Durant (1985: Bd. 13, 400), meine Hervorhebung. 196 Bei stetigen Verteilungen kann man völlig analog vorgehen.
458
5 Synthese
Q = PY , die auf derselben (diskreten) Menge197 erklärt sind. Sie ist definiert als H(P || Q) = H(X|| Y ) = pi log(1/qi ) = − pi log qi , i
i
woraus sich unmittelbar der auf Kullback und Leibler (siehe Gleichung (5.1), S. 378) zurückgehende „Abstand“ zwischen den Verteilungen ergibt, nämlich: I(P || Q) = H(P || Q) − H(P ) = pi log pi − pi log qi = pi log(pi /qi ). i
i
i
Wir schreiben „Abstand“ weil es sich nicht um eine Abstandsmaß - eine Metrik - im üblichen mathematischen Sinne handelt. Insbesondere ist I(P ||Q) nicht symmetrisch. Das heißt, die Verteilung Q kann erheblich mehr Information über P enthalten als P über Q (oder umgekehrt). Wie bei Metriken gilt aber die Ungleichung I(P || Q) ≥ 0
wobei die Gleichheit genau dann gilt, wenn P = Q ist.
Diese heißt Informationsungleichung und ist von eminenter Bedeutung in der Informations- und Kodierungstheorie,198 insbesondere, da sich aus ihr viele andere wichtige Ungleichungen der Informationstheorie herleiten lassen.199
Kodierung Der Zusammenhang zwischen Wahrscheinlichkeitsverteilungen und der Kodierung von Information ist mindestens genauso fundamental. Zunächst ist ein (binärer) Code nichts anderes als eine Abbildung von einem Alphabet A in die Menge B aller binären Zeichenketten. Das heißt, jedem Buchstaben x des Alphabets A (oben aufgefasst als eine mögliche Realisierung der Zufallsvariablen X) wird eine (endliche) Folge von Nullen und Einsen zugeordnet. Zum Beispiel wird im ASCII-Code, welchen jeder Laptop verwendet, der Buchstabe „a“ auf die achtstellige Zeichenkette, das Codewort „00111101“ abgebildet. Selbstverständlich muss die Abbildung injektiv sein, d.h., zwei unterschiedlichen Buchstaben müssen unterscheidbare Codewörter zugeordnet werden. Es ist ein nahe liegendes Ziel, möglichst platzsparend zu kodieren. Deshalb kam schon Morse, Schöpfer des nach ihm benannten Codes, auf die Idee, häufig verwendeten Zeichen möglichst kurze Codewörter zuzuordnen, während selten zu beobachtende Zeichen lange Codewörter erhielten. Der in 197
Häufig „Alphabet“ genannt
198
MacKay (2005: 34) nennt sie “[. . .] probably the most important inequality in this book,” wobei sein Buch immerhin 628 Seiten lang ist. Für Grünwald (2007: 101) ist sie die zweitwichtigste Beobachtung in seinem etwa siebenhundertseitigen Werk. 199
Für eine übersichtliche Sammlung siehe Cover und Thomas (2006: Kapitel 17).
5.5 Das Informationsparadigma
459
der deutschen Sprache am häufigsten auftretende Buchstabe „e“ wird deshalb mit einem einzelnen kurzen Signal - umgangssprachlich einem Punkt, gefolgt von einer kurzen Pause - kodiert, während der erheblich seltenere Buchstabe „v“ das weit längere Codewort „drei kurz, ein lang“ (Punkt, Punkt, Punkt, Strich), wiederum gefolgt von einer kleine Pause, erhält. Aufgrund der Pause kann man einzelne Codewörter, wie gewöhnliche Wörter der natürlichen Sprache, problemlos aneinanderhängen. Da hinter jedem Codewort eine Pause steht, verbrauchen die Pausen bzw. die Zeichenkette mit der die „Pause“ kodiert wird, viel Platz.200 Um dies zu vermeiden, sollte man Codewörter unmittelbar - ohne Pause - aneinander hängen können. Will man die so entstehende „Bandwurm-Zeichenkette“ decodieren, also die einzelnen Codewörter wiedergewinnen, so muss man darauf achten, dass kein Codewort als Vorsilbe eines anderen auftritt. Kodiert man z. B. „e“ mit einem Punkt (·) und „a“ mit zwei Punkten (··), jeweils ohne anschließende Pause, so könnte man bei der Zeichenkette „· · · “ nicht sagen, mit welchem der beiden Vokale man es zu tun hat.201 Der Grund ist, dass das Codewort von „e“ gerade der Anfang des Codeworts von „a“ ist, was die Grammatik „Präfix“ nennen. Präfix-Codes vermeiden genau dies, womit man eine so kodierte Nachricht202 auch problemlos aus der zugehörigen Kette ihrer Codewörter zurückgewinnen kann. Fasst man diese Ideen zusammen,203 so stellt sich heraus, dass sich zu jedem Buchstaben x des Alphabets - aufgefasst als Realisierung einer Zufallsvariablen X mit der Verteilung P - ein Präfix-Code C angeben lässt, so dass das zu x gehörige Codewort gerade die Länge LC (x) = − log p(x) hat.204 Das heißt insbesondere, dass häufigen Buchstaben kurze, und wenig wahrscheinlichen Buchstaben lange Codewörter zugewiesen werden. C heißt der zu P gehörige Code, denn er ist eindeutig bestimmt. Grünwald nennt es die wichtigste Beobachtung im wichtigsten Abschnitt seines Buches, dass davon auch eine Umkehrung gilt: Zu jedem vollständigen Präfix-Code (über einem Alphabet A) gibt es ein zugehörige Wahrscheinlichkeitsverteilung P mit der obigen Eigenschaft. Dabei ist Vollständigkeit lediglich eine leicht nachzuvollziehende Optimalitätseigenschaft: Analog der Definition dominierender Strategien in der Spieltheorie, heißt ein Code C effizienter als 200
Man betrachte diesen Text. Das mit Abstand häufigste Zeichen ist der Leerraum zwischen den Wörtern, einem Umstand, dem man schon bei der Konstruktion der Schreibmaschinentastatur Rechnung getragen hat. 201
ea, ae und eee wären mögliche Dekodierungen.
202
Also eine Reihe aufeinanderfolgender Buchstaben Siehe z. B. Grünwald (2007: 96)
203 204
Dabei sei wieder p(x) = P (X = x). Da es sinnvoll ist, Abhängigkeiten zwischen den Buchstaben zu nutzen (etwa sind die Silben sch oder ab weit häufiger als die Silben ry oder ju), werden in der Praxis zumeist nicht einzelne Buchstaben, sondern Texte einer gewissen Länge n kodiert.
460
5 Synthese
ein Code D, wenn LC (x) ≤ LD (x) für alle Buchstaben x des Alphabets gilt und mindestens einmal „<“ steht. Ein Code C heißt vollständig, wenn es keinen effizienteren Code als ihn selbst gibt, wenn er also nicht in dem gerade genannten Sinn von irgendeinem anderen Code „dominiert“ wird. Es ist genau diese fundamentale Korrespondenz zwischen (vollständigen) Codes und Wahrscheinlichkeitsverteilungen, welche es erlaubt, Ergebnisse der Informationstheorie 1:1 auf die Stochastik und damit auch die Statistik zu übertragen. Rissanen (2007: VII) schreibt kurz und knapp: [. . .] coding theory, which most statisticians are not familiar with, is absolutely fundamental in statistical applications for the simple reason that code length is in one-to-one correspondence with probability measurements.
Andererseits kann man Resultaten der Wahrscheinlichkeitstheorie und Statistik eine Informations- bzw. Codierunginterpretation geben. Man kann zum Beispiel fragen, welche diskrete Verteilung bei einer endlichen Anzahl von Realisierungen x1 , . . . , xn die Entropie maximiert. Es stellt sich heraus, dass dies die diskrete Gleichverteilung über dieser Menge ist. Entsprechend lassen sich auch andere Verteilungen dadurch charakterisieren, dass sie bei bestimmten gegebenen Randbedingungen die Entropie maximieren.205 Wahrscheinlichkeitstheoretisch ist es auch völlig natürlich, die Zufallsvariable LC (X) = − log P (X) zu betrachten. Man stellt sofort fest, dass ihr Erwartungswert EP (L(X)) = − pi log pi = H(X) i
gerade die Entropie von X ist. Die Entropie erhält damit eine einfache Kodierungs-Interpretation als erwartete Codewortlänge. Mit dem Logarithmus zur Basis 2 ist H(P ) = − pi ld pi i
gerade die im Mittel benötigte Bit-Anzahl, um eine bei Gültigkeit von P generierte Nachricht optimal zu kodieren. Verwendet man nämlich stattdessen irgendeinen anderen Code, z. B. den zur Verteilung Q der Zufallsvariablen Y = X gehörigen,206 so resultiert dies in der erwarteten Codewortlänge EP (L(Y )) = − pi log qi = H(X|| Y ) = H(P || Q). i
Wegen H(P || Q) − H(P ) = I(P || Q) ≥ 0 lässt sich I(P || Q) als die typische zusätzliche Bit-Anzahl interpretieren,207 die aufgrund der Wahl von 205
Von besonderer Bedeutung ist, dass man auch die Normalverteilung so wiederfindet. Für viele Details siehe Cover und Thomas (2006: Abschnitt 12.1), insbesondere S. 411ff. 206
Etwa weil man annimmt, die Nachricht sei unter Q und nicht unter P erzeugt worden
207
Falls wir wieder den Logarithmus zur Basis 2, i. Z. ld, verwenden.
5.5 Das Informationsparadigma
461
Q benötigt wird. Man kodiert also nur dann optimal, wenn die Wahrscheinlichkeitsverteilung P , welche die Auftretenswahrscheinlichkeit der einzelnen Zeichen „regelt“, im o.g. Sinn berücksichtigt wird. Ansonsten macht man einen systematischen Fehler und I(P || Q) misst, wie groß jener ist. Von besonderer Bedeutung für die innerstatistischen Auseinandersetzungen ist, dass sich das Indifferenzprinzip (siehe S. 257) auf eine neue Art begründen lässt. Klassischerweise geschieht dies mit dem Hinweis auf die Formalisierung vollständiger Unwissenheit, mit der damit verbundenen, ausführlich diskutieren Kritik. Informationstheoretisch lässt sich aber auch wie folgt argumentieren: Sind die Daten über dem Alphabet x1 , . . . , xn diskret gleichverteilt, so ist die Entropie dieser Gleichverteilung U gerade H(U ) = −
i
pi log pi = −(
n
log(1/n))/n = n log n/n = log n.
i=1
Für jede andere Verteilung P existiert zudem eine Verteilung Q, so dass gilt: EQ (− log P (X)) > EQ (− log U (X)) ≥ log n. Angenommen, die Daten seien gemäß einem unbekannten Q verteilt. Dann kann man sie gemäß irgendeiner Verteilung P oder aber mithilfe der Gleichverteilung U kodieren. Die letzte Ungleichungskette zeigt, dass man sich dabei schlechter stellt, wenn man also statt auf U mit irgendeinem anderen P kodiert. Das heißt, die diskrete Gleichverteilung ist im gerade beschriebenen “worst case” besser als jede andere Verteilung, weshalb es eine gute Idee ist, bei unbekannter (Priori-)Verteilung bzw. keiner Annahme über die Priori-Verteilung mit der diskreten Gleichverteilung zu arbeiten. Dies nennt Grünwald (2007: 107) die drittwichtigste Beobachtung seines Buches. Man kann auch die erste Beobachtung, also die Äquivalenz (vollständiger) Präfix-Codes und Wahrscheinlichkeitsverteilungen, nutzen, um für eine parametrische Familie von Wahrscheinlichkeitsverteilungen PΘ eine PrioriVerteilung über dem Parameterraum zu spezifizieren. Die Herleitung dieser universellen Verteilung über das Kodierungsproblem zeigt sofort, dass sie kein a priori vorhandenes Wissen formalisiert. Anders gesagt: Zwar arbeitet man formal gesehen mit einer Wahrscheinlichkeitsverteilung über dem Parameterraum, also einer klassischen Priori-Verteilung, teilt jedoch nicht deren (enge subjektive) Bayesianische Interpretation.208 Cover und Thomas (2006: Kapitel 11) zeigen viele weitere, enge Verbindungen zwischen Informationstheorie und Statistik auf. Sie schreiben (ibd., S. xviii): “We have also taken delight in relating Fisher information, mutual information, the central limit theorem, and the Brunn-Minkowski and entropy power inequalities.” Rissanen (1989: 42) führt den äußerst engen Zusammenhang zwischen dem 2. Hauptsatz der Thermodynamik und dem zentralen 208
Für weitere Einzelheiten siehe Li und Vitányi (2008: 389ff), Rissanen (1989) und Dowe et al. (2007).
462
5 Synthese
Grenzwertsatz an. Auch die Herkunft des Prinzips maximaler Entropie (Jaynes 1957) aus der Informationstheorie ist offenkundig.
5.5.2 Moderne Informationstheorie Information theory must precede probability theory, and not be based on it. (Kolmogorov, zitiert nach Calude (2002: 92))
So beeindruckend diese erste Verbindung von Statistik und Informationstheorie auch sein mag, sie leidet an einem entscheidenden Mangel, den Rissanen (2007: VII) prägnant beschreibt: “Shannon’s formal measure of information, the entropy together with the related notions of relative entropy or the Kullback-Leibler distance, the mutual information, and the channel capacity, are all defined in a mean sense with respect to a given probability distribution.” Li und Vitányi (2008: 48) sagen noch deutlicher: In fact, classical probability theory cannot express the notion of randomness of an individual sequence. It can only express expectations of properties of outcomes of random processes, that is, the expectations of properties of the total set of sequences under some distribution. (Hervorhebung im Original.)
Das heißt, der klassische Informationsbegriff (aber auch die orthodoxe Statistik im Allgemeinen) arbeitet mit Zufallsvariablen, ihren Verteilungen und Erwartungswerten. Damit ist er nicht feiner als die Bausteine, die in der klassischen Statistik verwendet werden. Viele Ergebnisse gleichen deshalb eher Umformulierungen bekannter statistischer Sachverhalte, als dass sie wesentlich über das bislang Bekannte hinausführten.209 Weit durchschlagender wäre ein formales Konzept für die in einem einzelnen, festen Datensatz enthaltene Information. Li und Vitányi (2008: 101) bemerken: The most natural approach to defining the quantity of information is clearly to define it in relation to the individual object [. . .] rather than in relation to a set of objects from which the individual object may be selected.
Komplexität Es ist von größter Bedeutung, dass es Solomonoff, Kolmogorov und Chaitin gelang, genau diese Idee im Rahmen der Kodierungstheorie zu formalisieren: Die Komplexität K(x) eines Datensatzes x = (x1 , . . . , xn )210 ist gerade gleich 209
Das soll die Bedeutung einer weiteren, primär nicht-statistischen Perspektive keinesfalls schmälern! Wie insbesondere die obigen „Bayesschen Beispiele“ zeigen, ist es sehr nützlich, einen zweiten Kontext zur Verfügung zu haben, in dem andere Prioritäten gesetzt werden, und der deshalb auch andersartige Resultate bereitstellt. 210 In der Informatik gerne als Nachricht oder binäre Zeichenkette bezeichnet
5.5 Das Informationsparadigma
463
der Länge p des kürzesten Computerprogramms s∗ = (s∗1 , . . . , s∗p ), welches als Output die Zeichenkette x produziert. Ein solches Progamm existiert, denn schreibt man x in den Speicher eines Computers, so hat man die Zeichenkette erzeugt.211 Außerdem ist p, da man nach dem kürzesten solchen Programm sucht, auch eindeutig bestimmt. Jede Reduktion von n auf m Bit (mit n > m ≥ p) bezeichnet man als Datenkompression. Je größer die Kompression, desto mehr hat man aus den Daten gelernt, desto kompakter ist das Modell s = (s1 , . . . , sm ), mit welchem sich die Daten (verlustfrei) beschreiben lassen. Anders gesagt: Es genügt auf jeden Fall, s zu kennen, um den gesamten Datensatz x rekonstruieren zu können. Die größte konzeptionelle Schwierigkeit erwähnen wir nur am Rande: Die Länge des kürzesten Programms könnte auch wesentlich von der speziellen Programmiersprache bzw., allgemeiner, vom konkret verwendeten Computer abhängen, also anderen, außerhalb des Datensatzes x gelegenen Sachverhalten. Wäre dem so, so könnte man die „Komplexität“ bzw. die „Einfachheit“ bzw. den „Informationsgehalt“ von Daten nicht unabhängig von deren Darstellung definieren. Es lässt sich jedoch zeigen,212 dass alle Computer im Wesentlichen zu einem „Universalrechenautomaten“, etwa der Turing-Maschine, äquivalent sind, womit der Informationsgehalt eines Datensatzes de facto (jedoch nicht ganz) unabhängig von seiner Darstellungweise ist. (Siehe z. B. Cover und Thomas (2006: Abschnitt 14.1).) Denkt man bei Datenkompression an ein Musikstück, eine Fotografie oder einen Film, die auf einen Bruchteil ihrer Größe komprimiert werden können, so wird man diese Technik nützlich finden, dem Sachverhalt jedoch kaum eine weit darüber hinausgehende Bedeutung beimessen. Dem ist jedoch nicht so, wenn man s als eine prägnante Beschreibung der Fakten x interpretiert. Ein allgemeines Gesetz ist deshalb so wertvoll, weil es kurz und knapp viele Beobachtungsdaten erklärt, man die Daten bestenfalls stringent aus ihm herleiten kann: The Kepler Challenge for statistics is to develop a general compression or pattern recognition algorithm that has cogent theoretical properties, that works well in case studies, and that, when applied to data like Brahe’s, yields Kepler’s three laws. (Siehe Beran (2008: 219), Hervorhebung im Original.)
Etwas ähnliches geschieht hier. Man muss das Programm s nur ausführen, also die in ihm niedergelegten logischen Schritte der Reihe nach ausführen, 211
Der Datensatz dient also als Programm seiner selbst. Die Nicht-Unterscheidung zwischen Daten und Programmen mag einen Fachfremden zunächst verblüffen, doch ist sie vom Standpunkt der Informatik aus nur konsequent. Programme wie Daten werden im Computer als binäre Zeichenketten abgebildet, im selben Speicher abgelegt und auf dieselbe Weise verarbeitet. Syntaktisch-formal gesehen gibt es keinen Unterschied. Semantisch gesehen schon: Daten sind Informationen, die verarbeitet werden, also „passiv“ sind; Programme hingegen sind „aktiv“, d.h., sie verändern andere Zeichenketten. (Besonders spannend wird es, wenn der gerade aktive Teil eines Programms, also ein aktuell ausgeführter Befehl, die gerade passiven Teile, also im Moment nicht ausgeführte Befehle desselben Programms, verändert.) 212
Das heißt, die genannten Herren konnten dies
464
5 Synthese
um die zuweilen erheblich umfangreicheren Daten zu erzeugen. Je kürzer das Programm dabei ist, desto mehr hat man die Fakten gewissermaßen „aufs Wesentliche“ reduziert, denn s ist zwar kleiner, jedoch immer noch genauso gehaltvoll wie x. So erscheint der Übergang von x zu s wie eine Induktion,213 und tatsächlich hat sich genau dieser Begriff auch hier eingebürgert. Man abstrahiert nämlich, anders gesagt, von Spezifika der Daten auf die Struktur bzw. den Gehalt in den Daten, deren „Bauplan“. Man beachte, in welchem Sinne induktiv geschlossen wird: Der Datensatz x ist fest, über ihn hinausgehende Aussagen, etwa reale Prognosen, werden nicht gemacht. Man bewegt sich stets innerhalb des formalen Rahmens von Zeichenketten, also Daten und Programmen.214 Dass kein Weg mit Notwendigkeit von irgendwelchen Tatsachen zu irgendwelchen Gesetzen führt (Poppers Formulierung) muss sich jedoch auch hier zeigen. Tatsächlich lässt sich mathematisch streng beweisen, dass es prinzipiell kein konstruktives Verfahren gibt, um, ausgehend von einem beliebigen x, zu s oder sogar s∗ zu kommen. Technischer formuliert: Die Kolmogorovsche Komplexität K(x) eines Datensatzes x ist nicht berechenbar. Der tiefere Grund hierfür ist das Halteproblem, das dadurch eine ziemlich natürliche Interpretation erfährt.215 Wäre in der Terminologie Gödels das System vollständig, d. h. könnte man in allen Fällen algorithmisch, und damit sogar konstruktiv, in endlich vielen Schritt von x zu s kommen, so hätte man das Induktionsproblem mit logischen Mitteln gelöst und damit Hume einen Streich gespielt. Doch die Logik lässt sich nicht überlisten, d.h., s ist von x aus gesehen (logisch-deduktiv) außer Reichweite. Gewiss, sobald man „irgendwie“ ein (kurzes) Programm s gefunden hat, mit dem sich die ursprünglichen Daten erzeugen lassen, so kann man von einem Gesetz sprechen, welches die Fakten erklärt. Und findet man ein noch kürzeres Programm, so hat man etwas dazugelernt. Man weiß jedoch nie, ob man schon bei s∗ angekommen ist, also die kürzest mögliche Erklärung gefunden hat. Schon der Weg von x nach s, also von den Daten zu irgendeinem Modell, kann beliebig kompliziert sein.216 213
Wir werden gleich präzisieren, in welchem Sinn s allgemeiner als x ist.
214
Dieser Rahmen ist gleichwohl äußerst allgemein, deckt der Übergang von Programmen zu Daten doch alle (algorithmisch) berechenbaren Sachverhalte ab! 215
Cover und Thomas (2006: 483) schreiben: “The halting problem in computer science is very closely connected with Gödel’s incompleteness theorem. In essence, it states, that for any computational model, there is no general algorithm to decide whether a program will halt or not (go on forever). Note that this is not a statement about any specific program. Quite clearly, there are many programs that can easily be shown to halt or go on forever. The halting problem says that we cannot answer this question for all programs.” Für viele weitere Details siehe ibd., Abschnitt 14.7. 216 Dies erkennt man am besten mithilfe verschlüsselter Daten. Eine Verschlüsselung zur Geheimhaltung von Daten ist nämlich genau dann gut, wenn man aufgrund der verschlüsselten Daten x keinerlei Hinweis darauf hat, wie die Ausgangsinformation s ausgesehen haben mag. Besten- bzw. schlimmstenfalls erkennt man noch nicht einmal, dass sich in bzw. „hinter“ der völlig willkürlich anmutenden Zeichenkette x eine Struktur verbirgt.
5.5 Das Informationsparadigma
465
Algorithmische Zufälligkeit Interpretiert man, wie wir es eben getan haben, das kürzeste Programm s∗ als die in den Daten enthaltene Struktur, so ist es naheliegend, den zu x fehlenden Teil als unwesentlich bzw. redundant aufzufassen. Genau dies ist die Definition von algorithmisch zufällig. Eine Zeichenkette x der Länge n heißt algorithmisch zufällig, wenn sie sich nicht komprimieren lässt, also kein Programm echt kleinerer Länge existiert, das x erzeugt. Da es 2n Zeichenketten der Länge n gibt, jedoch nur 2n−1 der Länge n − 1, stellt sich sofort heraus, dass zumindest die Hälfte aller Zeichenketten nicht komprimierbar und damit im genannten Sinn zufällig sind. Erst recht gibt es nur sehr wenige Zeichenketten, die substanziell, etwa auf ein Viertel ihrer Größe, komprimierbar wären.217 Andererseits gibt es - ebenfalls wiederum aufgrund des Halteproblems - auch keine allgemeine Methode, dies zu erkennen! Man kann nur den „Gegenbeweis“ führen: Hat man ein kürzeres Programm gefunden, dessen Output gerade die in Frage stehende Zeichenkette ist, so war letztere wohl komprimierbar. Eine elegante Art diesen Sachverhalt zu erfassen, eröffnet die ebenfalls nach Kolmogorov benannten Strukturfunktion. Zunächst fasst man x als Element einer Menge S auf. Auch dieser Menge lässt sich eine Komplexität K(S) zuordnen, ebenfalls definiert als die Länge des kleinsten Programms, welches S als Output hat. Allgemein gilt die zunächst kontraintuitive Ungleichung K(S) ≤ K(x) , denkt man doch, die Komplexität einer Menge S x müsse größer sein als die eines ihrer Elemente. Stellt man man sich jedoch die Komplexität als die Informationsmenge vor, die notwendig ist, um ein Objekt zu charakterisieren, so ist unmittelbar klar, dass man n Ja-Nein-Fragen (und damit Bits) benötigt, um eine spezifische binäre Zeichenkette der Länge n festzulegen, jedoch nur k < n entsprechende Fragen, um lediglich einen Teil, nämlich k Bit der kompletten Zeichenfolge zu beschreiben. Die restlichen n − k Bit sind nicht festgelegt und definieren eine natürliche Menge von „Mustern“ von denen eines die gegebene Zeichenfolge x ist.218 In diesem Sinne sind auch komprimierte Daten, etwa s = (s1 , . . . , sm ), allgemeiner als nicht komprimierte, etwa x = (x1 , . . . , xn ), ist doch n > m, d. h. man kann s noch mit beliebigen n − m Bit „auffüllen“. Wie verändert sich K(S), wenn man die Menge S sukzessive vergrößert? Beginnend mit S = {x} ist die Komplexität c = K(S) = K(x). Außerdem 217
Es gibt nur 2n/4 solche Zeichenketten. Z. B. existieren 28 = 256 verschiedene Bytes, aber nur 22 = 4 Kombinationen zweier aufeinander folgender Bits (nämlich 00, 01, 10 und 11). Man kann also höchstens 4 von 256, also 1/64 aller Zeichenketten auf ein Viertel ihrer Größe komprimieren. In diesem Sinne sagt Kolmogorov, zitiert nach Calude (2002: 92): “By the very essence of this discipline, the foundations of information theory have a finite combinatorial character.” 218
Informatiker benutzen gerne das Zeichen „?“ (eine sogenannte “wildcard”) um ein nicht festgelegtes Bit zu charakterisieren. Die acht Bit 0110.0001 sind der ASCII-Code des Buchstabens „a“, jener von „A“ ist 0100.0001. Sucht ein Computer also, Groß- und Kleinschreibung nicht beachtend, in einem Text nach dem genannten Buchstaben, so versucht er das Muster 01?0.0001 zu finden.
466
5 Synthese
besteht S aus einem Element, d.h. |S| = 1 und damit ist log |S| = 0.219 Senkt man nun die zugelassene Komplexität c ab, fordert also K(S) ≤ c mit c < K(x), so gibt hx (c) = min{ld |S| : x ∈ S, K(S) ≤ c} S
an, wie umfangreich - im Sinne des Logarithmus der Anzahl ihrer Elemente die x enthaltende Menge mindestens sein muss, um die vorgegebene, gerade noch erlaubte Komplexitätsschranke c einzuhalten. Da S umso größer werden muss, je kleiner c ist, erhöht sich die Anzahl der zulässigen Zeichenketten sukzessive, bis man beim Wert c = 0 alle Zeichenketten der Länge n zugelassen hat (kein einziges Bit liegt fest, es wird keine einzige Ja-Nein-Frage gestellt), S also die Menge aller binären Zeichenketten der Länge n ist. Der zugehörige Funktionswert ist hx (0) = ld 2n = n. Anschaulich bedeutet dies, dass hx (c) eine auf dem Intervall [0, K(x)] monoton fallende Funktion mit hx (0) = n und hx (K(x)) = 0 ist. Ist x nicht komprimierbar, so ist K(x) = n, da alle n Bit zu kodieren sind und hx (c) ist eine Gerade mit der Steigung −1.220 Ist x jedoch komprimierbar, so ist K(x) < n und hx (c) setzt sich aus zwei monoton fallenden Geraden zusammen. Die linke von beiden hat eine Steigung kleiner als −1, die rechte wiederum eine Steigung gleich -1. Am Punkt, in dem sie sich treffen entsteht anschaulich gesprochen ein „Knick“ 221 Dessen Interpretation ist wie folgt: Im Wesentlichen muss beim nicht systematischen, algorithmisch-zufälligen Teil der Daten jedes Bit einzeln angegeben werden, was zu einer Steigung von -1 der rechten Geraden führt. Der systematische Teil lässt sich hingegen in einem kleinen Programm der Länge < n ablegen, und genau diese Komprimierung zeigt sich in einer Steigung < −1 der zugehörigen Geraden. Die Gesamt-Komplexität K(x) der beobachteten Daten x wird so in zwei Teile zerlegt: Einen allgemeinen Teil s = (s1 , . . . , sm ), welcher bereits von einer Menge T x der Komplexität m = K(T ) < K(x) abgedeckt wird, und einen speziellen Teil, der nur x zu eigen ist. Die zu m gehörige Menge T bzw. jedes Programm, das diese Menge erzeugt, heißen Kolmogorov suffiziente Statistik. Die Angabe der minimalen Kolmogorov-suffizienten Statistik entspricht bzw. entspräche der maximal möglichen Kompression der Daten.222 219
| · | steht hier für die Mächtigkeit, also die Anzahl der Elemente, einer Menge.
220
Da sie durch die Punkte (0, n) und (n, 0) geht, ist ihre Funktionsgleichung y = −x + n. 221 Siehe Rissanen (2007: 54), Cover und Thomas (2006: 498ff) und Li und Vitányi (2008: 406). 222
Die Begriffsbildung ist völlig natürlich. Auch in der klassischen Statistik enthält ein suffiziente Statistik per definitionem alle relevanten Informationen. Die Daten werden also, anders gesagt, auf diese Statistik (ohne Informationsverlust) komprimiert. Eine herkömmliche minimal-suffiziente Statistik entspricht im neuen formalen Rahmen gerade der maximal möglichen Datenkompression. Es sollte deshalb auch nicht verwunderlich sein, dass man minimalsuffiziente Statistiken in einem geeigneten informationstheoretischen Rahmen stark verallgemeinern kann (Shamir et al. 2008). Es ist auch schon gelungen, die wechselseitige
5.5 Das Informationsparadigma
467
Universelle Wahrscheinlichkeit Das zuvor genannte kombinatorische Argument motiviert die Definition der universellen Wahrscheinlichkeit eines binären Datensatzes x = (x1 , . . . , xn ). Die Wahrscheinlichkeit, dass sich ein beliebiger Datensatz der Länge n „zufällig“ ergibt, wird auf 1/2n gesetzt, also P (x) = 1/2n . Zwischen der Kolmogorovschen Komplexität K(x) und der universellen Wahrscheinlichkeit P (x) einer Zeichenkette x besteht die auffällig enge Beziehung 1/2K(x) ≤ P (x) ≤ d/2K(x) mit einer Konstanten d. Man kann also die Komplexität benutzen, um die universelle Wahrscheinlichkeit nach oben und unten abzuschätzen. Hierzu gleichwertig ist K(x) − d ≤ log(1/P (x)) ≤ K(x)
mit einer Konstanten d . Das heißt, die Kolmogorovschen Komplexität K(x) mit ihrer algorithmischen Interpretation und die aus der universellen Wahrscheinlichkeit abgeleitete Größe − log(P (x)) mit ihrer probabilistischen Interpretation sind im Wesentlichen gleichwertige Arten, die in einem Datensatz enthaltene Information zu messen. Mehrere Einwände kommen einem gleichwohl in den Sinn und sind fast genauso schnell zu entkräften. Zum einen mag man einwenden, dass es sich bei der universellen Wahrscheinlichkeit in Wirklichkeit um eine sehr spezielle Wahrscheinlichkeit, nämlich jene binärer Zeichenketten, handelt. Darauf wird jeder Informatiker erwidern, dass alle realen Sachverhalte als binäre Zeichenketten codiert werden (können), was die Basis sowohl der theoretischen als auch der praktischen Informatik ist. Zum zweiten behandelt die Definition der universellen Wahrscheinlichkeit die beiden möglichen Zeichen völlig gleichwertig. Insbesondere werden alle Zeichenketten derselben Länge als gleich wahrscheinlich angesehen. Greift hier also nicht wieder die Kritik am Indifferenzprinzip? Auch dieser Einwand verpufft, da man nicht in irgendeiner speziellen Situation Unwissenheit formalisieren möchte, sondern sich in einer allgemeinen, von konkreten substanziellen Überlegungen völlig unabhängigen Situation befindet. Was die Zeichenketten bedeuten, welchem Gebiet sie entstammen, kurz, ihre ganze Semantik, spielt überhaupt keine Rolle. Es ist die formale, informationstheoretische Situation, welche die Setzungen nahe legt, wenn nicht sogar bestimmt, d. h. die gleichberechtigte, symmetrische Behandlung von 0 und 1 und die Unabhängigkeit der Inhalte zweier verschiedener Bits. Die schlichte Setzung P (x1 , . . . , xn ) = 1/2n hat die außerordentlich bemerkenswerte Konsequenz, dass kurzen Zeichenketten ein größere Wahrscheinlichkeit zugewiesen wird als langen, was eine Formalisierung von Ockhams Ökonomieprinzip des Denkens ist. Information I(x, y) zweier fester Datensätze x, y nicht-stochastisch zu fassen (Gács et al. 2001).
468
5 Synthese
Der Hauptsatz auf Datensatzebene Mit der Trennung in relevante Strukturinformation und kaum relevantem (algorithmischem) Zufallsrauschen hat man - sehr abstrakt - sauber zwischen dem strukturierbaren und dem nicht-strukturierbaren Teil der Daten differenziert. Dies entspricht einer sehr allgemeinen, logisch präzisen Formulierung des Hauptsatzes der angewandten Statistik.223 Der Satz ist jedoch nicht nur mathematisch-exakt, er ist zugleich auch, da man sich konsequent auf der Datensatzebene bewegt und nicht das etwas künstliche Hilfsmittel von Zufallsvariablen usw. benutzt, weit feiner als alle seine vorausgegangenen Formulierungen. Es sind die Daten, deren Eigenschaften und insbesondere die in ihnen enthaltenen Informationen, die ins Zentrum rücken - und nicht Zufallsvariable X oder Parameter θ und deren Verteilungen, wie es in der orthodoxen und der Bayesianischen Statistik der Fall ist. Ist man in der Lage, die im individuellen Datensatz vorhandene Information logisch befriedigend zu formalisieren und genau das tut die Kolmogorovsche Komplexität - so baut man auf einem wirklich empirischen Fundament auf. Jenes ist nicht nur genauer als Shannons (nicht hierfür gedachte) Idee mittlerer Information über eine Reihe von Datensätzen, es vermeidet vor allem auch die oft genauso weitreichenden wie kaum zu überprüfenden Annahmen über zumeist unbekannte Prozesse, welche die vorliegenden Daten erzeugt haben. Man handelt zumindest im Geiste des Likelihood-Prinzips, wenn man konsequent zwischen dem tatsächlich Beobachteten und unseren Ergänzungen unterscheidet, und dabei zugleich den Fakten die Priorität zugesteht. Sehr bemerkenswert ist z. B. Greenland (1990). Im Verlauf einer Diskussion, in dem er alle möglichen probabilistischen Interpretationen einer fachwissenschaftlich wegweisenden, nicht-randomisierten Studie verwirft, schreibt er (S. 425, meine Hervorhebungen): The point of the preceding exercise is not to criticize the Framingham study; on the contrary, it is important to note that the study was among the most informative in epidemiologic history. The point is that the study was informative despite the fact that the study statistics bore no randomization interpretation (since no one was randomized), and that any defensible descriptive interpretation would have to be trivial in character.
Kann man theoretisch die besten Gründe anführen, warum an Folgerungen aus einer solchen Studie die größten Zweifel angebracht sind, und muss man zugleich einräumen, dass die Daten praktisch äußerst bedeutsam waren, so bleibt eigentlich nur der Schluss, dass die bisherige Theorie inadäquat ist, und man nach einer völlig anderen Rechtfertigung der empirischen Bedeutsamkeit der Ergebnisse Ausschau halten sollte.224 Jene liegt auf der Hand: Ist es wirklich verblüffend, dass man einiges über Krankheiten lernen kann, wenn man 223
Abschnitt 3.8
224
Dies hatten wir schon bei der Diskussion der Messtheorie festgehalten.
5.5 Das Informationsparadigma
469
viele, nicht gerade völlig untypische Personen detailliert und einigermaßen systematisch untersucht? Auch wenn vorliegende Daten vielerlei statistische Qualitätskriterien nicht erfüllen und deshalb in zahlreicher Hinsicht verfälscht sein könnten (und höchstwahrscheinlich auch sind) - informativ bleiben sie in aller Regel gleichwohl. Mit den Worten von Rissanen (2007: 3): The theory provides a different foundation for statistical inquiry [. . .] What is most important is that the data need not be regarded as a sample from any distribution, and the idea of a model is simply a computer program that describes or encodes the data.225
Die resultierende Sichtweise ist zunächst einmal induktiv, also von den Daten zum Modell, und nicht mehr deduktiv, also vom (vorgegebenen, „unbekannten“) Modell zu einer Reihe von Daten. Doch auch wenn die Extraktion von Information aus den gegebenen Daten das wohl am meisten gehörte Motto bei allen einschlägigen Autoren ist - wie dies auch schon früher bei führenden Autoren wie Fisher, Jaynes und Tukey der Fall war -, durch die Wahl einer Klasse von überhaupt in die engere Wahl gezogener Modelle kommt auch der Top-Down-Gesichtspunkt zu seinem Recht. Gleichzeitig lässt sich die oft zurecht kritisierte Priori-Verteilung vermeiden.226 Die Informationstheorie erklärt aber auch elegant, warum experimentelle Designs, auf die die klassische Statistik so großen Wert legt, tatsächlich sehr wertvoll sind: Aufgrund ihres Aufbaus schließen sie überzeugend Alternativerklärungen aus, leiten die Auswertung und erleichtern die Interpretation der Daten. Genauer gesagt gelingt es mit ihnen, effizient und überzeugend Informationen zu erheben, weil das experimentelle Design die Daten mit einer Struktur versieht, die es erlaubt, die Information anschließend aus den Daten elegant zu extrahieren. Bei nicht-experimentellen Daten ist dies weit schwieriger, weshalb die auf solchen Daten aufbauenden Schlüsse denn auch entweder bescheidener oder aber weniger gut begründet sind. Die Informationsidee reicht jedoch weit über klassische Denkmuster hinaus. Fasst man Daten zunächst einmal nicht als Realisierungen von Zufallsvariablen auf, so eröffnen sich völlig neue Möglichkeiten. Je nach Kontext kann es weit fruchtbarer sein, sie als Diskretisierung einer stetiger Größe, gerundete Werte, das Ergebnis eines komplexen, jedoch deterministischen Prozesses, eine verschlüsselte Nachricht, den Output eines technischen Ablaufs, usw. aufzufassen. Von besonderer Bedeutung sind die ab dem nächsten Abschnitt beschriebenen Ansätze. In jüngster Zeit hat man sogar damit begonnen, eine nicht-probabilistische Statistik zu formulieren.227 225
Sehr ähnlich äußert sich Vovk (2001: 213): “In this approach [. . .] it is not assumed that data are generated by some stochastic mechanism.” Auch Gács et al. (2001: 2445) schreiben: “In contrast, in the algorithmic case we investigate the relation between the data and an individual model and therefore a probability distribution over the models is irrelevant.” 226 Womit Fishers Fiduzialidee wiederaufersteht. (Siehe S. 392) 227
Siehe z. B den in der 3. Auflage neuen Abschnitt 5.5 in Li und Vitányi (2008), an dessen Ende (S. 420) es heißt: „These results usher in a completely new era of statistical
470
5 Synthese
Sich von vorneherein auf eine stochastische oder sogar entscheidungstheoretische Sicht zu verengen, ist auf jeden Fall eine zuweilen gefährliche Vereinfachung, zumal die Vielfalt der Ansätze (Kapitel 4) weit besser zum hier vollzogenen induktiven Schritt passt. Dieser besteht im Übergang von endlich vielen, begrenzten Daten, also n Bit, zu einem allgemeinen Modell und der diesem entsprechenden realen Situation. Es ist dabei auch unmittelbar klar, dass endlich viele Bits nur endlich viel Information kodieren können, weshalb glatte, stetige Modelle immer nur eine Näherung darstellen. Bei gegebener Datenlage kann man zudem immer nur endlich viele dieser Modelle unterscheiden. Dies entkräftet sofort einen zuweilen gehörten Einwand gegen Bayessche Methoden, dass nämlich das Bayessche Theorem (zumindest in seiner üblichen Form) nur mit endlich vielen Hypothesen umgehen könne. Auch muss man eine Bevorzugung diskreter Beschreibungen nicht mit einem vagen „die Welt ist eher diskret als stetig aufgebaut“ rechtfertigen. Es genügt die Tatsache endlicher Information, welche eine begrenzte Diskriminierungsfähigkeit zur Folge hat. Wie die Wellenlänge der verwendeten Strahlung in der Mikroskopie über die kleinsten noch erkennbaren Strukturen entscheidet, so ist es hier die in den Daten enthaltene Information, welche über die Granularität, also die aufgrund der Daten noch sinnvollerweise zu treffenden Unterschiede zwischen Modellen, bestimmt.228 Alle Überlegungen stützen sich maßgeblich darauf, dass die Informationationsmenge immer in Bit gemessen wird und - von technischen Feinheiten einmal abgesehen - nur von den vorliegenden Daten abhängig ist. Genau deshalb hat man in der Statistik erstmals einen universellen Maßstab zur Verfügung, Information zu messen, die Komplexität einzelner Datensätze zu quantifizieren, Daten prägnant zusammenzufassen und auch sehr verschiedenartige Modelle zu vergleichen. Dies prädestiniert die Informations- und Kodierungstheorie nach einigen Jahrzehnten einer von der Statistik eher losgelösten Entwicklung als deren vereinheitlichendes Paradigma. Wie insbesondere die verschiedenen Publikationen Rissanens eindrucksvoll belegen, ist er sich schon seit langer Zeit der Kraft dieses Ansatzes bewusst. Rissanen (2007: VIII) schreibt: “[The] resulting algorithmic theory of information turned out to have far-reaching implications not only for the theory of computation but inference that is always best rather than expected. (Hervorhebungen im Original.) Auch Beran (2008: 219) schreibt: “Mathematics offers powerful languages besides probability theory.” Für einige frühe Ansätze siehe Diaconis (2006: 22f) und von der Lippe (1996: 29). 228 Genau so kann man schon ein Hauptergebnis der klassischen mathematischen Statistik lesen: Die Varianz eines (erwartungstreuen) Schätzers θˆ gibt an, wie viel man aufgrund der Beobachtungen über den Parameter θ weiß. Je kleiner diese Varianz, desto besser ˆ ist also ein weiß man über den Wert des Parameters Bescheid und vice versa. 1/σ 2 (θ) gutes Maß für die Information, über die man aufgrund der konkreten Schätzung über den Wert des Parameters verfügt. Wie nicht anders zu erwarten, kann die Präzision von ˆ nicht beliebig Schätzungen bei endlich vielen Beobachtungen nicht beliebig groß bzw. σ 2 (θ) klein werden. Vielmehr ist letztere durch die sogenannte Fisher-Information nach unten beschränkt. (Details hierzu finden sich in fast jedem traditionellen Lehrbuch der Statistik, der Ausgangspunkt des Ergebnisses ist Rao (1945).)
5.5 Das Informationsparadigma
471
also with regard to provability in logical systems, foundations of probability,229 and inductive inference.”
5.5.3 Das Prinzip der kompaktesten Beschreibung „[. . .] briefly, and in its most concrete form, the object of statistical methods is the reduction of data. A quantity of data [. . .] is to be replaced by relatively few quantities which [. . .] shall contain as much as possible, ideally the whole, of the relevant information contained in the original data. Fisher (1922: 13)
Der große Vorteil ihrer Allgemeinheit, welche die Informationstheorie zum neuen Paradigma der Statistik prädestiniert und die Statistik wieder in den Kanon der Wissenschaften einbetten würde, ist jedoch auch ihr größter Nachteil, da aufgrund eben dieser Allgemeinheit viele ihrer wichtigsten Größen prinzipiell nicht algorithmisch berechenbar sind. Wie auch in anderen weit abstrahierten Teilgebieten der Mathematik muss man die Situation soweit einschränken, dass konstruktive Verfahren und vor allem Algorithmen möglich werden. Rissanen (2007: VIII) beschreibt eine der wichtigsten Varianten: By replacing the class of models as the set of programs in a universal language by families of probability models, we avoid the non-computability problem and obtain a fairly comprehensive theory of modeling which, unlike the traditional attempts at theory, has no logical fallacies.
Gelingt eine natürliche Konkretisierung, so sind Methoden, welche sich wesentlich auf die Informations- und Kodierungstheorie stützen, fundierter, allgemein anwendbar, frei von logischen Widersprüchen und in der Praxis auch noch zumeist weit besser als klassische Verfahren. Sie reichen typischerweise weit über traditionelle statistische Verfahren, insbesondere Maximum Likelihood, aber auch Bayesscher Provenienz hinaus und vermeiden bei der Modellselektion schon aufgrund ihrer Konstruktion das zentrale Problem der übermäßigen Anpassung. Ein wesentliches Argument für kausale Netze war, dass mit ihrer Hilfe klassische Probleme einer konstruktiven Lösung zugeführt werden können, an denen sich die traditionelle Statistik lange Zeit vergeblich abmühte. Hier ist dies in noch weit größerem Umfang der Fall: Minimum Message Length (MML)230 ist eine Methode, die sich eng an die Bayessche Sichtweise anlehnt. Sie fasst den Datensatz x als eine spezielle Nachricht auf, welche einer mehr 229
Gemeint ist damit die algorithmische Zufälligkeit. Man kann aber noch viel weiter gehen. Siehe dazu Abschnitt 5.5.5. 230
Siehe Wallace (2005) für eine aktuelle Darstellung
472
5 Synthese
oder minder bekannten Quelle (entsprechend der Population in der traditionellen Statistik) entstammt. Hat die Nachricht die Wahrscheinlichkeit P (x), so ist ihre Länge, also die Anzahl zu ihrer Kodierung benötigter Bits − ld(P (x)). Die Hypothese H, welche die Daten erklären soll, besitze die Priori-Wahrscheinlichkeit P (H). Aus der Definition der bedingten Wahrscheinlichkeit P (x|H) = P (H, x)/P (H) ergibt sich sofort der Produktsatz P (H, x) = P (H) · P (x|H), und durch Logarithmieren erhält man 0 ≤ − ld(P (H, x)) = − ld(P (H)) − ld(P (x|H)). Das MML-Prinzip besagt nun, dass man die linke Seite der Gleichung minimieren, also Daten und erklärende Hypothese simultan so kurz wie möglich machen sollte. Aufgrund der rechten Seite heißt das, zum einen die Daten gut an die Hypothese anzupassen,231 zugleich aber auch die Hypothese einfach zu halten.232 Das Minimum wird weder bei einer primitiven Hypothese erreicht,233 was underfit entspricht; noch bei einer übermäßig komplizierten Hypothese,234 entsprechend einem overfit. Vielmehr ist die im MML-Sinne optimale Lösung, eine gute und zugleich prägnante Beschreibung der Daten zu finden. Insgesamt wird die Nachricht getreu dem Hauptsatz auf Datenebene in zwei Komponenten zerlegt. Wallace (2005: 190) schreibt dazu: The given data contains information about both the pattern to which it conforms and the ‘noise’. The task of an inductive or statistical inference procedure may be regarded as a separation of the data information into ‘pattern’ and ‘noise’ components [By the method of strict minimum message length] the data is recoded into a two-part message, in which the first part (assertion) concerns pattern, and the second part (detail) encodes whatever details of the data cannot be deduced from the assertion. We now argue that, by choosing the shortest possible explanation, we effect the best possible separation between pattern and noise.
Die Maximum-Likelihood-Schätzung (ML, siehe S. 127ff) ist dafür gemacht, mit einer festen Anzahl von Parametern zurecht zu kommen. Schon Neyman und Scott (1948) präsentierten ein Problem, in dem die Anzahl der Parameter mit der Anzahl der Beobachtungen wächst: Seien X1 , X2 , . . . unabhängige Zufallsvariable mit Xi ∼ N (μi , σ). Von jeder der Zufallsvariablen sollen jeweils zwei Realisierungen xi1 und xi2 bekannt sein. Neyman und Scott zeigten, dass zwar der ML-Schätzer von μi , nämlich μ ˆi = x ¯i = (xi1 + xi2 )/2 konsistent ist, nicht jedoch der ML-Schätzer der Standardabweichung, wel√ cher für n → ∞ mit Wahrscheinlichkeit Eins gegen σ/ 2 konvergiert. Dowe 231
P (x|H) groß und damit − ld(P (x|H)) klein
232
Typischerweise ist P (H) umso größer, je einfacher H ist. Es ist zudem nahe liegend, ohne weiteres Vorwissen einfachen Hypothesen ihre universelle Wahrscheinlichkeit zuzuordnen. Da die Funktion − ld auf dem Intervall [0, 1] fällt, ist beidesmal − ld(P (H)) klein. 233 234
− ld(P (H)) klein, jedoch − ld(P (x|H)) groß − ld(P (H)) groß, jedoch − ld(P (x|H)) klein
5.5 Das Informationsparadigma
473
and Wallace (1997) verwenden den MML-Schätzer und zeigen auf wenigen Seiten, dass ihr Verfahren mit der Situation zurechtkommt.235 Das Behrens-Fisher-Problem (S. 425) ist wie das Problem of the Nile (S. 405) ein multivariates Problem, das heißt, es spielen mehrere Parameter simultan eine Rolle. Wie die nicht abreißenden Beiträge zu solchen Problemen zeigen, kommt die klassische Statistik nur schwer mit ihnen zurecht; es gibt also bis heute keine allgemeine oder auch nur allgemein akzeptierte Lösung. Das von Stein (1956) formalisierte Paradoxon (S. 405), ein multivariates Schätzproblem, ist keine Ausnahme, und die klassischen Ansätze scheitern, weil die Verwendung statistisch offensichtlich irrelevanter „Informationen“ günstig sein kann. Ohne solche Bemühungen auch nur zu erwähnen, gibt Wallace (2005: 181) eine überzeugende Begründung, weshalb sich der Effekt einstellt: Even if [n] univariate mean estimation problems are completely independent, we do better to encode their data in a single explanation. Closely parallel results are well known in Information Theory. If several analogue quantities are to be digitized for storage or transmission, the digitizing process, by representing each quantity only to a finite number of digits, inevitably introduces a ‘quantization noise’. By quantizing several quantities at once [. . .] the mean quantizing noise is reduced without use of extra digits. A curious consequence of combining independent problems in this way is that now the [Strict Minimum Message Length] estimate for one problem depends on data from other, unrelated problems.
Minimum Description Length (MDL)236 löst sich noch konsequenter von traditionellen, auch Bayesschen Vorstellungen. Rissanen (2007: 44) charakterisiert ihn wie folgt: “[. . .] the complexity of a data set is measured by the fewest number of bits with which it can be encoded when advantage is taken of a proposed class of models. Hence, the complexity measure is relative to the class of models, which then act as a language allowing us to express the properties in the data, and [. . .] the information in the data [. . .] if the language is poor, we expect to be able to learn only gross properties. If [. . .] the language is very rich, we can express a large number of properties, including spurious ‘random’ quirks.” (Siehe hierzu auch ibd., S. 4.) Grünwald (2005: 8) präzisiert dies: The goal of statistical inference may be cast as trying to find regularity in the data. ‘Regularity’ may be identified with ‘ability to compress’. MDL combines these two insights by viewing learning as data compression: it tells us that, for a given set of hypotheses H and data set D, we should try to find the hypothesis or combination of hypotheses in H that compresses D most. (Hervorhebungen im Original.)
Auch dies führt sofort wieder zu einer neuen Formulierung des Hauptsatzes: “This raises the thorny issue of deciding how much of and which proper235
Siehe auch Wallace (2005: Kapitel 4). Zahlreiche weitere Beispiele werden in Dowe et al. (2007) genannt. Übrigens führt auch Akaike (1973) sein Kriterium als Verallgemeinerung der Maximum-Likelihood-Methode ein. 236
Siehe v.a. Rissanen (1989, 2007) und Grünwald (2005, 2007)
474
5 Synthese
ties of the data we want to and can learn. Our solution will be based on the idea that the portion of the data that cannot be compressed with the class of models available will be defined to be uninteresting ‘noise’, and the rest is what we want to learn - the useful learnable information. We may state that to achieve such a decomposition of data is the purpose of all modeling.” (Rissanen 2007: 44f) Anders als beim Bayesschen Ansatz ist auf der Klasse der Hypothesen bzw. Modelle keine Wahrscheinlichkeitsverteilung definiert. Rissanen (2007: 4) sagt dazu: The basic coding theory [. . .] implies that a code length L(a) for any finitely describable object a defines a probability P (a) This means that to encode [. . .] we need a prior for the parameters. The real-valued parameters must be quantized so that they can be encoded with a finite code length. This is an important and even crucial difference between the MDL theory and the Bayesian approaches, in that in the former only prior knowledge that can be described, i.e., encoded, is permitted, not in any vague sense that there is a certain prior distribution on the parameters, but in the concrete sense that the parameter value needed can be encoded in such a manner that it can be decoded. A code length is equivalent with a probability, and there is no need for the awkward Bayesian interpretation that a probability is a degree of belief.
Direkt danach nennt er noch zwei weitere wichtige Unterschiede zum Bayesschen Ansatz: Statt wie MDL eine Klasse von Modellen zu betrachten, fixiert der Bayessche Mechanismus eine Priori-Verteilung. MDL arbeitet zudem nur mit der Codelänge, anstatt dem gesamten Code bzw. äquivalent zu diesem, der kompletten Verteilung. Wichtiger noch ist die Tatsache, dass man sich konsequent von der Vorstellung löst, die Daten seien durch einen (stochastischen) Prozess erzeugt worden. Es gibt kein „wahres“ Modell, das im Hintergrund alles steuert, und an dem sich viele traditionelle statistische Verfahren orientieren. Noch einmal Rissanen (2007: 99): “There is no need to assume anything about how the existing data were generated. In particular, unlike in traditional statistics, the data need not be assumed to form a sample from a population with some probability law.” Schon in Rissanen (1989: 6) findet sich eine ähnlich grundsätzliche Kritik am „wahren Modell“. ‘There is a plethora of applications of the MDL principle in many different areas” (Li und Vitányi 2008: 436) und ibd., S. 435-437) treten sie mit einer differenzierten Aufzählung den Beweis an. Auch Hansen und Yu (2001) sowie Bryant und Cordero-Braña (2000) sparen nicht mit Praxisbeispielen, wobei letztere insbesondere Kontingenztafeln behandeln (ibd., S. 261f) ohne auf die Randsummen zu bedingen (siehe hierzu S. 371f). Rissanen (1989, 2007) selbst geht es weniger um die Lösung einzelner Probleme, die sich für die klassische Theorie als schwierig erwiesen haben. Weit darüber hinausgehend baut er in seinen Büchern die Schätz- und Testtheorie, also den Kern der klassischen Statistik, systematisch neu auf. Nachdem er mit dem MDL-Ansatz eine universal sufficient statistics decomposition hergeleitet hat, wendet er sich unter anderem der Maximum-Likelihood-Schätzung,
5.5 Das Informationsparadigma
475
einem Kernstück der orthodoxen Theorie, zu. Es ist wohlbekannt, dass jene unbekannte Parameterwerte θ1 , . . . , θk in aller Regel zuverlässig schätzt, nicht jedoch deren (optimale) Anzahl k. Rissanen (2007: 85) schreibt: Yet both are just parameters, and one and the same principle of estimation should be applicable [. . .] In the light of the decomposition above we now see that in every case we should separate the noise part from the information and fit parameters only such that we capture the information [. . .] the maximum-likelihood principle should be rejected in both cases, because we are not then distinguishing between noise and the learnable part, i.e., the information. In case of [the parameters’ values] the damage is minor for large amounts of data [. . .] in case of [k] the damage is devastating.
Auch einer großen Anzahl von Parametern oder semiparametrischen Modellen kann man mit der Maximum-Likelihood-Ansatz höchstens ad hoc beikommen, etwa indem viele Störparameter zu Beginn der Analyse marginalisiert werden (Murphy und van der Vaart 2000). Und die Probleme bei Maximum Likelihood, die permanent zu einer Vielzahl origineller Lösungsansätze zwingen, sind nicht die Ausnahme, sondern die Regel: Während AIC, auf Maximum Likelihood aufbauend, oft noch nicht einmal konsistent ist,237 ist MDL dies unter sehr schwachen Voraussetzungen.238 Dringt man noch weiter vor, so stellt sich heraus, dass für Schätzprobleme im Allgemeinen Kolmogorovs bislang nicht erwähnter Entropiebegriff fundamental ist (Nikouline und Solev 2007). Rissanen (2007: Kapitel 7 und 9) stellt auch das Hypothesentesten mit dem neuen Begriff der optimalen Unterscheidbarkeit auf eine solide Grundlage. Ibd., S. 104, erläutert er die Vorgehensweise: It seems that the real issue in hypothesis testing is to be able to measure how well models fitted to the data are separated. In case of just two models, the problem amounts to calculating the two error probabilities and determining the decision boundary for which the sum of the error probabilities is minimized - i.e., the NeymanPearson lemma. The difficult case is when we have a parametric class of models [. . .] The central problem then becomes how to partition the parameter space into at most a countable number of equivalence classes such that any two adjacent models can be optimally distinguished from a given amount of data in a measure that is intuitively acceptable and can also be formally justified.239 (Hervorhebung im Original.)
Man beachte, dass bei dieser Behandlung des Problems mit dem Datenumfang und damit der vorhandenen Information, die Unterscheidbarkeit der Modelle sukzessive zunimmt. In dem Maß, in dem sich der „Schleier des zufälligen Rauschens“ lichtet, lässt sich die Wahrheit erkennen. Das passt nicht nur sehr gut zu dem in der Physik vorherrschenden Denken (siehe S. 331); der Ansatz adaptiert sich darüber hinaus auch automatisch an den Informationszuwachs. Dies ist ganz im Sinne von Fisher, der, zitiert nach Lehmann 237
Das heißt, dass selbst wenn die Anzahl n der Beobachtungen gegen unendlich geht, das selektierte Modell nicht gegen das korrekte Modell konvergiert. Siehe z. B. Schlittgen und Streitberg (2001: 340ff), Lang (2005: 168ff), Sarstedt (2006: 21f) und die dort genannte, ausführliche Literatur. Weakliem (1999) beschäftigt sich ausführlich mit BIC 238
Siehe Hansen und Yu (2001: 771f) und Barron et al. (1998)
239
Siehe auch Grünwald (2007: Abschnitt 7.3)
476
5 Synthese
(1990: 160f), sagt: “More or less elaborate forms will be suitable according to the volume of the data.” Traditionellerweise fixiert man hingegen die Modellklasse,240 was die Betrachtung starr macht und beim Testen zum Konvolut von α-Fixierung, β-Minimierung, α-Adjustierung bzw. p-Wert, Metaanalyse und „Hybriden“ beider Ansätze führt. Selbstverständlich behandelt Rissanen (2007: 105) auch die beiden Fehlerwahrscheinlichkeiten simultan, um keine willkürlichen Setzung (α = 5%) vornehmen zu müssen.241 Nur der ursprüngliche Fishersche Signifikanztest, der ganz schlicht eine feste Hypothese einem ebenso festen Satz von Beobachtungsdaten gegenüberstellt, kann mit der konzeptionellen Eleganz des neuen Ansatzes konkurrieren. Dies ist nicht weiter verwunderlich, bringt doch auch dessen simples Inferenzmuster den entscheidenden Unterschied zwischen einer allgemeinen Aussage und den konkreten Fakten auf den Punkt. Fishers Signifikanztest komprimiert den Forschungszirkel auf seine beiden wesentlichen Komponenten.242 Entspricht die H0 einer substanziellen Hypothese, die je mehr Daten verfügbar sind, umso schärfer getestet wird, so genügt Fishers Ansatz vollauf, um Huxleys Maxime gerecht zu werden, dass Hypothesen an der Wirklichkeit scheitern können müssen. Simultan mehr als eine Hypothese zu betrachten ist in gewissem Sinne bereits eine Seitenentwicklung. Viel stärker ist die adaptive Idee: Anstatt eines rigiden „Daten versus Hypothese(n)“ ist „Daten relativ zu Modell(en)“ weit elastischer und angemessener. Das heißt, man strebt keine wenig informative 0-1-Entscheidung an, sondern will primär flexible Modelle optimal an (feste) Daten anpassen.243 In diesem Sinne schreibt abermals Rissanen (2007: 102): [. . .] I came to realize that the fundamental problem both in data compression and statistics is the modeling problem, and that the code length minimization is the key to both.244
Weitere Vorzüge der neuen Methoden Ein Blick in die genannten Arbeiten zeigt, dass sich die Reihe erfolgreicher Anwendungsbeispiele noch erheblich verlängern lässt. Dabei sollte man nicht übersehen, dass die informationstheoretischen Methoden eng verwandt sind. In Li und Vitányi (2008: Abschnitte 5.4-5.6, insbesondere 385, 389ff, 398ff, 407ff, 413ff), werden viele Querbezüge zwischen ihnen hergestellt. Von großer 240
Insbesondere eine parametrisierte Verteilungsfamilie, siehe auch S. 519.
241
Siehe hierzu auch die S. 112 und 367 zitierten Bemerkungen von Cornfield (1966).
242
Wie so oft, wenn man einen Sachverhalt auf seinen theoretischen Kern reduziert hat, erscheint es andererseits eher als eine Karikatur, da man von vielen anderen, zuweilen auch wichtigen Faktoren abstrahiert hat, jene also überhaupt nicht formal berücksichtigt. Die ermüdenden Diskussionen um den p-Wert zeigen, dass die Vereinfachung wohl zu weit geht. 243
Beide Ansätze betrachten die Daten als fest. Zu einer (noch) „dynamischeren Sicht“ auch der Datenentstehung siehe Abschnitt 6.4. 244 Siehe auch das Zitat von Bryant und Cordero-Braña (2000), S. 527.
5.5 Das Informationsparadigma
477
Bedeutung ist, dass sich sowohl Maximum Likelihood als auch das Prinzip maximaler Entropie (siehe S. 257) als ein Spezialfall der kürzesten Nachrichtenlänge auffassen lassen.245 Ein weiteres, äußerst starkes Argument für MML- und MDL-Methoden ist, dass sie viele Invarianzeigenschaften, die in der klassischen Theorie eher sporadisch wenn überhaupt vorhanden sind (siehe etwa Wallace (2005: 187ff)), besitzen. Während, wie das Problem of the Nile zeigt, zuweilen schon eine einfache Umparametrisierung bei lediglich zwei Parametern die klassische Statistik in arge Bedrängnis bringt, wird nicht nur dieses schon auf Fisher (1973: 138ff) zurückgehende Beispiel246 in Balasubramanian (2005: 86ff) fast beiläufig behandelt. Es ist bezeichnend, dass die umständlichen Konstruktionen der klassischen Statistik dabei überhaupt keine Erwähnung finden, während der objektive Bayessche Ansatz wie folgt beurteilt wird: “Of course, once we have picked a particular prior distribution ω(Θ), Bayesian inference is reparametrization invariant, provided we remember to include the Jacobian of coordinate transformations in the integration measure as we are instructed in elementary calculus courses.” Genau dies war die Grundüberlegung von Jeffreys (S. 259). Dieser Ansatz reicht im Allgemeinen jedoch nicht aus, denn Balasubramanian fährt fort: “[. . .] the apparently unbiased measure [. . .] that gives equal weight to all parameters is not reparametrization-invariant [. . .] if ω(Θ) was uniform in the parameters, the probability of a model family given the observed data would depend on the arbitrary parametrization.” Man greift also zu kurz, wenn man nur die Parametrisierung von Modellen bzw. Verteilungen betrachtet, welche in einem gewissen Sinne immer willkürlich ist.247 Grundlegender sind sicherlich die Modelle selbst und ihre Beziehungen zueinander, d.h. “[. . .] a good method is to give equal prior weight to all distributions contained in a model family as opposed to the parameters, which are only an arbitrary scheme for indexing the distributions.” (Hervorhebung im Original.)248 Auf diese Weise kommt man zu geeigneten Mengen bzw. Familien von Verteilungen. Insbesondere lässt sich aus der KullbackLeibler-Information ein Distanzmaß gewinnen, so dass man es mit anschaulichen, metrischen Räumen zu tun hat. Die Distanz zwischen zwei Modellen ist wohldefiniert und viele wichtige Größen bekommen eine unmittelbar einsichtige Interpretation, etwa als Volumen, Oberfläche oder Krümmung.249 Am 245
Siehe zudem Rissanen (1983), Feder (1986) und Wallace (2005: Kapitel 10), der die Ähnlichkeit der Ansätze in den Vordergrund stellt. 246 Siehe Efron (1978) und S. 405 247
Davon unbenommen ist, dass man den meisten Parametern eine natürliche Interpretation geben kann und bei parametrischen Modellfamilien zumeist die Betrachtung der Parameter-Räume genügt. 248 Er empfiehlt er also, zum einen direkt mit den Verteilungen - nichtparametrisch - zu arbeiten und zum anderen eine Priori-Verteilung zu verwenden - d. h. Bayesianisch vorzugehen. Damit steht er nicht allein, vielmehr ist “Nonparametric Bayes” ein sehr aktuelles statistisches Thema, siehe z. B. Ramamoorthi und Ghosh (2003) und Hjort et al. (2010). 249
Siehe z. B. Balasubramanian (2005), Hanson und Fu (2005), Rodríguez (2005) sowie Cover und Thomas (2006: 247): “Just as the entropy is related to the volume of the typical
478
5 Synthese
tiefgründigsten sind wohl die Arbeiten von Balasubramanian (1997, 2005), und in der jüngsten Vergangenheit hat Rissanen (2007: Kapitel 7) dessen geometrische Überlegungen zur informationstheoretischen Herleitung von Konfidenzintervallen verwendet. Auch dort ist, wie beim Hpyothesentesten, die entscheidende Einsicht, dass, je nach Datenlage, die theoretischen Verteilungen nur bis zu einem gewissen Grad unterscheidbar sind. Das vermeintlich tiefschürfende GRUE-Paradoxon ist hingegen im Lichte der Komplexitätstheorie kaum einer Erwähnung wert. Man beobachtet die konstante Folge grün, grün, grün. . . Jene hat eine äußerst geringe Komplexität, kann doch jeder Anfänger ein kurzes Programm schreiben, das das Wort „grün“ ad infinitum ausgibt. Ein Programm, das zu einem gewissen Zeitpunkt t in der Zukunft von „grün“ auf “blau“ wechselt ist offenkundig komplizierter.250 Deshalb genügt das klassische Ökonomieprinzip des Denkens, um die GRUE-Hypothese als äußerst unplausibel zu diskreditieren und jedes „vernünftige“ statistische Verfahren wird die Konstanz bestätigen bzw. erkennen. Nur wenn man green und grue als irgendwelche Adjektive auffasst, lässt sich ansatzweise verstehen, warum Hájek und Hall (2002: 167), nachdem sie die obige einschlägige Literatur zitiert haben, schreiben: “These [ideas] may also shed light on the time-honored but all-too-nebulous intuition that ‘green’-like hypotheses are somehow ‘simpler’ than ‘grue’-like hypotheses.” Weil man heute simple ohne Anführungsstriche schreiben kann, hat sich der Nebel gelichtet.251
5.5.4 Universelle Prädiktion In statistical modeling there is only one data set from which the statistical properties of the data constituting the model are to be learned, and there (sic) are hoped to hold for future data generated by the same physical process. (Rissanen 2007: VII)
In den letzten Abschnitten haben wir das Induktionsproblem dadurch (implizit) gelöst bzw. aufgelöst, dass wir annahmen, in den Daten verberge sich (allgemeine) Struktur, welche es zu erschließen gilt. Die „Hoffnung“, dass die gefundene Struktur auch in Zukunft noch relevant ist, ist ein zweiter, daset, there is a quantity called Fisher information which is related to the surface area of the typical set.” 250
Und völlig ad hoc! Warum nur ein Wechsel zu einer anderen Farbe zu einem beliebigen Zeitpunkt? 251
Damit verflüchtigt sich auch eine klassische, von Kemeny (1953: 391) wiedergegebene Argumentationslinie gegen induktive Schlüsse: “The concept of simplicity plays a central role in inductive inferences. Given any inductive problem in which there are several ‘equally good’ hypotheses, the scientist will choose the simplest one. In spite of the fact that this much is generally admitted, the concept of simplicity remains highly controversial in the philosophy of science [. . .] you will almost always find the firm opinion that no precise definition can be given for the concept of simplicity.”
5.5 Das Informationsparadigma
479
mit zwar eng verwandter, aber doch verschiedener Gesichtspunkt. Wir waren schon in Abschnitt 4.5.2 auf ihn gestoßen (siehe auch S. 454). Typischerweise geht die Modellierung der Prädiktion voran, und man wird ein Modell nur dann als wirklich nützlich empfinden, wenn man es wiederverwenden kann, es also über das konkrete Experiment, die im Augenblick vorliegenden Daten, hinausgeht. Doch man kann, wie wir in den Abschnitten 4.5.2 und 4.6.2 festgestellt haben, auch ohne ein explizites Modell prognostizieren. Während das Problem der Identifikation der wesentlichen Struktur meist unter den eher engen Begriffen der learnable properties und data compression bzw. den weiteren Ideen des modeling bzw. der (statistical) inference behandelt wird, spricht man bei der Vorhersage zukünftiger Ereignisse von prediction. Im prequential framework von Dawid (1984, 1991, 1992) werden statistische Verfahren sogar primär gemäß ihrer Vorhersagegüte beurteilt, wobei die Information sequentiell aufläuft:252 The prequential approach to statistics [. . .] is based on the idea that we can judge the quality of an inference method by converting it into a forecasting system and assessing the empirical success of the sequence of one-step-ahead forecasts that it implies (Dawid und Vovk 1999: 125).
Das schwache prequential principle besagt, dass man ein Vorhersagesystem ausschließlich aufgrund seines empirischen Erfolges beurteilen sollte. D.h., es kommt nur auf die tatsächlich gemachten Prognosen (wie auch immer man zu diesen gekommen sein mag) und deren „Abstand“ zum tatsächlichen Geschehen an. Auch Hume stellte das Induktionsproblem in Form einer Prognose dar. Bei heutigen Autoren heißt es eher technisch (Hutter 2007: 35): “In the predictive setting we are not interested in identifying the true environment, but to predict the next symbol well.” Auch Li und Vitányi (2008: 350) differenzieren, ausgehend von einer Zeichenkette x, prägnant: The goal of inductive inference in general is to be able either to (i) predict, or extrapolate, the next element after x or (ii) to infer an underlying effective process that generated x [. . .]
Bei der Modellierung geht man also von x = (x1 , . . . , xn ) zu einem kürzeren s1 , . . . , sm über - man komprimiert - während bei einer Prognose x geeignet zu verlängern ist.253 Ähnlich klar unterscheiden Wissenschaftstheoretiker 252
Daher der Name: prediction und sequential. Rissanen (2007: 77) spricht von predictive MDL. 253
Am Rande sei bemerkt, dass sich die Unterscheidung auch schon im klassischen Rahmen, etwa einer linearen Regression, formulieren lässt. Die übliche OLS-Schätzung (siehe S. 133) ist prognostischer Natur, da sie verlangt, dass yˆ = b1 x1 +. . .+bp xp möglichst wenig vom tatsächlich zu beobachtenden y abweicht. Hingegen fragt man bei der Schätzung der Parameter bi nach der Struktur. Für eine aktuelle Diskussion siehe z.B. Candes und Tao (2007).
480
5 Synthese
zwischen dem (äußeren) prognostischen Erfolg und der (immanenten) Erklärungskraft einer Theorie.254 Technisch gesehen muss man auf jeden Fall den bisherigen Rahmen erweitern, da zu allen bislang vorhandenen Randbedingungen und Strukturen die Zeit als häufig ganz entscheidende, auf jeden Fall ordnungsstiftende Dimension, hinzukommt. Die immense Kraft der modernen Informationstheorie zeigt sich nun darin, dass Solomonoff mit ihrer Hilfe eine formal strenge Lösung des (prädiktiven) Humeschen Induktionsproblems angeben konnte.255 Ausgehend von den Daten werden alle mit jenen kompatible Modelle in Betracht gezogen, nach ihrer Komplexität geordnet und bewertet, um dann mithilfe der Bayesschen Formel eine mit der Vergangenheit konsistente Vorhersage zu machen. Li und Vitányi (2008: 358) sagen prägnant: “Solomonoffs inductive formula [. . .] to predict outcomes y given a sequence of observed outcomes x, can be viewed as a mathematical form of Occam’s razor: find all rules fitting the data and then predict y according to the universal distribution on them.” (Hervorhebung im Original.) Li und Vitányi (2008: 347) führen etwas detaillierter aus: “Essentially, combining the ideas of Epicurus, Ockham, Bayes, and modern computability theory, Solomonoff has successfully invented a perfect theory of induction. It incorporates Epicurus’s multiple explanations idea, since no hypothesis that is still consistent with the data will be eliminated. It incorporates Ockham’s simplest explanation idea since the hypotheses with low Kolmogorov complexity are more probable. The inductive reasoning is performed by means of the mathematically sound rule of Bayes.” Noch präziser schreibt Hutter (2007: 38): The overarching principles put together by Solomonoff (1964) are: Occam’s razor (choose the simplest model consistent with the data), Epicurus’ principle of multiple explanations (keep all explanations consistent with the data), (Universal) Turing machines (to compute, quantify and assign codes to all quantities of interest), Kolmogorov complexity (to define what simplicity/complexity means).256
In vielerlei Hinsicht ist Solomonoffs Theorie damit die ideale inference to the best explanation, also eine äußerst allgemeine, logisch korrekte und konstruktive Antwort auf das Induktionsproblem. Die Lösung ist so allgemein, dass genau dies ihr Makel ist, denn da die Kolmogorovsche Komplexität nicht berechenbar ist, lässt sie sich in ihrer allgemeinsten Form nicht implementieren. 254
Für eine sehr lesenswerte Vertiefung dieser Unterscheidung siehe Dowe et al. (2007). Auch Breiman (2001), Box et al. (2005: 404) und Wallace (2005: 404ff, 408) kontrastieren diese beiden Ziele der Statistik. 255
Da Solomonoff mit Carnap korrespondierte (siehe Li und Vitányi (2008: 332)), könnte man seine Theorie auch als des letzteren „späte Rache“ an den Deduktivisten verstehen. 256
Bemerkenswerterweise schreibt auch der Strafverteidiger von Schirach (2009: 112) ganz ähnlich: „Der Satz des Kriminalkommissars, dass eine Lösung zu einfach sei, ist eine Erfindung von Drehbuchautoren. Das Gegenteil ist wahr. Das Offensichtliche ist das Wahrscheinliche. Und fast immer ist es auch das Richtige.“
5.5 Das Informationsparadigma
481
Dem lässt sich jedoch auf zweierlei Art begegnen. Erstens: “[. . .] in spite of its incomputability, Algorithmic Probability can serve as a kind of ‘Gold Standard’ for induction systems” (Solomonoff, zitiert nach Hutter (2007: 33). Siehe auch Li und Vitányi (2008: 420).) Zweitens existieren berechenbare Approximationen, allen voran MDL, was die Bedeutung jenes Ansatzes erneut unterstreicht.257 Unmittelbar nachdem Li und Vitányi (2008: 347f) Humes Induktionsproblem besprochen haben, schreiben sie: Our aim is to demonstrate that data compression is the answer to many questions about how to proceed in inductive reasoning [. . .] Making these ideas rigorous involves the length of the shortest effective description of some object: its Kolmogorov complexity. We treat the relation between data compression and learning and show that compression is almost always the best strategy, both in hypothesis identification using the [. . .] MDL principle and in prediction [. . .] Nonprobabilistic statistics [. . .] gives a detailed view of all stochastic properties of data, and, among others, a rigorous foundation and justification of MDL.
Die wichtigsten Eigenschaften guter Wissenschaft finden sich im nächsten Satz: “Let us consider theory formation in science as the process of obtaining a compact description of past observations together with predictions of future ones.” Im Jargon der Informationstheorie geht es bei Wissenschaft also um nichts anderes als die Entwicklung von Modellen mit möglichst geringer Komplexität bei zugleich möglichst großer Prognosekraft. Alles in allem gilt es den Quotienten Predictive Power / Model Complexity zu maximieren; was zugleich die wohl kompakteste Wissenschaftstheorie ist, die man sich vorzustellen vermag. Übrigens schreibt schon äußerst ähnlich Feigl (1970a: 12): “[. . . ] it is the fact-postulate ratio that represents the explanatory power of theories. The aim of scientific explanation throughout the ages has been unification, i.e., the comprehending of a maximum of facts and regularities in terms of a minimum of theoretical concepts and assumptions.” (Hervorhebung im Original.) Aufgrund ihrer Einheitlichkeit und konzeptionellen Einfachheit leitet die Informationstheorie die Herangehensweise an neue Probleme und stellt allgemein anwendbare Verfahren zu Verfügung. Sie lenkt die Argumentation in fruchtbare Bahnen und hält, wenn auch zurzeit noch eher im Hintergrund, alles zusammen. Nichts ist eben praktischer als eine gute Theorie (Lewin), ein in sich stimmiges Begriffsgebäude, das wie selbstverständlich Ad-hoc-Ansätze wenn nicht überflüssig macht, so doch weit zurückdrängt, und dabei die Daten, den Rohstoff, aus dem Wissen gewonnen wird, in den Mittelpunkt rückt. 257
Hutter (2007: 33) ergänzt: “Solomonoff completed the Bayesian framework by providing a rigorous, unique, formal, and universal choice for the model class and the prior.” Er fährt ibd., S. 45, fort: “The major (agonizing) problem Bayesian statistics leaves open is how to choose the model class and the prior. Solomonoff’s theory fills this gap by choosing the class of all computable (stochastic) models, and a universal prior inspired by Ockham and Epicurus, and quantified by Kolmogorov complexity.”
482
5 Synthese
In Li und Vitányi (2008: 348ff) folgen nach den obigen Ausführungen eine universelle Theorie der Vorhersage (im Sinne von Abschnitt 5.5.6), allgemeine Lernalgorithmen, die auch das Lernen durch enumerative Induktion umfassen, eine Formalisierung von Ockhams Ökonomieprinzip, die Selektion von Hypothesen und andere klassische statistische Verfahren als Spezialfälle. Die Fülle von philosophisch tiefen, mathematisch sophistizierten und zugleich äußerst praktischen Ideen wird auf wenigen Seiten dargestellt und stellt wohl alles in den Schatten, was andere Disziplinen (vielleicht mit Ausnahme der Statistik) in den letzten 100 Jahren zum Induktionsproblem beigetragen haben. Zugleich zeigt einem eine gute Theorie aber auch, wo die Grenzen liegen, was also nicht möglich ist: “The noncomputability of the Kolmogorov complexity [. . .] implies that the process of selecting the optimal model and model class will always have to be done by informal means where human intelligence and intuition will play a dominant role.” (Rissanen 2007: 45)
5.5.5 Die Klärung des Wahrscheinlichkeitsbegriffs Randomness: The flip side of information. (Von Baeyer 2005: 99)
Von Baeyer erblickt in der Informationstheorie die „neue Sprache der Wissenschaft.“ Es wird Zeit, dass die Statistik sie zu sprechen lernt, was damit beginnt, den für sie bislang fundamentalen Wahrscheinlichkeitsbegriff mit ihrer Hilfe zu verstehen. Zunächst vertiefen wir die schon angerissene Tatsache, dass Information, Komplexität und Wahrscheinlichkeit äußerst eng verwandt sind.258 Es handelt sich bei diesen Begriffen und den mit ihnen eng verknüpften Theorien weit mehr um drei Blickrichtungen auf eine gemeinsame Grundsituation partieller Determiniertheit, als dass man es mit mehreren fundamental verschiedenen Sachverhalten zu tun hätte. Es liegt auch weit mehr an der eher getrennten historischen Entwicklung der Gebiete, dass man heute eher die (interpretativen) Unterschiede zwischen ihnen, anstatt die weitreichenden Gemeinsamkeiten betont. Dies wollen wir im folgenden auf einer Reihe voneinander unabhängigen Wegen begründen, bis wir schließlich in der Lage sein werden, Wahrscheinlichkeit und Information sogar als zueinander reziproke Begriffe zu erkennen. In Abschnitt 5.6 setzen wir die Überlegungen auf einer abstrakteren Ebene fort. 258
Man könnte auch Chaos (S. 512ff) noch hinzunehmen.
5.5 Das Informationsparadigma
483
Ursachen der Unbestimmtheit Wählt man einen philosophischen Ansatz, so wird man wohl beim grundlegenden Unterschied zwischen epistemischen und objektiven Wahrscheinlichkeiten beginnen (siehe die Abschnitte 4.4.1 und 5.3.3). Wer behauptet, alle Interpretationen des Wahrscheinlichkeitsbegriffs vereinigen zu können, muss in der Lage sein, zumindest diese beiden klassischen Interpretationen auf natürliche Weise zu versöhnen. Wir gehen sogar noch einen Schritt weiter und differenzieren zwischen vier verschiedenen Interpretationen (siehe Gillies (2000: 1), Hervorhebungen im Original): The four principal current interpretations are the following: 1. The logical theory identifies probability with degree of rational belief. It is assumed that given the same evidence, all rational human beings will entertain the same degree of belief in a hypothesis or prediction. 2. The subjective theory identifies probability with the degree of belief of a particular individual. Here it is no longer assumed that all rational human beings with the same evidence will have the same degree of belief in a hypothesis or prediction. Differences of opinion are allowed. 3. The frequency theory defines the probability of an outcome as the limiting frequency with which that outcome appears in a long series of similar events. 4. The propensity theory, or at least one of its versions, takes probability inherent in a set of repeatable conditions. To say that a probability of a particular outcome is p is to claim that the repeatable conditions have a propensity such that, if they were to be repeated a large number of times, they would produce a frequency of the outcome close to p.259 Die natürliche Sprache ist sogar noch reichhaltiger, wenn es darum geht, Wahrscheinlichkeiten zu interpretieren. Ungewissheit, Erwartung, Chance, Risiko, Überraschung, Überzeugungsgrad, Häufigkeit, (Mess-)Ungenauigkeit, Fehler, Unschärfe, potenzielle Mehrdeutigkeit usw. sind nur einige der Begriffe, die mit stochastischen Phänomenen einhergehen.260 Aus zuvor ausführlich diskutierten Gründen beschränkt sich die Diskussion nicht auf philosophische Kreise, insbesondere geht auch mancher Bayesianer intensiv auf die „richti259
Der Vorschlag geht auf Popper (1959) zurück. Hájek (2007) erläutert die Idee mit einem etwas anderen Akzent: “Like the frequency interpretations, propensity interpretations locate probability ‘in the world’ rather than in our heads or in logical abstractions. Probability is thought of as a physical propensity, or disposition, or tendency of a given type of physical situation to yield an outcome of a certain kind, or to yield a long run relative frequency of such an outcome. This view was motivated by the desire to make sense of single-case probability attributions such as ‘the probability that this radium atom decays in 1600 years is 1/2’.” 260
Viele Nuancen des Begriffs, die die Diskussion nicht unbedingt erleichtern, werden in Oakes (1986: Kapitel 4) sehr verständlich erläutert. Auch die philosophische Literatur ist an diesem Punkt ausführlich. Siehe insbesondere Hawthorne (2005), der intensiv um die beste(n) Interpretation(en) des Wahrscheinlichkeitsbegriffs ringt.
484
5 Synthese
ge“ Interpretation des Wahrscheinlichkeitsbegriffs ein oder stellt sogar noch tiefergehende Fragen nach der Natur des Zufalls (Jaynes 2003). Die obigen Interpretationen der Wahrscheinlichkeit differenzieren, worin die Ungewissheit ihren Ursprung hat. Subjektivisten sehen sie im mangelhaften Wissensstand des Beobachters. Die klassische Statistik lokalisiert die Ursache der Unschärfe im fehlerbehafteten Beobachtungsprozess. Popper verlegt mit seiner propensity die Unbestimmtheit in das beobachtete Objekt selbst. Schließlich wohnt bei traditionellen Zufallsexperimenten das Element der Unbestimmtheit der gesamten Situation inne. Die sich daraus ergebenden Wahrscheinlichkeiten heißen „logisch“ weil die Situation, etwa beim Münzwurf, hinreichend genau beschrieben ist, um die Wahrscheinlichkeiten - nicht aber den konkreten Ausgang des Experiments - festzulegen (Strevens 1998).261 Allen Interpretationen ist gemeinsam, dass die vorhandenen bzw. verfügbaren Informationen nicht ausreichen, um eine eindeutige Aussage zu treffen. Sie erlauben zwar oft die Eingrenzung der Wahrscheinlichkeit, gehen jedoch nie soweit, dass sie determinieren würden, was geschieht. Am Beispiel einer mit schwarzen und weißen Kugeln befüllten Urne lässt sich dies deutlich machen. Zieht man aus der Urne eine Kugel, verheimlicht jedoch das Ergebnis, so ist die Information über die Farbe der Kugel zwar im Prinzip vorhanden, jedoch weiß der Beobachter nicht mehr als vor dem Experiment. Zieht man sukzessive mit Zurücklegen, so offenbart sich langsam aber sicher dem Beobachter, wie es um die Anteile schwarzer und weißer Kugeln in der Urne bestellt ist, er lernt also dazu (seine Information wächst). Der Beobachtungsprozess sorgt also dafür, dass seine Unsicherheit nach und nach schwindet. Im Grenzfall unendlich vieler Beobachtungen kann man den Anteil weißer Kugeln beliebig genau schätzen, was auf dasselbe hinausläuft, als hätte man dem Beobachter mitgeteilt, wie der Anteil weißer Kugeln in der Urne ist, was einer logischen Wahrscheinlichkeit entspricht. Es geht jedoch auch anders herum: Enthielte die Urne nur Kugeln einer Farbe, würde jedoch die jeweils andere Farbe auf dem Weg zum Beobachter (etwa von einem übellaunigen Versuchsleiter) beigemischt, so wäre es gerade der Prozess der Nachrichtenübermittlung, welchem die Unsicherheit anhaftete. Hier zeigt sich die Wahrscheinlichkeit als Information, welche im Zuge der Beobachtung verloren geht. Auch die Urne für sich betrachtet ist recht interessant. Enthält sie nur Kugeln einer Farbe, so lässt sich das als ihre Farbe auffassen, ihre Farbe ist determiniert. Werden ihr jedoch Kugeln der anderen Farbe beigemengt, so hat sie nurmehr eine propensity für die eine der beiden Farben. Sie ist bezüglich ihrer Farbe in sich selbst unbestimmt. Dies mag sich zunächst einmal befremdlich anhören, und es war wohl auch kein Zufall, dass Popper diese Interpretation im Zusammenhang mit den unbestimmten Ob261
Weit häufiger noch arbeitet man direkt mit den als relevant erachteten Regelmäßigkeiten und Symmetrien. So definiert man typischerweise eine Verteilung nicht durch tabellarische, explizite Angabe der Werte und Wahrscheinlichkeiten, sondern verweist auf eine prototypische, hochgradig symmetrische Situation. Bei Funktionen ist es ähnlich. Wann gibt man schon explizit alle Wertepaare (x, f (x)) zur Definition einer Funktion f an?
5.5 Das Informationsparadigma
485
jekten der Quantenmechanik vorbrachte, tatsächlich handelt es sich was die Interpretation von Wahrscheinlichkeiten angeht, aber um nichts anderes als die wohlbekannte natürliche Variabilität einer makroskopischen Population. Denn gibt es in einer Population zwei Geschlechter, so wohnt der Population bzgl. des Merkmals Geschlecht eine Ungewissheit inne und kein noch so exakter Messprozess wird es schaffen, die darauf zurückgehenden Schwankungen zu beseitigen. Es ist das Objekt selbst - in diesem Fall Population genannt -, welches bezüglich des Merkmals „Geschlecht“ nur bis zu einem gewissen Grad (den gerade die Wahrscheinlichkeit misst) festgelegt ist.
Die einheitliche Informationsinterpretation Die Frage, welche Interpretation von Wahrscheinlichkeit denn die richtige sei, hat eine klare Antwort: Wie bei der Interpretation von Modellen (siehe Abschnitt 3.11.2) kommt es maßgeblich auf die Situation an, wie weit man mit der Deutung gehen kann. Hier wie dort ist die Interpretation ums stärker, je mehr die Begriffe und Zusammenhänge in der Realität verankert werden konnten. Zuallererst einmal ist Wahrscheinlichkeit ein degree of belief, also eine subjektive Angelegenheit. Der zugehörige Kalkül und die Operationalisierung über Wetten erlauben es zudem, das Adjektiv rational zu verwenden. Wie in der Physik wird diese lokale Unbestimmtheit durch Randbedingungen aller Art überlagert, welche die Interpretation sukzessive verstärken. Bei klassischen Zufallsexperimenten legen die der Situation eigenen Symmetrien fest, wie man die Wahrscheinlichkeiten zu wählen hat, so dass Konsens darüber besteht, wie beim (idealen) Würfel oder einem Münzwurf die Wahrscheinlichkeiten beschaffen sind. Die Replikation eines einfachen Zufallsexperiments kommt als weitere, für den traditionellen Aufbau der Wahrscheinlichkeitstheorie entscheidende Rahmenbedingung hinzu. Sie führt, zusammen mit beobachtbaren relativen Häufigkeiten, zur frequentistischen Interpretation. Der Informationsgesichtspunkt ordnet die klassischen Interpretationen in eine natürliche Hierarchie ein. Fasst man Wahrscheinlichkeit als eine Messung bzw. Quantifizierung von Information auf, so ist zunächst klar, dass sie lokaler Natur ist. Mit der Idee lokal vorhandener, verfügbarer oder erschließbarer Information, vermeidet man den problematischen Subjektivitätsbegriff. Außerdem kann eine lokal verfügbare Information auch einer Gruppe von Subjekten zu eigen sein oder aber sich auf eine mehr oder minder festgelegte Situation beziehen.262 Wird die Situation darüber hinausgehend durch 262
Die Tatsache, dass Information lokal ist, wirft, nebenbei bemerkt, auch noch ein neues Licht auf die deduktive Seite der Erkenntnis. Gerade Philosophen behaupten hier gerne, dass man dort nichts wirklich Neues lerne, weil ja in den Voraussetzungen bereits alles enthalten sein müsse, mithin also, logisch gesehen, die abgeleiteten Aussagen nicht gehaltvoller als die Axiome seien. Von einem übergeordneten Standpunkt aus gesehen stimmt das zwar, doch sind es die Ergebnisse (nämlich Beweise) der Mathematik, die unser Wissen über das untersuchte Axiomensystem erheblich erweitern. Mit jedem Theorem lernen wir
486
5 Synthese
(objektive) Randbedingungen eingeschränkt oder zumindest intersubjektivkonsensfähig beschrieben, so führt diese zusätzliche Information auch zu einer Verstärkung der Interpretation. Mit der hypothetischen und sogar tatsächlichen Replikation eines Experiments bzw. der wiederholten Durchführung gleichartiger Experimente wird weitere Information generiert, die nicht nur die Interpretation weiter verstärkt, sondern im theoretisch-formalen Rahmen zu den zentralen Sätzen der Wahrscheinlichkeitstheorie sowie in der Anwendung zu einer genaueren Abschätzung der Unsicherheit (etwa in Form einschlägiger Streuungs- und Konfidenzmaße) führt. Auf jeder Stufe der Hierarchie wird die Interpretation zwar stärker, da mehr Information berücksichtigt werden kann, doch erscheint die Quelle der Unbestimmtheit eher unwesentlich. Viel wichtiger ist, dass sie in einer konkreten Modellierung erkannt und angemessen berücksichtigt wird. Konzeptionell gesehen hat ein solches full probability modeling Aussicht auf Erfolg, weil jegliche Art von Unbestimmtheit auf die Informationsidee zurückgeführt werden kann, was sich formal in einem einheitlichen Kalkül für alle (vermeintlichen) „Arten von Wahrscheinlichkeit“ niederschlägt. Anhand des heute üblichen Aufbaus der Wahrscheinlichkeitstheorie wollen wir dies genauer erläutern. Typischerweise startet man mit einer Menge S und führt dann zunächst Maße und Integrale zur Inhaltsmessung ein, d.h., man definiert mit ziemlich großem Aufwand, was unter der „Größe“ P (A) einer Menge A ⊆ S zu verstehen ist. Dann wird nur noch die Größe der Grundmenge S, in der sich alles abspielt, auf Eins normiert, und schon betreibt man Stochastik. Diese Herleitung über die allgemeine Integralrechnung ist zwar einerseits elegant, versteckt aber andererseits ganz hervorragend, dass die Wahrscheinlichkeit P (A) = P (A)/P (S) gerade den Anteil von A an S misst. Die äquivalente Beschreibung mittels Odds bringt das besser zum Ausdruck: Die Menge S wird in die disjunkten Mengen A und A¯ zerlegt und ¯ bringt ebenfalls zum Ausdruck, wie groß der Anteil der Quotient P (A)/P (A) ist. Eine völlig gleichwertige Beschreibung dessen ist die folgende, informationstheoretische. Vor der Partitionierung der Menge S hat man eine eindeutige Situation in dem Sinn, dass alle Elemente von S gleichwertig sind. x ∈ S ist das einzige, was man im Allgemeinen über sie weiß. Zerlegt man S nun in ¯ so führt man eine zusätzliche Information ein, nämlich zwei Teile A und A, ob ein Element x zur Menge A oder deren Komplement A¯ gehört. Beobachtet man ein konkretes - wie auch immer „gezogenes“ x ∈ S, so kann man sofort sagen, ob es zu A gehört oder nicht. Ohne Beobachtung263 lässt sich jedoch ¯ bzw. gleichwertig P (A)/P (S) = P (A) angeben, wie die nur mit P (A)/P (A) Chance ist, dass x ∈ A. etwas über den formalen Rahmen, in dem wir uns bewegen, hinzu. Unsere Information wächst, auch wenn der Kontext und damit der Informationsgehalt der Axiome derselbe bleibt. 263
Man denke an Kugeln in einer Urne
5.5 Das Informationsparadigma
487
Bei dieser Betrachtungsweise ist die zusätzliche, durch die Partition entstehende Information primär, deren Messung mithilfe von Wahrscheinlichkeit ist sekundär. Betrachtet man die ganze Menge, so lässt sich P (A) auch als ein Maß für die entstandene Unbestimmtheit auffassen: Je näher P (A) bei 1/2 liegt, desto weniger weiß man vor der Beobachtung über die Zugehörigkeit eines beliebigen Elements der Menge zu A, im Extremfall hat man die Menge halbiert, was äquivalent zu der Formulierung ist, dass keine der beiden Teilmengen ein Übergewicht hat. Genau in diesem Fall sind auch die Entropie und die Varianz maximal. In den Fällen P (A) = 0 und P (A) = 1 ist hingegen „fast sicher“ die Zugehörigkeit jeden Elements x schon im vorhinein geklärt, die zusätzliche Information bzw. Unbestimmtheit also wieder verschwunden. Es ist genau die Entropie, die bei dieser Art der Betrachtung entscheidend ist. Sie misst, wie viel Information relativ zum Extremfall fehlt. Hingegen wirkt die Varianz, ganz anders als in der klassischen Statistik, eher wie eine spezielle Messmethode der grundlegenden Idee der Unbestimmtheit der gesamten Situation. Man beachte, dass man beidesmal ein und dieselbe Situation betrachtet hat, nämlich die Zerlegung einer Menge in zwei Teilmengen. Es ist nur die Art der Beschreibung, die (scheinbar) wesentlich differiert. Tatsächlich ist die Wahrscheinlichkeitsbetrachtung jedoch völlig äquivalent zur Informationsbetrachtung, was schon in der bijektiven Beziehung I = I(p) = −p log p zum Ausdruck kommt. Schreibt man diese Gleichung mithilfe der Komplexität L in der Form I = L · p (siehe S. 457f) so deutet dies darauf hin, dass auch Wahrscheinlichkeit und Komplexität äußerst eng verwandt sind.
Wahrscheinlichkeit und Komplexität Das für Interpretation des Wahrscheinlichkeitsbegriffs wichtigste Ergebnis der Komplexitätstheorie ist genauso einfach wie fundamental: Die meisten Objekte besitzen (nahezu) maximale Komplexität, sind also, mit anderen Worten, nicht (bzw. kaum) komprimierbar.264 Da ein aus zwei unterschiedlichen Buchstaben bestehendes Alphabet genügt, um jegliche Information kodieren zu können, reicht es, binäre Zeichenketten zu betrachten. Ist die Komplexität K(x) eines solchen Strings x = (x1 , . . . , xn ) groß, d. h., ist K(x) nicht erheblich kleiner als n, ist das Objekt mit anderen Worten nicht einfach beschreibbar, also (in diesem Sinne) nicht regelmäßig bzw. strukturiert. Anders gesagt, ein algorithmisch zufälliges x ist kaum bzw. nicht komprimierbar. Kolmogorov und Uspenskii (1987: 400) erläutern dies wie folgt: The question ‘what chains of zeros and ones of length n are random?’ is clearly irrelevant for n = 2 and is meaningful only for n sufficiently large. Moreover, even 264
Siehe S. 465, Li und Vitányi (2008: 117) und Cover und Thomas (2006: Abschnitt 14.5).
488
5 Synthese
for very large n, there is no clearcut boundary between random and nonrandom chains of length n. In fact, if we take a ‘random’ chain of very large length n and replace successively the ones by zeros digit after digit, the we arrive in the final analysis at a ‘nonrandom’ chain of the same length of zeros. But at no stage of the process does the incipient formation of a ‘nonrandom’ chain out of a ‘random’ one manifest itself [. . .] The correct question is not ‘Is a given chain random?’ but rather ‘By how much is a given chain random?’ [. . .] These considerations led the first author to introduce the notion of ‘defect of randomness of an element y relative to a finite set M assuming that y ∈ M.’ The larger this defect, the less random is y as an element of M .265
Bemerkenswerterweise ergibt sich aus der Definition, dass sich unendliche Folgen wesentlich von endlichen Folgen (dem für die Praxis wirklich relevanten Fall) unterscheiden. Während die Menge aller unendlichen Folgen in zwei Klassen zerfällt, es in diesem Fall also nur zufällige versus regelmäßige Folgen gibt, ist dies im Endlichen nicht der Fall. Den Zusammenhang beschreiben Li und Vitányi (2008: 56) prägnant: “Finite sequences cannot be effectively described by a significantly shorter description than their literal representation are called random. Our aim is to characterize random infinite sequences as sequences of which all initial finite segments are random in this sense [. . .] A related approach characterizes random infinite sequences as sequences all of whose initial finite segments pass all effective randomness tests.” Die für uns hier wichtigste Anwendung der Idee ist, dass sich die Häufigkeitsinterpretation der Wahrscheinlichkeit vom Kopf auf die Füße stellen lässt. Der frequentistische Ansatz versucht, endliche Zahlenfolgen (mit den zugehörigen relativen Häufigkeiten) ins Unendliche zu verlängern und damit via Konvergenz die Wahrscheinlichkeit zu erhalten. Da dies, egal wie man es anstellt, eine induktive Verallgemeinerung bedeutet, hängt die Interpretation in der Luft. Anders herum ist es einfacher: Komprimierung heißt ja nichts anderes als aus einer vorhandenen (und potenziell unendlich langen) Zeichenkette eine kürzere zu gewinnen. Dies gelingt zwar nicht mechanisch (NichtBerechenbarkeit!), aber das Problem ist im Rahmen der Komplexitätstheorie definier- und mathematisch-streng behandelbar. Insbesondere stellt sich heraus, dass es genau die hohe Komplexität der meisten Folgen ist, welche zur gewünschten Konvergenz führt, welche aus der (vom Endlichen zum Unendlichen gehenden) Sicht von Mises’ so zweifelhaft und ad hoc erscheint.266 Li 265
Für weitere Details siehe Li und Vitányi (2008: 146f, 165f, 282ff) sowie Calude (2002: 105ff). Es ist der Erwähnung wert, dass Kolmogorov und Uspenskii (1987: 391) die Zufälligkeit einer (binären) Folge x1 , x2 , x3 , . . . mit den folgenden Eigenschaften charakterisieren: Erstens muss sie typisch sein, also “the property of belonging to any reasonable majority [of sequences].” Zweitens chaotisch, d. h. “it has no simple law governing the alternation of its terms.” Und drittens muss die relative Häufigkeit hn der Null unter den ersten n Ziffern für n → ∞ gegen 1/2 konvergieren. Diese Eigenschaft Stabilität der Häufigkeiten muss zudem erhalten bleiben, wenn man zu einer „geeignet gewählten“ Teilfolge, etwa x2 , x4 , x6 , . . . übergeht. 266
Der Vollständigkeit halber sollte man anmerken, dass der im Kern induktive Schritt, also die Konvergenz der relativen Häufigkeiten (für die meisten Folgen), doch gelingen kann. Die Zusatzbedingung, die zur Verfügung steht, ist ja die völlige Gleichartigkeit der Würfe.
5.5 Das Informationsparadigma
489
und Vitányi (2008: 142) schreiben: “Apparent convergence occurs because of, not in spite of, the high irregularity (randomness or complexity) of a data sequence. Conversely, the failure of convergence forces the complexity to be less than maximal.” Äußerst bemerkenswert ist, dass sich dahinter ein allgemeines Prinzip verbirgt: This is an instance of the general principle that high probability of a computable property translates into the fact that high complexity implies that property.267
Große Wahrscheinlichkeit und hohe Komplexität gehen mit anderen Worten Hand in Hand, und man kann von typischen Objekten mit ebensolchen Eigenschaften sprechen. Dies lässt sich zu einer starken Beweismethode, der incompressibility method (siehe Li und Vitányi (2008: Kapitel 6) und Vitányi (2007)) weiterentwickeln, die die Eigenschaften typischer, nicht komprimierbarer Objekte analysiert.
Information und Wahrscheinlichkeit Bei allen Überlegungen haben wir uns aufgrund der in Abschnitt 5.5.2 genannten Argumente auf binäre Zeichenketten beschränkt. Es ist die Universalität der binären Codierung, die es erlaubt, sich auf diesen einerseits hochgradig abstrakten und damit allgemein gültigen und zugleich hochgradig symmetrischen und damit leicht analysierbaren Rahmen zu beschränken. Die Spezifika der untersuchten praktischen Probleme verschwinden genauso wie die Semantik der Daten, deren Erhebung und Interpretation. Es genügt, aufeinanderfolgende Bits zu betrachten, welche völlig austauschbar sind und deren Inhalte (0 oder 1) in aller Regel nichts miteinander zu tun haben. In dieser Situation sollte man auch am einfachsten erkennen können, wie Information und Wahrscheinlichkeit im Kern zusammenhängen, und die Hoffnung täuscht nicht. Zunächst bedeutet Informationgewinn, Möglichkeiten einzuschränken, sich auf einen Teil des Ganzen zu verengen, Optionen auszuschließen zu können. Die typische Art, den Informationsgehalt einer Nachricht zu bestimmen, besteht darin, wieviele Ja-Nein-Fragen beantwortet werDiese Bedingung gilt für potenziell alle Würfe und reicht damit über jede endliche Folge x1 , . . . , xn hinaus. Es ist deshalb völlig natürlich in der Theorie das Grenzverhalten der Summe Sn = X1 + . . . + Xn von unabhängigen und identisch B(1/2)-verteilten Zufallsvariablen Xi zu studieren. Hat man hier hinreichend feine Grenzwertaussagen, so sollte sich auch von Mises’ Idee realisieren lassen. Der entscheidende Schritt ist der Übergang von x1 , x2 , . . . zu geeigneten Teilfolgen xi1 , xi2 , . . . Dies ist bislang jedoch noch nicht gelungen, siehe Li und Vitányi (2008: 155-158) und Kolmogorov und Uspenskii (1987: Abschnitt 1.6). 267
Ibd., meine Hervorhebung. Siehe auch Cover und Thomas (2006: 477). Mit “high probability” ist hier gemeint, dass die Menge aller Folgen x, die eine gewisse Eigenschaft besitzen, groß ist, also diese Folgen (bei zufälliger Auswahl einer von ihnen) eine große Wahrscheinlichkeit auf sich vereinigen, also in diesem Sinne typisch sind. Anders gesagt: Besitzen die meisten Folgen eine gewisse Eigenschaft, so genügt es nachzuweisen, dass eine gewisse Folge komplex ist (also nicht einfach, regelmäßig strukturiert ist), damit auch diese die Eigenschaft besitzt.
490
5 Synthese
den müssen, um zum interessierenden Objekt zu kommen. Ein einzelnes Bit ist das Grundmodell dieser Verengung: Es hat zwei mögliche Zustände und der Informationsgewinn besteht gerade darin zu wissen, welcher der beiden gerade der Fall ist. Mit der Wahrscheinlichkeit verhält es sich genau anders herum. Wahrscheinlichkeiten erscheinen auf der Bildfläche, wenn Möglichkeiten erweitert, eine Festlegung (wieder) aufgehoben wird oder gar nicht vorhanden ist. Auch dieser Informationsverlust lässt sich am Bit festmachen: Der Übergang vom determinierten Zustand „1“ des Bits in seinen unbestimmten Zustand „1 oder 0 kann der Fall sein“ entspricht genau der Schaffung von Ungewissheit. Gab es zuvor einen Zustand, der sicher der Fall war, so sind es nun zwei mögliche Zustände. Die Zunahme der Unbestimmtheit lässt sich messen, indem man jedem der beiden Zustände ein Gewicht (etwa p0 und p1 ) zuordnet. Da offenkundig „Eins“ genau dann nicht der Fall ist, wenn „Null“ der Fall ist, muss zudem p1 = 1 − p0 gelten. Die Situation völliger Bestimmtheit, des Wissens, dass z. B. der Zustand „1“ ist, ist äquivalent zu p1 = 1, während die Situation mit der größtmöglicher Unbestimmtheit - Entropie - gerade durch p0 = p1 = 1/2 repräsentiert wird. Was wir gerade beschrieben haben ist, wie man unschwer erkennen kann, völlig gleichbedeutend mit einem Münzwurf. Die Art der Herleitung machte jedoch deutlich, dass man auf kein (natürliches oder idealisiertes) Zufallsexperiment oder den (noch schwerer zu fassenden) Begriff des Zufalls zu rekurrieren braucht. Deshalb ist es uns auch gelungen, den zwar natürlichen und ungemein hilfreichen Formalismus von Zufallsvariablen und ihren Verteilungen seit Abschnitt 5.5.2 vollkommen auszublenden und auf später zu verschieben.268 Am Ausgangspunkt braucht man dererlei nicht, da sich der Wahrscheinlichkeitsbegriff völlig natürlich als Umkehrung des Informationsbegriffs ergibt. Quantifiziert letzterer die Zunahme an Bestimmtheit bis hin zur Festlegung auf einen einzigen Zustand, so misst ersterer die gegensätzliche Entwicklung, also die Zunahme der Unbestimmtheit.269 Information zu gewinnen bedeutet gain of certainty, Informationsverlust hingegen loss of certainty. Im paradigmatischen Beispiel des Bit kommt man so von einem festgelegten Zustand auf eine Reihe möglicher Zustände, denen nichtnegative Gewichte zugeordnet werden, welche sich zu „Eins“ addieren. Aufgrund dieser Bedingung kann auch jede Einzelwahrscheinlichkeit p sofort als zu einer Ver268
Wir haben, bis auf die letzte Fußnote, als alle binären Folgen von Interesse waren, nur die Wahrscheinlichkeit einzelner Objekte verwendet. 269 Man denke hier auch daran, dass uncertainty wohl der am häufigsten gebrauchte Begriff bei definitorischen Festlegungen von Statistik ist, etwa die schon (S. 116) erwähnte klassische von Chernoff und Moses (1959: vii), aber auch im Bericht der National Science Foundation 2002 zur Zukunft der Statistik, zitiert nach Huber (2006: 332): “Statistics is the discipline concerned with the study of variability, with the study of uncertainty, and with the study of decision making in the face of uncertainty.” Huber kommentiert dies übrigens ibd. mit: “It is a fine description of ivory tower theoretical statistics, and it pointedly excludes analysis of actual data.”
5.5 Das Informationsparadigma
491
teilung gehörig interpretiert werden, am einfachsten natürlich, indem man einen zweiten möglichen Wert hinzunimmt, dem man die Gegenwahrscheinlichkeit 1 − p zuordnet. Mathematisch gesehen geht man vom (elementaren) Begriff einer Konstanten zum allgemeineren Begriff der Verteilung. Eine Einzelwahrscheinlichkeit ist nichts anderes als das relative Gewicht einer der zur Verteilung gehörigen Werte, klassischerweise interpretiert als einer der möglichen Zustände, welche das System annehmen kann bzw. die relative Bedeutung des Zustands.270 Die „Kopplung“ von Verteilung (also der Menge aller möglichen Werte samt ihrer Wahrscheinlichkeiten) und konkret beobachtetem Wert x kann aber auch anders, etwa über den Erwartungswert der Verteilung erfolgen. Man denke an eine Gleichung der Form x = μ + ε, die oft so interpretiert wird, dass der wahre Wert, also die Konstante μ, nicht exakt, sondern nur mit dem Fehler ε beobachtet wird. Weil man „informationsseitig“ von einer definierten Situation ausgeht und diese weiter einengt, kann man im Wesentlichen deduktiv vorgehen. Natürlicherweise sucht man nach Randbedingungen, die das System genauer beschreiben bis im Idealfall sein Zustand eindeutig festliegt. Dies ist bei der Wahrscheinlichkeit nicht möglich: Einen einzigen Zustand kann man nicht nur im Prinzip, sondern auch ganz praktisch, in beliebig viele umfassendere Situationen einbetten. Der Schritt von einer konkreten Zahl auf eine Verteilung ist induktiv. Man ist völlig frei in der Wahl der Verteilung.271 Um diesen Schritt eindeutig zu machen, sind zusätzliche Annahmen unumgänglich. Das Prinzip der Einfachheit, Ökonomieprinzip bzw. Ockhams razor272 leitet einen dahin, zunächst nur Verteilungen mit zwei möglichen Zuständen zu betrachten, von denen einer mit der vorgegebenen Konstanten übereinstimmen sollte. Hat man dergestalt die möglichen Werte der Verteilung festgelegt sind noch die Gewichte zu bestimmen. Als weiteres Prinzip bietet sich hier das Indifferenzprinzip an, d.h. man hat keinen Grund einen der beiden Werte zu präferieren, was zur B(1/2)-Verteilung, bzw. völlig gleichbedeutend, einem Bit, führt, dessen aktueller Zustand entweder nicht bekannt ist oder aber überhaupt nicht fest liegt.273 270
Man denke an die Stimmenanteile von Parteien bei einer Wahl. Die Maßtheorie fasst, wie wir schon erwähnt haben, Wahrscheinlichkeiten ganz allgemein als Anteile auf. Es mag bezeichnend sein, dass sich Philosophen vornehmlich und intensiv mit dem Wahrscheinlichkeitsbegriff auseinandersetzen, während sie dessen natürliche und äußerst enge Verknüpfung mit dem Begriff der Verteilung weitestgehend ignorieren. 271 Man muss noch nicht einmal als allgemeine Situation eine Wahrscheinlichkeitsverteilung wählen! Man denke an die Diskretisierung eines analogen Signals und dessen Rekonstruktion anhand der digitalisierten Daten. 272 Für eine schöne Formulierung siehe Li und Vitányi (2008: 341): “Occam’s Razor Principle. Entities should not be multiplied without necessity.” (Hervorhebung im Original.) Danach heißt es: “According to Bertrand Russell, the actual phrase used by William of Ockham was, ‘It is vain to do with more what can be done with fewer’.” Ibd., S. 431f, findet sich eine eindrucksvolle Genealogie der Idee. 273 Traditionellerweise würde man von einem Münzwurf, also einer gemäß B(1/2) verteilten Zufallsvariablen X mit P (X = 1) = P (X = 0) = 1/2 sprechen.
492
5 Synthese
Dieses deduktiv-induktive Schema ist der Kern des Ganzen. Für sich alleine genommen (Bit bzw. Münzwurf) besagt es nicht viel. Als Quintessenz der Informations- und Wahrscheinlichkeitstheorie komprimiert es aber auf engstem Raum den wesentlichen Zusammenhang. Der Zusammenhang ist einfach, und es liegt vor allem an der historischen Entwicklung, dass er so schwer offenzulegen war: Zufallsexperimente wie der Münzwurf sind technisch leichter zugänglich als Geräte zur systematischen Informationsverarbeitung. Deshalb ging die formale Wahrscheinlichkeitstheorie der Informationstheorie historisch voraus. Damit einher geht, dass der Wahrscheinlichkeitsbegriff bis heute aufs engste mit der Vorstellung eines nicht-determinierten Vorgangs verwoben ist. Wie schon die länglichen Diskussionen um die klassischen Interpretationen des Begriffs belegen, ist dies nicht immer hilfreich, und die darüber hinausgehenden eher unfruchtbaren philosophischen Diskussionen um Zufall versus Notwendigkeit unterstreichen dies. Derartige Dichotomien und fundamentale Meinungsverschiedenheiten werden abgelöst durch eine einheitliche Sicht: Situationen sind mehr oder minder determiniert und ebenso ist es um unser Wissen über die tatsächlichen Verhältnisse bestellt. Information und die mit ihre verwandten Ideen der Komplexität und Wahrscheinlichkeit beschreiben dies in einem gemeinsamen, in sich stimmigen Rahmen. Jener ist sogleich so umfassend, dass er für alle empirischen Wissenschaften und insbesondere auch die Statistik von größter Bedeutung ist. Der „Zufall“ ist deshalb allgegenwärtig, weil es weit häufiger vorkommt, dass eine Situation nur vage bekannt ist oder auch nur bis zu einem gewissen Grad festliegt, als dass sie vollständig bestimmt wäre und wir dies darüber hinaus auch noch erkennen würden.274 Es genügt, Wahrscheinlichkeit als Maß für irgendeine Unbestimmtheit zu sehen. Wie wir schon ausgeführt haben, gibt es sehr viele mögliche Ursachen für die Unbestimmtheit, die nicht wirklich von zentraler Bedeutung sind und in der Theorie schon heute nicht beachtet werden. Die Maß- und Integrationstheorie fasst Wahrscheinlichkeiten als Anteile auf, nämlich als den Anteil des Volumens einer Menge A an einer Gesamtmenge S. Dies deckt sich mit unserer Auffassung von „Gewichten“ (welche diversen Möglichkeiten zugeordnet werden) und insgesamt den Raum aller (betrachteten) Möglichkeiten ergeben. Die naheliegende Anwendung in der Statistik besteht darin, die eindeutige Realität (die Daten) in einen solchen größeren Zusammenhang einzubetten. Das Faktische wird gewissermaßen im Rahmen des Potenziellen gesehen. Letzteres besteht in der Praxis häufig und innerhalb des obigen Paradigmas immer aus einer Menge von in Erwägung gezogener Möglichkeiten, welche gemäß ihrer Auftretenshäufigkeit oder irgendeines anderen Kriteriums gewichtet werden. Klassischerweise handelt es sich hierbei um die Verteilung einer Zufallsvariablen und deren Realisierung. In der Informationstheorie denkt man hingegen zuerst an die (immer näherungsweise) Digitalisierung bzw. Kodierung eines Sachverhalts. Eng damit verwandt ist 274
So gesehen bedürfen auch die deterministischen Gesetze der klassischen Physik weit mehr einer Begründung als die probabilistischen Gesetze der Quantenphysik.
5.5 Das Informationsparadigma
493
die Diskretisierung eines stetigen Zusammenhangs, insbesondere in der numerischen Mathematik. (Man denke insbesondere an Simulationen.) Ein klares Verständnis der Wahrscheinlichkeit als „induktiver“ Schwester der Information wird erst möglich, wenn eine entsprechend ausgearbeitete Informationstheorie zur Verfügung steht. Information in einem absoluten Sinn gibt an, wie viele Ja-Nein-Fragen (Bits) zur Festlegung einer Situation bzw. eines Objekts (traditionellerweise einer Nachricht) benötigt werden. Information in einem relativen Sinn, also Informationszuwachs, entspricht der Einengung einer Situation, insbesondere durch Randbedingungen. Wahrscheinlichkeit ist hierzu reziprok: In einem absoluten Sinn gibt sie an, wie exakt eine Situation festliegt, wie viele Freiheitsgrade sie besitzt. Relativ gesehen bedeutet sie eine Zunahme an Unschärfe, Variabilität, Unbestimmtheit oder auch Unwissen. Nicht unähnlich der Differential- und Integralrechnung konnte man lange Zeit sinnvolle Mathematik betreiben ohne den entscheidenden Grundbegriff (Differential bzw. Grenzwert) aufgeklärt zu haben. Auch dort zeigt sich übrigens ein (schwaches) induktives Problem: Weil Differenzieren eine Funktion vereinfacht gibt es für sie explizite Regeln und die Ableitung einer differenzierbaren Funktion ist eindeutig bestimmt. Anders die (dazu komplementäre) Integration: Die Stammfunktion einer integrierbaren Funktion liegt zum einen nur bis auf eine additive Konstante fest und es gibt auch nur Heuristiken (nämlich die Umkehrungen der Differentiationsregln), um sie zu bestimmen. Diese Zunahme an Komplexität zeigt sich auch darin, dass viele Stammfunktionen nicht mithilfe elementarer Funktionen darstellbar sind.275
Der Stand der philosophischen Diskussion (Exkurs) Die Tatsache, dass sich Fachwissenschaftler zunächst einmal an den Axiomen der Wahrscheinlichkeitstheorie orientieren und die Interpretation hintanstellen, hat Philosophen nicht eingeschüchtert. In zahlreichen Werken276 spüren sie den Nuancen und Untiefen des Wahrscheinlichkeitsbegriffs nach, um den sich die philosophische Diskussion zumeist dreht. Viele Beiträge sehen auch die theoretischen Vorzüge der Bayesschen Statistik277 und versuchen sie mit philosophischen Argumenten zu untermauern. (Was fachwissenschaft275
Siehe hierzu auch Fischer (1983: 266). Die Analogie lässt sich sogar noch etwas weiter treiben: In der Analysis formuliert man ein Problem als Differentialgleichung und löst es durch Integration (mit einigen Haken und Ösen). In der Statistik besteht die Problembeschreibung darin, alle relevanten Information zu erfassen, und insbesondere in einem Experiment aktiv zu erheben. Der Lösung des Problems läuft dann auf eine Extraktion der Information aus den (aussagekräftigen) Daten hinaus. Das wichtigste Hilfsmittel hierbei sind probabilistische Methoden, Konzepte und Begriffe. Am Ende steht wie in der Physik die Überprüfung des Ergebnisses anhand eines neuen Datensatzes bzw. der Replikation des Experimentes. 276 277
Etwa Gillies (2000), Hacking (2001) und Jeffrey (2004) Etwa Howson und Urbach (2006), Earman (1992) und Kadane und Seidenfeld (1990)
494
5 Synthese
liche Diskussionen häufig eher erschwert, gleiten jene doch sehr leicht ins Grundsätzliche ab.) Was zumeist auffällt, ist jedoch, dass die originellen und starken Argumente fast ausschließlich von Fachwissenschaftlern stammen. Es waren NeoBayesianer, allen voran de Finetti, die die klassische Interpretation von Wahrscheinlichkeit als degree of belief gegen die von Venn (1888) aufgebrachte frequentistische Deutung mit neuen, substanziellen Resultaten verteidigten. Jaynes (1976: 241ff) musste sogar noch Laplace engagiert gegen die wenig fundierte fachliche Kritik von Boole und Venn in Schutz nehmen. Poppers konstruktive Beiträge sind, wie die Propensity-Interpretation, umstritten (Gardner 2001, Hennig 2007) oder zweifelhafter Natur (Li und Vitányi 2008: 343, 347), und während Carnaps Programm scheiterte, reüssierte die Schule um Kolmogorov. Darüber hinaus hat die jüngere philosophische Literatur die fachwissenschaftliche Entwicklung aus den Augen verloren. Gillies (2000) stellt die Propensity-Interpretation in den Mittelpunkt seiner Darstellung. Algorithmische Zufälligkeit wird hingegen überhaupt nicht behandelt, vielmehr endet die dorthin führende Entwicklung bereits mit Church (1940). So hält es auch Hájek (2008), dessen Überblick sich mit den klassischen Interpretationen begnügt. Schließlich scheint Solomonoffs höchst allgemeine Lösung des Induktionsproblems (S. 480f) Philosophen vollkommen entgangen zu sein, obwohl zumindest Hájek und Hall (2002: 167) explizit (Li und Vitányi 1997) sowie AIC, BIC, MDL und MML erwähnen. Wir führen diese Kritik in einem weiteren Rahmen S. 563 fort. Ganz anders die fachwissenschaftliche Literatur. Shafer und Vovk (2001: Kapitel 2) sind auf dem heutigen Diskussionsstand. Die Verweise in Li und Vitányi (2008) sind wie jene in Pearl (2000a, 2009a) nicht nur überaus zahlreich, sondern selbstverständlich auch aktuell und führen weit über die mathematische Literatur hinaus. Dem entsprechend werden Fundierungsversuche von Philosophen eher mit Unverständnis oder aber als schmückendes Beiwerk aufgefasst, und selbst grundsätzlichere Ausführungen gestandener Wissenschaftler eher kritisch beäugt. Jaynes (1976: 230) fasst außerordentlich ernüchtert zusammen: This debate has gone on for over 100 years, with the same old arguments and counterarguments repeated back and forth for generations, without getting anywhere. Philosophical disputation may be great fun; but through recorded history its score for actually solving problems is, I believe, precisely zero. Anybody who genuinely wants to see these issues resolved must recognize the need for a better method.
So ist die Wissenschaftstheorie in der wissenschaftsöffentlichen Wahrnehmung vollkommen in den Hintergrund getreten: Man konzentriert sich auf konkrete Probleme, neue Methoden - primär für die Anwendung - und hofft, damit auch die Theorie und schließlich vielleicht sogar die Fundierung des ganzen Projekts voranzubringen.
5.5 Das Informationsparadigma
495
5.5.6 Zufallsprozesse und zufällige Daten Conclave - The Process of Electing a New Pope. The current office-holder is Pope Benedict XVI. (Aus der englischsprachigen Presse.)
Will man die grundlegenden Beziehungen auf der feinsten, also der Datensatzebene durchdringen, so tut man gut daran, dabei jeglichen „Überbau“ konsequent auszublenden. Gleichwohl drängt sich, wie sich gerade, aber eigentlich auch schon bei der Definition der universellen Wahrscheinlichkeit eines Datensatzes gezeigt hat, eine klassische, stochastische Behandlung sukzessive aufeinanderfolgender Bits geradezu auf. Aufeinander folgende Bits gleichen einander noch weit mehr als ein Ei dem anderen. Sie sind per definitionem völlig identisch, also beliebig kombinier- und austauschbar. Ihre Belegung (0 oder 1) ist es ebenfalls, es gibt bei der Darstellung keine natürliche Präferenz für eines der beiden Zeichen. Dem entspricht, das i-te Bit gemäß einer B(1/2)-verteilten Zufallsvariable, also dem Wurf mit einer fairen Münze Xi , zu modellieren. Außerdem ist zumindest plausibel, dass die Belegung unterschiedlicher Bits (in guter Näherung) voneinander unabhängig ist. (Bits können beliebig, völlig unabhängig voneinander beschrieben werden.) Nimmt man deshalb an, dass die Zufallsvariablen Xi stochastisch unabhängig sind, so ist die Wahrscheinlichkeit einer speziellen Zeichenkette P (X1 = x1 , . . . , Xn = xn ) = 1/2n , also gleich der universellen Wahrscheinlichkeit (S. 467ff). Aufgrund der Herleitung entfällt dabei die schwierige Frage, was denn einen Zufallsprozess von einem deterministischen Phänomen unterscheidet und ob es in der Natur überhaupt so etwas wie Zufall gibt. Der gesamte begriffliche Apparat von Zufallsvariablen, Verteilungen usw. erscheint hingegen als eleganter Formalismus, um die vorliegende Situation adäquat zu beschreiben. Der enge Zusammenhang zwischen Komplexität, Information und Wahrscheinlichkeit auf Datenebene findet Entsprechungen auf der Ebene der Zufallsvariablen. Ist X = (X1 , . . . , Xn ) ein Vektor von Zufallsvariablen, so zeigt sich dessen Komprimierbarkeit darin, dass man die zugehörige n-dimensionale Verteilung P = P (X1 , . . . , Xn ) durch eine Verteilung geringerer Dimension ersetzen kann. Da jegliche stochastische Abhängigkeit zwischen den Zufallsvariablen eine Redundanz darstellt, die sich zur Komprimierung nutzen lässt, ist dies im Allgemeinen möglich. Nur bei Unabhängigkeit, wenn also per definitionem P (X1 , . . . , Xn ) = P (X1 )·P (X2 )·. . .·P (Xn ) ist, wenn also jede Zufallsvariable eine eigene Dimension aufspannt, genauer, wenn zu jeder Zufallsvariablen eine eigene, von den anderen Zufallsvariablen nicht beeinflusste Verteilung gehört, ist auch die Entropie, also H(X1 , . . . , Xn ) = H(X1 ) + . . . + H(Xn ) maximal. In diesem Fall ist jede der Zufallsvariablen völlig unabdingbar, kein „Teil“ der in ihr enthaltenen Information lässt sich auf andere Zufallsvariablen zurückführen. D.h., anders gesagt, auch bei vollständigem Wissen über Xi lässt sich nichts bezüglich Xj (j = i) sagen. Größtmögliche Komplexität, maximale Entropie und stochastische Unabhängigkeit sind alles Sprechwei-
496
5 Synthese
sen dafür, dass zwischen den einzelnen Zufallsvariablen keinerlei Beziehungen bestehen, sie keine Information gemeinsam haben bzw. austauschen. Der Fall sukzessive aufeinanderfolgender Bits führt darüber hinaus unmittelbar zu identisch verteilten Zufallsvariablen, deren Verteilung noch dazu sogar so einfach wie irgend möglich, nämlich B(1/2)-verteilt, ist. Dieses für die Wahrscheinlichkeitstheorie äußerst spezielle Modell, gleichsam ein prototypisches Beispiel für jedes Zufallsexperiment (an dessen allgemeiner Anwendbarkeit man auch genau deshalb große Zweifel hegen kann), ist jedoch aufgrund der Kodierungsinterpretation in Wirklichkeit so universell wie nur irgend möglich. Deshalb darf man hoffen, ausgehend von einem genauen Studium unabhängiger, jeweils B(1/2) verteilter Zufallsvariablen, die meisten Gesetze der Stochastik aufzudecken, was sich eindrucksvoll bestätigt. Die so gefundenen Eigenschaften lassen sich auch wieder unmittelbar auf binäre Zeichenketten übertragen. X und x Man beachte, dass mit dem Übergang von x zu X die Ebene gewechselt wird. Während sich die obigen Betrachtungen auf einen gegebenen Datensatz x beschränkten, geht man nun implizit, nämlich mittels der grundlegenden Setzung aller Statistik, X = x, wesentlich über den Datensatz hinaus. Genauer gesagt hat man das einzelne Datum x mit einer Zufallsvariablen X und deren Verteilung in Verbindung gebracht. Das heißt, x wird immer in eine Menge von Realisierungen mitsamt den zugehörigen Gewichten (Wahrscheinlichkeiten) eingebettet. Es ist deshalb in der klassischen Wahrscheinlichkeitstheorie nicht möglich, einen Einzelfall, losgelöst von einer Menge anderer Fälle, zu analysieren. Ordnet man mittels P (x) = P (x1 , . . . , xn ) = 1/2n lediglich einem x seine universelle Wahrscheinlichkeit zu, so tut man dies klassischerweise stillschweigend für alle Zeichenketten der Länge n, definiert auf dieser Menge also eine Gleichverteilung. In der Informationstheorie, insbesondere der sogenannten Typentheorie, wird der Übergang von X zu x explizit untersucht.278 Seien X1 , X2 , . . . unabhängig und identisch verteilte Zufallsvariable mit Verteilungsfunktion F , und sei Fˆx die empirische Verteilungsfunktion eines Vektors von Realisierungen x = (x1 , . . . , xn ). Letzterer heißt typisch, wenn die zu ihm gehörige empirische Verteilungsfunktion nicht sehr von F abweicht, d. h. für ein (kleines) > 0 gilt: D(Fˆx || F ) ≤ . Unter nicht allzu einschränkenden Bedingungen stellt sich dann heraus, dass die meisten realisierten Folgen typisch für die zugrundeliegende theoretische Verteilung F sind: [. . .] as n grows, the probability of the set of typical sequences goes to one at the near exponential rate [. . .] Moreover [. . .] all typical sequences have just about equal probability [. . .] (Rissanen 2007: 25) 278
Siehe z. B. Rissanen (2007: Abschnitte 2.6 und 2.7), Li und Vitányi (2008: 402ff) sowie Cover und Thomas (2006).
5.5 Das Informationsparadigma
497
In der Stochastik werden, wie der Name schon sagt, systematisch Eigenschaften von Zufallsvariablen und ihren Verteilungen studiert und dann in der Statistik auf konkrete Daten übertragen. Diese Anwendung der Ergebnisse, also der Übergang von X zu x, ist oftmals implizit. Das heißt, man postuliert letztlich, dass Ergebnisse, die für Zufallsvariablen gelten, auch für deren Realisierungen relevant sind. Die Typentheorie beantwortet die nicht gestellte Frage, weshalb ein solches Vorgehen oft erfolgreich ist: Der konkrete Datensatz ist in aller Regel typisch für die Zufallsvariable und deren Verteilung, also ein guter Repräsentant der Population. Aus demselben Grund ist die Ersetzung von X durch E(X), einen anderen typischen Wert der Verteilung, in vielen numerischen Simulationen erfolgreich. Ganz ähnlich heißt es in Zurek (1989: 4745): “[. . .] statistical entropy is almost always an excellent approximation of the physical entropy [. . .]” Auch Fisher war der Unterschied bewusst. In einem Brief an Kendall 1943 (siehe Bennett (1990: 184f)) schreibt er: I suppose that all science [. . .] requires some such postulate as that observations are not generally made by especially privileged or exceptional observers [. . .] The form the postulate takes when faced with what ‘Student’ called a ‘unique sample’ is that the only basis upon which a unique body of information subsumed in such an estimate as s2 can be utilized is that s2 is typical or representative, or not selected, biassed or sophisticated [. . .] any rational approach to the interpretation of data must contain some axiom justifying the propriety of using the data at all, or basing any inference upon them. (Meine Hervorhebungen)
Die Berechnung von Konfidenzintervallen (für X) funktioniert, weil die entsprechenden Glaubwürdigkeitsintervalle (für x) sich oftmals numerisch nicht allzu sehr unterscheiden. Die Zahlenwerte sind sich genau dann ähnlich, wenn Vorwissen bzw. Randbedingungen nicht relevant sind, eine suffiziente Statistik existiert und keine Störparameter das Ergebnis maßgeblich beeinflussen (Jaynes 1976). Der interpretative Unterschied ist gleichwohl wesentlich und Fisher macht an ihm die entscheidende Diskrepanz zu Neyman fest. In seinem Brief an Kendall fährt er fort: “[. . .] Neyman [. . .] seized upon an unessential feature of simpler tests of significance [. . .] namely that the level of significance was in fact, in these simpler cases, the proportion of samples obtained by repeated sampling of a fixed population which would be rejected by the proposed test.” (Meine Hervorhebung). Dies kommentiert er mit: “This, I think, only happens to be true [. . .]” (Hervorhebung im Original). Tatsächlich sind die Tests gut, “[. . .] because of the different proposition that the proportion of the samples, of which that presented is a representative, which are rejected by the test is in fact the fraction specifying the level of significance.” (Meine Hervorhebungen)
Der wesentliche Unterschied ist, dass einmal von einer festen Population ausgegangen wird, das andere Mal aber von einer festen Folge von Beobachtungen, ohne die Population(en) denen diese entstammen, genauer zu spezifizieren. Dieser elegante Übergang von Priori- zu Posteriori-Betrachtung ist der Kern von Fishers Fiduzialargument. Weil man dabei äußerst schnell
498
5 Synthese
in logische Untiefen gerät, ist es, wie schon (S. 392) erwähnt, außerordentlich umstritten. Für erhellende Erläuterungen, die sich direkt auf (Fisher 1930) beziehen, siehe Hampel (2003: 7ff). Zur Posterior-Interpretation von Konfidenzintervallen schreibt er (ibd., S. 10): “It should be noted that the aposteriori interpretation of confidence intervals (and thus the implicit fiducial argument and a subconscious switch between aleatory and epistemic probability) was probably centuries old [. . .]” Wie wir gesehen haben, ist auch bei der Randomisierung (siehe insbesondere S. 233) der Unterschied zwischen Zufallsvariable und Realisierung entscheidend. Obwohl hier auf der Ebene der Zufallsvariablen Unabhängigkeit vorliegt, kann es auf der Stichprobenebene zu Konfundierungen bzw. baseline imbalances kommen. Angesichts der Resultate Kolmogorovs folgert Suppes (1988: 399): The tension between randomness and complexity is apparent. A sampling procedure is random. Often, any sequence, simple or complex, is as likely as any other. But the result of using the random procedure is a given sequence whose complexity can be measured. My suggestion is that we move from procedures to results and from randomness to complexity as the essential measure.
Wir haben für dieselbe Haltung argumentiert, siehe insbesondere S. 400ff und S. 468ff. Ohne die Randomisierung expressis verbis zu erwähnen, beschreibt Suppes auf derselben Seite eine allgemeingültige Lösung dieses Problems: “[If we replaced random results by complex results [. . .] we could have a table of complex sequences with some threshold of complexity satisfied by the table. We simply draw any sequence of given length from the table, or, as a still different approach, we could use some standard method of generating random numbers, but we throw out any constructed sequence whose complexity is below an agreed upon complexity threshold.” Angesichts der Nicht-Berechenbarkeit der Kolmogorov-Komplexität wird man sich hier jedoch mit einer berechenbaren Approximation begnügen müssen.
Zwei Ebenen Klassischerweise wechselt man ziemlich frei zwischen Zufallsvariable und Realisierung hin und her: It seems to me that in much of the discussion of randomness there is not always a clear distinction between [. . .] random processes or procedures on the one hand and random results on the other.279 (Suppes 1988: 399)
Deshalb werden leicht beide Ebenen verwechselt. Etwa schreibt Wegman (1988: 281): “Randomness can be interpreted, then, in four distinct, but interrelated ways: non-repeatability, unpredictability, patternlessness, and hardto-compute.” Während sich die erste Eigenschaft auf den erzeugenden Prozess 279
Fast gleichlautend Good (1988: 407).
5.5 Das Informationsparadigma
499
bezieht (dessen Ergebnis, wie die gezogenen Lottozahlen, nicht wiederholbar ist, indem man ihn nochmals startet), sind die letzten beiden Eigenschaften jene der Daten, während sich die Nicht-Vorhersagbarkeit sowohl auf die Daten (Prädiktion bei festem x) wie auch auf den Prozess (Unabhängigkeit der Zufallsvariablen) beziehen lässt.280 Spätestens bei den Diskussionen um die Bayessche Statistik (Abschnitt 5.3), wo es vornehmlich um die realisierten Daten x versus den Prozess X geht, der erstere erzeugt hat, wird einem die klassische sloppiness zum Verhängnis, verwischt die Ungenauigkeit doch die entscheidende Differenzierung. (Für viele einschlägige Beispiele siehe insbesondere die Arbeiten von Basu und Jaynes.) Betrachten wir deshalb nochmals mit scharfem Blick den prototypischen Fall aufeinanderfolgender Bits, also unabhängiger, identisch gemäß B(1/2)verteilter Zufallsvariablen und ihre Realisierungen. Die zwischen ihnen klaffende Lücke zeigt sich beim Übergang von X zu x darin, dass - trotz Unabhängigkeit der Zufallsvariablen - in einem konkreten Fall nicht immer eine Zeichenkette (nahezu) maximaler Komplexität erzeugt wird. Plaktativ gesagt erzeugt ein (stochastisch) zufälliger Prozess nicht immer (algorithmisch) zufällige Daten. Er tut es nur mit hoher Wahrscheinlichkeit.281 Anders herum ist die Situation noch prekärer. Es ist schon schwer, nur aufgrund der Daten zwischen diversen Verteilungen zu unterscheiden (Marshall et al. 2001). Zufallszahlengeneratoren im Speziellen sowie die Chaostheorie im Allgemeinen zeigen sogar, dass der erzeugende Prozess überhaupt nicht kompliziert sein muss, um den Anschein komplexer, zufälliger Daten zu erwecken. Es genügt ein Mechanismus, der hochgradig sensibel auf kleine Unterschiede (z. B. Rundungsfehler) reagiert, so dass diese immens verstärkt werden.282 Doch schlimmer noch: Zu jeder von einem Zufallsprozess erzeugten Folge x1 , . . . , xn (egal welcher Komplexität) lässt sich tatsächlich ein deterministischer, chaotischer Prozess283 angeben, der die vorgegebene Folge erzeugt.284 Ornstein und Weiss (1991), zitiert nach Suppes (2009: 28), konnten sogar folgendes Theorem beweisen: There are physical processes which can equally well be analyzed as deterministic systems of classical mechanics or as indeterministic Markov processes, no matter how many observations are made, if observations have an accuracy bounded away from zero.
Es ist also prinzipiell unmöglich, festzustellen, ob ein Datensatz von einem stochastischen oder einem deterministischen Prozess erzeugt wurde! Dies ist 280
Ähnliche Eigenschaften, jedoch ausdrücklich für Daten, zählt Calude (2002: 101) auf. Zum Beispiel ergibt sich mit der kleinen Wahrscheinlichkeit 1/2n bei unabhängig, identisch B(1/2) verteilten Zufallsvariablen die Realisierung 1, . . . , 1, als n aufeinander folgende Einsen. 282 Siehe auch die Beispiele in Kolmogorov und Uspenskii (1987). 281
283
Also eine Funktion f mit xi+1 = f (xi ), die die Daten iterativ erzeugt Elston und Glasbey (1990: 340). Siehe auch Chatterjee und Yilmaz (1992: 92). Wir vertiefen das Thema ab S. 512. 284
500
5 Synthese
auch intuitiv einsichtig: Genauso wie ein Zufallsprozess eine regelmäßige Folge hervorbringen kann, ist es andererseits möglich, dass ein chaotischer Prozess eine hochgradig unstrukturierte Zeichenkette hervorbringt, die auch ein Münzwurf erzeugt haben könnte. Die Asymmetrie beim Übergang von X zu x bzw. x zu X ist nicht wirklich verblüffend. Mit X legt man immer auch einen formalen Rahmen fest, innerhalb dessen sich deduktiv argumentieren lässt, was u. a. zu Wahrscheinlichkeitsaussagen führt. Der Übergang von x zu X ist jedoch induktiv. Wie wir schon festgestellt haben, lassen sich die Daten im Prinzip in beliebig viele allgemeine Zusammenhänge einbetten, was dazu führt, dass es höchst zweifelhaft ist, ausgehend von konkreten Daten, den „wahren Prozess“, also denjenigen realen Mechanismus, der die Daten tatsächlich hervorgebracht hat, wiederaufzufinden. So wird man wieder zum Hauptsatz der angewandten Statistik geführt: Es ist nur möglich, die Daten in “order and noise” zu trennen und hierbei einen Kompromiss zwischen over- und underfitting herbeizuführen. Das geht mit einem nicht zu vermeidenden, systematischen Bias einher. Setzt man nämlich die Existenz einer nicht-systematischen Komponente voraus, so greifen alle Verfahren, die eine Trennung in zwei Teile vornehmen, grundsätzlich daneben, falls es gar keine unsystematische Komponente gibt. MDL wählt z. B. in einem solchen Fall fälschlicherweise das einfachere Modell: With some amount of overstatement on can say that if one obtains perfect data for a true hypothesis, then ideal MDL interprets these data as data obtained from a simpler hypothesis subject to measuring errors. Consequently, in this case ideal MDL is going to give you the false simple hypothesis and not the complex true hypothesis. (Li und Vitányi (1997: 360), Hervorhebungen im Original).
Ein analoges Argument gilt auch für das Erkennen einer Folge x = x1 , x2 , . . . als Realisierungen von IID-Zufallsvariablen X = X1 , X2 , . . . Es ist klar, dass für letztere gewisse stochastische Gesetze gelten. Jedes zufällige x sollte zumindest approximativ ebenfalls diesen Gesetzen genügen. (Bei einem häufig wiederholten fairen Münzwurf erwarten wir z. B. in einer konkreten Folge in etwa so häufig „Wappen“ wie „Zahl“ zu sehen.) Nun kann man jedoch leicht zeigen, dass eine typische Folge x nicht alle stochastischen Gesetze, die für X gelten, erfüllen kann, auch nicht approximativ. Das typische, durch einen Zufallsprozess erzeugte x wird, anders gesagt, gewissen Tests auf Zufälligkeit nicht genügen, also (fälschlicherweise) von diesen Tests als nicht-zufällig klassifiziert werden. Man kann also sinnvollerweise nur verlangen, dass x einigen Kriterien von Zufälligkeit genügt. “Kolmogorov’s solution is to select those randomness properties [. . .] that are ‘simply expressible.’ The objects that do not satisfy such a property have a corresponding regularity [. . .]” (Li und Vitányi 2008: 284)285 Letztlich sucht man also in x nach 285
Für weitere Details siehe ibd., insbesondere stellt sich sofort heraus, dass die in Kolmogorovs Sinn regelmäßigen Objekte selten sind.
5.5 Das Informationsparadigma
501
Struktur.286 Findet man jene nicht, so folgert man, dass x eine Realisierung von X ist.
5.5.7 Latente Parameter und Strukturen Learning with incomplete information and the mathematical structure behind it. (Kühn und Stamatescu 2007)
Alles, was man über Zufallsvariable287 lernen kann, muss - wie sollte es auch anders sein - in der statistischen Theorie explizit in jene hineingelegt werden. Im Standardfall unabhängiger, identisch verteilter Zufallsvariablen Xi wird man zuallerest einmal an der Verteilung P und den sie charakterisierenden Parametern (falls vorhanden) interessiert sein. Fasst man den Datensatz x = (x1 , . . . , xn ) wie üblich als Realisierungen der Zufallsvariablen auf, so findet sich anders gesagt in den Daten sowohl das zufällige Rauschen als auch strukturelle, auf P zurückzuführende Information wieder. Handelt es sich bei P zum Beispiel um eine Normalverteilung mit dem Erwartungswert μ, so streuen die beobachteten Werte xi um den „wahren Wert“ μ und σ 2 , die Varianz, gibt an, wie stark sie es tun. Im Allgemeinen lassen sich Abhängigkeiten beliebiger Art zwischen Zufallsvariablen aber auch Beobachtungen nutzen, um diese auf eine einfachere Gestalt zu reduzieren. Verlustfreie Kompression bedeutet, Redundanzen zu erkennen und gezielt zu nutzen. Während deshalb in der Komplexitätstheorie bei einem einzelnen Datensatz (x1 , . . . , xn ) Abhängigkeiten im Prinzip „gut“ sind, weil sich der Datensatz umso stärker komprimieren lässt, je größer die Abhängigkeiten sind, ist es bei Zufallsvariablen genau anders herum. Unabhängige Zufallsvariablen transportieren ein Maximum an Information über die latenten Strukturen und Parameter, da man mit jeder Beobachtung am meisten hinzulernt. Ist nämlich Xi in irgendeiner Weise von einer anderen Zufallsvariablen Xj abhängig, so lässt sich ein Teil des Ergebnisses anhand von Xj erklären bzw. voraussagen. Will man etwas über einen latenten Parameter θ lernen, so ist dies ungünstiger, als wenn sich in xi nur die über Xi vermittelten Einflüsse von θ wiederfinden. Zudem sind Abhängigkeiten in der Praxis nur dann beherrschbar, wenn sie eine einfache Struktur aufweisen. Auf diese Weise kam man im Verlauf der historischen Entwicklung zum ersten auf die nahezu unumgängliche theoretische Voraussetzung, dass eine Reihe von Datensätzen von demselben zugrundeliegenden Prozess erzeugt werden (so wenig realistisch das oftmals auch sein mag). Zum zweiten stellen unabhängige, identisch verteilte Zufallsvariable, den Idealfall dar. Und geht 286
Formalisiert als Komprimierbarkeit bzw. Berechenbarkeit. D.h., die Daten lassen sich auf eine kürzere Beschreibung reduzieren bzw. ausgehend von einem endlichen Programms (re)konstruieren. 287
Oder irgendwelche anderen theoretischen Objekte
502
5 Synthese
man zum dritten über jenen hinaus, so stößt man völlig natürlich auf einfache oder aus einfachen Bausteinen zusammengesetzte, etwa baumartige Strukturen, wie sie auch für die Spiel-, Kodierungstheorie und bei kausalen Graphen üblich sind. In der Stochastik haben darüber hinausgehend die Markoveigenschaft (Xi+1 hängt nur von Xi , nicht aber von allen übrigen Zufallsvariablen ab), Martingale und Prozesse mit unabhängigen, identisch verteilten Zuwächsen, die größte Bedeutung erlangt. Die Anreicherung der Daten mit Struktur erfolgt also auf eine subtile Weise. Zur Beobachtungsebene (x) und der Ebene der Zufallsvariablen (X) tritt eine weitere latente Ebene. Mittels des Konstrukts identisch verteilter Zufallsvariablen lernt man aufgrund der Beobachtungen etwas über die (feste) Struktur im Hintergrund bzw. die sie charakterisierenden Parameter. So erhebt sich über bzw. erwächst aus der Variabilität vieler unzuverlässiger Beobachtungen eine Ebene stabiler Struktur, welche über die Objekte und Gesetze der Stochastik aneinander gebunden sind. Aufgrund der zentralen Stellung der Zufallsvariablen, ihrer Verteilungen und Eigenschaften - zwischen Beobachtungen und Parametern - könnte man auf die Idee kommen, auch deren Bedeutung wäre am größten. Tatsächlich stellen sie jedoch nur das Scharnier dar, sie vermitteln den „Informationsfluss“ von x zu θ, mit ihrer Hilfe lernen wir aus den Beobachtungen etwas über die Struktur. Diese dreischichtige Konstruktion bewährt sich in der Praxis hervorragend. Das liegt zum einen daran, dass man (kontrolliert) über die Daten hinausgeht288 und dabei zugleich Strukturen auf der Ebene der Zufallsvariablen einführt, welche sich mithilfe der Daten approximieren lassen. Zum anderen ist die Formalisierung von Fisher (1922), nämlich parametrisierte Familien von Verteilungen, X ∼ Pθ (x), genial einfach. Diese gezielte Anreicherung der Daten erklärt zusammen mit den zugehörigen Techniken, welche die Voraussetzungen der Verfahren absichern und damit die induktive Lücke klein machen, weshalb die traditionelle, am Experiment orientierte Statistik so erfolgreich ist. Sie erklärt jedoch nicht, warum auch Beobachtungsdaten, mehr oder minder systematisch befüllte und gepflegte Datenbanken, ja selbst Daten mit zweifelhafter Herkunft, vielen Lücken und Verfälschungen in aller Regel sinnvoll ausgewertet werden können. Die meisten Zusammenhänge, insbesondere die interessanteren, sind nicht linear. Asymptotische Verfahren sind bei kleinen Datensätzen kaum zu rechtfertigen. Verteilungsannahmen sind zumeist nicht exakt erfüllt, und gerade die in der klassischen Statistik nahezu unentbehrliche Normalverteilung (siehe z. B. Jaynes (2003: Kapitel 7; 550ff) und Basus Bemerkung S. 369) wird viel häufiger benutzt, als dass sie real (wenn auch nur näherungsweise) vorhanden wäre. Die Unabhängigkeitsannahme ist zumeist noch schwerer zu rechtfertigen (siehe hierzu insbesondere Kruskal (1988)), und die leading situation eines Verfahrens (siehe S. 296), also je288
X = x ist der eigentliche induktive Schritt
5.5 Das Informationsparadigma
503
ne Situation, für die es „gemacht“ wurde, stellt oft sogar eine völlig andere Konstellation dar als das hauptsächliche Anwendungsgebiet! Angesichts der permanenten, teils massiven Verletzung der Annahmen sollte man viel häufiger auf Schwierigkeiten stoßen. Dass dem nicht so ist, bedarf einer Erklärung und sollte jeden kritischen Beobachter verblüffen. Das festzustellende fehlende Erstaunen lässt sich womöglich psychologisch dadurch erklären, dass man zumeist weit schärfer nachdenkt, wenn etwas nicht gut geht, von dem anzunehmen war, dass es funktionieren sollte, als wenn etwas entgegen aller Erwartung doch glückt.
Erfolg ist kein Zufall Es wäre höchst erstaunlich, wenn stochastische Verfahren beständig trotz eklatanter Verletzung ihrer Grundannahmen funktionieren würden. Sicherlich erklärt deren Robustheit und die allgegenwärtige Approximationsidee einiges. (Etwa sind Zusammenhänge oftmals nicht linear, gleichwohl lassen sie sich häufig mit linearen Strukturen gut approximieren.) Auch die bei der Auswertung äußerst hilfreiche Semantik der Daten trägt das ihre zum Erfolg bei. In vielen Fällen lassen sich aber mittlerweile auch konkretere informationstheoretische Erklärungen für den Erfolg der etablierten Vorgehensweisen angeben. Schon in Abschnitt 5.5.3 hatten wir eine ganze Reihe von Problemstellungen (insbesondere Schätzen und Testen) besprochen und ihre moderne Behandlung zumindest angerissen. Doch auch bei den beiden zentralen Annahmen der parametrischen Statistik - Unabhängigkeit und Normalverteilung - greift ein informationstheoretisches Argument. Da große Entropie die Regel und nicht die Ausnahme ist,289 ist sowohl die Unabhängigkeitsannahme häufig zumindest näherungsweise erfüllt (S. 495) und klassische Verteilungen, welche die Entropie maximieren (S. 460) sind in der Praxis weit häufiger als jene, die das nicht tun. Neben konkreten Rechtfertigungen gibt es auch allgemeine Gründe, weshalb die tradierte Vorgehensweise oft erfolgreich ist: Ein wesentlicher erster Grund ist, dass sich Repräsentativität, das Ideal der klassischen Statistik, abschwächen lässt. Hinge jene tatsächlich vom idealtypischen Fall repräsentativer Auswahlen ab, so wäre ihre Anwendungsfelder so eng wie die einschlägigen Lehrbuchbeispiele in der Praxis selten sind. Repräsentative Stichproben sind tatsächlich schwer zu erhalten, typische Stichproben hingegen umso häufiger.290 So fällt es uns schwer, eine einzige repräsentative Stadt (S. 203) zu finden, doch sind typische Ansiedlungen, mit all ihren gleichnamigen Merkmalen, überaus zahlreich; bereits nach einem kurzen Aufenthalt in einem Land können wir problemlos viele ihrer charakteristi289
Die verwandte physikalischen Vorstellung ist die eines “nearly black object” (Donoho et al. 1992). Siehe zudem Zurek (1989: 4745f) 290
Dies ist keine Tautologie, wenn man unter typisch die geringe Abweichung der konkreten Beobachtung von der gesamten Population versteht, siehe S. 496.
504
5 Synthese
schen Eigenschaften aufzählen. Da mit wachsendem Stichprobenumfang die typischen Fällen zudem schnell die Oberhand gewinnen, erläutert die (mehrdimensionale) Typentheorie, weshalb asymptotische Verfahren oft auch schon bei kleinen Datensätzen greifen, also die Generalisierung vom Datensatz zur Population gelingt. Es ist die in aller Regel gültige Approximation des (seltenen) repräsentativen Falls durch den typischen, charakteristischen, dass „Beispiele weit häufiger sind als Gegenbeispiele“ (S. 583), sich Beobachtungsdaten oft problemlos generalisieren lassen, Standardverfahren sich in nicht allzu pathologischen Situationen (selbst bei Verletzung zahlreicher Voraussetzungen) gutartige verhalten, und ganz allgemein (zuweilen hochgradig) idealisierte statistische Modelle nützlich sind. Eine ganz konkrete Folge ist, dass man weit weniger in die Erhebung von Daten investieren muss, als bislang gedacht. Sofern man nur eklatante Fehlerquellen ausschließen kann, wie einschneidende Selektionseffekte, die zu massiven Verzerrungen führen (und damit selbst wieder von Interesse sind), sind Daten aussagekräftig. Das heißt, sie sind typische Vertreter der Gesamtheit, der sie entstammen, unsere „vernünftigen“ Methoden greifen, und auch bei ihrer Interpretation ist kritischer Menschenverstand weit eher angezeigt als pathologisches Misstrauen. Deshalb darf man auch erwarten, dass epidemiologische Studien (siehe S. 468), umfangreiche Datensammlungen und systematische „Quasi-Experimente“ wertvolle Informationen liefern.
Nochmals der Hauptsatz der angewandten Statistik Ein zweiter wesentlicher Grund für den Erfolg der klassischen Schule ist der Hauptsatz der angewandten Statistik, genauer, die Zerlegung der Daten in Struktur plus Zufall. Diese Grundüberlegung funktioniert auch dann noch, wenn die Prozesse, welche die Daten erzeugt haben, definitiv nicht alle mathematischen Voraussetzungen erfüllen, welche sie laut Theorie erfüllen müssten. Man denke nur an die explorative und deskriptive Statistik. “Technologies have no assumptions“ (siehe S. 288) bedeutet, sehr lax mit Annahmen umzugehen, und oftmals arbeitet man sogar ganz ohne explizite Voraussetzungen: Um eine Skizze anzufertigen und in Augenschein zu nehmen benötigt man noch nicht einmal die einfachsten stochastischen Begriffe, geschweige denn fortgeschrittene Wahrscheinlichkeitstheorie. Trotzdem gelingt es mit diesen Mitteln, Daten prägnant zu charakterisieren: Much of statistics consists of techniques for condensing data sets into simplified numerical and graphical forms [. . .]” (Good 1988: 395).
Hat man mehr Vorwissen, so legt dieses häufig eine Struktur in den Daten nahe, nach der man dann gezielt suchen kann. Im einfacheren, das heißt datenanalystisch-induktiven Fall, probiert man diverse plausible oder die in einer statistischen Analysesoftware verfügbaren Strukturen einfach durch.
5.5 Das Informationsparadigma
505
Anders als in der deterministischen Messtheorie, die keinen Platz für Ungenauigkeit lässt, kann man mit probabilistischen Methoden einiges, wenn nicht sogar sehr viel, in der Fehlerkomponente belassen, etwa alle Faktoren, die man nicht explizit modelliert hat. Stochastische Methoden bewähren sich sogar in quasi-zufälligen, unübersichtlichen Situationen hervorragend, weil sie flexibel genug sind, um wesentliche strukturelle Eigenschaften einer Situation von unwesentlichen, unsystematischen „zufälligen“ Eigenschaften zu trennen. Die diversen Schulen unterscheiden sich im Wesentlichen darin, wie sie nach den wesentlichen Strukturen suchen - primär in den Daten (Likelihood), mit Hilfe von Vorabinformation (Bayes) oder über ein (experimentell gestaltetes) Umfeld (Fisher). Der grundlegenden Idee, das Wesentliche vom Unwesentlichen zu trennen, bzw., gleichbedeutend, Daten auf ihren substanziellen Gehalt zu reduzieren, begegnet einem auch im technischen Detail. Beim Bedingen betrachtet man nur den Teil aller Daten, der gewisse, als relevant erachtete Bedingungen erfüllt. D.h., man trifft eine Reihe von Festlegungen und baut die Schlussfolgerungen nur auf jene Daten auf, die diese Randbedingungen erfüllen. (Im einfachsten Fall setzt man Xi = c.) Bei der eng verwandten Betrachtung von Randverteilungen werden Variable nicht durch Festhalten sondern durch Summation bzw. Mittelung entfernt. (Im einfachsten Fall betrachtet man statt X1 , X2 nur X1 .) Auch “worst case” bzw. “best case” Überlegungen reduzieren die Daten, indem sie eine Variable Xi dadurch eliminieren, indem sie sie durch ihr Minimum bzw. Maximum - ebenfalls eine Konstante - ersetzt. Ersetzt man eine Zufallsvariable durch ihren Erwartungswert (und ihre Varianz), so rechnet man mit einem (bzw. wenigen) charakteristischen Zahlenwert(en) anstatt der gesamten Verteilung, was auch die Intention der parametrischen Statistik ist. Das conditionality principle (siehe S. 267) setzt sogar noch früher an, wenn es fordert, dass nur das tatsächlich Geschehene relevant ist, man sich also auf die vorliegenden Daten beschränken kann. Dass man auch Suffizienz- und Invarianzargumente als geschickte Datenreduktionen begreifen kann, ist eigentlich kaum der Erwähnung wert. Schon das Wort suffizient zeigt, dass man sich auf die für eine Fragestellung relevanten Informationen beschränkt. Eng verwandt sind Invarianzargumente, die Symmetrieeigenschaften von potenziellen Analyseschritte bzw. den Daten fordern. Im Ergebnis strebt man in allen Fällen eine Reduktion der Daten an, man versucht, die stabile Struktur, die wesentlichen Aussagen, die Quintessenz des Ganzen zu finden. Deshalb sprechen moderne Methoden explizit von Datenmodellierung oder noch konsequenter von Datenkompression. Zudem sind sie weit weniger intuitiv-informell als die überkommenen Herangehensweisen.
506
5 Synthese
5.5.8 Absoluter und relativer Zufall Probabilities may not exist.
Die moderne Formulierung des Hauptsatzes ist viel leistungsfähiger, da sie sich auf eine starke Theorie stützt. Dass Muster weit komplexer sein können als in der klassischen Herangehensweise, ist z. B. lediglich eine Folge der Tatsache, dass Struktur und Zufall simultan und einheitlich behandelt werden. Die Theorie macht auch deutlich, dass die meisten Daten ohne weitere Voraussetzungen nicht komprimierbar sind. Wir machen sie (in der Theorie) komprimierbar, indem wir über unsere Konstruktionen Struktur in die Daten hineinlegen.291 Da in der Praxis die meisten Datensätze ebenfalls eine Kompression erlauben, muss es auch hierfür eine Begründung geben. Die plausibelste Erklärung ist, dass sich in den Daten Muster der hochstrukturierten realen Welt niederschlagen, der sie entstammen. Reale Daten sind mit Mustern angefüllt, das größte Problem ist, sie aufzudecken.292 Eine Seite später spricht er vom „melken“ der Daten. Dies könnte auch ein Grund dafür sein, warum wir „naiv“, also aufgrund unserer evolutionären Vergangenheit, überall nach Mustern und verborgenen Zusammenhängen suchen. Die Wissenschaft muss zwar kritischer sein, doch da sich unser Konfabulieren (S. 182) bewährt hat, scheint es besser zu sein, standardmäßig nach Strukturen zu suchen, als an deren Existenz zu zweifeln. Typischerweise fasst die neue Theorie Daten als eine Nachricht auf, die in zwei Teile zerlegt wird. Zum ersten Teil (zuweilen Hypothese genannt) muss immer dessen zugehöriger zweiter Teil treten (die relativ zur Hypothese unsystematische Komponente), um die Daten vollständig zu beschreiben. Es handelt sich also um ein Muster mit dem diesen zugeordneten Fehler. Der „Zufall“ ist typischerweise nicht absolut in dem Sinne, dass es gar kein Muster gibt, mit dessen Hilfe sich die Daten wesentlich reduzieren ließen, vielmehr ist Zufälligkeit allererst einmal Unregelmäßigkeit relativ zu einer vorgegebenen Struktur. Es handelt sich um jene Variabilität in den Daten, welche nicht der Regelhaftigkeit des vorgegebenen Musters entspricht. Genauer gesagt ist die verwendete Modellklasse nicht in der Lage, die Variabilität in ihrem Rahmen zu erfassen. Etwa wird eine lineare Regression nicht in der Lage sein, einen quadratischen Zusammenhang adäquat abzubilden. Auch die Tatsache, dass es immer eine noch kürzere Beschreibung der Daten geben könnte (und wir dies aufgrund der Nichtberechenbarkeit der Komplexität nicht wissen), erschwert es, den Fehler als absoluten, real exis291
Man beachte, dass beim IID-Modell aufgrund der Unabhängigkeitsannahme die gemeinsame Verteilung der Zufallsvariablen nicht weiter komprimierbar ist. Es ist die gleichzeitige Annahme einer identischen Verteilung F , die eine Redundanz schafft, welche sich darin äußert, dass wir mit jeder Beobachtung über sie etwas lernen können. Im Allgemeinen sind es latente Strukturen, die eine Kompression der Daten ermöglichen. 292
Siehe z. B. Salsburg (1973: 153): “The bulk of my time, however, is spent trying to make sense out of data.”
5.5 Das Informationsparadigma
507
tierenden Zufall zu interpretieren: Im vermeintlichen Zufall könnte sich immer nicht erkannte Struktur verbergen, eine Zufallsreduktion, gleichbedeutend mit einer Modellverbesserung, kann prinzipiell nie ausgeschlossen werden. Ein Vektor von Beobachtungsdaten x ist nur dann (absolut) zufällig, wenn er nicht komprimierbar ist, es also keine Struktur (kein Programm) gibt, das ihn prägnanter beschreibt. Algorithmische Zufälligkeit ist synonym mit (prinzipiell) nicht strukturierbar. Im interessanteren Fall ist ein Datensatz nicht zufällig, es gibt also irgendeine Struktur, bezüglich derer er sich kürzer darstellen lässt. Findet man jene, so hat man die Variabilität erklärt. Bezüglich einer „unpassenden“ Struktur lassen sich die Daten jedoch nicht komprimieren, sie erscheinen also weiterhin als völlig unsystematisch. In diesem Sinne ist Zufälligkeit relativ zu einer speziellen Struktur. Man kann also unterscheiden zwischen „echter“, absoluter Zufälligkeit, die eine Eigenschaft des Datensatzes ist und „relativer“ Zufälligkeit, was bedeutet, dass der Datensatz lediglich nicht mithilfe einer bestimmten Struktur die häufig durch das Verfahren vorgegeben ist -, komprimierbar ist. Dawid (1990: 340) kommentiert dies wie folgt: [. . .] I considered the ability of a data sequence to support description by one-stepahead probability forecasts, using an information base consisting of full or partial information about previous values. It then turns out that a sequence can be deterministic for one information base but probabilistic for another, coarser, one.
Zur selben Schlussfolgerung gelangt auch Suppes (1988: 400): “[The given] example demonstrates the startling fact that the same phenomena can be both deterministic and random [. . .] The classical philosophical dichotomy between determinism and randomness is a mistaken one.” 293 Eine solche Behandlung der nicht systematischen Komponente widerspricht der klassischen Interpretation des Fehlers als „absolutem“ Zufall als(o) einer Unregelmäßigkeit, die sich prinzipiell nicht in einem Muster einfangen lässt. Die vorherrschende, frequentistische Deutung der Wahrscheinlichkeit und erst recht die Propensity-Interpretation des Zufalls verorten die Zufallskomponente in natürlichen, nicht von anderen Faktoren abhängigen Fluktutationen in der realen Welt. Damit erscheint es von vorneherein hoffnungslos, sie verringern oder gar mit einem geeigneten (deterministischen) Muster erklären zu wollen. Im Standard-Beispiel des Münzwurfs ist dessen Ergebnis unvorsagbar, weil es keine (zur Vorhersage nutzbare) Struktur gibt, die die Realisierung beeinflusst. Auch die Zerlegung der Daten in das wahre Modell plus Zufall unterscheidet zwischen der tatsächlichen Struktur und der darüber hinausgehenden, nicht weiter strukturierbaren Variabilität; es lässt also keine Grautöne zu. 293
Dies gilt jedoch nur für die (endlichen) Ergebnisse der Prozesse. Wir haben bereits (S. 488) Kolmogorov und Uspenskii (1987) referiert, die feststellen, dass es schon bei einer unendlichen Folge x1 , x2 , . . . sehr wohl sinnvoll ist, zwischen zufällig und nicht-zufällig zu unterscheiden. Siehe auch Li und Vitányi (2008: Abschnitte 3.6 und 2.5).
508
5 Synthese
Systematische Datenanalyse In der Praxis stehen die vorhandenen Daten im Mittelpunkt. Deren statistische Untersuchung sollte, falls nicht offensichtlich Strukturen vorhanden sind, mit einem Test beginnen, ob sie (absolut) zufällig sind, also bezüglich keines Modells komprimierbar sind. Diese Idee hat Martin-Löf (1966), ebenfalls ein Schüler Kolmogorovs, verfolgt.294 Gerade in der Kryptographie es schwer zu entscheiden, ob man es mit einer regellosen Folge oder einer raffiniert verschlüsselten Nachricht zu tun hat, die ihre Struktur hervorragend verwischt. Ähnlich schwer fällt es, zwischen computergenerierten Pseudo-Zufallszahlen und „echten“, also von einem nicht-deterministischen physikalischer Prozess erzeugt Zufallszahlen, zu unterscheiden. Hat man sich dergestalt davon überzeugt,295 dass in den Daten Struktur vorhanden ist, so sollte man systematisch auf die Suche nach einem geeigneten, zugrundeliegenden Muster gehen, wobei diese Suche eher datengetrieben oder theoriegeleitet erfolgen kann. Letztlich läuft in der Praxis alles darauf hinaus, eine Reihe von explizit in Betracht gezogenen Strukturen durchzuprobieren, und je nach Gebiet können die Verfahren hierfür sehr verschieden sein. Während in der Kryptographie aber auch der Chaostheorie das zugrundliegende Muster eine hochgradig nichtlineare Funktion ist, kommt es in der traditionellen Statistik vor allem darauf an, möglichst einfache Strukturen befriedigend an stark strukturierte Daten anzupassen. Klassische Methoden lassen sich als besonders einfache, mit ein wenig Informationsverlust (Fehler) verbundene Kompression der Daten auffassen, sie trennen „ihre“ Struktur von einem mithilfe dieser Struktur nicht erfassbaren Rest.296 Ihr Ziel ist es, die Daten möglichst genau mithilfe zwar parametrisierter, aber im Grundsatz fest vorgegebenen Mustern zu erfassen, wobei die meisten dieser Verfahren (siehe Kapitel 3) nach eher einförmigen, nicht zuletzt linearen Zusammenhängen in den Daten suchen, was zu expliziten Formeln und effizienten Algorithmen führt: 1. Bei der Varianzanalyse geht man von einem Basisniveau μ0 aus und einzelne Faktorstufen unterscheiden sich lediglich um additive Konstanten αi von μ0 . 2. Bei der Regressionsanalyse sind die Zusammenhänge hingegen linear, die Gleichungen werden (wie z. B. bei der logistischen Regression) linearisiert oder aber die Funktionen sind noch analytisch beherrschbar. 3. Bei der Clusteranalyse sucht man nach leicht zu unterscheidenden, möglichst wenigen Gruppen. 294
Siehe die Darstellung in Li und Vitányi (2008) und die dort angegebene Literatur. Die historische Entwicklung wird in Shafer und Vovk (2001: Kapitel 2) nachgezeichnet, auch die enge Verbindung mit von Mises’ Kollektiven. 295
Natürlich nicht: bewiesen Jener wird gerne „Fehler“ genannt und dem Zufall zugeschrieben, enthält aber selbstverständlich auch alle nicht mithilfe des Verfahrens aufdeckbare Muster (siehe Abschnitt 3.11.1), also relativen und absoluten Fehler. 296
5.5 Das Informationsparadigma
509
4. Bei der Diskriminanzanalyse versucht man hingegen, vorgegebene Gruppen durch einfache Funktionen zu trennen. Selbst wenn man, wie bei den neuronalen Netzen, kompliziertere Trennfunktionen zulässt, arbeitet man immer noch mit einfachen Algorithmen. 5. In der Zeitreihenanalyse, wo Abhängigkeiten eine große Rolle spielen, fahndet man nach Trends, saisonalen Komponenten, der zeitlichen Abhängigkeitsstrukur (Autoregression) usw. 6. Der Multidimensionalen Skalierung (MDS), wie auch der Faktoranalyse und der Korrespondenzanalyse liegt die Idee bzw. die Hoffnung zugrunde, dass man hochdimensionale Daten auf wenige Dimensionen reduzieren kann.297 Zufallsreduktion und Modellverbesserung sind, wie schon K. Pearson erkannte, äquivalent, da beides besagt, dass mehr Struktur aufgeklärt wird. Deshalb lassen sich alle weiter oben als Datenkompression beschriebenen Aktivitäten auch als Modellierung begreifen. Ähnlich Rissanen (S. 469 und 476) schreibt Ye (1998: 129): Thus data analysis is, at a deeper level, a type of model selection.
Bei den obigen Verfahren gibt man sich nämlich zunächst eine mehr oder minder große Klasse potenzieller Modelle vor und wählt dann aufgrund der Daten dasjenige aus, welches am besten passt. Bei dieser Selektion des am besten passenden Modells bzw. der Anpassung eines Modells an die Daten oder auch der Entwicklung eines Modells aus den Daten heraus, handelt es sich - bei allen Bedeutungsnuancen dieser Formulierungen - im Kern um nichts anderes als das Erkennen von Mustern in Daten. Dieser Schluss ist immer induktiv, denn 1. In den Daten muss sich kein Muster „verstecken“, die Daten können völlig unstrukturiert sein. Das heißt, der ganze Ansatz ist nur sinnvoll, wenn man zunächst einmal annimmt, dass sich äußere Strukturen in den Daten abgebildet haben. 2. Implizit wird zudem immer angenommen, dass die vorliegenden Daten typisch für die postulierte hinter den Daten liegende Struktur sind. Sind sie es nicht, so wird einen, wenn man sich nur auf die Daten stützt, jedes plausible Verfahren (etwa das Ökonomieprinzip) systematisch in die Irre führen.298 3. Die Daten alleine geben keine Art von Muster vor, nach denen zu suchen ist. Das heißt, es ist unsere Aufgabe konkrete Strukturen vorzuschlagen, 297
Bei der MDS geschieht dies mittels Ähnlichkeiten anschaulich-direkt, bei der Faktoranalyse destilliert man aus vielen ähnlichen Items einen zugrundeliegenden, latenten Faktor und bei der Korrespondenzanalyse sucht man nach verborgenen Assoziationen. 298
Siehe S. 500. Royall (2000) berechnet innerhalb des Likelihood-Modells die Wahrscheinlichkeit dafür, dass die „Daten lügen“. Man vergleiche hierzu auch die ausführlichen Warnungen der klassischen Statistik vor missspezifizierten Modellen, Data Mining und Kausalschlüssen.
510
5 Synthese
zu denen die Daten passen könnten. Wir spezifizieren technisch gesagt (induktiv) die Modellklasse, innerhalb der wir uns daraufhin (deduktiv) bewegen. 4. Auch die Trennlinie zwischen Struktur und Zufall ist nicht klar gezogen. Sie lässt sich zwar innerhalb einer Modellklasse oft eindeutig festlegen, doch wie bei jeder Optimierung führen andere Kriterien zu einem anderen Optimum. Beginnt man mit Daten ohne eine explizit unterlegte Struktur, so besteht der erste Schritt darin, eine potenziell geeignete Struktur explizit einzufügen. Wie in Gleichung (4.2), S. 330, kommt man so zu Daten = Struktur + (relativer und absoluter) Zufall
(5.2)
Der absolute Zufall ist per definitionem nicht strukturierbar. Alles was man erreichen kann, ist, die mit der gewählten Modellklasse erklärbare Variation zu ermitteln. Genau diese Optimierung ist der Kern vieler statistischer Verfahren. Ihr Ergebnis ist (siehe Gleichung (4.5), S. 331) Daten = Bestmögliches Modell innerhalb einer gewählten Modellklasse + relativer Zufall bzgl. anderer Klassen von Modellen + absoluter Zufall
(5.3)
Der Idealfall bestünde darin, durch Wahl einer Modellklasse, die das wahre Modell enthält, den gesamten relativen, also im Prinzip durch eine geeignete Struktur erklärbaren Zufall zu eliminieren, was zu der folgenden Zerlegung führt: Daten = Zugrundeliegendes Muster + absoluter Zufall.
(5.4)
Wie bei den klassischen Interpretationen der Wahrscheinlichkeit und dem Grundmodell (Abschnitt 1.2) sind zwei Aspekte zu unterscheiden. Die Tatsache, dass zum einen eine Struktur überhaupt vorhanden ist, und zum zweiten, die Aufgabe, jene durch ein geeignetes Verfahren aufzudecken. In der obigen „inversen“ Sprechweise ist dies gerade die Unterscheidung zwischen absoluter und relativer Zufälligkeit. Gäbe es wirklich nur absoluten Zufall im Sinne real existierender Wahrscheinlichkeiten, so wäre das gerade beschriebene Vorgehen prinzipiell nicht sinnvoll. Es wäre unmöglich, die unabhängig von jeder Struktur existierende Variabilität aufzuklären. Die Daten wären prinzipiell nicht komprimierbar, was den Ansatz von vorneherein zum Scheitern verurteilen würde. Versuchte man es doch, so würden lediglich Artefakte produziert, also vermeintliche Muster aufdeckt, die tatsächlich überhaupt nicht vorhanden sind.299 So wandelt sich de Finettis probabilities do not exist von einer vermeintlichen subjek299
Vielleicht warnen Statistiker permanent und nachdrücklich vor genau dieser Gefahr, weil gerade die „absolute“ Vorstellung von Zufälligkeit im allgemeinen Denken vorherrscht.
5.5 Das Informationsparadigma
511
tiven Bedrohung der Statistik zu einer Hoffnung. Denn je weniger Variabilität in den Daten „natürlich“ ist, also auf echten, äußeren Zufall zurückgeht, desto mehr kann die Statistik bewirken. Bestehen die Daten hingegen zu einem erheblichen Teil aus echtem, nicht auflösbarem Zufall, so setzt jener ihrer Kunst prinzipielle Grenzen. In der Praxis wird Zufälligkeit damit gleichgesetzt, dass es keine erkennbare Struktur gibt, weshalb es sich lohnen kann, nach letzterer zu suchen. Die Hauptaufgabe des Statistikers ist, relativen Zufall in Struktur umzusetzen und damit bei der Aufklärung realer Strukturen zu helfen. Die eigentliche Schwierigkeit bei der Analyse von Daten besteht deshalb nicht darin, feinsinnigen theoretischen Unterscheidungen nachzuspüren, sondern mit allen verfügbaren Mitteln die unsystematische Komponente aufzuschlüsseln. Eine wirkungsvolle Technik sollte in der Lage sein, hypothetische Strukturen so geschickt zu wählen, dass der relative Zufall (fast) vollständig verschwindet. In diesem Sinne schafft Statistik “order from noise.” Standard ist heute, dass man sich eine feste Struktur - etwa eine lineare Funktion - vorgibt und diese an die Daten anpasst. Diese Anpassung ist nichts anderes als die Bestimmung derjenigen Funktion, welche den geeignet zu definierenden Abstand zu den Daten minimiert. Neben der Überadaptation besteht das Hauptproblem darin, dass eine Klasse von Modellen in aller Regel nur einen kleinen Teil der Information in den Daten extrahieren kann. Alles andere ist Fehler; zum Teil echte Zufälligkeit, zum Teil Messfehler, zum überwiegenden Teil aber wohl auch nicht erkannte strukturelle Information. Dies erschwert eine realistische Interpretation sehr, ja verbietet sie bei schlechter Modellpassung von vorneherein. Ein schlecht passendes Modell kaum den Anspruch erheben, die tatsächlichen Verhältnisse zumindest im Wesentlichen abzubilden. Statistiker sind zurecht froh, wenn das „Modell passt“, das Residuum also klein ist und viel Struktur aus den Daten extrahiert werden konnte. (Was zumeist auch die Prognosefähigkeit erheblich verbessert.) Im bestmöglichen Fall sammelt sich bei der Zerlegung der Daten in der Strukturkomponente alle in der Realität existierende Struktur, während in der Zufallskomponente nur der echte, äußere Zufall übrig bleibt. Dann erscheint es im Lichte der letzten Gleichungen gerechtfertigt, das gefundene Muster realistisch - zumindest als Approximation der tatsächlichen Verhältnisse - zu interpretieren. Allein, das ist prinzipiell nicht zu erkennen, so dass eine große Fehlerkomponente auch Ausdruck eines großen Messfehlers oder eben nicht erfasster, wohl aber vorhandener verborgener Muster sein könnte. Deshalb besteht ein zentrales Problem, wie schon gesagt, darin, von einer geeigneten Modellklasse auszugehen, also einer Klasse von Modellen, die eine Chance hat, den tatsächlichen Verhältnissen zumindest nahe zu kommen. Durch eine Verbesserung des Messvorgangs kann man zumindest dessen Anteil an der Variation verringern, was allerdings nicht primär Aufgabe des Statistikers ist. Ob es jedoch aufgrund von absolutem, real vorhandenem Zufall prinzipiell kein besseres Modell gibt, man also alle Struktur in den Daten entdeckt hat oder aber, ob das Modell einfach nur zu grob war, lässt sich nicht
512
5 Synthese
entscheiden. Beidesmal modelliert die Statistik die nicht aufgeklärte Komponente durch einen geeigneten Zufallsprozess, etwa „normalverteilte Residuen“. Handelt es sich dabei um natürliche Variabilität, so lässt sich nichts weiter reduzieren, denn jene ist ja tatsächlich real, und man hat eine Eigenschaft des betrachteten Objekts beschrieben. Absoluter Zufall ist ja gerade so definiert, dass er sich durch kein Muster auflösen lässt. Man kann ihn zwar in den Gleichungen berücksichtigen, doch zum Verschwinden bringen oder auch nur verkleinern kann man ihn nicht. Andernfalls verstecken sich im vermeintlichen Zufall noch systematische Komponenten.
5.5.9 Chaostheorie (Exkurs) Chaos can be defined in terms of mixing [. . .] mixing goes along with loss of information [. . .] all sufficiently past events are approximately probabilistically irrelevant.300 (Werndl 2009: 214, 213, 217)
Unsere Argumentation ist geprägt von der strikten Trennung der real vorliegenden Daten und des sie erzeugenden (zufälligen) Prozesses. Zudem unterscheiden wir Grade der Regelmäßigkeit in den Daten. Zum ersten die Kompatibilität mit einer bestimmten Klasse von Strukturen, verbunden mit der Komplexität der zu den Daten passenden Struktur. Zweitens die Abweichung der Daten von einer gegebenen Klasse von Modellen oder Mustern - was wir auch „relativ“ zufällig genannt haben - und schließlich die „absolute“ Zufälligkeit also die völlige Strukturlosigkeit der Daten, im Sinne von Nicht-Komprimierbarkeit. Unsere Sichtweise wird gestützt durch die Tatsache, dass diese Art der Argumentation nicht nur natürlich bzgl. der Informations- und Komplexitätstheorie ist. Tatsächlich erschienen vor ca. 20 Jahren, als Chaos ein populäres Thema war, viele Arbeiten über das wechselseitige Verhältnis von Regelhaftigkeit, Chaos und Zufall, denn auch beim Studium von Chaos steht man vor dem Problem, Regelmäßigkeit zu erkennen, klar von Zufälligkeit zu unterscheiden und falls möglich zu klassifizieren.301 Regelmäßige Systeme können im Wesentlichen dadurch charakterisiert werden, dass sie wenig empfindlich auf eine Veränderung der Anfangsbedingungen reagieren. Das heißt, ähnliche Startbedingungen führen zu nahe beieinander liegenden Endzuständen, was erlaubt, auch langfristig präzise und zuverlässige Vorhersagen zu machen. Das häufig verwendete Bild hierfür ist das einer laminaren, also gleichmäßig fließenden Strömung. Chaotische Prozesse sind hingegen weniger überschaubar. Wie bei einem sich verwirbeln300
Man denke nur an ein Kartenspiel, das gemischt wird - Ausgangspunkt vieler Beispiele in der Wahrscheinlichkeitstheorie. Bei der „Ziehung der Lottozahlen“, einem klassischen Zufallsexperiment, werden lediglich Kugeln statt Karten gemischt. 301
Für einen Einstieg siehe Bartlett (1990).
5.5 Das Informationsparadigma
513
den, wilden Strom werden zwei beim Start nahe beieinanderliegende Punkte schnell getrennt und auf völlig verschiedene Wege gebracht. Allenfalls sind noch kurzfristige Prognosen möglich. Mit den Worten von Ornstein (1989: 185): The flows that are not completely predictable are generally considered chaotic. Not being completely predictable is essentially the same as having sensitivity to initial conditions, positive Lyapunov exponents, or positive entropy.
Innerhalb chaotischen Verhaltens lässt sich differenzieren, was nicht weiter verwundert, wenn man an diverse unregelmäßige Strömungen mit ihren mehr oder minder stark ausgeprägten Wellen und Wirbeln denkt. Ornstein (ibd.) stellt demgemäß eine Hierarchie des chaotischen Verhaltens von Strömungen vor, die eng mit deren Vorhersagbarkeit verknüpft ist. Sie reicht von völliger Vorhersagbarkeit der Zukunft über die lang- und kurzfristige Prognose bis hin zu sehr geringer und schließlich verschwindend geringer Vorhersagbarkeit bei einer Bernoulli-Strömung.302 So gesehen gilt: [. . .] randomness can be thought of as an extreme form of chaos (Elston und Glasbey 1990: 340)
Auch auf der technischen Ebene zeigt sich die enge Verwandtschaft von Komplexitäts- und Chaostheorie. Erstere definiert „Struktur“ in einem Datensatz x = (x1 , x2 , . . .) über die Existenz einer rekursiven Funktion, mittels derer sich die xi sukzessive berechnen lassen.303 Chaotische Systeme sind hierfür fast schon prototypische Beispiele. Die aufeinanderfolgenden Werte werden häufig iterativ definiert, also xi+1 = f (xi ), wobei f eine nicht sonderlich komplizierte, zumeist explizit bekannte, immer nichtlineare Funktion ist. Während die Komplexitätstheorie nun jedoch nur auf den zur Verfügung stehenden festen Datensatz x abhebt, betrachtet man in der Chaostheorie stets auch eine kleine Umgebung Uε (x). Da, sobald man x1 = x festlegt, die gesamt Folge (iterativ) bestimmt ist, genügt es, statt Uε (x) eine Umgebung Uε (x) von x zu betrachten. Man könnte dies eine Sensitivitätsanalyse nennen, und die für chaotische Systeme charakteristische hohe Sensitivität zeigt sich darin, dass es in jeder Umgebung von x Punkte gibt, die in völlig andere Bereiche des Zustandsraums304 abgebildet werden als x selbst. Klassisches Beispiel ist der Würfel: Winzige Unterschiede in den Anfangsbedingungen führen zu völlig verschiedenen gewürfelten Zahlen. Während das chaotische System also lokal, d.h. für jeden Punkt x, einem deterministischen Gesetz folgt, und damit im Sinne der Komplexitätstheorie komprimierbar und nichtzufällig ist, sorgt die hinreichend komplizierte Funktion f dafür, dass eine anfänglich winzige „Unschärfe“ massiv vergrößert wird. 302 303
Schon der Name deutet auf einen „Münzwurf“ hin, siehe S. 79.
Siehe Li und Vitányi (2008: Kapitel 1) und Rissanen (2007: Kapitel 4). Der Zustandsraum ist einfach die Menge aller möglichen Zustände, die ein Prozess annehmen kann. Zuvor hatten wir vom Stichprobenraum gesprochen, also der Menge aller möglichen (beobachtbaren) Stichproben. 304
514
5 Synthese
Dieses auch als Schmetterlingseffekt bekannte Phänomen305 wirkt wie Zufall. Dem muss aber nicht so sein. Etwa gibt Diaconis (1998: 803), beim Münzwurf sehr regelmäßige Strukturen an, die im System vorhanden sind. Dazu ordnet er jedem Punkt eines geeignet gewählten Parameterraum die Farbe schwarz oder weiß zu, je nachdem, ob bei dieser speziellen Wahl der Parameter „Kopf“ oder „Zahl“ fällt.306 Das auf diese Weise entstehende Muster ist nun allerdings so fein, dass man de facto das Verhalten des Systems nicht mehr vorhersagen kann. Selbst wenn die zugrundeliegende Struktur äußerst regelmäßig ist - man denke an ein filigranes Schachbrettmuster, bei dem sich lediglich weiße und schwarze Quadrate abwechseln - es genügen numerisch unvermeidliche Rundungsfehler oder eine winzige experimentelle Variabilität, um das Ergebnis für einen Beobachter nicht mehr von echtem Zufall unterscheidbar zu gestalten. Dessen zu geringe Information ist für ihn gleichbedeutend mit zufälliger Variation: Statt eines regelmäßigen Musters weißer und schwarzer Quadrate sieht er anschaulich gesagt nur noch ein regelloses Rauschen. Genauer gesagt kann er auf Basis seiner Information, etwa der Genauigkeit seiner Beobachtungen, nicht mehr vorhersagen, was sich ereignen wird. Entscheidet sich in der 5. Nachkommastelle, ob „Kopf“ oder „Zahl“ fällt, kennt er aber nur höchstens die 1. Nachkommastelle, so kann er angesichts der perfekten Symmetrie zwischen dunklen und hellen Quadraten nur mit Wahrscheinlichkeit 1/2 für ein dunkles bzw. helles Quadrat optieren. Man muss kein Positivist sein - für den nur die beobachtbare „Oberfläche“ zählt -, um genau diese Ununterscheidbarkeit zum Anlass zu nehmen, mangelnde Information, also Ungewissheit bzw. Unsicherheit, mit Wahrscheinlichkeit gleichzusetzen. Man beachte, dass wir die Abbildungsvorschrift f hier so nutzen, dass sie eine Struktur auf Uε (x) erzeugt. In der Praxis genügt es, dass diese Struktur wie beim Münzwurf oder beim Würfeln, also klassischen Zufallsexperimenten, zu fein für den Beobachter ist, um sie von „systemimmanentem Zufall“ (propensity) ununterscheidbar zu machen. Doch es ist in der Theorie auch kein Problem, sich beliebig feine Muster auszudenken, etwa indem man das genannte Schachbrettmuster fortlaufend verfeinert.307 Das so entstehende fraktale Muster ad infinitum ineinander geschachtelter Quadrate ist von einem mit endlicher Präzision agierenden Beobachter prinzipiell nicht mehr von Zufall zu unterscheiden. Doch lässt sich Uε (x), versehen mit der gerade definierten Struktur, immer noch komprimieren. Es ist nämlich kein Problem, ein Programm anzugeben, das die sehr regelmäßige Struktur (asymptotisch) 305
Die Anfänge der Chaostheorie liegen u.a. in der Meteorologie (Lorenz 1963). Sind Winde chaotisch, so kann tatsächlich der Flügelschlag eines Schmetterlings einige Zeit später den Unterschied zwischen Windstärke 0 und 12 bewirken. 306
Man könnte auch die Menge aller möglichen Startkonstellationen der Münze betrachten und jede dieser Konstellationen gemäß dem Ergebnis des Wurfs einfärben. 307 Man ersetze z. B. fortlaufend jedes der Quadrate durch vier Quadrate mit jeweils halber Kantenlänge in alternierender Färbung.
5.5 Das Informationsparadigma
515
erzeugt.308 Damit ist die Struktur zwar beliebig fein, komplexitätstheoretisch gesehen aber nicht zufällig! Darüber noch hinausgehende echte Zufälligkeit des Systems bestünde in der gewählten Situation darin, alle Punkte in Uε (x) so zu färben, dass kein Programm diese Färbung erzeugen kann, welches kürzer ist als die Angabe aller Punkte samt der ihnen zugeordneten Farbe. Weißes Rauschen, also die typische Punktewolke, die in einem bestimmten Moment auf einem Fernsehbildschirm zu sehen ist, falls kein externes Signal empfangen wird, ist ein guter Kandidat hierfür.309 Wiederum sind wir auf eine Abstufung der Strukturiertheit gestoßen, die schon ganz am Anfang - passend zum Studium dynamischer Systeme - mittels der Fähigkeit zur Prognose operationalisiert wird. Offenkundig sind Prognosen nur dann zuverlässig möglich, wenn man eine Struktur in den Daten nutzen kann, wenn es ein Muster gibt, dem man folgen kann. Außerdem kann man nur dann auf längerfristige, zuverlässige Prognosen hoffen, wenn die der Prognose unterliegende Struktur dauerhaft ist. Das Verblüffende und Verstörende bei Chaos ist, dass, obwohl die Datenpunkte xi (interpretiert als die sukzessiven Zustände des sie erzeugenden Prozesses) zumeist durch ein einfaches und gleichbleibendes Gesetz der Gestalt xi+1 = f (xi ) erzeugt werden, die Fähigkeit zur Prognose gleichwohl ganz erheblich eingeschränkt ist! Selbst wenn man das „wahre Gesetz“ f kennt, die Binnenstruktur des Modells also in unserer Terminologie vollständig bekannt ist, nutzt einem das in der Praxis, bei der Prognose, kaum etwas, und im Extremfall sogar gar nichts. Der Grund ist, dass sich selbst kleinste Rundungsfehler bei der sukzessiven Berechnung der xi extrem verstärken. Damit entfernen sich die berechneten Werte sehr schnell von den theoretisch richtigen Werten. Liegt andererseits ein mutmaßlich chaotischer Datensatz x vor, so kann man ihn weder numerisch approximieren, noch hat man eine reelle Chance, sein Bildungsgesetz f zu erraten. Hinzu kommt, wie wir schon bemerkt haben (S. 499), dass von einem Zufallsprozess erzeugte Daten noch nicht einmal prinzipiell von solchen eines chaotischen Prozesses zu unterscheiden sind. Obwohl die Punkte x1 , x2 , . . . völlig regelmäßig, gemäß einer simplen Regel, auseinander hervorgehen und deshalb x eine kleine Komplexität besitzt, bleibt einem in der Praxis nichts anderes übrig, als die Daten mit statistischen Methoden zu bearbeiten, ganz so, also hätte ein klassischer Zufallsprozess sie erzeugt. Nicht zuletzt aufgrund dieser äußerst engen Verwandtschaft heißt es im Klappentext von Berger (2001): By studying both probabilistic and deterministic features of dynamical systems the reader will develop what might be considered a unified view on chaos and chance as two sides of the same thing. 308
Man nehme hierfür eines der vielen „Bilderbücher“ über Fraktale zur Hand, siehe auch Cover und Thomas (2006: 471). 309 Vgl. Zurek (1989: 4735f)
516
5 Synthese
Ergodizität Wie wir gesehen haben, besteht eine Möglichkeit, einen chaotischen Vorgang zu beschreiben, darin, möglichst viele Verläufe xi = (xi,1 , xi,2 , xi,3 , . . .) mit verschiedenen Anfangsbedingungen xi,1 zu untersuchen. Zeilenweise ist die Situation deterministisch, da sich zu jedem xi,j sofort xi,j+1 = f (xi,j ) und damit auch alle nachfolgenden xi,j+k mit k ≥ 0 angeben lassen. Andererseits lässt sich über dem Zustandsraum eine zu einer Zufallsvariablen X gehörige Verteilung P definieren. Äquivalent mit X sind unendlich viele, voneinander unabhängige Realisierungen, von denen wir annehmen, diese seien gerade ˜ 1 = (x1,1 , x2,1 , x3,1 , . . .) Aufgrund x des Gesetzes der großen Zahlen (S. 82) n gilt dann fast sicher limn→∞ i=1 xi,1 /n = EX. Aufgrund der Kenntnis von xi,1 lässt sich überhaupt nichts über xi+1,1 oder irgendein anderes xi∗ ,1 mit i = i∗ aussagen. Bei einer „späteren“ Spalte j wird es aufgrund der sensiblen Abhängigkeit von den Anfangsbedingungen im Allgemeinen kaum besser sein, das heißt, die Situation ist - spaltenweise - nicht deterministisch. Insbesondere gibt es, von exotischen Ausnahmefällen abgesehen, keine Funktion g mit xi+1,j = g(xi,j ). In einem gewissen Sinn haben Zeilen und Spalten also wenig miteinander zu tun. Die Auswirkungen der häufigen Anwendung von f zeigen sich jedoch anhand der Veränderung von P . Diese wird durch einmalige Anwendung von f zu einer Verteilung P2 über der zweiten Spalte,310 durch zweimalige Anwendung zu einer Verteilung P3 über der dritten Spate usw. In der Sprechweise der Chaostheorie wird man häufig auf einen sogenannten Attraktor A geführt, also eine Teilmenge des Zustandsraums des Prozesses, die von vielen Verläufen besucht wird. Dessen Wahrscheinlichkeit Pj (A) entspricht gerade dem Anteil aller Pfade, die sich zu einem Zeitpunkt j dort befinden. Man weiß also, anders gesagt, wie wahrscheinlich es ist, dass sich der Prozess zu einem Zeitpunkt j gerade in diesem Bereich aufhält. Je häufiger man f anwendet, desto mehr sollte Pj von f und umso weniger von der Ausgangsverteilung P abhängen. Gibt es eine Grenzverteilung P∞ , so sollten deren Eigenschaften sogar maßgeblich von f und (fast) nicht mehr von P abhängen. Das heißt, gerade bei einer sensiblen Abhängigkeit von den Anfangsbedingungen, die eine Vorhersage im Einzelfall vereitelt, offenbart sich so (spaltenweise) die in f enthaltene Struktur, noch dazu in Form einer Wahrscheinlichkeitsverteilung. In diesem Sinn haben Spalten und Zeilen311 viel miteinander zu tun. Der Kern der sogenannten Ergodenhypothese ist, dass die stochastischen Eigenschaften einer typischen Folge xi , also einer typischen Zeile, dieselben sind wie jene von X∞ ∼ P∞ , also der „Grenzspalte“. Etwa nsollte (zumeist) das arithmetische Mittel einer chaotischen Folge xi , also j=1 xi,j /n ebenfalls gegen EX∞ konvergieren, also approximativ gleich EXj (mit einem 310
Bildlich gesprochen transportiert f die Wahrscheinlichkeitsverteilung von der ersten in die zweite Spalte. 311 - wo f iterativ angewandt wird -
5.5 Das Informationsparadigma
517
nicht zu kleinen j) sein.312 Gilt die Ergodenhypothese, so kann man Zeilen und Spalten in diesem Sinne miteinander vertauschen. Anders gesagt, genügt es, eine einzige (möglicherweise mit Rundungsfehlern behaftete) Folge xi zu beobachten, also von einer einzigen Realisierung xi,1 auszugehen, um über X∞ Aussagen machen zu können. Der Übergang von einem Zahlenwert zur Zufallsvariablen wird dabei bezeichnenderweise durch eine deterministische Funktion f gesteuert.313 Wie zuvor (S. 514) lässt sich auch hier auf der ˜ j , ein wesentlicher Un„atomaren Ebene“, also beim Vergleich von xi und x terschied ausmachen, der jedoch auf der (gröberen) Verteilungsebene (P∞ ) und erst recht der Parameterebene (μ = EX∞ ) verschwindet.314 Aufgrund der genannten technischen Details ist es nicht überraschend, dass sich die Ergodenhypothese in einem theoretischen Rahmen schwer beweisen lässt; in der Realität, insbesondere der statistischen Physik, jedoch hervorragend bei allen „gut durchmischten“ Systemen bewährt. Insgesamt sind also auch Zufälligkeit und Chaos enger verwandt, als die klassische philosophische Dichotomie von Zufall und Notwendigkeit vermuten ließe. Auf der Prozessebene (Münzwurf, Würfeln) liegen stochastische Prozesse zwar nicht vollständig fest, doch ist die Ungenauigkeit so gewählt, dass man Verteilungen und probabilistische Abhängigkeiten spezifizieren kann. Chaotische Prozesse liegen andererseits zwar vollständig fest xi+1 = f (xi ), jedoch lassen sich die von ihnen beschriebenen Vorgänge nur in der Theorie (für festes x1 ) exakt replizieren. In der Praxis ist die Vorhersage stark eingeschränkt und längerfristig prinzipiell unmöglich. Demgemäß bezeichnet Chaos - wie relative Zufälligkeit bzw. Komplexität - ein ganzes Kontinuum zwischen dem einen Extrem absoluter Zufälligkeit einerseits und prägnant charakterisierbarer Regelmäßigkeit andererseits. Berkovitz et al. (2006) sprechen sogar explizit von einer „ergodischen Hierarchie“. Die mit Chaos eng verwandten Fraktale veranschaulichen die Stufung: Zum einen sind sie zwar (noch) regelmäßig aufgebaut, zum anderen sind sie jedoch weit weniger regelmäßig als klassische geometrische Figuren. Damit repräsentieren sie eine Zustand „zwischen“ scharf umrissenen Gebilden und regellosem Zufallsrauschen.
5.5.10 Modernisierte Statistik It is very difficult, if not impossible, to formalize the goodness of fit of an individual model for individual data in the classic probabilistic statistics setting. It is as hard 312
Physiker nennen dies die Gleichheit des Zeitmittels (einer Folge) und des Scharmittels vieler Folgen. 313 Da diese jedoch chaotisch, also „hochkomplex“ sein muss, erinnert dies sehr an das S. 489 formulierte Prinzip. 314 Allgemeiner gesagt, scheint es Eigenschaften zu geben, die nur auf der feinsten, definitorischen Ebene zu unterscheiden sind. Sobald man jene verlässt, gleichen sie sich wie ein Ei dem anderen.
518
5 Synthese
to express the practically important issues in induction in those terms, which is no doubt one of the reasons why contention is rampant in that area. Li und Vitányi (2008: 402)
Die Schwäche der klassischen Statistik Angesichts der letzten Abschnitte erscheint die klassische Statistik im Rückblick mehr denn je als eine Ansammlung lokal funktionierender Ad-hocAnsätze.315 Dies gilt naturgemäß noch mehr für die orthodoxe, frequentische Sicht mit ihren zerspitterten Schulen als die Bayessche Statistik, mit ihrer einheitlichen, sich um das Bayessche Theorem gruppierenden Vorgehensweise. Je komplizierter die Probleme werden, desto schneller zeigt sich auch die Unzulänglichkeit orthodoxer Methoden. Schon bei der einfachen Aufgabe, ein gutes Zusammenhangsmaß zwischen mehr als zwei Zufallsvariablen zu definieren, kommt sie in arge Schwierigkeiten (Joe 1989). Es ist kein Zufall, dass beim allgemeinen Problem der Selektion geeigneter Modelle (S. 378ff) seit Akaike (1973) explizit informationstheoretische Betrachtungsweisen im Vordergrund stehen. Doch hat sich auch hier schon herausgestellt, dass sowohl die Maximum-Likelihood-Schätzung als auch darauf basierende klassische Kriterien, insbesondere AIC, diverse Inkonsistenzen aufweisen (siehe S. 475). Tatsächlich stößt die traditionelle Statistik sehr schnell an ihre Grenzen. Zum Schätzproblem sagt Wallace (2005: 54): “Neither classical approach can offer a convincingly general solution to the estimation of real-valued unknown parameters. The non-Bayesian approach can at best derive assertions about intervals of possible parameter values, framed in terms of the rather vague concept of ‘confidence’.316 In a few particularly simple cases, estimators of non bias and/or minimal variance can be deduced, but these properties apply only to one special parametrization of the model family. The Bayesian approach can deduce a posterior density over parameters, but offers no general method of selecting a ‘best’ estimate which is not tied to a particular parametrization of the model family.” Doch selbst wenn man noch innerhalb eines fest gewählten Modells befriedigend schätzen und testen kann, so ist schon die Bestimmung einer Parameteranzahl (S. 475) - etwa wenn es darum geht, die „beste“ Regressionsfunktion zu einer Reihe von Datenpunkten zu finden - ohne der Informationstheorie entlehnter Hilfsmittel kaum möglich. Erst recht gibt es kein Mittel, zwischen Modellen mit völlig unterschiedlicher Struktur zu entscheiden: “While there exists a theory for estimating the real-valued parameters, based on Fisher’s work, no theory exists for estimating such important parameters as the number of the real-valued parameters or, more generally, the model structure.” (Rissanen 2007: 2) Schon in Rissanen (1989: 5) heißt es: 315 316
Siehe insbesondere die Ausführungen in den Abschnitten 5.3.4 und 5.4.4. Siehe unsere Bemerkungen über Konfidenzintervalle, S. 397
5.5 Das Informationsparadigma
519
Indeed, an essential element in learning is the ability to compare [. . .] so as to be able to prune out the inferior [models]. But such a comparison is not possible without facing squarely the essence of randomness and the intimately related concept of complexity. And this must include the complexity of the models themselves as an essential part, which, despite the fundamental role it plays in our intuitive thinking, modern statistics has no provision for.317
Er fasst ibd. zusammen: It seems to us that it is precisely the attempts to avoid the comparison of models of different complexities that are the cause for the current distorted theory which lacks both foundation and direction. Thus for example, even the most completely developed part of modern statistics, the theory of estimation, treats only the real-valued parameters, and it breaks down when the estimation of their number is required. Apart from ad hoc criteria, the comparison of models with different numbers of parameters is meant to be done by hypothesis testing, but that theory is fragmentary and its procedures unreliable, which harsh realities have taught the statistical practitioners to apply with healthy skepticism. As to the conceptual difficulties, statistics has been the battle field of bitter disputes since its very beginning, where dominance is fought and gained by strength of believes and authority as much as by rational reasoning.
Es ist äußerst bezeichnend, dass die professionelle Statistik bis heute die Entwicklungen in der Informationstheorie kaum zur Kenntnis genommen hat. Frühe Versuche, insbesondere von Lindley (1956), Jaynes (1957), Kullback (1959), Greeno (1970) und Martin-Löf (1974) blieben fast ohne Wirkung. Doch auch die aktuelleren Überblicksartikel von Soofi (1994, 2000) zeigen deutlich, wie wenig die Statistik über den eigenen Tellerrand geblickt hat oder rezipiert hätte, was sich in verwandten Feldern ereignet hat. Der Informationsbegriff ist, anders als behauptet (Soofi 1994), alles andere als intangible. Symptomatisch ist die stiefmütterliche Behandlung von MDL, etwa in Claeskens und Hjort (2008), durchaus vergleichbar mit der kühlen Rezeption nicht der eigentlichen Statistik entstammender Ansätze bei Kausalschlüssen.318 MML wird in diesem umfangreichen Buch über Modellierung noch nicht einmal erwähnt. Versteckt heißt es dann (ibd., S. 284): “The basic limit theorems that underlie selection criteria, like AIC, BIC, the FIC and relatives, have conditions that amount to keeping the set of models fixed while the sample size tends to infinity.” (Meine Hervorhebung.) Man vergleiche das mit S. 475, 518 und der weit allgemeineren Behandlung in Li und Vitányi (2008: Abschnitt 5.6; 418ff).319 317
Siehe auch Rissanens Bemerkung S. 460. Genau deshalb hebt er an vielen Stellen den universal yardstick, nämlich der Länge einer Nachricht, also der Anzahl Bit, die notwendig ist, um sie zu beschreiben, hervor, den nur die Informationstheorie bereitstellt. Dowe et al. (2007: 724) schreiben ganz ähnlich: „[Our method] is applicable equally to problems of parameter estimation and model selection. This unified treatment can be regarded not only as a strong theoretical virtue, but one which gives demonstrably better results in practice [. . .] 318 Siehe S. 448, Freedman (2005) und Morgan und Winship (2007). 319
Der Fairness halber sollte man allerdings hinzufügen, dass es sehr wohl sinnvoll sein kann, nicht beliebig komplexe Modelle in Betracht zu ziehen (siehe S. 481). Zudem ist mir
520
5 Synthese
Allenfalls sporadisch werden nützliche Argumentationslinien anderer Gebiete übernommen, und insgesamt kann keine Rede davon sein, dass die Statistik systematisch an ihren Grundlagen oder einer durchgängigen Vernetzung mit anderen Gebieten arbeiten würde. Statt z. B. die Möglichkeiten der Modellierung konstruktiv zu verbessern, erschöpft sich nicht nur Freedman (2010) - trotz des vielversprechenden Untertitels - in fundamentaler Kritik. Gestützt auf den von Kolmogorov und anderen formalisierten Informationsbegriff, ausgearbeitet zu einer umfassenden Informations- und Kodierungstheorie, ist es heute jedoch eher die Herangehensweise der traditionellen Statistik, welche museal anmutet: In the early days of control theory the naive thinking was that most processes to be controlled are linear, and the task at hand is to ‘identify’ a linear system from its impulse response, with perhaps some gaussian noise added. Similarly, in statistics the thinking has been advanced that the main problem of statistics is to ‘identify’ a distribution from the data it creates by sampling as if the world were made of random variables. In reality, the problems of statistics are much more severe. The main task is to find constraints that restrict the observed data, so that thus amount to a model of the data. (Rissanen (2007: 97), meine Hervorhebungen.)320
Dabei sind gute statistische Modelle und “good statistical practice” genauso wie erfolgreiche wissenschaftliche Theorien im Allgemeinen einfach und stark, das heißt, sie sind explizit, formalisieren substanzielle Einsichten, beschränken sich auf die wesentlichen Faktoren, decken relevante Mechanismen auf, erläutern, was bei Interventionen von außen geschieht, basieren auf angemessenen Voraussetzungen und orientieren sich an Invarianzüberlegungen und anderen allgemein erfolgreichen Prinzipien: “You communicate information; you do not make yes-no decisions.” (Gigerenzer 2004: 593) Allzu oft ist das in der mathematischen Statistik nicht der Fall. Viel zu häufig sind ihre Argumentationsmuster kompliziert und doch schwach. Aktuelle klinische Studien sind hierfür ein schlagendes Beispiel. Statt das Hauptaugenmerk darauf zu legen, überzeugende kausale Zusammenhänge zu erschließen und offensiv nach relevanten Informationen zu suchen,321 verlieren sie sich in aufwändigen technischen Details, denen kein entsprechender Nutzen gegenübersteht. Penston (2003: 76ff) konstrastiert sie mit der üblichen Forschungspraxis: aus sicherer Quelle bekannt, dass beide Autoren informationstheoretische Überlegungen schätzen und MDL in Claeskens und Hjort (2008) nur deshalb knapp behandelt wird, weil der Verlag auf einer Kürzung des Manuskripts bestand. 320
Geistesverwandt ist Williamson (2007), der zeigt, wie man mithilfe von äußeren Bedingungen und einigen weiteren Prinzipien auf subjektive bzw. objektive Wahrscheinlichkeiten kommt. Auch die statistische Versuchsplanung ordnet sich problemlos hier ein. Dort ist es die Art der Erhebung der Daten, welche als Randbedingung zum Modell der Varianzanalyse führt. Die willentlich eingeführte Bedingung der Randomisierung dient ebenfalls dazu, Daten gezielt mit Information anzureichern, so dass eine kausale Interpretation gerechtfertigt erscheint. 321
Siehe schon Salsburg (1973: 153f)
5.5 Das Informationsparadigma
521
[. . .] it is the existence of sound background theory which is crucial for the success of science. It is the framework against which observations are made, it allows strict definition of the items involved, it is the source of information about possible relevant variables and allows for the identification of homogeneous reference classes that ensure regularity and, hence, reliable causal inference. Furthermore, in line with the requirement of a body of knowledge to contain only logically consistent premises, the background theory regulates which generalisations may be accepted, thus providing a further check on the validity of the new findings. Finally, the generalisations may readily be confirmed by replication. The contrast with mega-trials in medical research could not be more obvious. Without sound background theory and knowledge, heterogenous classes are, in most clinical situations, unavoidable. The proposed solution to this problem - randomisation - fails in practice to deliver internal validity. Mega-trials also suffer from intractable problems in terms of external validity. Moreover, not only are the small treatment effects undetectable in routine clinical practice but there is no prospect of confirmation by replication.
Zuweilen wird die Unzulänglichkeit, die sich, wie wir gesehen haben, auch schon in weit einfacheren Fällen zeigt, sogar offen zugegeben. Zur Versuchsplanung schreibt bereits Salsburg (1973: 153): “At this point, the texts tell us the statistician is supposed to estimate minimal sample sizes for preconceived power and prepare a balanced incomplete block design that produces all kinds of clever contrasts for testing. I don’t do this. Instead, I spend my time asking stupid questions.” Lesaffre (2000) sagt: “[. . .] it is my experience that a successful clinical trial is often attributed to a fast recruiting system, efficient clinical staff and a well-organized data management system, but less to a proper and clever plan of statistical analysis.” Im sich anschließenden Kommentar zu (Senn 2000) bemerkt Longford (2000: 170): “And, finally, a non-controversy: inference from a clinical trial is meant for a population, not just a group of recruited subjects. So a trial is, in effect, a survey with a haphazard or, at best, quota sampling design. Yet its analysis assumes no selection bias (Longford 1999).” Am Ende eines langen Vergleichs zwischen diversen “scales of evidence” schreiben Efron und Gous (2001: 256): “The Bayesian guiding principle is focussed on consistent decision-making across different frames of reference, sample-size coherency being a classical example. Examples of frequentist inconsistency, in which the Bayesian model-selection literature abounds, are apt to fall on deaf ears, frequentists being more focused on just the problem at hand.” Man kann solche Sätze eigentlich nur vor dem Hintergrund des Mottos let the data speak for themselves verschärft zum cult of the single study verstehen, das seit Jahrzehnten dominiert. Wie wenig befriedigend die genannte Haltung ist, haben wir schon bemerkt (S. 439) und zeigt sich im zitierten Text bereits ein paar Sätze weiter: Fisher’s scale seems perfectly suited to the common situation of fixed sample size and a straw-man null hypothesis that the investigator wishes to disprove. However it is less satisfactory for more complicated problems involving multiple comparisons, data-mining, null hypotheses of genuine interest [. . .], or sequential decision making.
522
5 Synthese
Even slightly more complicated situations [. . .] made us grateful for some Bayesian guidance [. . .]
Ein wissenschaftliches Unternehmen, das nur den Einzelfall behandeln kann, weil sich sonst sofort Widersprüche ergeben, und in etwas komplizierteren Fällen (n variabel) völlig versagt, befindet sich im Konkursverfahren.
Statistik als Informationswissenschaft Die aktuelle Aufgabe ist offensichtlich, die Wissenschaft und Kunst der Erhebung, Extraktion, Analyse und Interpretation von Daten in einem umfassenden, logisch stimmigen Rahmen neu aufzubauen. Das hört sich beeindruckender an, als es ist, denn schon des öfteren mussten Wissenschaften, bei den Grundlagen beginnend, systematisch neu errichtet werden. Dabei bleiben typischerweise die zentralen Einsichten vergangener Erklärungsmuster erhalten. Was sich aber verändert, sind die Grundbegriffe und das Grundverständnis eines Fachs. Wie die obigen Arbeiten zeigen, ist der Neuaufbau tatsächlich schon in vollem Gange, und er sollte wieder zu einer einheitlichen, wohlproportionierten Theorie führen. Gerade die von physikalischem Denken inspirierten neuen Methoden zeigen, wie eine erfolgreiche, omnipräsente Statistik aussehen könnte: Konkrete Probleme treiben eine adäquate Begriffs- und Modellbildung voran. Anstatt die Ideenwelt der Statistik zu isolieren oder einfach hinzunehmen, dass ihre zahlreichen Ad-hoc-Lösungen keinen inneren Zusammenhang aufweisen, sollten ihre Begriffe wie auch Lösungen mit substanziellem Wissen eng verknüpft sein. Mit den vorgestellten kausalen Netzen, welche in der Lage sind, Mechanismen aller Art elegant abzubilden und deterministische wie stochastische Abhängigkeiten zu erfassen, hat sich ein erster solcher Formalismus etabliert, der auch über die klassische Wahrscheinlichkeitstheorie hinausgeht (siehe S. 438).322 Allgemein geht es um den adäquaten Umgang mit Information, weshalb jede moderne Statistik äußerst eng mit der Informationstheorie verzahnt sein muss. Information ist das Schlüsselwort der Statistik, alle ihre Argumentationsmuster, gruppieren sich um diese eine, zentrale Idee. Die Verankerung der wesentlichen Begriffe und Argumente in der Informationstheorie verhindert weltanschauliche Auseinandersetzungen. Zugleich ist jene so weit, dass sie allen traditionellen Aspekten (z. B. subjektiv, objektiv, Prä- und PostBetrachtung, Berücksichtung von Priori-Information oder nicht, diverse Interpretationen des Wahrscheinlichkeitsbegriffs usw.) gerecht werden kann. Mehr noch, sie verknüpft auf natürliche Weise die zentralen Themen der Prognose, Modellierung und algorithmischen Berechnung. 322
Technisch gesehen handelt es sich um Wahrscheinlichkeitsverteilungen auf gerichteten, azyklischen (kausal interpretierbaren) Graphen, die sich auch als Erweiterung sich verzweigender, baumartiger Strukturen und als Spiele verstehen lassen (siehe insbesondere Shafer (1996) und Shafer und Vovk (2001)).
5.5 Das Informationsparadigma
523
So erfrischend neu, theoretisch fundiert oder einfach nur pragmatisch ein Ansatz auch sein mag, die Kunst(fertigkeit) im Umgang mit Daten besteht darin, alle in einer Situation relevanten Informationen geeignet zu fassen, also insbesondere zu formalisieren. Eine auf die Informationstheorie gestützte, einheitliche Methodik ist dazu weit stärker in der Lage als jeder Ad-hoc-Ansatz. Insbesondere vermeidet man die typischen Fallstricke, sobald man über ein spezielles Problem und seine Lösung hinausgehen will. Die durchgängigen Erfolge in der Praxis (Lösung klassischer Probleme, bessere Ergebnisse als traditionelle Ansätze) wie in der Theorie (statistische Kriterien der Verfahren wie auch die logische Konsistenz im Allgemeinen) sprechen für sich. Dabei zeigt sich, wie man mit der universellen Sprache der Mathematik umgehen sollte. Anstatt Annahmen prinzipiell zu scheuen, kommt es zunächst einmal darauf an, genügend starke Annahmen zu machen, um überhaupt erst effizient arbeiten zu können. Es ist weniger fruchtbar, sich jahrelang über die Interpretation von Tests und Schätzungen zu streiten, weil der Formalismus nur indirekt die gewünschten Schlussfolgerungen erlaubt, als innerhalb eines eleganten Kalküls auch kompliziertere Probleme routinemäßig bearbeiten zu können. Fisher ist der Ausgangspunkt dieser wenig überzeugenden Haltung. Er lehnte die einfache, weil auf relativ starken Voraussetzungen basierende Bayessche Methodik ab und musste deshalb innerhalb eines eigenen, weniger starken begrifflichen Rahmens agieren. Jaynes (2003: 494ff) schildert die Folge: But nobody seemed to notice that Jeffreys was able to bypass Fisher’s calculations and derive those parameter estimates in a few lines of the most elementary algebra [. . .] Fisher’s difficult calculations calling for all that space intuition [. . .] were quite unnecessary for the actual conduct of inference. [Zwei Seiten später heißt es:] Harold Jeffreys (1939) was able to derive all the same results far more easily, by direct use of probability theory as logic, and this automatically yielded additional information about the range of validity of the results and how to generalize them, that Fisher never did obtain.323
Symptomatisch ist auch die Behandlung des Behrens-Fisher-Problems (S. 425). Anstatt eine einfache, logisch einwandfreie Lösung zu akzeptieren, reiht sich seit Jahrzehnten, ohne einen wirklichen Durchbruch, ein heuristischer Lösungsversuch an den nächsten. Bezeichnenderweise stammen Fishers stärkste Beiträge aus den 1920er Jahren, als er mit der parametrischen Statistik die Wahrscheinlichkeitstheorie zu deren nahezu alleinigem Werkzeug machte. Um die Information in den (festen!) Daten x zu erschließen, betrachtete er letztere als Realisierungen (parametrisierter!) Zufallsvariablen Xθ . Durch diese geniale Setzung reduzierte er die statistische Inferenz auf Aussagen über einige wenige, gut zu überblickende Parameter. Orientiert am praktisch wie theoretisch eminent wichtigen Fall der Normalverteilung N (μ, σ), konnte er daraus eine allgemeine Theorie des Schätzens (Likelihood) entwickeln. 323
Für eine moderne Version des Arguments siehe MacKay (2005: Abschnitt 3.1).
524
5 Synthese
Liest man Fisher im Original, so ist ganz deutlich, dass für ihn die Extraktion von Information aus vorhandenen Daten324 der entscheidende Gesichtspunkt war. Die Daten sind für ihn nur der Rohstoff, um Genaueres über einen Gegenstand zu lernen. Über die Effizienz einer Schätzung schreibt er z. B.325 My definition depends on amount of information and is aimed at affording an invariant comparison for transforms of the parameters [. . .]
Der Parameterraum ist deshalb bei ihm - wie den Bayesianern - weit wichtiger als der Stichprobenraum. Man beachte jedoch, dass Fisher letztlich nur aus technischen Gründen die wesentliche Struktur hinter den Beobachtungen in den Parametern abbildet, und Abschnitt 5.5.3 (insbesondere S. 473ff) liest sich wie eine konsequente, moderne Umsetzung Fortsetzung seiner Grundidee. Allgemeiner gesprochen sind für ihn Zufallsvariablen und damit auch die Wahrscheinlichkeitstheorie nur nützliche, wenn auch höchst effiziente Werkzeuge. Mit Neyman und Pearson rückten aber gerade jene und der mit ihnen verbundene Formalismus in den Mittelpunkt der Betrachtung. Und mit der Dominanz der mathematischen, insbesondere frequentistischen Statistik wandelte sich das Instrument schließlich zum Selbstzweck, weshalb man heute vor einer problemadäquaten Erweiterung der Stochastik zurückschreckt.326 Pearl (2009a: 412) schreibt zur Frage, weshalb kausale Graphen mit so viel Argwohn aufgenommen werden: The answer, I believe lies deeper, and it has to do with the official language of statistics - namely, the language of probability [. . .]327 The word cause is not in the vocabulary of probability theory; we cannot express in the language of probabilities the sentence, mud does not cause rain - all we can say is that the two are mutually correlated or dependent [. . .] Naturally, if we lack a language to express a certain concept explicitly, we can’t expect to develop scientific activity around that concept [. . .] Scientific development requires that knowledge be transferred reliably from one study to another and, as Galileo showed 350 years ago, such transference requires the precision and computational benefits of a formal language. (Hervorhebungen im Original)
Nicht nur kausale Zusammenhänge lassen sich mit wahrscheinlichkeitstheoretischen Begriffe alleine kaum fassen. Es ist schon ziemlich schwierig, verschiedene Informationsstände, die nicht nur in der Ökonomie von herausragender Bedeutung sind, innerhalb des traditionellen Rahmens der Maß-, 324
Die bestenfalls natürlich kontrolliert, unter Berücksichtigung relevanter Vorinformation, selbst erhoben wurden. 325 326 327
Siehe Fisher (1954), zitiert nach (Bennett 1990: 307) Siehe insbesondere S. 438ff
Hierzu eine kleine historische Notiz: Aus der wohl wichtigsten Zeitschrift der theoretischen Statistik, den Annals of Mathematical Statistics sind in den letzten 40 Jahren folgende Zeitschriften hervorgegangen: Annals of Probability, Annals of Applied Probability, Annals of Statistics, Annals of Applied Statistics[!] und Statistical Science.
5.5 Das Informationsparadigma
525
Integrations- und Wahrscheinlichkeitstheorie elegant abzubilden. Ein Wahrscheinlichkeitsraum (Ω, A, P ) besteht aus einer Grundmenge Ω, einer Verteilung P und einer Sammlung A „schöner“ Teilmengen A ⊆ Ω, die man mit einer Wahrscheinlichkeit P (A) versehen kann. Innerhalb der sogenannten σAlgebra A kann man nun eine Hierarchie von Teilsigmaalgebren A0 , A1 , . . . bilden, die einen sequentiellen Erkenntniszuwachs formalisieren. Neben ihrer fast schon sprichwörtlichen Unanschaulichkeit ist es kaum möglich, mehr als ein paar Informationsstände (wie z. B. aufeinanderfolgende Zeitpunkte) ohne Umschweife zu formalisieren. Selbst ganz zentrale Begriffe wie Suffizienz und Invarianz sind mit einem eher abschreckend-aufwändigen Formalismus verbunden (siehe z. B. Basu (1969) oder Berger (1985)). Die durch von Neumann und Morgenstern (1944) begründete Spieltheorie wurde hingegen dafür gemacht, diverse Akteure - mit je eigenen Informationsund Strategiemengen - abzubilden und mit- bzw. gegeneinander antreten zu lassen. Es ist auch seit langem bekannt, dass man große Teil der Statistik als geeignete Spiele, insbesondere „des Statistikers gegen die Natur“, auffassen kann. Neu ist jedoch, dass es mithilfe sogenannter „Wahrscheinlichkeitsspiele“ gelingt, die gesamte klassische Wahrscheinlichkeitstheorie samt deren fortschrittlichster, maßtheoretischer Beweistechnik328 spieltheoretisch abzubilden. Mehr noch, es stellt sich dabei heraus, dass der spieltheoretische Rahmen stärker ist als der maß- und integrationstheoretische (Shafer und Vovk 2001).329 Zur so erweiterten Fähigkeit, ein System zu beschreiben, tritt unmittelbar der Wunsch, die Reaktion des Systems auf äußere Interventionen zu erfassen. Dem entspricht aus der Warte der Spieltheorie ein Spiel, an dem die äußere Welt teilnimmt. Betrachtet man noch die Abhängigkeiten der Spieler untereinander, so lassen sich darüber hinaus auch Aspekte der Entscheidungsfindung mit einbauen. Eine etwas andere Sicht besteht darin, experimentelle und nicht-experimentelle Beobachtungen in einem umfassenden probabilistischen und zugleich kausalen formalen Rahmen zu interpretieren und so eine Theorie der verallgemeinerten kausalen Inferenz zu etablieren.330 So erfährt das klassische Inferenzmuster von „Vorher, Daten und Nachher“ eine neue, weit umfassendere und zugleich flexiblere Interpretation als je zuvor: A priori lassen sich Strukturen jeglicher Provenienz effizient abbilden, bei den Daten kann es sich um eine Vielzahl von Ereignissen (inbesondere Beobachtungen, Messungen, Interventionen) handeln und das Resultat kann sich mit einer Beschreibung der neuen Situation begnügen oder aber bis zur Entschei328
Martingale, stochastische Prozesse und stochastische Analysis, siehe insbesondere Doob (1953), Chow und Teicher (1997), Schilling (2005) und Deck (2006). 329
Ersterer ist uns schon an anderen Stellen in dieser Arbeit begegnet, letzterer ist ein Schüler Kolmogorovs. Damit wird übrigens auch auf einer weit abstrakteren Ebene eine direkte Verbindung mit de Finetti etabliert, der subjektive Wahrscheinlichkeiten ja gerade mit Wetteinsätzen, also konkreten Spielstrategien, objektivierte. Siehe auch Topsøe (2007) sowie Grünwald und Dawid (2004). 330
Siehe Shadish et al. (2002) und Spirtes et al. (2000)
526
5 Synthese
dungsfindung (auch in einer Gruppe) und Handlung voranschreiten. Letztlich kommt es darauf an, in Abhängigkeit von der Zielsetzung die relevanten Informationen adäquat zu modellieren. Ein primär prognostisches Modell sollte schließlich eine zuverlässige, präzise Vorhersage liefern, während in einem erklärenden Modell alle wesentlichen Faktoren und Zusammenhänge enthalten sein sollten. Grünwald empfindet das Fehlen einer Entscheidungstheorie als das wichtigste Manko des informationstheoretischen MDL-Ansatzes. Da die Spieltheorie auch hier ein reichhaltiges Angebot an Strategien und Kooperationsmöglichkeiten erlaubt, könnte womöglich auch die Handlungskomponente eine angemessene Repräsentation finden, was ein weiteres Argument für diesen Ansatz wäre.331 Selbst die in der Quantenmechanik benötigte Wahrscheinlichkeitstheorie, welche sich nicht innerhalb des heute üblichen maßund integrationstheoretischen Rahmens behandeln lässt, kann auf diese Weise (wieder) eingegliedert werden.332 Kritisch ist eigentlich nur anzumerken, dass die Spieltheorie, ähnlich wie das Bayessche Paradigma vor einigen Jahrzehnten, vor allem „a posteriori“ von Nutzen ist. Das heißt, man kann mit ihm bekannte Lösungen elegant darstellen. Es ist jedoch weit schwerer, die Spieltheorie direkt zur Problemlösung sinnvoll einzusetzen. Der von ihr abgesteckte Rahmen ist weit, und die Möglichkeiten sind so vielfältig, dass es wohl noch einige Zeit dauern wird, bis man zu spieltheoretisch fundierten und problemorientierten Standardverfahren kommt.333
Statistik der Zukunft Zuweilen helfen historische Vergleiche bei der Einordnung einer aktuellen Situation. Die Statistik vor R. A. Fisher war durchgängig bayesianisch. Dieser „katholische Glaube“ ging in den Wirren des 20. Jahrhunderts unter, als sich eine Vielzahl von Sekten entwickelten und die Protestanten unter Neyman und Pearson schließlich die Oberhand gewannen. Es spricht einiges dafür, den aktuellen Trend als „Gegenreformation“ der Bayesianischen Schule zu begreifen. Auch wenn mancher Vertreter dieser Richtung hoffen mag, dass danach alles wieder so sein wird wie zuvor, die Geschichte lehrt, dass das Neue meist völlig anders ist als das Alte. Nachdem sich der Lärm und die allgemeinen Wirren der Reformationszeit gelegt hatten, war nicht das Wiedererstarken 331
Siehe hierzu auch Hutter (2007).
332
Siehe Shafer und Vovk (2001: Abschnitt 8.4). Man beachte auch Khrennikov (2009), wo sogar negative(!) Wahrscheinlichkeiten behandelt werden. 333
Beweistechnisch gesehen ist die Informationstheorie mit einer Reihe fundamentaler Ungleichungen am natürlichsten und mit der Methode der Nicht-Komprimierbarkeit am stärksten. Die Spieltheorie argumentiert standardmäßig mit Gleichgewichten und erzielt die stärksten Ergebnisse mit sehr allgemeinen Sätzen über Spiele, deren Beweise oft ebenfalls nicht-konstruktiv sind. Die Maßtheorie bildet die natürliche Brücke zwischen Analysis (Integrationstheorie) und Stochastik. Außerdem lassen sich wahrscheinlichkeitstheoretische Argumente in fast allen mathematischen Teilgebieten fruchtbar einsetzen.
5.5 Das Informationsparadigma
527
der alten Kräfte der entscheidende Punkt, sondern die allgemeine Toleranz in einer neuen Zeit, der Neuzeit, die nicht mehr von den alten Glaubensbekenntnissen beherrscht wurde. So ist zu hoffen, dass die aktuelle Entwicklung nicht wieder in einen allgemeinen Bayesianismus mündet, sondern in eine Statistik, die ihrer großzügig bemessenen Rolle im Erkenntnisprozess gerecht wird. Konnte man von Seiten der orthodoxen Statistik vorwiegend induktive Vorstöße wie Metaanalyse, EDA, und Data Mining noch als theoretisch wenig fundierte Versuche abtun, Daten anwendungsbezogen auszuwerten, so fällt das bei kausalen Netzen, und anderen Ansätzen, die den wahrscheinlichkeitstheoretischen Rahmen gezielt erweitern, schon weit schwerer. Es kann nicht ohne Auswirkungen auf die Statistik und Datenanalyse bleiben, wenn ein in den empirischen Wissenschaften zentraler, äußerst erfolgreicher Begriff - Kausalität -, elegant formalisierbar wird. Doch es ist letztlich die Klärung des Informationsbegriffs und die mit ihm eng verbundenen Ideen der Komplexität, der Verteilung und der Zufälligkeit, zusammengefasst in einer umfassenden quantitativen Informations- und Kodierungstheorie, welcher der Statistik ein neues Fundament gibt. Unter dem großen Banner der Information, das alle relevanten Aspekte berücksichtigt, lassen sich die zahlreichen Wege und Seitenpfade der „balkanisierten Statistik“ (S. 359) wieder zusammenführen. Moderne Bayesianische Lehrbücher334 gehen zum Beispiel ausführlich auf die Datenerhebung ein. Sie beschreiben, wie Selektions- und Störeffekten konstruktiv zu begegnen ist (siehe auch S. 450). Eine ganze neue Art der Informationssammlung und -Aggregation sind sogenannte “Informationsmärkte”, die sich schon in vielen Fällen als weit besser als klassische, repräsentative Stichproben erwiesen haben (Hahn und Tetlock 2006, Sunstein 2009). Mit kausalen Netzen lassen sich Ursache-Wirkungszusammenhänge und Interventionen elegant formalisieren. MML und MDL sagen einem schließlich, wie man, die Daten in den Mittelpunkt stellend, das richtige Modell auswählt:335 Note that while many sampling-based approaches take a hypothesized model as given and measure how far away the data lie (from the point of view of that model), the MDL approach takes the data as given and asks how far away the model lies (from the point of view of the data).
Dawid und Vovk (1999: 149) schlagen den Bogen zu den ebenfalls schon erwähnten belief functions (S. 421) und dem prequential framework (S. 479). Dieser Vergleich von Prognose und dem Verhalten der Natur kann wiederum in einen spieltheoretischen Rahmen eingebettet werden, und auch der Schritt zur Entscheidungstheorie ist schon getan worden.336 Das heißt, auf allen Ebenen ist die Konvergenz der Ansätze in vollem Gange. 334 335 336
Etwa Carlin und Louis (2000) oder Gelman et al. (2004) Siehe Bryant und Cordero-Braña (2000: 259), Hervorhebungen im Original.
Siehe Hutter (2007) und Vovk (2001), für die zahlreichen Querbezüge zu den o.g. Feldern siehe inbesondere dessen Kapitel 4.
528
5 Synthese
Es ist höchste Zeit für einen konzeptionellen Neuanfang mit einer ausgewogenen Philosophie (Forschungszirkel), ausgeprägter Problemorientierung, unvoreingenommener Zusammenarbeit mit Forschern jeglicher Provenienz und einer systematischen Vernetzung mit allen angrenzenden Wissenschaften. Wer gefragt werden bzw. gefragt sein will, muss selbst bereit sein, ohne Vorbehalte zu kooperieren, offen für Neues sein und konstruktive, problemorientierte Beiträge liefern. Dies leisten die oben vorgestellten Ansätze der letzten Jahre und Jahrzehnte. Es ist zu wünschen, dass sie der Statistik den Weg aus ihrer selbst verschuldeten Isolation bahnen, was jedoch nur gelingen kann, wenn mathematical statistics und statistical science wieder als eine Einheit verstanden werden: However anonymously, the present technological environment has given experimental statistics a revolutionary task: transforming our discipline from the dichotomy of mathematical philosophy and computer-aided empiricism into an experimentally supported information science. (Beran 2001: 261)
Die elegante Kombination der induktiven und deduktiven Sicht, orientiert an der Information in den Daten, war schon der Kern von Fishers Statistik. Man muss nur der intellektuellen Biographie Kolmogorovs folgen, um diese schlagkräftige Mischung wieder zu entdecken. So gelangt man von den Axiomen der Wahrscheinlichkeitstheorie der 1930er Jahre, auf die sich die Statistik noch heute gründet, über die allgemeine Theorie dynamischer Systeme337 zum Komplexitätsbegriff der 1960er Jahre und dem sich daraus ergebenden, heutigen, viel feineren Verständnis von Struktur, Information und Zufälligkeit. Daten sind das Erkenntnisobjekt der Statistik, systematische Zusammenhänge zu erfassen und zu extrahieren ist ihr Lebenselexier, und weil die Wahrscheinlichkeit die induktive Schwester der Information ist, spielen beide in der Statistik eine dominante Rolle. Die konzeptionelle Zukunft der Statistik liegt mit großer Sicherheit in einer innovativen, harmonischen Verknüpfung aller gerade genannten Elemente. Die so entstehende Statistik ähnelt weit mehr einer erfolgreichen empirischen Wissenschaft mit einem eleganten konzeptionellen Kern und einer darauf basierenden effektiven Methodik als angewandter (deduktiver) Mathematik oder heillos zerstrittener Philosophie, die mit prinzipiellen Argumenten um die richtige Fundierung ringt. Dabei spielen spezifische Randbedingungen eine wichtige Rolle, und es zeichnet sich erneut die herausragende Bedeutung von Invarianzen ab. 337
Siehe Kolmogorov (1954) und Broer (2004), wobei auch der Invarianzbegriff eine große Rolle spielt.
5.6 Invarianzen, Symmetrien und Symmetriebrüche
529
5.6 Invarianzen, Symmetrien und Symmetriebrüche Jede oberflächliche Betrachtung verwechselt immer eine Nebenrolle mit einer Rolle im Hintergrund. (Zweig 1977)
Bei aller Methodenvielfalt und der heutigen Pluralität der Ansätze gibt es mehrere übergeordnete Ideen, die immer wieder in ganz unterschiedlichem Gewand auftreten. Eine davon ist der Informationsbegriff, verbunden mit der Überlegung, alle relevanten Informationen geeignet zu formalisieren. Sodann steht man vor dem Problem, das Relevante vom Irrelevanten zu scheiden, also Struktur und Zufall zu trennen, was gerade der Hauptsatz der angewandten Statistik ist. Ganz spezifisch sucht man nach Invarianzen bzw. Invarianten, die maßgeblich anzeigen, welche Eigenschaften wesentlich und was nur von peripherer Bedeutung ist. Dieser Gesichtspunkt ist nicht nur in der modernen Physik immer stärker geworden, er zieht sich, wenn auch wesentlich weniger explizit, durch die gesamte Statistik. Empirisch gesehen zeigt sich Invarianz zunächst als Replikation. Lässt sich ein Ergebnis zuverlässig wiederholen, so schließt man aus, dass es sich dabei immer wieder um eine glückliche Fügung gehandelt hat. Vielmehr ist dies Anlass genug, das Phänomen als überdauernd - invariant in der Zeit - anzusehen und ernsthaft zu würdigen. Kreuzvalidierung ist die kleine Schwester der Replikation, und auch bei ihr ist entscheidend, ob ein Ergebnis im Wiederholungsfall so bleibt, wie es sich zunächst gezeigt hat. Fisher dachte an (kleine) p-Werte und betrachtete ein Phänomen als real, wenn eine Reihe von Experimenten immer wieder zu kleinen p-Werten geführt hatte. Eine Standardvorgehensweise zu Ermittlung für ein Kriterium Y wirklich relevanter Einflussfaktoren Xτ1 , . . . , Xτq aus einer Reihe potenzieller Faktoren X1 , . . . , Xp , wobei q zumeist viel kleiner als p ist, besteht darin, dass man immer mithilfe eines Teils der Faktoren ein (bestmögliches) Modell zur Vorhersage von Y konstruiert. Alle jene Faktoren, die in den meisten dieser Modelle eine (größere) Rolle spielen, die also invariant bzgl. der Modellierung sind, werden als tatsächlich relevant angesehen.338 Selbst de Finettis Begriff der Austauschbarkeit, also Invarianz unter Permutation der Zeitpunkte, wurde genau hierfür gemacht. Humes und Goodmans Paradoxa (S. 197ff), dass morgen alles anders sein könnte als bisher, nehmen erst Gestalt an, wenn man dererlei Regelmäßigkeit nicht voraussetzt. Die klassischen Gütekriterien statistischer Verfahren (z. B. Konsistenz und Erwartungstreue), die Argumentationsmuster der sample space inference - also das zur Zeit wichtigste Beispiel kontrafaktischer Schlüsse - ergeben sich aus der einfachen Frage, was geschieht, wenn man ein Verfahren in derselben Situation mehrfach einsetzt. Die Validität und Reliabilität der Verfahren werden dadurch bestimmt, dass man sie (zumindest hypothetisch) wiederholt anwendet. 338
Man beachte jedoch, dass wie bei Resampling-Verfahren die Daten festgehalten werden.
530
5 Synthese
Denkt man an die Physik, so tritt zur Invarianz bzgl. der Zeit immer die Invarianz bzgl. des Raums. Goodmans Paradoxon, dass sich ein Ergebnis von hier (z. B. Labor A) nicht nach dort dort (z. B. Labor B) übertragen lässt, spielt mit der Idee, dass die Bedingungen in A bzw. B nicht vergleichbar sind, es also immer einen für das Ergebnis eines Experiments wesentlichen Faktor geben kann, bezüglich dessen sich A und B unterscheiden. Wenn wir diesen Faktor nicht kennen bzw. erkennen, und er das Ergebnis des Experiments bestimmt, so lässt sich ein von A gefundenes Resultat nicht auf B übertragen, insbesondere also auch nicht verallgemeinern. Um diesem Einwand zu begegnen, hat man keine andere Wahl, als die Bedingungen in A und B soweit als möglich vergleichbar zu machen. Klassischerweise kontrolliert man explizit alle relevanten Faktoren. Ist dies nicht möglich, so leistet einem die Randomisierung nützliche Dienste. Immer jedoch zielt experimentelles Design darauf ab, die Ausgangsbedingungen vergleichbar zu machen, damit Mills Argument greift: Gibt es a priori keinen (wesentlichen) Unterschied, a posteriori jedoch schon, so muss dies die Folge des experimentellen Eingriffs dazwischen sein. Bei der Zusammenstellung von Gruppen in statistischen Experimenten zeigt sich, dass Austauschbarkeit und Vergleichbarkeit dasselbe sind. Die Experimental- und die Kontrollgruppe liefern genau dann dasselbe Ergebnis, wenn man sie gedanklich austauschen kann, was heißt, dass sie bezüglich aller für das Ergebnis relevanten Variablen vergleichbar sind. Auch für diverse experimentelle Bedingungen gilt: Sind sie austauschbar, so unterscheiden sich die Ergebnisse nicht voneinander. Mit den Worten von Edgington (1995: 346): Every randomization test is a test of the null hypothesis of invariance of the measurements of experimental units over treatment conditions.
Den Hauptgrund, warum wir nach Invarianzen suchen, haben wir bereits zu Beginn (insbesondere in Abschnitt 1.4) ausgeführt: Ändert man die Betrachtungsweise oder aber das Bezugssystem, so sind es gerade die Invarianten, die wesentlich sind. Was hingegen von der Art der Beschreibung bzw. der Beobachtung abhängig ist, kann keine wesentliche Eigenschaft des untersuchten Systems sein. Man könnte auch sagen, dass wir trotz allen (oberflächlichen) Wandels nach Stabilität „hinter“ den Erscheinungen suchen. In diesem Sinne schreibt Pearl (2009a: 182) ganz allgemein: [. . .] humans are generally oblivious to rates and proportions (which are transitory) and [. . .] constantly search for causal relations (which are invariant).
Wird ein Phänomen modelliert, schätzt man eine Größe oder testet einen Sachverhalt, so ist es nicht nur naheliegend, sondern sogar zwingend erforderlich, den Blick in Richtung Invarianzeigenschaften zu lenken. Dies führt technisch gesehen auf Klassen von Transformationen, wie sie uns zum ersten Mal in der Messtheorie begegnet waren. Doch auch objektive Bayesianische Verfahren werden systematisch auf ihre Invarianzeigenschaften relativ
5.6 Invarianzen, Symmetrien und Symmetriebrüche
531
zu Transformationen untersucht.339 Die Idee konsistenter subjektiver Überzeugungen lässt sich mit Invarianzargumenten stützen,340 und auch die Erweiterung des Bayesschen Mechanismus wird so begründet: „[. . .] As long as invariance holds, updating is valid by a generalization of conditioning [. . .] (Jeffrey 2004: 57). Schon beim p-Wert ist eine Invarianzüberlegung grundlegend: It is not difficult to see how ‘Student’ and Fisher found themselves defending the use of the P integral. For if one accepts that it is possible to test a null hypothesis without specifying an alternative, and that the test must be based on the value of a test statistic in conjunction with its known sampling distribution on the null hypothesis, then the integral of the distribution between specified limits is the only measure which is invariant to transformations of the statistic. If follows that one is virtually forced to consider the area between the realized value of the statistic and a boundary as the rejection area - the P integral, in fact. (Edwards 1972: 176), zitiert nach Oakes (1986: 122).
Nicht nur in den genannten Fällen sind Invarianzen einzelner Statistiken oder ganzer Methoden immer Argumente für das jeweilige Verfahren. Einem kritischen Forscher wie Basu (1969: 160) fiel deshalb schon früh auf, dass “in statistical literature, the principle of invariance has been used in a rather halfhearted manner.” Im genannten Artikel untersucht er deshalb den Zusammenhang zwischen Suffizienz und Invarianzeigenschaften des Stichproben- sowie des Parameterraums und stellt dabei enge Zusammenhänge fest. Auf beiden Räumen handelt es sich um Teilmengenbeziehungen, wenn man diese Zusammenhänge mithilfe von σ-Algebren formuliert. D.h., eine der beiden Reduktionsmöglichkeiten umfasst die jeweils andere. Auf dem Parameterraum, der für Bayesianer wichtiger ist, ist bezeichnenderweise Invarianz der stärkere Begriff, während auf dem Stichprobenraum, mit dem die frequentistische Statistik primär arbeitet, Suffizienz stärker ist. Die oben dargestellte historische Entwicklung erklärt sofort, warum heute Suffizienz unumstritten ist, während ein systematisches Studium von Invarianzargumenten und erst recht eine Interpretation der formalen Invarianzeneigenschaften in den letzten Jahrzehnten vernachlässigt wurden. (Siehe auch S. 166.) Bemerkenswerterweise konnte Basu jedoch vielen frequentistischen Ad-hoc-Verfahren dadurch eine logische Rechtfertigung geben, dass er sie in einen geeigneten Bayesschen Rahmen stellte. Wallace (2005: 32) wischt “Non-Bayesian Inference” sogar mit den Sätzen vom Tisch: Note that the considerations of bias and variance apply only to a particular para2 meterization of the model family. For instance in the above example, while σ ˆU B is an unbiased estimate of σ 2 , σ ˆU B is not an unbiased estimate of σ.341 Also, the few 339
Siehe insbesondere Barnard (1971: 414), Good (1971b: 415) und Berger (1985) Siehe de Cooman und Miranda (2007: 67), die bei solchen “belief models” feinsinnig zwischen “[. . .] weak invariance (representing symmetry of beliefs) and strong invariance (modeling beliefs of symmetry)” unterscheiden. 341 Genau dasselbe Argument findet sich bezeichnenderweise schon bei Fisher (1973: 146ff), siehe auch die Fußnote S. 368. 340
532
5 Synthese
model families which admit of Minimum Variance Unbiased estimators have such estimators for only one parameterization. Thus, the usefulness of these considerations is quite limited.
Diese missliche Tatsache war schon sehr früh aufgefallen, siehe insbesondere die Anmerkungen von Stegmüller und Hacking (S. 157) beim Schätzproblem. Auch die Bayessche Lösung des Schätzproblems kritisiert Wallace (2005: 39, 54) vor allem wegen fehlender Invarianzeigenschaften. Auf der zuletzt genannten Seite schreibt er beispielsweise: “The Bayesian approach [. . .] offers no general method of selecting a ‘best’ estimate which is not tied to a particular parameterization of the model family.” Ähnlich äußern sich Balasubramanian (2005) und Hutter (2007).342 Letzterer motiviert damit den in einem sehr allgemeinen Sinn invarianten universal prior für eine Parametrisierung θ, nämlich 1/2K(θ) , wobei K(·) die Komplexität ist.343 Ganz allgemein fällt immer wieder auf, dass hinter der Ebene der üblichen statistischen Rechtfertigung einer Vorgehensweise eine tiefere „invariante“ Begründungsebene liegt. Zuweilen wird jene explizit ausgeführt, wie bei Matching Verfahren,344 in Bayesschen Argumentationsmustern, im experimentellen Design (Pukelsheim 1993) oder von Autoren mit fachwissenschaftlichem Hintergrund.345 Heckman (2005: 138) sagt z. B.: “Rubin’s STUVA346 is a version of an invariance assumption developed in econometrics some 40-50 years ago [. . .]” Ibd., S. 48, schreibt er “ ‘Deep structural’ parameters [. . .] are invariant to policy modifications [. . .]” und S. 46 heißt es unter dem Titel Structure as Invariance: A basic definition of a system of structural relationships is that it is a system of equations invariant to a class of modifications or interventions.
Je allgemeiner die Fragestellungen werden, d.h., je mehr man sich vom Kontextwissen, spezifischen Rahmenbedingungen und deren Charakteristika entfernt, desto dominierender werden Invarianzüberlegungen.347 Nachdem Rodríguez (2005) ein neues, noch komplexeres Kriterium (CIC) zur Auswahl eines Modells vorgeschlagen und untersucht hat, schreibt er am Ende seines Artikels, S. 87: It is natural to decompose AIC, BIC and CIC as the sum of two terms. The term providing the fit of the data to the model (common to all three criteria) plus the rest. That rest is obviously a penalty on the complexity of the model. In retrospect, it is to be expected that the complexity of a model M should involve some (or all?) of its geometric and topological invariants like: dimension, volume and curvature, as CIC does. But we need to keep in mind that CIC, like AIC and BIC, is only an 342
Siehe S. 477 und 261
343
Man vergleiche dies auch mit S. 467f. Siehe Rubin und Thomas (1992)
344 345 346 347
Etwa Jeffreys, Jaynes, Heckman und Pearl Siehe S. 450
Man beachte jedoch S. 161, d.h., man missachte nicht relevante Spezifika, wie die konkret verwendete Skala.
5.6 Invarianzen, Symmetrien und Symmetriebrüche
533
approximation. It would be much better to be able to show that useful models spring from the optimization of a global topological quantity, like the total (or mean?) curvature of M . In fact, we know that this is precisely the case in classical physics.348 (Meine Hervorhebung)
Symmetrien und Symmetriebrüche Man unterschätze auch nicht die Bedeutung von Invarianzargumenten in der orthodoxen Statistik. Neben „direkten“ Symmetrieüberlegungen349 ist dort der wichtigste Gesichtspunkt, was on the long run passiert. In einem Gedankenexperiment wird das zur Diskussion stehende Verfahren also unter völlig vergleichbaren Bedingungen häufig oder sogar beliebig oft wiederholt. Die Symmetrie steckt hier in den (hypothetisch) festgehaltenen, identischen Randbedingungen, welche nicht nur immer gleich, sondern gerade auch so präzise sind, dass Wahrscheinlichichkeitsaussagen möglich sind, was unmittelbar zu den Grenzwertsätzen der Stochastik führt. Unser heutiges Bild der Statistik wird dem entsprechend von Zufallsexperimenten und -prozessen dominiert. Gerade die klassischen Zufallsexperimente sind nichts anderes als idealtypische Situationen, die sich durch außerordentlich große Transparenz und Einfachhheit auszeichnen. Es sind die Symmetrien dieser idealen Modelle, welche die Gesetze ermöglichen, da ihre Regelmäßigkeit zu unzweideutigen logischen Wahrscheinlichkeiten führen, aus denen sich allgemeingültige stochastische Gesetze herleiten lassen. Letztlich basieren alle bedeutenden stochastischen Gesetze auf der Wiederholung weniger, immer gleicher Elemente, was auf einer eher philosophischvagen Ebene auch „erklärt“, weshalb es überhaupt Gesetze des (eigentlich regellosen) Zufalls gibt. Die Regelmäßigkeit kommt nicht daher, dass man im Einzelfall sagen könnte, was sich ereignet, die Gesetze für Zufallsvariablen rühren daher, dass man immer wieder dasselbe (bzw. ganz ähnliches) tut. Auch andere wichtige Begriffe der Wahrscheinlichkeitstheorie gründen sich auf Symmetrien. Vergleichbarkeit bzw. Austauschbarkeit hatten wir schon erwähnt. Sie bedeutet die (empirische, also näherungsweise) Gleichheit bzgl. aller wesentlichen Faktoren. Unabhängigkeit geht noch weiter: Hier sind die zugehörigen Zufallsvariablen stochastisch völlig ununterscheidbar. Selbstverständlich sind auch wichtige Eigenschaften von Verteilung (geometrische Symmetrien, unendliche Teilbarkeit), Graphen und Bäumen (Wiederholung derselben Grundbausteine) als „Selbstähnlichkeiten“ oder eben Symmetrien begreifbar. Die wohl tiefliegendste Bedeutung von Symmetrien in der Statistik haben wir über die enge Beziehung der Stochastik zur Komplexitätstheorie und der Universalität der binären Codierung aufgedeckt. Die Reduktion aller Überlegungen auf das Studium binärer Zeichenketten offenbart, dass sich die ge348
Siehe auch schon S. 477.
349
Siehe z. B. Marden (2000: 1317) und die ebendort genannten Bezüge.
534
5 Synthese
fundenen Gesetzmäßigkeiten letztlich aus der hochgradigen Symmetrie eben jener Situation herleiten. Es ist die Universalität der binären Codierung (verbunden mit der universellen Verarbeitung von Information, also dem universellen Computer) welche alles auf einer abstrakten Ebene vergleichbar macht. So kommt man in eine perfekt symmetrische und zugleich einfache Situation, die äußerst bemerkenswerte mathematische Eigenschaften haben muss. Selbst der Wahrscheinlichkeitsbegriff wird letztlich auf Symmetrieüberlegungen gegründet: Bei der logischen Wahrscheinlichkeit liegt es am Aufbau der Situation (Bsp.: Würfel), nicht minder bei der universellen Wahrscheinlichkeit. Bei Häufigkeiten geht jede Beobachtung mit demselben Gewicht ein (Bsp.: 3 von 8 Personen besitzen eine Eigenschaft), was auch in der klassischen Definition von Wahrscheinlichkeit als „(Anzahl der) Günstigen / (Anzahl der) Möglichen“ zum Ausdruck kommt. Beim Indifferenzprinzip argumentiert man völlig analog, d.h. jede der ins Auge gefassten Möglichkeiten dieselbe „Chance“ zugeordnet bekommt. Dies ist auch so bei der empirischen Verteilungsfunktion und Permutationsverfahren, wenn jede tatsächlich gemachte Beobachtung (a posteriori) dasselbe Gewicht erhält. (Deterministisches) Chaos ist oft nicht von Zufall zu unterscheiden, weil die Situation lediglich erlaubt, aufgrund von Symmetrieüberlegungen eine Wahrscheinlichkeitsverteilung anzugeben.350 Wahrscheinlichkeit als subjektiver Überzeugungsgrad entzieht sich nur scheinbar dem Symmetrieargument, denn es sind gerade die kohärenten Randbedingungen, die grundlegenden Axiome von Rationalität, welche den Begriff hier festlegen. Die Coxschen Axiome (siehe S. 252) lassen sich zum Beispiel so lesen, dass sie zum einen alle Aussagen x und y gleich behandeln und zum anderen die zugehörigen Überzeugungsgrade vergleichbar machen. In einer konkreten Situation determinieren dann diese (symmetrischen Rand-)Bedingungen konsistenten Verhaltens, welche numerischen Werte die Wahrscheinlichkeiten annehmen müssen. Schließlich verflüchtigt sich das „Metaphysische“ an der Propensity-Interpretation der Wahrscheinlichkeit unmittelbar, wenn man das in sich unbestimmte Objekt als Urne mit (bis auf die Farbe) identischen Kugeln interpretiert, wie wir es S. 484 getan haben. Ganz allgemein rücken Invarianz- und Symmetrieüberlegungen die Statistik näher an die Physik, der nach wie vor konzeptionell führenden Wissenschaft, was auch den durchaus erwünschten Nebeneffekt hat, sie wieder mehr als statistical science - und eben nicht Technik oder Mathematik zu begreifen. Erfolgreiche physikalische Überlegungen lassen sich zuweilen direkt auf die Statistik übertragen. Das physikalische Konzept des Phasenübergangs beschreibt zum Beispiel, wann sich das Verhalten eines Systems qualitativ verändert.351 Im Zusammenhang mit der besten Art der Modellselektion schreibt Balasubramanian (1997: 363): “Phase transitions arise from a competition between entropy and energy, which, in the present context, is a competition between simplicity and accuracy.” Genau diese Frage stellt 350
Dies mag an unserer mangelhaften Information liegen oder aber, eine genauere Beschreibung ist prinzipiell nicht möglich, siehe S. 514. 351
Klassisches Beispiel: Eis - Wasser - Wasserdampf, also schmelzen und verdampfen.
5.6 Invarianzen, Symmetrien und Symmetriebrüche
535
sich auch die Sensitivitätsanalyse bzw. die robuste Statistik, welche ebenfalls herausfinden will, wie stark sich Bedingungen verändern dürfen, bis eine Lösung qualitativ anders wird. (Bezeichnenderweise spricht man vom breakdown point einer Statistik.) Greenland (1990), führt nach dem S. 174 gebrachten Zitat aus: One response to the last problem352 is to conduct a sensitivity analysis, in which the analysis models (and hence the assumptions) are systematically varied to identify those findings (if any) that are relatively unaffected by model choice (Leamer (1978, 1985)). Many investigators already employ an informal sensitivity analysis, insofar as they apply a variety of analytical techniques to their data to identify findings that emerge under every technique. (Hervorhebung im Original.)
Ganz im Sinne einer Invarianzüberlegung fährt er fort: “This ‘serial’ method of evaluating findings should be contrasted to the potentially biases ‘parallel’ approach, in which a finding is considered ‘real’ if it emerges from just one of many techniques.” Bislang wird Robustheit im Wesentlich als wünschenswert angesehen. Wir hatten jedoch schon festgestellt, dass Robustheit nicht wünschenswert ist, wenn sie mit der Verschwendung von Informationen einher geht, das Verfahren also einfach nur grob ist (siehe S. 336). Hier zeigt sich pointiert, dass das Abschneiden einer Methode immer auch von der speziellen Situation abhängt. Genausowenig wie irgendein Verfahren das Verhalten chaotischer System längerfristig zuverlässig vorhersagen kann, genausowenig ist es möglich, in der Nähe eines Phasenwechsels zuverlässig zu agieren. Kleine Änderungen in den Daten oder Randbedingungen werden dann zwangsläufig zu großen Unterschieden in den Ergebnissen jeglicher Methode führen. Es ist deshalb interessant zu fragen, wie weit vorliegende Daten von einem Phasenwechsel entfernt liegen, wie sehr sie sich also ändern müssten, um eine wesentliche Änderung in der Inferenz zu bewirken.353 Wie bedeutsam einschlägige Symmetriebetrachtungen in der Physik sind, stellt schon Wigner (1949: 522) heraus: [Einsteins] papers on special relativity also mark the reversal of a trend: until then, the principles of invariance were derived from the laws of motion [. . .] It is now natural for us to try to derive the laws of nature and to test their validity by means of the laws of invariance, rather than to derive the laws of invariance from what we believe to be the laws of nature.
Feynman (2007: 118) geht sogar bis auf Poincaré zurück354 und Weinberg (1992: 158f), zitiert nach Nozick (2001: 81f), ergänzt: 352
Elaborierter Modelle, die auf vielen, schwer zu rechtfertigenden Annahmen basieren Dies wäre eine bedeutsame Verallgemeinerung der Forschungsrichtung, die mit der robusten Statistik und dem file drawer problem (Rosenthal 1979) begann. (Wie viele Studien mit gegensätzlichem Ergebnis müssten in der Schublade verschwunden sein, damit jene eine bisherige Schlussfolgerung umkehren könnten?) Ganz allgemein ist es von Interesse, mit einem Datensatz x, immer auch dessen Umgebung Uε (x), also ähnliche Datensätzen, zu betrachten, und zu studieren, wie sich ein Verfahren bzw. Ergebnis dort verhält. 353
354
Zudem widmet er Symmetrien und den zu diesen gehörigen Erhaltungssätzen mehrere Kapitel seines Buches.
536
5 Synthese
It seems that in the 1930’s it was simply not good form to write papers based on symmetry principles. What was good form was to write papers about nuclear forces [. . .] Symmetry principles were regarded as mathematical tricks; the real business of physicists was to work out the dynamical details of the forces we observe. We feel different today. If experimenters were to discover some new particles [. . .] the mail would instantly be filled with hundreds of preprints of theoretical articles speculating about the sort of symmetry that underlies this family structure, and, if a new kind of force were discovered, we would all start speculating about the symmetry that dictates the existence of that force.355
Das einfachste Beispiel eines Symmetriebruchs stellt bezeichnenderweise wieder das Bit bzw. der Münzwurf dar: Vor dem Wurf bzw. vor der Festlegung des Bits ist die Situation perfekt symmetrisch. Es gibt zwei Möglichkeiten und keine ist vor der anderen ausgezeichnet. Mit dem ersten Wurf bzw. der Belegung des Bits muss sich das System für eine Richtung entscheiden. Statt ausgewogen zwischen zwei Optionen zu balancieren wird es zur maximal möglichen Asymmetrie gezwungen: Eine der Optionen wird zur Realität, während die andere keine Rolle spielt. Betrachtet man nun das Ensemble von mehr und mehr Würfen (n groß) so setzt sich die anfängliche Symmetrie wieder durch, denn fast alle Folgen x1 , . . . , xn enthalten in etwa dieselbe Anzahl beider möglichen Zeichen, im dem Sinne dass die relative Häufigkeit der „1“ gegen 1/2 konvergiert. Der Symmetriebruch „glättet“ sich nach und nach aus. Es sind die vermeintlichen Gesetze des Zufalls, die diese Annäherung an den ursprünglichen Zustand der Symmetrie - vor dem ersten Wurf - beschreiben, d. h., sie geben an, mit welcher Geschwindigkeit die durch das endliche n erzwungene Asymmetrie „überwunden“ wird. Jedoch ist die zugehörige Interpretation kombinatorischer Natur:356 Die Gesetze zählen einfach nur aus, wie sich die Pfade x1 , . . . , xn auf den Raum aller möglichen Zustände, von (0, . . . , 0) bis (1, . . . , 1) verteilen. Erst im (idealisierten) asymptotischen Fall unendlich vieler Würfe ist alles wieder im Gleichgewicht, also genau gleich der Situation vor dem ersten Wurf. Beide sind perfekt symmetrisch, bevorzugen also keine der beiden Möglichkeiten. In diesem Sinne verflüchtigt sich die Symmetriebrechung der einzelnen Realisierung im kollektiven Verhalten aller möglichen Folgen x1 , x2 , . . . Die Informationstheorie sieht dies genauso; die meisten (langen) Zeichenketten besitzen (fast) maximale Komplexität, sind also auch hochgradig symmetrisch und nennen deshalb viele „schöne“, also einfachen Regeln folgende Eigenschaften ihr eigen.357 355
Die beiden genannten Autoren sind keine Ausnahme. Zahlreiche bedeutende Autoren haben zur Diskussion beigetragen, etwa Post (1971), Nagel (1979), Weyl (1983), van Fraassen (1990) und Suppes (2001). Für einen aktuellen Überblick siehe Debs und Redhead (2007). 356
Das S. 455 gebrachte Zitat “Information theory must precede probability theory, and not be based on it” Kolmogorovs hat, wie schon S. 465 erwähnt, den bemerkenswerten Nachsatz: “By the very essence of this discipline, the foundations of information theory have a finite combinatorial character.” 357 Insbesondere genügen sie stochastischen Gesetzen und allen „effektiven“ Tests auf Zufälligkeit. Für eine kurze Zusammenfassung siehe Cover und Thomas (2006: Abschnitt 14.5; 479) sowie Li und Vitányi (2008: 56).
5.6 Invarianzen, Symmetrien und Symmetriebrüche
537
Die endlichen Folgen lassen sich als Approximationen der unendlichen auffassen, welche umso besser ausfällt, je größer die Anzahl n der möglichen Zustände (X1 , . . . , Xn ), also die Komplexität des Systems ist. Man beachte jedoch, dass für jedes endliche n die Konstellation weniger symmetrisch ist als im asymptotischen Fall. Während in der asymptotischen Situation fast alle Folgen x1 , x2 , . . . genau zur Hälfte aus einem der beiden Symbole bestehen,358 gilt dies für x1 , . . . , xn nur näherungsweise. Zugespitzt formuliert: Endlichkeit ist eine restriktive Randbedingung, welche Symmetriebrüche erzwingt - perfekte Symmetrie gibt es nur im Unendlichen. Durch das Mehr an Symmetrie im Unendlichen ergibt sich dort die dichotome Einteilung in zufällig versus nicht-zufällig, während man im Endlichen n-fach gestufte Grade der Komplexität unterscheiden muss (siehe S. 488). Diesem Weg konsequent folgend sind die wichtigsten Themen der heutigen theoretischen Physik “Laws, Symmetry, and Symmetry Breaking: Invariance, Conservation Principles, and Objectivity”.359 Das zentrale philosophische Ergebnis lässt sich in der Gleichung objectivity = invariance zusammenfassen. Jene erläutert Nozick (2001: 75ff) ganz ähnlich wie wir es in Abschnitt 1.4 getan haben: There are three strands to our ordinary notion of an objective fact or truth. First, an objective fact is accessible from different angles. Access to it can be repeated by the same sense (sight, touch, etc.) at different times; it can be repeated by different senses of the same observer; and also by different observers. Different laboratories can replicate the phenomenon [. . .] The second mark of an objective truth, related to the first, is that there is or can be intersubjective agreement about it. And the third feature concerns independence. If p is an objective truth, then it holds independently of people’s beliefs, desires, hopes, and observations or measurements that p.
Zur Verdeutlichung stellt er auch das Gegenteil dar: What can be experienced only at one instant by one sense modality of one observer is indistinguishable from random noise and does not (securely) count as an objective fact.
Schließlich betont er, dass Invarianz die übergeordnete Idee ist: However, there is a fourth and more fundamental characteristic of objective truth that I want to investigate here. An objective fact is invariant under various transformations. It is this invariance that constitutes something as an objective truth, and it underlies and explains the first three features (to the extent that they hold). 358
Und auch irgendeine andere Eigenschaft entweder haben oder nicht, was als „Null-EinsGesetz“ bezeichnet wird 359 Siehe (Earman 2004), van Fraassen (1990), für eine umfassende Darstellung Talal und Redhead (2007).
Kapitel 6
Integrative Wissenschaftstheorie
Man, being the servant and interpreter of nature, can do and understand so much and so much only as he has observed in fact or in thought of the course of nature: beyond this he neither knows anything nor can do anything. (Bacon 1620: Buch 2, Aphorismus 4, letzter Satz)
Wir kommen nun der Aufforderung Kempthornes (S. 247) nach und erweitern den unteren Teil des Forschungszirkels zu einer kompletten Wissenschaftstheorie. Der Umgang mit Daten wird so zum Herzstück quantitativer und oft mit größeren Unsicherheiten behafteter empirischer Wissenschaft, während sich der gesamte Zirkel (Abschnitt 5.2) als „Rad der Erkenntnis“ der empirischen Wissenschaften verstehen lässt. Dempster (1990: 262) formuliert wie folgt: “Statisticians participate directly and indirectly in scientific developments in many fields where statistical methodology is applied, so are well placed to develop a philosophy of science, including statistical science, that accords with the realities of practice.”
6.1 Der Forschungszirkel II [. . .] None but a fool or madman will ever pretend to dispute the authority of experience [. . .] (Hume 1748: Kapitel IV, Teil II)
Der Forschungszirkel1 funktioniert, indem, ausgehend von empirischer Erfahrung, “bottom up” induktive Verallgemeinerungen vorgenommen werden, welche sich zunächst zu einzelnen Hypothesen und dann zusammenhängenden Theorien verdichten. Letztere wiederum leiten uns “top down” bei der Suche nach Neuem, das heißt bei der Erhebung und anschließenden Bewertung neuer Daten, origineller Experimente usw.: 1
Siehe Abschnitt 5.2
U. Saint-Mont, Statistik im Forschungsprozess, DOI 10.1007/978-3-7908-2723-1_6, © Springer-Verlag Berlin Heidelberg 2011
539
540
6 Integrative Wissenschaftstheorie
Setzungen Hypothesen Substanzielle Generalisierung
Formale Ableitung Theorem
Numerisches Resultat
Operationalisierung
Formale Argumente Daten
Daten
Die Bewegung im Forschungszirkel ist kein Selbstzweck. Sie verfolgt das Ziel, systematisch Informationen über die die Realität zu gewinnen, d. h., die Realität besser zu verstehen. So gesehen ist er ein Werkzeug, das die dicken Bretter der Wirklichkeit bearbeitet oder sogar eine aufwändige Maschine, die sich durch das harte Gestein der Fakten wühlt. Es verblüfft dabei nicht, dass Experimenten eine so große Bedeutung zukommt, stellen sie doch gezielte Fragen an die Natur dar. Wie ein Handwerker, der mit großem Geschick das richtige Werkzeug an der passenden Stelle ansetzt, muss auch ein empirisch arbeitender Wissenschaftler darauf bedacht sein, seine Methoden sorgfältig auszuwählen und durch die Wahl einer aussichtsreichen Stelle voll zur Entfaltung kommen zu lassen. Mehr noch: Wie ein Chirurg muss auch er viele Methoden erst entwickeln, um in entlegeneren Bereichen erfolgreich operieren zu können. Hat man dergestalt Erfahrungen gesammelt, wird man versuchen, sie in eine logische widerspruchsfreie Form zu bringen. Wesentliche Begriffe und Zusammenhänge zeichnen sich mit der Zeit ab, die die Fakten vernetzen und auseinander herleiten. Im Laufe der Zeit wächst so ein Beziehungsgeflecht aus Begriffen und Erfahrungstatsachen. Wissen häuft sich an und wird tradiert. Und je mehr organisiertes Wissen vorhanden ist, umso gezielter kann man wiederum von der Theorie in die Erfahrung gehen, Vorhersagen prüfen und die Qualität der Daten steigern, z. B. indem man die Präzision von Messungen erhöht. In diesem Kreislauf sind alle Abschnitte wichtig. Man darf keinen Aspekt vernachlässigen oder überbetonen, ohne dass dies zum Nachteil des Ganzen wäre. Der einzige ausgezeichnete Punkt der Unternehmung ist „ganz unten“, wo der Kontakt mit der Realität hergestellt wird. Ohne ihn als Fundament und als Richter über unsere konzeptionellen Vorstellungen gäbe es keine moderne, empirische Wissenschaft und erst recht keinen zügigen Fortschritt, den wir fast als selbstverständlich hinnehmen. Genau deswegen ist Wissenschaft auch wahrheitsfähig und unterscheidet sich ganz entscheidend von allen anderen Glaubenssystemen: Ohne valide, reliable Daten gibt es auch keine präzisen und nützlichen Theorien. Zusammengefasst heißt das: 1. Der Archimedische Punkt jeder empirischen Forschung sind die Daten, also der gewollte, systematisch gesuchte Kontakt mit der empirischen
6.1 Der Forschungszirkel II
2.
3.
4.
5.
541
Erfahrung. Vernachlässigt man ihn, so löst sich bildlich gesprochen der Forschungszirkel aus seiner Verankerung. Die so gewonnenen Erfahrungen müssen einen entscheidenden Einfluss auf das Geschehen ausüben. Insbesondere verändern sie Einstellungen und motivieren zur Theoriebildung. Die große kreative Leistung in der Wissenschaft besteht in der Zusammenfassung vieler Einzelresultate zu einem oder wenigen in sich stimmigen Modell(en) bzw., noch etwas abstrakter, Theorie(n). Mithilfe dieser allgemeinen Konzepte lassen sich gezielt neue interessante Fragestellungen ableiten, Hypothesen generieren und aussichtsreiche Untersuchungen formulieren. Damit ist man wieder bei den Daten, dem Fußpunkt aller Wissenschaft angelangt.
Es ist letztlich die Realität, die sich in den Daten abbildet, auf denen alles beruht, wo überraschende Entdeckungen gemacht werden, und wo sich schließlich auch das Schicksal von Theorien entscheidet. Die Motti dieses Abschnitts und Kapitels formulieren diese Einsichten prägnant.
6.1.1 Induktion und Deduktion Wir glauben, dass sich Galilei durch eine ausgewogene Kombination von induktiver und deduktiver Methode auszeichnete und dass dies gerade der Schlüssel zu seiner bahnbrechenden Forschertätigkeit war. Schmutzer und Schütz (1989: 94)
Wir betonen nochmals ausdrücklich, dass sich im Forschungszirkel induktive und deduktive Methoden harmonisch ergänzen. Tukey (1986b: 228) beschreibt eindrucksvoll, warum sowohl deduktiv-konfirmatorische als auch induktiv-explorative Analysen unabdingbar sind: “[I recommend] a combined policy, where an analysis is planned before seeing the data (preferably before gathering it) but the actual analysis in not confined to that which was planned in advance. Is this really the best way to proceed? What are the pros and cons? Some would hold, indeed, that there is something unethical about allowing the data to guide its own analysis. Some of these would once have been (and some still are) purely mathematical statisticians, who sought exactness of probability statements and who saw no way to save this exactness if the mode of analysis was not prechosen. Others must have been urged on by feelings for which I have no ready analysis.2 The discomfort of the ‘purely mathematical’ statisticians revolved mainly, in my judgement, around problems of multiple comparisons and complex experiments.” Mit Techniken wie 2
Möglicherweise spielt Tukey damit auf die von uns häufig angetroffene und besprochene deduktive Grundhaltung an.
542
6 Integrative Wissenschaftstheorie
der α-Adjustierung konnten diese Probleme mathematisch überzeugend überwunden werden. Gleichwohl, “In the meantime, however, the principle that it is wrong for the data to guide its analysis has become an emotional commitment for too many. Even though its main reason for being has disappeared, we may expect this view to be clung to.” Unmittelbar im Anschluss wechselt Tukey auf die induktive Seite: “On the other side of the picture, it is even easier to argue that not letting the data guide its own analysis is unethical . . . not just statistically unethical, but scientifically unethical. If the data is really trying to tell us something, should we stop our ears to the answer, just because we didn’t think of the question in advance? Clearly not if we are seeking knowledge. We cannot afford to seek knowledge at the price of maintaining no contact at all with the reality of the likely effects of random fluctuations, but since present-day statistical techniques (and even more those of the near future) allow us to combine increasing degrees of data-guidance of analysis with reasonable control of exactness of probability statement, we dare not bind ourselves from the data-guidance in the conduct of our analyses.” Dies vertieft er in Tukey (1986d: 806): “[. . .] exploratory data analysis is an attitude, a state of flexibility, a willingness to look for those things that we believe are not there, as well as for those we believe might be there.” Zudem: “It is not enough to look for what we anticipate. The greatest gains from data come from surprises.” (Tukey 1973b: 793) Viele Autoren betonen an dieser Stelle auch die Analogie zur akribischen Analyse von Spuren bei der Aufdeckung von Kriminalfällen. Gerade dort können Vorurteile schnell in die Irre führen. Leamer (1983: 40) zitiert sogar ausdrücklich Sherlock Holmes: “It is a capital mistake to theorize before you have all the evidence. It biases the judgements.” Wirklich erfolgreiche Forschung kombiniert beide Erkenntnisrichtungen situationsadäquat und führt keine Glaubenskriege für die eine und gegen die andere Seite. Das heißt kurz und bündig: “Data analysis is like doing experiments” (Tukey und Wilk 1966: 552). Sie fahren fort: “The general purposes of conducting experiments and analyzing data match, point by point.” Es folgt eine lange Liste von (deduktiven wie induktiven) Analogien, insbesondere mit den Elementen description, discovery, confirmation, generation of ideas, die sie mit dem Satz beenden (ibd., S. 553): In summary, data analysis, like experimentation, must be considered as an openended, highly interactive, iterative process, whose actual steps are selected segments of a stubbily branching treelike pattern of possible actions.3
Ein schönes Beispiel liefern neue zugelassene Medikamente, also das Ergebnis erfolgreicher Pharmakologie. Zum einen werden mithilfe von physikalischchemischen Modellen aussichtsreiche Substanzen gezielt synthetisiert und 3
Wir verweisen auch nochmals auf Tukey (1980a) und Box (1990a: 390): “ [. . .] the proper study of the statistician is scientific method [. . .] an understanding of the process of investigation involves such things as the roles of induction as well as deduction, the nature of scientific learning, the importance of subject matter knowledge [. . .]”
6.1 Der Forschungszirkel II
543
dann systematisch auf ihre Wirksamkeit getestet. Diesem hypothesengeleiteten Vorgehen steht die routinemäßige Durchmusterung neuer, und oft in völlig anderem Zusammenhang hergestellter Stoffe auf ihre pharmakologische Wirkung hin dar. Beidesmal ist man offen für Überraschungen, kann es doch immer unerwartete Wirkungen aber auch Nebenwirkungen geben. Der Erfolg ergibt sich aus der situationsadäquaten Kombination beider Erkenntnisrichtungen, und es wäre töricht, aus prinzipiellen Gründen eine der beiden Richtungen auszuzeichnen oder zu ächten.4
6.1.2 Die historische Entwicklung von Wissenschaften So fängt denn alle menschliche Erkenntnis mit Anschauungen an, geht von da zu Begriffen und endigt mit Ideen. (Kant 1781: 649)
Die bisherigen Ausführungen in diesem Kapitel könnten den Eindruck entstehen lassen, der Forschungszirkel sei von Anfang an komplett oder er funktioniere nur, wenn er vollständig ist. Betrachtet man die historische Entwicklung von Wissenschaften, so erkennt man unschwer, dass dem nicht so sein kann. Vielmehr muss die Entwicklung bei der Empirie beginnen, und mit einer Wissenschaft wächst auch der zu ihr gehörige Forschungsprozess.
Von der Praxis zur Theorie - und zurück Jegliche empirische Theorie beginnt mit Fakten und wenigen, eher punktuellen Einsichten. Wie im Fall der Medizin ist im Vorfeld oft ein mehr oder minder ausgeprägter Erfahrungsschatz vorhanden. Wissenschaft beginnt, wenn dieser systematisch und kritisch überprüft und erweitert wird, wobei die Empirie das entscheidende Votum abgibt. Genau an dieser Stelle unterscheidet sie sich fundamental von Pseudowissenschaft, die nur vorgibt, so zu verfahren. Nun betonen viele Wissenschaftler, dass der induktive Teil von Erkenntnis der wichtigere ist. Woher kommt diese Einschätzung? Auf der Suche nach empirischem Wissen muss man ohne brauchbare Theorie natürlich bei den Fakten beginnen - wo sonst?5 Daraus folgt sofort, dass wir in all jenen Fel4
Der bedeutende Pharmakologe Born (2004) kommentiert deshalb äußerst kritisch, dass das blinde Ausprobieren überhand nimmt: „Fast scheint es, daß Methoden, die systematisch auf einem tieferen Verständnis von Krankheiten aufbauen, immer unbeliebter werden. Wenn blinde Technologie in einem solchen Ausmaß an die Stelle inhaltlichen Verstehens tritt, muß etwas Wertvolles verloren gehen.“ Hinzu kommt, dass eine „zufällig erzeugte“ chemische Verbindung nur in den seltensten Fällen eine hilfreiche Wirkung entfalten wird. Jedes natürlich vorkommende Molekül hat hingegen eine lange Evolution durchlaufen, d. h. es hat sich in einer langen, intensiven Auseinandersetzung mit seiner Umgebung bewährt. 5
Wir schließen uns also der langen Tradition der Metaphysikkritik an. Quelle aller unserer Information über die Realität ist die empirische Erfahrung.
544
6 Integrative Wissenschaftstheorie
dern, in denen eine umfangreichere Theorie fehlt bzw. kaum vorhanden ist, zuallererst einmal aus unserem unmittelbaren Erfahrungsschatz schöpfen. Induktion steht am Anfang jeder Wissenschaft, nur auf diesem Weg lässt sich aus isolierten Fakten ein zusammenhängendes Konzept zimmern. Die Tatsache, dass in den Wirtschafts- und Sozialwissenschaften de facto vor allem induktiv gearbeitet wird, auch wenn nur einige Mutige wie Leamer (1978, 1983) dies explizit zugeben mögen, zeigt, wie gering unser tatsächliches Wissen in jenen Bereichen ist. Befindet sich ein Feld noch in seiner induktiven Phase, so konzentriert sich anschaulich gesprochen konzentriert die Forschungsarbeit auf den rechten Teil des Forschungszirkels. Mit fortschreitender Einsicht kommt man jedoch auch zu stärkeren Modellen. Jene stützen sich auf mehr Daten, sind in der Lage größere Klassen von Phänomenen zu berücksichtigen, und auch die Vorhersagen werden besser. Das heißt, zum rein induktiven Aufstieg gesellt sich ein theoretischer Teil einer Wissenschaft, verbunden mit zuweilen möglichen deduktiven Ableitungen. Natürlich kann man auch schon zuvor - die traditionelle Statistik lässt grüßen - kontrollierte Experimente durchführen, welche zuverlässige Daten liefern. Allein, da der theoretische Überbau fehlt, der die Ideen kanalisiert und die Fragen leitet, ist es schwer, gute, informative Experimente überhaupt zu formulieren. Technisch formuliert: So reliabel eine Messung auch immer sein mag, ohne Hintergrundwissen ist es zumeist um die Validität eher schlecht bestellt. Erst bei einer weiter entwickelten Wissenschaft schließt sich der Kreis. Induktive und deduktive Methoden haben ihren Platz, die Theorie ist nicht mehr trivial. Langsam verdrängen zudem Experimente „zufällige“ interessante Beobachtungen als empirische Basis, und gezielte Experimente gehen mit weitreichenden Interpretationen einher. Mit der höheren Präzision und den „tieferen“ Begründungen geht zudem ein Drang zur Formalisierung einher, das heißt, die Bedeutung mathematischer Verfahren und logisch-exakter Argumentationen nimmt zu. Die Aktivitäten im Forschungszirkel verlagern sich also, wieder bildlich gesprochen, nach oben und nach links, und das Rad der Erkenntnis kommt in Schwung. Einige typische Entwicklungslinien - ohne Anspruch auf Vollständigkeit - sind: 1. Aus speziellen und isolierten Ansätzen werden umfassendere Theorien. Ad-hoc-Ansätze treten in den Hintergrund, während methodisches Vorgehen und von Theorien motivierte oder geleitete Strategien an Bedeutung gewinnen. 2. Wissenschaft ist insofern eine Methode der sukzessiven Approximation, als dass die Modelle aus einer (erklärenden) Struktur sowie Zufallskomponenten bestehen, wobei unter der letzteren Rubrik auch alles gesammelt wird, was man noch nicht versteht. Im Laufe der Zeit lässt sich mehr und mehr des nicht erklärten „Zufalls“ als nicht-triviale Struktur auflösen. In diesem Sinne werden die Modelle feiner und besser, Wissen sammelt sich an.
6.1 Der Forschungszirkel II
545
3. Wie bei einer Bibliothek, deren Detailtiefe immer mehr zunimmt, benötigt man, allein schon, um den Zusammenhalt zu wahren, einen mitwachsenden hierarchischen Überbau. Tatsächlich ist der Zusammenhang sogar noch weit enger. Beginnend bei der Physik bauen die Wissenschaft aufeinander auf, ohne dass man (bislang und womöglich auch prinzipiell) die Gesetzmäßigkeiten einer Größenordnung aus der jeweils darunterliegenden herleiten könnte. 4. Subjektive Erwägungen kommt immer eine zentrale Bedeutung zu, da Wissenschaftler die bewussten Akteure sind. Ihre persönlichen Maßstäbe sind jedoch nicht willkürlich, da sie von den Fakten und den herrschenden Theorien als „Randbedingungen“ kanalisiert und beeinflusst werden. Je mehr Theorie und Methoden entstehen, desto geringer muss dem entsprechend der Anteil subjektiver Einschätzungen werden.6 5. Es schälen sich allgemeine Prinzipien heraus, die allen empirischen Wissenschaften gemeinsam sind. Dabei handelt es sich nicht nur um prinzipiell-philosophische Haltungen, wie die Priorität der Empirie, die Bedeutung von Experimenten, das Gebot der systematischen Überprüfung (insbesondere Replikation) von Ergebnissen, die Suche nach tieferliegenden Begründungen, etwa den Mechanismen, die wirksam sind usw. Vielmehr ist auch hier der Zusammenhang enger: Gesetzmäßigkeiten eines Bereichs lassen sich auf strukturähnliche Abschnitte substanziell völlig verschiedener Gebiete übertragen. Mathematische Formalismen, die für ein Problem entwickelt wurden, eigenen sich zuweilen an ganz anderer Stelle, Mess-, Skalen-, Invarianz- und Symmetrieüberlegungen finden sich in allen Wissenschaften usw. Wie beim Individuum so wird auch beim kulturellen Projekt wissenschaftlicher Forschung in einem gewissen Sinne der Wissenserwerb immer einfacher, je mehr man bereits weiß. Das liegt daran, dass man bei neuen Problemen nicht mehr „bei Null“ anfangen muss, sondern sich am inhaltlichen und methodischen Wissen entwickelter Felder orientieren kann. Wissenschaft ist jenseits der Konkurrenz der Individuen ein symbiotisches und im Wesentlichen kumulatives Unterfangen. Abstrakte mathematische Modelle lassen sich oft ganz verschieden interpretieren und damit auch in ganz verschiedenen Bedeutungszusammenhängen anwenden, experimentelle Methoden der einen Wissenschaft lassen sich auch auf einem anderen Feld - möglicherweise geeignet adaptiert - verwenden. Besonders häufig und naheliegend ist, dass konkrete substanzielle Erkenntnisse unmittelbar eine Wirkung in einem angrenzenden Feld entfalten. Die Medizin kommt vor allem deswegen zur Zeit so schnell voran, weil sie systematisch biologisches Wissen nutzt und moderne Methoden (Analyse- und bildgebende Verfahren) anwendet. Borrowing strength ist in jeglicher Hinsicht ein Erfolgsrezept auf den verschlungenen Pfaden, die zum 6
Standardmethoden und etablierte Theorien können jedoch nie das Denken ersetzen, auch wenn z. B. ein Arzt heute seine Diagnose mit weit objektiveren Mitteln begründen kann als noch vor 50 oder 100 Jahren.
546
6 Integrative Wissenschaftstheorie
wissenschaftlichem Erfolg führen, Isolation hingegen ist der erste Schritt auf dem geraden, mühelosen Weg in die Geschichtsbücher und Archive.7 Andererseits werden wie auch beim Individuum die zu lösenden Probleme tendenziell immer schwerer. Kommt man in der Grundschule noch mit wenigen Tricks schnell ans Ziel, so ist dem später nicht mehr so. Konnte ein Naturwissenschaftler vor wenigen Jahrhunderten mit wenig Aufwand eine wichtige neue Entdeckung machen, so wird dies heute immer schwerer. Je komplexer die Methoden werden, je aufwändiger der Forschungsprozess wird - auch weil die leicht zu erschließenden Minen erschöpft sind -, desto problematischer wird es, voranzukommen. Bislang wirft eine Investition in den Erkenntnisgewinn zwar immer noch große Erträge ab, doch könnte sich dies auf längere Sicht gesehen durchaus ändern. (Man denke an die pharmazeutische Industrie.) Der Forschungszirkel einer sich entwickelnden Wissenschaft gleicht einem sich schnell drehenden Rad systematischer Informationsgewinnung und Verarbeitung: 1. „Unten“ werden tiefere, also schwerer zu erreichende Schichten der Realität erreicht, als am Anfang. Wir beobachten nicht mehr mit dem bloßen Auge, sondern mit Mikroskopen, Teleskopen und einer Vielzahl weiterer, hochdiffiziler Instrumente. 2. Der Weg „rechts“ von den Daten zur Theorie wird immer länger. Kann man wenige Daten noch mit einfachen Verfahren und per Hand auswerten, so braucht man bei den heute üblichen Umfängen der Datensätze Hochleistungscomputer und fortschrittliche Verfahren aller Art. 3. Die Theorie „oben“ ist weit größer und umfangreicher als am Anfang, insbesondere auch mit Theorien benachbarter Gebiete vernetzt. Es kommt heute weniger auf die kleine Ad-hoc-Erklärung an, als auf den substanziellen Beitrag zum großen Gesamtgebäude der Wissenschaft. Nicht zuletzt sind gute Theorien präzise Theorien, d.h. die Mathematisierung schreitet auch hier immer mehr voran. 4. Der Weg „links“ wird ebenfalls länger. Aus einer abstrakten Grundkonzeption gut interpretierbare Fakten, also einen aussagekräftigen Theorietest, abzuleiten, fällt weit schwerer als im Fall beobachtungsnaher Begriffe. 7
Die Isolation eines Gebiets geht meist mit einer ausgeprägten Binnensicht seiner Vertreter einher. Jene arbeiten weit weniger problemorientiert, setzen sich also systematisch Anstößen von außen aus, als dass sie eine bestimmte Grundkonzeption verfeinern. Das gilt im Prinzip, wenn auch in unterschiedlichem Ausmaß, für die Psychoanalyse, die Systemtheorie und die Philosophie genauso wie für die Messtheorie und die mathematische Statistik. Wirklich erfolgreiche, tonangebende Felder entwickeln sich nicht zuletzt aufgrund ihres starken Praxiskontakts rasant, die Ingenieurwissenschaften und die Informatik sind hierfür nur zwei Beispiele von vielen.
6.1 Der Forschungszirkel II
547
Theoriegeleitete Wissenschaften Eine entwickelte Wissenschaft verfügt schließlich über eine ausgedehnte, oft sogar ziemlich einheitliche Theorie. Sie ist präzise und auch deshalb zumeist mathematisch formuliert. Aus ihr werden konkrete Hypothesen und experimentelle Fragestellung abgeleitet. Das heißt, der deduktive Weg der Erkenntnis beginnt wichtiger zu werden als der induktive, zumal gezielte Experimente unspezifische Beobachtungen als empirische Basis weitgehend verdrängt haben. Selbstverständlich benötigt man für die Interpretation der Fakten nach wie vor mehr als nur ein logisch-deduktives Verständnis, aber die große Freiheit des induktiven Anfangs ist dahin, da alle Beobachtungen im Wesentlichen in den Kontext anerkannter Prinzipien und Ideen eingeordnet werden. Hiervon stark abweichende Deutungen gelten schnell als exotisch oder sogar völlig unplausibel. Kurzum: Eine reife Wissenschaft wird deduktiv betrieben. (Für einschlägige, charakteristische Zitate Duhems und Liebigs siehe Heidelberger (2007: 160f).) Je mehr sich die Theorie entwickelt, desto länger muss zudem mit deren Studium zugebracht werden. Konnte man in den Anfängen eine Idee noch intuitiv in ein paar Sätzen erläutern und reichten ein paar Indizien zu ihrer Stützung aus, so verkleiden sich nun konzeptionelle Einfälle in aller Regel im Gewand einer speziellen und höchst komplexen Mathematik, die auch nur noch mit aufwändigen Experimenten getestet werden können. Zuweilen hat man den Eindruck, Mathematik sei wichtiger als fachwissenschaftliche Intuition, da alles, was sich nicht mathematisch formalisieren lässt, auch bei weitem nicht so ernst genommen wird, wie ein mathematisch präzisiertes Argument. Innerhalb der Modelle lässt sich zudem hervorragend simulieren, so dass Experimente nur noch dann eingesetzt werden, wenn man sich über die Genauigkeit der Simulation im Unklaren ist. Im Extremfall kann man sogar auf die Idee kommen, den Fakten bzw. die Realität nur die Rolle eines einsilbigen Ja-Nein-Antwortgebers auf eine zuvor gestellte Frage zuzugestehen. Typischerweise wächst mit der Theorie „oben“ auch die Menge der durch sie erklärbaren Daten „unten“. Es wäre also falsch anzunehmen, Daten und Theorie seien unabhängig, die Menge der zu erklärenden Fakten wäre fest oder die Güte einer Theorie sei unabhängig von den Daten. Die deduktiven und induktiven Zusammenhänge sorgen dafür, dass beide Bereiche interagieren. Da die Daten das Fundament darstellen, kann bzw. muss sich eine umfängliche Theorie auf viele, oft höchst verschiedenartige Daten stützen. Wächst die Präzision der Messung, so wird dies auch von der Theorie nachvollzogen werden. Natürlich determiniert die Theorie nicht, wie das Ergebnis einer Messung ausfällt, wohl aber wird ein Experiment in einer entwickelten Wissenschaft theoriegeleitet aufgebaut und interpretiert. Trotz aller Interaktion kann sich der Anwendungsbereich so ausdehnen, dass die fundamentalen konzeptionellen Zusammenhänge nicht mehr tragen, man die ganze Theorie also aufgrund der praktischen Erfahrung prinzipiell umarbeiten muss. In der Physik kam es dabei sogar vor, dass sich die Theorie
548
6 Integrative Wissenschaftstheorie
mit dem Vorstoß in sehr große und sehr kleine Dimensionen aufspaltete. Nun ist dies zwar im Sinne einer konzeptionellen Einheit nicht erfreulich, aber durchaus nicht anders zu erwarten, wenn man den Daten sowie der Passung von Theorie(n) zu Daten die Priorität einräumt. Lieber zwei Theorien, die in ihrem jeweiligen Bereich sehr gut funktionieren, als eine Theorie, die weder mit der einen noch der anderen Situation überzeugend zurechtkommt. Etwas allgemeiner gesprochen können sich verschiedene Theorien auf jeweils eigenständige Daten, also gewisse Fakten stützen, die sie bevorzugt erklären. So kann es zu mehr oder minder widerstreitenden Schulen kommen - entweder weil die zugehörigen Theorien noch nicht in der Lage sind, alle Fakten zu integrieren, oder aber, weil sie dazu nicht mehr in der Lage sind.8 Aufgrund des induktiven Schritts von den Daten zur Theorie legen darüber hinaus irgendwelche Daten nie die Struktur einer Theorie fest. Das heißt auch, dass Modelle mit völlig verschiedener innerer Struktur dieselben Daten gleich gut approximieren und erklären können. Mehr noch, Umbrüche von einer bestimmten Weise der Erklärung zu einer völlig andersgearteten können sich - zumindest im Prinzip - jederzeit ereignen. Dem üblichen, auf Kuhn zurückgehenden Sprachgebrauch folgend, wird dies als eine „wissenschaftliche Revolution“ und die sukzessive Erweiterung sowie Vertiefung eines Modells als (evolutionäre) „Normalwissenschaft“ bezeichnet. In manchen „ jungen“ Wissenschaften ist deren Lebensdauer so gering, dass „Revolutionen“ an der Tagesordnung sind, während die stetige, evolutionäre Weiterentwicklung eher die Ausnahme ist. Die Details dieser Theorieentwicklung sind höchst interessant, wurden in den letzten Jahrzehnten intensiv untersucht, und waren, wie in fast jedem Lehrbuch der Wissenschaftstheorie ausführlich beschrieben, Gegenstand ausgedehnter Kontroversen. Es hieße eine Geschichte der analytischen Wissenschaftstheorie schreiben, wollte man auf alle dabei zu Tage geförderten Aspekte eingehen. Für weitere Ausführungen zur Wissenschafts- und insbesondere Theoriedynamik verweisen wir auf Bartels und Stöckler (2007: Leitthema I), Carrier (2006: Kapitel 5), die Beiträge von Carrier, Hoyningen-Huene und Moulines in Hubig (1997), Saint-Mont (2000: 2. Teil) sowie Gillies (1993) und Ladyman (2002). Wie der Forschungszirkel unschwer zeigt, kann die Theoriedynamik nur ein Aspekt des gesamten Forschungsprozesses sein, dazu mehr ab Abschnitt 6.2.1. Der Vollständigkeit halber sei noch erwähnt, dass es auch an der Spitze des Forschungszirkels einen (kleinen) Konflikt gibt, nämlich wie die grundlegenden Setzungen zu wählen sind. Der von Hilbert begründete Formalismus in der Philosophie der Mathematik9 betont nicht zuletzt die Beliebigkeit der Axiome und erst recht der verwendeten Begriffe. Hilbert (1944: 17f) schreibt: „Wenn sich die willkürlich gesetzten Axiome nicht einander widersprechen mit 8
Es sind sogar mehrere Wechsel zwischen einheitlicher Theorie und einer Reihe von Schulen denkbar. 9
Siehe z. B. Hilbert und Bernays (1968), Mancosu (1997: Teil III) und Ewald (2005: Kapitel 24).
6.1 Der Forschungszirkel II
549
sämtlichen Folgen, so sind sie wahr, existieren die durch die Axiome definirten (sic) Dinge [. . .] Ja, es ist doch selbstverständlich eine Theorie nur ein Fachwerk oder Schema von Begriffen nebst ihren nothwendigen Beziehungen zu einander, und die Grundelemente können in beliebiger Weise gedacht werden. Wenn ich unter meinen Punkten irgendwelche Systeme von Dingen, z. B. das System: Liebe, Gesetz, Schornsteinfeger. . ., denke und dann nur meine sämmtlichen (sic) Axiome als Beziehungen zwischen disen Dingen annehme, so gelten meinen Sätze, z. B. der Pythagoras auch von diesen Dingen [. . .].“ (Meine Hervorhebungen.) Für die meisten Physiker, auch Einstein (1953), erwachsen die Axiome jedoch aus einer Abstraktion der Realität. Das kommt auch in Hilbert (1899: 1) klar zum Ausdruck, wo er zuallererst einmal auf die Anschauung verweist. Genauer gesagt beginnt er expressis verbis mit dem (Kant 1781) entlehnten Motto dieses Abschnitts und sagt wenige Zeilen später explizit: „Die Aufstellung der Axiome der Geometrie und die Erforschung ihres Zusammenhanges [. . .] läuft auf die logische Analyse unserer räumlichen Anschauung hinaus.“
6.1.3 Funktionsfähigkeit und Ertrag des Forschungszirkels Das Rad ist die Basis von Mobilität, aber auch die Grundvoraussetzung zahlloser mechanischer Gegenstände von der Uhr bis zum Aufzug.10
Alles zu seiner Zeit Es ist wichtig festzuhalten, dass sich, wie wir gerade entwickelt haben, mit dem Fortschritt einer Wissenschaft auch deren erfolgversprechendste Forschungsstrategie wandelt. Die relative Bedeutung der einzelnen Komponenten verschiebt sich. Es ist völlig natürlich und gesund, wenn viele Physiker mit hochgradig mathematischen Werkzeugen an formalen Modellen feilen. Eine ausgedehnte, etablierte Theorie bedarf umfangreicher Wartungs- und Weiterentwicklungsarbeiten. Anders in einer weniger entwickelten Wissenschaft, etwa der Soziologie. Dort ist es völlig unangemessen, vorwiegend zu theoretisieren, was ohne ebenso umfangreiche, solide empirische Basis nahezu zwangsläufig in die Spekulation führen muss. Ebenso unangemessen ist es, bei einer wenig belastbaren Theorie ausgedehnte Formalismen zu pflegen und strenge, möglichst deduktive Ableitungen von Hypothesen zu fordern. Derartige unnötige Fingerübungen degenerieren schnell zu Ritualen und lassen eine Wissenschaft schlimmstenfalls steril werden, wofür, wie wir gezeigt ha10
Auszug aus der Hightech-Strategie der Bundesregierung. Siehe www.hightech-strategie.de/top100/patent/33/start/rad.php (Aufruf am 17. 09. 2009)
550
6 Integrative Wissenschaftstheorie
ben, die angewandte Statistik ein (un)schönes Beispiel ist. Viel wichtiger sind hier aussagekräftige Experimente und nichttriviale Verallgemeinerungen, die über das Alltagsverständnis hinausgehen. Es nützt auch wenig, sich in weniger entwickelten Wissenschaften auf eine spezielle Wissenschaftstheorie zu berufen. Zu lösen sind zuallererst einmal fachwissenschaftliche Probleme, nicht Probleme philosophischer Art. Wie wenig ist die Psychologie mit Spekulation (Psychoanalyse), positivistischem Dogma (Behaviorismus), deduktiven Methoden (mathematische Psychologie) und weichen Daten (Befragungen, Tests) vorangekommen, und wie schnell entwickelt sie sich zur Zeit mit aussagekräftigen Daten (bildgebende Verfahren) und biologisch-physiologischen Modellen! Eine Theorie wird nur ein wenig besser, dass sie sich auf eine angemessen philosophische Grundlage berufen kann, weit mehr gewinnt sie, wenn sie sich mit praxisrelevanten Themen auseinandersetzt und bei der Lösung konkreter Probleme hilft. Vollends irreführend ist es schließlich, sich auf die Strategie einer entwickelten Wissenschaft zu berufen, die im Forschungsprozess notwendigerweise andere Akzente setzen muss. Poppers Forderung nach einer durchgehend deduktiven Methodik für alle Wissenschaften wird so für die Wirtschafts- und Sozialwissenschaften zum verführerischen Gesang der Lorelei, der in größerem Maßstab entwicklungshemmend wirkt. Am Beispiel der Psychophysik haben wir in Kapitel 2 gezeigt, wie fruchtlos dies ist. Wie schon Tukey richtig bemerkte, ist es viel lehrreicher zu sehen, wie die heute etablierten Wissenschaften tatsächlich errichtet wurden, als mithilfe der Retrospektive zu normativen Vorgaben zu kommen.
Der Ertrag Wissenschaft ist erfolgreich. Sie macht Entdeckungen, vertieft unser Verständnis und sorgt für einen unablässigen Strom nicht-trivialer technischer Anwendungen. Ihre fast unübersehbaren, historisch beispiellosen Errungenschaften werden in der einschlägigen Literatur ausführlich gefeiert, weshalb es sich wohl erübrigt, abermals auf ihre tiefsinnigsten Theorien und verblüffendsten Verwendungsmöglichkeiten einzugehen. Jede historische Darstellung zeigt, dass im Regelfall Probleme sogar gelöst und zentrale Fragen endgültig beantwortet werden (Wilson 2000, Bryson 2005). Es gibt keine konkreten Gründe mehr, am Heliozentrischen System, der Evolutionstheorie, dem Periodensystem der Elemente oder den genetischen Mechanismen der Vererbung zu zweifeln. Schon vor Karl K. Pearson (1892) wurde dieser kumulative Aspekt von Wissenschaft deutlich gesehen. Eine moderne Formulierung findet sich bei (Stove 2000: 21): Much more is known now than was known fifty years ago, and much more was known then than in 1580. So there has been a great accumulation or growth of knowledge in the last four hundred years.
6.1 Der Forschungszirkel II
551
Daran ist zweierlei bemerkenswert: Erstens, dass die Wissenschaft scheinbar selbstverständlich Fort-Schritte macht, also nicht, wie so viele andere Projekte, auf der Stelle tritt. Unsere Antwort darauf haben wir mit dem Forschungszirkel gegeben. Zweitens, dass man die offensichtliche Tatsache des Wissenszuwachses heutzutage ausdrücklich betonen muss! Der Grund ist, dass die aktuelle Wissenschaftstheorie in ihren soziologischen, antirealistischen und postmodernen Spielarten außerordentlich skeptisch ist und gerade den Fortschrittsgedanken gerne attackiert (Volland 2007). Eine ausführlichere Antwort muss sich im Detail mit den aktuellen wissenschaftstheoretischen Schulen auseinandersetzen, weshalb wir sie auf die nächsten Abschnitte verschieben. Aufgrund der empirischen Erfahrung sind wir weit optimistischer und gehen sogleich daran, konstruktive Ergebnisse langer, konkreter wissenschaftlicher Arbeit auf der philosophischen Ebene aufzuzählen: • Realistische Interpretationen. Ein Ad-hoc-Verfahren geht oft mit einer neuen Messmethode einher. Insofern empfiehlt sich zunächst eine operationale Definition, die die Abhängigkeit des Gemessenen von der Methode in den Vordergrund stellt. Liefern verschiedenartige Vorgehensweisen jedoch ähnliche Ergebnisse, so greifen Invarianzüberlegungen und es wird mehr und mehr offensichtlich, was auf die spezielle Methodik zurückgeht und was allen Ergebnissen gemeinsam ist, sich also auf die Realität attribuieren lässt. Standardbeispiele sind viele „aus Verzweiflung“ bzw. mathematischer Notwendigkeit eingeführte Größen (Plancksches Wirkungsquantum, Antimaterie, kosmologische Konstante), die im Verlauf der Entwicklung nicht mehr wichen. Lässt sich eine Größe mit anderen Theorieteilen vernetzen, so erscheint es erst recht angemessen, realistischere Interpretationen zu verteidigen. • Sukzessiv stärke Interpretationen innerhalb des Realismus. Wie wir schon (S. 176) erwähnt haben, gibt es verschieden starke Versionen des Realismus. Interpretiert man an einem statistischen Modell lediglich die wesentliche Struktur realistisch (Bsp.: Wenige Faktoren sind zu beachten, die approximativ linear zusammenhängen), so ist ein solcher Strukturrealismus offenkundig weniger weitreichend als ein detaillierter Entitätenrealismus, der die einzelnen Faktoren identifiziert und ihre Zusammenhänge quantifiziert (Bsp.: Nur Geschlecht und Alter haben einen Einfluss auf den Krankheitsverlauf, und zwar gemäß der Formel . . .) Noch weitergehend ist die Idee vom „wahren Modell“, welches alle relevanten Faktoren samt ihren wechselseitigen Abhängigkeiten erfasst. Bei einem solchen Modell (Bsp.: Periodensystem der chemischen Elemente) können alle Komponenten des Modells realistisch interpretiert werden, so dass man von einem „vollständigen Realismus“ sprechen könnte. • Objektivität. Jene erwächst aus subjektiven Anfängen durch experimentelle Vorkehrungen (z. B. Standardisierung von Messungen), in Form von intersubjektiver Übereinstimmung (Konsens), intersubjektiven Kontexten (insbesondere Mathematik), und durch Invarianz bei Perspektivwech-
552
6 Integrative Wissenschaftstheorie
sel. Wissenschaft ist nicht per se objektiv. Es sind ihre Methoden und Maßstäbe, welche zu (annähernd) objektiven Resultaten führen. Kurz gesagt: Objektivität muss man sich erarbeiten. Ein Standardbeispiel ist die Interpretation von Wahrscheinlichkeiten entlang der Entwicklung: Vage subjektive Einschätzung, Präzisierung durch Wettverhalten, konsistentes Kalkül, Verknüpfung mit beobachtbaren Häufigkeiten, logische Wahrscheinlichkeit in einem realistischen Modell. Ein anderes Beispiel ist die Kausalität als eine deterministische Struktur, die sich hinter vielen Zufallseinflüssen verbirgt. Auch einen kausalen Zusammenhang bekommt man nicht geschenkt, sondern er ist das Endergebnis viele Studien (die insbesondere Alternativerklärungen überzeugend ausschließen). • Gesetze. Das Endergebnis sind allgemeine Theorien und allgemein gültige Gesetze mit hoher Erklärungs- und Prognosekraft. Ihrer überzeugenden, fundierten Kombination von Realismus und Objektivität verdanken sie ihre herausgehobene Stellung.11 Jene macht sie besonders attraktiv, doch entsprechend schwer kommt man auch an sie heran. Viele Autoren sprechen sogar, wie Jeffreys (1973: 12), von einer sukzessiven Approximation (im Sinne immer besserer Modellpassung) an die Realität: “Scientific progress never achieves finality; it is a method of successive approximation.”
Pathologien Die Umkehrung des gerade Gesagten ist: Es ist einfach und es gibt viele Möglichkeiten, die obigen Ziele zu verfehlen. Ein Übermaß an Spekulation, mangelnde Bemühungen, das subjektive Moment einzudämmen oder auch nur die Lust an der Debatte - ohne ausreichende Würdigung der Fakten -, genügen, das Endergebnis zu schwächen. Man kann kaum hoffen, auf ein Naturgesetz zu stoßen, wenn man nicht gewillt ist, der Natur zuzuhören. Und da wir alle gerne hätten, dass die Welt so ist, wie wir sie uns wünschen, sollten wir uns sogleich mit einer ziemlich plumpen und zugleich äußerst effektiven Art, Wissenschaft zu unterminieren, vertraut machen. Jene besteht in der schlichten Missachtung von Daten, deren Manipulation, bis hin zur Erfindung „gewünschter“ Fakten. Jüngere Untersuchungen12 belegen leider, dass es sich hierbei nicht um eine Randerscheinung im modernen Wissenschaftsbetrieb handelt. Doch schon weit vor betrügerischen Machenschaften beginnt die systematische Schwächung des Realitätsbezugs. In einem Bericht an das New England Journal of Medicine hieß es schon 1987, zitiert nach Judson (2004: 39): Replication, once an important element in science, is no longer an effective deterrent to fraud because the modern biomedical research system is structured to prevent 11 12
Siehe z. B. Hüttemann (2007) Siehe z. B. Fischer (2004), Judson (2004), Sackett und Oxman (2003)
6.1 Der Forschungszirkel II
553
replication - not to ensure it [. . .] Academic credit [. . .] tends to be given only for new findings.13
Auch die Skepsis an kontrollierten klinischen Studien wird erheblich verstärkt durch die Tatsache, dass “They are expensive, decentralized, difficult to supervise, and effectively impossible to replicate [. . .] In short, large clinical trials invite sloppiness and cheating” (Judson 2004: 296). Das Modell des Forschungszirkels erlaubt darüber hinaus, konkrete Pathologien zu identifizieren. Einige typische Beispiele: 1. Fehlt die empirische Bodenhaftung, so hebt die Theorie ab, wird vage und neigt zum Dogmatismus. Die Stringtheorie(n) der aktuellen theoretischen Physik sind hierfür gute Beispiele, werden sie doch seit Jahrzehnten intensiv mathematisch erforscht, ohne dass sich bislang prüfbare Aussagen ergeben hätten. Stattdessen versteigen sich ihre Vertreter in immer wildere Spekulationen (Smolin 2006, Woit 2006, Lüst 2009). Laughlin (2007: 174) findet hierfür die Worte: „Wie überall ist auch in der Wissenschaft eine gesunde Dosis experimenteller Wirklichkeit das beste Gegengift gegen die Krankheit Mythologie.“ Ibd., S. 176 verschärft er dies zu: „Ideologien [verhindern] Entdeckungen. Wir alle sehen die Welt eher so, wie wir sie gern hätten, und nicht so, wie sie eigentlich ist, weil das in unserer Natur liegt.“ 14 Misst man der Theorie zu viel Bedeutung bei, so verwechselt man zudem schnell das Modell mit der Realität. Tatsächlich verlässt man aber auch mit der schwierigsten, weil allgemeinsten Mathematik nie die theoretische Arena und übersieht leicht, dass die anderen Teile des Zirkels mindestens genauso wichtig sind. 2. Legt man hingegen zuviel Gewicht auf das empirische Moment, so neigt man zu pragmatischen Black-Box-Ansätzen ohne tieferen Erklärungswert. Wie der Ingenieur, der sich immer irgendwie zu helfen weiß, kommt man zwar meist ganz gut zurecht. Es fehlt aber das spekulative Element und auch die Erklärungs- und Prognosekraft einer einheitlichen Theorie. 3. Fehlt die induktive Verallgemeinerung, so verheddert man sich im Chaos der Phänomene. Es fehlen allgemeine Prinzipien, die die Beobachtungen ordnen. Die großen Heroen der Wissenschaft, deren Namen man auch noch Jahrhunderte später kennt, haben allesamt in einer herkulischen Anstrengung eine Vielzahl von Phänomene in eine belastbare allgemeine Konzeption eingeordnet. Lehnt man die Induktion aus prinzipiellen Gründen sogar völlig ab, so bricht man bildlich gesprochen ein wesentliches Teil aus dem Forschungszirkel. Zurück bleibt eine verkrüppelte, auf dem Bein 13
Fast gleichlautend beschreibt Feynman (2005b: 456f) die Situation in der Psychologie vor über 60 Jahren. Siehe auch Rosenthal (1990). 14
Er ergänzt noch (ibd., S. 248): „Ein Leitsymptom für ideologisches Denken ist die Erklärung, die nichts impliziert und nicht getestet werden kann. Ich bezeichne solche logischen Sackgassen als Antitheorien, weil sie sich genau gegenteilig auswirken wie richtige Theorien: Sie lassen das Denken zum Stillstand kommen, statt es anzuregen.“
554
6 Integrative Wissenschaftstheorie
der Deduktion hinkende Wissenschaft. So wichtig die Deduktion und die zielgerichete Ableitung aussagekräftiger Experimente auch sein mögen ihre messerscharfen Zähne vermögen nur wirklich zuzubeißen, wenn sie fest im Gesamtkreislauf verankert sind. 4. Akzentuiert man andererseits die Rolle der Induktion zu sehr, so übersieht man die logische Kraft der Deduktion, die große Bedeutung einer wegweisenden Theorie, und die Möglichkeiten gezielter Experimente. Man sammelt überreichlich Material, ohne je daraus ein Haus zu bauen.
6.2 Wissenschaftstheorie im Forschungszirkel Philosophy which [. . .] detaches itself from science and from the problems which scientific progress continually raises, thus depriving itself of the only possible source of nourishment, and condemning itself to sterility and fossilization in the monotonous repetition of sentences which become more and more empty. De Finetti (2006: 71), zitiert nach Gillies (2009: 251)
Der Kern moderner Wissenschaft ist erfolgsorientierte Forschung. Ein Modell hierfür ist der Forschungszirkel. Um diesen dreht sich im wahrsten Sinne des Wortes auch die Wissenschaftstheorie, strebt sich doch nach einem vertieften, allgemeinen Verständnis ihres Untersuchungsgegenstands. Ab diesem Abschnitt wenden wir deshalb den Forschungszirkel auf die Wissenschaftstheorie an. Dabei stoßen wir bemerkenswerterweise sogleich auf die vier gerade erläutert Pathologien „oben, unten, links und rechts“:
6.2.1 Unwuchten I believe that there is no filling in for the blank in ‘Scientific progress consists in that is both pithy and adequate. (Earman 1992: 183)
’
Theorielastigkeit Betrachtet man die etablierte Wissenschaftstheorie, so stehen seit fast einem Jahrhundert Theorien im Mittelpunkt. Heidelberger (2007: 155) schreibt: „Bei der entscheidenden Rolle, die [1890] dem Experiment bei der Erzeugung von Wissen zugesprochen wird, muss es verwundern, dass sich seit dieser Zeit in der Wissenschaftsphilosophie eine deutlich andere Auffassung [. . .] durchsetzte und insgesamt das Interesse am Experiment stark abgenommen hat. Mit der Umdeutung des Experiments in der philosophischen Diskussion und seiner Vernachlässigung in ihrem Gefolge verlagerte sich der Schwerpunkt auf den Begriff der Theorie und ihre Funktion.“ Bartels und Stöckler (2007: 7) er-
6.2 Wissenschaftstheorie im Forschungszirkel
555
gänzen: „Wissenschaftstheorie ist zwar im Kern heute noch immer, was sie in ihren Anfängen in der ersten Hälfte des 20. Jahrhunderts gewesen ist, nämlich logische und semantische Analyse der Struktur wissenschaftlicher Theorien. Seit den späten 1950er Jahren hat sich die Wissenschaftstheorie aber dem Thema der Theoriendynamik, des Wandels des wissenschaftlichen Wissens geöffnet [. . .]“ (Hervorhebung im Original.) Theorien sind natürlich ein wichtiger Aspekt funktionierender Forschung und wir brauchen alle ihre Vorzüge nicht noch einmal zu betonen. Übertreibt man jedoch ihre Rolle, so sieht man Forschung nicht primär nur deduktivtheoriegetrieben, was für sich genommen schon eine Übertreibung wäre, sondern darüber hinaus sogar Beobachtungen als theoriegeladen an. Wie viel Aufwand ist im Laufe der Zeit in das Projekt investiert worden, diesen Begriff zu elaborieren! Wie stark sind Beobachtungen von Theorien abhängig, inwiefern determinieren Theorien, was beobachtet wird, wie weit liegt die Interpretation eines Ergebnisses durch den theoretischen Rahmen fest usw.15 Da im Forschungszirkel Theorie und Empirie wie Henne und Ei sind, sollte es nicht verblüffen, dass man alles aus der Perspektive der Theorie betrachten kann, womit aber zwangsläufig das Experiment zum Anhängsel von Theorien verkümmert. Schließlich kommt man zum Regress des Experimentators16 , dem Beobachtungen gar keine neue Information mehr erschließen, womit man das Projekt empirischer Wissenschaft (mit dem Primat der Fakten!), ad absurdum geführt hat.
Heraushebung des Experiments Seit den 1980er Jahren hat der von Hacking (1983) begründete „Neue Experimentalismus“, welcher die Bedeutung und die Eigendynamik der empirischen Erfahrung und insbesondere des Experiments hervorhebt, immens an Bedeutung gewonnen. Historisch gesehen lässt er sich als Reaktion auf die theorielastigen Jahrzehnte zuvor verstehen. Schon Feigl (1970b: 8) schreibt: “Philosophers of science (and I am not excluding myself) have very understandably been fascinated by, and have focused their primary attention upon, the theories. But theories come and go, whereas most empirical laws seem here to stay!” (Hervorhebung im Original.) Liest man nun jedoch die Arbeiten des Neuen Experimentalismus,17 so stellt man fest, dass sich auch hier wieder im Lauf der Zeit die Einseitigkeit verstärkt. War es zu Beginn mehr als gerechtfertigt, das Diktat der Theorie 15
Für eine Kritik siehe Sokal und Bricmont (1998: 65ff), Nagel (2004: Teil III), Hacking (1996: 309ff) und Chalmers (2006: 158f): „Die Herstellung kontrollierter experimenteller Effekte und deren Würdigung sind ohne komplexe Theorien möglich.“ 16
Siehe Collins (1985: Kapitel 4), Chalmers (1999: Abschnitt 5.5), und Carrier (2006: 81ff). 17 Siehe z. B. die von Heidelberger (2007), Chalmers (2006: Kapitel 13) und Carrier (1997) genannte Literatur.
556
6 Integrative Wissenschaftstheorie
abzuschütteln und den Daten bzw. der empirischen Fundierung wieder zu ihrem angestammten Recht zu verhelfen, so ist die natürliche Entwicklung textorientierter Argumentation, dem empirischen Part eine immer größere Rolle zuzuweisen, bis schließlich die Theorie und alle anderen Aktivitäten im Forschungsprozess zum Anhängsel des Experiments verkümmern. Chalmers (2006: 167) schreibt: „Einige der Neuen Experimentalisten scheinen eine Trennungslinie zwischen gut belegter experimenteller Erkenntnis einerseits und Theorien andererseits ziehen zu wollen [. . .] Einige haben diese Sichtweise so weit getrieben, dass nur noch experimentelle Gesetze als Möglichkeit gelten, überprüfbare Aussagen über die Welt zu machen. Theorien werden als etwas angesehen, das eine gewisse organisatorische und heuristische Rolle spielt [. . .]“ Heidelberger (1998, 2007) entwickelt sogar eine „Wissenschaftsphilosophie des wissenschaftlichen Instruments“.
Deduktivismus Wie wir schon argumentiert haben, kann sich mit Blick auf die entwickelten Wissenschaften, insbesondere die Physik, leicht ein einseitiges Bild wissenschaftlicher Aktivität einstellen. Jenes wird typischerweise theorielastig und deduktiv geprägt sein: Nachdem Popper (1935) in seinen jungen Jahren die Deduktion aufs Schild gehoben hatte, wuchs mit dessen persönlicher Reputation auch die Bedeutung seiner Wissenschaftstheorie gleichmäßig an. Unter Naturwissenschaftlern ist der Falsifikationismus weit verbreitet. Da die Physik zurecht als führend gilt und viele andere Wissenschaften sie explizit als Vorbild betrachten (S. 290), hat Popper auch dort viele Anhänger. Hinzu kommt, dass andere Wissenschaftstheoretiker nicht nur unbekannter sind, sondern oft auch Konzeptionen vertreten, die Praktikern noch weit unplausibler erscheinen. Um das heute in übergroßem Maß vorhandene Vertrauen in die Deduktion zu schwächen, sei hier nur angemerkt, dass auch der Weg vom Allgemeinen zum Speziellen nicht so überzeugend ist, wie man zunächst vermuten könnte. Zwar ist es in der Philosophie der Mathematik gerade Mode, auch logischdeduktive mathematische Beweisverfahren in Zweifel zu ziehen, doch muss man gar nicht so weit gehen: 1. Es gibt keine Garantie, dass ein aus einer Theorie mit streng logischen Mitteln abgeleitetes Resultat auch tatsächlich auf die Realität passt. Nicht nur Merkur hält sich nicht an Newtons Gesetze. 2. Die Ableitung ist, auch wenn es das Hempel-Oppenheim-Schema und Figuren der klassischen Logik suggerieren wollen, in aller Regel nur selten streng-deduktiv. Zumeist muss man Vereinfachungen vornehmen, approximieren und besitzt darüber hinaus Interpretationsspielräume. Selbst die beste Theorie determiniert nicht ihre Operationalisierung im Experiment, was auch Hempel (1988) betont.
6.2 Wissenschaftstheorie im Forschungszirkel
557
3. Allein schon aufgrund der Messungenauigkeit, aber auch, weil jede Theoretisierung eine Idealisierung ist, die nur gewisse Aspekte berücksichtigt, ist die Passung einer Theorie zu den Daten nie exakt. Es wäre oftmals vermessen zu sagen, wir hätten wirklich alles Relevante erfasst, geschweige denn, wir könnten das Geschehen perfekt vorhersagen. (Dieser Illusion mögen wir uns gleichwohl gerne hingeben!) Die Deduktion nimmt einen wichtigen Platz im Forschungszirkel ein. Ohne ihre Hilfe käme die Wissenschaft im Allgemeinen genauso wenig voran wie die Physik ohne Mathematik. Problematisch ist, wenn sie die induktive Seite des Zirkels diskriminiert. Die Auswirkungen einer solchen philosophischen Einseitigkeit auf die Statistik haben wir besichtigt, und sie war beileibe nicht die einzige Wissenschaft, welche sich unter das deduktive Joch beugte. Man wird mit einer solchen Grundeinstellung gerade den weniger gut entwickelten Wissenschaften kaum gerecht (S. 549ff), und andererseits fällt die Philosophie dem Perfektionismus anheim. Stove (2000: 177) führt dies aus: Deductivism [. . .] is a variety of perfectionism: it is an ‘only the best will do’ thesis. And, at least in very many domains, perfectionism is especially apt to produce performance which is actually further from perfection than the average for that domain.
Ibd. folgen zahlreiche Beispiele aus Politik und Ethik, doch ist die Mathematik wohl das beste Beispiel, die nur den logisch korrekten Beweis akzeptiert.18 Verfährt man auf diese Weise mit den empirischen Wissenschaften, insbesondere wenn Hume den Schluss von der Vergangenheit auf die Zukunft kritisiert, so heißt das folgendes: Sei P die Aussage, dass alle Flammen in der Vergangenheit heiß gewesen sind und Q die Aussage, dass morgen beobachtete Flammen heiß sein werden. Dann sagt Hume (zitiert nach Stove (2000: 189)): [. . .] a man who infers Q from P, or from P conjoined with any other observation statement, ‘is not guilty of a tautology’; that given P, and any other observational premise, ‘the consequence’ [Q] seems nowise necessary; that, whatever our experience has been, ‘a change in the course of nature. . .’ is not absolutely impossible [. . .] This, and nothing else in the world, is what Hume finds to object to my inductive inference from P to Q [. . .] But this is a necessary truth. And therefore to demand, just on this account, that I should lower my degree of belief in the hotness of tomorrow’s flames is mere frivolity. (Hervorhebungen im Original.)
Mit Blick auf die zentrale These des Falsifikationismus, dass alles Wissen hypothetisch sei, fährt er fort: “If I have [. . .] a positive degree of belief in some scientific theory, what can Popper urge against me? [. . .] nothing at all, in the end, except this: that despite all the actual or possible empirical evidence in its favour; the theory might be false. But this is nothing but a harmless necessary truth; and to take it as a reason for not believing scientific theories is simply a frivolous species of irrationality [. . .] Yet it is this proposition, 18
Bevor Missverständnisse entstehen: Für die Mathematik, aber auch nur die Mathematik, hat sich diese Haltung als sehr fruchtbar erwiesen.
558
6 Integrative Wissenschaftstheorie
that any scientific theory, despite all the possible evidence for it, might be false, [. . .] which may be said to be recent irrationalist philosophy of science.” (Hervorhebungen im Original.)19 Ein Vergleich mit der Erkenntnistheorie bietet sich an. Dort entspricht der perfektionistischen Position der Solipsismus. D.h., es besteht die Möglichkeit, dass alle unsere Vorstellungen nur Einbildungen sind, weil uns etwa ein Descartscher Dämon in die Irre führt oder wir in der modernen Version ein „Gehirn im Tank“ sind, dessen Sensorik von außen kontrolliert wird. Während jedoch in der Erkenntnistheorie solche extremen Positionen nicht ernsthaft vertreten werden, sind sie in der Wissenschaftstheorie an der Tagesordnung. Ständig wird dort die Vorläufigkeit und Unsicherheit unseres Wissens betont, sind relativierende Bemerkungen und Zweifel die Regel.
Überbetonung der Induktion Bleibt die Induktion. Wir haben mehrfach ihre eminente Bedeutung deutlich gemacht und ein philosophisch unvoreingenommener Beobachter hätte sich angesichts der statistischen und wissenschaftlichen Praxis womöglich uneingeschränkt Bacon bzw. der Tradition des britischen Empirismus angeschlossen. Auch die klassische Definition der Information (S. 457) wird gerne so gelesen, dass man am meisten lernt, wenn das „Überraschungsmoment“ am größten ist. Es sind die seltenen Ereignisse, jene, mit denen wir nicht rechnen, die uns voranbringen. Es ist also nicht wirklich der von Popper und vielen Physikern (etwa Jeffreys und Jaynes) betonte Misserfolg bzw. das Fehlschlagen einer Erwartung - insbesondere nach einer strengen deduktiven Ableitung - entscheidend, sondern je weniger wir auf einen Misserfolg bzw. Erfolg aufgrund unseres Vorwissens eingestellt waren. Es ist die „kognitive Dissonanz“ - wir stutzen - die uns dazu motiviert, das entsprechende Phänomen genauer unter die Lupe zu nehmen. Läuft hingegen alles so, wie zu erwarten war, so haben wir keinen Anlass, unsere „passenden“ Vorstellungen zu modifizieren. Mit einer hervorragenden Theorie sind sehr wenige Beobachtungen vereinbar, weshalb eine Diskrepanz dort schnell auffällt. Niemand wird deshalb die Meteorologie in Frage stellen, wenn das Wetter (mal wieder) anders war, als vorhergesagt, wohl aber die Physik, wenn Wasser bergauf fließt. Eine natürliche Formalisierung solcher Überlegungen ist der Bayessche Mechanismus, der Vorwissen und Daten zum nachträglichen Informationsstand verrechnet. Diese Sicht der Dinge automatisiert den induktiven Schritt, indem sie alle Information probabilistisch erfasst und dann mit den zugehörigen Formeln verrechnet. Heraus kommt eine induktive Logik à la Carnap, die die Wahrscheinlichkeitstheorie zur Wissenschaftstheorie und die Bayesschen 19
Vgl. unser Ausführung zur „abstrakten“ und „konkreten“ Bedrohung der Validität, S. 436. Analog hierzu ist ein prinzipieller „philosophischer“ Zweifel schwach und eine konkrete Kritik stark.
6.2 Wissenschaftstheorie im Forschungszirkel
559
Formel zum Kern einer eigenständigen philosophischen Position werden lässt. Der Bayesianismus erblickt ganz allgemein im induktiven Schritt und speziell im Bayesschen Mechanismus den Kern aller Wissenschaft. Howson und Urbach (2006: 10, 91) schreiben: [. . .] scientific reasoning is reasoning in accordance with the calculus of probabilities [. . .] Bayesian principles provide a unified scientific method.”
Da für Bayesianer zudem Wahrscheinlichkeiten subjektive Überzeugungen sind, die aufgrund von Daten „geupdated“ werden, kann man auf diese Weise schlüssig erklären, wie Theorien von Wissenschaftlern bewertet werden und (bei eindeutiger Befundlage) Meinungen zu konvergieren vermögen. Der Übergang von Daten zu allgemeinen Einschätzungen wird so zumindest eines Teils seiner subjektiven Willkür beraubt, und zwar genau in dem Maße, in dem Wissenschaftler rational - und damit im Einklang mit der subjektiven Bayesianischen Theorie - ihre Meinungen anpassen. Leider verführt diese Betonung subjektiver Ansichten jedoch gerne dazu, den wissenschaftlichen Diskussionen und der Konsensbildung eine ausschlaggebende Rolle im Forschungsprozess zuzuschreiben. Im Gegensatz zur Politik ist Wissenschaft jedoch nicht nur konsens- sondern weit mehr noch wahrheitsfähig (im Sinne der herausragenden Bedeutung der Empirie für alle Theorien). Untersuchungen wie Zickfeld et al. (2007), wo ein fachwissenschaftliches Problem mittels einer Expertenbefragung beantwortet werden soll, werden deshalb eher irritiert zur Kenntnis genommen.20 Erst recht mutet die Suche nach einer Vereinheitlichung des induktiven Schrittes angesichts dessen prinzipieller Nicht-Formalisierbarkeit eher kontraproduktiv an. Ein konkretes Resultat ist immer in ganz verschiedene Richtungen verallgemeinerbar, je nachdem, von welchen Spezifika man abstrahiert. Also ist die Suche nach einer einheitlichen Theorie wissenschaftlichen Schließens von vorneherein zum Scheitern verurteilt.
Fazit Wie man es auch dreht und wendet: Sobald man die Rolle der Theorie, der Deduktion oder irgendeiner anderen Komponente des Forschungszirkels zu sehr ausbaut, läuft das Rad der Erkenntnis nicht mehr rund. Es weist genau an der bevorzugten Stelle eine Unwucht auf, die dem tatsächlichen Lauf von Forschung nicht gerecht wird. Je mehr Nuancen man an einer Stelle herausarbeitet, und genau das ist das Ziel vieler „Schulen“, desto mehr läuft man Gefahr, das Gesamtbild aus den Augen zu verlieren, und man entfernt sich schnell von einer believable philosophy of science (Diaconis 1998: 804). So nachvollziehbar und wertvoll z. B. alle „induktiven“ Ideen für sich betrachtet und erst recht zusammengenommen - als induktive Perspektive - sind; lässt man nur sie gelten, hat das ganze Unternehmen Schlagseite. (Hinzu kommt, 20
Siehe z. B. Schmitt (2007).
560
6 Integrative Wissenschaftstheorie
dass in der heutigen, hochspezialisierten akademischen Welt viel häufiger ausladende Monographie über eine Facette eines Themas anzutreffen sind also ausgewogene Gesamtdarstellungen.) Es sollte deshalb klar sein, wie unsere generelle Einschätzung vieler heute beliebter und energisch vertretener Lehrmeinungen ausfällt: Wir können die meisten von ihnen würdigen, weil sie typischerweise einen und zuweilen auch einige Teile des Forschungszirkels intensiv beleuchten. Wir wenden uns andererseits entschieden dagegen - was bei verbalen Positionen in einer Welt kompetitiver, vor allem theoretischer Diskussion leicht passiert - dass sie zur Einseitigkeit tendieren, sich verhärten oder sogar dogmatisch bekämpfen.
6.2.2 Philosophische Orientierung Prächtig habt ihr gebaut. Du lieber Himmel! Wie treibt man, Nun er so königlich wohnet, den Irrtum heraus! Schiller (1987: 307), „Die Systeme“
Ein Teilgebiet der Philosophie Die aktuelle Wissenschaftstheorie bemüht sich dem Eindruck entgegenzuwirken, sie sei nicht, wie viele Gebiete im Verlauf der Philosophiegeschichte, abgehoben und ihrem Gegenstandsbereich entrückt. Sie sieht sich gerne an der Schnittstelle zwischen Wissenschaft und Philosophie, zugleich empirisch orientiert als auch reflektierend. Carrier (2007: 43f) führt dies wie folgt aus: Die Wissenschaftsphilosophie hat sich im Verlauf des 20. Jahrhunderts etabliert; sie ist fester Bestandteil der theoretischen Philosophie geworden [. . .] Entsprechend hat sich die Wissenschaftsphilosophie professionalisiert. Bis weit ins 20. Jahrhundert hinein stammten wesentliche Beiträge zur Wissenschaftsphilosophie von aktiven Wissenschaftlern [. . .] Das hat sich geändert - ähnlich wie in der wissenschaftsreflexiven Schwesterdisziplin der Wissenschaftsgeschichte. Selbst naturphilosophische Fragen werden heute weitgehend von entsprechend spezialisierten Wissenschaftsphilosophen behandelt. Ebenso ist in der Methodenlehre die Innenperspektive des aktiven Teilnehmers der Außenperspektive des distanzierten Beobachters gewichen. Durch eine derartige Professionalisierung wird eine Eindringtiefe der Wissenschaftsreflexion erreicht, die aus der gleichsam nebenberuflichen Perspektive des aktiven Wissenschaftlers nicht zu gewinnen ist.
Verblüffend daran ist, dass die historische Entwicklung vieler Wissenschaften genau anders herum verlief. Es ist allgemein bekannt, dass eine ganze Reihe, wenn nicht sogar die meisten empirischen Wissenschaften ihr Dasein zwar im Schoß der Philosophie begannen, sich dann jedoch konsequent aus ihr heraus entwickelten. Zwei berühmte Beispiele sind die Physik im 17. und die Psychologie im 19. Jahrhundert. Schriebe man eine Erfolgsgeschichte der
6.2 Wissenschaftstheorie im Forschungszirkel
561
Philosophie, so stünde eben jene Fruchtbarkeit, kontinuierlich neue Disziplinen hervorzubringen, zumindest in der Neuzeit an erster Stelle. Die Distanzierung von der „Mutter Philosophie“ geschah gerade in dem Maße, in dem die theoretisch-philosophische Reflexion und auch Spekulation durch empirische Erfahrung, also konkrete Forschung auf dem jeweiligen Feld sowie dem Nachdenken über die Bedeutung der so gewonnenen Resultate, ersetzt wurde. Good (1988: 407) schreibt prägnant “[. . .] philosophical topics, when sufficiently well developed, tend to move into other disciplines” und am Beispiel der Kausalität veranschaulicht Pearl (2000a: xiii) den Wandel: In the last decade [. . .] causality has undergone a major transformation: from a concept shrouded in mystery into a mathematical object with well-defined semantics and well-founded logic. Paradoxes and controversies have been resolved, slippery concepts have been explicated, and practical problems relying on causal information that long were regarded as either metaphysical or unmanageable can now be solved using elementary mathematics. Put simply, causality has been mathematized.
Im Fall der Wissenschaftstheorie sollte man dem entsprechend erwarten, dass einer ersten Phase vorwiegend theoretischer Spekulation und prinzipieller Diskussionen eine zweite, ausgeprägt empirische gefolgt sein sollte. Dies war jedoch gerade nicht der Fall. Sieht man von (Teilen der) Wissenschaftssoziologie und -Geschichte und der dezidiert empirisch orientierten Wissenschaftsforschung einmal ab, so ist die Wissenschaftstheorie bis heute ein ausgesprochen nicht-empirisches Unterfangen geblieben.21 Statt sich aus der Philosophie heraus zu entwickeln, ist die Wissenschaftstheorie tatsächlich „fester Bestandteil der theoretischen Philosophie geworden“ und dies obwohl sich schon die großen Gründer im Umfeld des Wiener Kreises ausdrücklich als Wissenschaftler und Philosophen verstanden (Verein Ernst Mach 1929: 9).
Wissenschaftstheorie statt -forschung Die Wissenschaftstheorie leidet gewissermaßen an einer doppelten Theorielastigkeit. Nicht nur sind wissenschaftliche Theorien ihr Hauptarbeitsfeld, darüber hinaus ist ihre gesamte Ausrichtung, ihre Grundhaltung, philosophisch. Selbst ein herausragender Autor wie Hacking (1983), der sich mit dem Neuen Experimentalismus entschieden für die Emanzipation des Experiments ausspricht,22 distanziert sich kurze Zeit später von der Empirie: It has been too little noted of late how much of a science, once in place, stays with us, modified but not refuted, reworked but persistent, seldom acknowledged but taken for granted [. . .] My explanation of this stability is that when the laboratory sciences 21
Etwa zählt die gesellschaft für analytische philosophie ca. 900 Mitglieder und ist damit „neben der Deutschen Gesellschaft für Philosophie die zweite große philosophische Vereinigung in Deutschland“(gesellschaft für analytische philosophie 2009). Die Gesellschaft für Wissenschaftsforschung hat hingegen gerade einmal um die zwanzig ordentliche Mitglieder (Gesellschaft für Wissenschaftsforschung 2009). 22
Hacking (1983: 250): “Experimentation has a life of its own.”
562
6 Integrative Wissenschaftstheorie
are practicable at all, they tend to produce a sort of self-vindicating structure that keeps them stable [. . .] The theories of the laboratory sciences are not directly compared to ‘the world’; they persist because they are true to phenomena produced or even created by apparatus in the laboratory and are measured by instruments that we have engineered.23 (Hacking 1992: 29f)
Damit baut er einen Gedanken von Kuhn (1962: 26) aus, der sagt:24 “There are seldom many areas in which [even] a scientific theory. . .can be directly compared with nature.” Das schmale, brüchige empirische Fundament einiger weniger, vorwiegend historisch und soziologisch geprägter Studien reicht bei weitem nicht aus, um die sich darüber erhebenden ausladenden Ideengebäude der aktuellen Wissenschaftstheorie zu stützen. So sind alle Symptome der Theorielastigkeit (siehe auch S. 552ff) an der Tagesordnung:
Mangelnde Problemorientierung Gutes wissenschaftliches Arbeiten heißt, sich intensiv mit einem Gebiet auseinander zu setzen. Das heißt, der Blick ist zunächst einmal auf den Boden der Tatsachen gerichtet. Jene gilt es intensiv zu studieren und zu verstehen. Die Wissenschaftstheorie zeichnet sich hingegen durch eine übermäßige Konzentration auf prinzipielle Probleme aus - sei es die Induktion, das Wesen von Gesetzen, Kausalität, Realismus versus Antirealismus usw. Das führt zu Diskussionen, die zuweilen völlig an den realen Problemen vorbeigehen. So spielt das viel diskutierte philosophische Problem, nach welchen Kriterien man aus im Prinzip unendlich vielen möglichen Theorien die am besten geeignete auswählen sollte, bei der induktiven Auswahl von Modellen keine Rolle. Man verweist allenfalls auf das Prinzip einer möglichst sparsamen bzw. einfachen Begründung (parsimony, Ockhams razor) und arbeitet dann am konkreten Problem weiter. In der Praxis steht man nicht vor einer Vielzahl von in etwa gleich guten Theorien, so dass einem die Wahl der besten schwer fiele. Das eigentliche Problem ist, wie Jeffreys (siehe S. 205) völlig richtig betont, darin, überhaupt auch nur eine einzige einigermaßen umfassende und zugleich brauchbare Theorie zu finden.25 Genauso wenig ist das vieldiskutierte „Überladensein“ der Daten mit theoretischen Vorstellungen ein echtes Problem, sondern gerade das Gegenteil, also ein zu Wenig an Wissen bzw. eine zu geringe Strukturierung der Situation, gerade in den weniger entwickelten, „ jungen“ Wissenschaften. Man beachte auch, welche Probleme Philosophen im Zusammenhang mit dem Induktionsproblem diskutieren (Abschnitt 4.7), und wie wenig diese zu kon23
Man vergleiche das mit Feynman (2007: 181, 192)! Zitiert nach Sullivan (2006: 60), der sich auf die 2. englische Ausgabe von Kuhns Hauptwerk (1970) bezieht 25 Fast gleichlautend äußern sich Bricmont und Sokal (2004). 24
6.2 Wissenschaftstheorie im Forschungszirkel
563
struktiven Lösungen beitragen. Jaynes (2003: 279) kritisiert den Verlust der Problemorientierung explizit: Carnap was seeking the general inductive rule (i.e., the rule which, given the record of past results, one can make the best possible prediction of future ones). But he suffered from one of the standard occupational diseases of philosophers; his exposition wanders off into abstract symbolic logic without ever considering a specific real example.
Auch Stegmüllers Strukturalismus ist von dieser Gefahr bedroht (Balzer et al. 1987, Balzer 1997). Dabei forderte schon Reichenbach (1968: 139) von seinen Kollegen nicht nur konkrete Beispiele, sondern zugleich auch eine klare, einfache Sprache ein.
Mangelnde fachwissenschaftliche Kompetenz Philosophische Gedankenflüge werden schnell irrelevant, wenn das einschlägige fachwissenschaftliche Wissen fehlt. Diese Kritik ist besonders schwerwiegend bei stark mathematisierten Gebieten, wie der Statistik. Kempthorne (1971: 485) schrieb schon vor fast 40 Jahren: “It is quite fantastic to me how individuals can try to develop theories of science and knowledge without doing science, like someone who works on the foundations of mathematics without actually doing any mathematics.” Und Weinberg (1995: 84) ergänzt ganz altmodisch: We learn about the philosophy of science by doing science, not the other way around.
Zumindest bei den Grundlagen der Statistik können wir dem voll und ganz zustimmen, denn selbst das aus philosophischer Perspektive führende Buch von Mayo (1996) kommt kaum über eine Wiederholung klassischer frequentistischer Argumente hinaus. In weiten Teilen liest es sich sogar wie eine historische Aufarbeitung der in den Jahrzehnten zuvor geführten Debatte,26 wobei ganz entscheidende Beiträge von Lindley, Berger und Lecam fehlen. Autoren wie Basu, Box, Rubin, Royall und Tukey, um nur einige zu nennen, die im Verlauf unserer Argumentation ganz entscheidend waren, fehlen im Literaturverzeichnis sogar vollständig. Auch Verweise zur Informationstheorie sucht man eher vergebens. Wie kann man ein halbes Buch über induktivstatistische Erklärungsmuster der letzten vier Jahrzehnte schreiben (Salmon 1989) und dabei R. A. Fisher nicht erwähnen? Selbst in einem aus philosophischer Perspektive geschriebenen Grundlagenwerk zur Wahrscheinlichkeit wie Gillies (2000) wird die algorithmische Zufälligkeit nicht behandelt, vielmehr endet die dorthin führende Entwicklung mit Church (1940).27 26
Insbesondere stützt sie sich auf Godambe and Sprott (1971) und Harper and Hooker (1976) aus der Blütezeit des Frequentismus. 27
Siehe hierzu auch schon S. 493ff.
564
6 Integrative Wissenschaftstheorie
In der Folge verfehlen einschlägige Arbeiten zumeist zielsicher den eigentlichen Gehalt naturwissenschaftlich-technischer Beiträge und werden von Fachwissenschaftlern allenfalls als randständige Ergänzung der eigentlichen, substanziellen Entwicklung wahrgenommen. Nachdem Sullivan (1998) zwei solche Arbeiten (über Statistik und Strömungslehre) seziert bzw. demontiert hat, fasst er zusammen (S. 91): “[The authors] both made the same complex of mistakes: They did not sufficiently analyze the details of the mathematical arguments that all scientists - regardless of their position on particular scientific questions - would agree are of central importance. Having failed to understand what was really at issue, [they] cast about for social explanation.” Wie lückenhaft das Wissen und Verständnis namhafter Herausgeber und Autoren ist, demonstrierte der Physiker A. Sokal (1996), in der besten Tradition kritisch-empirischer Überprüfung, anhand eines einfachen Experiments. Er reichte einen Beitrag mit dem bemerkenswerten Titel “Transgressing the Boundaries: Toward a Transformative Hermeneutics of Quantum Gravity” zur Publikation in einer der bedeutendsten einschlägigen Zeitschriften (social text), ein. Diese Parodie bestand aus einer Aneinanderreihung sofort zu erkennender fachlicher Fehler, ergänzt um unzählige Zitate postmoderner „Autoritäten“, verbunden mit einer „progressiven“, naturwissenschaftskritischen Haltung.28 Die Blamage bestand nicht nur darin, dass die Parodie publiziert wurde; sie wuchs sich zum Skandal aufgrund der überaus unsachlichen Reaktion einschlägiger Kreise aus, die auch vor persönlichen Attacken nicht zurückschreckten. Spätestens seitdem ist klar, dass es sich bei dem ganzen Unternehmen postmoderner Wissenschaftstheorie um ein “house built on sand” (Koertge 1998) handelt.
Inflation der Positionen und Diskussionen Ohne den disziplinierenden Einfluss der Empirie, insbesondere ein möglichst großes Verständnis dessen, was die Einzelwissenschaften bewegt und der(en) Methodik, schießt die Spekulation ins Kraut. Wie bei jedem Gebiet, das sich von seinen empirischen Wurzeln entfernt, vervielfachen sich auch in der Wissenschaftstheorie die vertretenen Meinungen. Dies einfach deshalb, weil das selektive Element der Fakten fehlt bzw. wenig beachtet wird. Die Tragödie der Naturwissenschaften, also der Tod einer schönen Hypothese aufgrund einer hässlichen Tatsache, findet nicht statt. Wer z. B. gehofft hatte, Sokals Parodie hätte dem gröbsten Unfug ein Ende bereitet, irrt: “Science Studies29 was not seriously damaged by the Sokal hoax [. . .]” (Godfrey-Smith 2003: 147). 28
Siehe Sokal (1998), Sokal und Bricmont (1998: Anhänge A-C) und Lingua Franca (2000) für eine ausführliche Diskussion. Viel Material enthält auch die regelmäßig aktualisierte Homepage Sokals, siehe www.physics.nyu.edu/faculty/sokal/ 29
Für eine genauere Begriffsbestimmung siehe Koertge (1998: 3ff) und Windschuttle (2000: 12ff).
6.2 Wissenschaftstheorie im Forschungszirkel
565
Eine Auffächerung von Meinungen, eine Vielzahl von Ansätzen sind hier kein Zeichen für eine lebhafte, fruchtbare Diskussion, als vielmehr ein Indiz dafür, dass die Bodenhaftung verloren gegangen ist. Reichenbach (1968: 142) zitiert als klassisches Beispiel den Idealismus: Die älteren Systeme drückten den Stand der Wissenschaft ihrer Zeit aus und gaben Pseudo-Antworten, wo noch keine besseren Antworten möglich waren. Aber die Systeme des 19. Jahrhunderts sind [. . .] das Werk von Männern, die die philosophischen Ergebnisse der Wissenschaft ihrer Zeit völlig außer acht ließen und unter dem Namen Philosophie naive Systeme von billigen Verallgemeinerungen and Analogien entwickelten.
Ein aktuelles Beispiel ist die ausufernde Realismusdebatte. In fast jeder Einführung in die Wissenschaftstheorie werden etliche Seiten der Darstellung äußerst zahlreicher antirealistischer Positionen gewidmet.30 Die meisten empirisch arbeitenden Wissenschaftler vertreten hingegen einen ziemlich starken Wissenschaftsrealismus.31 Das heißt, sie sind von der einfachen und starken Idee überzeugt, dass erfolgreiche Wissenschaften die tatsächliche vorhandenen Strukturen approximieren. Diese Wahrheitsnähe ist eine schlichte, überzeugende Erklärung der beobachteten Fakten und wird in der philosophischen Diskussion auch gerne als „No-Miracles-Argument“ zitiert;32 denn wäre es nicht das größte Wunder aller Zeiten, wenn wissenschaftliche Theorien einerseits nicht wahrheitsnah und anderseits zugleich permanent überwältigend erfolgreich wären? Gardner (1996b: 480) fasst es zusammen: Why has science been so fantastically successful? There is simple, obvious answer that a child can understand [. . .] It is successful because human brains have learned more than birds about the structure of the world - yes, a world ‘out there’, independent of you and me and our cultural biases.
Anstatt nun derartige wohlfundierte fast schon zu offensichtliche Positionen zu stützen, scheint das Hauptaugenmerk derzeit darauf zu liegen, auch die vernünftigsten Standpunkte mit allerlei konkreten und abstrakten Argumenten anzugreifen. Bezweifelt werden u. a.: Fortschritt, realistische Interpretationen, paradigmenunabhängige Beobachtungen, die rationale Wahl zwischen verschiedenen Erklärungsalternativen, die Trennung zwischen Beobachtbarem und Nicht-Beobachtbarem, die grundlegende Unterscheidung zwischen analytischen und synthetischen Aussagen, der Sonderstatus der Mathematik, der Zusammenhang zwischen permanentem Erfolg und Wahrheitsnähe, die Existenz einer vom Beobachter unabhängigen Welt. . . 30
Siehe z. B. Ladyman (2002: Teil II), Godfrey-Smith (2003: Kapitel 7, 8, 9) Russ (2004: Kapitel 2), Schülein und Reitze (2002: Kapitel 7, 8), Okasha (2002: Kapitel 4), Rosenberg (2005: Kapitel 5), Chalmers (2006: Kapitel 15), Greenough (2006), Groff (2008), Lipton (2004: Kapitel II) 31
Siehe etwa Bricmont und Sokal (2004), Weinberg (1998), Gardner (1996) und GodfreySmith (2003: Kapitel 12, 15), Howson (2000: Kapitel 3), Bartels (2007) 32 Siehe fast alle gerade genannten Werke, z. B. Ladyman (2002: 244ff), Okasha (2002: 62ff), Russ (2004: Abschnitt 2.3).
566
6 Integrative Wissenschaftstheorie
Von besonderer Bedeutung ist ein Verweis auf das Induktionsproblem und zwar in Form des „Unterbestimmtheitsarguments“. Jenes besagt, dass die Fakten alleine - und seien sie noch so zahlreich-, unterbestimmt sind. D.h., es gibt im Prinzip immer eine ganze Reihe von Theorie, die die Daten gleich gut erklären.33 Wie also können wir glauben, dass auch nur eine (der vielen möglichen) Theorien der Wahrheit nahe kommt? Diese zwar richtige aber zugleich reichlich abstrakte Kritik gilt als stärkste Erwiderung auf das „NoMiracles-Argument“. Denkt man genauer nach, so erkennt man, dass der Forschungszirkel diesen Einwand entschärft: Gibt es tatsächlich mehrere, von einander verschiedene Theorien, die alle zurzeit bekannten Fakten gleich gut erklären, so ist zu erwarten, dass sich Situationen konstruieren lassen, in denen sich die Vorhersagen der Theorien unterscheiden. Kurz gesagt: Es sollte sich dann ein Experimentum crucis konstruieren lassen, das die substanziellen Unterschiede zwischen den Theorien nutzt, um zu voneinander abweichenden Prognosen zu kommen. Die dadurch gewonnene, neue Information erlaubt dann sehr wohl, rational zwischen mehreren Kandidaten zu entscheiden. Es wäre gleichwohl zumindest prinzipiell möglich, dass die so aufeinanderfolgenden Theorien einen sehr verschiedenenartigen inneren Aufbau haben. Ein Paradigma löste gewissermaßen das andere ab, und anstatt aufeinander aufzubauen wären einander ablösende Grundüberzeugungen inkommensurabel. Kuhns Paradebeispiele solcher Umbrüche stammen aus der Geschichte der Physik. Auch die folgende Passage aus Feynman (2007: 206) lässt sich in diesem Sinn interpretieren: [. . .] die Philosophie oder die Ideen hinter einer Theorie [können sich] bereits durch winzig kleine Änderungen an dieser Theorie enorm verändern [. . .] Beispielsweise stimmten Newtons Vorstellungen von Raum und Zeit mit den Experimenten sehr gut überein. Dennoch war, um die wahrhaft winzige Korrektur der Merkurbahn anzubringen, eine enorme Änderung im Kern der Theorie erforderlich. Der Grund liegt gerade in der Einfachheit und Vollkommenheit der Newtonschen Gesetze [. . .] Bei der Formulierung eines neuen Gesetzes kann man nicht an etwas Vollendetem einfach ein bißchen herumpfuschen; man muß selbst etwas Vollendetes schaffen. Kein Wunder also, daß zwischen der Newtonschen und der Einsteinschen Gravitationstheorie enorme philosophische Unterschiede bestehen. (Meine Hervorhebung)
Weinberg (1998), ein weiterer Physiknobelpreisträger, antwortet Kuhn explizit und kommt zu einer anderen Schlussfolgerung: It is important to keep straight what does and what does not change in scientific revolutions, a distinction that is not made in Kuhn (1962). There is a ‘hard’ part of modern physical theories (‘hard’ meaning not difficult, but durable, like bones in paleontology or potsherds in archeology) that usually consists of the equations themselves, together with some understandings about what the symbols mean operationally and about the sorts of phenomena to which they apply. Then there is a ‘soft’ part; it is the vision of reality that we use to explain to ourselves why the equations work. The soft part does change; we no longer believe in Maxwell’s ether, and we know that there is more to nature than Newton’s particles and forces [. . .] I can’t see any sense in which the increase in scope and accuracy of the hard parts of our theories is not a cumulative approach to truth. 33
Für Details siehe wiederum die gerade genannte Literatur, siehe auch S. 500.
6.2 Wissenschaftstheorie im Forschungszirkel
567
Man muss ins Detail gehen, um zu klären, welcher der beiden Standpunkte eher den historischen Fakten entspricht. Dabei stellt sich zunächst heraus, dass beobachtungsnahe Gesetze außerordentlich änderungsresistent sind. Sind auf einer abstrakteren Ebene doch Modifikationen erforderlich, so bauen sukzessive Theorien in aller Regel aufeinander auf und passen - per konstrukionem - besser zu den zu erklärenden Fakten. Muss man schließlich doch einmal den Erklärungszusammenhang auf einer datenfernen Ebene neu strukturieren, so überdauern immer noch die meisten wesentlichen Zusammenhänge, selbst im Fall einer „wissenschaftlichen Revolution“. Zum Beispiel waren die großen Erhaltungssätze der klassischen Physik mit den neuen physikalischen Theorien kompatibel, ließen sich also im neuen Rahmen begründen.34 Auch Poppers Deduktivismus (s.o.) und seine Hypothesen als „freie Schöpfungen des menschlichen Geistes“ treffen nur scheinbar den Kern der Sache. Ganz anders als er rekonstruiert Post (1971) mit großem technischem Sachverstand die vielen kleinen, zumeist induktiven Schritte von der klassischen zur modernen Physik. Schaut man genau genug hin, so gleicht die tatsächliche historische Entwicklung weit mehr einem tastenden Suchen, einer „konservativen Induktion“ (Post) bzw. einer „rationalen Heuristik“ (Fischer 1983), nicht zuletzt geleitet von der Invarianzidee, als einem von allem Alten völlig losgelösten „genialen Geistesblitz.“ (Siehe auch die Bemerkungen von Neumanns und Arnolds ab S. 46.) Insgesamt stellt sich heraus, dass selbst die größten wissenschaftlichen Revolutionen nur oberflächlich betrachtet der Idee kumulativen Fortschritts widersprechen. Weit typischer ist, dass interessante neue Phänomene hinzukommen, als dass fundamentale Einsichten eingeschränkt oder sogar vollkommen revidiert werden müssten. Unser Verständnis hat sich kontinuierlich vertieft, auch wenn es ab und zu (selten!) konzeptionelle Umbrüche gibt. Kritik ist deshalb erfolgreicher, wenn sie auf die Existenz einzelner, theoretischer Entitäten zielt, die im Laufe der Entwicklung tatsächlich aufgegeben werden mussten (z. B. Äther, Phlogiston). Jedoch muss man noch nicht einmal auf Weinberg verweisen, um zu sehen, dass es auch an dieser Stelle weit häufiger zu einer sukzessiven Erhärtung theoretisch gut begründeter Entitäten kam, als dass „Geisterteilchen“ 35 wieder aufgegeben werden mussten. (Für weitere Beispiele siehe S. 551.) Die Kritik wirkt auch deswegen etwas gesucht, weil kaum jemand eine neu und möglicherweise ad hoc eingeführte Größe sofort weitreichend - also realistisch statt instrumentalistisch - interpretieren wird, und manche, später wieder aufgegebene Vorstellung, gar nicht so weit von der Wahrheit entfernt war.36 34 35
Für viele weitere Details siehe Hacking (1983).
Der Physiker Pauli über Neutrinos Beim Verbrennen entweicht zwar kein Phlogistion, das brennende Material reagiert aber mit dem Luftsauerstoff, was zu einer Anlagerung von Substanz führen kann. Die Idee einer chemischen Reaktion, an der zwei Stoffe beteiligt sind, erfassen also beide Theorien. 36
568
6 Integrative Wissenschaftstheorie
Wie im Fall des Induktionsproblems erweisen sich also auch hier die meisten prinzipiellen Einwände bei einem genauen Studium der Situation als eher oberflächlich, zuweilen sogar künstlich. Es wäre deshalb eher ermüdend als hilfreich, viele weitere Einzelkritiken im Detail zu besprechen, weshalb wir für zusätzliche Beispiele lediglich auf Bricmont und Sokal (2004) verweisen.
Vernachlässigung von Logik und Mathematik Der Lackmustest für die eingenommene Position der meisten Beiträge ist deren Einstellung zu mathematischen Methoden. Werden jene gar nicht oder allenfalls am Rande erwähnt, so kann man nahezu sicher sein, dass der Autor später eine dezidiert antirealistische Position vertreten wird. Die nachfolgende Tabelle möge dies verdeutlichen. Dieses Ergebnis ist nicht weiter verwunderlich, benötigt man doch ein gewisses mathematisches Verständnis, um zum ersten tiefer in die heute führenden Wissenschaften einzudringen; zum zweiten die ganze Kraft des quantitativen Ansatzes zu erfassen (siehe Kapitel 1) und zum dritten diszipliniert zu argumentieren. Wie die Tabelle zeigt, entwickelt sich so bei den zuerst genannten Autoren - wie Jahrzehnte zuvor bei Reichenbach, Menger, Kraft, Schlick oder Hahn - eine nachvollziehbare, realistische Theorie der Wissenschaften, bei letzteren verdrängen vage, wenig strukturierte Gedanken logisch-quantitative Überlegungen: [. . .] science as we know it: apportioned into disciplines, apparently arbitrarily grown up; governing different sets of properties at different levels of abstraction; pockets of great precision; large parcels of qualitative maxims resisting precise formulation; erratic overlaps; here and there, once in a while, corners that line up; but mostly ragged edges; and always the cover of law just loosely attached to the jumbled world of material things. (Cartwright 1999: 1)
Globalkritik Ohne hinreichende fachwissenschaftliche Kenntnisse kann philosophische Kritik nur die empirischen Wissenschaft in ihrer Gesamtheit auf den Prüfstand stellen. Das lässt sie schnell fundamental werden und wesentliche(!) Details übersehen. Der heute tonangebende Relativismus stellt - folgerichtig - nahezu alle Aspekte und damit auch Erfolge der modernen Wissenschaften in Frage. Stove (2000) hat sich die Mühe gemacht, sowohl die dabei verwendete Hauptstrategie - sich von der Realität zu distanzieren - als auch gewisse Nebenstrategien - insbesondere die Rolle von Mathematik und Logik klein zu reden - in klassischen Texten von Popper, Lakatos, Kuhn und Feyerabend aufzuspüren und zusammenzutragen.
Cartwright (1983, 1999)
How the Laws of Physics Lie
Mathematische Methoden Verweis bzw. Bewertung Gardner, Sokal,. . . intensiv, sehr positiv Godfrey-Smith (2003: 11, 231) [. . .] mathematical tools are not quite as [. . .] essential to science as Galileo thought. van Fraassen (1980, 1990) ausführlich, detailliert Russ (2004) umfangreicher Logik-Anhang Rosenberg (2005) eher sporadisch Okasha (2002) oberflächlich Chalmers (2006: 21) Nicht einmal unsere so geschätzten Chalmers (1999: 197) Maßstäbe der Logik sind universell Kellert et al. (2006) Kein Registereintrag zu „Mathematik“ Ladyman (2002: xi) I have also avoided using any mathematics. Schülein und Reitze (2002: 212) randständig
Autor
Wissenschaftsrealismus The idea that [. . .] all science is concerned with [. . .] the description of patterns in experience has finally been (mostly) abandoned. Konstruktiver Empirismus Kritischer Rationalismus unentschieden keine [. . .] es gibt nicht den allgemeinen wissenschaftlichen Ansatz und die allgemeine wissenschaftliche Methode Scientific Pluralism [. . .] if my readers are left puzzled where previously they were comfortable then I will be satisfied. Bestimmte Formen von Gesellschaft haben zu bestimmten Formen von Erkenntnis geführt. The Dappled World
Philosophische Position
6.2 Wissenschaftstheorie im Forschungszirkel 569
570
6 Integrative Wissenschaftstheorie
Er beginnt mit der „Neutralisierung von Erfolgsbegriffen,“ insbesondere Fortschritt. Kuhns Paradigmenwechsel lassen sich z. B. so lesen, dass das Wachstum von Wissenschaft nicht kumulativ ist, sondern immer wieder Teile verloren gehen. (Wäre dies im großen Stil der Fall, so käme man womöglich wirklich nicht vom Fleck, sondern ersetze immer nur ein Erklärungsmuster durch ein anderes.) Lakatos verwendet ganz einfach und sehr häufig Anführungszeichen, um starke Begriffe wie Beweis, Widerlegung, Erklärung, Wissen, Entdeckung, Wahrheit, Fehler, Tatsachen usw. abzuschwächen. Da Logik allgemeinverbindlich ist, besteht eine weitere Strategie darin, sie von einem nicht allgemeinverbindlichen Kontext abhängig zu machen. Man sagt also zum Beispiel nicht „A impliziert B“, sondern: „Nach unserem heutigen Verständnis ist B eine Folge von A.“ Gerade Kuhn lässt sich mehr noch als Popper als Ausgangspunkt einer irrationalen Bewegung verstehen; insbesondere, weil er gemäßigt-realistische neben ziemlich radikal-spekulative Ansichten stellte. [. . .] Tim Maudlin has eloquently pointed out [that there are] two Kuhns - a moderate Kuhn and his immoderate brother - jostling elbows throughout the pages of The Structure of Scientific Revolutions. The moderate Kuhn admits that the scientific debates of the past were settled correctly, but emphasizes that the evidence available at the time was weaker than is generally thought and that non-scientific considerations played a role [. . .] By contrast, the immoderate Kuhn - who became, perhaps unvoluntarily, one of the founding fathers of contemporary relativism - thinks that changes of paradigm are due principally to non-empirical factors and that, once accepted, they condition our perception of the world to such an extent that they can only be confirmed by subsequent experiment. (Sokal und Bricmont (1998: 75), Hervorhebungen im Original.)
Zuweilen ist es, wie bei der Duhem-Quine-These, auch so, dass der erste Anstoß von einem Wissenschaftler ausging. Jener macht in moderatem Ton auf ein nicht bzw. ein bislang zu wenig beachtetes Phänomen aufmerksam: „Ein physikalisches Experiment kann niemals zur Verwerfung einer isolierten Hypothese, sondern immer nur zu der einer ganzen theoretischen Gruppe, führen“ (Duhem 1998: 243), woraus er im nächsten Kapitel den Schluss zieht (ibd., S. 249): „Das experimentum crucis ist in der Physik unmöglich.“ Im weiteren Verlauf wird die Idee dann von Philosophen aufgegriffen und zu einer prinzipiellen Kritik verschärft - wobei diese aber mehr und mehr ihre empirische Bodenhaftung und Plausibilität verliert. So wird aus Duhems eher eng umrissenen „Gruppe“ von Hypothesen bei Quine (1980: 42f) die gesamte theoretische Wissenschaft: The totality of our so-called knowledge or beliefs, from the most casual matters of geography and history to the profoundest laws of atomic physics or even of pure mathematics and logic, is man-made fabric which impinges on experience only along the edges [. . .] A conflict with experience at the periphery occasions readjustments in the interior of the field [. . .] But the total field is so underdetermined by its boundary conditions, experience, that there is much latitude of choice as to what statements to reëvaluate in the light of any single contradictory experience. No particular experiences are linked with any particular statements in the interior of
6.2 Wissenschaftstheorie im Forschungszirkel
571
the field, except indirectly through considerations of equilibrium affecting the field a whole.
Es ist eine Sache, zu bemerken, wie schwer es bei einem komplexen Netz von Zusammenhängen fällt, die Ursache für das Scheitern eines Experiments aufzuspüren, oder aber auch, eine einzelne „isolierte“ Hypothese zu testen. Daraus jedoch zu folgern, empirische Erfahrung bringe einen kaum weiter, da man es im Wesentlichen mit einer holistischen Gesamtwissenschaft zu tun habe, ist eine kategorisch-pessimistische Haltung, die entsprechend wenig ernst zu nehmen ist.37 Ebenso ist es eine Sache, zu schreiben: „Ein physikalisches Experiment ist nicht einfach die Beobachtung einer Erscheinung, es ist außerdem die theoretische Interpretation desselben.“ (Duhem 1998: 188), bedeutet dies doch nur, dass das Experiment nicht für sich alleine steht, sondern in einen Kontext eingebettet ist. Wie unpräzise und generalisierend ist es hingegen zu behaupten, dass jede Beobachtung „theoriegeladen“ sei, was wohl einer der Eckpfeiler moderner Wissenschaftstheorie ist. Auch der Satz, dass kein Weg mit Notwendigkeit von der Beobachtung zur Theorie führt (Popper), ist angesichts des Induktionsproblems trivial. Doch sind deshalb alle Hypothesen zwangsläufig freie Schöpfungen des menschlichen Geistes? Nicht ganz selten beschleicht einen der Verdacht, dass konstruktivistische Ideen jeglicher Herkunft und Spielart auch deshalb in Mode sein könnten, weil sie den jeweiligen Autoren viele Freiheiten lassen. Das erleichtert natürlich die Entwicklung von Thesen, doch je mehr diese Freiheit genutzt wird, desto weniger muss die jeweilige Ansicht (per konstruktionem) mit der Realität gemein haben. Anders gesagt: Konstruktivismus wird leicht zum Eskapismus.38
Rhetorik statt rationaler Argumente Je geringer die Bodenhaftung, desto bedeutsamer wird schließlich die Rhetorik. Und je unplausibler die vertretenen Thesen, desto mehr müssen die Argumentationsmuster subtil oder die verbalen Attacken heftig werden. Entscheidet man sich für die radikale Strategie, vieles oder sogar (fast) alles zu bezweifeln, so kann man relativ offen schließlich sogar augenfällige Tatsachen in Frage stellen. Mit dem Wahlspruch anything goes spielt (Feyerabend 2007) frei heraus und ziemlich unbeeindruckt von Fakten und Logik die Rolle 37
Siehe hierzu auch die Diskussion in Sokal und Bricmont (1998: 65ff, 69ff) und Schleichert (1966: 114), der ausdrücklich sagt: „Es ist bei derart weitreichenden allgemeinen Behauptungen stets vorteilhaft, zuallererst nach den praktischen Fällen zu fragen, auf welche erstere anwendbar sind. Hier sind freilich Duhems Angaben spärlich.“ 38 Eskapismus bzw. die Errichtung von Luftschlössern ist kein Privileg von Geisteswissenschaftlern! Die aktuelle Finanzkrise lehrt, dass auch Bankiers und Finanzmathematiker mit ihren Mitteln (Aktien, Derivaten, Derivaten von Derivaten usw.) in der Lage sind, beeindruckende Kartenhäuser zu errichten, die, je länger sie Bestand haben, umso dramatischer zusammenbrechen. Realitätsverlust hat viele Gesichter, Spekulation ist eines davon, und die unausweichliche Desillusionierung ist immer schmerzhaft.
572
6 Integrative Wissenschaftstheorie
des enfant terrible der Wissenschaftstheorie. Man wünschte, Ausbrüche wie “Today science prevails not because of its comparative merits but because the show has been rigged in its favor” (Feyerabend 1978: 102) wären rhetorische Ausrutscher der 1970er Jahre geblieben. Tatsächlich haben sich daraus aber viele Spielarten des Relativismus entwickelt. Es ist wenig verwunderlich, dass diese wenig Ertrag abwerfen, wenn noch nicht einmal ein Unterschied zwischen Wissenschaft und allen anderen Projekten der Erkenntnisgewinnung gemacht wird. Viele auf Kuhn folgende Autoren, sind dessen subtileren Strategie gefolgt. Das heißt, auch ihre Beiträge lassen sowohl eine moderate als auch eine weit radikalere Lesart zu. Selbst Feyerabend kann man - zurückhaltend - so verstehen, dass er lediglich gegen das deduktive Korsett aufbegehrt, dessen normative Vorgaben der Wissenschaft und ihrer Entwicklung nicht gerecht werden (deduktiv-nomologisches-Modell, Falsifikation). Nach dem ausführlichen Studium zahlreicher solcher Fälle stellen Sokal und Bricmont (1998: 189) jedoch fest: We have seen in this book numerous ambiguous texts that can be interpreted in two ways: as an assertion that is true but relatively banal, or as one that is radical but manifestly false. And we cannot help thinking that, in many cases, these ambiguities are deliberate. Indeed, they offer a great advantage in intellectual battles: the radical interpretation can serve to attract relatively inexperienced listeners or readers; and if the absurdity of this version is exposed, the author can always defend himself by claiming to have been misunderstood, and retreat to the innocuous interpretation.
Wozu hat die Ambivalenz geführt? Boghossian (1998: 31) konstatiert einen “[. . .] collapse in standards of scholarship and intellectual responsibility that vast sectors of the humanities and social sciences are currently afflicted with.” Eine ähnliche Reaktion war schon auf Snow (1959) zu beobachten. Auf letztere sich direkt beziehend schreiben Sokal und Bricmont (1998: 277): “One significant change has take place since C.P. Snow’s time: while humanists intellectuals’ ignorance about (for example) mass and acceleration remains substantially unchanged, nowadays a minority of humanist intellectuals feel entitled to pontificate on these subjects in spite of their ignorance [. . .]”
Der Ursprung der Krise Im Fall der Statistik hatten wir gesehen, dass die historische Entwicklung vieles zu erklären vermag. Es ist deshalb sinnvoll, nach dem Ausgangspunkt der obigen pathologischen Entwicklung zu suchen. Stove (2000), insbesondere Kapitel 3 und S. 100ff, holt hierzu weit aus. Gemäß seiner überzeugenden Analyse geht der scientific irrationalism39 . unserer Tage auf den dominanten Einfluss von Humes Skeptizismus bei den bedeutendsten wissenschaftstheoretischen Autoren des letzten Jahrhunderts zurück. Kurz gesagt wuchsen 39
Noch genauer als diese Bezeichnung Stoves wäre wohl wissenschaftstheoretischer Irrationalismus
6.2 Wissenschaftstheorie im Forschungszirkel
573
sich Humes abstrakte philosophische Zweifel bei Popper, Kuhn, Lakatos und Feyerabend erst zu einem deduktionistischen Perfektionismus, dann zu einem historisch untermauerten Subjektivismus und schließlich in unseren Tagen zu postmoderner Beliebigkeit samt selbstzerstörerischem Irrationalismus aus. Die skeptische Philosophie Humes wurde im 19. Jahrhundert kaum beachtet. Der Erfolg und die Stabilität naturwissenschaftlicher Theorien war zu jener Zeit so groß, dass philosophische Zweifel nur ganz prinzipiell-theoretischer Natur waren, und ihnen keine praktische Bedeutung beigemessen wurde. Das änderte sich mit dem radikalen Umschwung von Newton zu Einstein und der Quantenmechanik. Das imposante Gebäude der Physik stürzte nach zeitgenössischer Ansicht innerhalb weniger Jahre ein und musste dann auf völlig anderen Grundlagen neu errichtet worden. Parallel dazu ereigneten sich auch in der Mathematik erhebliche Umbrüche, die schließlich in den 1930er Jahren zu Gödels fundamentalen Resultaten führten. Ein solcher gewaltiger Umbruch konnte nicht unkommentiert bleiben. Naturwissenschaftler und die Philosophen im Umfeld des Wiener Kreises versuchten ihn und die weit reichenden Implikationen der neuen Theorien zu verstehen. Damit initiierten sie die moderne Wissenschaftstheorie. Nie hatte jene eine größere Chance, sich von der Philosophie zu lösen als in der ersten Hälfte des 20. Jahrhunderts. Reichenbach (1968: 223f) spricht explizit von einer neuen, wissenschaftlichen Philosophie, die schon im 19. Jahrhundert ihren Anfang nahm und von Mathematikern, Physikern, Biologen und Psychologen begründet wurde. Insbesondere der Einfluss E. Machs war immens. Danach heißt es: „[. . .] Der Philosoph, der sich mit der Analyse der Naturwissenschaften beschäftigt, ist das Ergebnis dieser Entwicklung.“ Auch Schlick (1986: 78) schreibt überdeutlich: Der Philosoph, der nicht in leere Spekulation verfallen will, muß auch die gelehrte Verfahrensweise beherrschen, der Wissenschaftler, der das Außerordentliche leisten will, muß zugleich die Fähigkeiten des philosophischen Instinktes besitzen.
Doch mit der englischen Übersetzung von Poppers „Logik der Forschung“ 1959 und Kuhn (1962) dominierten ab den 1960er Jahren prinzipielle Diskussionen und die oben beschriebene, sich der eigentlichen Wissenschaft entfremdende Entwicklung setzte ein.
6.2.3 Wissenschaftssoziologie The displacement of the idea that facts and evidence matter by the idea that everything boils down to subjective interests and perspectives is [among] the most prominent and pernicious manifestation of anti-intellectualism in our time. (Laudan 1990)
Nirgendwo hat sich der Umschwung klarer vollzogen als in der Wissenschaftssoziologie. Für die klassische Soziologie war Wissenschaft ein soziales
574
6 Integrative Wissenschaftstheorie
System, dessen Regeln es zu erforschen galt. Merton (1942) weist dabei auf den besonderen Ethos der Wissenschaft hin und arbeitet insbesondere deren Prinzipien des Kommunitarismus, Universalismus, Uneigennützigkeit und des (organisierten) Skeptizismus heraus. Das heißt, wissenschaftliche Ergebnisse sind Gemeingut, ihre Bewertung erfolgt unabhängig von den Eigenschaften des Verfassers, die Haupttriebfedern wissenschaftlichen Fortschritts sind Wahrheitssuche sowie andere „edle Motive“, und Wissenschaft ist skeptisch. Dieses Bild mag uns heute etwas blauäugig-idealisierend erscheinen, Merton selbst ergänzte es jedoch später um ganz konkrete, empirisch zu beobachtende Effekte. Der Matthäus-Effekt (Merton 1968) besagt, dass dem der hat, noch mehr gegeben wird.40 Das heißt, bekanntere Autoren werden erst recht zitiert und erscheinen dadurch noch bedeutsamer als sie es alleine aufgrund ihrer wissenschaftlichen Leistung sein sollten, während für unbekanntere Autoren genau das Gegenteil gilt. Auch der Begriff der selbsterfüllenden Prophezeiung stammt von ihm (Merton 1948).41 Dieser klassischen Wissenschaftssoziologie lag Fundamentalkritik an der Leistungsfähigkeit empirischer Wissenschaft völlig fern. Merton (1942: 5f), liest sich hingegen geradezu wie eine Kurzbeschreibung der Akkumulationstheorie: The institutional goal of science is taken to be the extension of certified knowledge. The technical methods employed toward this end provide the relevant definition of knowledge: empirically confirmed and logically consistent statements of regularities (which are, in effect, predictions).
Das “strong programme” der Wissenschaftssoziologie (Bloor 1976) hat dies vollkommen geändert. Zitate wie „Das Buch der Natur wird in der Kultur geschrieben, und während wir glauben, es nur zu lesen, verändern wir bereits den Text. So gleichen sich alle Bilder, die der Konstruktivismus verwendet: Immer erweist sich das Gefundene als das Erfundene; immer treffen wir nur auf die eigenen Spuren, die wir vermehren, während wir sie verfolgen.“ (Jensen 1999) könnten heute in beliebiger Anzahl repliziert werden. Die Grundidee ist immer, dass Wissenschaft gemacht, also von uns maßgeblich konstruiert wird. Insbesondere Autoren der Postmoderne postulieren subjektive, geschlechtsspezifische, nationale und viele andere Momente, die in der Wissenschaft eine große Rolle spielen sollen.42 Soziologen sind hingegen, wie nicht anders zu erwarten, davon überzeugt, dass soziale Faktoren besonders wichtige Faktoren in der Wissenschaftsentwicklung sind. Gemäß dem strong programme sind sie sogar wichtiger als rationale Argumente und sogar der Einfluss der Empirie. Sokal (2008: 4) zitiert einige Vertreter dieser Auffassung:43 40
Engl.: success breeds success. Augenzwinkernd erweitert Stigler (1999: 277) diese Überlegungen zu “No scientific discovery is named after its original discoverer.” 42 Für einen prägnanten Überblick siehe Koertge (1998: 3ff), detaillierte Kritiken einzelner Autoren finden sich in Sokal und Bricmont (1998). 41
43
Alle Hervorhebungen in den Originalen
6.2 Wissenschaftstheorie im Forschungszirkel
575
Gergen (1988: 37): “[T]he validity of theoretical propositions in the sciences is in no way affected by factual evidence.” Collins (1981: 3): “[The] natural world has a small or non-existent role in the construction of scientific knowledge.” Latour (1987: 99ff, 258): “Since the settlement of a controversy is the cause of Nature’s representation, not the consequence, we can never use the outcome - Nature - to explain how and why a controversy has been settled.” Aronowitz (1988: 204): “Science legitimates itself by linking its discoveries with power, a connection which determines (not merely influences) what counts as reliable knowledge [. . .]” Hayles (1992: 31f): “Despite their names, conservation laws are not inevitable facts of nature but constructions that foreground some experiences and marginalize others.”
Anstatt diese Ideen mit wenigen Worten, etwa “I am among those who have found the claims of the strong program absurd: an example of a deconstruction gone mad.” (Kuhn 1992: 110) abzutun oder auf die historische Entwicklung zu verweisen, die ihr Zustandekommen zumindest plausibel macht, gehen wir auf sie aus zweierlei Gründen genauer ein: Zum einen ist die Organisation von Wissenschaft und Forschung ein interessantes Phänomen, das eine nähere Beleuchtung verdient; zum anderen stellt der soziologische Herausforderung einen Testfall für unser Modell des Forschungszirkels dar.
Forschungsorganisation Soziologische und kulturelle Aspekte sind wie psychologische und somatische Dispositionen Beispiele externer Faktoren. Wir teilen die Ansicht der aktuellen Wissenschaftstheorie, dass sie bei der Karriere von Personen wie auch Ideen eine große Rolle spielen.44 Man denke nur an das Mittelalter, das wissenschaftlich weitgehend unproduktiv blieb oder Galileis große Nachfolger, die fern des päpstlichen Zugriffs wirkten. Während die Europäer in der Neuzeit die Weltmeere befuhren und mit einer Vielzahl von Anregungen die Wissenschaften revolutionierten (siehe z. B. Nield (2008) für das wenig bekannte Beispiel der Geologie) blieben die chinesischen Dschunken in ihren Häfen und die fernöstliche Gelehrsamkeit stagnierte (Marks 2006). In neuerer Zeit trug die weitsichtige preußische Wissenschaftspolitik gewiss zum Erblühen von Göttingen, Berlin und anderen Universitätsstädten bei, während die nationalsozialistische Politik genau den gegenteiligen Effekt hatte. Organisatorisch gesehen gleicht der Forschungszirkel unserer Zeit weit mehr dem riesigen, scharfkantigen Schaufelrad moderner Tagebau-Bagger, die im großen Stil schürfen, als der Spitzhacke des Bergmanns der frühen Neuzeit.45 Und auch wenn nach wie vor der einzelne Forscher mit seiner Kreativität, seinem Verständnis und seiner Meinung der entscheidende Faktor ist, so geht es ihm doch wie Medizinern schon vor längerer Zeit. Die 44
Siehe z. B. die vielen historischen Fallbeispiele in Bryson (2005).
45
Siehe z. B. Halfmann und Schützenmeister (2009) zur Klimaforschung.
576
6 Integrative Wissenschaftstheorie
Arbeit an aussichtsreichen Entwicklunglinen kanalisiert sich in langfristigen, teuren Projekten und großen Teams. So ist der typische, forschende Vertreter seiner Zunft heute nicht mehr der Hausarzt in der eigenen Praxis (oder der Handwerker in seiner kleinen Werkstatt), sondern der Organisator klinischer Studien an einem akademischen Lehrkrankenhaus, von den Gruppenleitern an Großforschungseinrichtungen ganz zu schweigen. Dem entsprechend gehören auch der alleine vor sich hinarbeitende Privatgelehrte und der eigensinnige, zerstreute Professor mehr und mehr der Vergangenheit an. Von Ausnahmefällen abgesehen sind sie ebenso wenig konkurrenzfähig wie der kleine Familienbetrieb gegenüber dem multinationalen Konzern. Um zu bestehen, müssen sie sich einem Verbund anschließen oder aber sie werden von Forschern neuen Typs, insbesondere eng in Hierarchien eingebundene Mitarbeiter von Großforschungsprojekten, abgelöst. Im schlimmsten Fall verhindern externe Faktoren also, dass eine Einsicht überhaupt zustande kommt oder eine Entdeckung gemacht wird; bestenfalls ist das Klima wissenschaftsfreundlich und befördert Innovationen. Doch selbst dann sind Wissenschaftler auch nur Menschen, und trotz aller Suche nach der Wahrheit wäre es falsch, der Wissenschaft und ihren Adepten eine bessere Moral als der Allgemeinheit zu unterstellen (Merton 1942). Vielmehr sind in diesem sehr kompetitiven Umfeld, wo es um (große) Ehre, (viel) Geld, (einige) Macht und (längerfristigen) Einfluss geht, einschlägige soziale Prozesse zu erwarten, die, wie in Wirtschaft und Politik, bis hin zu kriminellen Machenschaften reichen (Judson 2004). Lesenswerte, einschlägige Studien sind z. B. Knorr-Cetina (1984), Chalmers (1999: Kapitel 7 und 8), Weingart (2003) und Carrier (2006: Kapitel 6) sowie die dort genannte Literatur.46 Fischer (2004: 100) fasst ganz nüchtern zusammen: Schädlicher als der kleine Gauner, der sich Publikationen oder Drittmittel durch Lügen erschwindelt, ja sogar schädlicher als der Schurke, der sich durch gefälschte Daten Hunderttausende an Drittmitteln erschleicht, sind innovationshemmende soziale Strukturen der Wissenschaft, die Bildung von Oligarchien und Gefälligkeitsnetzwerken, die zur unsichtbaren Fehlverteilung von Forschungsmitteln in großem Maßstab und zur Ausgrenzung hochinnovativer Wissenschaftler und unkonventioneller junger Talente führen. Nicht der manifeste Betrug einzelner schädigt die Wissenschaft am stärksten, sondern die mehr oder weniger subtile Interessenpolitik ihrer Standesvertreter, die sich insbesondere in Fehlfunktionen des Peer-Review System bemerkbar macht [. . .]47
Die Organisation von Wissenschaft, ihrer Strukturen und Prozesse, ist also alles andere als unwesentlich. Werden einem Feld die notwendigen finanziellen Mittel entzogen, wandert es ab oder verwaist. Wird die Unterstützung nur wenigen Großprojekten gewährt, verkümmert die Forschung in ihrer Breite, vernachlässigt man die Grundlagenforschung, so verdorren auf längere Sicht auch die Anwendungen. Schon ohne den Einfluss externer Faktoren ist es ziemlich schwierig, eine erfolgsorientierte Wissenschaftspolitik zu betreiben, 46
Jungen Lesern, die es nach ganz oben schaffen wollen, sei Hargittai (2002) empfohlen.
47
Siehe hierzu insbesondere Judson (2004) und Fröhlich (2001).
6.3 Konstruktive Antworten
577
also aussichtsreich erscheinende Felder und Methoden gezielt zu fördern, mit ihnen sind Fehlentwicklungen eher die Regel als die Ausnahme. Das heutige System unterstützt primär Projekte mit klarer Erfolgsaussicht oder großer Praxisrelevanz. Typische Beispiele sind die Klima- und Energiesowie die Krebs- und Genomforschung. Deren Projekt-Strukturen verfestigen sich zu intellektuelle Traditionen aber auch Institutionen, die eher ihre Pfründe verteidigen, als dass sie ausgetretene Wege wieder verlassen oder sich sogar selbst in Frage stellen würden. Alleingänge, abwegige Ideen, exotische Themen und verwegene Versuche sind nicht wirklich vorgesehen. Da zudem innerhalb kurzer Zeit Erfolge erwartet werden, ist Muse, die Einsichten erst reifen lässt, eine Mangelware. An ihre Stelle treten Kurzatmigkeit und fehlende Sorgfalt (publish or perish), und nicht ganz unerwartet bringt die hektische Betriebsamkeit einen regelmäßigen, jedoch, trotz aller Konkurrenz, häufig nur mittelmäßigen Output hervor. Es ist paradox: Anstatt ein kreatives Umfeld zu schaffen und Freiräume zu fördern, die am ehesten eine ergebnisoffene, „echte“ Forschung beflügeln und dann auch, wie die Geschichte lehrt, am häufigsten zu wegweisenden Resultaten führen bzw. Durchbrüche zumindest wahrscheinlicher machen, beschneiden wir überall die sogar von der Verfassung garantierte Freiheit von Forschung und Lehre und versuchen mit Planung, Evaluation und Bürokratie Fortschritt zu erzwingen.
6.3 Konstruktive Antworten [. . .] the advancement of knowledge by scientific research is measured by the increase of power which it gives to other men to overcome their difficulties, theoretical or practical.48 R. A. Fisher (1940) in Bennett (1990: 343)
Wenn es so leicht ist, zahlreiche externe Faktoren aufzuzählen, die offenkundig einen großen Einfluss auf den Fortschritt der Wissenschaft haben, warum spielen sie dann gleichwohl im Forschungszirkel keine Rolle? Dies erfordert eine Begründung.
6.3.1 Ahistorische Wissenschaft Prüfet aber alles, und das Gute behaltet. Paulus im 1. Brief an die Thessalonicher 5, 21
Ein ganz entscheidender Grund, warum externe Faktoren keine wesentliche Rolle spielen, ist, dass der Zirkel die innere Logik des Forschungsprozes48
Vgl. Bacon (1597: 308): „Nam et ipsa scientia potestas est.“ Zumeist wiedergegeben als: „Wissen ist Macht!“
578
6 Integrative Wissenschaftstheorie
ses beschreibt: Allgemeines Gesetz - Deduktion - spezielle Fakten - Induktion usw. Anzunehmen, dieser zyklische Ablauf sei ein realistisches Modell von Forschung, heißt mit anderen Worten, den von uns beschriebenen wissenschaftsinternen Faktoren Priorität einzuräumen. Es ist, kurz gesagt, die wissenschaftliche Methode, es sind die allgemein anerkannten Prinzipien (guten) wissenschaftlichen Arbeitens, welche historisch und erst recht systematisch gesehen eine weit beeindruckendere Spur hinterlassen, als die eher vergänglichen sozialen, institutionellen und erst recht personenbezogenen Randbedingungen. Erfolgreiche Wissenschaft folgt zuallererst ihr(em) eigenen Pfad, weshalb auch gilt: The unity of all science consists alone in its method, not in its material. (K. Pearson 1892: 12)
Entscheidend für diese Methode ist, dass Theorien und Verfahren gemäß ihres empirischen Erfolges selektiert werden. Was nicht funktioniert, wird aufgegeben, was sich bewährt, beibehalten. Genau dies ist, nicht nur nach (Feynman 2005b), deren einfacher, methodischer Kern. Die darüber hinaus in Abschnitt 1.1 erläuterten, weiteren internen Faktoren - insbesondere logischer, mathematischer und quantitativer Natur -, erweisen sich, wie auch die folgenden Kapitel gezeigt haben, als maßgeblicher für den Nutzen und den Erfolg eines Ansatzes als die Meinung der Fachwelt (zumindest auf längere Sicht). Ohne diese grundsätzliche Haltung und wirkungsvollen Hilfsmittel käme die Wissenschaft ebenso wenig voran wie viele andere Projekte. Diese eher allgemeinen Aussagen können sofort präzisiert werden, etwa mit der Forderung nach logisch stimmigen, plausible Argumentationen; der Replikation vermeintlicher Ergebnisse; der eminente Bedeutung des Experiments, dem ausgeprägten Hang zu quantitativen Betrachtungen und mathematischen Modellen; der systematische Prüfung von Vorhersagen und Voraussetzungen; dem Drang, herauszufinden, wie etwas funktioniert; einer durchgängig konstruktiv-kritische Haltung usw. Das heißt, das jeweils systematisch untersuchte Forschungsfeld und stringente Argumentationen prägen alle wirklich empirisch arbeitenden Wissenschaften am meisten, sie machen deren Fakten „hart“ und Theorien „stark“. Ihre Konstruktionen sind stabil, weil sie auf einem festen Fundament stehen und stringente Mathematik ihren Zusammenhalt garantiert.49 Was sich im Forschungsprozess, etwa in Form von Methoden und Theorien, niederschlägt, hat sich maßgeblich aufgrund seiner eigenen Meriten durchsetzt. Gewiss, eine gute Idee kann vergessen werden, weil sie niemand beachtet oder sie sogar noch nicht einmal publiziert wird. Doch eine konstruktive Idee, die empirisch 49
Um im Bild zu bleiben könnte man an dieser Stelle schreiben, dass die Katen der Postmoderne auf Sand gebaut und der verbale Mörtel - selbst wenn es sich um gut verankerte Zitate und handwerklich hervorragende rhetorische Ausschmückungen handelt - kaum etwas gegen den Sturm der Skepsis auszurichten vermag.
6.3 Konstruktive Antworten
579
überzeugt und konzeptionell fruchtbar ist, wird nicht aufgeben werden, sie wird Teil einer lebendigen Tradition. Der Forschungszirkel ist damit eine Posteriori-Sicht: Man erkennt im Nachhinein, oft erst viele Jahre später, was wirklich wichtig war, was zum Erfolg maßgeblich beigetragen hat. Die mehr oder minder präzise umrissene Norm(en) der „wissenschaftlichen Methode“ sind sich aus dem Erfolg ergebende Handlungsanweisungen. Die Methode ist, wie auch ein Blick auf den Forschungszirkel sofort zeigt, im Wesentlichen ahistorisch, nicht kontingent, und damit wider den herrschenden Zeitgeist. Der Grund ist einfach: Der Fußpunkt, auf dem alles aufbaut und an dem sich jede Theorie messen lassen muss, ist die empirische Erfahrung. Im „Moment der Wahrheit“, wenn unsere Vorstellungen auf die Praxis treffen, mit der Empirie kollidieren, helfen einer Theorie die ganzen externen Faktoren nichts. Egal, wer sie vorgeschlagen hat, egal, wie die soziologischen und psychologischen Randbedingungen sind - sie muss alleine die empirische Prüfung bestehen. Die Priori-Sicht wird hingegen viel mehr von individuellen und gruppendynamischen Vorgängen geprägt: Wer hat eine Idee vorgeschlagen, welcher Tradition entstammt eine neue Methode, welche Gruppe ist kompetent, was soll man unterstützen? Alle diese externen Faktoren, die unzähligen Entscheidungen im Umfeld, sind wichtig. Bestenfalls machen sie, wie etwa die Liste der Institutionen zeigt, welche immer wieder Nobelpreisträger hervorbringen, den Erfolg wahrscheinlicher. Garantieren können sie den Erfolg gleichwohl nie. Zudem treten sie zurück, werden gleichsam zur historischen Randnotiz, sobald ein echter Fortschritt erzielt worden ist. Beim Heliozentrischen System, Newtons Mechanik, dem Periodensystem der Elemente, Darwins Evolutionstheorie, der Quantenphysik und Einsteins Relativitätstheorien - kurzum, erfolgreichen wissenschaftlichen Leistungen - interessieren nachträglich deren Anwendbarkeit und ihr innerer Aufbau. In welchem Kontext sie entstanden sind und wer wann welchen Beitrag geleistet hat, ist im Vergleich dazu nicht mehr wichtig. In diesem Sinn unterscheiden auch wir, wie Reichenbach (1968: 340f), strikt zwischen dem Entdeckungs- und dem Begründungszusammenhang. Unser Entdeckungszusammenhang ist jedoch weit umfassender als der von Reichenbach (ibd.) geschilderte psychologische Vorgang: „Der Entdeckungsakt selbst ist logischer Analyse unzugänglich; es gibt keine logischen Regeln, auf deren Grundlage eine Entdeckungsmaschine gebaut werden könnte, die die schöpferische Funktion des Genies übernehmen würde.“ 50 Wir betonen zudem ausdrücklich, dass es sich lohnt, die tatsächliche historische Entwicklung zu studieren. Solche Studien sollten sogar einen wesentlichen Teil jeder 50
Es sei hinzugefügt, dass auch der Rechtfertigungszusammenhang bei Reichenbach weit über die Deduktion hinausgeht. Ibd. schreibt er: „Die induktive Schlußweise kommt [im] Rechtfertigungsanspruch zur Geltung, denn der Wissenschaftler will nicht nur behaupten, daß die Tatsachen aus seiner Theorie ableitbar sind, sondern auch, daß die Tatsachen seine Theorie wahrscheinlich machen und man die Theorie darum zur Vorhersage zukünftiger Ereignisse verwenden darf.“
580
6 Integrative Wissenschaftstheorie
empirisch basierten Wissenschaftstheorie ausmachen, zumal wenn sie fortschrittsfördernde Faktoren isoliert, sich also angeben lässt, welches Umfeld wissenschaftlichen Ertrag begünstigt. Daraus ergibt sich unseres Erachtens jedoch nicht, dass der Gang der wissenschaftlichen Forschung maßgeblich von äußeren Faktoren bestimmt wird. Da ihre „innere Logik“ weit wichtiger ist, werfen groß angelegte Forschungsprogramme mit fest umrissenen Zielvorstellungen regelmäßig weniger Ertrag ab als erhofft. Und weil andererseits für traditionelle, solide Grundlagenforschung wenig Geld bereitgestellt wird,51 ist es gelebte Praxis, in einschlägigen Anträgen die aktuellen “buzz words” wie Atom, Mond (vor 1969), Nano, Bio, systemisch oder nachhaltig zu verwenden, um dann mit den so eingeworbenen Mitteln genau die Forschung zu betreiben, die man für aussichtsreich hält. So formuliert die Forschungsbürokratie regelmäßig großartige Strategien, die tatsächlich an ganz anderer Stelle zu Erfolgen führen als geplant.52 Erst recht ist der wissenschaftliche Ertrag selbst, also der Gehalt von Theorien, die Schlagkraft von Verfahren und die Stimmigkeit deduktiver wie induktiver Schlussfolgerungen von speziellen historischen Randbedingungen nicht wesentlich abhängig. Ganz im Gegenteil: Die „zeitlose“, nicht-kontingente Methodik der Wissenschaft ermöglicht Ergebnisse, deren Gültigkeit überhaupt nicht von äußeren Faktoren abhängig ist. Sie ist sogar dazu in Lage, Menschen der unterschiedlichsten Kulturkreise und Epochen konstruktiv zusammenarbeiten zu lassen. Alle sind durch denselben „empirisch-logischen Vernunftprozess“ verbunden, welcher seit Jahrhunderten die einheitliche methodische Klammer aller aufgeklärten und zugleich ahistorischen Wissenschaften ist.53 Zugleich ist die Geisteshaltung der neuzeitlichen Wissenschaftler zur dominierenden, evidenzbasiert-rationalen Weltsicht im Allgemeinen geworden:54 It is because of this general philosophical lesson, far more than any specific discoveries, that the natural sciences have had such a profound effect on human culture since the time of Galileo and Francis Bacon. 51
So wurde z. B. die „Normalförderung“ der Deutschen Forschungsgemeinschaft über Jahre hinweg durch alle möglichen Sonderprogramme völlig ausgedörrt. 52
Schlimmstenfalls wird aus politischen Gründen jahrzehntelang für Dinge Geld ausgegeben, von denen sich die Fachleute längst verabschiedet haben. Das wichtigste Beispiel hierfür ist die bemannte Raumfahrt, siehe www.dpg-physik.de/veroeffentlichung/stellungnahmen/mem_raum_1990.html. 53 Ein beeindruckendes Beispiel: Mitten im ersten Weltkrieg schreibt der französische Physiker (Gley 1916): „[. . .] il ne peut y avoir une verité allemande, anglaise, italienne ou japonaise pas plus qu’une française. Et parler de science allemande, anglaise ou française, c’est énoncer une proposition contradictoire à l’idée même de sciene.“ Man vergleiche das nur mit Hardy and Bryman (2004: Kapitel 6, 30). 54 Siehe Sokal (2008: 19)
6.3 Konstruktive Antworten
581
6.3.2 Konstruktiv-kritisch oder stagnierend [. . .] once cognitive considerations are demoted from their central role in evaluating theories, then social, political and psychological considerations can move to center stage. (Sokal 2006: Kapitel 5)
Mit der gerade beschriebenen konstruktiv-kritischen Grundeinstellung darf man wohl am ehesten hoffen, Fortschritte zu erzielen. Die empirische Erfahrung, also die historische Entwicklung, bestätigt dies eindrucksvoll, hat doch die empirisch-experimentelle und zugleich quantitativ-logische Unternehmung, die vor etwa 400 Jahren begann, in der gesamten Neuzeit zu einer permanenten, äußerst schnell voranschreitenden Wissensvermehrung geführt (S. 551f). Zugleich haben sich die Wissenschaften untereinander vernetzt, bauen aufeinander auf und regen sich wechselseitig an. Es ist weit mehr so, dass der „Baum der Erkenntnis“ kräftig wächst und reichlich Früchte trägt, als dass Äste abbrechen, morsch würden, oder sich das Wachstum auch nur verlangsamen würde. Bis zum Aufkommen des modernen Relativismus, der alles in Frage stellt, war dies auch die herrschende Meinung in der Wissenschaftstheorie. Man sollte deshalb die Blickrichtung umkehren: Woran liegt es, wenn sich kein Fortschritt einstellt? Die Beweislast liegt bei den ertragsarmen Ansätzen, nicht bei den permanent Erfolgreichen! Einige Antworten haben wir (insbesondere S. 552ff) schon gegeben. Unwuchten im Forschungsprozess, insbesondere die Überbetonung der Theorie, führen schnell zum Ertragsrückgang. Noch problematischer ist es, wenn der vom Forschungszirkel vorgegebene Pfad verlassen wird. Selektiert man Ideen nicht nach deren empirischem Erfolg, sondern nach irgendwelchen anderen, untergeordneten Kriterien und distanziert man sich von logisch korrekten Argumenten, so verlässt man zugleich auch den Boden der Rationalität. Lehren, die dezidert kontingent sind, deren Methoden und Ergebnisse also erheblich von sozialen, politischen und subjektiven Faktoren abhängen, unterliegen, mit anderen Worten, weit mehr dem Zeitgeist und Modeströmungen. Wenn man die eigene Forschung nicht an der Sache und dem möglichen Erkenntnisgewinn, sondern an sekundären, zumeist äußeren Kriterien, wie Ranglisten, Impact-Faktoren, ministeriellen Programmen und dem „Mainstream“ ausrichtet, braucht man sich nicht zu wundern, wenn der Ertrag gering bleibt (Kieser 2010). In einem Satz: Schlechte Wissenschaft ist tatsächlich soziologisch und psychologisch erklärbar!55 Es genügt die Orientierung an Texten und Autoritäten, das heißt, eine eher referierende, kommentierende, literarisch-geisteswissenschaftliche Methodik, dass sich dieser Effekt einstellt. Wenn Text auf Text aufbaut, vervielfältigt sich die Sekundärliteratur in dem Maße, in dem man das eigentliche Problem aus den Augen verliert.56 Und je weniger man auf substanzielle neue Beiträge 55
Siehe z. B. Chalmers (1999: Abschnitt 6.5).
56
Zur Hermeneutik gehört der gleichnamige Zirkel.
582
6 Integrative Wissenschaftstheorie
achtet, ja vielleicht noch nicht einmal mehr daran glaubt, dass sie möglich sind,57 desto mehr wird die Eigendynamik der Diskussion entscheidend. Es entstehen Bibliotheken, randvoll gefüllt mit schwer verständlichen Werken zu tiefsinnigen Fragestellungen, welche für uns zunächst beeindruckender sind als ein einziger schmaler Band. Doch lehrt uns nicht die Komplexitätstheorie, dass eine Beschreibung umso einsichtsreicher ist, je kürzer sie ausfällt? Lieber ein kleines Büchlein, das ein Phänomen wirklich erklärt, als 1000 Folianten, die dazu trotz ihres überwältigenden Umfangs nicht in der Lage sind. Eine umfangreiche Literatur muss nicht zwangsläufig gehaltvoll sein, und eine Vielzahl von Expertenmeinungen kann andeuten, dass wir nicht wirklich etwas von einem Thema verstehen. Ganz im Gegenteil: Viele Worte verdecken die wenigen, echten Erkenntnisse; und Autoritäten ermutigen auch nur selten dazu, frische, originelle Ideen zu äußern. Genauso wie das Urteil über einen bedeutenden Künstler ständigen Schwankungen unterliegt, wechseln dann im Lauf der Zeit auch die Ansichten über Lehrmeinungen, Schulen und selbst Koryphäen der Wissenschaft. Entsprechend fragil sind deren (vermeintliche) Einsichten und Errungenschaften (S. 7). Sie werden leicht von den sich wandelnden intellektuellen Strömungen angegriffen und fortgespült. Wie sagte schon de Clapiers vor mehr als zwei Jahrhunderten:58 „Auch die Philosophie unterliegt der Mode, wie Kleidung, Musik und Architektur.“ Schlimmstenfalls hat man es nur noch mit hochgradig politisierten Ansichten, Rhetorik und Polemik zu tun, und historische Zufälligkeiten entscheiden, wer gerade die Oberhand behält.59 Es gibt darüber hinaus noch weitere, prinzipiellere Gründe:
6.3.3 Die skeptische Grundhaltung Kritisieren allein schadet jedem belebenden Fortschritt wie er auch zuschlagen mag. (Peter Handke zugeschrieben)60
Kritik, die nichts baut Cum grano salis sind Philosophen Zweifler, häufig große Zweifler, oft sogar prinzipielle Zweifler. Auf jeden Fall würde sich kein professioneller Philosoph vorwerfen lassen, unkritisch oder gar naiv zu sein. Wilson (2000: 279f) fügt 57
Ist in der Philosophie nicht ohnehin alles schon einmal gesagt worden? Und hat nicht Wittgenstein selbst alle philosophischen Probleme für Scheinprobleme gehalten? 58
Zitiert nach Durant und Durant (1985: Bd. 14, 108) Die Frage sei erlaubt, ob dies allen Ernstes erstrebenswert sein soll. Ist es nicht weit lohnender, nach einem bleibenden Ertrag Ausschau zu halten? Siehe S. 550ff. 60 Siehe www.zitate-online.de 59
6.3 Konstruktive Antworten
583
hinzu: „Die Massivität der technischen Probleme, vor denen [manche Wissenschaften] stehen, ist, ich gestehe es bereitwillig zu, außerordentlich entmutigend. Einige Wissenschaftsphilosophen haben bereits resigniert die Hände gehoben und erklärt, daß [viele Gebiete] einfach zu komplex seien, als daß sie mit unseren heutigen geistigen Mitteln durchschritten werden könnten, und es sei durchaus möglich, daß sie für immer außerhalb unserer Reichweite liegen [Sie seufzen:] Hoffnungslos, hoffnungslos! Aber genau das erwarten wir ja von den Philosophen. Schließlich ist es ihre klassische Aufgabe, die Grenzen der Wissenschaft im großen Zusammenhang zu definieren [. . .]“ 61 Dempster (1990: 263) ergänzt: Disputing the validity of colleagues’ positions is a fundamental mode of discourse among professional philosophers. Scientific disputes can also be sharp, but there is a greater sense that science works towards a consensus on achievable progress. Perhaps it is better to run with scientists turned philosophers, or philosophers whose inspiration derived from accurate descriptions of scientific thought and method.
Dieser Meinung schließen wir uns an. Kritik ist wichtig, aber sie baut für sich alleine genommen nichts. Stellt man immer wieder alles in Zweifel, so kommt man zu keiner zusammenhängenden Position, und dominieren sogar prinzipielle Vorbehalte, so gelangt man höchstens zu einer Sammlung kurioser Gegenbeispiele. (Möglicherweise ergänzt um verwegene Spekulationen.) Es ist deshalb sehr bedauerlich, dass die gerade beschriebene radikal-kritische Haltung charakteristisch für die zeitgenössische Philosophie ist (siehe hierzu auch Stove (2000: 185)). Viele Bücher sind wohl auch deshalb geradezu chaotisch: Eine Vielzahl von Positionen wird angerissen, es folgen überaus ausführliche Kritiken, Repliken und Erwiderungen. Fragt der verwirrte Leser am Ende nach der Quintessenz des Ganzen wird er selten ein klares Bekenntnis zu einer Position finden, weit häufiger wird er mit Eklektizismus abgespeist und gar nicht so selten versteckt sich der Autor hinter Kritik an allen referierten Argumenten. Nicht zuletzt schwächt übertriebene Skepsis auch den Realitätsbezug. Man traut schließlich auch den offenkundigsten Fakten, bestens fundierten Argumenten und (fast) zwingenden Schlüssen nicht mehr. Die von uns in Abschnitt 4.7 diskutierten Paradoxa der Induktion sind typische Beispiele hierfür. Anstatt wie Mill im 19. Jahrhundert konstruktive Vorschläge zu unterbreiten, wann - und warum! - ein induktiver Schluss gerechtfertigt erscheint oder wie die Statistik diese Ideen formal auszuarbeiten, erschöpft sich die philosophische Diskussion heute in eher unscharfen verbalen, das prinzipielle Problem wieder und wieder betonenden Argumenten. Efron (2001) sagt dazu: The philosophers usually say that statistics is impossible. They say that you can’t learn from experience. They can always think of counterexamples. But we live in a world where the examples outnumber the counterexamples by quite a bit.
Zudem lassen sich viele der genannten Paradoxien, etwa das Lotterie- und das Rabenparadoxon, mit statistischen Standardargumenten auflösen, oder 61
Hervorhebung im Original
584
6 Integrative Wissenschaftstheorie
es hilft eine konstruktive Begriffsbildung (Austauschbarkeit). Bemerkenswerterweise wird das wichtigste, nach Simpson benannte Paradoxon, das zu einer erheblichen Erweiterung statistischer Argumente Anlass gab, in der philosophischen Diskussion (zumindest des Induktionsproblems) kaum erwähnt. Und Solomonoffs allgemeine Lösung scheint den Philosophen völlig entgangen zu sein. Antinomien und Paradoxien62 werden in der Fachwissenschaft deshalb geschätzt, weil sie schlaglichtartig eine schwache Stelle beleuchten, und insbesondere logische Mängel schmerzlich bewusst manchen. Sie dienen, ähnlich den Sammlungen von offenen Problemen oder bislang unerklärlicher Sachverhalte, dazu, die Grenzen des aktuellen Wissens und Könnens abzustecken. Zumindest implizit sind sie mit der Aufforderung verbunden, eine konstruktive Lösung zu finden, also unsere Fähigkeiten so zu erweitern, dass das Paradoxon eine einleuchtende Begründung findet bzw. eine offene Frage schlüssig beantwortet werden kann. Mit den Worten von Wilson (2000: 280): Der philosophische Stachel ist nötig, um uns zur Vorsicht zu gemahnen. Doch wir sollten immer das Gegenmittel ‘Selbstvertrauen’ parat haben, damit er keine tödliche Wirkung auf uns ausüben kann. Wären frühere Generationen dem Unbekannten derart nachdenklich und demütig begegnet, so wäre unser Wissen über das Universum im sechzehnten Jahrhundert stehengeblieben. (Im Original steht der letzte Satz am Anfang.)
Das Verführerische an der kritisch-skeptischen Haltung ist, dass sie, weit mehr noch als das Verstecken einzelner, wichtiger Annahmen (siehe S. 451) mit einem erheblichen strategischen Vorteil verbunden ist. Man ist zunächst einmal nicht naiv (wie vermeintlich viele andere), was einem das Gefühl der tieferen Einsicht geben kann. Es ist sodann weit einfacher, ja bequemer, gegen etwas zu argumentieren, als eine plausible, in sich widerspruchsfreie, einigermaßen umfassende Haltung zu verteidigen. Dieser Vorteil der Opposition gegenüber der Regierung zeigt sich darin, dass erstere in Wortgefechten leichter die Oberhand behält.63
Zweifelnde Statistik Wie die Entwicklung der Statistik zeigt, zahlen sich aber alle taktischen Vorteile nicht aus! Ganz im Gegenteil: Über die Jahrzehnte hinweg ist die Statistik mit ihrer skeptisch-kritischen Grundeinstellung ins Hintertreffen geraten. Basu (1980) zeigt ganz konkret, welche Folgen Ignoranz und Arroganz haben. Hand und Everitt (1987) dokumentieren das gespannte Verhältnis zwischen 62
Für eine lesenswerte Sammlung, neben den schon genannten Beispielen, siehe v.a. Vollmer (1993: Kapitel 3) 63 Und wie leicht lässt es sich erst als Journalist kommentieren, wenn man selbst nie die Richtung vorgeben muss oder für seine Haltungen zur Rechenschaft gezogen wird.
6.3 Konstruktive Antworten
585
Medizinern und Statistikern aus der Sicht der letzteren.64 Schrieben wir eine Satire, so könnten wir mit diesem und verwandtem Material zahllose Monologe der folgenden Art gestalten: Ihre Erhebung entspricht nicht den von uns definierten Standards? Tja, da haben Sie wohl Pech gehabt! Sie wollen in den Daten etwas entdeckt haben, an das niemand vorher gedacht hat? Machen Sie sich mal nichts vor, mein Lieber! Sie glauben tatsächlich, dass man Daten trauen darf, ihnen die Zahlen etwas über die Welt verraten? Oh je, wie leicht können Daten lügen und einen in die Irre führen! Wie - Sie wollen aus einer konkreten Untersuchung ganz allgemeine Schlüsse ziehen? Dann lesen Sie doch erst einmal die umfangreiche, gelehrte Literatur über das Induktionsproblem. . . Die Ablehnung einer nichtssagenden Nullhypothese ist weit charakteristischer für die heutige Statistik als die Suche nach einem konkreten Einflussfaktor oder die Modellierung eines kausalen Zusammenhangs. Sie ist in die Defensive geraten, weil sie sich nicht im gleichen Maße wie früher den praktischen Problemen stellt und konstruktive Antworten auf drängende Fragen sucht. Anstatt dem Wissenschaftler und dem Datenanalysten zu helfen, weil sie ihre Hauptaufgabe darin erblickt, diesen nichttriviale Methoden und wirkungsvolle analytische Werkzeuge an die Hand zu geben, schlüpft sie häufig in die Rolle des Zweiflers. Dies drückt sich nicht zuletzt auch auf der menschlichen Ebene aus: I do though, wonder a little about how closely related mathematical and statistical abilities are. Does a statistician need slightly more of a touch of reality than a mathematician? In my day, anyone going from mathematics to statistics was considered a mathematical failure - or vice-versa” (Bodmer 1987: 191).
Und auch noch zwischen angewandten und theoretischen Statistikern wird auf dieselbe Weise differenziert: “However, I do hope that those, such as myself, who became embedded in a subject of application, although trained as statisticians, are not forgotten, and so lost to statistics” (Bodmer (1987: 190), meine Hervorhebung). Learning to bear the quantitative man’s burden65 (Tukey 1986b) bedeutet nicht zuletzt, sich solcher destruktiver Kritik zu stellen und sie mit konstruktiven, belastbaren Lösungsvorschlägen zu beantworten. Diese Grundeinstellung ließe sich kurz mit “sharing the quantitative man’s burden” umschreiben, und auf der vorletzten Seite seiner gesammelten Werke würdigt Tukey (1986f: 1015) diese Klasse von Statistikern: Our pride should be greatest when what we can do is largest compared with what can be done without us - without regard to how simple or complex are the ideas we use to do things better. 64
Eine humorvolle Erwiderung ist Sackett und Oxman (2003). Jaynes (2003) setzt sich ganz allgemein für selbstbewusste Fachwissenschaftler ein, die zumindest in Standardsituationen ihre eigenen Statistiker sein können. Warum auch nicht? Niemand konsultiert bei alltäglichen Berechnungen einen Mathematiker! 65 Siehe auch S. 305 und 416
586
6 Integrative Wissenschaftstheorie
Die Statistik ist wie alle Wissenschaften dort am stärksten, wo sie über explizite Modelle und stringente Argumente für eine gewisse Vorgehensweise verfügt. Entwickle konkrete Zuweisungsmodelle, um spezifische Selektionseffekte zu erfassen. Erstelle kausale Graphen, um den Einfluss potenziell wichtiger Faktoren abzuschätzen. Ist dies nicht überzeugend, dann randomisiere, um Dich gegen alle, insbesondere auch unbekannte Störfaktoren abzusichern. Plane Deine Auswertungen im Vorfeld der Datenerhebung und halte den Fehler 1. Art fest, um Dir nicht selbst etwas vorzumachen. Erhebe gezielt für eine Fragestellung relevante Daten, statt mit irgendwelchen leicht verfügbaren Beobachtungsdaten zu arbeiten. Formalisiere substanzielles Vorwissen um zu einer präzisen Schlussfolgerung zu kommen, sei jedoch vorsichtig, wenn es sich beim vermeintlichen Wissen v.a. um subjektive Mutmaßungen handelt. Mache deine Voraussetzungen und Methoden explizit, um die konstruktive Diskussion zu erleichtern. Achte auf Validität und Reliabilität. Repliziere deine Experimente wo immer möglich. Arbeite quantitativ, nicht qualitativ usw. Alle diese mehr oder minder präzisen Ratschläge, von denen sich viele formalisieren lassen, nutzen die Kritik konstruktiv. Die prinzipielle Einsicht, dass morgen im Prinzip alles anders sein könnte, hilft nämlich wenig weiter; viel besser ist es, konkrete Bedingungen angeben zu können, wann eine Idee funktioniert, unter welchen Bedingungen ein allgemeines Gesetz gilt. Die empfohlenen Maßnahmen lassen sich als Verteidigungsstrategien gegen potenzielle Gefahrenquellen und entsprechend fundierte Einwände begreifen, doch weit mehr noch spricht der immense Erfolg der empirischen Wissenschaften für sie. Immer dann, wenn aus der negativen Kritik im Positiven eine verstärkte Theorie hervorgeht, war die Kritik nützlich, im besten Sinne kritischkonstruktiv. Wir haben jedoch im letzten Abschnitt die beiden Adjektive bewusst vertauscht, um deutlich zu machen, dass das konstruktive Element wichtiger ist als das kritische. Bei allen Vorbehalten gegenüber unseren Methoden, Theorien und unserem praktischen Können - es ist allemal besser, diesen Fundus zu erweitern, ihm zuweilen sogar eher naiv zu vertrauen, als immerfort dessen Grenzen und prinzipielle Vorläufigkeit zu betonen oder gar über eine vermeintlich soziobiologisch verankerte „Fortschrittsillusion“ (Volland 2007) zu räsonieren. Wie sollte man anders eine gehaltvolle Wissenschaft aufbauen? Humes Aphorismus von den Spinnen, Ameisen und Bienen ist auch heute noch gültig.66 Bei Licht betrachtet ist der objektiv erzielte Fortschritt, also die Wissensakkumulation der letzten Jahrhunderte, sogar äußerst beeindruckend. Es gibt deshalb auch keinen konkreten Grund, die Leistungsfähigkeit der konstruktiv-kritischen wissenschaftlichen Methode zu bezweifeln. 66
„Rationalisten [gleichen] Spinnen, die aus ihrer eigenen Substanz Spinnweben fabrizieren, und die älteren Empiristen Ameisen, die Material sammeln, ohne es ordnen zu können; aber die modernen Empiristen, meint er, seien wie Bienen, die ihr Material sammeln und verdauen, indem sie von ihrer eigenen Substanz etwas dazutun“ (Reichenbach 1968: 176).
6.3 Konstruktive Antworten
587
Kommen von Seiten der Statistik keine konstruktiven Vorschläge, so geht es ihr wie der Philosophie. Sie wird eher ignoriert als geschätzt, eher misstrauisch beäugt, denn als Verbündeter betrachtet. Zudem ist es Naturwissenschaftlern und Ingenieuren nicht fremd, benötigte Mathematik, also auch Statistik, bei Bedarf selbst zu entwickeln. Das gilt auch für die Philosophie: Je weniger sich jene mit den echten Problemen empirischer Wissenschaft auseinander setzt, desto mehr wird aus der praktischen Erfahrung eine angemessene Grundhaltung (induktiv) erwachsen, die ihre Stärke aus eben ihren Wurzeln zieht. In beiden Fällen sind die Vorschläge der empirischen Wissenschaftler dann weit konkreter und optimistischer als jene der Fach-Statistiker oder -Philosophen. Prominente Beispiele sind der Umgang mit nichtexperimentellen Daten, induktiven Schritten, der Wahrheits- und der Fortschrittsbegriff sowie der Wissenschaftsrealismus. Die antirealistische Diskussion bleibt, obwohl ausufernd, fast immer vag-prinzipiell. Ebenso ist die statistische Kritik häufig wenig konkret; es wird lediglich auf mögliche Störfaktoren und potenzielle Gefahren hingewiesen. Erfolge sind hingegen immer konkret: Eine Hypothese bestätigt sich im experimentellen Test, eine Methode funktioniert, ein induktiver Schritt gelingt, und auch die konstruktiv-kritische Grundhaltung insgesamt leistet das Erhoffte.
6.3.4 Ertragsorientierung All this is wormwood to scientists like myself, who think the task of science is to bring us closer and closer to objective truth. But Kuhn’s conclusions are delicious to those who take a more skeptical view of the pretensions of science. If scientific theories can only be judged within the context of a particular paradigm, then in this respect the scientific theories of any one paradigm are not privileged over other ways of looking at the world, such as shamanism or astrology or creationism. If the transition from one paradigm to another cannot be judged by any external standard, then perhaps it is culture rather than nature that dictates the content of scientific theories. Weinberg (1998)
Dem von Carrier (2007: 43f), siehe S. 560, vorgetragene Argument für den status quo oder sogar den weiteren Ausbau der philosophischen Komponente der Wissenschaftstheorie können wir uns also nicht anschließen. „Durch eine derartige [philosophische] Professionalisierung wird eine Eindringtiefe der Wissenschaftsreflexion erreicht, die aus der gleichsam nebenberuflichen Perspektive des aktiven Wissenschaftlers nicht zu gewinnen ist“ gleicht vielmehr einem Rezept zur Verschärfung der Krise. Wir betonen das genaue Gegenteil: Ohne eine einschlägige fachwissenschaftliche Ausbildung ist die Eindringtiefe „professioneller“ Philosophen in die jeweiligen Gebiete so gering, dass kaum mit bedeutsamen Einsichten zu rechnen ist. Der Normalfall ist vielmehr, dass die philosophische Reflexion oh-
588
6 Integrative Wissenschaftstheorie
ne ein hinreichend tiefes Verständnis wissenschaftlicher Arbeit(en) den ausgeführten Pathologien anheim fällt. Mit dieser Einschätzung stehen wir nicht alleine. Etwa lautet die nahezu gleichlautende Diagnose von Laubichler (2008) bzgl. der Wissenschaftsgeschichte: Heute analysieren Wissenschaftshistoriker die Entwicklung der Wissenschaften unter kultur-, sozial- und literaturwissenschaftlichen, kunsthistorischen oder philosophischen Perspektiven [. . .] Diese Betonung der mannigfaltigen Bezüge, in die Wissenschaft eingebettet ist, führte im Gegenzug dazu, dass die Rekonstruktion der inneren Logik der Wissenschaften vernachlässigt wurde. Dazu trägt auch ein Mangel an wissenschaftlicher Kompetenz unter jüngeren Wissenschaftshistorikern bei, deren Ausbildung in Wissenschaftsgeschichte oder verwandten geisteswissenschaftlichen Fächern nicht mehr jene interdisziplinäre Doppelkompetenz (in Natur- und Geisteswissenschaft) in den Vordergrund stellt, die jedoch die Voraussetzung für einen produktiven Dialog mit den Naturwissenschaften ist.67
Carriers Argument lässt sich auch als selbstimmunisierende Schutzbehauptung interpretieren. Es gesteht nur jenem das Recht zu, in die wissenschaftstheoretische Diskussion einzugreifen, der eine entsprechend fundierte literarische Ausbildung hat. Man vergleiche das mit Chomsky (1979: 6f):68 Compare mathematics and the political sciences - it’s quite striking. In mathematics, in physics, people are concerned with what you say, not with your certification. But in order to speak about social reality, you must have the proper credentials, particularly if you depart from the accepted framework of thinking. Generally speaking, it seems fair to say that the richer the intellectual substance of a field, the less there is a concern for credentials, and the greater is the concern for content. [Mathematicians] want to know whether I am right or wrong, whether the subject is interesting or not, whether better approaches are possible - the discussion deal[s] with the subject, not with my right to discuss it.69
Eine ähnliche Ansicht vertrat auch Feynman (2005b: 410), als er bei einem feierlichen Anlass nach seinem Fachgebiet gefragt wurde. Auf die bedauernde Reaktion des Fragestellers, man könne sich über Physik nicht unterhalten, da (fast) niemand etwas davon verstünde, erwiderte er, es sei gerade umgekehrt: „Wir können uns deshalb nicht über Physik unterhalten, weil jemand etwas davon versteht. Es sind die Dinge, von denen niemand etwas versteht, über die wir diskutieren können.“ 70 67
Zur Verbesserung der Situation schlägt er dann vor: „Eine mögliche Lösung dieses Problems besteht darin, wissenschaftshistorische Abteilungen oder Lehrstühle innerhalb naturwissenschaftlicher Institute einzurichten. Dieses Modell wurde mit großem Erfolg an einigen amerikanischen Universitäten eingeführt. Der enge Kontakt mit Naturwissenschaftlern ermöglicht nicht nur einen kontinuierlichen interdisziplinären Dialog; durch Einbindung der Wissenschaftshistoriker in die naturwissenschaftliche Lehre ergeben sich auch vielfältige Möglichkeiten, neuen Generationen von Wissenschaftlern ein besseres Verständnis der historischen, konzeptuellen wie auch der sozialen Voraussetzungen ihrer Fächer zu vermitteln.“ 68 Zitiert nach Sokal und Bricmont (1998: 12), meine Hervorhebung. 69
Am Rande sei erwähnt, dass auch Martin Gardner, der über Jahrzehnte eine legendäre mathematische Kolumne im Scientific American verantwortete, mathematischer Autodidakt und studierter Philosoph ist. 70
Hervorhebungen im Original. Für eine nahe verwandte Bemerkung siehe S. 582.
6.4 Adaptive Statistik
589
Entscheidend ist der Ertrag. Warum dieser seit einiger Zeit in der Wissenschaftstheorie ausbleibt, haben wir erläutert. Benötigt werden stattdessen eigenständige science studies, bestehend aus Wissenschaftstheorie und Wissenschaftsforschung. Das heißt zuallererst, dass der theoretisch-philosophische Überbau auf dem festen Fundament fachwissenschaftlicher Fakten zu errichten ist, weshalb schon Reichenbach (1951) den treffenden Ausdruck wissenschaftliche Philosophie verwendete. In dieser Tradition stehend schreibt Fischer (1995: 254), Hervorhebung im Original: Die Wissenschaftstheorie muss sich von der Illusion verabschieden, die Standards der Wissenschaftlichkeit normieren zu können. Sie ist einfach die Wissenschaft von der Wissenschaft - in all ihren Facetten und Dimensionen - nicht mehr und nicht weniger. Ihre Aufgabe ist Aufklärung über Wissenschaft, über die Bedingungen ihres Funktionierens, ihrer Stagnation, Degeneration und Progression. Aber auch über ihre verschiedenen Komponenten und Ebenen und das prekäre Zusammenspiel ihrer logischen, semantischen, psychischen, sozialen, politischen und ökonomischen Aspekte.
Aus der Beschreibung historisch erfolgreicher Beispiele erwächst dann ganz von allein ein Maßstab „guter“ Wissenschaft, also - empirisch fundierter - Normen, welche den Fortschritt der Wissenschaft befördern und nicht hemmen. Ein solches Projekt kann jedoch wie bei allen empirischen Wissenschaften nur gelingen, wenn die Komponenten des Forschungszirkels in einem angemessenen Verhältnis stehen. Angesichts des geringen Alters der Wissenschaftsforschung empfiehlt sich zur Zeit eine dezidiert induktive Ausrichtung, also akribische Studien darüber, wie Wissenschaft funktioniert, der reale Wissenschaftsbetrieb organisiert ist und es zu Erkenntniszuwachs kommt. Vor allem aber darf man die empirische Komponente, d. h. die Methoden und Ergebnisse der Einzelwissenschaften, nicht vernachlässigen. Dann ist auch zu erwarten, dass die fachwissenschaftlich fruchtbare Diskussion bislang originär philosophischer Themen, etwa der Induktion oder der Kausalität, die philosophische Diskussion auf ein anderes Niveau heben wird.
6.4 Adaptive Statistik Die Natur, der Gegenstand der Naturwissenschaft, umfasst die unabhängig vom Wirken des Geistes hervorgebrachte Wirklichkeit. Alles, dem der Mensch wirkend sein Gepräge aufgedrückt hat, bildet den Gegenstand der Geisteswissenschaften. (Dilthey 1910: 72f)
Der letzte Abschnitt sollte bei aller Kritik nicht den Eindruck hinterlassen, die aktuelle Wissenschaftstheorie sei gänzlich unfruchtbar. Wir begrüßen ausdrücklich die fundierte und konstruktive Argumentation vieler zeitgenössischer Wissenschaftstheoretiker, etwa in Laudan (1981a, 1981b, 1990, 1996),
590
6 Integrative Wissenschaftstheorie
Donovan et al. (1992), Mayo (1996), Koertge (1998), Ladyman (2002), Carrier (2006), oder Bartels und Stöckler (2007). Die vom Wiener Kreis, Reichenbach, Carnap, Popper, Kuhn, Lakatos und anderen eingeführten Begriffe und Ideen strukturieren noch heute die Diskussion.71 Selbst die postmoderne Relativierung, die Betonung außerwissenschaftlicher Faktoren und der Rolle des Individuums sind - in Maßen - zweckdienlich. Wir wollen deshalb im folgenden den Faden der Kooperation aufnehmen und exemplarisch zeigen, wie der Grundgedanke einer eher spekulativen Theorie in der angewandten Statistik verwendet werden kann. Nicht ganz unähnlich der Popularität des strong programme in der englischsprachigen Welt erfreut sich im deutschsprachigen Raum die Systemtheorie (Luhmann 1998, 2006, 2009) einer ähnlich großen Beliebtheit.72 Grundlegend für die Systemtheorie ist die Unterscheidung zwischen nomologischer und autopoietischer Realität. Nomologische Realität ist (innerhalb gewisser Grenzen) regelmäßig, deshalb lassen sich auf dieser Basis sogenannte denotative Theorien entwickeln, die im Wesentlichen unabhängig vom Beobachter sind. Aufbauend auf einem konstanten Fundament beschreiben sie ihren empirischen Bereich. Dies ist im Fall der autopoietischen Realität, welche sich ständig verändert und in die der Beobachter aktiv gestaltend eingreifen kann, völlig anders. Anstatt eines stabilen Fundaments hat man es dort mit einem variablen und (durch willentliche Handlungen zumindest teilweise) veränderbaren Untergrund zu tun. Alles was dort möglich ist, sind sogenannte konnotative Theorien.73 71
Gemäß einer Auswertung von Rose (2004: Abschnitt 4.1) ist Kuhn nach Popper der am zweithäufigsten zitierte Philosoph in den Naturwissenschaften. 72
Aus der sehr umfangreichen Literatur heben wir nur Simon (2007), Willke (2006), Baecker (2005), Berghaus (2004) und von Foerster (2003) hervor. 73
Womöglich darf hier ein Hinweis auf die Quantenmechanik nicht fehlen. Auch dort bestimmt der Beobachter ja durch die Art seiner Frage über die Antwort mit. Zudem sind die Quantentheorien durch und durch wahrscheinlichkeitstheoretisch. Die von uns gegebenen Antworten (siehe S. 514), wann probabilistische Argumente unausweichlich werden, lassen sich hier neu bewerten und ergänzen. Fall 1, also die zu grobe Beobachtung bzw. Messung, scheidet aufgrund von Heisenbergs Unschärferelation aus. Fall 2, d.h. eine unendlich bzw. äußerst fein strukturierte Realität, wird von den Stringtheorien und anderen Ansätzen, die in noch kleineren Abmessungen und weiteren Dimensionen nach bislang nicht gefundenen Strukturen suchen, verfolgt. Nach Jahrzehnten solcher aufwändiger, jedoch ziemlich fruchtloser Bemühungen, klingt heute die Idee, dass es die feineren Strukturen gar nicht gibt, man also möglicherweise nach etwas sucht, das gar nicht vorhanden ist, immer überzeugender, was Fall 3 (keine Struktur ⇔ echte, absolute Zufälligkeit) entspricht. Die Autopoiesis eröffnet eine weitere Möglichkeit: Durch die Messung zwingt man das System zu einer Entscheidung, einer eindeutigen Antwort bzw. einem Symmetriebruch. Das erinnert sehr an ein Bit, das auf einen Wert festgelegt bzw. eine Münze, die zu einer Realisierung gezwungen wird, obwohl weder Bit noch Münze „als solche“ auf eine der beiden Möglichkeiten festgelegt sind. In genau diesem Sinne erzeugt die Beobachtung erst eine Information, die ohne Messung gar nicht vorhanden wäre. Dies hört sich exotischer an als es ist: Psychologen kämpfen bei der Einstellungsmessung tagtäglich mit demselben Problem, wenn sie Personen zu klaren Aussagen über Sachverhalte zwingen, über die die Probanden ohne Nachfrage gar keine fixierte Meinung hatten.
6.4 Adaptive Statistik
591
Diese Idee ist fast schon selbstevident: Nur bei einem festen archimedischen Punkt, bei einer vom Beobachter unabhängigen Realität, hat man die Chance, allgemeingültige Gesetzmäßigkeiten ähnlich jenen in den Naturwissenschaften zu formulieren. Sobald der Beobachter das Beobachtete jedoch wesentlich beeinflusst, ist es um die Existenz allgemein gültiger Gesetze schlecht bestellt. Es genügt, dass die Perspektive, also die Art der Betrachtung eine wesentlichere Rolle spielt, um aus uneingeschränkt gültigen Regeln (bestenfalls) nützliche Idealisierungen der tatsächlich weit komplexeren Verhältnisse werden zu lassen. Im Extremfall hat man es sogar mit einer Autopoiesis, also einer gemeinsamen Entwicklung von beobachtetem System und Beobachter zu tun - die Biologie spricht hier auch von Koevolution - und Regeln gelten bestenfalls eine gewisse Zeit lang. Wir wollen nicht beurteilen, inwieweit dieser Gesichtspunkt auf die Soziologie zutrifft, für die diese Idee wohl primär entwickelt worden ist. Traditionellerweise (d.h. gemäß Ockhams Ökonomieprinzip des Denkens) wäre es methodisch zunächst angebracht, zu erforschen, wie weit man mit einem möglichst einfachen - also nomologischen - Ansatz kommt und erst dann, wenn dieser sich nachweislich nicht bewährt hat, zu einem komplexeren Ansatz (etwa der Autopoiesis) überzugehen. Merton (1968) plädiert nicht als einziger gegen hochgradig abstrakte und empirisch kaum zu prüfende grand theories und spricht sich stattdessen für middle range theories aus, die Theoriebildung mit empirischer Fundierung verbinden. Auch andere Wissenschaften starten zunächst mit approximativen, zuweilen außerordentlich groben, aber gleichwohl denotativen Theorien, um sie später zu verfeinern. Durch das Basispostulat einer autopoietischen Realität versperrt die Systemtheorie der Soziologie diesen Weg, noch bevor er ernsthaft betreten worden ist.
Statistik und beobachtetes System Für unser Thema wichtiger ist, dass die Idee einer Adaptation des untersuchten Systems an die beobachtende Statistik von großer Bedeutung ist. Ein zentraler Zweck der angewandten Statistik ist selbstredend die Erfassung realer Verhältnisse. Zum Beispiel dient das ausgedehnte Berichtswesen der Wirtschafts- und Sozialstatistik dazu, den Zustand der Wirtschaft und die materiellen Verhältnisse der Gesellschaft zu beschreiben. Auch die Epidemiologie „lebt“ von umfangreichen und möglichst flächendeckenden Fallsammlungen, man denke nur an einschlägige Krankheitsregister, in denen möglichst alle Krankheitsfälle festgehalten werden sollen. Dabei ergibt sich nun immer wieder die folgende, wenig erfreuliche Entwicklung: 1. Über das zu untersuchende System liegen keine systematischen Daten vor. Beispiel: Anekdotische Berichte über die Zustände in Krankenhäusern vor dem 19. Jahrhundert.
592
6 Integrative Wissenschaftstheorie
2. Einige wenige, zentrale Statistiken sollen zumindest ganz wesentliche Eigenschaften des Systems abdecken, etwa Anzahl der Patienten, Behandlungserfolg und -Dauer, Kosten usw. 3. Auswertern fällt auf, dass die Daten zu wenig detailliert sind. Sitzen sie wie bei der Wirtschafts- und Sozialstatistik, aber auch dem Gesundheitswesen, am legislativen Hebel, so setzen sie durch, dass die Erhebungen umfangreicher und insbesondere auch detaillierter werden. Beispiel: Es werden Richtlinien für die Pflege von Krankenakten erlassen. Die statistische Berichtspflicht der Krankenhäuser wird ausgebaut. 4. Die „Professionalisierung“ der Datenerhebung wird zur Bürokratisierung. Immer mehr Ressourcen und insbesondere Arbeitszeit muss auf das Führen der Statistik verwendet werden, so dass die eigentliche Arbeit - der Dienst am Patienten - zuweilen zu kurz kommt. 5. Die Erhebung von Daten wird als lästige Pflicht, Kontrolle und Gängelung empfunden. Das gilt insbesondere dann, wenn mithilfe der „objektiven“ Daten das jeweilige System, etwa das Gesundheitswesen, gesteuert wird und an eine „erfolgreiche Statistik“ Gratifikationen gebunden sind. 6. Im schlimmsten Fall führt die „gute gemeinte“ Statistik zu einer Planerfüllungsmentalität. Es kommt primär darauf an, in der Statistik, d.h. bezüglich der von ihr erfassten Größen, gut dazustehen. Was die Statistik nicht erfasst, ist auch nicht relevant. Durch diesen Blick auf die äußere Kontrolle tritt die eigentliche Arbeit noch weiter in den Hintergrund. Und selbstverständlich wird die unliebsame, aber omnipräsente „Kontroll-Statistik“ wo immer es geht um-, zuweilen auch hintergangen. 7. Die beobachtende Statistik und das Feld, welches untersucht werden soll, befinden sich also in einem Wettlauf. Die Daten werden so zwar immer umfangreicher, aber zugleich auch immer weniger aussagekräftig. Je näher die Statistik ihrem Untersuchungsobjekt kommen will, umso entschlossener versucht jenes, sich zu entziehen. 8. Das System mitsamt seinem Beobachter kommen schließlich in einer kontraproduktiven Sackgasse an. Die „Statistik“ verschlingt einen (immer) größeren Teil der Ressourcen ohne dass dem noch ein entsprechender Nutzen gegenüberstünde. 9. Es ist in dieser Situation eine Illusion zu glauben, immer noch mehr Daten würden das Problem schon lösen. Vielmehr hat die unglücksselige Kombination aus Informationsbedürfnis und Kontrolle das Gesamtsystem, etwa das Gesundheitswesen und seine Statistik, auf dem Wege einer völlig folgerichtigen Entwicklung in die Irre geführt. Nahezu die gesamte Statistik geht von festen und informativen Daten aus. Beim Hypothesentesten treffen fest-gehaltene Daten auf eine fixierte Hypothese, neuerdings werden flexible Modelle an gegebene Daten angepasst (siehe S. 476). Auch die klassische Datenerhebung schließt nur gewisse „Störfaktoren“ aus. Hier zeigt sich nun aber, dass Daten im Allgemeinen alles andere als stabil oder verlässlich sein müssen. Vielmehr versucht sich das gesamte
6.4 Adaptive Statistik
593
beobachtete (soziale) System aktiv einer aussagekräftigen Beschreibung und damit auch Steuerung zu entziehen! Das am Beispiel des Gesundheitswesens demonstrierte Problem ist alltäglich, und ebenso die beschriebene Entwicklung. Folgerichtig leidet nicht nur das Gesundheitswesen unter einer überbordenden „Datenerhebungsbürokratie“. Vielmehr sind die ausgeführten Konsequenzen bei jedem System zu erwarten, dass sich an einen kontrollierenden „aversiven“ Beobachter adaptiert. Statt Koevolution sprechen nicht nur Evolutionsbiologen in solchen Fällen von einem Rüstungswettlauf.74 Es ist hier von zentraler Bedeutung, die Wechselwirkungen zwischen System und Beobachter im Auge zu behalten. So zu tun, als gäbe es keine gegenseitige Beeinflussung und der „objektive“ Zustand des zu beobachtenden Systems sei einfach durch eine entsprechend detaillierte Datenerhebung zu erfassen, ist eine gefährliche Illusion, die zu obiger Fehlentwicklung führt. Man muss beide Komponenten und ihre wechselseitige Abhängigkeit im Blick haben, damit nicht das Gesamtsystem aus den Fugen gerät und man einer „Computopia“-Illusion erliegt. Von der Lippe (1996: Kapitel 8; 261-265), beschreibt diese prägnant: „Mit ‚Computopia‘ soll die Idee bezeichnet werden, daß Politik und Planung umso besser sind, je umfassender die Lage- und Erfolgsbeurteilung mit statistischen Daten gesichert ist.“ Diese Idee führt folgerichtig zu einem „unendlichen Datenbedarf“ verbunden mit der „überzogenen Erwartung, Problemen mit mehr statistischen Daten beizukommen, v. a. bei Politikern und deren wissenschaftlichen Beratern: Ist ein politischer ‚Handlungsbedarf‘ erkannt, so wird als erstes nach mehr statistischen Daten gerufen, und wenn man einige Jahre später auf diese Forderungen an die Statistik zurückblickt, so wird die Dringlichkeit und Größe des Datenbedarfs, die Planungseuphorie und die Liebe zum statistischen Detail nicht selten geradezu grotesk.“
Je mehr Daten gesammelt wurden, je größer der betriebene Aufwand war, desto mehr möchte man dann auch aus ihnen herausholen. Es ist also nur nahe liegend, die Rohdaten fast genauso perfektionistisch zu aggregieren, sich etwa auf die Suche nach der „endgültigen, alles umfassenden Gesamtrechnung“ der Volkswirtschaft zu machen, die alles zu einem einzigen, riesigen, in sich stimmigen Gesamtbild vereinigt. Ähnlich veranlagt ist, wer die gesamte, komplexe Entwicklung in einer einzigen Zahl abbilden will. Mit grausamem Realismus schreibt er ibd.: Es gibt nie eine Grenze der statistischen Perfektionierung, wenn sich nur die (oft gar nicht hinterfragte) Nachfrage nach Daten hinreichend Gehör verschafft, was immer dann der Fall ist, wenn etwas ‚von oben‘ geordnet und überwacht werden soll. In der ehemaligen DDR gab es bis zuletzt nicht wenige, die glaubten, mit etwas mehr Daten und einem etwas größeren zentralen Rechner hätte man den Kapitalismus besiegen können. Dem gleichen, hier ‚Computopia‘ genannten Glauben begegnet man aber auch in ‚westlichen‘ Bürokratien, z. B. in supranationalen Organisationen oder in den Wissenschaftsministerien. Manchmal sind mehr Verordnungen, mehr Gremien, mehr Erhebungen und höhere Ausgaben der einzige Erfolg der Regelungsbemühungen. 74
Siehe z. B. Saint-Mont (2002) und die dort genannte Literatur.
594
6 Integrative Wissenschaftstheorie
Offensichtlich besteht die eigentliche Aufgabe darin, ein Gesamtsystem zu konzipieren, dass sowohl das interessierende beobachtete System möglichst ungestört „seiner Arbeit nachgehen lässt“, als auch zugleich übergeordnete Informations- und Steuerungsbedürfnisse befriedigt.75 Folgende ineinander verzahnte Möglichkeiten bieten sich an: 1. Automatisierung. Je mehr Vorgänge standardisiert erfasst und automatisiert verarbeitet werden, desto weniger Verwaltungsaufwand fällt auf der individuellen Ebene an. 2. Richtige Granularität bzw. Detaillierungstiefe. Daten sollten nur so detailliert wie für einen bestimmten Zweck notwendig, erfasst werden. Ähnlich wie bei einem Bild gibt es typischerweise eine optimale Granularität. Zu grobe Daten enthalten kaum Information, während die Details hochdifferenzierter Daten kaum genutzt werden bzw. wenig aussagekräftig sind (zufällige Schwankungen). 3. Nutzen versus Kosten: Wer mehr Daten will, muss den dadurch entstehenden Nutzen belegen. Dieser ist gegen den zusätzlichen Aufwand abzuwiegen. (Der Aufwand wächst hingegen ins Unermessliche, wenn die auswertenden Stellen beliebige Datenwünsche anmelden können, welche die Erheber der Daten erfüllen müssen.) 4. Rechte und Pflichten. Wer die Pflicht hat, Daten bereitzustellen, sollte auch das Recht haben, sie auszuwerten, oder aber zumindest die (unter anderem) auf seinen Daten beruhenden Auswertungen einzusehen und zu beurteilen. In Anlehnung an den Grundsatz “no taxation without representation” könnte man dies no information without participation nennen. 5. Je mehr die Interessen von Beobachter und beobachtetem System divergieren, desto schwieriger wird es, zuverlässige Daten zu bekommen. Spätestens wenn der Zweck der Datenerhebung primär der Überwachung des Systems und nicht mehr dessen Beschreibung dient, scheitert der kooperative Ansatz. Das heißt, dann werden Kontrollen und Sanktionsmechanismen unvermeidlich, für die sich schon lange das Prinzip der Verhältnismäßigkeit eingebürgert hat. Die letzten Stichpunkte sollten ein funktionsfähiges Gesamtsystem skizzieren. In dessen Mittelpunkt steht die Aufgabenerfüllung des untersuchten System. Von der Lippe (1996: 261) schreibt dazu: „Ohne Leistungsanreize und Funktionsfähigkeit der Leistungsträger erhalten die Planer nicht die zutreffenden, sondern durch Interessen verfälschte Informationen.“ Auch an dieser Stelle beginnt die Quantifizierung. Mit dem aus den Niederlanden stammenden Standardkostenmodell (Merk et al. 2005) werden schon in mehreren europäischen Ländern die durch staatliche Informationspflichten verursachten bürokratischen Aufwände abgeschätzt. Entscheidend ist, den (unstillbaren) Datenhunger durch Verweis auf die zusätzlichen Ausgaben in Schach zu halten, so dass insgesamt ein mit einem kleinen “Overhead” steuerbarer Bereich 75
Ärzte und Pflegekräfte sollten sich primär um ihre Patienten kümmern, nicht um Statistik! Andererseits müssen die finanziellen Mittel gezielt eingesetzt werden.
6.5 Schlussbemerkung
595
entsteht. Dieses Leitbild gilt es immer im Auge zu behalten, wenn sich die Wechselwirkungen zwischen einem Beobachter - hier oft auch ein Kontrolleur - und dem jeweiligen zu beobachtenden System nicht wie im einfachen nomologischen Fall vernachlässigen lassen.76 Da die Realität(en) bei der Erfassung adaptiver Systeme komplexer sind als im einfachen nomologischen Fall, ist es auch weit schwerer, ein solches Gesamtsystem zu steuern. Andererseits eröffnen sich aber auch größere Gestaltungsspielräume. Denn nicht eherne Naturgesetze diktieren das Geschehen, sondern wir bestimmen - zumindest in Maßen - über die Regeln und Abläufe mit. Dass man auch in solchen Situationen, also ohne einen „festen archimedischen Punkt“, sinnvoll handeln kann, beweisen seit Jahrtausenden funktionierende Bürokratien. Nicht nur die Steuerverwaltung adaptiert sich immer wieder aufs Neue an die von ihr betreuten Bürger (und umgekehrt). Letztlich lernen alle Systemteilnehmer voneinander und stellen sich auf die jeweiligen Bedingungen ein. Sind wir Akteure des Systems, so liegt es anders gesagt - zumindest teilweise - auch in unserer Verantwortung, die Situation nicht noch komplizierter zu machen als sie es ohnehin schon ist. Weit mehr als eine nur vag-optimistische Zukunftsvision hiervon ist „Infotopia“ (Sunstein 2009). Mit Blick auf die Systemtheorie erweist sich einmal mehr die empirische Bodenhaftung als entscheidend. Was bringt es z. B., Wissenschaftstheorie als Beobachtung einer höheren Stufe zu verstehen?77 Statt mittels Beobachtern diverser Stufen dieser Basis schnell zu entfliehen, wäre es ganz im Gegenteil weit fruchtbarer, sie vermehrt auf konkrete Situationen anzuwenden, also systematisch stark rückgekoppelte Systeme zu studieren. Dort würden ihre Möglichkeiten und Grenzen auch weit schneller deutlich werden als im luftigen Raum akademischer Diskussionen.
6.5 Schlussbemerkung Philosophers recognize the importance of techniques and technicians should reciprocate. (Good 1988: 395)
Die große Bedeutung der Wissenschaftstheorie für die Statistik besteht darin, dass sie letzterer einen Rahmen gibt, der weit über konkrete mathematische Methoden hinausreicht. Dieser Rahmen sorgt für Halt „ jenseits der Mathematik“, hilft, deren argumentative Enge zu überwinden und motiviert 76
Beispielsweise sollte in einem gut organisierten Krankenhaus die meiste Zeit auf die Patienten verwendet werden und nicht auf Formulare. Dabei hilft eine gut sortierte Dokumentation (elektronischen Krankenakte), der benötigte Daten automatisiert entnommen werden können. 77 Beobachtung 1. Stufe = Naives Beobachten; Beobachtung 2. Stufe = Wissenschaftliches, reflektiertes Beobachten; Beobachtung 3. Stufe = Wissenschaftstheorie, also die Beobachtung der Beobachtung 2. Stufe.
596
6 Integrative Wissenschaftstheorie
bestenfalls dazu, häufig zunächst sehr vage Überlegungen in konkrete Anwendungen und Formalismen zu überführen. Good (1971a: 375) schreibt dazu: “If statistics seems too constrained, a good field for looking for new ideas is the philosophy of science.” Die nicht-mathematische Diskussion, falls sie nicht gerade allzu prinzipiell-wissenschaftstheoretisch ist, ist nicht nur als Quelle der Inspiration erbaulich, darüber hinaus enthält sie Ideen, deren Präzisierung, gerade im Rahmen der Statistik, lohnen. Die noch größere Bedeutung der Statistik für die Wissenschaftstheorie besteht darin, dass sie letzterer ein Gerüst gibt, das viel stärker ist als verbale Argumente und an Texten orientierte Diskussionen. Dieses Gerüst sorgt für Halt „ jenseits der Sprache“, hilft, deren argumentative Weite zu überwinden und motiviert bestenfalls dazu, allgemeine Überlegungen auf konkrete, praxisrelevante Beispiele zu gründen. Die statistisch-mathematische Diskussion, falls sie nicht gerade allzu technisch oder ins Detail vertieft ist, ist nicht nur als Quelle der Inspiration erbaulich, darüber hinaus enthält sie praktische bewährte Erfahrungen, deren Verallgemeinerung, gerade im Rahmen einer empiristischen Philosophie, lohnen. Wir haben mehrfach gezeigt, dass die gemeinsame mathematische Sprache in der Lage ist, Brücken zu bauen, auch wenn die Interpretation eines formalen Ergebnisses sehr unterschiedlich sein mag. Greift man jedoch primär auf die natürliche Sprache zurück, so münden selbst ausgewogene Erörterungen der vertretenen Positionen leicht in verbalen Auseinandersetzungen, Dogmen, Extrema und unfruchtbarer Einseitigkeit. Man vergleiche z. B. Howson und Urbach (2006) sowie Mayo (1996) auf der einen Seite und Li und Vitányi (2008), Pearl (2000a, 2009a) sowie Sokal und Bricmont (1998) auf der anderen. Popper (1946) betont, dass es zwar viele geschlossene, jedoch nur eine offene Gesellschaft gibt. In Anspielung hierauf lässt sich argumentieren, dass es zwar viele einseitige und noch mehr dem Empirischen entrückte Auffassungen von Wissenschaft gibt, jedoch nur eine (theoretische wie angewandte) wissenschaftliche Philosophie. Jene begreift die empirische Basis als Ausgangspunkt wie auch Schlussstein des ganzen Erkenntnis gewinnenden Unternehmens. Messen und messbar machen beschreibt wie kein zweiter Satz den archimedischen Punkt aller empirischen Wissenschaft. Seine Umsetzung führt fast zwangsläufig zur Entwicklung, die empirische Erfahrung - Daten - immer zuverlässiger (valider, reliabler, präziser) zu machen, was einer Aufforderung zur Quantifizierung gleichkommt. Verbindet man letztere mit dem Streben nach logischer Widerspruchsfreiheit, so führt dies zwangsläufig zur durchgängigen Mathematisierung des Wissens.78 Entschlossen auf die Empirie zuzu78
Wir erinnern an Laughlin (2007: 35): „[. . .] In der Physik unterscheiden korrekte Wahrnehmungen sich insofern von irrigen, als Erstere klarer werden, wenn man die Genauigkeit des Experiments verbessert. Diese simple Vorstellung bringt das Denken der Physiker auf den Punkt und erklärt, warum sie stets so besessen von Mathematik und Zahlen sind: Durch Präzision wird das Falsche sichtbar.“ Und Francis Bacon fährt im Novum Organum, zitiert nach Velleman (1997: 324), fort: “[. . .] Truth will emerge more readily from error than from confusion [. . .]”
6.5 Schlussbemerkung
597
gehen, problemorientiert zu arbeiten, vage Phänomene mittels durchdachter Experimente dingfest zu machen und zu quantifizieren, genau das ist das Erfolgsrezept der Naturwissenschaften. Es ist jedoch in jedem empirischen Feld - also nicht nur in den Naturwissenschaften - anwendbar. Zudem ist es ahistorisch in dem Sinne, dass das soziale Umfeld, die Psychologie und erst recht die Physiologie der Wissenschaftler nebensächlich sind. Es hat seit der frühen Neuzeit den Forschungszirkel in Schwung versetzt, die Organisation der Information zu umfassenderen Theorien befördert und deren Prüfung in einschlägigen Experimenten ermöglicht. Das Ergebnis hiervon sind auf der theoretischen Seite hochgradig nichttriviale Einsichten und auf der praktischen Seite eine höchst komplexe Technik, mit der wir die Welt um uns maßgeblich gestalten. Im Gegensatz zur zweifelnden Philosophie, die sich nur allzu oft systematisch von der empirischen Basis entfernt und „Ismen“ in großer Anzahl pflegt, zielt erfolgreiche Wissenschaft darauf ab, den empirischen Einfluss zu maximieren. Sie stellt sich den Fakten, auch wenn das oft weh tut und errichtet sodann auf deren solidem Fundament beeindruckende Konstruktionen. Diese Entwicklung des Wissens war in den letzten Jahrhunderten im Wesentlichen kumulativ, und sie lässt sich am einfachsten als eine sukzessive Annäherung an eine von uns weitgehend unabhängige, strukturierte Welt verstehen. So ist die grundlegende Unterscheidung im Erkenntniszirkel nicht die zwischen „links“ und „rechts“, also zwischen einer eher deduktiven und induktiven Grundhaltung, auch wenn darüber am meisten Literatur existiert. Die weit bedeutendere Differenzierung ist jene zwischen „oben“ und „unten“, also zwischen direkter empirischer Erfahrung und deren Sublimierung in Form allgemeiner Theorien. Nur wenn dabei der Kontakt mit der Wirklichkeit nicht verloren geht, hat man „richtig“ abstrahiert. Die jeweiligen Grundausrichtungen könnten aktuell gegensätzlicher kaum sein, doch der Lackmustest für allgemeine Entwürfe besteht immer in ihrem Verhältnis zur Logik, der Verwendung quantitativ-formaler Methoden und der Anwendbarkeit ihrer Argumente. Während erfolgreiche empirische Wissenschaften hierauf den größten Wert legen, auf die Realität zugehen, sich ihr immer besser annähern wollen, systematisch den Kontakt mir ihr suchen, um ihr neue Einsichten abzuringen, haben diese Faktoren in der Wissenschaftstheorie spätestens seit den 1970er Jahren mehr und mehr an Bedeutung verloren. Um es ganz deutlich zu sagen: Stringente Logik, die gemeinsame Sprache der Mathematik sowie das Primat der Empirie erleichtern Fachwissenschaftlern wie Statistikern den Konsens und führen zu allgemein akzeptierten Vorstellungen. Ohne eine solche Basis tendieren theoretische Texte zum leichtfüßigen Diskurs oder zum engstirnigen Dogma fern der Realität: The Sokal ‘experiment’ vividly illustrates what can easily happen to a field that repudiates all received scholarship, in which ‘text’ is more important than ‘fact’ and the political inspiration for a claim becomes the overriding evaluative criterion. (Koertge 1998: 4)
598
6 Integrative Wissenschaftstheorie
Konstruiert man eine Skala von wegweisend über kompetent, hilfreich, bemüht, fraglich bis hin zu unseriös, so haben wir dargelegt, wo wir die besprochenen akademischen Entwicklungen einordnen. Von links nach rechts: Moderne, fachwissenschaftlich getriebene Ansätze (z. B. Informationstheorie, kausale Netze), Wissenschaftsforschung, Bayessche und MainstreamStatistik, Wissenschaftstheorie, Systemtheorie, Science studies. Die so gezogene Bilanz kann man am entscheidenden Kriterium des empirischen Erfolgs festmachen: Während es bei den zuerst genannten Ansätzen wenig Ursache zur Kritik gibt, fällt die Bilanz bei der traditionsverhafteten Statistik schon gemischter aus. In der noch weit mehr textorientierten Wissenschaftstheorie erodieren hingegen selbst die Lehrmeinungen (einst) führender Autoren wie Popper, Kuhn und Lakatos, so dass sie heute eher gespalten und desorientiert wirkt. Die „Gemäßigten“, oft Schüler der vormals tonangebenden Schulen, verwalten deren bröckelndes Erbe, während „Radikale“ die Akzente setzen und die Wissenschaftstheorie in die Erstarrung des Dogmatismus oder die erregten Auseinandersetzung politischer Debatten zu führen drohen. Zumindest ist es ein hoffnungsvolles Zeichen, dass zur Zeit nicht mehr die Revolution ihre Kinder frisst, also sich derjenige durchsetzt, der immer noch radikalere Ansichten vertritt, sondern exponierte Positionen zurückgenommen werden. So wurde aus “Any statement can be held true come what may [. . .]” und “The unit of empirical significance is the whole of science” (Quine 1980: 43, 42) ein moderates “empirical content is shared by the statements of science in clusters [. . .] Practically the relevant cluster is indeed never the whole of science [. . .]” (Quine 1980: viii).79 Wer, wie Latour und Woolgar (1979), den Grundriss eines Labors nimmt, ihn mit mail, telephone, animals, chemicals, energy (als Input), physiology, chemistry (als Verarbeitungsschritte) sowie ARTICLES (als Output) beschriftet, dessen Verständnis von Forschung kommt Cargo-Kult-Wissenschaft80 verdächtig nahe. Daraus wird in Latour (2004: 227), Hervorhebung im Original: While we spent years trying to detect the real prejudices hidden behind the appearance of objective statements, do we now have to reveal the real objective and inconvertible facts hidden behind the illusion of prejudices? And yet entire Ph.D. programs are still running to make sure that good American kids are learning the hard way that facts are made up, that there is no such things as a natural, unmediated, unbiased access to truth, that we are always prisoners of language, that we always speak from a particular standpoint, and so on, while dangerous extremists are using the very same argument of social construction to destroy hard-won evidence that could save lives. Was I wrong to participate in the invention of this field known as science studies? Is it enough to say that we did not really mean what we meant?81 79
Siehe auch Bricmont und Sokal (2004: 8).
80
Worsley (1968) und Feynman (2005b: 448ff). Charakteristisch ist, dass die äußere Form stimmt bzw. perfekt imitiert wird, aber die Substanz, die Idee des Ganzen, fehlt. 81
Siehe auch Godfrey-Smith (2003: 132f): “Laboratory life was a huge success. To many it seemed like a breath of fresh air, a book that exuded wit and imagination [. . .] Latour also inspired a different style in sociology of science, a style that might be described as
6.5 Schlussbemerkung
599
Der Statistik droht mittelfristig vor allem die Stagnation. Nur wenn sie sich nicht in vermeintlich sichere mathematische Gefilde zurückzieht, kann sie zusammen mit anderen Wissenschaften wachsen und ihrer herausgehobenen Rolle im Erkenntnisprozess gerecht werden. Alle führenden Statistiker strebten immer eine eigenständige, selbstbewusste Wissenschaft an, einflussreich positioniert zwischen philosophisch-prinzipiellen Überlegungen, mathematischer Methodik und vor allem empirischen Fragestellungen. Deshalb ist meine feste Überzeugung, dass die Zukunft der Statistik wenig von ihren eleganten mathematischen Werkzeugen, etwas mehr von einer Synthese zwischen den konkurrierenden „philosophischen“ Schulen, erheblich mehr von ihrem Verhältnis zur Informationsidee (insbesondere „Fishers und Kolmogorovs Erbe“), am allermeisten aber von der aktiven Auseinandersetzung mit aktuellen Problemstellungen und Lösungsansätzen abhängt. In Abwandlung von Efrons Ausspruch (S. 183) heißt das: If Statistics continues in ignorance of important contemporary developments, scholars of all fields will - time and again - be forced to invent it themselves. Diese Entwicklung hat schon eingesetzt und wird sich solange fortsetzen, bis die „deduktive Unwucht“ im Forschungszirkel wieder ausgeglichen ist. Die Krise der Wissenschaftstheorie ist wesentlich tiefer gehend, da das Problem dort nicht in einer Unwucht, sondern in der Abkehr vom Forschungszirkel besteht. Der Streit der Schulen hat nicht über das Studium der Fakten zu einer Annäherung geführt. Stattdessen haben sich die Meinungen aufgeschaukelt und den Realitätsbezug über die Jahrzehnte so sehr geschwächt, dass mittlerweile die Auflösung als eigenständige Disziplin auf der Agenda steht. Weit mehr noch als im Fall der Statistik ist hier eine Emanzipation von wortgewaltigen Autoritäten und verführerischen Paradigmen überfällig. Nur wenn die Theorie mit intensiver Forschung unterfüttert wird, schon das Studium tief in die Fachwissenschaften einführt und das Hauptaugenmerk darauf liegt, die so entstehenden Ideen argumentativ zu untermauern; kurz, wenn es zu einer dezidierten Hinwendung zur Empirie kommt, kann die Wissenschaftstheorie hoffen, nicht vollends dem Pluralismus der Ansichten (Kellert et al. 2006) oder gar der Beliebigkeit der Spekulation zu erliegen: Es gibt keine Ontologie, kein selbstständiges Reich einer philosophischen Erkenntnis, die den Vortritt vor Wissenschaft hat [. . .] Die Arbeit des Philosophen [besteht] im Wesentlichen darin, Ordnung zu schaffen [. . .] Die nüchterne Bemühung um die Wahrheit hat nicht den Glanz künstlerischer Schöpfungen; sie hat aber den Vorzug, daß sie den Weg zur allgemeinen Zustimmung ebnet und Ergebnisse sicherstellt, die zu guter Letzt Kontroversen und Angriffen entzogen sein werden. (Reichenbach 1947: 463f) elusive, self-conscious, and literary.” (Hervorhebungen im Original) und Feynman (2005b: 453): „Wir wissen aus Erfahrung, daß die Wahrheit am Ende herauskommt. Andere Leute werden [. . .] herausfinden, ob Sie recht hatten oder nicht [. . .] obwohl Sie zeitweise Ruhm ernten und Begeisterung auslösen mögen, werden Sie keinen guten Ruf als Wissenschaftler gewinnen [. . .] es ist diese Art von Integrität, dieses wachsame Bemühen, sich selbst nichts vorzumachen, woran es vielen Forschungen der Cargo-Kult-Wissenschaft in hohem Maße mangelt.“
600
6 Integrative Wissenschaftstheorie
Lassen wir zwei Universalgelehrten (Durant und Durant 1985: Bd. 14, 343) das letzte Wort: Ihre größte Auswirkung hatte die Wissenschaft [des 18. Jahrhunderts] natürlich auf die Philosophie, denn die Philosophie, die Suche nach Weisheit, muß sich auf die Wissenschaft und ihre Erkenntnis stützen.
Literatur
Adams, E.W.; Fagot, R.F.; and Robinson, R.E. (1965). A Theory of Appropriate Statistics. Psychometrika 30, 99-127. Akaike, H. (1973). Information Theory and an Extension of the Maximum Likelihood Principle. In: Petrov, B.N.; and Csàki, F. (Hrsg.) Second International Symposium on Information Theory Akademiai Kiàdo, Budapest. Wiederabgedruckt in Kotz und Johnson (1993: Bd. I, 610-624). Akaike, H. (1974). A New Look at the Statistical Model Identification. IEEE Transactions on Automatic Control 19(6), 716–723. Akaike, H. (1981). Modern Development of Statistical Methods. In: Eykhoff, P. (Hrsg.) Trends and Progress in System Identification. Pergamon Press, Oxford, 169-184. Albert, M. (1992). Die Falsifikation statistischer Hypothesen. J. for General Philosophy of Science 23(1), 1-32. Albrecht, H. (2005). Kritik der reinen Norm. Klinische Forschung hilft vor allem Standardpatienten. DIE ZEIT Nr. 2/2005. Aldrich, J. (2000). Fisher’s ‘Inverse Probability’ of 1930. International Statistical Review 68(2), 155-172. Altman, D.G. (1985). Comparability of Randomised Groups. The Statistician 34, 125-136. Altman, D.G. (1998). Covariate imbalance, adjustment for. In: Armitage, P.; and Colton, T. (Hrsg.) Encyclopedia of Biostatistics. Wiley, Chichester, 1000-1005. Anderson, N.H. (1961). Scales and Statistics: Parametric and Non-Parametric. Psychological Bulletin 58, 305-316. Anderson, P.W. (1972). More is Different. Broken Symmetry and the Nature of the Hierarchical Structure of Science. Science 177(4047), 393-396. Andrieu, C.; Freitas, N. de; Doucet, A.; and Jordan, M.I. (2003). An Introduction to MCMC for Machine Learning. Machine Learning 50, 5-43. Angluin, D.; and Smith, C.H. (1983). Inductive Inference: Theory and Methods. Comput. Surveys 15(3), 237—269. Antoniou, G. (1997). Nonmonotonic Reasoning. MIT Press, Cambridge, Mass. Apgar, V. (1953). A Proposal for a New Method of Evaluation of the Newborn Infant. Current Researches in Anesthesia and Analgesia 32, 260-267. Arbuthnot, J. (1710). An Argument for Divine Providence, taken from the Constant Regularity Observ’d in the Births of Both Sexes. Phil. Trans. R. Soc. 27, 186-190. Ariely, D.; Gneezy, U.; Loewenstein, G.; and Mazar, N. (2009). Large Stakes and Big Mistakes. The Review of Economic Studies 76, 451-469. Aristoteles (o. J.) Organon, S. 351. Zitiert nach: Digitale Bibliothek, Band 2: Philosophie, S. 3124. (Vgl. Aristioteles 1. Analytik, S. 142 der Übersetzung von J. H. von Kirchmann (1877).) Felix Meiner, Leipzig: Philosophische Bibliothek, Bd. 10.
U. Saint-Mont, Statistik im Forschungsprozess, DOI 10.1007/978-3-7908-2723-1, © Springer-Verlag Berlin Heidelberg 2011
601
602
Literatur
Aronowitz, S. (1988). Science as Power. Discourse and Ideology in Modern Society. Univ. of Minnesota Press, Minneapolis, MN. Austin, P.C. (2008). A Critical Appraisal of Propensity-Score Matching in the Medical Literature between 1996 and 2003. Statistics in Medicine 27, 2037-2049. The Australian Lung Foundation (2007). Website, Aufruf am 11. 01. 2008. Siehe www.copdx.org.au/guidelines/a_evidence_levels.asp Bachelier, L. (1900). Théorie de la Speculation. Ann. Sci. Ecole Norm. Sup. 17(3), 21-86. Backhaus, K.; Erichson, B.; Plinke, W. und Weiber, R. (2003). Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. (10. Aufl.) Springer, Berlin. Bacon, F. (1597). Meditationes sacrae. Zitiert nach der “New Edition in ten volumes” (1826). G. Woodfall, London, vol. X. Bacon, F. (1620). Novum Organon. Zitiert nach der englischen Übersetzung The new organon or true directions concerning the interpretation of nature von Spedding J.; Ellis, R.L. und Heath, D.D. The Works VIII Taggard and Thompson, Boston (1863). Siehe www.constitution.org/bacon/nov_org.htm Baecker, D. (Hrsg., 2005). Schlüsselwerke der Systemtheorie. Verlag für Sozialwissenschaften, Wiesbaden. Baeyer, H.C. v. (2005). Information. The New Language of Science. Harvard University Press, Cambridge, MA. Bailey, R.A. (1982). Randomization, Constrained. In: Johnson, N. L,; and Kotz, S. (Hrsg.) Encyclopedia of Statistical Sciences Wiley, New York. (Neuauflage 2006.) Baird, D.; Scerri, E.; and McIntyre, L. (2006). Philosophy of Chemistry. Synthesis of a New Discipline. Springer, Netherlands: Boston Studies in the Philosophy of Science. Bakan, D. (1970). The Test of Significance in Psychological Research. Kapitel 25 in Morrison und Henkel (1970), 231-251. Balasubramanian, V. (1997). Statistical Inference, Occam’s Razor, and Statistical Mechanics on the Space of Probability Distributions. Neural Computation 9, 349-368. Balasubramanian, V. (2005). MDL, Bayesian Inference, and the Geometry of the Space of Probability Distributions. Kapitel 3 in: Grünwald et al. (2005), 81-98. Balzer, W.; Moulines, C.U.; and Sneed, J.D. (1987). An Architectonic for Science. Reidel, Dordrecht. Balzer, W. (1996). Theoretical Terms: Recent Developments. In: Balzer, W.; and Moulines C.U. (Hrsg.): Structuralist Theory of Science. De Gruyter, Berlin. Balzer, W. (1997). Die Wissenschaft und ihre Methoden. Grundsätze der Wissenschaftstheorie. Alber, Freiburg. Bamberg, G. (1972). Statistische Entscheidungstheorie. Physica Verlag, Würzburg. Barnard, G.A. (1949). Statistical Inference. (Mit Diskussion) J. of the Royal Statistical Society, Ser. B 11, 115-149. Barnard, G.A. (1958). Thomas Bayes - A Biographical Note. Einführung zum Wiederabdruck von Bayes (1763) in Biometrika 45(3 & 4), 293-297. Barnard, G.A. (1968). Computers, Statistics, and Politics. In: Watts, D.G. (Hrsg.) The Future of Statistics. Academic Press, New York, 39-43. Barnard, G.A. (1971). Diskussionsbeitrag zu Villegas (1971) in Godambe and Sprott (1971), 414. Barnard, G.A. (1993). Diskussionsbeitrag zu Draper et al. (1993). J. Royal Stat. Soc. A 56(1), 31-32. Barnard, G.A. (1996a). Diskussionsbeitrag zu Hand (1996). J. of the Royal Statistical Society, Ser. A 159, 480. Barnard, G.A. (1996b). Fragments of a Statistical Autobiography. Student 1, 257-268. Barnett, V. (1999). Comparative Statistical Inference. (3. Aufl.) Wiley, New York. 1. Aufl. 1973. Barron, A.; Rissanen, J.; and Yu, B. (1998). The Minimum Description Length Principle in Coding and Modeling. IEEE Transactions on Information Theory 44, 2743-2760.
Literatur
603
Bartels, A. (2007). Wissenschaftlicher Realismus. Kapitel 9 in Bartels und Stöckler (2007), 199-222. Bartels, A. und Stöckler, M. (Hrsg., 2007). Wissenschaftstheorie: Ein Studienbuch. Mentis, Paderborn. Bartlett, M.S. (1990). Chance or Chaos? (Mit Diskussion) J. of the Royal Statistical Society, Ser. A 153(3), 321-347. Basu, D. (1964). Recovery of Ancillary Information. Sankhya 21, 247-256. Zitiert nach Ghosh (1988), Chapter I, 1-19. Basu, D. (1969). Sufficiency and Invariance. In: Bose, R.C. et al. (Hrsg.) Essays in Probability and Statistics. University of North Carolina, Chapel Hill, NC, 61-84. Zitiert nach Ghosh (1988), Chapter VIII, 142/143-160. Basu, D. (1971). On the Logical Foundations of Survey Sampling. In: Ghosh (1988), Chapter XII, 201-233, und Chapter XIII “Discussions”, 234-244. Basiert auf “An Essay on the Logical Foundations of Survey Sampling, Part I” (mit Diskussion) in: Godambe and Sprott (1971), 203-242. Basu, D. (1979). A Discussion on the Fisher Exact Test. Kommentar zu Berkron, J. (1979). In Dispraise of the Exact Test. J. Statistical Planning and Inference, 3, 189-192. Zitiert nach Ghosh (1988), Chapter XVIII, 321-324. Basu, D. (1980). Randomization Analysis of Experimental Data: the Fisher Randomization Test. J. of the American Statistical Association 75, 575-595. Basu, K. (2007). Das Urlauberdilemma. Spektrum der Wissenschaft 8, 82-88. Bayarri, M.J. (1995). Diskussionsbeitrag zu Cox (1995). Test 4(2), 228-233. Bayarri, M.J.; and Berger, J.O. (2004). The Interplay of Bayesian and Frequentist Analysis. Statistical Science 19(1), 58-80. Bayarri, M.J.; and DeGroot, M.H. (1990). Selection Models and Selection Mechanisms. In: Zellner, A. und Kadane, J.B. (Hrsg.) Bayes and Likelihood Methods in Statistics and Econometrics. Essays in Honor of George A. Barnard. North-Holland Publishing Company, Amsterdam: Studies in Bayesian Econometrics Vol. 7, 211-228. Bayes, T. (1763). An Essay towards Solving a Problem in the Doctrine of Chances. Phil. Trans. Roy. Soc. 53, 370-418. Wiederabgedruckt in Biometrika (1958) 45(3 & 4), 298-315. Bellman, R. (1961). Adaptive Control Processes: A Guided Tour. Princeton University Press. Bender, R. (2005). Number Needed to Treat (NNT). In: Armitage, P.; and Coltron, T. (Hrsg.) Wiley, Chichester: Encyclopedia of Biostatistics Vol. 6, 3752-3761. (2. Aufl.) Bennett, J.H. (1990). Statistical Inference and Analysis. Selected Correspondence of R.A. Fisher. Clarendon Press, Oxford. Beran, R. (2001). The Role Of Experimental Statistics. In: Saleh, A. K. Mohammed E. (Hrsg.) Data Analysis from Statistical Foundations. A Festschrift in Honour of the 75th Birthday of D.A.S. Fraser. Nova Science Publishers, New York, 257-274. Beran, R. (2008). Kommentar zu Davies (2008). J. of the Korean Statistical Society 37, 217-219. Berger, A. (2001). Chaos and Chance. An Introduction to Stochastic Aspects of Dynamics. De Gruyter, Berlin. Berger, J.O. (1985). Statistical Decision Theory and Bayesian Analysis. (2. Aufl.) Springer, New York: Springer Series in Statistics. 1. Aufl. 1980. Berger, J.O. (1988). Kommentar zu Good (1988). Statistical Science 3(4), 403-404. Berger, J.O. (2000). Bayesian Analysis: A Look at Today and Thoughts on Tomorrow. Journal of the American Statistical Association 95, 1269-1276. Berger, V. (2005a). Selection Bias and Covariate Imbalances in Randomized Clinical Trials. Wiley, New York. Berger, V. (2005b). Quantifying the Magnitude of Baseline Covariate Imbalances Resulting from Selection Bias in Randomized Clinical Trials. (Mit Diskussion). Biometrical Journal 47(2), 119-139.
604
Literatur
Berger, J.O.; and Berry, D.A. (1988). Statistical Analysis and the Illusion of Objectivity. American Scientist 76, 159-165. Berger, J.O.; and Sellke, T. (1987). Testing a Point Null Hypothesis: The Irreconcilability of P Values and Evidence. J. of the American Statistical Association 82, 112-122. Berger, J.O.; and Wolpert, R.L. (1988). The Likelihood Principle. (2. Aufl.) Institute of Mathematical Statistics, Hayward, CA: IMS Lecture Notes. Berger, V.; and Weinstein, S. (2004). Ensuring the Comparability of Comparision Groups: Is Randomization Enough? Controlled Clinical Trials 25, 515-524. Berghaus, M. (2004). Luhmann leicht gemacht. Eine Einführung in die Systemtheorie. (2. Aufl.) UTB, Stuttgart. Berk, R.A.; and Freedman, D.A. (2010). Statistical Assumptions as Empirical Commitmens. Kapitel 2 in Freedman (2010), 23-43. Berkeley, G. (2005). A Treatise Concerning the Principles of Human Knowledge. Cosimo, New York. Erstausgabe 1710. Siehe http://philosophy.eserver.org/berkeley.html Berkovitz, J.; Frigg, R.; and Kronz, F. (2006). The Ergodic Hierarchy, Randomness and Hamiltonian Chaos. Studies in History and Philsophy of Modern Physics 37, 661-691. Berkson, J. (1938). Some Difficulties of Interpretation Encountered in the Application of the Chi-Square Test. J. of the American Stat. Association 33, 526-542. Berkson, J. (1942). Tests of Significance Considered as Evidence. J. of the American Stat. Association 37, 325-335. Bernardo, J.M.; Berger, J.O.; Dawid, A.P.; and Smith, A.F.M. (1999, Hrsg.) Bayesian Statistics 6. Oxford University Press, Oxford. Bernoulli, J. (1713). Ars Conjectandi. Thurnisiorum, Basel. Wiederabgedruckt in: Die Werke von Jacob Bernoulli, Band 3, Birkhaeuser, Basel (1975). Bernstein, P.L. (1996). Against the Gods. The Remarkable Story of Risk. Wiley, New York. Bertero, M. (1986). Regularization Methods for Linear Inverse Problems. In: Talenti, G. (Hrsg.) Inverse Problems. Lecture Notes in Mathematics 1225, 52-112. Springer, Berlin. Berthold, M.R.; and Hand, D.J. (Hrsg., 2003). Intelligent Data Analysis. (2. Aufl.) Springer, Berlin. Beutelspacher, A. (2008). „In Mathe war ich immer schlecht. . .“ (4. Aufl.) Springer, Berlin. Birnbaum, A. (1962). On the Foundations of Statistical Inference. J. of the American Statistical Association 57, 269-306. Wiederabgedruckt in Kotz und Johnson (1993: Bd. I, 478-518). Bishop, C.M. (1995). Neural Networks for Pattern Recognition. (Seitdem ständig nachgedruckt.) Oxford University Press, Oxford. Bishop, C.M. (2006). Pattern Recognition and Machine Learning. Springer, New York. Bjørnstad, J.F. (1996). On the Generalization of the Likelihood Function and the Likelihood Principle. J. of the American Statistical Association 91, 791-806. Blackwell, D.; and Girshik, M.A. (1979). Theory of Games and Statistical Decisions. Dover, New York. Blackwell, D.; and L.J. Hodges, Jr. (1957). Design for the Control of Selection Bias. Annals of Mathematical Statistics 28, 449-460. Blasius, J. (2001). Korrespondenzanalyse. Oldenbourg, München. Blau, P.M.; and Duncan, O.D. (1967). The American Occupational Structure. Wiley, New York. Bloor, D. (1976). Knowledge and Social Imagery. Routledge & Kegan Paul, London. Bodendorf, F. (2006). Daten- und Wissensmanagement. (2. Aufl.) Springer, Berlin. Bodmer, W. (1987). Kommentar zu Durbin (1987), J. of the Royal Stat. Soc. A 150(3), 190-191. Boghossian, P.A. (1998). What the Sokal Hoax Ought to Teach Us. In: Koertge (1998), Kapitel 2, 23-31. Boole, G. (1854). An Investigation of the Laws of Thought. Macmillan, London. Boorstin, D.J. (1983). The Discoverers. Random House, New York.
Literatur
605
Boring, E.G. (1919). Mathematical vs. Scientific Significance. Psychological Bulletin 16(10), 335-338. Boring, E.G. (1953). The Nature and History of Experimental Control. The American Journal of Psychology 67(4), 573-589. Born, G. (2004). Zum Nachdenken zwingen. Die Wissenskluft wächst gefährlich. Frankfurter Allgemeine Zeitung, Nr. 143 vom 23.06.2004, Seite N2. Bortz, J. (1999). Statistik für Human- Und Sozialwissenschaftler. (5. Aufl.) Springer, Berlin. Bortz, J. (2004). Statistik für Human- Und Sozialwissenschaftler. (6. Aufl.) Springer, Berlin. Bortz, J. und Döring, N. (1995). Forschungsmethoden und Evaluation. (2. Aufl.) Springer, Berlin. Box, G.E.P. (1962). Kommentar zu Birnbaum (1962). Journal of the American Statistical Association 57, 311-312. Box, G.E.P. (1976). Science and Statistics. Journal of the American Statistical Association 71, 791-799. Box, G.E.P. (1990a). Kommentar zu Roberts (1990). Statistical Science 5, 390-391. Box, G.E.P. (1990b). Kommentar zu Shafer (1990b). Statistical Science 5, 448-449. Box, G.E.P.; and Cox, D.R. (1964). An Analysis of Transformations. J. of the Royal Statistical Society, Ser. B 26, 211-252. Box, G.E.P.; Hartley, H.O.; Kempthorne, O. und Tukey, J.W. (1968). The Future of Departments of Statistics. (Mit Diskussion). In: Watts, D.G. (Hrsg.) The Future of Statistics. Academic Press, New York, 103-137. Box, G.E.P.; Hunter, J.S.; and Hunter, W.G. (2005). Statistics for Experimenters. Design, Innovation, and Discovery. (2. Aufl.) Wiley, New York. 1. Aufl. 1978. Briand, L.; El Emam, K.; and Morasca, S. (1996). On the Application of Measurement Theory in Software Engineering. Empirical Software Engineering 1(1), 61-88. Bricmont, J.; and Sokal, A.D. (2004). Defense of a Modest Scientific Realism. In: Carrier, M.; Roggenhofer, J.; Küppers, G. und Blanchard, P. (Hrsg.) Springer, Berlin, 17-45. Bridgman, P.W. (1927). The Logic of Modern Physics. Macmillan, New York. Brillinger, D.R. (2002a). John W. Tukey: His Life and Professional Contributions. The Annals of Statistics 30(6), 1535-1575.82 Brillinger, D.R. (2002b). John Wilder Tukey (1915-2000). Notices of the AMS 49(2), 193201. Brillinger, D.R.; Fernholz, L.T.; and Morgenthaler, S. (Hrsg., 1997). The Practice of Data Analysis. Essays in Honor of John W. Tukey. Princeton University Press. Brillinger, D.R.; Jones; L.V.; and Tukey, J.W. (1978). The Role of Statistics in Weather Resources Management. Report of the Statistical Task Force to the Weather Modification Advisory Board. Government Printing Office, Washington D. C. Brillinger, D.R.; and Tukey, J.W. (1984). Spectrum Analysis in the Presence of Noise: Some Issues and Examples. In: Brillinger, D.R. (Hrsg.) The collected works of John Tukey, Bd II. Wadsworth, Monterey, CA, 1001-1141. Broer, H.W. (2004). KAM theory: The legacy of Kolmogorov’s 1954 paper. Bull. Amer. Math. Soc. 41, 507-521. Brooks, R. (1991). Intelligence Without Reason. Proceedings of 12th Int. Joint Conf. On Artificial Intelligence, Sydney, Australia, August 1991, 569-595. Brown, L.D. (2000). An Essay on Statistical Decision Theory. J. of the American Statistical Association 95, 1277-1281. Bruss, F.T. (2007). Der Wyatt-Earp-Effekt oder die betörende Macht kleiner Wahrscheinlichkeiten. Spektrum der Wissenschaft. 3, 110-112. Bourbaki, N. (1950). The Architecture of Mathematics. American Mathematical Monthly 57, 221-232. 82
Diese Ausgabe der “Annals” wurde dem Andenken J. W. Tukeys gewidmet.
606
Literatur
Bower B. (1997). Null Science. Psychology’s Statistical Status Quo Draws Fire. Science News 151, 356-357. Breiman L. (2001). Statistical Modeling: The Two Culutures. Statistical Science 16(3), 199-231. Breiman L.; Friedman, J.; Stone, C.J.; and Olshen, R.A. (1984). Classification and Regression Trees. Chapman & Hall / CRC, Boca Raton, Florida. Brennan, R.L. (2001). Generalizability Theory. Springer, New York. Bryant, P.B.; and Cordero-Braña, O.I. (2000). Model Selection Using the Minimum Description Length Principle. J. of the American Statistical Association 54(4), 257-268. Bryman, A.; and Cramer, C. (2004). Constructing Variables. Kapitel 2 in Hardy and Bryman (2004), 17-34. Bryson, B. (2005). Eine kurze Geschichte von fast allem. (10. Aufl.) Goldmann (Taschenbuch), München. Buckingham, E. (1914). On Physically Similar Systems; Illustrations of the Use of Dimensional Equations. Phys. Rev. 4, 345-376. Buckland, S.T.; Burnham, K.P.; and Augustin, N.H. (1997). Model Selection: An Integral Part of Inference. Biometrics 53, 603-618. Buehler, R.J. (1971). Measuring Information and Uncertainty. (Mit Diskussion). In: Godambe and Sprott (1971), 330-341. Buja, A. (2006). Kommentar zu Mallows (2006). Technometrics 48(3), 327-330. Büning, H. (1991). Robuste und adaptive Tests. De Gruyter, Berlin. Burgin, M. (2005). Super-Recursive Algorithms. Springer, New York: Monographs in Computer Science. Burke, D.J. (1953). Additive Scales and Statistics. Psychological Review 60, 73-75. Burnham, K.P.; and Anderson, D.R. (2002). Model Selection and Multimodel-Inference. A Practical Information-Theoretic Approach. (2. Aufl.) Springer, New York. 1. Aufl. 1998. Burnham, K.P.; and Anderson, D.R. (2004). Multimodel Inference: Understanding AIC and BIC in Model Selection. Sociological Methods Research 33, 261-304. Calude, C.S. (2002). Information and Randomness. An Algorithmic Perspective. (2. Aufl.) Texts in Theoretical Computer Science: Springer, Berlin. Campbell, N.R. (1920). Physics, The Elements. Cambridge University Press, Cambridge. Campbell, N.R. (1928). An Account of the Principles of Measurement and Calculation. Longmans, Green, London. Camilli, G. (1990). The Test of Homogeneity for 2×2 Contingency Tables: A Review of and Some Personal Opinions on the Controversy. Psychological Bulletin 108(1), 135-145. Candes, E.; and Tao, T. (2007). The Dantzig Selector: Statistical Estimation when p is Much Larger than n. (Mit Diskussion.) The Annals of Statistics 35(6), 2313-2404. Carlin, B.P.; and Lois, T.A. (2000). Bayes and Empirical Bayes Methods for Data Analysis. (2. Aufl.) Chapman & Hall/CRC, Boca Raton, FL. 1. Auflage 1996. Carnap, R. (1962). Logical Foundations of Probability. (2. Aufl.) University of Chicago Press, Chicago. Carnap, R. (1963). Probability and Inductive Logic. In: Schilpp, P.A. (Hrsg.) The Philosophy of Rudolf Carnap. Cambridge University Press, London, 71-76. Carnap, R. (1982). Einführung in die Philosophie der Naturwissenschaften. (2. Aufl.) Ullstein Materialien, Frankfurt a. M. und Berlin. Carrier, M. (1997). Die Dynamik des Experiments: Neuer Experimentalismus und Theorienwandel. In: Hubig (1997), 411-421. Carrier, M. (2006). Wissenschaftstheorie zur Einführung. Junius, Hamburg. Carrier, M. (2007). Wege der Wissenschaftstheorie im 20. Jahrhundert. Kapitel 1 in Bartels und Stöckler (2007), 15-44. Cartwright, N. (1983). How the Laws of Physics Lie. Oxford University Press, Oxford. Cartwright, N. (1999). The Dappled World. A Study of the Boundaries of Science. Cambridge University Press, Cambridge.
Literatur
607
Cartwright, N. (2007). Hunting Causes and Using Them. Approaches in Philosophy and Econcomics. Cambridge University Press, Cambridge. Casella, G. (1992). Conditional Inference from Confidence Sets. In: Ghosh und Pathak (1992), 1-12. Casella, G; and Berger, R.L. (2002). Statistical Inference. (2. Aufl.) Duxbury, Pacific Grove, CA. Chalmers, A.F. (1999). Grenzen der Wissenschaft. Springer, Berlin. Chalmers, A.F. (2006). Wege der Wissenschaft. Einführung in die Wissenschaftstheorie (6. Aufl.) Springer. Charpentier, E.; Lesne, A.; and Nikolski, N. (2007). Kolmogorov’s Heritage in Mathematics. Springer, Berlin. Chatfield, C. (1995). Model Uncertainty, Data Mining and Statistical Inference. J. of the Royal Statistical Society A 158(3), 419-466. Chatfield, C. (2002). Confessions of a Pragmatic Statistician. The Statistician 51(1), 1-20. Chatterjee, S.; and Yilmaz, M.R. (1992). Chaos, Fractals, and Statistics. Statistical Science 7(1), 49-68. Chen, C.; Härdle, W.; and Unwin, A. (Hrsg., 2008). Handbook of Data Visualization. Springer, Berlin: Springer Handbooks of Computational Statistics. Chernoff, H. (1959). Sequential Design of Experiments. Ann. Math. Stat. 29, 755-770. Wiederabgedruckt in Kotz und Johnson (1993), 345-360. Chernoff, H. (1986). Kommentar zu Efron (1986). The American Statistician 40(1), 5. Chernoff, H; and Moses, L.E. (1959). Elementary Decision Theory. Wiley, New York. Wiederabdruck 2006. Chomsky, N. (1979). Language and Responsibility. Pantheon, New York. Chow, S.L. (1997). Précis of Statistical Significance; Rationale, Validity, and Utility. (Mit Diskussion) Behavioral and Brain Sciences 21, 169-239. Chow, Y.S.; and Teicher, H. (1997). Probability Theory. Independence, Interchangeability, Martingales. Springer, New York: Springer Texts in Statistics. Church, A. (1940). On the Concept of a Random Sequence. Bulletin of the American Mathematical Society 46, 130-135. Cifarelli, D.M.; and Regazzini, E. (1996). De Finetti’s Contributions to Probability and Statistics. Statistical Science 11(4), 253-282. Claeskens, G.; and Hjort, N.L. (2003). The Focused Information Criterion. (Mit Diskussion) J. of the American Statistical Association. 98, 900-945. Claeskens, G.; and Hjort, N.L. (2008). Model Selection and Model Averaging. Cambridge University Press, Cambridge: Cambridge Series in Statistical and Probabilistic Mathematics. Cliff, N. (1992). Abstract Measurement Theory and the Revolution that Never Happened. Psychological Science 3(3), 186-190. Cochran, W.G. (1965). The Planning of Observational Studies of Human Populations. (Mit Diskussion) J. of the Royal Statistical Society, Ser. A 128, 134-155. Cochran, W.G. (1972). Observational Studies. In: Bancroft, T. A. (Hrsg.) Statistical Papers in Honor of George W. Snedecor. Iowa State University Press, Ames, IA. Cochran, W.G.; and Rubin, D.B. (1973). Controlling Bias in Observational Studies: A Review. In: Rubin (2006), 30-57. Cohen, J. (1983). The Cost of Dichotomization. Applied Psychological Measurement 7, 249-253. Cohen, J. (1988). Statistical Power Analysis for the Social Sciences. (2. Aufl.) Erlbaum, Hillsdale, NJ. 1. Aufl. 1969. Cohen, J. (1990). Things I have Learned (so far). American Psychologist 45(12), 13041312. Cohen, J. (1994). The Earth is Round (p > .05). American Psychologist 49(12), 997-1003. Wiederabgedruckt in Harlow et al. (1997).
608
Literatur
Cohen, L. J. (1989). An Introduction to the Philosophy of Induction and Probability. Clarendon Press, Oxford. Cohen, P.; Cohen, J.; Aiken, L.S.; and West, S.G. (1999). The Problem of Units and the Circumstance for POMP. Multivariate Behavioral Research 34(3), 315-346. Collingwood, R.G. (1942). The New Leviathan. Clarendon Press, Oxford. Collins, H. (1981). Stages in the Empirical Program of Relativism. Social Studies of Science. 11, 3-10. Collins, H. (1985). Changing Order. Sage, London. Cooman, G. de; and Miranda, E. (2007). Symmetry of models verus Models of symmetry. In: Harper und Wheeler (2007), 67-149. Cooper, H. und Hedges, L.V. (Hrsg., 1994). The Handbook of Research Synthesis. Russell Sage Foundation, New York. Cormen, T.H.; Leiseron, C.E.; Rivest, R.R.; and Stein, C. (2009). Introduction to Algorithms. (3. Aufl.) The MIT Press, Cambridge, MA. 1. Aufl. 1990. Cornfield, J. (1966). Sequential Trials, Sequential Analysis and the Likelihood Principle. American Statistician 20(2), 18-23. Cornfield, J.; and Tukey, J.W. (1956). Average Values of Mean Squares in Factorials. Annals of Mathematical Statistics 27, 907-949. Courant, R. und Robbins, H. (2001). Was ist Mathematik? (5. Aufl.) Springer, Berlin. 1. englische Aufl. 1941, 1. deutsche Aufl. 1962. Cover, T.M.; and Thomas, J.A. (2006). Elements of Information Theory. (2. Aufl.) Wiley, New York. 1. Aufl. 1991. Cox, D.R. (1958). Some Problems Connected with Statistical Inference. Annals of Mathematical Statistics 29, 357-372. Cox, D.R. (1977). The Role of Significance Tests. Scand. J. of Statistics 4, 49-70. Cox, D.R. (1978). Foundations of Statistical Inference: The Case for Eclectism. (Mit Diskussion) Austr. J. of Statistics 20, 43-59. Cox, D.R. (1986). Some General Aspects of the Theory of Statistics. International Statistical Review 54(2), 117-126. Cox, D.R. (1990). Role of Models in Statistical Analysis. Statistical Science 5(2), 169-174. Cox, D.R. (1995). The Relation between Theory and Application in Statistics. (Mit Diskussion) Test 4(2), 207-261. Cox, D.R. (2000). Kommentar zu Lindley (2000). The Statistician 49(3), 321-324. Cox, D.R. (2001). Kommentar zu Breiman (2001). Statistical Science 16(3), 216-218. Cox, D.R. (2006). Principles of Statistical Inference. Cambridge University Press, New York. Cox, D.R.; and Wermuth, N. (1996). Multivariate Dependencies. Models, Snalysis and Interpretation. Chapman & Hall / CRC, Boca Rato, FL. Cox, E. (2005). Fuzzy Modeling and Genetic Algorithms for Data Mining and Exploration. Morgan Kaufmann Publishers, Amsterdam. Cox, G. (1957). Statistical Frontiers. J. of the American Statistical Organization 52, 1-10. Wiederabgedruckt mit Kommentaren von Barnard, Good, Lindley, Mosteller und Sen in Kotz und Johnson (1993), xxv-xli. Cox, N.J. (1996). Diskussionsbeitrag zu Hand (1996). J. of the Royal Statistical Society, Ser. A 159, 480-481. Cox, R.T. (1946). Probability, Frequency, and Reasonable Expectation. American J. of Physics 14, 1-13. Cronbach, L.J. (1951). Coefficient Alpha and the Internal Structure of Tests. Psychometika 16(3), 297-334. Cronbach, L.J.; Gleser, G.C.; Harinder Nanda, A.N.; and Rajaratnam, N. (1972). The Dependability of Behavioral Measurements: Theory of Generalizability for Scores and Profiles. Wiley, New York. Cronbach, L.J.; Rajaratnam, N.; and Gleser, G.C. (1963). Theory of Generalizability: a Liberalization of Reliability Theory. Brit. J. Stat. Psych. 16, 137-163.
Literatur
609
Dahms, H.-J. (1994). Positivismusstreit: Die Auseinandersetzungen der Frankfurter Schule mit dem logischen Positivismus, dem amerikanischen Pragmatismus und dem kritischen Rationalismus. (3. Aufl.) Suhrkamp, Frankfurt a. M. Dalal, S.R.; Fowlkes, E.B.; and Hoadley, B. (1989). Risk Analysis of the Space Shuttle: Pre-Challenger Prediction of Failure. J. of the American Statistical Association 84, 945-957. Dale, A.I. (1999). A History of Inverse Probability. (2. Aufl.) Springer, New York. Dantzig, D. van (1957). Statisitcal Priesthood (Savage on Personal Probabilities). Statistica Neerlandica 2, 1-16. Dar, R.; Serlin, R.C.; and Omer, H. (1994). Misuse of Statistical Tests in Three Decades of Psychotherapy Research. J. of Consulting and Clinical Psychology 62(1), 75-82. Darnbeck, H. (2009). Erderwärmung. Einfach-Modell soll kurzfristige Klimaprognose verbessern Spiegel Online, 5. 9. 2009. Siehe www.spiegel.de/wissenschaft/natur/0,1518,646688,00.html National Research Council: David, E.E., Jr. et al. (1984). Renewing U.S. Mathematics: Critical Resources for the Future. National Academy Press, Washington, D.C. Siehe auch Science 224(4654), 1189. Bekannt als The David Report. Davies, P.L. (1995). Data Features. Statistica Neerlandica 49(2), 185-245. Davies, P.L. (2008). Approximating Data. (Mit Diskussion) J. of the Korean Statistical Society 37, 191-240. Davies, P.L.; Kovac, A.; and Meise, M. (2009). Conficence Regions, Regularization and NonParametric Regression. Preprint. Siehe www.maths.bris.ac.uk/∼maxak/tr13-07.pdf. Ohne den S. 181 zitierten Satz erschienen in: Non-Parametric Regression, Conficence Regions and Regularization. Annals of Statistics 37B, 2597-2625. Davison, A.C.; and Hinkley, D.V. (1997). Bootstrap Methods and their Application. Cambridge University Press, Cambridge. Dawid, A.P. (1979). Conditional Independence in Statistical Theory. (Mit Diskussion) J. Royal Stat. Soc., Vol. B 41, 1-31. Dawid, A.P. (1984). Present Position and Potential Developments: Some Personal Views, Statistical Theory, the Prequential Approach. (Mit Diskussion) J. Royal Stat. Soc., Vol. A 147, 278-292. Dawid, A.P. (1990). Kommentar zu Bartlett (1990). J. of the Royal Statistical Society, Ser. A 153(3), 339-340. Dawid, A.P. (1991). Fisherian Inference in Likelihood and Prequential Frames of Reference. (Mit Diskussion) J. Royal Stat. Soc., Vol. B 53, 79-109. Dawid, A.P. (1992). Prequential Analysis, Stochastic Complexity and Bayesian Inference. In: Bernardo, J.M.; Berger, J.; Dawid, A.P.; and Smith, A.F.M. (Hrsg.) Oxford University Press, Oxford: Bayesian Statistics 4, 109-125. Dawid, A.P. (2000a). Causal Inference Without Counterfactuals. Journal of the American Statistical Association 95, 407-448. Dawid, A.P. (2000b). Kommentar zu Lindley (2000). The Statistician 49(3), 325-326. Dawid, A.P. (2003). Causal Inference using Influence Diagrams: the Problem of Partial Compliance. Kapitel 2 in Green et al. (2003), 45-65. Dawid, A.P.; Stone, M.; and Zidek, J.V. (1973). Marginalization Paradoxes in Bayesian and Structural Inference. (Mit Diskussion) J. Royal Stat. Soc., Vol. B 35, 189-233. Dawid, A.P.; and Vovk, V.G. (1999). Prequential Probability: Principles and Properties. Bernoulli 5(1), 125-162. Debs, T.A.; and Redhead, M.L.G. (2007). Objectivity, Invariance, and Convention: Symmetry in Physical Science. Harvard University Press. Deck, T. (2006). Der Itô-Kalkül: Einführung und Anwendungen. Springer, Berlin. DeCode genetics. Homepage: http://www.decode.com/ Deming, W.E. (1940). Discussion of Professor Hotelling’s Paper. Kommentar zu Hotelling (1940). Ann. of Math. Statistis 11, 470-471.
610
Literatur
Dempster, A.P. (1968). A Generalization of Bayesian Inference. J. of the Royal Statistical Society, Ser. B 30(2), 205-232. Wiederabgedruckt als Kapitel 4 in Yager et al. (2008), 73-104. Dempster, A.P. (1983). Purpose and Limitations of Data Analysis. In: Box, E.E. P.; Leonard, T.; and Wu, C.-F. (Hrsg.) Scientific Inference, Data Analysis, and Robustness. Academic Press, New York. Dempster, A.P. (1990). Causality and Statistics. J. of Statistical Planning and Inference 25, 261-278. Dempster, A.P. (1998). Logicist Statistics I. Models and Modeling. Statistical Science 13, 248-276. Dempster, A.P. (2008). Logicist Statistics II. Inference. Kapitel 30 in Yager et al. (2008), 761-785. Dempster, A.P.; Laird. N.M.; and Rubin, D.B. (1977). Maximum-Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society, Ser. B 39(1), 1-38. Diaconis, P. (1998). A Place for Philosophy? The Rise of Modeling in Statistical Science. Quarterly of Applied Mathematics 56(4), 797-806. Diaconis, P. (2006). Theories of Data Analysis: From Magical Thinking Through Classical Statistics. Kapitel 1 (S. 1-36) in: Hoaglin, D.C.; Mosteller, F.; and Tukey, J.W. (Hrsg., 2006). Exploring Data Tables, Trends, and Shapes. (2. Aufl.) Wiley, New York. 1. Aufl. 1985. Diaconis, P; and Mosteller, F. (1989). Methods of Studying Coincidences. J of the American Statistical Association 84, 853-861. Dickey, J. (1973). Kommentar zu Dawid et al. (1973). J. of the Royal Stat. Soc., Ser. B 35, 219-221. Dilthey, W. (1910). Der Aufbau der geschichtlichen Welt in den Geisteswissenschaften. Zitiert nach: Lessing, H. U. (Hrsg.) Philosophische Hermeneutik. Alber, Freiburg. Dingle, H. (1950). A Theory of Measurement. British J. Phil. Science 1, 5-26. Donoho, D.L.; Johnstone, I.M.; Jeffrey, C.H.; and Stern, A.S. (1992). Maximum Entropy and the Nearly Black Object. J. R. Stat. Soc., Ser. B 54(1), 41-81. Donoho, D.L. (2000). High-dimensional Data Analysis: the Curses and Blessings of Dimensionality. Preprint: Dept. of Statistics, Stanford University. Siehe auch wwwstat.stanford.edu/donoho/lectures.html. Donovan, A.; Laudan, A.; and Laudan, L. (1992). (Hrsg.) Scrutinizing Science: Empirical Studies of Scientific Change. Johns Hopkins University Press, Baltimore. Doob, H.L. (1953). Stochastic Processes. Wiley, New York: Series in Probability and Mathematical Statistics. Dowe, D.L.; Gardner, S.; and Oppy, G. (2007). Bayes not Bust! Why Simplicity is No Problem for Bayesians. Brit. J. Phil. Sci. 58(4), 709-754. Dowe, D.L.; and Wallace, C.S. (1997). Resolving the Neyman-Scott Problem by Minimum Message Length. Computing Science and Statistics 28, 614-618. (Proceedings: “28. Symposium on the Interface”, Sydney (1996).) Draper, D.; Hodges, J.S.; Leamer, E.E.; Morris, C.N.; and Rubin, D.B. (1987). A Research Agenda for Assessment and Propagation of model uncertainty. Report N-2683-RC. Rand Corporation, Santa Monica, CA. Draper, D.; Hodges, J.S.; Mallows, C.L.; and Pregibon, D. (1993). Exchangeability and Data Analysis. J. Royal Stat. Soc. A 56(1), 9-37. Dubois, D.; and Prade, H. (1986). A Set-Theoretic View of Belief Functions: Logical Operations and Approximations by Fuzzy Sets. International J. of General Systems 12, 193-226. Wiederabgedruckt als Kapitel 14 in Yager et al. (2008), 375-410. Duhem, P. (1998). Ziel und Struktur der physikalischen Theorien. Meiner, Hamburg. 1. französische Aufl. 1904. Duncan, O.D. (1984). Notes on Social Measurement. Historical and Critical. Russell Sage Foundation, New York.
Literatur
611
Durant, W. und Durant, A. (1985). Kulturgeschichte der Menschheit. (18 Bde.) Naumann & Göbel, Köln. Durbin, J. (1987). Statistics and Statistical Science. (Mit Diskussion) J. of the Royal Stat. Soc. A 150(3), 177-191. Dyson, F. (2008). John A. Wheeler, Physicist Who Coined the Term ‘Black Hole,’ Is Dead at 96. Nachruf in der New York Times, 14. April 2008. Earman, J. (1992). Bayes or Bust? A Critical Examination of Bayesian Confirmation Theory. The MIT Press, Cambridge, Mass. Earman, J. (2004). Laws, Symmetry, and Symmetry breaking; Invariance, Conservation Principles, and Objectivity. Philosophy of Science 71, 1227-1241. Edgington, E.S. (1995). Randomization Tests. (3. Aufl.) Reihe: Statistics, Textbooks and Monographs 147. Marcel Dekker, New York. Edwards, A.W.F. (1972). Likelihood. Johns Hopkins University Press, Baltimore, MD. Edwards, A.W.F. (1992). Likelihood. (2. Aufl.) Johns Hopkins University Press, Baltimore, MD. 1. Aufl. 1972. Edwards, W.; Lindman, H.; and Savage, L.J. (1963). Bayesian Statistical Inference for Psychological Research. Psychological Review 70, 193-242. Wiederabgedruckt in Kotz und Johnson (1993: Bd. I, 531-578). Eerola, M. (1994). Probabilistic Causality in Longitudinal Studies. Springer, New York: Lecture Notes in Statistics, No. 92. Efron, B. (1978). Controversies in the Foundations of Statistics. American Math. Monthly 85(4), 232-246. Efron, B. (1979). Bootstrap Methods: Another Look at the Jackknife. Annals of Statistics 7, 1-26. Wiederabgedruckt in Kotz und Johnson (1993: Bd. II, 569-294). Efron, B. (1986). Why isn’t Everyone a Bayesian? The American Statistician 40(1), 1-5. Efron, B. (1990). Kommentar zu Shafer (1990b). Statistical Science 5(4), 450. Efron, B. (1993). Introduction to James und Stein (1961). In: Kotz und Johnson (1993: Bd. I, 437-442). Efron, B. (1998). R. A. Fisher in the 21st Century. (Mit Diskussion) Statistical Science 13(2), 95-122. Efron, B. (2001). Statistics is the Science of Information Gathering, Especially when the Information arrives in Little Pieces instead of Big Ones. Interview with Bradley Efron. Business Science Center, Irwin/McGraw-Hill Student Learning Aids. www.mhhe.com/business/opsci/bstat/efron.mhtml Efron, B. (2003). Robbins, Empirical Bayes and Microarrays. Annals of Statistics 31, 366378. Efron, B. (2005). Modern Science and the Bayesian-Frequentist Controversy. Technical Report No. 2005-19B/233. Dept. of Statistics, Stanford University. Siehe www-stat.stanford.edu/∼ckirby/brad/.../2005NEWModernScience.pdf (Aufruf am 16. 09. 2009.) Efron, B. (2006). Kommentar zu Mallows (2006). Technometrics 48(3), 330-332. Efron, B.; and Gous, A. (2001). Scales of Evidence for Model Selection: Fisher versus Jeffreys. In: Lahiri, P. (Hrsg.) IMS Lecture Notes 38 über Model Selection, 210-256. Efron, B.; and Morris, C. (1977). Stein’s Paradox in Statistics. Scientific American 236(5), 119-127. Efron, B.; and Tibshirani, R.J. (1991). Statistical Analysis in the Computer Age. Science 253, 390-395. Efron, B.; and Tibshirani, R.J. (1993). An Introduction to the Bootstrap. Chapman & Hall. Ehrenberg, A.S.C.; and Bound, J.A. (1993). Kommentar zu Draper et al. (1993). J. Royal Stat. Soc. A 56(1), 30-31. Einstein, A. (1952). Brief an M. Solovine vom 7. Mai. Einstein Archive, Database Record 21-283.00. Siehe auch von Baeyer (2005), 136-138.
612
Literatur
Einstein, A. (1953). Brief an J. S. Switzer vom 23. April. Einstein Archive, Database Record 61-381.00. Einstein, A. (1993). Mein Weltbild. (25. Aufl.) Ullstein, Frankfurt a. M. 1. Aufl. 1921. Ellis, S.P. (1993). Kommentar zu Draper et al. (1993). J. Royal Stat. Soc. A 56(1), 33. Elston, D.A.; and Glasbey, C.A. (1990). Kommentar zu Bartlett (1990). J. of the Royal Statistical Society, Ser. A 153(3), 340-341. Estes, W.K. (1975). Some Targets for Mathematical Psychology. J. of Mathematical Psychology 12, 263-282. Evett, I.W. (2000). Kommentar zu Lindley (2000). The Statistician 49(3), 332-333. Ewald, W. (2005). From Kant to Hilbert. A Sourcebook on the Foundations of Mathematics (Bd. 2). Oxford Univ. Press, Oxford. Fahrmeir, L; Hamerle, A. und Tutz, G. (1996). Multivariate statistische Verfahren. (2. Aufl.) De Gruyter, Berlin. Falk, R. (1998). Replication - a Step in the Right Direction. Kommentar zu Sohn (1998). Theory & Psychology 8(3), 313-321. Falmagne, J.-C. (1985). Elements of Psychophysical Theory. Oxford University Press, Oxford. Fayyad, U.; Piatetsky-Shapiro, G.; and Smyth, P. (1996). From Data Mining to Knowledge Discovery in Databases. Artificial Intelligence Magazine, Herbstausgabe, 37-54. Feder, M. (1986). Maximum Entropy as a Special Case of the Minimum Description Length Criterion. IEEE Transactions on Information Theory 32(6), 847-849. Feigl, H. (1970a). The “Orthodox” View of Theories: Remarks in Defense as well as Critique. In: Radner, M.; and Winokur, S. (Hrsg.) Minnesota Studies in the Philosophy of Science: Analyses of Theories and Methods of Physics and Psychology, Vol. IV, 3-16. Feigl, H. (1970b). Beyond Peaceful Coexistence. In: Stuewer, R.H. (Hrsg.) Minnesota Studies in the Philosophy of Science: Historical and Philosophical Perspectives of Science, Vol. V, 3-11. Feiner, A. (2005). Einführung in das Induktionsproblem. Humes induktive Skepsis und moderne Antworten. Der Andere Verlag, Lübeck und Marburg. Feller, W. (1968). An Introduction to Probability Theory and its Applications. Band 1. (3. Aufl.) Wiley, New York. 1. Aufl. 1950. Feller, W. (1971). An Introduction to Probability Theory and its Applications. Band 2. (2. Aufl.) Wiley, New York. 1. Aufl. 1966. Ferguson, A.; Myers, C.S.; Bartlett, R.J.; Banister, H.; Bartlett, F.C.; Brown, W.; Campbell, N.R.; Craik, K.J.W.; Drever, J.; Guild, J.; Houstoun, R.A.; Irwin, J.O.; Kaye, G.W.C.; Philpott, S.J.F.; Richardson, L.F.; Shaxby, J.H.; Smith, T.; Thouless, R.H.; and Tucker, W.S. (1940). Quantitative Estimates of Sensory Events: Final Report of the Committee appointed to consider and report upon the Possibility of Quantitative Estimates of Sensory Events. Advancement of Science 1, 331-349. Ferguson, T.S. (1967). Mathematical Statistics: A Decision Theoretic Approach. Academic Press, New York. Fetzer, J.H. (Hrsg., 2001). The Philosophy of Carl G. Hempel. Studies in Science, Explanation, and Rationality. Oxford University Press, New York. Feyerabend, P. (1978). Science in a Free Society. New Left Books, London. Feyerabend, P. (2007). Wider den Methodenzwang. (10. Aufl.) Suhrkamp, Frankfurt a. M. 1. Aufl. 1970. Feynman, R.P. (2003). Sechs physikalische Fingerübungen. Piper, München. Feynman, R.P. (2005a). Absolut vernünftige Abweichungen vom ausgetretenen Pfad. Briefe eines Lebens. Piper, München. Feynman, R.P. (2005b). Sie belieben wohl zu scherzen, Mr. Feynman! Abenteuer eines neugierigen Physikers. Piper, München. Feynman, R.P. (2007). Vom Wesen physikalischer Gesetze (8. Aufl.) Piper.
Literatur
613
Fidler, F.; Thomason, N.; Cumming, G.; Finch, S.; and Leeman, J. (2004). Editors Can Lead Researchers to Confidence Intervals, but Can’t Make Them Think. Statistical Reform Lessons From Medicine. Psychological Science 15(2), 119-126. Fienberg, S.E. (1985). Comments on and Reactions to Freedman, Statistics and the Scientific Method. In: Mason und Fienberg (1985), 371-384. Fine, T.L. (1973). Theories of Probability - an Examination of Foundations. Academic Press, New York. Finetti, B. de (1937). La Prévision: ses Lois Logiques, ses Sources Sujectives. Ann. Inst. H. Poincaré 7, 1-68. Englische Übersetzung durch H. E. Kyburg Jr. wiederabgedruckt in Kotz und Johnson (1993: Bd. I, 134-174). Finetti, B. de (1969). Un mathematico e l’economia. Giuffrè, Mailand. Finetti, B. de (1974a). Theory of Probability. (2 Bände.) Wiley, London. Englische Übersetzung seines 1970 publizierten italienischen Werks. Finetti, B. de (1974b). Bayesianism: Its Unifying Role for Both the Foundations and Applications of Statistics. International Statistical Review 42, 117-130. Finetti, B. de (1980). Probability: Beware of Falsifications! In: Kyburg, H.E. Jr.; and Smokler, H.E. (Hrsg.) Studies in Subjective Probability (2. Aufl.) Krieger, New York, 193-224. Zuerst in italienischer Sprache erschienen in Scientia (1976), Jahrgang LLX, Vol. 111, Hefte 5-8. Finetti, B. de (1995). The Logic of Probability. Philosophical Studies 77, 181-190. Finetti, B. de (2006). L’invenzione della verità. Cortina, Mailand. Zuvor unveröffentlichtes Manuskript aus dem Jahr 1934. Fischer, G. (2005). Lineare Algebra. Eine Einführung für Studienanfänger. (15. Aufl.) vieweg, Braunschweig. Fischer, G.H. (1974). Einführung in die Theorie psychologischer Tests. Grundlagen und Anwendungen. Huber, Bern. Fischer, K. (1983). Rationale Heuristik. Die Funktion der Kritik im „Context of Discovery“. Zeitschrift für allgemeine Wissenschaftstheorie XIV(2), 234-272. Fischer, K. (1995). Braucht die Wissenschaft eine Theorie? Journal for General Philosophy of Science 26, 227-257. Fischer, K. (2004). Spielräume wissenschaftlichen Handelns - Die Grauzone der Wissenschaftspraxis. In: Freiheit und Verantwortung in Forschung, Lehre und Studium. Die ethische Dimension der Wissenschaft. 34. Bildungspolitischen Forum, 27. Februar 2004 in Berlin, 41-110. Fisher, R.A. (1922). On the Mathematical Foundations of Theoratical Statistics. Philosophical Transactions of the Royal Society of London, Ser. A 222, 309-368. Zitiert nach Kotz und Johnson (1993: Bd. I, 11-44). Fisher, R.A. (1925). Theory of Statistical Estimation. Proceedings of the Cambridge Philos. Soc. 22, 200-225. Fisher, R.A. (1929). The Statistical Method in Psychical Research. Proceedings of the Society for Psychical Research 39, 189-192. Fisher, R.A. (1930). Inverse Probability. Proceedings of the Cambridge Philos. Soc. 26, 528-535. Fisher, R.A. (1935). The Logic of Inductive Inference. Journal of the Royal Statistical Society 98, 39-54. Fisher, R.A. (1936a). Tests of Significance Applied to Haldon’s Data on Partial Sex Linkage. Annaly of Eugenics 7, 87-104. Fisher, R.A. (1936b). “The Co-efficient of Racial Likeness” and the Future of Craniometry. J. of the Royal Anthropological Institute 66, 57-63. Fisher, R.A. (1955). Statistical Methods and Scientific Induction. J. of the Royal Stat. Soc., Ser. B 17(1), 69-78. Fisher, R.A. (1958). Cigarettes, Cancer and Statistics. Centennial Review 2, 151-166. Fisher, R.A. (1959). Smoking: the Cancer Controversy. Oliver and Boyd, Edinburgh.
614
Literatur
Fisher, R.A. (1966). The Design of Experiments. (8. Aufl.) Hafner Publishing Company, New York. 1. Aufl. 1935, 4. Aufl. 1947. Fisher, R.A. (1970). Statistical Methods for Research Workers. (14. Aufl.) Macmillan, New York. 1. Aufl. 1925. Fisher, R.A. (1973). Statistical Methods and Scientific Inference. (3. Aufl.) Hafner Publishing Company, New York. 1. Aufl. 1956, 2. Aufl. 1959. Fisher Box, J. (1978). R. A. Fisher: The Life of a Scientist. Wiley, New York. Fitelson, B. (2005). Inductive Logic. In: Pfeifer, J.; and Sarkar, S. (Hrsg.) The Philosophy of Science. An Encyclopedia. Routledge, Oxford. Foerster, H. von (2003). Understanding Systems: Conversations on Epistemology and Ethics. Springer: IFSR International Series on Systems Science and Engineering, Vol. 17. Foster, D.P.; and George, E.I. (1994). The Risk Inflation Criterion for Multiple Regression. The Annals of Statistics 22(4), 1947-1975. Fraassen, B. van (1980). The scientific Image. Oxford University Press, Oxford. Fraassen, B. van (1990). Laws and Symmetry. Oxford University Press, Oxford. Frankfurter Allgemeine Zeitung (2009). Artikelserie zur Volkswirtschaftslehre: Plickert, P. (20.1.) Gefangen in der Formelwelt; Hüther, M. (21.3.) Ordnungsökonomik fasziniert noch heute; Ritschl, A. (21.3.) Ordnungsökonomik war ein Sonderweg; Bachmann, R. und Uhlig, H. (29.3.) Die Welt ist nicht schwarz oder weiß; Nienhaus, L. und Siedenbiedel, C. (5.4.) Die Ökonomen in der Sinnkrise; Braunberger, G. (7.4.) In Krisen gehen auch Doktrinen unter; Vanberg, V. (13.4.) Die Ökonomik ist keine zweite Physik; 83 Professoren der Volkswirtschaftslehre (Aufruf vom 5.5.) Rettet die Wirtschaftspolitik an den Universitäten! ; Gehrig, T.P. (11.5.) Schadet es, wenn Ökonomen rechnen können? ; Plickert, P. (13.5.) Ökonomik in der Vertrauenskrise; Aus dem Moore, N. und Schmidt, C.M. (22.5.) Quo vadis, Ökonomik? ; Mussler, W. (16.6.) Die Lehren der Anderen; Sinn, H.-W. (22.6.) Der richtige Dreiklang der VWL; Nienhaus, L. (24.8.) Dreißig nutzlose Jahre; Interview mit Robert Shiller (30.8.) Die nächsten fünf Jahre werden enttäuschend. F.A.Z. Electronic Media GmbH, Frankfurt a. M. Fraser, D.A.S. (1961). The Fiducial Method and Invariance. Biometrika 48(3), 261-280. Fraser, D.A.S. (1968). The Structure of Inference. Wiley, New York. Fraser, D.A.S. (1976). Probability and Statistics: Theory and Applications. Duxberry, North Scituate. Fraser, D.A.S. (1996). Some Remarks on Pivotal Models and the Fiducial Argument in Relation to Structural Models. International Statistical Review 64, 231-235. Fraser, D.A.S. (2004). Ancillaries and Conditional Inference. (Mit Diskussion) Statistical Science 19, 332-369. Freedman, D.A. (1981). Some Pitfalls in Large Econometic Models. J. of Business 54, 479-500. Freedman, D.A. (1985a). Statistics and the Scientific Method. Mason und Fienberg (1985), 343-366. Freedman, D.A. (1985b). A Rejoinder of Fienberg’s Comments. Mason und Fienberg (1985), 385-390. Freedman, D.A. (1987a). As Others See Us: A Case Study in Path Analysis. J. of Educational Statistics 12(2), 101-128. Freedman, D.A. (1987b). A Rejoinder on Models, Metaphors, and Fables. J. of Educational Statistics 12(2), 206-223. Freedman, D.A. (1991). Statistical Models and Shoe Leather. Sociological Methodology 21, 291-313. Freedman, D.A. (1997). From Association to Causation via Regression. Adv. Appl. Math. 18, 59-110. Freedman, D.A. (2005). Statistical Models: Theory and Practice. Cambridge University Press, New York.
Literatur
615
Freedman, D.A. (2006). Statistical Models for Causation. What Inferential Leverage do they Provide? Evaluation Review 30(6), 691-713. Freedman, D.A. (2008a). Randomization does not Justify Logistic Regression. Statistical Science 23 (2008), 237-249. Freedman, D.A. (2008b). On Regression Adjustments to Experimental Data. Advances in Applied Mathematics 40, 180-193. Freedman, D.A. (2010). Statistical Models and Causal Inference. A Dialogue with the Social Sciences. Posthum herausgegeben und mit einer Einleitung (S. i-xvi) versehen von Collier, D.; Sekhon, J.S.; and Stark, P.B. Cambridge University Press, New York. Friedman, J.H. (1997). Data Mining and Statistics: What’s the Connection? Keynote Address at the 29th Symposium on the Interface of Computing Science and Statistics. Siehe http://amscampus.cib.unibo.it/archive/00001163/ und http://wwwstat.stanford.edu/∼jhf/ Friedman, J.H. (2001). The Role of Statistics in the Data Revolution? International Statistical Review 69(1), 5-10. Friedman, M. (1953). Essays in Positive Economics. University of Chicago Press, Chicago. Fröhlich, G. (2003). Anonyme Kritik: Peer Review auf dem Prüfstand der Wissenschaftsforschung. medizin - bibliothek - information 3(2), 33-39. Gács, P.; Tromp, J.T.; and Vitányi, P.M.B. (2001). Algorithmic Statistics. IEEE Transactions on Information Theory 47(6), 2443-2463. Gaito, J. (1980). Measurement Scales and Statistics: Resurgence of an Old Misconception. Psychological Bulletin 87(3), 564-567. Galavotti, M.C. (Hrsg., 2009). Bruno de Finetti. Radical Probabilist. College Publications, London: Texts in Philosophy 8. Galilei, G. (1612). Brief an Federico Cesi in Rom. In: Favaro, A. (Hrsg.) Galileo Galilei: Le Opere, Edizione nazionale, Florenz (1890-1909). Siehe http://www.liberliber.it/ biblioteca/g/galilei/, Dokument „Le opere. Volume XI. Carteggio 1611-1613“, 285. Galilei, G. (1623). Il Saggiatore (Goldwäger). In: Favaro, A. (Hrsg.) Galileo Galilei: Le Opere, Edizione nazionale, Florenz (1890-1909). Siehe http:// www.liberliber.it/ biblioteca/g/galilei/, Dokument „Saggiatore (Il)“, 16-17. Galilei, G. (1632). Dialog über die beiden hauptsächlichsten Weltsysteme, das ptolemäische und das kopernikanische. (Zweiter Tag.) In: Mudry, A. (Hrsg.) Galileo Galilei: Schriften, Briefe, Dokumente, Band I, Verlag C. H. Beck, München (1987), 204ff. Galton, F. (1889). Natural Inheritance. Macmillan, London. Gangl, M. und DiPrete, T.A. (2004). Kausalanalyse durch Matchingverfahren. Discussion Papers of DIW Berlin No. 401. Siehe www.diw.de/documents/publikationen/73/41226/dp401.pdf Gardner, M. (1996). The Night is Large; Collected Essays, 1938-1995. St. Martin’s Griffin, New York. Gardner, M. (1996a). The Popperism of Sir Karl. Kapitel 41 in Gardner (1996), 488-490. Gardner, M. (1996b). Why I am not a Pragmatist. Kapitel 39 in Gardner (1996), 464-480. Gardner, M. (2001). A Skeptical Look at Karl Popper. Skeptical Inquirer, 25(4), 13-14, 72. Gardner P.L. (1975). Scales and Statistics. Review of Educational Research 45(1), 43-57. Gasarch, W.; and Smith, C.H. (1997). A Survey of Inductive Inference with an Emphasis on Queries. In: Sorbi, A. (Hrsg.) Complexity, Logic, and Recursion Theory. Dekker, New York: Lecture Notes in Pure and Appl. Math. 187, 225-260. Geisser, S.; Hodges, J.S.; and Press, J. (Hrsg., 1990). Bayesian and Likelihood Methods in Statistics and Econometrics. Essays in Honor of George A. Barnard. North-Holland Publishing Company, Amsterdam: Studies in Bayesian Econometrics and Statistics, Bd. 7. Gell-Mann, M. (1999). Pulling Diamonds from the Clay. In: Denning, P.J. (Hrsg.) Talking Back to the Machine: Computers and Human Aspiration. Springer, New York, 155-165.
616
Literatur
Gelman, A; Carlin, J.B.; Stern, H.S.; and Rubin, D.B. (2004). Bayesian Data Analysis. CRC Press, Boca Raton, FL. Gelman, A; and Hill, J. (2007). Applied Regression and Multilevel/Hierarchical Models. Cambridge University Press, Cambridge. Gergen, K.J. (1988). Feminist Critique of Science and the Challenge of Social Epistemology. In: McCanney Gergen, M. (Hrsg.) Feminist Thought and the Structure of Knowledge. New York Univ. Press, New York, 27-48. Gerhardt, M. und Schuster, H. (1995). Das digitale Universum. Zelluläre Automaten als Modelle der Natur. Vieweg Verlag, Braunschweig. Reihe „Facetten“. gesellschaft für analytische philosophie (2009). Website, Aufruf am 13. 8. 2009. Siehe www.gap-im-netz.de/ Gesellschaft für Wissenschaftsforschung e. V. (2009). Website, Aufruf am 13. 8. 2009. Siehe www.wissenschaftsforschung.de/ Ghosh, J.K. (Hrsg., 1988). Statistical Information and Likelihood. A Collection of Critical Essays by Dr. D. Basu. Springer, New York: Lecture Notes in Statistics. Ghosh, M.; and Pathak, P.K. (Hrsg., 1992). Current Issues in Statistical Inference: Essays in Honor of D. Basu. Institute of Mathematical Statistics: Lecture Notes - Monograph Series. Gigerenzer, G. (1993). From Metaphysics to Psychophysics and Statistics. Behavioral and Brain Sciences 16(1), 139-140. Gigerenzer, G. (2004). Mindless Statistics. The Journal of Socio-Economics 33, 587-606. Gigerenzer, G.; Gaissmaier, W.; Kurz-Milcke, E.; Schwartz, L.M. und Woloshin, S. (2008). Helping Doctors and Patients make Sense of Health Statistics. Psychological Science in the Public Interest 8(2), 53-96. Gigerenzer, G.; Krauss, S. und Vitouch, O. (2004). The Null Ritual. What You Always Wanted to Know About Significance Testing but Were Afraid to Ask. Kapitel 21 in Kaplan (2004), 391-408. Gillies, D. (1993). Philosophy of Science in the Twentieth Century. Blackwell, Oxford. Gillies, D. (2000). Philosophical Theories of Probability. Routledge, London. Gillies, D. (2009). On Bruno de Finetti’s L’invenzione de la verità. In: Galavotti (2009), 249-257. Gilmour, S. G. (1995). Kommentar zu Chatfield (1995). J. of the Royal Statistical Society A 158(3), 450. Glass, G.V. (1976). Primary, Secondary and Meta-Analysis of Research. Educational Researcher 5, 3–8. Gley, E. (1916). Les Allemands et la Science. In: Pettit, G. et Leudet, M. (Hrsg.) F. Alcan, Paris, 181. Glymour, C. (1983). Social Science and Social Physics. Behavioral Science 28(2), 126-134. Glymour, C. (1998). What Went Wrong? Reflections on Science by Observation and the Bell Curve. Phil. of Science 65(1, 1-32. Glymour, C.; Madigan, D.; Pregibon, D.; and Smyth, P. (1996). Statistical Inference and Data Mining. Communications of the ACM 39(11), 35-41. Glymour, C.; Madigan, D.; Pregibon, D.; and Smyth, P. (1997). Statistical Lessons for Data Mining. Data Mining and Knowledge Discovery 1, 11-28. Glymour, C.; Scheines, R.; Spirtes, P.; and Kelly, K. (1987). Discovering Causal Structure. Artificial Intelligence, Philosophy of Science, and Statistical Modeling. Academic Press, San Diego. Glynn, R.J.; Laird, N.M.; and Rubin, D.B. (1986). Selection Modeling versus Mixture Modeling with Noningnorable Nonresponse. (Mit Diskussion). In: Wainer (1986), 115148. Godambe, V.P.; and Sprott, D.A. (Hrsg., 1971). Foundations of Statistical Inference. Proceedings of the Symposium on the Foundations of Statistical Inference held at the Department of Statistics, University of Waterloo, Ontario, Canada, from March 31 to April 9, 1970. Holt, Rinehart and Winston of Canada, Limited; Toronto, Montreal.
Literatur
617
Godfrey-Smith, P. (2003). Theory and Reality. The University of Chicago Press, Chicago and London: Science and its Conceptual Foundations. Good, I.J. (1950). Probability and the Weighing of Evidence. Charles Griffin, London. Good, I.J. (1967). The White Shoe is a Red Herring. Brit. J. Phil. Sci. 17, 322. Good, I.J. (1971a). Kommentar zu Rubin (1971) in Godambe and Sprott (1971), 375. Good, I.J. (1971b). Kommentar zu Villegas (1971) in Godambe and Sprott (1971), 415. Good, I.J. (1976). The Bayesian Influence, or how to Sweep Subjectivism under the Carpet. In: Harper and Hooker (1976), 125-174. Good, I.J. (1983a). Good Thinking. The Foundations of Probability and Statistics. University of Minnesota Press, Mineapolis, MN. Good, I.J. (1983b). The Philosophy of Explanatory Data Analysis. Philosophy of science 50, 283-295. Good, I.J. (1988). The Interface between Statistics and Philosophy of Science. (Mit Diskussion) Statistical science 3(4), 386-412. Good, P.I. (2000). Permutation Tests. (2. Aufl.) Springer. Good, P.I. (2001). Resampling Methods: a Practical Guide to Data Analysis. (2. Aufl.) Birkhauser. Goodman, N. (1990). Fact, Fiction, and Forecast. (4. Aufl.) Harvard Univ. Press, Cambridge, MA. Erstausgabe 1955. Goodman, S.N. (1992). A Comment on Replication, P-values, and Evidence. Statistics in Medicine 11, 875-879. Goodman, S.N. (1993). P-Values, Hypothesis Tests, and Likelihood: Implications for Epidemiology of a Neglected Historical Debate. American J. of Epidemiology 137(5), 485-495. Goodman, S.N. (1999a). Toward Evidence-Based Medical Statistics. 1: The p Value Fallacy. Annals Intern Med. 130, 995-1004. Goodman, S.N. (1999b). Toward Evidence-Based Medical Statistics. 2: The Bayes Factor. Annals Intern Med. 130, 1005-1013. Goodman, S.N.; and Royall, R. (1988). Evidence and Scientific Research. American J. of Public Health 78(12), 1568-1574. Gorski, P.S. (2004). The Poverty of Deductivism: A Constructive Realist Model of Sociological Explanation. Sociological Methodology 34, 1-34. Gosset, W. S.; Pseudonym “Student” (1908). The Probable Error of a Mean. Biometrika 6(1), 1-25. Wiederabgedruckt in Kotz und Johnson (1993: Bd. II, 33-58). Gosset, W.S.; Pseudonym “Student” (1931). The Lanarkshire Milk Experiment. Biometrika 23, 398-406. Gøtzsche, P.C.; Kassirer, J.P.; Woolley, K.L., Wager, E., Jacobs, A.; Gertel, A.; and Hamilton, C. (2009). What Should Be Done To Tackle Ghostwriting in the Medical Literature?. PLoS Med 6(2): e1000023. doi:10.1371/journal.pmed.1000023 Grace, J.B. (2006). Structural Equation Modeling and Natural Systems. Cambridge University Press, Cambridge. Green, P.J.; Hjort, N.L.; and Richardson, S. (2003). Highly Structured Stochastic Systems. Oxford Univ. Press, Oxford: Oxford Statistical Science Series 27. Greenacre, M.J. (1984). Theory and Applications of Correspondence Analysis. Academic Press, London. Greenland, S. (1990). Randomization, Statistics, and Causal Inference. Epidemiology 1(6), 421-429. Greenland, S. (1998a). Probability Logic and Probabilistic Induction. Epidemiology 9(3), 322-332. Greenland, S. (1998b). Induction versus Popper: Substance versus Semantics. Internatin J. of Epidemiology 27, 543-548. Greenland, S.; and Brumback, B. (2002). An Overview of Relations among Causal Modelling Methods. International J. of Epidemiology 31(5), 1030-1037.
618
Literatur
Greenland, S.; Pearl, J.; and Robins, J.M. (1999). Causal Diagrams for Epidemiologic Research. Epidemiology 10(1), 37-48. Greenland, S.; and Robins, J.M. (1986). Identifiability, Exchangeability, and Epidemiologic Confounding. Int. J. Epidemiology 15, 412-418. Greeno, J.G. (1970). Evaluation of Statistical Hypotheses using Information Transmitted. Phil. of Science 37, 279-294. Greenough, P. and Lynch, M.P. (Hrsg., 2006). Truth and Realism. Oxford University Press, Oxford. Groff, R. (2008). Revitalizing Causality: Realism About Causality in Philosophy and Social Science. Routledge Grundy, P.M.; and Healy, M.J.R. (1950). Restricted Randomization and Quasi-Latin Squares. J. R. Statist. Soc., Ser. B 12, 286-291. Grünwald, P.D. (2005). Introducing to the Minimum Description Length Principle. In: Grünwald et al. (2005), 3-21. Grünwald, P.D. (2007). The Minimum Description Length Principle. MIT Press. Grünwald, P.D.; and Dawid, A.P. (2004). Game Theory, Maximum Entropy, Minimum Discrepancy, and Robust Bayesian Decision Theory. Annals of Statistics 32, 1367-1433. Grünwald, P.D.; Myung, I.J.; and Pitt, M. (Hrsg., 2005). Advances in Minimum Description Length: Theory and Applications. MIT Press. Guilford, J.P. (1967). The Nature of Human Intelligence. McGraw-Hill, New York. Gullikson, H. (1950). Theory of Mental Tests. Wiley, New York. Guttman, L. (1945). A Basis for Analyzing Test-Retest Reliability. Psychometica 10, 255282. Guttman, L. (1985). The Illogic of Statistical Inference for Cumulative Science. Applied stochastic models and data analysis 1, 3-9. Hacking, I. (1965). Logic of Statistical Inference. Cambridge University Press, Cambridge. Hacking, I. (1980). The Theory of Inference: Neyman, Peirce and Braithwaite. In: Mellor, D.H. (Hrsg.) Science, Belief and Behaviour: Essays in Honor of R. B. Braithwaite Cambridge University Press, Cambridge, 141-160. Hacking, I. (1983). Representing and Intervening: Introductory Topics in the Philosophy of Natural Science. Cambridge University Press, Cambridge. Hacking, I. (1988). Telepathy: Origins of Randomization in Experimental Design. ISIS 79, 427-451. Hacking, I. (1992). The Self-Vindication of the Laboratory Sciences. In: Pickering, A. (Hrsg.) Science as Practice and Culture. The University of Chicago, Chicago and London, 29-64. Hacking, I. (1996). Einführung in die Philosophie der Naturwissenschaften. Reclam, Stuttgart. Hacking, I. (2001). An Introduction to Probabilty Theory and Inductive Logic. Cambridge University Press, Cambridge. Hahn, R.W.; and Tetlock, P.C. (Hrsg., 2006). Information Markets. A New Way of Making Decisions. The AEI Press, Washington D.C. Hájek, A. (2007). Interpretations of Probability, The Stanford Encyclopedia of Philosophy (Winter 2007 Edition), Edward N. Zalta (Hrsg.) Siehe http://plato.stanford.edu/ archives/win2007/entries/probability-interpret Hájek, A. (2008). Probability - A Philosophical Overview. In: Gould, B.; and Simons, R.A. (Hrsg.) Proof & and Other Dilemmas: Mathematics and Philosophy. The Mathematical Association of America, Washington D.C.: Spectrum Series. Hájek, A.; and Hall, N. (2002). Induction and Probability. Kapitel 8 in: Machamer, P.; and Silberstein, M. (Hrsg.) The Blackwell Guide to the Philosophy of Science. Blackwell, Malden, Mass., 149-172. Halfmann, J. und Schützenmeister, F. (2009). Organisationen der Forschung. Der Fall der Atmosphärenwissenschaft. Verlag für Sozialwissenschaften, Wiesbaden.
Literatur
619
Halpern, J.Y.; and Pearl, J. (2005) Causes and Explanations: A Structural-Model Approach. Part I: Causes. Part II: Explanations. Brit. J. Phil. Sci. 56, 843-887 und 889911. Hampel, F.R. (1996). On the Philosophical Foundations of Statistics: Bridges to Huber’s Work, and Recent Results. In: Rieder, H. (Hrsg.) Robust Statistics, Data Analysis, and Computer Intensive Methods. In Honor of Peter Huber’s 60th Birthday. Springer, Berlin, 185-196. Hampel, F.R. (2003). The Proper Fiducial Argument. Research Report 114. Seminar für Statistik der Eidgenössischen Technischen Hochschule (ETH) Zürich. Siehe http://ecollection.ethbib.ethz.ch/eserv/eth:26403/eth-26403-01.pdf Hampel, F.R. (2005). The Proper Fiducial Argument. Electronic Notes in Discrete Mathematics 21, 297-300. Hampel, F.R.; Rousseeuw; P.J.; Ronchetti, E.M.; and Stahel, W.A. (1986). Robust Statistics. The Approach Based on Influence Functions. Wiley, New York. Han, J.; and Kamber, M. (2006). Data Mining. Conecpts and Techniques. (2. Aufl.) Morgan Kaufmann Publishers (Academic Press, San Francisco. 1. Aufl. 2001. Hand, D.J. (1994) Deconstructing Statistical Questions. J. of the Royal Statistical Society, Ser. A 157, 317-356. Hand, D.J. (1995). Kommentar zu Chatfield (1995). J. of the Royal Statistical Society A 158(3), 448. Hand, D.J. (1996). Statistics and the Theory of Measurement. J. of the Royal Statistical Society, Ser. A 159, 445-492. Hand, D.J. (1998a). Breaking Misconceptions - Statistics and its Relationship to Mathematics. The Statistician 47(2), 245-250. Hand, D.J. (1998b). Data Mining: Statistics and More? The American Statistician 52(2), 112-118. Hand, D.J. (1999). Why Data Mining is more than Statistics Writ Large. Bulletin of the ISI 99, 433-436. Hand, D.J. (2001a). Commentary on Arnold Goodman’s Remarks about KDD-2001. KDNuggets News 1:15 Item 6. Siehe www.kdnuggets.com/news/2001/n25/6i.html Hand, D.J. (2007). Information Generation. How Data Rule our World. Oneworld Publications, Oxford. Hand, D.J.; and Everitt, B. (1987). The Statistical Consultant in Action. Cambridge University Press, Cambridge. Hand, D.J.; Mannila, H.; and Smyth, P. (2001b) Principles of Data Mining. The MIT Press, Cambridge, MA. Hand, D.J.; and Vinciotti, V. (2003). Local versus Global Models for Classification Problems: Fitting Models where it Matters. The American Statistician 57(2), 124-131. Hannan, E.J.; and Quinn, B.G. (1979). The Determination of the Order of an Autoregression. J. R. Statist. Soc. B 41, 190-195. Hansen, M.H.; and Yu, B. (2001). Model Selection and the Principle of Minimum Description Length. J. of the American Statistical Association 96, 746-774. Hanson, A.J.; and Fu, P.C. (2005). Applications of MDL, to Selected Families of Models. Kapitel 5 in: Grünwald et al. (2005), 125-150. Härdle, W.; Müller, M.; Sperlich, S.; and Werwatz, A. (2004). Nonparametric and Semiparametric Models. Springer: Springer Series in Statistics. Hardy, M.; and Bryman, A. (Hrsg., 2004). Handbook of Data Analysis. Sage, London. Hargittai, I. (2002). The Road to Stockholm: Nobel Prizes, Science, and Scientists. Oxford University Press, Oxford. Harlow, L.L.; Mulaik, S.A.; and Steiger, J.H. (Hrsg., 1997). What if there were no Significance Tests? Erlbaum, London. Harper, W.L. and Hooker, C.A. (Hrsg.) Foundations of Probability Theory, Statistical Inference, and Statistical Theories of Sciene. Reidel, Dordrecht.
620
Literatur
Harper, W.; and Wheeler, G. (Hrsg., 2007). Probability and Inference. Essays in Honor of Henry E. Kyburg, Jr. College Publications, London: Texts in Philosophy, Vol. 2. Hastie, T.; Tibshirani, R.; and Friedman, J. (2001). The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Springer: Springer Series in Statistics. Hartigan, J.A. (1993). Kommentar zu Draper et al. (1993). J. Royal Stat. Soc. A 56(1), 34-35. Hartung, J.; Elpelt, B.; und Klösener, K.-H. (2009). Statistik. Lehr- und Handbuch der angewandten Statistik. (15. Aufl.) Oldenbourg. Hawthorne, J. (2005), Inductive Logic. In: Zalta, E.N. (Hrsg.) Stanford Encyclopedia of Philosophy. Hayles, N.K. (1992). Gender Encoding in Fluid Mechanics. Masculine Channels and Feminine Flows. Differences. A Journal of Feminist Cultural Studies 4(2), 16-44. Healy, M.J.R. (1984). Prospects for the Future. Where has Statistics Failed? J. R. Statist. Soc. A 147(2), 368-374. Healy, M.J.R. (2000). Kommentar zu Lindley (2000). The Statistician 49(3), 321. Heckman, J.J. (2005). The Scientific Model of Causality. (Mit einem Kommentar von Sobel, 99-133) Sociological Methodology 35, 1-162. Heckman, J.J.; and Robb, R. (1986). Alternative Methods for Evaluating the Impact of Intervention. In: Wainer (1986), 63-107. Hedges, L.V.; and Olkin, I. (1985). Statistical Methods for Meta-Analysis. Academic Press, Orlando. Heidelberger, M. (1998). Die Erweiterung der Wirklichkeit im Experiment. In: Heidelberger, M.; und Steinle, F. (Hrsg.) Experimental Essays - Versuche zu Experiment Nomos, Baden-Baden. Heidelberger, M. (2007). Das Experiment in den Wissenschaften. Kapitel 7 in Bartels und Stöckler (2007), 155-176. Held, L. (2008). Methoden der statistischen Inferenz. Likelihood und Bayes. Spektrum Akademischer Verlag, Heidelberg. Helmholtz, H. von (1887). Zählen und Messen, erkenntnistheoretisch betrachtet. In: Philosophische Aufsätze, Eduard Zeller zu seinem fünfzigjährigen Doktorjubiläum gewidmet. Fues, Leipzig, 17-52. Wiederaufgelegt 1971 von Hörz, H. und Wollgast, S. (Hrsg.) Akademie-Verlag, Berlin, 301-335, und 1998 von Springer, Wien: Schriften zur Erkenntnistheorie. Hempel, C.G. (1945). Studies in the Logic of Confirmation. Mind 54, 1-26. Hempel, C.G. (1963). Explanation and Prediction by Covering Laws. In: Baumrin, B. (Hrsg.) Philosophy of Science: The Delaware Seminar 1 (1961-62). Interscience Publishers, New York. Wiederabgedruckt in Fetzer (2001: Abschnitt 5), 69-86. Hempel, C.G. (1965). Aspects of Scientific Explanation (and other essays). Free Press, New York. Hempel, C.G. (1988). Limits of a Deductive Construal of the Function of Scientific Theories. In: Ullmann-Margalit, E. (Hrsg.) Science in Reflection, The Israel Colloquium 3 Kluwer Academic Publishers, Dordrecht, 1-15. Wiederabgedruckt in Fetzer (2001: Abschnitt 12), 237-249. Hempel, C.G.; and Oppenheim, P. (1948). Studies in the Logic of Explanation. Philosophy of Science 15, 135-175. Hennig, C. (2002). Confronting Data Analysis with Contructivist Philosophy. In: Jajuga, K.; Sokolowskij, A. und Bock, H.-H. (Hrsg.) Classification, Clustering, and Data Analysis, Springer, Berlin, 235-244. Hennig, C. (2003). How Wrong Models Become Useful - and Correct Models Become Dangerous. In: Schader, M.; Gaul, W. und Vichi, M. (Hrsg.) Between Data Science and Applied Data Analysis, 235-243. Hennig, C. (2007). Falsification of Propensity Models by Statistical Tests and the Goodness-of-Fit Paradox. Philosophia Mathematica 15, 166-192. Heuser, H. (1989). Gewöhnliche Differentialgleichungen. Teubner Verlag, Stuttgart.
Literatur
621
Hilbert, D. (1899). Grundlagen der Geometrie. In: Hilbert, D.; Wiechert, E. (Hrsg.) Festschrift zur Feier der Enthüllung des Gauss-Weber-Denkmals in Göttingen. (Faksimile) BiblioBazaar (BiblioLife Bookstore), Charleston, SC. Hilbert, D. (1930). Zitiert nach Vinnikov, V. (1999). We shall know: Hilbert’s Apology. Mathematical Intelligencer. 21, 42-46. Hilbert, D. (1944). Unbekannte Briefe Frege’s über die Grundlagen der Geometrie und Antwortbrief Hilbert’s an Frege. In: Sitzungsberichte der Heidelberger Akademie der Wissenschaften, Mathematisch- Naturwissenschaftliche Klasse, 2. Abhandlung Kommissionsverlag der Weiß’schen Universitätsbuchhandlung Heidelberg, Heidelberg, Jahrgänge 1941-1944. Hilbert, D.; und Bernays, P. (1968). Grundlagen der Mathematik I. Springer, Berlin. Hill, A.B. (1965). The Environment and Disease: Association or Causation? Proceedings of the Royal Society of Medicine, London 58(5), 295–300. Hill, B.M. (1990). A Theory of Bayesian Data Analysis. In: Geisser et al. (1990), 49-73. Hill, J.R. (1990). A General Framework for Model-Based Statistics. Biometrika 77(1), 115-126. Hjort, N.L.; Holmes, C.; Müller, P.; and Walker, S.G. (Hrsg., 2010). Bayesian Nonparametrics. Cambridge University Press, Cambridge: Cambridge Series in Statistical and Probabilistic Mathematics. Ho, D.E.; Imai, K.; King, G.; and Stuart, E.A. (2007). Matching as Nonparametric Preprocessing for Reducing Model Dependence in Parametric Causal Inference. Political Analysis 15, 199-236. Hodges, J.S. (1987). Uncertainty, Policy Analysis and Statistics. Statistical Science 2, 259291. Hodges, J.S. (1990). Can / May Bayesians Do Pure Tests of Significance? In: Geisser et al. (1990), 75-90. Hodges, J.S. (1996). Statistical Practice as Argumentation: A Sketch of a Theory of Applied Statistics. In: Lee, J.C.; Johnson, W.O.; und Zellner, A. (Hrsg.) Modeling and Prediction. Essays in Honor of Seymour Geisser. Springer, New York, 19-45. Hölder, O. (1901). Die Axiome der Quantität und die Lehre vom Maß. Berichte über die Verhandlungen der königlich sächsischen Gesellschaft der Wissenschaften zu Leipzig, mathematisch-physikalische Classe. 53, 1-64. Leipzig. Holland, P.W. (1986) Statistics and Causal Inference. (Mit Diskussion) J. of the American Statistical Association 81, 945-970. Hotelling, H. (1940). The Teaching of Statistics. Ann. of Math. Statistis 11, 457-470. Wiederabgedruckt 1988 in: Statistical Science 3, 63-71. Hotelling, H.; Bartky, W.; Deming, W.E.; and Friedman, M. (1948). The Teaching of Statistics. A Report of the Institue of Mathematical Statistics Committee on the Teaching of Statistics. Ann. of Math. Statistis 19, 95-115. Hothorn, T.; Hornik, K.; van de Wiel, M.A.; and Zeileis, A. (2006). A Lego System for Conditional Inference. The American Statistician 60(3), 257-263. Howson, C. (2000). Hume’s Problem. Induction and the Justification of Belief. The Clarendon Press (Oxford University Press), Oxford. Howson, C. (2008). De Finetti, Countable Additivity, Consistency and Coherence. The British Journal for the Philosophy of Science 59, 1-23. Howson, C. (2009). Logic and Finite Additivity: Mutual Supporters in Bruno de Finetti’s Probability Theory. In: Galavotti (2009), 41-58. Howson, C.; and Urbach, P. (2006). Scientific Reasoning. The Bayesian Approach. (3. Aufl.) Open Court, Chicago and La Salle, IL. 1. Aufl. 1985. Hoyningen-Huene, P. (1997). Einleitung [zu Kapitel X, Theoriendynamik]. In: Hubig (1997), 395-396. Hubbard, R.; and Bayarri, M.J. (2003). Confusion Over Measures of Evidence (p’s) Versus Errors (α’s) in Classical Statistical Testing. (Mit Diskussion) The American Statistician 57(3), 171-182.
622
Literatur
Hubbard, R.; and Lindsay, R.M. (2008). Why P Values are Not a Usefule Measure of Evidence in Statistical Significance Testing. Theory & Psychology 18(1), 69-88. Hubbard, R.; and Ryan, P.A. (2000). The Historical Growth of Statistical Testing in Psychology - and its Future Prospects. Educational and Psychological Measurement 60(5), 661-681. Hubble, E.P. (1929). A Relation between Distance and Radial Velocity among ExtraGalactic Nebulae. Proc. Natl. Acad. Sci. 15, 168–173. Huber, P.J. (1981) Robust Statistics. Wiley. Huber, P.J. (1997) Speculations on the Path of Statistics. In: Brillinger et al. (1997), 175191. Huber, P.J. (2006). Kommentar zu Mallows (2006). Technometrics 48(3), 332-334. Hubig, C. (Hrsg., 1997). Cognitio humana - Dynamik des Wissens und der Werte. XVII. Deutscher Kongreß für Philosophie. Leipzig, 23.-27. September 1996. Vorträge und Kolloquien. Akademie Verlag, Berlin. Hudec, M. (o. J.). Data Mining - Ein neues Paradigma der angewandten Statistik. Manuskript, Universität Wien. Siehe www.statistik.tuwien.ac.at/oezstat/ ausg021/papers/hudec.doc (Aufruf am 14. 12. 2008). Hume, D. (2000). A Treatise of Human Nature. Norton, D.F. & M.J. (Hrsg.) Oxford University Press, Oxford. Erstausgabe 1739. Hume, D. (2008). An Enquiry Concerning Human Understanding. Oxford University Press, New York. Erstausgabe 1748. Hüttemann, A. (2007). Naturgesetze. Kapitel 6 in Bartels und Stöckler (2007). Hutter, M. (2007). On Universal Prediction and Bayesian Confirmation. Theoretical Computer Science, 384, 33-48. Huxley, T.H. (1893-94). Biogenesis and Abiogenesis. In: Collected Essays (Bd. 8, 1893-4). Das Zitat fiel bei seiner Ansprache als Präsident der British Association im Jahr 1870. Ietto-Gillies, G. (2009). Why de Finetti’s Critique of Economics is Today more Relevant than Ever. In: Galavotti (2009), 153-185. Imbens, G.W.; and Rubin, D.B. (1995). Kommentar zu Pearl (1995). Biometrika, 82(4), 694-695. Inman, H.F. (1994). Karl Pearson and R. A. Fisher on Statistical Tests: A 1935 Exchange from Nature. The American Statistician, 48(1), 2-11. Jadad, A.R.; and Enkin, M.W. (2007). Randomized Controlled Trials. (2. Aufl.) BMJ Books (Blackwell Publishing), Malden, MA. 1. Aufl. ohne den zweitgenannten Autor 1998. James, W.; and Stein, C. (1961). Estimation with Quadratic Loss. Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability; University of Berkeley Press, Berkeley, CA 1, 311-319. Wiederabgedruckt in Kotz und Johnson (1993: Bd. I, 443-460). Jamshidian, M. (2004). Strategies for Analysis of Incomplete Data. Kapitel 5 in Hardy and Bryman (2004), 113-130. Janssen, A.; und Pauls, T. (2003). How Do Bootstrap and Permutation Tests Work? The Annals of Statistics 31(3), 768-806. Jaynes, E.T. (1957). Information Theory and Statistical Mechanics I, II. Physical Review, 106, 620-630 und 108, 171-190. Jaynes, E.T. (1968). Prior Probabilities. IEEE Transactions on Systems Science and Cybernetics, SSC-4, 227-241. Jaynes, E.T. (1976). Confidence Intervals vs Bayesian Intervals. (Mit einem Kommentar von O. Kempthorne) in: Harper and Hooker (1976), 175-257. Jaynes, E.T. (2003). Probability Theory. The Logic of Science. Posthum herausgegeben von Bretthorst, G. L. Cambridge University Press, Cambridge. Jeffrey, R. (2004). Subjective Probability: the Real Thing. Cambridge University Press, Cambridge. Jeffreys, H. (1939). Theory of Probability. Clarendon Press, Oxford.
Literatur
623
Jeffreys, H. (1961). Theory of Probability. (3. Aufl.) Clarendon Press, Oxford. Jeffreys, H. (1946). An Invariant form for the Prior Probability in Estimation Problems. Proceedings of the Royal Society of London, Ser. A 186, 453-461. Jeffreys, H. (1955). The Present Position in Probability Theory. Brit. J. of Philosophy of Science V, 257-289. Jeffreys, H. (1973). Scientific Inference. (3. Aufl.) Cambridge University Press, Cambridge. Jeffreys, H. (1980). Some General Points in Probability Theory. Kapitel 29 in: Zellner, A. und Kadane, J.B. (Hrsg.) Bayesian Analysis in Econometrics and Statistics. Essays in Honor of Harold Jeffreys. North-Holland Publishing Company, Amsterdam: Studies in Bayesian Econometrics, Bd. 1. Jensen, S. (1999). Erkenntnis - Konstruktivismus - Systemtheorie. Einführung in die Philosophie der konstruktivistischen Wissenschaft. Westdeutscher Verlag, Opladen. Joe, H. (1989). Relative Entropy Measures of Multivariate Dependence. J. of the American Statistical Association 84, 157-164. Johnson, N.L.; Kemp, A.W.; and Samuels, S. (2005). Univariate Discrete Distributions. (3. Aufl.) Wiley. Johnson, N.L.; Kotz, S.; and Balakrishnan, N. (1994). Continuous Univariate Distributions, Bd. 1. (2. Aufl.) Wiley. Johnson, N.L.; Kotz, S.; and Balakrishnan, N. (1995). Continuous Univariate Distributions, Bd. 2. (2. Aufl.) Wiley. Johnstone, D.J. (1986). Tests of Significance in Theory and Practice. The Statistician 35(5), 491-504. Johnstone, D.J. (1987a). Tests of Significance Following R. A. Fisher. Brit J. Phil. Sci. 38, 481-499. Johnstone, D.J. (1987b). On the Interpretation of Hypothesis Tests following Neyman and Pearson. In: Viertl, R. (Hrsg.) Probability and Bayesian Statistics, 267-277. Plenum Press, New York. Johnstone, D.J. (1988). Hypothesis Tests and Confidence Intervals in the Single Case. British J. for the Philosophy of Science 39, 353-360. Jones, L.V. (Hrsg., 1986). The collected works of J. W. Tukey, Bd. III: “Philosophy and Principles of Data Analysis: 1949-1964.” Chapman & Hall, London. Jones, L.V. (Hrsg., 1986). The collected works of J. W. Tukey, Bd. IV: “Philosophy and Principles of Data Analysis: 1965-1986.” Chapman & Hall, London. Jöreskog, K.G. (1971). Simultaneous Factor Analysis in Several Populations. Psychometrika 36(4), 409-426. Judson, H.F. (2004). The Great Betrayal. Fraud in Science. Harcourt, Inc., Orlando, FL. Juhos, B. und Schleichert, H. (1963). Die erkenntnislogischen Grundlagen der klassischen Physik. Duncker & Humblot, Berlin: Erfahrung und Denken, Bd. 12. Kadane, J.B.; and Seidenfeld, T. (1990). Randomization in a Bayesian Perspective. Journal of Statistical Planning and Inference 25, 329-345. Kahneman, D. and Tversky, A. (1979). Prospect Theory: An Analysis of Decision under Risk. Econometrica XLVII, 263-291. Kalbfleisch, J.G.; and Sprott, D.A. (1976). On Tests of Significance. In: Harper and Hooker (1976), 259-272. Kamalah, A. und Reichenbach, M. (Hrsg., 1977). Hans Reichenbach. Gesammelte Werke in 9 Bänden. Bd. 1: Der Aufstieg der wissenschaftlichen Philosophie. Vieweg, Braunschweig. Kang Fu, V.; Winship, C.; and Mare, R.D. (2004). Sample Selection Bias Models. Kapitel 18 in Hardy and Bryman (2004), 409-430. Kant, I. (1781). Kritik der reinen Vernunft. Felix Meiner Verlag, Hamburg: Philosophische Bibliothek (1990). Kant, I. (1786). Metaphysische Anfangsgründe der Naturwissenschaften. Zitiert nach Band 9 in: Wilhelm Weischedel (Hrsg., 1977). Kant. Werke in zwölf Bänden. Suhrkamp, Frankfurt a. M.
624
Literatur
Kaplan, D. (Hrsg., 2004). The SAGE Handbook of Quantitative Methodology for the Social Sciences. Sage Publications, Thousand Oaks, CA. Kass, R.E. and Raftery, A.E. (1995). Bayes Factors. J. of the American Statistical Association 90, 773-795. Kass, R.E. and Wasserman, L. (1996). The Selection of Prior Distributions by Formal Rules. J. of the American Statistical Association 91(435), 1343-1370. Katz, M. (1981). Łukasiewicz Logic and the Foundations of Measurement. Studia Logica 15(3), 209-225. Keiding, N. (1994). Kommentar zu Spiegelhalter et al. (1994). J. of the Royal Statistical Society, Ser. A 157 (3), 395. Keiding, N. (1995). Kommentar zu Cox (1995). Test 4(2), 241-242. Kellert, S.H.; Longino, H.E.; and Waters, C.H. (Hrsg., 2006). Scientific Pluralism. University of Minnesota Press, Minneapolis, MN: Minnesota Studies in the Philosophy of Science XIX. Kelvin, Lord bzw. Thomson, W. (1891). Popular Lectures and Addresses, Bd. 1. Macmillan, London. Kemeny, J.G. (1953). The Use of Simplicity in Induction. The Philosophical Review 62, 391-408. Kempthorne, O. (1955). The Randomization Theory of Experimental Inference. J. of the American Stat. Assoc. 50, 946-967. Kempthorne, O. (1971). Probability Theory, Statistics and the Knowledge Business. In: Godambe and Sprott (1971), 471-499. Kempthorne, O. (1979). The Design and Analysis of Experiments. Robert E. Krieger, New York. Kempthorne, O. (1980). Kommentar zu Basu (1980). J. of the American Statistical Association 75, 584-587. Kempthorne, O. (1992). Intervention Experiments, Randomization and Inference. In: Ghosh und Pathak (1992), 13-31. Key, J.T.; Pericchi, L.R.; and Smith, A.F.M. (1999). Bayesian Model Choice: What and Why? (Mit Diskussion) In: Bernardo et al. (1999), 343-370. Keynes, J.M. (1921). A Treatise on Probability. Macmillan, London. Khrennikov, A. (2009). Interpretations of Probability. (2. Aufl.) De Gruyter, New York. Kiefer, J. (1977). Conditional Confidence Statements and Confidence Estimators. (Mit Diskussion) J. of the American Statistical Association 72, 789-827. Kieser, A. (2010). Die Tonnenideologie der Forschung. Faz.Net Feuilleton vom 11.6.2010. Siehe www.faz.net. Kim, S.-H.; and Cohen, A.S. (1995). On the Behrens-Fisher Problem: A Review. Vortrag, gehalten auf der Jahrestagung der American Psychometric Society. Siehe http://eric.ed.gov/ERICDocs/data/ericdocs2/content_storage_01/0000000b/80/ 25/e5/02.pdf Kimball, A.W. (1957). Errors of the Third Kind in Statistical Consulting. Journal of the American Statistical Association 52, 133-142. Kirk, R.E. (1996). Practical Significance: A Concept whose Time has Come. Educational and Psychological Measurement 56, 746-759. Kish, L. (1987). Statistical Design for Research Wiley, Hoboken, NJ. Wiederabgedruckt in der Wiley Classic Library, Edition 2004. Kladroba, A. (2001). Was ist neu am Data Mining? - Einige Anmerkungen zur ‚neuen‘ Datenanalyse aus Sicht der Statistik. Allgemeines Statistisches Archiv 85, 455-462. Klärner, H. (2003). Der Schluß auf die beste Erklärung. De Gruyter, Berlin: Ideen & Argumente. Klein, I. (1994) Mögliche Skalentypen, invariante Relationen und wissenschaftliche Gesetze. Vandenhoeck & Ruprecht, Göttingen. Kleinert, A. (1988). „Messen, was messbar ist.“ Über ein angebliches Galilei-Zitat. Berichte zur Wissenschaftsgeschichte 11, 253-255.
Literatur
625
Kline, M. (1980). Mathematics. The Loss of Certainty. Oxford University Press, Oxford. Knight, F. (1921). Risk, Uncertainty, and Profit. Houghton Mifflin, New York. Knorr-Cetina, K. (1984). Die Fabrikation von Erkenntnis - Zur Anthropologie der Naturwissenschaft. Suhrkamp, Frankfurt a. M. Knuth, D.E. (1999). The Art of Computer Programming. Bd. 1: Fundamental Algorithms, Bd. 2: Seminumerical Algorithms, Bd. 3: Sorting and Searching. (Gebundene Ausgabe) Addison-Wesley Longman, Amsterdam. Koch, S. (1992). Psychology’s Bridgman vs Bridgman’s Bridgman. An Essay in Reconstruction. Theory & Psychology 2(3), 261-290. Köchy, K. und Schiemann, G. (Hrsg., 2006). Natur im Labor. Philosophia naturalis 43(1). Koertge, N. (Hrsg., 1998). A House built on Sand. Exposing Postmodernist Myths about Science. Oxford University Press, Oxford. Köhler, P. (Hrsg., 2008). Die schönsten Zitate der Politiker. 1000 Weisheiten für Reden, E-Mails, Gästebuch, zum Vergnügen und zur Erkenntnis .Humboldt Verlags GmbH, Baden-Baden. Kolmogorov, A.N. (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung. Springer, Berlin. Kolmogorov, A.N. (1954). The general theory of dynamical systems and classical mechanics. Proceedings of the International Congress of Mathematicians, Amsterdam, Niederlande 1, 315-333. North Holland, Amsterdam (1957). Englische Übersetzung in: Abraham, R.H. (1967). Foundations of Mechanics, Appendix D, 263-279. Benjamin, New York. Kolmogorov, A.N.; and Uspenskii, V.A. (1997). Algorithms and Randomness. Theory Probab. Appl. 32(3), 389-412. Konstantopoulos, S.; and Hedges, L.V. (2004). Meta-Analysis. Kapitel 15 in Kaplan (2004), 281-297. Koopmans, T. (1949). Identification Problems in Economic Model Construction. Econometrica 46, 125-144. Kotz, S.; and Johnson, N.L. (1993). Breakthroughs in Statistics. Bd. I: Foundations and Basic Theory. Bd. II: Methodology and Distribution. Spinger, New York.83 Krämer, W. (2004). Statistik: Vom Geburtshelfer zum Bremser der Erkenntnis in den Sozialwissenschaften? Kölner Zeitschrift für Soziologie und Sozialpsychologie. Sonderheft 44/2004, 51-60. Krantz, D.H. (1991). From Indices to Mappings: The Representational Approach to Measurement. Kaptiel 1 in: Brown, D.R.; and Smith, J.E.K. (Hrsg.) Frontiers of Mathematical Psychology. Essays in Honor of Clyde Coombs. Springer, Berlin. Krantz, D.H. (1999). The Null Hypothesis Testing Controversy in Psychology. J. of the American Statistical Association 44, 1372-1381. Krantz, D.H.; Luce, R.D.; Suppes, P.; and Tversky, A. (1971). Foundations of Measurement, Bd. 1. Academic Press, New York, London, San Diego. Krauth, J. (1988). Distribution-free Statisics. An Application-oriented Approach. Huston, J.P. (Hrsg.) Elsevier, Amsterdam: Techniques in the Behavioral and Neural Sciences, Bd. 2. Krauth, J. (2000). Experimental Design. A Handbook and Dictionary for Medical and Behavioral Research. Huston, J.P. (Hrsg.) Elsevier, Amsterdam: Techniques in the Behavioral and Neural Sciences, Bd. 14. Krengel, U. (1973). Mathematische Statistik. Vorlesungsausarbeitung WS 73/74. Universität Göttingen. Krengel, U. (1988). Einführung in die Wahrscheinlichkeitstheorie und Statistik. vieweg, Braunschweig. Kries, J. von (1886). Die Principien der Wahrscheinlichkeitsrechnung. Eine logische Untersuchung. Freiburg. 83
Die S. 1 zitierte Seite des Vorworts findet sich in beiden Bänden
626
Literatur
Krueger, J. (2001). Null Hypothesis Significance Testing. On the Survival of a Flawed Method. American Psychologist 56(1), 16-26. Kruskal, W.H. (1958). Ordinal Measures of Association. Journal of the American Statistical Association 53, 814-861. Kruskal, W.H. (1988). Miracles and Statistics: The Casual Assumption of Independence. Journal of the American Statistical Association 83, 929-940. Kühn, R. und Stamatescu, I.-O. (2007). Learning with Incomplete Information and the Mathematical Structure Behind it. Biological Cybernetics 97(1), 99-112. Kuhn, T.S. (1962 / 1996). The Structure of Scientific Revolution. (1. Aufl.) University of Chicago Press, Chicago, IL. 3. engl. Aufl. 1996. Deutsche Übersetzung: Die Struktur wissenschaftlicher Revolutionen. (19. Aufl.) Suhrkamp, Frankfurt a. M. (2002). Kuhn, T.S. (1992). The Trouble with the Historical Philosophy of Science. In: Kuhn, T.S.; Conant, J; and Haugeland, J. (Hrsg., 2000). The Road since Structure. Philosophical Essays, 1970-1993, with an Autobiographical Interview. University of Chicago Press, Chicago, IL. Kullback, S. (1959). Information Theory and Statistics. Wiley, New York. Kullback, S.; and Leibler, R.A. (1951). On Information and Sufficiency. Annals of Mathematical Statistics 22(1), 79-86. Kullback, S. (1987). The Kullback-Leibler distance (Letter to the Editor). The American Statistician 41(4), 340-341. Kumar, V.; Steinbach, M.; and Tan, P.-N. (2005). Introduction to Data Mining. Addison Wesley. Kyburg, H.E. (1961). Probability and the Logic of Rational Belief. Wesleyan University Press, Middletown, CT. Kyburg, H.E. (1974). The Logical Foundations of Statistical Inference. D, Reidel, Dordrecht. Lad, F. (1996). Operational Subjective Statistical Methods. Wiley, New York. Ladyman, J. (2002). Understanding Philosophy of Science. Routledge, London. Lakatos, I. (1974). Falsifikation und die Methodologie wissenschaftlicher Forschungsprogramme. In: Lakatos, I. und Musgrave, A. (Hrsg.) Kritik und Erkenntnisfortschritt. vieweg, Braunschweig, 89-190. Lang, C. (2005). Theoretische und empirische Aspekte der Prognose wichtiger makroökonomischer Größen. Cuvillier Verlag, Göttingen. Lange, K. (2009). Behavioral Finance. Warum Aktienkurse dem Zufall gehorchen. Spiegel Online, 4. Juli 2009. Siehe www.spiegel.de/wirtschaft/0,1518,634170,00.html Laplace, P.-S. (1812). Théorie Analytique des Probabilités. Courcier Imprimeur, Paris. Latour, B. (1987). Science in Action. How to Follow Scientists and Engineers through Society. Harvard Univ. Press, Cambridge, MA. Latour, B. (2004). Why has Critique run out of Steam? From Matters of Fact to Matters of Concern. Critical Inquiry 30, 225-248. Latour, B.; and Woolgar, S. (1979). Laboratory Life. The Construction of Scientific Facts. Sage Publication, Beverly Hills, CA. Laubichler, M. (2008). Wissenschaftsgeschichte. Doppelkompetenzen gefragt. Faz.Net Wissen vom 28.8.2008. Siehe www.faz.net. Laudan, L. (1981a). Progress and Its Problems: Towards a Theory of Scientific Growth. Univ. of California Press, Berkeley, CA. Laudan, L. (1981b). The Pseudo-Science of Science? Phil. Soc. Sci. 11, 173-198. Laudan, L. (1990). Science and Relativism. Some Key Controversies in the Philosophy of Science. University of Chicago Press, Chicago. Laudan, L. (1996). Beyond Positivism and Relativism: Theory, Method, and Evidence: Theory, Method and Evidence. Westview Press, Boulder, CO. Laughlin, R.B. (2007). Abschied von der Weltformel. Piper, München. Lauritzen, S.L. (1996). Graphical Models. Oxford University Press, Oxford.
Literatur
627
Lauritzen, S.L. (2001). Causal Inference from Graphical Models. Kapitel 2 (S. 63-107) in: Barndorff-Nielsen, O.E.; and Klüppelberg C. (Hrsg.) Complex Stochastic Systems. Chapman & Hall, London. Lauth, B. und Sareiter, J. (2005). Wissenschaftliche Erkenntnis. Eine ideengeschichtliche Einführung in die Wissenschaftstheorie. mentis, Paderborn. Lawson, T. (1989). Realism and Instrumentalism in the Development of Econometrics. Oxford Economic Papers 41, 236-258. Lazarsfeld, P. F.; and Henry, N.W. (1968). Latent Structure Analysis. Houghton & Mifflin, Boston, MA. Leamer, E.E. (1978). Specification Searches. Ad hoc Inference with Nonexperimental Data. Wiley, New York. Leamer, E.E. (1983). Let’s Take the Con out of Econometrics. The American Economic Review 73(1), 133-160. Leamer, E.E. (1985). Sensitivity Analyses would Help. American Economic Review 75, 308-313. Lean, J.L.; and Rind, D.H. (2009). How will Earth’s Surface Temperature change in Future Decades? Geophys. Res. Lett. 36, L15708. Lecam, L. (1977). A Note on Metastatistics or ‘an Essay toward Stating a Problem in the Doctrine of Chances.’ Synthese 36, 133-160. Lecam, L. (1988). Discussion by Professor Lucien LeCam. In: Berger und Wolpert (1988), 182-185.2. Lee, K.L.; McNeer, J.F.; Starmer, C.F.; Harris, P.J.; and Rosati, R.A. (1980). Clinical Judgement and Statistics. Lessons from a Simulated Randomized Trial in Coronary Artery Disease. Circulation 61, 508-515. Lee, Y.J. (1999). Biostatistics and Clinical Trial: a View. J. of Statistical Planning and Inference 78, 349-367. Lehmann, E.L. (1990). Model Specification: The Views of Fisher and Neyman, and later Developments. Statistical Science 5(2), 160-168. Lehmann, E.L. (1993). Introduction to Neyman und Pearson (1933). In: Kotz und Johnson (1993), 67-72. Lehmann, E.L.; and Casella, G. (1997). Theory of Point Estimation. (2. Aufl.) Springer. 1. Aufl. ohne den zweitgenannten Autor 1983 bei Wiley, New York. Lehmann, E.L.; and Scholz, F.W. (1992). Ancillarity. In: Ghosh und Pathak (1992), 32-51. Lenz, H.J. (1994) Kommentar zu Hand (1994). Deconstructing Statistical Questions. J. of the Royal Statistical Society, Ser. A 157, 341-342. Lesaffre, E. (2000) Kommentar zu Senn (2000). The Statistician 49(2), 169. Lewis, D. (1973a) Causation. J. of Philosophy 70, 556-567. Lewis, D. (1973b) Counterfactuals. Harvard University Press, Cambridge, MA. Li, M.; and Vitányi, P. (1997). An Introcudtion to Kolmogorov Complexity and its Applications. (2. Aufl.) Springer, New York. Li, M.; and Vitányi, P. (2008), im Buchhandel verfügbar 2009. An Introduction to Kolmogorov Complexity and its Applications. (3. Aufl.) Springer, New York. 1. Aufl. 1993. Lieberson, S. (1985). Making it Count: The Improvement of Social Research and Theory. Berkeley University Press, Berkeley, CA. Lienert, G.A. und Raatz, U. (1998). Testaufbau und Testanalyse. (6. Aufl.) Beltz PVU, Weinheim. Lindley, D.V. (1956). On a Measure of the Information Provided by an Experiment. The Annals of Mathematical Statistics 27, 986-1005. Lindley, D.V. (1975). The Future of Statistics - A Bayesian 21st Century. Supp. Adv. Appl. Prob. 7, 106-115. Lindley, D.V. (1982a). Scoring Rules and the Inevitability of Probability. International Statistical Review 50, 1-26.
628
Literatur
Lindley, D.V. (1982b). The Role of Randomization in Inference. In: Asquith,P.D.; and Nickles, T. (Hrsg.) PSA 1982. Proceedings of the 1982 biennial meeting of the philosophy of science association, Bd. 2 „Symposia“. Philosophy of Science Association, East Lansing, MI, 431-446. Lindley, D.V. (1995). Kommentar zu Cox (1995). Test 4(2), 242-245. Lindley, D.V. (1999a). Kommentar zu Lindsey (1999). The Statistician 48(1), 33. Lindley, D.V. (1999b). Kommentar (S. 75) zu Bayarri, M.J.; and Berger, J.O. “Quantifying Surprise in the Data.” In: Bernardo et al. (1999), 53-82. Lindley, D.V. (1999b). Kommentar (S. 122-125) zu Bernardo, J.M. “Nested Hypothesis Testing: The BRC Criterion.” In: Bernardo et al. (1999), 101-130. Lindley, D.V. (2000a). On Functional Models for Predicting the Effect of Actions. E-Mail vom 10. Juni 2000. Siehe http://bayes.cs.ucla.edu/BOOK-2K/lindley1.html. Lindley, D.V. (2000b). Philosophy of Statistics. (Mit Diskussion) The Statistician 49(3), 293-337. Lindley, D.V. (2002). Letter to the Editor. Teaching Statistics 24(1), 22-23. Lindley, D.V.; and Novick, M.R. (1981). The Role of Exchangeability in Inference. Annals of Statistics 9, 45-58. Lindsey, J.K. (1999). Some Statistical Heresies. The Statistician 48(1), 1-40. Lingua Franca, the Editors of. (2000). The Sokal Hoax. The Sham that Shook the Academy University of Nebraska Press, Lincoln, NE, and London. Lippe, P. von der (1996). Wirtschaftsstatistik. (5. Aufl.) UTB. Lipton, P. (2004). Inference to the Best Explanation. (2. Aufl.) Routledge, London. Little, R.J.A.; and Rubin, D.B. (2002). Statistical Analysis with Missing Data. (2. Aufl.) Wiley, New York. 1. Aufl. 1987. Liu, L.; and Yager, R.R. (2008). Classic Works of the Dempster-Shafer Theory of Belief Functions. An Introduction. Kapitel 1 in Yager et al. (2008). Locke, J. (1690). An Essay Concerning Human Understanding. T. Basset & E. Mory, London. Google Print erschließt die 13. Aufl. von 1849. Longford, N.T. (1993). Random Coefficient Models. Clarendon Press, Oxford. Longford, N.T. (1999). Selection Bias and Treatment Heterogeneity in Clinical Trials. Statist. Med. 18, 1467-1474. Longford, N.T. (2000). Kommentar zu Senn (2000). The Statistician 49(2), 169-170. Lord, F.M. (1953). On the Statistical Treatment of Football Numbers. The American Psychologist 8, 750-751. Lord, F.M.; and Novick, M.R. (1968). Statistical Theories of Mental Test Scores. AddisonWesley, Reading, MA. Lorenz, E.N. (1963). Deterministic Nonperiodic Flow. Journal of the Atmospheric Sciences 20(2), 130-141. Lorenzen, D.H. (2003). Der rasende Kosmos - Dunkle Energie, die mysteriöse Supermacht im All. [Das Zitat im Text stammt von B. Leibundgut.] Welt der Physik. Siehe www.weltderphysik.de/de/1106.php. (Letzte Aktualisierung 4.11.2003; Aufruf am 5. 6. 2008.) Lorenzen, P. (2000). Lehrbuch der konstruktiven Wissenschaftstheorie. Metzler, Stuttgart. Lorscheid, P. (2009). Statistik-Ausbildung im wirtschaftswissenschaftlichen BachelorStudium: Eine kommentierte Bestandsaufnahme an deutschen Universitäten. Wirtschafts- und Sozialstatistisches Archiv 3(4), 285-298. Luce, R. (1959). On the Possible Psychophysical Laws. Psychological Review 66, 81-95. Luce, R. (2000). Utility of Games and Losses. Measurement-Theoretical and Experimental Approaches. Lawrence Erlbaum Associates, Mahwah, NJ & London. Luce, R.D.; Krantz, D.H.; Suppes, P.; and Tversky, A. (1990). Foundations of Measurement, Bd. 3. Academic Press, New York, London, San Diego. Luce, R. und Tukey, J.W. (1964). Simultaneous Conjoint Measurement: a New Type of Fundamental Measurement. J. of Mathematical Psychology 1, 1-27. Wiederabgedruckt als Kapitel 10 (S. 485-516) in Jones (1986a).
Literatur
629
Luhmann, N. (1998). Die Gesellschaft der Gesellschaft, 2 Bde. (6. Aufl.) Suhrkamp, Frankfurt a. M. Luhmann, N. (2006). Soziale Systeme: Grundriß einer allgemeinen Theorie. Suhrkamp, Frankfurt a. M. 1. Aufl. 1984. Luhmann, N. (2009). Einführung in die Systemtheorie. (4. Aufl., hrsg. von D. Baecker) Carl-Auer Verlag, Heidelberg. Lüst, D. (2009). Ist die Stringtheorie noch eine Wissenschaft? Spektrum der Wissenschaft 5, 34-39. Lyre, H. (2004). Lokale Symmetrien und Wirklichkeit. mentis, Paderborn. MacCallum, R.C.; Zhang, S.; Preacher, K.J.; and Rucker, D.D. (2002). On the Practice of Dichotomization of Quantitative Variables. Psychological Methods 7(1), 19-40. MacKay, D.J.C. (2005) Information Theory, Inference, and Learning Algorithms. (Version 7.2 vom 28.05.2005, 4th printing) Cambridge University Press, Cambridge. Malkiel, B.G. (2008). A Random Walk Down Wall Street. Norton, New York. Mallows, C.L. (1973). Some Comments on Cp . Technometrics 15, 661-675. Mallows, C.L. (1998). The Zeroth Problem. (1997 Fisher Memorial Lecture.) The American Statistician 52, 1-9. Mallows, C.L. (2006). Tukey’s Paper after 40 Years. (Mit Diskussion) Technometrics 48(3), 319-336. Mallows, C.L.; and Tukey, J.W. (1982). An Overview of Techniques of Data Analysis, Emphasizing Its Exploratory Aspects. In: De Oliviera, T. et al. (Hrsg.) Some Recent Advances in Statistics. Academic Press, Inc., New York, 84-136. Zitiert nach Kapitel 27 (S. 891-967) in Jones (1986b). Mallows, C.L.; and Walley, P. (1981). A Theory of Data Analysis? Proc. Bus. Econ. Statist. Sec. of the American Statistical Association, Washington, D. C., 8-14. Mancosu, P. (1997). From Brouwer to Hilbert. The Debate on the Foundations of Mathematics in the 1920s. Oxford Univ. Press, Oxford. Mandel, J. (1964). The Statistical Analysis of Experimental Data. Dover, New York. Manski, C.F. (1999). Identification Problems in the Social Sciences. Harvard Univ. Press, Cambridge, MA. Manski, C.F. (2003). Partial Identification of Probability Distributions. Springer, Berlin. Manski, C.F. (2008). Identification for Prediction and Decision. Harvard Univ. Press, Cambridge, MA. Mantel, J.; and Pepys, J. (2006). Asthma amongst Tristan da Cunha Islanders. Clinical & Experimental Allergy 4(2), 161-170. Mantzavinos, C. (Hrsg., 2009). Philosophy of the Social Sciences. Philosophical Theory and Scientific Practice. Cambridge Univ. Press., Cambridge. Marden, J.I. (2000). Hypothesis Testing: From p Values to Bayes Factors 95, 1316-1320. Marks, R.B. (2006). Die Ursprünge der modernen Welt. Eine globale Weltgeschichte. Theiss, Stuttgart. Marrow, A.J. (2002). Kurt Lewin. Leben und Werk. Beltz Verlag, Weinheim. Maronna, R.; Marting, D.; and Yohai, V. (2006). Robust Statistics. Theory and Methods. Wiley. Marshall, A.W.; Meza, J.C.; and Olkin, I. (2001). Can Data Recognize Its Parent Distribution? J. Comp. Grap. Stat. 10(3), 555-580. Martin, G. (1984). Munchausen’s Statistical Grid, which makes all Trials Significant. The Lancet 324, 1457. Martin-Löf, P. (1966). The Definition of Random Sequences. Information and Control 9, 602-619. Martin-Löf, P. (1974). The Notion of Redundancy and its use as a Qualitative Measure of the Discrepancy between a Statistical Hypothesis and a Set of Observational Data. Scand. Journal of Stat. 1, 3-18. Marx, K. (1972a). Zur Kritik der Politischen Ökonomie. In: Marx-Engels-Werke, Bd. 13. Dietz Verlag, Berlin.
630
Literatur
Marx, K. (1972b). Lohn, Preis und Profit. Vortrag, gehalten auf den Sitzungen der 1. Internationale am 20. und 27. Juni 1865. In: Marx-Engels-Werke, Bd. 16. Dietz Verlag, Berlin. Mason, W.M.; and Fienberg, S.E. (Hrsg., 1985). Cohort Analysis in Social Research. Beyond the Identification Problem. Springer, New York. √ Mattner, L. (2009). One optional observation inflates α by 100/ n per cent. Metrika DOI: 10.1007/s00184-009-0264-1. Maxwell, J.C. (1850). Letter to Lewis Campbell. Abgedruckt in: Campbell, L., und Garrett, W. (1881). The Life of James Clerk Maxwell. Macmillan. Mayo, D.G. (1996). Error and the Growth of Experimental Knowledge. The University of Chicago Press, Chicago, IL. McCullagh, P.; and Nelder, J.A. (1990). Generalized Linear Models. (2. Aufl.) Chapman and Hall, London: Monographs on Statistics and Applied Probability 37. Siehe auch Kotz und Johnson (1993: Bd. II, 543-564). McPherson, G. (1989). The Scientist’s View of Statistics - a Neglected Area. J. of the Royal Stat. Society 152, 221-240. Meehl, P.E. (1967). Theory-Testing in Psychology and Physiscs: a Methodological Paradox. Philosophy of science 34, 103-115. Wiederabgedruckt in Morrison und Henkel (1970), 252-266. Meehl, P.E. (1978). Theoretical Risks and Tabular Asterisks: Sir Karl, Sir Ronald, and the Slow Progress of Soft Psychology. J. of Consulting and Clinical Psychology 46, 806-834. Meehl, P.E. (1990). Apraising and Amending Theories: The Strategy of Lakatosian Defence and Two Principles that Warrant it. Psychological Inquiry 1(2), 108-141. Meehl, P.E. (1997). The Problem is Epistemology, not Statistics: Replace Confidence Intervals and Quantify Accuracy of Risky numerical Predictions. In: Harlow et al. (1997), 393-425. Meehl, P.E.; and Waller, N.G. (2002). The Path Analysis Controversy: a New Statistical Approach to Strong Appraisal of Verisimilitude. (Mit Diskussion) Psychological Methods 7(3), 283-300. Meek, C.; and Glymour, C. (1994). Conditioning and Intervening. Brit. J. Phil Sci. 45, 1001-1021. Menger, K. (1955). Calculus. A Modern Approach. Ginn, IL. (Wiederaufgelegt 2007, Dover Publ.) Menger, K. (1960). A Counterpart to Occam’s Razor in Pure and Applied Mathematics Ontological Uses. Synthese 12, 415-428. Menges, G. (1982). Die Statistik. Zwölf Stationen des statistischen Arbeitens. Gabler, Wiesbaden. Merk, R.; Klippstein, G.; Kreibohm, H.; Busch, H.W.; Kauther, H. und Zülka, J. (2005). Bürokratieabbau und Bürokratiekostenmessung in der Bundesrepublik Deutschland – Strategien und Modelle unter besonderer Berücksichtigung ausländischer Erfahrungen. Fachhochschule des Mittelstandes, Bielefeld. Merton, R.K. (1942). The Normative Structure of Science. J. of Legal and political sociology 1, 115-126. Wiederabgedruckt in Merton (1973): The Sociology of Science, Univ. of Chicago Press, Chicago, IL, 267-278. Zitiert nach dem erneuten Abdruck als Kapitel 1 (S. 3-16) in Merton (1982): Social Research and the practicing professions. Abt Books, Cambridge (MA). Hrsg. und mit einem Vorwort versehen von Rosenblatt, A. und Gieryn, T.F. Merton, R.K. (1948). The Self-Fulfilling Prophecy. The Antioch Review 8, 193-210. Merton, R.K. (1968). The Matthew Effect in Science. Science 159, 59–63. Merton, R.K. (1983). Auf den Schultern von Riesen. Suhrkamp, Frankfurt a. M. Michell, J. (1986). Measurement Scales and Statistics: A Clash of Paradigms. Psychological Bulletin 100, 398-407. Michell, J. (1997). Quantitative Sciene and the Definition of Measurement in Psychology. British J. of Psychology 88, 355-383.
Literatur
631
Michell, J. (1999). Measurement in Psychology. A Critical History of a Methodological Concept. Cambridge University Press, Cambridge. Michell, J. (2000). Normal Science, Pathological Science and Psychometrics. Theory & Psychology 10(5), 639-667. Michell, J. (2002). Steven’s Theory of Scales of Measurement and Its Place in Modern Psychology. Australien J. of Psychology 54(2), 99-104. Michell, J. (2003a). Epistemology of Measurement: the Relevance of its History for Quantification in the Social Sciences. Social Science Information 42 (4), 515-534. Michell, J. (2003b). The Quantitative Imperative: Positivism, Naive Realism and the Place of Quantitative Methods in Psychology. (Mit Diskussion) Theory & Psychology 13(1), 5-31. Michell, J. (2004). Item Response Models, Patholgical Science and the Shape of Error: Reply to Borsboom and Mellenbergh. Theory & Psychology 14 (1), 121-129. Michell, J. (2005). The Logic of Measurement: A Realist Overview. Measurement 38 (4), 285-294. Mill, J.S. (1843). A System of Logic, Ratiocinative and Inductive. London. Zitiert nach der Ausgabe von Harper & Brothers, New York, 1859. Miller, A.J. (1995). Kommentar zu Chatfield (1995). J. of the Royal Statistical Society A 158(3), 460. Miller, D. (2006). Out Of Error: Further Essays On Critical Rationalism. Ashgate Publishing, Hants, UK. Miller, I; and Miller, M. (1994). Statistical Methods for Quality: With Applications to Engineering and Management. Prentice Hall, Upper Saddle River, NJ. Minkler, J. (Hrsg., 2000). Logic-Based Artificial Intelligence. Springer. Mirowski, P. (1989). More Heat than Light. Economics as Social Physics, Physics as Nature’s Economics. Cambridge University Press, Cambridge. Mises, R. von (1919). Wahrscheinlichkeit, Statistik und Wahrheit. (4. Aufl. 1972) Springer, Wien. Moonesinghe, R.; Khoury, M.J.; and Janssens, A.C.J.W. (2007). Most Published Research Findings Are False — But a Little Replication Goes a Long Way. PLoS Medicine 4(2), 218-221. Moore, D.S. (1990). Kommentar zu Shafer (1990b). Statistical Science 5(4), 454-456. Morgan, A. de (1838). An Essay on Probabilites, and on Their Application to Life Contingencies and Insurance Offices. Longman, London. Morgan, S.L.; and Winship, C. (2007) Counterfactuals and Causal Inference. Cambridge University Press, Cambridge. Morrison, D.E. and Henkel, R.E. (Hrsg., 1970). The Significance Test Controversy Aldine Publishing Company, Chicago, IL. Mosteller, F.; and Tukey, J.W. (1986). Data Analysis, Including Statistics. Kapitel 15 (S. 601-720) in Jones (1986b). Moulines, C.U. (1997). Zur Typologie wissenschaftlicher Entwicklung nach strukturalisitischer Deutung. In: Hubig (1997), 397-410. Mühlhölzer, F. (1996). Symmetry and Invariance. In: Balzer, W., Moulines, C.U. (Hrsg.) Structuralist Theory of Science. De Gruyter, Berlin. Muir, H. (2007). Lightning Balls created in the Lab. New Scientist 2586, 12. Müller, P.H. (Hrsg., 1991). Wahrscheinlichkeitsrechnung und Mathematische Statisitik. Lexikon der Stochastik. (5. Aufl.) Akademie Verlag, Berlin. Murphy, J.J. (2006). Technische Analyse der Finanzmärkte. FinanzBuch Verlag, München. Murphy, S.A.; and van der Vaart, A.W. (2000). On Profile Likelihood. J. of the American Statistical Association 95, 449-465. Musgrave, A. (1981). Unreal Assumptions in Economic Theory: The F Twist Untwisted. Kyklos 34(3), 377-387. Nagel, E. (1979). The Structure of Science: Problems in the Logic of Scientific Explanation (2. Aufl.) Hackett Publishing Company, Indianapolis, IN.
632
Literatur
Nagel, E. (1982). Teleology Revisited and Other Essays in the Philosophy and History of Science. Columbia University Press, New York. Nagel, T. (2004). Concealment and Exposure & Other Essays. Oxford University Press, Oxford. Narens, L. (1985). Abstract measurement theory. MIT Press, London. Narens, L. (2002). Theories of Meaningfulness. Lawrence Erlbaum Associates, London. Nelder, J.A. (1994). The Statistics of Linear Models: Back to Basics. Statistics and Computing 4, 221-234. Nelder, J.A. (1999). Statistics for the Millenium. (Mit Diskussion.) The Statistician 48(2), 257-269. Nelson, R.B. (2006). An Introduction to Copulas. 2. (Aufl.) Springer, Berlin: Springer Series in Statistics. Nester, M.R. (1996). An Applied Statistician’s Creed. Appl. Statist. 45(4), 401-410. Neumann, J. von (1947). The Mathematician. In: Heywood, R. B. (Hrsg.) The Works of the Mind. University of Chicago Press, Chicago, 180-196. Neumann, J. von; and Morgenstern, O. (1944). Theory of Games and Economic Behaviour. Princeton University Press, Princeton, NJ. Newton, I. (1687). Philosophiae Naturalis Principia Mathematica. London. Neyman, J. (1923). Sur les applications de la thar des probabilities aux experiences agaricales: Essay des principles. In Teilen 1990 wiederabgedruckt als On the Application of Probability Theory to Agricultural Experiments. Essay on Principles, Section 9, in: Statistical Science 5, 465-480. Neyman, J. (1934). On the Two Different Aspects or the Representative Method. J. of the Royal Statistical Society 47, 558-625. Neyman, J. (1950). First Course in Probability and Statistics. Henry Holt and Company, New York. Neyman, J. (1952). Lectures and Conferences on Mathematical Statistics and Probability. (2. Aufl.) US Department of Agriculture, Washington D.C. Neyman, J. (1955). The Problem of Inductive Inference. Communications on Pure and Applied Mathematics VIII, 13-46. Neyman, J. (1957). Current Problems of Mathematical Statistics. In: Proc. Internat. Congress Mathematicians (Amsterdam, 1954) 1, 349–370. Noordhoff & North-Holland. Neyman, J. (1961). The Silver Jubilee of My Dispute with Fisher, Journal of the Operations Research Society of Japan, 3, 145-154. Neyman, J. (1967). A Selection of Early Statistcal Papers of J. Neyman. University of Berkeley Press, Berkeley, CA. Neyman, J. (1977). Frequentist Probability and Frequentist Statistics. Synthese 36, 97-131. Neyman, J.; and Pearson, E.S. (1933). On the Problem of the Most Efficient Tests of Statistical Hypotheses. Philosoph. Trans. Royal Soc. London A 231, 289-337. Zitiert nach Kotz und Johnson (1993), 73-108. Neyman, J.; and Scott, E.L. (1948). Consistent Estimates based on Partially Consistent Observations. Econometrika 16, 1-32. Nickerson, R.S. (2000). Null Hypothesis Significance Testing: A Review of an Old and Continuing Controversy. Psychological Methods 5(2), 241-301. Niederée, R. (1994). There is More to Measurement than just Measurement: Measurement Theory, Symmetry and Substantive Theorizing. J. of Math. Psych. 38, 527-594. Nield, T. (2008). Superkontinent. Das geheime Leben unseres Planeten: Eine abenteuerliche Reise durch die Erdgeschichte. Antje Kunstmann Verlag, München. Nikouline, M.; and Solev, V. (2007). Kolmogorov’s ε-entropy and the Problem of Statistical Estimation. Kapitel 6 in Charpentier et al. (2007), 109-137. Nikulin, M.S. (2002). Neyman Structure. In: Hazewinkel, M. (Hrsg.) Encyclopedia of Mathematics. Springer. Siehe http://eom.springer.de/N/n066610.htm Noether, E. (1918). Invariante Variationsprobleme. Nachrichten v. d. Gesell. der Wiss. zu Göttingen, 235-257.
Literatur
633
Novick, M.R. (1994). The Axioms and Principle Results of Classical Test Theory. J. of Math. Psych. 3, 1-18. Nozick, R. (2001). Invariances: The Structure of the Objective World. Belnap Press, Cambridge MA. Numagami, T. (1998). The Infeasibility of Invariant Laws in Management Studies: A Reflective Dialogue in Defense of Case Studies. Organization Science 9(2), 2-15. Nye, M.J. (1972). Molecular Reality: A Perspective on the Scientific Work of Jean Perrin. Watson Publ. Int. O’Hagan, A. (1995). Kommentar zu Chatfield (1995). J. of the Royal Statistical Society A 158(3), 460. Oakes, M. (1986). Statistical Inference: A Commentary for the Social and Behavioral Sciences. Wiley, New York. Okasha, S. (2002). Philosophy of Science. A very Short Introduction. Oxford University Press, Oxford. Olson, D.L.; and Delen, D. (2008). Advanced Data Mining Techniques. Springer. Ornstein, D.S. (1989). Ergodic Theory, Randomness, and “Chaos”. Science 243, 182-187. Ornstein, D.S.; and Weiss, B. (1991). Statistical Properties of Chaotic Systems. Bull. American Math. Soc. (New Series) 24, 11-116. Osherson, D.N., Smith, E.E., Wilkie, O., Lopez, A.; and Shafir, E. (1990). Category-Based Induction. Psychological Review 97, 185-200. Ottenbacher, K.J. (1996). The Power of Replications and Replications of Power. The American Statistician 50(3), 271-275. Oxford Centre for Evidence-based Medicine. Levels of Evicence (March 2009). Website, Aufruf am 07. 09. 2009. Siehe www.cebm.net/index.aspx?o=1025 Pagels, H.R. (1985). Perfect Symmetry. The Search for the Beginning of Time. Simon and Schuster, New York. Parzen, E. (o. J.) Data Mining, Statistical Methods Mining and History of Statistics. Preprint: Department of Statistics, Texas A & M Univ. Siehe www.stat.tamu.edu/ ftp/pub/eparzen/future.pdf und www.stat.tamu.edu/people/faculty/eparzen.html/ Pascal, B. (2000). Oeuvres complètes (2 Bde.) Gallimard, Paris: Bibliothèques de la Pléiade. Pawitan, Y. (2001). In all Likelihood: Statistical Modelling and Inference Using Likelihood. Clarendon Press, Oxford. Pearl, J. (1995). Causal Diagrams for Empirical Research. (Mit Diskussion) Biometrika 82(4), 669-710. Pearl, J. (2000a). Causality. Models, Reasoning and Inference. Cambridge University Press. Pearl, J. (2000b). Kommentar zu Dawid (2000). Journal of the American Statistical Association 95, 428-431. Pearl, J. (2009a). Causality. Models, Reasoning and Inference. (2. Aufl.) Cambridge University Press. Pearl, J. (2009b). Causal Inference in Statistics: An Overview. Statistics Surveys 3, 96-146. Pearson, E.S. (1938). Student as Statistician. Biometrika 30, 210-250. Pearson, E.S. (1955). Statistical Concepts and their Relation to Reality. J. of the Royal Statistical Society, Ser. B 17(2), 204-207. Pearson, E.S. (1962). Some Thoughts on Statistical Inference. Ann. Math. Stat. 33(2), 394-403. Wiederabgedruckt in: The selected papers of E. S. Pearson (1966). Cambridge University Press, Cambridge. Pearson, K. (1892). The Grammar of Science. Walter Scott, London. Revidierte Auflagen 1900 und 1911. Pearson, K. (1935). Statistical Tests. Letter to Nature 136, 550. Pearson, K.; Lee, A.; and Bramley-Moore, L. (1899). Genetic (Reproductive) Selection: Inheritance of Fertility in Man. Phil. Trans. fo the Royal Society, Ser. A 73, 534-539.
634
Literatur
Peirce, C.S. (1878). The Probability of Induction. Popular Science Montly. Wiederabgedruckt in: Newman, J.R. (Hrsg., 1956) The World of Mathematics 2. Simon and Schuster, New York, 1341-1354. Penston, J. (2003). Fiction and Fantasy in Medical Research. The Large-Scale Randomised Trial. The London Press, London. Perrin, J. (1990). Atoms. Ox Bow Press, Woodbridge, CT. Petersohn, H. (2005). Data Mining. Verfahren, Prozesse, Anwendungsarchitektur. Oldenbourg. Peto, R.; Pike, M.C.; Armitage, P.; Breslow, N.E.; Cox, D.R.; Howard, S.V.; Mantel, N.; McPherson, K.; Peto, J.; and Smith, P.G. (1976). Design and Analysis of Randomized Clinical Trials requiring prolonged Oberservation of each Patient, I: Introduction and Design. British J. of Cancer 34, 585-612. Pfanzagl, J. (1968). Theory of Measurement. Physica Verlag, Würzburg. Pitman, E.J.G. (1957). Statistics and Science. J. of the American Statistical Association 52, 322-330. Planck, M. (1913). Rektoratsrede vom 15.10.1913. In: Kretzschmar, H. (1967). Max Planck als Philosoph. E. Reinhardt Verlag, München, Basel. Plickert, P. (2008). Konjunkturprognosen sind besser als ein Münzwurf. Herdentrieb der Ökonomen. Faz.Net, 25. Juli 2008. Pocock, S.J.; and Simon, R. (1975). Sequential Treatment Assignment with Balancing for Prognostic Factors in the Controlled Clinical Trial. Biometrics 31, 103-115. Pogue, J.; and Yusuf, S. (1998). Overcoming the Limitations of Current Meta-Analysis of Randomised Controlled Trials. The Lancet 351, 47-52. Pöppe, C. (2007) Was ist wirklich rational? Spektrum der Wissenschaft 11, 98-103. Popper, K.R. (1935). Logik der Forschung. Mohr Siebeck, Tübingen. Popper, K.R. (1946). The Open Society and Its Enemies. Routledge, London. Popper, K.R. (1959). The Propensity Interpretation of Probability, British Journal of the Philosophy of Science 10, 25-42. Popper, K.R. (1974). Objektive Erkenntnis. (2. Aufl.) Hoffmann und Campe, Hamburg. Popper, K.R.; and Miller, D.W. (1983). A Proof of the Impossibility of Inductive Probability. Nature 302, 687-688. Post, H.R. (1971). Correspondence, Invariance and Heuristics: In Praise of Conservative Induction. Studies in history and philosophy of science 2(3), 213-255. Pratt, J.W. (1976). A Discussion of the Question: of what use are Tests of Hypotheses and Tests of Significance? Comm. in Statistics - Theory and Methods 5(8), 779-787. Pratt, J.W.; and Schlaifer, R. (1984). On the Nature and Discovery of Structure. J. of the American Statistical Association 79, 9-33. Pratt, J.W.; and Schlaifer, R. (1988). On the Nature and Discovery of Law. J. of Econometrics 39, 23-52. Prechter, R.; und Frost, A.J. (2003). Das Elliott-Wellen-Prinzip. Schlüssel für Gewinne am Markt: Der Schlüssel zu einem besseren Börsenverständnis. FinanzBuch Verlag, München. Pukelsheim, F. (1993). Optimal Design of Experiments. Wiley, New York. Quenouille, M.H. (1949). Approximate Tests of Correlation in Time Series. J. of the Royal Statistical Society, Ser. B, 11, 18-44. Quine, W.V.O. (1980). From a Logical Point of View. Taschenbuchausgabe der 2. Aufl. 1961 mit einem zusätzlichen Vorwort. Harvard University Press, Cambridge, MA. Ramamoorthi, R.V.; and Ghosh, J.K. (2003). Bayesian Nonparametrics. Springer, Berlin: Springer Series in Statistics. Ramsey, F.P. (1926). Truth and Probability. In: Ramsey (1931), The Foundations of Mathematics and other Logical Essays, ch. VII (S. 156-198), hrsg. von Braithwaithe, R.B. Kegan, Paul, Trench, Trubner & Co., London. Rand, K.L.; and Ilard, S.S. (2005). Toward a Consilient Science of Psychology. J. of Clinical Psychology 61(1), 7-20.
Literatur
635
Rao, C.R. (1945). Information and Accuracy in the Estimation of Parameters. Bull. Calcutta Math. Soc. 37, 81-91. Wiederabgedruckt in Kotz und Johnson (1993: Bd. I, 235-248). Rao, C.R. (1992). R. A. Fisher: The Founder of Modern Statistics. Statistical Science 7, 34-48. Rao, C.R. (1995). Was ist Zufall? Statistik und Wahrheit. Prentice Hall, NJ. Rao, C.R. (2001). Linear Statistical Inference and its Applications. (2. Aufl.) Wiley Interscience. 1. Aufl. 1965. Rasch, D.; Herrendörfer, G. und Bock, J. (1978). Verfahrensbibliothek: Versuchsplanung und Auswertung. Deutscher Landwirtschaftsverlag, Berlin. Reichenbach, H. (1947). Rationalismus und Empirismus: Eine Untersuchung der Wurzeln philosophischen Irrtums. Vortrag, gehalten am 30. Dezember 1947. Zitiert nach: Kamalah und Reichenbach (1977), 451-465. Reichenbach, H. (1949). The Theory of Probability. An Inquiry into the Logical and Mathematical Foundations of the Calculus of Probabilities. (2. Aufl.) University of California Press, Berkeley, CA. Reichenbach, H. (1951). The Rise of Scientific Philosophy. University of California Press, Berkeley, CA. Reichenbach, H. (1956). The Direction of Time. University of California Press, Berkeley, CA. Reichenbach, H. (1968). Der Aufstieg der wissenschaftlichen Philosophie. (2. Aufl.) Vieweg, Braunschweig. 1. deutsche Aufl. 1953. Zitiert nach: Kamalah und Reichenbach (1977), 85-450. (In der 2. deutschen Auflage entspricht dies den Seiten 5-370.) Reid, C. (1982). Neyman - From Life. Springer, New York. Reid, N. (1995). The Roles of Conditioning in Inference. Statistical Science 10(2), 138-199. Rennie, D.; and Flanagin, A. (1992). Publication Bias - The Triumph of Hope over Experience. Journal of the American Medical Association 267, 411-412. Rényi, A. (1972). Dialoge über Mathematik. VEB Deutscher Verlag der Wissenschaften, Berlin. Resnick, S.I. (2002). Adventures in Stochastic Processes. (2. Aufl.) Birkhäuser, Boston. Rissanen, J. (1983). A Universal Prior for Integers and Estimation by Minimum Desription Length. Annals of Statistics 11(2), 416-431. Rissanen, J. (1989). Stochastic Complexity in Statistical Inquiry. World Scientific, Singapore: Series in Computer Science 15. Rissanen, J. (2007). Information and Complexity in Statistical Modelling. Springer, New York. Robbins, H. (1956). An Empirical Bayes Approach to Statistics. In: Proceedings of the Third Berkeley Symposium on Mathematical Statistics 1, 157-163. University of California Press, Berkeley, CA. Wiederabgedruckt in Kotz und Johnson (1993: Bd. I, 388-394). Robbins, H. (1975). Wither Mathematical Statistics? Suppl. Adv. Appl. Prob. 7, 116-121. Robert, C.P. (2007). The Bayesian Choice. From Decision-Theoretic Foundations to Computational Implementation. (2. Aufl.) Springer, Berlin. Robert, C.P.; and Casella, G. (2004). Monte Carlo Statistical Methods. (2. Aufl.) Springer, Berlin. Roberts, H.V. (1990). Applications in Business and Economic Statistics: Some Personal Views. Statistical Science 5, 372-390. Robins, J.M.; and Greenland, S. (2000). Kommentar zu Dawid (2000). Journal of the American Statistical Association 95, 431-435. Rodríguez, C. (2005) The ABC of model selection: AIC, BIC and the New CIC. In: Knuth, K. (Hrsg.) Bayesian Inference and Maximum Etnropy in Science and Engineering: 25th international Workshop at San José, California. August 7-12, 2005. AIP Conference Proceedings 803, 80-87. Rose, U. (2004). Thomas S. Kuhn: Verständnis und Mißverständnis. Zur Geschichte seiner Rezeption. Dissertation, Universität Göttingen.
636
Literatur
Rosenbaum, P.R. (1995). Kommentar zu Pearl (1995). Biometrika, 82(4), 698-699. Rosenbaum, P.R. (2002). Observational Studies. (2. Aufl.) Springer, New York: Springer Series in Statistics. 1. Aufl. 1995. Rosenbaum, P.R.; and Rubin, D.B. (1983). The Central Role of the Propensity Score in Observational Studies for Causal Effects. Biometika, 70(1), 41-55. Rosenbaum, P.R.; and Rubin, D.B. (1985). Constructing a Control Group Using Multivariate Matched Sampling Methods that Incorporate the Propensity Score. The American Statistician, 39, 33-38. Rosenberg, A. (2005). Philosophy of Science. A Contemporary Introduction. (2. Aufl.) Routledge, New York. 1. Aufl. 2000. Rosenberger, W.F.; and Lachin, J.M. (2002). Randomization in Clinical Trials. Theory and Practice. Wiley, New York: Wiley Series in Probability and Statistics. Rosenthal, R. (1966). Experimenter Effects in Behavioral Research. Appleton, New York. Rosenthal, R. (1978). Combining Results of Independent Studies. Psychological Bulletin 85, 185-193. Rosenthal, R. (1979). The ‘File Drawer Problem’ and Tolerance for Null Results. Psychological Bulletin 86, 638-641. Rosenthal, R. (1981). Pavlov’s Mice, Pfungst’s Horse, and Pygmalion’s PONS: some Models for the Study of Interpersonal Expectancy Effects. Annals of the New York Academy of Science 364, 182-198. Rosenthal, R. (1990). Replication in Behavioral Research. In: Neulep, J. W. (Hrsg.) Handbook of Replication Research in the Behavioral and Social Sciences. Sage Publ., Newbury Park, CA, 1-30. Rosenthal, R.; and Jacobson, L. (1992). Pygmalion in the Classroom. Irvington, New York. Rosnow, R.L.; and Rosenthal, R. (1989). Statistical Procedures and the Justification of Knowledge in Psychological Science. American Psychologist 44, 1276-1284 Rost, J. (2004). Lehrbuch Testtheorie - Testkonstruktion. (2. Aufl.) Huber, Bern. Rothman, K.J. (Hrsg., 1988). Causal Inference. Epidemiology Resources Inc., Chestnut Hill, MA. Rothman, K.J. (2008). No Adjustments Are Needed for Multiple Comparisons. Epidemiology 1(1), 43-46. Rothman, K.J.; Greenland, S.; and Lash, T.L. (2008). Modern Epidemiology. (3. Aufl.) Lippincott Williams & Wilkins. Rott, H. (1998). Making up One’s Mind: Foundations, Coherence, Nonmonotinicity. Oxford. Royall, R.M. (1986). The Effect of Sample Size on the Meaning of Significance Tests. American Statistician 40(4), 313-315. Royall, R.M. (1991). Ethics and Statistics in Randomized Clinical Trials. (Mit Diskussion) Statistical Science 6(1), 52-88. Royall, R.M. (1997). Statistical Evidence. A Likelihood Paradigm. Chapman & Hall, London. Royall, R.M. (2000). On the Probability of Observing Misleading Statistical Evidence. (Mit Diskussion) J. of the American Statistical Association 95, 760-780. Rubin, D.B. (1978). Bayesian Inference for Causal Effects: The Role of Randomization. Annals of Statistics 6, 34-58. Rubin, D.B. (1990). Comment: Neyman (1923) and Causal Inference in Experiments and Observational Studies. Statistical Science 5(4), 472-480. Rubin, D.B. (1991). Practical Implications of Modes of Statistical Inference for Causal Effects and the Critical Role of the Assignment Mechanism. Biometrics 4, 1213-1234. Zitiert nach Kapitel 24 in Rubin (2006), 402-425. Rubin, D.B. (1993). The Future of Statistics. Statistics and Computing 3, 204. Rubin, D.B. (2004). Multiple Imputation for Nonresponse in Surveys. Nachdruck in der Wiley Classics Library, New York. 1. Aufl. 1987. Rubin, D.B. (2006). Matched Sampling for Causal Effects. Cambridge University Press, Cambridge.
Literatur
637
Rubin, D.B.; and Thomas, N. (1992). Affinely Invariant Matching Methods with Ellipsoidal Distributions. The Annals of Statistics 20, 1079-1093. Wiederabgedruckt als Kapitel 15 in Rubin (2006), 235-248. Rubin, H. (1971). Occam’s Razor needs New Blades. (Mit Diskussion) In: Godambe and Sprott (1971), 372-377. Ruelle, D. (1992). Zufall und Chaos. Springer Verlag, Berlin, Heidelberg. Ruppert, D.; Wand, M.P.; and Carroll, R.J. (2003). Semiparametric Regression. Cambridge University Press, Cambridge. Ruspini, E. (1987). Epistemic Logics, Probability, and the Calculus of Evidence. Proceedings of the 10th International Joint Conference on Artifical Intelligence IJCAI) Elsevier, 924-931. Wiederabgedruckt als Kapitel 17 in Yager et al. (2008), 435-448. Russ, H.G. (2004). Wissenschaftstheorie, Erkenntnistheorie und die Suche nach Wahrheit. Kohlhammer, Stuttgart. Russell, B. (1897). On the Relation of Number and Quantity. Mind 6, 346-341. Russell, B. (1903). Principles of Mathematics. Cambridge University Press, Cambridge. Russell, B. (1913). On the Notion of Cause. Proceedings of the Aristotelian Society (New Series) 13, 1-26. Rust, J. (1997). Using Randomization to Break the Curse of Dimensionality. Econometrica 65(3), 487-516. Sackett, D.L.; and Oxman, A.D. (2003). HARLOT plc: An Amalgamation of the World’s two oldest Professions. British Medical Journal 327, 1442-1445. Saint-Mont, U. (2000). Kontexte als Modelle der Welt. Subjektive Erkenntnis- und Wissenschaftstheorie. Duncker & Humblot, Berlin: Erfahrung und Denken, Bd. 85. Saint-Mont, U. (2002). Das Spiel der Interessen. Peter Lang, Europäischer Verlag der Wissenschaften, Frankfurt a. M.: Koinon, Sozialwissenschaftliche interdisziplinäre Studien, Bd. 6. Saint-Mont, U. (2009). Statistik im Forschungszirkel. Information, Induktion und Invarianz. Habilitationsschrift, Universität Trier. Saint-Mont, U. (2010). Randomization Does not Help Much. Eingereicht. Salmon, W.C. (1989). Four Decades of Scientific Explanation. University of Minnesota Press, Minnesota, MN. Salsburg, D.S. (1973). Sufficiency and the Waste of Information. The American Statistician 27(4), 152-154. Salsburg, D.S. (1985). The Religion of Statistics as practiced in Medical Journals. The American Statistician 39(3), 220-223. Samuelson, P.A. (1963). Comments on Ernest Nagel’s ‘Assumptions in Economic Theory’. American Economic Review (May). Wiederabgedruckt in: Stiglitz, J. E. (Hrsg., 1966). The Collected Scientific Papers of Paul A. Samuelson. MIT Press, Cambridge, MA 2(129), 1772-1778. Sarstedt, M. (2006). Sample- and Segment-Size Specific Model Selection in Mixture Regession Analysis. A Monte Carlo Simulation Study. Discussion Paper No. 1252. Münchener Wirtschaftswissenschaftliche Beiträge (BWL). Siehe http://epub.ub.unimuenchen.de/1252/ Satelli, A.; Tarantola, S.; Campolongo, F.; and Ratto, M. (2004). Sensitivity Analysis in Practice: A Guide to Assessing Scientific Models. Wiley, Hoboken. Savage, C.W. und Ehrlich, P. (1992). Philosophical and Foundational Issues in Measurement Theory. Lawrence Erlbaum, Hillsdale, NJ. Savage, L.J.H. (1954). The Foundations of Statistics. Wiley, New York. Savage, L.J.H. (1961). The Subjective Basis of Statistical Practice. Technical Report, Department of Statistics, University of Michigan, Ann Arbor, MI. Savage, L.J.H. (1972). The Foundations of Statistics. (2. Aufl.) Dover, New York. 1. Aufl. 1954. Savage, L.J.H. (1976). On Rereading R. A. Fisher. (Mit Diskussion) Annals of Statistics 4, 441-500.
638
Literatur
Sawilowsky, S.S. (2002). Fermat, Schubert, Einstein, and Behrens–Fisher: The Probable Difference Between Two Means When σ12 = σ22 . Journal of Modern Applied Statistical Methods, 1(2), 461-472. Scargle, J.D. (2000). Publication Bias: The “File-Drawer” Problem in Scientific Inference. J. of Scientific Exploration 14(1), 91-106. Scheines, R.; Spirtes, P.; Glymour, C.; Meek, C.; and Richardson, T. (1998). The TETRAD Project: Constraint Based Aids to Causal Model Specification und Reply to Comments. Multivariate Behavioral Research 33(1), 65-117 und 165-180. Schirach, F. von (2009). Verbrechen. (9. Aufl.) Springer, Wien. Schiller, F. (1987). Sämtliche Werke, Band I. (8. Aufl.) Wissenschaftliche Buchgesellschaft, Darmstadt. Schilling, R. (2005). Measures, Integrals and Martingales. Cambridge University Press, Cambridge. Schleichert, H. (1966). Elemente der physikalischen Semantik. Oldenbourg, Wien und München. Schlick, M. (1979). Allgemeine Erkenntnislehre. Suhrkamp, Frankfurt a. M. Wiederabdruck der 2. Aufl., erschienen im Verlag J. Springer, Berlin (1925). Schlick, M. (1986). Die Probleme der Philosophie in ihrem Zusammenhang. Vorlesung aus dem Wintersemester 1933/34. (Mulder, H.; Kox, A.J. und Hegelsmann, R., Hrsg.) Suhrkamp, Frankfurt a. M. Schlittgen, R; und Streitberg, B.H.J. (2001). Zeitreihenanalyse. (9. Aufl.) Oldenbourg, München. Schmidt, F. (1992). What Do Data Really Mean? Research Findings, Meta-Analysis, and Cumulative Knowledge in Psychology. American Psychologist 47, 1173-1181. Schmidt, F. (1996). Statistical Signifcance Testing and Cumulative Knowledge in Psychology: Implications for Training of Researchers. Psychological Methods 1(2), 115-129. Schmitt, S. (2007). Golfstrom. Böses Bauchgefühl des Forscher-Orakels. Spiegel Online, 2. 7. 2007. Siehe www.spiegel.de/wissenschaft/natur/0,1518,491943,00.html Schmutzer, E.; und Schütz, W. (1989). Galileo Galilei. (6. Aufl.) Teubner, Leipzig. Schönemann, P.H. (1994). Measurement: The Reasonable Ineffectiveness of Mathematics in the Social Sciences. In: Borg, I.; and Mohler, P. (Hrsg.) Trends and Perspectives in Empirical Social Research De Gruyter, Berlin, 149-160. Schülein, J.A.; und Reitze, S. (2002). Wissenschaftstheorie für Einsteiger. WUV Facultas, Wien. Schurz, G. (2006). Einführung in die Wissenschaftstheorie. Wissenschaftliche Buchgesellschaft, Darmstadt. Schurz, G. (2007). Wissenschaftliche Erklärungen. Kapitel 3 in Bartels und Stöckler (2007), 69-88. Schwarz, G. (1978). Estimating the Dimension of a Model. Annals of Statistics 6(2), 461464. Sedlmeier, P. (1996). Jenseits des Signifikanztest-Rituals: Ergänzungen und Alternativen. Methods of Psychological Research Online 1(4), 41-63. Sedlmeier, P.; and Gigerenzer, G. (1989). Do Studies of Statistical Power have an Effect on the Power of Studies? Psychological Bulletin 105(2), 309-316. Sedlmeier, P. und Renkewitz, F. (2008). Forschungsmethoden und Statistik in der Psychologie. Pearson Studium, München. Seidenfeld, T. (1979). Philosophical Problems of Statistical Inference. Learning from R. A. Fisher. D. Reidel, Dordrecht. Seidenfeld, T. (1986). Entropy and Uncertainty. Philosophy of Science 53, 467-491. Sellke, T.; Bayarri, M.J.; and Berger, J.O. (2001). Calibration of P -values for Testing Precise Null Hypotheses. The American Statistician 55, 62-71. Selvin, H; and Stuart, A. (1966). Data Dredging procedures in Survey Analysis. The American Statistician 20(3), 20-23. Senn, S. (1991). Falsification and Clincal Trials. Statistics in Medicine 10, 1679-1692.
Literatur
639
Senn, S. (1994). Fisher’s Game with the Devil. Statistics in Medicine 13, 217-230. Senn, S. (2000). Consensus and Controversy in Pharmaceutical Statistics. (Mit Diskussion) The Statistician 49(2), 135-176. Senn, S. (2003). Bayesian, Likelihood, and Frequentist Approaches to Statistics. A Comparison of Methods. Applied Clinical Trials 12(8), 35-38. Shadish, W.R., Cook, T.D., and Campbell, D.T. (2002). Experimental and QuasiExperimental Designs for Generalized Causal Inference. Houghton Mifflin Company. Shafer, G. (1976). A Mathematical Theory of Evidence. Princeton University Press, Princeton, NJ. Shafer, G. (1978). Non-Additive Probabilities in the Work of Bernoulli and Lambert. Archive for History of Exact Sciences 19, 309-370. Wiederabgedruckt als Kapitel 6 in Yager et al. (2008), 177-182. Shafer, G. (1990a). Perspectives on the Theory and Practice of Belief Functions. J. of Approximate Reasoning 4, 323-362. Shafer, G. (1990b). The Unity and Diversity of Probability. (Mit Diskussion) Statistical Science 5(4), 435-462. Shafer, G. (1996). The Art of Causal Conjecture. The MIT Press, Cambridge, MA. Shafer, G.; and Tversky, A. (1985). Languages and Designs for Probability Judgement. Cognitive Science Society 9, 309-339. Wiederabgedruckt als Kapitel 13 in Yager et al. (2008), 345-374. Shafer, G.; and Vovk, V. (2001). Probability and Finance. It’s only a Game! Wiley, New York: Wiley Series in Probability and Statistics. Shahar, E. (1997). A Popperian Perspective of the Term ‘Evidence-Based’ Medicine. Journal of Evaluation in Clinical Practice 3(2), 109-116. Shamir, O.; Sabato, S.; and Tishby, N. (2008). Learning and Generalization with the Information Bottleneck. Proceedings of the 10th International Symposium on AI and Mathematics (ISAIM 2008). Siehe www.cs.huji.ac.il/labs/learning/Papers/ IBM_list.html Shannon, C.E. (1948). A Mathematical Theory of Communication. The Bell System Technical Journal 27, 379-423 und 623-656. Shao, J.; and Tu, D. (1995). The Jackknife and Bootstrap. Springer: Springer Series in Statistics. Shapiro, S. (1997). Philosophy of Mathematics. Structure and Ontology. Oxford University Press, Oxford. Shapiro, S. (2005). The Oxford Handbook of Philosophy of Mathematics and Logic. Oxford University Press, Oxford. Shen, X.; and Ye, J. (2002). Adaptive Model Selection. J. of the American Statistical Association 97, 210-221. Shenoy, P.P.; and Shafer, G. (1990). Axioms for Probability and Belief-Function Propagation. In: Schachter, R.D.; Levitt, T.; Lemmer, J.F.; and Kanal, L.N. (Hrsg.) Uncertainty in Artificial Intelligence 4, 169-198. Wiederabgedruckt als Kapitel 20 in Yager et al. (2008), 499-528. Sheyinn, O.B. (1977). Early History of the Theory of Probability. Archive for History of Exact Sciences 17(3), 201-259. Shiller, R.J. (2005). Irrational Exuberance. (2. Aufl.) Princeton University Press, Princeton. Shipley, B. (2000). Cause and Correlation in Biology. A User’s Guide to Path Analysis, Structural Equations and Causal Inference. Cambridge University Press, Cambridge. Simon, F.B. (2007). Einführung in Systemtheorie und Konstruktivismus. (3. Aufl.) CarlAuer Verlag, Heidelberg. Simpson, E.H. (1951). The Interpretation of Interaction in Contingency Tables. J. of the Royal Statistical Society, Ser. B 13, 238-241. Sinkkonen, J. (2002). What is the Curse of Dimensionality? Teil 2 von 7 des Dokuments comp.ai.neural-nets FAQ. (comp.ai.neural-nets ist eine Usenet Newsgroup.) Siehe www.faqs.org/faqs/ai-faq/neural-nets/part2/section-13.html
640
Literatur
Smets, P. (1993). Belief Functions: The Disjunctive Rule of Combination and the Generalized Bayesian Theorem. International Journal of Approximate Reasoning 9, 1-35. Wiederabgedruckt als Kapitel 25 in Yager et al. (2008), 633-664. Smith, R. (2003). Medical Journals and Pharmaceutical Companies: Uneasy Bedfellows. British Medical Journal 326, 1202–1205. Smith, R. (2005). Medical Journals are an Extension of the Marketing Arm of Pharmaceutical Companies. PLoS Med 2(5), e138. doi:10.1371/journal.pmed.0020138 Smolin, L. (2006). The Trouble with Physics — The Rise of String Theory, the Fall of a Science, and What Comes Next. Penguin Books, London. Snow, C. P. (1959). The two Cultures. Cambridge University Press, Cambridge. Zitiert nach der Canto-edition (1993). Sobel, M.E. (1995). Causal Inference in the Social and Behavioral Sciences. In: Arminger, G.; Clogg, C.C.; and Sobel, M.E. (Hrsg.) Handbook of Statistical Modeling for the Social and Behavioral Sciences. Plenum, New York, 1-38. Sobel, M.E. (2005). Kommentar zu Heckman (2005). Sociological Methodology 35, 99-133. Sober, E. (2004). The Contest between Parsimony and Likelihood. Syst. Biol. 53(4), 644653. Sohn, D. (1998). Statistical Significance and Replication: Why the Former does not Pressage the Latter. (Mit Diskussion) Theory & Psychology 8(3), 291-334. Sokal, A.D. (1996). Transgressing the Boundaries: Toward a Transformative Hermeneutics of Quantum Gravity. Social text 46 & 47, 217-252. Sokal, A.D. (1998). What the Social text Affair does and does not Prove. Beitrag 1 in: Koertge (1998), 9-22. Sokal, A.D. (2006). Pseudoscience and Postmodernism: Antagonists or Fellow-Travelers? In: Fagan, G.G. (Hrsg.) Archaeological Fantasies: How Pseudoarchaeology Misrepresents the Past and Misleads the Public. Routledge, London, 286-361. Sokal, A.D. (2008). What is Science and Why Should We Care? Vortrag, gehalten am 27.02.2008. Siehe www.physics.nyu.edu/faculty/sokal/ Sokal, A.D.; and Bricmont, J. (1998). Fashionable Nonsense. Postmodern Intellectuals’ Abuse of Science. Picador, New York. Solomonoff, R. (1964). A Formal Theory of Inductive Inference, Parts I and II. Information and Control 7, 1-22, 224-254. Solow, R.M. (1956). A Contribution to the Theory of Economic Growth. Quarterly Journal of Economics 70(1), 65-94. Soofi, E.S. (1994). Capturing the Intangible Concept of Information. J. of the American Statistical Association 89, 1243-1254. Soofi, E.S. (2000). Principal Information Theoretic Approaches. J. of the American Statistical Association 95, 1349-1353. Speed, T. (2006). Terence’s Stuff: Bayes Forever. IMS Bulletin, 7. Spiegelhalter, D.J.; Best, N.G.; Carlin, B.P.; and van der Linde, A. (2002). Bayesian Measures of Complexity and Fit. (Mit Diskussion) J. of the Royal Statistical Society, Ser. B 64(4), 583-639. Spielhalter, D.J.; Freedman, L.S.; and Parmar, M.K.B. (1994). Bayesian Approaches to Randomized Trials. (Mit Diskussion) J. of the Royal Statistical Society, Ser. A 157 (3), 357-416. Spielman, S. (1973). A Refutation of the Neyman-Pearson Theory of Testing. Brit. J. for the Philosophy of Science 24, 201-222. Spielman, S. (1974). The Logic of Tests of Significance. Phil. of Science 41(3), 211-226. Spirtes, P.; Glymour, C.; and Scheines, R. (2000). Causation, Prediction, and Search. (2. Aufl.) The MIT Press, Cambridge, MA. Spirtes, P.; Scheines, R.; Glymour, C.; Richardson, T.; and Meek, C. (2004). Causal Inference. Kapitel 24 in Kaplan (2004), 447-477.
Literatur
641
Spohn, W. (1988). Ordinal Conditional Functions. A Dynamic Theory of Epistemic States. In: Harper, W.L.; and Skyrms, B. (Hrsg.) Causation in Decision, Belief Change, and Statistics, Vol. II. Springer, Berlin, 105-134. Spohn, W. (1990). Direct and Indirect Causes. Topoi 9, 125-145. Sprent, P. (1998). Satistics and Mathematics - Trouble at the Interface? The Statistician 47(2), 239-244. Stalker, D. (1992). Grue!: The New Riddle of Induction. Open Court, Chicago, IL. Stanford Encyclopedia of Philosophy. Artikel über „John Locke“, Version vom 5. 5. 2007. Siehe http://plato.stanford.edu/entries/locke/ Starkman, G.D. und Schwarz, D.J. (2005). Missklänge im Universum. Spektrum der Wissenschaft. 12, 30-37. Stegmüller, W. (1973). Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie, Band IV: Personelle und statistische Wahrscheinlichkeit; zweiter Halbband (Teil III): Die logischen Grundlagen des statistischen Schließens. Springer, Berlin. Stegmüller, W. (1979). The Structuralist View of Theories: A Possible Analogue of the Bourbaki Programme in Physical Science. Springer. Stegmüller, W. (1986). Theorie und Erfahrung, zweiter Halbband: Theorienstrukturen und Theoriendynamik (1973, zweite überarbeitete Aufl. 1985); dritter Teilband: Die Entwicklung des neuen Strukturalismus seit 1973. Springer, Berlin. Steiger, J.H. (1990). Structural Model Evaluation and Modification: An Interval Estimation Approach. Multivariate Behavioral Research 25, 173-180. Stein, C. (1956). Inadmissibility of the Usual Estimator for the Mean of a Multivariate Normal Distribution. Proceedings of the Third Berkeley Smposium on Mathematical Statistics and Probability; University of Berkeley Press, Berkeley, CA 1, 197-206. Steingart, G. (2008). Vorwahlkampf. Der Selbstverrat der US-Medien. Spiegel Online, 13. 5. 2008. Siehe www.spiegel.de/politik/ausland/0,1518,552874,00.html Steinwart, I.; and Christmann, A. (2008). Support Vector Machines. Springer. Stevens, S.S. (1935). The Operational Definition of Psychological Terms. Psychological Review (42), 517-527. Stevens, S.S. (1936a). Psychology: the Propaedeutic Science. Philosophy of Science (3), 90-103. Stevens, S.S. (1936b). A scale for the Measurement of a Psychological Magnitude: Loudness. Psychological Review (43), 405-416. Stevens, S.S. (1946). On the Theory of Scales of Measurement. Science (103), 677-680. Stevens, S.S. (1951). Mathematics, Measurement and Psychophysics. In: Stevens, S.S. (Hrsg.) Handbook of Experimental Psychology. Wiley, New York, 1-49. Stevens, S.S. (1968). Measurement, Statistics, and the Schemapiric View. Science 161, 849-856. Steyer, R. und Eid, M. (1993). Messen und Testen. Springer, Berlin. Stigler, S.M. (1986). The History of Statistics. The Measurement of Uncertainty before 1900. The Belknap Press of Harvard University Press, Cambridge, MA. Stigler, S.M. (1999). Statistics on the Table. The History of Statistical Concepts and Methods. Harvard University Press, Cambridge, MA. Stöltzner, M. und Uebel, T. (Hrsg., 2006). Wiener Kreis. Texte zur wissenschaftlichen Weltauffassung von Rudolf Carnap, Otto Neurath, Moritz Schlick, Philipp Frank, Hans Hahn, Karl Menger, Edgar Ziesel und Gustav Bergmann. Felix Meiner Verlag, Hamburg. Stone, M. (1977). An Asymptotic Equivalence of Choice of Model by Cross-Validation and Akaike’s Criterion. J. of the Royal Statistical Society, Ser. B 39, 44-47. Stone, R. (1993). The Assumptions on which Causal Inferences rest. J. of the Royal Statistical Society, Ser. B 55(2), 455-466. Störig, H. (1987). Kleine Weltgeschichte der Philosophie. Fischer Taschenbuch Verlag, Frankfurt a. M.
642
Literatur
Stove, D. (2000). Scientific Irrationalism. Origins of a Postmodern Cult. Transaction Publishers, New Brunswick. Zunächst publiziert unter dem Titel “Anything Goes: Origins of the Cult of Scientific Irrationalism”, Macleay Press, 1998. Strevens, M. (1998). Inferring Probabilities from Symmetries. Noûs 32(2), 231-246. Studený, M. (2005). Probabilistic Conditional Independence Structures. Springer, New York: Information Science and Statistics. Sullivan, P.A. (1998). An Engineer dissects two Case Studies. Hayles on Fluid Mechanics and MacKenzie on Statistics. In: Koertge (1998), Kapitel 5, 71-98. Sullivan, P.R. (2006). Are Current Philosophical Theories of Consciousness Useful for Neuroscientists? Behavior and Philosophy 34, 59-70. Sunstein, C.R. (2009). Infotopia. Suhrkamp, Frankfurt a.M. Suppes, P. (1982). Arguments for Randomizing. In: Asquith,P.D.; and Nickles, T. (Hrsg.) PSA 1982. Proceedings of the 1982 Biennial Meeting of the Philosophy of Science Association, Bd. 2 „Symposia“. Philosophy of Science Association, East Lansing, MI, 464-475. Suppes, P. (1988). Kommentar zu Good (1988). Statistical Science 3(4), 398-400. Suppes, P. (2001). Representation and Invariance of Scientific Structures: Problems of Representation and Invariance (CSLI Lecture Notes). Center for Study of Language & Information. Suppes, P. (2009). Some Philosophical Reflections on de Finetti’s Thought. In: Galavotti (2009), 19-39. Suppes, P.; Krantz, D.H.; Luce, R.D.; and Tversky, A. (1989). Foundations of Measurement, Bd. 2. Academic Press, New York, London, San Diego. Suppes, P.; and Zinnes, J.L. (1968). Basic Measurement Theory. In: Luce R.D.; Bush R.R.; and Galanter, E. (Hrsg.) Handbook of Psychology, Bd. 1. Wiley, New York. Sutcliffe, J.P. (1965). A Probabilistic Model for Errors of Classification, I. General Considerations. Psychometrika. 30, 73-96. Swamy, P. (1971). Statistical Inference in Random Coefficient Regression Models Springer, Berlin. Talal, A.D.; and Redhead, M.L.G. (2007). Objectivity, Invariance, and Convention: Symmetry in Physical Science. Harvard University Press, Cambridge, MA. Tarski, A. (1986). Der Wahrheitsbegriff in den formalisierten Sprachen. In: Berka, K.; und Kreiser, L. (Hrsg.) Logik-Texte. Kommentierte Auswahl zur Geschichte der modernen Logik. (4. Aufl.) Akademie-Verlag, Berlin. Taves, D.R. (1974). Minimization: A new Method of Assigning Patients to Treatment and Control Groups. Clinical Pharmacology and Therapeutics 15(5), 443-453. Thorndike, E.L. (1918). The Nature, Purposes, and General Methods of Measurements of Educational Products. In: Wipple, G. M. (Hrsg.) Seventeenth Yearbook of the National Society for the Study of Education 2, 16-24. Public School Publishing, Bloomington, IL. Thorndike, E.L. (Hrsg., 1947). Research Problems and Techniques (Report No. 3). US Printing Office, Washington D.C. Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. J. Royal. Statist. Soc. B 58(1), 267-288. Siehe auch www-stat.stanford.edu/∼tibs/lasso.html Titz, S. (2005). Wie wird der nächste Sommer? Spektrum der Wissenschaft 8, 48-52. Todhunter, I. (1865). A History of the Mathematical Theory of Probability from the Time of Pascal to that of Laplace. Cambridge Univ. Press. Wiederabgedruckt: Chelsea, 1949 und 1965. Tonelli, M.R. (1998). The Philosophical Limits of Evidence-based Medicine. Academic Medicine 73(12), 1234-1240. Topsøe, F. (2007). Information Theory at the Service of Science. In: Csiszár, I; Katona, G. O. H.; and Tardos, G. (Hrsg.) Entropy, Search, Complexity. Springer: János Bolyai Mathematical Society 16, 179-208.
Literatur
643
Townsend, J.T. and Ashby, F.G. (1984). Measurement Scales and Statistics: The Misconception Misconceived. Psychological Bulletin. 96, 394-401. Tufte, E.R. (2001). The Visual Display of Quantitative Information. (2. Aufl.) Graphics Press, Cheshire, CT. 1. Aufl. 1985. Tukey, J.W. (1951). Standard Methods of Analyzing Data. Proceedings Compuatation Seminar der International Business Machines Corporation (IBM) in Armonk, New York, 706-731. Zitiert nach Kapitel 2 (S. 15-63) in Jones (1986a). Tukey, J.W. (1954). Unsolved Problems of Experimental Statistics. J. of the American Statistical Association 49, 706-731. Zitiert nach Kapitel 4 (S. 77-105) in Jones (1986a). Tukey, J.W. (1957). On the Comparative Anatomy of Transformations. Annals of Mathematical Statistics 28, 987-992. Tukey, J.W. (1958). Bias and Confidence in not-quite large Samples. Annals of Mathematical Statistics 29, 614. Tukey, J.W. (1960a). Where do we go from here? J. of the American Statistical Association 52, 80-91. Zitiert nach Kapitel 5 (S. 107-126) in Jones (1986a). Tukey, J.W. (1960b). Conclusions vs. Decisions. Technometrics 2, 423-433. Zitiert nach Kapitel 6 (S. 127-142) in Jones (1986a). Tukey, J.W. (1961). Statistical and Quantitative Methodology. In: Trends in Social Science. Ray, D.P. (Hrsg.) Philosophical Library, Inc., New York, 84-136. Zitiert nach Kapitel 7 (S. 143-181) in Jones (1986a). Tukey, J.W. (1962). The Future of Data Analysis. Annals of Mathematical Statistics 33, 1-67. Zitiert nach Kapitel 9 (S. 391-484) in Jones (1986a). Wiederabgedruckt in Kotz und Johnson (1993: Bd. II, 408-452). Tukey, J.W. (1967). A Statistician’s Comment. In: Kent, A.; Taulbee, E.; Belzer, J; and Goldstein, G.D. (Hrsg.) Electronic Handling of Information: Testing & Evaluation Thompson Book Company, Washington D.C., 41-47. Zitiert nach Kapitel 13 (S. 579585) in Jones (1986b). Tukey, J.W. (1969). Analyzing Data: Sanctification or Detective Work? American Psychologist 24, 83-91. Zitiert nach Kapitel 16 (S. 721-740) in Jones (1986b). Tukey, J.W. (1972). Data Analysis, Computation and Mathematics. Quarterly of Applied Mathematics 30, 51-65. Zitiert nach Kapitel 18 (S. 754-775) in Jones (1986b). Tukey, J.W. (1973a). Comment. Proceedings of the First Canadian Conference in Applied Statistics “Statistics ’71 Canada”, 96-104. Zitiert nach Kapitel 19 (S. 777-791) in Jones (1986b). Tukey, J.W. (1973b). Exploratory Data Analysis as Part of a Larger Whole. Proceedings of the Eighteenth Conference on the Design of Experiments in Army Research Development and Testing, Part 1. The Army Mathematics Steering Committee. Zitiert nach Kapitel 20 (S. 793-804) in Jones (1986b). Tukey, J.W. (1977). Exploratory Data Analysis. Addison-Wesley: Behavioral Science; Quantitative Methods. Tukey, J.W. (1980a). We need both Exploratory and Confirmatory. The American Statistician 34, 23-25. Zitiert nach Kapitel 22 (S. 811-817) in Jones (1986b). Tukey, J.W. (1980b). Methodological Comments focused on Opportunities. In: Monge, P.R.; and Cappella, J. (Hrsg.) Multivariate Techniques in Communication Research. Academic Press, New York, 489-528. Zitiert nach Kapitel 23 (S. 819-867) in Jones (1986b). Tukey, J.W. (1982). Discussion. Auszug aus The Role of Statistical Graduate Training in: Rustagi, J.S.; and Wolfe, D.A. (Hrsg.) Teaching of Statistics and Statistical Consulting. Academic Press, New York, 379-389. Zitiert nach Kapitel 26 (S. 881-889) in Jones (1986b). Tukey, J.W. (1984). Data Analysis: History and Prospects. In: David, H. A.; and David, H.T. (Hrsg.) Statistics: An Appraisal. Iowa State University Press, Ames, IA. Zitiert nach Kapitel 29 (S. 985-1001) in Jones (1986b).
644
Literatur
Tukey, J.W. (1986a). Foreword to the Philosophy Volumes. In: Jones (1986a) und Jones (1986b), xxxix-xliv. Tukey, J.W. (1986b). Data Analysis and Behavioral Science or Learning to Bear the Quantitative Man’s Burden by Shunning Badmandments. Kapitel 8 (S. 187-390) in Jones (1986a). Zuvor unveröffentlichtes Manuskript aus dem Jahr 1961. Tukey, J.W. (1986c). What have Statisticians been Forgetting? Kapitel 14 (S. 587-599) in Jones (1986b). Zuvor unveröffentlichtes Manuskript aus dem Jahr 1967. Tukey, J.W. (1986d). Comment. Kapitel 21 (S. 805-809) in Jones (1986b). Tukey, J.W. (1986e). Do Derivations come from Heaven? Kapitel 25 (S. 875-880) in Jones (1986b). Zuvor unveröffentlichtes Manuskript aus dem Jahr 1981. Tukey, J.W. (1986f). Sunset Salvo. The American Statistician 40, 72-76 (ebenfalls 1986). Zitiert nach Kapitel 30 (S. 1003-1016) in Jones (1986b). Tukey, J.W. (1986g). Diskussionsbeiträge zu Heckman und Robb (1986) in Wainer (1986), 58-62 und 108-110. Tukey, J.W. (1988). Lags in Statistical Technology. In: Carter, C.S.; Dwividi, T.D.; Fellegi, I.P.; Fraser, D.A.S.; McGregor, J.P.; and Sprott, D.A. (Hrsg.) Proceedings of the First Canadian Conference in Applied Statistics, 96-104. Tukey, J.W. (1991). The Philosophy of Multiple Comparisons. Statistical Science 6(1), 100-116. Tukey, J.W. (1997). More Honest Foundations for Data Analysis. J. of Statistical Planning and Inference 57, 21-28. Tukey, J.W.; and Wilk, M.B. (1966). Data Analysis and Statistics: an Expository Overview. AFIPS Converence Proceedings 29 der 1966 Falls Joints Computer Conference. Zitiert nach Kapitel 12 (S. 549-578) in Jones (1986b). Turing, A. (1936). On Computable Numbers, With an Application to the Entscheidungsproblem. Proceedings of the London Mathematical Society 42(2), 230-265. Tversky, A.; and Kahneman, D. (1971). Belief in the Law of Small Numbers. Psychological Bulletin 76, 105-110. Twain, M. (2006). Zitiert nach: Gore, A.; An Inconvenient Truth. Rodale, New York, 20-21. Ullman, J.B.; and Bentler, P.M. (2004). Structural Equation Modeling. Kapitel 19 in Hardy and Bryman (2004), 431-458. Unwin, A; Theus, M.; and Hofmann, H. (2006). Graphics of Large Data Sets. Visualizing a Million. Springer, New York. Upshur, R.E.G. (2001). The Ethics of Alpha: Reflections on Statistics, Evidence and Values in Medicine. Theoretical Medicine 22, 565-576. Urbach, P. (1985). Randomization and the Design of Experiments. Philosophy of Science 52, 256-273. U.S. Department of Health, Education, and Welfare. Smoking and Health: Report of the Advisory Committee to the Surgeon General of the Public Health Service. Public Health Service Publication No. 1103, Washington D.C. Valley, J.W. (2006). Urerde - Sauna oder Gluthölle? Spektrum der Wissenschaft. 5, 70-81. Vansteelandt, S.; Goetghebeur, E.; Kenward, M.G.; and Mohlenberghs, G. (2006). Ignorance and Uncertainty Regions as Inferential Tools in a Sensitivity Analysis. Statistica Sinica 16, 953-979. Vella, F. (1998). Estimating Models with Sample Selection Bias: A Survey. The Journal of Human Ressources 33(1), 127-169. Velleman, P.F. (1996). Diskussionsbeitrag zu Hand (1996). J. of the Royal Statistical Society, Ser. A 159, 486. Velleman, P.F. (1997). The Philosophical Past and the Digital Future of Data Analysis: 375 years of Philosophical Guidance for Software Design on the Occasion of John W. Tukey’s 80th Birthday. In: Brillinger et al. (1997), 317-337. Velleman, P.F.; and Wilkinson, L. (1993). Nominal, Ordinal, Interval, and Ratio Typologies Are Misleading. The American Statistician 47(1), 65-72. Venn, J. (1888). The Logic of Chance. (3. Aufl.) Macmillan, London. 1. Aufl. 1866.
Literatur
645
Verein Ernst Mach (Hrsg., 1929). Wissenschaftliche Weltauffassung. Der Wiener Kreis. Artur Wolf Verlag, Wien. Zitiert nach: Stöltzner und Uebel (2006: Abschnitt 1.1), 329. Vietl, R. (2002). On the Future of Data Analysis. Austrian J. of Statistics 31(2 & 3), 241-244. Villegas, C. (1971). On Haar Priors. (Mit Diskussion) in: Godambe and Sprott (1971), 409-416. Vinci, L. da (o. J.) Zitiert nach http://de.wikiquote.org/wiki/Leonardo_da_Vinci. Version vom 6.2.07, 11:48 Uhr. Vitányi, P. (2007). Algorithmic Chaos and the Incompressibility Method. Kapitel 15 in Charpentier et al. (2007), 301-317. Volland, E. (2007). Die Fortschrittsillusion. Spektrum der Wissenschaft 4, 108-113. Vollmer, G. (1993). Wissenschaftstheorie im Einsatz. Hirzel, Stuttgart. Vollmer, G. (1994). Evolutionäre Erkenntnistheorie. Hirzel, Stuttgart. Vollmer, G. (1995a). Auf der Suche nach der Ordnung. Beiträge zu einem naturalistischen Welt- und Menschenbild. Hirzel, Stuttgart. Vollmer, G. (1995b). Biophilosophie. Reclam, Ditzingen. Vollmer, G. (2003). Was können wir wissen? Band 1. Die Natur der Erkenntnis. Beiträge zur Evolutionären Erkenntnistheorie. (3. Aufl.) Hirzel, Stuttgart. Vovk, V. (2001). Competitive On-line Statistics. Int. Stat. Review 69(2), 213-248. Wainer, H. (Hrsg., 1986). Drawing Inferences from Self-Selected Samples. Springer, New York. Wald, A. (1947). Sequential Analysis. Wiley, New York. Wald, A. (1950). Statistical Decision Functions. Wiley, New York. Wallace, C.S. (2005). Statistical and Inductive Inference by Minimum Message Length. Springer, New York. Serie: Information Science and Statistics. Walley, P. (1991). Statistical Reasoning with Imprecise Probabilities. Chapman and Hall, London. Wang, C. (1993). Sense and Nonsense of Statistical Inference. Controversy, Misuse and Subtlety. Marcel Dekker, New York. Wappis, J. und Jung, B. (2006). Taschenbuch Null-Fehler-Management. Umsetzung von Six Sigma. Hanser, München. Weakliem, D.L. (1999). A Critique of the Bayesian Information Criterion for Model Selection. Sociological Methods & Research 27(3), 359-397. Wechsler, D. (1956). Die Messung der Intelligenz Erwachsener. Huber, Bern. Weed, D.L. (1986). On the Logic of Causal Inference. American J. of Epidemiology 123(6), 965-979. Wegman, E.J. (1988). On Randomness, Determinism and Computability. J. of Statistical Planning and Inference 20, 279-294. Weichselberger, K. (2001). Elementare Grundbegriffe einer allgemeineren Wahrscheinlichkeitsrechnung I. Intervallwahrscheinlichkeit als umfassendes Konzept. Physica-Verlag, Heidelberg. Weinberg, S. (1992). Dreams of a Final Theory. Pantheon Books, New York. Weinberg, S. (1995). The Methods of Science . . . and those by which we live. In: Facing Up. Science and its Cultural Adversaries. Harvard University Press, Cambridge and London, 83-92. Weinberg, S. (1998). The Revolution That Didn’t Happen. New York Review of Books XLV, No. 15. Siehe www.cs.utexas.edu/users/vl/notes/weinberg.html Weingart, P. (2003). Wissenschaftssoziologie. transcript, Bielefeld. Werndl, C. (2009). What are the New Implications of Chaos for Unpredictability? Brit. J. Phil. Sci. 60, 195-220. Weyl, H. (1983). Symmetry. Princeton University Press, Princeton, NJ. 1. Aufl. 1952. Wheeler, G. (2007). A Review of the Lottery Paradox. In: Harper und Wheeler (2007), 1-31.
646
Literatur
Wigner, E. (1949). Invariance in Physical Theory. Proceedings of the American Philosophical Society 93(7), 521-526. Wigner, E. (1960). The Unreasonable Effectiveness of Mathematics in the Natural Sciences. Communications in Pure and Applied Mathematics 13(1), 1-14. Wikipedia (2008a). Stichwort „Induktion (Denken)“, Version vom 13. 3. 2008. Siehe de.wikipedia.org/wiki/Induktion_(Denken). Wikipedia (2008b). Stichwort “Stepwise Regression”, Version vom 7. 2. 2008. Siehe http://en.wikipedia.org/wiki/Stepwise_regression Wikipedia (2009). Stichwort “Imprecise Probability”, Version vom 27. 3. 2009. Siehe http://en.wikipedia.org/wiki/Imprecise_probability Wilkinson, L. (1996). Diskussionsbeitrag zu Hand (1996). J. of the Royal Statistical Society, Ser. A 159, 486-487. Wilkinson, L. and Task Force on Statistical Inference (1999). Statistical Methods in Psychology Journals: Guidelines and Explanations. American Psychologist 54(8), 594-604. Williams, M.-A.; and Rott, H. (2001). Frontiers in Belief Revision. Springer: Applied Logic Series 22. Williamson, J. (2007). Motivating Objective Bayesianism: From Empirical Constraints to Objective Probabilities. In: Harper und Wheeler (2007), 151-179. Willke, H. (2006). Systemtheorie: Systemtheorie 1. Grundlagen: Eine Einführung in die Grundprobleme der Theorie sozialer Systeme. (7. Aufl.) UTB, Stuttgart. Wilson, E.O. (2000). Die Einheit des Wissens. Goldmann, München. Windschuttle, K. (2000). Vorwort zu Stove (2000), 1-18. Winship, C.; and Sobel, M. (2004). Causal Inference in Sociological Studies. Kapitel 21 in Hardy and Bryman (2004), 481-503. Wirtz, R. (2007). Wozu braucht der Ingenieur, Techniker oder Architekt Mathematik? Siehe http://rowicus.ch/Wir/Scripts/GrundlagenMathematik.html (Aufruf am 25. 09. 2009). Witten, I.H.; and Frank, E. (2005). Data Mining. Practical Machine Learning Tools and Techniques. (2. Aufl.) Elsevier, Amsterdam. Woit, P. (2006). Not Even Wrong. The Failure of String Theory and the Continuing Challenge to Unify the Laws of Physics. Vintage Books (Bertelsmann media worldwide). Wonderwall (2003). What does it mean? Lied und Album. Wea (Warner). Woodward, J. (2003). Scientific Explanation. In: Edward N. Zalta (Hrsg.) The Stanford Encyclopedia of Philosophy (Summer 2003 Edition). Siehe http://plato.stanford.edu/ archives/sum2003/entries/scientific-explanation/ Worrall, J. (2007). Why There’s No Cause to Randomize. Brit. J. Phil. Sci. 58, 451-488. Worsley, P. (1968). The Trumpet Shall Sound: A Study of ‘Cargo Cults’ in Melanesia. (2. Aufl.) Schocken, New York. Wright, S. (1921). Correlation and Causation. J. of Agricultural Research 20, 557-585. Yager, R. (1983). Entropy and Specificity in ‘A Mathematical Theory of Evidence.’ International Journal of General Systems 9(4), 249-260. Wiederabgedruckt als Kapitel 11 in Yager et al. (2008), 291-310. Yager, R.R.; Liu, L. (Hrsg.); Dempster, A.P.; and Shafer, G. (beratende Hrsg., 2008). Classic Works of the Dempster-Shafer Theory of Belief Functions. Springer, Berlin. Yamada, S.; and Morimoto, H. (1992). Sufficiency. In: Ghosh und Pathak (1992), 86-98. Yates, F. (1984). Tests of Significance for 2×2 Contingeny Tables. J. of the Royal Statistical Society, Ser. A 147(3), 426-463. Ye, J. (1998). On Measuring and Correcting the Effects of Data Mining and Model Selection. J. of the American Statistical Association 93, 120-131. Yen, J. (1990). Generalizing the Dempster-Shafer Theory to Fuzzy Sets. IEEE Transactions on Systems, Men, and Cybernetics 20(3), 559-570. Wiederabgedruckt als Kapitel 21 in Yager et al. (2008), 529-554. Young, G.A. (1994). Bootstrap: More than a Stab in the Dark? (Mit Diskussion) Statistical Science 9(3), 382-415.
Literatur
647
Young, N.S., Ioannidis J.P.A.; and Al-Ubaydli, O. (2008). Why Current Publication Practices May Distort Science. PLoS Medicine 5(10), 1418-1422. Zaffalon, M. und Miranda, E. (2009). Conservative Inference Rule for Uncertain Reasoning under Incompleteness. J. of Artificial Intelligence Research 34, 757-821. Zahar, E. (2007). Why Science needs Metaphysics. A Plea for Structural Realism. Open Court, Chicago, IL. Zickfeld, K.; Levermann, A.; Morgan, M.G.; Kuhlbrodt, T.; Rahmstorf, S.; and Keith, D.W. (2007). Expert Judgements on the Response of the Atlantic Meridional Overturning Circulation to Climate Change. Climatic Change 82(3-4), 235-265. Zimmermann, D.W. (1975). Two Concepts of ‘True Score’ in Test Theory. Psychological Reports 36, 795-805. Zimmermann, M. (1995). Wahrheit und Wissen in der Mathematik. Das Benacerrafsche Dilemma. transparent verlag H. & E. Preuß, Berlin. Zurek, W.H. (1989). Alogrithmic Randomness and Physical Entropy. Physical Review A 40(8), 4731-4751. Zweig, S. (1977). Joseph Fouché. Bildnis eines politischen Menschen. Fischer, Frankfurt a. M.
Personenregister
Achilles xii, 348 Adams, E.W. 35, 47 Aiken, L.S. 161, 164 Akaike, H. 378, 431, 473 Al-Ubaydli, O. 112 Albert, M. 84, 87, 95 Albrecht, H. 246 Aldrich, J. 392 Altman, D.G. 229-232 Anderson, D.R. 115, 182, 377-380, 431 Anderson, N.H. 33 Anderson, P.W. 21 Andrieu, C. 145 Angluin, D. 210 Antoniou, G. 421 Apgar, V. 37 Arbuthnot, J. 86 Ariely, D. 175 Aristoteles 54, 59f, 358, 385 Armitage, P. 87 Arnold, V.I. 47, 567 Aronowitz, S. 575 Ashby, F.G. 41 Augustin, N.H. 380 Austin, P.C. 229 The Australian Lung Foundation 244 Bachelier, L. 185 Backhaus, K. 69f, 136 Bacon, F. 3, 60, 217, 223, 313, 351, 539, 558, 577, 580, 596 Baecker, D., 590 Baeyer, H.C. von 440, 482 Bailey, R.A. 232 Baird, D. 2 Bakan, D. 87 Baker 358
Balakrishnan, N. 126 Balasubramanian, V. 385, 477, 532, 534 Balzer, W. 22, 50, 167f, 563 Bamberg, G. 110 Banister, H. 53, 612 Barnard, G.A. 45, 124, 156, 224, 233, 264, 267f, 337, 392, 394, 406, 456, 531 Barnett, V. 4, 247, 264, 266, 269, 372, 394-396, 408, 455 Barron, A. 475 Bartels, A. 177, 548, 554, 565, 590 Bartky, W. 93 Bartlett, F.C. 53, 612 Bartlett, M.S. 512 Bartlett, R.J. 53, 612 Basu, D. 125, 233, 235-238, 243, 368f, 403-405, 419, 455, 499, 502, 525, 531, 563, 584 Basu, K. 175 Baumbach, G. xiii Bayarri, M.J. 94, 116, 118, 120, 257, 276, 394, 400 Bayes, T. 264, 309 Bellman, R. 417 Bender, R. 94 Bennett, J.H. 101, 118, 324, 358, 368, 392, 398, 416, 425, 456, 497, 524, 577 Bentler, P.M. 429 Beran, R. 528 Berger, A. 515 Berger, J.O. 98f, 102, 153, 158, 166, 252, 257, 259, 267, 308, 394, 407, 409, 419, 422, 426, 525, 531 Berger, R.L. 141, 153, 166, 364 Berger, V. 222, 225, 229-233, 246, 401, 448 Berghaus, M. 590 Berk, R.A. 384
649
650 Berkeley, G. 41, 206 Berkovitz, J. 517 Berkson, J. 87, 102 Bernays, P. 548 Bernoulli, J. 262 Bernstein, P. L. 255 Bertero, M. 139 Berry, D.A. 407 Berthold, M.R. 298 Best, N.G. 380 Beutelspacher, A. 47 Birnbaum, A. 10, 266 Bishop, C.M. 181, 307, 417 Bjørnstad, J.F. 267f, 396 Blackwell, D. 110, 400 Blanck, A. xiii Blasius, J. 136 Blau, P.M. 286 Bloor, D. 574 Bock, J. 132 Bodendorf, F. 445 Bodmer, W. 280, 585 Boghossian, P.A. 572 Bohr, N. 190 Boole, G. 156, 264, 494 Boorstin, D.J. 264 Boring, E.G. 223f Born, G. 543 Bortz, J. 40, 69, 72, 108, 132, 134, 136, 162, 361 Bound, J.A. 200 Bourbaki, N. 213 Bower, B. 93 Box, G.E.P. 4, 78, 124, 158, 172, 179f, 189, 226, 229, 239, 279f, 295, 298, 303-307, 314, 357, 361-364, 385, 387, 396, 404, 413, 419, 480, 542, 563 Bramley-Moore, L. 321 Breiman, L. 145, 280, 301, 417, 451, 480 Brennan, R.L. 173 Breslow, N.E. 87 Briand, L. 40 Bricmont, J. 275, 325, 340, 344, 555, 562-574, 588, 596, 598 Bridgman, P.W. 50-52, 65 Brillinger, D.R. 240, 296, 337, 413 Broer, H.W. 528 Brooks, R. 371 Brown, L.D. 110, 116 Brown, W. 53, 612 Brumback, B. 447 Bruss, F.T. 112, 185 Bryant, P.B. 373, 474, 476, 527 Bryman, A. 162, 580
Personenregister Bryson, B. 110, 527, 550, 575 Buckingham, E. 36 Buckland, S.T. 380 Buehler, R.J. 419 Buja, A. 9 Büning, H. 373 Burgin, M. 210 Burke, D.J. 71 Burnham, K.P. 115, 182, 377-380, 431 Busch, H.W. 594 Calude, C.S. 462, 465, 488, 499 Camilli, G. 372 Campbell, D.T. 134, 277, 311, 333, 442, 525 Campbell, N.R. 52f, 60, 358, 612 Campolongo, F. 338 Candes, E. 418, 479 Carroll, R.J. 133 Cordero-Braña, O.I. 373, 474, 476, 527 Carlin, B.P. 256, 380, 394, 419, 527 Carlin, J.B. 75, 91, 224, 257, 419, 427, 444, 449, 527 Carnap, R. 8, 155-159, 199, 248, 250, 253, 259, 421, 480, 494, 558, 563, 590 Carrier, M. 548, 555, 560, 576, 587, 590 Cartwright, N. 197, 428, 437, 448, 569 Casella, G. 99, 108, 141, 145, 153, 166, 172, 364, 366, 373, 392f, 399, 404f, 419 Chalmers, A.F. 3, 325, 555f, 565, 569, 576, 581 Chatfield, C. 115, 124, 174, 179, 293, 308, 313 Chatterjee, S. 499 Chen, C. 300 Chernoff, H. 116, 393, 406, 490 Chomsky, N. 588 Chow, S.L. 95 Chow, Y.S. 144, 525 Christmann, A. 418 Church, A. 494, 563 Churchill, W. 190 Cifarelli, D.M. 212, 315 Claeskens, G. 380f, 519 Clapiers, L. Marquis de Vauvenargues 582 Cliff, N. 44, 61 Cochran, W.G. 163, 221, 436, 442 Cohen, A.S. 425 Cohen, J. 41, 95, 102, 161, 164, 173 Cohen, L.J. 196-199, 248, 317, 319 Cohen, P. 161, 164 Collingwood, R.G. 10, 163 Collins, H. 555, 575 Cook, T.D. 134, 277, 311, 333, 442, 525
Personenregister Cooman, G. de 531 Cooper, H. 103, 271 Cormen, T.H. 301 Cornfield, J. 87, 112, 240, 310-312, 340, 367f, 476 Courant, R. 11, 409 Cover, T.M. 210, 378, 458-466, 477, 487, 489, 496, 536 Cox, D.R. 87, 105, 120, 124, 158, 161, 173, 249, 261, 270, 272, 277-281, 309, 355, 364, 394, 402, 408f, 411, 445 Cox, G. 413 Cox, E. 307 Cox, N.J. 38, 40 Cox, R.T. 251f, 534 Craik, K.J.W. 53, 612 Cramer, C. 162 Cronbach, L.J. 66, 170, 172, 240, 243, 310, 334 Cumming, J. 94 Dahms, H.-J. 4 Dalal, S.R. 401 Dale, A.I. 139 Dalton, J. 286 Dantzig, D. van 410, 419 Dar, R. 111 Darnbeck, H. 282 David, E.E. Jr. 8 Davies, P.L. 181, 243 Davison, A.C. 242 Dawid, A.P. 9, 124, 284, 301, 437, 439, 443, 451, 455, 479, 507, 525, 527 Debs, T.A. 536 Deck, T. 525 DeGroot, M.H. 400 Delen, D. 302, 307 Deming, W.E. 93, 314, 337 Dempster, A.P. 145, 167, 176, 178, 190, 192, 262, 271, 281, 291, 421, 539, 583 Diaconis, P. 14, 164, 173, 183, 209f, 225, 274, 280, 294, 302, 305, 313, 322, 383, 470, 514, 559 Dickey, J. 255 Dilthey, W. 589 Dingle, H. 50 Dingler, H. 57 DiPrete, T.A. 400 Donoho, D.L. 418, 503 Donovan, A. 590 Döring, N. 72, 162, 361 Doob, H.L. 525 Doucet, A. 145 Dowe, D.L. 461, 473, 480, 519
651 Draper, D. 174, 200, 223, 308, 360 Drever, J. 53, 612 Dubois, D. 421 Duhem, P. 547, 570f Duncan, O.D. 23, 28, 30, 41-47, 60, 65, 255, 286 Durant, A. und W. 457, 582, 600 Durbin, J. 411 Dyson, F. 294 Earman, J. 198, 253, 321, 419, 493, 537, 554 Eddington, A.S. 286, 291 Edgington, E.S. 238-241, 424, 530 Edwards, A.W.F. 105, 267, 400, 531 Eerola, M. 431 Efron, B. 4, 73, 87, 120, 140-144, 152, 182, 242, 258, 270, 306, 359, 381, 382, 392, 394, 397-402, 404-409, 424f, 456, 477, 521, 583, 599 Ehrenberg, A.S.C. 200 Ehrlich, P. 53 Eid, M. 48, 69, 71, 155 Einstein, A. 7, 19, 58, 61, 188, 200, 272, 385, 535, 549, 566, 573, 579 El Emam, K. 40 Ellis, S.P. 371 Elpelt, B. 41 Elston, D.A. 499, 513 Enkin, M.W. 246 Epimenides xii Erichson, B. 69f, 136 Everitt, B. 359, 584 Evett, I.W. 412 Ewald, W. 548 Fagot, R.F. 35, 47 Fahrmeir, L. 132f, 136, 146 Falk, R. 14, 384 Falmagne, J.-C. 42 Fayyad, U. 307 Feder, M. 477 Feigl, H. 52, 481, 555 Feiner, A. 335 Feller, W. 112 Ferguson, A. 53, 612 Ferguson, T.S. 110 Feyerabend, P. 568-573 Feynman, R.P. 2, 5, 8, 20, 46, 56f, 110, 112, 224, 280, 332, 340, 411, 535, 553, 562, 566, 578, 588, 598 Fetzer, J.H. 198, 249, 324 Fidler, F. 94 Fienberg, S.E. 285-293
652 Finch, S. 94 Fine, T.L. 212 Finetti, B. de 31, 119, 212, 224, 248f, 253, 254, 315, 407, 419, 423, 453, 494, 510, 525, 529, 554 Fischer, G. 135 Fischer, G.H. 80, 168 Fischer, K. xiii, 344, 493, 567, 589 Fisher, R.A. 10, 12, 73, 77, 83-85, 87-97, 99-102, 104-110, 116, 118-126, 130f, 134, 140, 154, 184, 205, 217, 221, 223, 226-230, 233-236, 241, 245, 247, 250, 258, 265f, 303-312, 324, 327f, 333f, 355-359, 363f, 368-373, 384, 390-394, 398, 402-405, 410, 413, 416, 418, 424-427, 442, 452-456, 461, 469-471, 475-478, 497, 502, 518, 521-531, 563, 577, 599 Fisher Box, J. 140 Fitelson, B. 199 Flanagin, A. 112 Foerster, H. von 590 Foster, D.P. 380 Fowlkes, E.B. 401 Fraasen, B. van 177, 283, 536f, 569 Frank, E. 307 Fraser, D.A.S. 130, 373, 392 Freedman, D.A. 132f, 210, 231, 242f, 284-293, 305, 339, 384, 396, 434, 437-441, 451, 519f Freedman, L.S. 266 Freitas, N. de 145 Friedman, J.H. 145, 183, 303, 306f, 411, 417 Friedman, M. 93, 286 Frigg, R. 517 Fröhlich, G. 576 Frost, A.J. 186 Fu, P.C. 477 Gács, P. 467, 469 Gaissmaier, W. 271 Gaito, J. 72 Galilei, G. 3, 7, 18, 31, 42, 49, 56, 62, 255, 524, 541, 569, 575, 580 Galton, F. 123, 130 Gangl, M. 400 Gardner, M. 108, 344, 494, 565, 569, 588 Gardner, P.L. 74f Gardner, S. 461, 473, 480, 519 Gasarch, W. 210 Gauß, C.F. 359, 373 Gay-Lussac, J.L. 286 Gell-Mann, M. 300
Personenregister Gelman, A. 75, 91, 133, 224, 257, 419, 427, 444, 449, 527 George, E.I. 380 Gergen, K.J. 575 Gerhardt, M. 215 Gertel, A. 246 Ghosh, J.K. 369, 401, 403, 405, 455, 477 Ghosh, M. 369, 405 Giere, R. 106 Gigerenzer, G. 92-94, 121, 261, 271, 415, 520 Gillies, D. 354, 483, 493, 548, 554, 563 Gilmour, S.G. 360 Girshik, M.A. 110 Glasbey, C.A. 499, 513 Glass, G.V. 103 Gleser, G.C. 66, 170, 172, 240, 310, 334 Gley, E. 580 Glymour, C. 147, 183, 282f, 286, 290-293, 304-307, 323, 341, 356, 387, 429f, 434, 437, 525 Glynn, R.J. 450 Gneedzy, U. 175 Godambe, V.P. 410, 419, 563 Gödel, K. 210, 464, 573 Godfrey-Smith, P. 195, 354, 564, 569, 598 Goetghebeur, E. 338 Gómez-Tutor, J. xiii Good, I.J. 74, 85, 105, 124, 199, 249, 301, 313, 317, 378, 408, 410, 419, 424, 498, 504, 531, 561, 595 Good, P.I. 242 Goodman, N. 197f, 321, 346, 529 Goodman, S.N. 92, 95, 98, 102, 107f, 115, 123, 199, 257, 283, 329 Gorski, P.S. 362 Gosset, W.S. 100, 106, 123, 131, 237, 359, 373, 446, 497, 531 Gøtzsche, P.C. 246 Gould, S.J. 362 Gous, A. 87, 521 Grace, J.B. 429 Green, P.J. 141 Greenacre, M.J. 136 Greenland, S. 103, 111, 174, 217, 229, 253, 335, 337, 361f, 423f, 435, 440, 446-449, 468, 535 Greeno, J.G. 519 Greenough, P. 176, 565 Groff, R. 565 Grundy, P.M. 232 Grünwald, P.D. 346, 380, 458-461, 473, 475, 526 Guild, J. 53, 612
Personenregister Guilford, J.P. 18 Gullikson, H. 168 Guttman, L. 15, 114, 168, 271, 415 Hacking, I. 105, 119, 154, 157, 176, 198, 226, 235, 493, 532, 555, 562, 567 Hahn, H. 568 Hahn, R.W. 527 Hájek, A. 478, 483, 494 Halfmann, J. 575 Hall, N. 478, 494 Halpern, J.Y. 429 Hamerle, A. 132f, 136, 146 Hamilton, C. 246 Hampel, F.R. 75, 337, 392, 421, 498 Han, J. 307 Hand, D.J. 9, 39, 50f, 62-67, 179, 190, 280, 290, 299, 301, 303f, 307, 356-359, 385, 411, 417, 584 Handke, P. 582 Hannan, E.J. 380 Hansen, M.H. 370, 474f Hanson, A.J. 477 Härdle, W. 127, 300, 417 Hardy, M. 580 Hargittai, I. 576 Harinder Nanda, A.N. 66, 170, 172, 240, 310, 334 Harlow, L.L. 94f Harper, W.L. 410, 563 Harris, P.J. 229 Hartigan, J.A. 200 Hartley, H.O. 4 Hartung, J. 41 Hastie, T. 307, 411, 417 Hawthorne, J. 199, 483 Hayles, N.K. 575 Healy, M.J.R. v, 10, 232 Heckman, J.J. 425, 429, 447-455, 532 Hedges, L.V. 103, 271 Heidelberger, M. 547, 554, 556 Heisenberg, W. von 189, 590 Held, L. 128 Hellhammer, D. xiii Helmholtz, H. von 60 Hempel, C. G. 107, 316-323, 346, 353f, 556 Henkel, R.E. 94 Hennig, C. 177, 494 Henry, N.W. 136, 148 Herrendörfer, G. 132 Hertz, H.R. 286 Heuser, H. 197, 274 Hilbert, D. 8, 47, 214, 273, 276, 548 Hill, A.B. 435
653 Hill, B.M. 406 Hill, J. 133, 394 Hinkley, D.V. 242 Hjort, N.L. 141, 380f, 477, 519 Ho, D.E. 445, 454 Hoadley, B. 401 Hodges, J.S. 100, 174, 200, 223, 271, 308, 360 Hodges, L.J. Jr. 400 Hofmann, H. 201, 300 Hölder, O. 60 Holland, P.W. 437, 440f, 454 Holmes, C. 477 Holmes, S. 542 Hooker, C.A. 410, 563 Hornik, K. 242 Hotelling, H. 93, 355 Hothorn, T. 242 Houstoun, R. 53, 612 Howard, S.V. 87 Howson, C. 21, 212, 233, 253, 409, 419, 493, 559, 565, 596 Hoyningen-Huene, P. 548 Hubbard, R. 94, 102, 116, 118, 120 Hubble, E.P. 214 Huber, P.J. 75, 146, 295, 302, 305-308, 358, 360, 413, 490 Hubig, C. 548 Hudec, M. 77, 301 Hume, D. 21, 59, 195-200, 208, 215, 223, 340, 343-348, 360, 441, 447, 457, 479, 481, 529, 539, 557, 573, 586 Hunter, J.S. und W.G. 78, 172, 179f, 189, 226, 229, 239, 279, 295, 303f, 314, 363, 385, 387f, 404, 413, 480 Hüttemann, A. 552 Hutter, M. 261, 479f, 526f, 532 Huxley, T.H. 199, 476 Ietto-Gillies, G. 286, 290, 453 Ilard, S.S. 416 Imai, K. 445, 454 Imbens, G.W. 449 Inman, H.F. 279 Ioannidis, J.P.A. 112 Irwin, J.O. 53, 612 Jacobs, A. 246 Jacobson, L. 225 Jadad, A.R. 246 James, T. 118, 416 James, W. 405 Jamshidian, M. 208 Janssen, A. 239
654 Janssens, A.C.J.W. 112 Jaynes, E.T. 45f, 56, 61, 93, 99, 105, 112, 116, 159, 166, 184, 187, 201, 235, 248, 251, 257, 266, 268, 284, 307, 317, 320, 337, 344, 368, 397, 405, 408, 412, 416, 419f, 425, 428, 446, 453, 456, 462, 469, 484, 494, 497, 499, 502, 519, 523, 532, 558, 563, 585 Jeffrey, C.H. 503 Jeffrey, R. 420, 493, 531 Jeffreys, H. 59, 85, 87, 99, 151, 154, 160, 205, 212, 217, 235, 248, 259, 268, 343-345, 388, 398, 413, 419, 423, 425, 477, 523, 532, 552, 558, 562 Jensen, S. 574 Joe, H. 518 Johnson, N.L. 1, 126, 456 Johnstone, D.J. 87, 89, 102, 105-108, 118f, 223, 404 Johnstone, I.M. 503 Jones; L.V. 116, 240, 295 Jordan, M.I. 145 Jöreskog, K.G. 136 Judson, H.F. 14, 246, 552, 576 Juhos, B. 4, 36, 385 Jung, B. 139 Kadane, J.B. 246, 266, 493 Kahnemann, D. 94, 175 Kalbfleisch, J.G. 372 Kamber, M. 307 Kang Fu, V. Kant, I. 7, 57, 543, 549 Kass, R.E. 98, 257-259 Kassirer, J.P. 246 Katz, M. 43 Kauther, H. 594 Kaye, G.W.C. 53, 612 Keiding, N. 114, 415 Keith, D.W. 559 Kellert, S.H. 569, 599 Kelly, K. 282f, 286, 341, 387 Kelvin, L. (Thomson, W.) 6, 60 Kemeny, J.G. 478 Kemp, A.W. 126 Kempthorne, O. 4, 232, 247, 342, 441, 539, 563 Kenward, M.G. 338 Kepler, J. 463 Key, J.T. 179 Keynes, J.M. 156 Khoury, M.J. 112 Khrennikov, A. 526 Kiefer, J. 403
Personenregister Kieser, A. 581 Kim, S.-H. 425 Kimball, A.W. 273 King, G. 445, 454 Kirk, R.E. 94 Kish, J.F. 197 Kish, L. 264, 312 Kladroba, A. 304 Klärner, H. 251 Klein, F. 21 Klein, I. 44, 49 Kleinert, A. 3 Kline, M. 7, 13, 46 Klippstein, G. 594 Klösener, K.-H. 41 Knight, F. 454 Knorr-Cetina, K. 576 Knuth, D. 301 Koch, S. 50 Köchy, K. 198 Koertge, N. 564, 574, 590, 597 Köhler, P. 396 Kolmogorov, A.N. 211, 422, 431, 462-468 475, 480, 482, 487, 489, 494, 498-500, 508, 520, 525, 528, 536, 599 Konstantopoulos, S. 103 Koopmans, T. 454 Kotz, S. 1, 126, 456 Kovac, A. 181 Kraft, V. 568 Krämer, W. 357 Krantz, D.H. 23, 40, 42, 44, 62, 71, 95 Krauss, S. 93, 415 Krauth, J. 69, 226 Kreibohm, H. 594 Krengel, U. 108f, 127, 159, 166, 273, 321, 366 Krieger, G. xiii Kries, J. von 156 Kronz, F. 517 Krueger, J. 84, 95 Kruskal, W.H. 297, 303, 502 Kuhlbrodt, T. 559 Kühn, R. 501 Kuhn, T.S. 3, 180, 548, 562, 566, 568-575, 587, 590, 598 Kullback, S. 176, 378, 458, 462, 477, 519 Kumar, V. 307 Kurz-Milcke, W. 271 Kyburg, H.E. 106, 118, 319f, 346 Lachin, J.M. 231-234, 240, 435 Lad, F. 255 Ladyman, J. 61, 411, 548, 565, 569, 590
Personenregister Laird, N.M. 145, 450 Lakatos, I. 40, 568, 573, 590, 598 Lang, C. 475 Lange, K. 186 Laplace, P.-S. Marquis de 99, 248, 257, 262, 264, 268, 310, 412, 438, 494 Lash, T.L. 103, 335, 361f, 448 Latour, B. 575, 598 Laubichler, M. 588 Laudan, A. 590 Laudan, L. 573, 589 Laughlin, R.B. 21, 189, 314, 331, 553, 596 Lauritzen, S.L. 147, 429 Lauth, B. 35, 353, 385 Lawson, T. 171 Lazarsfeld, P.E. 136, 148 Leamer, E.E. 174, 356, 361, 535, 542, 544 Lean, J.L. 282 Lecam, L. 252, 264, 268, 358, 563 Lee, A. 321 Lee, K.L. 229 Lee, Y.J. 113 Leeman, J. 94 Lehmann, E.L. 89, 99, 166, 172, 279-281, 364-366, 373, 393, 476 Leibler, R.A. 176, 378, 458, 462, 477 Leibniz, G.W. xii, 215, 349 Leiseron, C.E. 301 Lenz, H.J. 304 Lesaffre, E. 521 Levermann, A. 559 Lewin, K. 331, 481 Lewis, D. 448 Li, M. 109, 125, 461f, 466, 469, 474-482, 487-500, 507, 513, 518f, 536, 596 Lieberson, S. 4 Lienert, G.A. 148 Linde, A. van der 380 Lindley, D. V. 105, 114, 124, 173, 183, 223, 235, 242, 248, 253, 283, 322, 336, 359, 372, 397, 408-410, 419f, 519, 563 Lindman, H. 400 Lindsay, R.M. 94, 102f Lindsey, J.K. 155, 176-181, 293 Lippe, P. von der 272, 358, 470, 593f Lipton, P. 251, 565 Little, R.J.A. 208 Liu, L. 421 Locke, J. 196, 206 Loewenstein, G. 175 Lois, T.A. 256, 394, 419, 527 Longford, N.T. 134, 521 Longino, H.E. 569, 599 Lopez, A. 204
655 Lorscheid, P. 357 Lord, F.M. 36, 69, 73, 148, 168, 309, 423 Lorenz, E.N. 514 Lorenzen, D.H. 294 Lorenzen, P. 57 Luce, R.D. 23, 35-44, 54, 62, 68, 71, 76 Luhmann, N. 277, 590 Lüst, D. 553 Lynch, M.P. 176, 565 Lyre, H. 176 MacCallum, R.C. 41 Mach, E. 573 MacKay, D.J.C. 139, 253, 419, 458, 523 Madigan, D. 183, 304, 307, 356, 429 Malkiel, B.G. 185 Mallows, C.L. 70, 94, 175, 200, 223, 271, 273, 308, 314, 355-363, 375, 385, 452 Mannila, H. 307, 411 Mancosu, P. 548 Mandel, J. 164 Manski, C.F. 100, 338, 445-448, 455 Mantel, J. 246 Mantel, N. 87 Mantzavinos, C. 2 Marcuse, H. 58 Marden, J.I. 95, 533 Marks, R.B. 575 Maronna, R. 75 Marotzke, J. 282 Marrow, A.J. 331 Marshall, A.W. 499 Martin, G. 324 Martin-Löf, P. 508, 519 Marting, D. 75 Marx, K. 3, 171 Mattner, L. 111 Mayo, D.G. 105, 387, 401, 563, 590, 596 Maxwell, J.C. 177, 248, 273, 566 Mazar, N. 175 McCullagh, P. 133 McIntyre, L. 2 McNeer, J.F. 229 McPherson, G. 87, 266 McPherson, K. 87 Meehl, P.E. 91-95, 101, 106, 162, 249, 416, 429 Meek, C. 184, 306, 429 Meise, M. 181 Mendel, J.G. 291 Menger, K. 23, 376, 568 Menges, G. 5, 299, 313 Merk, R. 594 Merton, R.K. 139, 574-576, 591
656 Meza, J.C. 499 Michell, J. 6f, 42, 52-54, 60, 62, 66, 71 Mill, J.S. 199, 217-224, 231, 237-240, 251, 277, 333, 335, 390, 432, 446, 530, 583 Miller, A.J. 360 Miller, D. 345 Miller, H. 423 Miller, I. und M. 455 Millikan, R.A. 291 Minkler, J. 421 Miranda, E. 420, 531 Mirowski, P. 290 Mises, R. von 261, 489, 508 Molenberghs, G. 338 Moonesinghe, R. 112 Moore, D.S. 76 Morasca, S. 40 Morgan, A. de 264 Morgan, S.L. 132, 284, 429, 432, 434, 437, 438, 441, 449, 454, 519 Morgan, M.G. 559 Morimoto, H. 166, 360 Morris, C. 405 Morris, C.N. 174 Morrison, D.E. 94 Moses, L.E. 116, 490 Mosteller, F. 302, 364, 391, 395 Moulines, C.U. 548, 563 Mühlhölzer, F. 21 Muir, H. 15 Mulaik, S.A. 95 Müller, M. 127, 417 Müller, P. 477 Müller, P.H. 82, 108, 130, 132, 134 Murphy, J.J. 186 Murphy, S.A. 475 Musgrave, A. 286 Myers, C.S. 53, 612 Nagel, E. 344, 536, 555 Naisbett, J. 77 Narens, L. 25, 27, 40, 42-49, 62, 71 Nelder, J.A. 112, 129, 133, 337, 385, 414f Nelson R.B. 145 Nester, M.R. 95 Neumann, J. von 46, 61f, 180, 525, 567 Newton, I. xii, 6f, 20, 161, 182, 196, 275, 286, 293, 353, 452, 556, 566, 573, 579 Neyman, J. 89-101, 104-111, 116-122, 187, 236, 261, 271f, 279, 306, 310, 328, 355, 359, 363, 367, 387, 392, 395, 397, 402-409, 412f, 419, 423-426, 441, 451, 472, 475, 524, 526 Nickerson, R.S. 85, 88, 95, 102
Personenregister Niederée, R. 48 Nield, T. 575 Nikouline, M. 475 Nikulin, M.S. 404 Noether, E. 20 Novick, M.R. 148, 168, 322 Nozick, R. 535, 537 Numagami, T. 152 Nye, M.J. 17 O’Hagan, A. 360 Oakes, M. 95, 102, 112, 264, 483, 531 Okasha, S. 565, 569 Olkin, I. 103, 499 Olshen, R.A. 145 Olson, D.L. 302, 307 Omer, H. 111 Oppenheim, P. 353 Oppy, G. 461, 473, 480, 519 Ornstein, D.S. 499, 513 Osherson, D.N. 204 Ottenbacher, K.J. 102 Pagels, H.R. 1 Parmar, M.K.B. 266 Parzen, E. 358 Pascal, B. 255 Pasteur, L. 415 Pathak, P.K. 369, 405 Pauls, T. 239 Paulus (Apostel) 577 Pawitan, Y. 97, 100, 128, 165f, 378, 381 Pearl, J. 125, 223f, 309, 323, 407, 429-440, 447-449, 454f, 494, 524, 530, 532, 561, 596 Pearl, R. 197 Pearson, E.S. 89-101, 104-111, 117-122, 187, 201, 236, 261, 306, 328, 363, 367, 395, 397, 402-412, 475, 524, 526 Pearson, K. 119, 123f, 248, 279, 321, 358f, 440, 509, 550, 578 Peirce, C.S. 105, 119, 199, 574 Penston, J. 520 Perrin, J. 17, 21, 68 Pepys, J. 246 Pericchi, L.R. 179 Petersohn, H. 307 Peto, J. 87 Peto, R. 87 Pfanzagl, J. 24, 26, 32-40, 42-46, 71 Philpott, S.J.F. 53, 612 Piatetsky-Shapiro, G. 307 Pike, M.C. 87 Pitman, E.J.G. 392
Personenregister Planck, M. 37, 188, 388, 551 Plickert, P. 190 Plinke, W. 69f, 136 Pocock, S.J. 225, 234 Pogue, J. 114 Pöppe, C. 175 Popper, K.R. 1, 49, 83, 93, 107f, 115-120, 181, 183, 199, 201, 307, 326, 343-345, 352, 354, 361, 386, 415, 440, 464, 483f, 494, 550, 556f, 567-573, 590, 596, 598 Post, H.R. 116, 536, 567 Prade, H. 421 Pratt, J.W. 105, 118, 173, 218 Preacher, K.J. 41 Prechter, R. 186 Pregibon, D. 183, 200, 223, 304, 307f, 356, 360, 429 Pukelsheim, F. 532 Quenouille, M.H. 242, 382 Quetelet, L.A.J. 169 Quine, W.V.O. 78, 570, 598 Quinn, B.G. 380 Raatz, U. 148 Raftery, A.E. 98 Rahmstorf, S. 559 Rahnenführer, J. xiii Rajaratnam, N. 66, 170, 172, 240, 310, 334 Ramamoorthi, R.V. 477 Ramsey, F.P. 248, 252-255 Rand, K.L. 416 Rao, C.R. 140, 180, 369, 456, 470 Rasch, D. 132 Ratto, M. 338 Redhead, M.L.G. 536f Reed, L.J. 197 Regazzini, E. 212, 315 Reichenbach, H. 77, 116, 120, 198f, 250, 261, 324, 342, 405, 426, 437, 563, 565, 568, 573, 579, 586, 589f, 599 Reid, C. 426 Reid, N. 125, 405 Reitze, S. 277, 565, 569 Renkewitz, F. 103 Rennie, D. 112 Rényi, A. 8 Resnick, S.I. 144 Richardson, L.F. 53, 612 Richardson, S. 141 Richardson, T. 306, 429 Rind, D.H. 282
657 Rissanen, J. 91, 200, 210, 271, 278, 284, 337, 409, 460-466, 469f, 473-482, 496, 513, 518-520 Rivest, R.R. 301 Robb, R. 448, 450, 452 Robbins, H. 11, 361, 394, 409, 413 Robert, C.P. 141, 145, 172, 392, 419 Robins, J.M. 424, 435, 448f Robinson, R.E. 35, 47 Rodríguez, C. 477, 532 Ronchetti, E.M. 498 Rosati, R.A. 229 Rose, U. 590 Rosenbaum, P.R. 226, 230, 234, 311, 437, 442-448, 455 Rosenberg, A. 565, 569 Rosenberger, W.F. 231-234, 240, 435 Rosenthal, R. 88, 103, 112, 187, 225, 355, 535, 553 Rosling, H. 300 Rosnow, R.L. 88, 355 Rost, J. 148 Rothman, K.J. 103, 111, 335, 361f, 440, 448 Rott, H. 421 Rousseeuw, P.J. 498 Royall, R. 87f, 97-108, 112f, 120, 199, 268, 272, 317, 368, 393, 395, 414, 416, 509, 563 Rubin, D.B. 75, 91, 145, 163, 174, 208, 224, 234, 257, 357, 407, 419, 427, 436, 441-455, 527, 532, 563 Rucker, D.D. 41 Ruelle, D. 275 Ruppert, D. 133 Ruspini, E. 421 Russ, H.G. 565, 569 Russell, B. 66, 217, 440, 491 Rust, J. 418 Rutherford, E. 316 Ryan, P.A. 94 Sabato, S. 466 Sackett, D.L. 246, 552 Saint-Mont, U. xi, 2, 12, 228, 275, 548, 593 Salmon, W.C. 108, 323f, 434, 563 Salsburg, D.S. 114, 415, 418, 506, 520 Samuels, S. 126 Samuelson, P.A. 286 Sareiter, J. 35, 353, 385 Sarstedt, M. 475 Satelli, A. 338 Savage, C.W. 53
658 Savage, L.J.H. 10, 140, 173, 212, 254, 308, 392, 400, 419 Sawilowsky, S.S. 425 Scargle, J.D. 112 Scerri, E. 2 Scheines, R. 147, 184, 282f, 286, 306, 323, 341, 387, 429f, 525 Schiemann, G. 198 Schiller, F. 19, 560 Schilling, R. 144, 525 Schirach, F. von 480 Schlaifer, R. 173, 218 Schleichert, H. 4, 28, 36, 385, 571 Schlick, M. 52, 196, 250, 345, 568, 573 Schlittgen, R. 475 Schmidt, F.L. 103 Schmitt, S. 559 Schmutzer, E. 4, 18, 541 Scholz, F.W. 166, 373 Schönemann, P.H. 44, 47 Schülein, J.A. 277, 565, 569 Schurz, G. 59, 323, 353 Schuster, H. 215 Schütz, W. 4, 18, 541 Schützenmeister, F. 575 Schwarz, D.J. 101 Schwarz, G. 380 Schwartz, L.M. 271 Scott, E.L. 472 Sedlmeier, P. 92f, 103, 415 Seidenfeld, T. 119, 140, 156, 246, 261, 266, 493 Sellke, T. 98, 257 Selvin, H. 356 Senn, S. 107, 110, 225f, 247, 264, 521 Serlin, R.C. 111 Shadish, W.R. 134, 277, 311, 333, 442, 525 Shafer, G. 421, 431, 494, 508, 522-526 Shafir, E. 204 Shahar, E. 107, 415 Shakespeare, W. 59 Shamir, O. 466 Shannon, C.E. 12, 257, 413, 440, 457, 462, 468 Shao, J. 382 Shapiro, S. 214 Shaxby, J.H. 53, 612 Shen, X. 380 Shenoy, P.P. 421 Sheynin, O.B. 6 Shiller, R.J. 185 Shipley, B. 429 Simon, F.B. 590 Simon, R. 225, 234
Personenregister Simpson, E.H. 321 Sinkkonen, J. 418 Smets, P. 421 Smith, A.F.M. 179 Smith, C.H. 210 Smith, E.E. 204 Smith, P.G. 87 Smith, R. 246 Smith, T. 53, 612 Smolin, L. 553 Smyth, P. 183, 304, 307, 356, 411, 429 Sneed, J.D. 563 Snow, C.P. 572 Sobel, M.E. 428, 437, 440-444, 449-451, 455 Sober, E. 376 Sohn, D. 102 Sokal, A.D. 275, 325, 340, 344, 408, 555, 562-574, 581, 588, 596f Solev, V. 475 Solomonoff, R. 210, 462, 480, 494, 584 Solow, R.M. 284 Soofi, E.S. 261, 519 Speed, T. 393 Sperlich, S. 127, 417 Spiegelhalter, D.J. 266, 380 Spielman, S. 85, 92, 100 Spirtes, P. 147, 184, 282f, 286, 306, 323, 341, 387, 429f, 525 Spohn, W. 421, 431 Sprent, P. 357 Sprott, D.A. 372, 410, 419, 563 Stahel, W.A. 498 Stalker, D. 197 Stamatescu, I.-O. 501 Starkman, G.D. 101 Starmer, C.F. 229 Stegmüller, W. 2, 21, 154-159, 532, 563 Steiger, J.H. 95, 384 Stein, C. (Informatiker) 301 Stein, C. (Statistiker) 405, 473 Steinbach, M. 307 Steingart, G. 267 Steinwart, I. 418 Stern, A.S. 503 Stern, H.S. 75, 91, 224, 257, 419, 427, 444, 449, 527 Stevens, S.S. 14, 23, 27ff, 36, 38, 42, 47-54, 60, 62, 68-74, 274 Steyer, R. 48, 69, 71, 155 Stigler, S.M. 130, 149, 169, 203, 310, 358, 574 Stöckler, M. 548, 554, 590 Stöltzner, M. 353 Stone, C.J. 145
Personenregister Stone, M. 381 Stone, R. 435, 444 Störig, H.J. 2 Stove, D. 345, 434, 550, 557, 568, 572, 583 Streitberg, B.H.J. 475 Strevens, M. 484 Stuart, A. 356 Stuart, E.A. 445, 454 “Student”, siehe Gosset, W.S. Studený, M. 429 Sullivan, P.A. 564 Sullivan, P.R. 562 Suppes, P. 23, 27, 31, 40, 42, 44, 62, 71, 249, 401, 498-499, 507, 536 Sutcliffe, J.P. 168 Swamy, P. 134 Talal, A.D. 537 Tan, P.-N. 307 Tao, T. 418, 479 Tarantola, S. 338 Tarski, A. 408 Taves, D.R. 225 Tetlock, P.C. 527 Tschuprow 358 Teicher, H. 144, 525 Theus, M. 201, 300 Thomas, J.A. 210, 378, 458-466, 477, 487, 489, 496, 536 Thomas, N. 532 Thomas, N.P. xiii Thomason, N. 94 Thomson, W., siehe Kelvin, L. Thorndike, E.L. 8, 172 Thouless, R.H. 53, 612 Tibshirani, R.J. 4, 73, 133, 141-144, 152, 182, 242, 307, 381f, 411, 417 Tishby, N. 466 Titz, S. 282 Todhunter, I. 310 Tonelli, M.R. 327 Topsøe, F. 525 Townsend, J.T. 41 Tromp, J.T. 467, 469 Tu, D. 382 Tucker, W.S. 53, 612 Tufte, E.R. 300 Tukey, J.W. 4, 7f, 31, 40f, 49, 54-56, 60f, 70, 76f, 93, 102, 106, 111, 116, 149, 158-163, 178, 195, 232, 240, 242, 269, 287-300, 303-313, 335, 337, 340, 343, 351, 356-369, 382, 385, 399, 411-418, 425, 434, 440, 450-452, 456, 469, 541f, 550, 563, 585
659 Turing, A. 13 Tutz, G. 132, 136, 146 Tversky, A. 23, 40, 42, 44, 62, 71, 94, 175, 421 Twain, M. 57, 190 Uebel, T. 353 Ullman, J.B. 429 Unwin, A. 201, 300 Upshur, R.E.G. 88, 355 Urbach, P. 230, 233, 409, 419, 493, 559, 596 Uspenskii, V.A. 488f, 499, 507 Vaart, A.W. van der 475 Valentin, K. 190 Valley, J.W. 101 Vansteelandt, S. 338 Vella, F. 448 Velleman, P.F. 38-42, 49, 68, 313, 596 Venn, J. 156, 264, 412, 494 Verein Ernst Mach 196, 561 Vietl, R. 306 Vinci, L. da 7 Vinciotti, V. 280 Vitányi, P.M.B. 109, 125, 461f, 466-469, 474-482, 487-500, 507, 513, 518f, 536, 596 Vitouch, O. 93, 415 Volland, E. 551, 586 Vollmer, G. 2, 10, 51, 346, 584 Vovk, V.G. 469, 479, 494, 508, 522-527 Wager, E. 246 Wald, A. 107-110, 116, 306, 359, 406 Walker, S.G. 477 Wallace, C.S. 210, 380, 419, 471, 473, 477, 480, 518, 532 Waller, N.G. 429 Walley, P. 273, 355, 421 Wand, M.P. 133 Wang, C. 244, 265, 409 Wappis, J. 139 Wasserman, L. 257-259 Waters, C.H. 569, 599 Weakliem, D.L. 475 Wechsler, D. 170 Weed, D.L. 385 Wegman, E.J. 498 Weiber, R. 69f, 136 Weichselberger, K. 421 Weinberg, S. 290, 535, 563-567, 587 Weingart, P. 576 Weinstein, S. 229 Weiss, B. 499
660 Weldon 358 Wermuth, N. 279, 281 Werndl, C. 512 Werwatz, A. 127, 417 West, S.G. 161, 164 Weyl, H. 536 Wheeler, G. 320 Wiel, M.A. van de 242 Wigner, E. 6, 275, 535 Wilk, M.B. 542 Wilkie, O. 204 Wilkinson, L. 38-42, 49, 68, 94, 271 Williams, M.-A. 421 Williamson, J. 520 Willke, H. 590 Wilson, E.O. 416, 452, 550, 582, 584 Windschuttle, K. 564 Winship, C. 132, 284, 429, 432, 434, 437-444, 449, 455, 519 Wirtz, R. 7 Witten, I.H. 307 Wittgenstein, L. 582 Woit, P. 332, 553 Woloshin, S. 271 Wolpert, R.L. 267, 419 Wonderwall 160 Woodward, J. 354 Woolgar, S. 598 Woolley, K.L. 246
Personenregister Worrall, J. 415 Worsley, P. 598 Wright, S. 429 Yager, R.R. 421 Yamada, S. 166, 360 Yates, F. 372 Ye, J. 380f Yeats, W.B. 23 Yen, J. 421 Yilmaz, M.R. 499 Yohai, V. 75 Young, G.A. 243 Young, N.S. 112 Yu, B. 370, 474f Yusuf, S. 114 Zabarella, J. 4 Zaffalon, M. 420 Zahar, E. 176 Zeileis, A. 242 Zhang, S. 41 Zickfeld, K. 559 Zimmermann, D.W. 168 Zimmermann, M. 13, 214 Zülka, J. 594 Zurek, W.H. 497, 503, 515 Zweig, S. 529
Sachregister
α-Adjustierung 111ff, 383, 476, 541 α-Postulat 87 Abduktion: s. Schluss auf die beste Erklärung Abstraktion 386, 436, 549, 566, 587: s. auch Idealisierung, Generalisierung, Induktion, Mathematisierung Ad hoc, “Adhocery” 188f, 190ff, 232, 242, 367ff, 409, 412, 420, 425, 450f, 478, 481, 488, 518f, 522f, 531, 544, 546, 551, 567 adaptiv 370-380, 383, 475 Adäquationsproblem: s. Operationalisierung Adelaide (Australien) 140 Adjustierung 118, 230f, 383, 435, 446 Aggregationsebene: s. Referenzklasse ahistorisch 577ff, 597 AIC 378ff, 518: s. auch Informationskriterien Akkumulationstheorie 332, 416, 544f, 550, 567, 574, 581, 586, 597 Algorithmisch zufällig: s. Zufall Algorithmus 143, 145, 219, 271, 300ff, 313, 371, 410, 417, 431, 463, 467, 471, 482, 508, 522 Alternativerklärung 162, 222, 229-232, 238-241, 311, 333, 341, 442, 469, 552: s. auch Experimentelles Design, Validität, Vergleichbarkeit Analysis: s. Differential- und Integralrechnung ancillary: s. Statistik (Funktion der Daten) ANCOVA: s. Kovarianzanalyse Anfangsbedingungen: s. Kontext, Bedingen, Voraussetzungen Annahmen: s. Voraussetzungen
Annals of Mathematical Statistics 426, 524 ANOVA: s. Varianzanalyse Anschauung 12, 146, 149, 188, 276, 297, 300, 303, 388, 433, 466, 543, 549 Antirealismus 276, 327, 451, 551, 565, 568ff, 587 APGAR-Test 37ff Approximation 40f, 68, 150f, 164, 167f, 180f, 206f, 220, 278, 286, 329, 341, 377, 418, 481, 498, 503f, 511, 537, 544, 552, 556, 565 Arbeit 171 Archimedischer Punkt 37, 248, 388, 540, 591, 595f, 599: s. auch Daten, Forschungszirkel ARR: s. Risikoreduktion Artificial Intelligence: s. Künstliche Intelligenz Assignment (Mechanism) Astrologie 15 Astronomie 294, 302, 305 Attraktor 516 Ausreißer 38, 297, 366, 382, 417 Austauschbarkeit 223ff, 229, 239, 315ff, 529, 533, 584 Automatisierung 74, 121, 190, 210, 259, 302f, 313, 339, 375, 417, 420, 558, 594f: s. auch Informationstechnik autopoietisch 590 Autorität 244f, 519, 564, 581f, 599: s. auch Dogmatismus Average Man 169 Avogadrosche Zahl 17, 20 Axiom, Axiomensystem 6f, 31, 44, 47, 49, 56, 58, 61, 80, 196, 211f, 252f, 320, 353, 410, 422, 485, 534, 548:
661
662
Sachregister s. auch Konvention, Mathematik, Messtheorie
Badmandment (Tukey) 41, 356, 369 Balancierung: 90, 225f, 229ff, 233, 234, 240, 311, 401, 446: s. auch Baseline Imbalance, Randomisierung Balancing Score 443 Baseline Imbalance 222, 225, 229ff, 447, 498: s. auch Vergleichbarkeit Bayes-Faktor 98f, 257 Bayessches Theorem 253ff, 263ff, 470 Bayessche Statistik: s. Statistik (Bayessche) Bedeutsamkeit 31ff, 35ff, 45ff, 154, 168, 468: s. auch Statistik (Funktion der Daten), Transformation (zulässig) Bedingen, bedingte Inferenz 79, 125, 128, 223, 231, 265f, 322f, 371ff, 388, 399, 402-405, 408, 410, 420, 430, 433, 437, 443f, 455, 474, 505, 531 Bedingtheitsprinzip 267f, 505 Begründungszusammenhang: s. Entdeckungszusammenhang Behaviorismus 52, 283, 439, 550 Behrens-Fisher-Problem 425, 473, 523 Belief Functions: s. Dempster-ShaferTheorie Belief Revision 421: s. auch Statistik (Bayessche) Berechenbarkeit 13, 210, 464, 471, 482, 488, 498, 500, 506: s. auch Algorithmus Bernoulli-Strömung 513 Bestimmtheitsmaß 133 Beobachtungsdaten: s. Daten, Experiment (Quasi-) Berkeley Symposium on Mathematical Statistics 426 Betrug 552, 576 Bewegung: s. Geschwindigkeit Bezugssystem 18ff, 530: s. auch Perspektive Bias 162f, 367f, 425, 500, 531: s. auch Schätzung Publication 112 BIC 380f, 475, 494, 518f, 532: s. auch Informationskriterien Binomialkoeffizient 127 Biologie 17, 141, 222, 270, 412, 438, 545, 591 Bit 413, 460, 465-470, 489-495, 499, 519, 536, 590 Black Box 7, 146, 280, 285, 301, 438f, 451, 553 Bootstrap 141ff, 242, 382, 416, 451 Borrowing Strength 276, 313, 545
Brain Drain 306, 414 Breakdown Point 535 Brückenmetapher (Cornfield und Tukey) 310ff: s. auch Induktion Bürokratie 116, 416, 577, 580, 592-595 Buzz Words 580 CDA: s. Datenanalyse, konfirmatorische Chaos, Chaostheorie 213, 482, 488, 499, 508, 512-517, 534f Chemie 2, 17, 180, 204, 222, 303, 567 Clinical Trial (Randomized Controlled Trial, RCT): s. Klinische Studie Clusteranalyse 138, 363, 508 Cochrane Review 355: s. auch Metaanalyse Code, Codierung: s. Kodierung Computational Statistics 141ff, 301 Computeralgebra 143 Computopia (von der Lippe) 593 Conditionality Principle: s. Bedingtheitsprinzip Conjoint Measurement 76 counterfactual 285, 399, 431, 441-451, 453, 529 Cox-Axiome 252 Cox-Jaynes-Argument 251 Cult of the Single Study 414, 439, 521: s. auch Daten Curse of Dimensionality 417f: s. auch Dimensionsreduktion Data Dredging 115, 305, 324, 356, 375, 393, 416, 423 Data Mining 124, 183f, 275, 300-314, 334, 351, 370, 383, 389, 417, 422f, 427, 504, 521, 527 Data Snooping: s. Data Dredging Daten 4, 242, 256, 267, 269, 271, 288, 295, 298, 300ff, 322, 328ff, 335f, 348, 362ff, 370, 386f, 406, 422-427, 438, 450, 452, 462ff, 468, 476, 496, 499, 507f, 524f, 539ff, 544f, 547, 578, 586, 591ff, 596: s. auch Stichprobe, Population fehlende 207f, 417, 441 isoliert betrachtet, “let the data speak for themselves” 267, 310, 335, 389-392, 414-416, 423, 438, 521: s. auch Likelihoodprinzip Datenanalyse 70, 73, 114ff, 122, 124, 148ff, 184, 199, 245, 291ff, 294, 299, 302, 305, 338, 352, 356, 359f, 362f, 371, 373, 375ff, 377ff, 381, 387, 417, 423f, 490, 504-512, 525, 527, 542
Sachregister explorative (EDA) 293-298, 301, 309, 334, 351f, 356, 362f, 387, 389, 504, 527, 542 intelligente (IDA) 298ff, 332, 351, 387, 542 konfirmatorische (CDA) 295, 352, 362, 387 Datenbeschaffung, Datenerhebung: s. Experimentelles Design, Perspektive (Priori-), Kontext Datenkompression: s. komprimieren David-Report 8 DDR 593 DeCode genetics 246 Deduktion 54-61, 84, 96, 106ff, 116, 121, 124, 142, 195, 199, 216f, 222, 269, 272, 283, 307, 314, 335f, 341, 351-363, 365, 381f, 384ff, 410, 424, 433, 469, 485, 491, 500, 528, 540-543, 547, 549f, 554ff, 579, 597, 599 Deduktiv-induktives Schema, 58-60, 117ff, 121, 272, 307, 332, 355-357, 385, 492: s. auch Forschungszirkel Deduktiv-nomologisches Modell: 108, 352-354, 556, 572 Deduktivismus 106, 116, 361f, 415, 480, 556ff, 567: s. auch Deduktion, Falsifikation, Deduktiv-nomologischesModell Demarkationsproblem 172ff Dempster-Shafer-Theorie 421f, 527 denotativ: s. Systemtheorie Descartscher Dämon 558 Desillusionierung 571 deterministisch 19, 43, 84, 95, 151, 212ff, 333, 377, 429, 433, 440, 492, 499, 507, 513ff, 517 Deutsche Forschungsgemeinschaft 580 Deutsche Physikalische Gesellschaft 580 Dichotomisierung 41, 231, 371 Differential- und Integralrechnung 78, 214, 493, 526 Dimensionsreduktion 363, 445, 509 disjunkt 24, 211, 486 Diskretisierung 215, 469, 473, 491, 493 Diskriminanzanalyse 136, 138, 363, 509 Diskriminationsfähigkeit 470, 475, 478 Do-Calculus 436 Dogmatismus 40, 80, 115, 230, 245, 293, 361, 393, 409, 414ff, 428, 439, 519, 550, 553, 560, 596ff Duhem-Quine-These 570 Dutch Book 253, 420
663 ECMO 415 EDA: s. Datenanalyse (explorative) Einsicht: s. Fortschritt, Wissenschaft Effekt 114, 131, 218ff, 230 File Drawer 112, 535 Größe 94, 103 Matthäus- 574 okkulter 15 Placebo- 182 Pygmalion- 225 Reihenfolge- 241, 316 Schmetterlings- 514 Versuchsleiter- 182, 225, 400 Effizienz 41, 140, 175, 204, 225, 256, 456, 459, 524: s. auch Verlustfunktion Einfachheit 148, 280, 327, 376f, 431, 463, 478, 481, 534, 562, 566: s. auch Komplexität, Occam’s Razor Einheit, statistische 131 Eklektizismus 92, 296, 300, 394, 411, 449, 583 Elicitation 98, 255 Elliott-Wellen 186 Empirical Bayes 394: s. auch Statistik Empirie: s. Daten, Forschungszirkel, Passung, Methoden, Realität, Wissenschaft Empirismus 3, 177-181, 196, 198f, 248, 314, 336, 439, 449, 558, 569, 586, 596 Energie 534 Entdeckungszusammenhang: 328, 574, 579f Entitätenrealismus 176f, 551: s. auch Realismus Entropie 257, 259f, 457, 460-462, 475ff, 487, 490, 495, 503, 513, 534 relative 176, 378, 458, 462, 477 Entscheidungstheorie 99, 110f, 114, 116, 121f, 157, 270, 285, 355, 366, 393, 418, 423, 438, 470, 490, 525ff Epidemiologie 94, 190, 223ff, 355, 424, 435, 447, 468, 504, 591 Erfahrung: s. Lernen Erfindung 331, 550 Erfolg: s. Fortschritt, Passung Ergodizität, ergodisch 516f Erhaltungssatz 19f, 535, 567, 575: s. auch Symmetrie Erkenntnistheorie 9ff, 558 evolutionäre 12 Humes Zweifel 21 projektive 10ff, 13 Erklärungskraft 182, 279, 288, 376, 480f, 570: s. auch Passung, Modell
664 Erwartungswert 127, 129ff, 168f, 460, 462, 469, 501, 505, 512, 516 Eskapismus 571 Ethik, Ethos 2, 557, 574, 576 Evidenz 44, 54, 85-89, 97-109, 112f, 116-125, 148, 178, 184-188, 191, 194, 197, 199, 239, 240, 244, 247, 252, 254, 257, 265-267, 283, 309, 317-320, 327, 335, 342f, 355, 359, 361, 365, 368, 371, 378, 386, 392-395, 408, 411, 415f, 420, 423, 426, 433, 483, 521, 542, 557, 570, 573, 575, 598 Theorie der 421 Evidenzbasierte Medizin: s. Medizin Evolution, Evolutionstheorie 47, 182, 341f, 371, 506, 543, 548, 550, 579, 591, 593 Experiment Feld- 305 Gedanken- 104, 184, 236f, 275, 396, 533 Quasi- 192, 225, 229, 231, 234, 264f, 304f, 311, 407, 442, 448, 468, 504 statistisches 83, 94, 97f, 104-107, 113f, 117, 119, 122, 151, 192, 217, 224-239, 244-247, 251, 254, 265, 269, 288, 291-294, 305, 309-311, 316, 322, 333, 358, 361, 363, 402, 407, 414-416, 422, 426, 430, 441-447, 455, 493, 504, 528, 544: s. auch Experimentelles Design wissenschaftliches 3, 5, 7, 14-16, 22, 50, 67, 94, 105, 113, 115, 124, 176, 184, 189, 190, 197, 205, 221-223, 227-231, 234-237, 241-246, 256, 261, 264-267, 275, 276, 290, 294, 305-312, 327, 331, 342, 381, 384, 386, 390, 396, 416, 433, 435, 439, 479, 539-547, 550, 553-566, 578, 581, 596, 597 Experimentelles Design 70, 110, 113f, 119, 131, 193, 217ff, 232, 245, 269, 278, 305, 307, 311, 323, 333, 336, 342, 351, 363, 381, 390, 395, 402, 409, 423, 427-432, 434, 442, 450, 469, 502, 520f, 525, 527, 530, 532, 586, 592 Experimentum crucis 327, 448, 566, 570 Explorative Datenanalyse (EDA): s. Datenanalyse Extrapolation 196, 207-212, 250, 332, 360, 479: s. auch Prognose, Induktionsproblem Facettentheorie(n) 18, 66, 68, 170, 173 Faktorenanalyse 136, 363, 509 Fallibilismus, Falsifikation, Falsifizierbarkeit, Falsifikationismus 43, 49, 91,
Sachregister 108, 183, 326, 343ff, 351, 386, 440, 556f, 572 Fehlende Daten: s. Daten Fehler, Fehlertheorie: s. Approximation, Hauptsatz der angewandten Statistik, Idealisierung, Messung, Modell, Zufall, Falsifikation, Unschärfe, Wahrheit, Passung Ferguson-Komitee 53, 612 Fiduzialargument 140, 392, 425, 469, 497 File Drawer Effect: s. Effekt Formalisierung 159, 268, 270, 365, 393, 428f, 440, 448, 495, 522f, 525, 529, 544, 549, 559, 586: s. auch Mathematisierung Formalismus (Hilbert) 47, 214, 548 Forschung 3, 9, 50, 54ff, 67, 106ff, 235, 280, 288ff, 328, 345, 351ff, 361, 384ff, 415, 422, 456, 520, 539-554, 575ff, 580, 589, 599 Freiheit der 577 Forschungsorganisation 575ff Forschungszirkel xi, 332, 384-396, 410, 422f, 452ff, 456, 476, 528, 539-554, 554ff, 559, 575f, 577ff, 581f, 589, 597ff Fortschritt 1, 10, 16, 40, 55, 64, 67f, 71, 77, 93, 124, 145, 151, 165, 171, 189, 281, 285, 288-291, 307, 339, 343, 345, 358, 411, 416, 431, 439, 452, 540, 550-554, 570, 577, 581-583, 589 akkumulativer: s. Akkumulationstheorie Fortschrittsillusion 551, 586 Fraktal 514, 517 Framingham-Studie 468: s. auch Epidemiologie Frankfurter Allgemeine Zeitung (FAZ) 453 Frequentist statistics: s. Statistik (orthodoxe), Wahrscheinichkeit (Häufigkeitsinterpretation) Full Probability Modelling 420, 448, 486: s. auch Modell, Modellierung Fundamentalwert 170 Fuzzy-Mengen 304, 421 gapminder 300 Gehirn im Tank 558 Genauigkeit: s. Präzision Generalisierung 16, 125ff, 148, 162, 193ff, 204, 241, 251, 282, 311f, 329, 334, 425, 504, 523, 553: s. auch Induktion Geologie 575 Geometrie 4, 7, 11, 57, 61, 214, 276, 327, 478, 517, 532, 549 Geschichte 396
Sachregister Geschwindigkeit 18, 20, 27, 63f, 159f Gesellschaft: s. Soziologie gesellschaft für analytische philosophie 561 Gesellschaft f. Wissenschaftsforschung 561 Gesetz, Gesetzmäßigkeit xii, 8, 20, 36, 44, 50, 56, 59, 152, 154, 160f, 182, 184, 188, 191, 195-197, 200, 202, 205, 207, 209, 213-216, 250, 271-275, 282, 289f, 311, 325, 329, 339, 343-346, 349, 353, 385, 412, 432, 446, 452f, 463f, 488, 492, 496, 500, 502, 512-515, 521, 533-537, 545, 552, 555f, 566, 569-570, 574-578, 586, 591, 595: s. auch Struktur Null-Eins- 537 Gesetz der großen Zahlen 82, 120, 130, 211f, 316, 516 Gesetzesschaffende Maschine: s. “nomological machine” Glaube 540 Glaubwürdigkeitsintervall 339, 397f, 497: s. auch Konfidenzintervall Glücksspiel 80, 182, 255 Gödelsche Sätze 210, 464f, 573: s. auch Berechenbarkeit Graphentheorie 146f, 429ff, 455, 522, 533 Gruppentheorie: s. Invarianz Halteproblem: s. Gödelsche Sätze, Berechenbarkeit Hassloch in der Pfalz 203 Hauptkomponentenanalyse 136 Hauptsatz der angewandten Statistik bzw. Datenmodellierung 148ff, 151, 172, 178, 206, 296f, 329ff, 377, 426, 451, 468ff, 472, 474, 500, 504ff, 529 Hauptsatz der Mathematischen Statistik 82f, 374 Heliozentrisches System 550, 579 Hempel-Oppenheim-Schema: s. Deduktivnomologisches Modell Hermeneutik: s. Wissenschaften (Geistes-) Hintergrundwissen: s. Kontext Holismus 570 Homo oeconomicus 175, 252, 453 Homöopathie 15 HQ 380: s. auch Informationskriterien Human Genome Project 302 Hypothese 317f, 319f, 343, 345, 354, 361, 385, 401, 470, 476, 506, 521, 540f, 570, 585, 592: s. auch Tests IBE (inference to the best explanation): s. Schluss auf die beste Erklärung
665 IDA: s. Datenanalyse Idealisierung 45, 186, 252, 273, 281, 286, 288, 331, 370, 400, 504, 533, 556, 574, 591 Idealismus 283, 565 Identifikation 454 identifizierbar: s. konfundiert 12, 65 Ideologie 419, 422, 428, 553: s. auch Dogmatismus Ignorierbarkeit 443f, 450, 454 IID: s. Zufallsvariable Immunisierung 40, 588 Imprecise Probability: s. Wahrscheinlichkeit Imputation 208 Incompressibility Method 489 Indifferenzprinzip 99, 156, 257-259, 419, 461, 467, 491, 534 Induktion xi, 54-61, 67, 83, 85, 92, 96, 124f, 151, Kapitel 4 (195-349), 351, 355, 362-364, 381f, 384ff, 427, 429, 433, 441, 456, 463f, 469, 471, 489, 491, 500, 509, 518, 527f, 540-544, 558f, 579, 589, 597 eliminative 96, 219, 250, 341, 435, 554 enumerative 250, 277, 329, 341, 482 instanzenbasierte 204f konservative 116, 567 Induktionsprinzip 195, 198, 210, 248, 250, 325, 340-348 Induktionsproblem 59f, 83, 117, 148, 182, 195-200, 325-349, 464ff, 478, 562, 566, 568, 571, 579, 583 Hume 59, 196-200, 340, 343-348, 454, 479, 481, 529, 557, 586 Neyman (induktives Verhalten) 117-121 Induktionstheorie (Solomonoff) 480f, 494 induktiv-statistisch 323ff, 563 Induktive Logik 199, 247-251, 333, 340, 356, 523, 558, 563 Induktive Lücke 85, 200f, 205, 207, 209, 212, 217, 220, 228, 241, 249-251, 254, 273, 275f, 289, 296, 312, 314f, 327f, 339-343, 346ff, 360, 386, 499, 502, 557 Induktive Orientierung 293-299: s. auch Empirismus Induktiver Sprung: s. Induktive Lücke Induktives Verhalten: s. Induktionsproblem (Neyman) Informatik, Informationstechnik 141-143, 181f, 290, 300f, 308, 359, 361, 371, 420, 445, 456, 467, 528, 546 Information xi, 4, 13, 31f, 35f, 41, 69, 71, 77, 80, 91, 94, 102, 113-115, 118,
666 122ff, 140f, 152, 156, 163ff, 185, 191f, 201, 206, 210f, 223, 241, 243, 245, 249, 252-259, 261, 263, 265, 267, 269, 271f, 278, 283, 297, 299f, 302, 305f, 315, 318f, 322ff, 332, 336f, 342-346, 366, 372f, 377, 379, 388, 391f, 394, 396, 398f, 403-406, 414, 421-424, 426, 429, 434, 438, 468f, 484f, 490, 501, 507, 511, 514, 520, 527f, 534f, 540, 543, 555, 558, 561, 566, 590, 592, 594, 597: s. auch Vorwissen, Informations. . . Fisher- 456, 461, 470, 478 Informationsfusion 302 Informationskriterien 377ff, 383, 494, 532 Informationsmarkt 527 Informationsparadigma 455-528 Informationstheorie 13, 124, 142, 301, 359, 419, 421, 440, 456-471, 482, 492, 496, 512, 518ff, 522f, 526ff, 536, 563, 598 Informationsungleichung 458 Informationsverlust 225, 368, 378, 466, 490, 508, 512 innovativ 10, 183, 202, 306, 362, 448, 576f Instrumentalismus 50ff, 179ff, 186, 188, 283, 285, 567 Integrität 599 Intelligente Datenanalyse (IDA): s. Datenanalyse Intelligenz 17, 52, 66, 68, 170, 173, 398 künstliche 421 Interessen 3, 246, 576, 593ff Internalisierung 288 International Statistical Institute (ISI) 426 Interpolation 207f, 212, 279, 332, 375 intersubjektiv 2, 6, 13, 35, 98, 255, 336, 394, 408, 486, 537, 551: s. auch objektiv Intervention 113, 222, 227, 304, 429-436, 447f, 453, 520, 525, 527, 532 Invarianz xi, 19-22, 35, 43, 48f, 51, 61, 65f, 75, 97, 99, 152-161, 164-166, 258ff, 314f, 354, 369, 392, 425, 435, 477, 505, 518, 520, 524, 528-537, 551, 567 irrational, Irrationalismus 410, 426, 557, 565, 570-575 Isolation 46f, 415f, 438, 528, 546 Jackknife 242, 382 James-Stein-Phänomen: s. Schätzung Journalismus 267, 584 KAM-Theorie (Kolmogorov, Arnold, Moser) 528
Sachregister Kartenspiel 512 Kausale Netze, Kausalität 124, 147, 184, 192f, 217ff, 221, 226, 234, 238, 245, 251, 285, 304, 306, 311, 322, 333f, 359, 390, 407, 421, 427-441, 448-455, 520, 522, 524, 527, 552, 561, 585, 589, 598 Keplersche Herausforderung 463 KISS-Prinzip 125 Klassifikation 137f, 363 Kleinste-Quadrate-Schätzung: s. Schätzung Klima, Klimaforschung: s. Meteorologie Klinische Studie 107, 113f, 174, 183, 221, 225, 227, 229, 231, 245f, 274, 406, 414f, 425, 520f, 553, 576 Kodierung 458-461, 474, 489, 492, 534 Kohärenz: s. Konsistenz Kollektiv (von Mises) 262, 508 Kolmogorov Axiomensystem 211f, 422, 431, 528 Entropie 475 Komplexität 462-468, 480f, 498, 500, 506f, 528 Strukturfunktion 465 Suffiziente Statistik 466 Kombinatorik 233, 465, 536 Komplexität 233f, 305, 376, 418, 462ff, 478, 487ff, 498f, 513, 519, 527f, 532f, 536f, 582f: s. auch Einfachheit Kompression: s. komprimieren komprimieren, komprimierbar 233, 388, 463ff, 471ff, 474, 476, 479f, 487, 489, 495, 501f, 504ff, 508-510, 526 Konfidenzintervall 94, 265, 397ff, 425f, 446, 478, 497f, 518 Konfirmatorische Datenanalyse (CDA): s. Datenanalyse konfundiert 12, 65, 223, 225, 229, 424, 433, 436, 444, 447, 455, 498 Konklave 495 konnotativ 590 Konsens, Konsensfindung 36, 255, 305, 313, 408-411, 422, 485f, 551, 559f, 597 Konservatismus 111, 115, 183f, 187, 246, 303ff, 307, 358ff, 383, 415 Konsistenz 49, 248, 252-254, 262, 272, 319f, 353, 380, 391, 408, 411, 420f, 426, 435, 439, 471, 475, 480, 518, 521, 523, 531, 540, 552, 596 konstruktiv-kritisch 578, 581f, 586 Konstruktivismus 50, 57, 570f, 574f, 598 Kontext 12, 50, 172, 191-193, 210, 242, 272, 279f, 286, 294, 299, 308-314, 322, 326f, 331-336, 342, 351, 357, 374, 377,
Sachregister 386, 390, 395, 401, 403ff, 413, 418, 423, 427, 433-438, 447f, 450, 462, 469, 486, 491, 503, 512, 520ff, 532, 537, 542, 544, 547, 551, 562, 570f, 579 Kontingenztafel 371ff, 474 kontrafaktisch: s. counterfactual Kontrollfunktion 448, 450 Konvention 80, 88, 167, 212, 259: s. auch Protophysik Konvergenz (von Meinungen): s. Konsensfindung Korrelation 134ff, 137, 146f, 161, 192, 282, 304, 334, 363, 434ff, 441ff Korrelationsanalyse, kanonische 134ff, 363 Korrespondenzanalyse 136, 509 Kovarianzanalyse 134 Kraft 536 kreativ 59, 303, 386, 541, 575, 577 Kreuzvalidierung 380-384, 529 Kriterium: s. Variable (abhängige) Kritik 7, 40, 94, 100, 184, 186, 210, 219, 244, 260, 290, 293, 306f, 339, 344, 414, 437, 440ff, 451ff, 567ff, 581-586 Kryptographie 508 Kugelblitz 15 Kullback-Leibler-Abstand (Entropie): s. Entropie (relative) Künstliche Intelligenz 124, 304, 307, 341, 421
Lady-tasting-tea 241f, 308f latent 136ff, 145ff, 152, 282f, 396, 398, 405, 407, 429ff, 439, 501ff, 506 Latente Strukturanalyse 136 Law of Decreasing Credibility (Manski) 338f: s. auch Sensitivitätsanalyse Law of Insufficient Reason: s. Indifferenzprinzip Leading Situation (Tukey) 296f, 502 Leap of Faith: s. Induktive Lücke Leave-One-Out-Methode 382f Lernen (insbes. aus Erfahrung) 77, 122ff, 196, 278, 295, 301, 334, 337f, 402, 428, 468, 474, 485, 501f, 518, 539f, 542, 558, 565, 583f Let the data speak for themselves: s. Daten Levels of Evidence 244 Likelihood-Funktion 90, 96, 99, 123, 128, 265f, 317, 389, 394, 509, 524 Likelihood-Prinzip 266ff, 389, 395f, 400, 402f, 406, 423, 427, 468 Likelihood-Schule: s. Statistik
667 Linearität 27ff, 36, 127, 129-135, 138f, 158, 176, 259, 367f, 375, 429, 502, 506, 508, 520 Lingua Franca 564 LISREL 136ff, 146ff: s. auch Pfaddiagramm Logik 2, 5, 84, 210, 248ff, 252, 320, 335, 411, 425, 463f, 471, 531, 568ff, 578f, 584, 596f: s. auch Konsistenz Long Run 104f, 115, 118, 120, 203, 397, 399, 402, 425, 441, 483, 497, 533 Luftfahrt 290 Machine Learning 124, 184, 210f, 299, 307 Macht 56, 235, 431, 481, 575, 577 MANOVA 136 Marketing 202f Markov. . . 144f, 298, 499, 502 Martingal 144, 298, 418, 502, 525 Masse 19, 51, 224, 572 Maßstab, universeller 3, 470, 489, 519, 533, 569 Maßtheorie 491, 525f Matching 444, 446, 451, 532 Mathematik xi-xiii, 3, 13, 42f, 46f, 49, 55-62, 72ff, 76, 195f, 199, 227, 253f, 287, 339f, 342, 348, 351, 353ff, 359, 366ff, 415, 422, 470f, 485, 493, 528, 545, 547, 552f, 557, 568ff, 573, 585, 588, 596f angewandte 5-8, 64, 77, 114f, 117, 143, 153, 158, 271f, 293, 355, 358ff, 370, 431f, 453, 492, 523, 546, 557, 564, 566ff, 578, 595ff Finanz- 143, 170f, 185, 289, 571 Philosophie der 1, 47, 214, 548, 556 Mathematische Statistik: s. Statistik Mathematisierung 42ff, 59-62, 238ff, 268, 328, 390, 428, 546, 561, 563, 596: s. auch Formalisierung, Methoden (quantitative) Mathematistry (Box) 357f Matthäus-Effekt: s. Effekt MaxEnt (Prinzip der maximalen Entropie): s. Entropie Maximale Bestimmtheit 323: s. auch Referenzklasse Maximum Likelihood: s. Schätzung MDL: s. Minimum Description Length Mechanik 20, 275 Mechanismus 11, 145, 178, 192, 207, 209, 277-280, 297, 301, 314, 407, 432, 434, 440, 443, 447, 451, 469, 499, 500, 520, 522, 545, 578 Median 33ff, 38, 141, 243, 365
668 Medizin 93, 209, 226f, 290, 325, 329, 359, 361, 364, 543, 545, 575, 584: s. auch Statistik (medizinische) evidenzbasierte 227, 244, 313, 415 Messtheorie 23-76, 151f, 259, 274, 313, 354, 422, 425, 505, 530, 546 operationale 50-54, 167ff repräsentationale 23-25, 50, 53f, 66, 167ff Messung 3f, 13, 23ff, 53f, 60, 65-68, 92, 151f, 154, 160-164, 292, 331, 511, 551, 590, 596 Äquivalenz 25ff, 62ff, 154-160, 164, 354 Fehler 43, 68, 129, 172ff, 178, 206f, 365, 376, 484, 491, 500, 505-508, 511 fundamentale 47, 70, 314 Temperatur 25, 27, 30, 35, 40, 67, 70f, 252 Metaanalyse 102f, 122, 355, 527 Metaphysik 2, 285, 441, 543, 561 Meteorologie 145, 150, 174, 204, 282, 302, 514, 558, 575f Methode(n) 3, 299, 305 empirische: s. Daten, Experiment, Forschungszirkel graphische: s. Anschauung qualitative 31f, 337, 390, 586: s. auch robust quantitative 3ff, 31f, 123, 203, 205, 208, 232, 245, 251, 287, 291, 293, 307f, 344, 453, 485, 539, 568, 578, 585f, 594, 596: s. auch Präzision wissenschaftliche 14, 114-118, 121, 151, 213, 224, 235ff, 270, 272, 291, 362, 550, 569, 574, 578ff Metrik 378, 458 Mills Induktionsstrategien 217-224, 231, 237, 239, 240, 251, 277, 333, 390, 432, 446, 530 Minimax 175 Minimierung 225, 234 Minimum Description Length (MDL) 380, 473-478, 481, 500, 519, 527: s. auch Informationskriterien Minimum Message Length (MML) 380, 471ff, 477, 494, 519, 527: s. auch Informationskriterien Minimum Variance Unbiased Estimator (MVUE): s. Schätzung Mischung, mischen 147, 249, 267, 272, 364, 366, 370, 401, 410, 449, 512, 517, 528 Missing Values: s. Daten (fehlende) Mittel (Mittelung) 505, 516
Sachregister arithmetisches 32-38, 40, 63, 70, 127, 141, 156, 163, 168ff, 364, 366, 379, 382, 401, 516: s. auch Erwartungswert geometrisches 34 getrimmtes 38 Hodges-Lehmann- 366 Mittelalter 575 MML: s. Minimum Message Length Mode: s. Zeitgeist Modell, Modellierung 109ff, 121, 126f, 129-150, 153, 172-194, 204, 207, 212ff, 217ff, 231, 244, 254, 271-293, 301, 314, 327-332, 334, 340, 348, 351f, 360, 364, 371, 377-381, 396, 407, 420, 429ff, 439f, 446, 449ff, 453, 469, 471, 474-476, 479, 506ff, 518, 520, 522, 527, 535, 541, 544, 585, 592: s. auch Struktur Auswahl 375ff, 381f, 387, 470, 509, 562 deskriptive 278ff, 285f Entwicklung 278-283, 387, 509, 529 Interpretation 176-189, 370, 485, 511 (Miss-)Spezifikation 172f, 174ff, 191, 194 Passung: s. Passung realistische 278ff, 285f Standardkosten- 594 Modellklasse 176, 193, 374, 378, 476, 506-511 Modus 33 Modus tollens 83, 96, 250, 326, 344 Moral: s. Ethik Multidimensionale Skalierung 137f, 363, 509: s. auch Dimensionsreduktion Multimodel Inference 182 Münzwurf 79, 184f, 407, 484f, 490f, 495, 499f, 507, 513, 536: s. auch Zufallsexperiment, Randomisierung, Verteilung Muse 577 Muster: s. Struktur Mustererkennung 184, 302ff, 422, 463, 474, 506, 509 Naturgesetz: s. Gesetz Naturwissenschaften: s. Wissenschaften Nearly Black Object 503 Neuer Experimentalismus 555f, 561 Neuronale Netze 145, 181, 183, 303, 307, 381, 509 Neutrino 567 Neuzeit 54, 209, 214, 314, 527, 561, 575f, 581, 597 Neyman-Scott-Problem 472 nichtlinear: s. Linearität, Chaos
Sachregister No Free Lunch 243 No-Miracles-Argument 221, 565 Noether-Theorem 20 Nomological Machine (Cartwright) 197f Normalverteilung: s. Verteilung normativ 35, 39, 56-58, 68, 71, 116, 167, 288, 344, 353f, 410, 422, 572, 579, 589f Nullhypothese: s. Hypothese, Tests Nulltes Problem (Mallows) 175, 452 Number Needed to Treat (NNT) 94 objektiv, Objektivität 10, 13-15, 99, 104, 107, 113, 120, 125, 165, 212, 247, 261, 263, 322, 328, 367, 383, 395, 407ff, 414, 426, 486, 525, 537, 545, 552f, 586, 592f Occam’s Razor 175, 376, 467, 480, 482, 491, 591: s. auch Einfachheit Odds 156f, 264, 486 Okkulter Effekt: s. Effekt Ökonomieprinzip des Denkens: s. “Occam’s Razor” Ökonometrie 133, 145, 171, 173, 182, 270, 289, 291, 400, 422, 448, 450f, 591, 593: s. auch Wissenschaften OLS (Ordinary Least Squares): s. Schätzung Ontologie 2, 78, 177, 181, 189, 599 Operationalisierung 108, 161, 164, 272, 327f, 368, 385, 390, 395, 428, 431, 433, 456, 485, 515, 540, 556 Operationalismus 18, 50, 52ff, 62, 65f, 70, 163-164, 167f, 171, 177, 439, 451: s. auch Instrumentalismus Operatorgleichungen 138f Optimierung 118, 139, 148f, 158, 259, 260, 269, 281, 294, 366-369, 376f, 383, 510 Overelaboration 173f Overfitting 148, 182ff, 304, 376f, 383, 472f, 500, 511 Oxford Centre for Evidence-based Medicine 244 p n-Probleme 418 P-Wert 85-89, 102f, 107, 114, 119, 122, 140, 257, 383, 408, 476, 529, 531 Paradigmenwechsel: s. Wissenschaftliche Revolution Paradoxon 348f, 583f Achilles (Schildkröte) xii, 348 Bertrand 159, 166, 319 Epimenides (Lügner) xii
669 GRUE- (Goodman) 197ff, 315ff, 321, 478, 529 Hempel (Raben) 93, 316ff, 321, 583 Hume: s. Induktionsproblem Kyburg (Lotterie) 319f, 583 Partitionierung 158, 258, 261, 475 Simpson 315, 321ff, 403, 405, 429, 434ff, 455, 584 Stoppregel 401 Wein-Wasser- 156ff, 259f Parameter, Parametrisierung 19, 79, 97, 125-128, 132, 134, 137f, 140, 144-149, 154, 158, 162, 166, 170, 174, 176, 181, 188, 206, 256-261, 266-269, 276, 279f, 286, 368, 374-379, 389, 397, 404f, 407, 413, 445, 450-454, 468-479, 497, 501f, 508, 518, 524, 531f Parameterraum 266-269, 428, 461, 475, 524, 531 Parapsychologie 15 Parsimony: s. Einfachheit Passung 96, 178f, 209, 271ff, 276-278, 286, 294, 330f, 353, 357, 376f, 381, 511, 552f, 556, 578-581, 598 Peer-Review-System 576 Perfektionismus 557, 573 Periodensystem der chemischen Elemente 550f, 579 Permutation 315 Permutierbarkeit: s. Austauschbarkeit, Vergleichbarkeit Perspektive 9, 19, 65-68, 297, 335, 339, 364ff, 370, 380, 393-399, 400ff, 411, 414, 513, 559, 591, 598f Posteriori- 266, 269, 388, 399, 401, 406, 430, 446, 498, 579 Priori- 269, 368, 397ff, 430, 450, 452, 525, 579 Wechsel der 15ff, 19ff, 150, 218ff, 242, 496ff, 516f, 530, 552, 559 Pfaddiagramm 146, 149, 289, 291, 429: s. auch Kausale Netze Pharmakologie 143, 209, 246, 542f, 546: s. auch Klinische Studie, Medizin Phasenübergang 534f Philosophie xii, 2, 409, 412, 439f, 482, 491, 528, 546, 554, 560-573, 583f, 587f, 595ff, 599f wissenschaftliche 560f, 563, 573, 589, 596 Phlogiston 177, 567 Physik 6ff, 16ff, 47, 56, 58, 60f, 180, 184f, 188f, 202, 209, 213, 222, 294, 302, 312, 314, 331, 345, 358, 362, 379, 384, 386, 411f, 416, 422, 446, 452, 475,
670 485, 492, 522, 529, 534f, 537, 545, 547, 549f, 556-558, 566f, 569, 573, 588, 596 Placeboeffekt: s. Effekt Pluralismus 564f, 569, 599 Politische Arithmetik 5 Population 169, 201ff, 205, 240, 242ff, 250, 340, 384, 453, 474, 497, 521 Positivismus 52, 177ff, 283, 438f, 514, 550 Positivismusstreit 4 postmodern 564ff, 573f, 590 Potential Outcome: s. counterfactual Prädiktor: s. Variable (unabhängige) Präfix-Code: s. Kodierung pragmatisch 67, 125, 145, 151, 166, 177, 181, 288f, 308, 337, 411f, 425, 439, 553 Prämisse: s. Voraussetzungen Präzision 5, 40, 45, 50, 53, 56, 68, 188, 217, 221, 278, 285, 287, 319f, 326, 331, 337, 358, 367, 433, 453, 526, 534, 544, 547f, 552, 578, 596f: s. auch Reliabilität, Mathematisierung, Methode prequential (Dawid) 479, 527 Principle of Insufficient Reason: s. Indifferenzprinzip Probabilistic Causality (Reichenbach) 437 Problem of the Nile (Fisher) 405, 473, 477 Prognose 5, 56, 145, 150f, 179, 188, 190, 196, 203, 208-211, 221, 254, 274-281, 289, 301, 316, 331, 334, 343, 345, 349, 375, 386, 432, 442, 479-481, 499, 507, 511ff, 517, 522, 526, 540, 544, 552f, 566, 574, 578f Programm (Informatik) 463ff Projektion 11, 13, 51: s. auch Transformation Projektive Geometrie: s. Projektion Propensity (Popper): s. Wahrscheinlichkeit Propensity Score 425, 442-448, 450, 454 Prospect Theory 175 Protophysik 57f Prozess: s. Mechanismus stochastischer: s. Zufallsvariable Psychoanalyse 283, 416, 546, 550 Psychologie 17, 161, 170, 182, 289, 329, 361ff, 386, 416, 421, 553, 597 Psychometrie 52ff, 171, 398, 590: s. auch Intelligenz Psychophysik 42, 52ff, 261, 550 Ptolemäisches System 174, 280, 305, 438: s. auch Black Box Publication Bias: s. Bias
Sachregister Publish or Perish 577 Pygmalion-Effekt: s. Effekt Quantentheorie 189, 215, 275, 484, 492, 526, 573, 579, 590 Quietismus 411 Rad 549: s. auch Forschungszirkel radikal 212, 252, 413, 570-573, 583, 598 Randbedingung: s. Kontext, Bedingen, Voraussetzungen Randomisierung 100, 140, 203, 226-234, 234ff, 244ff, 263, 266, 401, 406, 413, 427, 430, 441, 443, 448, 451-455, 498, 520f, 530, 586 eingeschränkte 232ff rational 175, 252f, 319f, 421, 426, 581 Rationale Heuristik 567 Rationalismus 116, 196, 198f, 586 kritischer 107, 181: s. auch Fallibilismus Raumfahrt 290, 580 RCT: s. Klinische Studie Realisierung: s. Zufallsvariable Realismus 11, 65f, 168ff, 172, 176-189, 276, 451, 551f, 567ff, 570: s. auch Invarianz Debatte 21, 565f naiver 43 Realität 10ff, 23ff, 78ff: s. auch Daten, Forschungszirkel, Induktiver Sprung, Information, Invarianz, Modellierung, Passung, Prognose, Realismus Realitätsverlust 552, 561f, 564-571, 574f, 583, 595f, 599: s. auch Spekulation Rechtfertigungszusammenhang: s. Begründungszusammenhang Referenzklasse 204f, 250, 322-325, 329, 404ff, 437, 455, 521: s. auch Bedingte Inferenz Referenzmenge: s. Referenzklasse Regelmäßigkeit: s. Gesetz, Struktur, komprimierbar Regress des Experimentators 555 Regression, Regressionsanalyse 132-134, 137, 161, 215ff, 220, 231, 270, 288ff, 333, 363, 375f, 413, 434, 445, 479, 506, 508, 518 Reihenfolgeeffekt: s. Effekt Relation 23 bedeutsam 31ff Relativ empirischer 24, 30, 36, 43f, 48 numerischer 24 Relativismus 568ff, 572, 581 Relativitätsprinzip 18: s. auch Invarianz
Sachregister Relativitätstheorie(n) 19, 21, 57f, 294, 579 Reliabilität 120, 152, 162-164, 174, 176, 188, 243, 269, 328, 367, 511, 529, 544, 586, 592, 596 Repeated Sampling: s. Replikation Replikation 14f, 22, 64, 94, 102, 104f, 113, 120, 152, 163, 189, 236, 241, 243, 246, 251, 264, 326, 331, 336, 342, 360, 381, 384f, 396f, 399, 402, 407, 433, 435, 485f, 493, 497, 517, 521, 530, 545, 552, 570, 578, 586 Repräsentant 204, 497f Repräsentativität 201ff, 240, 245, 250, 263, 326, 327ff, 333, 384, 503 Resampling 141f, 242-244, 265, 383 Revolution: s. Wissenschaftliche Revolution, Evolution, Theorie Risikoreduktion 94 Ritual 93, 114, 170, 291, 329, 415, 549 robust 38, 75, 81, 91, 100f, 186, 256, 273, 287ff, 298, 336ff, 370, 373, 503, 535f: s. auch sensitiv Royal Statistical Society 10, 441 RRR: s. Risikoreduktion Rubin Causal Model 454 Rückkopplung 595
σ-Additivität 211, 227, 422 σ-Algebra 525, 531 Sampling: s. Stichprobe, Experimentelles Design, Statistik (orthodoxe) Schätzung 99, 127ff, 140, 154ff, 316, 367, 403, 425, 454, 470, 474, 518f, 524, 532 adaptive 374ff erwartungstreue (unbiased) 158, 162f, 270, 367f, 425, 531 James-Stein-Phänomen 405, 473, 477 Kaplan-Meier- 374 Kleinste-Quadrate- 133, 479 Maximum-Likelihood- 127ff, 145, 165, 378, 413, 472-475, 518 Minimum Variance Unbiased Estimator (MVUE) 141, 367, 532 Plug-In- 144f, 374 Science Citation Index 9 Science Studies 564, 589, 598 Scientific American 588 Schluss auf die beste Erklärung 128, 251, 341, 480 Schmetterlingseffekt: s. Effekt Scoring 145, 253 Selbsterfüllende Prophezeiung 225, 574
671 Selektion 12, 112, 185, 224f, 245, 400ff, 427, 446-450, 455, 504, 518, 521, 527, 586: s. auch Bias, Zuweisungsmechanismus sensitiv 91, 122, 208, 256, 284, 287, 336ff, 366, 369, 513, 535: s. auch robust, Effizienz Sensitivitätsanalyse 338f, 513, 535f Signifikanz 94, 114, 468: s. auch Tests Simulation 98, 142, 150, 183, 231, 242f, 276, 282, 289, 338, 364f, 370f, 381f, 420, 429, 493, 547 Skala 24ff, 154ff, 598 Absolut- 30, 166, 260, 368 Hierarchie 27ff, 33f, 41ff, 71 Intervall- 29f, 34-38, 40, 69f, 152, 368 Niveau 27, 30, 33-39, 41, 72, 74 Nominal- 28, 33-35, 38, 40f, 48, 87 Ordinal- 28, 30, 34-38, 40, 69f, 81, 152 Verhältnis- 30, 35f Skepsis: s. Kritik Skeptizismus (Hume) 572 Social Physics 289f, 362 Society for Imprecise Probability (SIPTA) 421 Sokal Hoax 564f Solipsismus 558 Sozialwissenschaften: s. Wissenschaften Soziologie 4, 289, 362, 549, 569, 572ff, 588, 590ff, 597: s. auch Wissenschaftssoziologie Spektralanalyse 296 Spekulation 3, 185, 189, 193, 334f, 342, 351, 400, 549, 552f, 561, 564, 570-573, 583, 590, 599 Spieltheorie 110, 175, 261, 459, 522, 525ff Splitting, Split-Half-Methode 360, 381f Sprache 598 formale 5, 421, 524 Stabilität xii, 182, 336, 351, 530, 555, 561, 573, 578, 592 Stable Unit Value Treatment Assumption (STUVA) 450, 532 Standardisierung 241, 311, 418 Stationarität 144, 296, 298 Statistical Science: s. Statistik (Fachgebiet) Statistik (Fachgebiet) 8ff, 263, 316, 326, 425, 452ff, 518-528, 550, 557, 563, 572, 583-586, 595-599 adaptive 299, 589-594 asymptotische 82f, 206, 502, 533, 536f Bayessche 98f, 107, 120, 173, 212, 247-271, 333, 355, 391ff, 396, 399f, 405f, 408ff, 413f, 418-422, 426f, 429f, 437, 453, 461, 468, 471, 474, 477, 481,
672 484, 493, 499, 505, 518, 521, 523, 526f, 531ff, 558, 598 Definition 4, 116, 124, 130, 303, 308, 490, 522 deskriptive 297ff, 309, 365, 388, 504 explorative: s. Datenanalyse Geschichte 5f, 92ff, 106-121, 123f, 178, 247f, 269f, 293f, 300, 303-307, 354-364, 410-422, 424, 439ff, 517-528, 572 Grundlagen 124f, 419f Kochbuch- 93, 298, 369 Likelihood-Schule 266ff, 389, 393-396, 505 mathematische 82, 124f, 183, 294, 299, 306f, 313, 354-359, 365, 410, 416, 425, 470, 490, 528, 541, 546, 598 medizinische 94, 156, 191, 225, 247, 270, 288, 302, 359f, 415, 422, 584: s. auch Medizin Name 6 nicht-parametrische 69, 81, 126, 143, 176, 431, 477 nicht-stochastische 467, 469, 481 orthodoxe 73, 87, 110f, 115, 119ff, 124, 143, 166, 183f, 186f, 191f, 201, 228, 236, 245-247, 255, 261-270, 298, 300, 303-306, 310, 334, 337, 355, 358f, 375, 383, 391, 393-399, 402, 406ff, 414-422, 424ff, 430, 434, 440, 446f, 456, 468, 474, 477, 505, 518, 527f, 531f, 563, 598 parametrische 69, 72, 75, 125-128, 144, 503, 505, 523f sequentielle 406f, 521 Universitäts- 5 Statistik (Funktion der Daten) 364, 404f (nicht) bedeutsam, (nicht) skalenabhängig, (un)zulässig 32-35, 38, 40, 63, 68, 71, 164 Hilfs- (ancillary) 166, 372f, 403ff: s. auch Suffizienz robuste: s. robust suffiziente: s. Suffizienz Stichprobe 106, 201ff, 240, 265, 269, 340, 384, 453, 469, 497 Zufalls- 203f, 224, 240f, 243, 263, 333, 424, 527 Stichprobenraum 107, 119ff, 201ff, 236, 245, 265, 269, 398-408, 414, 424, 428, 431, 441, 444, 448, 474, 497, 513, 523f, 529, 531 Stochastik: s. Wahrscheinlichkeitstheorie
Sachregister Stochastische Gesetze: s. Wahrscheinlichkeitstheorie, Gesetz Stringtheorie 553, 590 Strong Programme (Bloor) 574f Struktur 23, 43ff, 58, 149f, 164, 173, 178, 184, 189f, 206, 213f, 276-278, 281, 294, 301, 303, 327-332, 345, 352, 363, 371f, 376f, 390f, 424-427, 431, 464f, 469, 478, 487, 500-515, 518, 525, 528, 532, 544, 562, 565, 569, 590 latente: s. latent Strukturalismus 21, 213f, 563 Strukturgleichungsmodell: 429, 441, 448ff: s. auch LISREL, Pfaddiagramm Strukturrealismus 176f, 551: s. auch Realismus Subjektivität 10f, 107, 120, 122, 190, 232, 254f, 261ff, 407ff, 419ff, 440, 510, 545, 573f, 586, 590 subjektunabhängig 12f: s. auch objektiv Substanzieller Zusammenhang: s. Kontext Success Words (Stove) 570 Suffizienz 140, 166, 243, 360, 369, 398, 403ff, 407, 413, 435, 466, 474, 497, 505, 525, 531 Suffizienzprinzip 266f Support Vector Machine (SVM) 418 Sure-Thing Principle (Pearl) 436 Symmetrie 20, 34, 67, 164, 224, 354, 484f, 529: s. auch Invarianz Symmetriebruch 529-537, 590 Systemtheorie 546, 590ff, 598 Technik 7, 26, 125, 150, 181, 277, 331, 420, 534, 595, 597 Tests, statistische Testtheorie 83-106, 183, 270, 292, 327ff, 355, 362f, 375, 388, 401, 403, 425, 475f, 488, 519, 536: s. auch Hypothese adaptive 371ff Alternativhypothese 89f, 108 Bayessche 98f, 317 bedingte 371ff, 402ff Fehler 1., 2. und 3. Art 89f, 96, 104f, 111, 174f, 187, 273, 401, 425, 586 Fehlerkontrolle 104f, 111ff, 119, 355 hybride 92-95 Hypothesen- (Neyman und Pearson) 89-92, 97, 108, 114, 117, 328, 363, 367f, 371, 409, 474f, 482 Likelihood- 95-98, 103, 123, 250, 317f, 327 Niveau 89f, 355, 409
Sachregister Nullhypothese 86, 89f, 93, 101, 108, 112, 232, 238, 257 Permutations- 242, 534 psychologische 148, 168 Power 89-92, 120 Randomisierungs- 235ff, 241, 245, 451, 530 Replikation 101-106, 236 Ritual 93, 114, 415 Signifikanz- (Fisher) 83-89, 123, 140, 250, 309, 327, 363, 371, 476 Student t- 373 Vierfelder- 371 Theorie 316, 323, 331, 481, 540-549, 553, 566f, 571, 578f, 586ff, 590f, 597f: s. auch Modell Dynamik, Entwicklung 543-548, 555: s. auch Forschungszirkel theoriegeladen 391, 555, 562, 571 theoriegeleitet 547ff: s. auch Deduktivnomologisches Modell, Deduktion theorielastig 554ff, 561f Toolkit Statistician 411f Transformation 51, 87, 160, 164, 258ff, 267, 354, 368, 530 Skalen- 26-34, 43, 48, 83ff, 157f zulässig 11, 28, 32ff, 43, 49, 68-72, 75, 164 Turing-Maschine 210, 463, 480 typisch 488f, 496f, 500, 503, 509, 516 überadaptiert: s. overfitting Überlebenszeit 374 Umfeld: s. Kontext Unabhängigkeit: s. Zufallsvariable, Variable unbestimmt 483ff, 490f Underfitting: s. “Overfitting” Universalrechenautomat: s. TuringMaschine Unschärfe 484, 493, 513: s. auch Fehler Unschärferelation (Heisenberg) 590 Unterbestimmtheit 148, 194, 213, 276, 326, 566, 570 Unwissen 59, 99, 116, 118, 174f, 248f, 254-258, 268, 308, 320, 395, 428, 431, 461, 467, 484, 490, 493 Urlauberdilemma 175 U.S. Department of Health, Education, and Welfare 184, 435 Valencia International Meetings on Bayesian Statistics 419
673 Validität 162-165, 167, 174-176, 188, 206, 243, 245, 269, 328, 367, 384, 388, 436, 523, 529, 544, 586, 592, 596 externe 152, 162, 238f, 277, 333, 453, 521: s. auch Generalisierung interne 162, 238f, 312, 453, 521 Variable abhängige 133ff latente: s. latent unabhängige 133ff, 473 Variabilität 130ff, 149, 151, 173f, 202, 204f, 230, 242f, 256, 263, 308, 330f, 364, 376f, 415, 485, 490, 493, 507, 510f, 514 Varianz 69, 127, 129, 133, 138, 158, 365, 367f, 373, 487, 501, 505, 531 Varianzanalyse 72, 110f, 130ff, 270, 310, 363, 423, 427, 508, 520 Variation: s. Variabilität Veil of Perception (Locke) 206 Veranschaulichung: s. Anschauung Verein Ernst Mach 196, 561 Verfahren: s. Algorithmus, Methode Vergleichbarkeit 113, 223-225, 227-232, 234, 237-241, 244f, 251, 263, 326, 401, 418, 424, 441, 446f, 489, 530f: s. auch Austauschbarkeit Verlustfunktion 366f, 377 Verständnis: s. Wissenschaft, Theorie, Fortschritt Versuchsleitereffekt: s. Effekt Versuchsplanung: s. Experimentelles Design Verteilung (einer Zufallsvariablen) 79f, 128, 143, 268, 298, 326, 399, 457ff, 484, 490, 496, 501, 516f, 520, 527, 533: s. auch Wahrscheinlichkeit Bernoulli- 79, 407, 495f, 513: s. auch Münzwurf Binomial- 372, 407 Gleich- 85f, 99, 156, 257-260, 268, 393, 460f, 496 Normal- 72, 87, 126-132, 138f, 176, 369, 373, 397f, 401f, 407, 460, 501-503, 512, 520, 523 Poisson- 126, 166 Posteriori- 107, 254, 518 Priori- 107, 254ff, 258ff, 264f, 269, 392, 395f, 408, 414, 430, 461, 469, 474, 481 universelle 461, 534 Verteilungsfamilie 471, 473-477, 502: s. auch Statistik (parametrische) Verteilungsfunktion (einer Zufallsvariablen) 80f, 496
674 empirische 81, 374, 534 Voraussage: s. Prognose Voraussetzungen 7, 40, 43, 57f, 69f, 72ff, 81, 99f, 126, 129, 140, 174, 208, 219ff, 238, 250f, 268, 271, 274-278, 284-289, 291f, 294ff, 327f, 336ff, 346ff, 351, 355, 365-370, 385, 389, 393, 396, 409, 433, 437ff, 446f, 449ff, 491, 502ff, 506, 520, 523, 528, 535, 540, 578, 584, 586 Vorwissen 87, 104, 176, 204, 220, 235, 238, 246, 254-258, 260, 268, 269, 309, 312, 325, 334, 337, 388, 392, 395, 397, 413-415, 418f, 425f, 430f, 453, 472, 497, 504, 524, 558, 586 Vorhersage: s. Prognose Vorhersagbarkeit: s. Chaos Wahrer Wert 154, 167-171, 177, 365, 367, 501 Wahrheit 19, 149, 165, 178ff, 248, 276, 331, 335, 339, 344, 351, 384, 408, 475, 537, 540, 559, 565f, 570, 587, 596, 598 Wahrnehmung: s. Anschauung, Erkenntnistheorie Wahrscheinlichkeit 205, 247ff, 263, 269, 471, 482-494, 498, 510, 520, 526, 534, 552, 563, 590: s. auch Verteilung Häufigkeitsinterpretation 104, 120f, 212, 227, 261f, 397, 407f, 412, 426, 483ff, 488, 507, 534: s. auch “long run” Informationsinterpretation 485-494 Intervall- 420 logische Interpretation 483, 534 physikalische Interpretation 249, 261 Posteriori- 98, 104, 123, 255, 319 Priori- 98, 104, 156, 265, 319 Propensity-Interpretation 483ff, 494, 507, 514, 534 strukturelle 392 subjektive Interpretation (Überzeugungsgrad) 123, 248ff, 252, 254f, 262f, 320f, 407, 474, 483ff, 534, 559 ungenaue (imprecise probability) 420 universelle 467ff, 495 Wahrscheinlichkeitstheorie 77-83, 124, 130, 211f, 248ff, 314-325, 362, 392f, 418, 421, 429-433, 438, 447, 455, 462, 470, 474, 486ff, 495ff, 504, 512, 522-528, 533, 558, 590 Wellenlänge 159 Wette 253-255, 485, 525 Wetter: s. Meteorologie Widerspruchsfreiheit: s. Konsistenz
Sachregister Wiener Kreis 52, 181, 283, 353, 439, 561, 568, 573, 590 Wikipedia 125, 217, 334, 340, 375, 421 Wirtschaftswissenschaften: s. Wissenschaften Wissenschaften Cargo-Kult- 598f empirische 2ff, 12ff, 56f, 123, 143, 153, 165, 205, 307, 328, 330, 339, 345, 351, 358ff, 386, 414f, 428, 434, 452ff, 481, 494, 528, 534, 539-555, 557, 560, 568, 572-580, 587, 589, 595ff, 600 Geistes- 571f, 581, 588f Ingenieur- 7, 214, 276, 546, 553, 587 kumulative: s. Fortschritt Natur- 93, 122, 224, 235, 246, 289-294, 580, 588f, 597 Pseudo- 543 Sozial- 93, 162, 182, 283, 288-294, 325, 330, 345, 362ff, 434, 453, 544, 588 Wirtschafts- 175, 252, 289, 293, 361, 363f, 452f, 524, 544, 550: s. auch Ökonometrie Wissenschaftliche Methode: s. Methode Wissenschaftliche Revolution (Kuhn) 548, 566f, 570, 587, 598f: s. auch Perspektive Wissenschaftsforschung 3, 8ff, 561, 589f, 598 Wissenschaftsgeschichte 560f, 572, 581f, 588 Wissenschaftspolitik 575-577 Wissenschaftsrealismus, Wissenschaftlicher Realismus 176ff, 186, 565, 569, 580, 587: s. auch Realismus Wissenschaftssoziologie 561f, 564, 573-577, 598 Wissenschaftstheorie 2f, 8ff, 124, 247, 326, 354, 359, 361, 391, 416, 421, 428, 479f, 493ff, 539-599: s. auch Philosophie Geschichte 2ff, 554ff, 560f, 572f Zeitgeist 556, 571, 579-582 Zeitreihe 143, 150, 509 Zensierte Daten: s. Daten (fehlende) Zufall, zufällig 149-151, 203, 323, 330, 484, 487f, 498f, 504-512, 515, 517, 519, 527, 533ff, 590 algorithmisch 462, 465ff, 471, 487, 494, 499, 506ff, 563 Zufallsauswahl, Zufallsstichprobe: s. Stichprobe, Randomisierung
Sachregister Zufallsexperiment 78, 80, 261, 399, 407, 455, 484f, 490-492, 496, 512, 514, 533 Zufallsvariable 78ff, 326, 459, 474, 490, 496, 516f, 524 unabhängige 79, 323, 399, 495, 498, 502, 533 unabhängige und identisch verteilte (IID) 78-83, 125, 129f, 143f, 152, 163, 168, 206, 315, 365, 389, 397, 400, 403f, 489, 496-501, 506
675 und Realisierung 78ff, 233f, 403, 446f, 492, 495-501, 516, 536 Zufallszahlengenerator 499, 508 Zuweisungsmechanismus 233, 396, 400, 407, 444ff: s. auch Randomisierung Zweifel: s. Kritik Zwillingsstudie 17, 204, 222, 237, 246, 444, 446