Herausgeber: Prof. Dr. Holger Dette Prof. Dr. Wolfgang Hardle
.
Springer Berlin Heidelberg New York Hongkong London M...
341 downloads
2062 Views
64MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Herausgeber: Prof. Dr. Holger Dette Prof. Dr. Wolfgang Hardle
.
Springer Berlin Heidelberg New York Hongkong London Mailand Paris Tokio
Statistik und ihre Anwendungen
Azizi Ghanbari, S. Einfuhrung in die Statistik fur Sozial- und Erziehungswissenschaftler 2002 Brunner, E.; Munzel U. Nichtparametrische Datenanalyse 2003 Dehling, H.; Haupt, B. Einfuhrung in die Wahrscheinlichkeitstheorie und Statistik 2. Auflage 2004 Diimbgen, L. Stochastik fur Informatiker 2003 Falk, M.; Becker, R.; Marohn, F. Angewandte Statistik 2004 Franke, T; Hardle, W.; Hafner; C. Statistik der Finanzmarkte 2. Auflage 2004 Greiner, M. Serodiagnostische Tests 2003 Handl, A. Mulitvariate Analysemethoden 2003 Hilgers, R.-D.; Bauer, P.; Scheiber, V. Einfuhrung in die Medizinische Statistik 2003 Plachky, D. Mathematische Grundbegriffe der Stochastik 2002 Schumacher, M.; Schulgen, G. Methodik klinischer Versuche 2002 Steland, A. Mathematische Grundlagen der empirischen Forschung 2004
Herold Dehling Beate Haupt
Einfuhrung in die Wahrscheinlichkeitstheorie und Statistik 2. Auflage
6
Springer
Prof Dr. Herold Dehling Ruhr-Universitat Bochum Fakultat fiir Mathematik Universitatsstrage 150 44801 Bochum, Deutschland
DipLMath. Beate Haupt Laurentiushof Mittelstrage 4 34474 Diemelstadt-Wethen, Deutschland
BibliografischeInformationderDeutschenBibliothek DieDeutscheBibliothekkkkkkich"etdiese Publikation in derDeutschen Nationalbibliografie: detallliertebbliografificheDaten sindim Internet uber abrufbar
MathernaticsSubject Classification (2000): 6 0 ~ 0 1 , 6 2 ~ 0 1
ISBN 3-540-20380-X Springer-Verlag Berlin Heidelberg New York ISBN 3~540~43384~8 1. Auflage Springer~VerlagBerlin Heidelberg New York
springerde SpringerVerlagBerlinHeidelberg2003,2004 Printed in Germany
O
DieWiedergabevonGebrauchsname~Handelel"elmel",W~ww"bbbbich"""g" usw in diaem Werkbe~ ohnebesondere~ennreichnung"icht ru der ~ ~daO s o ~~c h e ~ a m~im e n sinnehder remtigt Warenreichen undMarkenschutr~Gesetzgebbbgals frei ru betrachten wsren und daher "on jeder man" benutrtwerden durften. Einbandgestaltung: d e s p &produrt!oq Heidelberg D~temrstellungdurch d m Auttt t t t t t V ~ r w ~ ~ d edidi igi Springer W E X ~ Makropakets Gedruckt auf ssurefieiem papier 40/314ZCK~543210
~
~
,
Lehre uns bedenken, dass wir sterben mtissen, auf dam wir klug werden. Ps. 90,12 Ein Gebet des Mose, in der ~bersetzungvon Martin Luther
fiir Birte, Wiete, Johannes, Geeske, Malte und Eike fiir Andrea, Ruben, Benjamin, Corinna, Selma und Peter
Vorwort zur 2. Auflage
Wir freuen uns, dass die in unserem Buch gegebene Darstellung der Grundlagen der Wahrscheinlichkeitstheorie und Statistik so viele Leser gefunden hat, dass bereits ein Jahr nach Erscheinen der 1.Auflage diese 2. Auflage gedruckt werden kann. Wir haben das Buch um ein Kapitel uber Testtheorie erweitert. Die anderen Kapitel haben wir unverandert libernommen, allerdings haben wir einige Druckfehler korrigieren kdnnen. Wir danken an dieser Stelle allen Lesern, die uns auf Fehler im Text aufmerksam gemacht haben, insbesondere Herrn Stephan Mertmann und Frau Natalie Neumeyer. SchlieDlich mochten wir ein Wort des Dankes hinzufugen, das wir leider im Vorwort zur 1. Auflage vergessen haben. Wir danken dem Verleger Ferdinand Verhulst fiir die groDztigige Ruckgabe des Copyrights an dem Buch ,Kansrekening - het zekere van het onzekere', Epsilon Verlag, Utrecht 1995, in dem groDe Teile des hier veroffentlichten Materials in niederlandischer Sprache erschienen waren.
Bochum, Wethen, im Januar 2004
Herold Dehling Beate Haupt
Vorwort zur 1. Auflage
Wahrscheinlichkeitstheorie und Statistik, oft auch mit dem Sammelbegriff St,ochastik genannt, sind noch recht junge Teilgehiete der Mathematik, die sich in den vergangenen 50 Jahren schnell einen festen Platz in der Mathematik-Aushildung an den Hochschulen gesichert haben. Einst entstanden aus dem Wunsch, Gewinn und Verlust bei Glucksspielen herechnen zu konnen, ist die Stochastik heute ein unverzichtbares Hilfsmittel zur Modellierung und Steuernng von Zufallsprozessen in Natur, Technik und im Wirtschafts- und Gesellschaftslehen. Gleichzeitig legt die Stochastik Verbindungen zu verschiedenen anderen Gebieten der Mathematik, etwa der Analysis, der Linearen Algebra nnd der Zahlentheorie, deren Methoden sie sich bedient und die sie gleichzeitig mit neuen Ansatzen hereichert. Der Reiz der Wahrscheinlichkeitstheorie lie@ in ihrer Position an der Schnit,tstelle zwischen hochaktuellen Anwendungen einerseits und klassischer grundlagenorientierter Mathematik andererseits. Stochastik eignet sich auch hervorragend fiir den Schulunterricht, wo sie heute vielfach neben der Analysis und der analytischen Geometrie als dritte Saule im Mathematik-Curriculum steht. Die Verhindungen zwischen konkreten Anwendungen und mathematischen Konzepten konnen das Interesse und die Freude der Schtiler an der Mathematik wecken und sie in Denk- und Arbeitsweisen der Mathematik einfiihren. Dieses Buch gibt eine systematische Einfuhrung in die grnndlegenden Ideen und Konzepte der Wahrscheinlichkeitstheorie. Die Darstellung ist elementar, d.h. ohne m&theoret,ische Hilfsmittel und unter Verzicht auf grol3tm6gliche Allgemeinheit. Der Weckung eines intnitiven Verstandnisses wird im Zweifelsfall der Vorzug vor mathematischer Strenge gegeben. Die wesentlichen Begriffe und Resultate werden zunachst fur diskrete Experimente eingefiihrt und dahei stets an Beispielen illustriert. Im zweiten Teil des Buches stehen stetige Zufallsvariahlen im Mittelpunkt. Dabei werden u.a. die wichtigsten Verteilungen der parametrischen Statistik eingeftihrt und die wesentlichen Rechentechniken behandelt. Ein Kapitel iiher Grundbegriffe der Schatztheorie sol1 die Bedentnng der Wahrscheinlichkeitstheorie in der Statistik aufzeigen und den ubergang in dieses wichtige Anwendungsgebiet der Wahrscheinlichkeitstheorie erleichtern. Das Buch sollte Lesern mit Vorkenntnissen im Umfang einer Analysis I-Vorlesung zug&nglich sein. An einigen Stel-
X
Vorwort
len benatigen wir allerdings Kenntnisse mehrfacher Integrale, wobei der Riemann'sche Integralbegriff ausreicht. Dieses Buch ist ursprunglich entstanden aus Manuskripten zu Vorlesungen, die der erstgenannte der Autoren in den vergangenen 15 Jahren an den Universitat,en Groningen, Cottbus und Bochum gehalten hat. Wir machten an dieser Stelle den vielen Kollegen danken, die bei der Entstehung dieses Buches behilflich waren. An erster Stelle mochten wir Niels Kalma nennen, der als Koautor an einer niederlandischen Ausgabe eines groflen Teils des bier verijffentlichten Materials in dem B u d ,Kansrekening - het zekere van het onzekere' (Epsilon-Verlag Utrecht, 1995) mitgearbeitet hat. Viele originelle Beispiele und interessante ubungsaufgaben in diesem Buch gehen auf seine Anregungen zuruck. Weiter danken wir Aart Stam, ans dessen Vorlesnngsskripten wir manche Anregung geschopft haben. Jan van Maanen hat uns in zahlreichen Gesprachen auf die Anfange der Wahrscheinlichkeitstheorie, vor allem bei Huygens, hingewiesen und uns auflerdem freundlicherweise die Auszuge aus Huygens' Tractatus de Ratiociniis in Ludo Aleae zur Verfugung gestellt. Micbel Dekking, Hans Dwarshuis, Willem Schaafsma und Aart Stam haben uns auf manche Fehler in der niederlejldischen Version des Textes aufmerksam gemacht und Anregungen zu einer besseren Darstellung gegeben. Wir danken Holger Dette ftir die Anregung, dieses Buch in der Reihe ,Statistik und ihre Anwendungen' des Springer-Verlags erscheinen zu lassen sowie dem Springer-Verlag fiir die verstandnisvolle Zusammenarbeit. Wir danken Ingeborg Beyer fiir ihre umfangreiche Arbeit, das Manu' X zu schreiben, Malte Dehling fur seine unermtidliche Hilfe skript in B& beim Losen von Computer-Problemen und Andrea HeineJungblut ftir ihre kreativen Beitrage zur grafischen Gestaltung des Buches. Wir danken Stephan Mertmann und Andrea Schweer fur Hinweise auf Fehler im Manuskript und Katrin Hofmann-Credner und Axel Munk fiir sorgfaltiges Lesen des g e samten Manuskripts, Hinweise auf zahlreiche Fehler und ftir Vorschlilge zu einer klareren Darstellung. Wir denken dankbar an Gundi und Dietmar. Wahrend wir an diesem Buch gearbeitet haben, haben wir viel an diejenigen gedacht, die sich den Inhalt dieses Buches erarbeiten wollen. So haben wir uns auch erlanbt, in der ersten Person Plural zu schreiben. Wir haben uberlegt, wie wir etwas uber die Grundlagen der Wabrscheinlichkeitstheorie und Statistik so aufschreiben konnen, dass Sie gerne und erfolgreich in dem Buch arbeiten magen. Wir haben viel gelernt dabei und wir wiinschen uns sehr, dass das Buch Ihnen beim Kennenlernen dieses Gebietes der Mathematik behilflich ist. Fur Hinweise auf eventuelle Fehler und fur Anregungen waren wir Ihnen sehr dankbar.
Bochum, Wethen, im Januar 2003
Herold Dehling Beate Haupt
Inhaltsverzeichnis
Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . ................................................ . Emle~tnng
1
1.1 1.2 1.3 1.4 1.5
V
Vorbetracbtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modellierung von Laplace-Experimenten . . . . . . . . . . . . . . . . . . . Die Axiome der Wahrscheinlicbkeitstheorie . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1 4 7 11 18
2
.
Elementare Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Urnenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Verteilen von Murmeln auf Zellen . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Binomiale und hypergeometriscbe Verteilungen . . . . . . . . . . . . . 2.4 Das Stimmzettel-Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21 21 28 34 37 39
3
.
Unabhlingigkeit und bedingte Wahrscheinlichkeit . . . . . . . . . 3.1 UnabhXngige Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Modellierung von Produktexperimenten . . . . . . . . . . . . . . . . . . . 3.3 Bedingte Wabrscbeinlicbkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Ruinproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41 41 46 49 57 60
4
.
Znfallsvariablen und ihre Verteilungen . . . . . . . . . . . . . . . . . . . . 4.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Wichtige diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Die Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63 63 68 75 79
5
.
Erwartnngswert nnd Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Die Ungleichungen von Chebychev und Markov . . . . . . . . . . . . 5.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81 81 89 95 98
XI1
.
Inhaltsverzeichnis
Mehrdimensionale Verteilungen. . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Gemeinsame und marginale Verteilungen . . . . . . . . . . . . . . . . . . 6.2 Unabhangige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4 Kovarianz und Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . 6.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
101 101 111 118 127 135
7. Analytische Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1 Die erzeugende Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Der Galton-Watson Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Die momenterzeugende Funktion . . . . . . . . . . . . . . . . . . . . . . . . . 7.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
137 137 144 148 153
6
8
.
Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1 Dichtefunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Wichtige stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Vert.eilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Transformation von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
155 155 159 163 169 173 176
9
.
Mehrdimensionale stetige Verteilungen . . . . . . . . . . . . . . . . . . . 9.1 Gemeinsame und marginale Dichten . . . . . . . . . . . . . . . . . . . . . . 9.2 Unabhangigkeit stetiger Zufallsvariablen . . . . . . . . . . . . . . . . . . . 9.3 Die momenterzeugende Funktion . . . . . . . . . . . . . . . . . . . . . . . . . 9.4 Maximum, Minimum und Ordnungsstatistiken . . . . . . . . . . . . . 9.5 Geometrische Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . 9.6 Bedingte Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.7 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . 9.8 Aufgahen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
177 177 187 193 194 198 202 206 210
Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Motivation und Formulierung des ZGS . . . . . . . . . . . . . . . . . . . . Vom lokalen zum zentralen Grenzwertsatz . . . . . . . . . . . . . . . . . Der Satz von De Moivre und Laplace . . . . . . . . . . . . . . . . . . . . . Aufgahen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
213 213 216 221 226
11 Grundbegriffe der Schiitztheorie . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Terminologie und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Einige Schatzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.4 Normalverteilte Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
227 227 233 241 246 248
.
10 Der 10.1 10.2 10.3 10.4
.
Inhaltsverzeichnis
.
XI11
12 Grundbegriffe der Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.1 Einige Beispiele znr Einfiihrung . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 Neyman-Pearson Formulierung der Testtheorie . . . . . . . . . . . . . 12.3 Das Neyman-Pearson Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.4 Tests bei normalverteilten Beobachtungen . . . . . . . . . . . . . . . . . 12.5 Konfidenzbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.6 Aufgahen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
249 249 253 258 266 269 272
13. Der 13.1 13.2 13.3 13.4 13.5
Poisson-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ein Model1 fiir Schadensfalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Verteilung der Sprungzeiten . . . . . . . . . . . . . . . . . . . . . . . . . . Das Inspektionsparadoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Der Poisson-Prozess als Punktprozess . . . . . . . . . . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
273 273 276 280 282 285
14 Einige Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.1 Konvergenz von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . 14.2 Das starke Gesetz der groflen Zahlen . . . . . . . . . . . . . . . . . . . . . . 14.3 KonvergenzinL, . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.4 Konvergenz in Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.5 Aufgahen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
287 287 290 294 296 300
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
301
.
1. Einleitung
1.1 Vorbetrachtungen
-
Die Wahrscheinlichkeitstheorie ist der Zweiz der Mathematik. der sich mit Zufallsexperimenten befasst, mit ihrer Beschreibung und der Aufdeckung von GesetzmBBigkeiten. Wir versuchen mathematische Modelle zu finden ftir Experimente, bei denen mehrere verschiedene Verlaufe moglich sind und deren Ergebnisse ganz oder teilweise vom Zufall abhangen. Dass dies uberhaupt moglich ist, darin lie@ das Geheimnis und der Reiz dieses Fachgebietes, das ganz im Spannungsfeld des scheinbaren Gegensatzes steht zwischen der Unvorhersagbarkeit des Ergehnisses hei einem Einzelexperiment und den Gesetzmafligkeiten bei vielfacher Wiederholung des Experimentes. Werfen wir einen Wurfel, so lasst sich nicht mehr sagen, als dass das Ergehnis eine Augenzahl zwischen 1 und 6 sein wird. Wiederholen wir das Wiirfelexperiment genugend oft, so stellen wir fest, dass der Anteil der Experimente, bei denen 1 , 2 , . . . , 6 gewiirfelt wird, einer festen GroBe zuzustreben scheint. Oder wir betracht,en die Lebenserwartung eines neugeborenen Kindes. Ob es 75, 80 oder 85 Jahre alt werden wird, kann niemand vorhersagen. Eine Lebensversicherung kann uns aber anhand von Sterbetafeln ausrechnen, welcher Anteil von Neugeborenen, 2.B. des Jahrgangs 2003, dieses Lehensalter erreichen wird. Der Erfolg von Lebensversicherungen beweist, dass diese Berechnungen brauchbar sind. Oder wir betrachten die Bewegung eines einzelnen Tintenmolekuls im Wasser. Diese Bewegung, wenn wir sie betrachten konnten, ist unvorhersaghar. Lassen wir jedoch einen Tropfen Tinte ins Wasser fallen, dann werden wir stets den gleichen Vorgang erleben, eine radiale Ausbreitung der Tinte mit derselben Geschwindigkeit. Und wir konnten vorhersagen, welcher Prozentsatz Tinte sich zu einem bestimmten Zeitpunkt in einem bestimmten Gebiet befindet. Als letztes Beispiel betrachten wir noch den radioaktiven Zerfall, etwa des Kohlenstoffisotops C14. Von einem einzelnen Atom lasst sich unmoglich der Zerfallszeitpunkt vorhersagen. Von einer makroskopischen Menge C14 Atomen hingegen wissen wir sehr genau, welcher Anteil davon nach 1000, 2000 oder 3000 Jahren zerfallen sein wird. Bereits vor uher 300 Jahren war Christiaan Huygens (1629-1695) sich dieses scheinharen Gegensatzes bewusst. In der Einleitung seines ,Tractatus de Ratiociniis in Ludo Aleae' (1657) schreibt er
2
1. Einleitung
Wenn bei den Spielen, welche allein vom Gliick entschieden werden, auch der Ausgang ungewiss ist, so lasst sich doch immer genau berechnen, um wieviel wahrscheinlicher ein Mitspieler gewinnt als verliert. Z.B.: Wenn Jemand, um zu gevinnen, rnit einem Wiirfel sechs Augen auf den ersten Wurf werfen muss, so ist es umgewiss, ob er gewinnt. Um wieviel wah,rscheinlicher es aber ist, dass er verliert, als dass er gewinnt, ist durch die Spielbedingung selbst bestimm.t und lasst sich durch Rechnung genau ermitteln. ( ~ h e r s e t z u n ~ von Robert Hausner (1899)) In jedem Fachgehiet giht es Fkagen, die sich so einfach formulieren lassen und deren Beantwortung ausbleibt, auszuhleihen scheint. Die allererste und dringlichste Frage in der Wahrscheinlichkeitstheorie ist natiirlich Was ist Wahrscheinlichkeit? Mit dieser grundlegenden, wesentlichen Frage hefinden wir uns an der Grenze unseres Fachgehietes. Wir konnten uns einer Beantwortung entziehen rnit dem Hinweis, dass diese Frage unzul%sig sei, so wie wir den Physiker nicht, fragen, was denn Mase sei, den Geometer nicht fragen, was eine Gerade sei, und den Mediziner nicht fragen, was ein Mensch sei. Andererseits hahen wir gewisse Vorstellungen von diesen Begriffen, die als Ausgangspunkt fiir die Beschaftigung rnit den jeweiligen Fachgehieten unerlasslich sind. Wir wollen nun fur den Begriff ,Wahrscheinlichkeiti verschiedene intuitive Vorstellungen betrachten. Wenn wir dabei auch keine vtjllig befriedigende Antwort auf die Ansgangsfrage finden werden, ist es doch wichtig, sie als offene Fkage zu behalten, nm uns der Grenzen unseres Fachgehietes hewusst zu bleiben. Von Wahrscheinlichkeiten sprechen wir hier nnr im Zusammenhang rnit Zufallsexperimenten, wobei wir es an dieser Stelle fiir den Begriff ,Zufall' bei unserer intuitiven Vorstellung belassen. Wir hetrachten nun drei konkrete Zufallsexperimente rnit der Frage nach den verschiedenen Bedeutungen von Wahrscheinlichkeit. 1. Wir werfen einen unverf&chten Wiirfel und fragen nach der Wahrscheinlichkeit, dass die Augenzahl gerade ist. Dahei sol1 unverfalscht heioen, dass der Wiirfel vijllig symmetrisch gehaut ist. 2. Wir wissen, dass die Stadt Bochum 400.000 Einwohner hat und dass davon 100.000 S u g e r sind. Wie groB ist die Wahrscheinlichkeit, dass ein zufallig ausgewiihlter Bochumer Sanger ist? 3. Wir werfen eine Heftzwecke in die Hohe nnd fragen nach der Wahrscheinlichkeit, dass die Heftzwecke rnit der Spitze nach ohen oder seitlich wieder aufl
Bei dem Wurfelexperiment wird wohl jeder antworten, dass die gesuchte Wahrscheinlichkeit sei. Es giht 6 verschiedene Verlaufe des Experimentes, und das gesuchte Ereignis ,die Augenzahl ist gerade' tritt bei 3 Ergehnissen ein. Hier haben wir die Laplace'sche Wahrscheinlichkeitsdefinition angewendet, benannt nach dem franztjsischen Mathematiker Pierre-Simon de Laplace (1749-1827). Dahei wird die Wahrscheinlichkeit eines Ereignisses festgelegt,
4
1.1 Vorbetrachtungen
3
Abb. 1.1. Zufallige Ziehung aus der Gesamtheit aller Einwohner der Stadt Bochum; S stellt die Menge aller Sanger dar.
als Quotient aus der Anzahl der fur das Ereignis gunstigen Ergebnisse und der Anzahl der moglichen Ergebnisse. Diese Definition bedeutet auch, dass wir alle Ergebnisse eines Experimentes als gleich wahrscheinlich betrachten. Im zweiten Beispiel passt eine Definition, die die Wahrscheinlichkeit als die relative Haufigkeit eines Merkmals in einer endlichen Grundgesamtheit festlegt. Die Wahrscheinlichkeit ist $, dass ein zufallig gewahlter Bochumer Sanger ist, denn von den 400.000 Bochumer Einwohnern sind 100.000 Sanger. Da ,zufallig' wahlen bedeutet, dass jeder Einwohner dieselbe Wahrscheinlichkeit hat gewahlt zu werden, lasst sich diese Definition leicht mit der La~ place'schen Definition in ~ b e r e i n s t i m m u nbringen. Bei den ersten beiden Beispielen konnen wir aufgrund von Symmetrieeigenschaften sagen, dass wir alle einzelnen Ergebnisse des Experimentes als gleich wahrscheinlich ansehen. Diese Voraussetzung ist beim dritten Experiment nicht erfullt, und so konnen wir die Laplace'sche Definition nicht anwenden. Hier kann uns die frequentistische Wahrscheinlichkeitsdefinition
Abb. 1.2. Ergebnisse von 30 Wurfen mit einer Heftzwecke, A :,Heftzwecke mit Spitze oben', na = 9, = 0.3
helfen. Dabei wird die Wahrscheinlichkeit eines Ereignisses A festgelegt als Grenzwert der relativen Haufigkeit ihres Eintretens bei wachsender Anzahl
4
1. Einleitung
von Wiederholungen des Experimentes. Bei einer gegebenen Anzahl n von Experimenten bezeichnen wir mit na die Anzahl der Experimente, hei denen A eintritt, und definieren die Wahrscheinlichkeit von A als lim,, y. Da wir nicht wissen konnen, oh der Grenzwert existiert, ist dies keine mathematisch strenge Definition. Wohl konnen wir bei solchen Experimenten immer wieder feststellen, dass die relative Hliufigkeit des Eintretens eines Ereignisses einer festen GroOe zuzustreben scheint, aber anf Grundlage einer endlichen Anzahl von Experimenten konnen wir nicht mehr anssagen. Diese Beobachtung, die auch empirisches Gesetz der groBen Zahlen genannt wird, gab einen wichtigen AnstoD znr Entwicklung einer mathematischen Theorie der Znfallsexperiment,e. Wir werden spater den mathematischen Satz ,Gesetz der groDen Zahlen' kennenlernen. Dieser Satz sagt, dass innerhalh unserer mathematischen Modelle hei unahhangigen Wiederholungen eines Experimentes die Folge der relativen Htinfigkeiten des Eintretens eines Ereignisses konvergiert. Dieses Gesetz der groDen Zahlen, zu dessen Voraussetzungen eine idealisierte, mathematische Form von Unahhangigkeit gehort, mussen wir gut unterscheiden von dem empirischen Gesetz der groBen Zahlen, das eben ganz dem Experiment entnommen, auf Beobachtung und Erfahrung heruhend, nicht bewiesen werden kann. Dies ist in anderen experimentellen Flichern ebenso. In der klassischen Mechanik leiten die Physiker ails den Newton'schen Gesetzen die Kepler'schen Gesetze her, aber damit heweisen sie nicht die Tatsache, dass die Planetenhahnen Ellipsen sind.
1.2 Terminologie Die Wahrscheinlichkeitsrechnung hat wie jedes Fachgebiet ihre eigene Terminologie. Grundbegriffe sind hierbei ,ErgebnisC,,EreignisLund ,Wahrscheinlichkeit'. Es werden viele Begriffe der Mengenalgebra verwendet, die sehr eigene Entsprechungen in der Wahrscheinlichkeitsrechnung haben. Wir konnen auf verschiedene Weise das Ergebnis w eines Zufallsexperimentes beschreiben. Die Menge aller maglichen Ergebnisse nennen wir Ergebnisraum, den wir mit R bezeichnen. Fiir das Werfen einer Heftzwecke sind R, = {I, k) oder R2 = {O, 1) mogliche Ergebnisraume nnd fur die zufallige Wahl eines Einwohners der Stadt Bochum R = 11, 2,. . . ,400.000) oder die Liste aller Einwohner. Fur ein Wurfelexperiment ist R = 11, 2,3,4,5,6} ein moglicher Ergebnisraum. Oft sind wir nicht an dem genauen Ergebnis w des Experimentes interessiert, sondern an einem allgemeineren Ereignis. Formal definieren wir ein Ereignis A als Teilmenge des Ergebnisraumes R. Sei A C R ein Ereignis und w das Ergebnis des Experiments, dann heiDt w E A, dass A eingetreten ist. Im ohigen Beispiel des Wiirfelexperimentes wollten wir nicht wissen, welche Augenzahl gewiirfelt wird, sondern ob es eine gerade oder ungerade Augenzahl ist. Wir sprechen dann von dem Ereignis, dass die Augenzahl gerade ist,
1.2 Terminologie
5
also A = {2,4,6). Die Operationen der Mengenalgebra haben ihre je eigenen Entsprechungen fiir Ereignisse, siehe Abbildung 1.3. Venn-Diagramm
Symbol
1
Entsprechung
R
das sichere Ereignis
0
das unmogliche Ereignis
Ac
A ist nicht eingetreten
AnB
sowohl A als auch B ist eingetreten
A UB
A oder B ist eineetreten
B\A
B ist eingetreten, aher A ist nicht eineetreten
A
cB
4n B =0
wenn A eintritt, dann tritt auch B ein
A und B schlieilen einander aus, d.h. A und B sind disjunkt
Abb. 1.3. Entsprechungen der Mengenoperationen
In der Wahrscheinlichkeitsrechnung haben wir oft mit Vereinigungen und Durchschnitten einer Anzahl von Ereignissen A 1 , .. . ,A, oder sogar einer unendlichen Folge Al, Az, . . . zu tun. Hierfiir fiihren wir die Schreibweisen
6
1. Einleitung
ein, sowie Entsprechendes fiir Durchschnitte. Diese Schreibweisen sind in Anlehnung an die Summen- und Reihennotation Cr=, und Czl gewahlt. Man bemerke, dass, anders als bei Reihen, die nnendliche Vereinigung und der unendliche Durchschnitt ohne Grenziihergang definiert werden konnen. So ist UzO=, Ai die Menge aller Elemente, die in wenigstens einer der Mengen Ai liegen. Jedes Ereignis ist Teilmenge von f2, aher nicht jede Teilmenge von f2 ist ein Ereignis. Die Menge der Ereignisse nennen wir Ereignisraum, den wir mit F bezeichnen. Am Anfang wird dies meist die Potenzmenge 'P(Q), d.h. die Menge aller Teilmengen von f2 sein. Spater werden wir Beispiele kennenlernen, in denen es sinnvoll oder sogar notwendig ist, sich auf eine Teilmenge von P(Q) zu beschranken. Ereignissen ordnen wir eine Wahrscheinlichkeit zu, und wir bezeichnen die Wahrscheinlichkeit des Ereignisses A mit P(A).Mathematisch betrachtet ist diese Zuordnung eine Ahhildung von der Menge aller Ereignisse in die Menge der reellen Zahlen. Aufgrund des intuitiven Wahrscheinlichkeitshegriffes ist es sinnvoll zu fordern, dass 0 5 P ( A ) 5 1, d.h.
P : F + [O,11 Im iibernachsten Abschnitt werden wir die Axiome formulieren, denen eine solche Funktion P , die wir Wahrscheinlichkeitsmal3 oder Wahrscheinlichkeitsverteilung nennen, gentigen muss. Im n&hsten Abschnitt wollen wir zunachst die hier eingefiihrten Grundhegriffe auf eine spezielle Klasse von Zufallsexperimenten anwenden.
ubung 1.1 Fiir ein Wiirfelexperiment, bei dem ein Wiirfel 2-mal geworfen wird, betrachten wir die Ereignisse
A : ,beim 1. Wurf wird eine 6 geworfen' B : ,beim 2. Wurf wird eine 6 geworfen'. Beschreibe die Ereignisse AUB, A n B , A \ B und B \ A . Welche Mengen entsprechen den Ereignissen C : ,es wird genau eine 6 geworfen' D : ,es wird keine 6 geworfen'?
bung
1.2 Beweise und verdeutliche in einem Venn-Diagramm die Regeln von de
Morgan
( A U B ) C = A C n B C und
(AnB)C=ACUBc.
ubung 1.3 Zeige, dass A U B = ( B \ A) U (A \ B ) U ( A n B ) und dass die Mengen B \ A, A \ B und A n B disjunkt sind. Verdeutliche dies in einem Venn-Diagramm.
7
1.3 Modellierung von Laplace-Experimenten ubung 1.4 Beweise A
\ B = A \ ( A nB )
ubung 1.5 Fiir den 3-maligen Wurf einer Miinze dehieren wir die Ereignisse
A : ,der 1. Wurf ist Kopf B : ,der 2. Wurf ist Kopf C : ,der 3. Wurf ist Kopf Beschreibe die Ereignisse A n B , A n B C n Cund AUBUC. Welche Menge entspricht dem Ereignis
D : ,beim 3. Wurf wird zum ersten Mal Kopf geworfen'? ubung 1.6 Bestimme einen geeigneten Ergebnisraum (2 fiir ein Wiirfelexperiment, bei dem ein Wiirfel 2-ma1 geworfen wird. Welche Mengen entsprechen den Ereignissen
A : ,die Augensumme ist 10' B : ,die hochste Augenzahl ist 5'? Welchem Ereignis entspricht die Menge A \ B?
1.3 Modellierung von Laplace-Experimenten Laplace-Experimente sind Zufallsexperimente mit endlich vielen, gleich wahrscheinlichen Ergebnissen. Wir modellieren solche Experimente mit LaplaceRilumen. Definition 1.1 Sei 0 ein endlieher Ergebnisraum. Wir definieren die Laplace-WahrscheinliehkeitsuerteillLng, ku,m Laplace-Verteilun,g, auf 0, indem wir fur ein Ereignis A C 0
festlegen, wobei IAl die Miiehtigkeit der Menge A ist. Das Paar Laplace-Raum.
( f l ,P )
heij3t
Also ist im Laplace-Raum die Wahrscheinlichkeit des Ereignisses A gleich dem Quotienten aus der Anzahl der ftir A gtinstigen Ergehnisse und der Anzahl der mdglichen Ergehnisse. Das folgende Lemma ist eine direkte Folgerung aus der Definition. Lemma 1.2 Die Laplaee-Verteilung hat die Eigensehaften
(Lalj P ( 0 ) = 1 (La2j P ( A U B ) = P ( A ) P ( B ) fur disjunkte Ereignisse A und B
+
8
1. Einleitung
-
Beim axiomatischen Aufbau der Wahrscheinlichkeitsrechnun~in Abschnitt 1.4 werden wir diese grundlegenden Eigenschaften in den Axiomen wiederfinden, denen jede Wahrscheinlicbkeitsverteilung genugen muss. Die Laplace-Verteilung hat die hesondere Eigenschaft, dass fur elementare Ereignisse, dies sind Ereignisse, die aus einem Ergebnis bestehen, gilt
d. h. alle elementaren Ereignisse sind gleich wahrscheinlich. Wenn wir die Eigenschaften (Lal) und (La2) aus Lemma 1.2 voraussetzen, folgt aus (1.2) fur jedes A c f2
Also sind dann (1.1) und (1.2) gleichwertige Definitionen der Laplace-Verteilung. Beispiel 1.3 Wir werfen zwei unverfdschte Munzen und fragen nach der Wahrscheinlichkeit, genau einmal Zahl zu werfen. Als Ergebnisraum wahlen wir zunachst
f2 = { K K ,K Z , Z K , Z Z ) und als Wahrscheinlichkeitsverteilung die Laplace-Verteilung. Das Ereignis, das uns interessiert, wird durch die Teilmenge A = { K Z ,Z K ) beschriehen, sodass P(A) = IQl 1 ist. Es besteht das praktische Problem, dass wir - 2 bei gleichzeitigem Werfen zweier nicht unterscheidbarer Miinzen nicht entscheiden konnen, ob das Ergehnis Z K oder K Z ist. Auch interessiert uns dies ja eigentlich nicht, sondern nur, wie oft Zahl geworfen wird. Erscheint es daher nicht sinnvoll, als Ergebnisraum (2 = {O, 1,2} zu wahlen, wobei w angibt, wie oft Zahl oben lag? Wenden wir nun die Laplace-Verteilung an, so ist die Wahrscheinlichkeit, genau einmal Zahl zu werfen, gleich $. Dieses Resultat kann intuitiv nicht stimmen, aher das l b s t sich nicht mathematisch streng beweisen. Durch viele Wiederholungen des Experimentes konnen wir uns davon uberzeugen, dass das erste Model1 angebracht ist. In der Geschichte der Wahrscheinlichkeitstheorie hat es einige Diskussio nen uber dieses Problem gegehen. Im Jahre 1754 schrieh Jean d'Alembert (1717-1783) in einem Artikel mit dem Titel ,Croix ou. Pile' (Kopf oder Zahl) fiir die Encyclop4die, dass die Wahrscheinlichkeit, mindestens einmal Kopf zu werfen bei zwei Wiirfen mit einer unverfdschten Miinze gleicb $ sei. Dem lag allerdings wohl weniger ein Gedankenfehler zugrunde als vielmehr die Ahsicht, die damals herrschenden Auffassungen iiber die Wahrscheinlichkeitstheorie zur Diskussion zu stellen. In seinem Buch ,Essai philosophique sur les
1.3 Modellierung von Laplace-Experimenten
9
probabilitis' (1814) kritisiert Laplace deutlich den d'Alembertlschen Standpunkt. Wir konnen durcb dieses Beispiel aufmerksam darauf werden, dass es bei der Verwendung der Laplace-Verteilung aufierordentlich wichtig ist zu bedenken, ob die Ergebnisse w E LJ wirklich als gleich wahrscheinlich angesehen werden konnen. Bei dieser Entscheidnng spielen oft Symmetrieeigenschaften eine wichtige Rolle. In letzter Instanz ist das Experiment mit seinen vielfachen Wiederholungen maflgebend. Beispiel 1.4 Zwei Spieler, A nnd B, spielen ein Glticksspiel, das aus mehreren Runden besteht. In jeder Runde kann jeder Spieler mit der Wahrscheinlichkeit $ einen Punkt bekommen. Gewonneu hat der Spieler, der znerst 5 Punkte erreicht. Leider miissen die Spieler nach 6 Runden das Spiel beim St,and
AABABA abbrechen. Welche Aufteilung des Einsatzes ist jetzt fair? Um eine Antwort auf diese Rage zu finden, konnen wir fiir jeden Spieler die Gewinnchancen bei diesem Spielstand herechnen. Hatten sie das Spiel fortgesetzt, so w&en folgende Ergebnisse bis zur endgiiltigen Entscheidung moglich gewesen
LJ = {A,BA,BBA,BBB) In den ersten 3 Fitllen hatte A das Spiel gewonnen, nur im letzten Fall B. Unter der Voraussetzung, dass alle 4 Ergehnisse gleich wahrscheinlich sind, hatte A mit Wahrscheinlichkeit $ und B mit l'ahrscheinlichkeit $ gewonnen. Erste Zweifel an der Gleichwahrscheinlichkeit l%st schon das erste Ergebnis aufkommen. Dies tritt genan dann ein, wenn A das erste Spiel nach dem Abbruch gewinnt, und die Wahrscheinlichkeit dieses Ergebnisses ist Da die Zahl der noch zu spielenden Runden bei jedem Ergebnis anders ist, konnen wir keine Symmetrieeigenschaften ausnutzen. Und so machen wir ein Gedankenexperiment: Wir spielen in jedem Fall noch 3 weitere Runden, auch wenn der Ausgang des Spieles schon friiher feststeht. Nach diesen zusatzlichen 3 Runden hat auf jeden Fall einer der Spieler 5 Punkte. Die moglichen Ergebnisse sind
i.
LJ = {AAA,AAB,ABA,ABB, BAA,BAB,BBA,BBB) Wenn wir nun die Laplace-Verteilung anwenden, so ist die Wahrscheinlicbkeit, dass A gewinnt und die Gewinnchance von B ist So konnte der Einsatz im Verhitltnis 7 : 1 aufgeteilt werden.
i.
So einfach das obige Problem dem heutigen Leser auch vorkommen mag, so hat es doch im 17. Jahrhundert einige bedeutende Gelehrte beschaftigt. Urspriinglich legte der bekannte Gliicksspieler Antoine Gombauld, Chevalier
1
Abb. 1.4. Huygens' Gkung des Problems dm fairen AuRe'~lmg,aus ,Dactaturr de Ratiocanis in Ludo Aleue' (16571,Ubersetzung ~m Ende des Kapitels de M6rQ (1610-1685), diese Rage Blaise PascaI (1623-1662) vor, der wiederum mit Pierre de Fermat (1601-1665) dariiber korrespondierte. In dern bereits oben erwihnten Biichlein ,Van Rekendngh gn Spelen van Gelzsck' hat Christiaan Huygens sich nit diesem Problem befasst. In seiner Lhung ftihrt Huygens einen neuen, originellen Ansatz aus,wobei er zunkhst die Miiglich-
1.4 Die Axiome der Wahrscheinlichkeitstheorie
11
keiten nach einer fiktiven weiteren Runde des Spiels betrachtet und so eine Rekursionsformel findet, siehe Abb. 1.4 und Aufgabe 3.1.
ubung 1.7 Sei P eine Laplace-Verteilung. Zeige, dass dann fiir zwei Ereignisse A und B gilt P ( A U B) = P ( A ) P ( B ) - P ( A n B ) .
+
ubung 1.8 Beschreibe den Ergehnisraum fiir das Laplace-Experiment, dass ein unverfalschter Wiirfel 2-ma1 geworfen wird. Berechne die Wahrscheinlichkeit, mindestens eine 6 zu wiirfeln. ubung 1.9 Bei einem fairen Gliicksspiel, hei dem zwei Spieler A und B in jeder Runde mit Wahrscheinlichkeit $ einen Punkt hekommen, wird vorzeitig abgebrochen. Spieler A beniitigt noch 2 Punkte zum Gewinn, Spieler B noch 3 Punkte. Berechne die Gewinnchance fiir A und die Wahrscheinlichkeit, dass das Spiel nach genau 2,3,4 oder 5 weiteren Runden entschieden ist. ubune 1.10 Wie werfen drei unverfdschte Miinzen. Berechne fiir dieses Ladace~ x ~ e r & e ndie t Wahrscheinlichkeit der Ereignisse Ao : ,es erscheint k-mali
1.4 Die Axiome der Wahrscheinlichkeitstheorie Den meisten Lesern wird ein Axiomensystem aus der Geometrie, der Zahlentheorie oder der Analysis bekannt sein. Bei der Aufstellung eines Axiomensystems erheben wir eine Reihe von einfachen Satzen, die anf Grund der Erfahrung ohne Beweis anerkannt werden konnen, zu den Grundgesetzen des Fachgebietes. Alle weiteren Aussagen leiten wir dann durch logisches Scblie1Jen aus diesen Grundgesetzen, den Axiomen, ab. Das heute von den meisten Wahrscheinlichkeitstheoretikern verwendete Axiomensystem wurde von Andrey Nikolaevich Kolmogorov (1903-1987) entwickelt und 1933 in seinem Buch ,Grundbegriffe der Wahrscheinliehkeitsreehnung' verijffentlicht. Wir betrachten zunachst die relative Haufigkeit des Eintretens von Ereignissen bei einer Folge von Wiederholnngen desselben Experimentes. Sei n die Gesamtzahl der Wiederholungen und nA die Anzahl der Experiment,e, bei denen das Ereignis A eintritt, so gilt no = n und = 1. Ftir zwei disjunkte = y .Wenn Ereignisse A und B gilt nAuB = n a nB und somit wir uns jetzt auf das bereits oben erwShnte empirische Gesetz der groDen Zahlen berufen, so konnen wir mit der frequentistischen Wahrscheinlichkeitsdefinition P(A) := lim,,, die ersten zwei Axiome des Axiomensystems von Kolmogorov einsehen.
+
+
Definition 1.5 (Kolmogorov'sches Axiomensystem) Ein Wahrseheinlichkeit.~rau,mist ein T+el ( Q , F , P ) , wobei Q eine nichtleere Menge ist, F eine u-Algebra uon Teilmengen won Q, d.h. F ist nicht leer, aus B E 7 folgt Be E F und aus AI, Az, .. . E F folgt lJza=, Ai E F , und P : F + [O,11 eine Abbildung mit folgenden Eigenschaften
12
1. Einleitung
(Axl) P(Q) = 1 (Ax2) P ( A U B ) = P ( A ) P ( B ) fiir disjunkte Ereignisse A und B (Ax3) P ( U z a = Ai) , = C z , P ( A i ) fGr eine Folge paanveise disjunkter Ereignisse (Ai)i6pq.
+
Die Funktion P : F + [O,11 heif3t WahrscheinlichkeitsmaJ, Wahrscheinlichkeitsverteilung oder auch kurz Wahrscheinlichkeit. Wir hemerken an dieser Stelle, dass das Wort ,WahrscheinlichkeitLsowohl fiir die Funktion P als auch fiir den Wert P ( A ) verwendet wird und dass nur aus dem Zusammenhang deutlich wird, was gemeint ist. Mit dieser Definition beginnt die Wahrscheinlichkeitstheorie als mathematische Disziplin. Wir konnen nun Zufallsexperimente beschreihen, modellieren mit Wahrscheinlichkeitsraumen. Von den obigen Axiomen ist streng genommen (Ax2) iiherfliissig, da es sich aus (Ax3) ableiten lasst. Andererseits l&sstsich aus (Ax2)mit vollstiindiger Induktion herleiten, dass fiir endlich viele, paarweise disjunkte Mengen A1,. . . , A , gilt P(A1 U . . . U A,) = P(Al)+. . .+P(A,). 1st der Ergebnisraum endlich, so ist endlich und (Ax3) folgt aus (Ax2).Laplace-mume geniigen also dem Kolmogorov'schen Axiomensystem. (Ax3) dehnt die Aussage von (Ax2) auf ahzahlbar unendliche Vereinigungen aus. Die Bedeutung von (Ax3) werden wir erst spater einsehen konnen. In diesem Ahschnitt gewinnen wir damit die Aussagen iiher die Stetigkeit von Wahrscheinlichkeitsverteilungen. In dem folgenden Satz haben wir einige einfache Eigenschaften von Wahrscheinlichkeitsmaflen zusammengestellt. In der Praxis ist es oft so, dass wir die Wahrscheinlichkeit eines Ereignisses nicht direkt ausrechnen konnen. Dann versuchen wir, das Ereignis als Vereinigung, Durchschnitt, Differenz oder Komplement von Ereignissen, deren Wahrscheinlichkeiten wir einfacher berechnen konnen, zu beschreiben und wenden Satz 1.6 an.
+
Satz 1.6 (i) P ( A C )= 1 - P ( A ) (ii) Aus A C B folgt P(B\A) = P ( B ) - P ( A ) . (iii) Aus A C B folgt P ( A ) 5 P ( B ) . (iw) P(B\A) = P ( B ) - P ( A fl B ) (v) P ( A U B ) = P ( A ) P ( B ) - P ( A n B ) (vi) P ( A U B ) 5 P ( A ) P ( B ) P(Ai). (vii) P(A1 U . . . U A,) 5 Cy='=,
+
+
Beweis. (Ijhung 1.12) Beispiel 1.7 Wir werfen n-mal mit einem unverfalschten Wiirfel und fragen nach der Wahrscheinlichkeit, wenigstens eine 6 zu wiirfeln. Wir wtihlen als Ergehnisraum 0 = {(wl,.. . ,w,) : wi E { I , . . . ,611 und als l'ahrscheinlichkeitsmafl die Laplace-Verteilung. Das Ereignis, dessen Wahrscheinlichkeit wir suchen, ist A = { ( w l , .. . ,w,) : mindestens ein wi = 6 ) . Es ist einfacher, die Wahrscheinlichkeit von AC zu herechnen, denn es gilt A' = { ( w l , ... ,w,) : wi E { I , . . . ,511. Aus IAcI = 5" und 1 0 1 = 6n folgt P ( A C )= (%), und mit Satz 1.6(i) weiter P ( A ) = 1 -
(g),.
1.4 Die Axiome der Wahrscheinlichkeitstheorie
13
Wenn wir die Wahrscheinlichkeit einer Vereinigung nicht notwendig disjunkter Mengen berechnen konnten, so hatten wir noch eine zweite Losungsmoglichkeit fiir dieses Beispiel. Wir betrachten zunachst drei Mengen Al,Az,A,. Um die Wahrscheinlichkeit der Vereinigung zu berechnen, durfen
Abb. 1.5. A1 u A2 u AS = (Al
\ A2) U (A2 \ A3) U (A3 \ A I ) u (A1 n A2 n A3)
wir keinen Durchschnitt doppelt ziihlen und den Gesamtdurchschnitt auch nicht vergessen. So gilt also
und, wenn wir nun Satz 1.6 anwenden, erhalten wir
Der folgende Satz ist eine Erweiterung dieser Berechnungsformel fiir endlich viele Mengen.
Satz 1.8 (Inklusions-/Exklusionsformel) Fur Ereignisse Al, . . . , A , gilt n
P(A1u . . . u A,) = C ( - l ) " l k=l
C
P ( A ~n, . . . n A,).
(1.3)
l < i l i ...cia<%
Beweis. Wir fuhren den Beweis mit vollstandiger Induktion nach n. Der Induktionsanfang, n = 2, ist genan Satz l.G(v).Wir nehmen an, dass die Formel fiir alle Vereinigungen von n Mengen gilt. Dann folgt mit Satz l.G(v) P(A1 U
. . . U A,
U A,+i)
= P(A1 U . . . U A,) = P(A1 U . . . U A,)
+ P(A,+i) - P((A1U . . . U A,) n A,+i) (1.4) + P(A,+i) - P((A1n A,+l) u . . . u ( A , n A,+i)).
14
1. Einleitung
Wir wenden nun die hklusions-/Exklusionsformel auf P(A1 U . . . U A,) an und erhalten
Anwendung der hklusions-/Exklusionsformelauf P((A1 nA,+,) U. . .U (A, &+I)) ergibt
P((Al
n
n A,+l) u .. . u (A, n A,+1))
Wir setzen jetzt in (1.4) ein und fassen zusammen
<
Im letzten Schritt haben wir henutzt, dass die Indexmenge {(il,. . . ,ik) : 1 il < . . . < ik 5 n+1) in zwei disjunkte Teile zerlegt werden kann, je nachdem ob ik = n + 1 oder ik 5 n. Damit ist die Inklusions-/Exklusionsformel fiir 0 eine Vereinigung von (n + 1) Mengen gezeigt.
1.4 Die Axiome der Wahrscheinlichkeitstheorie
15
Beispiel 1.9 (Fortsetzung von Beispiel 1.7) Mit der Inklusions-/Exklusionsformel hahen wir nun eine zweite Losungsmoglichkeit. Wir betrachten die Ereignisse Ai, dass beim i-ten Wurf eine 6 gewurfelt wird,
Dann ist A die Vereinigung der Ereignisse A1,. . . ,A,. Da diese nicht notwendig disjunkt sind, wenden wir die Inklusions-/Exklusionsformelan. Fur - 1 jedes i gilt p ( Az ) -m IA" --7 - 5 . Fiir 1 5 il < . . . < ik 5 n bedeutet das Ereignis Ai, n . . . n At,, dass von n Wurfen k-mal 6 gewurfelt wird, und zwar bei den Wurfen i l , . . . , i h , und die anderen (n - k) Wurfe eine beliebige Augenzahl haben. Also gilt "-h P(Ai, n . . . n Ai,) = =I 6 k 1 und es folgt
%
P(A) = P(A1 U . . . U A,)
Fur die letzte Identitat haben wir eine Formel verwendet, die in diesem Buch erst im nachsten Kapitel eingefuhrt wird. In Lemma 2.7 werden wir zeigen, dass es genau );( Moglichkeiten gibt, Indizes $1,. . . ,$a mit 1 5 i l < . . . < ik 5 n zu finden. Zum Schluss wollen wir das Resultat beider Losungsmoglichkeiten vergleichen. Mit Hilfe der Binomialformel von Newton, siehe Beispiel 2.10, lconnen wir umformen
und wir sehen, dass beide Resultate iibereinstimmen. Wie wir bei der Einfiihrung der Kolmogorov'schen Axiome bereits erwahnt haben, sind Wahrscheinlichkeitsverteilungen in einem gewissen Sinne stetig,
Abb. 1.6. A,
/' A hzw. B n \ B
16
1. Einleitung
d.h. lim P(An) = P(A), falls die Folge (An)nEwin geeigneter Weise gegen A konvergiert, siehe Abb. 1.6. Diese Aussage wird im folgenden Satz prazisiert. Satz 1.10 (Stetigkeit von Wahrscheinlichkeitsverteilungen) (i) Sei (An),>l - eine aufsteigende Folge von Ereignissen, dann gilt
lim P(An) = P
n-00
(ii) Sei (Bn),>l - eine absteigende Folge won Ereignissen, dann gilt lim P ( B n ) = P 12-00
Beweis. (i) Wir definieren Dl := Al und Dk := Ak \ Ak-1 fur k 2 2. Dann n sind die Mengen D l , Dz, . . . disjunkt, und es gilt DI, = Uk=l Ak = An 00 sowie Dk = Uk=l Ak. Mit (Ax2) und (Ax3) folgt lim P(An) = lim P 12-00
n-00
( i l ~ k )
= lim C P ( D ~ ) n-00
k=l
In analoger Weise konnen wir (ii) beweisen.
Abb. 1.7. Wahrscheinlichkeitsfunktion eines gefalschten Wurfels
1.4 Die Axiome der Wahrscheinlichkeitstheorie
17
-
Zum Abschluss dieses Ka~itelswollen wir eine wichtiee Klasse von Wahrscheinlichkeitsraumen betrachten, hei denen eine anschauliche Darstellung der Wahrscheinlichkeitsverteilung moglicb ist, siehe Abb. 1.7.
Definition 1.11 Ein Wahrscheinlichkeitsraum (Q, F,P)heijlt diskret, wenn es eine endliche oder abzahlbar unendliehe Teilmenge D C Q gibt, fl,r die gilt P(D)= 1. Die zugehdrige Wahrscheinlichkeitsverteilung heijlt dann auch diskret, und die durch
definierte Funktion heijlt Wahrscheinlichkeitsfunktion. Lemma 1.12 (i) Fiir diskrete Wahrscheinlichkeits~~erteilu~ngen gilt
d.h. P ist durch die Wahrscheinlichkeitsfunktion vollstandig festgelegt. (ii) Eine Wahrscheinlichkeitsfunktionp : Q + R hat folgende Eigenschaften (W1) p(w) = 0 bis auf abzahlbar wiele w E Q p(w) 2 0 fir alle w E Q (WA') (W3) C,,*P(W)= 1. Umgekehrt definiert jede Funktion, die diesen drei Bedingungen genugt, eine diskrete Wahrscheinlichkeitswerteilung auf Q. Beweis. (i) Far jedes Ereignis A C Q gilt
P(A)= P(An D)+ P(A n Dc)= P(A n D), da aus Satz 1.6 folgt P(A n D C )5 P(DC) = 1 - P(D)= 0. Das Ereignis A n D ist eine abzahlbare Menge und somit die abzahlbare Vereinigung ihrer Elemente. Fiir alle w E D Cgilt P({w))= 0, und wir erhalten mit (Ax3)
(ii) folgt direkt aus den Kolmogorov'schen Axiomen.
0
Laplace-RBume sind diskrete Wahrscheinlichkeitsraume mit der konstanw E Q.Das Werfen eines geten Wahrscheinlichkeitsfunktion p(w) = falschten Wiirfels ist ein einfaches Beispiel eines diskreten Experiments, das sich nicht durch einen Laplace-Raum modellieren liisst.
h,
18
1. Einleitung
ubung 1.11 Sei 3 c P ( Q ) eine 0-Algebra. Zeige, dass
0 und SZ
zu 3 gehoren.
ubung 1.12 Beweise den Satz 1.6 ubung 1.13 In den Aufzug des dreistockigen Gebaudes des Mathematisrhen Instituts der Universitat Groningen steigen um 9 Uhr im Erdgeschoss 6 Personen ein. Suche einen geeigneten Wahrscheinlichkeitsraum und berechne fiir die Ereignisse Ai: ,auf der i-ten Etage steigt niemand aus' die Wahrscheinlichkeiten P ( A i ) , P(Ai n A j ) fiir alle 1 i , j 3 und P(A1 n A z n A3).Wie groB ist die Wahrscheinlichkeit, dass der Lift auf jeder Etage halten muss?
< <
ubung 1.14 Wir werfen n-ma1 eine unverfalschte Miinze und definieren die Ereignisse At: ,bei den ersten k Wiirfen erscheint nur KopP fiir k = 1,.. . , n. Modelliere dieses Zufallsexperiment mit einem geeigneten Wahrscheinlichkeitsraum und berechne P(Ak). Welchem Ereignis entspricht A ~ - \I AX und welche Wahrscheinlichkeit hat dieses Ereignis? ubung 1.15 Wir werfen 6-ma1 einen unverfalschten Wiirfel. Wie groB ist die Wahrscheinlichkeit, wenigstens eine 6 zu wiirfeln?
1.5 Aufgaben Aufgabe 1.1 1st es wahrscheinlicher, in 4 Wtirfen mit einem unverfalschten Wurfel mindestens eine 6 oder in 24 Wurfen mit 2 Wurfeln mindestens einmal (6,6) zu wurfeln? (In der Geschichte der Wahrscheinlichkeitstheorie ist diese Frage als ,Paradoxon von de Mere' hekannt. Beim ersten Experiment gibt es 4 Versuche mit Erfolgswahrscheinlichkeit beim zweiten 24 Versuche mit Erfolgswahrscheinlichkeit &, und trotz der Identitat 4 . = 24. stimmen die gesuchten Wahrscheinlichkeiten nicht uberein.)
i,
&
Aufgabe 1.2 Berechne fur ein Wurfelexperiment mit 3 unverfalschten Wurfeln die Wahrscheinlichkeit der Ereignisse, dass die Augensumme 9 bzw. 10 ist. Fur beide Ereignisse gibt es genau 6 Mijglichkeiten
und doch sind die Ereignisse nicht gleich wahrscheinlich! Aufgabe 1.3 Sei f2 eine nicht-leere Menge und F C P(f2) eine u-Algebra. Zeige, dass eine Funktion P : F + [O,11, die den Axiomen (Axl), (Ax2) und einer der Stetigkeitsbedingungen aus Satz 1.10 genugt, eine Wahrscheinlichkeitsverteilung ist. Aufgabe 1.4 Seien Ak,k = 1,2,. . . beliebige Ereignisse. Zeige, dass gilt
1.5 Aufgaben
19
Aufgabe 1.5 (i) Wir definieren fiir beliebige Ereignisse Ah,k = 1 , 2 , .. . liminf A, := n i m
un
Ak
,=l k=n
lirn sup A, := nim
n=1 k=n
Welchen Ereignissen entsprechen liminf,,, A, und lirn sup,,, A,? Zeige, dass (lim sup A,)c = lirn inf A; und (lim inf A,)C = lirn sup A;. (ii) Eine Miinze wird unendlich haufig geworfen. Gib einen geeigneten Ergebnisraum an und beschreibe die folgenden Ereignisse als Teilmengen dieses Ergebnisraumes A : ,es fdlt unendlich oft Zahl' B : ,nach endlich vielen Wtirfen fallt nur noch ZahlL
~ b e r s e t z u ndes ~ Auszugs aus Christiaau Huygens Traktat ,De Ratiociniis in Ludo Aleae'. (,Ahhandlungen iiher die bei Glucksspielen moglichen Berechnungen', ~ b e r s e t z u nvon ~ Robert Hausner, erschienen 1899 im Band 107/108 in Ostwalds Klassiker der exakten Wissenschaft) iibersetzung des Textes aus Abb. 1.4: Aufgabe. A spielt mit B unter der Bedingung, dass derjenige, welch,er zuerst dreimal gewonnen hat, den Spieleinsatz erhalt. Nun hat A bereits zweimal, B aber erst einmal gewonnen, und ich will wissen, wie der Spieleinsatz in gerechtem Verh8ltnisse getheilt werden muss, wenn Beide jetzt das Spiel ahbrechen. Wieuiel erhiilt A ? Um die vorgelegte Frage nach der gerechten Verteilung des Spieleinsatzes unter die beiden Spieler, deren Gewinnhoffnungen ungleiche sind, zu beantworten, beginnen wir mit einem leichteren Falle. Zuerst muss man die Spiele beachten, welche beiden Spielern no& fehlen. Wenn sie unter einander vereinbart hatten, dass derjenige den Einsatz erhalt, welcher zuerst zwanzig Einzelspiele gewonnen hat, und A bereits 19 Spiele gewonnen hat, der Andere aber erst 18, so ist offenbar die Hoffnungdes A auf Gewinn um ebensoviel besser wie die des B, als sie es im Falle der vorliegenden Aufgabe ist, wo A von 3 Spielen schon 2 gewonnen hat, B aber erst 1; denn in beiden Fallen fehlt dem A noch ein Spiel, dem B aber fehlen noch 2 Spiele. Um den jedem der Spieler zukommenden Theil des Einsatzes zu berechnen, muss man erwagen, welche Falle eintreten konnen, wenn sie das Spiel
20
1. Einleitung
fortsetzen. Gewinnt A dann sofort das nachste Spiel, so hat er die vorgescbriebene Zahl von Spielen gewonnen und erhalt den ganzen Einsatz, welcher durch a bezeichnet werden mag. Gewinnt aber B das nachste Spiel, so sind die Hoffnungen beider Spieler auf Gewinn einander gleich geworden (da ja jedem von Beiden nur noch ein Spiel fehlt) und jedem kommt daher ;a zu. Nun hat A aber die gleiche Aussicht, dieses erste Spiel zu gewinnen als es zu verlieren, d.h. die Erwartungen a oder ;a zu erhalten. Mit Rucksicht auf den Lehrsatz I erhalt also A die halhe Summe beider, das ist $ a , und es hleibt folglich seinem Mitspieler $a ubrig, welcher Theil auch direct auf die gleiche Weise wie der des A hatte gefunden werden klinnen. Daraus ergiebt sich, dass derjenige Spieler, welcher den Platz des A in dem Spiele einnehmen will, ihm :a gehen muss, und dass derjenige, welcher ein Spiel gewinnen muss, ehe der andere 2 Spiele gewonnen hat, 3 gegen 1 einsetzen kann.
2. Elementare Kombinatorik
Fur alle Laplace-Raume ist zur Berechnung von Wahrscheinlichkeiten ein systematisches Abzahlen von Mengen wichtig. Die Kombinatorik ist das Teilgebiet der Mathematik, das sich mit dieser Kunst des Zahlens befasst. In diesem Kapitel beschaftigen wir uns mit den fur die Wahrscheinlichkeitstheorie wichtigen Ergebnissen der Kombinatorik. Wir verzichten dabei auf formelle Beweise und wahlen stattdessen einen intuitiven Zugang.
2.1 Urnenmodelle Fast alle Laplace-Experimente, die wir in diesem Buch behandeln, lassen sich auf eines der vier folgenden Urnenmodelle zuruckfuhren. Wir haben dabei stets eine Urne mit n Kugeln, die von 1 bis n fortlaufend nummeriert sind, und wir ziehen zufallig Ic-ma1 eine Kugel aus der Urne. Die moglichen Ergebnisse und die Machtigkeit des Ergebnisraumes hangen entscheidend von der Art der Ziehung ab. Wir konnen die Reihenfolge der gezogenen Kugeln berucksichtigen oder auch nicht, und wir konnen die einmal gezogenen Kugeln vor dem nachsten Ziehen wieder in die Urne zuriicklegen oder aufierhalb sammeln. Immer ziehen wir zufallig, und so sind alle moglichen Ergebnisse gleich wahrscheinlich.
Abb. 2.1. Ziehen mit Zurucklegen und Beriicksichtigung der Reihenfolge
22
2. Elementare Kombinatorik
I. Ziehen m i t Zuriicklegen, m i t Beriicksichtigung d e r Reihenfolge. In diesem Model1 kann jedes Ergehnis durch das k-Tupel der Nummern der gezogenen Kugeln in der Reihenfolge ihrer Ziehung heschrieben werden. Der Ergehnisraum ist also QI={(w,, ... , w k ) : l < w i < n } . L e m m a 2.1 Fiir die Machtigkeit der Menge QI gilt IQrl = nk.
(2.1)
Beweis. Jede Koordinate des k-Tupels (wl, . . . ,wk) kann n Werte annehmen = nk und alle Kombinationen sind zulassig, sodass wir insgesamt k-mal mbgliche Ergebnisse erhalten. 0 Beispiel 2.2 Fiir ein Wiirfelexperiment verwenden wir das Urnenmodell Qr mit einer Urne, welche 6 Kugeln enthalt, die mit den Zahlen 1,. . . , 6 nummeriert sind. Das Ereignis, dass bei k-maligem Werfen des Wiirfels alle Augenzahlen kleiner oder gleich m sind, ist dann im Urnenmodell das Ereignis A,, dass wir bei k-maligem Ziehen mit Zuriicklegen nur Kugeln mit Zahlen 1,. . . ,m erhalten, d.h.
Mit Lemma 2.1 folgt, dass IA,I = mk, und somit P(A,) = (7) . Wir kiinnen nun die Wahrscheinlichkeit des Ereignisses B,, dass die grofite Auc A,, genzahl m hetragt, ausrechnen. Da B, = A, \ A,-1 und A,-I gilt k
Dabei hahen wir wieder Satz 1.6(iv) angewendet. 11. Ziehen ohne Zuriicklegen, m i t Beriicksichtignng d e r Reihenfolge. Auch in diesem Model1 kann jedes Ergebnis beschrieben werden durch ein k-Tupel von Zahlen aus {I,.. . ,n), nur kann jetzt jede Zahl hochstens einmal vorkommen. Der Ergehnisraum ist also
Jedes Element aus 011heifit in der Komhinatorik Variation von k aus n und 10111ist somit die Anzahl aller Variationen von k aus n. L e m m a 2.3 Fur die Machtigkeit der Menge Qrr gilt
2.1 Urnenmodelle
23
Abb. 2.2. Ziehen ohne Zurucklegen, rnit Berucksichtigung der Reihenfolge
Beweis. Es gibt n Moglichkeiten fur die 1. Koordinate des k-Tupels, die rnit ( n- 1 ) Moglichkeiten fur die 2. Koordinate kombiniert werden konnen, dann 0 mit ( n - 2) Moglichkeiten fur die 3. Koordinate, usw. Wir fuhren nun zwei Bezeichnungen ein, die uns kurzere Schreibweisen ermoglichen. Definition 2.4 Fur r foW
E
R, k
E
N definieren wir (r)k (sprich: r unten k) wie
Fur k, n E N gilt rnit dieser Definition If2111 = ( n ) k . Im Falle k > n gilt ( n ) k = 0, da mindestens ein Faktor des Produktes 0 ist, und damit If2111 = 0. Diese Identitat entspricht der Tatsache, dass es beim Ziehen ohne Zurucklegen nicht moglich ist, mehr Kugeln aus der Urne zu ziehen als am Anfang vorhanden waren. Im Falle k = n werden alle vorhandenen Kugeln aus der Urne gezogen. Jedes Element ( w l ,. . . ,w,) E 011ist dann eine Permutation der Elemente der Menge ( 1 , . . . ,n } . Nach Lemma 2.3 ist die Zahl der Permutationen von n Elementen ( n ) , = n . ( n - 1) . . . . . 2 . 1 .
Definition 2.5 Fur n E N definieren wir n! (sprich: n Fakultat) wie folgt
und fur n = 0 definieren wir O! := 1. Beispiel 2.6 Wir stehen vor einer verschlossenen Tur rnit einem Bund von n Schlusseln, von denen genau einer zum Turschloss passt. Da wir nicht wissen, welcher es ist, probieren wir die Schlussel nacheinander aus, bis wir den richtigen finden. Wir versuchen es rnit jedem Schlussel hochstens einmal und wir nummerieren die Schlussel so, dass der passende Schlussel die Nummer 1 erhalt. Jetzt modellieren wir fur jedes k rnit unserem Urnenmodell 011
24
2. Elementare Kombinatorik
das Znfallsexperiment, dass wir k der n Schliissel ausprobieren, d.h. k-faches Ziehen ohne Zurucklegen, mit Berucksichtigung der Reihenfolge. Also Qjnjk,) = {(wI,.. . ,wk) : wi E {I,. . . ,n}, w,
# wj fiir i # j } .
Wir suchen die Wahrscheinlichkeit des Ereignisses Ak, dass der k-te Schliissel passt,
Dawi # l f i i r i = l , ... ,k-l,gibtes(n-1).(n-2)...:((n-1)-(k-1)+1) Moglichkeiten fiir wl, . . . ,wk-1. Mit wk = 1 folgt IAkl = (n - 1) . (n - 2) . . . . . ((n - 1) - (k - 1) + 1) .1 = (n - 1) . (n - 2) . . . . . (n - k 1) = (n - l)k-l
+
und damit
Eine zweite LBsungsmoglichkeit finden wir, indem wir in Gedanken annehmen, dass erst die n Schliissel in einer Reihe angeordnet und anschlieflend in dieser Reihenfolge ausprobiert werden. Dann ist Q die Menge aller Permutationen (u(l), . . . ,u(n)) der Elemente der Menge {I,. . . ,n} und das gesuchte Ereignis Ah die Menge aller Permutationen mit u(k) = 1. Die Machtigkeit der Menge A; ist die Anzahl der Permutationen der (n - 1) Elemente der Menge 12,. . . , n,), also (n - I)!. So gilt also auch
111. Ziehen o h n e Zuriicklegen, o h n e Beriicksichtigung d e r Reihenfolge. Bei diesem Model1 kijnnen wir das Ziehungsergebnis durch die Menge der k gezogenen Kugeln heschreiben. Da wir ohne Zuriicklegen ziehen, kann jede Kugel hochstens einmal gezogen werden, und wir konnen alle k Kugeln auf einmal ziehen
Qrrr = {A C { I , . . . , n ) : IAI = k). Jedes Element aus Qrrr heifit Komhination von k aus n, uud IQrrrl ist somit die Anzahl aller Kombinationen von k aus n. Lemma 2.7 Fur die Machtigkeit der Menge Qrrr gilt
d.h. die Anzahl aller Teilmengen der Machtigkeit k aus einer Menge der Miichtigkeit n ist
9.
2.1 Urnenmodelle
25
Abb. 2.3. Ziehen ohne Zurucklegen, ohne Berucksichtigung der Reihenfolge
Beweis. Wir bestimmen die Machtigkeit von QIII mit Hilfe von QII, dessen Machtigkeit wir kennen. Wir definieren eine surjektive Abbildung von 011 nach QIII, indem wir jedem k-Tupel (wl,. . . ,wk) die Menge {wl,. . . ,wk) zuordnen. Die Urbilder eines Elements aus QIII sind dann alle k-Tupel, die wir als Permutationen der Elemente der Menge {wl, . . . ,wk) erhalten konnen, und davon gibt es genau k!. In QII gibt es also k!-ma1 so viele Elemente wie l = (n)k . in QIII, also IQIIII = In11 ,! k! Definition 2.8 (i) Fur r E R, n E N definieren wir den Binomialkoefizien(sprich: r uber n) wie folgt ten
(1)
(ii) F u r r E R, n E E, n durch
5 0 definieren wir den Binomialkoefizienten
(3 { :=
(1)
1 fur n = 0 0 fur n < 0.
Mit dieser Definition gilt 1 QIII 1 = (L) . Fur naturliche Zahlen n ist der Binomialkoeffizient )(: also die Anzahl aller Teilmengen der Machtigkeit k aus einer Menge der Machtigkeit n . Dies gilt auch fur negative ganze Zahlen sowie fur k > n, da in beiden Fallen per Definition )(: = 0 ist. Diese Tatsache wird uns spater in Berechnungen mit Binomialkoeffizienten helfen. Bemerkung 2.9 Fur k E (0,. . . , n ) und n E No gilt folgende Identitat
2. Elementare Kombinatorik
26
die oft als Definition der Binomialkoeffizienten verwandt wird. An dieser Darstellung erkennen wir, dass gilt
Beispiel 2.10 Mit Hilfe dieses Urnenmodells und Lemma 2.7 konnen wir die Newton'sche Binomialformel n
(x
+ y)" = C (i)xkyn-k k=O
+
+
beweisen. Wir schreiben dazu (x y)" als n-faches Produkt (x y)n = (x y) . . . . . (x y). Das Ausmultiplizieren entspricht dem Vorgang, dass wir k Faktoren wahlen, aus denen wir das x nehmen, und es verbleiben (n - k) Faktoren, aus denen wir das y nehmen. So erhalten wir die Terme xkYnpk. Die Anzahl dieser Terme entspricht der Anzahl der Moglichkeiten k Faktoren aus dem n-fachen Produkt auszuwahlen, und das sind (F).
+
+
Abb. 2.4. Ziehen mit Zuriicklegen, ohne Berucksichtigung der Reihenfolge
IV. Ziehen mit Zuriicklegen, ohne Berucksichtigung der Reihenfolge. Zunachst bemerken wir, dass dies ein merkwurdiges Model1 ist. Bei einem Ziehungsvorgang mit diesen Bedingungen konnen wir nicht alle k Kugeln auf einmal ziehen, aber die Reihenfolge sol1 keine Berucksichtigung finden. So merken wir uns nur die Tatsache, dass die i-te Kugel gezogen worden ist, dies ist zum Beispiel moglich mit einer Strichliste. Nun lassen sich die Ergebnisse in diesem Model1 als n-Tupel ( k ~. ,. . ,k,) beschreiben, wobei ki angibt, wie oft die i-te Kugel gezogen wurde. Da wir insgesamt k Kugeln aus der Urne mit n Kugeln ziehen wollen, ergeben sich ki = k, und der Ergebnisraum ist die Bedingungen ki E No und Cy=2=,
2.1 Urnenmodelle
Q r v = { ( k , . ,k ) :
kl+
27
...+ k , = k ]
Die Besonderheit dieses Urnenmodells besteht darin, dass wir, obwohl wir k Kugeln ziehen, in dem Ergebnisraum n-Tupel verwenden.
Lemma 2.11 Fur die Machtigkeit der Menge Q r v gilt
Beweis. Wir miissen die Anzahl der n-Tupel ( k l , ... , k,) nicht-negativer gmzer Zahlen ki bestimmen, fiir die gilt kl . . . + k, = k . Dazu denken wir uns jedes ki als eine Liste von ki Strichen, so entspricht etwa der 4 die Liste 1 1 1 1 . Wenn wir nun in obiger Gleichung alle k j durch die Strichlisten ersetzen, dann gibt es zwei verschiedene Zeichen, I und +, und zwar k Striche und (n - 1) Additionszeichen, also zusammen ( k n - 1) Zeichen. Jedes n-Tupel ist genau festgelegt durch die Setzung der Additionszeichen, und dafiir gibt es nach Lemma 2.7 genau Miiglichkeiten. Die letzte Identitiit folgt aus Bemerkung 2.9, d.h. jedes n-Tupel ist genauso festgelegt durch die Setzung der k Striche. 0
+
+
(ki:;l)
AbschlieBend fassen wir alle Lemmata in der ktirzesten Schreibweise in einem Satz zusammen.
Satz 2.12 Fur das zufallige k-malige Ziehen einer Kugel aus einer Urne mit n Kugeln gilt
Ziehen mit Zuriicklegen mit Beriicksichtigun,g der Reihenfolge ohne Beriieksichtigung der Rehenfolge
= nk
IQw =
Ziehen ohne Zuriicklegen IQrrl = (n)k
,
(k+n-I )
IQIIII=
(9
ubung 2.1 Beschreibe fiir das Ziehen von 2 Kugeln aus einer Urne rnit 5 Kugeln die Ergebnisraume Q I , ( 2 1 1 , Q I I I und Q I V . Bestimme die M~htigkeitendieser Mengen und vergleiche sie rnit den obigen Formeln. ubung 2.2 Wir werfen 3-ma1 rnit einem unverfdschten Wiirfel. Bestimme die Wahrscheinlichkeit, dass die hochste Augenzahl k ist, fiir k = 1,. . . ,6. ubung 2.3 Eine Urne enthilt 10 Kugeln rnit den Nummern 1,. . . , l o . Wir ziehen 4-mal ohne Zuriicklegen. (i) Wie groil ist die Wahrscheinlichkeit, dass nur Kugeln rnit ungeraden Nummern gezogen werden? (ii) Wie groil ist die Wahrscheinlichkeit, dass die kleinste gezogene Nummer k ist, fiir k = 1, ... , l o ?
28
2. Elementare Kombinatorik
bung 2.4 In den Aufiug eines 10-stockigen Hauses steigen im Erdgeschoss 7 Personen ein. Wie groi3 ist die Wahrscheinlichkeit, dass auf jeder Etage hochstens 1 Person aussteigt? bung 2.5 Wir werfen 6-ma1 mit einem unverfiilschten Wiirfel. Wie groJ3 ist die Wahrscheinlichkeit, dass 6 verschiedene Augenzahlen geworfen werden?
Zelle 1
Zelle i
Zelle n
Abb. 2.5. Verteilen von Murmeln auf Zellen
2.2 Verteilen von Murmeln auf Zellen Wir konnen Urnenmodelle naturlich nicht nur fur das Ziehen von Kugeln aus einer Urne verwenden, sondern fur alle Experimente, bei denen wir den Ergebnisraum bijektiv auf den Ergebnisraum eines der Urnenmodelle abbilden konnen. Wir betrachten in diesem Abschnitt exemplarisch das Verteilen von k Murmeln auf n Zellen. Zur Modellierung des Verteilungsvorgangs nehmen wir eine Urne mit n Zetteln, auf denen die Zahlen 1 , . . . ,n stehen. Wir ziehen k-ma1 einen Zettel aus der Urne und legen dann jeweils eine Murmel in die Zelle mit der Nummer des Zettels, siehe Abb. 2.5. Dabei konnen wir, wie im vorigen Abschnitt, vier Ziehungsarten unterscheiden. Ziehen wir mit oder ohne Zurucklegen des Zettels in die Urne, so bedeutet dies, dass wir mehrere oder nur hochstens eine Murmel in eine Zelle legen konnen. Wenn wir mit Berucksichtigung der Reihenfolge ziehen, so mussen die Murmeln von 1 bis k nummeriert sein, wenn wir ohne Berucksichtigung der Reihenfolge ziehen, so durfen die Murmeln nicht voneinander zu unterscheiden sein. In der Physik finden diese Modelle ihre Anwendung. Dann entspricht eine Zelle einem Teil des Phasenraumes und eine Murmel einem Teilchen. Je nachdem, ob die Murmeln unterscheidbar sind, d.h. nummeriert werden konnen, und ob in einer Zelle mehrere Murmeln sein konnen, wahlen wir Or, Orr, OIII oder Orv Die Vielzahl der Modelle fur das Verteilen von Murmeln auf Zellen mag verwirren, insbesondere die Unterscheidung zwischen Model1
2.2 Verteilen von Murmeln auf Zellen
29
QI und Qlv. Dabei ist es ganz wichtig zu bedenken, dass die Entscheidung fur eines der Modelle als Beschreibung nicht alleine von der Frage abhangt, ob die Murmeln unterscheidbar sind. Die Gleichwahrscheinlichkeit aller Ergebnisse ist Grundvoraussetzung fur alle Laplace-Experimente.
Beispiel 2.13 Wir konnen das Werfen zweier unverfalschter Munzen als Verteilen zweier Murmeln auf zwei Zellen, K und 2 , modellieren. Wir symbolisieren die Murmeln durch einen * und die Wande zwischen zwei Zellen durch einen I und betrachten die Ergebnisse *I* und * * I. Im Model1 RIV = {(kl, k2) : k1 E NO, k1 k2 = 21, wobei ki die Anzahl der Murmeln in der i-ten Zelle angibt, werden diese Ergebnisse durch ( 1 , l ) bzw. Im Model1 (2,O) dargestellt und haben beide dieselbe Wahrscheinlichkeit 01 = {(kl, k2) : 1 5 ki 5 21, wobei ki das Ergebnis des i-ten Wurfs angibt und 1 fur ,KopfL und 2 fur ,ZahlL steht, entspricht dem Ergebnis *I* das Ereignis {(1,2), ( 2 , l ) ) und hat somit die Wahrscheinlichkeit und das Ergebnis * * I entspricht dem Elementarereignis ((1,l)} und hat die Wahrscheinlichkeit $. Es ist eigentlich merkwurdig, dass es in der Natur Teilchen entspricht. gibt, deren Verteilung dem Model1
+
i.
k,
Im Model1 Orv wird jedes Ergebnis des Experimentes durch ein n-Tupel ( k l , . . . ,k,) beschrieben, wobei ki angibt, wie viele Murmeln in der i-ten Zelle liegen, und die Nebenbedingung k1+ . . . k, = k gilt. Da die Murmeln nicht unterscheidbar sind, geht es nur um die Anzahl der Murmeln. Wenn die Murmeln unterscheidbar sind, so verwenden wir das Model1 01. Dann entspricht jedem Ergebnis aus Model1 QIv ein Ereignis in QI, namlich die Menge aller Ergebnisse, bei denen in der i-ten Zelle ki Murmeln liegen. Im vorigen Abschnitt haben wir die Machtigkeit der Mengen QI, QII, 0111 und Olv bestimmt. Die Wahrscheinlichkeit des Ereignisses, dass ki Murmeln in der i-ten Zelle liegen, ist im Model1 Qlv dadurch sofort gegeben. Zur Bestimmung der Wahrscheinlichkeit dieses Ereignisses in QI mussen wir wissen, wie viele Moglichkeiten es gibt, k unterscheidbare Murmeln so auf n Zellen zu verteilen, dass k Murmeln in der i-ten Zelle liegen. Dazu benotigen wir folgendes Lemma.
+
Abb. 2.6. Aufteilung einer Menge in Teilmengen gegebener Machtigkeit
30
2. Elementare Kombinatorik
Lemma 2.14 Die Anzahl der Mgglichkeiten, eine Menge A der Machtigkeit k in n Teilmengen A1,. . . ,A, der Machtigkeiten k l , . . . , k, aufmteilen, wobei kl . . . k, = k , ist durch
+ +
k! k l ! . ... . k,! gegeben Bevor wir den Beweis dieses Lemmas gehen, fiihren wir eine neue Bezeichnung ein, die uns eine kiirzere Schreihweise der in (2.6) auftretenden GrijBe ermoglicht. Definition 2.15 Flir Zahlen k , k l , . . . , k, E % dejinieren wir den Multinomialkoefizienten wie folgt
Bemerkung 2.16 Das Ziehen von m Kugeln aus k , ohne Zuriicklegen und ohne Beriicksichtigung der Reihenfolge, lasst sich auch darstellen als Aufteilen einer Menge mit k Elementen in die beiden Teilmengen der gezogenen und der nicht gezogenen Kugeln. Diese Teilmengen haben die Machtigkeiten m bzw. k - m. Es giht also gemai3 Lemma 2.14
k
k! ( k , k - rn) = m ! ( k - m)! =
(L)
MBglichkeiten, und damit erhalten wir in diesem Spezialfall die Aussage von Lemma 2.7.
Beweis won Lemma 2.14. Auf folgende Weise konnen wir die Menge A aufteiMoglichlen: Wir wahlen die Teilmenge A1, lAll = k l , daftir haben wir keiten. Dann wahlen wir ails der Restmenge A \ A I , IA \ A1 1 = k - k ~ die , Moglichkeiten hahen. Die TeilTeilmenge A' mit lAzl = k', wofiir wir (":I) menge As, IA3I = k3. wahlen wir aus A\(AlUA'), IA\(A~UAZ)I = k - k l - k z , nnd dafiir giht es Moglichkeiten, usw. So erhalten wir
(il)
(k-2s-k2)
( ) -
("
"
. - "-1 , ' I ) , -k') kn ( k k! - kl - . . . - k,-l)! ( k - kl)! . ..' . kn!(k - kl - . . . - k,)! k l ! ( k - k l ) ! kZ!(k - kl - k')! k! k l ! . ..: k,!'
("
,
,
-
-
)
d a k l f ...+ k , = k . Wir wollen uns die Formel noch mit einem zweiten Beweis vertraut machen,
2.2 Verteilen von Murmeln auf Zellen
Abb. 2.7. Aufteilen von A in
A1,. . .
31
, A , durch Anordnen
da der Multinomialkoeffizient spater Grundlage fur weitere uberlegungen sein wird. Wir konnen die Menge A der Machtigkeit k in n Teilmengen Al, . . . ,A, der Machtigkeiten kl, . . . , k, aufteilen, indem wir alle Elemente der Menge A in einer Reihe anordnen und dann die ersten k1 Elemente zur Teilmenge Al, die nachsten k2 Elemente zur Teilmenge A2, usw., zusammenfassen. Es gibt k! Moglichkeiten, die k Elemente von A anzuordnen. Da es in Mengen keine Anordnung gibt, ergibt sich keine neue Aufteilung in Teilmengen, wenn sich die Anordnung nur innerhalb der ki Elemente der Teilmenge Ai unterscheidet. Fur die ki Elemente der Menge Ai gibt es ki! Anordnungen, die alle zur selben Aufteilung von A fuhren, also wegdividiert werden mussen. So erhalten wir 0 wieder die obige Formel. Mit Hilfe des Multinomialkoeffizienten konnen wir nun folgendes Lemma formulieren. Lemma 2.17 Fur das Verteilen won k unterscheidbaren Murmeln aufn ZelZen ist die Wahrscheinlichkeit, dass kl Murmeln in der 1-ten Zelle, . . . , k, Murmeln in der n-ten Urne landen
Beweis. Da die Murmeln unterscheidbar sind, verwenden wir Model1 01und mit Satz 2.12 und Lemma 2.14 erhalten wir diese Aussage. 0 Beispiel 2.18 In der statistischen Mechanik spielen die Modelle fur das Verteilen von Murmeln auf Zellen eine wichtige Rolle. Vereinfacht gesagt betrachtet man dort die Bewegung einer grofien Zahl von Teilchen, etwa von Gasmolekulen, in einem Zylinder. Die Zahl der Teilchen ist so grofl und es gibt so viele Wechselbeziehungen, dass es nicht mehr moglich und nicht mehr sinnvoll ist, die Bewegung jedes einzelnen Teilchens zu beschreiben. Man beschrankt sich dann auf statistische Aussagen iiber die Verteilung der Teilchen im Phasenraum. Dazu unterteilt man den Phasenraum in Zellen und fragt nach der Wahrscheinlichkeit, dass sich nl Teilchen in Zelle 1, nz Teilchen in Zelle 2, usw., befinden. Fur klassische Teilchen erweist sich RI, mit Laplace-Verteilung, als geeignetes Modell. In der Terminologie der statistischen Mechanik heiflt dies Maxwell-Boltzmann Statistik. Man nimmt an, dass die Teilchen unterscheidbar sind, gewissermaflen Ruckennummern tragen und dass alle Verteilungen der Teilchen auf die Zellen dieselbe Wahrscheinlichkeit
2. Elementare Kombinatorik
32
haben. So sind die beiden in Abb 2.8 angegebenen Verteilungen von k = 12 Murmeln auf n = 6 Zellen gleich wahrscheinlich. Jedes einzelne Ergebnis in diesem Model1 heiflt in der statistischen Mechanik ein Mikrozustand. Ein Mikrozustand ist aber nicht wahrnehmbar, weil die Teilchen eben keine Rtickennummern tragen, bzw. man diese nicht lesen kann. Makrozustande, d.h. die Anzahl der Teilchen in den verschiedenen Zellen, sind wahrnehmbar. Es w b e ein Fehler, nun fiir die Makrozustejlde QI" anzuwenden, denn die Erfahrung zeigt, dass, im Gegensatz zu den Mikrozustejlden, die Makrozustande nicbt alle gleich wahrscheinlich sein miissen. Das lasst sich erklaren, da verschiedene Makrozustande durch eine unterschiedliche Anzahl von Mikrozustejlden zustande kommen. So gibt es in unserem Beispiel nur genau einen Mikrozustand, der zu dem Makrozustand (12,0,0,0,0,0)ftihrt, aber ,) = Mikrozustejlde zu (2,2,2,2,2,2). Aufzrund dieses eroflen ~nterschiedsder Wahrscheinlichkeiten tritt der erste Makrozustand prakt,isch nicht anf.
-
(,,,,it
u
Abb. 2.8. Zwei Verteilungen von 1 2 nummerierten Murmeln auf 6 Zellen
Beispiel 2.19 Im Biiro einer Firma kommen wikhentlich erfahrungsgemBB 5 Eilauftrage an, die bearbeitet werden miissen. Wenn an jedem der Arbeitstage ein solder Auftrag ankiime, so wiirde sich die Arbeit gut verteilen. Oft kommen aber 3 Eilauftrage an einem Tag, an 2 Tagen je 1 Eilauftrag und an den iibrigen 2 Arbeitstagen gar keiner an. Wie groB ist die Wahrscheinlichkeit dieses Ereignisses unter der Voraussetzung, dass die EilauftrBge zufBllig ankommen? Wir wollen diese Rage mit Hilfe eines Modells des Verteilens von Murmeln auf Zellen beantworten. Dann entsprechen die Arbeitstage den Zellen mit den Nummern 1 bis 5, und die 5 unterscheidbaren Eilauftrage sind 5 Murmeln mit den Nummern 1 bis 5. Nun ziehen wir einen Zettel und legen eine Murmel in die entsprechende Zelle, d.h. dieser Eilauftrag ist an diesem Arbeitstag angekommen. Wir legen den Zettel wieder zuriick, da ja
2.2 Verteilen von Murmeln auf Zellen
33
der nachste Eilauftrag am gleichen Arbeitstag ankommen kann. Also sind die Bedingungen yon L?Ierfullt, und es gibt 55 = 3125 mogliche Ergebnisse, die wir als gleich wahrscheinlich betrachten. Von dieser entscheidenden Modellannahme kijnnen wir erst spater im Rahmen der Statistik untersuchen, ob sie realistisch ist. Die Wahrscheinlichkeit, dass mont,ags 3 Eilauftrage kommen, dienstags und mittwochs je 1 Eilauftrag und donnerstags und freitags = &. Da wir aber in unserer Fragestellung keiner, ist also ,!.,!. ::,,!,,! . die Wochentage nicht festgelegt hatten, ist dies noch keine Antwort. Eine andere Moglichkeit ware ja, dass 3 Eilauftrage am Mittwoch, je 1 Eilauftrag am Donnerstag und Freitag und keiner am Montag und Dienstag ankommen. Wie viele solcher Moglichkeiten gibt es? Dazu teilen wir die 5 Arheitstage in 3 Teilmengen der Machtigkeiten 2, 2 und 1 auf, wobei an den Tagen der ersten Teilmenge kein Eilauftrag ankommt, an den Tagen der zweiten Teilmenge je ein Eilauftrag und an dem einen Tag der letzten Teilmenge 3 Eilauftrage ankommen. Nach Lemma 2.14 gibt es - 30 Aufteilungen und somit =-E. In Tabelle 2.1 sind die ist die gesuchte Wahrscheinlichkeit 3 0 . Wahrscheinlichkeiten fur alle moglichen Aufteilungen zusammengestellt.
&
1 [?I, u, u, u)
(3.2.0.0.0)
5 10
#Kombinationen von Tagen~ahrscheinlichkeit 513125 &=5 = 20 100/3125 " != 20 20013125
&
1
Tabelle 2.1. Wahrscheinlichkeiten der moglichen Verteilungen von 5 Eilauftragen auf 5 Aheitstage, s. Beispiel 2.19
ubung 2.6 Welche Moglichkeiten giht es, eine Menge der Machtigkeit 5 in 3..Teilmengen A1,Az,Aa der Machtigkeiten kl = Isz = 2 und ks = 1 aufiuteilen? Uberpriife die Ergebnisse anschlie5end mit der Multinomialformel. ubung 2.7 Wir werfen 12-ma1einen unverfalschten Wiirfel. Wie gro5 ist die Wahrscheinlichkeit, dass jede Augenzahl genau 2-ma1 geworfen wird? ubung 2.8 Jemand empfangt zu Hause wochentlich 3 Briefe. Berechne die Wahrscheinlichkeiten der moglichen Aufteilungen auf die 6 Werktage einer Woche unter der Voraussetzung, dass die Briefe zufallig ankommen.
34
2. Elementare Kombinatorik
ubung 2.9 Wir ziehen aus einer Urne mit 4 nummerierten Kugeln 6-ma1 mit Zurucklegen. Wie grofi ist die Wahrscheinlichkeit, dass die Kugeln 1 und 2 je 2-ma1 und die anderen Kugeln je einmal gezogen werden? Wie grofi ist die Wahrscheinlichkeit, dass eine Kugel 6-ma1 gezogen wird?
2.3 Binomiale und hypergeometrische Verteilungen Wir knupfen an den Abschnitt 2.1 an. Zusatzlich zu den Gegebenheiten der Urnenmodelle haben die Kugeln aufier ihrer Nummer nun noch eine Farbe, rot oder weifi. Diese Urnenmodelle konnen wir etwa anwenden fiir Lotteriespiele, bei denen ja entscheidend ist, welche Zahlen wir angekreuzt haben. Diesen Nummern entsprechen die roten Kugeln. Da die Formeln fur die Wahrscheinlichkeitsverteilungen sich so besser merken lassen, fuhren wir nun neue Bezeichnungen ein. Wir haben eine Urne mit N Kugeln, wovon R Kugeln rot und die ubrigen ( N - R) Kugeln weifi sind. Aus dieser Urne ziehen wir eine Stichprobe von n Kugeln. Wie grofi ist die Wahrscheinlichkeit, dass r rote Kugeln in der Stichprobe sind? Die Antwort auf diese Frage ist naturlich abhangig von der Art der Ziehung, ob wir mit oder ohne Zurucklegen ziehen. In jedem Fall nehmen wir an, dass die Kugeln nummeriert sind und dass die roten Kugeln die Nummern 1 , . . . , R haben.
Abb. 2.9. Ziehen aus einer Urne mit roten und weifien Kugeln
Ziehen mit Zuriicklegen, binomiale Verteilung. Wir verwenden den Ergebnisraum RI mit Laplace-Verteilung. Das Ereignis, dessen Wahrscheinlichkeit wir suchen, entspricht der Menge
E, = {(wl, . . . , a n ) : I{i : wi
E (1,.. . , R}}I = r).
Um die Machtigkeit von E, zu berechnen, schreiben wir E, als Vereinigung disjunkter Ereignisse EI, wobei I c (1,. . . ,n} die Nummern der Ziehungen enthalt, bei denen eine rote Kugel gezogen wird. Also ist
EI = {(wl, . . . ,wn) : wi wi
E 11,. . . , R} fur i E E
I, {R + 1,.. . ,N} fur i E IC)
2.3 Binomiale und hypergeometrische Verteilungen
35
und weiter Er = U K { I,..,n},l~=v El. Es gilt lE11 = Rr(N - R)"-" fur jede Teilmenge I C { I , .. . ,n ) mit III = r. Da es ):( solcher Teilmengen gibt, folgt
Mit der Laplace-Verteilung und
If211
= N n erhalten wir
Da {Eo,. . . , E n ) eine disjunkte Zerlegung des Ergebnisraumes ist, wird durch p(r) := P(E,), r E {0,. . . ,n ) , eine Wahrscheinlichkeitsfunktion auf {O, . . . ,n ) definiert. Die zugehorige Wahrscheinlichkeitsverteilung auf 10,. .. , n ) heiBt binomiale Verteilung mit den Parametern n und Wir die Wahrscheinlichkeiten sind, bei bemerken, dass p := bzw. q := 1 einer einzelnen Ziehung eine rote bzw. eine weiBe Kugel zu ziehen. Mit diesen Definitionen gilt P(E,) = (F)prqn-T.Das ist allgemein die Formel fiir die Wahrscheinlichkeit, r Erfolge zu erzielen bei n Experimenten, die jeweils zwei mijgliche Ergebnisse, Erfolg oder Misserfolg, haben, wobei p die Wahrscheinlickeit fur ,Erfolg' und q die Wahrscheinlichkeit fiir ,Misserfolg' k t .
g
g.
g
Ziehen ohne Zuriicklegen, hypergeometrische Verteilung. In diesem Fall durfen wir annehmen, dass alle Kugeln gleichzeitig gezogen werden, und verwenden den Ergebnisraum QIII mit Laplace-Verteilung. Dem Ereignis, dass genau r Kugeln in der Stichprobe rot sind, entspricht dann die Menge
E = { A c { l .N : I A I = n , I A n { l , ..., R ) I = r , IA n { R 1 , . . . ,N)I = n - r ) .
+
E, enthdt alle Teilmengen von { I , .. . ,N ) , die die Machtigkeit n haben und r Elemente aus { I , . . . ,R ) und ( n - r ) Elemente aus { R f l ,. . . ,N) enthalten. Es gibt genau ):( Teilmengen von (1,.. . ,R ) der Machtigkeit r und (:If) Teilmengen von { R+ 1,. . . ,N ) der Machtigkeit ( n - r ) , die alle miteinander kombiniert werden konnen. Somit folgt R N-R 'E"= ( r ) ( n - r ) und aufgrund der Laplace-Verteilung und
P(Er) =
0111
(3(:If) (2
=):(
.
gilt
(2.9)
Da {Eo,. . . , E n ) eine disjunkte Zerlegung des Ergebnisraumes ist, wird durch p(r) := P(E,), r E {0,. . . ,n ) , eine Wahrscheinlichkeitsfunktion
36
2. Elementare Komhinatorik
auf {O, . . . ,n} definiert. Die zugeharige Wahrscheinlichkeitsverteilung auf {0, . . . ,n) heifit hypergeometrische Verteilung mit Parametern N , R und n. Wir konnen fur diesen Fall auch das Model1 QII verwenden. Dann entspricht dem Ereignis, dass genau r Kugeln in der Stichprobe rot sind, die Menge E, = {(wl,.. . ,w,) : I{i : wi E { I , .. . ,R)}I = T}. Wie bei der Herleitung der binomialen Verteilung schreiben wir E, = UICl ,n),lIl=r EI als Vereinigung der disjunkten Ereignisse EI = {(wl,.. . ,w,) : wi E { I , . . . ,R} fur i E I,wi E { R 1 , . .. ,N ) fur i E I C ) ,wobei I C { I , ... , n ) mit III = T. Es gilt
+
Da es, wie oben, ):( Moglichkeiten gibt, diese Indexmenge I zu wahlen, folgt = (N), nun IE71 = (:) . (R),(N - R),-, und wegen 10111
9
Mit der Identitat ):( = und den entsprechenden Identitaten fiir die anderen Terme l a s t sich diese Formel umschreiben als
und es ergibt sich wieder die hypergeometrische Verteilung. Wir erhalten also das gleiche Endergehnis, unabhejlgig davon, oh wir 011oder 011r anwenden.
Beispiel 2.20 Wir werfen n-ma1 eine unverfalscht,eMiinze und fragen nach der Wahrscheinlichkeit des Ereignisses Ek, dass wir dabei genau k-ma1 Kopf erhalten. Wir kiinnen dieses Experiment modellieren durch n-faches Ziehen mit Zurucklegen aus einer Urne mit zwei Kugeln, ,Kopf und ,ZahlL.Dann gilt nach (2.8)
ubung 2.10 Aus einer Urne mit 3 roten und 5 weii3en Kugeln ziehen wir 2-ma1 ohne Zuriicklegen. Wir definieren folgende Ereignisse A : ,die 1. gezogene Kugel ist weiB B : ,die 2. gezogene Kugel ist rot'. Berechne P(A), P ( A n B), P(ACn B) und dann P ( B ) .
2.4 Das Stimmzettel-Problem
37
bung 2.11 Wir werfen 12-mal mit einem unverfalschten Wiirfel. Wie groD ist die Wahrscheinlichkeit, k-ma1 eine 6 zu wiirfeln, fiir k = 0 , . . . ,12?
bung 2.12 Aus einer Urne mit 3 roten und 6 weiBen Kugeln ziehen wir 3-ma1 ohne Zuriicklegen. Bestimme die Wahrscheinlichkeiten aller meglichen Aufteilungen der Stichprohe in rote und weiae Kugeln. bung 2.13 Aus einer Urne mit 2 roten, 2 schwarzen und 2 weiDen Kugeln ziehen wir 3-ma1 ohne Zuriicklegen. Wie groD ist die Wahrscheinlichkeit, dass die Stichprobe von jeder Farhe genau eine Kugel enthalt?
2.4 Das Stimmzettel-Problem In diesem Ahschnitt beschaftigen wir uns mit einem schonen, nicht-trivialen Beispiel, in dem wir unsere Kenntnisse der Komhinatorik anwenden konnen. Es hat eine Wahl stattgefunden, bei der zwei Kandidaten, A und B, nominiert waren. Bei der Stimmauszahlung wird ein Stimmzettel nach dem anderen registriert, so dass man jederzeit weiB, welcher Kandidat gerade vorne liegt. Das Wahlergehnis ist schliefllich, dass A gewonnen hat, und zwar mit a Stimmen gegenuber b Stimmen fiir B (b < a). Wie groB ist jetzt die Wahrscheinlichkeit, dass A wahrend der gesamten Stimmauszahlung vorne lag?
Abb. 2.10. Stimmzettel-Problem mit b = 5, a = 6: grafische Darstellung des Ergehnisses BAABAABAABB als Pfad im Gitter lV2 von (0,O) nach (5,6) (links) und Reflektionsprinzip (rechts) Als erstes wollen wir den Ergebnisraum f2 beschreihen und seine Machtigkeit bestimmen. Wir konnen den Ahlauf der Stimmauszahlung grafisch darstellen als Pfad des Koordinatenpaares (Anzahl der Stimmen fiir B, Anzahl der Stimmen fur A) in p.Der Ergebnisraum f2 ist dann die Menge aller Pfade von (0,O)nach (b, a), die dadurch entstehen, dass wir stets von einem Gitterpunkt (x,y) nach (x 1, y) oder (x, y 1) gehen. Jedem Ergebnis ist
+
+
38
2. Elementare Kombinatorik
+
eineindeutig eine Teilmenge der Machtigkeit a aus der Menge { I , . . . , a b) zugeordnet, entsprechend den Zeitpunkten, zu denen Stimmen fiir A registriert werden. Also ist nach Lemma 2.7
Unter der Annahme, dass die Stimmzett,el in einer zufalligen Reihenfolge ausgezahlt werden, wahlen wir die Laplace-Verteilung auf Q. Nun definieren wir drei Teilmengen von Q, El: Menge aller Pfade, die ganz oberhalh der Diagonale liegen E2: Menge aller Pfade, die durch den Punkt (1,O) gehen E3: Menge aller Pfade, die durch den Punkt ( 0 , l ) gehen, aher nicht ganz oherhalb der Diagonalen hleihen. Der Menge El entspricht das Ereignis, dass A hei der Stimmauszahlung st,ets vorne liegt. Da die Pfade aus der Menge El durch den Punkt (0,l) gehen, bilden die Mengen E l , E2 und EQeine disjunkte Zerlegung von Q. Wir suchen die Machtigkeit von El und hemerken, dass
Folgende iiberraschende Identitat kann uns an dieser Stelle weiterhelfen.
Lemma 2.21 (Reflektionsprinzip) Die Machtigkeiten der Mengen Ez und E3 stimmen iiberein.
Beweis. Wir heweisen dieses Lemma, indem wir eine bijektive Ahbildung zwischen den Mengen Ez und E3 heschreiben. Wir betracht,en einen beliebigen Pfad aus E2. Da er durch den Punkt (1,O) geht und den Punkt (a, b) erreicht, muss er mindestens einmal die Diagonale schneiden. Wir wahlen den ersten Schnittpunkt, spiegeln den Pfad his zu diesem Punkt an der Diagonalen und lassen ihn weiter unver8ndert. Der neue Pfad geht durch (0,l) und liegt nicht ganz oherhalb der Diagonalen. Er ist somit Element von E3. Umgekehrt hat jeder beliebige Pfad aus E3 mindestens einen Beriihrungspunkt mit der Diagonalen. Und wenn wir einen solchen Pfad ebenso wie vorher his zu diesem Punkt spiegeln, so erhalten wir einen Pfad aus Ez. 0 Aufgrund dieser Abbildung gilt 1 Ez 1 = IE3 1. Satz 2.22 Die Wahrscheinlichkeit, dass A wiihrend der gesamten Stimmauszahlung vorne lag, ist
a-b P(E1) = a+b
2.5 Aufgaben
39
Beweis. Die Machtigkeit von Ez ktinnen wir analog zur Machtigkeit der Menge LJbestimmen, nur ist in E2 der erste Schritt des Pfades bereits vorgegeben. Es gilt also lE21= (a+:-1). Aus der Identitat (2.10) und Lemma 2.21 folgt
und schliefllich o+b-1 P(E1) = 1- 2(
eb)
= 1- 2
(a
+ b - l)! a! b!
a!(b - l)!(a
+
b a-b =1-2--b)! a+b- a+b
ubung 2.14 Wir betrachten eine Wahl mit dem Ergebnis a = 3 und b = 2. Gib alle mogliche,? Ablaufe der Stimmauszahlungan. In welchen Fallen lie@ A die ganze Zeit vorne? Uberpriife die Aussage von Satz 2.22.
2.5 Aufgaben Aufgabe 2.1 Beweise fur nicht-negative ganze Zahlen k, m, n die folgenden Identitaten fur Binomialkoeffizienten
6) cf 0 (7)( (ii)
k y = (m:n)
c,"=, (3) = 2" +
(iii) (1) ( ) = ( ) (,Pascal'sches Dreieck'). Verwende die Identitat (iii) und beweise mit vollstandiger Induktion, dass es )(; Teilmengen der Machtigkeit k von einer Menge der Machtigkeit n gibt.
Aufgabe 2.2 Beweise fiir nicht-negative ganzzahlige n folgende Identitat
5(;) j=O
(-1)j =
{
0 ftir n 2 1 1 fiir n = 0.
Aufgabe 2.3 (i) Aus einer Menge von N Ohjekten, die mit 1 bis N nummeriert sind, ziehen wir n Objekte ohne Zuriicklegen. Wie groB ist die Wahrscheinlichkeit, dass die grtiflte gezogene Nummer k. ist, fur 1 5 k 5 N? (ii) Beweise mit Hilfe von (i) die Identitat ~ f)(: = = ~
(c:).
Aufgabe 2.4 Zwei Personen werfen je n-ma1 eine unverfalschte Miinze. Zeige, dass die Wahrscheinlichkeit, dass beide gleich oft ,Kopf werfen (2[)2-2n ist. (Hinweis: Es gibt eine Losung ohne jeglichen Rechenaufwand!)
40
2. Elementare Kombinatorik
Aufgabe 2.5 Wie groD ist die Wahrscheinlichkeit, dass bei einem Treffen von n Personen mindestens 2 an demselhen Tag Gehurtstag haben? Wie grofi miissen wir n wiihlen, damit diese Wahrscheinlichkeit mindestens $ ist? Aufgabe 2.6 Frau B und Herr G gehen zu einem Abendessen, bei dem die N Gaste in einer zufalligen Reihenfolge an einen runden Tisch gesetzt werden. Wie groD ist die Wahrscheinlichkeit, dass beide nebeneinander sitzen diirfen? Aufgabe 2.7 Berechne fiir das Lottospiel ,6 aus 49' die Wahrscheinlichkeiten fiir ,6 Richtige', ,5 Richtige' und ,4 Richtige'. Aufgabe 2.8 Wir ziehen ohne Zuriicklegen aus einer Urne mit R rot,en und W weifien Kugeln. Bestimme die Wahrscheinlichkeit, dass die erste rote Kugel bei der k-ten Ziehung gezogen wird. Aufgabe 2.9 (Banach's Streichholzschachtelproblem) Stefan Banach (18921945), einer der groDen Mathematiker des 20. Jahrhunderts, hatte stets in seinen beiden Hosentaschen eine Streichholzschachtel. Zum Anziinden seiner Zigarette griff er zufallig in eine Hosentasche und nahm ein Streichholz aus der Schachtel. War die gewahlte Schachtel leer, so warf er beide weg und steckte sich zwei neue Schachteln ein. Berechne die Wahrscheinlichkeit, dass Banach k Streichholzer wegwirft, wenn jede volle Streichholzschachtel N Streichholzer enthalt. Aufgabe 2.10 Die 4 Mitglieder einer Familie erledigen reihum den Abwasch. Dieses Jahr hat ein Familienmitglied dabei 3 Teller zerbrochen und insgesamt sind 4 Teller zu Bruch gegangen. Berechne die Wahrscheinlichkeiten Kir alle moglichen Verteilungen der zerbrochenen Teller auf die spiilenden Familienmitglieder. 1st eines der Familienmitglieder wesentlich ungeschickter als die anderen? Aufgabe 2.11 Wir ziehen ohne Zuriicklegen n Kugeln aus einer Urne mit R roten, W weiBen und B blauen Kugeln. Wie groD ist die Wahrscheinlichkeit, dass in der Stichprobe r rote, w weifie und b blaue Kugeln sind? Aufgabe 2.12 Zu einer Theatervorstellung kommen n Besucher und jeder gibt seinen Regenschirm an der Garderobe ab. Nach der Vorstellung werden die Regenschirme zufallig an die Besucher ausgeteilt. Berechne die l?iahrscheinlichkeit p,, dass keiner der Besucher den eigenen Schirm erhalt. Zeige, existiert und bestimme den Grenzwert. dass lim,,,p,
3. Unabhangigkeit und bedingte
Wahrscheinlichkeit
In jeder Wissenschaft geht es nicht nur um die Besch&ftigung mit elementaren Ohjekten, sondern auch um die quantitative und qualitative Beschreibung ihrer Zusammenhange. Die Begriffe ,Unabhejlgigkeitl und ,bedingte Wahrscheinlichkeit' spielen dahei eine groBe Rolle in der Wahrscheinlichkeitstheorie.
3.1 Unabhsngige Ereignisse Beim Aufbau der Wahrscheinlichkeitstheorie betrachten wir die Eigenschaft der Unabhangigkeit in Bezug auf Ereignisse, Experimente und spater auch Zufallsvariablen. Wir uennen zwei Ereignisse A und B unabhangig voneinander, wenn das Eintreten von A die Wahrscheinlichkeit des Eintretens von B nicbt veradert. Far die frequentistische Interpretation von Wahrscheinlichkeiten konnen wir dies so verstehen, dass die relative Haufigkeit der Experimente, bei denen B eintritt in der Teilfolge der Experimente, bei denen A eintritt, genauso groD ist wie in der Gesamtfolge aller Experimente. Wenn wir mit na,ns und naris die Haufigkeiten des Eintretens von A, B hzw. A n B bezeichnen, so entspricht dieser Bedingung, dass lim,,, = limy. Dies motiviert uns zu folgender Definition. Definition 3.1 Sei (L',F,P) ein Wahrsch,einlichkeitsraum. Dann heiJen zwei Ereignisse A und B unabhdngig, wenn gilt
Fur die Interpretation von Wahrscheinlichkeit als relative Haufigkeit eines Merkmals in einer endlichen Grundgesamtheit L' konnen wir diese Definition auch einsehen. Dann bedeutet die Unabhejlgigkeit zweier Ereignisse, dass das Merkmal B in der Teilmenge A genauso oft eintritt wie in der Grundgesamtheit. Somit gilt !$f! = 4 und fur die Wahrscheinlichkeiten I*l P ( A n B ) = P ( A ) . P(B). Beispiel 3.2 (i) Wir werfen einen unverfitlschten Wiirfel und definieren die Ereignisse
42
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
Abb. 3.1. Unabhangigkeit in einer endlichen Grundgesamtheit
A : ,die Augenzahl ist gerade' B : ,die Augenzahl ist durch 3 teilbar' Diese beiden Ereignisse sind unabhangig im Sinne der obigen Definition, denn es gilt P(A) = P ( B ) = und P ( A n B ) = (ii) Wir ziehen 2-ma1 mit Zurucklegen aus einer Urne mit 3 roten und 5 weifien Kugeln und betrachten die Ereignisse
k,
k.
A : ,die 1. gezogene Kugel ist rot' B : ,die 2. gezogene Kugel ist weifY.
E.
i,
= und P ( A n B ) = Dann gilt P(A) = Also sind = P(B) = die Ereignisse A und B unabhangig. (iii) Nun betrachten wir dasselbe Experiment wie in (ii), aber wir ziehen ohne Zurucklegen. Dann gilt P(A) = P ( B ) = und P ( A n B ) = siehe ubung 2.10. Also ist P ( A n B ) # P ( A ) . P ( B ) und die beiden Ereignisse A und B sind abhangig. Dies konnen wir intuitiv auch verstehen. Wenn wir nicht zurucklegen, hat das Ergebnis der ersten Ziehung Einfluss auf die Moglichkeiten der zweiten Ziehung.
E,
i,
Wir erweitern nun den Begriff der Unabhangigkeit auf mehr als 2 Ereignisse. Wenn wir nur P(A1 n . . . n A,) = P(A1) . . . . . P(A,) fordern wurden, dann ware jede Familie {Ai, i E I } von Ereignissen unabhangig, wenn eines der Ereignisse unmoglich ware. Dass eine paarweise Unabhangigkeit auch nicht ausreicht, zeigt das Beispiel in ubung 3.3. Definition 3.3 Die Ereignisse Al, . . . , A, heijlen unabhangig, wenn fur jedes k E (1,. . . , n ) und fur jede Auswahl von Indizes 1 5 il < . . . < ik 5 n gilt
P(Ail
n . . . n Ai,)
= P(Ai,)
. . . . . P(Aik).
(3.1)
3.1 Unabbangige Ereignisse
43
Mil dieser Definition gilt die wtinschenswerte Eigenschaft, dass eine Teilfamilie einer Familie unabhbgiger Ereignisse stets auch unabhangig ist. Das folgende Lemma ist eine Verallgemeinerung der einfachen Aussage, dass die Komplemente unahhangiger Ereignisse gleichfalls unabhangig sind. Ohwohl dies selhstverst8ndlich erscheinen mag, wollen wir dennoch einen exakten Beweis geben. Lemma 3.4 Es seien A1,. . . , A , unabhangige Ereignisse. Wir betrachten neue Ereignisse B I , . . . , B,, fiir die gilt
Bi = Ai oder Bi = A:. Dann sind B I , . . . ,B , unabhangige Ereignisse. Beweis. Wir zeigen, dass wir wieder eine Familie unahhangiger Ereignisse erhalten, wenn wir eines der Ereignisse durch sein Komplement ersetZen. Wiederholtes Ersetzen je eines Ereignisses durch sein Komplement liefert dann die Aussage des Lemmas. Nach eventueller Umindizierung der Ereignisse kiinnen wir annehmen, dass A1 durch A: ersetzt wird. Um zu zeigen, dass A;, A2, . . . , A , unabhangig sind, muss fur heliehige Indizes 1 5 il < . . . < ik 5 n die Identitat (3.1) nachgewiesen werden. 1st il # 1, so ist nichts zu zeigen. Es sei also 1 = il < i z < . . . < ik 5 n, dann gilt mit Satz 1.6 und der Unabhbgigkeit von Teilfamilien P(A; n A~ n . . . n A ~ , ) = P ( A ~ , ,... ~ A~ A ~ ~ ) - P ( A ~ ~ A ~ ~ ~ . . . ~ A ~ , ) = P ( A c ) . P ( A i , ) . . . . . P ( A c ) - P ( A 1 ) .P ( A b ) . . . . . P(Ai,) = ( 1 - P(A1)). P(Ai,) . . . . . P(Ai,) = P ( A : ) . P ( A i , ) . . . . . P(Ai,) und somit Identitat (3.1).
0
In der Zahlentheorie finden wir interessante Anwendungen fur Aussagen der Wahrscheinlichkeitstheorie.Es gibt die mathematische Disziplin ,Probabilistic Number Theory', zu deren bekanntesten Weghereitern die ungarischen Mathematiker Paul Turan (1910-1976)und Paul Erdos (1913-1996)gehoren. Viele d o n e Beispiele finden sich in dem Buchlein ,Statistical Independence in Probability, Analysis and Number Theory' von Mark Kac (1914-1984).Oft lassen sich mit wahrscheinlichkeitstheoretischen Argumenten erheblich kiirzere Beweise fiihren. Eines der besten Beispiele ist Turan's Beweis des Satzes von Hardy-Ramanujan, der im Wesentlichen sagt, dass die Zahlen 1,. . . ,N im Mittel loglog N verschiedene Primteiler hahen. Wir werden nun einen wahrscheinlichkeitstheoretischen Beweis der Produktformel fur die nach Leonhard Euler (1707-1783) benannte pFunktion geben, wohlwissend, dass es auch einen direkten Beweis dieser Formel gibt. Die Euler'sche p h n k t i o n ordnet jeder natiirlichen Zahl N die Anzahl der zu N teilerfremden Zahlen kleiner als N zu
44
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
Die Euler'sche Produktformel sagt, dass
Zum Beweis dieser Formel betrachten wir jetzt den Ergebnisraum Q = {I,.. . ,N} mit der Laplace-Verteilung. In diesem Raum gilt
wobei Ak := {n E Q : kln}. Wir zeigen weiter, dass die Ereignisse A,, wobei p Primteiler von N ist, unabhangig sind. 1st k ein Teiler von N , so hat Ak Elemente, und somit gilt die Elemente k,2k,.. . , ( F ). k. Dies sind
F
Seien nun P I , . . . , p , verschiedene Primteiler von N . Dann gilt
und fiir die Wahrscheinlichkeiten
Damit ist die Unabhhgigkeit der Ereignisse A,, p Primteiler von N, gezeigt. Mit Lemma 3.4 folgt dann die Unabhangigkeit der Komplemente und somit kiinnen wir die Reihe der Identitaten in (3.2) fortsetzen und erhalten schliefllich
Bemerkung 3.5 Wir wissen nun, dass A,, , . . . ,A,_ unabhangige Ereignisse sind. Wir fassen zusammen. In unserem Model1 ist eine Zahl n mit Wahrscheinlichkeit durch k teilbar (dies entspricht der Tatsache, dass in der Folge 1,2,.. . jede k-te Zahl durch k teilbar ist), und fiir 2 verschiedene
3.1 Unahhangige Ereignisse
45
Primzahlen p und q sind die Ereignisse, dass eine Zahl n durch p bzw. q teilbar ist, unahhingig voneinander. Mark Kac formuliert dies in seinem Buch mit folgenden Worten ,we can say, using a picturesque but not a very precise language that the primes play a game of chance'. Man bemerke, dass wir in unseren Formulierungen miiglichst vorsichtig waren, denn wir betrachten nur den endlichen Raum { I , .. . ,N ) und die gefundenen Eigenschaften gelten nnr fiir Teiler von N . Am liehsten hatten wir eine Wahrscheinlichkeitsverteilung anf ganz N,die obige Eigenschaften erfiillt. Die Laplace-Verteilung setzt eine endliche Grundgesamtheit voraus und es gibt keine Gleichverteilung auf N, d.h. wir kiinnen nicht von einer zufallig gezogenen natiirlichen Zahl sprechen. Als Ersatz nimmt man den Limes der relativen Hanfigkeiten anf {I,.. . ,N } , d.h. der Teilmenge A N wird die ,Wahrscheinlichkeit' 1 P ( A ) = lim p ~ ( A n { l..., , N } ) = lim - l A n { l , . . . , N}l N+m
N t m
N
zugeordnet. Dieser Limes heiflt asymptotische Dichte der Menge A. Aber dieser Limes existiert nicht fiir alle Mengen A C N,und es gibt Mengen A und B , fiir die zwar P ( A ) und P ( B ) existieren, aher P ( A U B ) existiert nicht.
ubung 3.1 Es seien A , B und C drei unahhangige Ereignisse. Zeige, dass dann A U B und C unahhangig sind. ubung 3.2 Zeige, dass fiir unabhbgige Ereignisse A und B gilt P ( B \ A ) = P ( B ) ( l - P(A)). ubung 3.3 Wir werfen 2-ma1 eine unverfalschte Miinze und definieren folgende
Ereignisse A : ,heim 1. Wurf erscheint Kopf B : ,heim 2. Wurf erscheint Kopf
C : ,die Anzahl der Wiirfe, bei denen Kopf erscheint, ist geradec
Bestimme die Wahrscheinlichkeiten dieser Ereignisse und zeige, dass sie pameise unahhingig sind und dass A, B und C nicht unahhangig sind. ubung 3.4 Wir werfen 2-ma1 einen unverfalschten Wiirfel und definieren die Ereignisse A : ,die Augenzahl des 1. Wurfes ist gerade' B : ,die Summe beider Augenzahlen ist geradec Sind diese Ereignisse unahhangig? ubung 3.5 Zeige, dass fiir unabhingige Ereignisse AI, . . . ,A, gilt
(Hinweis: Es gilt e-" 2 1 - z fiir alle z E R.)
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
46
3.2 Modellierung von Produktexperimenten Nachdem wir uns mit der Unabhangigkeit von Ereignissen beschaftigt haben, suchen wir nun ein Model1 fur eine Anzahl physisch unabhejlgiger Zufallsexperimente. Mit ,physisch unahhangig' meinen wir, dass die Experimente sich gegenseitig nicht beeinflussen, d.h. dass der Ausgang eines der Experimente keinen Einflnss auf den Ausgang der anderen Experimente hat. Fur ein Wurfelexperiment kann dies bedeuten, dass verschiedene Personen an verschiedenen Orten wiirfeln. Physikalische Experimente werden bei jeder Wiederholung von Anfang an neu und von einem anderen Mitarbeiter durchgefiihrt. Beim wiederholten Ziehen von Kugeln aus einer Urne hahen wir physische Unabhangigkeit, wenn wir die gezogene Kugel wieder zurucklegen und die Kugeln vor der nachsten Ziehung gut mischen. Ziehen ohne Zurucklegen ist dagegen ein klassisches Beispiel physisch abhhgiger Experimente, weil ja bei den Wiederholungen die bereits gezogenen Kugeln in der Urne fehlen. Das Modell, das wir suchen, sol1 die physische Unabhejlgigkeit in dem Sinne widerspiegeln, dass Ereignisse, deren Ergebnisse zu verschiedenen Experimenten geharen, innerhalh des Modells stochastisch unabhangig sind. Eine stochastische Unabhangigkeit zweier Ereignisse im Model1 sagt aber nichts uber die tatsachliche pbysische Unabhangigkeit dieser Ereignisse.
Beispiel 3.6 Wir betrachten das Werfen zweier unverfalschter Wurfel und definieren die Ereignisse
A : ,beim 1. Wurf wird eine 3 geworfen' B : ,die Augenzahl des 2. Wurfes ist gerade'. Ohne Rechnung wissen wir, dass die Wahrscheinlichkeit bei einem Wurf eine 3 zn werfen und die Wahrscheinlichkeit bei einem Wurfelwurf eine gerade Augenzahl zu werfen $ ist. Nun betrachten wir aber das Model1 mit Ergebnisraum (2=
{ ( w ~ , w z l) < : w, 56)
und Laplace-Verteilung als gemeinsames Model1 fur das zweimalige Werfen des Wiirfels. Es ist nicht a priori selbstverstejldlich, dass beim ubergang zu einem anderen Model1 die Wahrscheinlichkeiten gleich bleiben. Doch gilt hier A = { ( 3 , ~ 2:) 1 w2 61, also P ( A ) = = und B = {(wl,w2) : 1 wl 6,~E 2 { 2 , 4 , 6 ) } ,also P ( B ) = = $. Wir konnen auch eine Anssage uber die Unabhangigkeit der Ereignisse machen. Es ist A n B = { ( 3 , 2 ) (, 3 , 4 ) ,( 3 , 6 ) }und somit
<
<
<
<
&
Also sind die Ereignisse A und B stochastisch unabhiingig, und unser Model1 spiegelt die physische Unabhejlgigkeit der beiden Experimente wider.
3.2 Modellierung von Produktexperimenten
47
Wir betrachten jetzt den allgemeinen Fall, dass ( Q l ,P I ) ,. . . , (Q,, P,) M e delle fur physisch unabhejlgige Experimente sind. Wir nehmen weiter an, dass die Raume ( R i , P i ) diskret sind mit Wahrscheinlichkeitsfunktion pi : Qi + [O, 11, gegehen durch pi(wi) = P ( { w i } ) , siehe Definition 1.11. Definition 3.7 Der Produktraum ( Q , P ) ist der diskrete Wahrscheinlichkeitsraum mit Ergebnisraum
n := n, x . . . x n, = {(w,,.. . , W n )
: Wi E
nil
und Wahrscheinlichkeitsf.nktion p(w1,. . . ,w,) := pl(w1) . . . . . p,(w,). Die durch p definierte Wahrscheinlichkeitsverteilung auf 0 heij3t Produktwahrscheinlichkeit. Beispiel 3.8 (i) Es heschreibe ( Q ,P ) ein Laplace-Experiment. Dann ist der Produktraum fur die Modellierung von n physisch nnabhangigen Wiederholungen des Experimentes gegeben durch den Ergebnisraum O n = Q x . . . x 0 und die Wahrscheinlichkeitsfunktion p(wl, . . . ,w,) = 1 . A1SO ist der Produktraum ( Q n ,P ) wieder ein Laplace-Raum und beim Modellieren der wiederholten Ausfiihrung eines Laplace-Experimentes fuhrt die Annahme der physischen Unabhangigkeit zu demselben Model1 wie die Annahme, dass alle Ergebnisse im gemeinsamen Model1 gleich wahrscheinlich sind. (ii) Das einfachste nicht triviale Zufallsexperiment hat genau 2 mogliche Ergebnisse. Wir konnen dahei denken an ,KopP und ,Zahli beim Munzwurf, an ,6' und ,keine 6' beim Wurfeln, ,pair' nnd ,impairc beim Roulette oder ,gut' und ,schlechtCbei einer Qualitatskontrolle. Als Model1 fur die einmalige Ausfuhrung des Experiment,es wahlen wir den Ergehnisraum (21 = 10, I } , wobei 1 fur Erfolg und 0 fur Misserfolg steht. Die Wahrscheinlichkeitsverteilung auf Q ist vollkommen beschriehen durch die Erfolgswahrscheinlichkeit p := p l ( l ) , denn dann muss die Misserfolgswahrscheinlichkeit q := 1 - p = pl(0) sein. Fur die n-fache Wiederholung des Experimentes konnen wir als Model1 den Produktraum und die Produktwahrscheinlichkeit wilhlen
n = { o , i l n = { ( w l , . . . ,w,)
: wi E
{o,i)}
p(w) = pl(w1) . .. . .p1(w,) = p k ( l - p Y k , wobei k = Cy=l wi die Anzahl der Erfolge in den n Experimenten angibt. Die Wahrscheinlichkeit eines Ergebnisses ( w l , . . . ,w,) hangt also nur von der Zahl der Erfolge ah. Jedes Ergebnis mit k Erfolgen entspricht einer Teilmenge der Machtigkeit k aus der Menge der Indizes { I , . . . ,n ) , und davon gibt es (i). Also gilt fur die Wahrscheinlichkeit des Ereignisses Ak : ,es treten k Erfolge ein'
48
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
Mit p(k) := P ( A k )ist wieder eine binomiale Verteilung auf {O, . . . ,n} mit Parametern n und p gegeben, wie wir sie schon beim Ziehen mit Zuriicklegen aus einer Urne mit roten und weiDen Kugeln kennengelernt haben. Wir wollen nun zeigen, dass die oben definierte Produktwahrscheinlichkeit in keinem Widerspruch steht zu den Wahrscheinlichkeit,sverteilnngenauf den einzelnen m u m e n und dass Ereignisse, die vom Ausgang verschiedener Experimente bestimmt sind, unabhangig sind. Damit ist dann gezeigt, dass Produktmodelle sinnvolle Modelle ftir physisch unahhangige Experimente sind. Wir bemerken zunachst, dass wir das Ereignis, dass das Ergebnis des i-ten Experimentes in Ai liegt, als Teilmenge
von fl darstellen kiinnen,
S a t z 3.9 Seien Ai C gilt
ni Ereignisse und sei At
wie in (3.3) definiert. Dann
P(AI) = Pi(Ai) fur i = 1 , . . . ,n,,
und die Ereignisse A;, . . . ,A; sind stochastisch unabhangig. Beweis. Es gilt
j ) 1 fiir alle j = I , . . . ,n. da C W E n . p j ( w= Fiir 1nhiz;s 1 5 i l < . . . < ik 5 n gilt
Also sind A;, . . . ,A; unabhhgige Ereignisse.
0
Mit der Identitiit AA; n . . . n A; = A1 x . . . x A, bedeutet die Aussage des P ) gilt Satzes 3.9, dass auf dem Produktraum (a,
3.3 Bedingte Wahrscheinlichkeiten
49
P(A1 x .. . x A,) = Pl(A1). . .. .P,(A,). Allgemeiner kann man diese Formel auch fur Produkte nicht notwendig diskreter Experimente als Ausgangspunkt einer Definition der Produktwahrscheinlichkeit nehmen. Dann muss man zeigen, dass P eindeutig bestimmt ist durch die Wahrscheinlichkeiten solcher kartesischen Produkte. Dies ist u.a. Thema in einer Vorlesung uher Mal- und Wahrscheinlichkeitstheorie.
ubung 3.6 Seien (Qi,P,),1 5 i 5 n , verschiedene Laplace-Experimente. Zeige, dass die Produktverteilung auf QI x . . . x Q, eine Laplaceverteilung ist.
3.3 Bedingte Wahrscheinlichkeiten Nun wenden wir uns der Beschreibung von Abhangigkeitseigenschaften in Bezug auf Ereignisse zu. Dabei spielt der Begriff ,bedingte Wahrscheinlichkeit' die zentrale Rolle. Wenn wir ein Wurfelexperiment betrachten, hei dem zweimal mit einem unverfalschten Wurfel geworfen wird, so konnen wir nach der Wahrscheinlichkeit fragen, dass die Augensumme 12 ist. Wenn wir bereits wissen, dass beim ersten Wurf eine 5 gewtirfelt wurde, so wurden wir dem Ereignis ,Augensumme 12' intuitiv nicht mehr die gleiche Wahrscheinlichkeit geben, wie wir es ohne diese Teilinformation getan haben. Wir betrachten die Situation erst ftir die frequentistische Interpretation von Wahrscheinlichkeit. Wir wissen, dass das Ergebnis eines Experimentes in A liegt. Zni- Berechnung der Wahrscheinlichkeit eines Ereignisses B sind wir nun nicht mehr interessiert an der relativen HBufigkeit des Eintretens von B in der Gesamtfolge, sondern nur noch in der Teilfolge von Experimenten, in = denen A eingetreten ist. Diese relative Hanfigkeit ist durch ,A/. gegehen. Sie ist also gleich dem Quotienten aus den relativen Haufigkeiten des Eintretens von A n B und von A. So konnen wir durch Grenzwerthildung zu folgender Definition finden.
Definition 3.10 Es seien A und B Ereignisse mit P ( A ) > 0. Dann definieren wir die hedingte Wahrseheinliehkeit uon B gegehen A d w e h
Auch fur die Interpretation von Wahrscheinlichkeit als relative HBufigkeit eines Merkmals in einer endlichen Grundgesamtheit klinnen wir diese Definition motivieren. Es seien A und B zwei Merkmale (Kind, Sanger), die wir mit den Teilmengen A und B der Grundgesamtheit identifizieren. Wenn wir
50
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
Q S K IS1 1K1 ISnKl P(SIK)=
Einwohner Bochums Sitnger Kinder 100.000 40.000 20.000
Abb. 3.2. Bedingte Wahrscheinlichkeiten in einer endlichen Grundgesamtheit
von einer Person bereits wissen, dass sie Merkmal A hat, dann ist die Wahrscheinlichkeit, dass sie auch Merkmal B hat, gleich der relativen Haufigkeit des Merkmals B innerhalb der Teilmenge A, d.h. P(B1A) = !&E! I*l ' Bemerkung 3.11 Fur unabhangige Ereignisse A und B mit P(A) > 0 gilt
d.h. die Wahrscheinlichkeit, dass B eintritt gegeben A, ist gleich der Wahrscheinlichkeit von B . Die Information, dass A eingetreten ist, hat also keinen Einfluss auf die Wahrscheinlichkeit, dass dann auch B eintritt. Umgekehrt folgt aus P(B1A) = P ( B ) mit Hilfe der Definition der bedingten Wahrscheinlichkeit P ( A n B ) = P ( A ) P(B1A) = P(A) P ( B ) , d.h. dass die Ereignisse A und B unabhangig sind.
Beispiel 3.12 (i) Fur ein Wurfelexperiment, bei dem 2-ma1 mit einem unverfalschten Wurfel geworfen wird, definieren wir die Ereignisse A : ,beim 1. Wurf wird eine 6 geworfen' B : ,die Augensumme ist 12'.
i
&
i.
ist dann P(B1A) = Dies entspricht der Mit P ( A ) = und P ( A n B ) = intuitiven uberlegung, dass, wenn wir bereits wissen, dass beim ersten Wurf eine 6 gewurfelt wurde, die Wahrscheinlichkeit, dass die Augensumme gleich 12 ist, gleich der Wahrscheinlichkeit ist, dass beim zweiten Wurf auch eine 6 geworfen wird. (ii) Wir ziehen 2-ma1 ohne Zurucklegen aus einer Urne mit R roten und (N - R ) weifien Kugeln. Wir definieren die Ereignisse A : ,die 1. gezogene Kugel ist rot' B : ,die 2. gezogene Kugel ist rot'
g,
E.
Dann gilt P ( A ) = P ( A n B ) = R(R-1) und somit P(B1A) = Auch dieses Resultat entspricht unserer Intuition, denn, wenn bei der ersten
3.3 Bedingte Wahrscheinlichkeiten
51
Ziehung eine rote Kugel gezogen wird, dann sind in der Urne danach noch (N - 1) Kugeln und davon sind (R - 1) rot. Satz 3.13 (Multiplikationsregel) Es seien Al, . . . ,A, Ereignisse mit P(A1 n . . . n A,-1)
# 0. Dann gilt P(A1 n . . . n A,) = P ( A l ) . P(A,IAl) . . . . . P(AnIAl n . . . n A,-,). (3.4)
Beweis. Wir wenden auf der rechten Seite von (3.4) auf jeden der Faktoren die Definition der bedingten Wahrscheinlichkeit an und erhalten so ein teleskopisches Produkt, d.h. dass sich jeweils Zahler und Nenner aufeinanderfolgender 0 Faktoren wegkurzen. Satz 3.14 (Satz von der totalen Wahrscheinlichkeit) Es sei B1, . . . , B, eine disjunkte Zerlegung des Ergebnisraumes 0 , d.h. 0 = B1 U . . . U B, und Bi n Bj = 0 fur i # j, und es gelte P ( B i ) > 0 fur alle i = 1 , . . . ,n. Dann gilt fur jedes Ereignis A c 0
Abb. 3.3. Satz von der totalen Wahrscheinlichkeit
Beweis. Die Mengen A n B1, . . . ,A n B, sind disjunkt und ihre Vereinigung ist A. Also gilt P ( A ) = EL=,P ( A n B,) = EL=,P(AIB,)P(B,). 0 Satz 3.15 (Bayes-Formel) Es sei B1, . . . , B, eine disjunkte Zerlegung von 0 und es gelte P(Bi) alle i = 1 , . . . , n. Dann gilt fur jedes Ereignis A C 0
> 0 fur
52
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
Beweis. Nach Definition gilt P ( B i l A ) =
v,
und wir wenden im Nenner die Formel von der totalen Wahrscheinlichkeit an. 0 In den Aufzeichnungen des englischen Pfarrers Thomas Bayes (1702-1761) ,An essay towards solving a problem in the doctrine of chances', die im Jahre 1763 posthum herausgegehen wurden, erschien diese Formel zum ersten Mal. Wir wollen jetzt einige Beispiele geben fur die Anwendungen dieser drei Satze. Wie auch an anderen Stellen in der elementaren Wahrscheinlichkeitsrechnung, z.B. Satz 1.6, sind die Aussagen der Satze nicht sehr kompliziert und so auch die Beweise kurz. Ihre Bedeutung lie@ in der Anwendung in unterschiedlichen Zusammenhiingen. Wir heginnen mit einem Beispiel zur Multiplikationsregel. Mit ihrer Hilfe konnen wir Wahrscheinlichkeiten berechnen bei nacheinander ausgefiihrten Experimenten, indem wir fur alle Zwischensituationen die hedingten Wahrscheinlichkeiten P ( A k I A l fl . . . fl Am-,) ausrechnen.
Beispiel 3.16 Gegehen sei eine Urne mit R roten und ( N - R) weiDen Kugeln. Ein moglicher Ergebnisraum fiir das n-fache Ziehen ohne Zurucklegen ist
wobei 0 fiir weiD und 1 fiir rot steht. Wir definieren die Ereignisse
A?)
:
,die i-te gezogene Kugel ist weiD'
A
:
,die i-te gezogene Kugel ist rot'.
Dann konnen wir das Ergebnis ( w l ,. . . , w,) auch schreiben als Durchschnitt von A?,.. . ,A?, d.h. { ( w l , . . . ,w,)} = A? fl .. . fl A?. Mit Hilfe der Multiplikationsregel berechnen wir die Wahrscheinlichkeitsfunktion p(w1,. . . ,w,) := P ( { ( w l , . . . ,w,)}) und erhalten
p(wl,. . . ,w,) = P ( A Y 1 ). P ( A Y IA?)
. . .. . P(A>
IAy'
fl . . . fl A:;').
Zur Berechnung dieser hedingten Wahrscheinlichkeiten bedenken wir die Bedingungen, die sich nach den erst,en k Ziehungen ergehen. Die Urne enthiilt dann ( N - k ) Kugeln und davon sind ( R - c:=, wi) rot und k ( N -R - (k-xi= , w i ) ) weis. Damit folgt
Zur Veranschaulichung herechnen wir ftir den Fall, dass 4-ma1 gezogen wird, die Wahrscheinlichkeit des Ergebnisses w = ( 0 , 1 , 0 , 0 ) .Es gilt P ( A y ) =
9.
3.3 Bedingte Wahrscheinlichkeiten
53
Nach der ersten Ziehung befinden sich noch (N - 1) Kugeln in der Urne, von denen R rot und ( N - R - 1) weifl sind. Also ist P(A;IAy) = Anschlieflend sind ( R - 1) rote und ( N - R - 1) weifle Kugeln in der Urne, also P(A! IATnA;) = Vor der letzten Ziehung enthalt die Urne (R-1) rote und ( N - R - 2) weifle Kugeln, sodass P(A2IAy n A; n A!) = Die Anwendung der Multiplikationsregel ergibt dann
A.
w.
w.
Wenn wir diese uberlegungen verallgemeinern von 6maligem auf n-maliges Ziehen und r = xY=, wi die Anzahl der rot,en Kugeln in der Stichprobe ist, so erkennen wir als allgemeine Formel
Die Wahrscheinlichkeit einer bestimmten Stichprohe h h g t also nur von der Anzahl der roten Kugeln in der Stichprobe ab und nicht von der Reihenfolge, in der die Kugeln gezogen werden. So kijnnen wir mit der Identitat (3.7) auch die Wahrscheinlichkeit der Ereignisse
A,
: ,es
werden genau r rote Kugeln gezogen'
berechnen. Es giht ):( Ergebnisse (wl, . . . ,w,), bei denen r der wi's gleich 1 sind, und alle haben dieselhe Wahrscheinlichkeit. Also folgt
und mit p(r) := P(A,) ist dies wieder die hypergeometrische Verteilung auf {0, . . . ,n} mit Parametern N , R und n.
In Beispiel 3.16 haben wir die bedingten Wahrscheinlichkeiten
nicht mit der Definition berechnet, sondern wir haben Modelle fiir die Experimente ,Ziehen einer Kugel aus einer Urne mit ( R - x i k= , wi) roten und ( N - R - ( k - x i k= , wi)) weiflen Kugeln' gemacht. Man beachte, dass jedes dieser Experimente vom Ausgang der vorhergehenden Experimente abhejlgt. Aus diesen Modellen haben wir dann mittels der Multiplikationsregel ein gemeinsames Model1 far das Gesamtexperiment gemacht. Dies ist eine Analogie zur Vorgehensweise im vorigen Abschnitt, in dem wir, ausgehend von einer Anzahl physisch unabhejlgiger Experimente, Produktexperimente definiert haben. Es giht auch einen allgemeinen Satz, der besagt, dass man, wie im
54
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
obigen Beispiel, ein Gesarntexperiment rnodellieren kann, indem man Modelle fiir bedingte Experimente macht. Dies ist ein Analogon zu Satz 3.9 uber Produktexperimente. Der Sa,t,zvon der t,otalen Wahrscheinlichkeit findet seine Anwendung in der Modellierung zweist,ufiger Experiment,e, bei denen in der ersten Stufe mit Hilfe eines Zufallsexperimentes festgelegt wird, welches von n moglichen Experimenten in der zweiten Stufe ausgefuhrt wird. Hier werden wir diesen Satz als Hilfsmittel anwenden, um aus den Modellen fiir die Teilexperimente eirl gerrleirlsarnes Model1 fur das Gesarr~texperirr~erlt zusarr~rr~er~zusteller~.
Abb. 3.4. Zie11e11aus einer zufdlig gewlhlten Urne
Beispiel 3.17 Wir haben 6 Urnen rnit jeweils 5 Kugeln. Die erst,e Urne enthalt, 5 weiRe Kugeln, die zweit,e Urne enthalt 4 w e i k Kugeln und eine rot,e Kugel, usw., die sechste Urne enthat, nur rote Kugeln, siehe Abb. 3.4. Mit Hilfe eines unverfalschten Wiirfels wahlen wir in der ersten Stufe zufallig eine Urne aus. In der zweiten Stufe ziehen wir dann ausschlieAlich aus dieser Urne und stets mit Zurucklegen. Wir definieren die Ereignisse
Bi: ,es wird aus der ?:-ten Urne gezogen' Al A2
: ,die 1. gezogene Kugel ist rot,' : ,die 2. gezogene Kugel ist rot'.
Wir frager~nun m c h P(A1) und r~achder bedir~gt~er~ T,JTal~rscl~einlichkeit P(A2 IAl), dass die zweite gezogene Kugel rot ist, gegeben, dass die erste gezogerle Kugel rot war? B1,. . . ,B6 bilder~eine disjunkte Zerlegung des Ergebnisraumes, u r d es gilt P ( B i ) = Gegeber~Bi wird in der zweiten Stufe aus einer Urne mit (1: - I) roten Kugeln gezogen und sornit gilt P(Al lBi)= -.5 Mit der Formel von der t,otalen Wahrscheinlichkeit folgt dann
i.
Diese dussage, dass es beim ersten Ziehen gleich wahrscheinlich ist, eine rote Kugel oder eine weifie Kugel zu ziehen, lasst sich auch mit einer Symmedie Kugelr~ triebet,racht,ungeinsehen. Wir kormten, als Gedar~ker~experirrle~~t, urnf%rben;die weiflen Kugelr~rot und die rote11 Kugeln weif3, und das Experiment bliebe gleich.
3.3 Bedingte Wahrscheinlichkeiten
55
Weiter gilt
Wir berechnen nun die Wahrscheinlichkeit, dass die erste und die zweite gezogene Kugel rot sind mit der Formel von der totalen Wahrscheinlichkeit. Gegeben Bi ziehen wir 2-ma1 mit Zurucklegen aus einer Urne mit ( i - 1) roten Kugeln und erhalten so P(A1 n AzIBi) = Hieraus folgt
(y)'.
und
Die bedingte Wahrscheinlichkeit, dass die zweite gezogene Kugel rot ist, gegeben, dass die erste gezogene Kugel rot ist, ist deutlich griiBer als welches die unbedingte Wahrscheinlichkeit ist, dass die zweit,e gezogene Kugel rot ist, siehe Aufgabe 3.3. Die beiden Ereignisse A1 und Az sind eben nicht unabhwgig. Die Information, dass die erste gezogene Kugel rot ist, vergr6Bert die Wahrscheinlichkeit, dass bei der zweiten Ziehung eine rote Kugel gezogen wird. Dies entspricht der Tatsache, dass das erste Ergebnis uns Informati* nen gibt uber die Urne, aus der wir ziehen, 2.B. kann das Ereignis A1 bei der ersten Urne nicht eintreten.
i,
Die Bayes-Formel findet ihre Anwendung bei Experimenten, bei denen wir die bedingten Wahrscheinlichkeiten P(AIB1),. . . ,P(AIB,) fiir eine disjunkte Zerlegung B1,.. . ,B, kennen und die Wahrscheinlichkeiten P(B1),. . . , P(B,). Wir kannen uns die Ereignisse B1,... ,B, denken als verschiedene Ursachen, die das Ereignis A hewirken. Und mit der BayesFormel kiinnen wir aus der Wirkung Ruckschlusse auf die Ursachen ziehen, d.h. die ,inversenCWahrscheinlichkeiten P(BilA) berechnen.
Beispiel 3.18 Wir hetrachten nochmal die Gegebenheiten des letzten Beispiels und stellen nun die Rage: Wie groB ist die bedingte Wahrscheinlichkeit, dass wir aus der i-ten Urne ziehen, gegeben, dass die erste gezogene Kugel rot ist? Mit der Bayes-Formel erhalten wir
Die Information, dass die erste gezogene Kugel rot ist, verschiebt also die Wahrscheinlichkeitsverteilung unter den Urnen von ( P ( B i )1, 5 i 5 6) = ( 61, 61, 61, 61, 16 , 1 ) zu (P(BilAl),l5 i 5 6) = also ZUgunsten der Urnen, die eine griiBere Anzahl roter Kugeln enthalten.
(&,A,&,&,&,&),
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
56
Die Statistik ist der Teilhereich der Mathematik, der sich rnit Wahrscheinlichkeitsexperimenten befasst, deren Wahrscheinlichkeitsverteilung nicht vollstejldig bekannt ist. Wir haben bereits die hinomiale und die hypergeometrische Verteilung kennengelernt, die verschiedene Parameter enthalten. Die Verwendung von Parametern ist eine Moglichkeit, die fehlenden Informationen auszudriicken. In der Statistik versucht man nun, aufgrund des Ergehnisses des Experimentes eine Aussage iiber den Wert des unbekannten Parameters zu machen. Die Bayes-Formel ist die Grundlage fiir die Bayes'sche Statistik. In dieser Statistik wird der Parameter als Ergehnis eines weiteren Zufallsexperimentes aufgefasst, dessen Verteilung, die sogenannte a priori Verteilung, man kennt. Mit Hilfe der Bayes-Formel kombiniert man die a priori Verteilung rnit der Information iiber den Ausgang des Experimentes zu einer a posteriori Verteilung des Parameters. Das vorige Beispiel kijnnen wir auch auf diese Weise betrachten. Die Nummer der Urne, aus der wir ziehen, ist der unbekannte Parameter. A priori waren alle Urnen gleich wahrscheinlich, weil wir die Urne rnit einem unverfalschten Wiirfel ausgewahlt haben. Im Sprachgebrauch der Bayes'schen Statistik ist also die a priori Verteilung auf dem Parameterraum {I,.. . ,6} die Laplace-Verteilung . . . , 1st die gezogene Kuael rot, so erhalten wir rnit der Baves-Formel die a ~osterioriVerteiluna (0'""'") 115, 15, 15, 15, 15 . Das entscheidende Problem der Bayes'schen Statistik ist die Tatsache, dass man im Allgemeinen nicht wei0, wie der unbekannte Parameter gewahlt wurde und dass deswegen die Interpretation der a priori Verteilung unklar ist. Man versucht dann, subjektive Empfindungen iiber den wirklichen Parameterwert durch eine Wahrscheinlichkeitsverteilung auszudriicken. Diese Wahrscheinlichkeiten lassen sich weder rnit der frequentistischen Definition noch rnit der Interpretation von Wahrscheinlichkeit als relat,ive Haufigkeit eines Merkmals in einer endlichen Grundgesamtheit verbinden.
-
(i, i).
-
ubung 3.7 Wir haben eine Urne rnit R roten und W weiBen Kugeln. Wir zie-
hen eine Kugel und legen diese wieder zuriick zusammen rnit einer weiteren Kugel derselben Farbe. Dann ziehen wir ein zweites Mal. Berechne fiir die Ereignisse A : ,die 1. gezogene Kugel ist weiDL B : ,die 2. gezogene Kugel ist weiDL die Wahrscheinlichkeiten P(A), P(B1A) und P(B). Berechne die Wahrscheinlichkeit P(AIB). ubung 3.8 Fiir eine seltene Krankheit, an der 0,1%der Bevolkerung leidet, wurde ein Test entwickelt. Der Test falt fiir 99% aller Kranken positiv aus, aber auch fiir
1% aller Gesunden. Wie groB ist die Wahrscheinlichkeit, dass eine Person, fiir die der Test positiv ausfiel, wirklich krank ist?
3.4 Ruinproblem
57
ubung 3.9 Wir haben 2 Urnen rnit jeweils 5 Kugeln. Eine Urne enthalt 3 weiDe und 2 rote Kugeln, die andere Urne 2 we8e und 3 rote Kugeln. Wir wahlen zufdlig eine Urne aus und ziehen dann 2-ma1 ohne Zuriicklegen. Bestimme die Wahrscheinlichkeit, dass r rote Kugeln, r = 0,1,2, in der Stichprobe sind und die bedingte Wahrscheinlichkeit, dass aus der ersten Urne gezogen wurde, gegeben, dass zwei rote Kugeln in der Stichprobe sind.
3.4 Ruinproblem
. 10-
,, ,,
.. . .. .
,~~ , ' ~ ~,~ '..... . . .:. .... , ,~ ~ ~,,, ,, ,~ ~, ~, .... ~, ,,, ~ \, . .. ,, . I I I li 20 25
~
-
I
I 10
,
,
.
.
I 30
31
Abb. 3.5. Ruinprohlem: einige mogliche Spielverlaufe
Zwei Spieler, A und B, spielen ein Gliicksspiel, das in mehreren Runden gespielt wird. Gewinnt A eine Runde, so erhalt er einen Euro von B, verliert er, so muss er einen Euro an B zahlen. In jeder Runde hat A die Gewinnwahrscheinlichkeit p und B die Gewinnwahrscheinlichkeit q = 1 - p. Das gemeinsame Kapital der beiden Spieler ist K und davon besitzt A zu Beginn des Spiels den Anteil a. Das Spiel endet, sobald einer der Spieler pleite ist. Die Frage nach der Wabrscheinlichkeit, ob das Spiel rnit dem Ruin von A endet oder rnit dem Ruin von B, heiBt das Rninproblem. Es wird sich als sinnvoll erweisen, dass wir die Funktion ?r(x), x = 0,. . . ,K, betrachten, die die Wahrscheinlichkeit angibt, dass das Spiel rnit dem Ruin von A endet, wenn dieser das Anfangskapital x hat. Alle Betrage, a, K nnd x, sind nicht-negative ganze Zahlen. Wir definieren das Ereignis EA, dass A die 1. Runde gewinnt und das Ereignis E g , dass B die 1. Rnnde gewinnt. Diese beiden Ereignisse sind eine disjunkte Zerlegung des Ergebnisraumes, so dass wir die Formel von der totalen Wahrscheinlichkeit anwenden kijnnen P(,Spiel endet rnit dem Ruin von A') = P(,Spiel endet rnit dem Ruin von ALIEa). P ( E A )
+P(,Spiel endet rnit dem Ruin von A'IEg). P ( E B )
58
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
Es gilt P ( E A ) = p und P ( E B ) = 1 - p. Wenn Spieler A die 1. Runde gewinnt, so hat er nach der l . Runde ein Kapital von ( x l ) . Daraus folgt, dass die bedingte Wahrscheinlichkeit, dass das Spiel rnit dem Ruin von A endet,, gegeben EA, gleich ?r(x 1) ist. Da das Gesamtkapital gleichbleibt, ist, die bedingte Wahrscheinlichkeit, dass das Spiel rnit dem Ruin von A endet, gegeben E B , gleich ?r(x- 1). Also erhalten wir folgende Gleichung
+
+
eine Differenzengleichung zweiten Grades rnit den Randbedingungen ~ ( 0=) 1 (A ist bereits zu Beginn pleite) und ?r(K)= 0 ( B ist bereits zu Beginn pleite). Satz 3.19 (i) Fur p # q ist die Wahrscheinlichkeit, dass das Spiel mit dem Ruin uon A endet, wenn A das Anfangskapital x hat, gegeben durch
(ii) F u r p = q = $ ist die entsprechende Wahrscheinlichkeit gegeben durch x ~ ( x=)1 - K
fur x = 0 , . .. ,K .
(3.10)
Beweis. Wir zeigen zuniichst, dass die Differenzengleichung (3.8) htjchstens eine Losung hat zu den vorgegebenen Randbedingungen ~ ( 0 = ) 1 und ?r(K) = 0. Wir nehmen an, dass es zwei verschiedene Losungen T I und ?r2 von (3.8) gibt rnit identischen Randwerten ?r1(0) = ~ ( 0 = ) 1 und ?rl ( K ) = ?rz(K) = 0. Auch ?r3(x) := m ( x ) - ?rl ( x ) ist dann eine Ltjsung ) 0. Wenn ?r3 nicht idenvon (3.8) rnit den Randwerten ?r3(0) = T ~ ( K= tisch 0 ist, dann gibt es ein relatives Extremum. Ohne Einschrejlkung der Allgemeinheit nehmen wir an, dass dies ein Maximum sei, d.h. es gibt ein xo E { I , . . . ,K - 1 ) rnit T ~ ( X O )2 ?r3(20 - 1) und ?rs(%o)2 ? r 3 ( ~ 0 I ) , wobei mindestens eine Ungleichung strikt ist. Daraus folgt rnit (3.8)
+
=
=
Dies ist ein Widerspruch, und so ist gezeigt, dass 713 0 und somit ?rl ?rz. Durch Einsetzen iiberpriifen wir, dass (3.9) bzw. (3.10) Losungen der Gleichung (3.8) sind. Fiir p = q = $ erhalten wir
und ~ ( 0=) 1 sowie ?r(K)= 0. Fiir p # q erhat man durch Einsetzen sofort die Randwerte ~ ( 0=) 1 und ?r(K)= 0. Weiter gilt
3.4 Ruinproblem
59
Uber den Beweis von Satz 3.19 hinaus kijnnen wir uns damit beschaftigen, wie wir alle Losungen der Differenzengleichung (3.8)finden konnen, und damit eine Idee bekommen, wie die Formel in Satz 3.19 hergeleitet wurde. Wir verwenden dazu den Ansatz ~ ( x=) A" fur ein geeignetes X E @. Es muss dann gelten
was aquivalent ist zu
E,
und Diese quadratische Gleichung hat 2 Losungen, XI = 1 und Xz = fur p # q erhalten wir nun 2 Losungen fiir (3.8),nejnlich ?rl(x) 1 und ?r2(5)
=
(:)=. Alle Linearkombinationen ~ ( x=) c l .
=
+ cz .m ( x ) sind
?rl (x)
ebenfalls L6sungen von (3.8). Die Festlegung der Randbedingungen ~ ( 0 und ) ?r(K)fuhrt uns zur Bestimmung der Koeffizienten c l und cz. Sie miissen das folgende Gleichungssystem erfiillen
Fur den Fall (i), d.h. q
# p, hat das System eine eindeutige Losung. Mit
~ ( 0 =) 1, ?r(K)= 0 erhalten wir c l Losung C2
+ cz = 1 und c l + ca (g)
K
= 0 und die
1
=
1-( 4 1 ~ ) ~
i,
Fur den Fall (ii), d.h. q = p = haben wir eine doppelte Nullstelle in X = 1, und darum liefert der Ansatz ~ ( x=) Ax nur eine Losung, nejnlich ?rl(x) 1.
=
60
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
In einer doppelten Nullstelle 50 einer Fnnktion f gilt f (xo) = 0 und f'(x0) = 0. Damit konnen wir fur eine doppelte Nullstelle Xo von f (A) = pX2 - X + q zeigen, dass ?r2(x)= xX; eine weitere Losung ist, denn
"A; - p ( x =
xi-'
+ l)X;+' - q(x - 1)X;-l + 1)Xo - p(5 - 1 + 2)X; - q(x - 1 ) ) - 1) (Ao -PA; - q) + X ; - l ( X 0 - 2pX;)
( ( x- 1
= X;-'(x
= -x;-l(x - 1)f ( X 0 ) - X i f 1 ( X 0 ) = 0.
Auch die Linearkombinationen ?r(x)= cl ?ri(x)+ cz ?rz(x)sind Losungen von (3.8). Mit X = 1, ?rl 1, ?r2(x)= x suchen wir nun nach den Koeffizienten cl und cz, so dass ~ ( x=) C I c2 x die Randbedingungen des Ruinprohlems erfiillt. Das lineare Gleichungsystem cl = 1, cl+c2 K = 0 liefert die L6sungen 1 cl = l u n d c z = -x.
=
+
3.5 Aufgaben Aufgabe 3.1 Wir betrachten noch einmal das Problem der gerechten Aufteilung des Einsatzes bei einem vorzeitig abgebrochenen Glucksspiel, siehe Beispiel 1.4. Sei p(n,m) die Wabrscheinlichkeit, dass der erste Spieler gewinnt, wenn ihm noch n Punkte und seinem Mitspieler noch m Punkte fehlen. Zeige, dass fiir n , m 2 1 gilt
und berechne p(n, m ) fiir 0 5 n , m
53
Aufgabe 3.2 Wir betrachten nun ein Analogon zn Aufgabe 3.1 fiir drei Spieler A, B, C. In jeder Runde gewinnt jeder der Spieler mit Wabrscheinlichkeit den Punkt. Das Spiel wird vorzeitig abgebrochen zu einem Zeitpunkt, als Spieler A und B noch je einen Punkt und Spieler C noch 2 Punkte henotigen. Welche Aufteilung w&e jetzt fair? Huygens hat dieses Problem auch bearbeitet und in einer Tabelle aufgeschrieben, bei welchem Spielstand er welche Aufteilung als fair ansieht, siehe Abb. 3.6. Vergleiche die Resultate! Aufgabe 3.3 Wir haben ( N + 1) Urnen mit jeweils N Kugeln. Die i-te Urne enthalt (i - 1) rote Kugeln und ( N + 1 - i) weiRe Kugeln. Wir wablen zufallig eine Urne aus und ziehen dann ausschlieDlich aus dieser Urne und stets mit Zuriicklegen. (i) Berechne die bedingte Wabrscheinlichkeit, gegeben dass die ersten n gezogenen Kugeln rot sind, dass auch die ( n l)-te gezogene Kugel rot ist. Berechne den Limes fiir N + m. (Anhand dieses Modells hat Laplace die
+
Abb. 3.6. Faire Aufteilung des Eineatzes bei 3 Spielern fiir versehiedeue Punktest%.de zum Zeitpunkt des Spielabbruchs (Huygens, op.cit.)
Rage bewegt, wie PO% die Wahrscheinlichkeit ist, dass morgen die Sonne aufgehen wird.) (ii) Berechne die Wahrscheinlichkeit, dass die erste gezogene Kugel rot ist und die Wahrscheinlichkeit, dam die zweite gezogene Kugel rot ist.
Aufgabe 3.4 Wi werfen n-ma1 mit einem unverOUschten Wiirfel und bezeichnen mit p,, die Wahrscheinlichkeit,dass bei einer geraden Anzahl Wiirfen die Augenzahl6 geworfen wird. Beweise folgende Rekursionsformel 1 5 P n = 6(1 - ~n-1) -.%-I.
+6
Suche hiermit eine explizite Formel %f keiten unmittelbar berechnen lassen.
p,, mit der sich die Wahrscheinlich-
Aufgabe 3.5 Wir werfen n-md eine unverf3schte Miinze und bezeichnen mit p,, die Wahrscheinlichkeit, dasi in der Folge der WIirfe an einer Stelle dreimd nacheinander ,Kopf geworfen wird. Zeige, dass
Aufgabe 3.6 Wenn eine Familie zwei Kinder hat, so gibt es vier Moglichkeiten, ob dies Jnngen oder Mgdchen sind. Wir setzen voraus, dass d e Mijglichkeiten gleich wahrscheinlich sind und wir z u f Z einer vierkopfigen Familie
62
3. Unabhangigkeit und bedingte Wahrscheinlichkeit
begegnen. (i) Wie groD ist die bedingte Wahrscheinlichkeit, dass die Familie zwei Jungen hat, gegeben, dass mindestens eines der Kinder ein Junge ist? (ii) Wie groD ist die bedingte Wahrscheinlichkeit, dass die Familie zwei Madchen hat, gegeben, dass das itltere Kind ein Madchen ist?
Aufgabe 3.7 Wir haben 2 Beutel mit je 10 Apfeln. In dem ersten Beutel ist, ein angefaulter Apfel und in dem zweiten Beutel sind 2 angefaulte Apfel. Wir wahlen zufallig einen Beutel aus, nehmen einen Apfel heraus und freuen uns, dass dieser frisch ist. Wie groB ist die Wahrscheinlichkeit, dass der nachste, aus demselben Beutel genommene Apfel, auch frisch ist? Aufgabe 3.8 Das folgende Urnenmodell geht auf den ungarischen Mathematiker Georg P6lya (1887-1985) zuriick. Wir haben eine Urne mit einer roten und einer weiDen Kugel. Aus dieser Urne ziehen wir zufitllig eine Kugel und legen anschliefiend diese Kugel zusammen mit einer weiteren Kugel derselben Farbe zuruck in die Urne. Nun ziehen wir zufdlig aus der Urne, die nun drei Kugeln enthalt, und setzen dieses Verfahren fort. Das Ergebnis der ersten n Ziehungen knnnen wir durch ein n,-Tnpel (wl,. . . ,w,) mit wj E {O, 1) beschreiben, wobei wi = 0 und wi = 1 bedeutet, dass die i-te gezogene Kugel weiD bzw. rot ist. (i) Wie grofi sind die Wahrscheinlichkeiten der Ergebnisse (0,0,1,1,1) und ( L O , LO, I ) ? (ii) Suche eine allgemeine Formel fiir die Wahrscheinlichkeit von (wl, . . . , w,). (iii) Vor der a-ten Ziehung sind (n + 1) Kugeln in der Urne. Berechne die Wahrscheinlichkeit, dass k dieser Kugeln rot sind, fur k = 1,. . . , n . Aufgabe 3.9 Wir betrachten nun eine Abwandlung des P6lya'schen Urnenmodells. Wir haben eine Urne mil r roten und w weiBen Kugeln. Nach jeder Ziehung wird die gezogene Kugel zusammen mit c weiteren Kugeln derselben Farbe zmiickgelegt. Zeige, dass die Wahrscheinlichkeit, bei der n-ten Ziehung eine rote Kugel zu ziehen, & ist (Hinweis: Bedinge auf das Ergebnis der ersten Ziehung). Aufgabe 3.10 Bei einem Quiz kann der Gewinner am Ende noch ein Luxusauto als Zusatzpreis gewinnen. Das Auto steht hinter einer von drei Tiiren und, wenn der Kandidat die richtige Tiir auswahlt, gehort ihm das Auto. Das Verfahren ist stets so, dass der Kandidat zunachst auf eine Tiir zeigt und dass anschliefiend der Quizmaster, der die richtige Tur kennt, eine der beiden anderen Tiiren offnet,,hinter der sich das Auto nicht befindet. Der Kandidat erhtilt dann die Maglichkeit, seine erste Wahl zu bedenken und eine andere Tur auszuwiihlen. Bedenke folgendes Argument: ,Der Kandidat hat nach dem Hinweis des Quizmasters noch die Wahl zwischen zwei Turen, hinter denen das Auto stehen konnte. Die Wahrscheinlichkeit, die richtige Wahl zu treffen, ist fiir beide Tiiren dieselbe, und sie ist $. Also erhljht der Kandidat seine Gewinnchancen nicht, wenn er seine erste Wahl revidiert'.
4. Zufallsvariablen und ihre Verteilungen
In diesem Kapitel wollen wir unser Handwerkszeug um ein Instrument, die Zufallsvariablen, erweitern. Zufallsvariablen spielen eine wichtige Rolle bei der Beschreibung von Zufallsexperimenten, bei denen wir uns nicht fiir alle Einzelheiten des Ergebnisses interessieren, sondern fur eine zahlenmaige Zusammenfassung. Die Zufallsvariable ordnet jedem Ergebnis des Experimentes eine Zahl zu und fasst so das Ergebnis des Experimentes zusammen. So konnen wir ~bereinstimmun~en bei auflerlich sehr unterschiedlichen Experimenten entdecken und gewinnen Ordnung und ~bersichtfur die Vielfalt moglicher Zufallsexperimente.
4.1 Zufallsvariablen Einfach gesagt ist eine Zufallsvariable eine veranderliche GroDe, deren Wert vom Zufall a b h h g t . Innerhalb unseres Modells ( Q ,F,P ) entsprechen die Elemente w E Q den moglichen Ergebnissen des Zufallsexperimentes, so ist eine Zufallsvariable also eine Funktion X : f2 + R (spater auch Rn). Obwohl dies an dieser Stelle noch nicht einsichtig ist, erganzen wir noch die Fordernng der Messbarkeit von X .
Definition 4.1 Sei (fl,7,P ) ein Wahrscheinlichkeitsraum. (i) Eine Funktion X : Q + R heipt messbar, wenn fur alle cu E R gilt
+ R. In diskreten Wahrscheinlichkeitsr8umen ist die u-Algebra F im Allgemeinen (ii) Eine Zufallsvariable ist eine messbare finktion X
:Q
die Potenzmenge P ( Q ) , und dann ist jede Funktion X : Q + R messbar und somit eine Zufallsvariable. Noch ein Wort znr internationalen Schreibweise. Es ist ublich, Zufallsvariablen mit groflen lateinischen Buchstaben zu bezeichnen. Der Wert X ( w ) einer Zufallsvariablen X : Q + R wird mit dem entsprechenden Kleinbuchstaben, hier also x = X ( w ) , bezeichnet und heiDt Realisierung der Zufallsvariablen. Zufallsvariablen sind ein so uiitzliches Hilfsmitt,el bei der Beschreibnng von Ereignissen, dass wir nun oft dem ursprunglichen Ergebnisranm Q nnr
64
4. Zufallsvariablen und ihre Verteilungen
noch wenig Aufmerksamkeit schenken. Der grofie Vorteil von Zufallsvariablen ist, dass wir mit ihnen rechnen konnen, d.h. wir konnen sie addieren, subtrahieren, multiplizieren, usw. Als erstes Beispiel betrachten wir wieder das zweimalige Werfen eines unverfalschten Wurfels mit dem Ergebnisraum
+
Jetzt sind Xl(w) := wl, X2(w) := w2 und X := X1 X2 Beispiele fur Zufallsvariablen. Das Ereignis A : ,die Augensumme ist kleiner oder gleich 11' lasst sich dann beschreiben durch
und noch kurzer {X 5 11). Eine Zufallsvariable X definiert auf R eine Wahrscheinlichkeitsverteilung Px, indem wir jeder Teilmenge A c R die Wahrscheinlichkeit zuordnen, dass X einen Wert in A annimmt, d.h. Px(A) = P({w E R : X(w) E A)) = P(XP1(A)). Damit P ( X P 1(A)) definiert ist, muss XP1(A) ein Ereignis sein, d.h. in F liegen. Dies gilt unter der Voraussetzung, dass X messbar ist und dass A eine (Borel-)messbare Teilmenge von R ist. Wir wollen an dieser Stelle auf die exakte Definition der (Borel-)Messbarkeit verzichten. Fur unsere Zwecke reicht es zu wissen, dass alle Intervalle sowie alle offenen und alle abgeschlossenen Mengen messbar sind. Weiter sind Komplemente sowie abzahlbare Vereinigungen und Durchschnitte messbarer Mengen wieder messbar, d.h. die Klasse der messbaren Teilmengen von R bildet eine c-Algebra im Sinne der Definition 1.5. Dass Px wirklich eine Wahrscheinlichkeitsverteilung definiert, also den Kolmogorov'schen Axiomen genugt, ist Gegenstand von ubung 4.1.
Abb. 4.1. ubertragung der Wahrscheinlichkeitsverteilung von 0 nach R
Definition 4.2 Sei X eine Zufallsvariable auf dem Wahrscheinlichkeitsraum ( 0 , F,P ) . Dann heipt die Wahrscheinlichkeitsverteilung Px auf $ die durch
4.1 Zufallsvariablen
P x ( A ) := P ( { w : X ( w ) E A } ) , A
c R messbar,
65
(4.1)
definiert wird, die Verteilung uon X . Fiir P ( { w : X ( w ) E A } ) schreiben wir kurz P ( X E A ) . Wir kijnnen uns dabei bildlich vorstellen, dass die Zufallsvariable X die Wahrscheinlichkeit von 0 nach R ubertragt. Das Vorteilhafte ist nun, dass sehr verschiedene Zufallsvariablen, definiert anf unterschiedlichen Wahrscheinlichkeitsranmen, dieselbe Verteilung haben konnen. Da wir uns nur fiir die Verteilung von X interessieren, konnen wir somit sehr verschiedene Zufallsexperimente auf ein und dieselbe Situation zuruckfiihren. Im Rahmen dieser Einfiihrung wollen wir nur zwei verschiedene Arten von Verteilungen auf B betrachten, diskrete und stetige Verteilungen, womit wir alle gejlgigen Beispiele behandeln konnen.
Definition 4.3 Eine Zufallsvariable X he@ diskret, wenn es eine endliche oder abzahlbar unendliche Teilmenge D C R gibt mit P ( X E D ) = 1. Im Abschnitt 1.4 haben wir diskrete Wahrscheinlichkeitsverteilungen definiert. Eine Zufallsvariable ist also genau dann diskret, wenn ihre Verteilung diskret ist. Und ebenso wie wir dort gezeigt haben, dass diskrete Verteilungen vollstandig durch ihre Wahrscheinlichkeitsfunktion beschrieben werden konnen, gilt dies ftir dislffete Zufallsvariablen mit der Wahrscheinlichkeitsfunktion, die jeder mtjglichen Realisierung x die zugehorige Wahrscheinlichkeit P ( X = x ) zuordnet.
Definition 4.4 Es sei X eine diskrete Zufallsuariahle mit Wertebereich { X I 1, 2 , . . . }. Dann hei$t die Funktion p : X ( Q ) + R, definiert durch
die Wahrscheinlichkeitsf.nktion won X . Gelegentlich wird p ausgedehnt zu einer Funktion auf ganz R, indem. gesetzt wird p(x) = 0 fiir x E R \ X ( 0 ) . Mit dem Kolmogorov'schen Axiom ( A x 3 ) folgt aus (4.2)
d.h. wir konnen fur alle Ereignisse der Form { X E A } , A C $ mit Hilfe der Wahrscheinlichkeit,sfunktionp ( x ) die Wahrscheinlicbkeit berechnen. So benatigen und gebrauchen wir nicht mehr die Verteilung auf dem ursprtinglichen Ergebnisraum 0.
Beispiel 4.5 (i) Fiir das obige Beispiel des 2-maligen Werfens eines unverfalschten Wtirfels ist die durch X ( w ) = wl w ~ definierte Zufallsvariable diskret mit Wertebereich { 2 , . . . ,121. Mit ein wenig Rechnen erhalten
+
66
4. Zufallsvariablen und ihre Verteilungen
Tabelle 4.1. Wertetabelle der Wahrscheinlichkeitsfunktion der Augenzahl beim Wurf mit zwei unverfalschten Wiirfeln
wir die in Tabelle 4.1 zusammengestellten Werte der Wahrscheinlichkeitsfunktion. Das Stabdiagramm, siehe Abb. 4.2, ist eine iibersichtliche grafische Darstellung der Wahrscheinlichkeitsfunktion. Mit Hilfe der Wahrscheinlichkeitsfunktion konnen wir die Wahrscheinlichkeiten aller Ereignisse der Form {X E A} berechnen. So gilt in diesem Beispiel
Abb. 4.2. Wahrscheinlichkeitsfunktion fiir die Augenzahl bei 2-maligem Werfen
eines unverfdschten Wiirfels (ii) Fur ein beliebiges Ereignis A C Q definieren wir die Indikatorfunktion
l a ( w ) :=
1 fiir w E A 0 fiir w E Q \A.
Die Indikatorfunktion l a gibt also an, ob das Ereignis A eingetreten ist,. Diese Funktion ist eine diskrete Zufallsvariable mit dem Wertebereich {O, 1). Die zugehorige Wahrscheinlichkeitsfunktion ist gegeben durch p(0) = 1 - P ( A ) und p(1) = P ( A ) . In der Statistik werden Zufallsvariablen oft verwendet im Zusammenhang mit Ziehungen aus einer endlichen Grundgesamtheit. Wir nehmen an, dass Q = {w,, . . . ,W N } eine solche Grundgesamtheit ist und dass jedem Element w, E Q ein Wert xi E R zugeordnet wird. Dadurch wird dann eine Funktion
4.1 Zufallsvariablen
67
X : Q + R definiert, die gelegentlich auch Populationsvariahle genannt wird. Wir kijnnen dabei z.B. denken an die Bevolkerung Deutschlands ( 0 )und an das Lebensalter jedes Einwohners ( x i ) .Dem zufalligen Ziehen entspricht im Model1 die Laplace-Verteilung auf Q und dann wird X eine Zufallsvariable rnit Wahrscheinlichkeitsfunktion
Diese Wahrscheinlichkeitsfunktion gibt also die relative Haufigkeit der Anzahl van Individuen an, bei denen die Populationsvariahle den Wert x hat. Im Statistischen Jahrbuch eines jeden Landes finden wir zahlreiche Beispiele solcher Populationsvariablen rnit den zugehorigen Vert,eilungen.
Satz 4.6 Es sei X eine diskrete Zufallsvariable mit Wertebereich X ( Q ) = { x l ,x 2 , . . . }. Dann erfiillt die Wahrseheinliehkeitsfanktion p(x) folgende Bedingungen
Umgekehrt gibt es zu jeder Funktion p(x) mit diesen Eigensehaften eine Zufallsvariable mit Wahrscheinlichkeitsfunktion p. Beweis. Fiir das sichere Ereignis gilt P ( X E X ( Q ) ) = 1 und rnit Axiom (Ax3)folgt dann
Umgekehrt sei p(xi) eine Funktion rnit ohigen Eigenschaften. Wir wahlen als Ergehnisraum Q = { x l ,x z , . . . }, definieren darauf eine Wahrscheinlichkeitsverteilung durch P ( A ) := CZi,,p(xi) und die triviale Zufallsvariable X ( x i ) := xi. Dann ist die zugehorige Wahrscheinlichkeitsfunktion
Zur Vereinfachung der Schreibweise werden wir die verschiedenen Realisierungen der Zufallsvariahlen X nun nicht mehr durch einen Index unterscheiden, sondern C Z E A p ( xschreiben. ) Da wir hierbei nicht-negative Zahlen aufsummieren, spielt die Reihenfolge bei der Summation keine Rolle.
68
4. Zufallsvariablen und ihre Verteilungen
ubungen ubung 4.1 Zeige, dass die Verteilung einer Zufallsvariablen den Kolmogorov'schen
Axiomen geniigt. ubung 4.2 Sei X die Augenzahl beim einmaligen Wurf rnit einem unverfalschten Wiirfel. Bestimme Wertehereirh und Wahrscheinlichkeitsfunktion der Zufallsvariablen YI :=X' und Yz := - X . ubung 4.3 Wir werfen 3-ma1 rnit einer unverfalschten Miinze und bezeichnen rnit
X die Anzahl der Wiirfe, bei denen Kopf geworfen wurde. Bestimme den Wertebereich und die Wahrscheinlichkeitsfunktion von X . ubung 4.4 Wir ziehen 2-ma1 ohne Zuriicklegen aus einer Urne rnit 5 nummerier-
ten Kugeln und bezeichnen rnit X die kleinste gezogene Nummer. Bestimme den Wertebereich und die Wahrscheinlichkeitsfunktion von X.
4.2 Wichtige diskrete Verteilungen In diesem Abschnitt werden wir einige wichtige diskrete Verteilungen kennenlernen und untersuchen. Obwohl die zngrundeliegenden Experimente recht einfacher Art sind, fiihren uns die Zufallsvariablen zu durchaus interessanten Verteilungen nnd Zusammenhhgen.
Abb. 4.3. Wahrscheinlichkeitsfunktion der Laplace-Verteilung auf {I,.. . ,5)
Laplace-Verteilung. Die Verteilung einer Zufallsvariablen X heifit LaplaceVerteilung oder Gleichverteilung auf {I,.. . ,N ) , wenn gilt
Die Zufallsvariable, die definiert ist durch die Nummer der Kugel beim einmaligen, zufalligen Ziehen ans einer Urne rnit N Kugeln, hat eine LaplaceVerteilung auf {I,.. . ,N ) .
69
4.2 Wichtige diskrete Verteilungen
Nun betrachten wir verschiedene Verteilungen. mit , die im Zusammenhan~ Experimenten auftreten, die genau zwei mogliche Ergebnisse haben. Diese Experimente heifien Bernoulli-Experimente nach dem Schweizer Mathematiker Jakob Bernoulli (16541705). Die Ergebnisse eines Bernoulli-Experimentes nennen wir meist Erfolg (E) und Misserfolg (M), und wir bezeichnen die zugehiirigen Wahrscheinlichkeiten mit p far Erfolg und q fiir Misserfolg. Unter der Voraussetzung der Unabhangigkeit wablen wir fiir die n-fache Wiederhe lung eines solchen Experimentes als Model1 den Produktraum mit Ergebnisraum und Wahrscheinlichkeitsfunktion u
wobei k = I{i E { I , . . . ,n} : wi= E}I die Anzahl der Erfolge ist.
Abb. 4.4. Wahrscheinlichkeitsfunktion der Bernoulli(0.75)-Verteilung
Bernoulli-Verteilung. Wir definieren die Zufallsvariablen Xi,i = 1 , . . . ,n, durch 1 fur wi= E
Xi gibt an, oh das Ergebnis des i-ten Experimentes ein Erfolg oder ein Misserfolg ist. Diese Zufallsvariablen sind diskret mit Wertebereich { O , 1 ) und haben die Wahrscheinlichkeitsfunktion
Die zugehiirige Verteilung auf { 0 , 1 ) heifit Bernoulli-Verteilung mit Parameter p, kurz Bernoulli(p)-Verteilung.Fur viele Berechnungen ist eine geschlossene Darstellung der Wahrscheinlichkeitsfunktion als
~ ( k=) p k ( l - P ) ' - ~ , k E { O , l } , hilfreich.
(4.7)
70
4. Zufallsvariablen und ihre Verteilungen
Binomiale Verteilung. Durch S, := XI+. . .+X, wird eine Zufallsvariable definiert, die die Anzahl der Erfolge in den n Experimenten angibt. Wir wissen schon aus Beispiel 3.8, dass gilt
Die zugeharige Verteilung auf {O, . . . ,n} heiBt binomiale Verteilung mit Parametern n und p, kurz Bin(n,p)-Verteilung. Da p die Wahrscheinlichkeitsfunktion einer Zufallsvariablen S, ist, gelten die in Satz 4.6 formulierten Identitaten (4.3) und (4.4). Wir konnen (4.4) auch mit analytischen Metboden beweisen, indem wir die Newton'sche Biuomialformel verwenden
So erhalten wir einen neuen Beweis, dass durch (4.8) eine Wahrscheinlichkeitsfunktion p : {0, . . . ,n) + R definiert ist. In Abschnitt 2.3 haben wir in Identitat (2.8) schon einmal die binomiale Verteilung kennengelernt. Dort hatten wir eine Urne mit R roten und ( N - R) weiBen Kugeln, aus der wir n-facb mit Zuriicklegen gezogen haben. Wir kbnnen dies auch betrachten als n unabhangige Bernoulli-Experimente, wobei wir die Ziehung einer roten Kugel als Erfolg interpretieren. Dann hat die Anzahl roter Kueeln in der Stichprobe eine Bin(n, ; ) - ~ e r t e i l u n ~auf {O, . .. ,n,}.
-
AP
Abb. 4.5. Wahrscheinlichkeitsfunktion der binomialen Verteilung mit Parametern n = 20 und p = 0.75 (links) sowie der hypergeometrischen Verteilung mit Parametern N = 32, R = 24 und n = 20 (rechts)
Hypergeometrische Verteilung. Obwohl es sich dabei nicht um eine Folge unabhangiger Bernoulli-Experimente handelt, betrachten wir an dieser Stelle das Ziehen ohne Zurticklegen. Aus einer Urne mit N Kugeln, wovon R Kugeln rot und ( N - R) Kugeln weiD sind, ziehen wir ohne Zuriicklegen n
4.2 Wichtige diskrete Verteilungen
71
Kugeln und bezeichnen rnit X die Anzahl der roten Kugeln in der Stichprobe. Wir wissen schon aus Ahschnitt 2.3, Identitat (2.9), dass gilt
Man beachte, dass obige Formel far alle r E Z GUltigkeit hat, da gemtiB Definition 2.8 (f) = 0 fiir 1 < 0 und fiir 1 > k gilt. Diese Verteilung heiBt hypergeometrische Verteilung rnit Parametern N, R und n. Man kann zeigen, dass die hypergeometrische Verteilung rnit Parametern (N, [pN],n) ftir N + oo gegen eine Bin(n,p)-Verteilung konvergiert, siehe Aufgabe 4.1. Intuitiv heiBt dies, dass beim Ziehen ohne Znriicklegen aus einer Urne rnit einer grofien Anzahl Kugeln die Anzahl der roten Kugeln in der St,ichprobe approximativ binomialverteilt ist, wobei der Parameter p dem Anteil der roten Kugeln in der Urne entspricht.
Geometrische Verteilung. Wir betrachten ab jetzt wieder unabhtingige Bernoulli-Experimente. Fur eine unendliche Folge unahhangiger BernoulliExperimente definieren wir eine Zufallsvariable T, die die Anzahl der Misserfolge angibt, die vor dem ersten Erfolg auftreten. So ist bei MMME etwa T = 3. T ist eine diskrete Zufallsvariable rnit Wertebereich {O, 1,.. .}. Falls p > 0, hat T die Wahrscheinlichkeitsfunktion
Diese Verteilung heifit geometrische Verteilung auf No rnit Parameter p. Bei p = 0 wird nie ein Erfolg auftreten und dementsprechend ist T = oo,sodass wir dann keine Zufallsvariable im eigentlichen Sinne haben. Da p eine Wahrscheinlichkeitsfunktion ist, gilt C z o p ( k ) = 1. Mit Hilfe der = fur 1x1 < 1, Summenformel fur die geometrische Reihe, C:=oxn konnen wir dies auch analytisch nachweisen
Fiir geomet,risch verteilte Zufallsvariablen gibt es eine einfache Formel Kir die Wahrscheinlichkeit, dass T 2 k
Dies entspricht auch der unmittelharen Anschauung, da T 2 k bedeutet, dass die ersten k Experimente Misserfolge liefern, und dies hat die Wahrscheinlichkeit q k . Die Annahme einer geometrischen Verteilung ist naheliegend und wird haufig
72
4. Zufallsvariablen und ihre Verteilungen
gemacht bei Modellen, hei denen es um Lehensdauer geht. Dabei wird allerdings der ,ErfolgCgleichgesetzt etwa mit dem Tod eines Individuums oder dem Versagen eines Teils bei einer Maschine. In diesem Zusammenhang heiDt die Wahrscheinlichkeit P ( T k ) auch die ~herlebenswahrscheinlichkeit.Fur die geometrische Verteilung gilt die bemerkenswerte Identit,&
>
P(T>k+jlT>k)=P(T>j).
(4.11)
Bei Anwendung dieses Modells fur die menschliche Lebensdauer hedeutet dies, dass die Wahrscheinlichkeit, dass ein k Jahre alter Mensch noch mindestens j weitere Jahre leht, genauso groD ist wie die Wahrscheinlichkeit, dass ein Neugeborenes mindestens j Jahre alt wird. Denken wir an Maschinen, so ist die bedingte Wahrscheinlichkeit, dass ein Teil einer Maschine noch mindestens j Jahre funktioniert, wenn es hereits k Jahre funktioniert hat, genauso groD wie die Wahrscheinlichkeit, dass ein Ersatzteil mindestens j Jahre funktioniert. Eigenschaft (4.11) wird auch die Gedachtnislosigkeit der geometrischen Verteilung genannt. Bei der Verwendung dieser Lehensdauerverteilung lie@ die Vorstellung zugrunde, dass zu jedem Zeitahschnitt wieder neu ein Miiuzwurf ausgefuhrt wird, dessen Ausgang iiber das weitere Funktionieren oder Versagen des Maschinenteils entscheidet. Dahei ist die entscheidende Annahme, dass es keine Alterungserscheinungen gibt, d.h. dass die Wahrscheinlichkeit, dass das Teil noch einen Zeitahschnitt funktioniert, zu allen Zeitpunkten gleich ist. Interessanterweise t r i a diese Annahme Rir den radioaktiven Zerfall eines Elementes ZU.
Wir sind hei der Frage nach der Wartezeit auf den ersten Erfolg an die Grenzen unserer hisherigen Modellierungsmoglichkeiten gestoDen hzw. hahen sie uherschritten. Denn die Anzahl der Experimente, die wir bis zum ersten Erfolg henotigen, ist nicht notwendigerweise beschrankt, sodass ein Model1 fiir n-faches unahhangiges Wiederholen des Experimentes nicht ausreicht. Eigentlich hahen wir folgenden Ergehnisraum notig
n = { ( w , , w z , ...)
: wi E
{E,M)).
Diese Menge ist aher iiberabzithlhar, sodass neue Ansatze notig sind, um auf Q eine Wahrscheinlichkeitsverteilung definieren zu konnen. In den vorhergehenden uherlegungen hahen wir uns auf eine relativ kleine Klasse von Ereignissen beschrankt, namlich Ak := { ( w I ,W Z , . . .) : W I = . . . = wk = M ) , sodass die ~berahzahlbarkeitder Menge 6' kein direktes Problem wurde. Negativ-binomiale Verteilung. Wir hetrachten weiter eine unendliche Folge unahhangiger Bernoulli-Experimente und definieren eine Zufallsvariable X, die die Anzahl der Misserfolge angiht, die vor dem r-ten Erfolg eingetreten sind. Es bedeutet X = k also, dass hei den ersten ( r + k - 1) Experimenten k Misserfolge auftreten und dass das ( r + k)-te Experiment einen Erfolg liefert. Da es nur die zwei Ergebnisse Erfolg und Misserfolg giht, gilt
4.2 Wichtige diskrete Verteilungen
73
Abb. 4.6. Wahrscheinlichkeitsfunktion der geometrischen Verteilung mit Parameter p = 0.25 (links) und der negativ-binomialen Verteilung mit Parametern T = 4 und p = 0.4 (rechts)
Diese Verteilung heifit negativ-hinomiale Verteilung auf i% mit Parametern r und p. Wieder gilt gemU3 Satz 4.6, dass C E o p ( k ) = 1. Fur einen analytischen Beweis dieser Eigenschaft bentitigen wir folgende Summenformel fiir die sogenannte negativ-hinomiale Reihe ("L-')xk.
CEO
Lemma 4.7 Fur 1x1 < 1 und r = 1 , 2 , . . .
Mit Hilfe dieser Identitbt erhalten wir dann
Beweis won Lemma 4.7. Ausgehend von der Summenformel fur die geometrische Reihe liefert einmaliges Differenzieren 00
und (r - 1)-faches Differenzieren
00
74
4. Zufallsvariahlen und ihre Verteilungen
Dabei miissen wir bedenken, welche Voraussetzungen erfiillt sein miissen, damit wir Summation und Differenzieren vertauschen konnen. Aus der Analysis wissen wir, dass dies bei geometrischen Reihen C z oxk fiir 1x1 < 1 moglich ist. Nun folgt (4.13),wenn wir beide Seiten obiger Identitat durch ( r - I ) ! teilen. 0 Der Name pegativ-binomiale Verteilung' wird verstandlich, wenn wir die unendliche Reihe (4.13) folgendermaflen umschreiben. Wegen
lasst sich (4.13) auch folgendermaflen schreiben
fiir 1x1 < 1 und r E {O, 1 , . . . }. Diese Potenzreihe heiflt negativ-binomiale Reihe. Durch die Substitutionen - 2 H x und - r H r erhalten wir schliefllich die Potenzreihe
fiir 1x1 < 1 und r E { - I , - 2 , . . .}. Fiir r E No ist (4.14) die behnnte Newton'sche Binomialformel, denn dann bricht die unendliche Summe bei k = r ab. Damit ist gezeigt, dass (4.14) fiir alle ganzzahligen r gilt. Obwohl wir dies an dieser Stelle nicht benotigen, sei darauf hingewiesen, dass (4.14) sogar fiir alle r E R und 1x1 < 1 gilt. ubungen ubung 4.5 Zeige, dass fiir die Wahrscheinlichkeitsfunktion der hypergeometri= 1. schen Verteilung gilt C,Ezp(r) ubung 4.6 Wir werfen 12-ma1 einen unverfalschten Wiirfel und bezeichnen mit X die Anzahl der Wiirfe, bei denen eine 6 gewiirfelt wird. Wie pol3 ist die Wahrscheinlichkeit, mindestens 4-mal eine 6 zu werfen? ubung 4.7 Wir werfen einen unverfdschten Wiirfel. Mit X bezeichnen wir die Nummer des Wurfs, hei dem zum ersten Mal eine 6 geworfen wird. Bestimme die Wahrscheinlichkeitsfunktion von X und berechne die Wahrscheinlichkeit, dass die erste 6 erst n x h dem 12.Wurf geworfen wird. ubung 4.8 Wir haben 6 voneinander unterscheidhare Kugeln, die zufdlig auf 7 nummerierte Zellen verteilt werden, wobei mehrere Kugeln in einer Zelle liegen konnen. Mit X bezeichnen wir die hochste Nummer der besetzten Zellen. Bestimme den Wertehereich und die Wahrscheinlichkeitsfunktion von x.Bestimme dies auch fiir Yi,die Anzahl der Kugeln in der i-ten Zelle, und fiir Z = YI Yz Y3.
+ +
4.3 Die Poisson-Verteilung
75
ubung 4.9 Wir werfen eine unverfalschte Miinze so oft, his zum ersten Mal ,Kopf geworfen wird, aber hochstens 10-mal. Mit X bezeichnen wir die Anzahl der Wiirfe. Bestimme den Wertehereich und die Wahrscheinlichkeitsfunktion von X. ubung 4.10 Aus einer Urne mit 2 roten und 3 wei5en Kugeln ziehen wir ohne Zuriicklegen 3 Kugeln. Mit X hezeichnen wir die Anzahl der roten Kugeln in der Stichprobe. Bestimme den Wertebereich und die Verteilung von X.
4.3 Die Poisson-Verteilung Bei der praktischen Anwendung von Zufallsvariablen ergibt sich auch die Anfgabe, die Zahlenwerte der Verteilungsfunktionen im Einzelnen auszurechnen. Fiir grofle Werte von n ist dies fur die binomiale Verteilung nicht einfach, weil die Binomialkoeffizienten ( i )sehr grofl werden. Dieses Problem lciinnen wir liisen, indem wir Annaherungen zu Hilfe nehmen, die einfacher berechnet werden konnen. Wir beschaftigen uns zunachst mit einer Approximation, die nach dem franziisischen Physiker Simon-Denis Poisson (1781-1840) henannt ist. Die Poisson-Approximation findet ihre Anwendung fur grofle Werte von n und sehr kleine Werte von p, also fur seltene Ereignisse.
Abb. 4.7. Wahrscheinlichkeitsfunktion der Poisson-Verteilung mit Parameter X = 2 (links) und X = 5 (rechts)
Satz 4.8 (Poisson-Grenzwertsatz) E.9 sei (Xn)n21 cine Folge Bin,(n,p,)verteilter Zufallsvariablen. Falls ein X E (0, cn) ezistiert mit np, + X fur n + cn, so gilt fur alle k E Wo
DurchpA(k)= e c X $ w i d eine Wahrscheinlichkeitsfunktion a u f N definiert.
76
4. Zufallsvariablen und ihre Verteilungen
Beweis. Ftir ein festes k E NO ist der Wert der binomialen Wahrscheinlichkeitsfunktion gegehen durch
Nun gilt nach Voraussetzunglim,,, np, = X und somit lim,,,p, benutzen weiter die aus der Analysis hekannte Identitiit lim,,,(l e Z ,fur x, + x, und erhalten
= 0. Wir =
+ %)n
Mit der Reihenentwicklnng fiir die Exponentialfunktion CEO$ = eA erhalten wir C E o p A ( k )= 1. Nach Satz 4.6 ist p~ also eine Wahrscheinlichkeitsfunktion. 0 Definition 4.9 Die Verteilungp~auf NO n i t Wahrscheinlichkeitsf.nktion
hee$t Poisson-Verteilung mit Parameter X und wird mit Poisson(X) bezeichnet, X E (0, m).
Tabelle 4.2. Vergleich der Wahrscheinlichkeitsfunktionender binomialen und der Poisson-Verteilung
Fur die Anwendung spielt die Genauigkeit einer Approximation eine groJ3e Rolle. In Tahelle 4.2 haben wir Werte heider Verteilimgen zusammengestellt. Die Parameter sind jeweils so gewalt, dass die zu erwartende Anzahl von Erfolgen stets 2 ist. Wenn wir die Werte der binomialen Verteilung mit denen der Poisson-Verteilung vergleichen, so bemerken wir, dass die Gute der
4.3 Die Poisson-Verteilung
77
Abb. 4.8. Wahrscheinlichkeitsfunktionen der Bin(l0,O.Z)-Verteilung (links oben), der Bin(100,0.02)-Verteilung (rechts oben), der Bin(1000,0.002)-Verteilung(links unten) sowie der Poisson(2)-Verteilung (rechts unten)
Poisson-Approximation bereits bei einer kleinen Anzahl von Experimenten ausgezeichnet ist, siehe auch Abb. 4.8. Ein klassisches Beispiel fiir ein seltenes Ereignis ist die Anzahl von Druckfehlern auf einer Buchseite. Ausgehend davon, dass jeder Buchstabe eine geringe Wahrscheinlichkeit hat, etwap = 0.002, ein Druckfehler zu sein und dass es ingesamt 1000 Buchstaben pro Seite gibt, hat die Anzabl der Druckfehler auf einer Bnchseite eine Bin(1000,0.002)-Verteilung.Diese wird ausgezeichnet durch die Poisson(2)-Verteilung approximiert. In diesem Abschnitt haben wir die Poisson-Verteilung als Approximation der binomialen Verteilung betrachtet. In Kapitel 12 werden wir Modelle fiir zufallige, in Raum oder Zeit gleichmaflig vert,eilte Ereignisse betrachten, bei denen sich in natiirlicher Weise eine exakte Poisson-Verteilung ergibt. Znm Abschluss dieses Abschnitts wollen wir noch eine Aufgabenstellung betrachten, in der die Poisson-Verteilung als Approximation auftritt. In Aufgabe 2.12 haben wir die Aufteilung von n Regenschirmen auf n Besucher betrachtet. Es wurde dort die Wahrscheinlichkeit p, gesucht, dass keiner der Besucher seinen eigenen Schirm zuriickbekommt. Es gilt
78
4. Zufallsvariablen und ihre Verteilungen
Im Laplace-Raum berechnet sich die Wahrscheinlichkeit als Quotient der Anzahl der gunstigen und der Anzahl aller moglichen Falle. Also konnen wir mit Hilfe von bekannten Wahrscheinlichkeiten auch gesuchte Anzahlen ausrechnen, mit denen wir anschliefiend weitere Wahrscheinlichkeiten berechnen kiinnen. Das Resultat von Aufgabe 2.12 bedeutet, dass es n! . p , Maglichkeiten gibt, n Schirme auf n Besucher so zu verteilen, dass kein Schirm seinem rechtmafligen Besitzer zuriickgegeben wird. In mathematischer Sprache heiflt, dies, dass es n! p, Permutationen der Elemente von {1, . . . ,n } gibt, die keinen F i p u n k t haben. Das Ereignis, dass ein Besucher seinen eigenen Schirm zuriickerhalt, d.h. dass es einen Fixpunkt gibt, wird auch ,matchingLgenannt. Nun wollen wir die Verteilung der Anzahl matchings bestimmen. Es sei X die Zufallsvariable, die die Anzahl der Besucher angibt, die ihren eigenen Schirm zuruckbekommen. Dann gilt P ( X = 0) = p,. Die Wahrscheinlichkeit P ( X = k ) , dass genau k der Besucher ihren eigenen Schirm erhalten, lasst sich wie folgt herechnen. Es gibt )(; Moglichkeiten, k Schirme ihren rechtmafiigen Besitzern zuriickzugehen. Dann sind diese k Schirme verteilt. Die iibrigen ( n - k ) Schirme miissen auf die iibrigen ( n k ) Besucher so verteilt werden, dass kein Besucher seinen eigenen Schirm bekommt, wofiir es ( n - k)!pn-h Moglichkeiten gibt. Also gilt
Diese Resultate fassen wir in einem Satz zusammen,
Satz 4.10 (Matching-Verteilung) Die Wah,rscheinliehkeit, dass eine zufallige P e n u t a t i o n der Elemente von { I , . . . ,n ) keinen Fixpunkt h,at, ist
Die Wahrscheinlichkeit, dass eine zuf8fiilligeP e n u t a t i o n von { I , . . . ,n ) genau k Fixpunkte hat, ist $ p,-k. Die Anzahl aller Permutationen der Elemente von { I , . . . , n ) , die genau k Fixpunkte haben, ist g p n - k . Aus der Reihenentwicklung fur die Exponent,ialfunktion, CEO $ = em, folgt lim,, p, = e-'. Somit gilt
d.h. die Wahrscheinlichkeit, dass wir genau k Fipunkte haben, konvergiert gegen die Wahrscheinlichkeitsfunktion einer Poisson-Verteilung mit Parameter 1. Dieses Result,at konnen wir auch intuitiv einsehen. Interpretieren wir
4.4 Aufgaben
79
das Ereignis, dass der i-te Besncher seinen eigenen Schirm erh<,als Erfolg, so haben wir n Bernoulli-Experimente rnit Erfolgswahrscheinlichkeit :. Diese Experimente sind allerdings nicht unabhangig, sodass die Anzahl der Erfolge nicht exakt binomial verteilt ist und wir den Poisson-Grenzwertsatz 4.8 eigentlich nicht anwenden kannen. Ident,itat (4.17) zeigt aber, dass Satz 4.8 dennoch das richtige Resultat liefert. Dies kann man dadurch erkl&ren, dass die Abhejlgigkeit der Experimente fur groDe Werte von n geringer wird.
ubung 4.11 Erfahrungsgema fallen in einer Vordiplomsklausur 5% der Studierenden durch. In diesem Jahr nehmen 100 Studierende an der Klausur teil. Bestimme die Wahrscheinlichkeiten, dass 0,1,. . . ,10 Studierende durchfallen. Berechne jeweils den exakten Wert und die Poisson-Approximation. ubung 4.12 Eine Kalfeeverpackungsmaschine produziert rnit Wahrscheinlichkeit &, eine undichte Verpackung. Berechne den exakten Wert und die PoissonAppromation der Wahrscheinlichkeiten, dass sich in einer Partie von 50 Packungen k = 0, l , 2 , 3 undichte helinden.
p=
ubung 4.13 Einem Drucker unterlauft im Durchsrhnitt ein Fehler auf 1000 Buchstahen und eine Buchseite hat 2000 Buchstahen. Bestimme die Wahrscheinlichkeit, dass auf einer Buchseite 0,. . . , 6 oder mehr als 7 Druckfehler sind.
4.4 Aufgaben Aufgabe 4.1 Seien XN, N = 1,2,. . . Zufallsvariablen rnit einer hypergeometrischen Verteilung rnit Parametern ( N ,[pN],n) (mit [XI hezeichnen wir die groDte ganze Zahl kleiner oder gleich x). Zeige, dass lim P ( X N = k) =
N+m
d.h. dass die hypergeometrische Verteilung gegen eine binomiale Verteilung konvergiert.
Aufgabe 4.2 Es sei X eine Zufallsvariahle rnit Werten in P& und der Eigenschaft, dass
Zeige, dass X geometrisch verteilt ist.
Aufgabe 4.3 Aus einer Urne rnit N Kugeln, die rnit Nummern 1,.. . ,N nnmmeriert sind, ziehen wir ohne Znrucklegen n Kugeln. Mit X bezeichnen wir die kleinste gezogene Nummer. Bestimme die Verteilung von X .
80
4. Zufallsvariablen und ihre Verteilungen
Aufgabe 4.4 Eine Firma bekommt Warenlieferungen und entscheidet anhand von Stichproben, ob eine Lieferung abgewiesen wird. Fur eine Warenlieferung, die aus 100 Stuck besteht, wird eine Stichprobe von 10 Stiick genommen, und die Lieferung wird abgewiesen, wenn in der Stichprobe ein oder mehrere defekte Stiicke sind. Wie groD ist die Wahrscheinlichkeit, dass eine Lieferung von 100 Stiick, die 10 defekte Stiicke enthiilt, bei diesem Testverfahren abgewiesen wird? Wenn die Stucke fur die Stichprobe nacheinander gezogen werden, kann manchmal die Entscheidung schon vor der 10-ten Ziehung getroffen werden. Berechne die Wahrscheinlichkeit, dass bei der k-ten Ziehung die Entscheidung getroffen werden kann. Aufgabe 4.5 Wir betrachten die Grundgesamtheit der Haushalte in Bochum. Die Wahrscheinlichkeit, dass in einem Haushalt k Kinder wohnen, sei p k , k E NO. Wir wahlen jetzt zufallig ein Kind aus der Grundgesamtheit aller Kinder und bezeichnen mit X die Anzahl aller Kinder, die in dem zugehlirigen Haushalt leben. Bestimme die Wahrscheinlichkeitsfunktion dieser Zufallsvariablen. Aufgabe 4.6 Die Anzahl der Kinder in einem Haushalt sei Poisson-verteilt mit Parameter A, wobei fiir jedes Kind gilt, dass es mit gleicher Wahrscheinlichkeit ein Junge oder ein M&dchen ist. Bestimme die Verteilung der Zufallsvariablen, die durch die Anzahl der Jungen in einem Haushalt gegeben ist. Aufgabe 4.7 Zeige, dass die hinomiale Verteilung und die Poisson-Verteilung unimodal sind, d.h. dass ihre Wahrscheinlichkeitsfunktionenbis zu einem bestimmten Punkt xo monoton steigend sind und fur x 2 $0 monoton fallend. Bei welchen Werten nehmen die Wabrscheinlichkeitsfunktionen ihr Maximum an?
5. Erwartungswert und Varianz
Betrachten wir die Stabdiagramme der Wahrscheinlichkeitsfunktionen, so sehen wir sehr unterschiedliche Bilder. Diese Bilder konnen uns aufmerksam machen auf verschiedene Eigenschaften einer Verteiluug, wie Konzentration, Lage, Position, Schiefe oder Streuung. In diesem Kapitel werden wir zwei neue MaDzahlen fur Verteilungen einftihren, Erwartungswert und Varianz. Ftir die wichtigsten Verteilungen werden wir den Erwartungswert und die Varianz berechnen und zwei grundlegende Ungleichungen beweisen. Die meisten der Resultate in diesem Kapitel gelten fur beliebige Zufallsvariablen, auch wenn wir die Beweise und Definitionen hier nur fiir Zufallsvariablen mit einer diskreten Verteilung geben konnen. Bei Resultaten, die wirklich nur im diskreten Fall gelten, weisen wir entsprechend darauf hin.
5.1 Erwartungswert Da die Einfuhrung des Erwartungswertes ihren geschichtlichen Ursprung bei Gliicksspielen hat, wollen wir uns zunachst mit einem Spiel beschaftigen. Angenommen, wir konnten gegen Bezahlung eines Einsatzes an folgendem Gliicksspiel teilnehmen: Es wird ein nnverf&lschterWtirfel geworfen. Als Gewinn erhalten wir die geworfene Augenzahl in Euro. Wie viel Euro waren wir bereit, als Einsatz fiir dieses Spiel zu bezahlen? Das Problem bei dieser Rage liegt darin, dass es vom Zufall abhangt, wie viel wir fur unseren Einsatz bekommen. Die Gegebenheiten bei Gliicksspielen sind ganz anders als beim Einkauf in einem Laden. Dort konnen wir wissen, welchen Wert wir ftir den angegebenen Preis eines Artikels bekommen, z.B. eine Zeitschrift fiir 4 Euro. Welchen Wert wir bei unserem Glucksspiel bekommen, konnen wir nicht wissen, da dies ja vom Zufall a b h b g t . Wir konnen mit Wahrscheinlichkeit jeweils entweder 1 , 2 , 3 , 4 , 5oder 6 Euro gewinnen, d.h. im Mittel . 1 + . . . + . 6 = 3.5. Die so berechnete Zahl nennen wir den Erwartungswert des Spiels. Bei einer frequentistischen Interpretation von Wahrscheinlichkeit ist dies der mittlere Gewinn bei einer langen Folge von Wiederholungen des Spiels, und dies werden wir spater bestatigt finden durch das Gesetz der groDen Zahlen. Wenn wir also pro Spiel weniger als 3.50 Euro bezahlen mtissen, so werden wir langfristig Gewinn machen. Auf dieselbe Weise kiinnen wir auch fur das Lottospiel und die Gliicksspiele im Kasino die
82
5. Erwartungswert und Varianz
Erwartnngswexte ausrechnen und sind dann vielleicht erstaunt, dass 60 viele Menschen dabei mitspielen, obwohl der erwartete Gewinn kleiner ist als der Einsatz. 1st die kleine Chance eines groDen Gewinns so verlockend?
§ia,velbexpeEtcm,quomtn ocrum~kaequi FaciEmihi obtbgcre poGt,expeltado madicenda elt valcre*3, . <. ,. I ;
w
Ad haw q d a m n&fe-de'mon~randarn, v e r h @m pri&t&3 enren&m@m r ~ & q u o d x q u i v a l e rexpe&tioninhe~,
q o r t e t me, quum w habeo, mrCus ad fim~lemkrternyervenirepoffe,xqui conditionecertaatem. Ponatur iwqae lufus d e talis, nc .cum altero certern Mc condirime, ut quiique depomt u ac ut vi&or vi&o traditusus CI a. Hic autemluii~j m & n s r t l , ~ ~ & & =tione y a r n habere Cortem ad obtinendum n , h urn p e r h ~cilicetjautag-,lrG v k m -tumenitn obtineo z%,idnempe quod &@itornekrde qncaitui erogandum eit a. qbdliautern us-r . 1 '11 tantundm'valem#queb, equamibi Corsobtingeret ad n quimadh. ponoitacpe sx-* ~ r b &, f i x = *$, pro r&rc meie expeaa-
.
a
-- tionis. Cujtlr deraollibatio fa& el$. Etmim hbabens q p o f f u r n .+C cullt&o ccrtare,quietiam -;- dpponere vdet, hicconditionc or vincens vi&o6t h ~ d i t ~r.n tQyP ~ rqione fi~ailisexpe&atia mihi obtinga ad obtinendum a,ii pydam,aut ad obtinendum b, fiviacam;tum enim obEin80 4 4 6, id nempe g o d depofitum &, dteinde concedo - riiue . . -. .a . .. - -
~
~-~
I
Abb. 5.1. Einfiihrung des Erwartungswertes in Huygens' Traktat ,De Rationiciniis in Ludo Aleae', Ubersetzung am Ende des Kapitels
Delinition 5.1 Sei X eine diskrete Zufallswariable mit Wahrscheinlichkeitsfunktion p. Wir sagen, dass der Erwartungswert won X existiert, wenn C , ~x~P(x) < m. In diesem Fall definieren wir den Erwartungswert E(X) als gewogenen Mittebert aller maglichen Realisiervngen x der Zufallswariable X mit den zugeharigen Wahrscheinlichkeiten p(x) als Gewichten, d.h.
Als Symbol fir den Envartungswert wird oft fi bm. fix werwendet. Die erste Forderung in dieser Definition, die Existenz des Erwartungswertes, d.h C , Ixlp(x) < co,stellt sicher, dass der Wert der R e i e C , xp(x) nicht
5.1 Erwartungswert
83
von der Reihenfolge der Summation abhtingt. Wir wissen aus der Analysis, dass dies nur bei absoluter Konvergenz einer Reihe gilt. Zum Schluss noch eine Bemerkung zur Notation: Wir lassen die Klammern in E ( X ) gerne weg und schreihen kurz E X , wenn dies keine Verwirrung stiftet und keine Verwechselung mit dem Produkt E . X geschehen kann. Beispiel 5.2 (i) Es sei X Laplace-verteilt auf { I , . . . ,N}, d.h. P ( X = k) = fiir k = 1,.. . ,N. Dann gilt
(ii) Es sei X Bernoulli-verteilt mit Parameter p, d.h. P ( X = 1) = p und P ( X = 0) = 1- p. Dann gilt
Insbesondere gilt also fiir die Indikatorfunktion l a , dass E ( l a ) = P(A). (iii) Es sei X binomial verteilt mit Parametern n und p, d.h. P ( X = k) = (;)pk(l - p)n-k fbr k = 0,. . . ,n. Dann gilt
n -1
- np.
1=0
Fur diese Umformungen haben wir benutzt, dass k(;) = n ( ; ~ i ) nnd die Newton'sche Binomialformel mit x = p, y = 1 - p und n - 1. (iv) Es sei X hypergeometrisch verteilt mit Parametern N, R und n, d.h. N-R
P ( X = r ) = (')("-')
Wir weisen an dieser Stelle nochmal darauf hin, dass 0. per definitionem (i) = 0 gilt fUr k < 0 und fur k > n. Dann gilt
=("
-1
R-1 N-R )~(r-l)(n-r)
-1
=R("
n
n
R-1
N-R
N-1
R
z(r-l)(n-r)=~(E)-'(n-l)=nE> ~ = l
84
5 . Erwartungswert und Varianz
wobei wir am Schluss die binomiale Identitzt wendet haben, siehe Aufgabe 2.1.
(7)(k>)
= (n:m)
ver-
(v) Es sei X Poisson-verteilt mit Parameter A, d.h. P ( X = k) = e-" k E No. Dann gilt
fiir
x 00
E(X) =
k=O
ke-"
Xk k!
= Xe-A
x m
k=l
~ k - 1 -
(k - l)! =
5,
wobei wir die Reihenentwicklung der Exponentialfunktion, ex = C r = o verwendet haben. (vi) Es sei X geometrisch verteilt mit Parameter p, d.h. P ( X = k) = qkP fur k E No. Dann gilt 00
00
Dabei haben wir Lemma 4.7 fiir r = 2 verwendet, (vii) Es sei X negativ-binomial verteilt mit Parametern r und p, d.h. P ( X = k) = ('+ kk-l)p'qk fiir k E & . Dann gilt
An dieser Stelle haben wir die Summenformelfiir die negativ-binomiale Reihe (rik)qk= &, und immer wieder p = 1- q. verwendet,
CEO
Oft st,eheuwir vor dem Problem, den Erwartungswert einer Funktion Y = u(X) einer Zufallsvariablen X berechnen zu wollen, 2.B. E(X2) oder E(eX). Wenn wir dies mit der Definition tun, so bestimmen wir zuerst die Verteilung von Y, d.h. bei einer diskreten Zufallsvariablen, dass wir py(y) = P ( Y = y) berechnen, und dann folgt
Dieser Weg ist meist sehr umsthdlich, und wir klinnen ihn abktirzen, wenn wir den folgenden Satz anwenden. Es ist dies ein Spezialfall einer ganz allgemeinen Transformationsformel.
5.1 Erwartungswert
85
Satz 5.3 (Transformationsformel ftir den Erwartungswert) Es sei X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion p u n d u : X ( 0 ) + R eine Abbildung mit C,,,(,) lu(x)l p(x) < oo. Dann gilt
Beweis. Die Wahrscheinlichkeitsfunktion von Y = u(X) ist gegeben durch
Dies setzen wir in die Definition von E(Y) ein und erhalten
womit die Behauptung des Satzes bewiesen ist.
0
Beispiel 5.4 Wir hetrachten eine Poisson(X)-verteilte Zufallsvariable. Mit Satz 5.3 kijnnen wir nun den Erwartungswert der Funktion e t x , t E $ herechnen, ohne die Verteilung von etx bestimmen zu miissen
Wir werden in Kapitel 7 die Bedeutung dieses Erwartungswertes, dessen Berechnung hier als Anwendungsheispiel der Transformationsformel diente, noch weiter kennenlernen.
Satz 5.5 (Dreiecksungleichung fiir den Erwartungswert) Es sei X eine Zufallsvariable, deren Erwartungswert existiert. Dann gilt
Beweis. Wir wenden Satz 5.3 mit u(x) = 1x1 an, sowie die Dreiecksungleichung ftir Summen reeller Zahlen und erhalten
86
5 . Erwartungswert und Varianz
Satz 5.6 (Linearitat des Erwartungswertes) Es seien X und Y zwei Zufalls-
uan'ablen, deren Ewartungswerte existieren. Dann gilt fir a, b E R (i) E ( a X ) = a E ( X ) (ii) E ( X Y) = E ( X ) E(Y) (iii) E(b) = b.
+
+
Beweis. (i) Mit u(x) = ax liefert die Transformationsformel, Satz 5.3,
=
(iii) Die konstante Zufallsvariable Y b hat nur eine mdgliche Realisierung. Ihre Wahrscheinlichkeitsfunktion ist gegeben durch p(b) = 1 und p(x) = 0 fiir x # b. (ii) Wir werden diese Aussage erst im nachsten Kapitel im Anschluss an die Tranformationsformel Satz 6.8 beweisen konnen und bis dahin nur fiir Beispiele benutzen. 0 Die Additivitat des Erwartungswertes, die Eigenschaft (ii), ist fiir Anwendungen von groDer Bedeutung. Mittels vollstiindiger Induktion k6nnen wir die Additivitat aucb auf jede endliche Summe von Zufallsvariablen ausdebnen E(XI+ ...
+ X,)
= EX1
+ ... + EX,
Wenn wir nun eine gegebene Zufallsvariable X als Summe von Zufallsvariablen X I , . . . ,X, mit einer einfacheren Verteilung und bekannten Erwartungswerten darstellen konnen, so konnen wir den Erwartungswert E X auch dann berechnen, wenn sich die Verteilung von X nur schwer oder gar nicht bestimmen lasst. Beispiel 5.7 (i) Sei X eine binomial verteilte Zufallsvariable mit Parametern n und p, die die Anzahl der Erfolge in n unabhangigen BernoulliExperimenten angibt. Wir definieren die Ereignisse Ai: ,das i-te Experiment liefert einen Erfolg' und die Zufallsvariablen la,. Dann gilt X = la, . . . la, und somit
+ +
E ( X ) = E(l.4,)
+. . . + E(la,.)
= P(A1)
+ . . . + P(A,)
= np.
So erhalten auf diesem anderen Weg ohne Rechenaufwand dasselbe Resultat wie in Beispiel 5.2(iii). (ii) Sei X eine hypergeometrisch verteilte Zufallsvariable mit Parametern N, R und n, die die Anzahl roter Kugeln in einer Stichprobe angibt, die wir dnrch n-faches Ziehen ohne Zuriicklegen aus einer Urne mit R roten und (N - R) weiDen Kugeln erhalten haben. Wir definieren die Ereignisse Ai: ,die i-te gezogene Kugel ist rot' und die Zufallsvariablen l a , . Dann gilt, X = l a , + . . . la, und E ( l a , ) = P(A,) = und wir erhalten auch hier ohne groBen Rechenaufwand das Resultat E ( X ) = n . $ von Beispiel 5.2(iv).
+
g,
5.1 Erwartungswert
87
(iii) In Abschnitt 4.3 haben wir die Anzahl X der matchings einer zufalligen Permutation der Zahlen 1,. . . ,n untersucht und in Satz 4.10 die Verteilung von X bestimmt. Auch hier gibt eine geeignete Darstellung von X als Summe von Zufallsvariablen mit einer einfachen Verteilung die Grundlage fiir eine schnelle Berechnung des Erwartungswertes E(X). Wir definieren die Ereignisse Ai: ,der i-te Besucher erhalt seinen eigenen Schirm' und die Zufallsvariablen l a , . Dann gilt X = la, . . . la" und P(Ai) = also folgt E ( X ) = n . = 1, d.h. im Schnitt erh< genau ein Besucher seinen eigenen Schirm zuruck.
+ +
k,
Beispiel 5.8 (i) In einer Urne sind R rote und ( N - R) weifie Kugeln. Wir ziehen zufdlig und ohne Zuriicklegen nacheinander jeweils eine Kugel aus der Urne. Es sei X die Anzahl der weinen Kugeln, die vor der ersten roten Kugel gezogen wurden. Die Wahrscheinlichkeitsfunktion von X ist P(X=k)=
-.N N- R
N-R-1 N -1
-R-k+l R .. . .. N N .-k+l N-k
-
(N-R)k.R (N)k+l
fur k = 0,. . . ,N - R. Dies konnen wir einsehen, wenn wir uns iiberlegen, dass X = k bedeut,et, dass bis zur k-ten Ziehung nur weiBe Kugeln, und zwar ohne Zurucklegen, gezogen werden und bei der (k+ 1)-ten Ziehung dann eine rote Kugel gezogen wird. Wir wollen jetzt E ( X ) berechnen. Die direkte Berechnung mit der Definition, N-R d.h. E ( X ) = C,=, k P ( X = k), ist langwierig. Wir suchen stattdessen eine Zerlegung von X als Summe von Zufallsvariablen, deren Erwartungswerte einfacher zu berechnen sind. Dazu nummerieren wir die weiflen Kugeln und definieren die Zufallsvariablen Yi, i = 1,. . . ,N - R, wie folgt 1wenn die i-te weiBe Kugel vor der 1. roten Kugel gezogen wird 0 sonst.
Es gilt X = Yl +. . .+ YN-R.Wir benatigen die Wahrscheinlichkeiten P(Y, = I ) , d.h. die Wahrscheinlichkeit, dass die i-te weifie Kugel vor der ersten roten Kugel gezogen wird. Zur Bestimmung dieser Wahrscheinlichkeit konnen wir, zumindest in Gedanken, die ubrigen weifien Kugeln aufier Betracht lassen. Wir konnen uns zum Beispiel vorstellen, dass die anderen weifien Kugeln eine neue Farbe bekommen, und dann geht es nur noch um die moglichen Anordnungen der R roten Kugeln und der einen, der i-ten, weifien Kugel. Der einzige giinstige Fall ist dabei, dass die i-te Kugel vor allen roten Kugeln gezogen wird und damit ist die Wahrscheinlichkeit P(Y, = 1) = Nach diesen vielen Gedankenschritten, deren Nachvollzug nicht trivial ist, kiinnen wir den Erwartungswert sehr leicht berechnen
&.
N-R
E(X) =
C P ( K = 1) = N - R
-
i=l
R+l'
88
5. Erwartungswert und Varianz
Im Folgenden wollen wir Identitat (5.4) noch auf einem anderen Wege herleiten, der eine neue Einsicht in die Problematik erlaubt. Dabei werden wir, zumindest in Gedanken, annehmen, dass wir nicht beim Ziehen der ersten roten Kugel das Experiment beenden, sondern dass wir solange ziehen, bis die Urne leer ist. Dann kiinnen wir uus die Menge der ( N - R) weiBen Kugeln
Abb. 5.2. Auftrilen der (N - R) wriilen Kugrln in (R + 1) Teilmengen
wie folgt aufgeteilt vorstellen in ( R + 1) Teilmengen. In der ersten Teilmenge sind die weiDen Kugeln, die vor der ersten roten Kugel gezogen werden, in der zweiten Teilmenge die weiDen Kugeln, die zwischen der ersten und der zweiten roten Kugel gezogen werden, u.s.w. bis zu der Menge der weiDen Kugeln, die nach der letzten roten Kugel gezogen werden. Wir wollen nun zeigen, dass diese (R + 1) Mengen im Mittel gleich groD sind. Dazu ftihren wir die Zufallsvariablen X I , . . . ,X R + ~ein, die die GroDen der (R 1) Teilmengen angeben. Es gilt fiir nicht-negative ganze Zahlen 0 5 kl, . . . , k ~ + 15 N - R mit kl . . . k ~ + = l N - R, dass
+
+ +
Mit der Terminologie des folgenden Kapitels ist dies die simultane Verteilung . sind alle moglichen Auswahlen der Ziehungen, bei von XI, . . . ,X R + ~Also denen die weiDen Kugeln gezogen werden, gleich wahrscheinlich. Wenn wir das Problem auffassen als Verteilung von ( N - R) weiBen Kugeln auf (R 1) Zellen, so zeigt (5.5), dass das Model1 01"(nicht unterscheidbare Kugeln, mehrere Kugeln in einer Zelle moglich) passend ist. Die Symmetrie in (5.5) liefert, dass die Zufallsvariablen XI,. . . ,X R + ~alle dieselbe Verteilung haben und damit auch denselben Erwartungswert. Aus XI . . . XR+l = N - R folgt weiter
+
+ +
w.
und somit E(X1) = (ii) Jetzt bet,rachten wir dieses Beispiel ftir den Fall, dass mit Zurticklegen gezogen wird. Wieder wollen wir den Erwartungswert der Zufallsvariablen X berechnen, die die Anzahl der weiBen Kugeln angibt, die vor der ersten
5.2 Varianz
89
roten Kugel gezogen werden. Beim Ziehen mit Zuriicklegen stellen die aufeinanderfolgenden Ziehungen unabhejlgige Experimente dar. Wenn wir nnr auf die Farbe der gezogenen Kugeln achten, so hat jedes Experiment zwei mijgliche Ergebnisse, rot (Erfolg) und weiD (Misserfolg). Also hahen wir eine Folge unabhagiger Bernoulli-Experimente mit Erfolgswahrscheinlichkeiten p = $, und X ist die Anzahl der Misserfolge vor dem ersten Erfolg. Wir haben im vorigen Kapitel gezeigt, dass X eine geometrische Verteilung hat und in Beispiel 5.2(vi) berechnet, dass E ( X ) = =
9.
ubung 5.1 Wir betrachten ausnahmsweise ein Wiirfelexperiment mit einem gefalschten Wiirfel. Sei X die gewiirfelte Augenzahl, und sei P(X = k) = a . k, fiir 1 5 k 5 6, und eine Konstante a 2 0. Bestimme den Wert der Konstanten a und den Erwartungswert von X. ubung 5.2 Aus einer Urne mit 2 roten und 3 weiilen Kugeln ziehen wir 2 Kugeln
ohne Zuriicklegen. Bestimme die Verteilung und den Erwartungswert der Zufallsvariahlen X, die die Anzahl der roten Kugeln in der Stichprobe angibt. AnschlieBend fiihren wir dieses Experiment 10-ma1 aus und legen nach jedem dieser Experimente die 2 Kugeln wieder zuriick. Sei Y die Anzahl der roten Kugeln unter den 20 gezogenen Kugeln. Berechne den Erwartungswert von Y. ubung 5.3 Wir werfen eine faire Miinze solange, his zum ersten Mal ,Kopf erscheint, aber hochstens 10-mal. Wir bezeichnen mit X die Anzahl der Wiirfe, bei denen ,ZahlGerscheint. Gesucht ist die Verteilung und der Erwartungswert von X. ubung 5.4 Wir betrachten das Experiment, dass n Kugeln zufallig auf N Zellen
verteilt werden, wobei mehrere Kugeln in einer Zelle liegen konnen. Bestimme den Erwartungswert der Zufallsvariable X, die die Anzahl der leeren Zellen angibt. ubung 5.5 Berechne fiir ein Wiirfelexperiment, bei dem 10 Wiirfel gleichzeitig geworfen werden, den Erwartungswert der Zufallsvariable X, die die Summe der
Augenzahlen angibt.
5.2 Varianz Definition 5.9 Es sei X eine Zufallsvariable, fur die E ( X - EX)' existiert. Dann definieren wir die Varianz uon X als
Als Symbol fur die Van'anz wird oft u2 bzw. der Varianz he@ Standardabweichung.
0%
uerwendet. Die Wurzel aus
Die Varianz ist per definitionem die mittlere quadratische Abweichung der Zufallsvariablen X von ihrem Erwartungswert und somit ein MaO far die Streuung. Es giht kein intrinsisches Argument, weshalb man gerade die quadratische Abweichung verwenden sollte und nicht die absolute Abweichung
90
5 . Erwartungswert und Varianz
oder eine hahere Potenz. Eine besondere Bedeutung bekommt die Varianz durch die mathematischen Eigenschaften von E(X2). So werden wir in Abschnitt 6.4 zeigen, dass durch eine Euklidische Norm anf dem Raum aller Zufallsvariablen definiert wird.
Satz 5.10 Es sei X eine Zufallsvariable. Dann gilt (i) Var(aX b) = a2Var(X),fur a, b, E B (ii) Var(X) = E ( X 2 ) - (E(X))'.
+
Beweis. (i) Aufgrund der Linearitkt des Erwartungswertes gilt E ( a X a E ( X ) b. Also folgt
+
+ b) =
(ii) Wir schreiben
wobei wir mebrfach Satz 5.6 angewendet haben.
0
Bemerkung 5.11 Wir konnen durch Anwendung von Satz 5.10 die folgende Identitat i t r reelle Zahlen xl, . . . ,x, herleiten
wobei 5 := Cy=l xi.Dazu betrachten wir eine Zufallsvariable X mit Werten {XI,.. . ,x,) und Laplace-Verteilung, d.h. P ( X = xi) = $. Fiir diese Zufallsvariable gilt E ( X ) = 5, E ( X 2 ) = Cy=l x; und Var(X) = Ci=l(xi -5)', sodass (5.6) aus Satz 5.10(ii) folgt. Dies ist ein Beispiel, dass eine analytische Identitat aus einer wahrscheinlichkeitstheoretischen hergeleitet werden kann, indem man eine geeignete Zufallsvariable betrachtet.
k
Satz 5.12 Fur eine Zufallsvariable X und a E B gilt
und somit E ( X - a)2 2 Var(X).
(5.8)
Gleichheit gilt in (5.8) genau dann, wenn a = E(X). Beweis. Da E ( X - E X ) = 0, gilt
+
E ( X - a ) 2 = E ( X - E X E X -a)' = E ( X - EX)^ + 2E((X - E X ) ( E X - a)) + E ( ( E X -a)') = E ( X - EX)' + 2(EX - a ) E ( X - E X ) + ( E X - a)' = E ( X - EX)^ + ( E X -a)'.
5.2 Varianz
Die Ungleichung (5.8) folgt direkt aus der Identittit (5.7).
91
0
So gewinnen wir mit der Varianz die interessante Minimumeigenschaft des Erwartungswertes, dass die mittlere quadratische Abweichung zwischen X und einer Konstanten a minimal wird fiir a = E X . Dies kann eine Begrundung sein, den Erwartungswert als Zent,rum der Verteilung einer Zufallsvariablen anfzufassen. Dabei ist wichtig zn bemerken, dass diese Minimumeigenschaft von E X nnr fiir die mittlere quadratische Abweichnng gilt. Die Bestimmung des Minimums von EIX - a[ fiihrt zu einer anderen KenngroDe einer Verteilung, dem Median. Definition 5.13 FCr eine Zufallsvariable X definieren wir das k-te Moment m k und das k-te zentrale Moment ck durch
Das k-te faktorielle Moment won X ist durch E ( X ( X - 1). . . . . ( X - k gegeben.
+ 1))
Mit dieser Definition ist E ( X 2 ) das 2. Moment von X und Var(X) das 2. zentrale Moment von X . Die haheren Momente spielen eine geringere Rolle. Das 3. und 4. zentrale Moment wird in der Statistik verwandt als KenngroDe fur Schiefe und Plattheit einer Verteilung. Die faktoriellen Momente haben ihre Bedeutung im rechentechnischen Zusammenhang. Wir werden bei vielen Beispielen feststellen, dass sich die faktoriellen Momente einfacher berechnen lassen als das k-te Moment. Da sich jedes k-te Moment als Funktion der ersten k faktoriellen Momente schreiben lasst, 2.B. E ( X 2 ) = E ( X ( X - 1)) + E X , konnen wir mit Satz 5.10(ii) die Varianzen der verschiedenen Verteilungen ausrechnen. Dabei wenden wir auch immer wieder die Transformationsforme1 fur Erwartungswerte an. Beispiel 5.14 (i) Sei X Laplace-verteilt auf {I,. . . ,N), so gilt
denn fur die Qnadratzahlen gilt
Ckl j2 = n ( n f 16) ( 2 n f 1 ) Weiter . folgt
(ii) Ftir eine Bernoulli-verteilte Zufallsvariable X mit Parameter p gilt E ( X 2 ) = 02(1- p) und somit
+ lZp= p
92
5 . Erwartungswert und Varianz
Var(X) = p - p2 = p(1- p) = pq. (iii) Zur Berechnung der Varianz einer hinomial verteilten Zufallsvariablen X mit Paramet,ern n und p hestimmen wir zunachst das 2. faktorielle Moment
Dabei sind wir analog vorgegangen wie in der Berechnung des Erwartungswertes einer hinomial verteilten Zufallsvariahlen. Weiter gilt nun
und somit Var(X) = n(n, - l ) p2
+ np - (np)2 = np - np2 = np(1-
p) = npq
(iv) Sei X hypergeometrisch verteilt mit Parametern N, R und n. Analog zur Berechnung des Erwartungswertes, hei der wir auch die binomiale Identitat, aus Aufgahe 2.1 benutzt hahen, gilt
Daraus folgt
=n
R ((R - l ) ( n - l ) N N2(N - 1)
+ N ( N - 1) - nR(N - 1))
5.2 Varianz
93
5
Wir haben eine Form gefunden, die sich ftir p = von der Varianz der binomialen Verteilung nur durch einen Korrekturfaktor unterscheidet. Das hedeutet, dass fiir n > 1die Varianz heim Ziehen ohne Zuriicklegen stets kleiner ist als beim Ziehen mit Zurticklegen. Fiir den Sonderfall n = N gilt sogar Var(X) = 0, und dies kiinnen wir auch direkt einsehen, denn in diesem Fall ziehen wir alle Kugeln und dann ist X R. (v) Fur eine Poisson-verteilte Zufallsvariahle X mit Parameter X gilt
=
und somit
(vi) Sei X geometrisch verteilt mit Parameter p, so gilt
Dabei haben wir Lemma 4.7 fiir r = 3 angewendet. Es folgt 2q2 + 9 E ( X 2 ) = E ( X ( X - 1)) + E X = p2 P und
(vii) Ftir eine negativ-binomial verteilte Zufallsvariable X mit Parametern r und p gilt
5. Erwartungswert und Varianz
94
Dabei haben wir wieder die Summenformel ftlr die negativ-binomiale Reihe verwendet. Nun folgt
und
5,
und das ist die Varianz einer geometrisch verteilFur r = 1 ist Var(X) = ten Zufallsvariable. In der Tat ist die geometrische Verteilung mit Parameter p ein Spezialfall der negativ-binomialen Verteilung mit Parametern r und p fur r = 1. Die Erwartungswerte nnd Varianzen der wichtigsten diskreten Verteilungen baben wir in Tabelle 5.1 zusammengestellt.
Wahrscheinlichkeitsfkt. E(X) Var(X) N + 1 N2-1 1 -{I,. . . , N} 2 12 pXql-' P Pq {0,1) {0, . . . , n) (:)pkqn-k bp ~ P P
Verteilung X(f2)
1
Laplace Bernoulli binomial
Tabelle 5.1. Wahrscheinlichkeitsfunktionen, Erwartungswerte und Varianzen
wichtiger diskreter Verteilungen
Mit Hilfe unserer Satze 5.6 und 5.10 konnen wir aucb Erwartungswerte und Varianzen von Verteilungen berechnen, die durch eine affin-lineare Transformation aus einer der Verteilungen in der obigen Liste bervorgehen. Als Beispiel betrachten wir eine Laplace-Verteilung auf {&, . . . , &}. Diese Verteilung erhalten wir, indem wir eine auf {I,. . . , N ) Laplace-verteilte Zufallsvariable Y durch ( N + 1) teilen. Es gilt dann E X = E = EY, und somit
(&)
&
5.3 Die Ungleichungen von Chebychev und Markov
95
Eine Laplace-Verteilung auf {&, . . . , &} kiinnen wir fiir grofle N als approximatives Model1 fur einen auf dem Interval1 [O,11 gleichverteilten Zufallsvorgang auffassen. Wir werden in Kapitel8 eine Gleichverteilung auf [O, 11 einfiihren und dann zeigen, dass diese Verteilung Erwartungswert $ und Varianz hat.
ubung 5.6 Wir werfen einmal einen unverfdschten Wiirfel und hezeichnen mit X die geworfene Augenzahl. Berechne Varianz und Standardabweichung von X. ubung 5.7 Es sei X eine Zufallsvariable mit Var(X) = 0. Zeige, dass es dann eine Konstante c gibt mit P(X = c) = 1. Wir sagen auch, dass X fast sicher eine
Konstante ist.
>
ubung 5.8 Es sei X eine N-wertige Zufallsvariable mit P ( X k) = $. Zeige, dass der Erwartungswert von X existiert und dass die Varianz nicht existlert.
5.3 Die Ungleichungen von Chebychev und Markov Wir werden zwei Ungleichungen kennenlernen, die von den bedeutenden russischen Mathematikern Pafnuty Lvovich Chebychev (1821-1894) und Andrey Andreyvich Markov (1856-1922) erstmals formuliert wnrden. Beide Ungleichungen sind in den meisten Beispielen nicht scharf, aber ihr grofler Vorteil lie@ in ihrer allgemeinen Gultigkeit. Dadurch werden sie unverzichtbares Hilfsmittel in verschiedenen theoretischen Berechnungen, vor allem des asymptotischen Verhaltens von Zufallsvariablen. Satz 5.15 (Markov-Ungleichung) Far eine Zufallsvariable X und eine reelle Zah,l a > 0 gilt
Beweis. Fiir s E R mit Is1 2 a gilt
!$ 2 1 und somit
Fiir die letzte Identitht haben wir wieder die Transformationsformel, Satz 5.3, verwendet. 0
96
5 . Erwartungswert und Varianz
Satz 5.16 (Chehychev-Ungleichung) Fiir eine Zufallsva~iableX und eine reelle Zahl a > 0 gilt
Beweis. Wir wenden die Markov-Ungleichung (5.9) auf die Zufallsvariable IX - EXI2 an und erhalten
0
Die Chehychev-Ungleichunggiht uns eine einfache Abschatzung der Wahrscheinlichkeiten fur Abweichungen einer Zufallsvariablen von ihrem Erwartungswert. Sie wird manchmal auch in der Form
geschrieben. Wir werden im Zusammenhang mit dem Zentralen Grenzwertsatz in Kapitel 10 zeigen, dass fiir eine Bin(n,p)-verteilte Zufallsvariable X und fur grofle Werte von n gilt P(IX - EX1 2 2ux) GZ 0.05. Die ChehychevUngleichung hingegen liefert nur die Obergrenze 0.25. Wir wollen nun an zwei Beispielen die Chebychev-Ungleichungfiir theoretische Berechnungen anwenden. Wir wissen, dass filr eine Bin(n,p)-verteilte Zufallsvariable Sn gilt E(Sn) = np und Var(Sn) = np(1- p). Daraus folgt
und mit der Chebychev-Ungleichung erhalten wir den folgenden Satz.
Satz 5.17 (Schwaches Gesetz der groflen Zahlen fur Bernoulli-Experimente) Es sei Sn die Zahl der Erfolge bei n unabhangigen Bernoulli-Experimenten. Dann gilt fiir jedes E > 0
und die rechte Seite konvergiert fiir n
+ oo gegen 0.
Die relative Hanfigkeit der Anzahl der Erfolge konvergiert also gegen die Erfolgswahrscheinlichkeit in dem Sinne, dass Abweichungen der relativen Haufigkeit von der Wahrscheinlichkeit p immer unwahrscheinlicher werden, wenn n gegen m strebt.
%
5.3 Die Ungleichungen von Chebychev und Markov
97
Bemerkung 5.18 Wir hetrachten jetzt ein heliehiges Wahrscheinlichkeitsexperiment, das wir mit dem Wahrscheinlichkeitsraum (L?, P ) modelliert hahen. Sei A C L? ein Ereignis, so erhalten wir ein Bernoulli-Experiment, indem wir die beiden Ergehnisse ,A tritt einC(Erfolg)bzw. ,Ac tritt einc (Misserfolg) festlegen. Die Erfolgswahrscheinlichkeit ist dann p = P(A). Ftir die n-fache, unahhiingige Wiederholung des Experimentes entspricht die Anzahl der Erfolge gerade der Anzahl der Experimente, hei denen A auftritt. Das Gesetz der groDen Zahlen hesagt in diesem Zusammenhang, dass die relative Haufigkeit des Auftretens von A gegen P(A) konvergiert, womit wir eine Verbindung zwischen dem axiomatischen Aufbau der Wahrscheinlichkeitstheorie und der frequent,istischen Interpretation von Wahrscheinlichkeit hahen.
+,
Zum Abschluss wollen wir ein Beispiel gehen, dass die Chebychev-Ungleichung auch in der Analysis angewendet werden kann. Zu jeder stetigen Funktion f : [O,11 + R ist das Bernstein-Polynom wie folgt definiert
Satz 5.19 Fur jede stetige Rmktion f : [O, 11 + R gilt f6r n
+ cc
d.h. die Folge der Bernstein-Polynome konvergiert gleichmajlig gegen f . Beweis. Wir wissen, dass fur eine Bin(n, x)-verteilte Znfallsvariahle gilt
%
gegen x Dies ist zusammen mit Satz 5.17 die entscheidende Beweisidee, da konvergiert. Wegen der Stetigkeit von f konvergiert auch f (%) gegen f (x). Es hleiht zu zeigen, dass daraus folgt Ef (%) + E ( f (x)) = f (x). Dass von der Konvergenz einer Folge von Zufallsvariahlen anf die Konvergenz ihrer Erwartnngswerte geschlossen werden kann, gilt unter gewissen Bedingungen sehr allgemein. Da uns entsprechende Satze an dieser Stelle noch nicht znr Verfiigung stehen, geben wir nun einen direkten Beweis. Es sei t > 0 gegehen. Wegen der Kompaktheit von [O,11 ist f gleichmiifiig stetig, und so giht es ein S > 0 , sodass fiir alle x, y E [O, 11 mit 12: - y1 5 6 gilt 1 f (x) - f (y)I 5 t. Also folgt mit der Dreiecksungleichung fur den Erwartungswert (5.3)
98
5. Erwartungswert und Varianz
Mit Hilfe der Chebychev-Ungleichung erhalten wir
und fiir genugend groBes n wird die rechte Seite
< 2t.
ubung 5.9 Es sei X eine Zufallsvariable rnit Werten in
N.Zeige, dass
(i) P ( X = 0) 5
(4
var(x) 0 2 - P ( X # 0) 5 E(X). <
, , 'EX'2
5.4 Aufgaben Aufgabe 5.1 Es sei (An)nEN eine Folge von Ereignissen in ( Q ,F,P ) und X eine Zufallsvariable, die jedem w E Q die Anzahl der eingetretenen Ereignisse P(A,). zuordnet, d.h. X(w) = I{n : w E A,)I. Zeige, dass E ( X ) = Cr=P=, Aufgabe 5.2 Sei X eine Zufallsvariable mit Werten in No. Zeige, dass
und uberprufe die Formel fur eine geometrisch verteilte Zufallsvariable.
Aufgabe 5.3 Ein betrunkener Mann hat ein Bund mit N Schlusseln, von denen genau einer zu seinem Hausturschloss passt. Er probiert einen nach dem anderen aus, bis er den richtigen Schlussel gefunden hat. Die Zufallsvariable X gibt die Anzahl der Schussel an, die der Mann ausprobiert, bis er den passenden gefunden hat. Bestimme Erwartungswert und Varianz von X unter folgenden Modellannahmen.
5.4 Aufgaben
99
(i) Der Mann merkt sich, welche Schliissel er ausprobiert hat. (ii) Er ist so betrunken, dass er jedesmal neu unter allen Schlusseln aussucht, welchen er als nachsten prohieren will. Aufgabe 5.4 Zeige, dass fur Indikatorfunktionen gilt ~
A ...~ UA"U =
1- (1 - 1 ~ ~. . .). (1 . -1~").
Fiihre damit einen neuen Beweis der Inklusions-/Exklusionsformel,Satz 1.8. Aufgabe 5.5 (St. Petersburger Paradoxon) Bei einem Gliicksspiel wird eine unverFalschte Miinze so oft geworfen, bis zum ersten Mal ,Kopf erscheint. Ein Mitspieler hekommt fur seinen Einsatz einen Gewinn von 2k Euro, wenn heim &ten Wurf zum ersten Mal ,Kopf erscheint. Berechne den zu erwartenden Gewinn und entscheide, oh ein Einsatz von 100 Euro lohnend ist. Aufgabe 5.6 Wir ziehen aus einer Urne mit N Kugeln mit Zuriicklegen und interessieren uns fiir die erwartete Anzahl der Ziehungen, die notig sind, bis jede Kugel mindestens einmal gezogen wurde. (Hinweis: Schreibe X = X1 + . . . + X N , wobei Xi die Anzahl der Ziehungen zwischen dem ersten Erscheinen der (i - 1)-ten und der i-ten Kugel ist, i = 1,.. . ,N . ) Aufgabe 5.7 Wir betrachten die Zufallsvariable X aus Beispiel 5.8. Berechne fur R = 1und R = 2 den Erwartungswert E ( X ) direkt mit der Definition, d.h. E ( X ) = C ~ k A P ( X ~= k). Vergleiche das Resnltat mit der im Text hergeleiteten Formel (5.4). Aufgabe 5.8 In einer patriarchalisch orientierten Gesellschaft bekommen Elt,ern so lange Kinder, bis der erste Sohn geboren ist. Fur unsere ~ b e r l e gungen nehmen wir an, dass es keine Mehrlingsgeburten giht und dass die Wahrscheinlichkeit fur die Gehurt eines Jungen gleich der Wahrscheinlichkeit fur die Geburt eines Madchens ist. (i) 1st zu erwarten, dass in einer solchen Gesellschaft die Anzahl der Jungen groDer ist als die Anzahl der Madchen? (ii) Bestimme die Verteilung der Anzahl der Madchen in einer Familie und berechne Erwartungswert und Varianz. (iii) Wie groD ist die erwartete Anzahl der Jungen in einer Familie? Berechne auch hier die Varianz. Aufgabe 5.9 Es sei (XI,. . . ,X,) eine zufallige Permutation von (1,. . . ,n). Wir nennen Xi einen Rekord, wenn gilt Xi > max(X1,. . . ,Xi-I), fur i = 2,. . . ,n. XI ist stets ein Rekord. Wir definieren die Znfallsvariable R als Gesamtzahl der Rekorde. (i) Bestimme den Wertehereich von R. Wie groB ist die Wahrscheinlichkeit, dass R ihren minimalen hzw. maximalen Wert annimmt? (ii) Berechne den Erwartungswert von R. (Hinweis: Definiere fur i = 1,.. . ,n die Zufallsvariablen
100
5 . Erwartungswert und Varianz
Ri =
1 wenn Xi ein Rekord ist 0 sonst
und berechne E(Ri) = P(Ri = I).) (iii) Zeige, dass fiir 6, E {O, I), i = 1 , . . . ,n , gilt
~ b e r s e t z u nd~e r Ausziige a u s Christiaan Huygens Traktat ,De Ratiociniis in Ludo Aleae'. (,Abhandlungen fiber die bei Gliieksspielen mogliehen Berehungen', Ubersetzung von Robert Hausner, erschienen 1899 im Band 107/108 in Ostwalds Klassiker der exakten Wissenschaft)
~ b e r s e t z u ndes ~ Tates auf Seite 8% Satz. Wenn ich die Summe a oder die Summe b erwarte, von denen ich die eine ebenso leicht wie die andere erhalten kann, so ist der Werth meiner Hofhung gleicb Um diesen Satz nicht nur zu beweisen, sondern ihn sogar von Grund aus aufzubauen, setze ich meine Hofhung gleich x . Dann muss ich, wenn ich x habe, die gleiche Hoffnung wieder erlangen konnen, sobald ich unter der gleichen Bedingung spiele. Gesetzt nun, ich spiele mit einem Andern unter der Bedingung, dass jeder von uns Beiden die Summe x einsetzt und der Gewinner des ganzen Einsatzes dem Verlierer die Summe a geben muss. Dieses Spiel ist vollig gerecht, und es ist klar, dass ich unter diesen Bedingungen die gleiche Erwartung habe, die Summe a zu erhalten, wenn ich namlich das Spiel verliere, als wie die Summe (22 - a), wenn ich gewinne (denn dann erhalte ich den ganzen Einsatz 2x, von welchem ich die Summe a meinem Mitspieler geben muss). Wenn nun aber 2x - a ebensoviel werth w&re als b, so hatte ich auf a dieselbe Hofhung wie auf b. Ich setze also 23. - a = b und erhalte dann x= als Werth meiner Hofhung. Der Beweis ist leicht. Wenn ich narnlich die Summe habe, so kann ich mit einem Andern, welcher ebenfalls einsetzen will, unter der Bedingung spielen, dass der Gewinner dem Verlierer die Summe a giebt. Auf diese Weise ist meine Hoffnung, a zu erhalten (wenn ich verliere), gleich der, b zu bekommen (wenn ich gewinne); im letzteren Fall erhalte ich namlich den ganze Einsatz a b, und von diesem habe ich dem Andern die Summe a zu geben.
9.
9
9
+
6. Mehrdimensionale Verteilungen
Wenn wir mehrere Zufallsvariablen gleichzeitig betracbten, wird Wahrscheinlichkeitstheorie noch spannender. Wir konnen dann die Verteilung von verschiedenen Funktionen der Zufallsvariablen, z. B. die Summe oder das Maximum, untersuchen. Wir werden in diesem Kapitel Zusammenhange zwischen Zufallsvariablen beschreihen und quantifizieren und als kleinen Hijhepunkt eine erste allgemeine Version des Gesetzes der grofien Zahlen kennenlernen. Die meisten der Resultate in diesem Kapitel gelten fur beliebige Zufallsvariablen, auch wenn wir die Beweise hier nur fur Zufallsvariablen mit einer diskreten Verteilung geben konnen. Bei Resultaten, die wirklich nur im diskreten Fall gelten, weisen wir entsprechend darauf hin.
6.1 Gemeinsame und marginale Verteilungen Zur Berechnung der Wahrscheinlicbkeit eines Ereignisses, das von mehreren Zufallsvariablen XI,. . . ,X, a b h h g t , reicht es nicht aus, die Verteilungen der einzelnen Zufallsvariablen zu kennen. Wenn wir etwa zwei auf {I,.. . ,6) Laplace-verteilte Zufallsvariablen haben, so klinnen wir ohne weitere Informationen 2.B. P(X1 Xz = 12) nicht berechnen. Wahlen wir als Laplace-Experiment das zweimalige, unabhangige Werfen eines unverfalschten Wiirfels und hezeichnen mit X1und Xzdie Augenzahl heim ersten bzw. zweiten Wurf, so ist P(X1 Xz= 12) = $. Definieren wir andererseits zwei Yz, wobei YI die Augenzahl beim ersten Laplace-verteilte Zufallsvariablen YI, z = Y I ,so ist P(Y1 Y z = 12) = 1 Wurf hezeichnet und Y 6.. Wir wollen nun Verteilungen von mehreren Zufallsvariablen beschreihen, d.h. wir hetrachten Zufallsvariablen XI, . .. ,X, auf einem Wahrscheinlichkeitsraum (LJ,.F P). , Wir kijnnen diese Zufallsvariablen auch auffassen als einen Zufallsvektor, also als messbare Funktion X : LJ + Rn. Messbarkeit bedeutet hier, dass fur jedes n-dimensionale Rechteck R = (al,bl] x . . .x (a,, b,] gilt, dass {w : X ( w ) E R } ein Ereignis ist, d.h. in .F liegt. Es lasst sich zei. . ,X,)t aquivalent ist gen, Bass die Messbarkeit eines Zufallsvektors (XI,. Diese Funktion X : IZ + R bezu der Messbarkeit aller Koordinaten Xi. ... ,x, auf Rn, wirkt dann eine Wahrscheinlichkeitsverteilung Px bzw. Px,, indem wir jeder Teilmenge A C Rn die Wabrscheinlichkeit zuordnen, dass X einen Wert in A annimmt, d.h. Px(A)= Px,,..., x, (A):= P(X-'(A)).
+
+
+
102
6. Mehrdimensionale Verteilungen
Damit P ( X P 1(A)) definiert ist, muss XP1 (A) E F gelten. Entsprechend den uberlegungen, die wir der Definition 4.2 vorangestellt haben, gilt dies, sofern X I , . . . ,X, messbar sind und A eine (Borel-) messbare Teilmenge des Rn ist. Auch an dieser Stelle verzichten wir auf eine exakte Definition der Messbarkeit. Fur unsere Zwecke reicht es zu wissen, dass alle Rechtecke sowie alle offenen und alle abgeschlossenen Mengen messbar sind. Weiter sind Komplemente sowie abzahlbare Vereinigungen und Durchschnitte messbarer Mengen wieder messbar, d.h. die Klasse der messbaren Teilmengen von R bildet eine a-Algebra im ~ i n n eder Definition 1.5.
Abb. 6.1. ~ b e r t r a g u n gder Wahrscheinlichkeitsverteilung von 52 nach EX2
Definition 6.1 Seien X I , . . . , X, Zufallsvariablen auf dem Wahrscheinlichkeitsraum ( 0 , F , P ) . Dann heij't die Wahrscheinlichkeitsverteilung Px bzw. Px, ,... J, auf Rn , die durch
Px (A) = Pxl ,... ,x, (A) := P((X1, . . . ,X,)
c Rn messbar , (6.1) dejiniert wird, die gemeinsame Verteilung von X I , . . . , X,. E
A), A
Die Wahrscheinlichkeitsverteilung auf 0 wird damit gewissermafien nach Rn ubertragen. Wir werden zunachst die gemeinsame Verteilung diskreter Zufallsvariablen betrachten, d.h. die Wertebereiche X l ( R ) , . . . ,X,(R) sind hochstens abzahlbar unendlich. Dann ist auch der Wertebereich des Zufallsvektors X , (XI, . . . ,X,) ( 0 ), hochstens abzahlbar unendlich. Definition 6.2 Seien X I , . . . , X, diskrete Zufallsvariablen. Dann heij't die Funktion p : X ( 0 ) + R, dejiniert durch
die gemeinsame Wahrscheinlichkeitsfunlction von X I , . . . , X, bzw. die Wahrscheinlichkeitsfunktion des Zufallsvektors (XI, . . . ,X,)t. Gelegentlich wird p ausgedehnt zu einer Funktion auf ganz Rn, indem gesetzt wird p(x) = 0 fur x E Rn \ X ( 0 ) .
6.1 Gemeinsame und marginale Verteilungen
103
Die zwei grundlegenden Eigenschaften, die wir fiir Wahrscheinlichkeitsfunktionen auf R1 in Satz 4.6 gezeigt haben, gelten auch fiir gemeinsame Wahrscheinlichkeitsfunktionen, d.h.
Wie im eindimensionalen Fall ist die Verteilung eines diskreten Zufallsvektors vollstandig durch die gemeinsame Wahrscheinlichkeitsfunktion beschriehen, fiir A c Rn denn es
1st der Wertehereich endlich und haben wir nur zwei Zufallsvariablen, so lasst sich die gemeinsame Verteilung vollstandig in einer Zdimensionalen Wertetabelle darstellen, siehe Tabelle 6.1. Zusatzlich haben wir an den Randern die Zeilen- und Spaltensummen pl (xi) := CElp(xi, yj) hzw. m pz(yj) := Ci=lp(xi, yj) angegeben. Zum Versthndnis dieser Terme betrachten wir als Beispiel die i-te Zeilensumme am rechten Rand. Die Ereignisse { X = xi,Y = yj}, j = 1,. . . ,n, sind eine disjunkte Zerlegung des Ereignisses { X = xi}, und ebenso sind die Ereignisse { X = xi,Y = yj}, i = 1 , . . . , m , eine disjunkte Zerlegung des Ereignisses {Y = yj}. So gilt
Also finden wir am rechten Rand in Tabelle 6.1 die Wahrscheinlichkeitsfunktion von X und am unteren Rand die Wahrscheinlichkeitsfunktion von Y.
Tabelle 6.1. Wertetabelle der Wahrscheinlichkeitsfunktion zweier Zufallsvariablen mit je endlich vielen Werten sowie der marginalen Wahrscheinlirhkeitsfunktionen
104
6. Mehrdimensionale Verteilungen
Wir nennen die Verteilungen von X und Y auch marginale Verteilungen der gemeinsamen Verteilung von X, Y. Entsprechend heiBen pl und pz auch marginale Wahrscheinlichkeitsfunktionen, beides abgeleitet vom englischen Wort fur Rand, margin.
Tabelle 6.2. Gemeinsame und marginale Wahrscheinlichkeitsfunktion der Augenzahl beim ersten Wurf sowie der Gesamtaugenzahl bei zwei Wiirfen mit einem unverfdschten Wiirfel, siehe Beispiel 6.3
Beispiel 6.3 Wir werfen 2-ma1 mit einem unverfalschten Wiirfel und bezeichnen mit X1 und X2 die Augenzahl beim ersten bzw. zweiten Wurf. In Tahelle 6.2 haben wir die gemeinsame Verteilung von X := X1 und Y := XI X2 dargestellt, indem wir alle Werte der gemeinsamen Wahrscheinlichkeitsfunktion angegeben haben. Die Vert,eilung am unteren Rand, die zweite der heiden eindimensionalen marginalen Verteilungen, ist die Verteilung von X1 + X2, wie wir sie bereits in Beispiel 4.5 (i) berechnet hahen.
+
Definition 6.4 Seien XI,. . . ,X, Zufallswariablen auf dem Wahrscheinlichkeitsraum ( Q , F , P ) und 1 5 i l < .. . < i k 5 n . Dann heiflt die gemeinsame Verteilung won Xi,, . . . ,Xi, eine k-dimensionale marginale Verteilung der gemeinsamen Verteilung won XI,. . . ,X,. Sind XI,. . . , X, diskrete Zufallswariablen, so heiflt die gemeinsame Wahrscheinlichkeitsfunktion won X i . . . ,X i marginale Wahrscheinlichkeitsfvnktion und wird mat pi ,,.. ,i, bezeichnet. Mit dem Attribut marginal wird nicht eine besondere Eigenschaft der marginalen Verteilung beschrieben, sondern ihre Beziehung zur gemeinsamen Verteilung von XI,. . . , X, znm Ausdruck gebracht. Die eindimensionalen marginalen Verteilungen ktjnnen wir durchnummerieren. Die i-t,e eindimensionale marginale Verteilung wird auch kurz die i-te marginale Verteilung oder i-te Marginale genannt.
105
6.1 Gemeinsame und marginale Verteilungen
Die zugehorigen marginalen Wahrscheinlichkeitsfunktionen erhalten wir aus der gemeinsamen Wahrscheinlichkeitsfunktion durch Summation iiber die komplementaren Indizes. Dies ist die Aussage des folgenden Satzes. Der Beweis ist analog zur Herleitung der Identitaten (6.4)und (6.5),welche den Fall n = 2 und k = 1 darstellen.
Satz 6.5 Es seien XI,. . . ,Xn diskrete Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsfunktion p(x1,.. . ,x,). Dann ist die Wahrscheinlichkeitsfunktion von Xi,, . .. ,Xi,gegeben durch
wobei die Indizes { j ~. .,. ,jn-k} das Komplement der Indizes { i l , . . . ,ik} in {I,.. . ,n } sind. Beispiel 6.6 Wir betrachten ein Experiment rnit k moglichen Ergebnissen, etwa 1,.. . , k , und den zugehorigen Wahrscheinlichkeit,enPI,.. . ,pk,wobei pi 2 0 und pl . . . pk = 1. Dieses Experiment wird n-fach unabhangig wiederholt. Wir bezeichnen rnit Ni die Anzahl der Experimente rnit dem Ergebnis i, i = 1, . . . , k , und fragen nach der gemeinsamen Verteilung von Nl, . . . ,Nk.Die Wahrscheinlichkeit fiir genau eine Reihenfolge der Ergebnisse
+ +
Ergebnis Strichliste (nach n Wiederholungen) Nk Nl = 3 N, = 7 N3 = 2
Abb. 6.2. Multinomiale Verteilung hei n unabhshgigen Wiederholungen eines Experimentes rnit le moglichen Ergebnissen
( i l , . . . ,in)ist gleich dem Produkt der zugehorigen Wahrscheinlichkeiten
pi, . . . . . pi- = p;' . .. . .p?
,
wobei ni die Anzahlen der Experimente rnit Ergebnis i darstellt, i = 1,. . . ,k . "! mogliBei einem gegebenen Vektor (nl, . . . ,n k ) gibt es (n,,,,n ,n,) = che Reihenfolgen der Ergebnisse, sodass nl-ma1 Ergebnis 1, nz-mal Ergebnis
106
6. Mehrdimensionale Verteilungen
2, usw., und nk-ma1 Ergebnis ic eintritt. So erhalten wir fiir (nl,. . . , n k )rnit 0 5 n i I n u n d n l + ...+n k = n PN, , . ,NI.(nl, . . . ,nk) = P(N1 = n l , . . . , Nk = nk)
Aufgrund der Definition 2.15 des Multinomialkoeffizienten gilt (6.6) sogar fiir alle n ~. .,. ,nk E Z. Die durch die Identitat (6.6) beschriebene gemeinsame Verteilung von Nl, . . . ,Nk heifit multinomiale Verteilung rnit Paramet,ern n und PI,. . . ,pk. Die Eigenschaft einer Verteilung, dass C ,,,,,. ,,, p(n1, . .. ,nk) = 1,ist eine einfache Anwendung der folgenden Identitat
auch Multinomialformel genannt. Wir konnen nun die eindimensionalen marginalen Verteilungen der multinomialen Verteilung rnit Satz 6.5 bestimmen, z.B. die erste Marginale
n,l
nz,... ,nr.
n - n~ nz, ... ,nk
Die erste Marginale von N ist also eine binomiale Verteilung rnit Parametern n nnd pl, d.h. dass Nl eine Bin(n,pl)-Verteilung hat. Diese Aussage konnen wir auch ganz ohne Berechnungen einsehen. In einer Interpretation, bei der bei jedem Experiment das erste Ergebnis als Erfolg und alle weiteren Ergebnisse als Misserfolge aufgefasst werden, ist Nl die Anzahl der Erfolge in n Bernoulli-Experimenten rnit Erfolgswahrscheinlichkeitpl. Wir wissen bereits aus Beispiel 3.8(ii), dass Nl dann Bin(n,pl) verteilt ist. Oft stehen wir vor der Anfgabe, bei gegebener Wahrscheinlichkeitsfunktion p x ,,... J, von X I , . . . ,Xn die gemeinsame Verteilung einer Anzahl von Fnnktionen Yl = u l ( X l , . . . ,X,), . . . ,Y, = u,(Xl,. . . , X,) zu bestimmen. Aus der Tatsache, dass YI = y1,. . . ,Y, = y, genau dann gilt, wenn X I , . . . ,X, W e r t e x ~.,. . ,x, rnit ul(x1,. . . ,x,) = y1,. . . ,u,(x1,. . . , x n ) = y, annimmt, folgt P(Y1 = y1, ... ,Y, = y,)
=
C
(m,... ,z,)EB(YI
mit B ( Y I , .. . ,y,)
PXI,... , X " ( X ~.>. .> 4
,... ,Y,)
= {(XI,.. . ,xn) : ui(x1,. . . ,x,) = yi, fur i = 1,.. . ,m}.
6.1 Gemeinsame und marginale Verteilungen
107
Tabelle 6.3. Gemeinsame Wahrscheinlichkeitsfunktion der Augenzahlen bei 2 unabhangigen Wiirfelexperimenten (links) und Wahrscheinlichkeitsfunktion der ma-
ximalen Augenzahl (rechts), siehe Beispiel 6.7(i)
Beispiel 6.7 (i) Es seien Xl und Xz die Augenzahlen beim 2-maligen Werfen eines unverfalschten Wiirfels. Links in Tabelle 6.3 ist die gemeinsame Wahrscheinlichkeitsfunktion p(i, j) = P(Xl = i , X 2 = j) dargestellt. Wir betrachten nun die Zufallsvariable Yl := max(X1, Xz) und suchen ihre Verteilung. Wir konnten friiher bereits berechnen, wie groD zum Beispiel die Wahrscheinlichkeit ist, dass die hochste geworfene Augenzahl 4 ist, indem wir die zu diesem Ereignis gehorige Teilmenge von (2 bestimmt haben. Jetzt konnen wir P(K = k) berechnen, indem wir alle Wabrscheinlichkeiten p(i, j) mit max(i, j) = k aufaddieren. In der linken Tabelle ergeben diese Paare ein umgekehrt L-formiges Gebiet. Die Summen sind in der rechten Tabelle dargestellt, und sie lassen sich mit der Formel P ( K = k) = k = 1,... ,6, schreiben. (ii) Weiter definieren wir die Zufallsvariahle Yz := X1 + Xz, d.h. die Augensumme bei 2-maligem Werfen eines unverfdschten Wiirfels. Die gemeinsame Wahrscheinlichkeitsfunktion p(k, 1 ) = P(Yl = k, Yz = 1) erhalten wir, indem
%,
Tabelle 6.4. Gemeinsame Wahrscheinlichkeitsfunktion "on Augensumme und
maximaler Augenzahl bei zwei unahhangigen Wiirfelexperimenten, siehe Beispiel 6.7(ii)
108
6. Mehrdimensionale Verteilungen
+
wir alle Paare ( i ,j ) mit max(i, j ) = k und i j = 1 aufaddieren. In der Wertetabelle sind dies die Paare, die in dem Durchschnitt des umgekehrt Lfijrmigen Gehiets und der Diagonalen i + j = 1 liegen. In Tabelle 6.4 haben wir die gemeinsame Wahrscheinlichkeitsfunktion von Yl und Yz darstellt. An den R a d e r n stehen die eindimensionalen marginalen Verteilungen von Yl und Yz. Es seien X1, . . . ,X, diskrete Zufallsvariahlen und es sei u : Rn + R eine Funktion. Dann ist Y = u(X1,. . . , X n ) eine neue diskrete Zufallsvariable. Wir konnen E(Y) herechnen, indem wir die Verteilung von Y bestimmen und dann die Definition des Erwartungswertes anwenden. Ehenso wie bei Funktionen einer einzelnen Zufallsvariahlen giht es auch fiir dieses Problem eine Transformat,ionsformel,die uns den umstbdlichen Weg erspart.
Satz 6.8 (Transformationsformel fiir den Erwartungswert) Es seien X1, . . . , X, diskrete Zufallsvariablen mit gemein,sarner Wahrscheinlichkeitsfunktion p und u : Rn + R eeine Funktion. Dann gilt
unter der Voraussetzung, dass die Reihe auf der rechten Seite absolut konuergiert. Beweis. Die Wahrscheinlichkeitsfunktion von Y = u(X1,. . . ,X,) ist gegehen durch
Dies setzen wir in die Definition von E(Y) ein und erhalten
Bei Verwendung von Vektornotation (xl, . . . ,x,) = x ist dieser Beweis genau derselhe wie fiir Funktionen einer Variablen, siehe Satz 5.3. 0 Die IdentitBt (6.7) heruht auf der Tatsache, dass es zwei verschiedene Moglichkeiten gibt, die Terme ,u(xl,. . . ,x,)p(xl, . . . ,x,), xi E Xi(Q), zu
6.1 Gemeinsame und marginale Verteilungen
109
uo
Abb. 6.3. Zwei Moglirhkeiten,
Czl,s2 u(zl,zZ)p(zl,z2)zu berechnen
summieren. Wir konnen die Summe einerseits direkt bilden iiber alle moglichen (XI,.. . ,x,). Die zweite Moglicbkeit besteht darin, die (XI,.. . ,x,) zuniicbst gemiifl der u(xl,. . . ,x,)-Werte zu ordnen, dann die zugehorigen p(x1,. . . ,xn)-Werte zu addieren, mit dem u-Wert zu multiplizieren und erst abschliefiend alles zu summieren, wie in Abb. 6.3 dargestellt. An dieser Stelle steht uns mit der Begriffshildung der gemeinsamen Verteilung das Hilfsmittel zur Verfugung, mit dem wir endlich den Beweis der Addit,ivitiit des Erwartungswertes fuhren konnen, siehe Satz 5.6 (ii). Wir betrachten also zwei diskrete Zufallsvariablen X und Y mit gemeinsamer Wabrscheinlichkeitsfunktion px,y(x, y) sowie die Ahbildung u(x, y) := x. G e m 3 der Transformationsformel Satz 6.8 gilt
Weiter wenden wir die Transformat,ionsformel auf u(x, y) = x erbalten
+ y an und
Dabei haben wir Identitat (6.8) sowie das Analogon fur E(Y) henutzt. Beispiel 6.9 Es seien N l , . . . ,Nk Zufallsvariablen, deren gemeinsame Verteilung eine multinomiale Verteilung mit Parametern n und PI,. . . ,pk ist. Wir konnen E(NiNj) wie folgt berechnen
Fur i # j gilt aufgrund der Definition des Multinomialkoeffizienten (2.6)
Mit Hilfe diesmr Idmntittit erhalten wir d a n n
Fiir den letzten Schritt haben wir die Multinomialformel und die Identitat P C,=, pi = 1 verwendet.
hungen ubung 6.1 Wir nrerfen 2-ma1 &en unverfjlschten Wiirfcl und bezeichnen rnit X hzw. Y die kleinste hzw. gr6Bte Augenzahl. Bestimme die gcmeinsame Verteilung von S , Y und stelle dirse in einer \Vc'crtetabellr dar. Bestimme die marginalen VWteilnngen. ubung 6.2 Eine Urne enthalt n weih, b schwarze und c rote Kugeln. Wir siehen z u f i l l i ~und ohne Zuriicklegen n Kngeln nnd heseichnen rnit X, I' und Z die Anzahlrn der wciBen, schwaraen nnd rotrn Kugeln in der Stichprohe. Bpstimme die gemrinsame Vertcilung vou S , Y, Z, die 1. marginale Verteilung, d.h. dir Vertcihmg von .Y,sowie E(.XY). ubung 6.3 W u hetrachten cine Folge unabhangiger Bernoulli-Experimente. Das Experiment wird so lange wiederholt, his zum zwciten Mal ein Erfolg eingetreten ist. Wiiir hezeichnen mit X die Anzahl dcr Misserfolge vor dcm crstcn Erfolg und mit Y die Anzahl der Misserfolge zwisd~endem ersten und dem zweiten Erfolg. Bestimmc die gemeinsame Wahrscheinlichkeitsfunktion von X',Ir. Obung 6.4 Jemand wiederholt ein Bernoulli-Experiment rnit Wahrscheinlichkeit X die Anzahl der Mkserfolge vor dem ersten Erfolg. Einn zweite P r w m fiihrt unahhangig davon dasselhe Experiment durch uud hezcichnet dic Anaahl der Misserfolge vor dem erstrn Erfolg mir Y. (i) Brstimmr dic gemeinsame Wa6rschcinlichkeitsfunktionvon A', 1.. (ii) Bestimme die Verteilung von U := min(S,Y). (iii) Sci V := max(X, Y). Bcstimme die gemcinsame Verteilung von U,V.
p solangr, his zum ersten hlal ein Erfnlg eintritt, und hezeichnet rnit
ubung 6.5 Es seicn XI und X2 die Augenzahlen beim 2-maligen We~feneines unverfilschten Wiirfcls. Bestimmc die gcn~einsameVerteilung von YI := mar(X1, X*) und Y2 := 1x1- A'2I sowie dic beiden Marginalen. ubung 6.6 Eine Urne enthalt a weiDe, b schwarze und e rote Kageln. Wir ziehen n-ma1 mit Zuriicklegm und heaeichnen rnit .Y,Y und Z die Anzahl der weism, schwaraen haw. rotm Kugeln in der Stichprohe. Bestimme die gemeinsame Verteilung von S,Y ,Z, die Vert,cilnng von X und die Verteihmg von Y + Z. Berechne E(XY).
6.2 Unabhangige Zufallsvariablen
111
ubung 6.7 Wir werfen 10-ma1 einen unverfalschten Wiirfel. Berechne die Wahrscheinlichkeit des Ereignisses, dass 5-md eine ungerade Zahl, 3-md eine 6 und je einmal eine 2 und eine 4 geworfen wid.
6.2 Unabhangige Zufallsvariablen Wir schlieoen jetzt wieder bei den Uberlegungen von Kapitel 3 an und betrachten Unabhejlgigkeitseigenschaften fiir Zufallsvariahlen.
Definition 6.10 Die Zufallsuarlablen X I , . . . ,X , heijlen (stochastisch) unabhangig, wenn fur alle Interualle I l , . . . , I , C B gilt
In vielen Fallen lassen wir das Adjektiv ,stochastisch' weg, sofern eine Verwechslung mit linearer Unabhhgigkeit der Fnnktionen Xi : 0 + R ausgeschlossen ist. Lemma 6.11 Die Zufallsvariablen X I , . . . ,X , sind genau dann unabhangig, wenn die Ereignisse { X I E I l } , . .. , { X , E I,) unabhangig sind fir alle Intervalle I l , . . . , I , C R.
Beweis. Aus der Unabhejlgigkeit der Ereignisse { X I E I l } , . . . , { X , E I,) folgt per definitionem die Identitat (6.9). Umgekehrt mussen wir zeigen, dass aus der Unabhangigkeit von X I , . . . ,X , folgt, dass fiir alle Indizes 1 5 il < . . . < ik 5 n gilt
Entsprechend den Voriiberlegungen zu Definition 3.3 ist es nicht trivial, dass (6.10) aus (6.9) folgt. Fiir eine feste Familie von Intervallen w&e dies auch falsch. Wir benijtigen die Forderung, dass die Identitat (6.9) fur alle Intervalle 11,. . . , I , c B gilt. Wir setzen I, = R fiir die komplementgren Indizes i E { I , . .. ,n } \ { i l , . . . ,ik) und erhalten
P(Xi1 € Ii ,,... ,Xik € I & )= P(X1 € I1 ,...
wobei wir P ( X i E R) = 1 verwendet haben.
,xn€ I,)
0
S t o ~ h ~ t i s c Unabhangigkeit he ist eine Eigenschaft der gemeinsamen Verteilung. Insbesondere kijnnen wir fiir diskrete Zufallsvariablen die stochastische Unabhangigkeit feststellen mit Hilfe der gemeinsamen Wahrscheinlichkeitsfunktion. Der folgende Satz prazisiert diese Aussage
112
6. Mehrdimensionale Verteilungen
S a t z 6.12 Die gemeinsame Wahrseheinliehkeitsfunktion unabhdngiger, diskreter Zufallsuariablen X , Y ist gleich dem Produkt der marginalen Wahrseheinliehkeitsfunktionen, d.h.
Hat umgekehrt die gem,einswne Wahrseheinlichkeitsfunktion eine Produktgestalt, d.h.
so sind X und Y unabhangige Zufallsvariablen mit den eindimensionalen marginalen Wahrseheinliehkeitsfunktionen p x ( x ) = cuip(x) und p y ( y ) = P $ ( y ) , wobei cu := (1, ip(x))-I und p := ( Z , $ ( y ) ) - l . Beweis. Sind X , Y unabhangige Zufallsvariablen, so folgt gemal3 Definition 6.10, dass fur beliebige x , y die Ereignisse { X = x} und {Y = y} unabhangig sind. Es gilt also
Gilt umgekehrt (6.12), so folgt wegen Satz 6.5
und somit ap = 1. Also hat X die marginale Wahrscheinlichkeitsfunktion
und Entsprechendes gilt fiir p y ( y ) . Damit folgt fur beliebige Teilmengen A, B c R, dass
= P ( X E A)P(Y E B),
und somit haben wir gezeigt, dass X und Y unabhwgige Zufallsvariablen 0 sind.
6.2 Unabbangige Zufallsvariablen
113
Bemerkung 6.13 (i) Die Aussage von Satz 6.12 gilt allgemein fur die gemeinsame Wahrscheinlichkeitsfunktion von n diskreten Znfallsvariablen. Der Beweis verlauft analog zum obigen Beweis. (ii) Oft wird Satz 6.12 so formuliert, dass diskrete Zufallsvariablen XI,. . . ,X, genau dann unabhejlgig sind, wenn ihre gemeinsame Wahrscheinlichkeitsfunktion das Produkt der eindimensionalen marginalen Wahrscheinlichkeitsfunktionen ist. Die von uns gewahlte Formulierung ist starker, da eine Produktgestalt mit beliebigen Faktoren ausreicht zum Nachweis der stochastischen Unabhangigkeit von X I , . . . ,X,. (iii) Wenn wir nun zu n unabhangigen Experimenten diskrete Zufallsvariablen X I , . . . ,X, so definieren, dass der Wert von Xi nur vom Ergebnis des i-ten Experimentes abhejlgt, so sind die Zufallsvariahlen X I , . . . ,X, unabhejlgig. Anf diese Weise finden wir eine groBe Anzahl von Beispielen fur unabhangige Zufallsvariablen. Wir werden darum oft darauf verzichten, ein Model1 fur den gemeinsamen Ergebnisranm mehrerer unabhangiger Experimente zn machen und stattdessen die Unabhiingigkeit der Zufallsvariablen znr Modellannahme erklaren. (iv) Fur unabhangige, diskrete Zufallsvariahlen X I , . . . ,X, und Funktionen f, : B + R sind auch die Znfallsvariablen fl(X1), .. . ,f,(Xn) unabhejlgig, denn es gilt P(fl(X1) €11, ... ,fn(Xn) € I n ) = W X 1 €fc1(I1), ... , x n = P(X1 E fc1(I1)) . . . . .P(X, E f,-l(ln)) = P(fl(X1) E 11). . . . .P(fn(Xn) E In). Dahei haben wir benutzt, dass die Identitiit (6.9) nicht nur fiir alle Intervalle, sondern fiir beliehige Mengen B1,. . . ,B, C B gilt. Fur n = 2 ist dies im Beweis von Satz 6.12 ausgefuhrt, und analog kann der Beweis fiir beliebiges n gefiihrt werden. Noch allgemeiner l b s t sich heweisen, dass auch Funktionen disjunkter Gruppen unabhejlgiger Zufallsvariablen, f (XI,. . . ,Xk) und .. . ,Xn), wieder unabhtingig sind. Wir verzichten an dieser Stelle g(Xk+~, anf einen Beweis und verweisen auf die Mafltheorie.
In vielen Anwendungen und in theoretischen Fragestellungen sucht man nach der Verteilung der Snmme einer Anzahl nnabhangiger Zufallsvariablen, etwa als Voraussetzung zur Bestimmung der Verteilung des Mittelwertes. Der folgende Satz gibt fiir zwei unabhangige diskrete Zufallsvariablen eine wichtige Formel fiir die Wahrscheinlichkeitsfunktion ihrer Summe.
Satz 6.14 (Faltungsformel fur Wahrscheinlichkeitsfunktionen) Es seien X und Y unabhiingige, diskrete Zufallsvariablen mit Wahrscheinlichkeitsfunktionen p bzw. q. Dann hat ihre Summe Z = X + Y die Wahrscheinlichkeitsfunktion ~ ( z= )
CP(X)Q(Z - 4 = C P b - Y)Q(Y). 5
9
(6.13)
114
6. Mehrdimensionale Verteilungen
Beweis. Das Ereignis { X + Y = t }lasst sich schreiben als disjunkte Vereinigung der Ereignisse { X = x , Y = y}, wobei x y = z und daher y = t - x. Damit und unter Verwendung der Definition von Unabhangigkeit erhalten wir
+
Analog erhalt man die zweite Identitat in (6.13). Wir ftlhren nun noch einen zweiten Beweis durch, weil darin eine Methode verwendet wird, die spater hei stetigen Zufallsvariablen eine wichtige Rolle spielen wird, siehe Beispiel 9.7. Wir bestimmen zunachst die gemeinsame Wahrscheinlichkeitsfunktion p x , z von X , Z . Da ( x ,y) H ( x , x y) eine hijektive Abbildung ist, gilt
+
Die gesuchte Wahrscheinlichkeitsfunktion von Z = X + Y ist nun die zweite marginale Wahrscheinlichkeitsfunktion, und diese berechnet sich gemai3 Satz 6.5 als
So haben wir, um die Verteilung einer Funktion u ( X , Y ) zu hestimmen, zunachst eine weitere Funktion w ( X ,Y ) definiert, dann die gemeinsame Verteilung von u ( X ,y ) ,u ( X ,Y ) bestimmt und schlieBlich die marginale Vertei0 lung von u ( X ,Y )berechnet. Mit der Identitat (6.13) wird eine Operation definiert, die zwei Wahrscheinlichkeitsfunktionen p x und py eine dritte Wahrscheinlichkeitsfunktion r zuordnet. Diese Operation heiBt Faltung und das Ergebnis heifit Faltungsprodukt der beiden Wahrscheinlichkeitsfunktionen. Als Symbol verwenden wir p x * p y . Sind X und Y Zufallsvariahlen mit Werten in &, so konnen wir die zugehorigen Wahrscheinlichkeitsfunktionen mit den Folgen (pi)i2o und (qi)i>o identifizieren, wobei pi := p x ( i )und qi := p y ( i ) , i E NO. Sind X und Y unabhangig, so hat ihre Summe eine Wahrscheinlichkeitsfunktion, die der Folge
6.2 Unabbangige Zufallsvariablen
115
entspricht. Die so definierte Folge (ri)i20heiflt Faltungsprodukt der Folgen (pi)i2o und (qi)izo und wird rnit dem Symbol (pi) * (pi) bezeichnet. In der Analysis dient das Faltungsprodukt zur Berechnung der Koeffizienten des Produktes zweier Potenzreihen.
Beispiel 6.15 (i) Es seien X und Y unabhangige Zufallsvariablen rnit einer Bin(n,p) bzw. Bin(m,p)-Verteilung. Mit Hilfe der Faltungsformel lksst sich die Wahrscheinlichkeitsfunktion der Summe X Y berechnen
+
Dabei haben wir die binomiale Identitat (i) aus Aufgabe 2.1 angewendet. Also hat die Zufallsvariable X Y eine Bin(n m,p)-Verteilung. Dieses Resultat konnen wir rnit folgenden uberlegungen auch intuitiv einsehen. Die Zufallsvariable X zahlt die Erfolge in n unabhangigen Bernoulli-Experimenten rnit Erfolgswahrscheinlichkeit p, und Y ist die Anzahl der Erfolge in weiteren m unabhkngigen Bernoulli-Experimenten rnit derselben Erfolgswahrscheinlichkeit. X + Y zahlt also die Erfolge in (n + m) Experimenten und hat somit eine Bin(n m,p)-Verteilung. Mit vollstandiger Induktion konnen wir diese Aussage erweitern auf eine Summe unabhangiger Bin(mi,p)-verteilter Zufallsvariablen Xi. Die Zufallsvariable S, = CT=l Xi ist dann binomial verteilt rnit Parametern m = CT=l mi und p. Fiir den Sonderfall ml = . . . = m, = 1 ist dies ein weiterer Beweis der bereits bei der Einfiihrung der Binomialvert,eilunggefundenen Tatsache, dass die Summe von n Bernoulli-verteilten Zufallsvariablen rnit Parameter p eine Bin(n,p)-Verteilung hat. (ii) Es seien nun X und Y unabhangige Poisson-verteilte Zufallsvariablen rnit Parameter X bzw. p. Dann hat ihre Summe X + Y die Wahrscheinlichkeitsfunktion
+
+
+
x -,c k
p(k) =
i=O
d.h. X
Xi e-xre
z!
(k - i)!
+ Y ist Poisson-verteilt rnit Parameter X + u.
116
6. Mehrdimensionale Verteilungen
Nach den Summen unabhwgiger Zufallsvariablen wenden wir uns jetzt dem Produkt zu. In diesem Fall gilt die einfache Tatsache, dass der Erwartungswert des Produktes zweier unabhangiger Zufallsvariablen gleich dem Produkt der Erwartungswerte ist.
Satz 6.16 Fur zwei unabhangige Zufallsvariablen X und Y gilt
sofern die Erwartungswerte E X und E Y existieren. Beweis. Es sei p(x, y ) die gemeinsame Wahrscheinlichkeitsfunktion von X und Y . So gilt
da ails Satz 6.12 folgt, dass p x , y ( x ,y) = p x ( x ) .p y ( y ) .
0
Satz 6.17 Far unabhiingige Zufallsvariablen XI,. . . , X n gilt
d.h. die Varianz einer Summe unabhangiger Zufallsvariablen ist gleieh der Summe der Varianzen. Beweis. Fiir 1 5 i # j 5 n gilt wegen der Unabhejlgigkeit und Satz 6.16 E ( ( X i - E X i ) ( X j - EX,)) = E ( X i - E X i ) E ( X j - EX,) = 0. Dann folgt 2
wobei wir an mehreren Stellen die Linearittit des Erwartungswert,es verwendet haben. 0 Nun haben wir das natige Handwerkszeug, um eines der groflen, klassischen Resultate der Wahrscheinlichkeitstheorie darzustellen und zu beweisen.
6.2 Unahhangige Zufallsvariablen
117
Es ist das (schwache) Gesetz der groflen Zahlen. Es sei (Xk)k>l eine Folge unahhzngiger, identisch verteilter Zufallsvariablen (als ~ b k i i r z u nschreihen ~ wir oft u i v . Zufallsvariablen, gelegentlich auch i i d . fiir independent, identically distributed). Wir betrachten die Partialsummen S, := XI . . . X, und die arithmetischen Mittel und berechnen die Erwartungswerte und Varianzen. Fur alle n gilt
+ +
%
E
(3 -
= -(EX1
+ ... + EX,)
= EXl:
%
Es ist also das Zentrum der Verteilung des arithmetischen Mittels gleich dem Erwartungswert einer Einzelheobachtung. Die Varianz ist gleich der Vaist rianz einer Einzelheobachtung, dividiert durch n. Die Verteilung von mit wachsendem n stets mehr in der Umgebung von EX1 konzentriert. Dies kiinnen wir mit Hilfe der Chehychev-Ungleichung noch prkisieren. Fur t > 0 gilt
%
Wir bemerken, dass fiir festes t > 0 der Term auf der rechten Seite gegen 0 lconvergiert. Damit hahen wir den folgenden Satz hewiesen.
Satz 6.18 (Schwaches Gesetz der groflen Zahlen) Es sei eine Folge unahhangiger, identisch verteilter (u.i.v.J Zufallsvariablen mit endlicher Varianz u? Dann gilt fiir alle t > 0
fiir n
+m
Das Attrihut schwach in dem Namen dieses Gesetzes bezieht sich auf die Art der Konvergenz, die auch Konvergenz in Wahrscheinlichkeit genannt wird. Wir werden in Kapitel 12 verschiedene Konvergenzbegriffe systematisch kennenlernen und dann dieses Attribut einordnen konnen.
ubung 6.8 Sei eine Folge unabhangiger Bernoulli-verteilter Zufallsvariablen mit Erfolgswahrscheinlichkeitp. Wir hezeichnen mit S1 die Anzahl der Misserfolge vor dem ersten Erfolg, mit S2 die Anzahl der Misserfolge zwischen dem ersten und dem zweiten Erfolg, und allgemein mit Sr die Anzahl der Misserfolge zwischen dem (k - 1)-ten und dem k-ten Erfolg. Bestimme die gemeinsame Wahrscheinlichkeitsfunktion von S1, . . . ,S, und zeige, dass SI,. . . ,S, stochastisch unabhshgig sind. Bestimme die marginalen Wahrscheinlichkeitsfunktionen.
118
bung
6. Mehrdimensionale Verteilungen 6.9 Es seien X und Y zwei unabhingige Zufallsvariablen mit Werten in
N und den Wahrscheinlichkeitsfunktionen p hzw. q. Zeige, dass
die Wahrscheinlichkeitsfunktion von X . Y ist. Berechne mit dieser Formel die Wahrscheinlichkeitsfunktion des Produktes der Augenzahlen beim 2-maligen unabhingigen Werfen eines unverfalschten Wiirfels.
bung 6.10 Es seien X und Y zwei unabhingige Zufallsvariablen, die beide geometrisch verteilt sind mit Parameter p. Bestimme die Verteilung von X Y.
+
ubung 6.11 Es seien X und Y zwei unabhingige Zufallsvariablen, die negativbinomial verteilt sind mit Parametern r und p bzw. s und p. Bestimme die Verteilung von X + Y. ubung 6.12 Wir ziehen zufallig und ohne Zuriicklegen aus einer Urne, die a weiDe und b schwarze Kugeln enthalt, 2 Kugeln und legen diese dann in die Urne zuriick. Diesen Vorgang wiederholen wir n-mal. Es sei X die Gesamtzahl der weiDen Kugeln von den so gezogenen 2n Kugeln. Bestimme den Erwartungswert und die Varianz von X .
6.3 Bedingte Verteilungen Analog zur Vorgehensweise in Kapitel 3 wenden wir uns nun der Beschreibung von Abhangigkeitseigenschaften in Bezug auf Zufallsvariablen zu. Es seien X und Y zwei Zufallsvariablen. Wenn wir die Realisierung x = X ( w ) bereits kennen und die Zufallsvariablen eben nicht unabhangig sind, so wird diese Information die Wahrscheinlichkeit der moglichen Realisierungen von Y beeinflussen. Es ist nicht mehr die absolute Wahrscheinlichkeit einer Realisierung von Y yon Interesse, sondern die bedingte Wahrscheinlichkeit unter der Voraussetzung, dass X = x. Im nzchsten Abschnitt werden wir noch eine weitere Beschreibung der Abhangigkeit yon Zufallsvariahlen kennenlernen. Definition 6.19 Es seien X und Y diskrete Zufallsvanablen und sei x geauf $ die jeder gehen mit P ( X = x) > 0. Die Wahr~cheinlichkeitsverteilun~g messbaren Teilmenge A C R die Wahrscheinlichkeit
zuordnet, h,ei$t hedingte Verteilung won Y gegeben X = x. Die bedingte Wah,rscheinlichkeitsfunktion won Y gegeben X = x wird definiert durch
und wird oft mit p(y lx) abgekiirzt
6.3 Bedingte Verteilungen
119
Abb. 6.4. Die bedingte Verteilung von Y gegehen X = xo ist die Verteilung der Zufallsvariablen Y, eingeschrankt auf die Teilmenge {X = xo}, versehen mit der bedingten Wahrscheinlichkeit P(.IX = xo).
Bemerkung 6.20 (i) Definition 6.19 kann gleichlautend auch fiir Zufallsvektoren formuliert werden, wobei sogar X und Y Werte in mumen verschiedener Dimension annehmen konnen. (ii) Die bedingte Wahrscheinlichkeitsfunktion ist eine Wahrscheinlichkeitsfunktion in dem Sinne, dass sie die Bedingungen von Satz 4.6 erfullt. Aus px(x) = P ( X = x) > 0 folgt
und aus der Definition der hedingten Wahrscheinlichkeit und Satz 6.5
(iii) Die bedingte Verteilung von Y gegeben X = x wird vollstandig heschrieben durch die bedingte Wahrscheinlichkeitsfunktion p(ylx), denn es gilt
Wenn wir die Zufallsvariable Y, die ja eine Abbildung von LJ auf R ist, beschranken auf die Teilmenge {X = x} C LJ und au£ dieser Teilmenge die WahrscheinlichkeitenP(.IX = x) einfuhren, so hat Y darauf die Wahrscheinlichkeitsfunktion p(y1x). (iv) Wir wollen schon an dieser Stelle darauf hinweisen, dass die Einfiihrung der hedingten Verteilung fiir nicht-diskrete Zufallsvariablen erhehlich aufwendiger ist. Das Problem hesteht darin, dass d a m P ( X = x) = 0 gelten uicht wird und somit die Definition von P ( Y E AIX = x) als P(:(=x";",fA) mehr moglich ist. In Kapitel 9 werden wir fiir stetige Zufallsvariablen noch
120
6. Mehrdimensionale Verteilungen
einen Ausweg finden. Eine allgemeine Definition kann nur rnit Hilfsmitteln der MaBtheorie gegeben werden. Die Beschiftigung rnit dem diskreten Fall bleibt aber auch dann wichtig fur ein intuitives Verstejldnis der bedingten Verteilung.
Tabelle 6.5. Bedingte Wahrscheinlichkeitsfunktionp(ylx) der Augensumme gegeben die Augenzahl beim 1. Wurf, siehe Beispiel 6.21(i)
Beispiel 6.21 (i) Wir werfen 2-ma1 einen unverfiilscbt,en Wiirfel nnd bezeichnen rnit X die Augenzahl beim ersten Wurf und rnit Y die Gesamtaugenzahl beider Wiirfe. In Tabelle 6.5 ist die bedingte Wahrscheinlichkeitsfunktion p(ylx) dargestellt. Wenn wir wissen, dass beim ersten Wurf eine 6 geworfen wurde, so konnen wir die bedingte Verteilung von Y in der letzten Zeile finden. Die bedingte Verteilung ist konzentriert auf 7,. . . ,12, und die Wahrscheinlichkeit jeder dieser Realisierungen von Y gegeben X = 6 ist (ii) Es seien X und Y unabhangige Bin(n,p) bzw. Bin(m,p)-vert,eilte Zufallsvariablen. Dann gilt fiir die bedingte Wahrscheinlichkeitsfunktion von X gegeben X Y = k
i.
+
+
d.h. die Verteilung von X gegeben X Y = k ist eine hypergeometrische Verteilung rnit Parametern (n + m), n und k. (iii) Es seien X und Y unabhangige Poisson-verteilte Zufallsvariablen rnit Parameter X bzw. p. Dann hat X gegeben X Y = n die bedingte Wahrscheinlichkeitsfunktion
+
6.3 Bedingte Verteilungen
121
+
d. h. die Verteilung von X gegeben X Y = n ist eine hinomiale Verteilung mit Parametern n und Zum intuitiven Verstandnis dieses Resultates kiinnen wir uns X und Y als die Anzahl der Druckfehler auf zwei verschiedenen Seiten eines Buches vorstellen. Es sei bereits bekannt, dass X Y , die Gesamtzahl der Fehler, gleich n ist. AnschlieDend stellen wir dann fiir jeden der n Fehler mit einem Bernoulli-Experiment mit Erfolgswahrscheinlichkeit fest, auf welcher Seite dieser Fehler erscheint. A+@
&.
+
"
Fiir zwei unabhhngige Zufallsvariablen X und Y erwarten wir intuitiv, dass Kenntnisse iiber die Realisierung von X uns keine Information iiber die Verteilung von Y liefern. So erhalten wir auch eine neue Charakterisierung fiir Unabhangigkeit, die im nikhsten Lemma formuliert ist. Lemma 6.22 Zwei Zufallsvariablen X und Y sind genau dann unabhiingig, wenn die bedingte Verteilung von Y gegeben X = x nicht von x abhangt.
Beweis. Sind X und Y unabhejlgige Zufallsvariablen, so gilt nach Satz 6.12 PX,Y( 2 ,y) = P X ( X ) P Y ( y ) und somit
H b g t umgekehrt f ( y ) := p(y1x) nicht von x ah, so folgt p x , y ( x , y ) = p x ( x ) f ( y ) ,und damit sind ebenfalls nach Satz 6.12 die Zufallsvariablen X und Y unabhhngig. 0 Definition 6.23 (i) Fur zwei diskrete Zufallsuariablen wird der bedingte Erwartvngswert won Y gegeben X = x definiert durch
(ii) Die bedingte Varianz von Y gegeben X = x wird definiert durch Var(Y1X = x ) := E ( [ Y - E ( Y I X = x)I21X = x ) .
(6.17)
So ist der bedingte Erwartungswert von Y gegeben X = x gleich dem Erwartungswert der bedingten Verteilung und die bedingte Varianz von Y gegeben X = x ist gleich der Varianz der bedingten Verteilung. Diese Uberlegungen
122
6. Mehrdimensionale Verteilungen
sind die Grundlage dafiir, dass wir alle Satze und Identithten, die wir bislang fiir Erwartungswerte und Varianzen bewiesen haben, aucb fiir den bedingten Erwartungswert und die bedingte Varianz von Y gegeben X = x zur Verfiigung haben. Um eine anschauliche Vorstellung vom bedingten Erwartungswert zu erhalten, klinnen wir uns E ( Y I X = x ) denken als den Mittelwert von Y auf der Menge { X = x}. Dabei nehmen wir einen gewogenen Mittelwert mit den auf 1normierten Gewichten
w.
Beispiel 6.24 Fur das 2-malige Werfen eines nnverftilschten Wurfels konnen wir den bedingten Erwartungswert von Y , der Gesamtaugenzahl, gegeben X = x , der Augenzahl beim ersten Wurf, in einer Tabelle darstellen.
Die hier berechneten Werte der bedingten Erwartung konnen wir auch intnitiv einsehen. Wenn wir etwa wissen, dass beim ersten Wurf eine 6 geworfen wurde, dann kiinnen wir als Gesamtaugenzahl6 + E X = 9.5 erwarten.
Abb. 6.5. Die bedingte Erwartung von Y gegeben X ist eine Zufallsvariable, die auf den Teilmengen {X = x } den konstanten Wert E(YIX = x ) hat.
Wir konnen den bedingten Erwartungswert von Y gegeben X = x auch als Funktion von x betrachten, d.h. g(x) = E(YIX = 2 ) . Indem wir diese Funktion mit der Zufallsvariablen X verkniipfen, erhalten wir eine neue Zufallsvariable.
Definition 6.25 Seien X und Y zwei diskrete Zufallsvariablen und g ( x ) := E ( Y I X = 2 ) . Dann heipt die Zufallsvariable g ( X ) die bedingte Erwartung von Y gegeben X , geschrieben E ( Y I X ) . Aufgleiche Weise definieren wir die
6.3 Bedingte Verteilungen
123
bedingte Varianz uon Y gegeben X , gesehrieben Var(YIX), indem wir die Funktion h(x) := Var(Y1X = x) mit der Zufallsuariablen X werknupfen. Als Funktionen auf 0 sind E(Y1X) sowie Var(Y1X) konstant auf den Mengen {X = x) und haben dort den Wert E(YIX = x) bzw. Var(Y1X = x), siehe Abb. 6.5. Satz 6.26 (Satz von der totalen Erwartung) Fur zwei Zufallsvariablen Xund Y gilt
d.h. der Erwartungswert der bedingten Erwartung von Y gegeben X ist gleieh dem Enuartungswert von Y. Beweis. Es sei g(x) = E(YIX = x) und somit E(Y IX) = g(X). Nach Satz 5.3 i t die bedingte Erwartung von und den Anmerkungen zur ~ b e r t r a ~ b a r k eauf Y gegeben X = x gilt
Fur den letzten Schritt haben wir Satz 6.8 angewendet.
0
In dem ohigen Beispiel des Wiirfelexperimentes konnen wir uns die Aussage des Satzes veranschaulichen. Mit Hilfe der Tabelle berechnen wir E(E(Y1X)) = i(4.5 5.5 6.5 7.5 8.5 9.5) = 7, und das ist der Erwartungswert von Y, der Gesamtaugenzahl bei 2 Wiirfen mit einem unverfdschten Wiirfel. Der Satz von der totalen Erwartung gibt uns die Moglichkeit, den Erwartungswert einer Zufallsvariable Y zu berechnen, indem wir eine andere Zufallsvariahle X zu Hilfe nehmen. Dieses Verfahren ist analog zum Satz von der totalen Wahrscheinlichkeit, siehe Satz 3.14. Ein Analogon des Satzes von der totalen Erwartung gilt fur die Varianz, die sich mit dem Erwartungswert der bedingten Varianz und der Varianz der bedingten Erwartung berechnen lasst.
+
+
+
+
+
Satz 6.27 Fur zwei Zufallsvariablen X und Y gilt
Beweis. Wir wenden die Identitkt (5.7) aufgrund der ~ b e r t r a ~ b a r k eauf i t den bedingten Erwartungswert von Y gegeben X = x und die bedingte Varianz von Y gegeben X = x an
124
6. Mehrdimensionale Verteilungen
Wir konnen beide Seiten dieser Gleichung als Funktionen g(x) und h ( x ) betrachten. Von den Zufallsvariablen, die durch Verkniipfung dieser Funktionen mit der Zufallsvariablen X entstehen, berechnen wir jeweils den Erwart,ungswert und erhalten (6.19). 0 Lemma 6.28 SeienX undY Zufallsvariablen, und f : R2 re Funktion. Dann gilt fur xo E R
+ R eine messba-
Sind X und Y unabhtjngige Zufallsvariablen, so gilt fur xo E R
Beweis. Intuitiv konnen wir E ( f ( X ,Y ) I X = x o ) auffassen als Mittelwert von f ( X ,Y )auf der Menge { X = xo), und dann ergibt sich obige Formel aus der Tatsache, dass auf dieser Menge gilt f ( X ,Y ) = f (xo,Y ) . Wir wollen aber einen exakten mathematischen Beweis geben. Es gilt P ( X = x , Y = ylX = $ 0 ) =
fiirxfx~ p(y1xo) fiir x = xo
So folgt mit Satz 6.8, iibertragen auf den bedingten Erwartungswert gegeben X =so,
E ( f ( X , Y ) I X = z o )=
x x
f ( x , y ) P ( X = x , Y = ylX=xo)
"rY
=
~ ( X O , Y ) P ( Y ~ X O= ) E ( f ( x o , Y ) I X= 2 0 ) .
Y
Sind X und Y unabhwgige Zufallsvariablen, so sind auch f ( x o ,Y ) und X 0 unabhangig und es gilt E ( f ( x o ,Y ) I X = xo) = E f (xo,Y ) . Setzen wir in obigem Satz f ( x ,y ) = y , so erhalten wir fiir zwei unabhangige Zufallsvariablen X und Y die Identitat
E(YIX = x ) = E Y , d.h. der bedingte Erwartungswert von Y gegeben X = x ist gleich der (unbedingten) Erwartung. Der folgende Satz, den wir durch Anwendung der obigen uberlegungen beweisen konnen, ist eine diskrete Version des bekannten Satzes von Fubini (Guido Fubini, 1897-1943).
Satz 6.29 Seien X wnd Y unabhangige Zufallsvariablen, f messbare Funktion und sei g(x) := E f ( x , Y ) . Dann gilt
sofern der Erwartungswert uon f ( X ,Y ) existiert
:
R2
+R
eine
6.3 Bedingte Verteilungen
125
Beweis. Die Identitat (6.20) folgt aus Lemma 6.28 zusammen mit dem Satz von der totalen Erwartung. Ein anderer Beweis verwendet die Transformationsformel Satz 6.8 und Satz 6.5 E f ( X > Y= )
C f ( ~ > Y ) P X , Y ( ~ ,=Y )C C f ( ~ > Y ) P Y ( Y p) x ( x ) ( ) = C g ( x ) p x ( x )= W X ) . Z,Y
2
Y
5
Dabei haben wir benutzt, dass die Reihenfolge der Summation fiir absolut 0 konvergente Reihen beliebig vertauscht werden kann. Die Aussage von Satz 5.12 konnen wir auch so interpretieren, dass der Erwartungswert E ( Y ) der beste konstante Vorhersager van Y ist unter der Forderung, die mittlere quadratische Abweichung zu minimieren. Der folgende Satz sagt, dass die bedingte Erwartung von Y gegeben X der beste Vorhersager von Y ist unter allen Funktionen von X . Auch hierbei ist die mittlere quadratische Abweichung das MaB. Im Allgemeinen wird E ( Y 1 X ) keine lineare Funktion sein. Im Ahscbnitt 6.4 uber Kovarianz und Korrelationskoeffizienten werden wir auch einen besten linearen Vorhersager von Y gegeben X = x kennenlernen. Da wir dabei die Menge der maglichen Vorhersager erheblicb einschranken, wird die Vorhersagequalitat i.a. schlecht,er sein. In der Anwendung haben lineare Vorhersager jedoch den groDen Vorteil, dass nicht eine ganze Funktion bestimmt werden muss, sondern nur zwei Parameter.
Satz 6.30 Fur zwei Zufallsuariablen X und Y und jede finktion gilt E ( Y - ip(X))'
> E ( Y - E(Y1X))'
ip : R
+R
(6.21)
und Gleichheit gilt fiir ip(x) = E ( Y I X = x). Beweis. GemaB dem Satz von der totalen Erwartung gilt E ( Y - ip(X))' = E ( g ( X ) ) wobei , g ( x ) := E ( ( Y -ip(X))'IX = x ) . Nach Lemma 6.28 ist weit,er g(x) = E ( ( Y -ip(x))'IX = x ) . Entsprechend ist E ( ( Y - E(Y1X))"X = x ) = E ( h ( X ) ) ,wobei h ( x ) := E ( ( Y - E ( Y IX = x ) ) ' [ X = x ) . Zum Nachweis von (6.21) reicht es nun zu zeigen, dass g ( x ) h ( x ) fiir jedes feste x gilt, d.h.
>
Dies ist aber gerade die Minimumeigenschaft (5.8) des Erwartungswertes, 0 tibertragen auf den bedingten Erwartungswert gegeben X = x. Als weitere Anwendung des Satzes von der totalen Erwartung wollen wir eine Formel von Abraham Wald (1900-1950) tiber den Erwartungswert der Summe einer zufalligen Anzahl von Zufallsvariablen beweisen. Es sei N eine
126
6. Mehrdimensionale Verteilungen
Zufallsvariable rnit Werten in &, und es sei (Xi)i>l eine Folge von Zufallsvariahlen, die alle denselben Erwartungswert habe; und unabhbgig yon N sind. Wir definieren die zufallige Summe
In der Physik betrachtet man das Phanomen, dass yon einer Strahlenquelle N Teilchen ausgesandt werden, von denen jedes einzelne rnit Wahrscheinlichkeit p yon einem Zihler registriert wird und rnit Wahrscheinlichkeit (1-p) unbemerkt bleibt. Setzen wir fiir das i-te Teilchen Xi = 1bzw. X , = 0, je nachdem, oh es registriert wird oder nicht, so ist SN die Gesamtzahl der registrierten Teilchen. In der Versicherungsmathematik treten solche zufalligen Summen als totale Schadenhohe auf, wobei N die Anzahl der Schaden in einem gegebenen Zeitabschnitt ist und Xi die H6he des i-ten Schadens. Wir berechnen nun E ( S N ) ,indem wir zunachst fiir ein festes n den bedingten Erwartungswert E(SNIN = n ) bestimmen. Wegen der Unabhangigkeit von N und X I , Xz, . . . gilt
Den totalen Erwartungswert erhalten wir, indem wir den Erwartungswert der Funktion g(n) := E(SNIN = n ) bestimmen
E ( S N )= E ( g ( N ) )= E ( N . E ( X 1 ) )= E(X1) . E ( N ) .
(6.23)
Dieses Resultat heiDt Wald'sche Identitat.
ubung 6.13 Wir werfen 2-mal einen unverfdschten Wiirfel und bezeichnen rnit X die Augenzahl beim ersten Wurf und rnit Y das Maximum der beiden Augenzahlen. (i) Bestimme die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = k fiir k = 1 , ... ,6. (ii) Bestimme v(k) = E(YIX = k) fiir jedes k und anschlieflend E(v(X)). Vergleiche die beiden Erwartungswerte E(v(X)) und E(Y).
bung 6.14 Eine Quelle sendet eine Poisson(X)-verteilte Anzahl von Teilchen aus, die jeweils rnit einer Wabrscbeinlichkeit p van einem Zibler registriert werden. Bestimme die Verteilung der Anzahl registrierter Teilchen. Zeige, dass die Wald'sche Identitat (6.23) den Erwartungswert korrekt berecbnet. h u n g 6.15 Die Zufallsvariablen X I , . . . ,X, seien unabhangig und Poisson-verteilt mit Parametern XI,. . . ,A,. (i) Bestimme die Verteilung von S, = XI . . . X,. (ii) Bestimme die hedingte Verteilung von ( X I , .. . ,X,) gegeben Sn = s. (iii) Bestimme die bedingte Verteilung van X I gegeben S, = s. (iv) Bestimme die Funktion v(s) = E(XIIS, = s). Berechne E(u(S,)) und vergleiche rnit E(X1).
+ +
6.4 Kovarianz und Korrelationskoeffizient
127
ubung 6.16 Es seien XI,. . . ,X, unabhangige Bernoulli(p)-verteilte Zufallsvariablen. Bestimme die bedingte Verteilung von (XI,. . . ,X,) gegeben XI . .+X, = s. Wie last sich das Resultat intuitiv erfassen?
+.
6.4 Kovarianz und Korrelationskoeffizient In diesem Abschnitt werden wir uns damit beschaftigen, die Abhiingigkeit zweier Zufallsvariablen mit einer linearen Funktion zahlenmaig zu erfassen. Wir werden den Korrelationskoeffizienten definieren und zeigen, wie gut die Abhiingigkeit der Zufallsvariablen durch eine lineare Funktion beschrieben werden kann. Zum intuitiven Erfassen des Problems ist es hilfreich, zunachst eine endliche Grundgesamtheit zu betrachten. Sei zum Beispiel LJ die Gesamtheit aller Haushalte in Deutschland. Mit den beiden Zufallsvariablen X und Y erfassen wir das Jahreseinkommen und die jahrlichen Ausgaben fiir Urlaubsreisen eines jeden Haushaltes. Wenn wir nun die Paare (X(w), Y(w)), w E 0 , in ein Koordinatensystem eintragen, so kijnnen sich mindestens drei qualitativ verschiedene Situationen ergeben. Vom linken zum recht,en Bild nimmt der
Abb. 6.6. Lineare Abhangigkeit zwischen zwei Zufallsvariablen
Zusammenhang zwischen den Zufallsvariablen ab. In der Situation, die im linken Bild dargestellt k t , gibt es eine Gerade y = ax + b durch alle Punkte (X(w)),Y(w)),w E LJ, und somit eine lineare Ahbildung f (x) = ax b mit Y(w) = f (X(w)). Wir kijnnen also aus den Realisierungen der Zufallsvariablen X den Wert der Zufallsvariablen Y berechnen. Dies ist sehr niitzlich, insbesondere dann, wenn die Werte von Y schwer zu messen sind. Wir kijnnen den Y-Wert fehlerfrei vorhersagen, wenn wir den X-Wert kennen. Im mittleren Fall gibt es noch immer einen deutlichen Zusammenhang zwischen den Werten der beiden Zufallsvariablen. GroDe X-Werte gehen einhermit groDen Y-Werten. Wir erkennen eine lineare Abbildung f (x) = ax+b, die den Zusammenhang zwischen den X - und Y-Werten beschreibt. Es gilt zwar nicht mehr Y(w) = f (X(w)), aber die Differenz Y (w)- f (X(w))ist klein.
+
128
6. Mehrdimensionale Verteilungen
Die Bedeutung dieses Zusammenhangs kdnnen wir besser verstehen, wenn wir die Rage bedenken, wie wir eine Realisierung y = Y(w) optimal vorhersagen konnen. Wenn wir ausschlieDlich Informationen iiber eine Zufallsvariable Y haben, so wissen wir nach Satz 5.12, dass der Erwaxtungswert E Y die heste Vorhersage ist in dem Sinne, dass der erwartete quadratische Vorhersagefehler minimiert wird. Haben wir nun aber Informationen iiber den Zusammenhang von Y und einer zweiten Zufallsvariablen X , und kennen wir die Realisierung X(w), so konnen wir Y(w) durch f (X(w)) vorhersagen. Im ersten Fall ist der Vax(Y), im zweiten mittlere quadratische Vorhersagefehler E ( Y - EY)" Fall E ( Y - f (X))'. Ein MaB fiir den Zusammenhang von X und Y sollte diese beiden Vorhersagefehler miteinander vergleichen. Im rechten Bild ist die Gerade, die am besten zu den Daten passt, die Horizontale y = EY. Hier verbessern Informationen iiber die Realisierung X(w) nichts bei der Berechnung bzw. Vorhersage von Y. Definition 6.31 Fiir zwei Zufallsvariablen X und Y definieren wir die Kouan'anz Cov(X, Y) sowie den Kowelation,skoefSizienten px,y durch
Cov(X,Y) := E ( ( X - E X ) ( Y - EY))
(6.24)
Die Zufallsvan'ablen he?pen unkoweliert, wenn px,y = 0 Der Korrelationskoeffizient ist skaleninvaxiant, d.h. f(ir alle X > 0 gilt
Wenn wir also X oder Y in einer anderen Einheit messen, 2.B. in cm anstatt, in mm, so verejldert dies den Korrelationskoeffizienten nicht. Satz 6.32 Es seien X und Y zwei Zufallsvariablen. Dann gilt
Sind X und Y unabhangig, so ist px,y = 0, d.h. die Zufallsvan'ablen sind unkoweliert. Beweis. Identitat (6.26) folgt direkt aus den Definitionen von Kovarianz und Varianz. (6.27) folgt aus der Linearitat des Erwartungswertes. Diese Identitat ist eine Verallgemeinerung der Formel Var(X) = E ( X 2 ) - (EX)' und somit kann der Beweis analog zum Beweis von Satz 5.10 gefiihrt werden. Sind X und Y unabhhgig, so gilt E(XY) = E(X)E(Y) nach Satz 6.16, und damit 0 folgt aus (6.27), dass Cov(X, Y) = 0 und damit auch px,y = 0.
6.4 Kovarianz und Korrelationskoeffizient
129
Satz 6.33 Es seien X und Y zwei Zufallsvariablen mit positiven, endlichen Van'anzen a% und a$. Dann ist E ( Y - a x - b)' minimal fur *
UY
a =P X ax
, Y
und
b' = EY
-
UY
p x , y ~ ~ . ax
Fur den minimalen Wert gilt
Beweis. Fur festes a E R folgt aus Satz 5.12, dass E ( Y - a x - b)' minimal wird fur bX = E ( Y - a x ) = E Y - a E X und
Nun mtissen wir a E R so bestimmen, dass Var(Y - a x ) minimal wird. Dam schreiben wir Var(Y - a x ) um, sodass wir nach a differenzieren kljnnen. Wir verwenden die Definition von Varianz und Kovarianz und mehrfach die Linearitat des Erwartungswertes und erhalten Var(Y - a x ) = E((Y - a x ) - E ( Y - a x ) ) ' = E((Y - EY) - a ( X - EX))' = E((Y - EY)' - 2a(Y - E Y ) ( X - E X ) a 2 ( x -EX)') = E((Y - EY)') - 2aE((Y - EY)(X - E X ) ) U'E((X -EX)') = Var(Y) - 2aCov(X,Y) a2Var(x).
+
+
+
Die Nullstelle der ersten Ableitung liefert uns a* = Cov(X, Y)/Var(X) = =px,y. Mit Hilfe der obigen Identitat kkijnen wir nun auch den minimalen OX Wert berechnen. E(Y - a * X - b*)' = Var(Y - a * X )
Zusammen mit den einfuhrenden Betrachtungen dieses Abscbnittes erkennen wir mit Satz 6.33 den Zusammenhang zwischen der technischen Definition eines Korrelationskoeffizienten und der Frage, die Abhangigkeit zweier Zufallsvariablen mit einer linearen Funktion zahlenmaig zu erfassen. Die in b' ist der beste lineare VorSatz 6.33 bezeichnete Funktion f (2)= a'x hersager fur die Realisierung von Y, wenn bekannt ist, dass X den Wert
+
130
6. Mehrdimensionale Verteilungen
x annimmt. Das Vorzeichen von a' und somit von px,y besagt noch etwas Grundsatzliches uber die Abhagigkeit zwischen X und Y, denn a* ist die Steigung der Geraden. 1st a* positiv, so sind bei zunehmenden X-Werten zunehmende Y-Werte zu erwarten, ist a* negativ, so werden die Y-Werte bei zunehmenden X-Werten kleiner werden. Die Identitat (6.28) besagt, dass der mittlere quadratische Vorhersagefehler um den Faktor (1-p2XSy) kleiner wird gegeniiber dem trivialen Vorhersager EY, wenn wir die Information uber die Realisierung von X nnd den Zusammenhang zu X einbeziehen. Fur eine endliche Grundgesamtheit mit Laplace-Verteilung und moglichen Realisierungen (XI,yl), . . . , (XN,y ~entspricht ) die Aussage von Satz 6.33 der Minimierung von
Die Gerade y = a'x
+ h' heifit auch Kleinste Quadrate Regressionsgerade.
Beispiel 6.34 Ankniipfend an das Beispiel 6.6 aus dem Abschnitt 6.1 kijnnen wir die paarweisen Kovarianzen von Zufallsvariablen Nl, . . . ,Nk berechnen, die multinomial verteilt sind mit Parametern n und pl,. . . ,pk. Wir wissen, dass fiir i # j gilt E(NiNj) = n(n - 1)pipj und dass die Zufallsvariablen Ni eine Bin(n,pi)-Verteilung haben. Also gilt E(Ni) = npi und mit Identitat (6.27) Cov(Ni, Nj) = n(n - l)pipj - npinpj = -npipj
fiir i
# j.
Fur i = j gilt Cov(Ni,Ni) = Var(Ni) = npi(1 - pi). Dass die paarweise Kovarianz eine negative Zahl ist, konnen wir auch intuitiv verstehen, denn je mehr Experimente das Ergebnis i haben, desto weniger Experimente konnen das Ergebnis j haben, weil die Gesamtzahl der Experimente feststeht. Dies ist also ein Beispiel fur einen negativen Zusammenhang. Wir wollen jetzt untersuchen, wie Erwartungswerte und paarweise Kovarianzen eines Zufallsvektors sich unt,er linearen Transformationen verhalten. Dazu ist es zweckmafig, die Erwartungswerte und die paarweisen KovarianZen zu einem Vektor bzw. zu einer Matrix zusammenzufassen. Definition 6.35 Es seien X I , . . . ,X , reellwertige Zufallsuariablen undX := (XI,. . . ,X,)t. Dann heigen
und
Erzuartungswert bzw. Kouarianzmatrix des Zufallsvektors X .
6.4 Kovarianz und Korrelationskoeffizient
131
Satz 6.36 Sei X = (XI,. . . ,Xn)t ein Zufallsvektor mit Erwartungswert E X und Kouan'anzrnatrix Z x und seien A = ( a i j ) ~ ~ i ~ , E, ~ m ~ ~x n~ , sowie b E Rm. Dann gilt E(AX
+ b) = AE(X) + b
(6.29)
. E A ~= + A&At ~ Var(x1
+ . . . + X,)
n
=xvar(Xi)
i=l
+
x
(6.30) Cov(Xi,Xj).
(6.31)
l
Beweis. Die erste Identitat (6.29) folgt direkt aus der Linearitat des Erwartungswertes. Zum Beweis von (6.30) definieren wir die m-dimensionale Zufallsvariable Y durch Y : = A X + b. Dann gilt
=E
(
(
))
E ( x k ) ) ) (?aj1(~1 1=1 ~ ( ~ 1 ) )
Die letzte Identitat ist ein Spezialfall von (6.30), wobei m = 1 und A = (1,. . . ,lit. 0 Identitat (6.31) zeigt, dass keine Linearitat fiir Varianzen bei beliebigen Zufallsvariablen gilt. Linearitat gilt nur unter der Voraussetzung, dass die Zufallsvariablen paarweise unkorreliert sind. Fur unabhangige Zufallsvariablen haben wir im Satz 6.17 die Linearitat der Varianz bewiesen und dies fur den Beweis des schwachen Gesetzes der groBen Zahlen verwendet. Nach der Einfuhrung des Begriffes der Kovarianz konnen wir nun die Bedingungen fur die Aussage des schwachen Gesetzes der groBen Zahlen abschwachen. Wir benotigen nur, dass die Zufallsvariablen unkorreliert sind. Die Identitat (6.31) liefert eine hilfreiche Moglichkeit, die Varianz einer Zufallsvariablen zu berechnen, die wir als Summe einfacher Zufallsvariablen schreiben konnen. Als Anwenduug dieser Idee werden wir nun auf eine zweite Weise die Varianz einer hypergeometrisch verteilten Zufallsvariablen und die Varianz der matching-Verteilung berechnen.
Beispiel 6.37 (i) Sei X eine hypergeometrisch verteilte Zufallsvariable mit Parametern N, R und n. Wir haben die hypergeometrische Verteilung kennengelernt bei den Urnenmodellen. X gibt die Anzahl der roten Kugeln in
132
6. Mehrdimensionale Verteilungen
einer Stichprobe vorl n Kugeln an, die aus einer Urne mit R roten und ( N - R) weiDen Kugeln ohne Zuriicklegen gezogen werden. Nun schreiben wir X = X1 + . . . + X,, mit Xi = la, fur i = 1,. . . ,n, wobei Ai das Ereignis ist, dass bei der i-ten Ziehung eine rote Kugel gezogen wird. Die i-te marginale Verteilung von X = (XI,. . . ,X,), d.h. die Verteilung von Xi, ist eine Bernoulli-Verteilung mit Erfolgswahrscheinlichkeit $ und somit gilt E(Xi) = und Var(Xi) = AuDerdem gilt fur i # j
s(1 5).
5
E(XiXj) = E(X1Xz) = ~ ( l. l A ~z )= , P( 1. und 2. Kugel rot) =
R(R - 1) N ( N - 1) '
wobei die erste Identitat aufgrund von Symmetrieeigenschaften gilt. Es hat namlich jede Permutation von X I , . . . , X, dieselbe Verteilung. Nun konnen wir mit Satz 6.32 die Kovarianzen berechnen
und mit der Identitat (6.31) die Varianz von X
Dieses Resultat stimmt uberein mit der direkten Berechnung der Varianz einer hypergeometrischen Verteilung in Beispiel 5.14. Aus den obigen Berechnungen erhalten wir auch die Korrelationskoeffizienten. Sie lassen sich leicht berechnen, da Var(Xi) = Var(Xj) = $(I - $), und damit folgt
Wenn wir also wissen, dass bei der 1. Ziehung eine rote Kugel gezogen wurde, dann bleiben fiir die 2. Ziehung weniger rote Kugeln in der Urne und so sinkt, die Wahrscheinlichkeit bei der 2. Ziehung eine rote Kugel zu ziehen. Dies erkl8j.t das negative Vorzeichen des Korrelationskoeffizienten. Weiter nimmt
6.4 Kovarianz und Korrelationskoeffizient
133
die paarweise Korrelation der Zufallsvariablen Xi,Xj ab, d.h. die AbhBngigkeit der einzelnen Ziehungsergebnisseuntereinander. Bei einer groBen Anzahl von Kugeln in der Urne macht es kaum einen Unterschied, ob wir rnit oder ohne Zurucklegen ziehen. Dies zeigt uns der kleiner werdende Korrelationskoeffizient. (ii) Wir wollen nun die Varianz der Anzahl der Fixpunkte einer zufalligen Permutation von 1,.. . ,N bestimmen, d.h. die Varianz der matching-Verteilung. Wir schreiben wieder X = X1 +. . .+XN, wohei Xi = lai und A idas Ereignis ist, dass i ein Fixpunkt ist. Dann sind die Zufallsvariablen Xi Bernoulli($)verteilt und somit
= P ( i und j sind Fixpunkte) =
1 ( N - Z)! N! N ( N - 1)'
Mit Satz 6.32 kijnnen wir so die Kovarianzen herechnen
und rnit der Identitat (6.31) die Varianz von X
Wir hatten bereits im Satz 4.10 bemerkt, dass die Verteilung von X gegen eine Poisson-Verteilung rnit Parameter 1 konvergiert, und wir hatten auch den Erwartungswert von X berechnet, E X = 1. Da die Poisson(1)-Verteilung Varianz 1 hat, war zu erwarten, dass die Varianz von X fiir N + m gegen 1 konvergiert. Obige Berechnungen haben nun gezeigt, dass sogar Var(X) = 1 fiir alle N gilt. Am Ende dieses Abschnitts beschiiftigen wir uns noch rnit einer nach Augustin Louis Cauchy (1789-1857) und Hermann Amandus Schwarz (18431921) benannten Ungleichung. Den meisten Lesern wird die Cauchy-Schwarz Ungleichung in der Form I < x,y > I 5 llxll. llyll fur Vektoren x , y in einem Euklidischen Raum rnit dem inneren Podukt < .,. > und der Norm bekannt sein. Wir haben nun den Raum aller Zufallsvallxll = riablen rnit E ( X 2 ) < w, auf dem ein inneres Produkt defiuiert ist dnrcb < X , Y >= E ( X . Y) Die Euklidische Norm einer Zufallsvariablen X in So hat die Cauchydiesem sogenannten La-Raum ist dann IlXll = Schwarz Ungleichung in Innenproduktraumen fiir Zufallsvariablen folgende Form.
Jm
m.
134
6. Mehrdimensionale Verteilungen
Satz 6.38 (Cauchy-Schwarz Ungleichung) Fiir Zufallsuariablen X und Y mit E ( X 2 ) < oo und E ( Y 2 )< m gilt
Gleiehh,eit gilt genau, dann, wenn es a , b E R, nieht beide = 0, mit aX+bY = 0 gibt, d.h. wenn X und Y linear abhangig sind mit Wahrscheinliehkeit 1. Beweis. Wir kannen 0.B.d.A annehmen, dass X # 0, da sonst (6.32) trivialerweise gilt. Wir betrachten die Funktion f ( a ) := E(Y - a x ) ' . Es gilt f ( a ) 2 0 und wir konnen rnit der Linearitat des Erwartungswertes umformen zu f ( a ) = E ( Y 2 )- 2 a E ( X Y ) + a 2 E ( X 2 ) . Die Nullstelle der 1. Ableitung f f ( a ) = - 2 E ( X Y ) 2 a E ( X 2 )liefert uns das Minimum a = ES folgt,
+
m.
und somit ( E ( X Y ) ) 25 E ( X 2 ) E ( Y 2 ) Das . Ziehen der Wurzel liefert (6.32). Auflerdem gilt f (b) = 0 genau dann, wenn es ein b gibt, sodass E ( Y - bX)' = 0,also Y = b X , d.h. X und Y sind linear abhhgig. 0 Nun wenden wir die Cauchy-Schwarz Ungleichung auf die Zufallsvariablen ( X - E X ) und (Y - E Y ) an und erhalten folgende wichtige Ungleichung fiir Kovarianzen.
Korollar 6.39 Es seien X , Y Zufallsvariablen mit endlichen Varianzen. Dann gilt
Dabei gilt die Gleiehheit genau dann, wenn es a , b, e E R gibt, nicht alle = 0 , sodass a x bY e = 0 mit Wahrseheinlichkeit 1. Weiter gilt
+ +
und IpxJ a x bY
= 1 genau dann, wenn es a , b,e E R gibt, nicht alle = 0,sodass
+ + c = 0 mit Wahrseheinlichkeit 1.
Wir konnen (6.34) auch direkt aus der Identitat (6.28) herleiten. Die linke Seite von (6.28) ist nicht-negativ und so muss gelt,en p$,y 5 1, denn die Varianz ist stets nicht-negativ. AuDerdem gilt p$,y = 1 genau dann, wenn die linke Seite von (6.28) gleich 0 ist, und das heilk, dass Y = a * X b*.
+
ubung 6.17 Aus einer Urne rnit n weisen, b schwarzen und c roten Kugeln ziehen wir zufdlig und ohne Zuriicklegen n Kugeln und bezeichnen rnit X die Anzahl der weisen und rnit Y die Anzahl der schwarzen Kugeln in der Stichprobe. Weiter definieren wir die Zufallsvariablen X; und Y , durch
6.5 Aufgaben X, :=
135
1 wenn die i-te gezogene Kugel we8 ist 0 wenn die i-te gezogene Kugel nicbt we8 ist 1 wenn die i-te gezogene Kugel schwarz ist 0 wenn die i-te gezogene Kugel nicbt schwarz ist
Berechne Cov(X;, Y<)und E(XY)
bung 6.18 Berechne Kovarianz und Erwartungswert der in ubung 6.17 definierten Zufallsvariablen unter der Voraussetzung, dass rnit Zuriicklegen gezogen wird. Vergleiche dieses Ergebnis rnit der allgemeinen Formel fiir die Kovarianz multinomial verteilter Zufallsvariablen. bung 6.19 Es seien (XI,y ~ ). ,. . , (xn,y.) Punkte im zi, 1/ := C:=l yi. Mittelwerte 2 := Cy=n=,
k
(i) Zeige, dass Cr=,(xi - 2)' = C:=, C:=, xiyi - nzy. (ii) Zeige, dass fiir
w',
und wir definieren die
x: - n(2)' und C:=,(xi
- Z)(yi - y) =
gilt lpl 5 1 und suche Bedingungen fur lpl = 1. (iii) Bestimme a* und b', sodass C:=,(y, - a*xi - b')' minimal wird. (iv) Zeige, dass C;='=,(yi- a'xi - b*)' = (1- p2) C;=,(yi - y)'. (Hinweis: Diese ubung lasst sich ohne grotlen Rechenaufwand bearbeiten, indem man den Zufallsvektor ( X , Y ) einfiibrt, der rnit Wahrscheinlichkeit einen der Werte (xi, yi) annimmt.)
bung 6.20 Wir betrachten ein Wiirfelexperiment, hei dem 2-ma1 unabbshgig ein unverfalscbter Wiirfel geworfen wird, und bezeichnen rnit X die Augenzahl beim ersten Wurf und rnit Y die Augensumme beider Wiirfe. Berechne Cov(X, Y) und p x , und ~ bestimme den besten linearen Vorhersager der Form a X b fiir Y.
+
bung 6.21 Wir werfen 2-mal einen unverfdschten Wiirfel und bezeichnen rnit X und Y die kleinere bzw. die grotlere Augenzabl. Berecbne Cov(X,Y) und p x , ~ und bestimme den besten linearen Vorhersager der Form a X b fiir Y.
+
bung 6.22 Es seien X und Y zwei unabhshgige Zufallsvariablen. Berechne Cov(X, X Y) und px,x+y und bestimme den besten linearen Vorhersager der FormaX+bfiirX+Y.
+
bung 6.23 Sei X eine diskrete Zufallsvariable rnit einer symmetriscben Verteilung (d.h. P ( X = x) = P ( X = -2.)). Zeige, dass dann X und Y := X 2 unkorreliert sind und dass sie nicbt unabhkgig sind.
6.5 Aufgaben Aufgabe 6.1 Wir betrachten die Anzahl der Kinder in einer Familie als Poisson(X)-verteilt, und wir nehmen weiterhin an, dass jedes Kind rnit gleicher Wahrscheinlichkeit ein Junge oder ein Madchen ist. Wir bezeichnen rnit
136
6. Mehrdimensionale Verteilungen
X und Y die Anzahl der Mildchen bzw. Jungen in einer Familie. (i) Bestimme die Verteilung von X . (ii) Berechne E X auf zwei Weisen, rnit Hilfe von (i), und rnit der Wald'schen Identitat (6.23). (iii) Bestimme die gemeinsame Verteilung von X , Y. Sind die Zufallsvariablen X und Y unabhilngig? Aufgabe 6.2 Es sei (Xi)i>l eine Folge unabhangiger Zufallsvariablen rnit demselhen ~rwartun~swert-und N eine Zufallsvariable rnit Werten in K . Es gelte fur alle n E K , dass 1 1 ~ = , )unabhangig ist von Xn+l, X,+z,. . . . Zeige
E
(,ZX, Il )
= (EN)(EXl).
(Dies ist die allgemeine Formulierung der Wald'schen Identit,at.) Aufgabe 6.3 Wir betrachten das folgende Gliicksspiel. Ein unverf8lschter Wiirfel wird solange geworfen, his das erste Mal eine 6 geworfen wird. AnschlieDend an jeden Wiirfelwurf wird eine unverfalschte Munze solange geworfen, his das erste Ma1 ,Kopf erscheint. Am Schluss des Spiels wird ein Gewinn ausgezahlt, der sich nach der Gesamtzahl X der Miinzwiirfe, bei denen ,Zahl' erschien, richtet. Bestimme die Verteilung von X und den Erwartungswert E(X). Aufgabe 6.4 Wir betrachten ein Gliicksspiel, bei dem ein unverfdschter Wtirfel zunachst einmal geworfen wird. Wir haben dann die Wahl, uns die gewiirfelte Augenzahl in Euro auszahlen zu lassen oder ein weiteres Ma1 zu wiirfeln und uns diese zweite gewurfelte Augenzahl auszahlen zu lassen. Welche Strategie fiihrt zur maximalen erwarteten Auszahlung? Aufgabe 6.5 Eine Anzahl n voneinander unterscheidbarer Kugeln wird zufallig auf N Zellen verteilt. Wir bezeichnen rnit X die Anzahl der leergebliebenen Zellen. Berechne den Erwartungswert sowie die Varianz von X. Aufgabe 6.6 Zeige, dass eine Kovarianzmatrix positiv semidefinit und symmetrisch ist. Aufgabe 6.7 Es seien X I , . . . ,X, unabhangige, identisch verteilte Zufallsvariablen rnit Werten in N und Wahrscheinlichkeitsfunktion p(k) = &. Bestimme P(X1 2 k), P(max(X1,. . . ,X,) 2 k) und die Wahrscheinlichkeitsfunktion von M, = max{X1,. . . ,X,). Zeige, dass P(M, > X . n) fiir jedes X > 0 konvergiert und bestimme den Grenzwert.
7. Analytische Methoden
Mil Wahrscheinlichkeitsverteilungen lass1 sich nur schwer rechnen. Bereits bei der Bestimmung der Verteilung einer Summe von zwei unabhangigen Zufallsvariablen haben wir es mil dem komplizierten Faltungsprodukt zu tun. An dieser Stelle helfen manchmal analytische Methoden. Indem wir eine Abbildung von Wahrscheinlichkeitsverteilungen auf geeignete reell- o d e ~komplexwertige Funktionen auf R definieren, konnen wir uns die Ergebnisse der Analysis nutzbar machen. In diesem Kapitel werden wir zwei solcher Abbildungen vorstellen und an wichtigen Anwendungen diese neuen Moglichkeiten veranschaulichen.
7.1 Die erzeugende Funktion Die erste Abbildung definieren wir fiir diskrete, NO-wertigeZufallsvariahlen bzw. deren Verteilungen.
Definition 7.1 Es sei X eine Zufallsvariable n i t Werten in No und der Wahrscheinlichkeitsfunktion pk = P ( X = k ) , k E No. Dann heijlt die Funktion
definiert im Konuergenzbereich der Potenzreihe C E o p k t k , die erzeugende Funktion van X bzw. van der Verteilung uon X . Wir schreiben auch kurz g ( t ) , wenn eindeutig ist, auf welche Zufallsuariable wir uns heziehen. Die erzeugende Funktion einer Wahrscheinlichkeitsverteilung ist stets mindestens im Interval1 [-I, 11 definiert, denn es gilt fiir t E [-I, 11
d.h. die Reihe CEopktk konvergiert dort absolut. Allgemeiner konnen wir jeder Folge (ak)k>oreeller oder komplexer Zahlen ihre erzeugende Funktion g(t) = aktkiuordnen. In dieser allgemeinen
CEO
138
7. Analytische Methoden
Betrachtung ist die erzeugende Funktion einer Zufallsvariablen X dann die erzeugende Funktion der Folge ( P ( X = k))k>o. Erzeugende Funktionen beliebiger Folgen spielen unter anderem eine wisentliche Rolle bei der Losung linearer Differenzengleichungen. Beispiel 7.2 (i) Die erzeugende Funktion einer Bin(n,p)-verteilten Zufallsvariablen X ist gegehen durch
wobei wir die Newton'sche Binomialformel angewendet haben. Da fiir n = 1 die Bin(n,p)-Verteilung eine Bernoulli(p-Verteilung ist, erhalten wir sofort, dass
die erzeugende Fnnktion einer Bernoulli(p-verteilten Zufallsvariablen ist. (ii) Die erzeugende Funktion einer Poisson(X)-verteilten Zufallsvariablen X ist gegeben durch
wobei wir die Reihenentwicklung der Exponentialfunktion verwendet hahen. (iii) Es sei X negativ-binomial verteilt mit Parametern r und p. Dann gilt
wobei wir die Summenformel fur die negativ-binomiale Reihe verwendet haben (Lemma 4.7). Da ftir r = 1 die negativ-hinomiale Verteilung eine geometrische Verteilung mit Parameter p ist, erhalten wir sofort, dass
die erzeugende Funktion einer geometriscb verteilten Zufallsvariablen ist. Die erzeugenden Funktionen aus (i) und (ii) sind auf ganz R definiert, die letzte dagegen nur im Interval1 [- i , i ) . Im folgenden Satz haben wir einige elementare Eigenschaften von erzeugenden Funktionen zusammengestellt, auf die wir dann in den Anwendungen leichter zuruckgreifen konnen.
7.1 Die erzeugende Funktion
139
Satz 7.3 Es sei X eine Zufallsvariable mit Werten in NO und g x die erzeugende Funktion won X . Dann gilt (i) g x ist nicht-negatiw, monoton steigend und konvex auf [O, m), (ii) g g x ( 0 ) = k!ph = k! P ( X = k), k E &; insbesondere gx(0) = po, (ii?, g x (1) = 1 und $gx (1) = E ( X ) , (iw) gx(t) = E(tX). Beweis. Durch k-faches Differenzieren der Potenzreihe gx(t) = C E o p k t k erhalten wir
Diese Funktion ist fiir alle k = 0 , l . . . nicht-negativ auf [O, oo). Inshesondere sind die ersten heiden Ableitungen von g x nicht-negativ und somit ist g x monoton steigend und konvex. Wenn wir in (7.2) t = 0 einsetzen, so erhalten wir die erste Aussage unter (ii); die zweite Aussage erhalten wir fiir k = 0. Fiir t = 1 gilt gx(1) = C E 0 p k = 1. Ftir k = l , t = 1 erhalten wir aus (7.2)
womit auch (iii) bewiesen ist. Zum Beweis von (iv) wenden wir die Transformationsformel Satz 5.3 auf u(x) = t" fiir festes t an und erhalten dann 0 E(tX)= tkpk = gx(t). Beispiel 7.4 Mit Aussage (iii) des ohigen Satzes konnen wir den Erwartungswert einer Zufallsvariablen aus ihrer erzeugenden Funktion herechnen. So erhalten wir zum Beispiel fiir eine Bin(n,p)-verteilte Zufallsvariahle aus gx(t) = (1 + p ( t - l ) ) n die hekannte Formel E ( X ) = gk(1) = np.
CEO
Mit Hilfe der in Satz 7.3W Pewonnenen Formel kiinuen wir aus der erzeugenden Funktion einer Zufallsvariablen ihre Wahrscheinlichkeitsfunktion berechnen. Die Abbildung, die jeder Verteilung ihre erzeugende Funktion zuordnet, ist also injektiv. Damit haben wir den Beweis des folgenden wichtigen Satzes geliefert. \
,
-
Satz 7.5 Es seien X und Y zwei No -wertige Zufallswariahlen m.it identischer erzeugender Funktion. Dann haben beide Zufallsuariablen auch dieselbe Verteilung. Wir wollen nun eine Formel fiir die erzeugende Funktion einer Summe unabhangiger Zufallsvariablen angeben.
Satz 7.6 Es seien X I , . . . ,X, unabhangige, No -wertige Zufallswariablen mit zugehdrigen erzeugenden Funktionen gx,, . . . ,gx,, . Dann hat ihre Summe S, = XI . . . X, die erzeugende finktion
+ +
140
7. Analytische Methoden
d.h. die erzeugende finktion einer Summe unabhangiger Zufallsvariablen ist gleich dem Produkt der erzeugenden Funktionen. Beweis. Wenn wir diese Aussage fiir zwei Zufallsvariablen X und Y zeigen, dann folgt die Aussage fiir beliebiges n E N durch vollstandige Induktion. Aus Satz 7.3(iv) und Satz 6.16 folgt
Wir geben noch einen zweiten Beweis, der an die Ausfuhrungen im Anschluss an den Beweis von Satz 6.14 ankniipft. Fur NO-wertigeZufallsvariablen X und Y konnen wir die zugeharigen Wahrscheinlichkeitsfunktionen mit den Folgen (pk)k20bzw. (qk)k20identifizieren. Die erzeugenden Funktionen sind qktk, und das Produkt dieser beiden gx(t) = C z o p k t k und gy(t) = Potenzreihen ist wieder eine Potenzreihe, fur die gilt
CEO
Die Koeffizienten r k sind dabei gegeben durch das Faltungsprodukt r k = ~ : = ~ ~ ~ In Satz ~ m 6.14 - ~haben . wir bewiesen, dass (vk)oOgerade die Wahrscheinlichkeitsfunktion der Summe X + Y ist. Also ist die rechte Seite der 0 Identitat (7.3) die erzeugende Funktion von X Y.
+
Fur unabhangige, No-wertige Zufallsvariablen konnen wir unter Anwendung der letzten beiden Satze nun die Verteilung der Summe bestimmen. Mit Satz 7.6 lasst sich die erzeugende Funktion der Summe von unabhangigen Zufallsvariablen berechnen und nach Satz 7.5 bestimmt diese eindeutig die Verteilung. Beispiel 7.7 (i) Sei X 1 die Augenzahl beim einmaligen Wurf mit einem unverfdschten Wiirfel. Dann gilt
+
+
Fur S, = XI . . . X,, die Augensumme bei n unabhangigen Wurfen, erhalten wir mit Satz 7.6 die erzeugende Funktion
Nach Ausmultiplizieren erhalten wir als Koeffizienten von tk die Wahrscheinlichkeit der Augensumme k bei n Wtirfen mit einem unverf&lschten Wiirfel. Moderne Computeralgebraprogramme wie MATHEMATICA bewaltigen das
7.1 Die erzeugende Funktion
141
InC11:= SumCt^k,Ck,1,6>1/6 2 3 4 5 6 t + t + t + t + t + t Out[l]= .......................... 6 InC21:= ExpandC%l-21 2 3 4 5 6 9 10 11 12 7 8 t t t t 5 t t 5 t t t t t 0ut[2]= -- + -- + -- + -- + ---- + -- + ---- + -- + --- + --- + --36 18 12 9 36 6 36 9 12 18 36 InC31:= Expandmi-31 9 10 11 3 4 5 6 7 8 t t t 5 t 5 t 7 t 25t t t Out[J]= --- + -- + -- + ---- + ---- + ---- + ----- + --- + --- + 216 72 36 108 72 72 216 8 8 12 13 14 15 16 17 18 t t 25 t 7 t 5 t 5 t t
>
-----216
+
----72
+
----72
+
-----
+
108
--36
+
---
72
+
--216
Tabelle 7.1. MATHEMATICA-Programm zur Berechnung der erzeugenden Funktion der Augensumme bei 2 und hei 3 Wiirfen mit einem unverfalschten Wiirfel
Ausmultiplizieren im Bruchteil einer Sekunde, siehe Tahelle 7.1. Jetzt kiinnen wir durch Koeffizientenvergleich die Wahrscheinlichkeitsfunktionen fiir die Augensumme hei n = 2 und n = 3 Wiirfen mit einem unverfalschten Wiirfel ahlesen. (ii) Wir hahen in Beispiel 7.2(i) gezeigt, dass die erzeugende Funktion einer Bernoulli-verteilten Zufallsvariahlen gegehen ist durch gx(t) = 1+ p ( t - 1). Satz 7.6 liefert nun direkt die erzeugende Funkt,ion fiir die Summe S, von n unahhangigen, Bernoulli-verteilten Zufallsvariahlen ss,(t) = (1+ p ( t Dies ist die erzeugende Funktion einer Bin(n,p)-Verteilung und wir erhalten so einen kurzen Beweis der bereits in Beispiel 6.15(i) hergeleiteten Tatsache, dass die Summe von n unabhangigen, Bernoulli-verteilten Zufallsvariahlen binomial verteilt ist. (iii) Auch bier kniipfen wir am Beispiel 7.2(ii) an. Sind X und Y unahhangige, Poisson-verteilte Zufallsvariahlen mit Parametern X hzw. b, so hat X + Y die erzeugende Funktion gx+y(t) = ex(t-l)eL'(t-l)
= e(A+')(t-l),
und dies ist die erzeugende Funktion einer Poisson-Vert,eilungmit Parameter X + b. So haben wir auch bier einen kurzen Beweis der bekannten Tatsache, dass die Summe zweier unahhangiger, Poisson-verteilter Zufallsvariahlen eine Poisson-Verteilung hat, deren Parameter die Summe der Einzelparameter ist, siehe Beispiel 6.15(ii).
142
7. Analytische Methoden
(iv) Es seien X und Y unabhejlgige Zufallsvariablen rnit negativ-binomialer Verteilung rnit Parametern r und p bzw. s und p. Mit Beispiel 7.2(iii) ist dann die erzeugende Funktion ihrer Summe gegeben durch
welches die erzeugende Funktion einer negativ-binomialen Verteilung rnit Parametern r s und p ist. Dass die Summe zweier unabhangiger, negativ-binomial verteilter Zufallsvariablen rnit identischen zweiten Parametern wieder negativ-binomial verteilt ist, l h s t sich auch wahrscheinlicbkeitstheoretisch begriinden. Wir betrachten dazu eine Folge unabhejlgiger Bernoulli-Experimente rnit Erfolgswahrscheinlichkeit p und bezeichnen rnit X und Y die Anzahl der Misserfolge vor dem r-ten bzw. zwiscben dem r-ten und ( r s)-ten Erfolg. Diese Zufallsvariablen sind unabhangig und jeweils negat,iv-binomial verteilt rnit Parametern r und p bzw. s und p, siehe ubung 6.8. Ihre Summe ist gerade die Anzahl der Misserfolge vor dem (r s)-ten Erfolg und hat damit eine negativ-binomiale Verteilung rnit Parametern r s und p.
+
+
+
+
Im Zusammenhang rnit der Wald'schen Formel haben wir bereits zufallige Summen SN= X1 + . . . + X N betrachtet, wobei N eine &-wertige Zufallsvariable ist, siehe Identitat (6.22). Bei der Bestimmung der Verteilung einer solchen zufalligen Summe sind die erzeugenden Funktionen ein unverzichtbares Hilfsmittel. Satz 7.8 Seien N und X1, X2,. . . unabhiingige Zufallsvariablen mit Werten in No. Wenn alle Xi dieselbe Verteilung haben, und damit auch dieselbe erzeugende Funktion gx, so hat SN:= Xi die erzeugende Funktion
zL1
Beweis. Mit Satz 7.3(iv) erhalten wir
Da N unabhangig ist von der Folge (Xi)i2l, konnen wir die bedingte Erwartung von tX'+...+XN gegeben N = n nach Lemma 6.28 und Satz 7.6 wie folgt berechnen
Wir wenden nun den Satz von der totalen Erwartung an und erhalten
7.1 Die erzeugende Funktion
143
Zusatzlich geben wir noch einen direkten Beweis, indem wir znnachst die Wahrscheinlichkeitsfunktion von SN berechnen
Wenn wir dies in die Definition der erzeugenden Fnnktion einsetzen, erhalten wir
0
womit der Satz bewiesen ist.
Beispiel 7.9 Bei einem Gliicksspiel wird ein unverfalschter Wtirfel geworfen und anschlieflend gemBB der geworfenen Augenzahl eine unverfitlschte Munze. Wir bezeichnen mit N die Augenzahl beim Wiirfelwurf und mit S die Anzahl der Munzwiirfe mit dem Ergebnis ,Kopf bei den N Munzwurfen. Wir fragen nach der Verteilung von S. Definieren wir die Bernoulli-verteilten Zufallsvariablen Xiwie folgt 1 wenn beim i-ten Munzwurf ,Kopf erscheint 0 sonst,
c:, Xi.Die erzeugende Funktion von X iist gerniifi Beispiel 7.2(i) + pt und die erzeugende Funktion von N ist
so gilt S = gx,( t ) = 1 - p
k=1
"
Also hat S mit Satz 7.8 die erzeugende Funktion
144
7. Analytische Methoden
wobei wir im letzten Schritt die Summationsreihenfolge gehndert haben. Durch Koeffizientenvergleich erhalten wir die Wahrscheinlichkeitsfunktion von S
ubung 7.1 Angenommen, wir hahen eine Strahlungsquelle, die pro Stunde eine Poisson(h)-verteilte Anzahl Teilchen emittiert. Jedes Teilchen wird mit Wahrscheinlichkeit p von einem Detektor registriert. Bestimme die erzeugende Funktion fiir die Anzahl der registrierten Teilchen und die zugehorige Verteilung. ubung 7.2 Es seien X I , . . . , X , unabhhgige, identisch verteilte Zufallsvariablen mit einer Laplace-Verteilung auf {0,1,2). Bestimme die erzeugenden Funktionen von Xi und S,, = XI + . . . + X,. Berechne die Wahrscheinlichkeitsfunktion von S2, S3, S 4 und zeichne die zugehorigen Stahdiagramme. ubung 7.3 Es wird eine Bin(n,p)-verteilte Anzahl unabhhgiger Bernoulli-Experimente ausgefiihrt. Die Bernoulli-Experimente hahen die Erfolgswahrscheinlichkeit r. Berechne die erzeugende Funktion und die Verteilung fiir die Anzahl der Erfolge und gib eine intuitive Interpretation des Ergehnisses.
7.2 Der Galton-Watson Prozess Um 1873174 studierten in England der Pastor Henry William Watson (18221911) und der Naturwissenschaftler Sir Francis Galton (1827-1903) das Aussterben beriihmter Familiennamen. Aufgrund des damals geltenden Namensrechts beschaftigten sie sich mit der Frage nach den mhnlichen Nachkommen eines Urvaters. Die Generationenfolge lasst sich gut in einem sich verzweigenden Baum darstellen, siehe Abb. 7.1. Manchmal bricht ein solcher Baum nach einigen Generationen ab, und manchmal scheint er ohne Ende zu wachsen. Pastor Watson fragte sich, wie groD die Wahrscheinlichkeit ist, dass ein Familienname ausstirbt. Um eine Antwort auf diese Rage zu finden, iiberlegte Pastor Wat,son sich ein stochastisches Model1 fur die Anzahl der mannlichen Nachkommen in der n-ten Generation. Bei der Analyse seines Prozesses kam er dann zu dem pessimistischen Ergebnis, dass Familiennamen mit Wahrscheinlichkeit 1 aussterben. Spater stellte sich dann heraus, dass er einen Fehler bei seinen Berechnungen gemacht hatte, der durch Galton korrigiert wurde. In dem Model1 yon Watson wird eine Zufallsvariable Z, definiert, die die Anzahl der mknlichen Familienmitglieder in der n-ten Generation angibt. In der 0-ten Generation entspricht dies dem Urvater, und somit ist Zo = 1. Weiterhin werden Zufallsvariablen X,,i eingeftihrt, die die Anzahl der Sljhne des iAen Gliedes der n-ten Generation bezeichnen. Es ist Teil des Modells,
7.2 Der Galton-Watson Prozess
145
Abb. 7.1. Eine mogliche Realisierung des Galton-Watson Prozesses
dass diese Zufallsvariablen unabhangig und identisch verteilt sind rnit Wahrscheinlichkeitsfunktion pk = P(XnXi= k). Da die Anzahl der mannlichen Familienmitglieder der n-ten Generation gerade die Anzahl der Sahne der Manner der (n - 1)-ten Generation ist, gilt folgende Rekursionsformel
Durch (7.4) und den Anfangswert Zo = 1wird eine Folge von Zufallsvariablen (Z,),?O definiert, die man den Galton-Watson Prozess oder Verzweigungsprozess nennt. An dieser St,elle begegnen wir zum ersten Mal einem stochastischen Prozess, der allgemein definiert ist als indizierte Menge ( X t ) t E von ~ Zufallsvariablen. Die Indexmenge T ist meist & oder R und wir denken dann bei dem Parameterwert oft an Zeit. Die Beschafiigung rnit Verzweigungsprozessen spielt heutzutage eine wichtige Rolle bei der Modellierung von Kettenreaktionen in der Kernphysik. Fiir eine fiiedliche Anwendung geht es dann in erster Linie darum, dass der Prozess nicht unkontrolliert wachst. Wir berechnen nun die Verteilung von Z, rnit Hilfe ihrer erzeugenden Funktion g, := g ~ " Wir . bezeichnen rnit g die erzeugende Funktion der Zufallsvariablen X,,i und erhalten aus (7.4) rnit Satz 7.8 die Rekursionsformel
rnit dem Anfangswert go(t) = t, da Zo = 1. Wiederholtes Anwenden von (7.5) liefert uns
wobei rnit g(n)(t)die n-te Iterierte der Funktion g bezeichnet wird. Aus der Rekursionsformel (7.4) fiir Z, ist so eine einfache Iterationsformel fiir die erzeugende Funktion g, von 2, geworden, und es gilt folgendes Lemma.
146
7. Analytische Methoden
Lemma 7.10 Die Wahrscheinlichkeit P ( Z , = 0 ) , d.h. dass der GaltonWatson Prozess in der n-ten Generation abgebrochen ist, wird durch g(n)(0) gegeben. Die Wahrscheinlichkeit, dass der Prozess jemals abbricht, ist gegeben durch q = lim g ( n ) ( ~ ) , n i m
Beweis. Mit Satz 7.3(ii) gilt P ( Z n = 0 ) = gz* ( O ) , und mit Identitat (7.6) folgt, gz,(O) = g(n)(0).Da ein in der n-ten Generation abgebrochener Prozess in der (n+l)-ten Generation nicht wieder beginnen kann, folgt aus Z, = 0 stets Zn+l 0. Damit ist ( { Z , = 0))n20 eine aufsteigende Folge von Ereignissen und mit Satz 1.10 gilt = J l % P ( Z , = 0 ) = lim g(n)(0). nim
Das Ereignis lJp=,{Z, abbricht.
= 0 ) ist gerade das Ereignis, dass der Prozess jemals 0
Mit den Aussagen von Lemma 7.10 ist die Frage der Wahrscheinlichkeit des Aussterbens von Familiennamen bzw. des Abbrechens von Galton-Watson Prozessen im Rahmen der Wahrscheinlichkeit,stheoriebeantwortet. Die Bestimmung des Grenzwertes lim,img(n)(0) ist eigentlich eine Aufgabe aus dem Teilgebiet der Analysis, das sich mit der Theorie dynamischer Systeme beschaftigt. Aus Interesse an einem konkreten Endergebnis werden wir jetzt die erzeugende Funktion g der Zufallsvariablen X,,i auf dem Interval1 [O, 11 betrachten. Aus Satz 7.3 wissen wir, dass g monoton steigend ist mit g(0) = po 2 0 und g(1) = 1. Also folgt
und damit auch g(n)(0)E [O, 11. Im Intervall [O, 11 ist die Potenzreihe, dnrch die g darstellbar ist, konvergent und so ist g auf [O, 11 stetig. Weiter folgt
d.h. die Wahrscheinlichkeit q, dass der Prozess abbricht, ist ein F i p u n k t der erzeugenden Funktion g. Aus Satz 7.3(iii) kennen wir bereits einen Fixpunkt, namlich t = 1. Pastor Watson zog aus diesem Resultat den Schluss, dass Familiennamen mit Wahrscheinlichkeit 1 aussterben. Galton brachte ihn dann auf die weiterfiihrende Idee, dass es in [O,1]eventuell noch andere Fixpunkte gibt. Zunachst beschStigen wir uns mit der Rage, welcher Fixpunkt gesucht ist.
Satz 7.11 Die Wahrscheinlichkeit, dass der Galton- Watson Prozess (Z,),?a abbricht, ist gleich dem kleinsten nicht-negatiuen Fixpunkt der erzeugenden Funktion g von X,,i.
7.2 Der Galton-Watson Prozess
147
Beweis. Mit g(1) = 1 hat g mindestens einen Fixpunkt im Interval1 [O, 11. In jedem Fixpnnkt schneiden sich der Graph von g und die Diagonale. Da g stetig ist, gibt es einen kleinsten Fixpunkt to E [O, 11 und da zusatzlich g(0) = po 2 0 ist, liegt der Graph von g in [0, to] oberhalb der Diagonalen. Also folgt g(t) 2 t
fiir t E [O, to].
(7.8)
Da jede erzeugende Funktion monoton steigend ist, folgt aus g(t0) = to nun 0 5 g(t) 5 g(t0) = to
fiir t E [0,to],
und die Folge g(n)(0) liegt in [O,to]. Weit,er liefert (7.8), dass g ( n ) ( ~ 5 ) dass g(n)(0) eine monoton steigende Folge ist. Also existiert der Grenzwert q = limn,,g(n)(~) in [0, to]. (In Lemma 7.10 hatten wir bereits mit wahrscheinlichkeitstheoretischen Mitteln gezeigt, dass dieser Grenzwert existiert, und hier haben wir einen analytischen Beweis gegeben). Da q ein 0 Fixpunkt sein muss, siehe Identitat (7.7), gilt q = to. g(n+l) (0), d.h.
Satz 7.12 Fiir die Wah,rscheinliehkeit q, dass der Galton- Watson Prozess abbricht, gilt (i) q = 0, falls pa = 0, (ii) 0 < q < 1, falls po > 0 und E(X,,i) = g'(1) (iii) q = 1 falls po > 0 und E(Xn,i) 5 1.
> 1,
Anstelle eines formellen Beweises stellen wir in Abb. 7.2 die drei moglichen Lagen des Graphen von g beziiglich der Diagonalen dm.
Abb. 7.2. Die drei moglichen Fille heim Galton-Watson Prozess: po = 0 (links), > O,E(&,,) = g'(l) > 1 (Mitte), po > 0, E(X,,,) = ~ ' ( 1 5) 1 (rechts)
po
Das Resultat von Satz 7.12 konnen wir auch gut intuitiv verstehen. 1st po = P(Xn,, = 0) = 0, so giht es mit Sicherheit in jeder Generation einen Sohn und der Familienname stirbt nicht aus. AuBer in diesem trivialen Fall
148
7. Analytische Methoden
giht es immer eine positive Wahrscheinlichkeit, dass der Prozess einmal ahbricht. 1st die erwartete Anzahl der Sohne groDer als 1, so giht es auch eine positive Wahrscheinlichkeit, dass der Familienname nicht ausstirht. 1st die erwartete Anzahl der Sohne kleiner als 1, so stirht der Familienname sicher aus. Diese beiden Falle nennt man auch super- hzw. suhkritischen Fall. Im sogenannten kritischen Fall, d.h. E(X,,,) = 1, stirbt der Familienname ebenfalls aus, auDer in dem Spezialfall pl = 1 und pi = 0 fiir i # 1, d.h. dass es in jeder Generation genau einen Sohn giht.
ubung 7.4 Betrachte den Galton-Watson Prozess mit Wahrscheinlichkeitsfunktion
d.h. in jeder Generation werden mit Wahrscheinlichkeit kein oder zwei Sohne geboren und mit Wahrscheinlichkeit $ ein Sohn. Berechne die Wahrscheinlichkeit, dass der Familienname nach n. = 1 , 2 , 3 Generationen ausstirbt und bestimme den Grenzwert der Wahrscheinlichkeiten, dass der Familienname je ausstirht. ubung 7.5 Betrachte den Galton-Watson Prozess mit Wahrscheinlichkeitsfunktion
Bestimme die Wahrscheinlichkeit, dass der Prozess abhricht, als Funktion von r und s. Fiir welche Werte von r und s ist der Prozess (sub-, super-) kritisch?
7.3 Die momenterzeugende Funktion In den beiden vorhergehenden Abschnitten hahen wir gezeigt, dass die erzeugende Funktion ein nutzliches Hilfsmittel ist hei der Beschaftigung mit No-wertigen Zufallsvariahlen. In diesem Ahschnitt werden wir eine Funktion einfiihren, die sich fiir beliebige Znfallswiablen definieren l&st. Definition 7.13 Fur eine Zufallsvariable X : f2 7' R, bzw. f i r die zugehdrige Verteilung, wird die momenterzeugende Funktion m x ( t ) ,oder kurz m(t), definiert durch
fur alle t E R, fir die dieser Erwartungswert existiert. Fiir die erzeugende Funktion g x ( t ) hatten wir stets mindestens den Definitionshereich [-I, 11. Fur momenterzeugende Funktionen kann es geschehen, dass sie nur fiir t = 0 existieren. Ein heliehtes Beispiel dafur ist die diskrete
7.3 Die momenterzeugende Funktion
149
&
Zufallsvariable X mit P ( X = k ) = fur k E Z, k # 0. Die Definition der momenterzeugenden Funktion fuhrt fur diese Zufallsvariable zu der Reihe
und diese Reihe divergiert fiir alle 1 # 0. So ist das groDte Problem bei der Beschaftigung mit momenterzeugenden Funktionen ihr Definitionsbereich. Die meisten Zufallsvariablen, denen wir in der Praxis begegnen, haben jedoch eine momenterzeugende Funktion, die zumindest in einer Umgebung von 0 existiert, und dann ist die momenterzeugende Funktion ein sehr niitzliches Hilfsmittel etwa beim Abschatzen von Wahrscheinlichkeiten seltener Ereignisse. Eine erste elementare Eigenschaft momenterzeugender Funktionen folgt direkt aus der Definition sowie den Eigenschaften des Erwartungswertes. Lemma 7.14 Es sei X eine Zufallsuan'able mit momenterzeugender finktion m x , und es seien a, b E R. Dann gilt m x ( 0 ) = 1 und
fiir alle 1 E $ in denen die momenterzeugende Wnktion existiert Ersetzen wir in der Definition der momenterzeugenden Funktion etx durch ihre Potenzreihenentwicklung, so lasst sich die momenterzeugende Funktion wie folgt nmschreiben
Bei der Herleitung dieser Identitat haben wir Erwartungswert und unendliche Reihe vertauscht. Dass dies zuliissig ist, zumindest dort, wo m x ( t ) existiert, kiinnen wir erst in einer spateren Vorlesung uber MaDtheorie als Folge des Satzes von der majorisierten Konvergenz beweisen. Wir benutzen diese Identitat hier nur fiir den folgenden Satz, der uns die Herknnft des Namens ,momenterzeugende FunktionLerklaren wird, sowie fiir Beispiele.
Satz 7.15 Sei X eine Zufallsvariable, deren momenterzeugende Funktion m x ( t ) in einer Umgebung uon 0 existiert. Dann gilt
wobei m, das n-te Moment won X ist. Beweis. Wir differenzieren die Potenzreihe aus der Identitat (7.9) n-ma1 und erhalten
150
7. Analytische Methoden
Der Wert dieser Potenzreihe in t = 0 ist ihr konstanter Term, d.h. m,. Kennen wir also mx(t) in einer kleinen Umgebung von t = 0,so kiinnen wir daraus alle Momente best,immen. Insbesondere gilt
Beispiel 7.16 (i) Eine Bin(n,p)-verteilte Zufallsvariable X hat die momenterzeugende finktion
Insbesondere hat die Bernoulli(p)-Verteilung die momenterzeugende f i n k tion m(t) = 1+p(et - 1). Wir differenzieren die momenterzeugende Funktion der Bin(n,p)-Verteilung und erhalten mf(t) = n ( l +p(et - l))n-lpet mf'(t) = n(n - 1)(1+p(et - ~ ) ) " - ~ ( p e ~ ) n(1 ' +p(et - l))n-lpet.
+
Also ist E ( X ) = m'(0) = np sowie Var(X) = mf'(0) - (m'(0))2 = np(1 - p). Diese Result,ate stimmen mit denen aus Kapitel 5 iiberein. (ii) Sei X negativ-binomial verteilt mit Parametern r und p. Dann gilt
wobei wir fiir die letzte Identitat die negativ-binomiale Reihe verwendet haben, siehe Lemma 4.7. Weiter gilt
und daraus folgt
7.3 Die momenterzeugende Funktion
151
Als Sonderfall erhalten wir fiir r = 1 die momenterzeugende Funktion der geometrischen Verteilung m(t)= p/(l - qet). Ebenso wie die erzeugende Funktion charakterisiert auch die momenterzeugende Funktion die Verteilung eindeutig. Dies ist die Aussage des folgenden Satzes.
Satz 7.17 Sind X und Y zwei Zufallsvariablen, deren momenterzeugende Funktionen in einer Umgebung uon t = 0 existieren und einander gleich sind, so haben X und Y dieselbe Verteilung. Anders als bei den erzeugenden Funktionen l a s t sich die Verteilung einer Zufallsvariablen nicht direkt aus der momenterzeugenden Funktion zuruckberechnen. Ein Beweis des obigen Eindeutigkeitssatzes ist daher nicht so leicht und erfordert Hilfsmittel aus der Funktionentheorie, die uns hier nicht zur Verfugung stehen. Die momenterzeugende Funktion hat fiir Summen unabhangiger Zufallsvariablen eine analoge Eigenschaft wie die erzeugende Funktion.
Satz 7.18 Es seien XI,. . . , X n unabhangige Zufallsvariablen mit zugehbn'. gen momenterzeugenden Funktionen mx,, . .. ,mx" . Dann hat ihre Summe S , = X I . . . X , die momenterzeugende Funktion
+ +
d.h. die momenterzeugende finktion einer Summe unabhangiger Zufallsuariablen ist gleich d e n Produkt der momenterzeugenden Funktionen. Beweis. Wenn wir diese Aussage fur zwei Zufallsvariablen X und Y zeigen, dann folgt die Aussage fur beliebiges n E W durch vollstandige Induktion. Mit X und Y sind auch e t x und etY unabhangige Zufallsvariablen, siehe Bemerkung 6.13(iv), und somit gilt
wobei wir Satz 6.16 verwendet haben.
0
Mit Hilfe der letzten beiden Satze konnten wir an dieser Stelle wieder die Verteilungen von Summen unabhangiger Zufallsvariablen bestimmen. Da wir fast alle Beispiele diskreter Verteilungen schon mit Hilfe erzeugender Funkt,ionen behandelt haben, werden wir dieses Verfahren mit momenterzeugenden Funktionen erst im Kapitel iiber stetige Verteilungen anwenden. Die momenterzeugende Funktion spielt eine entscheidende Rolle in der Theorie groBer Abweichungen. In dieser Theorie versucht man Verfeinerungen des Gesetzes der grollen Zahlen zu geben, indem man sch&fere Abschatzungen fur Wahrscheinlichkeiten von Ereignissen der Form
152
7. Analytische Methoden
bestimmt. Die zentrale Idee liegt darin, die Markov-Ungleichung auf die Zufallsvariable exp(t Cy=l Xi) anzuwenden und durch geschickte Wahl von t dann von den so erhaltenen Ungleichungen die scharfste auszuwahlen. Wir fuhren dies nun fiir unabhangige Bernoulli(+)-verteilte Zufallsvariahlen X I , . . . ,Xn aus. Fiir x und alle t 2 0 gilt die Ahschatzung
>i
( ( EX,) >
= P exp t
)
exp(ntx)
wobei wir fiir den letzten Schritt die Markov-Ungleichung (5.9) angewendet haben. Auf der rechten Seite der obigen Ungleichung haben wir nun die momenterzeugende Funktion von C;=, X,. Aus Beispiel 7.16(i) zusammen mit Satz 7.18 folgt, dass diese gegehen ist durch ( i ( l + et))n. So kiinnen wir die rechte Seite von (7.10) umschreiben zu
> +
Dieser Term liefert fiir jedes t 0 eine obere Schranke fiir die Wahrscheinlichkeit P(k Cy=,Xi x). Die scharfste Schranke erhalten wir, indem wir t* so wahlen, dass tx log 2 - log(1 et) maximal wird. Diese Extremwertaufgabe hat die Losung t* = log & (siehe ubung 7.9) und es gilt weiter
+
t'x
>
+ log 2 - log(1 + et')
= x log x
+ (1 - x) log(1-
x)
+ log 2
Die Funktion I(x) := x logx+ (1-x) log(1-x) +log 2 heiflt Entropiefunktion. Aus (7.10) erhalten wir so fiir x insgesamt die Ungleichung
>
Auf ahnliche Weise kann man fur x 5
A
.$ zeigen, dass
Die Wahrscheinlichkeit, dass Cr=,Xi einen Wert auflerhalb eines offenen Intervalls um den Punkt annimmt, nimmt also exponent,iellab.
i
7.4 Aufgaben
153
Bemerkenswert ist die Tatsache, dass die hier gegehene ohere Schranke fiir P ( i Cr=l Xi 5 x) in gewissem Sinne scharf ist, d.h. der Faktor I ( x ) im Exponenten lasst sich nicht verbessern. Man kann zeigen, dass fiir x $ gilt
>
und Analoges ftir x 5
4.
ubung 7.6 Zeige, dass die momenterzeugende Funktion einer Poisson(X)-verteilten Zufallsvariablen X gegeben ist durch m(t) = ex("*-'). Berecbne damit E ( X ) , E ( X 2 )und Var(X). ubung 7.7 Zeige, dass die momenterzeugende Funktion einer Laplace-Verteilung auf { I , . . . ,n ) gegehen ist durch
Berechne damit E(X), E ( x ~ ) und Var(X) ubung 7.8 Bestimme die momenterzeugende Funktion m,(t) einer Laplace-Verteilung auf {&, . . . , $} und den Grenzwert m(t) :=lim,,, m,(t), t E R. (Wir werden spater sehen, dass m(t) die momenterzeugende Funktion einer Gleichverteilung auf [O, 11 ist.) ubung 7.9 Zeige, dass das Maximum der Funktion
f (t) = t z +log 2 - log(1
+ et)
im Punkt t' = log & angenommen wird
7.4 Aufgaben Aufgabe 7.1 Sei (Xi)i>l eine Folge unabhangiger, identisch verteilter, Nowertiger ~ufallsvariahlen~uud sei N eine von (Xi)i2l unabhzngige, No-wertige Zufallsvariable. Beweise mit Hilfe der erzeugenden Funktion der Summe SN = cF=~ Xk die Wald'sche Formel. Aufgabe 7.2 Zeige, dass fiir die erzeugende Funktion g(t) einer No-wertigen Zufallsvariablen X mit E ( X 2 ) < cc gilt
154
7. Analytische Methoden
Aufgabe 7.3 Sei (Xj)j>l eine Folge unabhangiger, identisch verteilter, NOwertiger ~ufallsvariable~und sei N eine von (Xi)i2l unabhiingige, No-wertige Zufallsvariable. Zeige f(ir SN = Xk folgende Identitat
~ c = ~
Aufgabe 7.4 Beweise die folgenden Identitaten fiir den Erwartungswert fin = E(Z,) und die Varianz 5: = Var(Z,) eines Galton-Watson Prozesses
Aufgabe 7.5 Es seien X1, Xz, . . . Zufallsvariablen mit Werten in No und erzeugenden Funktionen g,(t). Weiter existiere fur t E [O, 11 der Grenzwert
g(t) := lim gn(t). nt,
Zeige, dass g die erzeugende Funktion einer Zufallsvariablen X ist und P ( X = k) = lim P(X, = k). nim
Aufgabe 7.6 Es sei (X,),?I eine Folge Bin(n,p,)-verteilter Zufallsvariablen mit lim,,, np, = X E (0, a). Berechne die erzeugende Funktion g, von X, und den Grenzwert g(t) = limn,, gn(t). Welche Schlussfolgerung kann man fiir limn,, P(X, = k) ziehen? (Hinweis: Verwende Aufgabe 7.5.)
8. Stetige Verteilungen
In Kapitel4 haben wir ganz allgemein Zufallsvariablen als messbare Funktionen mit Wertebereich in R sowie die zugehorigen Wahrscheinlichkeitsverteilungen auf R definiert. Direkt anschlieDend haben wir den Begriff der diskreten Zufallsvariablen eingefiihrt und uns in den folgenden Kapiteln ausftihrlich mit den Moglichkeiten, Eigenschaften und Zusammenhangen der Verteilungen diskreter Zufallsvariablen beschaftigt. Fur viele Zufallsexperimente, die wir modellieren wollen, benotigen wir aber ein Kontinuum an moglichen Werten fiir die zuhilfegenommenen Zufallsvariablen. Wir konnen dabei denken an die Lebensdauer einer Person, an den Durchmesser einer von einer Maschine produzierten Schraube oder an eine beliebige Zahl aus dem Intervall [0,1].Bei der Behandlung der diskreten Verteilungen haben wir eine gewisse Vollstandigkeit und Genauigkeit der mathematischen Beweise schaBen kiinnen, fiir die stetigen Verteilungen werden wir dem einfiihrenden C h a r d ter diese Buches entsprechend auch Aussagen vorstellen, fur deren Beweis wir auf weiterfiihrende Literatur zur MaDtheorie verweisen mussen.
8.1 Dichtefunktionen Fur diskrete Zufallsvariablen haben wir in Definition 4.4 die zugehlirige Wahrscheinlichkeitsfunktion eingefuhrt, und diese Funktion war Grundlage und Mittelpunkt der anschliefienden Betrachtungen. Bevor wir nun den Begriff ,Wahrscheinlichkeitsdichte'formal definieren, wollen wir eine heuristische Einfuhrung geben. Dafiir beginnen wir nochmal mit der Betrachtung eines Laplace-Raumes 0, also eines endlichen Ergebnisraumes, in dem alle Ergebnisse gleichwahrscheinlich sind. Auf 0 sei eine Zufallsvariable X : f2 + R definiert mit Wertebereich {al,. . . ,a k } .Die Verteilung von X wird vollstandig durch die Wahrscheinlichkeitsfunktion beschrieben, welche gegeben ist durch
1st k nicht allzu grofi, so konnen wir p gut mit Hilfe eines Stabdiagramms darstellen, wie wir dies im Kapitel4 fiir die wichtigen diskreten Verteilungen ausgefuhrt haben.
156
8. Stetige Verteilungen
1st die Machtigkeit k des Wertebereiches der Zufallsvariablen X dagegen sehr grol3, so ist ein Stabdiagramm nicht brauchbar, da die Werte p(ai) der Wahrscheinlichkeitsfunktion dann sehr klein sind. Wir suchen nun eine neue, approximative Beschreibung der Verteilung von X . Sei der Wertebereich von X im Interval1 (a,,O]enthalten, so teilen wir (a,/3] in m Teilintervalle (ti-l,ti], i = 1,. . . ,m, mit a = to < tl < . . . < t, = ,O auf. Wir betrachten den Anteil der Ergebnisse w , denen ein Wert X ( w ) E (ti-1, ti] zugeordnet wird, und wir definieren
Eine Moglichkeit, diese Wahrscheinlichkeiten grafisch darzustellen, konnte ein Stahdiagramm sein, bei dem iiber dem Mittelpunkt des Intervalls (ti-1, ti] ein Stab der Hohe p((ti-1, ti])gezeichnet wird. Gegen diese Darstellung gibt es zwei erhebliche Einwwde. Es wird so nicht deutlich, dass X nicht, in diesen Mittelpunkten konzentriert ist, sondern Werte im gesamten Intervall annimmt, und weiter sollte p((ti-1, ti])relativ zur L h g e des Intervalls (ti-I,ti] betrachtet werden.
Abb. 8.1. Histogramm bei zwei verschiedenen Intervalleinteilungen
Eine bessere Darstellung der in (8.1) definierten approximativen Verteilung einer diskreten Zufallsvariablen mit sehr groDem Wertebereicb ist ein Histogramm. Dafiir zeichnen wir uber jedem der Intervalle (tl-i,ti] ein zugehoriges Rechteck der Hohe i = 1,. . . ,m. Das Histogramm ist formal der Graph der Funktion
p(i,t~tf21),
und der Flacheninhalt des Rechtecks iiber dem Intervall (ti-l,ti] ist genau
~ ( ( t ti]). ~ - Die ~ , Wahrscheinlichkeit, dass X einen Wert in (ti,t j ]annimmt, d.h. P ( X E (ti,t,]),ist also in einem Laplace-Raum gleich der Flache unter dem Histogramm zwischen ti und t j
Wenn wir die approximative Darstellut~:: der "erteilung von S verhessern wollen, tntisseti wir die Inlervalleinteilung verreinern, siehe Abb. 8.1. Es scheint. dass h so in1 Limes in eine Funktion f iibergrht mit der Ejgr11schi~ftP(.X E (n! ~JI)= .f(a)rlx, fiir jr+s (1,: b E IW rnit o < b. Nach (ii(w:r~ i h c r l c : i ~ ~ ~ gfiir n ~ cirrr Laplaec-mrtciltr Zuf;tllxvariablc A gcbcn wir IIIUI clic dkcmcinc: Ucfi~rit,inucinor \~~ahfic~rci~l~ic~~li(:its(~ictlta f fiir bc1icl)igc Zufdlsvariablen.
j;r
P(a
< X 5 b) = Px((a, b ] ) =
1"
J(x)dz.
(8.2)
TZrir benutzenfiiv J such die Rezelchnrmngera l ) i c l ~ . t e f ~ ~ : ~oder , k ~ i oDichte. n Vertrdrrragerr mif. ciner Dichtr:$unktinn hr$cn xtetiqr: Vr!r?eibrrqcn.
B e m e r k i m g 8.2 (i) Zufallsvariablm mjt einer stetigen Vwteilung u ~ r d e t l kurz such stetige Zufillsl-ariahlm gnwnlt. Van brachte. dass diese Notation etwas ungmm ist, da ea sich hin. nicht urn einr I3gmschaft der ZufallsvwiiiI)l(:n: so~rd(:rnurrl cirw 'ig(msttraft, dr!r Wrtcil~mgh;lnrlclt. (ii) Beim Begrim' .integrierbarLin der obigeti Delinilion mag der Leser vorlZuIig an Riemann-inlegrierbar denkeen. Desser tuid u~~verxiclllt~ar in eine~iiexakten Aulbau der tf~alirscheinlicl~keilstheorie is1 allerdings der Lebesguesclie Inheg ~ abegriff'. l (iii) nie Verteilung Tun 'S legt. die Di~htefunktionnicht ganz eindeutig k t . t~~~ d ( ~ IVcrt. 1 (1~s111E,iw .$II(L:~I~:: von f in rmilitt~v i d w P ~ i n l c vcrii.n(kat tcgrz~ls(8.2) nicht. M ; I ~h r r n zr!igm, ~1i1.r~ z w i hnkt,iora:n f l ur~clf2, fiir die.
158
8. Stetige Verteilungen
(8.2) gilt, ,fast iiberall' iibereinstimmen. Diese Aussage kann in der Lebesgueschen Integrationstheorie prazisiert und bewiesen werden. (iv) Fiir eine Dichtefunktion f gilt stets JFw f (x)dx = 1 (ab jetzt schreiben wir J anstelle von Jyw). Umgekehrt definiert eine nicht-negative, integrierbare Funktion f mit dieser Eigenschaft eine Wahrscheinlichkeitsverteilung auf R Daher ist jede solche Funktion f eine Wahrscheinlichkeitsdichte. Zum intuitiven Versthdnis der Dichtefunktion f einer Zufallsvariablen
X k6nnen uns folgende Uberlegungen helfen. 1st f stetig in x und A x klein, so gilt P ( x < X 5 a: + A x ) = JCx+"" f (t)dt F;: A x . f ( 2 ) und 1 f ( x ) F;: -P(x Ax
<X 5 x
+ Ax).
(8.3)
Die Dichte ist also approximativ gleich der Wahrscheinlichkeit, dass X einen Wert im Intervall ( x ,x A x ] annimmt geteilt durch die Lange dieses Intervalls. Man kann eine solche Betrachtungsweise auch in der Physik finden bei dem Begriff ,MassendichteC,der definiert wird als Grenzwert von Masse pro Volumeneinheit. Die Beziehung einer diskreten Wahrscheinlichkeitsverteilung zu einer Wahrscheinlichkeitsverteilung mit Dichte ist vergleichbar dem Verhaltnis eines Systems diskreter Punktmassen zu einer stetigen Massenverteilung.
+
Abb. 8.3. Dichtefunktion f (z)und Realisierungen einer entsprechenden Zufalls-
variablen Sind XI,. . . ,X, unabhejlgige Zufallsvariablen mit derselben Dichtefunktion f , so gilt gemafl dem Gesetz der groflen Zahlen P ( x < Xl 5 x + A x ) w ,1111 5 i 5 n : x < Xi 5 x AX}^, und daher mit (8.3)
+
So erhalt f ( x )eine ganz konkrete Bedeutung als mathematische Idealisierung der empirischen Dichte der Realisierungen in einem kleinen Intervall. Wenn
8.2 Wichtige stetige Verteilungen
159
wir die Realisierungen als kleine Striche auf der Zahlengerade eintragen, erhalten wir Abb. 8.3. Bei diesen intuitiven uberlegungen muss man allerdings aufpassen. Man kann in (8.4) nicht unabhangig voneinander Ax + 0 und n + oo streben lassen. So erhdt man in (8.4) fiir Ax + 0 bei festem n stets den Limes 0. In welcher Weise man Ax am besten von n ahhangen lasst, ist ein nicht-triviales Problem, das in der Statistik als Dichteschatzung behandelt wird.
bung 8.1 Fiir welche Werte von c E R ist f(z)= w3110,,l(2)eine Dichtefunktion? Berechne P($ 5 X 5 +) sowie P ( X 5 a), a E R, fiir eine Zufallsvariable X mit dieser Dichte.
8.2 Wichtige stetige Verteilungen In Analogie zu Abschnitt 4.2, in dem wir die wichtigsten diskreten Verteilungen beschrieben haben, werden wir nun die bekanntesten stetigen Verteilungen einfiihren, indem wir die zugehorigen Dichtefunktionen angeben, den Graph der Dichte darstellen und Anmerkungen zu der jeweiligen Geschichte oder Anwendung machen. Oft bestehen BezUge zu den diskreten Verteilungen.
Gleichverteiluug. Die Gleichverteilung auf dem Intervall [a, b] C R ist definiert durch die Dichte
Dass f eine Dichtefunktion ist, d.h. nicht-negativ und f (x) dx = 1, ist offensichtlich.Als Symbol fiir diese Verteilung verwenden wir U(a, b ) , und wir schreiben X U(a, b ) , wenn X diese Verteilung hat. Die Gleichverteilung ist ein stetiges Analogon der Laplace-Verteilung. Fur jedes Interval1 I C [a,b] gilt P ( X E I) = &II, d.h. die Wahrscheinlichkeit einer Realisierung in I ist proportional zur Lange von I . Eine Gleichverteilung auf [a,b] wird als Model1 fiir die zufallige Wahl einer Zahl aus [a,b] verwendet. So konnen wir etwa den Rundungsfehler bei numerischen Berechnungen als gleichverteilt auf [-$, $1 modellieren. Wir bemerken noch, dass es wegen Bemerkung 8.2(ii) keinen Unterschied macht, ob wir die Endpunkte a, b zum Intervall dazunehmen oder nicht.
-
Normalverteilung. Die Normalverteilung mit den Parametern fi und u2, fi E R, u2 > 0,ist definiert durch die Dichte
Abb. 8.4. Dichte cincr Gleirhvertcilnng (links)und einer Normalvcrtcilung (rcchts)
Als Symbol fiir diese Verteilung verwenden wir N ( p , a'). Die Xorndverteilung hat eine grofie Bedelldung in dcr St.at,istik, d a viele in der Katur auftretende MessgroRen zwnindest approximativ normalverteilt sind. In einem spatere11 Kapitel werden wir hierfiir eine Erkleung geben konnen nut dem ,Zcntralen Grenzwertsat,zl,dcr in1 \Vesentlichcn besagt,, dass cine Snn~mcvon vielen, je kleinen, nnahh3ngigen Zufallsvariablen approximativ normalverteilt ist. Die Kormalvert,cilung wurde zuerst von Abraham de hloivre (1667-1754) als Approximation der binomialen Vert,eiImg fiir grofie Werte von n eingefiihrt,. Im Unterschied zur Poisson-Approximation ist dabei p fest. Carl Ricdrich GauU (1777-18.55) hat der Normalvert,eilung einen zent,ralen St,& lenwert. in der St,atistik gegeben, weshalb sie auc11 Gaufi-Verteilung heifit,. Die dazugehcrige Dirhtefunktion wird wegen der Form ihres Graphen auch GauO'scl~cGlockcnknrvc gcnnant. Auf dcm lctzten Zehnmarkschcin vor der Einfiihrung des Euro war nehen einem Portrat von Gad3 die GauOkhe Glocknlknrve ahgebiklet.
Abb. 8.5. Zehnrnarksclwin mit. Portrst \.on Gall%.
8.2 Wichtige stetige Verteilungen
161
Der Spezialfall fi = 0, u2 = 1 heifit Standardnormalverteilung. Die dazugehorige Dichtefunktion kommt so oft vor, dass dafur eine eigene Abkurzung verwendet wird,
Fiir den Umgang mit der Normalverteilung ist es eine Schwierigkeit, dass die Stammfunktion ihrer Wabrscheinlichkeitsdichte sich nicht durch elementare Funkt,ionen ausdrucken lasst. Es ist bereits eine nicht-triviale Aufgahe nachzuweisen, dass J ip(x)dx = 1 ist, d.h. dass ip eine Dichtefunktion ist. Ein Beweis dieser Identitiit wird in der Analysis gegeben.
Exponentielle Verteilung. Die exponentielle Verteilung mit Parameter X > 0 ist definiert durch die Dichte
Als Symbol fur diese Verteilung verwenden wir Exp(X). Die exponentielle Verteilung ist das stetige Analogon der geometrischen Verteilung und dient zur Modellierung von Lebensdauern. Fur eine Exp(X)-verteilte Zufallsvariable T und t 0 gilt
>
Daraus folgt p ( T
> s+tlT > t) = P ( TP2(sT+2tt')T z t ) -- P(T2s+t) - e-x(a+t)eAt P(T2t) -
=
e - X S = P ( T > s) fiir alle s, t > 0. Diese Identitiit hahen wir fiir ganzzahlige s, t schon bei der geometrischen Verteilung kennengelernt. Die dort im Anschluss an Identitat (4.11) gemachten Anmerkungen zur ,Gedachtnislosigkeit' gelten auch fiir die exponentielle Verteilung.
Abb. 8.6. Dichte einer exponentiellen Verteilung(1inks) und einer Gammaverteilung(rechts)
162
8. Stetige Verteilungen
Gammaverteilung, Chiquadrat-Verteilung. Die Gammaverteilnng mit den Parametern r > 0 und X > 0 ist definiert durch die Dichte
wobei die Gammafunktion definiert ist durch r ( t ) := Som~ ~ - l e - ~ td > x ,0. Als Symbol fiir die Gammaverteilung verwenden wir Gamma(r,A). Die Gammaverteilung ist das stetige Analogon der negativ-binomialen Verteilung. Dies konnen wir etwa sehen, wenn wir das Stabdiagrarnm der Wahrscheinlichkeitsfunktion mit dem Graphen der Dichtefunktion vergleichen. Ein tieferer Zusammenhang wird in Kapitel 11 bei der Behandlung der Poisson-Prozesse deutlich werden. Setzen wir r = 1, so sehen wir, dass die exponentielle Verteilung ein Spezialfall der Gammaverteilnng ist. Die Gam,ma(;, +)-Verteilung heiDt auch Chiquadrat-Verteilung mit n Freiheitsgraden, wofiir wir als Symbol X: verwenden, n E W.
Betaverteilung. Die Betaverteilung mit Parametern r > 0 nnd s definiert durch die Dichte
>
0 ist
-~dx. wobei die Betafunktion definiert ist durch B(r,s) := ~ ~ - ~ ( l - z ) ~Als Symbol fiir die Betaverteilung verwenden wir Beta(r, s). Betaverteilungen sind auf das Interval1 [O,11 konzentriert. In dem Spezialfall r = s = 1 erhalten wir die Gleichverteilnng auf [O,11. Durch geschickte Wahl der beiden Parameter konnen viele verschiedene Verteilungen auf [O, 11 durch Betaverteilungen approximiert werden. Die Betaverteilungen spielen in der Bayes-Statistik eine wicht,ige Rolle als apriori Verteilung der Erfolgswahrscheinlichkeit bei einem Bernoulli-Experiment.
Abb. 8.7. Dichte einiger Betaverteilungen (links) und der Cauchy-Verteilung
(rechts)
8.3 Verteilungsfunktion
163
Cauchy-Verteilung. Die Cauchy-Verteilung ist definiert durch die Dichte
Diese Verteilung findet Anwendung in der Modellierung von Zufallsexperimenten, bei denen seltene, extrem groBe Beohachtungswerte auftreten, etwa bei Schadensversicherungen gegen Naturkatastrophen. Die CauchyVerteilung hat die hemerkenswerte Eigenschaft, dass der Mktelwert von n unabhangigen Cauchy-verteilten Zufallsvariablen dieselbe Verteilung wie eine einzelne der Zufallsvariablen hat. Insbesondere gilt also hier das schwache Gesetz der groBen Zahlen nicht. Dies kijnnen wir so verstehen, dass der diesem Gesetz zngrunde liegende Effekt des Ausgleichs positiver und negativer Abweichungen vom Erwartungswert wegen des Auftretens dominanter Beohachtungen nicht greift.
ubung 8.2 Beweise folgende Identitaten fiir die Gammafunktion
+
(i) r ( t 1) = t r ( t ) fiir t E (0, w) (ii) r ( 1 ) = l und allgemein r ( k ) = (le - I)! fur k E W (iii) r ( + ) = J;;(Hinweis: henutze ~
e=
a - ). ~
~
~
~
ubung 8.3 ~berpriifedie Eigenschaft einer Dichte, dass J f(x)dx = 1 ist, fiir die Gleichverteilung, die exponentielle Verteilung, die Gammaverteilung sowie fur die Betaverteilung. ubung 8.4 Bestimme c E W so, dass die Funktion f , gegeben durch f(x) = c ~ - " ~ l , ~ ) ( x ) , eine Dichtefunktion ist, fur X > 1. Die zugehorige Verteilung heist ParetoVerteilung. Berechne die Wahrscheinlichkeiten P(2 X 5) und P ( X 4) fiir eine Pareto-verteilte Zufallsvaxiahle X mit X = 2.
< <
>
ubung 8.5 Bestimme eine Stammfunktion der Dichtefunktion (8.11) der CauchyVerteilung und zeige, dass J f(x)dx = 1. Berechne P ( 2 < X 10) fiir eine Cauchyverteilte Zufallsvariable X.
<
8.3 Verteilungsfunktion Definition 8.3 FCr eine Zufallsvariable X , bzw. ihre Verteihng, definieren wir die Verteilungsfunktion F : IW + B durch
F ( x ) := P ( X 5 x ) , d.h. die Verteilungsfunktion gibt die Wahrscheinlichkeit fiir eine Realisierung kleiner oder gleich einem gegebenen x an.
,
164
,
8. Stetige Verteilungen
,
,
,
,
,
,
,
,/
Abb. 8.8. Dichte und zugehorige Verteilungsfunktion
Man spricht auch von einer kumulativen Verteilungsfunktion, weil die Wahrscheinlichkeiten von verschiedenen Realisierungen zusammengefasst werden. Flir diskrete Zufallsvariahlen mit Wahrscheinlichkeitsfunktion p und Rr stetige Zufallsvariablen mit Dichte f kannen wir die Verteilungsfunkt,ion wie folgt berechnen
Beispiel 8.4 (i) Sei X die Augenzahl beim einmaligen Werfen eines unverfalschten Wiirfels. Dann hat, X die Verteilungsfunktion 0 fur x < 1 "uri<x
Der Graph dieser Verteilungsfunktion hat eine Treppenform, die charakteristisch ist fur die Verteilungsfunlctionen diskreter Verteilungen.
;
1
I
;
;
A
;
1
-J
J
a
Abb. 8.9. Verteilungsfunktion einer Laplace- und einer binomialen Verteilung
i
8.3 Verteilungsfunktion
165
(ii) Die Verteilungsfunktion einer Bin(n,p)-verteilten Zufallsvariablen wird gegeben durch
Da dieses Summe fiir grofle n schwer zu berechnen ist, werden wir spzter Approximationen dafiir studieren. (iii) Fur die Verteilungsfunktion einer auf dem Interval1 [a,b] gleichverteilten Zufallsvariablen X gilt
Die Verteilungsfunktion ist also linear im Intervall [a,b] mit Steigung
&
Abb. 8.10. Verteilungsfunktion einer Gleichverteilung und einer Normalverteilung
(iv) Die Verteilungsfunktion einer N ( 0 , 1))verteilten Zufallsvariablen ist gegeben durch
Wie bereits bei der Definition der Normalverteilung erwahnt, lasst sich die durch (8.12) definierte Funktion @(x),die Stammfunktion der st,andardnormalen Dichtefunktion ip(x), nicht durch elementare Funktionen ausdrticken. Daher sind wir zur Bestimmung der Werte @(x)angewiesen auf Computerprogramme oder Tabellen, wie sie in fast allen Lehrbiichern zur Statistik zu finden sind. Meist sind die Werte von @(x) fiir x 2 0 angegeben. Da ip symmetrisch k t , folgt
166
8. Stetige Verteilungen
und damit konnen wir @(x)auch fiir x < 0 bestimmen. Einige Werte der @-Funktionsollte man im Kopf behalten, etwa @(l)a 0.84, m(1.65) % 0.95 nnd m(1.96) w 0.975. Daraus konnen wir fiir eine standardnormal verteilte Zufallsvariable X folgende Wahrscheinlichkeiten ausrechnen
< <
X 1.65) % 0.90 Analog erhalten wir die Wahrscheinlichkeiten P(-1.65 und P(-1.96 X 1.96) a 0.95. (v) Die Verteilungsfunktion einer N ( p , a2)-verteilten Zufallsvariablen ist gegeben durch
< <
Eine Tabelle ftir die Werte dieser Verteilungsfunktion konnen wir also durch Transformation aus der Wertetabelle der Verteilungsfunktion @(x)der standardnormalen Verteilung erhalten. Die Graphen der Verteilungsfunktionen normalverteilter Zufallsvariablen baben eine charakteristiscbe S-Form, siehe Abbildung 8.10.
Satz 8.5 Die Verteilungsfunktion F einer Zufallsuan'ablen X hat folgende Eigensch,aflen,. (i) F ist monoton steigend, d.h,. fiir alle s, t E R mit s < t gilt F ( s ) < F(t). (ii) F ist rechtsstetig, d.h,. fir jedes x E R gilt limy\, F ( y ) = F(x). (iii) F hat einen linksseitigen Limes F(x-) := lim,,x,,,,, F(y) in jedem x E $ und es gilt F(x-) = P ( X < x).
(iu) F ist stetig in x genau dnnn, wenn P ( X = x) = 0, und weiter gilt
(u) lim,,-,
F(x) = 0 und lim,,,
F(x) = 1
<
<
Beweis. 1st s 5 t, so gilt {X s ) C {X t ) und somit folgt (i) aus Satz 1.6(iii). Aus der Analysis ist bekannt, dass fiir jede monoton wachsende Funktion g der rechtsseitige Limes g(x+) := limy\, g(y) existiert und dass fiir jede monoton fallende Folge (y,),?~ mit lim,, y, = x gilt, dass
Also existiert F(x+) wegen (i). 1st nun (y,),,~ eine monoton fallende Folge mit Limes x, so ist die Folge der Ereignisse {X y,} monoton fallend, und es gilt
<
8.3 Verteilungsfunktion
167
Aus Satz 1.10 folgt dann limynL, F(y,) = F(x) und somit F(x+) = F(x), d.h. (ii) ist bewiesen. 1st aber (y,),?, eine monoton fallende Folge mit Limes -00, so gilt m
0 {w : x ( w ) 5
~ n= )
0
n=1
und somit folgt limy,-, F(y) =limy,.,-, F(y,) = P(0) = 0, d.h. der erste Teil von (v) ist bewiesen. Fiir jede monoton wachsende Funktion g existiert der linksseitige Limes g(x-), nnd f(ir jede monoton wachsende Folge (Y,),?~ mit lim,,, y, = x gilt lim,,.,x, g(y,) = g(x-). Also exist,iert auch F(x-) wegen (i). 1st nun (Y,),?~ eine monoton wachsende Folge mit Limes x, so ist {X 5 y,) eine monoton wachsende Folge von Ereignissen mit
u m
{w : X(w)
5 y,}
= {w : X(w)
< x).
n=1 Mit Satz 1.10 gilt d a m F(x-) = limyn2, F(y,) = P ( X < x), und somit ist (iii) bewiesen. Aus {X = x) = {X 5 x} \ {X < x) sowie (iii) folgt (iv). Fiir yn 7rn gilt {X 5 y,) /' l2 und somit folgt lim,,,,-, F(y,) = P(l2) = 1, 0 womit der zweite Teil von (v) gezeigt ist. Bemerkung 8.6 (i) Als teilweise Umkehrung des obigen Satzes gilt, dass jeder Funktion F : B + [O, 11, die die Bedingungen (i),(ii) und (v) erfiillt, genau eine Wahrscheinlichkeitsverteilung P auf B zugeordnet ist durch P((-m,x]) := F(x)
f(ir x E R
So ist P auf allen halboffenen Intervallen der Form (-m,x], x E $ definiert. Ein beliebiges halboffenes Interval1 (a,b] I&st sicb als Differenz (a, b] = (-m, b] - (-oo,a] schreiben, und wir definieren deshalb
Fiir disjunkte Vereinigungen halboffener Intervalle A = (al, bl] U (aa, bz] U . . . definieren wir wegen der Additivitat von Wahrscheinlichkeiten
Um zu zeigen, dass sicb P weiter auf alle messbaren Mengen in B ausdehnen l&st, benotigen wir Hilfsmittel aus der MaBtheorie. (ii) Die Aussage von Satz 8.5(iv) besagt, dass X genau dann eine stetige
168
8. Stetige Verteilungen
Verteilungsfunktion hat, wenn P ( X = x ) = 0 fiir alle x E R Dies ist sicher J: f ( t ) d t eine stetierfiillt, wenn X eine Dichte hat, da durch F ( x ) = m ge Funktion von x definiert ist. Die Umkehrung gilt aber nicht, d.h. eine Zufallsvariahle mit stetiger Verteilungsfunktion besitzt nicht unbedingt eine Dichte. AhschlieDend zitieren wir einen Satz, der eine hinreichende Bedingung dafiir angibt, dass F eine Dichte besitzt und zeigt, wie man diese berechnen kann.
Satz 8.7 Jede Verteilungsfunktion F ist fast fiberall differenzierbar. Sie hat eine Dichte genau dann, wenn
und diese Dichte f ist gegeben durch,
Gelegentlich ist es schwierig (8.13) nachzuweisen. In der Praxis geniigt meist die folgende hinreichende Bedingung.
Lemma 8.8 1st F eine stetige und bis auf endlich viele Ausnahrnepunkte stetig differenzierbare Verteilungsfunktion, so gilt J F 1 ( x ) d x= 1, und F hat die Diehtefunktion F'.
Beweis. Es sei F' definiert und stetig auDer in den Punkten e l , . . . ,ck mit el < .. . < ck. Wir setzen weiter Q = -w und c k + ~= +w. Dann gilt fiir i = O , ... , k
wobei wir fiir die letzte Identit,at die Stetigkeit von F verwendet hahen. Nun folgt
und damit ist (8.13) nachgewiesen.
8.4 Transformation von Dichten
169
ubungen ubung 8.6 Bestimme die Verteilungsfunktion einer exponentiell verteilten Zufallsvariablen und berechne fiir eine Ezp(l)-verteilte Zufallsvariable X die Wahrscheinlichkeit P ( X 2 4). ubung 8.7 Bestimme die Verteilungsfunktion einer Gamma(2,l)-verteilten Zufallsvariablen. ubung 8.8 Bestimme mit Hilfe einer Tabelle die Werte der Verteilungsfunktion @(z) der N(0, 1)-Verteilung fur z = -3, x = -1 und x = 3 und berechne dann die Wahrscheinlichkeit, dass eine N(0, 1)-verteilte Zufallsvariable X Werte auBerhalb von [-3,3] annimmt.
bung 8.9
Gegeben ist die Funktion
Zeige, dass F eine Verteilungsfunktion ist. Beschreibe die zugehorige Verteilung und berechne P ( 0 5 X 5 I), P(0 < X 5 1) sowie P ( X = 0) fur eine Zufallsvariable X mit dieser Verteilungsfunktion. ubung 8.10 Berechne und skizziere den Graph der Verteilungsfunktion FNeiner Laplace-Verteilung auf {&, &,. . . , &}. Zeige, dass FN gegen die Verteilungsfunktion einer Gleichverteilung auf [O, I] konvergiert. ubung 8.11 Es sei X eine Zufallsvariable mit Werten in (0, m) und der Eigenschaft
Charakterisiere die moglichen Verteilungen von X . ubung 8.12 Bestimme die Verteilungsfunktion einer Pareto-Verteilung. ubung 8.13 Zeige, dass es eine Verteilungsfunktion F gibt, fur die gilt F(x) = xZ fiir 0 5 x 5 1. Zeige dann, dass F eine Dichte hat und berechne diese.
8.4 Transformation von Dichten In diesem Abschnitt wollen wir die Dichte einer transformierten Zufallsvariablen Y = u(X) bestimmen. Dabei ist die Dichtefunktion f,y der Zufallsvariablen X gegeben. Zunachst werden wir fiir einige Beispiele, in denen es einfach ist, die Verteilnngsfnnktion von Y zu bestimmen, die Dichte direkt durch Differenzieren der Vert,eilnngsfnnktion berechnen. Dann werden wir eine allgemeine Transformationsformel beweisen.
Beispiel 8.9 (i) Es sei X eine N ( 0 , 1)-verteilte Zufallsvariable und Y = X 2 . Dann gilt P ( Y 5 y) = 0 fur y 5 0. Fur y > 0 gilt
170
8. Stetige Verteilungen
wobei @(x) die Verteilnngsfunktion der N ( 0 , 1)-Verteilungist. Nun ist Fy(y) stetig differenzierbar, und somit hat Y die Dichte
und fy(y) = 0 fiir y wie folgt schreiben
5 0. Da r($) = Jii,l&sst sich die Dichte von Y
auch
Dies ist die Dichte einer Gamma(+,+)- bzw. xZ-Verteilung. Damit haben wir also herausgefunden, dass das Quadrat einer N(0, 1)-verteilten Znfallsvariablen eine xZ-Verteilung hat. Es gilt (ii) Es sei X gleichverteilt auf (0,1] und Y =
+.
und P ( Y 5 y) = 0 fur y 5 1. Die Verteilungsfunktion von Y ist also stetig und stetig differenzierbar auDer in y = 1. Dann hat Y die Dichte
Nachdem wir hier an zwei Beispielen gezeigt haben, wie wir ohne neue Theorie die Verteilung einer transformierten Zufallsvariablen berechnen konnen, wollen wir jetzt eine allgemeine Transformationsformel angeben. Diese gilt f(ir Diffeomorphismen, das sind bijektive Abbildungen u : R + $ fiir die u und u-I stetig differenzierbar sind. Satz 8.10 (Transformationsformel fur Dichten) Es sei X eine Zufallsvariable n i t Werten i m offenen Interval1 I C R und Dichteftmktion f x . Ist J
ein weiteres offeneenes Interval1 und u : I Y := u ( X ) die Dichtefunktion
+J
ein Diffeomorphismus, so hat
Deweis. Eine b i j e k t i ~ ~differenzierbare e~ Funktion u ist entweder strikt monoton steige~idoder strikt monotou fallend. Wir betrachten hier den Fall, dass t i monoton stcigcnd ist. D a m Rilt f i r a , b E J
w h e i wir fiir die I&te Identitst die Subsritutionsregel fur Tntegwle mit g = P L ( X ) angemendet lmben. .-\lso hat Y auf dem Tntervall J die Tlichtefunktion
Da Y kcinc Wcztc aullcrlalb von J an~lchmcnkann. ist dic Dichtc dort glcich 0 U. n e r Reweis in1 Fall, dass tc monoton fallend ist, wrl8uft analog.
Ahh. 8.11. Ti~nxfwmetionw n nichtcn
Fast wichtiger &Is der formelle Reweis der Pansfol.mationsf<~~niel ist die zugrundeliegende Intuition. Fiir stetige Zufallsvariablen ist die Wahrscheinlichkeir., dass Realisierungen in einem gegrbenm Tntervall sind; gleich den) Integral der Tlichte iiher diesem T n t e r ~ d .Rei einer Twlsformation hleiht rrhalt,en, wird iher iibrr rin Interval1 rinrr a ~ d r r n ~ l rlir \"&~'ilhrs~:hri~llivt~kt!it T.ihge vrrteilt. Wir kiinnm diesen Gednnker pr&zisiwen,indem wir definieren ~(IJ):= u-'(g). Wir setzm voraos; dass I L monoton wachsend ist, d a m i ~ anch t r! rnonoton iwichumri, imrl rs gilt g e m 3 Apprminr;it.i~m (8.3) fiir kleine Aa
172
8. Stetige Verteilungen
Beispiel 8.11 (i) Wir betrachten wieder, wie in Beispiel 8.9(ii), eine Zufallsvariable X, die auf (0,1] gleichverteilt ist, und fragen nacb der Dichte von Y = *. Die Funktion u(x) = ist bijektiv und stetig differenzierbar auf Also hat Y = % nach Satz 8.10 (0, m) mit inverser Abbildung u-'(y) = die Dichte
i.
Abb. 8.12. Dichten von Z
-
N(O, 1) und X = 2 2 + 5
(ii) Nun betrachten wir eine N(0, 1)-verteilte Zufallsvariable Z und definieren X := O Z + p, fur O,p E R und o # 0. Also hat X die Dichtefunktion
und wir sehen, dass X eine N(p, 0')-Verteilung hat. Umgekehrt gilt, dass fur jede N(b, 0')-verteilte Zufallsvariable X die transformierte Zufallsvariable z = K3.i me N(0,l)-Verteilung hat. Damit kijnnen wir die Wahrscheinlichkeiten von Ereignissen, die in Termen einer N(p, 0')-verteilten Zufallsvariable definiert sind, mit Hilfe einer Tabelle der Standardnormalverteilung berechnen. So e r h a t man etwa aus P(-1 5 Z 5 1) = 0.68, dass
d.h. mit Wahrscheinlichkeit 68% liegen die Werte einer N(p,u2)-verteilten Zufallsvariablen im 20-Interval1 um 11.
ubung 8.14 Es sei X eine auf (0,1] gleichverteilte Zufallsvariable. Bestimme die Dichte von x', flund - log X. ubung 8.15 Gegeben sei eine Zufallsvariable X mit Ezp(2)-Verteilung.Bestimme die Dichte und die Verteilungsfunktion von Y = ex.
8.5 Erwartungswert und Varianz
173
ubung 8.16 Eine nicht-negative Zufallsvariable X heat log-normalverteilt, falls log X normalverteilt ist. Bestimme die Dichte einer log-normalen Verteilung. ubung 8.17 Es sei X eine Zufallsvariable mit Gamma(r, A)-Verteilung. Bestimme die Dichte von a x , a > 0. Welche Verteilung hat diese Zufallsvariable? ubung 8.18 Es sei X eine Zufallsvariable mit Ezp(1)-Verteilung. Bestimme die
Verteilung von X/X, X > 0.
ubung 8.19 Es sei X eine Zufallsvariable mit Beta(r, s)-Verteilung.Bestimme die
Dichte von
v%.
ubung 8.20 Es sei X eine N(10,4)-verteilte Zufallsvariable. Berechne P ( X P ( X 14), P(6 5 X 14) und P(IX - 101 6).
>
<
>
< 8),
8.5 Erwartungswert und Varianz In diesem Abschnitt wollen wir den Erwartungswert fiir stetige Zufallsvariablen einfuhren und dann Erwartungswerte und Varianzen der bekannten stetigen Verteilungen angeben. Wir werden auch eine Transformationsformel vorstellen.
Definition 8.12 Es sei X eine stetige Zufallsvariable mit Dichte f . W i r sagen, dass der Erwartungwert won X existiert, wenn S 1x1f (x)dx < oo, und wir definieren dann den Erwartung.$wert E ( X ) durch
Wir haben bier den Erwartungswert, den wir fiir diskrete Zufallsvariablen bereits kennen, neu fiir stetige Zufallsvariablen definiert. Man beachte die formale Analogie zwischen beiden Definitionen, Czxp(x) im diskreten und S x f (x)dx im stetigen Fall, die noch deutlicher wird, wenn man das Integral durch eine Riemann-Summe approximiert und dabei (8.3) beachtet.
Beispiel 8.13 (i) Fur eine Zufallsvariable X , die auf [a,b] gleichverteilt ist, gilt dx=--
1
b-a
b2-a2 - a+b -- -2
(ii) Fiir eine N ( p , 07)-verteilte Zufallsvariable X gilt
2 '
174
8. Stetige Verteilungen
Im letzten Schritt haben wir benutzt, dass das Integral einer ungeraden Funktion uber R gleicb 0 ist und das Integral einer Dichtefunktion 1. Damit sehen wir, dass der Parameter fi einer N ( b ,u2)-Verteilung genau der Erwartungswert ist. (iii) Es sei X eine Cauchy-verteilte Znfallsvariable, d.h. X hat die Dichtefunktion f (x) = 1 / ( ~ ( 1 x2)). Dann ist J 1x1f (x)dx = m, d.h. der Erwartungswert existiert nicht.
+
Die Erwartungswerte und Varianzen der wichtigsten stetigen Verteilungen haben wir in Tabelle 8.1 am Ende des Abschnitts zusammengestellt. Auch fiir stetige Zufallsvariablen gibt es eine Transformationsformel, die es ermoglicht, den Erwartungswert von u(X) zu berechnen ohne erst ihre Verteilung zu bestimmen.
Satz 8.14 (Transformationsformel fiir den Erwartungswert) Es sei X eine stetige Zufallsuariable mit Dichte f und u : R + R eine messbare Abbildung. Dann gilt
wenn das Integral auf der rechten Seite absolut konvergent ist. Beweis. Wir konnen den Beweis hier nur fur strikt monotone und stetig differenzierbare Funktionen u geben. Dann hat Y = u(X) nach Satz 8.10 die Dichtefunktion fv(y) = l%u-l(y)l f (u-'(y)), und so gilt
Mit Hilfsmitteln der Mafltheorie kann ein Beweis fur beliebige messbare Funktionen u und beliebige Zufallsvariablen X gegeben werden. 0 Die Varianz sowie die Kovarianz haben wir in Definition 5.9 und in Definition 6.31 fiir beliebige Zufallsvariablen eingefuhrt. Alle Satze, die wir in Kapite15 und 6 fur Erwartungswerte, Varianzen und Kovarianzen bewiesen haben und bei denen nicht ausdrucklich gefordert wurde, dass die Zufallsvariablen diskret sind, behalten aucb fiir stetige und sogar fiir beliebige Zufallsvariablen ihre Gultigkeit. Wir berechnen im folgenden Beispiel die Varianzen einiger Zufallsvariablen, wobei wir die Identitat Var(X) = E ( X 2 ) - (EX)' aus Satz 5.10 verwenden. Beispiel 8.15 (i) Fur eine auf [a, b] gleichverteilte Zufallsvariable X gilt
8.5 Erwartungswert und Varianz
175
und somit
(ii) Fur eine N(b, u2)-verteilte Zufallsvariable X gilt Var(X) = E ( X - fi)2 = =
/
u2gzZe1
-Y2/2dg
2 6/ v ( w - ~ l / ~ ) d ~ - 2( [ - v e I-.. + / .-&zdg) -
6
1
2
= ,2,
Damit sehen wir, dass der Parameter u2 einer N(p, u2)-Verteilung genau die Varianz ist. Insbesondere hat die N(0, 1)-Verteilung Erwartungswert 0 und Varianz 1, wodurch die Bezeichung Standardnormalverteilung erkl8j.t wird.
IVerteilung
1 Wahrscheinlichkeitsdichte
E ( X ) Var(X)
1
Tabelle 8.1. Dichtefunktionen, Erwartungswerte und Varianzen wichtiger stetiger Verteilungen
Die Erwartungswerte und Varianzen der wichtigsten stetigen Verteilungen haben wir in Tabelle 8.1 zusammengestellt. Die Beweise finden sich zum Teil im Text und zum Teil in den ubungsaufgaben.
176
8. Stetige Verteilungen
ubungen ubung 8.21 Berechne Erwartungswert und Varianz der Gammaverteilung, der exponentiellen Verteilung, der Xi-Verteilung und der Betaverteilung und iiberpriife Tabelle 8.1. ubung 8.22 ~ b e q x i i f edie Formel fiir die Dichte der Xz-~erteilung, die in Tabelle 8.1 angegeben ist. ubung 8.23 Berechne Erwartungswert und Varianz einer Pareto-verteilten Zufallsvariablen, siehe Ubung 8.4. Fiir welche Werte von X existieren Erwartungswert und Varianz? ubung 8.24 Gegeben sei eine Zufallsvariable X rnit Dichtefunktion f x ( x ) = 2e-2rlio,m,(x). Bestimme den Erwartungswert der Zufallsvariablen Y = e" auf zwei vekchiedene Arten, zum einen rnit der Definition, d.h. als J yfy(y)dy, und zum anderen rnit der Transformationsformel, d.h. als J e" fx(x)dx.
bung 8.25 Es sei X eine auf [O, 11 gleichverteilte Zufallsvariable. Berechne den Erwartungswert von Y = auf zwei verschiedene Arten, rnit der Definition und rnit der Transformationsforme1.
a
8.6 Aufgaben Aufgabe 8.1 Es sei X eine exponentiell verteilte Zufallsvariable und E eine von X unabhangige Zufallsvariable rnit P(E= 1) = P(E= -1) = .; Bestimme die Dichte von E X . (Die zu E X gehijrige Verteilung heifit in der Statistik auch Laplace-Verteilung, da Laplace sie als Verteilung von Messfeblern postuliert hat. Man beacbte, dass es keinen Zusammenhang zu der diskreten Laplace-Verteilung gibt.) Aufgabe 8.2 Es seien X und Y Zufallsvariablen rnit Dicbtefunktionen f bzw. g und eine von X und Y unabhangige, Bernoulli-verteilte Zufallsvariable. Bestimme die Dichtefunktion von < X + (1- <)Y.
<
Aufgabe 8.3 Bestimme die Verteilungsfunktion einer geometrisch verteilten Zufallsvariablen. Es sei (X,),>I eine Folge von geometrisch verteilten Zufallsvariablen rnit Parametern X > 0, und es bezeichne F, die Verteilungsfunktion von XJn. Bestimme F ( x ) = lim,, F,(x).
T;
Aufgabe 8.4 Es sei X eine Zufallsvariable, fiir die EIXlP, p > 0 existiert. Zeige, dass dann ElXlq fur alle q E [O,p] existiert. (Fur den Beweis darf zusatzlich angenommen werden, dass X entweder diskret oder stetig ist. Das Ergebnis gilt ganz allgemein.)
9. Mehrdimensionale stetige Verteilungen
Entsprechend den Gegehenheiten im diskreten Fall sind auch fiir Zufallsvariablen mit stetiger Verteilung zur Berechnung der Wahrscheinlichkeit von Ereignissen, die von mehreren Zufallsvariablen ahhangen, Informationen fiber die Verteilungen der einzelnen Zufallsvariablen nicht ausreichend. Diese Ausfuhrungen iiber mehrdimensionale stetige Verteilungen kniipfen auf zwei Weisen an vorhergehende Kapitel an. Zum einen an Kapitel 6 , in dem wir, noch vor der Einfiihrnng von stetigen Verteilungen, den ubergang von eindimensionalen zu mehrdimensionalen Verteilungen behandelt hahen. Alle Satze dort, die nicht ausdrticklich Wahrscheinlichkeitsfunktionen nennen, sind auch fur den stetigen Fall gultig. Zum anderen schlieDen wir bei Kapitel 8 an und haben nun weiterhin mit Dichtefunktionen und Integrationen anstelle von Wahrscheinlichkeitsfunktionen und Summationen zu tun. Zur Vereinfachung der Darstellung werden wir uns im Folgenden auf 2-dimensionale Verteilungen beschrwken.
9.1 Gemeinsame und marginale Dichten Definition 9.1 Eine inteon'erbare. nicht-neoative Funktion f : B2 + B hzrl(1 g~rrrc~r~comtH'nhrqr~h~rr~lrcl.k~rls~lrclrIr ilcr %r,Ji~ll~r~orinhlrrr X. \ ' od
Wir benutzen Jiir J auch die Bezeichnungen (gemeinsame) Dichtebnktion oder (gemeinsame) Dichte. Wir hahen im Anschluss an die Definition der Dichte im eindimensionalen Fall in Bemerkung 8.2 einige Anmerkungen gemacht, die hier ganz entsprechend gelten. Auch die Uberlegungen zum intuitiven VerstBndnis der Dichtefunktion konnen wir fiir den mehrdimensionalen Fall weiterfiihren, indem wir in Identitat (8.3) Interval1 durch Rechteck und Lange durch Flacheninhalt ersetzen. Fur ein kleines Rechteck AR um den Punkt (I,y) gilt dann
178
9. Mehrdimensionale stetige Verteilungen
Sind (XI, YI), . . . , (X,, Y,) unabhejlgige Zufallsvektoren mit Dichtefunktion f (x, y), so ist f (x, y) analog zur Approximation (8.4) der Limes der empirischen Dichten
wie wir in Abb. 9.1 an einem Beispiel dargestellt haben.
Abb. 9.1. 2-dimensionale Dichte f(x,y) = $exp(-$(x2 + 4(y - z)')) (links), Hohenlinien sowie n = 100 Realisierungen von Zufallsvariablen mit dieser Dichte (rechts)
In vielen Anwendungen beniitigen wir eine Verallgemeinerung der Identitiit (9.1) f(ir beliebige glatte Gehiete. In der Theorie der mehrfachen Riemann-Integrale heifit ein Gebiet A C IhS2 glatt, wenn der Rand von A eine stetige, stiickweise stetig differenzierbare Knrve ist. Fiir solche Gebie, f (x, y)dxdy im Riemann'schen Sinn definieren. Wer mit der te 1aBt sich S Lebesgue'schen Integrationstheorie vertraut ist, kann ,glattc durch ,messbar' ersetzen. Lemma 9.2 Es seien X , Y Zufallsvariablen mit der gemeinsamen Dichtefunktion f (x, y). Dann gilt fir jedes glatte Gehiet A C R2
Beweis. Fur Vereinigungen disjunkter Rechtecke folgt die Behauptung aus Ident,itat (9.1) mit der Additivitat von Wahrscheinlichkeiten und Integralen. Beliehige glatte Gebiete kljnnen wir durch Vereinigungen disjunkter Rechtecke approximieren. Auf die Ausftihrung der Details dieses Beweises verzich0 ten wir an dieser Stelle.
9.1 Gemeinsame und marginale Dichten
179
Gleichverteilung. In Erweiterung der Definition (8.5) der Gleichverteilung fur Intervalle definieren wir fiir jedes glatte Gebiet I c R2 mit endlichem Flacheninhalt die Gleichverteilung auf I durch die Dichte
Fur ein Gebiet A C I ist die Wahrscheinlichkeit einer Realisierung in A dann proportional zum FlXcheninhalt von A. Die Gleichverteilung ist ein Model1 ftir d'ie zufallige Wahl eines Punktes in I.
Abb. 9.2. P(IX - YI 5 t) (links), P(X + Y 5 t) (rechts), siehe Beispiel 9.3
Beispiel 9.3 (i) Es sei (X, Y) gleichverteilt auf dem Einheitsquadrat [O,112, d.h. P ( ( X , Y ) E A) = IAl fiir jedes Gebiet A C [0,112.Wir fragen nach der $. Dieses Ereinnis konnen wir schreiben Wahrscheinlichkeit, dass IX - YI. < - a als {(X,Y) E A) mit A := {(x, y) : lx - yl 5 $1. Nun gilt IAl = $ und somit P ( I X - YI, < k) ', = P((X.YI, E A)~= *?. , Allgemeiner kijnnen wir nach der Wahrscheinlichkeit fragen, dass IX -YI 5 t , fur t E R Fur t < O ist dies ein unmogliches Ereignis und fur t > 1 ist es ein sicheres Ereignis, da (X, Y) auf [O,11' konzentriert ist. Fiir t E [O,11 gilt mit At := {(x, y) E [0,112: 1x - yl 5 t } , siehe Abb. 9.2, \
\
,
1 P ( l X - YI 5 t ) = P ( ( X , Y ) E At) = lAtl = 1- 2-(1 - t)2 = 1 - (1 - t)'. 2 Mit dieser Berechnung haben wir implizit auch die Verteilungsfunktion der Zufallsvariablen Z := IX - YI bestimmt. Es gilt fiir t 5 O fiir O < t < l fiir t z l .
180
9. Mehrdimensionale stetige Verteilungen
Da F stetig und sttickweise stetig differenzierbar ist, kiinnen wir mit Hilfe von Lemma 8.8 die Dichtefunktion von Z durch Differenzieren berechnen, und erhalten
(ii) Es hahe (X,Y) die Dichte f (x, y) = e-~"f~)l~o,,~(x)l~o,,~(y). Wir fraY. D a m bestimmen gen nach der Dichte der Zufallsvariablen Z := X wir die zugehorige Verteilungsfunktion F ( t ) = P ( X Y 5 t), und es gilt P ( X + Y I t ) = P ( ( X , Y ) E Dt) mit D t : = { ( x , y ) : x , y > O u n d x + y 5 t ) . Also folgt
+ +
fur t 2 0. Fiir t < 0 ist P ( X Verteilungsfunktion F(t) =
+Y
5 t)
1- eCt - teCt
= 0, und somit erhalten wir die
fur t 5 0 fur t > 0,
Da F stetig und stiickweise stetig differenzierbar ist, kiinnen wir wieder mit Lemma 8.8 die Dichte berechnen und erhalten
welches die Dichte einer Gamma(2,l)-Verteilung ist. Analog zum eindimensionalen Fall, Definition 8.3, fuhren wir die Verteilungsfunktion ein. Definition 9.4 Fur einen Zufallsvektor (X, Y), bzui. seine Verteilung, definieren wir die Verteilungsfunktion F : R2 + R durch
Wir nennen F auch die gemeimame Verteilungsfunktion der Zufallsuariablen X,Y. Die Verteilunmfunktion ist fur beliebice Zufallsvektoren definiert. Fur einen Zufallsvektor (X, Y) mit Wahrscheinlichkeitsfunktion p(x, y), bzw. mit Dichtefunktion f (x, y), kiinnen wir die Verteilungsfunktion jeweils wie folgt be-
9.1 Gemeinsame und marginale Dichten
181
Abb. 9.3. Gemeinsame Verteilungsfunktion F ( x , y ) (links) und P ( ( X , Y ) E (al, bl] x (az, ba] (rechts)
F(x, y) =
p(s,t)
(diskret)
(s,t):s
Die gemeinsame Verteilungsfunktion bestimmt eindeutig die gemeinsame Verteilung von X und Y, d.h. wir kannen P ( ( X , Y) E A) bestimmen, wenn wir die gemeinsame Verteilungsfunktion kennen. Es gilt fur ein Rechteck R = (al, bll x (az, b21
Es gilt auch im mehrdimensionalen Fall eine Analogie zu Satz 8.7 uber den Zusammenhang von Dichtefunktion und Verteilungsfunktion. Wenn F eine Dichtefunktion f hat, so gilt
Wir haben bislang in diesem Abschnitt im Wesentlichen angeknupft an die Abschnitte 8.1 und 8.2 und eine Erweiterung der Begriffsbildung fur eindimensionale stetige Zufallsvariablen zu mehrdimensionalen Zufallsvektoren durchgefuhrt. Nun werden wir weiterfuhrend zu Abschnitt 8.3 eine Transformationsformel fur gemeinsame Dicbten beweisen.
Satz 9.5 (Transformationsformel fur gemeinsame Dichtefunktionen) Es sei X = (XI,X2) ein Zufallsvektor mit Werten im offenen Gebiet M c R2 und
182
9. Mehrdimensionale stetige Verteilungen
Dichtefunktion f x . Ist N C R2 ein weiteres offenes Gebiet und u : M + N ein Diffeomorphismus, so hat Y = (Yl, Y2) := u(X1, X2) die Dichtefunktion
fur y E N und fy(y1, y2) = 0 augerhalb won N . Hierbei ist Ju-1 die Determinante der Jacobi-Matrix won up'. Beweis. Wir verwenden aus der Analysis die Transformationsformel fur Doppelintegrale. Fur ein glattes Gebiet A c N gilt
und somit ist f x (up' (yl, y2)) I Ju-1 (91, yz) I die Dichte von (Yl , Y2).
0
Abb. 9.4. Transformation gemeinsamer Dichten
Die der Transformationsformel zugrundeliegende Intuition ist ein Analogon zum eindimensionalen Fall, wenn wir verwenden, dass die Oberflache von u-' (AR) fur ein kleines Rechteck AR um (yl, y ~ mit ) Flacheninhalt lARl gegeben wird durch I J,-l (yl, y2)I . IARI. Dann folgt aus der Approximation 9.2
= ~X(~-~(Y~,Y~))IJ~-~(Y~,Y~)I. Anknupfend an Kapitel 6 werden wir uns nun mit marginalen Verteilungen, einer Transformationsformel fur Erwartungswerte sowie der Kovarianz beschaftigen. Sind X , Y zwei Zufallsvariablen mit gemeinsamer Dichte
9.1 Gemeinsame und marginale Dichten
183
f (x, y), so heiflen die Dichten von X und Y die erste bzw. zweite marginale Dichte. Das folgende Lemma, ein Analogon zu Satz 6.5, gibt an, wie wir die Dichte von X bestimmen konnen, wenn wir die gemeinsame Dichte kennen. L e m m a 9.6 Es sei (X,Y) ein Zufallsvektor mit Dichtefunktion f(x, y). Dann ist die Dichte won X gegeben durch
und Entsprechendes gilt fiir fy(y). Beweis. Fiir a < b gilt
Aus dieser Identitiit folgt, dass
J f (x, y) dy die Dichte von X ist.
0
Abb. 9.5. Marginale Dichte "on X fiir eine Gleichverteilung auf dem Dreieck A,
siehe Beispiel 9.7(i) Beispiel 9.7 (i) Es sei (X, Y) gleichverteilt auf dem Dreieck
d.h. wegen IAl = $ hat (X,Y) die Dichte f(x, y) = 2 . l a ( x , y). Die Dichte von X ist dann die erste marginale Dichte und mit Lemma 9.6 erhalten wir
siehe Abb. 9.5. (ii) Es sei (XI, X2) gleichverteilt auf (0, I)', und es seien Zufallsvariablen K
184
9. h'lehrdimensionale stetige Verteihngen
und Yz d c h i c r t durch Yl :=
XI und2'l
:= Xz. Dann ist dic Abbiidung
x 2
u : R+ x R+ + R+ x R+ *nit ZL(ZI,ZZ) := ( ' l , ~ ? ) eine bijektive Abbildung, I 2 dercn Inverse gcgebcn ist durch v(yl, yz) = (yl y2,7jz). Die Jacobi-Matrix
'
, und sie hat die Determinante J,(yl, yz) = gz. 1) Es folgt mit der TransformationsformeI far gemeinsame Dichten ( 9 4 , da u und v stetig diffcrcnzicrbar sind,
dieser Abbildung ist
(0
wobei A das Gebiet der Punkte (y,, R)mit 0 < yl g2 < 1 und 0 < y2 < 1 ist,, d.h. A := {(YI,y2) : 0 < g2 < 1, 0 < y1 < l/yz). Dimes Gehiet ist genau das Bild von (0, unter der Abbildimg u, siehe 4bb. 9.6. Aus der gemeinsamen
t"' i 21 Abb. 9.6. Bild von (0,l)' unter der Ahbildung (x1,q) c, (-,x2)
a2
Dichte k6nnen wir nun mit Lemma 9.6 die Dichte von 15 bestimmen. Es ist die zweite Marginale der dnrch (9.5) gegehenen Dichte fiir 0 < ?/I ~ ~ A ( Y I , Y= z)~Y~
,fil''y 2 d ~
<1
fiir gl 2 I
fiirO
In diesem Beispiel haben wir nun die Methode, die wir schon im B e wcis dcr Faltungsformel fiir diskrcte Zufdlsvariablen verwcndct haben, zur
9.1 Gemeinsame und marginale Dichten
185
Bestimmung der Verteilung einer stetigen Zufallsvariablen nntzen kljnnen. Wenn die gemeinsame Verteilnng von X1, X2 bekannt ist, so wahlen wir znr Bestimmung der Verteilung einer Zufallsvariablen YI = ul(X1, XZ) zunachst eine zweite Funktion uz : R2 + R so, dass (u1,uz) : R2 + R2 ein Diffeomorphismus ist. Anschlieflend suchen wir die gemeinsame Dichte von Yl, Y2, wobei & = u2(XI, X2), mit Hilfe der Transformationsformel nnd berechnen die Dichte von YI als erste Marginale durch Integration. Im obigen Beispiel ist dies sicher ein umstandliches Verfahren zur Bestimmung der Dichte von aber manches Ma1 ist diese Methode ein einfacherer Weg als der direkte. X I' Auch fiir mehrdimensionale stetige Zufallsvariablen gibt es eine Transformationsformel fiir Erwartungswerte. Wir konnen diese Formel im Rahmen dieser Einfiihrung nicht beweisen. In einem mafitheoretisch fundierten Aufbau der Wahrscheinlichkeitsrechnung ist diese Transformationsformel ein Spezialfall einer allgemeinen Transformationsformel fiir Integrale. Diese umfasst dann alle bisher bewiesenen Transformationsformdn fiir Erwartungswerte, fur ein- bzw. mehrdimensionale diskrete Zufallsvariablen und fiir eindimensionale stetige Zufallsvariablen.
Satz 9.8 (Transformationsformel fur den Erwartungswert) Es seien X1 und Xz Zufallsvariablen mit gemeinsamer Dichte f und u : R2 + R eine messbare Abbildung. Dann gilt
wenn das Integral auf der reehten Seite absolut konvergent ist Beispiel 9.9 Das zufallige Wiiblen eines Pnnktes ans dem Dreieck A = {(x,y) : 0 x, y 5 1,O x y 1) lasst sich modellieren durch einen auf A gleichverteilten Zufallsvektor (X,Y). Wir betrachten das Rechteck R mit Eckpnnkten (0,O) und (X, Y) und fragen nach dem Erwartnngswert des Flacheninhalts yon R. Es gilt offensichtlich IRI = X . Y und somit
<
< + <
Wir schliefien diesen Abschnitt ab mit einigen Anmerkungen iiber Km varianz und Korrelationskoeffizienten, die an Abschnitt 6.4 anknupfen. Fur stetige Zufallsvariablen bleibt die Definition 6.31 der Kovarianz und des Korrelationskoeffizienten unverandert erhalten, die wir dort bereits fiir beliebige Zufallsvariablen formuliert haben. Gleiches gilt fiir die in Satz 6.32 zusammengestellten Eigenschaften, da wir in Definition 6.10 auch den Begriff der stochastischen Unabhejlgigkeit fur beliebige Zufallsvariablen definiert haben. Die Interpretation der Kovarianz und des Korrelationskoeffizienten als Mafl fiir den linearen Zusammenhang der Zufallsvariablen l a s t sich ebenfalls iibertragen.
186
9. Mehrdimensionale stetige Verteilungen
4Y
4Y
<
<
+ <
Abb. 9.7. Zufalliges Rechteck in A = {(I, y) : 0 x,y 1, x y 1) (links) Lineare Regressionsgerade von Y auf X fiir eine Gleichverteilung auf A (rechts)
Beispiel 9.10 Fur die im Beispiel (9.9) definierten Zufallsvariablen gilt EX =2
x dxdg = 2
['(I1-'dx) dg
Da aus Symmetriegrunden ebenfalls E Y =
= i l ( l - .)'dg
1 3
=-
i,folgt
1 1 Cov(X,Y) = E(XY) - (EX)(EY) = - - - = 12 9
1 36
Weiter ist
&.
Also gilt fiir den Korrelationskoeffizienten und somit Var(X) = - = px,y = -$. GemBB Satz 6.33 ist der beste lineare Vorhersager von Y gegeben durch die Regressionsgerade f (x) = i ( 1 - x). Mit Hilfe der Darstellung in Abb. 9.7 konnen wir dies auch intuitiv einsehen.
ubung 9.1 Es sei (X,Y) gleichverteilt auf dem Einheitsquadrat (0,l)'. Bestimme die Verteilungsfunktion von Y/X und die zugehorige Dichte.
+
bung 9.2 Es sei (X, Y) auf dem Dreieck A = {(x, y) : 0 < x, y < 1,x y < 1) gleichverteilt. (i) Bestimme die marginalen Dichten f x und f u . (ii) Bestimme die Verteilungsfunktion sowie die Dichte von Y/X. (iii) Bestimme die gemeinsame Dichte von X und Y/X und daraus erneut die marginale Dichte von Y/X. ubung 9.3 Bestimme die Dichte von Y - X , wenn X , Y die gemeinsame Dichte hat. )(~) f(x,y) = e - * - u l ( ~ , w ~ ( x ) l ( ~ , m
9.2 Unabhangigkeit stetiger Zufallsvariablen
187
ubung 9.4 Wahle zufallig einen Punkt (X,Y) aus der Einheitskreisscheibe B = I(">Y) : "> Y > 0, x 2 + y2 5 1). (i) Bestimme die Dichte von X sowie von Y.
(ii) Berechne den Erwartungswert des Flacheninhalts des Rechtecks mit den Eckpunkten (0,O) und (X, Y). (iii) Bestimme die Kovarianz von X und Y. ubung 9.5 Beweise Satz 9.8, die Transformationsformel fiir den Erwartungswert, fiir die Funktion u(x,y) = x. ubung 9.6 Es sei (X, Y) gleichverteilt auf (0,l)' und Z := Y/X. Berechne E(&)
auf zwei Weisen, einmal als die Dichte von & ist.
Jl Jl m
d z dy und dann als
Jd tf*(t)dt,
wobei fa
9.2 Unabhhgigkeit stetiger Zufallsvariablen Wir hahen in Kapitel 3 eine Unabhiingigkeitseigenschaft ftir Ereignisse definiert und darauf aufbauend die Definition 6.10 fiir die Unabhangigkeit heliebiger Zufallsvariablen gegehen. Fiir diskrete Zufallsvariablen haben wir schon in Abschnitt 6.2 gezeigt, dass die Unabhangigkeit an der gemeinsamen Wahrscheinlichkeitsfunktion zu erkennen ist. In Satz 6.12 haben wir bewiesen, dass eine notwendige und hinreichende Bedingung dafiir die Faktorisierbarkeit der Wahrscheinlichkeitsfunktion ist. Nun betrachten wir fiir den stetigen Fall die gemeinsame Dichtefunktion und heweisen einen analogen Sachverhalt.
Satz 9.11 Die gemeinsame Dichtefunktion unabhbngiger stetiger Zufallsuariablen X , Y ist gleich d e n Produkt der marginalen Diehtefunktionen, d.h.
Hat umgekehrt die gemeinsame Dichtefunktion eine Produktgestalt, d.h.
so sind X und Y unabhiingige Zufallswariablen n i t den marginalen Dichtefunktionen f x ( x ) = a 4 ( x ) und f y ( y ) = P $ ( y ) , wobei a := (J$(x)dx)-' und p := ( J $ ( y ) d y ) - ' . Beweis. Sind X und Y unabhangige Zufallsvariablen, so folgt gema0 Definition 6.10, dass ftir beliebige a1, bl,az, bz E R gilt
und somit hat X, Y die gemeinsame Dichtefunktion fx ( x )f y ( y )
188
9. Mehrdimensionale stetige Verteilungen
Zum Beweis der Umkehrung bemerken wir zunachst, dass aus (9.7) und der Definition der Dichtefunktion folgt
und somit cu /3 = 1. Also gilt
d.h. X hat die Dichtefunktion cu$(x). Ebenso lasst sich zeigen, dass Y die Dichte /3 $(y) hat. Damit folgt fiir beliebige Intervalle (al, bl], (az, bz] C R
So haben wir gezeigt, dass X und Y unabhangige Zufallsvariablen sind. Fiir unabhejlgige diskrete Zufallsvariablen X , Y haben wir in Satz 6.16 gezeigt, dass E(XY) = (EX) (EY). Diese Identitat gilt auch fur stet,ige Zufallsvariablen und den dafiir definierten Erwartungswert. Seien f bzw. g die marginalen Dichten von X und Y, so folgt
Ganz allgemein gilt diese Eigenschaft fiir beliebige unabhejlgige Zufallsvariablen. In Folge bleiben dann die Satze 6.32 und 6.17, dass unabhangige Zufallsvariablen unkorreliert sind und dass die Varianz einer Summe unabhangiger Zufallsvariablen die Summe der Varianzen ist, gultig.
Beispiel 9.12 (i) Es seien X und Y unabhangige, auf [O,11 gleichverteilte Zufallsvariablen. Dann hat (X,Y) die Dichte
9.2 Unahhangigkeit stet,iger Zufallsvariahlen
189
Abb. 9.8. Zwei Punkte uuahhangig aus [O, 11 zu wahlen entspricht der Wahl eines aus [O. 11'. Der Ahstand 1 . Y -Y[ist glcich dem vertikalen Ahstand Punktcs (X,Y) zur Diagonale in [O, 11'.
imd somit ist (X, Y)gleichverteilt anf [O,11'. Also ist das unahhsngige, zufXllige Wihlen zweier Zahlen aus [O,11 gleich der zufaligen JVahl eines Punktes aus [O,112. (ii) Wir betrachten den Abstand Z := IX - YI zweier zuMlig ans [O,11 gewahlter Znhlen und fragen nach dessen Verteilung. Nach (i) ist diese gleich der Verteilung des Ahstmdes der beiden Koordinaten eines zufdlig aus clern Einheitsquadrat [O,112 gewshlt,en Punktes. Die Verteilnng von Z und ihre Dichtefunktion haben wir im Beispiel 9.3 bereits bestimmt. (iii) Es seien X und Y unabhangige Gamma-verteilte Zufallsvariablen rnit Parametern (T,A) bzw. (s,A). Wir wollen die Vdeilung der Zufallsvariahlen V := $ best,immen. Diese Fragestellung kijnnen wir geometrisch so formulieren, dass wir die St,eigung der Geraden, die (X,Y) mit dcm Urspmng Y )die gemeinsame Dichte verbindet, berechnen wollen. Nun hat (S,
Da
$ > 0,gilt P ($ < t)
(;-)
= 0 fiir t
P - < t = P(Y
5 0. Fiir t > 0 kiinnen wir umformcn
< tX)= P((X,Y)E At),
wobei At := {(x,y): y 5 tx}. D a m gilt
9. Mehrdimensionale stetige Verteilungen
190
hat. Dieses Ergebnis kijnnen wir auch erhalten, indem wir die gemeinsame Dichte von X, bestimmen und anschlieflend daraus die zweite Marginale.
5
(iv) Wir werden nun weiter die Dichte der Zufallsvariablen W := y & bestimmen, wobei X und Y wie in (iii) definiert sind. Mit dem oben definierten V = gilt W = und wir verwenden die Transformationsformel (8.14) fur u(v) = Die inverse Abbildung von u ist u-'(w) = $ - 1 und es gilt dd,u-'(w) = -$. Die Dichtefunktion von V haben wir in (9.8) bestimmt und damit gilt
5
&.
&,
~d(l
Da das Integral - w~)~-'w~-ldw fiir r , s > 0 genau die Betafunktion B(r,s) definiert und fiir alle Dichten J f (w)dw = 1 gilt, erhalten wir als Zwischenschritt
Diese Identitat fur die Betafunktion, die wir hier mit Hilfsmitteln der Wahrscheinlichkeitsrechnung bewiesen haben, ist in der Analysis anf direktem Wege nicht so leicht zu beweisen.
9.2 Unabbangigkeit stetiger Zufallsvariablen
191
Wir kiinnen nun die Dichtefunktion f w damit weiter umformen und erhalten
Also hat W =
eine Beta(r, s)-Verteilung.
Im Folgenden wollen wir die Dichte einer Summe unahhangiger, stetiger Zufallsvariablen hestimmen.
Satz 9.13 (Faltungsformel ftir Dichten) Es seien X und Y unabhdngige Zufallsuariablen rnit Dichten f bzw. g. Dann hat ihre Summe Z = X Y die Dichte
+
Beweis. Wir bestimmen die Verteilungsfunktion von X + Y. Da X und Y unahhangig sind, hat (X, Y) die Dichte f (x)g(y), und es folgt
+
Also hat X Y die Dichte analog bewiesen werden.
Sf (t- y)g(y)dy und die zweite Identitat kann 0
Mit der Identitat (9.9) wird eine Operation definiert, die zwei integrierbaren Funktionen eine dritte Funktion zuordnet. Diese Operation heiBt Faltung und das Ergebnis heiDt Faltungsprodnkt der Funktionen f und g. Als Symbol verwenden wir f * g. Dies ist eine Analogie zu dem mit (6.13) definierten Faltungsprodukt fiir Wahrscheinlichkeitsfunktionen. Damit kiinnen wir Satz 9.13 kurz formulieren. Die Dichte der Summe zweier unabhbgiger Zufallsvariablen ist das Faltungsprodukt der einzelnen Dichten.
Beispiel 9.14 Es seien X und Y unabhangige Zufallsvariablen mit einer Gamma(r, A) bzw. Gamma(8, A)-Verteilung. Mit Hilfe der Faltungsformel lasst sich die Dichte der Summe X + Y berechnen
192
9. Mehrdimensionale stetige Verteilungen
Also hat X + Y eine Gamma(r+s, A)-Verteilung. Mit vollstejldiger Induktion konnen wir diese Aussage erweitern auf eine Summe von n Gamma(ri, A)verteilten Zufallsvariablen Xi. Die Zufallsvariable S, = Cr=lXi ist dann Gamma-verteilt mit Parametern r = Cy=ri und A. Fiir den Sonderfall rl = . . . = r, = 1erhalten wir die Aussage, dass die Summe von n unabhangigen Exp(A)-verteilten Zufallsvariablen Gamma(n, A)-verteilt ist. Analoge Zusammenhange gelten im diskreten Fall fiir die geometrische und die negativbinomiale Verteilung, siehe Ijbung 6.10 und 6.11. Es gibt einen tieferen und allgemeineren Zusammenhang. Die exponentielle bzw. die Gammaverteilung beschreiben die Wartezeit bis zum ersten bzw. n-ten Erfolg bei einer ,stetigen Folge von Bernoulli-Experimented, womit wir uns im Kapitel 11 iiber Poissonprozesse beschaftigen werden.
ubung 9.7 Es seien X und Y unabhkgige N(0, 1)-verteilte Zufallsvariablen. Bestimme die gemeinsame Dichte von (X, $) sowie die Dichte von $.
bung 9.8 Bestimme das Faltungsprodukt der Dichten zweier auf [O, 11 gleichverteilter Zufallsvariablen. ubung 9.9 Es seien X und Y unabhangige Zufdsvariablen. X sei N(0, 1)-verteilt und Y > 0 habe die Dichte f . Bestimme die Dichte von X . Y. ubung 9.10 Es seien X und Y unabhangige, auf [O, 11 gleichverteilte Zufallsvari* blen. Bestimme die Dichten von Y - X sowie yon X . Y. ubung 9.11 (i) Es seien X I , . . . , X, unabhangige, identisch verteilte Zufallsvariahlen mit Verteilungsfunktion F(z). Zeige, dass U := min(X1,. . . ,X,) und V := max(X1,. . . ,X,) die Verteilungsfunktionen Fu(u) = 1- (1 -F(u))" bzw. Fv(w) = ( F ( W ) )haben. ~ (ii) Bestimme die Dichten von U bzw. V unter der Voraussetzung, dass F die Dichte f hat.
9.3 Die momenterzeugende Funktion
193
9.3 Die momenterzeugende Funktion Im Abschnitt 7.3 haben wir fiir beliebige Zufallsvariablen die momenterzeugende Funktion m(t) = EetX definiert. Nun konnen wir ftir Zufallsvariablen mit stetiger Verteilung unter Verwendung der Transformationsforme1 (8.16) die momenterzeugende Funktion m einer Zufallsvariablen X mit Dichte f wie folgt berechnen
Die momenterzeugende Funktion ist ein sehr nutzliches Hilfsmittel bei der Bestimmung der Vert,eilung einer Summe unabhangiger Zufallsvariablen. Die Satze, die in Abschnitt 7.3 aufgefiihrt sind, gelten ftir beliebige Zufallsvariablen, insbesondere Satz 7.18, dass die momenterzeugende Funktion einer Summe unahhangiger Zufallsvariablen gleich dem Produkt der momenterzeugenden Funktionen ist. Beispiel 9.15 (i) Eine Gamma(r, A)-verteilte Zufallsvariable X hat die momenterzeugende Funktion
wobei wir fiir die letzte Identitat verwendet haben, dass der Integrand die Dichtefunktion der Gamma(r, X - t)-Verteilung ist. Diese Berechnungen gelten fiir t < A. Fur t X existiert die momenterzeugende Funktion nicht. Sind nun X und Y unabhbgige, Gamma(r, A) bzw. Gamma($, A)-verteilte Zufallsvariablen, so hat X Y nach Satz 7.18 die momenterzeugende Funktion
>
+
Dies ist die moment,erzeugende Funktion einer Gamma(r + s, A)-Verteilung, und mit der Aussage von Satz 7.17 konnen wir daraus folgern, dass X + Y eine Gamma(r 5, A)-Verteilung hat. (ii) Eine N ( 0 , 1)-verteilte Zufallsvariable X hat die momenterzeugende Funktion
+
194
9. Mehrdimensionale stetige Verteilungen
wobei wir fiir die letzte Identit& verwendet haben, dass &e-i(x-t)z die Dichtefunktion der N(t, 1)-Verteilung ist. Eine N(fi,u2)-verteilte Zufallsvariable Y kijnnen wir aucb schreiben als Y = u X + fi, wohei X eine N(0,l)Verteilung hat. Somit hat Y nacb Lemma 7.14 die momenterzeugende Funktion
Sind nun X und Y unabhhgige, N ( ~ I , U ?bzw. ) N ( ~ Z , U ~ ) - v e r t e iZufallslte variablen, so hat X Y nach Satz 7.18 die momenterzeugende Funktion
+
Dies ist die momenterzeugende Funktion einer N(p1 +fiz, u;+ui)-Verteilung. Mit der Aussage von Satz 7.17 kiinnen wir also daraus folgern, dass die Summe zweier unabhhgiger, normalverteilter Zufallsvariablen wieder normalverteilt ist, wobei beide Parameter jeweils aufaddiert werden miissen.
$1 gleichverteilten Zufallsvariablen und die momenterzeugende Funktion einer Verte~lung, die die Dichte f(x) = (1 - ~ x ~ ) l ~ ~ l ,hat. , l ( xZeige, ) dass die Summe X + Y der unabhbgigen, auf [-$, $1 gleichverteilten Zufallsvariablen X und Y die Dichtefunktion f hat. ubung 9.12 Bestimme die momenterzeugende Funktion einer auf [-$,
9.4 Maximum, Minimum und Ordnungsstatistiken Es seien X I , . . . ,X, reellwertige Zufallsvariablen. Fiir jedes feste w E Q haben wir die Moglichkeit, die Werte Xl(w), . . . ,X,(w) der GroDe nach zu ordnen. Wir definieren neue Zufallsvariablen X(k), die fiir jedes w E IZ den Wert haben, der an der k-ten Stelle der GroOenordnung steht, 1 5 k 5 a. Insbesondere gilt X(lj = min{X1,. . . ,X,) X(,) = max{Xl,. . . ,X,).
195
9.4 Maximum, Minimum und Ordnungsstatistiken
Definition 9.16 Die Zufallsvan'ablen Xll1,. . . ,XI,) heijlen die Ordnungsstatistik der Zufallsvan'ablen X I , . .. ,X,, wenn f i r jedes w E f2 gilt
und (Xlll(w), . . . ,Xln)(w)) = (Xcl (w), .. . ,X", (w)), wobei (UI, . .. ,on)eine Permutation von (1, . .. ,n ) ist. X(k) heijlt die k-te Ordnungsstatistik der Zufallsva~ablenX I , . . . ,X,. Eine andere Schreibweise fiir die Ordnungsstatistik ist (XnT1,.. . ,X,:,). Diese Schreihweise ist vor allem dann sinnvoll, wenn n variieren kann, da dabei die Abhhgigkeit von n deutlich zum Ausdruck kommt. Wir hestimmen nun die Verteilungsfunktion sowie die Dichte der einzelnen Ordnungsstatistiken.
Satz 9.17 Es seien XI,. . . ,X, unabhdngige, identisch ver-teilte Zufallsuariablen mit Verteilungsfunktion F . Dann ist die Verteilmgsfunktion Flklder k-ten Ordnvngsstatistik Xikl gegeben durch
Haben die Zufallsvariablen die Dichte f, so hat die k-te Ordnungsstatistik XI,) eine Dichte, welch,e gegeben ist durch
Beweis. Ftir jedes feste x gilt X(k)(w) 5 x genau dann, wenn mindestens k der Beohachtungswerte Xl(w), . . . ,X,(w) im Interval1 (-co, x] liegen. Betrachten wir nun zu jedem i E {1,. . . , n ) die Ereignisse {w : X,(w) x) (Erfolg) und {w : Xi(w) > x) (Misserfolg), so bedeutet dies, dass unter den n Bernoulli-Experimenten mindestens k Erfolge eintreten mtissen. Die Erfolgswahrscheinlichkeit ist P ( X i x) = F(x), und somit gilt
<
<
Wir hestimmen die Dichte von X(k) gemafl Lemma 8.8 durch Differenzieren der Verteilungsfunktion F ( k ) nach x und erhalten so
196
9. Mehrdimensionale stetige Verteilungen
Beim Urnformen haben wir die heiden Identitaten j ( 7 ) = n(r:i) und ( n - j ) ( ; ) = n ( " i l ) verwendet. Auf der rechten Seite haben wir nun eine teleskopische Summe. Die Summanden hehen sich bis auf den ersten Term ' r j = n gleich O ist. fur j = k auf, da ( n ; ' ) ( F ( z ) ) j ( l - F ( x ) ) ~ - ~ -fii Haben wir nun n nnabhangige, identisch verteilte Zufallsvariablen, so konnen wir die Dichten des Minimums sowie des Maximums dieser Zufallsvariableu mit Hilfe dieses Satzes bestimmen, da X(,) das Minimum und X(,) das Maximum ist,. Es gilt
was sich ubrigens auch direkt zeigen l b s t , siehe ubung 9.11
Beispiel 9.18 Wir bestimmen die Dichte der k-ten Ordnungsstatistik vou n nnabhangigen, auf [0, 11 gleichverteilten Zufallsvariablen. Die Gleichverteilung auf dem Einheitsintervall ist definiert durch die Dichte f ( x ) = l ~ o , l l ( z ) und die Verteilungsfunktion ist F ( z ) = x auf [0, 11. Also hat X(k) mit Satz 9.17 die Dichtefunktion
m,
wobei wir verwendet haben, dass r ( n ) = ( a - I ) ! nnd B ( r , s ) = siehe 9.12. Damit haben wir gezeigt, dass die k-te Ordnungsstatistik von n unahhangigen, auf [O,11 gleichverteilten Zufallsvariablen B e t a ( k , n - k 1)verteilt ist.
+
9.4 Maximum, Minimum und Ordnungsstatistiken
197
Abb. 9.9. Empirische Verteilungsfunktion "on n = 10 Beobachtungen.
In engem Zusammenhang zu den Ordnungsstatistiken steht die empirische Verteilung der Beobachtungen X I , . . . ,X,, die jedem Beobachtungswert die Wahrscheinlichkeitsmasse zuordnet. In Abh. 9.9 ist eine Darstellung der Verteilungsfunktion dieser diskreten Verteilung gegeben. Diese Verteilungsfunktion hat Spriinge der GroDe an jedem der Beobachtungswerte.
A
Definition 9.19 Es seien X I , . . . ,Xn reellwertige Zufallsvariablen. Dann hei& die finktion Fn : R + [O,11, gegeben durch 1 Fn(z) := -
c
l{x,sz)
i=l
die empirische Verteilungsfunktion. Die empirische Verteilungsfunktion ist eine auf LJdefinierte Zufallsvariable, die wir auch mit F,(x, w) bezeichnen. Jede Realisiernng von F, fiir festes w E f2 ist eine Verteilungsfunktion auf R Auch diese Realisierung heifit empirische Verteilungsfunktion. Der Zusammenhang zwischen der empiriscben Verteilungsfunktion und der Ordnungsstatistik besteht in der folgenden Aquivalenz
Fiir festes x E R ist F,(x) eine reellwertige Zufallsvariable, fiir die gilt n Fn(x) = C:='=l{x,<,). , Sind die Zufallsvariablen X I , . . . ,Xn unahhangig und identisch verteilt, so ist nF,(x) die Summe von n unahhangigen Bernoulliverteilten Zufallsvariablen mit Erfolgswahrscheinlichkeit p = F ( x ) = P(X, x), und somit hat nFn(x) eine Bin(n, F(x))-Verteilung. Mit diesen Begriffsbildungen konnen wir den Beweis des ersten Teils von Satz 9.17 auch so geben
<
198
9. Mehrdimensionale stetige Verteilungen
ubungen ubung 9.13 Es seien XI,. . . ,X, unabhangige, Exp(Xl), . . . , Exp(An)-verteilte
Zufallsvariablen. Bestimme die Verteilung von min (XI,. . . , X,). Uberpriife fiir den Spezialfall A1 = . . . = A,, dass dies mit dem Resultat von Satz 9.17 iibereinstimmt.
bung 9.14 Es seien XI und Xz unabhangige, auf [O, 11 gleichverteilte Zufallsvariablen. Bestimme die gemeinsame Verteilung von U := min(X1, X2) und V := max(X1, Xz). Zeige, dass die marginalen Verteilungen Betaverteilungen sind. ubung 9.15 Es seien XI,. . . , X, unabhhgige, Pareto(2)-verteilte Zufallsvariablen. Berechne die Wahrscheinlichkeit p,(k), dass k der Zufallsvariablen einen Wert x 2 n annehmen und bestimme eine Approximation fur p,(k). ubung 9.16 Es seien XI,. . . ,X, unabhbgige, Exp(A)-verteilteZufallsvariablen. Zu einer Folge (a,),21 sei p,(k) die Wahrscheinlichkeit, dass k der Zufallsvariablen einen Wert x 2 a, annehmen. Bestimme eine Folge (a,),?~ so, dass lim,+,p,(k) existiert.
9.5 Geometrische Wahrscheinlichkeiten In diesem Abschnitt werden wir uns mit der Modellierung von Experimenten beschiiftigen, in denen ein geometrisches Objekt, etwa ein Punkt, eine Gerade oder ein Intervall, eine zentrale Rolle spielen oder hilfreicb sein konnen. Die dabei zu berechnenden Wahrscheinlichkeiten von Ereignissen heiBen geometrische Wahrscheinlichkeiten. Meist beginnt die Aufgabenstellung damit, dass ein geometrisches Objekt zufallig gewahlt wird. In der Geschicht e der Wahrscheinlichkeitstheorie haben geometrische Wahrscheinlichkeiten unter anderem deshalb eine wichtige Rolle gespielt, weil hierbei immer wieder Paradoxa auftreten, die Anlass zn Diskussionen iiber die Modellierung des Phanomens der ,zufdligen Wahl' waren und sind. Wahrend es ein eindentiges Model1 fiir die zufallige Wahl eines Objektes aus einer endlichen Menge gibt, namlich den Laplace-Raum, ist es bei der Ziehung aus einer unendlichen Menge moglich, verschiedene, intnitiv passende Modelle fiir die Aufgabenstellung des zufdligen Ziehens zn machen. Das sogenannte Bertrand'sche Paradoxon, siehe ubung 9.18, beruht vollstandig darauf, dass wir das znfallige Wahlen einer Gerade in R2 verschieden modellieren konnen, und dass in diesen unterschiedlichen Modellen dann ein- und demselben Ereignis verschiedene Wahrscheinlichkeiten zugeordnet werden. Wir miissen daher bei den folgenden Beispielen stets bedenken, dass die Berechnungen nur innerhalb des gewahlten Modells gelten.
Das Buffon'sche Nadelproblem. Gegeben sei ein Linienraster von parallelen Geraden mit Abstand 1, auf das wir zufallig eine Nadel der Lange 2a werfen, wobei 0 < a < $. Wir fragen nach der Wahrscheinlichkeit, dass die Nadel eine Gerade schneidet. Zuerst henotigen wir ein passendes Model1 fiir das ,zufallige Werfen einer Nadel'. Das gesnchte Ereignis ist eindeutig
Sesl@gL durch deli Absland z zwischen der Nadelniiue und der nBchsten darun'ergele~ene~l CC:eraden sowie clem Winkel 9 z~vischencler Nadel und einer Senkrecliten aul'dem Lhienraster, sielie A t h 9.10. Diese GrtiWen ktinnet~ . r~nd?, verstehen. Wir mawir als Realisierungen uon Z11fidl6vi1riablen Y chm die \.lodell;&nntthine, dass A' ond lfi t~nabhiingige~ auf [O?I ] b w . [0,2 ri] gl(i<:hv(:rt,r!ilt.c. Z~fillls\~;~si,ll~l~z~ s i d . DII~III (:xit.spri(:ht(IWL gw1(.11t(!11E,n+is, dms dic S;l,(b:l die nii,rhrt,c!dan~rrt(:rg~:l~!g(~r~~: G~ranL:s(:hxl(~idct, die B(:ding~mg rrl (:os 91 > :r imd ;~.n;~log fiir dl(!xliichst,~~ o l ~ ~ ~ l ~ ; ~ ~ (:krarh: ~ ~ g ~ :cli~: l ~B(ali11!g~x~~~ ~1111g1- r~:lcc~sql< :c. L)icw txidcx~Ckbict,c hnbcn in dcr (a!(s)-Ebcnc ((ic in Abl)il~h~ng 9.11 arrgcficbcxrc FOSIII. Uic gc~ncins;m~c \'ostcihrx~g VOII (S, @) ist. cirrc Glcichvcrtcilimg ;in€ d c ~ nHi?cht.cck [O, 11 x [(I, 2n] 1m1 somit gilt fiir das schraffirrtr Gehiet. 4 miter Aosnntmng der S>mmrt~imige~~s<:httftet~
Wir kiinrrr:r~elm R(:sult.;~tdm B~~tioxi'sd~(xr N ~ J . ~ ~ ( ' ~ ~ ~;J.II(.~I ~ o ~cLhm ) ~ ( !1I ~~I sI I I I T , rkn ~ ~ ,Wr!rt vorr ?: ;u~niih(mx~srnisc zu l)(~xtimrncrr:inclrm wir clir!w:s c:iufnchc Expcrimcut oft wicticrholcn.
200
9. Mehrdimensionale stetige Verteilungen
Lbgenproportional verzerrte Stichproben. Wir gehen in ein Gefiingnis und fragen jeden Gefangenen danach, zu welcher Haftstrafe er verurteilt wurde. Kijnnen wir uns aus diesen Angaben, wenn wir nur ausreichend viele Gefangene befragen, ein unverfalschtes Bild davon machen, zu welcher Lange von Haftst,rafen die Gefangenen verurteilt worden sind? Es wird sich herausstellen, dass dies nicht der Fall ist, weil Gefangene mit langen Haftstrafen in diesen Stichproben uberrepr%entiert sind. Sie haben einfach eine grijflere Chance, am Tage unseres Besuches im Gefangnis zn sitzen. Ein ahnliches Phiinomen erleben wir, wenn wir uns auf diese Weise mit der Fkage nach der Lebensdauer aller Gluhbirnen, die in den in unserem Arbeitszimmer installierten Lampen brennen, beschaftigen. Gehen wir jeweils von den zu einem Zeitpunkt intakten Gliihbirnen aus, so sind die langlebigen Gluhbirnen in der Stichprobe uberreprasentiert. Es kommt haufiger vor und ist nicht leicht zu verstehen, warum scheinbar unverfalschte Stichproben fur eine bestimmte Ragestellung eine verfiilschte Antwort geben.
Abb. 9.12. Langenproportional verzerrte Stichproben
Wir wollen dieses Prohlem an einem einfachen Beispiel niiher nntersucben. Die Haftdauer der Gefangnisinsassen modellieren wir als Intervall mit zufdliger Lange X und zufalligem Mittelpunkt U , wobei wir zusatzlich annehmen, dass X und U stochastisch unabhejlgig sind. Fur die Lange X nehmen wir an, dass sie eine Dichte p(x) habe, die auf (0, co) konzentriert ist. Fur den Mittelpunkt U wurden wir am besten annehmen, dass er auf R gleichverteilt ist. Aber es gibt keine Gleichverteilung auf $ denn die zugehljrige Dichte f ( u ) miisst,e auf R konstant sein, und dies ist mit der Bedingung J f (u)du = 1 unvereinbar. So wahlen wir fur U eine Gleichverteilung auf ( - c , c) und berechnen anschlieflend den Grenzwert fur c gegen m. Es sei t o der Zeitpunkt unseres Besuches im Gefhgnis. Den von uns wahrgenommenen L b g e n der Haftstrafen liegt zngrunde die bedingte Verteilung von X gegeben, dass das Interval1 (U U den Punkt t o iiberdeckt.
5, + r)
9.5 Geometrische Wahrscheinlichkeiten
Letzteres ist gleichbedeutend mit IU - to1 <
201
und somit gilt
Der Zahler gibt die Wahrscheinlichkeit an, dass das Paar (U, X ) im Gebiet
liegt. In Ahbildung 9.12 ist dieses Gebiet in der (u,x)-Ehene skizziert. Die Dichte von (U, X ) ist wegen der Unahhangigkeit von U und X nach Satz 9.11 gleich $l(-,,,)(u)p(x) und somit gilt
sowie lU-to15-
)
=
J:
([(to + $1 A C] - [(to -
S) V (-c)])
p(x)dx
g ([(to + $1 A cl - [(to - $1 v (-c)]) p(x)dx'
Machen wir nun den Grenziihergang c + oo,so konvergieren beide Integranden gegen
An dieser Stelle benutzen wir nun einen Satz aus der Mdtheorie, den Satz von der monotonen Konvergenz, der besagt, dass unter den hier gegebenen Bedingungen Grenztihergang und Integration vertauscht werden konnen. So erhalten wir
Die gesuchte Verteilung hat also die Dichte xp(x)/ xp(x)dx und diese ist genau dann definiert, wenn Jxp(z)dx < oo,d.h. wenn E X existiert. AbschlieBend betrachten wir ein konkretes Zahlenbeispiel. Wir nehmen an, dass X , die Haftdauer der Gefbgnisinsassen, Exp(1)-verteilt ist, d.h. p(x) = e-51(0,,)(x). In diesem Fall ist Jxp(x)dx = 1 und somit hat die Lange des beobachteten Intervalls die Dichte xe-". Dies ist die Dichte einer Gamma(2,l)-Verteilung, deren Erwartungswert 2 ist und damit genau das Doppelte von E X .
ubung 9.17 Wir w&len zwei Punkte X und Y unabhan ig voneinander, zufdlig aus der Einheitskreisscheihe B = { ( x I , x ~E) W2 : x: x52 5 1). Zusammen mit dem Mittelpunkt des Kreises definieren diese Punkte ein Dreieck, siehe Ahb. 9.13.
+
Berechne den Erwartungswert des Flacheninhalts dieses Dreiecks.
202
9. Mehrdimensionale stetige Verteilungen
Abb. 9.13. Zufalliges Dreieck in der Einheitskreisscheibe (links), Bertrand'sches Problem (rechts) ubung 9.18 (Bertrand'sches Paradoxon) Wir wihlen zufallig eine Sekante aus dem Einheitskreis SI = {(zl, zz) E R' : x f + x ; = 1) und fragen nach der Verteilung ihrer Lange L. Da 4 die LZnge einer Seite des dem Einheitskreis eingeschriebenen gleichseitigen Dreiecks ist, fragen wir inshesondere nach der Wahrscheinlichkeit, dass L > &. Wir konnen diese Frage unter folgenden zwei Modellannahmen berechnen, die uns verschiedene Antworten geben. Dies ist in der Literatur unter dem Namen ,Bertrand'sches Paradoxon' bekannt. (i) Die Sekante wird durch ihren Mittelpunkt M festgelegt, wekher zufdlig aus der Einheitskreisscheibe ausgewahlt wird. (ii) Die Sekante wird festgelegt durch ihre beiden Endpunkte P, Q E SI. Wir nehmen an, dass diese unabhhgig voneinander g e m s einer Gleichverteilung auf SI gewahlt werden.
9.6 Bedingte Dichten Wir haben in Definition 6.19 die bedingte Verteilung von Y gegeben X = x fur diskrete Zufallsvariahlen X und Y mit P(X = x) > 0 definiert, indem wir direkt an die Definition 3.10 der bedingten Wahrscheinlichkeit bei Ereignissen angeknupft haben. Dies ist nun fur stetige Zufallsvariablen nicht moglich, da in diesem Fall das Ereignis {X = x} stets Wahrscheinlichkeit 0 hat. Im diskreten Fall haben wir dann gesehen, dass die bedingte Verteilung von Y gegehen X = x vollstandig durch die bedingte Wahrscheinlichkeitsfunktion beschrieben ist und dass gilt p(y1x) = P(Y E AIX = x) = x p ( y l x ) . YEA
Diese uberlegungen motivieren die folgende Definition fur den stetigen Fall.
9.6 Bedingte Dichten
203
Definition 9.20 Es seien X , Y stetige Zufallsvariablen mit gemeinsamer Dichte f ( x , y). (i) Dann wird die bedingte Dichte f (ylx) von Y gegeben X = x definiert durch
fur f x ( x ) = 0. (ii) Die bedingte Verteilung won Y gegeben X = x ist die Verteilung mit Dichtefunktion f (y lx), d.h. P ( Y E AIX = x) :=
S,
f (ylx) dy.
Abb. 9.14. Bedingte Dichte (links), P ( Y E Alx
5 X 5 x + E) (rechts)
Zu der Definition der bedingten Verteilung konnen wir auch noch mit Hilfe einer Grenzwertbetrachtung Zugang finden. Es seien X und Y stetige Zufallsvariablen mit gemeinsamer Dichtefunktion f (x, y) und x E X ( 0 ) ein Punkt im Wertebereich von X mit f x ( x ) > 0. Wir wollen nun die bedingte Wahrscheinlichkeit P ( Y E AIX = x) als Grenzwert bedingter Wahrscheinlichkeiten P ( Y E Alx 5 X 5 x E) einfuhren. Wir erhalten
+
S,"+' fx ( t )dt und somit hat die bedingte Verteilung von Y gegeben x 5 X 5 x + r im Limes Da es sich hier um heuristische uberlegungen fur r i 0 die Dichte handelt, haben wir auf em exaktes Bedenken, unter welchen Bedingungen dieser Grenzubergang korrekt ist, verzichtet.
$$$.
204
9. Mehrdimensionale stetige Verteilungen
Definition 9.21 Es seien X , Y stetige Zufallsvariablen mit gemeinsamer Dichte f(x, y). Der bedingte Ewartungswert von Y gegeben X = x ist der Ewartungswert beziiglich der bedingten Dichte, d.h.
In Kapitel 6 haben wir fiir diskrete Zufallsvariablen Satze uber die bedingte Erwartung und die bedingte Verteilung bewiesen, welche auch fiir stetige Zufallsvariablen ihre Giiltigkeit behalten. Insbesondere gilt auch im stetigen Fall die Formel von der totalen Erwartung
wobei E ( Y IX) die Zufallsvariable ist, die wir durch Verkntipfen yon X mit der Funktion u(x) = E(YIX = x) erhalten. Fur stetige Zufallsvariablen konnen wir diese Formel wie folgt beweisen
=
//
yf(x,y) dydx = EY.
Beispiel 9.22 (i) Es sei (X, Y) gleichverteilt auf dem Dreieck A = {(x, y) : 0 5 y 5 x 5 1). Wie im Beispiel 9.7 berechnet, hat X die marginale Dichte f x ( x ) = 2 ~ 1 ~ ~ , und ~ ~ (soxist ) ,die bedingte Dichte von Y gegeben X = x
Gegeben X = x hat Y also eine Gleichverteilung auf dem Interval1 [O,x]. Der bedingte Erwartungswert von Y gegeben X = x ist damit 5 und so folgt
Da Y die marginale Dichte fu(y) = 2 (1- y) llo,ll(y)hat, erhalten wir nun E Y = J , 2 y (1 - y) dy = $, und dies ist auch die Aussage des Satzes von der totalen Erwartung in diesem Fall. (ii) Es seien X I , . . . ,X, nnabhangige, Exp(1)-verteilte Zufallsvariablen. Wir werden nun die hedingte Verteilung von XI gegeben S := Xl . . . X, bestimmen, und d a m benotigen wir zuerst die gemeinsame Verteilung von X1 nnd S. Wir verwenden eine Methode, die bei solchen Aufgabenstellungen haufig sehr hilfreicb ist. Zunachst definieren wir eine weitere Zufallsvariable Y := X2 . . . + X,, wobei wir bemerken, dass X1 und Y unabhejlgig sind.
+ +
+
9.6 Bedingte Dichten
205
Ans Beispiel 9.14 wissen wir, dass Y eine Gamma(n - 1,l)-Verteilung hat, und rnit Satz 9.11 ist die gemeinsame Dichte von XI und Y gegeben dnrch
Da S = XI + Y , konnen wir hieraus die gemeinsame Dichte von X1 und S rnit Hilfe der Transformationsforme1 aus Satz 9.5 angewendet auf die Abbildung u(x1, y) = (x1,xl y) berechnen. Die zugehorige inverse Abbildung ist
+
und diese lineare Abbildnng hat die Jacobi-Det,erminante 1. Also gilt
Zur Bestimmung der bedingten Dichte von XI gegeben S = s benijtigen wir noch die marginale Dichte von S . Diese konnten wir rnit Lemma 9.6 dnrch Integration von fx,,s(xl, s ) iiber XI berechnen. Diesen Rechenaufwand ersparen wir uns rnit der Bemerkung, dass S als Summe von n nnabhangigen, Exp(1)-verteilten Zufallsvariahlen eine Gamma(n, 1) Verteilung hat, und s e rnit die Dichte
Ans der gemeinsamen Dichte von X1 und S nnd der marginalen Dichte von S konnen wir nun rnit der Definition 9.20 die bedingte Dichte von X1 gegeben S = s wie folgt bestimmen
%
(iii) Weiterfiihrend zu (ii) bestimmen wir noch die bedingte Dichte von gegehen S = s. Da wir nach S = s hedingen, diirfen wir S als Konstant,e betrachten. Hat X die Dichte f(x), so hat $ die Dichte af (ax). Also hat gegeben S = s die Dichte (n - 1)(1- U ) ~ - ~ ~ ~ ~welches , ~ ) ( die U )Dichte , des Minimums von (n - 1)unabhangigen U([O,11)-verteilten Zufallsvariahlen ist. Dieses Resultat hat noch eine weitergehende Verallgemeinernng, siehe Anfgabe 9.11. Der Vektor
%
hat dieselhe gemeinsame Verteilung wie die Ordnungsstatistik von (n - 1) auf [O, 11 gleichverteilten Zufallsvariablen. Dieses Ergebnis spielt eine wichtige Rolle beim Studium der Ordnungsstatistik sowie der empirischen Verteilungsfunktion.
206
9. Mehrdimensionale stetige Verteilungen
ubungen ubung 9.19 Es seien XI und Xz unabhangige Gamma-verteilte Zufallsvariablen mit Parametern (71,A) bzw. (rz,A). Bestimme die bedingte Dichte von XI gegeben x1+x2=s.
9.7 Die mehrdimensionale Normalverteilung
Abb. 9.15. Dichte der 2-dimensionden Standardnormalverteilung (links) und Dichte einer 2-dimensionalen Normdverteilung (rechts) In diesem Abschnitt werden wir das mehrdimensionale Analogon der Normalverteilung einftihren und untersuchen. Als Ausgangspunkt wahlen wir eine Verallgemeinerung der Standardnormalverteilung.
n-dimensionale Standardnormalverteilung. Es seien Zl, . . . ,Zn unabhejlgige N(0,l)-verteilte Zufallsvariablen, die wir fiir diese Verteilung nun zum Spaltenvektor Z = (21,. . . ,Zn)t zusammenfassen. Die Verteilung des Vektors Z heifit Standardnormalverteilung im Rn. Ihre gemeinsame Dichte ist dann nacb Satz 9.11
bzw. in vektorieller Schreibweise
mit t = (a,.. . , z,)~. Erwartungswert und Kovarianzmatrix von Z sind gegeben durch
9.7 Die mehrdimmsionale Normalverteillmg
207
wobei 0 E R" der Nullvektor und I, E Rnxndie Einheitsmatrix ist. In Analogie znm eindimensionalen Fall verwendet man daher als Symhol fiir die n.-dimensionale Standardnormalverteilung N(0, I,,). n.-dimensionale Normalverteilung. Sei Z ein N(0, I,,)-verteilter Zufallsvektor und sei A eine n x ir-Mat,rix sowie E Rn.Dann lieiRt die Verteilung van
eine n-dimensionale Normalverteilung. Nach Satz 6.36 sind der Erwartungswert und die Kovarimz~natrixvon A' gegehen durch
Im nzchsten Satz bestimrnen wir die Dichtefunktion von X, wenn A und somit auch die Kovarianzmat,rix Cx invertierbar ist. Satz 9.23 Eine n-dimensionale Nownalrierteilung hat genau dann eine Dichte, wenn ihre Kovariantmatris C intiertierbar ist. In diesem Fall ast die gem.ein.mme Dichte
Beweis. Zur Bestimmung der Dichte wenden wir die Transformationsformel fiir gemeinsame Dichten aus Satz 9.5 an fiir die Abbildnng u ( t ) = A t Ir. Unter der Voraussetzong, dass die Kovarianzmatrix und damit aucb 4 invertierbar ist, gilt dann u-'(x) = -4-'(x - p). Also folgt
+
f (x) = I dct K1lfi(A-'(x
-
1
(2x)4 1 det A1 1 (27r)"P21det A1
- p))
- p)' (.4-')'A-'(x
- p)
- p ) L ( ~ ~ L ) -l (P.) x
sodass mit Z = AA1 nnd det C = (det A)2 rler erste Teil des Beweises gegeben ist. k t umgekehrt die Kovarianzmatrix und damit auch A nicht invertierbar, so ist X = AZ + p auf einen echten Unterraum von R" konzentriert und kann darnit keine Dichte habcn. 0
208
9. Mehrdimensionale stetige Verteilungen
Aus Satz 9.23 und der obigen Bemerkung konnen wir schlieflen, dass die Verteilung von X = AZ + f i fiir invertierbare A nur von f i und C = AAt abhangt. Dies gilt sogar ganz allgemein, auch fiir nicht-invertierbare A, aber dazu ist ein anderer Beweis erforderlich. Zusammenfassend gilt,, dass die ndimensionale Normalverteilung vollst,&ndigbestimmt ist durch den Erwartungswert fi und die Kovarianzmatrix C , und dies rechtfertigt die Schreibweise N ( f i ,C ) . Wir untersuchen jetzt die zweidimensionale Normalverteilung, die in Abb. 9.15 dargestellt ist. Es seien X l , X 2 gemeinsam normalverteilt mit Varianzen := Var(Xl),u2 := Var(X2) und Korrelationskoeffizienten p := px,,x, = Cov(X1,X Z ) / U I UDann ~ . hat die Kovarianzmatrix die Form
UT
Die Determinante von C ist det C = (1- p2)uTu2 und die inverse Matrix
Daraus ergibt sich mit Satz 9.23 fiir die gemeinsame Dichte von X I , X2
Satz 9.24 Haben X I und Xz die gemeinsame Dichte (9.14), so hat X I eine N(fi1,uT)-Verteilung und Xz gegeben Xl = x eine Nonnalverteilung mit Emartungswert fiz p z ( x l - f i 1 ) und Varianz (1 - p2)u$.
+
Beweis. Wir konnen die gemeinsame Dichte f ( X I , 2 2 ) von ( X I X2) , auch schreiben als
wobei
Durch Umformung der Terme im Exponenten lasst sich die Dichte umschreiben zu
9.7 Die mehrdimensionale Normalverteilung
209
wobei
Wir erkennen nun in
fur festes x l die Dichte einer Normalverteilung mit den Parametern fiz + p z ( x l - fl1) und (1 - p2)u$. SO ergibt die Integration dieser Funktion den Wert 1. Wir erhalten nach Lemma 9.6 folgende Formel fiir die Dichte von Xl
und dies ist die Dichte einer N(wl, u2)-Verteilung. Analog konnen wir zeigen, dass X2 eine N(b2, ug)-Verteilung hat. Fur die bedingte Dichte von XZ gegeben XI = x l gilt per definitionem
und von dieser Funkt,ion hatten wir mit Hilfe des Terms B(z1, . . x2). bereits festgestellt, dass sie die Dichte einer N(fi2 + p z ( x l - bl), (1- p)2u$)-Verteilung ist. 0 Bemerkenswert an der Aussage des obigen Satzes ist, dass E(X21X1 = = flz p$(xl - fl1) eine lineare Funktion in zl ist. In Zusammenhang mit Satz 6.21, der allgemein fur alle Zufallsvariablen gilt, bedentet dies, dass fur normalverteilte Zufallsvariablen lineare Vorhersager nicht schlechter als nicbtlineare Vorhersager sind. Dies ist einer der Griinde, warum Normalverteilungsannahmen in der Statistik so beliebt sind. Man kann stets lineare Vorhersager benutzen und lineare Verfahren sind besonders gut zn berechnen, da sie durch zwei Parameter bestimmt sind. XI)
+
Satz 9.25 Es seien XI,. . . ,X, Zufallsvariablen, deren gemeinsame Verteilung eine n-dimensionale Normalverteilung ist. Sind XI, . . . ,X, paarweise unkorreliert, so sind sie unabhangig.
9. Mehrdimensionale stetige Verteilungen
210
Beweis. Aus der paarweisen Unkorreliertheit von X I , . . . ,X, folgt, dass die Kovarianzmatrix & eine Diagonalform hat mit Diagonalelementen u: = Var(X,). Damit lasst sich die gemeinsame Dichte
als Produkt der marginalen Dicht,en schreiben und nach Satz 9.11 sind die 0 Zufallsvariablen XI, . . . ,Xn unabhbgig.
ubung 9.20 Es seien X und Y unabhbgige N(0,l)-verteilte Zufallsvariablen. Bestimme die gemeinsame Dichte von ( X , X oY) sowie die bedingte Dichte von X uY gegeben X = x.
+
+
ubung 9.21 Zeige, dass es zu jedem p E Wn und jeder nicht-negativ definiten Matrix C eine n-dimensionale Normalverteilung mit Erwartungswert p und Kova rianzmatrix C gibt. ubung 9.22 Es seien X I , . . . , X, unabhangige N(0, 1)-verteilte Zufallsvariablen und a l , . . . ,a, E R Bestimme die Verteilung von C:=,a,X,. ubung 9.23 Es sei ( X I , .. . ,X,) ein n-dimensional normalverteilter Zufallsvektor mit Erwartungswert p und Kovarianzmatrix C . Bestimme die Verteilung von C:=,a,Xi fiir al,.. . ,a, E W.
9.8 Aufgaben Aufgabe 9.1 Es seien X und Y unahhangige, exponentiell verteilte Zufallsvariablen. Bestimme die gemeinsame Dichte von (X, $) sowie die Dichte (Die Tatsache, dass E = oo, hei0t Warteschlangenparadoxon. von Interpretiert man X und Y als die Wartezeiten von zwei Kunden, die in verschiedenen Warteschlangen an der Kasse st,ehen, so ist der Erwartungswert und $ unendlich gro0. So haben also beide stets das Gefiihl, in der von falschen Warteschlange zu stehen!)
5.
(g)
5
Aufgabe 9.2 Beweise folgenden Satz fiir beliebige Zufallsvariablen, d.h. es sol1 weder die Voraussetzung diskret noch stetig gemacht werden. Zwei Zufallsvariablen X und Y sind genau dann unabhangig, wenn ihre gemeinsame Verteilungsfunktion F(x, y) = P ( X 1 x, Y 5 y) das Produkt der marginalen Verteilungsfunktionen Fx (x) und Fy (y) ist. (Hinweis: verwende Identitat (9.4))
9.8 Aufgaben
211
Aufgabe 9.3 Wir wahlen zufallig einen Punkt (X, Y) aus der Einheitsscheibe
(i) Bestimme Verteilungsfunktion und Dichte von R := d
m sowie von
1x1.
(ii) Bestimme Verteilungsfunktion uud Dichte von (R, @),wobei @ der Winkel ist, den (X,Y) mit der x-Achse hildet. (iii) Zeige, dass R und @ unabhtingig sind. Aufgabe 9.4 Sei f eine stetige Dichtefunktion auf (0, m),und sei F, die empirische Verteilungsfunktion von n unabhangigen Zufallsvariablen mit dieser Dichte. Zeige, dass die Verteilung von nF,(E) gegen eine Poisson-Verteilung mit Parameter xf (0) konvergiert. (nF,(E) kiinnen wir uns vorstellen als die durch eine Lupe betrachtete empirische Verteilung.) Aufgabe 9.5 Es seien X und Y zwei unabhangige Exp($)-verteilte Zufallsvariablen. Bestimme die Dichte von X - Y. Aufgabe 9.6 Es seien X I , . . . ,X, unabhangige, Exp(X)-verteilte Zufallsvariablen. Wir definieren S, := Xl + . . . X, und Nt := max{n : S, t). (i) Bestimme die Verteilung der Zufallsvariablen N t . (ii) Bestimme die Dichte f, von &A und lim,,, f,(x).
<
+
m
Aufgabe 9.7 Es seien UI, . . . , U, unabhangige, U(0,l)- verteilte Zufallsvariablen. (i) Bestimme
P(U1 5 . . .
< U,).
(ii) Berechne
Aufgabe 9.8 Wir wahlen zufdlig einen Punkt (X, Y) aus dem Einheitsquadrat (0,l)'. Bestimme die Verteilungsfunktion und die Dichte der Steigung der Geraden, die (X, Y) mit dem Ursprung (0,O) verhindet. Aufgabe 9.9 Es seien U und V unabhwgige Zufallsvariablen, wobei U eine U(O,2?r)-Verteilungund V eine Exp($)-Verteilung hat. Wir w&blen nun den zufalligen Punkt (X, Y) E R2 mit Polarkoordinaten R = flund @ = U. (i) Bestimme die gemeinsame Dichte von X und Y. (ii) Zeige, dass X und Y unabhangig sind und hestimme die marginalen Dichten.
212
9. Mehrdimensionale stetige Verteilungen
Aufgabe 9.10 Es seien X l und X 2 unabhbgige Zufallsvariablen mit einer Gamma(r1, A) bzw. Gamma(r2, A)-Verteilung. X I X2) und zeige, dass (i) Bestimme die gemeinsame Dichte von (&, und X I Xz unabhangig sind. (ii) Bestimme die Dichte von &.
+
+
Aufgabe 9.11 Es seien X I , . . . , Xn unabhwgige, Exp(X)-verteilte Zufallsvariahlen, und es sei Sk := X I . . . Xk. (i) Bestimme die gemeinsame Dichte von S1,. . . ,&+I. S" (ii) Bestimme die gemeinsame Dicht,e von .. . , S;;;;, &+I. S" (iii) Bestimme die gemeinsame Dichte von , . .. , =.
+ +
&, &
Aufgabe 9.12 Es sei X eine diskrete Zufallsvariable mit Werten in No und Wahrscheinlichkeitsfunktion p(k). U sei eine U ( 0 ,1)-verteilte und von X unabhejlgige Zufallsvariable. Bestimme die Verteilung und Dichte von X U .
+
Aufgabe 9.13 Bestimme Verteilungsfunktion und Dichte des Abstandes eines zufallig aus [O, 11' gewahlten Punktes vom Ursprung (0,O). Aufgabe 9.14 Es seien X und Y unabhangige Zufallsvariablen mit Dichten f bzw. g. Best,imme die Dichte von X - Y. Aufgabe 9.15 Es seien X und Y unabh8ngige Zufallsvariablen mit Werten in (0, co) und Dichten f bzw. g. Bestimme eine Formel fiir die Dichte von X . Y sowie von Y I X .
10. Der Zentrale Grenzwertsatz
Der Graph der Verteilungsfunktion einer Summe von n unabhangigen, identisch verteilten Zufallsvariablen mit endlicher Varianz gleicht fiir groBe n stets mehr und mehr der Verteilungsfunktion einer Normalverteilung. Diese bemerkenswerte Tatsache ist eines der fundamentalen Ergebnisse der Wahrscheinlichkeitstheorie und wird der ,Zentrale Grenzwertsatz' (ZGS) genannt. Es gibt ein breites Spektrum von Anwendungen, von approximativen Berechnungen von Wahrscheinlichkeiten bis zur Motivation fiir die Verwendung der Normalverteilung in statistischen Modellen. In diesem Kapitel werden wir eine exakte Formulierung des Zentralen Grenzwertsat,zes geben und diesen fiir Bernoulli-verteilte Zufallsvariablen beweisen. In der geschichtlichen Entwicklung der Wahrscheinlichkeitstheorie hat der Zentrale Grenzwertsatz eine ebenso herausragende Bedeutung wie das Gesetz der groDen Zahlen. Erstmals wurde der Zentrale Grenzwertsatz in dem 1733 erschienenen Buch ,The doctrine of chances' von Abraham de Moivre veroffentlicht, und zwar fiir Summen unabhangiger Bernoulli-verteilter Zufallsvariablen. Die Dichtefunktion der Normalverteilung, die spater auch GauBsche Dichtefunktion genannt wurde, wurde dort ebenso erstmalig erwahnt. In den 20er und 30er Jahren des 20. Jahrhunderts wurde in den Arbeiten von William Feller (1906-1970) und Paul Lbvy (1886-1971) die Gtilt,igkeit des ZGS fiir beliebige unabhangige, nicht notwendig identisch verteilte Zufallsvariablen untersucht. Erweiterungen, etwa auf abhhgige Zufallsvariablen oder auf Zufallsvariablen mit Werten in Funktionenraumen, sind no& Gegenstand der aktuellen Forschung.
10.1 Motivation und Formulierung des ZGS Wenn wir die Wahrscheinlichkeitsfunktion einer Summe von n unabhangigen, Bernoulli(;)-verteilten Zufallsvariablen betrachten, so wie sie in Abbildung 10.1 fur n = 3,5,10,20 dargestellt ist, dann erkennen wir, dass diese Wahrscheinlichkeitsfunktion der Dichte einer Normalverteilung stets 8hnlicher wird. Dasselbe Phanomen entdecken wir auch, wenn wir die Wahrscheinlichkeitsfunktion der Summe von n unabhhgigen, identisch verteilten, Zwertigen Zufallsvariablen mit endlicher Varianz betrachten, ungeachtet welche Verteilung die Zufallsvariablen haben. Die Wahrscheinlichkeitsfunktion
10. Der Zentrale Grenzwertsatz
Abb. 10.1. Wahrscheinlichkeitsfunktion einer Summe von n unabhangigen, Bernoulli(+)-verteiltenZufallsvariablen fiir n = 3 , 5 , 1 0 , 2 0
Bhnelt mit wachsendem n mehr und mehr der Dichte einer Normalverteilung. Wir miissen jedoch feststellen, dass die Wahrscheinlichkeitsfunktion selbst nicht konvergiert. Im Beispiel der Bernoulli-verteilten Zufallsvariahlen und beide Werte konvergieist der Erwartungswert und die Varianz ren gegen w. Ohne die in den Abbildungen vorgenommene Reskalierung der Achsen wiirde der Graph der Wahrscheinlichkeitsfunktion stet,s breiter und flacher werden und gegen w driften. Um Konvergenz der Wahrscheinlichkeitsfunktion zu erhalten, unterwerfen wir die Partialsummen S, := XI+. . .+X, einer Transformation mit dem Ziel, eine standardisierte Zufallsvariable mit Erwartungswert 0 und Varianz 1 zu erhalten. Sind X I , . . . ,X, unabhhgige, identisch verteilte Zufallsvariahlen mit Erwartungswert /I und Varianz u2,so wissen wir, dass S, Erwartungswert nfi und Varianz nu2 hat. Wir definieren die standardisierte Zufallsvariable S:, wie folgt
a,
' ar(S, - nw) = 1 ftir alle n. Mit Es gilt E(S;) = 0 und Var(S:) = V (.J;i) diesen Vorbereitungen konnen wir nun den Zentralen Grenzwertsatz formulieren. Dieser Satz gilt ganz allgemein und nicht nur fiir %-wertigeZufallsvariablen. Deshalb ist die Formulierung auch in Termen der Wahrscheinlichkeiten
10.1 Motivation und Formulierung des ZGS
215
5 S; 5 b) gegeben und nicht fiir Wahrscheinlichkeitsfunktionen bzw. P(S; = a). P(a
Satz 10.1 (Zentraler Grenzwertsatz) Seien X I , . . . ,X, unabhdngige, identisch uerteilte Zufallsuariablen mit endlicher, positiuer Varianz und S; die in (10.1) definierte stnndardisierte Zufallsvariable. Dann gilt fiir a, b E W mit a 5 b b
lim P ( a
nim
5 Si 5 b)
=
(10.2)
p(x)dx,
2
wobei p(x) = & e - ~ die standardn,onnale Dichtefunktion ist Die rechte Seite der Identitat (10.2) kiinnen wir auch lesen als die Wahrscheinlichkeit, dass eine N ( 0 , 1)-verteilte Zufallsvariable einen Wert zwischen a und b annimmt. Durch die Identitat (10.2) wird eine Konvergenz der standardisierten Zufallsvariablen S; beschrieben, die Konvergenz in Verteilung heiflt und in weiterfuhrenden Vorlesungen tiher Wahrscbeinlichkeitstheorie ausftihrlich betrachtet wird.
Beispiel 10.2 (i) Es seien X I , . . . ,X, unabhangige, Exp(1)-verteilte Zufallsvariablen. Dann ist = u2 = 1 nnd somit S; = (S, - n)/J;i. Der ZGS sagt aus, dass
Wir haben in Tabelle 10.1 ftir a = -1. b = 1 und verschiedene Werte von n die exakten Wahrscheinlichkeiten P scheinlichkeit der Standardnormalverteilung ftir [-I, 11 angegeben um einen Eindruck zu vermitteln, mit welcher Gtite dieser Wert zur Approximation geeignet ist.
Tabelle 10.1. Approximation der Verteilung einer Summe von
n
unahhangigen
Exp(1)-verteilten Zufallsvariahlen durch eine Normalverteilung
(ii) Es seien X I , . . . ,X, die Augenzahlen bei unabhangigen Wiirfen mit einem unverfalschten Wtirfel. Diese haben Erwartungswert fi = 3.5 und Varianz u2 = sz 2.917 . Der ZGS sagt dann, dass fiir die Augensumme S, gilt
216
10. Der Zentrale Grenzwertsatz
Wir konnen nun fragen nach der Wahrscheinlichkeit, dass hei n = 1000 Wurfen die Augensumme zwischen 3400 und 3600 liegt. Durch Umformen erhalten wir
Wir konnen dies Ergehnis auch so formulieren, dass die mittlere Augenzahl hei 1000 Wiirfen mit einem unverf&lschten Wiirfel mit einer Wahrscheinlichkeit von ungefahr 93.6% zwischen 3.4 und 3.6 liegt.
%
Einen vollstandigen Beweis des allgemeinen ZGS, so wie wir ihn im Satz 10.1 formnliert haben, konnen wir im Rahmen dieses einfiihrenden Buches nicht geben.
ubung 10.1 Es seien U I , .. . , U I ~ unabhbgige, U([O, 11)-verteilte Zufallsvariablen und Slz := UI . . . Ulz. Bestimme E(Sn), Var(S1z) und 2%. Berechne approximativ P ( 5 5 S12 5 7).
+ +
ubung 10.2 Zeige, dass die Aussage von Satz 10.1 aquivalent ist zur Behauptung,
dass
fiir alle x ist.
E
W, wobei @(x) die Verteilungsfunktion der Standardnormalverteilung
ubung 10.3 Wir werfen n-ma1 mit einem unverfalschten Wiirfel und bezeichnen mit S, die Augensumme. Wie groD miissen wir n walen, damit die mittlere Aumit 95% Wahrscheinlichkeit zwischen 3.49 und 3.51 liegt? genzahl
%
10.2 Vom lokalen zum zentralen Grenzwertsatz Das Phiinomen, dass die Verteilung einer Summe unahhangiger, identisch verteilter Zufallsvariablen stets mehr einer Normalverteilung gleicht, l&st sich auf verschiedene Weise mathematisch formulieren. Wir hahen in Satz 10.1 eine Formulierung fiir Wahrscheinlichkeiten P(a 5 Sf, 5 b) kennengelernt. Fiir
10.2 Vom lokalen zum zentralen Grenzwertsatz
217
Z-wertige Zufallsvariablen betrachten wir nun den lokalen Grenzwertsatz, der eine Aussage iiber Konvergenz der Wahrscheinlichkeitsfunktion P ( S ; = k ) macht. Wir beweisen dann, dass aus dem lokalen Grenzwertsatz der Zentrale Grenzwertsatz folgt. In Abbildung 10.1, die wir zur Motivation des ZGS betrachtet haben, ist eigentlich der lokale Grenzwertsatz dargestellt.
r
2
6
r----
Abb. 10.2. f, in alten Koordinaten (links), f, in neuen Koordinaten (rechts)
Wir betrachten jetzt unabhbgige, identisch verteilte Z-wertige Zufallsvariablen X I , . . . ,X , mit Erwartungswert f i und Varianz m 2 . Dann hat auch S , Werte in Z und so kann ihre Verteilung durch die Wabrscheinlichkeitsfunktion p,(k) = P ( S , = k ) beschrieben werden. Diese Funktion auf Z dehnen wir zu einer Funktion f , : R + R aus, indem wir
definieren. Damit gilt dann
In Abbildung 10.2(i) haben wir die so definierte Funktion f , fiir eine Summe von 6 unabhangigen, auf {I,2,3} gleichverteilten Zufallsvariablen, dargestellt. Da weder p, noch f, konvergieren, gehen wir wieder iiber zur Betrachtung der standardisierten Zufallsvariablen SE. Diese ist diskret mit Wertebereich : k E Z} und Wahrscheinlichkeitsfunktion
{%
k-nfi
-nfi)
= P ( S , = k ) = p,(k)
Den Graphen von p:, erhalten wir aus dem Graphen von p, durch Reskalierung der horizontalen Achse, d.h. durch Einfllhrung neuer Koordinaten
218
10. Der Zentrale Grenzwertsatz
Unter dieser Koordinatentransformation geht die Funktion f, dann uber in f;(x) = f,(njt Eufi), und der Abstand zwischen zwei Punkten im Wertebereich von S; ist nun Zur Wiederherstellung des Zusammenhangs zwischen Oberflache unter dem Graphen und den Wahrscheinlichkeiten P(S,r - )k - n ~ multiplizieren wir abschlieoend mit u f i und erhalten
+
&.
.Jii
Die Aussage des lokalen Grenzwerts$tzes ist, dass unter gewissen Voraussetzungen g,(x) gegen y(x) = &eC5 1' konvergiert, d.h. dass diese Reskalierung von f, genau passend is;.
Abb. 10.3. g,(x) und p(x) fiir eine Summe von n = 6 auf {1,2,3) gleichverteilten Zufallsvariablen (links), sowie n = 50 Bernoulli(;)-verteilten Zufallsvariablen (rechts)
Satz 10.3 (Lokaler Grenzwertsatz) Seien X I ,Xz, . . . unabhiingige, identisch uerteilte, Z-wertige Zufallsvariablen rnit fi = E X l und u2 = Var(X1) < oo. Dann gilt lim ~ P ( s= njt ,
n+aa
+mfi)
1
=-
Zur Veranschaulichung haben wir in Abb. 10.3 die Graphen von g, und y (gestrichelt,eLinie) fur die Summe von 6 auf {I, 2,3) gleichverteilten Zufallsvariablen sowie fur die Summe von 50 Bernoulli($)-verteilten Zufallsvariablen dargestellt. Im Rahmen dieses Buches kijnnen wir den lokalen Grenzwertsatz ftir beliebige Zufallsvariablen nicht beweisen. Ftir Bernoulli-verteilte Zufallsvariablen werden wir diese Aussage, den Satz von de Moivre und Laplace, im nachsten Abschnitt beweisen.
10.2 Vom lokalen zum zentralen Grenzwertsatz
219
Die durch geometrische Betrachtungen gefundene Transformation werden wir jetzt fiir einen analytischen Zugang verwenden. Aus der Identitat (10.4) erhalten wir fur ganze Zahlen k 5 1
Durch die Substitution y = n p f x u f i folgt
Wenn nun (g,),?~ in geeigneter Weise gegen g konvergiert, ktinnen wir das Integral in (10.6) durch das entsprechende Integral iiber g ( x ) approximieren. Eigent,lich reicht punktweise Konvergenz von g, gegen eine Dichtefunktion g hierfiir aus. Da uns jedoch die entsprechenden Hilfsmittel der MaDtheorie nicht zur Verfiigung stehen, fuhren wir nun einen starkeren Konvergenzbegriff ein.
Definition 10.4 Eine Folge ( h , ) ~von ~ Funktionen h , : R + R heijlt kompakt konuergent gegen die Funktion h : R + R, wenn fiir jedes K > 0 gilt lim
sup
lh,(x)-h(x)l=O.
n+m - K < z < K
Lemma 10.5 Seien (&),>I Z-wertige Zufallsvariablen mit Wahrscheinlich,. keitsfunktionen p,(k) := P ( S , = k ) und sei g, durch (10.5) dejiniert. Falls (g,),?~ kompakt gegen eine Funktion g : R + R konvergiert, so gilt ffir alle Folgen (/%),?I und (1,),>1 ganzer Zahlen mit k, 5 1, und der zusiitzlichen und '--nLI beschriinkt sind, dass Eigenschaft, dass
%
lim P ( k ,
n+m
.Jii
5 Sn 5 1,)
-
g ( x ) d x = 0.
Beweis. Aus der Identitat (10.6) folgt
Unter den gegebenen Voraussetzungen gibt es ein K > 0 , sodass
(10.7)
220
10. Der Zentrale Grenzwertsatz
und so lasst sich das Integral auf der rechten Seite wie folgt abschatzen
Aufgrund der kompakten Konvergenz von g, gegen g konvergiert dieser Term 0 gegen 0. Wir wenden uns nun wieder der standardisierten Zufallsvariablen S; zu, deren Konvergenz in Verteilung Aussage des Zentralen Grenzwertsatzes ist. Aus (10.6) folgt
Lemma 10.6 Unter denselben Voraussetzungen wie i n Lemma 10.5 gilt fiir alle a , b E $ a b
<
lim P ( a < Sz
ntm
< b) =
b
(10.9)
g(x)dx.
Beweis. Da S , nur ganzzahlige Werte annehmen kann, gilt
< b) = P(n,p + a u f i < S, < njt + huh) = P ( [ n p+ a m 6 1 + 1 < S, < [ n p + bud$. Nun erfiillen k, := [ n p+ a u d + 1 und 1, := [njt+ b u f l die Bedingungen P ( a < S;
von Lemma 10.5, und so folgt
+
= P([np a r m
r
P ( [ n p+ a r m
+ 1 < S , < [ n p+ b u m ) - ~ b g ( x ) d x l
+ 1 < S , < [ n p+ bus) -
[nli+b-m+l/2-n*
g(x)dx-
[
g(x)dxI .
/
,"~+S,m+l/z-",
-6
,"*+ac"q+,/2-"*
. 6
10.3 Der Satz von De Moivre und Laplace
221
Nach Lemma 10.5 konvergiert der erste Term auf der rechten Seite gegen 0. Dasselbe gilt auch fiir den zweiten Term, da Inu+aoJiil+llz-n~ + a und In~+baJiil+l/2-nu + ,,fur
.Jii
lL
+ 00,
c-fi
0
Wenn wir also zeigen kiinnen, dass g, kompakt gegen p ( x ) konvergiert, dann haben wir den ZGS in der Formulierung von Satz 10.1 fur %-wertigeZufallsvariablen bewiesen. Im nachsten Ahschnitt werden wir dies fiir Bernoulliverteilte Zufallsvariablen tun. In erster Linie wird der ZGS verwendet zur approximativen Berechnung von Wahrscheinlichkeiten der Form P ( k 5 S, 5 I ) . Mit der Konvergenz von g, gegen ip konnen wir aus der Identitat (10.7) auf folgende Approximation schlieBen
Andererseits kijnnen wir das Ereignis {lc 5 S, 5 I} in Termen von S, ausdriicken und dann Identitat (10.9) verwenden. So erhalten wir
Der Unterschied zwischen beiden Approximationen liegt in den &-Termen. Diese heiflen auch Stetigkeitskorrektur, d a sie bei der Approximation einer diskreten Verteilung durch eine stetige Verteilung auftreten. Im Limes macht es keinen Unterschied, ob wir den ZGS rnit oder ohne Stetigkeitskorrektur verwenden, d a der Nenner u f i gegen cc konvergiert. F a r kleine Werte von n gibt es aber eine deutliche Verhesserung der Approximation durch die Stetigkeit,skorrektur.
ubung 10.5 Wir werfen 10-md rnit einem unverfalschten Wiirfel und bezeichnen rnit SIO die Augensumme. Bestimme die kleinste Zahl k rnit der Eigenschaft
(Verwende den ZGS rnit Stetigkeitskorrektur.) ubung 10.6 Wir werfen 3-ma1 rnit einem unverfalschten Wiirfel und bezeichnen rnit S3die Augensumme. Bestimme die Wahrscheinlichkeitsfunktion von S1auf zwei Weisen, exakt und rnit Hilfe des ZGS rnit Stetigkeitskorrektur.
10.3 Der Satz von De Moivre und Laplace In diesem Abschnitt wollen wir einen Beweis des lokalen Grenzwertsatzes fiir Bernoulli-verteilte Zufallsvariablen geben. Diese Aussage ist auch bekannt
222
10. Der Zentrale Grenzwertsatz
als Satz von De Moivre und Laplace. Es seien also X I , . . . ,X, unabhangige, Bernoulli(p)-verteilte Zufallsvariablen. Dann ist die Summe S, binomialverteilt, d.h.
Das erste Problem bei einer Approximation der binomialen Verteilung ist es, eine Nahernngsformel fiir die Binomialkoeffizienten zu finden. Dazu beschaftigen wir uus znnachst mit der Stirling-Formel.
Definition 10.7 Es seien (a,),>l, ( b n ) n l zwei Folgen positiuer reeller Zahlen. Wir sagen, dass (a,),?~ und (b,),?l asymptotisch gleieh sind, wenn an = 1, und wir sehreiben a, l i m nb,. bn
-
Lemma 10.8 (Stirling-Formel) Es gibt eine Konstante C E (0, m) mit der Eigenschaft, dass
Beweis. Die Behauptung des Lemmas, lim,,, dazu, dass c, := logn! - (n die Folge der Differenzen
Gn"+;e-"
= 1, ist aquivalent
+ $) logn + n konvergiert. Wir betrachten nun
An dieser Stelle verwenden wir die Taylor-Approximation des Logarithmus um den Punkt 1, d.h. log(1 x) = x - $ 0(x3), und erhalten
+
+
eine absolut konvergente Reihe mit Partialsummen Also ist C?='=,(c, C;='=,(ck - ck+l) = el - cn+l, und somit konvergiert en. 0 Fiir Bernoulli(p)-verteilte Zufallsvariablen gilt E X , = p und Var(X,) = pq, und somit mtissen wir ftir den lokalen Grenzwertsatz die Konvergenz von
10.3 Der Satz von De Moivre und Laplace
223
gegen die Dichte der N(0,l)-Verteilung untersuchen. Zur Veranschaulichung der Giite der Approximation, die wir im folgenden Lemma beweisen werden, haben wir in Tabelle 10.2 die Werte der binomialen Wabrscheinlichkeitsfunktion sowie die zugehorigen Approximationen fiir n = 24, p = 0.4 und einige Werte von k zusammengest,ellt. Hierbei haben wir auch schon ein Resultat Es ist zu aus dem Beweis von Satz 10.10 verwendet, dass gilt C = sehen, dass die Approximation bereits fiir kleine Werte van n sehr gut ist.
6.
Tabelle 10.2. Approximation der binomialen Wahrscheinlichkeitsfunktion durch
die Dichte der Normalverteilung
Lemma 10.9 Fur K > 0 gilt gleichm@ig fur alle x E [-K, K ] mit der Eigenschaft np xJnpq E No,dass
+
wobei C die Konstante aus der Stirling-Formel ist. Beweis. Fur die Approximation der Binomialkoeffizienten wenden wir die Stirling-Formel (10.10) an auf n!, (np+ x m ) ! , (nq - x m ) ! und erhalten
Durch Ausklammern und Ktirzen folgt daraus
224
10. Der Zentrale Grenzwertsatz
Wegen p
-
+ x Jj;;;T;;
p folgt
Damit ergibt sich fiir die binomialen Wahrscheinlicblceitenfolgende asymptotische Identitat
Es bleibt zu zeigen, dass
Wir betrachten dazu den Logarithmus des Nenners und verwenden die Taylorapproximation log(1 + x) = x - $2' + 0 ( x 3 ) ,
Bislang haben wir alle Approximationen fiir festes x durchgefiihrt. Ein Beweis der kompakten Konvergenz erfordert eine nochmalige Betrachtung der 0 einzelnen Schritte, was wir an dieser Stelle nicht ausfiihren. AbschlieDend formulieren und beweisen wir nun den Satz von De Moivre und Laplace.
Satz 10.10 (De Moivre-Laplace) Es sei f, : R + R definiert durch f,(x) := P ( S n = k) fiirx E (k-112, k+1/2], wobei S, die Summe wonn Bernoulli(p)uerteilten Zufallswariablen ist. Dann konuergiert
kompakt gegen &e-52/2.
10.3 Der Satz von De Moivre und Laplace
225
Beweis. Aus L e m y a 10.9 folgt unmittelbar die kompakte Konvergenz von Wegen der gn(z) gegen &e-" 1'. Es bleibt zu zeigen, dass C = Chebychev-Ungleichung gilt fiir jedes K > 0
6.
und somit folgt
Andererseits folgt mit Lemma 10.6
sodass
Fur K
+ cc ergibt sich
und so gilt C =
S e-52/2dz = 6.
0
Satz 10.11 (Zentraler Grenzwertsatz fur Bernoulli-verteilte Znfallsvariablen) Es sei ( X k ) m > leine Folge unabhangiger, Bernoulli(p)-uerteilter ZuX k . Dann giltfiir alle Folgen (k,),?~, (1n),21 fallsvariablen u n d ~ := i ganzzahliger Zufallsvariablen rnit der Eigenschaft, dass und beschrdnkt sind, dass
xi=,
Wir habeu damit jetzt zwei Approximationen fiir die Binomialverteilung gefunden, die Normalapproximation sowie die Poisson-Approximation aus Abschnitt 4.3. Wahrend beim Poisson-Grenzwertsatz die Erfolgswahrscheinlichkeit p, asymptotisch gleich ist, bleibt sie im Zentralen Grenzwertsatz konstant.
ubung 10.7 Wir werfen 2n Miinzen und fragen nach der Wahrscheinlichkeit, dass genau n-ma1 Kopf fdlt. Berechne die Wahrscheinlichkeit exakt und naherungsweise.
226
10. Der Zentrale Grenzwertsatz
ubung 10.8 Bestimme n ! exakt und mit Hilfe der Stirling-Formel fiir n = 1 , . . . ,lo. ubung 10.9 Es sei f,(x) die Dichtefunktion von , wohei S, eine Summe J;; von n unabhangigen Exp(1)-verteilten Zufallsvariablen 1st. Zeige, dass f,(x) gegen p(x) konvergiert. ubung 10.10 Aus einer Gruppe von 2 n Jungen und 2 n Madchen werden zufdlig 2 n Kinder ausgew&hlt. Bestimme die Wahrscheinlichkeit, dass unter den ausgewahlten Kindern jeweils n Jungen hzw. n Madchen sind, sowohl exakt als auch naherungsweise.
10.4 Aufgaben Aufgabe 10.1 Wir werfen 600-ma1 mit einem unverfalschten Wiirfel. Bestimme niiherungsweise die Wahrscheinlichkeit, dass zwischen 90 und 110-ma1 eine 6 gewiirfelt wird. Aufgabe 10.2 Wie oft miissen wir eine faire Miinze werfen, damit mit Wahrscheinlichkeit 0.95 hei 49% bis 51% der Wiirfe Kopf erscheint.
11. Grundbegriffe der Schatztheorie
In diesem Kapitel wenden wir uns einem zentralen Thema der Statistik zu. Wahrend wir uns in der Wahrscheinlichkeitstheorie stets mit einer bestimmten Wahrscheinlichkeitsverteilung fiir das Ergebnis eines Experimentes oder die Realisierung einer Zufallsvariablen befasst haben, gehort zn einem statistischen Experiment eine Familie von Verteilungen. Die Aufgabe eines Statistikers besteht darin, aufgrund von Beobachtungen Aussagen iiber die dem Experiment tatsachlich zugrundeliegende Verteilung zu machen.
11.1 Terminologie und Beispiele Wie in der Wahrscheinlichkeitstheorie beginnt auch in der Statistik die Mm dellbildung mit der Festlegung des Ergehnisraumes (2 eines Zufallsexperimentes. Auch hier interessieren wir uns meist nicht fiir das vollst,andige Ergebnis des Experiments, sondern fiir die Realisierung einer Zufallsvariablen X : (2 + X. Der Bildbereich X der Zufallsvariablen, in den meisten Beispielen eine Teilmenge des Rn,heiflt in der statistischen Terminologie Stichprobenraum. Jede Realisierung x = X ( w ) der Zufallsvariable X heiflt eine Stichprobe. Tatsachlich ist in vielen Anwendungen X ( w ) das Resultat von wiederholten Ziehungen aus einer endlichen Grundgesamtheit und stellt so eine echte Stichprobe dm. Wir verwenden die Bezeichnung Stichprobe auch fiir die Zufallsvariable X. Neu bei der statistischen Modellbildung ist die Tatsache, dass wir nicht eine bestimmte Wahrscheinlichkeitsverteilung P auf (2 bzw. Px auf dem Stichprobenraum gegeben haben, sondern eine ganze Familie 'P von Wahrscheinlichkeitsverteilungen. Zur Vereinfachung der Schreibweise verwenden wir fiir die Verteilungen auf (2 und auf X dasselbe Symbol P. Da in allen Beispielen nnr eine einzige Zufallsvariable X betrachtet wird, kann dies nicht zu Verwechslungen fiihren. Wie schon in den vorhergehenden Kapiteln interessieren wir uns auch hier kaum fiir die Verteilung auf dem Ergebnisraum f2,sondern fast ausschliefllich fiir die Verteilung auf dem Stichprobenraum X. In vielen Beispielen konnen wir 'P auf eine natiirliche Weise parametrisieren, d.h. P ' = {Po,@E O), wobei O der sogenannte Parameterraum ist.
228
11. GrundbegrifTe der Schatztheorie
Definition 11.1 Sei X : (2 + X eine Zufallswariable mit Werten im Stichprobenraum X . Ein statistisches Modell fir X ist eine Familie von Wahrscheinlichkeitsuerteilvngen 'P auf X . Gilt 'P = {Pa : 0 E O), so he@ O der Parameterraum und O E O ein Parameter. 1st die Verteilnng Po diskret, so bezeichnen wir die zngeharige Wahrscheinlichkeitsfunktion rnit pe. Wir verwenden dasselbe Symbol fur die Dichtefunktion von X bei stetigen Verteilungen, weil dies im Folgenden die Darstellung vereinfacht. Da wir in der Statistik eine ganze Familie miiglicher Verteilungen einer gegebenen Znfallsvariablen betrachten, hangen auch Kennzahlen wie Erwartungswert und Varianz von den jeweils zugrundeliegenden Verteilungen bzw. dem Parameter ab. Dies bringen wir dnrch die Schreibweise Ep bzw. Ea sowie Varp bzw. Vara zum Ausdruck.
Beispiel 11.2 (i) Eine Heftzwecke wird 20-mal geworfen und wir bezeichnen rnit X die Anzahl Wiirfe, bei denen die Spitze oben liegt. Als Stichprobenraum nehmen wir X = {O, . . . ,20). Unter der Annahme, dass die einzelnen Wiirfe nnabhangig und nnter identischen Bedingungen ausgefiihrt werden, hat X eine Bin(20,O)-Verteilung, wobei 0 E O = [O, 11 die nnbekannte Wahrscheinlichkeit ist, dass die Heftzwecke rnit der Spitze nach oben aufkommt. Also hat X die Wahrscheinlichkeitsfunktion p~(k) =
ri)
ok(1-
(ii) Die Qualitatskontrolle einer Lampenfabrik interessiert sich fiir die Lebensdauer der produzierten Gluhlampen. Um hieruber Informationen zu erhalten, lasst sie n Gluhlampen brennen und notiert ihre Lebensdauern rnit X i , . . . ,X,. Die Stichprobe ist hier also der Znfallsvektor X = (XI, . . . ,X n ) t , der Werte im Stichprobenraum X = [0, m), mnimmt. Wir gehen nun davon aus, dass die Xi unabhangig sind rnit derselben Dichtefunktion f : [0, m ) + [0, KJ).Dann hat X die Dichte
Zur vollst&digen Spezifizierung des Modells mtissen wir noch die Familie der z i ~ l ~ s i g eDichtefunktionen n festlegen. Wir kannen zum Beispiel annehmen, dass die Xieine Exp(+)-Verteilnng haben, wobei O E 8 = (0, KJ). Dann hat X die Dichte
Wir bemerken am Rande, dass die Parametrisierung rnit den Vorteil hat, dass der Parameter 8 dann gleich dem Erwartungswert der Zufallsvariablen X, ist. (iii) Wir kntipfen im Beispiel (ii) bei Identitat (11.1)an. Das statistische Modell, das die wenigsten Einschrankungen macht, lasst zu, dass f eine beliebige Dichtefunktion auf [O, m ) ist, sodass wir
11.1 Terminologie und Beispiele
f : [0,m )
229
+ [O,m ) :
als Parameterraum erhalten. (iv) Sei fi eine physikalische Konstante, die wir mittels einer Messung bestimmen wollen. Im Allgemeinen wird die Messung fehlerbehaftet sein, d.h. der gemessene Wert x ist nicht exakt gleich fi. Wir modellieren den Messfehler, indem wir annehmen, dass x - fi die Realisierung einer Zufallsvariablen c ist. Damit ist dann auch x die Realisierung einer Zufallsvariablen X nnd es gilt
Wir nehmen an, dass E(t) = 0, d.h. dass die Messung keine systematischen Fehler enthitlt. Fiir viele Berechnungen ist es weiter wichtig, dass u2 := Var(c) < m gilt, d.h. dass der Messfehler t endlicbe Varianz hat. Hat t die Dichtefunkt,ion f (u), so bat X die Dichte f (u - fi). Im Allgemeinen belasst man es nicht bei einer Messung, sondern man fiihrt n unabhangige Wiederholungen durch und erhitlt so den Zufallsvektor (XI,. . . ,X,)' mit Werten im Stichprobenraum X = Rn und der Dichtefunktion
Ohne weitere Annahmen an die Verteilung von t ist dann der Parameterraum
(v) Wir kniipfen im Beispiel (iv) bei Identitiit (11.3) an nnd spezifizieren zusatzlich, dass der Messfehler t eine N(0,u2)-Verteilung hat. Dann hat (XI,. . . ,X,)' die Dichtefunktion
In diesem Fall ist der Parameter 0 = (fi,u2) und der Parameterraum 0 = R x (0, m ) . Wir bemerken, dass aus (11.2) und der Annahme, dass t eine N(0,u2)-Verteilunghat, folgt, dass X eine N(fi,u2)-Verteilung hat. Damit sind die Zufallsvariablen X I , . . . ,X, unabhiingige, N(p, u2)-verteilte Zufallsvariablen, was wir auch aus der gemeinsamen Dichte (11.4) und Satz 9.11 herleiten konnen. Viele statistische Experimente bestehen aus unabhejlgigen Wiederholungen eines einzelnen Experimentes unter identischen Bedingungen. Die Stichprobe ist dann ein Zufallsvektor (XI,. . . ,Xn)', dessen Verteilung vijllig bestimmt ist durch die marginale Verteilung von X1. Zur Spezifizierung
230
11. Gr~lndbegriffeder Schatatheorie
des statistischen Modells benlit,igen wir nur noch die Angabe einer Klasse p i ) = 0 E O) von m6glichen eindimensionalen Verteilungen. Das g e samte Modell heifit auch Produktexperiment. Die Aufgahe des St,atistikers hesteht darin, aufgrund einer Beohachtung z Aussagen iiber die Vesteilung PO bzm. iiber den unbekannten Parameter H E O zu trcffcn. Solche Aussagcn konnen sctr verschiedenc Gestalt haben; ctwa die eines Punktsrh~t~zers t ( z ) E O,eines BereichsschRt.zers C ( z ) C O oder einer ja/nein Entscheidung ~ ( z E) {O, 1)iiber eine Hypothese den Parameter '6 betreffend. Wir wollcn uns hier zunRchst mit Punktschatzcrn bcschtiftigen. Dabei sol1 eventuell nicht der ganze Parameter 0, sondern nur ein Teilaspekt y := g(H) geschat,zt werden, wohei g : O -+ r eine .4hbildung den Paramet,erraumes in cine Menge ist.
{pp
r
Definition 11.3 E.9 sei (&)see ein statistisches Model1 fiir die Verteilung der Zufallsvariable X : R + X und g : O + r eine Abbildung. Eine Abbildung t : X -+ r bzu~.die Zujallsunriable T = t ( X ) he@ Sehatzer fir g(0). Eine Realisiemng t ( x ) heapt Schatzung. Es ist wichtig, sich den Unterschied zwischen einem Schstzer und einer Srhatzung zu verdeutlichen. Ein Schatzer ist eine Vorschrift, die jeder Stichprobe x einen q7ert t ( z ) zuordnet,, wahrend eine Schatzong d m Ergebnis tler Anwendung dieser Vorschrift bei einem konkreten Experiment ist. Eine g e brauchliche Schreibweise sowohl fiir einen SchEtzer des Parameters .I= g(8) als aurh fiir die zugehlirige Schtitzung ist In jeder nicht,-t,rivialm Sitnat,ion wird es vide verschiedene SchRtzer fiir einen gcgebcnen Parameter 0 E O bzw. g(0) E r geben. Wir werdcn jetzt Kriterien kennenlernen, nach denen wir die Schatzer bewerten und miteinander vergleichen kiinnen. Ausgangspunkt unserer h r l e g u n g e n ist die Bet,rachtnng der Verteilung van T = t ( X ) . Je nxher diese um den wahren Wert g(H) lie& um so besser ist der Schatzer. Um hiermit arbeiten zu konnen, miissen wir zuniichst priizisieren, was der Abstand einer Vert,eilung auf von einem gegebenen Wert y E r ist. Im Folgenden nehmen wir stets an, dass r C R
+.
r
Definition 11.4 E.9 sei (Po)BEBein statistisches Model1 fir die Verteilung der Zufallsuan'ahlc X : R + X , g : O + r cine Abbildung und t : X -+ r ein Schutzer fir g(0). (a) Wir definieren den Bins des Schdtzer.9 t durch Biast(0) := E o ( t ( X ) )- g(0). (ii) Der Schutzer t he@ erwartungstreu fiir g(H), wenn Biast(H) = 0 fiir alle 0 E O gilt, d.h. E o ( t ( X ) )= g(0)
fur alle H E O.
(iii) Das Risiko des Schbtzers t im Punkte 0 ward dcfinicrt durch R(H,t ) := E o ( t ( X )- g ( ~ ) ) ~ .
11.1 Terminologie und Beispiele
231
Die durch 0 H R(0, t) definierte Funktion heifit Risikofunktion des Schiitzers. (iu) Sind t l , t z : X -t r zwei Schatzer fur g(0), so heifit tl mindestens so gut wie t2, wenn R(0, t l ) 5 R(0,tz)
fur alle 0 E O ,
Gilt zusatzlich fiir mindestens ein 0 E O die strikte Ungleichung, d.h. R(0, t l ) < R(0, tz), so heifit tl besser als t2. L e m m a 11.5 Es sei t(X) ein Schatzer fiir g(0). Dann gilt
Insbesondere ist fiir einen envartungstreuen Schatzer das Risiko gleich der Van'anz won t(X).
+
Beweis. Wir verwenden die Identitat (5.7), E ( X - a)' = Var(X) ( E X - a)'. Damit erhalten wir
Ftir einen erwartnngstreuen Schatzer entfallt der erste Term auf der rechten 0 Seite. Jetzt werden wir zu den obigen Beispielen einige Schatzer und deren Eigenschaften hetrachten. Die Motivation fiir die verwendeten Schatzer wird eher ad hoc sein. Im nachsten Ahschnitt werden wir systematische Schatzverfahren kennenlernen. Beispiel 11.6 (i) Im hinomialen Model1 ftir das Experiment mit einer Heftzwecke wollen wir die Wahrscheinlichkeit 0 selber schatzen, d.h. r = 8 und g : O -t 8 ist die Identitat. Es liegt nahe, die relative Hanfigkeit der Experimente, bei denen die Spitze ohen liegt, als Schatzer zu nehmen, d.h. = 0 ist dieser Schatzer erwartungstreu. Mit Lemt(x) := &. Wegen En ma 11.5 und Tabelle 5.1 erhalten wir die Risikofunktion
(6)
R(B,t) = varn
(f)
=
v,
(ii) Im exponentiellen Model1 fiir die Lehensdaner von Gliihlampen wollen wir die erwartete Lebensdauer, d.h. den Parameter 0 schatzen. Das Gesetz der grofien Zahlen legt den Mittelwert t(x) := k(xI . . . x,) als Schatzer ftir den Erwartungswert nahe. Wegen EB(;(XI . . . X,)) = En(X1) = 0 ist dieser Schatzer erwartungstreu. Mit Lemma 11.5 und Tabelle 8.1 erhalten wir die Risikofunktion
+ +
+ +
232
11. GrundbegrifTe der Schatztheorie
(iii) In dem bereits in (ii) betrachteten Model1 kljnnen wir uns auch fiir die Wahrscheinlichkeit interessieren, dass eine Gluhlampe eine Lebensdauer groDer als ein gegebenes c E [O,m) hat. In diesem Fall betrachten wir also
Da wir bereits einen Schatzer t fiir 6' haben, ist
ein naheliegender Schatzer fur g(0). Wir erinnern daran, dass wir die Wahrscheinlichkeit eines Ereignisses auffassen kijnnen als relative Haufigkeit, ihres Eintretens in einer langen Folge unabhangiger Wiederholungen. Dies motiviert, den Parameter y, d.h. die Wahrscheinlichkeit einer Lebensdauer von mehr als c, durch den Anteil der Gluhlampen in der Stichprobe, die langer als c gebrannt haben, zu schatzen. So erhalten wir einen zweiten Schatzer fur y,
Da ltx,>c> eine Bernoulli-Verteilung mit Parameterp = Ps(Xi 2 c) = e-'fa hat, gilt
Also ist tz(X) ein erwartungstreuer Schatzer fiir g(6'). Mit Lemma 11.5 und Tabelle 5.1 erhalten wir die Rsikofunktion
Bias und Risiko des Schatzers tl lassen sich analytisch nicht so einfach berechnen. Wir bemerken, dass tl ein kleineres Rsiko hat als t ~ Allerdings . ist, tl nur dann ein sinnvoller Schatzer, wenn die Lebensdauer wirklich exponentiell verteilt ist, w a r e n d t~ ein universe11 verwendbarer Schatzer ist. (iv) Im Model1 normalverteilter Messfehler wollen wir die physikalische Konstante fi sowie die Varianz u2 des Messfehlers schatzen. Wie bereits oben ausgefiihrt, bedeuten diese Annahmen, dass die Messwerte Realisierungen von unabhangigen, N(p, u2)-verteilten Zufallsvariablen sind. Die gebrauchlichen Schatzer fur fi und u2 sind der Stichprobenmittelwert
11.2 Einige Schatzverfahren
233
bzw. die Stichprobenvarianz
. ist Nach Beispiel 9.15 hat X eine N(fi, < ) - ~ e r t e i l u n ~Also tungstreuer Schatzer fiir fi mit der Risikofunktion
X
ein erwar-
xi-,-
Nach Satz 11.16 hat (n - l)s$/u2 eine bzw. Gamma(+, $)-Verteilung, siehe Abschnitt 8.2. Mit Hilfe der Transformationsformel fiir eindimensionale Dichten erhalten wir, dass s 5 eine G a m m a ( 9 , %)-Verteilung hat. Der Tabelle 8.1 entnehmen wir schliefllich, dass s$ ein erwartungstreuer Schatzer fiir u2 ist mit der Risikofunktion
ubung 11.1 Es seien XI,. . . , X, Poisson(X)-verteilteZufallsvariablen mit unbekanntem Parameter X E (0,m). Zeige, dass A = C:=,X. ein erwartungstreuer Schatzer fiir X ist und berechne das Risiko dieses gchitzers.
'
11.2 Einige Schatzverfahren Die bislang hetrachteten Schatzer haben wir mit ad hoc uberlegungen motiviert. In diesem Abschnitt wollen wir einige allgemeine Verfahren vorstellen, mit deren Hilfe wir Schatzer finden konnen.
Momentenmethode. Gegeben sei hier ein Produktexperiment, d.h. X = ( X I , . . . ,X,), wobei die Xi unabhangig und identisch verteilt sind mit unbekannter Verteilungsfunktion FB,0 E O. Wir betrachten die k-ten Momente von Xi bzw. von deren Verteilung, definiert durch mk(0) = Es(Xr). Das Gesetz der groflen Zahlen legt nahe, m.k(0) durch den Mittelwert der X;, i = 1,. . . ,n, zu schatzen. Dieser Schatzer,
234
11. GrundbegrifTe der Schatztheorie
heiDt das k-te Stichprobenmoment. Die Momentenmethode findet Anwendung, wenn der Parameter y als Funktion der ersten K Momente dargestellt werden kann, d.h.
Wir schatzen dann y durch die entsprechende Funktion der Stichprobenmomente
Dieser Schatzer heifit Momentenmethode-Schatzer. Eine Darstellung der Form (11.5) existiert im Allgemeinen, wenn K die Dimension des Parameterraums O ist. Wir berechnen dazu die ersten K Momente als Funktion des Parameters 8 und losen dieses Gleichungssystem anschliefiend nacb 0 auf. Beispiel 11.7 (i) Es seien XI,. . . , X n unabhbgige, Gamma(r, A)-verteilte Zufallsvariablen. Tabelle 8.1 konnen wir entnehmen, dass m ~ ( rA) , = f und $, woraus wir durch Auflosen nach r und A folgende Darmz(r, A) = stellung der Parameter als Funktion der Momente gewinnen
++
Die Momentenmethode liefert dann die Schatzer
wobei wir (5.6) benutzt haben. (ii) Es seien X I , . . . ,Xn unabhangige Poisson(A)-verteilte Zufallsvariablen. Nun gilt ml = A, und so liefert die Momentenmethode den Schatzer
Fiir Poisson-verteilte Zufallsvariablen gilt Varx(X) = A, d.h. A = m2 - m:, und somit ergibt die Momentenmethode den Schatzer
wobei wir erneut (5.6) benutzt haben. Von diesen beiden Schatzern hat kleinere Rsiko, was wir jedoch an dieser Stelle nicht zeigen kbnnen.
das
Die Stffrkeder Momentenmethode lie@ in ihrer universellen Anwendbarkeit und cinfachcn Handhabnng. Jedoch fiihrt die Momcntcnmethode oft nicht zum besten Schatzer. Dies gilt etwa fur den in Beispiel 11.7(i) hergeleiteten Schfftzerfiir die Parameter riner Gamma-Verteilnng. Da? let,zteBeispiel zeigt eine weitere Schwache der Momentenmethode auf, dass sie uicht uubedingt zu cinem eindeutigen Ergcbnis ftihrt. Stichprobenanalogon. Wir bet,rachten wieder ein Prodnktexperiment,, d.h. X = ( X I , .. . ,X,,), wohei die X i unabhangige, identisch verteilte Zufallsvariablen mit unbekannter Verteilung P E P sind. Wir mollen den Parameter y = g(P) schatzcn, wobei g : P + eine Abbildung ist. Wir sch2tzen nun y, indem wir in g(P) die unbekannte Verteilung P ersetzen dnrch die empirische Verteilung P,, welche jedem Beobachtungswert Xi(w), i = 1,.. . ,n,die Wdmcheinlichkeit zuordnet. Die zugehijrigc Verteilungsfunktion ist dann die empirische Verteilungsfunktion F,(z) = llxj,,,l.zp So erhalten wir als Stichprobenanalogon eu y = T ( P ) den Schztzer
r
Ax:=,
Das Stichprobenanalogon ist ein sogenanntes nicht-parametrisches Verfahren, da es nicht vorausset,zt, dass die Familie der maglichen Verteilnngen eine endlich-dimensionale Paramet,risierung zuliisstt. Die in den folgenden Beispielen gefundenen Schatzer gelten fiir Zufallsvariablen mit beliebigen Verteilungen. Beispiel 11.8 (i) Wir wollen y = g ( P ) := Ep(X1) schatzen, d.h. den Ermartungswert einer Zufallsvariablen mit Verteilung P. Das Stichprobenanalogon ist der Erwartungswert einer Zufallsvariablen mit Verteilung P,. Eine solche Zufallsvariable nimmt die N7erteXl (w), ... ,X, (w) mit Wd~rscheiulidikeit an und hat somit Erwart,ungswert Xi(w),d.h.
x:,,
Der Mittclmert ist also das Stichprobenanalogon des Erwartungswcrtes. (ii) Wir wollen die Wahrscheinlichkeit schiitzen, +ass eine Beobacht,ungeinen gegebenen Schwellwert c iiberschreitet, d.h. y = g(P) := P ( X I > c). Das entsprechendc Stichprobennnalogon ist
also der Anteil der Beobachtungen in der Stichprobe, die den Schwellwert iihrrschreiten. (iii) ,Gini's mean difference' ist ein Mae ftir die Streuung einer Verteilung und dcfinicrt dnrch
236
11. Grundhegriffe der Schatatheorie
wobei U und V ~inabhllngige,identisch verteilte Zufallswiablen mit der Vertcilung P sind. Zur Bcstimmung dcs Stichprobenanalogons fiir y vcrwcnden wir, dass ein Paar (U,1') unahhiingiger P,-verteilter Zufallsvwiablen die Wert e (Xi(w), X, (w)) mit Wahrscheinlichkeit $ annimmt, und somit wird das Stichprobcnanalogon 1
^i=EprzlU-VI=-; C IXi-XjI. nL l < i , j < n
Meist ersetzt man den Nenner n' durch n(n. - I), woclurch treuer SchBtzer fllr Gini's mean difference wird.
+ ein erwartungs-
Maximum Likelihood Methode. Wir betrachten ein statistisches Modell (Po)oGefiir die Vcrteilung cler Zufallsvariable X : f2 + X, bci dem die Verteilung Po durch eine Wa.hrscheinlichkeitstiinktion bzw. Dichte pe beschriehen wird.
Definition 11.9 (9 Bei gegebenem z E X definieren wir die Likelihoodfunktion L, : O + IES durch L m := P&) und die Loglakelih.oodfinktion durch J,(H) := log L,(H). (ii) Der Maximum Likelihood SchCtzer (ML-Schdtter) fir H ist derjenige 8- Wert, fiir den die Likelihoodfunktion ihr Maximum annimmt. (iii) Es sei g : O + eine Abbildung. Dann wird der Maximum Likelihood ) , d w c h Einsetzen Schiitzer fGr y = g(8) definiert d?rmh + M L := g ( 6 ~ ~ ,d.h. des ML-Sch,iittern fur 0 an g.
r
Die Maximum Likelihood Methode ist universe11 anwendbar und licfert SchXtzer, (lie in einem gewissen Sinne asymptotisch optimal sind. Abgesehen von einfachen Fallen kann man ML-SchXtzer leicler nur mit Hilfe numerischer Verfahren bestimmen. Doch zuntkhst betrachten wir Beispiele aus Abschnitt 11.1, in denen wir 6 M L analytisch finden k8nnen. In diesen Berechnungen nutzen wir aus, days der Logarithmns eine monotone Funktion ist und somit die Likelihoodfunktion und die Loglikelihoodfunktion an derselben Stelle ihr Maximum haben, und wir somit den MLSchXtzer sonah1 durch Maximierung der Liielihoodfunktion als auch durch Maximierung der Loglikelihoodfimktion bestimmen kiinnen. Beispiel 11.10 (i) Es sei X eine Bin(n,O)-verteilte Zufallsvariable, w@ bei H E [O,1 1 der unbekanute Parameter ist. Die Likelihood- und die LogLikelihoodfunktion sind dann gegeben durch
11.2 Einige Schatzverfahren
237
Den ML-SchXtzer flfr 8 finden wir durch Aufl6sen der Gleichung d x n-x -lz(@) = - - --0 db' 8 1-8
nach 8. Wir erhalten daraus durch einige Umformongen den ML-Sch&t,zer flr"11. = .: (ii) Irn exponentiellen Modell fiir die Lebensdauer von n Gliihlampen nehmen wir an, dass die gemessenen Werte 21,. . ,x,, Realisierungen von n nnabhangigen, EzP(i)-verteilten Zufallsvariahlen sind. Die Likelihood- und die Loglikelihoodfnnktion sind d a m gegeben durch
.
Zur Bestimmnng von
BAfI,
liisen wir wieder die Gleichung
nach 8. Wir erhalten daraus durch einige Umformungen B h l L = Cy=lz;. (iii) Im Model1 unahhzngiger, normalverteilter Messfehler sind die Likelihoodund die Loglikelihoodfunktion der Stichprobe (XI:. . . ,X,,)' gegeben durch
Wir bestimmen die ML-Schatzer fiir fi und u 2 ,indem wir die beiden partiellen Ahleitungen der Loglikelihoodfunktion gleich 0 set,zen,
nnd anschliessend dieses Gleichungssystem nach p und a? aufliisen. Durch = Cy=lxi. Aufliiscn dcr crstcn Glcichung nach IL crhaltcn wir Dies kiinnen wir in die zweite Gleichung einsetzen und findeu so 6LL = CY='=,(a;- 3)" Der ML-Schatzer fiir die Varianz ist nicht erwartungstren, da wir durch n anstclle von ( n - 1) tcilcn.
238
11. GrundbegrifTe der Schatztheorie
In den bisherigen Beispielen lieferte die Maximum Likelihood Methode Schatzer, die wir hereits vorher gefunden hatten, entweder ad hoc oder mittels anderer Schatzverfahren. In den nachsten beiden Beispielen ist das nicht mehr der Fall.
Beispiel 11.11 Seien X I , . . . ,Xn unabhangige, Gamma(r, A)-verteilte Zufallsvariablen. Die Dichte des Zufallsvektors ( X I , . . . ,X n ) t ist dann
und somit lautet die Loglikelihoodfunktion
Zur Bestimmung des Maximums von 1, setzen wir die partiellen Ahleitungen nach r und X gleich 0 und erhalten so
Dieses Gleichungssystem kann man leider nicht analytisch lasen, was vor allem am Auftreten des Terms r ' ( r ) liegt. In der Praxis verwendet man daher iterative numerische Verfahren zur Bestimmung der Lasung, etwa die Newton-Raphson Methode. Als Startpunkt fur die Iteration eignet sich dabei der Momentenmethode-Schatzer. Mit weiterfuhrenden Hilfsmitteln der Statistik kann man zeigen, dass der ML-Schatzer besser ist als der, den wir in Beispiel 11.7 mit Hilfe der Momentenmethode bestimmt hahen. Wir wollen noch einmal ankniipfen bei dem in Beispiel 11.2(iv) betrachteten Model1 fiir wiederholtes fehlerbehaftetes Messen einer physikalischen Konstante f i . In Beispiel ll.lO(iii) haben wir den Maximum Likelihood Schatzer bei normalverteilten Messfehlern hestimmt und dabei als Schatzer ftir p den Mittelwert Cy=lxierhalten. Das folgende Beispiel kann uns darauf aufmerksam machen, dass eine andere Annahme uber die Verteilung des Messfehlers zu einem vollig anderen Schatzer fuhrt. Beispiel 11.12 Wir schlieDen an hei Beispiel 11.2 (iv) und nehmen nun an, dass die Messfehler die Dichte
11.2 Einige Schatzverfahren
239
haben, wobei u > 0 ein unbekannter Parameter ist,. Die zugehorige Verteilung heisst doppelt-exponentielle oder auch Laplace-Verteilung, nicht zu verwechseln mil der diskreten Laplace-Verteilung. Die Zufallsvariablen Xi haben dann die Dichte f (xi) = &e-x"-'1/6, sodass die Likelihood- und die Loglikelihoodfunktion gegeben sind durch
Das iibliche Verfahren zur Bestimmung eines Maximums, die Ableitung gleich 0 zu setzen, scheitert hier a n der Nicht-Differenzierbarkeit von I,,, ... ,,,, . Wir betrachten zuerst das Problem, I,,,...,,n (p,u) bei festem u zu maximieren. Dies fiihrt auf die Aufgabe, bei gegebenen reellen Zahlen xl, . . . ,x, den Ausdruck
zu minimieren. Dies Minimierungsproblem wird gelost durch den Median med(x1,. . . ,x,) der Beobachtungswerte, siehe Definition 11.13 und Lemma 11.14. Nachdem wir das Maximum in p bei festem u gefunden haben, konnen wir das absolute Maximum bestimmen, indem wir die Loglikelihoodfunktion -nlog(Zu) - $ C:=l ixi - med(x)[ als Funktion von u minimieren. Wir setzen dazu die Ableitung nach u gleich 0 und erhalten nach einigen Umformungen 1
~ M = L -
C [xi - med(x) I, i=1
im englischen auch Median Absolute Deviation genannt.
Definition 11.13 Fur reelle Zahlen xl, . . . ,x, ist der Median definiert durch med(x1,. . . ,x,) :=
(~($1
+ z ( + + ~ ) ) falls n gerade falls n ungerade,
wobei x(l) I . . . 5 x(,) die Ordnungsstatistik ist. Lemma 11.14 Seien XI,. . . ,x, reelle Zahlen n i t Ordnungsstatistik X(I) I . . . I x(,). Dann hat die finktion f (p) := C:=l [xi - p [ ihr Minimum i m
240
11. GrundbegrifTe der Schatztheorie
Median med(x1,. .. ,x,). Ist n ungerade, so gibt es ein eindeutiges Minimum . Ist n gerade, so ist f (p) in [x(;), x(;)+~]konstant un,d nimmt Beueis. Wir bemerken, dass f (p) = x:== ', konnen wir f nmformen zu
IX(i)
-fiI gilt. Fur fi E
z(j+l))
(~(j),
Also ist f stiickweise linear, in den Intervallen ( x ( ~x) ,( ~ + ~monoton )) fallend fur j < 5, und monoton steigend fur j > 2 . 1st n eine gerade Zahl, so ist f konstant im Interval1 [X(;),X(;+~)]. Fiir fi < ~ ( ist~ f 1monoton fallend und fur fi > x(,, monoton steigend. Da f stetig ist, ist f also far gerades n monoton fallend in (-m,x;), konstant in (x;,x;+I) und monoton steigend in ( ~ ; + ~ , r n Fur ) . ungerades n ist f monoton fallend in (-co,xw) und 0 monoton steigend in (x*, w).
ubung 11.3 Es seien XI,. . . , X , unabhangige Poisson(h)-verteilte Zufallsvariablen, wobei h E (0, m ) ein unbekannter Parameter ist. Bestimme den Maximum Likelihood SchBtzer ;\ML fiir A. ubung 11.4 Seien X I , .. . ,X , unabhingige Zufallsvariablen mit Dichtefunktion pe(z) = (0 l)zello,ll(x),wobei 0 E (0, m ) ein unbekannter Parameter sei. (i) Berechne E e ( X 1 ) und bestimme einen Schatzer fiir 0 nach der Momentenmethode.
+
11.3 Lineare Regression
241
(ii) Bestimme den Maximum Likelihood Schatzer fiir 0. (iii) Bestimme die Dichte von -log(X~)sowie von - C:=, log(Xi) (iv) Berechne Bias und Risiko des ML-Schatzers.
11.3 Lineare Regression In diesem Abscbnitt betrachten wir Zufallsexperimente, deren Ergebnisse nicbt nur vom Zufall abhhgen, sondern auch vom Wert einer sogenannten erkliirenden Variablen. Wir wiederholen ein solcbes Znfallsexperiment bei verschiedenen Werten der erklarenden Variablen und fragen nach dem Zusammenhang zwischen den Werten der erklarenden Variablen und den Ergebnissen des Zufallsexperimentes. Wir konnen zum Beispiel an ein agrarwissenschaftliches Experiment denken, bei dem der Einfluss der Luftfeuchtigkeit auf die Tomatenernte im Gewacbshaus untersucht werden soll. Wenn wir mit Y das Ergebnis eines Experiments bezeichnen und mit x den Wert der erkkenden Variablen, dann beifit das durch die Gleichung
beschriebene Modell, wobei a,P E R und t eine N(0, u2)-verteilte Zufallsvariable ist, ein lineares Regressionsmodell. Das durch (11.6) spezifizierte Modell kann man so versteben, dass es zwischen der erklarenden Variable und dem Erwartungswert der Zufallsvariablen Y eine lineare Abbangigkeit gibt, denn es gilt E ( Y ) = a + px. Dass das Ergebnis des Experimentes vom Zufall beeinflusst wird, ist im Model1 durch die Zufallsvariable t wiedergegeben. In diesen Term ist alles aufgenommen, was wir bei unserem Experiment nicbt festlegen konnen, im obigen Beispiel etwa die auOeren Wetterbedingungen, die Bodenqualitat, genetische Variationen der Pflanzen oder die Sorgfalt der Mitarbeiter. Die durch y = cu p x beschriebene Gerade heifit Regressions-
+
Abb. 11.2. Lineares Regressionsmodell Y = a
+ px + e
11. GrundbegrifTe der Schatztheorie
242
gerade, die Parameter cu und p heiaen Regressionskoeffizienten. Das lineare Regressionsmodell ist das einfachste Model1 zur Beschreibung der Abhangigkeit eines Zufallsexperimentes von einer erklarenden Variablen. Wir weisen darauf hin, dass ein lineares Model1 immer nur in einem begrenzten Intervall von Werten der erklaenden Variablen angemessen ist und dass fiber dieses Intervall hinausgehende Extrapolationen zn Fehlinterpretationen fubren konnen. Dies kann man am Beispiel der Luftfeuchtigkeit im Gewachshaus leicht einsehen. Der Wissenschaftler, der ein solches Experiment ausfuhrt, kennt die Regressionskoeffizientennicht. Um a, p zu bestimmen, l&t er bei verschiedenen Werten XI,.. . ,x, der erklarenden Variablen unabhangige Experimente ausfiihren. Wir bezeichnen die zugehorigen Zufallsvariablen mit Yl, . . . ,Y, und erhalten fur das Gesamtexperiment das Model1
wobei ti unabhhgige, N(0,u2)-verteilte Zufallsvariablen sind. Die Zufallsvariablen Yl, . . . ,Y, sind somit unabhhgige, aber nicht identisch verteilte Zufallsvariablen. Grafisch kann man die Daten als Punktwolke der (xi, yi) in einem zweidimensionalen Koordinatensystem darstellen, siehe Abb. 11.3. Wegen der ti-Terme und damit wegen des Zufallseinflusses auf das Ergebnis unseres Experimentes liegen diese Punkte nicht alle auf der Regressionsgeraden. sondern um diese herum verstreut.
Abb. 11.3. Ergehnis eines linearen Regressionsexperirnentes
Das statistische Problem besteht nun darin, aus den Daten die Regressionsgerade zn schatzen. Zur Losung dieser Aufgabe wollen wir die Maximum Likelihood Methode verwenden, wofur wir zunachst die gemeinsame Dichte von YI, . . . ,Y, hestimmen. Fur jedes i E {I,. . . ,n ) hat Y , wegen (11.6) eine N ( a pxi,07)-Verteilung und somit die Dichte
+
11.3 Lineare Regression
243
Wegen der Unabhangigkeit der Experimente ist die gemeinsame Dichte von YI , . . . , Yn dann
Der Parameter ist in diesem Fall 0 = ( a ,P, u 2 )und der Parameterraum ist 0 = R2 x (0, m). Aus der gemeinsamen Dichte der Beobachtungen erhalten wir die Loglikelihoodfunktion
Zur Bestimmung des Maximums dieser Funktion gehen wir wieder wie in Beispiel 11.12 vor und halten zunachst u fest. Die Maximierung von 1 als Funktion von a, P fiihrt auf die Minimierung des Terms
Q(a,P) stellt die Summe der Quadrate der vertikalen Abstade zwischen den Datenpunkten und der Geraden y = a + px dar. Der Maximum Likelihood Ansatz fiihrt also dam, die Gerade zu suchen, fiir die diese Summe der vertikalen Abstandsquadrate minimal wird. Deshalb heiflt diese Methode Kleinste Quadrate Methode und der daraus resultierende Schatzer fiir die Regressionsgerade bzw. fur ihre Koeffizienten a , P heiflt Kleinste Quadrate Schatzer. Im folgenden Satz geben wir eine explizite Darst,ellung des Kleinste Quadrate Schatzers fur a und P. Satz 11.15 Die Kleinste Quadrate Schatzer fiir die Regressionskoefizienten p sind gegeben durch
a und
Beide Schiltzer sind erwartungstreu, d.h. E(&) = a und Varianzen sind gegeben durch Var(&) = u2 n
c:="=,.:
Cy=l(xi - .?)2
~ ( p =) P. Ihre
244
11. GrundbegrifTe der Schatztheorie
Beweis. Wir bestimmen den Kleinste Quadrate Schatzer far a und P, indem wir die partiellen Ableitungen von Q(a, P) uach a und P gleich 0 setzen. Dies fiihrt uns auf das lineare Gleichungssystem
e
n Mit den Abkiirzungen Z := $ Cy=, xi und := Xi=, y, folgt aus der ersten Gleichung a = y - PZ und damit die Identitat (11.8). Wir setzen dies in die zweite Gleichung ein, erhalten C;='=,(gi-c-/3(x, -5)) xi = 0 und bestimmen daraus p,
Fiir die beiden letzten Identitaten hahen wir benutzt, dass C ( x i - Z) = C ( y i - e) = 0. Durch Einsetzen der Zufallsvariablen Y, in die letzte Darstellung von b erhalten wir
) wir die Linearitat, des ErwartungswerZur Berechnung von ~ ( p verwenden = a Pxi sowie erneut C;='=,(xi - 5) = 0 und finden tes,
E(x) +
Aus 6 = Y - p3 =
C;=l
- bZ folgt weiter
) wir erneut die Darstellung (11.12) Zur Berechnung von ~ a r ( p verwenden sowie die Unabhangigkeit der Y, und Var(:) = u2 und finden damit
11.3 Lineare Regression
245
Zur Berechnung von Var(6) schreiben wir
Daraus erhalten wir
wobei wir erneut C:=l (xi -Z) = 0 verwendet haben. Wir benutzen schliel3lich - Z)2 = Cy=l x: - n(Z)' und erhalten (11.10). die Identitat x:=,(xi Wenn wir noch einmal auf die Bestimmung des Maximum Likelihood Schatzers fur die Regressionskonstanten zuruckblicken, so stellen wir fest, dass diese deshalb relativ einfach war, weil die ML Methode wegen der Form der normalen Dichtefunktion auf die Minimierung einer quadratischen Form fiihrte und damit letztlich auf ein lineares Gleichungssystem. Dass die Annahme der Normalverteilung in der Statistik oft zu einfachen Verfahren fuhrt, hat wohl als erster Gaul3 erkannt, auf den die herausragende Rolle der Normalverteilung in der Statistik zuruckgeht. Als weiteres Argument fur die haufige Verwendung der Normalverteilung in der Statistik diente GauD die Behauptung, dass Zufallseffekte eine Summe vieler ldeiner, unabhangiger Beitrage sind, was zusammen mit dem Zentralen Grenzwertsatz die Normalverteilungsannahme nahelegt. Laplace stellte die doppelt-exponentielle Dichtefunktion als Verteilung fiir t vor, wodurch die Maximum Likelihood Methode auf die Minimierung der Summe der absoluten vertikalen Absthde zur Geraden y = cu /3x fiihrt, d.h. zur Minimierung von
+
Dieses Minimierungsproblem kann nicht analytisch gelost werden. In der heutigen Zeit schneller Comput,er tritt dieser Aspekt etwas in den Hintergrund, und so besinnt man sich auf die Vorteile dieses Verfabrens. Sie liegen gegenuber der Kleinste Quadrate Methode vor allem in der geringeren Empfindlichkeit gegeniiber Abweichungen von den Modellannahmen. ~ b e die r Frage, wer die Kleinste Quadrate Methode entdeckt hat, gibt es einen beriihmten Priorittitenstreit. Zum ersten Ma1 publizierte die Methode 1805 der franzosische Mathematiker Adrien-Marie Legendre (1752-1833).
246
11. GrundbegrifTe der Schatztheorie
Allerdings behauptete Carl Friedrich Gaufl, dass er die Methode bereits vor 1800 benutzt, aber eine Veroffentlichung nicht fiir notig gehalten habe.
ubung 11.5 Wir betrachten das Modell (11.7), nehmen aher jetzt an, dass die ei eine N ( 0 , wfa2)-Verteilunghahen, wobei wi > 0 bekannte Gewichte sind. (i) Bestimme die Maximum Likelihood SchLzer fiir a ,3!, und a'.
(ii) Bestimme die Verteilung "on
&ML
und
~ M L .
11.4 Normalverteilte Stichproben In diesem Abschnitt wollen wir uns etwas ausfuhrlicher mit einer normalverteilten Stichprobe X I , . . . ,X, beschaftigen und dabei die gemeinsame Verteilung des Mittelwertes und der Varianz einer Stichprobe bestimmen. Satz 11.16 Es seien X I , . . . ,X, unabhangige, N ( b , u2)-werteilte Zufallswaraablen. Dann gilt Cr=L=1(X2 - X)' sind stochastisch un(i) X := C r = l Xi und s: := abhangig. (ii) X ist N(b, <)-uerteilt.
A
(iii) ist ~:-~-verteilt (iw) E(s$) = a" Beweis. Wir ftihren zuerst die standardisierten Zufallsvariablen Z, := ein und bemerken, dass ZI, . . . , Z, unabhangig, N ( 0 , 1)-verteilt sind. Mit 2 und s$ bezeichnen wir den Mittelwert bzw. die Varianz der Stichprobe Z1,. . . , Z,. Wir werden jetzt zeigen, dass fiir 2 und 8% die entsprechenden Eigenschaften (i)-(iv) gelten. Dazu fuhren wir in Rn eine neue orthonormale Basis {ul,. . . ,u,} mit u1 = L ( 1 , . . . , l)tein. Es sei U die zugehorige KoorJii dinatenwechselmatrix, d.h. die Matrix mit den Zeilen ui,. . . ,uk. Die neuen Koordinaten des Zufallsvektors (Z1, . . . , Z,)t sind dann gegeben durch
Da U orthogonal und die n-dimensionale Standardnormalverteilung rotationsinvariant ist, hat der neue Koordinatenvektor (YI, . . . ,Y,)t ebenfalls eine n-dimensionale Standardnormalverteilung, und somit sind Yl, . . . ,Y, unabhangige, N(0, 1))verteilte Zufallsvariablen. Damit sind Yl und Y;+. . .+Y: ebenfalls unabhangig und N(0,l)- bzw. ~2,-,-verteilt. Weiter gilt
11.4 Normalverteilte Stichproben
247
wobei wir benutzt haben, dass aus der Orthogonalitat der Matrix U folgt Y;+. . .+Y: = Z?+.. .+Zi. WegenZ?+. ..+Zi-n(Z)2 = Cy=l(Zz-Z)2 hat C;=l(Zi - 2)' eine xi-l-Verteilung und auDerdem ist diese Zufallsvariable unabhangig von Z, sodass wir (i)-(iv) fiir die Z-Stichprobe gezeigt haben. Es gilt X = u Z p und s$ = 0%; und so folgen die Aussagen des Satzes direkt aus den obigen Aussagen tiber die gemeinsame Verteilung von 2 und
+
8%.
0
Wir werden nun noch zwei weitere Verteilungen einfiihren, die in der Statistik normalverteilter Stichproben eine enorme Bedeutung haben. Definition 11.17 Es seien X, Y und Z unabhangige Zufallsuariablen, wobei Z eine N(0, 1)-Verteilung, X eine x;-Verteilung und Y eine xi-Verteilung hat. (i) Die Verteilung der Zufallswariablen
h,ei$t t-Verteilun,g mit f Freiheitsgraden und wird mit tf bezeiehnet (ii) Die Verteilung der Zufallswariablen
hei$t F-Verteilung mit (f,g) Freiheitsgraden und wird mit Ff,, bezeiehnet.
Satz 11.18 Es seien X I , . . . ,X , unabhangige, N ( p , u2)-werteilte Zufallsuariahlen. Dann hat die dureh
definierte Zufallsvariable T eine tn-1-Verteilung. Beweis. Wir formen T wie folgt um
Auf der rechten Seite steht im Ztihler eine N(0,l)-verteilte Zufallsvariable. Aus Satz 11.16 folgt, dass die dnrch den Term definierte Zufallsvariable eine ~2,-,-Verteilung hat und dass Zahler und Nenner unabhangige 0 Zufallsvariablen sind. Somit ist T in der Tat t,-l-verteilt. Die Definition der t-Verteilung geht auf den englischen Statistiker William Sealy Gosset (1876-1937) zuriick, der fiir die Bierbrauerei Guinness in Dublin arbeitete. Er publizierte unter dem Pseudonym ,Student6,weshalb die t-Verteilung auch Student- oder Student-t-Verteilung he&. Die F-Verteilung hat ihren Namen von dem englischen Statistiker Sir Ronald Aylmer Fisher (1890-1962), dem wohl bedeutendsten Statistiker des 20. Jahrhunderts.
248
11. GrundbegrifTe der Schatztheorie
ubungen
a
ubung 11.6 Zeige, dass sx := kein erwartungstreuer Schatzer fiir Bestimme eine Konstante a, fiir die a . sx erwartungstreu ist.
P
ist.
11.5 Aufgaben Aufgabe 11.1 Es seien X I , . . . ,X, unabhangige Zufallsvariablen, wohei Xi eine N(fi, u:)-Verteilung hat und die u: hekannt sind. Als Beispiel denke man an Messungen einer Konstanten fi, ausgefiihrt in unterschiedlich genau arbeitenden Laboratorien. ' , Xi ein erwartungstreuer Schatzer fiir fi ist und (i) Zeige, dass X = C:== berechne das Risiko dieses Schatzers. ' , wiXi, (ii) Betrachte als Schatzer fur fi die gewogenen Mittelwerte X, := C:== wobei 0 5 wi 5 1 und Cr=l wi = 1 gilt. Zeige, dass 2, ein erwartungstreuer Schatzer ist und herechne das Risiko. Fur welchen Gewichtsvektor (wl, . . . ,w,) wird das Risiko minimal? (iii) Bestimme den Maximum Likelihood Schatzer fur fi. Aufgabe 11.2 Es seien XI, . . . ,X, unabhiingige Zufallsvariablen, gleichverwobei 8 E (0, m) ein unbekannter Parameter ist. teilt auf [0,0], . 8. (i) Bestimme den Maximum Likelihood Schatzer d ~ r fiir (ii) Bestimme eine Konstante a, sodass a ein erwartungstreuer Schatzer fiir 0 ist. L jede Konstante a > 0. Ftir (iii) Berechne das Risiko des Schiitzers a . ~ M fur welche Wahl von a wird das Risiko minimal? Aufgabe 11.3 Seien XI,. . . ,X, und Yl, . . . , Y, unahhangige ZufallsvariaN(fil,u?) und Y , N(fi2,uz). Bestimme die Verteilung blen, wobei Xi der Znfallsvariablen
-
wobei s% :=
&CEl(Xi -
-
und s2y :=
C:=l(Y,
- Y)=.
Aufgabe 11.4 Beim Werfen einer Heftzwecke liegt die Spitze mit einer unbekannten Wahrscheinlichkeit 0 oben. Um 0 zu schatzen, wirft man, bis zum ersten Mal die Spitze ohen liegt, und notiert die Gesamtzahl der Wurfe mit T. Berechne Erwartungswert und Varianz des Schatzers fur 8.
12. Grundbegriffe der Testtheorie
In diesem Kapitel wenden wir uns der statistischen Testtheorie zu, die neben der Schatztheorie eines der beiden Hauptgehiete der Statistik darstellt. Wir arheiten wie im vorigen Kapitel mit einem statistischen Model1 in der Form einer Familie von Verteilungen fur eine gegebene Zufallsvariable. In der Testtheorie geht es darum, aufgrund einer Realisierung der Zufallsvariahlen eine Entscheidung uber die Gultigkeit einer gegebenen Hypothese uber die zugrnndeliegende Verteilung der Zufallsvariahlen zn treffen.
12.1 Einige Beispiele zur Einfiihrung In diesem Abschnitt stellen wir drei Beispiele zur Einfuhrung in die Prohlemstellung der Testtheorie vor. In jedem der Beispiele werden wir zur Modellierung des Sachverhalts eine Zufallsvariahle X : f2 + X definieren und dam ein statistisches Model1 (P.q)s,a fur ihre Verteilung festlegen. Weiter liegt jeweils eine Hypothese vor, die sich in die Form der Aussage, dass 0 E 00C 8 , iibersetzen lasst. Die Aufgabe besteht nun darin, aufgrund einer Realisierung der Zufallsvariahlen X eine Entscheidung uher die Gultigkeit der Hypothese H : 0 E Oo zu treffen. Zu diesem Zweck definieren wir jeweils eine Prufgrofle t(x), auch Teststatistik genannt, die in gewisser Weise den Abstand der Beobachtung x = X(w) von der Hypothese misst.
Beispiel 12.1 Die Durchfallquote hei der theoretischen Fahrprufung lag im langjahrigen Durchschnitt bei 20%. Seit kurzem wird ein neuer Fragenkatalog verwendet, von dem man erwartet, dass er anspruchsvoller ist und eine hijhere Durchfallquote hat. Bei einer ersten Testrunde fallen von 20 zufallig ausgewiihlten Kandidaten 8 durch, also 40%. Deutet diese Durchfallquot,e auf eine hohere Durchfallwahrscheinlichkeit hin oder kann man das Ergebnis durch Zufall erklaen? Um diese Rage beantworten zu kiinnen, hetrachten wir ein statistisches Modell. Wir hezeichnen das Priifungsergebnis des Kandidaten i mit xi E {O, I}, wobei 0 bedeutet, dass die Priifung bestanden wurde und 1, dass der Kandidat durchgefallen ist. Wir nehmen an, dass XI,. . . ,$20 Realisierungen von unabhangigen Bernoulli(0)-verteilten Zufallsvariahlen X I , . . . ,Xzo sind, wobei 0 E [O,11 der unhekannte Parameter ist. Diesem Model1 lie@ die Idee zugrunde, dass die 20 Kandidaten eine zufdlige
12. GrundbegrifTe der Testtheorie
250
Auswahl aus der als unendlich groD gedachten Grundgesamtheit aller maglichen Kandidaten sind, von der ein Anteil 0 die Priifung nicht bestehen wiirde. Wir wahlen nun als PriifgroDe die Summe S = XI . .+XzO,welche die Zahl der durchgefallenen Kandidaten angibt. Wir wissen, dass S eine Bin(20,B)Verteilung hat, d.h. Pg(S = k) = (y)Bk(l - B)20-k. In der folgenden Tabelle haben wir einige Werte der Wahrscheinlichkeitsfunktion von S ftir B = 0.2 dargestellt, d.h. unter der Annahme, dass die Durchfallquote noch immer 20% betragt.
+.
Die Wahrscheinlichkeit des Ergebnisses, dass 40% der Kandidaten oder mehr durchfallen, betragt also nur 3%. Diese kleine Wahrscheinlichkeit l&st uns zweifeln an der Giiltigkeit der Hypothese, dass B = 0.2. Die Vorgebensweise und Argumentation kann uns verstandlicher werden, wenn wir sie in Analogie zu einem Beweis durch Widerspruch betrachten. Wir gehen zunachst aus von der Annahme, dass 0 = 0.2, betrachten Konsequenzen dieser Annahme und versuchen, zu einem Widerspruch zu kommen. Im Rahmen der statistischen Testtheorie ist dies allerdings kein Widerspruch im streng logischen Sinn. Im diesem Beispiel ist ja nicht auszuschlieflen, dass S 2 8 auch bei 0 = 0.2 eintritt, es ist nur ehen sehr unwahrscheinlich. Letzteres fiihrt dam, dass wir groDe Zweifel an der Annahme belcommen, dass 0 = 0.2. Das hier benutzte Entscheidungsverfahren heifit auch Binomialtest.
Beispiel 12.2 Ein Pharmaunternehmen hat ein neues Schlafmittel B entwickelt, das wirksamer sein sol1 als das bewahrte Mittel A des Konkurrenten. Im Abstand von jeweils einem Monat erhalten 10 Patienten zunachst das eine und dann das andere Mittel verabreicht. Die Reihenfolge wird durch einen Miinzwurf festgelegt. In der folgenden Tabelle ist fiir jeden Patienten . . 8, z = 1 , . . . , l o , die Schlafdauer, gemessen in Stunden, nach Einnahme des Medikaments A bzw. B mit X t bzw. XF angegeben. AuDerdem hahen wir mit bzw. - festgehalten, ob die Schlafdauer bei Schlafmittel B langer war als bei Schlafmittel A oder nicht.
+
Bei 7 Patienten war also die Schlafdauer nach Einnahme des Mittels B langer und nur bei 3 Patienten nach Einnahme des Mittels A. Bedeutet dies, dass B wirksamer ist als A, oder kann man dieses Ergebnis durch Zufall erklben? Wir nehmen an, dass ( X t , X F ) , i = 1,.. . , l o , unabhejlgige R2-wertige Zufallsvariablen sind. Wir weisen darauf hin, dass dies nicht bedeutet, dass X t und XB unahhangig sind. Im Gegenteil sind diese Zufallsvariablen gerade
12.1 Einige Beispiele zur Einfiihrung
251
abhangig, da sie auf Beohachtungen bei demselhen Patienten zurtickgehen. Als Priifgrofle wahlen wir die Summe der positiven Vorzeichen und bemerken, dass S = 10 sgn(XF -XI'), mit sgn(x) := lI,,,>. S ist also die Summe der Bernoulli(0)-verteilten Zufallsvariablen sgn(X? - X t ) , i = 1,. . . , l o , wobei 0 = P ( X F > X I ' ) der unbekannte Parameter ist, und somit hat S eine Bin,(lO, 0)-Verteilung. Unter der Hypothese, dass beide Medikamente gleich wirksam sind, hat S dann eine Bin(l0, 4)-Verteilung, deren Wahrscheinlichkeitsfunktion wir in der folgenden Tabelle wiedergegeben haben. 0 1 1 2 3 1 k P L ( S= k) 0.00 0.01 0.04 0.12
1
4
1 0.21
5
6 1 7 > 8 0.25 0.21 0.12 0.05
1
Die Wahrscheinlichkeit des Ereignisses, dass 7 oder mehr positive Vorzeichen beobachtet werden, ist also PL( S 7) = 17%. Dies ist kein sonderlich seltenes Ereignis, und somit besteht kein Anlass, die Hypot,hese zu verwerfen. In diesem Beispiel hahen wir den sogenannten Zeichentest verwendet.
>
Beispiel 12.3 Wir interessieren uns fur die Frage, ob ein neugekaufter Wiirfel unverfalscht ist. Dazu werfen wir den Wiirfel unabhejlgig 36-mal. In der folgenden Tabelle sind die beobachteten Haufigkeiten wiedergegeben. Augenzahl Haufigkeiten
11 91 11 42 11 33 1 41 1 57 1
6 12
Die beobachteten Haufigkeiten weichen deutlich von der (6,6,6,6,6,6)-Verteilung ab, die wir bei einem unverfalschten Wiirfel erwarten wiirden. Auch hier stellt sich die Frage, ob dies Zufall sein kann oder ob Anlass besteht, an der Unverfalschtheit des Wiirfels zu zweifeln. Bevor wir ein statistisches Model1 aufstellen, hetrachten wir eine etwas allgemeinere Situation. Gegeben sei ein Experiment mit K moglichen Ergebnissen und den zugehorigen, unbekannten Wahrscheinlichkeiten 01,. . . ,OK, wobei (81,. . . ,OK) Element des Parameterraums
ist. Dieses Experiment wiederholen wir n-mal unabhangig und bezeichnen mit (Nl, . . . ,NK) die beobachteten Haufigkeiten der K moglichen Ergebnisse. Wir wissen aus Beispiel 6.6, dass dieser Vektor eine multinomiale Verteilung mit Parametern n und 01, . . . ,OK hat, und es ist hier (01, . . . ,OK) E 0 der unbekannte Parameter. Wir betrachten nun die Hypothese, dass (81,. . . ,OK) = (@, . .. ,0$) ist, wobei (0?, . . . ,@) E O ein fester Parameterwert ist. Unter dieser Hypothese gilt E(Nk) = no:, k = 1 , . . . ,K, und es lie@ der Gedanke nahe, die Abweichungen zwischen den wahrgenommenen Haufigkeiten Nk und diesen Erwartungswerten als Grundlage ftir die Entscheidung uber die Gultigkeit der Hypothese zu nehmen. Der englische Statistiker Karl Pearson
12. GrundbegrifTe der Testtheorie
252
(1857-1936) hat im Jahre 1900 vorgeschlagen, diese Abweichung mittels der Grofle
zu messen. X wird auch die x2-Teststatistik genannt. Wir bemerken, dass X eine Zufallsvariable ist, deren Verteilung von dem unbekannten Parameter (81,. . . ,OK) abhangt. Zur Entscheidung uber die Hypothese benotigen wir die Verteilung von X fur (81,. . . , O K ) = (@, . . . ,8%). Auders als bei den ersten beiden Besispielen, bei denen wir die Verteilung der Prufgrofle S kannten, ist die Verteilung der x2-Priifgrofle keine der einfachen bekannten Verteilungen. Die Verteilung von X konnen wir im Prinzip berechnen mit Hilfe der Formel
) wobei die Summationen sich uher alle Realisierungen (nl,. . . , n ~ mit (nh-nap)' = x erstrecken. Fiir groDe Werte von n ist diese Aufgabe ,ap jedoch praktisch nicht durcbfiihrbar, sodass man auf die Hilfe eines Rechners oder auf Approximationen angewiesen ist. Eine solche Approximation hat bereits Karl Pearson gegeben, der bewies, dass X unter der Hypothese (81, . . . ,OK) = (@, . . . ,OR) approximativ x$-,-verteilt ist. Fur kleine n muss man zuriickhaltend sein bei der Anwendung dieser Approximation. In der einschlagigen statistischen Literatur wird empfohlen, dass no: 2 1 fiir alle k E { I , . . . ,K) gelten sollte. Wir kehren schlieDlich zuruck zum obigen Zahlenbeispiel, bemerken, dass dabei K = 6 und 8: = . . . = 8: = $ und berechnen den Wert der x2Teststatistik. Es ist
CL
x=
(9 - 6)'
+ (4 - 6)' + (3 - 6)' + (1- 6)' + (7 - 6)' + (12 - 6)'
= 13. 6 Nach dem obengenannten Resultat von Karl Pearson hat X unter der Hypothese O1 = . . . = & = approximativ eine &Verteilung. Einer Tabelle, wie man sie im Anhang zu den meisten einschlagigen Biichern zur Statistik findet, konnen wir entnehmen, dass P ( X 2 13) w 0.02, d.h. eine Abweichung grofler oder gleich dem von uns beobachteten Wert hat bei unverfalschten Wurfeln eine Wahrscheinlichkeit von ungef&hr 2%. Anlass genug, an der Giiltigkeit der Hypothese zu zweifeln. Das in diesem Beispiel eingefuhrte Entscheidungsverfahren heiflt x2-Test.
;
Zum Ende dieses Abschnitts wollen wir das Vorgehen bei den obigen Beispielen noch einmal abstrakt formulieren. Gegeben ist jeweils eine Zufallsvariable X : f2 + X und ein statistisches Model1 (Pa)sEe fur die unhekannte
12.2 Neyman-Pearson Formulierung der Testtheorie
253
Verteilung von X . Weiter ist eine Hypothese gegeben, die sich in der Form
darstellen lhsst, wobei Qo C Q eine Teilmenge des Parameterraums ist. Wir stehen nun vor dem Problem, eine Entscheidung tiber die Gultigkeit dieser Hypothese treffen zu miissen. Dazu legen wir uns zunachst auf eine PriifgroDe T = t ( X ) fest. T sollte so gewahlt werden, dass groBe Werte von T auf eine Abweichung des Beohachtungswerts X von den unter der Hypothese zu erwartenden Werten hinweist. Dies Konzept lhsst verschiedene Wahlen von T zu. Nur in einfachen Situationen kann klar entschieden werden, welche PrufgroDe wir wahlen sollten, dies meist auf Grnnd von Optimalitatskriterien, mit denen wir uns in den folgenden Abschnitten noch hefassen werden. Nach der Wahl von T bestimmen wir deren Verteilung fur jedes 0 E Qo. Dann untersuchen wir, ob der betrachtete Wert t ( x ) zu einer dieser Verteilungen passt, wohei als Kriterium die GrMe
p(x) := sup Ps(T 2 t ( x ) ) RE%
dient, welche auch pWert genannt wird. Wir verwerfen die Hypothese, wenn der pWert unterhalh eines vorgegehenen Schwellenwerts cu liegt. Ein iiblicher Schwellenwert ist u = 5%, aber auch kleinere Werte sind gehrhuchlich, wenn man wirklich sicher sein will, dass eine Hypothese nicht vorschnell verworfen wird. Die Betrachtungen des folgenden Abschnitts werden zu einer weiteren Klarung der Bedeutung des Schwellenwerts fiihren.
12.2 Neyman-Pearson Formulierung der Testtheorie In einer Reihe von Arheiten in den 30er Jahren des vorigen Jahrhunderts haben Jerzy Neyman (1894-1981)und Egon Sharpe Pearson (1895-1980),Sohn des ohen im Zusammenhang mit dem x2-Test erwahnten Karl Pearson, der Testtheorie eine solide mathematische Grundlage gegehen, die heute allgemein anerkannt ist. Der Neyman-Pearson'sche Ansatz macht es moglich, die Qualitat eines Tests zahlenmailig zu erfassen und damit iiher die Vorziige und Nachteile eines Tests im Vergleich zu anderen Tests zu diskutieren.
Definition 12.4 Sei (Pg)sEo ein statistisehes Modell fur die Verteilung der Zufallsvariable X : 7' X . Gegeben seien zwei disjunkte Teilmengen 00,01C Q . Die Aussagen H : 8 E Qo und A : 0 E 0 1 heijlen Hypothese bzw. Alternative. Das En.tseheidungsproblem
H : 0 E Qo gegen A : 0 E QI heijlt Testproblem.
254
12. Grundhegriffe der T~sttheorie
Die Aufgahe des Statist,ikersbei einem Testproblem b e t e h t darin, aufgrund des Dat,enmatcrials, d.h. ciner Rcalisicrung x = X ( w ) dcr Zufallsvariablen X, eine Entscl~eidungzwischen Hypothese unrl Alternative zu treffen. In der folgenden Definition wird dieser Gedanke mathematisch priizisiert. Definition 12.5 Ein Test ist eine Abhildung 4 : X + {0, I), wobei #(a) = 1 beifmtet, dass mir die Hypothese uenuerfen und d(x) = 0, dnns wir die Hypothese nicht oerwerfen. B e m e r k u n g 12.6 (i) Wir wollen hesonders aufmerksam machen auf die Formulierung an einer Stelle in der Definition eines Tests. Wir verwerfen die Hypothcsc, wenn 4(x) = 1, abcr wir vcrwerfen nicht die Alternative, wenn 4(x) = 0. Dies so11 zum Ausdruck bringen, dass wir uns einer Entscheidung fiir die Hypot,hese nie so sirher sind wie einer Ent,scheidnng gegm die Hypothesc. Wenn u~irdie Hypothese nicht verwerfen, so bcdcutet dies oft nur, dass wir nicht ausreichend Beweismaterial fiir eine Ablehnung haben. (ii) Oft vemendet man flir H auch den Ausdruck Sullhypot,hese, da H in vielen Fallen zurn tlusdruck bringt, dass kein Effckt etwa einer Behandlung vorliegt. (iii) Ein Test kann auch durch daq Gehiet C := {x E X : d(x) = 1) beschrieben werden. C heiDt kritisches Gebiet oder Verwerfungsbereich. Ein Test verwirft die Hypothese gemu dann, wenn die Beobachtung im Verwerfungsbereich liegt. (iv) EnthUt 0 0 nur ein Element, d.h. ist 8 0 = {go}, so sprechen wir von einer einfachen Hypothese; sonst hei5t die Hypothese zusmmengesetzt. Entsprechende Bezeichnungen gelten auch fiir die Alternative. Der Zufallscharakter der von uns hetrachteten Experimente hat zur Folge, dass Fehler bei der Entscheidnng zwischen Hypothese und Alternative auftreten kfinnen. In der Testt,heorie nnterscheiden wir zwei Fehler. Fehler 1. Art: Eine giiltige Hypothese wird verworfen, d.h. es gilt 9 E 00, aber #(x) = 1. Fehler 2. Art: Eine ungiiltige Hypothese wird nicht verworfen, d.11. es gilt 9 E 01, aber $(x) = 0. Die Wahrsd~einlicleitendieser beidell moglichen Fehler eines statistischen Test,s sind die entscheidenden Messzahlen zur Beurteilung ihrer Qualit&. Definition 12.7 Sei (P")oEeein statistisches Modell fir die Verteilung der Zufal1,~uariableX : R + X und sei 4 : X + { 0 , 1) ein Test fir das Teutproblem H : 8 E 00 gcgen A : 9 E 01. (i) Die Funktion & : Q + [O,11 definiert durch
fl&)
:= P d W ) = 1)
he@ Giitefun,ktion des Tests. (ii) Der Test 4 heijlt Test rum Niuenu a , a E [O,11, wenn
12.2 Neyman-Pearson Formulierung der Testtheorie
sup
REBa
255
PdO) I a.
Die Gr6Je supgEe, Pm(6')heiJt Niveau des Tests. (iii) Fur 6' E 01 heiJt &(8) die Macht des Tests 6 em Parameterwert 0. Bemerkung 12.8 (i) Die tibliche Vorgehensweise in der Testtheorie besteht darin, ein a E ( 0 , l ) fest zu wahlen und dann nur Tests zu diesem vorgegebenen Niveau cu zu betrachten. Solche Tests haben dann eine Obergrenze a fiir die Wahrscheinlichkeit eines Fehlers 1. Art, nnabhangig vom wahren Wert des Parameters 8. Die Wahrscheinlichkeit eines Fehlers 2. Art ist hingegen meist viel schwerer zu berechnen und zu kontrollieren und auflerdem vom Wert des unbekannten Parameters 8 abhangig. Daher konnen wir uns in dem Fall, dass der Test die Hypothese verwirft, viel sicherer sein, keinen Fehler begangen zu haben, als in dem Fall, dass der Test nicht verwirft. Diese Asymmetrie hat weiter zur Folge, dass das Hypothese/Alternative-Paar nicht beliebig vertauscht werden darf. Man sollte Hypot,hese und Alternative stets so festlegen, dass der resultierende Fehler 1. Art der gravierendere Fehler ist, den man moglichst vermeiden mochte. (ii) Fiir jedes 6' E 0 gibt &(8) die Wahrscheinlichkeit an, dass die Hypothese verworfen wird, wenn Pa die Verteilung von X ist. Fur 8 E 0 0 gibt &(8) die Wahrscheinlichkeit eines Fehlers 1. Art an. Fur 6' E el gibt &(O) die Wahrscheinlichkeit einer korrekten Entscheidung an und 1- &(8) die Wahrscheinlichkeit eines Fehlers 2. Art. (iii) Wir machen aufmerksam darauf, dass wir die Bezeichnung Niveau sowohl fur a als auch fiir supsEoo&(8) benutzen. Im Englischen sind die Begriffe ,level' fur cu und ,size' fur supsEo, &(8) gebrauchlich. Wir haben in Abschnitt 12.1 und in den Definitionen dieses Abschnitts zwei Zugange zur Testtheorie vorgestellt. In der historischen Entwicklung der Testtheorie, die vor allem mit den Namen von Karl Pearson und Ronald Fisher verbunden ist, stand am Anfang die Betrachtungsweise aus Abschnitts 12.1. Dabei wird ausschliefllich der Fehler 1. Art betrachtet. Dazu passt auch, dass man nur die Hypothese klar formuliert, nicht aber die Alternative. Spater war es das grofle Verdienst von Jerzy Neyman und Egon Pearson, dass sie mit den in diesem Abschnitt gegebenen Definitionen auf die Bedeutung des Fehlers 2. Art hingewiesen haben. Damit ist es moglich geworden, Tests mit derselben Fehlerwahrscheinlichkeit 1. Art miteinander zu vergleichen aufgrund ihrer Fehlerwahrscheinlichkeiten 2. Art. Wir wollen jetzt auch die Gemeinsamkeiten zwischen der Herangehensweise in Abschnitt 12.1 und den Definitionen dieses Abschnitts aufzeigen, und dabei klaren wir insbesondere die Bedeutung des Schwellenwerts aus Abschnitt 12.1. Nach Festlegung einer Teststatistik T = t(X) und eines Schwellenwerts cu verwarfen wir im vorigen Ahschnitt bei einer Beobachtung x die Hypothese, falls supaEo, Pa(T 2 t(x)) 5 a. Diese Vorschrift definiert einen Test 4 im Sinne der Definition 12.5 wie folgt
256
12. GrundbegrifTe der Testtheorie
m(x) =
{
1 falls supaE0, Ps(T 0 falls sups,0, Ps(T
> t(x)) 5 a > t(x)) > a.
(12.2)
Satz 12.9 Der in (12.2) definierte Test 4 hat Niveau a. Mit diesem Satz haben wir den Zugang des Abschnitts 12.1 in den Zngang dieses Abschnitts integriert. Fur den Beweis von Satz 12.9 benotigen wir das folgende Lemma. Lemma 12.10 Sei (Q,+, P ) ein Wah,rscheinlichkeitsraum und T eine Rwertige Zufallsvariable. Fiir a E (0,l) sei die Menge C, C R definiert durch C, := {u E R : P ( T
> u) 5 a}.
Dann gilt P ( T E C,) 5 a.
>
Beweis. Durch S(u) := P ( T w,) wird eine monoton fallende Funktion S : R + [O, 11 definiert. Dann folgt aus ul E C, und uz ul, dass uz E C,. Also ist C, ein Interval1 der Form [k,, m ) oder (k,,m), mit k, E R Im ersten Fall ist k, E C, und somit gilt
>
P ( T E C,) = P ( T
> k,)
5 a,
> +
Im zweiten Fall gilt u E C, fur alle u > k, und somit P ( T k, k) 5 a, fur alle n E N. Nun ist ({T k, ; } ) n E ~eine monoton steigende Folge von $1 = {T > k,). Damit folgt mit Satz 1.10 Mengen und Ur=l{T k,
> + > +
P ( T E C,) = P ( T > k,) = lim P ( T n+m
> k, + )n1
womit die Aussage des Lemmas in beiden Fallen gezeigt ist.
5 a, 0
Beweis von Satz 12.9. Fiir jedes OX E 8 0 gilt
Damit ist gezeigt, dass
4 ein Test znm Niveau a ist.
0
Bemerkung 12.11 Im Abschnitt 12.1 haben wir stets d e n p w e r t , definiert t(x)), betrachtet. Dieser Wert enthalt mehr durch p(x) = supsEooPs(T Information als der in (12.2) definierte Test 4. Wahrend 4(x) nur angibt, ob wir die Hypothese verwerfen, sagt p(x) etwas fiber die Deutlichkeit dieser Entscheidung aus. Viele Statistiker, und vor allem alle gangige statistische Software, geben daher stets den pWert des Tests an.
>
Beispiel 12.12 Sei S die im Beispiel 12.1 betrachtete Znfallsvariable, d.h. S hat eine Bin(20,O)-Verteilung. Die Hypothese lautet O = 0.2. Da die Fragestellung des Beispiels nahelegt, dass es, wenn uberhaupt, eine Veranderung
12.2 Neyman-Pearson Formulierung der Testtheorie
257
in Richtung einer haheren Durchfallquote gegeben hat, wahlen wir als Alternative A : 6' > 0.2. Also sind Bo = 10.2) und Q1 = (0.2,1], d.h. wir haben eine einfache Hypothese und eine zusammengesetzte Alternative. Wir betrachten zunacbst den Test 41(S) = also den Test mit Verwerfungsbereich C = { 8 , . . . ,201. Dieser Test hat die Giitefunktion
die wir in Abbildung 12.1 grafisch dargestellt haben. An der Giitefunktion
Abb. 12.1. Grafik der Giitefunktion des Tests $I(S) = lIs2q (unten) und des (ohen), siehe Beispiel 12.12 Tests +z(S) = 11~2,)
konnen wir beide Fehlerwahrscheinlichkeiten ablesen. Die Wahrscbeinlichkeit des Fehlers 1. Art betragt &, (0.2) = Po,z(S 2 8) n 0.03, vergleiche auch die Wertetabelle in Beispiel 12.1. Wir haben also einen Test zum Niveau n 3%. Die Wahrscheinlichkeit eines Fehlers 2. Art hejlgt von 0 E 01ab und lasst sich berechnen aus 1 - PI, (6') = Ps(S < 8). Fur 6' E 01und 6' + 0.2 folgt mit der Stetigkeit der Giitefunktion, dass &, (0) + pm,(0.2) und somit konvergiert die Fehlerwahrscheinlicbkeit 2. Art gegen 1 - &(0.2) n 97%. In Abhangigkeit von 6' ist die Feblerwahrscheinlichkeit 2. Art monoton fallend und fiir 0 + 1 konvergiert sie gegen 0. Der Fehler 1. Art hat also stets eine geringe Wahrscheinlichkeit, wahrend die Fehlerwahrscheinlichkeit 2. Art vom unbekannten Parameterwert 6' E 0 1 abhangt und fiir 0, die nahe an 00 liegen, sebr groD ist. Dieses Verhalten ist typisch fur Testprobleme, bei denen 00und 0 1 einen gemeinsamen Rand hahen. Wir betrachten noch einen weiteren Test, bei dem wir den Wert 7 zum Dieser Test hat die Verwerfungsbereich hinzunehmen, d.h. 42(S) = Gutefunktion
258
12. GrundbegrifTe der Testtheorie
die wir ehenfalls in Ahbildung 12.1 grafisch dargestellt hahen. Beim Vergleich der heiden Giitefunktionen fdlt auf, dass der Test 4~ eine groflere Wahrscheinlichkeit des Fehlers 1. Art hat als der Test 41, dafiir aher eine kleinere Wahrscheinlichkeit eines Fehlers 2. Art. Falls die Hypothese nicht, gilt, so wird dies durch den Test 4 2 schneller entdeckt als durch $1, aher um den Preis einer grafleren Fehlerwahrscheinlichkeit 1. Art.
ubung 12.1 Sei X eine N ( p , 1)-verteilte Zufallsvariable, wobei p E W ein unbekannter Parameter ist. Wir betrachten das Testproblem H : p 5 0 gegen A : p > 0
und den Test $(X) = 1{x2~}. Bestimme das Wiveau dieses Tests und berecbne die Giitefunktion. ubung 12.2 Sei X eine Ezp(ll0)-verteilte Zufallsvariable, wobei 0 E (0, co) ein unbekannter Parameter ist. Wir betrachten das Testproblem H : 0 5 1 gegen A : 0 > 1und den Test $(X) = l{x2,}. Bestimme das Niveau dieses Tests und berechne
die Giitefunktion. Wie groB ist die Wahrscheinlichkeit, dass der Test verwirft, wenn 0 = 4? ubung 12.3 Betracbte die TestgroBe S = C::, sgn(X? -x:) aus Beispiel 12.2. Bestimme das Niveau des Tests $(X) = lls2q fiir das Testproblem H : 0 =
4
gegen A : 0 >
und berecbne die Giitefunktion.
12.3 Das Neyman-Pearson Lemma Ziel der statistischen Testtheorie ist es, Tests mit moglichst kleinen Fehlerwahrscheinlichkeiten zu finden. Ein gleichzeitiges Minimieren heider Fehlerwahrscheinlichkeiten ist grundsatzlich nicht moglich. Um dies einzusehen, betrachten wir die heiden trivialen Tests, die entweder stets die Hypothese verwerfen oder stets nicht verwerfen, nnahhangig vom Ausgang des Experiments. Diese beiden Tests haben Fehlerwahrscheinlichkeit 1. Art hzw. 2. Art gleich 0, w&hrend es aufler in trivialen Fallen keinen Test giht, fiir den heide Fehlerwahrscheinlichkeiten 0 sind. Die von Neyman und Pearson vorgeschlagene Vorgehensweise hesteht darin, nur Tests zu betrachten, deren Fehlerwahrscheinlichkeit 1. Art unter einem vorgegebenen Schwellenwert liegt, und dann innerhalh der Klasse dieser Tests die Fehlerwahrscheinlichkeit 2. Art zn minimieren. Es erweist sich aus verschiedenen Griinden als sinnvoll, dass wir den Testbegriff der Definition 12.5 nun erweitern.
Definition 12.13 Ein randomisierter Test ist eine Abhildung $ : X + [O,11, wobei 4(x) die Wahrscheinlichkeit angiht, dass wir die Hypothese uerwerfen, wenn x beobachtet wurde. Die Funktion P4 : O + [O, 11, definiert durch &(O) := Es(4(X)), he@t Gutefinktion des Tests.
12.3 Das Neyman-Pearson Lemma
259
Bemerkung 12.14 (i) Nicht-randomisierte Tests gehljren zur Klasse aller Tests und die Interpretation der mljglichen Werte $(x) E {O, 1) ist im Einklang rnit der in Definition 12.13 gegebenen Interpretation fur (randomisierte) Tests. 1st 4(x) = 1, so wird die Hypothese rnit Wahrscheinlichkeit 1 verworfen und bei $(x) = 0 rnit Wahrscheinlichkeit 0. (ii) Bei einem randomisierten Test h w g t die Entscheidung uber die Ablehnnng der Hypothese nicht allein von der Beobachtung ab, sondern dariiber hinaus vom Ausgang eines weiteren Znfallsexperiments, bei dem rnit Wahrscheinlichkeit $(x) verworfen wird und rnit Wahrscheinlichkeit 1- d(x) nicht, d.h. es ist
(iii) Mit Hilfe des Satzes von der totalen Erwartung folgt aus (12.3) Ps(Hwird verworfen) = Es($(X)). Diese Darstellung der Wahrscheinlichkeit, dass die Hypothese verworfen wird, rechtfertigt die Definition der Gutefnnktion bei randomisierten Tests. Fur nicht-randomisierte Tests hatten wir in Definition 12.7 die Gutefunktion durch &(B) = Ps(4(X) = 1) definiert. Da ein nicht-randomisierter Test nur die Werte 0 und 1 annimmt,, gilt Es($(X)) = Ps($(X) = I), sodass beide Definitionen iibereinstimmen. In der mathematischen Statistik ist es iiblich, st,ets randomisierte Tests zu betrachten. Daher l a s t man das Attribut ,randomisiertLmeist weg und definiert Tests als Abbildungen $ : X + [O,11. Will man ausdrucklich nnr Tests rnit Wertebereich {O, 1) betrachten, so spricht man von nicht-randomisierten Tests. Wir schlieBen uns im Folgenden diesem Sprachgebrauch an. Definition 12.15 Sei (Pe)sEeein statistisches Model1 fur die Verteilung der Zufallsvariable X : f2 + X und sei dvrch H : B E Oo gegen A : 0 E 01 ein Testproblem gegeben. Fur ein gegebenes a E [O,11 bezeichnen wir mit @, die Klasse aller Tests zum Niueau a, d.h. @, := {$ : X
+ [O, 11 : sup E@(d(X))< a } RE%
Ein Test fl E @, heijt gleichmajig trennsch,arfster Test zum Niveau a, venn
fur alle 8 E 01 gilt. Liegt eine einjache Alternative uor, d.h. ist 01= {Bl), so heijt ein Test fl rnit der obigen Eigenschaft ein trennscharfster Test. Ein gleichmBBig trennschafster Test hat in allen B E 01die maximale Macht unter allen Tests zum Niveau a. Es gibt leider nur fiir relativ einfache Testprobleme gleichmaig trennscharfst,e Tests. Meist wird das Supremum auf
260
12. GrundbegrifTe der Testtheorie
der rechten Seite von (12.4)ftir verschiedene Werte aus 01 durch verschiedene Tests angenommen und es gibt damit keinen gleichmaflig trennschbfsten Test. In diesem Ahschnitt wollen wir das einfachste Testproblem betrachten, das Testen einer einfachen Hypothese H : 0 = 80 gegen eine einfache Alternative A : 8 = 01. Fiir diesen Fall haben Neyman und Pearson den trennschbfsten Test bestimmt, d.h. den Test rnit maximaler Macht bei festgelegt,em Niveau cu. Ihr Resultat ist auch von grofler Bedeutnng bei Testproblemen rnit zusammengesetzter Hypothese oder Alternative. Zur Vereinfachnng der Notation schreiben wir in diesem Abschnitt Po nnd Pl anstelle und entsprechend fiir die Erwartungswerte. Weiter nehvon Ps, hzw. PO,, men wir an, dass Po und PI entweder beide diskret oder beide stetig sind rnit Wahrscheinlichkeitsfunktion bzw. -dichte po bzw. pl.
S a t z 12.16 (Negman-Pearson Fundamentallemma) (i) Jeder Test der Form
mit k E [0,m) und y(x) E [O,11, ist fir das Testproblem H : P = Po gegen A : P = PI trennscharfster Test zum eigenen Niueau Eo(p(X)). (ii) Zu jedem cu E [O,11 gibt es einen Test 4 : X + [O,11 mit Eo(4(X)) = cu der Form
mit k E [0,m) und y E [O,11 Beweis. (i) Wir fiihren den Beweis fiir den Fall, dass Ponnd Plstetige Verteilnngen rnit Dichten po bzw. pl sind. Im diskreten Fall geht der Beweis analog, indem man die Integrale durch entsprechende Summenzeichen ersetzt. d.h. Sei also 4 : X + [O,11 ein weiterer Test zum selben Niveau Eo(fl(X)), Eo(d(X)) 5 Eo($?(X)). Wir werden nun zeigen, dass die Macht dieses Tests nicht grofier ist als die Macht des Tests $?, d.h. dass El ($(X)) 5 El (fl(X)).
12.3 Das Neyrnan-Pearson Lemma
261
Zum Beweis der letzten Ungleichung verwenden wir die Darstellung (12.5) sowie die Tatsache, dass 0 5 4 ( x ) I 1. Wir unterscheiden drei Falle, nejnlich p l ( z ) - kpo(z) > 0 , = 0 und < 0. Im ersten Fall ist f ( x ) = 1 und somit V ( x ) - 4 ( x ) 2 0. Im zweiten Fall ist der Integrand 0 . Im dritten Fall ist C ( x ) = 0 nnd somit C ( x ) - $ ( x ) 1 0. (ii) Es ist Po({x : po(x) = 0 ) ) = 0, sodass wir fUr die Berechnung des Niveaus und damit annehmen diirfen, dass p o ( z ) # 0. Wir definieren L ( z ) := #P lasst sich (12.6) schreihen als
4 )=
{
1 falls L ( x ) > k y falls L ( x ) = k 0 falls L ( x ) < k .
Nun gilt
E o ( d ( X ) )= P o ( L ( X ) > k ) + y P o ( L ( X ) = k ) .
(12.7)
Wir mussen jetzt zeigen, dass es ein k = k, und ein y = y, giht, sodass P o ( L ( X ) > k ) y P o ( L ( X ) = k ) = a. Wir definieren dazu
+
k, := infit : P o ( L ( X )I t ) 2 1 - a )
(12.8)
und zeigen, dass
p o ( L ( x ) > he) 5 a
I p o ( L ( x ) 2 4.
(12.9)
Wegen der Monotonie und Rechtsstetigkeit der Verteilungsfunktion, siehe Satz 8.5, ist { P o ( L ( X ) I t ) 1 - a } ein Interval1 der Form [ k , , ~ ) .Also gilt k, E { P o ( L ( X ) 5 t ) 2 1 - a } und P o ( L ( X ) 5 k,) 2 1 - a und P o ( L ( X )> Ice) 5 a. Fur alle t < k , gilt P o ( L ( X ) 5 t ) < 1 - a und somit folgt aus Satz 8.5(iii)
P o ( L ( X )< k,) =
t
P o ( L ( X )< t ) I 1 - a .
Also folgt P o ( L ( X ) 2 k,) 2 a, sodass wir die Ungleichungskette (12.9) hewiesen haben. Wir setzen nun y, :=.Aus (12.9) folgt
Also hat der hier bestimmte Test
d Niveau a.
0
262
12. GrundbegrifTeder Testtheorie
Bemerkung 12.17 (i) Tests der Form (12.5) heiflen Neyman-Pearson Tests. (ii) Man kann weiter noch zeigen, dass jeder trennscharfste Test fiir eine einfache Hypothese gegen eine einfache Alternative ein Neyman-Pearson Test ist, d.h. dass die Umkehrung von Satz 12.16(i) gilt. (iii) 1st po(x) # 0 fiir alle x E X, so konnen wir den Test (12.6) darstellen als 1 falls L(x) > k y falls L(x) = Ic 0 falls L(x) < k.
d.h. dieser Test verwirft fiir grolle Werte der Prtifgrolle
L(x) heillt Likelihoodquotient, und der Test (12.6) heiflt Likelihoodquotiententest. Dieser unterscheidet sich von einem Neyman-Pearson Test nur dadurch, dass die Randomisierung y auf der Menge {x : pl(x) = kpo(x)} konstant ist. (iv) Fiir Teil (ii) des Neyman-Pearson Lemmas ist von entscheidender Bedeutung, dass wir randomisierte Tests zulassen. Ohne diese Moglichkeit wird es im Allgemeinen keinen Test der Form (12.5) gehen, dessen Niveau exakt gleich einem vorgegebenen cu ist. Beispiel 12.18 (i) Seien XI, . . . ,X, unabhhgige, Bernoulli(0)-verteilte Zufallsvariablen, wohei 0 E [O, 11 unhekannt ist. Es ist also X = {0, lIn und n
ps(xl,. . . ,x,) = n P 1 ( l i=l
= @:=,xi
(1 - o)n-C:=,
5i
siehe (4.7). Wir wollen das Testproblem H : 0 = Bo gegen A : 0 = 81 betrachten, wobei 00,01 E [O,11 zwei feste Parameterwerte sind mit 00 < 01. Der Likelihoodquotient ist in diesem Fall
xk. Der Neyman-Pearson Test verwirft fur grofle Werwobei s = te der Prufgrolle L(x1,. . . ,x,). Zur Bestimmung des kritischen Werts k und der Randomisierung y henotigen wir eigentlich die Verteilung von L(X1,. . . ,X,). In diesem Fall klinnen wir jedoch eine aquivalente Prtifgrijlle bestimmen, deren Verteilung nns bekannt ist. Dazu schreiben wir den Likelihoodquotient,en um
12.3 Das Neyman-Pearson Lemma
263
Aus 00 < 81 fol@ 8'(1-ao) > 1. Somit ist L(xl,. . . , x n ) eine strikt monoton wachsende Funktion von s = C t = l xk. Der Neyman-Pearson Test verwirft also fiir groBe Werte von S = C;=l Xk, d.h. ist von der Form 1 falls S > k 0 falls S < k.
Der kritische Wert k sowie die Randomisierung y sind so zu wahlen, dass der Test das gewunschte Niveau erhalt. (ii) Es seien X I , . . . ,Xn unabhejlgige N(p, a')-verteilte Zufallsvariablen, wobei a 2 > 0 bekannt ist und fi E R unbekannt. Wir hetrachten das Testproblem
wobei po, pl E R zwei feste Parameterwerte sind mit fro quotient ist in diesem Fall
< pl. Der Likelihood-
Analog zu (i) stellen wir fest, dass L(x1,. . . ,x,) wegen fio < fi1 eine xi ist und damit auch von strikt monoton steigende Fnnktion von I n Jii Ci=l(xi - po) = $(z
- po). Da die in diesem Beispiel betrachteten
Zufallsvariablen eine stetige Verteilung haben, ist P,, ($(X -fro) = k) = 0 fur jedes k, und somit kijnnen wir die Randomisierung vernachlassigen. Also lautet der Neyman-Pearson Test fur das hier betrachtete Testproblem 4(X) =
{
1 falls 0 falls
$(X - po) 2 k $(X - po) < k
Zu vorgegebenem Niveau a ist auch hier wieder k so zu wahlen, dass der resultierende Test Niveau a hat. Dm Bestimmen eines Tests zu einem vorgegebenen Niveau a zerfallt wie in den obigen Beispielen praktisch immer in 2 Teile. Zunachst bestimmt man eine geeignete Teststatistik T = t(X) mit der MaOgabe, die Hypothese fiir groBe Werte von T zu verwerfen, d.h. nur noch Tests der Form 1 falls T > k 0 falls T
264
12. GrundbegrifTeder Testtheorie
zu betrachten. AnschlieDend sind k und y so zu bestimmen, dass der Test Niveau a hat, d.h. dass sup Es$(X) = a. BEao
Im Beweis von Satz 12.16 haben wir gezeigt, wie wir (12.11) fiir eine einfache Hypothese liisen kiinnen. In diesem Fall sind der kritische Wert und die Randomisierung gegeben durch
'-/a
=
a - Po(T > k,) Po(T = k,)
Definition 12.19 Fiir eine Verteilungsfunktion F : R + [O, 11 definieren wir die Qu,antilfunktion F-' : [O, 11 + [--a, oo] durch F-'(p)
:= inf{x : F(x)
2 p}.
F-' wird auch verallgemeinerte Inverse genannt. Der Wert F-'(p) heijlt das p-te Quantil der Verteilung. Bemerkung 12.20 (i) Mit dieser Definition kiinnen wir das Ergebnis der obigen Uberlegungen zusammenfassen zu der Feststellung, dass der kritische Wert k, das (1- a)-te Quantil der Vert,eilung Poo ist. (ii) Fur stetige, strikt monoton wachsende Verteilungsfunktionen F i s t F-'(p) die eindeutig bestimmte Losung der Gleichung F ( x ) = p. In diesem Fall ist F-' also die iibliche inverse Funktion von F. 1st T eine Zufallsvariable mit einer stet,igen, strikt monoton wachsenden Verteilungsfunktion, so ist F-'(p) die eindeutig bestimmte Losung der Gleichung
(iii) Fur Verteilungen mit einer stetigen, strikt monoton wachsenden Verteilungsfunktion F , die symmetrisch um 0 verteilt sind, gilt F-'(p) = -F-'(1 - p). Fur eine Zufallsvariable T mit dieser Verteilung gilt weiter
(iv) Fur die meisten der in der Statistik verwendeten Verteilungen kijnnen wir die Quantile nicht analytisch berechnen, da bereits die Verteilungsfunktionen nicht in einer geschlossenen analyt,ischen Form vorliegen. Wir sind daher auf numerische Verfahren oder auf die Benutzung von Tabellen angewiesen, die sich in fast allen Lehrbiichern zur Statistik finden. Als Symbol fur das p t e Quantil einer Verteilung verwenden wir das Symbol der Verteilung, versehen mit dem Index p, also etwa t ,; x:;, und Ff,;, fur das p t e Quantil der t,-, bzw. der Ff,,-Verteilung. Fur das p t e Quantil der N(0,l)-Verteilung verwenden wir das Symbol 2,.
xi-
12.3 Das Neyman-Pearson Lemma
265
Die ohigen Uberlegungen gelten zunachst nur fur den Fall einer einfachen Hypothese. In vielen Fallen mit einer zusammengesetzten Hypothese giht es jedoch ein 00 E 8 0 mit der Eigenschaft, dass
P s o ( T 2 x ) = sup P a ( T 2 x ) , RE%
(12.12)
und dann kann man den kritischen Wert und die Randomisierung noch stets nach obigem Verfahren wahlen. Die Identitat (12.12) gilt unter anderem in zwei Fallen, zum einen, falls die Verteilung von T = t ( X )fur 0 E Oonicht von 0 a b h b g t und zum anderen, falls Oo = (-m,Bo] und zusatzlich P s ( T 2 x ) eine monoton steigende Funktion von 0 ist. Die Bestimmung des kritischen Wertes und der Randomisierung gehtjrt in den Bereich der Wahrscheinlichkeitstheorie, da es hier um die Aufgahe geht, die Verteilnng einer gegehenen Priifgrofle zu berechnen. Die Bestimmung einer geeigneten Priifgroae T ist die eigentliche statistische Aufgabe. Ahnlich wie bei der Wahl eines Schatzers giht es auch hier verschiedene Herangehensweisen. Man kann aufgrund intuitiver Argumente eine PrilfgrijBe finden, man liann einem allgemeinen Prinzip folgen oder schliefllich Optimalitatskriterien heranziehen. Intuitive Argumente hahen uns im Ahschnitt 12.1 hegleitet. Wesentliche Idee war es dabei, Prufgrbflen zn finden, die Abweichungen von den unter der Hypothese zu erwartenden Beohachtungen messen. Dies ist ein mges Konzept und somit ist das Ergehnis der Uherlegungen auch keine eindeutige Wahl. Es gibt ein wichtiges Testverfahren, das in vielerlei Hinsicht ein Analogon der Maximum Likelihood Methode der Schatztheorie darstellt, und das fiir sehr allgemeine Testprohleme angewendet werden kann. Die wesentliche Voraussetzung besteht darin, dass jede der Verteilungen PO eine Wahrscheinlichkeitsdichte oder -funktion ps hat. Als Priifgriifle fiir das Testproblem H : 0 E Oo gegen A : B E 01 verwendet man
Diese Priifgrofle heiflt verallgemeinerter Likelihoodquotient und der Test heiBt verallgemeinerter Likelihoodquotiententest. Wir werden im Rahmen dieses Buches nicht weiter anf diese Tests eingehen uud hemerken nur, dass wir fur einfache Hypothese und einfache Alternative den in (12.6) definierten Likelihoodquotiententest erhalt,en.
ubung 12.4 Seien X I , . . . ,X , Poisson(X)-verteilte Zufallsvariablen, wobei X E (0, m) ein unbekannter Parameter ist. Bestimme die allgemeine Form des Likelihoodquotiententests fiir H : X = Xo gegen A : X = XI, wobei Xo < XI gegebene
Parameterwerte sind. Zeige weiter, dass dieser Test sich schreiben l&st als
266
12. GrundbegrifTe der Testtheorie
1 falls y falls 0 falls
x;=,Xi > k xi=,x, = k xi=,X, < k.
ubung 12.5 Seien X I , .. . ,X, Ezp(l/O)-verteilte Zufallsvariablen, wobei 0 E
(0, m ) ein unbebnnter Parameter ist. Bestimme die allgemeine Form des Likelihoodquotiententests fur H : 0 = 00 gegen A : 0 = 01, wobei 00 < 01 gegebene Parameterwerte sind. Zeige weiter, dass dieser Test sich schreiben last als 1 falls y falls 0 falls
x;=,X, > k xi=,xiXi <= k.k xi=,
ubung 12.6 Seien XI,. . . ,X,
N(0, az)-verteilte Zufallsvariablen, wobei a E (0, m ) ein unbekannter Parameter ist. Bestimme den trennscharfsten Test fur das Testproblem
zum Niveau 5%.
12.4 Tests bei normalverteilten Beobachtungen In diesem Abschnitt wollen wir einiee der am haufiesten verwendeten Tests
wenn ein einzelnes Zufallsexperiment n-fach unabhejlgig und unter identischen UmstBnden wiederholt wird und die Beobacht,ungen bei jedem Einzelexperiment als normalverteilt angenommen werden konnen. Im Allgemeinen sind beide Parameter, p und a2,unbekannt, sodass der Parameterraum
ist. In einigen speziellen Situationen ist einer der beiden Parameter, p oder R. Wir betrachten hier Tests zu Hypothesen iiher den Parameter p, wobei wir zwei Falle unterscheiden, je nachdem oh a2 bekannt ist oder nicht. a2,bekannt und dann ist der Parameterraum (0, co) bzw.
Einseitige Hypothese/Alternative fiber p bei bekanntem a2. Wir betrachten das Testproblem
Da p der Erwartungswert nnserer Zufallsvariablen ist, liegt die Idee nahe, die Ahweichung des Mittelwerts X' von / I Oals Priifgrofle zu verwenden. Grof3e Werte von X - po weisen dann auf eine Abweichung yon der Hypothese in Richtung der Alternative hin. Nach Satz 11.16 hat X'-po eine N ( p - p o , $)Verteilung. Wir standardisieren noch zu
12.4 Tests bei normalverteilten Beobacbtungen
267
und bemerken, dass Z eine N((,-?lJii, 1)-Verteilung hat. Zur Bestimmung P,(Z 2 z) = a nach des krit,ischen Wertes miissen wir die Gleichung sup,,,, z auflosen. Eine kleine Schwierigkeit liegt darin, dass wir eine zusammengesetzte Hypothese haben und somit das Supremum uber P,(Z 2 z) berechnen miissen. Wir bemerken dam, dass Z eine N(0, 1)-Verteilung hat, sodass
wobei @ die Verteilungsfunktion der N(0, 1)-Verteilung ist. Also ist P,(Z 2 z) eine monoton steigende Funktion von p, und somit gilt sup,,,, P,(Z 2 z) = P,,(Z 2 z) = 1- @(z).Dann haben wir mit
einen Test zum Niveau a , wobei zl-, das (1 - a)-Quantil der N(0,l)Verteilung ist. Dieser Test heiDt der einseitige GauBtest.
Zweiseitige Alternative iiber p bei bekanntem 02.Wir betrachten das Testproblem
Wir verwenden dieselbe PrIifgriiDe Z = $(X - bo) wie beim einseitigen GauBtest. Fiir das hier vorliegende Hypothese/Alternative Paar weisen sm wohl groDe positive als auch groDe negative Werte in Richtung der Alternative, sodass wir einen zweiseitigen Test der Form 1 falls Z 5 -k, oder Z 2 k, 0 falls -k, < Z < k, wahlen. Damit der Test Niveau a hat, muss der kritische Wert k, die Bedingung
erfiillen. Wegen der Symmetrie der Normalvert,eilung ist P,,(Z I -k,) = P,,(Z 2 k,), sodass aus (12.13) folgt, dass k, = zl-;. Damit lautet der Test schlieDlich
Dieser Test heiDt zweiseitiger GauDtest
268
12. GrundbegrifTe der Testtheorie
Einseitige Hypothese/Alternative iiber p bei nnbekanntem a2. Wir betrachten das Testproblem
Wenn wir zur Orientierung noch einmal den im obigen Fall einer bekannten Varianz verwendeten einseitigen GauDtest betrachten, so erkennen wir das Problem, dass die TestgriiDe $(X - po) nicht berechnet werden kann, da nun a2 unbekannt ist. Es lie@ nahe, in der Definition der TestgriiDe Z die unbekannte Varianz durch ihren Schatzer s% zu ersetzen. Dies fuhrt uns zu der PrufgrijDe
Es bleibt die Aufgabe, den kritischen Wert zu bestimmen. Dazu bedenken wir, dass T fiir p = po nach Satz 11.18 eine t,-l-Verteilung hat. Somit gilt P( a)(T t,-I+,) = a fur alle a2 E ( 0 , ~ ) Man . kann weiter zeigen, dass P(Mr02)(T tn-lil-CI) eine monoton wachsende Funktion von fi ist, siehe Aufgabe 12.1. Also gilt
> >
und somit ist ein Test zum Niveau cu gegeben durch
{
1 falls
m(x) = o
falls
+(X *(X
2
-pa)
> t,-l;~-~
- fro)
< t,-l;l-,.
Dieser Test heifit der einseitige t-Test oder Student-t-Test Zweiseitige Alternative iiber fi bei unbekanntem a2. Wir betrachten das Testproblem
Ganz analog zum ubergang vom einseitigen auf den zweiseitigen Gau& test verwenden wir fiir dieses Testproblem wieder die in (12.14) definierte PriifgriiDe for das einseitige Testproblem bei unbekannter Varianz. Wir verwerfen fiir groBe positive und fiir groBe negative Werte von T und ersetZen in dem zweiseitigen GauDtest die t-Quantile durch die entsprechenden t-Quantile. Dann erhalten wir, dass durch
ein Test zum Niveau cu gegeben ist. Dieser Test heiDt zweiseitiger t-Test oder Student t-Test.
12.5 Konfidenzbereiche
269
ubungen ubung 12.7 Zeige, dass die folgende Beziehung zwischen den Quantilen der Ff,s
und der Fg,f-Verteilunggilt
12.5 Konfidenzbereiche Wir kniipfen an dieser Stelle an die in Kapitel 11behandelte Fragestellung an. Dort war ein statistisches Model1 (Ps)e,e fiir die Verteilung einer Zufallsvariablen X : Q + X gegehen sowie eine Abbildung g : O + r,und wir standen vor der Aufgabe, den Parameter y = g(0) zu schatzen. Mit der Definition 11.3 haben wir (Punkt-)Schatzer t : X + r eingefuhrt und diese im weiteren Verlauf des Kapitels untersucht. Gegeben die Beobachtung x = X(w), haben wir den Parameter g(0) durch den Punkt t(x) E r geschatzt. Dieses Verfahren liefert einen prkzisen Wert, wodurch aber nicht zum Ausdruck kommt, mit welcher Ungenauigkeit dieser Schatzwert behaftet ist. In dieser Situation helfen Bereichsschatzer, die uns zusatzlich eine Idee geben, in welchem Bereicb des Parameterraums wir den wahren Parameterwert zu erwarten baben. Ziel dieses Abschnitts sol1 es sein, dies zu prejisieren und Verfahren zur Bestimmung von Bereichsschiitzern anzugeben. Es gibt eine enge Beziehung zwischen Konfidenzbereichen und statistischen Tests, was uns veranlasst, die Theorie der Konfidenzhereiche in diesem Kapitel zu behandeln.
Definition 12.21 Es sei (PR)e6e ein statistisches Modell fiir die Verteilung der Zufallsuan'able X : Q + X und g : O + r eine Abbildung. (i) Eine Abbildung C , die jeder Beobachtung x E X eine Teilmenge C(x) C r zuordnet, heijlt Bereichsschatzer. (ii) Der Bereichsschiitzer C h,eijlt (1-a)-Konfidenzbereichfiir g(0), cu E [O,11, wenn
fiir alle 0 E O gilt. Ist r = W und C(x) fiir alle x E X ein Internall, so heijlt C aveh ein Konfidenzin,tervall.
Beispiel 12.22 (i) Seien XI, . . . ,X, unabhangige N(k, u2)-verteilte Zufallsvariablen, wobei u2 > 0 bekannt und ji E W ein unbekannter Parameter ist. Wir suchen zu vorgegebenem a E [O, 11 ein (1- a)-Konfidenzintervall fiir p. Nach Satz 11.16(ii) hat fi* eine N(0, 1)-Verteilung und somit gilt mit Wahrscheinlichkeit (1- a ) , dass
270
12. GrundbegrifTe der Testtheorie
Hier ist zl-e/z das (1 - a/2)-Quantil der N ( 0 , 1)-Verteilnng, siehe Definition 12.19. Durch Umformen von (12.17) erhalten wir, dass ebenfalls mit Wahrscheinlichkeit (1 - cu) gilt
Damit definiert die Abbildung, die jeder Beohachtung x = (XI,.. . ,x,) das Intervall C(x) := [Z - zl-,125,Z zl-u12+] zuordnet, ein (1 - a ) Konfidenzintervall fiir p. (ii) Wir betrachten dasselbe Model1 wie in (i), wobei jetzt auch die Varianz unbekannt ist. Wir suchen weiterhin nur ein Konfidenzintervall fiir p. Es ist, naheliegend, in dieser Situation in den obigen uberlegungen die unbekannte Varianz u2 durch den Schatzer s$ := Cy=l(Xi - X)' zu ersetzen, bzw. u durch sx = Jetzt hat T = fi? nach Satz 11.18 eine t,-lVerteilung, sodass mit Wahrscheinlichkeit (1 - a ) gilt, dass
+
&
a.
wobei t,-l,l-,~2 das (1-a/2)-Quantil der t,-1-Verteilnng ist. Durch Umformen von (12.18) erhalten wir, dass ebenfalls mit Wahrscheinlichkeit (1 - a ) gilt
Damit definiert die Abbildung, die jeder Beobachtung x = (XI,.. . ,x,) das Intervall C(x) := [Z - ~ t , - l ; l - e / 2 , Z ~ t , - l i l - e l z ] zuordnet, ein (1 - a ) Ji; r Konfidenzintervall fur p.
+
Bemerkung 12.23 Wir wollen noch einige uberlegungen zum Verstzndnis der Konfidenzintervalle anschliefien. Das Gebiet C(X) ist eine zufallige Teilmenge von r,die bei jeder Ausfiihrung des Experiments anders ist. Insbesondere wird der wahre Parameterwert y = g(0) manchmal von C ( X ) uberdeckt und manchmal nicht. Die Bedingung (12.16) gwantiert, dass g(0) mit einer Wahrscheinlichkeit mindestens (1 - a ) in C(X) liegt. Diese uherlegungen gelten vor Ausfiihrung eines Experiments. Nach der Ausftihrung ist C(x) ein festes Gehiet, das g(0) ent,weder iiberdeckt oder nicht. Da wir g(0) nicht kennen, kijnnen wir nicht entscheiden, was der Fall ist, aber es ist nicht sinnvoll, von der Wahrscheinlichkeit zu sprechen, dass g(0) in C(x) liegt.
Es gibt eine enge Beziehung zwischen Konfidenzbereichen und statistischen Tests, die wir im folgenden Satz vorstellen werden.
Satz 12.24 Sei (P.q).qEoein statistisches Modell fiir die Verteilung der Zufallsuan'ablen X : 0 + X und g : O + r eine Abbildung. Fiirfestes y E r
12.5 Konfidenzbereiche
271
sei 47 : X + {0,1) ein nicht-randomisierter Test zum Niueau cu far das Testproblem H : g(0) = y gegen A : g(0) # y. Dann wird durch
ein (1- cu)-Konfidenzinteruallfiir g(0) definiert. Beweis. Da 6, ein Test zum Niveau cu ist, gilt fiir alle '6 E 0,die die Hypothese g(0) = y erfullen, dass
Nach der in (12.19) gegebenen Definition von C gilt y E C ( X ) genau dann, wenn & ( X ) = 0 und somit folgt
womit die Aussage des Satzes hewiesen ist.
0
Bemerkung 12.25 Der in (12.19) definierte Konfidenzhereich enthalt fiir einen gegebenen Beobachtungswert x genau diejenigen y E r, die durch die Test,s (&)YEr nicht als mogliche Werte des Parameters g(0) verworfen wurden. Es enthalt also C(x) genau die Parameterwerte y E r, von denen wir nicht ausschliefien kiinnen, dass sie der wahre Wert von g(0) sind. Beispiel 12.26 Wir hetrachten noch einmal dasselbe Problem wie in Beispiel 12.22 (ii), d.h. die Bestimmung eines Konfidenzhereichs fur den Erwartuugswert einer Normalverteilung bei unhekannter Varianz. Um das in Satz 12.24 dargestellte Verfahren anwenden zu konnen, benotigen wir zu jedem PO E R einen Test ,m, fiir das Testproblem H : fi = fio gegen A : fi # fio. Fur dieses Testproblem haben wir in (12.15) den zweiseitigen t-Test eingefiihrt. Dieser Test verwirft genau dann nicht, wenn
Somit ist fio genau dann in C(x) wenn (12.20) gilt, d.h. wenn
und somit wird
Mit dem in Satz 12.24 dargestellten Verfahren haben wir also genau dasselbe Konfidenzintervall gefunden wie zuvor mit Hilfe von ad-hoc Ideen.
272
12. GrundbegrifTe der Testtheorie
12.6 Aufgaben Aufgabe 12.1 Seien X : Q + (O,ca), Y : Q + W zwei Zufallsvariablen und sei a E W fest. (i) Zeige , dass die durch
definierte Funktion f : W + W monoton steigend ist. (ii) Sei jetzt speziell Y eine N ( t , 1)-verteilte Zufallsvariable. Zeige, dass f ( t ):= 2 a) eine monoton steigende Funktion definiert.
P(5
Aufgabe 12.2 Gegeben sei ein statistisches Model1 (Ps)sE{o,l) fiir die Verteilung der Zufallsvariable X sowie das Testproblem H : P = Po gegen A : P = PI. Weiter seien beide Verteilungen, Po und PI entweder diskret, oder stetig. Bestimme den Test 4 : X + {O, I), der die Summe der beiden Fehlerwahrscheinlichkeiten, also
minimiert
13. Der Poisson-Prozess
In diesem Kapitel kniipfen wir an die Bemerkungen zur Bedeutung der Poisson-Verteilung in Abschnitt 4.3 und an das erste Kennenlernen von st* chastischen Prozessen beim Galton-Watson Prozess in Abschnitt 7.2 an. Wir werden den Poisson-Prozess definieren, das wichtigst,e Model1 zur Beschreibung zufdliger, in Zeit oder Raum gleichmaig verteilter Ereignisse. Wir kiinnen dabei denken an Zeitpunkte, zu denen Versicherungsschaden eintreten bzw. Telefongesprache in einer Zentrale eint,reffenoder an Orte, an denen eine seltene Pflanze wachst bzw. eine bestimmte Vogelart brutet.
13.1 Ein Model1 fiir SchadensElle Eine Versicherungsgesellschafthat uber viele Jahre Aufzeichnungen gemacht uber die Zeitpunkte, zu denen Schadensfdle gemeldet worden sind, siehe Abb. 13.1.Nun fragt die Versicherungsgesellschaft nach einem passenden ma-
Abb. 13.1. Zeitpunkte des Eintretens "on Schadensfallen in 4 aufeinanderfolgenden Jahren
thematischen Modell, mit dessen Hilfe sie die Anzahl der zu bearbeitenden Schaden im nachsten Quartal abschatzen kann. In dem Model1 kijnnen aufgrund der langjabrigen Erfahrungen der Versicherungsgesellschaft folgende Tatsachen als gegeben angenommen werden.
274
13. Der Poisson-Prozess
1. Die Meldungen erfolgen nacheinander, d.h. zu einem Zeitpunkt kann es nur maximal einen Schadensfall gehen. 2. Die gemeldeten Schadensfalle sind unabhangig voneinander, d.h. die Gesamtzahlen der gemeldeten Schadensfalle in disjunkten Zeitintervallen sind unabhhgig. 3. Die Meldungen der Schadensfdle sind gleichmaig in der Zeit verteilt, d.h. die mittlere Anzahl Schadensfalle in einem Zeitintervall ist proportional zur Lange des Zeitint,ervalls. Dni-chschnittlich werden taglich X Schadensfalle gemeldet. Wenn wir nun das Eintreten der Schadensfdle modellieren wollen, so lie@ die Idee nahe, dazu einen zeitstetigen Prozess ( X t ) t E ~unabhangiger, + Bernoulliverteilter Zufallsvariablen zu verwenden, wohei Xt = 1 bedeutet, dass zum Zeitpunkt t ein Schadensfall eintritt und Xt = 0, dass zum Zeitpunkt t kein Schadensfall eintritt. Dabei ergibt sich jedoch ein ahnliches Problem, wie wir es schon beim ubergang von diskreten zu stetigen Verteilungen kennengelernt haben. In diesem Model1 konnte nur p = P ( X t = 1) = 0 gewahlt werden, da es ftir p = P ( X t = 1) > 0 bereits in jedem endlichen Zeitintervall unendlich viele Schadensfdle gabe. Dass zu jedem festen Zeitpunkt t die Wahrscheinlichkeit, dass dann ein Schadensfall eintritt, gleich 0 ist, d.h. P ( X t = 1) = 0, steht nicht im Widerspruch zu P({es gibt ein t E (a,b]mit Xt = 1)) > 0. Wegen der ~berabzahlbarkeitdes Zeitintervalls (a,b] findet hier das Kolmogorov'sche Additivitatsaxiom keine Anwendnng. So wie die Verteilung einer stetigen Zufallsvariablen nicht durch die Angabe der Wahrscheinlichkeiten P ( X = x) beschriehen werden kann, so kann das Modell fiir die Zeitpunkte der Schadensfalle nicht durch P(Xt = 1) beschrieben werden. Obwohl ein zeitstetiger Prozess unabhangiger, Bernoulli-verteilter Zufallsvariahlen als mathematisches Objekt nicht existiert, gibt dieses Bild doch eine brauchbare Vorstellnng. Als ersten Schritt zu einem mathematischen Model1 stellen wir jetzt eine Approximation vor, wobei wir annehmen, dass Schadensfdle nur zu diskreten Zeitpunkten eintreten konnen.
Definition 13.1 Eine Folge unabhangiger, Bernoulli(p)-uerteilter Zufallsuariablen ( X t ) t E auf ~ einer abzahlbaren Indexmenge T he@ ein BernoulliProzess. Bei festem n E W betrachten wir nun einen Bernoulli-Prozess auf der ) : i E W } . I n Abb. 13.2 ist eine Realisierung eines Indexmenge T ( ~:= Bernoulli-Prozesses ftir n = 4 und p = 0.5 dargestellt. Die Kreuzchen auf der Zeitachse gehen jeweils die Zeitpunkte der Schadensfalle an. Hier wird also 4 m a l in jeder Zeiteinheit eine Munze geworfen, die entscheidet, ob zu diesem Zeitpunkt ein Schadensfall eintritt. Fiir einen Bernoulli-Prozess lasst sich die Gesamtzahl der Schadensfdle N ( ~ ) ( in I )einem Zeitintervall I = [a,b] berechnen als die Anzahl der ,ErfolgeC der Bernoulli-Experimente, die zu den Zeitpunkten si = in I ausgeftihrt werden,
{i
-
13.1 Ein Model1 fiir Schadensfdle
A 10-
275
t
5-
- ,.
C
t C
t
C
T
t A
'~
1
2
A
3
4
5
Abb. 13.2. Bernoulli-Prozess und zugehoriger Zahlprozess bei n = 4, p = 0.5
folgt, dass die Gesamtzahl Aus der Unabhangigkeit der Zufallsvariablen x?)
"
N ( ~ ) ( eine I ) Bin([nb]- [na],p)Verteilung hat. Die erwartete Anzahl Schadensfalle pro Zeiteinheit ist dann E ( N ( ~ ) [11) o , = np und aus der 3. Modellannahme folgt p = In der Tatsache, dass die Gesamtzahlen der Schadensfalle in disjunkten Intervallen unabhejlgige Zufallsvariablen sind, spiegelt sich die 2. Modellannahme wider. Der Bernoulli-Prozess erfiillt den ersten Teil der 3. Annahme jedoch nicht. Der Prozess ist nicht zeithomogen, weil in den Intervallen (?, ); keine Schadensfalle eintreten konnen. Bei groDem Wert von n wird dies aber kein praktisches Problem sein, da im Alltag die Zeitpunkte nicht so genau festgestellt werden. Wir interessieren uns nun besonders for groBe Werte von n und den ~ N es aus Grenziibergang n + m. Fiir den Bernoulli-Prozess ( x -! ~ ) ) ~ gibt den oben aufgefiihrten Griinden keinen sinnvollen ~renzGert.Daher fiihren wir an dieser Stelle den zugehorigen Zahlprozess ( ~ t ( ~ ' ) , , ~ +ein durch
k.
Dieser Bernoulli-Z&hlprozesserfasst fiir jedes t E IW die Gesamtzahl der Schadensfalle, die his zu diesem Zeitpunkt eingetreten sind. Wir kijnnen den Bernoulli-Prozess mit Hilfe der Sprungzeiten des Bernoulli-Zahlprozesseswieder zuruckgewinnen, siehe Abb. 13.2. Fur ein Interval1 ( a ,b] ist die Anzahl der und es gelten folgende Aussagen Schadensfalle gegeben durch Nb(n) fur den Bernoulli-Zahlprozess ( ~ t ( ~ ) ) ~ ~ ~ + .
NP),
1.
hat fur alle t E IW+ nicht-negative ganzzahlige Werte und N?) = 0. ist monoton steigend, rechtsstetig und es gilt Die Funktion t H aA'jn) := A',(") - A';?) E {0,1}.
276
13. Der Poisson-Prozess
N:?,
2. Fiir 0 = to 5 tl 5 . . . 5 tk sind die Zuwachse N):; i = 1,.. . ,k, unabhangige Zufallsvariablen. 3. Fiir 0 5 a < b < m hat Njn) - N P ) eine Bin(([nb]- [na]), A ) - ~ e r t e i l u n ~ . - [na]); = X(b - a), Nun gilt fiir den Grenziibergang lim,,,([nb] und damit sind alle Voraussetzungen des Poisson-Grenzwertsatzes, Satz 4.8, erfiillt. Also konvergiert die Verteilung des Zuwachses N?) - N?) gegen eine Poisson(X(b - a))-Verteilung. Diese uberlegungen konnen hinfiihren zu einem Konvergenzbegriff,der beschreibt, dass der obige Zahlprozess ( ~ t ( ~ ) ) ~ ~ ~ fiir groBe n gegen einen Prozess ( N t ) t E ~ konvergiert, + dessen Zuwiichse unabhangige, Poisson-verteilte Zufallsvariablen sind. Wir geben hier aber stattdessen einen axiomatischen Zugang und definieren, motiviert durch die obige Herleitung.
Definition 13.2 Ein stochastischer Prozess ( N t ) t E ~ he@ + Poisson-Prozess, wenn folgende Eigenschaften erfiillt sind 1. Nt hat fiir alle t E R+ nicht-negative ganzzahlige Werte und No = 0. Die Funktion t H Nt ist monoton steigend, rechtsstetig und ANt = Nt Nt- E { O , l ) . 2. Fur 0 = to 5 tl 5 . .. 5 t k sind die Zuwachse Nt, - Nt i = 1 , . . . , k, unabhangige Zufallsvariablen. 3. Fiir 0 5 a < b < m hat Nb - Na eine Poisson(X(b - a))-Verteilung.
Der Parameter X hei& Intensitatsparameter, oder Intensitat, des PoissonProzesses. Wir verwenden Poisson-Prozesse oft zur Beschreibung zufalliger, in der Zeit gleichmaflig verteilter Ereignisse. Neben den genannten Schadensfalen bei einer Versicherungsgesellschaft sind Beispiele die ankommenden Telefongesprache in einer Telefonzentrale bzw. der Auskunft oder das Eintreffen neuer Kunden an der Supermarktkasse.
ubung 13.1 Es sei (Nt)t,[o,,ol ein Poisson-Prozess mit Intensitat X = 1. Mit X I , .. . , Xlo bezeichnen wir die Anzahl der Ereignisse in den disjunkten Zeitintervallen (0,1],(1,2],.. . , (9,101.Bestimme die Verteilung von M = max(X1,. . . ,XIO). Bestimme die Wahrscheinlichkeit, dass XI = 4 und dass M = 4. ubung 13.2 Es sei (Nt)t,Io,lolein Poisson-Prozess mit Intensitat X = 1. Wir bezeichnen mit X die Anzahl der Intervalle der Form (i - 1, i], 1 2 i 5 10, in denen kein Ereignis eintritt. Bestimme die Verteilung von X und berechne E X .
13.2 Die Verteilung der Sprungzeiten Wir kljnnen einen Poisson-Prozess eindeutig durch den zugehljrigen Zzhlprozess ( N t ) t E ~beschreiben + und ebenso durch die Folge (Tk)kE~ der Zeitpunkte
13.2 Die Verteilung der Sprungzeiten
A
C C 7 C
10-
5-
277
--
C C
t
C
C X x
T
1
''
'.
t
, I
"
2
I
T
3
4
I
',
5
Abb. 13.3. Realisierung eines Poisson-Prozesses
TI, Tz, . . . , an denen der Z2hlprozess Sprunge macht. Diese Sprungzeiten sind genau die Zeitpunkte, zu denen ein Ereignis eintritt, siehe Abb. 13.3. Formell kiinnen wir Tk,k = 1,2,. . . , definieren als Wartezeit bis zum k-ten Sprung
In diesem Abschnitt werden wir uns nun mit der gemeinsamen Verteilung ~ und hestimmen dazu zunachst die marginalen der Folge ( T k ) k Ebeschaftigen Verteilungen.
Satz 13.3 Sei ein Poisson-Prozess und ( T k ) k Edie ~ zugehdrige Folge der Spmngzeiten. Dann hat fur jedes k E W die Zufallsvariable Tk eine Gam.ma(k, A) - Verteilung. Beweis. Wir bestimmen zunachst die Verteilungsfunktion von Tk. Fur t 5 0 gilt P(Tk 5 t) = 0. Fur t > 0 gilt Tk 5 t, d.h. das k-te Ereignis tritt genau dann vor dem Zeitpunkt t ein, wenn Nt k. Also hat Nt gemai3 Definition 13.2(3.) eine Poisson(At)-Verteilung, und es gilt
>
Damit ist die Verteilungsfunktion von Tk stetig und, auoer in t = 0, stetig differenzierbar. Also existiert nach Sat,z 8.7 die Dichte und lasst sich fiir t 0 wie folgt hestimmen
>
(At)? j=k
(j-1
j!
278
13. Der Poisson-Prozess
Fiir t 5 0 gilt fk(t) = 0 und so ist fk(t) die Dichte einer Gamma(k,X)Verteilung, denn es ist r ( k ) = (k - I)!. 0 Die Wartezeit bis zum Auftreten des k-ten Ereignisses in einem PoissonProzess hat also eine Gamma(k,X)-Verteilung und so gilt insbesondere, dass die Wartezeit bis zum Eintreten des ersten Ereignisses eine Exp(X)Verteilung hat. Wir haben den Poisson-Prozess eingeftihrt als stetiges Analogon des Bernoulli-Prozesses, und in diesem Sinne sind die exponeutielle und die Gamma-Verteilung stetige Analoga zur geometrischen bzw. negativbinomialen Verteilung, von denen wir in ubung 6.8 gezeigt haben, dass sie als Verteilungen der Wartezeiten in einem Bernoulli-Prozess eintreten. Dass die exponentielle und die Gamma-Verteilung als Wartezeit bis zum ersten bzw. k-ten Ereignis in einem Poisson-Prozess auftreten, weist noch auf einen tieferen Zusammenhang hin. Im folgenden Satz werden wir zeigen, dass die Wartezeiten zwischen je zwei Ereignissen unabhangige, Exp(p(X)verteilte Zufallsvariablen sind. Damit lasst sich Tk als Summe der k unabhejlgigen Zwischenwartezeiten Ti - Ti-1, i = 1,.. . , k, schreiben und hat, eine Gamma(k, A)-Verteilung, siehe Beispiel 9.14. Satz 13.4 Sei ( N t ) t E ~ein + Poisson-Prozess und ( T k ) k Edie ~ zugeh6rige Folge der Sprungzeiten. Dann sind die Wartezeiten misehen dem Eintreten zweier Ereignisse, also TI, Tz - TI, T3 - T2,. . . , unabhdngige, Exp(X)-verteilte Zufallsvan'ablen.
0
tl
t l + Ah
tz
Abb. 13.4. t~ < TI 5 tl
tz
+ Atz
ti
to
+ Atr
+ Atl, tz < Tz 5 tz + Atz,. . . , t i < Tk 5 t i +At&
Beweis. Wir bestimmen zunachst die gemeinsame Dichte f (tl, . . . ,tk) der Sprungzeiten TI,. . . ,Th. Aus 0 < TI < . . . < Tk folgt, dass f (tl,. . . ,tk) stets 0 ist, auaer ftir 0 < t l < . . . < tk. Wir betrachten jetzt t l , . . . ,tk mit 0 < t l < . . . < tk und wahlen Ati E R+ so klein, dass ti
+ Ati 5 ti+l
ftir i = 1,. . . , k - 1.
Dann gelten die Ungleichungen
genau dann, wenn keine Ereignisse in den Intervallen (0, tl], (tl +Atl, tz], . . . , (tk-l + A t k - ~tk] , eintreten, jeweils genau ein Ereiguis in den Intervallen
13.2 Die Verteilung der Sprungzeiten
(tl,ti+ At,], . . . , ( t k - I , v a l (tk,tk
tk-I
279
+ Atk-I] und mindestens ein Ereignis im Inter-
+ &]. Die entsprechende Wahrscheinlichkeit ist
Wir teilen jetzt durch At1 . . . A & , machen den Grenziihergang Ati gegen 0 und erhalten mit Hilfe von (9.2)
als gemeinsame Dichte von T I , .. . ,Tk. Die gemeinsame Dichte der Zwischenwartezeiten Sl := T I ,S2 := T.L - T I , .. . , Sk := Tk - Tk-1 bestimmen wir hieraus mit Hilfe der Transformationsformel fiir gemeinsame Dichten, Satz 9.5. Es ist Ti = S1 . . . Si, und somit hat die Jacobimat,rix Halbdiagonalform mit 1-en auf der Diagonalen und Determinante 1. Wir erhalten also
+ +
An der Produktgestalt der gemeinsamen Dichte erkennen wir mit Satz 9.11, 0 dass S I ,. . . ,Sk stochastisch unabhangig und Exp(X)-verteilt sind. Die Aussage des obigen Satzes konnen wir aus der sogenannten Erneuerungseigenschaft des Poisson-Prozesses verstehen. Bei jedem Ereignis startet der Poisson-Prozess wieder von neuem, unabhagig von allem was sich zuvor ereignet hat. Die Wartezeit auf das nachste Ereignis ist damit genauso verteilt wie die auf das erste Ereignis und unabhangig von den vorhergehenden Wartezeiten. Da der Poisson-Prozess (Nt)tEW+ und die Zwischenwartezeiten T i ,Tz - Ti, T3 - T2,. . . einander eindeutig bestimmen, konnen wir einen Poisson-Prozess simulieren, indem wir unahhangige, exponentiell verteilte Zufallsvariablen S1, S2,. . . nehmen und dann S1, S1 Sz, SI Sz S3,. . . als Sprungzeiten des Z&lprozesses (Nt)tEW+ verwenden.
+
+ +
ubung 13.3 Die Lehensdauer einer Gliihlampe sei Ezp(X)-verteilt. Jedesmal wenn eine Gliihlampe defekt ist, wird sie sofort durch eine neue Lampe ersetzt. Bestimme die Verteilung der Anzahl der Lampen, die bis zum Zeitpunkt t benotigt werden.
280
13. Der Poisson-Prozess
13.3 Das Inspektionsparadoxon Die Abfahrtszeiten der U-Bahn, mit der wir alle taglich zur Universitat fahren kiinnen, wollen wir als Poisson-Prozess betrachten. Dies ist, wie wir am Ende von Abschnitt 11.2. bemerkt haben, gleichbedeutend damit, dass die Zeiten zwischen den Ahfahrzeiten zweier aufeinanderfolgender U-Bahnen unabhhgig und exponentiell verteilt sind. Wir fragen nun fur die Fahrgiiste, die stets um 8.00 Uhr zur Haltestelle kommen und die nachste U-Bahn nehmen wollen, nach der Verteilung und dem Erwartungswert ihrer Wartezeit. Wir nehmen an, dass zwischen 24.00 Uhr und 4.00 Uhr keine U-Bahn fahrt, sodass der Poisson-Prozess jeweils um 4.00 Uhr neu beginnt. Die erste U-Bahn am Morgen fahrt dann ebenfalls nach Ablauf einer Wartezeit, die exponentiell verteilt ist. Macht es nun einen Unterschied fur die Wart,ezeit, ob wir um 4.00 Uhr oder um 8.00 Uhr an die Haltestelle kommen? Erste uberlegungen fiihren uns zu zwei sich widersprechenden Antworten. 0
Die Wartezeit um 8.00 Uhr muss ktirzer sein, weil wir im Durchschnitt genau in der Mitte zwischen zwei Abfahrtszeiten an der Haltestelle eintreffen und dann nur noch die halbe Zwischenzeit warten mussen. Die Wartezeit um 8.00 Uhr hat dieselbe Verteilung wie die Wartezeit um 4.00 Uhr, da die exponentielle Verteilung gedachtnislos ist, d.h. sie erinnert sich nicht daran, wieviel Zeit seit der Abfahrt der letzten U-Bahn vergangen ist.
Die weiteren ijberlegungen werden uns zeigen, welche Teile der Antworten sich auch im Model1 wiederfinden und welche wichtige Tatsache zur Aufliisung des Widerspruchs fiihrt. Die Verteilung der Wartezeiten zwischen den Abfahrtszeiten zweier U-Bahnen ist unterschiedlich, je nachdem oh wir die Wartezeit zwischen der Abfahrt der letzten U-Bahn vor 8.00 Uhr und der ersten nach 8.00 Uhr betrachten oder die Wartezeit etwa zwischen der 20-ten und der 21-ten U-Bahn. Lange Zwischenzeiten haben eine griiBere Wahrscheinlichkeit wahrgenommen zu werden. Dies ist der gleiche Effekt, den wir bereits bei der Betrachtung der lhgenproportional verzerrten Stichproben im Abschnitt uber geometrische Wahrscheinlichkeiten untersucht haben. + Poisson-Prozess mit Intensitat A und (Tk)k€~die Sei nun ( N t ) t E ~ ein zugehorige Folge der Sprungzeiten. Fur einen fest gewahlten Zeitpunkt to bezeichnen wir mit Tk(t,) den ersten Sprung nach dem Zeitpunkt to, d.h. k(to) := min{k : Tk 2 to}. Weiter definieren wir die Zufallsvariablen Ut, := to -Tk(to)-l und K, := Tk(t,)-to, wobei wir To = 0 setzen. Im Beispiel des UBahnbetriebs ist dann K, die Wartezeit bis zur nachstfolgenden Abfahrt der U-Bahn und Ut, die Zeit seit der letzten Abfahrt hzw. seit t = 0, wenn es noch keine Abfahrt gegeben hat. In einem anderen Zusammenhang, wenn etwa T k die Erneuerungszeiten einer Gluhlampe sind, heifit Ut, die verstrichene Lebensdauer und KOdie verbleibende Lebensdauer. Lemma 13.5 Ut, und i/t, sind unabhangige Zufallsvariablen. i/t, hat eine Exp(A)-Verteilung und Ut, hat die Verteilungsfunktion
13.3 Das Inspektionsparadoxon
Ft,(v,) =
281
{:
fiir u 5 0 1- ech" fiir 0 < u < to fiir u 2 to.
Beweis. Wir bestimmen zunachst die gemeinsame Verteilungsfunktion der Zufallsvariablen Ut, und K O ,d.h. P(Ut, I u , K 0 5 v), und unterscheiden dabei die FBlle v, < to und u 2 to. Ftir 0 < u < to gilt Ut, 5 u genau dann, wenn es in [to - u, to] mindestens eine Sprungzeit des Poisson-Prozesses gibt, d.h. wenn Nt,-, - Nt, 2 1. Fiir u 2 to gilt stets Ut, 5 u , da Ut, 5 to. Weiter gilt K , 5 v genau dann, wenn Nt,+, - Nt, 2 1. Da gema0 der Definition des Poisson-Prozesses die Ereignisse in disjunkten Zeitintervallen unahhangig sind, folgt fiir 0 I u < to W t ,
I % K OI v) = P(Nt,
- Nt,-u
2 l)P(Nt,+u
- Nt,
2 1)
= (1 - eCAu)(1- e-Aw),
und fiir u
2 to P ( U t , ~ ~ , K ~ ~ u ) = P ( ~ , ~ u XU ) .= l - e -
Beide FXlle kljnnen wir zusammenfassen zu WUt,
I u,K, 5 u) = [(l- e-Au)lro,to)(u)+ l ~ t ~ , ~ ) ( u ) e-"1. l(l-
An dieser Produktdarstellung der gemeinsamen Verteilungsfunktion erkennen wir, dass Ut, und K , unabhangig sind, dass KOeine exponentielle Verteilung hat und dass Ut, die im Lemma angegebene Verteilungsfunktion besitzt; siehe 0 ubung 9.2. Die Unstetigkeit in der Verteilungsfunktion von Ut, entspricht der Tatsache, dass wir zum Zeitpunkt to mit positiver Wahrscheinlichkeit noch stets auf die erste U-Bahn warten. Es ist Ut, = to gleichbedeutend mit Nt, = 0, und somit gilt gema0 der Definition des Poisson-Prozesses, dass P(Ut, = to) = P(Nt, = 0) = eCAto. Das obige Lemma liefert dieselbe Anssage, da die Sprunghljhe der Verteilungsfunktion im Punkt to gleich = e-"0 ist. So ist also Ut, eine Zufallsvariable, deren Verteilung 1-(1-e-"0) weder diskret noch stetig ist. Fiir t + cc konvergiert die Verteilung von Ut gegen eine Exp(A)Verteilung in dem Sinne, dass fiir alle u 2 0 lim P(Ut I u ) + 1- e-".
t+m
Da K ebenfalls exponentiell verteilt und unabhangig von Ut ist, hat die wahrgenommene Zwischenzeit Ut K im Limes also eine Gamma(2,A)-Verteilung In dieser Tatsache lie@ die Auflosung des Widermit Erwartungswert spruchs zwischen den beiden Antworten auf die Rage nach der Wartezeit des um 8:00 Uhr bei der U-Bahnhaltestelle eintreffenden Fahrgastes. Bei der ersten Antwort fehlte die uberlegung, dass die um 8:00 Uhr wahrgenommene Wartezeit im Mittel doppelt so lang ist wie die Wartezeit bis zur Abfahrt der ersten U-Bahn.
i.
+
282
13. Der Poisson-Prozess
Abb. 13.5. Ausschnitt aus einem homogenen Poisson-Prozess in der Ebene
13.4 Der Poisson-Prozess als Punktprozess Wir haben bislang zwei Beschreibungen eines Poisson-Prozesses kennenge+ , angibt, wieviele Ereignisse lernt, einmal durch den Zahlprozess ( N t ) t E ~ der in jedem der Intervalle (0, t] auftreten, und dann uber die Folge ( S k ) k E ~ der Wartezeiten zwischen je zwei Ereignissen. In diesem Abschnitt stellen wir noch eine dritte Moglichkeit vor, deren besondere Bedeutung darin besteht, dass sie eine Verallgemeinerung auf mehrdimensionale Poisson-Prozesse ermoglicht. Eine Menge von Punkten in Rf konnen wir auch als Massenverteilnng auffassen, indem wir jedem Punkt die Masse 1 zuordnen. In naturlicher Weise kann diese Verteilung beschrieben werden durch die Anzahl n.(A) der Punkte, die in jeder messbaren Menge A C R+ liegen. Werden die Punkte in Rf zufallig gewahlt, so lassen sich die Werte n,(A) modellieren durch Zufalls-
13.4 Der Poisson-Prozess als Punktprozess
283
variablen N(A), A C Rf, deren gemeinsame Verteilung das Verfahren der Punktauswahl beschreibt. Erfolgt diese Punktanswahl gemaO einem PoissonProzess, so lassen sich folgende Eigenschaften zeigen. 1. Ftir jede messbare Menge A C Rf ist N(A) Poisson(XIAl)-verteilt, wobei IAl die Lange (Lebesgue-Md) von A bezeichnet. 2. Fur paarweise disjunkte, messbare Mengen AI, . . . ,A, sind die Zufallsvariablen N(Al), . . . ,N(An) unabhangig.
Fur Intervalle sind diese Eigenschaften Teil der Definition eines PoissonProzesses. Dass sie auch fiir beliebige messbare Mengen gelten, werden wir in diesem Buch nicht ausfiihren. Einen Poisson-Prozess im Rn definiert man iiber die obigen Eigenschaften, wobei dann IAl Oberflache, Volumen bzw. allgemeiner das Lebesgue-MaO der Menge A C Rn bezeichnet. Beispiel 13.6 William Feller beschaftigt sich in seinem Bnch ,An Introduction to Probability Theory and its Applications' rnit einer Landkarte der Bombeneinschlage, die w a r e n d des 2. Weltkrieges den slidlichen Teil Londons getroffen haben. Er teilt das Gebiet in 576 Quadrate Ai rnit SeitenlZnge 500 m auf und zahlt dann die Bombeneinschlage fur jedes Quadrat. In Tabelle 13.1 sind diese Informationen aufgelistet nach der Anzahl Bombeneinschlage pro Quadrat. Wenn wir dies rnit einem Poisson-Prozess modellieren,
Tabelle 13.1. Verteilung der Bombeneinschlage auf 576 Planquadrate
so sind die Summen n(A,), i = 1 , . . . ,576, Realisierungen von 576 unabhangigen Poisson-verteilten Zufallsvariablen. Da wir den Intensit2tsparameter X nicht kennen, mussen wir ihn anhand der Daten schatzen. Wenn wir als Mdeinheit die Oberflache eines Planquadrats nehmen, folgt E(N(Ai)) = A, sodass die durchschnittliche Anzahl der Bombeneinschlage pro Planquadrat sich als Schatzer ftir X anbietet. Mit den gegebenen Daten folgt X = 0.9323. Wir erwarten dann, dass es 576.CX$ Planquadrate rnit k Einschlagen gibt, und haben diese Werte zum Vergleich in der Tabelle aufgenommen. Es besteht eine sehr gute ijberein~timmun~ zwischen den rnit Hilfe des Modells eines Poisson-Prozesses berechneten Werten und den gegebenen Daten. Einen homogenen Poisson-Prozess in R2 kijnnen wir uns vorst,ellen als Model1 fur die znfdlige Wahl von Punkten in R2. Wir sind bei der Beschaftigung rnit geometrischen Wahrscheinlichkeiten bereits auf das Problem gestoOen, dass es keine Gleichverteilung auf R gibt und wir somit kein Model1
284
13. Der Poisson-Prozess
ftir die zufulige Wahl eines Punktes in R haben. Dieselbe Problematik gilt fur R2, und auch hier wahlen wir den Weg, erst eine Gleichverteilung auf K K K K den endlichen Quadraten V := [-?,?I x [-?, zu definieren und anschliefiend den Grenzubergang K + w zu machen. Wir nehmen an, dass i = 1,.. . ,N gemafi wir N = XK%nabhiingige, zufallige Punkte (Xi, der Gleichverteilung auf V gewiihlt haben. Die Zahl N ist so gewahlt, dass wir im Durchschnitt X Punkte pro Einheitsquadrat erhalten. Diese Form der Abhangigkeit der Anzahl N der Punkte von K , der Seitenlange der Quadrate, ist wichtig, da wir sonst keinen sinnvollen Grenzwert beim ubergang K + oo erwarten kdnnen. Es seien nun A1,. . . ,A, disjunkte, beschrejlkte Mengen in R2 und sei N(Aj) die Anzahl der Punkte (Xi,Yi),i = 1,. . . ,N , die in A, liegen. Wir wahlen K so grofi , dass alle Mengen Ai in V liegen. Jeder der Punkte (Xi, Y,),i = 1 , . . . ,N , kann dann in eine der Mengen Ai fallen oder in die komplementtire Menge V \ (A1 U . . . U A,) und zwar mit Wahrscheinlichkeit IAnI)/K2. Damit hat der Vektor IAil/K
x),
.+
w,
P(N(A1) = n l , . . . ,N(Ak) = nk) -
N! nl! . . . nk!(N - nl - . . . - nk)!
fur K + cu.Mit Hilfe von Satz 6.12 erkennen wir, dass im Limes die Anzahlen N(Al), . . . ,N(A,) unabhangig und Poisson(XIAil)-verteilt sind. W a l e n wir also XK2 Punkte zufdlig gemal3 einer Gleichverteilung auf V = [-%, $1 und lassen K gegen w streben, so erhalten wir im Limes einen Poisson-Prozess. Dies ermaglicht auch, einen Poisson-Prozess approximativ zu simulieren. Eine andere, exakte Simulationsmethode ist in Aufgabe 13.1beschrieben. Dort wird zunachst die Gesamtzahl N der Punkte in dem zu betrachtenden
Gebiet R gem28 einer Poisson(XIRI)-Verteilung gewiihlt und anschlie8end werdcn dic A' Punktc g c m s eincr Gleichvcrtcilung auf R verteilt.
Bbung 13.4 Wir w&hlen 2n Punkte zufallig aus [O,n]. Bestimme die Verteilung der Anzahl Punkte in [0,1] und berechne den Grenzwert f t r n + m. h u n g 13.5 Wir wihlen zufallig eiue Poisson(X)-verteilte Anzahl Puukte aus [0, 11. Bestimme die Verteilung dcr Anzahl Punkte in eiuern beliebigen Interval1 [a,bl C [O,11.
13.5 Aufgaben Aufgabe 13.1 Wir wiihlen znftillig und unabhxngig voneinander n Punkte aus dem Einhcitsquadrat R = [O, 11' und bezeichnen diese mit (XI, Yl), . . , (X,, Y,). Sei Al , . . . ,AI eine tlisjunkt,e Zerlegung von R. Wir definieren die Zufdlsvariablen
.
N j := I{i : (Xi,&) E Aj}I
fiir j = 1 , . .. ,k.
.
(i) Bestimme die gemeinsame Verteilung von hl;,. . ,Nk. (ii) Best,imme die gemeinsame Verteilung von N l , . .. ;Nk unter der Annahme, dass die Gesamtzahl der zuf&lliggewiihlten Punkte die Realisierung einer Poisson-verteilten Zufallsvariablen ist.
Aufgabe 13.2 Fiir einen Bernoulli-Prozess
( X" F ' )mit~ ~Parameter ~ p,, =
sei T der Zeitpunkt des ersten Erfolgs. Bestimme die Wahrscheinlichkeitsfunktion und die Verteilungsfunkt,ion von T und berechne lim,,, F,(t).
Aufgabe 13.3 Es sei f (x) eine nicht-negat,ive, integrierbare Funktion auf [0, 11. Wir betrachten folgendes Verfahren zuftillig Punkte aus [O,11zu wghlen: Zuniichst wahlen wir die Gesamtzdil N gema8 einer Poisson-Verteilung mit Parameter X = $ f (x)dx und anschlie8end wiihlen wir N Punkte aus [0! 11 gem28 einer Verteilung mit Dichtefunktion j(z):= f (x)/J; f (x)&. FEr eine Teilmenge A c [0,1] bezeiclinen wir mit hr(A) die Anzahl der gewshlten Punktc in A. Bcstiime f i r disjnnkte Mengen AI, . . . , A & C [0, 11 die g c meinsame I'erteilung von N(AI), . . . ,N(Ak). (Dieses Verlahren lieat inhomogrner Poisson-Prozess, und wir kiinnen es uns als stetiges Analogon eines Bernoulli-Prozesses mit nicht-konstanten ErfolgswahrscheinlichkeitenvorstelIcn.)
14. Einige Konvergenzbegriffe
Wir hahen in vorhergehenden Kapiteln einige hedeutende Satze kennengelernt, in denen verscbiedene Konvergenzbegriffe verwendet werden, etwa das schwache Gesetz der groDen Zahlen, den Zentralen Grenzwertsatz und den Poisson-Grenzwertsatz. Wir werden nun diese und weitere Konvergenzbegriffe fiir Zufallsvariablen und fur Verteilungen einfuhren und studieren. Damit werden wir dann wichtige Satze der Wahrscheinlichkeitstheorie formulieren und heweisen, etwa das starke Gesetz der groDen Zahlen und eine allgemeine Formulierung des Zentralen Grenzwertsatzes.
14.1 Konvergenz von Zufallsvariablen Definition 14.1 Es seien X u n d X l , X z , . . . Zufallsuariablen auf dem Wahrscheinlichkeitsraum ( Q ,F,P ) . Dann he@ (i) X , fast sicher konvergent gegen X , wenn
p({w
:
lim X,(w) = X ( w ) } )= 1,
n-00
und wir schreiben X , 3 X . (ii) X , in Wahrscheinlechkeit konvergent gegen X , wenn fiir jedes lim P(IX, - X I
n+m
und wir schreiben X ,
t
> 0 gilt
> t ) = 0,
P + X
Wir sagen, dass eine Eigenschaft E(w) fast uberall hzw. fur fast alle w E Q gilt, wenn P({w : E(w) gilt }) = 1. Die fast sichere Konvergenz ist ein ganz wichtiges Beispiel einer solchen Eigenschaft. So hetrachtet bedeutet X , 3 X , dass die Folge (X,(W)),>~fiir fast alle w E Q gegen X ( w ) konvergiert. Von der Einfuhrung her ist die fast sichere Konvergenz der einfachste unter den Konvergenzbegriffenin der Wahrscheinlichkeitstheorie, da er direkt abgeleitet wird von der Konvergenz einer Folge reeller Zahlen. Leider ist der Nachweis der fast sicheren Konvergenz meist nicht einfach zu geben. Konvergenz in Wahrscheinlichkeit bedeutet, dass die Wahrscheinlichkeit des Ereignisses {w : IX,(w) - X(w)l > t} fur n + oo gegen 0 konvergiert.
288
14. Einige KonvergenzbegifTe
Im folgenden Beispiel werden wir zeigen, dass dies nicht den Schluss zulasst, dass fiir festes wo E R der Abstand IX,(wo) - X(wo)l schliefllich kleiner als t wird. Obwohl die Ausnahmemengen {w : IX,(w) -X(w)l 2 t) immer kleiner 0 konvergiert, konnen sie doch R werden und ihre Wahrscheinlichkeit, gegen - durchlaufen und dabei unendlich oft ein gegebenes wo iiberdecken.
Abb. 14.1. Folge von Zufallsvariablen, die in Wahrscheinlichkeit, aber nicht fast sicher konvergiert
Beispiel 14.2 Wir geben jetzt ein Standardbeispiel, dass Konvergenz in Wahrscheinlichkeit nicht fast sichere Konvergenz impliziert. Als Wahrscheinlichkeitsraum wahlen wir R = [O, 11 mit der Gleichverteilung, und wir definieren die Zufallsvariablen X,, n 2 1, durch X,(w) :=
++
1 fur w E [j2Tk,( j + l)2-k] 0 sonst ,
wobei n = 2k mit k = 0,1,.. . und j = 0,. . . ,2k - 1. Jede natiirliche Zahl n l%st sicb eindeutig als n = Zk j mit k E No und j E {O,. . . , Zk - 1) darstellen, und somit ist die Folge (X,),?I eindeutig definiert. Fur X 0 ist die Folge der Wahrscheinlichkeiten (P(IX, - XI > 0)),>1 monoton fallend und wegen
+
=
14.1 Konvergenz von Zufallsvariablen
289
gilt limn,, P(IXn -XI > 0) = 0. Also konvergiert X, in Wahrscheinlichkeit 0. Andererseits ent,h<die Folge (X,(W)),~I gegen die Znfallsvariable X fur jedes w E L? unendlich viele 0-en und 1-en und konvergiert somit nicht.
=
Im folgenden Satz haben wir einige zur fast sicheren Konvergenz aquivalente Aussagen zusammengestellt, die in Konvergenzbeweisen hilfreich sein konnen. Die unterschiedlichen Formuliernngen dieser Aussagen beruhen eigentlich nur auf verschiedenen Formnlierungen der Konvergenz einer Zahlenfake (Xn(w)),?l. Satz 14.3 Es seien X undX1, XZ,. . . Zufallsuariablen auf dem Wahrscheinlichkeitsraum (L?, F,P ) . Dann sind folgende Aussagen aquiwalent (i) Xn konuergiert fast sicher gegen X . (ii) Fur alle t > 0 gilt
lim P(IXk -XI 5
fiir alle k 2 n) = 1.
(14.1)
P(IXk - X I > t fur unendlich viele k) = 0.
(14.3)
ntm
(ii?) Fur alle
t
t
> 0 gilt
(iu) Fiir alle t > 0 gilt
Beweis. Fiir die Aquivalenz von (ii) und (iii) betrachten wir die Ereignisse Ak(t) := {W : IXk(w) - X(w)I 5 r) sowie B,(t) :=
0 Ak(t) = {w : IXk(w) - X(w)I 5
E
fur alle k 2 n}.
k>n
Die Ereignisse (B,(t)),>l hilden eine aufsteigende Folge und somit folgt aus der Stetigkeit von ~ahricheinlichkeitsverteilun~en P(B,(t)) = lim P(IXk - XI 5 c fiir alle k 2 n). ntm
Damit ist die Aquivalenz von (ii) und (iii) gezeigt. Weiter gilt
= {w : fiir jedes n 2 1 giht es ein k 2 n mit w E A;} = {w : w E Ag fur unendlich viele k} = {w : IXk(w) - X(w)I
> E fur unendlich viele k}.
290
14. Einige KonvergenzbegifTe
Also sind (iii) und (iv) aquivalent. Zum Beweis der Aquivdenz von (i) und (iv) bemerken wir zunachst, dass aus der Identitat (14.3) fiir ein t > 0 folgt, dass diese Identitat fiir alle t' t auch gilt. Damit ist (iv) aquivalent mit der zunachst schwacheren Aussage, dass die Identitat (14.3) fiir alle t der Form t = f mit j E W gilt. Aber X,(w) konvergiert genau dann nicht gegen X(w), wenn es ein j gibt, sodass IX,(w) - X(w)l > $ fiir unendlich viele n, d.h.
>
Somit ist P(X, f , X ) = 0 genau dann, wenn fiir jedes j E W gilt IX, -XI
1
> :fiir unendlich viele n 3
Damit ist auch die Aquivalenz von (i) und (iv) gezeigt.
0
Die zweite Aussage des obigen Satzes verdeutlicht den Unterschied zwischen Konvergenz in Wahrscheinlichkeit und fast sicherer Konvergenz. Wahrend Konvergenz in Wahrscheinlichkeit fordert, dass P(IX, -XI I t ) + 1, muss fiir fast sichere Konvergenz gelten, dass
>
P(IXk - X I I t fiir alle k Da P(1-G - XI I t ) Aussage des folgenden Satzes.
> n), folgt daraus die
Satz 14.4 Fast sichere Konuergenz impliziert Konvergenz in Wahrschein-
lichkeit.
ubung 14.1 Es sei (X,),21 eine Folge ~oisson(i)-verteilterZufallsvariablen. Zeige, dass X ,
P
4 0.
14.2 Das starke Gesetz der groDen Zahlen Im Kapitel 6 hahen wir mit Hilfe der Chebychev-Ungleichung das schwache Gesetz der groBen Zahlen hewiesen, d.h. fur eine Folge (X,),?I unabhangiger, identisch verteilter Znfallsvariablen mit endlicher Varianz gilt, dass
14.2 Das starke Gesetz der gro5en Zahlen
291
In diesem Ahschnitt werden wir nun das starke Gesetz der groJ3en Zahlen beweisen, das sich genau an der Aussage iiher die Art der Konvergenz unterscheidet. Anstelle der Konvergenz in Wahrscheinlichkeit steht nun die stkkere Aussage der fast sicheren Konvergenz. Zunachst formulieren und beweisen wir ein klassisches Lemma, benannt nach den Mathematikern Emile Borel (1871-1956) und Francesco Paolo Cantelli (1875-1966), das die Grundlage der meisten Beweise fast sicherer Konvergenz ist. Lemma 14.5 (Borel-Cantelli Lemma) Sei (Ak)k>l - eine Folge won Ereignissen in dem Wahrscheinlichkeitsraum (Q, 7,P ) . (i) Gilt P(Ak) < oo, so folgt m
= P({w: w E Ak fiir unendlich viele k ) ) = 0.
(ii) Sind die Ereignisse (Ak)a>l - unabhangig mit
CEO=, P(Ak) = co, so gilt
Beweis. (i) Es gilt w E Ak far unendlich viele k genau dann, wenn ftir alle n E W gilt w E U E n A k oder Quivalent w E n= :l lJznAk. Da B, := Ak eine ahsteigende Folge von Ereignissen ist, folgt mit der Stetigkeit von Wahrscheinlichkeitsverteilungen
Uzn
da CEnP(Ak) eine konvergente Reihe ist. (ii) Wir bemerken zunachst, dass fiir eine beliebige Folge von Ereignissen (B,),>I gilt, dass P(n:=, B,) = 1 genan dann, wenn P(Bn) = 1 fiir alle n. Also ist zu zeigen, dass P ( U z n Ak) = 1 bzw. A;) = 0 fiir alle n . Wegen der Unahhangigkeit der Mengen A; gilt
P(nzn
wohei wir die Ungleichung 1 - x 5 e c X ,x E $ verwendet haben.
0
kann nach dem BorelFtir eine Folge unahhBngiger Ereignisse Ak nur Wahrscheinlichkeit 0 oder Cantelli Lemma das Ereignis 1 haben. Zu dieser Aussage giht es eine weitreichende Verallgemeinerung,
UFn
292
14. Einige KonvergenzbegifTe
das sogenannte 0-1-Gesetz von Kolmogorov. Dieses Gesetz sagt aus, dass Ereignisse, deren Eintreten fiir jedes n aufgrund der unabhhgigen Ereignisse A,, A,+1,. . . entschieden werden kann, stets die Wahrscheinlichkeit 0 oder 1 haben. Solche Ereignisse heiBen terminale Ereignisse. Auch im Borel-Cantelli Lemma werden Aussagen Uber ein terminales Ereignis gemacht. Es hangt fiir A k gilt. jedes n E W nur von A,, A,+1,. . . ab, oh w E n r = l
, :u
Lemma 14.6 Es seien X und XI,Xz, . . . Zufallsvariablen, und es gelte fiir alle t > 0 m
Cp(lx,-xl>t)<m. n=1
Dann konuergiert (X,),21 fast sicher gegen X. Beweis. Dies folgt aus dem Borel-Cantelli Lemma und Satz 14.3(iv).
0 P
Lemma 14.7 Es seien X und X1,Xz,. . . Zufallsvariablen mit X, + X. Dann gibt es eine Teilfolge (Xnk)k21, die fast sicher gegen X konvergiert.
Beweis. Da fiir jedes feste t > 0 gilt lim,,, P(IX, -XI > t) = 0, konnen 5 Dann gilt wir zu jedem k ein nk bestimmen, sodass P(IX,, -XI > fur jedes t > 0 und k >
i ) &.
Also konvergiert die Reihe CFo=, P(IX,, - XI > c ) fiir jedes t nnd daraus 0 folgt mit Lemma 14.6 die fast sichere Konvergenz von (X,,)k>l.
Satz 14.8 (Starkes Gesetz der groBen Zahlen) Es sei (X,),>I eine Folge unabhangiger, identisch verteilter Zufallsvariablen met EIXlI < m. Dann, gilt
Beweis. Wir geben hier einen Beweis unter der etwas starkeren Annahme, dass E(X:) < cu.Ein Beweis unter der schwachsten maglichen Voraussetzung, dass ElXll < m, ist wesentlich anfwendiger und sprengt den Rahmen dieses einfuhrenden Buches. Wir durfen ab jetzt annehmen, dass EX, = 0, da wir sonst Xi durch Xi-EX, ersetzen kannen. Damit gilt
14.2 Das starke Gesetz der gro5en Zahlen
293
denn E(X,XjXkX~)= 0, aufler wenn die Indizes paarweise gleich sind. Da E(X2X;) = (EX;)(EX?) fiir i # j , erhalten wir weiter
wobei C eine positive Konstante ist. Mit Hilfe der Markov-Ungleichung finden wir schliefilich
Mit Lemma 14.6 folgt daraus die fast sichere Konvergenz von gegen 0.
Cy=lXi 0
In der Statistik findet das Gesetz der groflen Zahlen Anwendung bei Konsistenzbeweisen fiir Schatzer. Vereinfacht gesagt heiflt ein Schatzer fiir g(0) konsistent, wenn dieser bei zunehmender Anzahl von Beobachtungswerten gegen den wahren Wert g(0) konvergiert. Genauer formuliert haben wir eine Familie {Po,0 € 0 ) von Wahrscheinlichkeitsverteilungen und eine Schatzerfolge t,(Xl,. . . ,X,). Diese Folge heifit konsistent, wenn gilt t,(Xl,. . . ,X,) + g(0). Je nach Art der Konvergenz unterscheidet man auch hier eine schwache oder starke Konsistenz.
Beispiel 14.9 (i) Sei (X,),>l eine Folge unabhangiger, identisch verteiker Zufallsvariablen, so ist der Mittelwert CE=,X n ein konsistenter Schatzer fiir E X l . Insbesondere ist fiir Exp(X)-verteilte Zufallsvariablen der Mittelwert ein konsistenter Schatzer fur
i.
(ii) Sei (Y,),21 eine Folge reellwertiger Zufallsvariahlen mit Y, % Y und sei f : R + R eine stetige Abbildung. Da fur jede reelle Zahlenfolge fs. (x,),~I mit lim,,, x, = x gilt lim,, f (x,) = f (x), folgt f (Y,) f f(Y). 1st also t,(Xl,. . . ,X,) eine konsistente Sch&t,zerfolgefiir g(0), so ist f (t,(Xl,. . . ,X,)) ein konsistenter Schatzer fiir f (g(0)). Oft erhalten wir die Schatzer t,(xl,. . . ,x,) fur alle n nach demselben Verfahren, etwa der Mittelwert oder die Varianz einer Stichprobe. Wir nennen dann auch das entsprechende Verfahren konsistent.
ubung 14.2 Es sei (Xn),>l eine Folge unabhzngiger, identisch verteilter Zufallsvariablen mit E(X:) < w. Zeige, dass
294
14. Einige KonvergenzbegifTe
Ubung 14.3 Es sei (X,),?I eine Folge unabhingiger, identisch verteilter Zufallsvariablen mit u2 =- Var(X1) < m. Zeige, dass fiir die Stichprobenvarianz 8% := & C;=,(Xx - x)' gilt, dass
Ubung 14.4 Es sei (X,),?l
eine Folge unabhangiger, identisch verteilter Zufallsvariablen mit VarXl < m. Zeige rnit Hilfe der Chebychev-Ungleichung und Lemma 14.6, dass & C?=,(X, - E X , ) -t 0 fiir a > 1.
14.3 Konvergenz in L, Wir fiihren noch einen weiteren Konvergenzbegriff ftir Zufallsvariablen ein, der auf einem Abstandsbegriff zwischen zwei Zufallsvariablen aufhaut, und werden dann die Zusammenhange zu den in Abschnitt 13.1 eingefiihrten Konvergenzbegriffen untersuchen. Definition 14.10 Es seien X und XI, X2,. . . Zufallsvariablen auf dem Wahrscheinlichkeitsraum ((2,F,P) und r E (0, co). Dann heifit (X,),?I in L, konuergent gegen X , wenn gilt lim E(IX, - XIT) = 0,
n+m
und wir schreiben X, & X , Lemma 14.11 Konuergenz in L, impliziert Konuergenz in Wahrscheinlichkeit.
Beweis. Mit Hilfe der Markov-Ungleichung erhalten wir
Wenn also X, 4 X , so konvergiert die rechte Seite gegen 0 und somit auch 0 P(IX, -XI > t), d.h. X, 5 X . Anhand zweier Beispiele werden wir nun zeigen, dass Konvergenz in L, weder hinreichend noch notwendig fiir fast sichere Konvergenz ist, d.h. fast sichere Konvergenz impliziert nicht Konvergenz in L, und umgekehrt. Beispiel 14.12 (i) Es sei (X,)21 die im Beispiel 14.2 definierte Folge von Zufallsvariablen. Diese Folge konvergiert, wie wir dort gezeigt haben, nicht, fast sicher, aber wohl in L,, denn es gilt
f i 1 r n = 2 ~ + j j, = 0 ,..., 2 k - l u n d k E N o . (ii) Wir betrachten als Wahrscheinlichkeitsraum verteilung und definieren die Zufallsvariablen
(2
= ( 0 , l ) mit der Gleich-
14.3 Konvergenz in L,
295
fur w E ( 0 , i ) ,( 1 3 ),
- w) fur w E
sonst, die in Abbildung 14.2 grafisch dargestellt sind. Fiir festes wo E [O, 11 gibt es
Abb. 14.2. Fast sicher konvergente Folge, die nicht in L, konvergiert
ein no E N,sodass fiir n 2 no gilt Xn(wo) = 0. Somit konvergiert (X,),?I fast tiberall gegen X 0. Andererseits gilt
=
und somit konvergiert (Xn),21 fiir r 2 1 nicht in L,. Wir konnen nun die Rage stellen, unter welchen zusatzlichen Bedingungen fast sichere Konvergenz die Konvergenz in L, impliziert, und diese Frage hangt eng zusammen mit der Frage, wann es moglich ist, bei einer Folge von Zufallsvariablen Grenzwert und Erwartungswert zu vertauschen. Dazu gibt es zwei wichtige Satze, die wir hier ohne Beweis nennen.
Satz 14.13 (Satz von der monotonen Konvergenz) Sei 0 5 XI 5 Xz 5 . . . eine monoton waehsende Folge nieht-negativer, reellwertiger Zufallsvariablen Xn(w). Dann gilt und sei X(w) := limn,, E ( X ) = lim E(X,). n i m
(14.4)
Satz 14.14 (Satz von der dominierten Konvergenz) Seien X undX1, XZ, Zufallsvariablen n i t Xn 3 X . Sei weiter Y eine nicht-negative Zufallsvariable mit E Y < oo un,d P(IXnI 5 Y) = 1 fiir alle n . Dann gilt E ( X ) = lim E(X,) nim
296
14. Einige KonvergenzbegifTe
Die Beweise dieser Aussagen sind Htjhepunkte der von Henri Lebesgue (1875-1941) begrundeten htegrationstheorie. Der Satz von der dominierten Konvergenz ist van Lebesgue selbst erstmalig veroffentlicht, der Satz von der monotonen Konvergenz wird sowohl Lebesgue als auch dem italienischen Mathematiker Beppo Levi (1875-1961) zugeschrieben. Zu dem Satz von der dominierten Konvergenz liisst sich das folgende Korollar tiber Konvergenz in L, formulieren.
Korollar 14.15 Es sei X , fit X und lX,I 5 Y fiir eine nichtnegative Zufallsuariable Y mit E ( Y r ) < co.Dann gilt X , X.
Beweis Wir definieren Z, := IX, - XI'. Dann gilt IZ,I 5 (2Y)? und Z, fit 0. Also folgt rnit dem Satz von der dominierten Konvergenz, dass E(Z,) = 0. 0 lim,,, Satz 14.16 Es sei 0 < r 5 s < m. Dann folgt aus der L,-Konvergenz die L,-Konvergenz. Beweis. Sei (X,),>I eine Folge von Zufallsvariablen, die in L, gegen X konvergiert. Dann gilt
wobei wir die Markov-Ungleichung verwendet haben und die Tatsache, dass x' 5 xs fur x 2 1. Da E(IX, - XI" + 0, gibt es ein n o E N,sodass fiir n 2 no die rechte Seite durch E beschrwkt ist. Also folgt X , A X . 0
ubung 14.5 Es sei (X,),21 eine Folge N(p,,q:)-verteilter
Zufallsvariablen. Gib notwendige und hinreichende Bedingungen fiir L,-Konvergenz von X, gegen X 0
an. ubung 14.6 Wir betrachten als Wahrscheinlichkeitsraum SZ = {I,.. . ,N) mit Laplace-Verteilung. Berechne fiir eine Zufallsvariable X : SZ + W den Erwartungswert EIXI' und zeige, dass in diesem Wahrscheinlichkeitsraum L,-Konvergenz und fast sichere Konvergenz dasselhe sind.
14.4 Konvergenz in Verteilung In den ersten Abschnitten dieses Kapitels haben wir uns mit Konvergenz von Folgen (X,),>l- von Zufallsvariablen beschaftigt und verschiedene Kon-
14.4 Konvergenz in Verteilung
297
vergenzbegriffe kennengelernt. Jetzt werden wir noch einen weiteren Konvergenzbegriff einfuhren, der auf einem Konvergenzverhalten von Wahrscheinlichkeitsverteilungen aufbaut. Wir bezeichnen die Verteilungsfunktionen mit denselben Buchstaben wie die zugehorigen Verteilungen, d.h.
Definition 14.17 (i) Die Folge (F,),?l von Verteilungen he@ sehwaeh konnergent gegen F , wenn fiir alle Stetigkeitspvnkte x uon F gilt lim F,(x) = F ( x ) ,
nim
und wir schreiben F, 3 F . (ii) Eine Folge (&),>I von Zufallsuan'ablen hei& konuergent in Verteilung gegen die Zufallsvariable X , wenn die Verteilung von X , sehwaeh gegen die 2, Verteilung von X konuergiert, und wir schreiben X , + X . 1st (X,),?I eine Folge von Zufallsvariablen, die in Verteilung gegen X konvergiert, und ist (Y,),>l - eine zweite Folge, wobei X , und Y, fur jedes n n dieselbe Verteilung haben, so gilt Y, + X . Die Konvergenz in Verteilung hangt also nur von den Verteilungen der einzelnen Zufallsvariablen ab. Dass dies ein deutlicher Unterschied zu den bislang definierten Konvergenzbegriffen ist, zeigt das folgende Beispiel. Beispiel 14.18 Sei (X,),zl die in Beispiel 14.2 definierte Folge. Wir definieren ftir k E No und j E {O, . . . , Z k - l } weitere Zufallsvariablen Y p + , := X p . Dann gilt P ( X p + , = 1) = P ( Y - Z k j = 1) = 2Tk und P(X2k+,- = 0) = P(&+, = 0 ) = 1 - 2-k. Also hat fur jedes n die Zufallsvariable Y, dieselhe Verteilung wie die Zufallsvariable X,. Wie wir bereits gesehen haben, konvergiert die Folge (X,),21 nicht fast sicher. Man kann aber anhand einer -
+
Abbildung, analog zu Abb. 14.1, einsehen, dass Y, 3 0. Die fast sichere Konvergenz einer Folge von Zufallsvariablen hangt also entscheidend von deren gemeinsamer Verteilung ab und nicht nur von den marginalen Verteilungen. Definition 14.19 Es sei X eine reellwertige Zufallsvariable. Dann heij3t
die eharakten'stische Funktion von X . Die Definition der charakteristischen Funktion verwendet den Erwartungswert einer komplexwertigen Zufallsvariablen, der so definiert ist, dass wir fur Real- und Imaginiirteil getrennt den Erwartungswert berechnen. Also gilt fiir Z = U + i V , wobei U und V reellwertige Zufallsvariablen sind, E Z := E U i E V . Fiir die charakteristische Funktion erhalten wir mit Hilfe der Euler'schen Ident,itat eit = cost i sint, dass gilt
+
+
298
14. Einige KonvergenzbegifTe
Charakteristische Funktionen haben viele Gemeinsamkeiten mit momenterzengenden Funktionen m x ( t ) = E(etx). Gegenuber momenterzeugenden Funktionen haben charakteristische Funktionen den Vorteil, dass sie fur jede Zufallsvariable fiir alle t existieren, da leitXI 5 1. Beispiel 14.20 (i) Es sei X Poisson(X)-verteilt. Dann ist die charakteristische Funktion
(ii) Es sei X Bin(n,p)-verteilt. Dann ist die charakteristische Funktion
(iii) Es sei X N ( p , u2)-verteilt. Dann ist die charakteristische Funktion
Formell erhalten wir dieses Ergebnis, indem wir in die momenterzeugende das Argument it einsetzen. Um diesen Schritt, Fnnktion m(t) = ePt+* auszufuhren, sind Hilfsmittel aus der Funktionentheorie erforderlich. L e m m a 14.21 Fur die charakteristische Funktion vx der Zufallsuariablen X gilt (i) ip,x+a(t) = eibtvx(at), far a, b E R. (ii) Ist das k-te Moment won X endlich, d.h. E(IXlk) < m, so ist ipx k-fach differenzierbar und
Insbesondere gilt g i p ( 0 ) = i k ~ ( x k ) Beweis. (i) Diese Identitat folgt aus der Linearitat des Erwartungswertes. (ii) Wir zeigen die Behauptung ftir die erste Ableitung. Ftir Ableitungen hijherer Ordnung zeigt man die Behauptung per Induktion nach k. Es gilt, zunachst
Die Zufallsvariable Zh := e i t x q auf der rechten Seite konvergiert fast, sicher gegen iXeitx. Aus der Ungleichung leis - 11 5 s, gtiltig ftir alle s E R, folgt weiter [Zhl 5 1x1. Wegen ElXl < m klinnen wir den Satz von der dominierten Konvergenz anwenden und erhalten &(t) = E(iXeitx).
14.4 Konvergenz in Verteilung
299
Satz 14.22 Die charakteristische finktion einer Summe zweier unabhdngiger Zufallsuariablen X und Y ist gleich dem Produkt der einzelnen charakteristischen finktionen, d.h.
Beweis. Der Erwartungswert eines Produktes unabhangiger Zufallsvariablen ist gleich dem Produkt der Erwartungswerte, und dies gilt auch fiir komplexwertige Zufallsvariablen. Somit folgt die Behauptung (14.5) aus der Identitat ,it(X+y) = eitXeitY 0 Ebenso wie fiir die erzeugende Funktion und die momenterzeugende Funktion gilt auch fur die charakteristische Funktion ein Eindeutigkeitssatz, den wir jetzt ohne Beweis nennen.
Satz 14.23 Zwei Zufallsvariablen X und Y, deren charakteristische Funktionen auf ganz R ubereinstimmen, haben dieselbe Verteilung. Der folgende Satz von Paul LQvy und Harald CramQr (1893-1985), den wir bier ebenfalls ohne Beweis nennen, gibt uns die Moglichkeit, Verteilungskonvergenz mittels analytischer Hilfsmittel zu beweisen, indem wir die Konvergenz der zugehorigen charakteristischen Funktionen beweisen.
Satz 14.24 (L6vy-CramQr)Seien X und X l , X 2 , . . . Zufallsuariablen. Dann 0 gilt X, t X genau dann, wenn ipx, (t) + ipx(t) fur alle t E R. Als schones Beispiel fiir die Anwendung analytischer Methoden werden wir nun den Zentralen Grenzwertsatz in einer allgemeinen Form beweisen.
Satz 14.25 Sei (Xk)kZ1 eine Folge unabhangiger, identisch verteilter Zufallsvariablen n i t p = EX1 und u2 = Var(Xl) < m. Dann gilt
Beweis. Es sei ip die charakteristische Funktion von XI - p und ip, die charakteristische Funktion von IC;==,(Xk - b). Dann gilt mit Lemma 14.21 J;; und Satz 14.22, dass ip,(t) = (ip(t/fi))n. Da E(X1 - p)' existiert, ist ip nach Lemma 14.21 zweifach differenzierbar mit ~ ' ( 0 )= iE(X1 - p ) = 0 und 'p1'(O) = i2E(X1 - p)2 = -2. Dann folgt mit der Taylor-Formel
Rechts steht die charakteristische Funktion einer N(0, u2)-Verteilung,und so 0 folgt der ZGS mit Hilfe des Satzes von L&y-CramQr.
300
14. Einige KonvergenzbegifTe
14.5 Aufgaben Aufgabe 14.1 Es sei (X,),>I eine Folge unabhangiger, identisch verteilter Zufallsvariablen mit EIXII < oo und EXl = 0. Zeige mit Hilfe charakteristiv scher Funktionen, dass Xk f &, wobei 60 die diskrete Verteilung auf IW ist, die dem Punkt 0 die Masse 1 giht.
EL,
Aufgabe 14.2 Es sei (X,),>I eine Folge Bin(n,p,)-verteilter Zufallsvariablen mit np, + X E (0, oo).Bestimme die charakteristische Funkt,ion ip, von X,. Zeige, dass lim,, ip,(t) = ip(t), wobei ip die charakteristische Funktion einer Poisson-Verteilung ist. Aufgabe 14.3 Sei (X,),>l
Zeige, dass dann X,
eine Folge von Zufallsvariablen mit X,
P + X.
0 + X.
Aufgabe 14.4 Es sei (x,),?~ eine konvergente Folge reeller Zahlen mit Limes z. Definiere Zufallsvariablen X, := z, und X := z und zeige, dass x, a x .
=
Aufgabe 14.5 Es sei X c eine konstante Zufallsvariable. Zeige, dass eine Folge (X,),>1 genau dann in Verteilung gegen X konvergiert, wenn sie in ~ahrscheinlichkeitgegen X konvergiert. Aufgabe 14.6 Zeige, dass ElXlp E r = l P(IX1 2 nllp) konvergiert. Aufgabe 14.7 Sei (X,),?I
< m genau dann gilt, wenn die Reihe
eine Folge unabhangiger, ident,isch verteilter Zu-
fallsvariablen. Zeige, dass EIXllp < m genau dann gilt, wenn A X ,
3 0.
Aufgabe 14.8 Es sei (X,),?l eine Folge unabhangiger, identisch verteilter Zufallsvariablen mit E(X:) < m. Zeige, dass dann gilt 1
max(X1,. . . ,X,)
-
fi
f.s. + 0.
Aufgabe 14.9 Fiir zwei Zufallsvariablen X und Y definieren wir einen Abstand durch do(X,Y) := E
(i) Zeige, dass do der Dreiecksungleichung geniigt, d.h. dass fiir Zufallsvariablen X, Y, Z gilt, dass Q(X, Y) 5 do(X, Z) do(Z, Y). P (ii) Zeige, dass X, +X genau dann gilt, wenn do(X,, X ) + 0.
+
Literaturverzeichnis
Ans der groilen Fulle an Biichern zur Wahrscheinlichkeitstheorie und mathematischen Stat,istik kijnnen wir an dieser Stelle nnr einige wenige nennen. Unsere Auswahl ist sehr suhjektiv und im Wesentlichen ein Querschnitt durch unsere privaten Bibliotheken. Wir unterscheiden zunachst nach der Art der Darstellung zwischen elementarer und fortgeschrittener Literatur, je nachdem ob die Begriffshildung der Mailtheorie verwendet wird oder nicht. Weiter unterscheiden sich die Bucher ganz erheblich nach dem Raum, den die Statistik einnimmt. I. Elementare Darstellungen. 1. K. L. Chung: Elementary Probability Theory with Stochastic Processes. 3rd edition, Springer Verlag, Berlin 1979. 2. M. Denker, W. A. Woyczynski: Introdu.ctory Statistics and Random Phenomena. Birkhanser Boston 1998. 3. W. Feller: An Introduction to Probability Theory and It.$ Applications, Vol. I. 3rd edition, J.Wiley, New York 1968. 4. H.-0. Georgii: Stochastik. De Gruyter Verlag 2002. 5. G. Grimmett, D. St,irzaker: Probability and Random Processes. 2nd edition, Oxford University Press 1992. 6. G. Grimmett, D. Welsh: Probability: an introduction. Oxford University Press 1986. 7. R. V. Hogg, A. T. Craig: Introduction to Mathematical Statistics. 4th edition, Macmillan 1978 8. U. Krengel: Einfuhrung in die Wahrscheinlichkeitstheorie und Statistik. 5. Auflage, Vieweg Verlag 2000. 9. D. Stirzaker: Elementary Probability. Cambridge University Press 1994.
Unter den oben genannten Buchern nimmt das Buch von Feller einen hesonderen Platz ein. Dieses Buch ist ohne Zweifel der Klassiker unter den modernen Lehrbtichern zur Wahrscheinlichkeitstheorie und auch heute, 50 Jahre nach dem Erscheinen der ersten Ansgabe, noch stets sehr zu empfehlen. 11. Fortgeschrittene Literatur.
1. H. Bauer: Wahrscheinlichkeitstheorie. 5. Auflage, De Gruyter Verlag 2001 2. P. Billingsley: Probability and Measure. 2nd edition, J. Wiley, New York 1986
302
Literaturverzeichnis
3. H. Cram&: Mathematical Methods of Statistics. Princeton University Press 1945. 4. R. M. Dudley: Real Analysis and Probability. Wadsworth 1989 5. R. Durrett: Probability: Theory and Examples. Wadsworth 1991 6. W. Feller: An Introduction to Probability Theory and Its Applications, Vol. II. 2nd edition, J. Wiley, New York 1971 7. P. Ganssler, W. Stute: Wahrscheinlichkeitstheorie. Springer Verlag 1973. Die ohigen Biicher entwickeln die Wahrscheinlichkeitstheorie und Statistik auf mafitheoretischer Grundlage. Dabei wird entweder Kenntnis der Ma& theorie vorausgesetzt oder die Grundlagen werden im Text vermittelt. Einen besonderen Platz nimmt in dieser Hinsicht das Buch von Billingsley ein, in dem MaBtheorie und Wahrscheinlichkeitsrechnung integriert dargestellt werden. Erwahnen wollen wir wieder das Buch von Feller, das eine Fiille an fortgeschrittenen Themen hehandelt, meist in einer exemplarischen Darstellung, und damit zu einem Klassiker der fortgeschrittenen Literatur geworden ist. Anf dem Gebiet der mathematischen Statistik ist Cramh in ahnlicher Weise ein Klassiker. 111. Literatur zur Mdtheorie. An verschiedenen Stellen im Text ha-
ben wir darauf hingewiesen, dass eine weiterfiihrende Beschaftigung mit der Wahrscheinlichkeitstheorie Grundkenntnisse der Mdtheorie erfordert. Wir nennen an dieser Stelle zwei Standardwerke der deutschsprachigen Literatur zn diesem Thema. 1. H. Baner: Ma$- und Integrationstheorie. 2. Auflage, De Gruyter 1992. 2. J. Elstrodt: Ma$- und Integrationstheorie. 3. Auflage, Springer Verlag 2002
IV. Historische Werke. 1. 2. 3. 4.
C. Huygens: De Ratiociniis in Ludo Aleae. Amsterdam 1657. Jakoh Bernoulli: Ars Conjectandi. Basel 1713. A. de Moivre: The doctrine of chances. 2nd edition, London 1738. A.N. Kolmogorov: Grundbegme der Wah,rscheinlichkeitsrechnung.Springer Verlag, Berlin 1933.
Von den vielen historischen Werken znr Wahrscheinlichkeitstheoriehahen wir diese vier Werke aus gutem Grund hervorgehohen. Die Biicher von Huygens und Kolmogorov standen zu ihrer Zeit jeweils am Anfang einer Entwicklung und haben nachfolgende Wissenschaftler entscheidend beeinflusst. Huygens' Traktat war der Beginn einer ernsthaften wissenschaftlichen Beschaftigung mit der Wahrscheinlichkeitsrechnung und Kolmogorov verschaffte der Wahrscheinlichkeitstheorie einen Platz als exakte, auf Axiomen aufgebaute mathematische Theorie. In den beiden anderen Biichern trat jeweils ein groBes Resultat der Wahrscheinlichkeitstheorie zum erst,en Ma1 auf. Bernoulli gab den ersten Beweis des Gesetzes der groBen Zahlen, De Moivre den ersten Beweis des zentralen Grenzwertsatzes fiir Bernoulli-verteilte Zufallsvariablen.
Sachverzeichnis
D'Alembert, Jean 8 Alternative 253 - einfache, zusammengesetzte 254 Banach, Stefan 40 Bayes, Thomas 52 - Formel 51 Bayes'sche Statistik 56 bedingte - Dichte 203 - Erwartung 122, 204 - Erwartungswert 121, 204 - Varianz 121, 123 - Verteilung 118, 203 - Wahrscheinlichkeit 49 - Wahscheinlichkeitsfunktion 118 Bereichsschatzer 269 Bernoulli, Jakoh 69 - Experiment 69 - Prozess 274 - Verteilung 69 Erwartungswert 83 erzeugende Funktiou 138 momenterzeugende Funktion 150 Varianz 91 Bernstein Polynom 97 Bertrand'sches Paradoxon 202 Beta-Verteilung 162 - Dichte 162 - Erwartungswert 175 - Varianz 175 Bias 230 Binomialkoeffizient 25 - Identitaten 39 Binomialformel von Newton 26 binomiale Verteilung 34, 70 - Erwartungswert 83 - erzeugende Funktion 138 - momenterzeugende Funktion 150 - Varianz 92 Binomialtest 250 Borel, Emile 291
Borel-Cantelli Lemma 291 Buffon'sches Nadelproblem 198 Cantelli, Francesco Paalo 291 Cauchy, Augustin Louis 133 - Verteilung 163 Dichte 163 Erwartungswert 174 Cauchy-Schwarz Ungleichung 134 charakteristische Funktion 297 Chebychev, Pafnuty Lvovich 95 - Ungleichung 96 Chiquadrat - Verteilung 162 - Test 252 Cram&, Harald 299 Dichtefunktion 157 gemeinsame 177 - marginale 182 dominierte Konvergenz 295 -
empirische Verteilungsfunktion 197 Ergehnis 4 - -raum 4 Erdos, Paul 43 Ereignis 4 - elementares 8 - -raum 6 erwartungstreu 230 Erwartungswert 82, 173 - Dreiecksungleichung 85 - Linearitat 86 - wichtiger diskreter Verteilungen 94 - wichtiger stetiger Verteilungen 175 erzeugende Funktion 137 Euler, Leonhard 43 Euler'sche p-Funktion 43 - Produktformel 44 exponentielle Verteilung 161 - Dichte 161 - Erwartungswert 175
304 -
Sachverzeichnis
Varianz 175
Faltungsformel fiir Wahrscheinlichkeitsfunktionen 113 - fiir Dichten 191 Faltungsprodukt 115, 191 Fehler 1. Art, 2. Art 254 Feller, William 213 Fermat, Pierre de 10 Fisher, Ronald Aylmer 247 F-Verteilung 247 Fubini, Guido 124 -
Galton, Francis 144 Galton-Watson Prozess 145 - Aussterhewahrscheinlichkeit 146 - Erwartungswert, Varianz 154 Gamm&Verteilung 162 - Dichte 162 - Erwartungswert 175 - momenterzeugende Funktion 193 - Varianz 175 G a d , Carl Friedrich 160 - Glockenkurve 160 - Verteilung 160 - Test 267 geometrische Verteilung 71 - Erwartungswert 84 - erzeugende Funktion 138 - momenterzeugende Funktion 151 - Varianz 93 Gesetz der groBen Zahlen - empirisches 4 - schwaches, fiir Bernoulli Zufallsvaria. hlen 96 - schwaches 117 - stakes 292 Gini's mean difference 235 Gleichverteilung 159 - Dichte 159 - Erwartungswert 173 - Varianz 175 Gosset, William Sealy 247 Giitefunktion 254 - randomisierte Tests 258 Huygens, Christian 1 hypergeometrische Verteilung 35, 71 - Erwartuneswert 84 " - Varianz 93, 131 Hypothese 253 - einfache, zusammengesetzte 254
Inklusions-Exklusionsformel 13 Inspektionsparadoxon 280 Kac, Mark 43 kleinste Quadrate - Methode 243 - Regression 130, 242 - Schatzer 243 Kolmogorov, Audrey Nikolaevich 11 - Axiomensystem 11 Komhination von k aus n 24 Konfidenzhereich 269 Konfidenzintervall 269 Konsistenz 293 Konvergenz - dominierte 295 - fast sichere 287 - in L, 294 - in Verteilune 297 - in Wahrschekchkeit 287 - monotone 295 - schwache 297 Korrelationskoefiient 128 Kovarianz 128 Kovarianzmatrix 130 L%ngenproportional verzerrte Stichprohe 200 Laplace, Pierre-Simon de 2 - Experiment 7 - Raum 7 - Wahrscheinlichkeitsdefinition 2 - Verteilung 7, 68, 239 Erwartungswert 83 momenterzeugende Funktion 153 Varianz 91 Lehensdauer - verbleihende 280 - verstrichene 280 Lehesgue, Henri 296 Legendre, Adrien-Marie 245 Levi, Beppo 296 LBvy, Paul 213 Likelihood - -funktion 236 - -quotient 262 verallgemeinerter 265 - -quotiententest 262 verallgemeinerter 265 Lineare Regression 241 Loglikelihoodfunktion 236 Lokaler Grenzwertsatz 218 marginale
Sachverzeichnis Dichte 182 Verteilung 104 - Wahrscheinlichkeitsfunktion 104 Markov, Audrey Andreyvich 95 - Ungleichung 95 matching Verteilung 78 - Erwartungswert 87 - Varianz 133 Maximum - Dichte 192, 196 - Verteilung 192 Maximum Likelihood - Methode 236 - Schatzer 236 Median 239 median absolute deviation 239 De Mi&, Antoine 10 Messbarkeit - von Funktionen 63 - von Mengen 64 Minimum - Dichte 192, 196 - Verteilung 192 De Moivre, Abraham 160 De Moivre-Laplace, Satz 224 Momente einer Verteilung 91 - zentrale 91 Momentenmethode 233 momenterzeugende Funktion 148, 193 monotone Konvergenz 295 Multinomial - -koeffizient 30 - -formel 106 multinomiale Verteilung 106 - Kovarianzmatrix 130 Multiplikationsregel 51 -
-
-
-
negativ-binomiale Reihe 73 negativ-binomiale Verteilung 73 - Erwartungswert 84 - erzeugende Funktion 138 - momenterzeugende Funktion 150 - Varianz 94 Neyman, Jerzy 253 Neyman-Pearson - Lemma 260 - Test 262 Niveau 254, 255 Normalverteilung 159 - Dichte 159 - Erwartungswert 173 - mehrdimensional 207 Dichte 207
-
305
Erwartungswert 207 Kovarianzmatrix 207 momenterzeugende Funktion 193 Varianz 175
Ordnungsstatistik 195 Dichte 195 - Verteilungsfunktion 195 -
Parameterraum 227 Pareto-Verteilung 163 - Dichte 163 - Erwartungswert 176 - Varianz 176 Pascal, Blaise 10 - Dreieck 39 Pearson, Egon Sharpe 253 Pearson, Karl 251 Permutation 23 Petersburger Paradoxon 99 Poisson, Simon-Denis 75 - Approximation 75 - Grenzwertsatz 75 - Prozess 276 - Verteilung 76 Erwartungswert 84 erzeugende Funktion 138 momenterzeugende Funktion 153 Varianz 93 Pdya, Georg 62 - Urnenmodell 62 Produkt - -experiment 46 - -raum 47 - -wahrscheinlichkeit 47 Priifgroae 253 Punktprozess 282 p-Wert 253 Quantil 264 -funktion 264
-
Reflektionsprinzip 38 Regressions - -gerade 242 - -koeffizient 242 Rekord 99 Risiko 230 Risikofunktion 231 Ruinproblem 57 a-Algebra 11 Schatzer 230 Schatzung 230
306
Sachverzeichnis
Schwarz, Hermann Amandus 133 standardisierte Zufallsvariable 214 Standardabweichune 89
tich hi robe 227
Mittelwert 232 Varianz 233 Stichprobenanalogon 235 Stichprohenraum 227 Stimmzettelproblem 37 Stirling Formel 222 Stochastischer Prozess 145 Student-t-Verteilung 247
-
Test 254 Binomial 250 - Chiauadrat 252 - ~ a u i 2 6 7 - Likelihoodquotient 262 verallgemeinerter 265 - Macht 255 - Neyman-Pearson 262 - Niveau 255 - randomisierter 258 - Student-t 268 - trennscharfster 259 gleichmaig 254 - Zeichen 252 totale Wahrscheinlichkeit, Satz 51 totale Erwartuna, -, Satz 123. 204 Transformationsformel - fur Erwartungswert 85, 108, 174, 185 - fiir Dichten 170, 181 Turan, Paul 43 t-Verteilung 247 -
u.i.v. Zufallsvariable 117 Unahhangigkeit - Ereignisse 41, 42 - Zufallsvariablen 111 unkorreliert 128 Urnenmodell 21 - Ziehen mit Zuriicklegen 22, 26 - Ziehen ohne Zuriicklegen 22, 24 - Ziehen mit Beriicksichtigung der Reihenfolge 22
-
Ziehen ohne Beriicksichtigung der Reihenfolge 24, 26
Varianz 89 wichtiger diskreter Verteilungen 94 - wichtiger stetiger Verteilungen 175 Variation von k aus n 22 Verteilung - aposteriori 56 - apriori 56 Verteilung einer Zufallsvariahlen 64 - hedingte 118, 203 - gemeinsame 102 - marginale 104, 183 Verteilungsfunktion 163 - empirische 197 - gemeinsame 180 - verallgemeinerte Inverse 264 Verwerfungsbereich 254 Verzerrung 230 -
Wahrscheinlichkeitsdefinition - axiomatische 11 - frequentistische 3 - Laplace 2 Wahrscheinlichkeitsdichte 157 - gemeinsame 177 Wahrscheinlichkeitsfunktion 17 Wahrscheinlichkeitsfunktion eine~ Zufallsvariablen 65 - gemeinsame 102 - marginale 104 Wahrscheinlichkeitsraum 11 - diskreter 17 Wahrscheinlichkeitsverteilung 12 - Stetigkeit 16 Wald, Abraham 125 - Identitat 126 Watson, Henry William 144
-
Zalprozess 275 Zentraler Grenzwertsatz 215 Zufallsvariable 63 - diskrete 65 - stetige 157 - Verteilung 64 - Wahrscheinichkeitsfunktion 65