Wahrscheinlichkeitstheorie I Sommer 2006, TUB
Anton Bovier Institut f¨ ur Mathematik Technische Universit¨ at Berlin St...
44 downloads
817 Views
1MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Wahrscheinlichkeitstheorie I Sommer 2006, TUB
Anton Bovier Institut f¨ ur Mathematik Technische Universit¨ at Berlin Straße des 17. Juni 136 10623 Berlin, Germany
Inhaltsverzeichnis
1
Wahrscheinlichkeit 1.1 Zufallsexperimente und Gl¨ uckspiele 1.2 Allgemeine Eigenschaften von Bewertungen. 1.3 Faire Bewertungen und Wahrscheinlichkeitsmaße. 1.4 Wahrscheinlichkeit und Frequenz 1.5 Wahrscheinlichkeit und Information 1.5.1 Die Gleichverteilung.
2
Elemente der Maßtheorie 2.1 Wahrscheinlichkeitsmaße auf endlichen Mengen 2.1.1 Messbare Funktionen 2.1.2 Erwartungswerte und Verteilungsfunktionen. 2.2 Wahrscheinlichkeitsmaße auf R. 2.2.1 Die Borel’sche σ-Algebra. 2.2.2 Maßbestimmende Mengen und der Satz von Carath´eodory. 2.2.3 Verteilungsfunktionen. 2.2.4 Integration 2.2.5 Abbildungen von Maßen 2.2.6 Beispiele von Wahrscheinlichkeitsmaßen. 2.2.7 Absolut stetige Maße. Wahrscheinlichkeitsdichten.
3
page 1 2 4 8 10 13 14 19 19 20 23 24 24 26 29 32 38 38 41
Bedingte Wahrscheinlichkeiten, Unabh¨ angigkeit, Produktmaße 44 3.1 Bedingte Wahrscheinlichleiten 44 3.2 Unabh¨ angige Zufallsvariablen 49 3.3 Produktr¨ aume 51 3.4 Der Satz von Fubini 54 i
ii
0 Inhaltsverzeichnis 3.5 3.6
Unendliche Produkte Summen von unabh¨angigen Zufallsvariablen 3.6.1 Faltungen 3.6.2 Die Irrfahrt 3.6.3 Strategien 2. Optionspreise. 3.6.4 Das Ruin-Problem 3.6.5 Das Arcussinusgesetz
57 59 62 63 65 69 70
4
Konvergenzbegriffe 4.1 Konvergenz von Verteilungsfunktionen 4.2 Konvergenz von Zufallsvariablen 4.2.1 Konvergenz in Verteilung 4.2.2 Konvergenz in Wahrscheinlichkeit 4.2.3 Fast sichere Konvergenz
73 73 74 74 76 76
5
Das 5.1 5.2 5.3
83 83 84 86 86 87 88 90 92 92 92 95
6
Der 6.1 6.2 6.3 6.4 6.5 6.6
zentrale Grenzwertsatz 99 Grenzwerts¨ atze 99 Charakteristische Funktionen 100 Der zentrale Grenzwertsatz 103 Zentraler Grenzwertsatz bei nicht-konstanter Varianz 106 Stabile Verteilungen 107 Parametersch¨ atzung 108 6.6.1 Das Maximum-Likelihood Prinzip 109
7
Markov Prozesse 7.1 Definitionen 7.2 Markovketten mit endlichem Zustandsraum 7.3 Markovketten und Graphen. Klassifizierung der Zust¨ ande 7.4 Stoppzeiten und Anwendungen
Gesetz der großen Zahlen. Erwartungswert, Varianz, Momente Chebychev’s Ungleichung Das Gesetz der großen Zahlen 5.3.1 Das schwache Gesetz. 5.3.2 Das starke Gesetz 5.3.3 Kolmogorov’s Ungleichung 5.3.4 GGZ ohne Momentenbedingungen 5.4 Anwendungen in der Statistik. 5.4.1 Statistische Modelle und Sch¨atzer 5.4.2 Frequenzen 5.4.3 Sch¨ atzen von Erwartungswert und Varianz
115 115 118 123 132
Inhaltsverzeichnis 7.5 Bibliography Index
Vorw¨ artsgleichungen, Eintrittswahrscheinlichkeiten und Zeiten.
iii 135 139 140
1 Wahrscheinlichkeit
Now, so it is, that the late project, of which you cannot but have heard, of Mr. Neale, the Groom-Porter’s lottery, has almost extinguished for some time, at all places of public conversation in this town, especially among men of numbers, every other talk but what relates to the doctrine of determining between the true proportion of the hazards incident to this or that given chance or lot. Brief von Samuel Pepys an Isaac Newton, 22.11. 1693
In dieser Vorlesung werden wir ein Gebiet der Mathematik behandeln, dass sich von anderen dadurch hervorhebt, dass viele seiner Begriffe weitgehend Eingang in die Umgangssprache gefunden haben, ja, dass Fragen behandelt werden, die viele Menschen im t¨aglichen Leben betreffen und von denen fast jedermann gewisse, falsche oder richtige Vorstellungen hat. Der zentrale Begriff, der uns hier besch¨aftigt, ist der des Zufalls. Was Zufall ist, oder ob es so etwas u ¨ berhaupt gibt, ist eine tiefe philosophische Frage, der wir uns hier nur in wenigen Punkten ann¨ahern k¨onnen; sie ist auch nicht der zentrale Gegenstand der Vorlesung. Grob gesprochen reden wir von “Zufall”, wenn es sich um den Eintritt von Ereignissen handelt, die wir nicht oder nicht im Detail vorhersehen k¨onnen. Typischerweise sind f¨ ur ein solches Ereignis mehrere Varianten m¨oglich, und wir reden von der Wahrscheinlichkeit des einen oder anderen Ausgangs. Ein beliebtes Beispiel ist etwa die Frage, ob es morgen regnet. In vielen F¨ allen ist dies m¨ oglich, aber nicht sicher. Der Wetterbericht macht dar¨ uber zwar Vorhersagen, aber auch diese treffen nur “mit einer gewissen Wahrscheinlichkeit ein”. Wir k¨onnen die Frage auch noch weiter spezifizieren, etwa danach wieviel Regen morgen fallen wird, und werden noch weniger sichere Vorhersagen bekommen. Gleiches gilt f¨ ur sehr viele Vorkommnisse des t¨ aglichen Lebens. Der Begriff des Zufalls und der 1
2
1 Wahrscheinlichkeit
Wahrscheinlichkeit wird gebraucht, um solche Unsicherheiten qualitativ und quantitativ genauer zu beschreiben. Unsicherheit tritt in vielen Situationen auf und wird sehr unterschied¨ lich wahrgenommen. Vielfach betrachten wir sie als Argernis und suchen eigentlich nach einer deterministischen Gesetzm¨assigkeit, die genauere Vorhersagen erlaubt. Dies betrifft insbesondere viele Bereiche von Naturwissenschaft und Technik, wo uns der Zufall vielfach nur in der Form von “Fehlern” und Ungenauigkeiten begegnet, und wir bestrebt sind seine Effekte m¨ oglichst zu eliminieren oder doch zu minimieren. In anderen F¨ allen ist der Zufall wesentlicher Motor des Geschehens und seine Existenz ist sogar gewollt und wird gezielt ausgenutzt. Am ausgepr¨ agtesten ist dies sicher im Gl¨ uckspiel, und in vieler Hinsicht ist hier die Wahrscheinlichkeitstheorie genuin zuhause und kann in ihrer reinsten Form beobachtet werden. Wir wollen daher die grundlegenden Prinzipien der Wahrscheinlichkeitstheorie zun¨achst in diesem Kontext entwickeln. Literaturhinweise: Es gibt eine grosse Zahl von Lehrb¨ uchern zur Waheliminierenrscheinlichkeitstheorie. F¨ ur die Vorlesung beziehe ich mich vielfach auf das Buch von Hans-Otto Georgii [4]. Ein Klassiker ist das zwei¨ andige Werk von Feller [2, 3]. Pers¨onlich gef¨allt mir auch das Buch von Chow und Teicher [1], dass allerdings in vielen Teilen schon eher das Niveau der W-Theorie 2 Vorlesung hat. Ein neues Buch, dass ebenfalls empfehlenswert ist, ist die Wahrscheinlichkeitstheorie von A. Klenke [5]
1.1 Zufallsexperimente und Gl¨ uckspiele Die meissten klassischen Gl¨ uckspiele beruhen auf einer Vorrichtung, die es erlaubt in unvorhersehbarer Weise wiederholbar eines aus einer Reihe m¨ oglicher Ausg¨ ange eines Experiments zu produzieren. Typische Beispiele sind: • M¨ unzwurf. Eine M¨ unze mit zwei unterschiedlich bedruckten Seiten (“Kopf” und “Zahl”) wird in die Luft geworfen. Sie kommt schließlich auf dem Boden zu liegen und zeigt nun mit einer ihrer Seiten nach oben. Diese zwei m¨ oglichen Ausg¨ange stellen die zwei Ereignisse “Kopf” oder “Zahl” dar. Wir gehen davon aus, dass es uns nicht m¨ oglich ist den Ausgang vorherzusehen, wir betrachten diesen als v¨ ollig zuf¨ allig [dies mag eine Idealisierung sein, da ein sehr geschickter M¨ unzwerfer den Ausgang des Experiments beeinflussen kann. Wir wollen hiervon aber absehen]. Wichtig ist hier, dass wir einen solchen
1.1 Zufallsexperimente und Gl¨ uckspiele
•
• •
•
3
Wurf beliebig oft wiederholen k¨onnen, ohne irgendeine zus¨atzliche Information u ¨ber den Ausgang des n¨achsten Wurfes zu bekommen. Roulette. Hier wird eine Kugel auf eine sich drehende Scheibe geworfen, die 37 numerierte identische Vertiefungen enth¨alt, in einer von denen die Kugel am Ende des Experiments liegenbleibt. Auch hier wird eines der 37 m¨ oglichen Ereignisse in unvorhersehbarer Weise realisiert. ¨ W¨ urfeln. Ahnlich wie der M¨ unzwurf, es sind hier aber 6 Ereignisse m¨ oglich. Lotto. Aus einem Beh¨ alter, der 49 numerierte Kugeln enth¨alt, werden 6 davon mit einem komplizierten Mechanismus herausgefischt. Aufgrund der Durchmischung am Anfang ist das Ergebnis nicht vorhersehbar. Die m¨ oglichen Ereignisse sind “sechs Zahlen aus den 49 ersten nat¨ urlichen Zahlen”, zum Beispiel 3, 8, 19, 23, 25, 45. Die Zahl der m¨ oglichen Ausg¨ ange ist recht gross, n¨amlich 49!/43!/6! = 49 6 = 1398316. Zufallszahlengeneratoren. Zufallszahlengeneratoren sind numerische Algorithmen, mit denen ein Computer Zahlenreihen (etwa aus 0, 1) produziert, die m¨ oglichst zuf¨allig sein sollen. In Wirklichkeit sind diese Reihen allerdings v¨ ollig deterministisch, k¨onnen aber sehr irregul¨ ar von einem Anfangswert (“seed”) abh¨angen. Die Erzeugung von Zufallszahlen ist ein wichtiges Problem, dem wir uns aber zun¨achst nicht weiter widmen wollen.
Wir wollen die Durchf¨ uhrung eines solchen “Experiments” in Zukunft als Zufallsexperiment bezeichnen. Jedem Zufallsexperiment kommt eine Menge m¨ oglicher Ausg¨ ange zu. Diese Menge bezeichnen wir meißt mit Ω; sie wird den Namen Wahrscheinlichkeitsraum erhalten. Ein Gl¨ uckspiel besteht nun darin, auf den Ausgang eines (oder meh¨ rerer) Zufallsexperiments zu wetten. Der Ubersichtlichkeit halber wollen wir uns auf das Roulettespiel konzentrieren. Hier gibt es “Spieler” sowie eine “Bank”. Jeder Spieler hat die M¨oglichkeit einen von ihm gew¨ahlten Geldbetrag, g, darauf zu wetten, dass die n¨achste Ausf¨ uhrung des Zufallsexperiments “Ball-auf-Scheibe-werfen” damit endet, dass die Kugel in einer bestimmten Untermenge, A ⊂ Ω = {0, . . . , 36}, liegenbleibt. Wir wollen den Ausgang des Experimentes mit X bezeichnen. Als m¨ogliche Untermengen sind eine Reihe Optionen auf dem Tisch vorgegeben, unter anderem aber auch jede beliebige Zahl von 0 bis 36. Die Wette besteht darin, dass die Bank den Einsatz des Spielers einstreichhauset und verspricht, wenn das vom Spieler vorhergesagte Ereignis, also X ∈ A, eintritt, ein festgelegtes Vielfaches (die “Quote”) des Einsatzes, gnA , an den
4
1 Wahrscheinlichkeit
Spieler auszuzahlen (beachte, dass der Gewinn nat¨ urlich nur (nA − 1)g ist). Die Zahlen nA sind von der Bank von Anfang an festgesetzt. Die Bank wettet also mit nA : 1 gegen das Eintreten des Ereignisses X ∈ A, der Spieler setzt 1 : nA daf¨ ur. Diese Verh¨altnisse (“odds”) geben in gewisser objektiver (jedenfalls aus Sicht der rational handelnden Bank) eine Einsch¨ atzung der Gewinnchancen wieder. Letztlich sind sie in gewisser Weise “objektive”, weil in Geld umsetzbare, Bewertungen der Wahrscheinlichkeiten dieser Ereignisse. Die Frage, wie solche Bewertungen gew¨ahlt werden sollen, ist die Grundlegende Frage des Anwenders an den Mathematiker und steht am historischen Ursprung der Wahrscheinlichkeitstheorie. Wir wollen uns daher diesem Problem von verschiedenen Seiten zuwenden.
1.2 Allgemeine Eigenschaften von Bewertungen. Im Fall des Roulette Spiels wird man sich leicht davon u ¨ berzeugen lassen, dass die Bewertungen (Quoten) nA umgekehrt proportional zu der Gr¨ osse der Menge A sein sollten (bereits bei einem elektronischen Roulette, dessen Programm man nicht kennt, wird man wesentlich skeptischer sein). Wir wollen aber vorerst von solchen speziellen Annahmen absehen und Eigenschaften herleiten, die unter allen Umst¨anden gelten m¨ ussen, damit die Bank nicht unversehens ruiniert werden kann. Wir betrachten dazu einen viel allgemeineren Fall als das Roulette Spiel. Dazu sei Ω zun¨ achst nicht weiter spezifiziert. Den Spielern sei eine Menge, A, von Teilmengen von Ω gegeben auf die sie beliebige Geldbetr¨age setzen ¨ d¨ urfen. Uber die Menge A sei folgendes angenommen: • Wenn A, B ∈ A, dann ist auch A ∪ B ∈ A. • Wenn A ∈ A, dann ist auch Ac ≡ Ω\A ∈ A. • Der Form halber nehmen wir an, dass Ω ∈ A und somit auch ∅ ∈ A. Der erste Punkt ist unvermeidbar wenn A und B disjunkt sind, andernfalls ist diese Konvention eher vom mathematischen Standpunkt aus notwendig. Die zweite Bedingung erlaubt es dem Spieler “mit” der Bank zu spielen, was einer gewissen Fairness entspricht. Die Bank m¨ ochte nun alle Mengen A ∈ A bewerten. Dabei muss sie zun¨ achst folgendes Prinzip beachten: Keine risikofreien Gewinne! Es darf f¨ ur die Spieler nicht m¨oglich sein Eins¨ atze zu t¨ atigen, die ihnen mit Sicherheit, d.h. unabh¨angig vom Ausgang des Zufallsexperiments, einen Gewinn versprechen. Wir nennen eine solche Bewertung zul¨ assig.
1.2 Allgemeine Eigenschaften von Bewertungen.
5
Lemma 1.2.1 Jede zul¨assige Bewertung muss die Eigenschaft −1 n−1 A + n Ac ≥ 1
(1.1)
erf¨ ullen. Beweis. Ein Spieler k¨ onnte die Strategie verfolgen Betr¨age g und g 0 auf die Mengen A und Ac so zu setzen, dass die erzielte Auszahlung unabh¨ angig von Ausgang des Experiments wird. Dazu muss lediglich gnA = g 0 nAc c gelten, also g 0 = gnA /nAc . Es muss sichergestellt sein, dass in diesem Fall die Auszahlung, gnA , den Einsatz, g + g 0 , nicht u ¨bersteigt, also gnA ≤ g (1 + nA /nAc ) , also −1 1 ≤ n−1 A + n Ac ,
wie behauptet. Insbesondere muss nat¨ urlich auch nΩ ≤ 1 gelten, falls Ω ∈ A. In der Tat w¨ ahlt die Bank, etwa im Roulette, Bewertungen so, dass die Ungleichung in (1.1) streng ist. Dies ist der Grund, warum Spielbanken meißt viel Geld verdienen. Im Gegensatz zu dieser Praxis stehen Faire Bewertungen. Eine zul¨assige Bewertung heißt fair (oder maximal), wenn f¨ ur jede Menge A ∈ A gilt, dass −1 n−1 A + n Ac = 1
(1.2)
Die Bezeichnung “fair” begr¨ undet sich daher, dass hiermit dem Spiec ler, der auf A setzt, die gleiche Chance einger¨aumt wird wie der Bank, wenn der Spieler auf A setzt. Die Bezeichnung “maximal” begr¨ undet sich daher, dass die Bank nicht systematisch unterboten werden kann, d.h. es ist nicht m¨ oglich eine Bewertung, n0 , zu finden mit der Eigenschaft, dass f¨ ur alle A ∈ A, nA ≤ n0A , ohne dass nA = n0A , f¨ ur alle A ∈ A. Theorem 1.2.2 Eine maximale zul¨assige Bewertung hat die Eigenschaft, dass, f¨ ur alle A, B ∈ A, −1 −1 −1 n−1 A∪B = nA + nB − nA∩B
(1.3)
Insbesondere gilt, wenn A ∩ B = ∅,
−1 −1 n−1 A + nB = nA∪B
(1.4)
6
1 Wahrscheinlichkeit
Beweis. Wir zeigen zun¨ achst (1.4). Wir nehmen an, ein Spieler setzt g, g 0 auf die Mengen A und B mit dem Ziel, eine Auszahlung zu erhalten, die nur davon abh¨ angt ob X ∈ A∪B herauskommt. Dazu gen¨ ugt es offenbar, g 0 = gnA /nB zu w¨ ahlen. Die Auszahlung, a, ist dann ( gnA , falls X ∈ A ∪ B a= (1.5) 0, sonst, w¨ahrend der gesamte Einsatz g + g 0 = g(1 + nA /nB ) ist. Falls dieser Betrag auf A ∪ B gesetzt worden w¨are, betr¨ uge die Auszahlung ( g(1 + nA /nB )nA∪B , fallsX ∈ A ∪ B (1.6) a= 0, sonst Sei zun¨ achst angenommen, dass (1 + nA /nB )nA∪B < nA . Offensichtlich ist dann die Bewertung der Menge A ∪ B f¨ ur den Spieler uninteressant, da er besser selbst A und B besetzt und ein mit vorteilhafteres Ergebniss erzielt. Er kann aber noch weiter gehen, und sich einen sicheren Gewinn verschaffen, indem er zus¨atzlich zu g auf A und g 0 auf B einen Betrag g 00 auf (A ∪ B)c setzt. Die Auszahlung, a, ist dann ( gnA , falls X ∈ A ∪ B a= (1.7) 00 g n(A∪B)c , sonst. Nun ist aber wegen der Maximalit¨at 1/n(A∪B)c = 1 − 1/nA∪B . Sei nun g 00 so gew¨ ahlt, dass die Auszahlung unabh¨angig von Ausgang des Wurfs wird, also g 00 n(A∪B)c = gnA , oder g 00 = gnA /n(A∪B)c = gnA (1 − 1/nA∪B ). Der gesamte Einsatz ist dann g + g 0 + g 00 = g (1 + nA /nB + nA − nA /nA∪B )
(1.8)
= g (nA + (1 − nA /nB ) − nA /nA∪B )
< gnA ,
das heißt der Spieler, der ja in jedem Fall gnA ausbezahlt bekommt, macht einen sicheren Gewinn. Da dies verboten ist, muss (1 + nA /nB )nA∪B ≥ nA gelten.
1.2 Allgemeine Eigenschaften von Bewertungen.
7
Sei nun (1 + nA /nB )nA∪B > nA . In diesem Fall setzt der Spieler besser auf A ∪ B, und zwar den Betrag g 00 = g(1 + nA /nB ). Gleichzeitig setzt er nun auf Ac und auf B c , und zwar genau die Betr¨ age, die einen fiktiven Einsatz g und g 0 = gnA /nB auf A und B abgesichert h¨ atten, also g˜ = g(nA − 1) und g˜0 = g 0 (nB − 1) = gnA (nB − 1)/nB . Der Einsatz ist damit g˜ + g˜0 + g 00 = g (nA − 1 + nA (nB − 1)/nB + 1 + nA /nB ) . Die Auszahlung ist jetzt im Falle dass X 6∈ A ∪ B diesmal 2gnA , da ja beide Wetten X 6∈ A und X 6∈ B gewonnen werden und jeweils die gleiche Auszahlung gnA liefern. In diesem Fall wird also der Einsatz zur¨ uckgewonnen. Falls dagegen X ∈ A ∪ B, wird sowohl die Wette X ∈ A ∪ B gewonnen, mit der Auszahlung gA (1 − nA /nB )nA∪B > gnA , sowie notwendig auch eine der beiden anderen Wetten, so dass zus¨atzlich eine weitere Auszahlung gnA sicher ist. Somit u ¨ bertrifft die Auszahlung in diesem Fall den Einsatz. Wieder hat der Spieler also die M¨oglichkeit einen Gewinn ohne Risiko zu erzielen. Damit ist auch diese M¨oglichkeit ausgeschlossen, und es bleibt bei nur die M¨oglichkeit (1 + nA /nB )nA∪B = nA , was aber die behauptete Relation ist. Falls A und B nicht-leeren Durchschnitt haben, k¨onnen wir A ∪ B in die drei disjunktem Mengen A\B, B\A, und A ∩ B zerlegen, und das vorherige Resultat ausnutzen um (1.3) zu erhalten. Wir wollen noch schnell den Umkehrschluss machen und nachpr¨ ufen, dass mit einer zul¨ assigen fairen Bewertung kein risikofreier Einsatz mit Gewinnoption besteht. Dazu betrachten wir einen allgemeinen Einsatz mit Wetten gA auf alle Mengen A ∈ A. Wir nehmen der Einfachheit halber an, dass Ω eine endliche Menge ist, und dass alle einpunktigen Mengen, x ∈ Ω, in A enthalten sind. Der Gewinn bzw. Verlust im Fall des Ausgangs X = x ∈ Ω ist dann X X r(x) = gA nA 1Ix∈A − gA A∈A
Nun ist
P
x∈Ω
n−1 x = 1, und daher
A∈A
8
1 Wahrscheinlichkeit X
n−1 x r(x) =
x∈Ω
X
n−1 x
x∈Ω
=
X
gA
A∈A
weil nach (1.4)
X
X
X gA nA 1Ix∈A − gA A∈A A∈A ! X −1 nx nA − 1 = 0,
(1.9)
x∈A
n−1 x nA = 1.
x∈A
Falls also in der Summe u ¨ber x ∈ Ω einer der Terme n−1 x r(x) > 0, so muss mindestens ein anderer Term n−1 y r(y) < 0 sein. Unser Resultat ist insofern interessant, dass es aus dem einfachen Prinzip, dass keine “sicheren” Gewinne in einer Spielbank m¨oglich sein d¨ urfen, erhebliche Einschr¨ ankungen an maximal m¨ogliche Bewertung der verschiedenen Wetten hergeleitet werden k¨ onnen. Nat¨ urlich sind weiterhin noch viele Freiheiten vorhanden, und die Bank ist gut beraten, die genaue Auswahl sorgsam zu treffen. Auf diese Frage kommen wir gleich ausf¨ uhrlicher zu sprechen.
1.3 Faire Bewertungen und Wahrscheinlichkeitsmaße. Wir wollen nun konzeptuell den Begriff der Wahrscheinlichkeit mit dem einer fairen Bewertung verbinden. Es scheint n¨amlich naheliegend, die Aussage “morgen regnet es mit 90-prozentiger Wahrscheinlichkeit” mit dem Angebot “ich wette zehn zu 1 darauf, dass es morgen regnen wird” gleichzusetzen. Wie sonst soll n¨amlich eine solche Aussage einen Nutzen haben? Im Roulettespiel heißt dass: Das Ereignis “die Kugel in einer Menge A zu liegen kommt, har Wahrscheinlichkeit P (A) bedeutet, dass die Bank dem Spieler das nA = 1/P (A)-fache seines Einsatzes, gA , auszahlt, wenn dieses Ereignis eintritt. In Wahrheit wird keine Bank eine faire Bewertung anwenden, und nur einen Vielfaches n ˜ A < 1/P (A) auszahlen, aber dass soll uns hier zun¨achst nicht so sehr interessieren. Nat¨ urlich sind diese so definierten Wahrscheinlichkeiten im Prinzip subjektiv. Aus den Eigenschaften fairer Bewertungen k¨onnen wir damit also die grundlegenden Eigenschaften eines Wahrscheinlichkeitsmaßes herleiten. Definition 1.3.1 Sei Ω eine beliebige Menge, und sei A eine Menge von Teilmengen (ein “Mengensystem”) von Ω mit der Eigenschaft, dass
1.3 Faire Bewertungen und Wahrscheinlichkeitsmaße. (i) (ii) (iii) (iv)
9
Ω ∈ A und ∅ ∈ A, Falls A ∈ A und B ∈ A, dann ist auch A ∪ B ∈ A. Falls A ∈ A, dann ist auch Ac ≡ Ω\A ∈ A. Falls An ∈ A, f¨ ur alle n ∈ N, dann ist auch ∪n∈N An ∈ A.
Dann heißt A eine σ-Algebra, und das Paar (Ω, A) heißt ein Messraum. Lemma 1.3.1 Falls eine σ-Algebra, F , die Mengen A und B enth¨alt, denn ist auch A ∩ B ∈ F. Beweis. c
A ∩ B = (Ac ∪ B c ) .
Definition 1.3.2 Sei (Ω, A) ein Messraum, und sei P : A → R+ eine Abbildung von A in die positiven reellen Zahlen, mit folgenden Eigenschaften: (i) P (Ω) = 1, P (∅) = 0. (ii) Falls A, B ∈ A, dann gilt P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (iii) Falls die Mengen Ai ∈ A, i ∈ N, disjunkt sind, dann gilt ∞ X P (∪∞ A ) = P (Ai ). i=1 i
(1.10)
(1.11)
i=1
Dann heißt P ein Wahrscheinlichkeitsmaß auf dem Messraum (Ω, A), und das Tripel (Ω, A, P ) wird ein Wahrscheinlichkeitsraum genannt. Bemerkung. Die Punkte (i)–(iii) aus Definition 1.3.1 sowie (i) und ¨ (ii) aus der Definition 1.3.2 sind evident aus den obigen Uberlegungen. Punkt (iv) in Definition 1.3.1 ist sicherlich mathematisch bequem, um im Fall endlicher Mengen Ω nicht an unendlichen Iterationen zu scheitern. Ebenso ist Punkt (iii) in Definition 1.3.2 in diesem Fall praktisch. Eigenschaft (iii) nennt man σ-Additivit¨at. Die in der Definition 1.3.2 aufgestellten Bedingungen heißen auch Kolmogorov’s Axiome. Sie bilden die Grundlage der abstrakten Theorie der Wahrscheinlichkeitsmaße. Bemerkung. In der obigen Definition sind die Punkte (ii) und die Forderung P (∅) = 0 redundant, da sie aus (iii) folgen.
10
1 Wahrscheinlichkeit
Terminologie. Man verwendet gemeinhin die Bezeichnungen Wahrscheinlichkeitsmaß, Wahrscheinlichkeitsverteilung oder auch einfach Verteilung synonym. Die ebenfalls synonyme Bezeichnung Wahrscheinlichkeitsgesetz ist im Deutschen eher veraltet, wird aber sowohl im Englischen “probability law”, “law” wie im Franz¨osischen “loi de probabilit´es”, “loi” noch g¨ angig gebraucht. F¨ ur unseren sp¨ ateren Gebrauch definieren wir gleich noch einige Verallgemeinerungen des Maßkonzepts. Definition 1.3.3 Eine Abbildung µ die alle Eigenschaften der Definition 1.3.2 erf¨ ullt ausser µ(Ω) = 1 heißt ein Maß auf (Ω, F ). Falls µ(Ω) < ∞ heißt es ein endliches Maß. Ein Maß heißt σ-endlich, falls eine aufsteigende Folge, Ωn ∈ F, existiert, so dass Ω = ∪∞ n=0 Ωn , und µ(Ωn ) < ∞ f¨ ur jedes n.
1.4 Wahrscheinlichkeit und Frequenz Wir haben bisher das Konzept eines Wahrscheinlichkeitsmaßes mit einem Wettangebot identifiziert. Im Prinzip besteht damit noch u ¨ berhaupt kein Zusammenhang zwischen einem solchen Maß und dem betrachteten Zufallsexperiment. Vielmehr ist es als eine subjektive Bewertung der Ereignisse durch die Spielbank zu betrachten. In den vorhergehenden Abschnitten haben wir nur gesehen, welche Restriktionen solche Bewertungen erf¨ ullen m¨ ussen um u ¨ berhaupt akzeptabel zu sein, ganz unabh¨ angig vom Ausgang des Zufallsexperiments. Es stellt sich im Weiteren die Frage, wie irgend jemand, etwa eine Spielbank, zur Wahl einer konkreten Bewertung, also der Wahl einer Wahrscheinlichkeitsverteilung kommt. F¨ ur eine Spielbank ergibt sich dabei klarerweise als Motivation der Wunsch, Geld zu verdienen. Unter Annahme einer fairen Bewertung ist dies freilich nicht mit Sicherheit m¨ oglich; die Bank wird also versuchen die Aufgabe zu l¨osen, unter allen Bewertungen diejenige zu finden, bei der ihr auf lange Sicht der geringste Verlust droht, unabh¨ angig davon, wie die Spieler agieren (und dann etwa weniger auszuzahlen). Es muss also die Bewertung in irgendeiner Form mit dem Ausgang der Zufallsexperimente in Bezug gesetzt werden. Dies ist eine Aufgabe der Statistik. Wir gehen dabei zun¨ achst von der Pr¨amisse wiederholbarer Spiele aus. Wir nehmen an, dass die Bank ihre Bewertung ein f¨ ur alle mal festlegt. Weiter nehmen wir (der Einfachheit halber) an, dass ein Spieler eine
1.4 Wahrscheinlichkeit und Frequenz
11
(beliebig) grosse Anzahl von Spielen zu spielen bereit ist, und dabei stets gleiche Eins¨ atze macht1 . Wir definieren nun die Frequenzen der Ausg¨ange der Roulettespiele, k 1X fk (A) ≡ 1IXi ∈A , (1.12) k i=1
f¨ ur A ∈ A, wo Xi der Ausgang des i-ten Spiels ist. Notation: Wir schreiben ohne Unterscheidung ( 1, wenn X ∈ A, 1IX∈A = 1IA (X) = 0, wenn X 6∈ A. Wir bemerken zun¨ achst:
Lemma 1.4.1 Die Abbildung fk : A → R+ ist ein Wahrscheinlichkeitsmaß. ¨ Beweis. Der Beweis ist eine Ubungsaufgabe. Die Wahrscheinlichkeitsverteilung fk heißt auch die empirische Verteilung, das heißt, die tats¨ achlich beobachtete Verteilung der Ausg¨ange. Lemma 1.4.2 Falls die (faire) Bewertung der Bank, n, die Gleichung nA = 1/fk (A) f¨ ur jedes A ∈ A erf¨ ullt, dann gilt f¨ ur jeden m¨oglichen Einsatz gA , dass die Summe aller Auszahlungen der Bank in den k betrachteten Spielen genau der Summe der Eins¨atze des Spielers entspricht. F¨ ur jede andere faire Bewertung gibt es eine m¨ogliche Einsatzstrategie des Spielers, die diesem einen positiven Gewinn sichert. Beweis. Falls nA = 1/fk (A), so betr¨agt die Auszahlung der Bank k X X i=1 A
gA nA 1IXi ∈A =
X
gA nA kfk (A) = k
A
X
gA
A
was genau der Einsatz des Spielers ist. Falls nA 6= 1/fk (A), so kann nicht nA ≤ 1/fk (A) f¨ ur alle Mengen A gelten. Sei B ∈ A so dass nB > 1/fk (B). Dann setze der Spieler einen Betrag G nur auf das Ergebniss B. Der Einsatz in k Spielen ist dann kG, die Auszahlung der Bank aber k X i=1
1
GnB 1IXi ∈B = GnB kfk (B) > kG.
Diese Annahme ist nicht notwendig, vereinfacht aber die Diskussion an dieser Stelle.
12
1 Wahrscheinlichkeit
Nun kann die Bank nA nicht so w¨ahlen wie im obigen Lemma, da die Bewertung ja vorab erfolgen muss und sich nicht am Ausgang der Spiele orientieren kann. Genausowenig kann der Spieler einen Einsatz in Abh¨ angigkeit von fk t¨ atigen. Eine sinnvolle Bewertung ergibt sich, falls die oben eingef¨ uhrten Frequenzen konvergieren. Lemma 1.4.3 Es sei angenommen, dass die Frequenzen fn (A) f¨ ur alle A ∈ A konvergieren, d.h. lim fk (A) ≡ f (A)
k↑∞
existiert. Dann ist f : A → R+ ein Wahrscheinlichkeitsmaß, und die Bewertung nA = 1/f (A) optimal im Sinne, dass sie die einzige Bewertung ist, so dass, f¨ ur jede Einsatzstrategie gA , k 1 XX lim gA (nA 1IXi ∈A − 1) = 0 (1.13) k↑∞ k i=1 A
w¨ahrend es f¨ ur jede andere Bewertung ein Strategie gA gibt, so dass k 1 XX lim gA (nA 1IXi ∈A − 1) > 0 (1.14) k↑∞ k i=1 A
¨ Beweis. Ubung! Die Idee ist hier nat¨ urlich, dass man eine grosse Anzahl, sagen wir N , Experimente durchf¨ uhrt und sich mit fk eine gute Approximation des Limes f verschafft, bevor man den Spielbetrieb aufnimmt. fk heißt in der Statistik ein Sch¨atzer f¨ ur die tats¨achlichen Wahrscheinlichkeiten f . Die obigen Beobachtungen bilden die Grundlage der frequentistischen Betrachtung von Wahrscheinlichkeiten. Ihr liegt immer die Annahme zugrunde, ein zuf¨ alliges Experiment k¨onne beliebig oft wiederholt werden. Wenn dann die so gemessenen Frequenzen konvergieren, stellen sie ein Maß f¨ ur die Wahrscheinlichkeitsverteilung des Ausgangs dar, was nach obigem Lemma offenbar sinnvoll ist. Viele Statistiker lassen nur diese Interpretation von Wahrscheinlichkeit gelten, womit aber nur in speziellen Situationen tats¨ achlich von Wahrscheinlichkeit gesprochen werden kann. Das G¨ uckspiel ist offenbar ein typisches Beispiel. Die frequentistische Interpretation erlaubt der Bank ihre Bewertung an Erfahrungswerte anzupassen. So wird sich beim Roulette herausstellen, dass nach vielen Spielen, jede Zahl mit einer Frequenz nahe 1/37
1.5 Wahrscheinlichkeit und Information
13
herauskommt. Dabei mag es auch Roulettetische geben, bei denen andere Werte beobachtet werden. Den Spielern ist diese Information in der Regel nicht zug¨ anglich. Sie vertrauen darauf, dass dies dennoch so ist. Nat¨ urlich kann die Bank hier manipuliert haben. Eigentlich hat sie daran aber kein Interesse, da ihre Bewertung ja f¨ ur diese Frequenzen optimiert ist. G¨ abe es Abweichungen, und ein Spieler w¨ urde abweichende Frequenzen beobachten, k¨ onnte er seinen Einsatz dem anpassen, und so einen Vorteil erlangen.
1.5 Wahrscheinlichkeit und Information Die frequentistische Interpretation von Wahrscheinlichkeit ist in vielen F¨allen, in denen dennoch gerne von “Wahrscheinlichkeit” geredet wird, nicht sinnvoll, da es keine Wiederholung des Experiments unter gleichen Bedingungen geben kann oder wird. Das betrifft etwa die Aussage des Wetterberichts “die Wahrscheinlichkeit, dass es morgen regnet ist 30%”. Am n¨ achsten Tag wird es entweder regnen oder nicht regnen, und die Interpretation, dass es in 30 Prozent der F¨alle morgen regnet, ist sinnlos. Allenfalls kann man sagen, dass Wettervorhersagen mit einer gewissen Wahrscheinlichkeit richtig sind, was hier aber nicht gemeint ist. Dasselbe Problem tritt bei manchen Formen des G¨ uckspiels ein, insbesondere etwa bei Pferdewetten. Da auch hier kein Rennen wie ein anderes ist, stellt sich f¨ ur die Bank hier die Frage nach der Bewertung der Ergebnisses anders als im Roulette. Tats¨achlich wird hier die Bank auch keine festen “a priori” Bewertungen verwenden, sondern diese werden von Rennen zu Rennen festgesetzt, und zwar nachdem die Spieler ihre Wetteins¨ atze get¨ atigt haben. Dies erlaubt der Bank eine faire Bewertung zu finden, die wiederum f¨ ur sie v¨ollig risikofrei ist (und mittels eines Abschlags an eine faire Bewertung, sogar risikofrei Geld zu verdienen). Betrachten wir dies im einfachsten Fall, in dem jeweils nur auf den Sieg eines Pferdes der Betrag gi gesetzt werden kann. Dann stellt gi eine Wahrscheinlichkeitsverteilung auf Ω dar, die die P (i) ≡ j∈Ω gj Erwartungen der Spieler u ¨ber den Ausgang des Rennens wiederspiegelt. Wenn die Bank nun die Auszahlungen so w¨ahlt, dass beim Sieg von i eine Quote ni = 1/P (i) auf den Einsatz gi gezahlt wird, so zahlt sie unabh¨ angig vom Ausgang des Rennens gerade den gesamten Einsatz wieder aus.
14
1 Wahrscheinlichkeit
1.5.1 Die Gleichverteilung. Im einfachsten Fall, wenn Ω eine endliche Menge ist (das ist in unseren Beispielen vom Roulette oder Pferdewetten, wie u ¨ berhaupt in den meißten Gl¨ uckspielen, der Fall), gibt es eine priviligierte Wahrscheinlichkeitsverteilung, die Gleichverteilung, wo jedes Element, i, von Ω dieselbe Wahrscheinlichkeit, P (i) = 1/|Ω|, zugeordnet bekommt. Im allgemeinen Sprachgebrauch werden die Begriffe “zuf¨allig” und “gleichverteilt” oft synonym gebraucht. Tats¨ achlich ist die Gleichverteilung die priviligierte Verteilung, die vom Baysianischen Standpunkt zu verwenden ist, wenn wir keinerlei Information u ¨ ber den Ausgang eines Zufallsexperiments vorliegen haben. Im Fall des Roulettespiels gehen wir ja auch davon aus, dass das Ger¨ at so konstruiert ist, dass die faire Bewertung gerade der Gleichverteilung auf {0, . . . , 36} entspricht, bzw. dass die Frequenzen gegen diese Verteilung konvergieren. Genauso gehen wir beim M¨ unzwurf oder beim W¨ urfeln davon aus, dass eine Gleichverteilung vorliegt. In der kombinatorischen Wahrscheinlichkeitstheorie geht es dann darum, auf der Basis einer solchen angenommenen Gleichverteilung, Wahrscheinlichkeiten komplizierterer Mengen auszurechnen; also etwa die Wahrunzen mit gleichverteiltem scheinlichkeit zu berechnen, dass, wenn k M¨ Ausgang 0 oder 1 geworfen werden, die Summe der Ergebnisse gerade m ist. Ein sch¨ ones Beispiel einer solchen Problematik ist in zwei Briefen von Isaac Newton an Samuel Pepys zu finden.
1.5 Wahrscheinlichkeit und Information
15
16
1 Wahrscheinlichkeit
Fig. 1.1. Newton’s Antwort, erster Brief
1.5 Wahrscheinlichkeit und Information
17
18
1 Wahrscheinlichkeit
Fig. 1.2. Newton’s Antwort, zweiter Brief
2 Elemente der Maßtheorie
Wir haben im ersten Kapitel gesehen, dass unter einer vern¨ unftig erscheinenden Definition des Wahrscheinlichkeitsbegriffes, in nat¨ urlicher Weise der Begriff eines Wahrscheinlichkeitsmaßes in der Form der Definition 1.3.2 auftaucht. Diese nunmehr axiomatisch definierten Objekte k¨ onnen nun mathematisch untersucht werden. In diesem Kapitel wollen wir einige der wichtigsten Eigenschaften von und S¨ atze u ¨ ber Wahrscheinlichkeitsmaße zusammentragen. Eine intensivere Behandlung wird in der Vorlesung Maßtheorie gegeben, die sehr zu empfehlen ist.
2.1 Wahrscheinlichkeitsmaße auf endlichen Mengen Wenn auch die Theorie der W-Maße auf endlichen Mengen fast trivial ist, ist es n¨ utzlich, sich mit einigen Konzepten in diesem einfachen Zusammenhang vertraut zu machen. Es sei also nun Ω eine endliche Menge, die wir ohne Beschr¨ankung der Allgemeinheit als Ω = {1, . . . , N } w¨ahlen k¨onnen. Betrachten wir zun¨ achst den einfachsten Fall, in dem die σ-Algebra von Ω jedes Element von Ω enth¨ alt. Dann ist die σ-Algebra von Ω die Menge aller Teilmengen von Ω, die sog. Potenzmenge von Ω, P(Ω) (warum?). Ein Wahrscheinlichkeitsmaß, P , auf Ω, ist dann ebenfalls durch die Angabe der Werte P (i), i ∈ Ω, eindeutig festgelegt. Lemma 2.1.1 Sei Ω = {1, . . . , N }. Sei P ein W-Maß auf Ω. Dann gilt: • P ist durch die Angabe der Werte P (i), i ∈ Ω, eindeutig festgelegt, P und es gilt i∈Ω P (i) = 1. 19
20
2 Elemente der Maßtheorie
P • Jede Sammlung positiver Zahlen pi ≥ 0, i ∈ Ω, so dass i∈Ω pi = 1 definiert ein Wahrscheinlichkeitsmaß auf Ω mit P (i) = pi . ¨ Beweis. Ubung!! In obigen einfachen Kontext w¨ urden wir sagen, dass die σ-Algebra durch die Menge der ein-punktigen Mengen, {1}, {2}, . . . , {N }, erzeugt wird. Dar¨ uber hinaus ist diese Untermenge der σ-Algebra maßbestimmend, d.h. die Werte des Maßes auf diesen Mengen legen das Maß fest. ¨ Ubung: Finde im obigen Fall eine andere erzeugende und maßbestimmende Menge von Teilmengen der σ-Algebra. Es ist instruktiv, sich klarzumachen, dass nach unserem bisherigen Verst¨ andnis die Wahl der Potenzmenge als σ-Algebra u ¨ ber Ω durchaus nicht zwingend ist. So k¨ onnten wir zum Beispiel die Mengen (es sei N gerade) {1, 2}, {3, 4}, . . . , {N − 1, N } als Basis einer σ-Algebra w¨ahlen. Es ist leicht zu sehen, dass die hiervon erzeugte σ-Algebra kleiner ist als die vorherige. Insbesondere sind die Elemente der zuvor betrachteten Basis, die ein-punktigen Mengen, hier nicht enthalten. Insbesondere ordnet demnach ein Wahrscheinlichkeitsmaß, dass bez¨ uglich dieser σ-Algebra definiert ist, diesen Einpunktmengen auch keine Werte zu.
2.1.1 Messbare Funktionen Ein wesentliches Bestreben der Maßtheorie ist es, Funktionen gegen Maße zu integrieren. Im diskreten Fall scheint das weitgehend trivial, wir wollen aber doch einige allgemeine Ideen in diesem Fall entwickeln. Betrachten wir zun¨ achst den Fall in dem die σ-Algebra die Potenzmenge ist. Sein dann f : Ω → R eine beliebig Funktion. Es ist klar dass wir mit dem Integral von f gegenZ P den Ausdruck X f dP ≡ f (i)P (i) (2.1) i∈Ω
meinen. Dies setzt aber die Existenz der Werte P (i) voraus. H¨atten wir die kleinere σ-Algebra aus dem vorherigen Beispiel gew¨ahlt, k¨onnten wir so offenbar nicht vorgehen. Es lohnt sich also, nochmals u ¨ ber die Bedeutung des Integrals eine Funktion nachzudenken. Dazu empfiehlt sich die frequentistische Interpretation von P . Sei z.b. f (i) die Auszahlung , die beim Eintritt des Ereignisses X = i anf¨ allt. Wir sind dann an der “auf lange Sicht” erwarteten Rate der Auszahlung interessiert. Nun wird in unserem Fall f
2.1 Wahrscheinlichkeitsmaße auf endlichen Mengen
21
endlich viele Werte annehmen. Uns interessiert, wie h¨aufig diese Werte vorkommen. Dies f¨ uhrt zu folgender Definition des “Integrals” einer solchen Funktion. Definition 2.1.1 Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum, und sei f : Ω → R eine Funktion, die nur k Werte, w1 , . . . , wk , annimmt. Dann ist Z k X f dP = wk P ({i ∈ Ω : f (i) = wk }) , (2.2) l=1
genau dann wenn f¨ ur alle k {i ∈ Ω : f (i) = wk } ∈ F. Wir sehen also: der Ausdruck (2.2) kann genau dann berechnet werden, wenn alle Mengen {i ∈ Ω : f (i) = wk } in der σ-Algebra bez¨ uglich derer unser Wahrscheinlichkeitsmaß definiert ist enthalten sind!! Dies ist offenbar eine Eigenschaft einer Funktion bez¨ uglich einer σ-Algebra. Wir wollen diese (vorl¨ aufig) wie folgt formalisieren. Lemma 2.1.2 Sei (Ω, F ) ein Messraum, und f : Ω → R eine reellwertige Funktion. Dann heisst f messbar bez¨ uglich F (oder F -messbar), genau dann, wenn, f¨ ur jedes w ∈ R, {x ∈ Ω : f (x) ≤ w} ∈ F.
(2.3)
Eine reell-wertige messbare Funktion auf (Ω, F ) heisst eine Zufallsvariable auf (Ω, F ). Die Definition des Integrals mittels der Formel (2.2) hat den formalen Nachteil, dass sie die Kenntnis der Werte, wi , die f annimmt voraussetzt. Dies wird bei der Verallgemeinerung auf allgemeine Messr¨aume hinderlich sein. Wir k¨ onnen aber leicht eine Formel angeben, die mit (2.2) u bereinstimmt, formal aber keine implizite Information u ¨ ¨ ber f voraussetzt. Lemma 2.1.3 Sei (Ω, F , p) ein Wahrscheinlichkeitsraum, und sei f : Ω → R eine messbare Funktion bez¨ uglich F . Dann ist das Integral von f bez¨ uglich P gegeben durch Z +∞ X f dP ≡ lim kP ({x ∈ Ω : k ≤ f (x) < (k + 1)}) (2.4) Ω
↓0
k=−∞
Beweis. Der Beweis ist recht einfach. Wenn w1 , . . . , wk die Werte sind, die f annimmt, dann ist δ = mini6=j |wi − wj | > 0. Dann gilt zun¨achst,
22
2 Elemente der Maßtheorie
dass, f¨ ur alle < δ/2, jedes Intervall (k, (k + 1)] h¨ochstens einen der Werte wi enthalten kann. F¨ ur solche sei kl so, dass wl ∈ (kl , (kl + 1)]. Dann ist k X l=1
wl P ({i ∈ Ω : f (i) = wl }) = ≥ =
k X l=1
k X
wl P ({i ∈ Ω : f (i) ∈ (kl , (kl + 1)]}) kl P ({i ∈ Ω : f (i) ∈ (kl , (kl + 1)]})
l=1 ∞ X
k=−∞
kP ({i ∈ Ω : f (i) ∈ (k, (k + 1)]})
sowie auch k X l=1
wl P ({i ∈ Ω : f (i) = wl }) = ≤ = =
k X l=1
k X
wl P ({i ∈ Ω : f (i) ∈ (kl , (kl + 1)]}) (kl + 1)P ({i ∈ Ω : f (i) ∈ (kl , (kl + 1)]})
l=1 ∞ X
k=−∞ ∞ X
k=−∞ ∞ X
(k + 1)P ({i ∈ Ω : f (i) ∈ (k, (k + 1)]}) kP ({i ∈ Ω : f (i) ∈ (k, (k + 1)]})
+ =
k=−∞ ∞ X
k=−∞
P ({i ∈ Ω : f (i) ∈ (k, (k + 1)])
kP ({i ∈ Ω : f (i) ∈ [k, (k + 1))}) +
da die letzte Summe gerade dass Maß von Ω, also 1 ist. Da diese Ungleichungen f¨ ur jedes < δ/2 gelten, folgt dass ∞ X lim sup kP ({i ∈ Ω : f (i) ∈ (k, (k + 1)]}) ↓0
≤
k X l=1
k=−∞
wl P ({i ∈ Ω : f (i) = wl })
≤ lim inf ↓0
∞ X
k=−∞
kP ({i ∈ Ω : f (i) ∈ (k, (k + 1)])
Dies Beweist das Lemma und die Existenz des Limes in (2.4).
2.1 Wahrscheinlichkeitsmaße auf endlichen Mengen
23
Wir werden sp¨ ater sehen, dass wir mit der obigen Definition schon sehr nahe am allgemeinen Fall sind. Die einzige verbleibende Frage wird die der Konvergenz der Summen u ¨ ber k sein. Das Integral einer messbaren Funktion, f , d.h. einer Zufallsvariablen, wir in der Regel auch als die Erwartung von f oder der Erwartungswert, oder Mittelwert von f , bezeichnet. Wir schreiben Z f dP ≡ Ep f ≡ Ef. (2.5) Ω
Manchmal spricht man auch vom mathematischen Erwartung oder dem mathematischen Mittel von f . Dies wird getan um den Unterschied zum sogennanten empirischen Mittel zu betonen, der das arithmetische Mittel der Funktion f u ¨ ber n Wiederholungen eines Experiments darstellt, Eemp f ≡ n−1 n
n X
f (Xi ).
k=1
Der Zusammenhang zwischen mathematischem und empirischen Mittel ist eine der grundlegenden Fragen der Wahrscheinlichkeitstheorie.
2.1.2 Erwartungswerte und Verteilungsfunktionen. Wir wollen nun eine weitere n¨ utzliche Interpretation des Integralbegriffes untersuchen. Hierzu wollen wir den Ausdruck (2.2) in der Form Z Z f dP = xdP˜ Ω
R
uminterpretieren, wobei nun P˜ ein Maß auf den reellen Zahlen ist, dass jedem halb-offenen Intervall, (x, y], die Maße P˜ ((x, y]) ≡ P ({ω ∈ Ω : x < f (ω) ≤ y}) zuteilt. Es ist leicht zu sehen, dass diese Definition konsistent ist, wenn wir die Definition des Integrals (die wir bislang nur f¨ ur endliche Mengen Ω begr¨ undet haben) formal auf den Fall Ω = R ausdehnen, mit einer σ-Algebra, die die Menge aller halboffenen Intervalle enth¨alt. Die Wahrscheinlichkeitsverteilung P˜ ist die Verteilung der Werte von f in den reellen Zahlen, mithin die Verteilung der (reellen) Zufallsvariablen f (die wir hinfort h¨ aufig gerne mit X bezeichnen werden). Eine besonders interessante Gr¨ osse ist dann die sogenannte Verteilungsfunktion, F : R → [0, 1], die durch F (x) = P ({ω ∈ Ω : f (ω) ≤ x}) = P˜ ((−∞, x]) (2.6)
24
2 Elemente der Maßtheorie
definiert ist. Beachte dass eine Verteilungsfunktion von dem Maß P und der Zufallsvariablen f abh¨ angt, aber eindeutig durch die Verteilung P˜ auf R bestimmt wird. In unserem Fall eines endlichen Zustandsraumes ist die Verteilungsfunktion jeder Zufallsvariablen eine Stufenfunktion mit endlich vielen Spr¨ ungen. Diese Spr¨ unge liegen an den Punkten wi , welche die Zufallsvariable X annimmt. Die Funktion F springt and der Stelle wi um den Betrag P˜ (wi ) ≡ P ({ω ∈ Ω : f (ω) = wi }), d.h. F (wi ) = P˜ (wi ) + lim F (x). x↑wi
Insbesondere ist F wachsend und rechtsstetig.
2.2 Wahrscheinlichkeitsmaße auf R. Wir sehen aus der obigen Diskussion, dass die Behandlung von Wahrscheinlichkeitsmaßen ausschließlich auf endlichen Mengen unbequem ist. Zumindest sollten wir in der Lage sein, Wahrscheinlichkeitsmaße auf den reellen Zahlen, R, zu behandeln. Wie sich zeigen wird, ist dann der allgemeine Fall im wesentlichen sehr ¨ahnlich.
2.2.1 Die Borel’sche σ-Algebra. Grunds¨ atzlich k¨ onnen wir genau wie im endlichen Fall vorgehen, und zun¨ achst eine σ-Algebra konstruieren. Dazu brauchen wir erst mal eine Klasse von Mengen, die darin enthalten sein sollen. Obwohl es hier nat¨ urlich viele Wahlm¨ glichkeiten gibt, wollen wir uns auf den kanonischen und wichstigsten Fall beschr¨anken, der zu der sogenannten Borel’schen σ-Algebra f¨ uhrt. Dazu fordern wir, dass B die leere Menge und alle offenen Intervalle in R enthalten soll. Nach Definition einer σAlgebra enth¨ alt B dann alle Mengen, die durch abz¨ahlbare Vereinigung und Bildung von Komplementen, sowie die Grenzwertbildung von solchen Operationen erhalten werden k¨onnen. Die Borel’sche σ-Algebra ist nun genau diejenige σ-Algebra, die eben auch gerade nur diese Mengen enth¨ alt, d.h. sie ist die kleinste σ-Algebra, die alle offenen Intervalle enth¨ alt. Die in B enthaltenen Teilmengen der reellen Zahlen heissen BorelMengen. Die Borel-Mengen stellen eine a¨ußerst reiche Klasse von Mengen dar. Insbesondere sind die folgenden Mengen allesamt Borel’sch:
2.2 Wahrscheinlichkeitsmaße auf R.
25
(i) alle offenen Mengen; (ii) alle abgeschlossenen Mengen. Dies ist aber bei Weitem nicht alles. Eine “explizite” Angabe aller BorelMengen ist nicht m¨ oglich. Bemerkung. Die Borel’sche σ Algebra ist strikt kleiner als die Potenzmenge von R, d.h. es gibt Untermengen von R, die nicht in B enthalten sind. Solche Mengen sind in der Regel durch implizite Beschreibungen definiert. Die Borel’sche σ-Algebra ist f¨ ur unsere Zwecke reich genug. Insbesondere kann auf ihr in sinnvoller Weise ein uniformes Maß, dass Lebesgue-Maß, definiert werden. Beispiel einer nicht-Borel’schen Menge. Wir definieren zun¨achst ei¨ ne Aquivalenzrelation ∼ auf den reellen Zahlen in [0, 1] wie folgt: x ∼ y genau dann, wenn sie sich um eine rationale Zahl unterscheiden, al¨ so x − y ∈ Q. Damit wird R in Aquivalenzklassen zerlegt. W¨ahle nun ¨ aus jeder Aquivalenzklasse ein Element aus (dies is m¨oglich unter Berufung auf das Auswahlaxiom) und bilde die Vereinigungsmenge, A, dieser ausgew¨ ahlten Elemente. Dann gilt offenbar dass die reellen Zahlen die disjunkte Vereinigung der Mengen A + q, mit q ∈ Q sind (hier ist A + q = ∪y∈A {y + q}. Die Menge A ist nicht Borel’sch. Das interessante an ihr ist, dass es unm¨ oglich ist, ihr in konsistenter Weise eine Maße unter der Gleichverteilung zuzuordnen. Es muss dann n¨amlich gelten, dass P (A) = P (A + q) f¨ ur alle q ∈ R; wenn nun aber P (A) > 0, dann gilt f¨ ur jedes Intervall X P (A + q) = ∞, q∈Q∩I
obwohl sicher ∪q∈Q∩I {A + q} ⊂ I¯ und somit X
q∈Q∩I
P (A + q) = P (∪q∈∈Q∩I {A + q}) ≤ |I| < ∞
gelten muss. Also bliebe nur die Option P (A) = 0; dann aber w¨are X P (R) = P (A + q) = 0, q∈Q
was offenbar auch nicht im Sinne des Erfinders ist. Daher ist es besser, den Versuch dieser Menge eine Maße zu geben, zu unterlassen. (Wir sehen dass das Problem darin liegt, dass wir R (oder jedes Intervall in R
26
2 Elemente der Maßtheorie
in abz¨ ahlbar viele gleichgroße Teile zerlegen wollen. Dass Summierbarkeitsaxiom steht dieser M¨ oglichkeit im Wege. Die Borel’sche σ-Algebra enth¨alt ansonsten alle “vern¨ unftigen Mengen. Insbesondere enth¨ alt sie alle Punkte, x ∈ R, alle kompakten Intervalle, alle halb-offenen Intervalle, sowie alle Halbachsen. Auch gibt es viele andere Charakterisierungen. Insbesondere die folgende ist f¨ ur uns interessant: Lemma 2.2.1 Die Borel’sche σ-Algebra u ¨ ber R ist die kleinste σ-Algebra, die alle Mengen der Form {y ∈ R : y ≤ x} enth¨alt. ¨ Beweis. Ubung!! 2.2.2 Maßbestimmende Mengen und der Satz von Carath´ eodory. F¨ ur unsere Zwecke ist das wichtigste Problem der Maßtheorie das folgende: Wie k¨ onnen wir in minimaler Weise ein Maß charakterisieren? Im Fall endlicher Mengen war das einfach; schlimmstenfalls h¨atten wir die Werte auf allem Borel-Mengen angegeben, aber wie sich herausstellt gen¨ ugt, wegen der Additivit¨ at bereits die Kenntnis der Werte auf einer Basis, etwa auf allen Elementen von Ω. Im Fall des R ist das Problem dringlicher: die gesamte Borel σ-Algebra ist viel zu gross und unhandlich, als das wir die Maße aller ihrer Mengen angeben wollten (Nat¨ urlich k¨ onnten wir das “im Prinzip”). Wir machen es also wie die Mathematiker es immer machen: Wir arbeiten einmal, und zeigen eine kleinere Menge von Mengen auf, die ausreicht, dass Maß auf allen Borel Mengen zu bestimmen. Das wird etwa die Menge der im vorherigen Lemma angegebenen Mengen sein. Diese einmalige Anstrengung wird uns sp¨ater dann das Leben enorm erleichtern. Wir werden dazu jetzt ein bißchen abstrakt. Das macht die Dinge erstens einfacher, und zweitens arbeiten wir schon f¨ ur sp¨ater vor. Als erstes definieren wir den Begriff von durchschnitts-stabilen Mengensystemen und Dynkin-Systemen. Definition 2.2.1 Sei Ω eine Menge, und C eine nicht-leere Teilmenge der Potenzmenge von Ω. Wir nennen C ein Mengensystem. (i) C heisst durchschnittsstabil, falls f¨ ur jedes A, B ∈ C auch A ∩ B ∈ C gilt.
2.2 Wahrscheinlichkeitsmaße auf R.
27
(ii) C heisst ein Dynkin-System, genau dann wenn Ω ∈ C. f¨ ur jedes A ∈ C gilt, dass Ac ∈ C, falls A1 , A2 , . . . , ∈ C paarweise disjunkt sind, dann gilt ∪n∈N An ∈ C. Dynkin-Systeme k¨ onnen viel kleiner sein als σ-Algebren. Andererseits fehlt Dynkin-Systemen zur σ-Algebra nur dir Durchschnittsstabilit¨at. Lemma 2.2.2 Jede σ-Algebra ist ein Dynkin-System. Jedes durchschnittstabile Dynkin-System ist eine σ-Algebra. Ferner gilt: Lemma 2.2.3 Wenn C ein durchschnittstabiles Mengensystem ist, dann ist das kleinste Dynkin-System, das C enth¨alt, gerade die von C erzeugte σ-Algebra. Wir haben st¨ andig u ¨ ber σ-Algebren geredet. Es wird Zeit, den Begriff einer Algebra von Mengen zu erkl¨aren. Definition 2.2.2 Ein Mengensystem A ⊂ P(Ω) heisst eine Algebra, falls mit A, B ∈ A auch Ac , A ∪ B und A ∩ B in A enthalten sind. Bemerkung. Im Sinne der Aussagenlogik entsprechen die Mengenoperationen der Negation, dem logischen oder und dem logischen und. Oft werden in der Wahrscheinlichkeitstheorie die Mengen A mit der Aussage “ein Zufallsexperiment hat einen Ausgang in der Menge A” identifiziert, und die Mengenoperationen daher mit den logischen Operationen bezeichnet. Der Unterschied einer Algebra zur σ-Algebra ist, dass keine abz¨ahlbaren Vereinigungen in A enthalten sein m¨ ussen. Daher ist die durch ein Mengensystem erzeugte Algebra (die kleinste Algebra, die dieses Mengensystem enth¨ alt) viel kleiner, als die davon erzeugte σ-Algebra. Auf einer Algebra definiert man nun etwas, was schon fast ein Maß ist: Definition 2.2.3(i) Eine Abbildung µ : A → R+ , heisst ein Inhalt, wenn µ(∅) = 0 und f¨ ur alle disjunkten Mengen A, B ∈ A, µ(A ∪ B) = µ(A) + µ(B). (ii) Ein Inhalt heisst ein Pr¨ amaß, wenn auch f¨ ur Folgen disjunkter Mengen A1 , A2 · · · ∈ A, X µ (∪n∈N An ) = µ(An ) n∈N
28
2 Elemente der Maßtheorie
gilt. Beachte, dass falls A eine σ-Algebra ist, und µ ein Pr¨amaß, dann ist µ ein Maß. Wenn dar¨ uber hinaus µ(Ω) = 1, dann ist µ ein Wahrscheinlichkeitsmaß. Die σ-Additivit¨ at ist in der Regel nicht sonderlich schwer nachzupr¨ ufen. Das folgende Lemma macht dies transparent, und erkl¨art zum Teil warum wir die abz¨ ahlbare Additivit¨at f¨ ur Maße fordern. Lemma 2.2.4 Sei µ ein endlicher Inhalt auf einer Algebra A. Dann sind die folgenden Aussagen ¨auivalent: (i) µ ist ein Pr¨amaß. (ii) F¨ ur alle Folgen von Mengen A1 , A2 , · · · ∈ A, so dass An ↓ ∅, gilt limn↑∞ µ(An ) = 0. Beweis. Wir zeigen zun¨ achst dass (i) (ii) impliziert. Dazu sein Bn ≡ An \An+1 . Die Mengen Bn sind disjunkt, und An = ∪∞ ur jedes m=n Bm , f¨ P∞ n. Also ist nach (i) m=n µ(Bm ) = µ(An ). Die Konvergenz der Summe impliziert dass µ(Bm ) nach null konvergiert. Wir zeigen nun die Gegenrichtung. Es sei nun Bn eine Folge disjunkter Mengen in A so dass B ≡ ∪n∈N Bn ∈ A. Setze nun An+1 ≡ ∪m=n+1 Bm = B \ ∪ni=1 Bi ∈ A. Wegen der endlichen Additivit¨at des Inhalts gilt n X µ(B) = µ(Bi ) + µ(An+1 ). i=1
Da aber nach (ii) µ(An+1 ) ↓ 0, (denn An ↓ ∅, folgt dass µ(B) = P∞ i=1 µ(Bi ), und der Beweis ist erbracht.
Theorem 2.2.5 Sei F eine σ-Algebra ¨ uber Ω, und C ein durchschnittstabiles Mengensystem das F erzeugt. Falls zwei Wahrscheinlichkeitsmaße, µ, ν, auf C ¨ ubereinstimmen, dann gilt µ = ν auf F . Beweis. Wir beweisen den Satz f¨ ur den Fall wo µ und ν Wahrscheinlichkeitsmaße sind. Wir definieren Fe ≡ {A ∈ F : µ(A) = ν(A)} .
Wir wollen zeigen, dass F = Fe. Dazu gen¨ ugt es zu zeigen, dass Fe ein Dynkin-System ist. Denn da C durchschnittsstabil ist, ist das kleinste Dynkin-System, dass C enth¨ alt ja auch gerade die von C erzeugte σAlgebra, also F . Da aber nach Voraussetzung Fe gerade C enth¨alt, w¨aren
2.2 Wahrscheinlichkeitsmaße auf R.
29
wir fertig. Pr¨ ufen wir also ob Fe ein Dynkin-System ist. Zun¨chst testen wir, ob Komplemente enthalten sind. Es ist aber, wenn A ∈ Fe, µ(Ac ) = µ(Ω) − µ(A) = ν(Ω) − ν(A) = ν(Ac ),
e F¨ also Ac ∈ F. ur paarweise disjunkte Mengen Dn ∈ Fe gilt X X ν(Dn ) = ν (∪n∈N Dn ) , µ(Dn ) = µ (∪n∈N Dn ) = n∈N
n∈N
also ist auch ∪n∈N Dn ∈ Fe. Damit ist die Behauptung bewiesen.
Bemerkung. Die Aussage des Satzes gilt f¨ ur allgemeine Maße, wenn zus¨ atzlich angenommen wird, dass C eine Folge von Mengen Ωn mit den Eigenschaften µ(Ωn ) < ∞ und Ωn ↑ Ω Der Beweis besteht darin, zu beobachten, dass die Maße µn und νn , definiert durch µn (A) ≡ µ(A ∩ Ωn ), bzw. νn (A) ≡ ν(A ∩ Ωn ) identisch sind, und andererseits µn → µ, resp. νn → ν gilt. Eine Mengensystem, dass die Voraussetzung des Satzes erf¨ ullt nennt man maßbestimmend. Zu unserem Gl¨ uck fehlt nun nur noch die Beobachtung, dass aus Pr¨ amaßen Maße werden. Dies besagt der folgende wichtige Satz von Carath´eodory: Theorem 2.2.6 Sei µ0 ein Pr¨amaß auf einer Algebra A. Dann gibt es genau ein Maß, µ, auf der von A erzeugten σ-Algebra, das mit µ0 auf Au ¨bereinstimmt. µ heisst die Erweiterung von µ0 auf σ(A). Bemerkung. Die Eindeutigkeit folgt aus dem vorhergehenden Satz sofort. Der Existenzbeweis w¨ urde hier zu weit f¨ uhren. Er wird in der Vorlesung Maßtheorie erbracht. Interessanterweise zeigt dieser auch, dass die Borel’sch σ-Algebra im wesentlichen die gr¨osstm¨ogliche σ-Algebra ist auf der sich Maße konstruieren lassen, die die abz¨ahlbare Additivit¨ atseigenschaft besitzen.
2.2.3 Verteilungsfunktionen. Die f¨ ur uns zun¨ achste wichtigste Anwendung des Satzes von Carath´eodory ist die Beobachtung, dass ein Wahrscheinlichkeitsmaß auf R durch seine Verteilungsfunktion eindeutig charakterisiert ist. Theorem 2.2.7 Zu jeder monoton wachsenden, rechtsstetigen Funktion F : R → R gibt es genau ein Maß, µ, auf (R, B), so dass µ((s, t]) = F (t) − F (s) ist, f¨ ur alle s < t ∈ R.
30
2 Elemente der Maßtheorie
Beweis. Wir nehmen ein Mengensystem C dass aus allen Intervallen der Form (s, t] besteht, mit −∞ ≤ s < t < ∞, sowie zus¨atzlich allen Intervallen (s, +∞). Es sei a(C) die von diesen Intervallen erzeugte Algebra. Offenbar sind dies gerade alle endlichen Vereinigungen von halb-offenen Intervallen. Wir k¨ onnen nun f¨ ur jedes solche Intervall den Wert von µ festsetzen als µ((s, t]) ≡ F (t) − F (s), bzw. µ((s, ∞) = lim F (t) − F (s) ≡ F (∞) − F (s). t↑∞
Wir sehen auch, dass durch endliche Additivit¨at diese Funktion auf die ganze Algebra erweitert werden kann, die Maßen von disjunkten Vereinigungen sind gerade die Summe der Maßen. Wichtig ist dabei die Konsistenz, n¨ amlich, dass µ((s, t]) + µ((t, r]) = µ((s, r]), wie man leicht nachpr¨ uft. Damit k¨onnen wir µ auf a(C) erweitern und erhalten einen Inhalt. Um den Satz von Carath´eodory anwenden zu k¨ onnen, bleibt nur noch u ¨brig zu zeigen, dass µ ein Pr¨amaß ist. Dann liefert dieser Existenz und Eindeutigkeit des Maßes µ auf der Borel σAlgebra. Dazu benutzen wir unser Lemma 2.2.4 und zeigen, dass f¨ ur jede Folge An ↓ ∅ in a(C), µ(An ) ↓ 0. Dies wieder werden wir dadurch beweisen, dass aus der Annahme limn↑∞ µ(An ) > 0 folgt, dass ∩n∈N An 6= ∅. Es sei daf¨ ur An eine absteigende Folge von Teilmengen von a(C) mit limn↑∞ µ(An ) = a > 0; ohne Beschr¨ankung der Allgemeinheit k¨onnen wir An aus C w¨ ahlen. Wir wollen nun zeigen, dass in jedem noch eine ¯ n , steckt, derart, dass die Folge K ¯ n abnichtleere kompakte Menge, K steigend ist. Der unendliche Durchschnitt dieser Mengen kann aber nicht leer sein, andererseits ist er in ∩n∈N An enthalten, weshalb auch letztere nicht leer sein kann. Wie konstruieren wir nun diese Mengen? Wir zeigen zun¨achst, dass f¨ ur jedes Intervall I ∈ C und jedes > 0 eine kompakte Menge L und ein Intervall I 0 ∈ C existieren, so dass I 0 ⊂ L ⊂ I,
und µ(I 0 ) ≥ µ(I) − .
Sei n¨ amlich I = (s, t], so w¨ ahle man I 0 = (s0 , t] mit s0 ∈ (s, t) derart, 0 dass F (s ) ≤ F (s)+ (dies ist stets m¨oglich, da F rechtsstetig ist). Dann
2.2 Wahrscheinlichkeitsmaße auf R.
31
w¨ahlen wir zum Beispiel L = [(s + s0 )/2, t], wenn s ∈ R. Wenn s = −∞ ist, w¨ ahlt man stattdessen L = [s0 − 1, t]. Wir konstruieren mit diesem Verfahren nun f¨ ur jedes An Mengen Bn , Kn so dass und µ(Bn ) ≥ µ(An ) − a2−n−1 .
Bn ⊂ Kn ⊂ An , Nun ist leicht zu sehen, dass
µ(B1 ∩ · · · ∩ Bn ) ≥ µ(An ) − µ(∪ni=1 Ai /Bi ) und da nach Konstruktion µ(Ai \Bi ) ≤ µ(Ai )−µ(Bi ) ≤ a2−n−1 ist, folgt µ(B1 ∩ · · · ∩ Bn ) ≥ µ(An ) −
n X i=1
a2−n−1 ≥ a − a/2 = a/2
Also ist B1 ∩ · · · ∩ Bn f¨ ur jedes n nicht leer, enth¨alt aber auch die kom¯ n . Letztere ist die gesuchte absteigende pakte Menge K1 ∩ · · · ∩ Kn ≡ K Folge nichtleerer kompakter Mengen. Corollary 2.2.8 Es existiert ein Maß auf (R, B), das jedem Intervall gerade seine L¨ange zuordnet. Dieses Maß heisst das Lebesgue-Maß. (benannt nach dem franz¨ osischen Mathematiker Henri L´eon Lebesgue (28.06. 1875 – 26.07. 1941). Beweis. W¨ ahle F (t) = t im vorhergehenden Satz! Falls F (∞)−F (−∞) = 1, so ist das resultierende Maß ein Wahrscheinlichkeitsmaß, P . Indem wir noch F (−∞) = 0 festlegen, ist F gerade die Verteilungsfunktion von P , F (t) = P ((−∞, t]) Wenn X eine reellwertige Zufallsvariable ist, und P deren Verteilung, so schreiben wir gerne auch F (t) = P (X ≤ t). Wir fassen als Korollar zusammen: Corollary 2.2.9 Jedes Wahrscheinlichkeitsmaß auf (R, B) ist eindeutig durch seine Verteilungsfunktion F (t) = P ((−∞, t]) bestimmt. Umgekehrt ist jede rechtstetige, wachsende Funktion F : R → [0, 1] mit F (−∞) = 0 und F (+∞) = 1 Verteilungsfunktionen eines Wahrscheinlichkeitsmaßes auf R.
32
2 Elemente der Maßtheorie
2.2.4 Integration Nachdem wir nun Maße auf R definiert haben, wollen wir uns erneut der Frage der Integration von Funktionen zuwenden. Zun¨ achst liegt es nahe, unsere Definition der Messbarkeit im Lichte der Diskussion von Maßen auf R neu zu interpretieren: Definition 2.2.4 Sei (Ω, F ) ein Messraum, und f : Ω → R eine reellwertige Funktion. Dann heisst f eine messbare Funktion von (Ω, F ) nach (R, B), genau dann, wenn f¨ ur alle B ∈ B, f −1 (B) ≡ {ω ∈ Ω : f (ω) ∈ B} ∈ F . Diese Definition stimmt mit unserer fr¨ uheren Definition der messbaren Funktionen u asst sich aber leicht auf Funktionen zwischen ¨ berein, l¨ beliebigen Messr¨ aumen u ¨ bertragen: e Fe) Messr¨aume, und f : Ω → Ω e Definition 2.2.5 Seien (Ω, F ) und (Ω, e F), e Funktion. Dann heisst f eine messbare Funktion von (Ω, F ) nach (Ω, e genau dann, wenn f¨ ur alle B ∈ Ω, f −1 (B) ≡ {ω ∈ Ω : f (ω) ∈ B} ∈ F.
Eine n¨ utzliche Beobachtung, die insbesondere die Nachpr¨ ufung der Messbarkeit von Funktionen erleichtert, ist die folgende: e Sei A die Lemma 2.2.10 Sei F eine σ-Algebra, und sei f : Ω → Ω. Menge aller Mengen der Form e : f −1 (A) ∈ F }. A ≡ {A ⊂ Ω
Dann ist A eine σ-Algebra.
e = Ω, so dass Ω e ∈ A. Auch ist Beweis. Zun¨ achst ist klar, dass f −1 (Ω) −1 f (∅) = ∅ ∈ F, so dass auch ∅ ∈ A. Sei A ∈ A; dann ist f −1 (Ac ) ≡ {ω ∈ Ω : f (ω) 6∈ A} = {ω : f (ω) ∈ A}c ,
also das Komplement einer Menge in F , mithin selbst in F . Somit ist auch Ac ∈ A. Seien schließlich Ai , i ∈ N in A. Dann ist f −1 (∪i Ai ) ≡ {ω ∈ Ω : f (ω) ∈ ∪i Ai } = ∪i {ω ∈ Ω : f (ω) ∈ Ai } ∈ F, und so ∪i Ai ∈ A. Mithin ist A eine σ-Algebra.
2.2 Wahrscheinlichkeitsmaße auf R.
33
Corollary 2.2.11 Falls C ein Mengensystem ist, dass Fe erzeugt, dann ist f messbar, wenn f¨ ur alle C ∈ C, f −1 (C) ∈ F. Beweis. Der Beweis ist denkbar einfach: Einerseits ist die Menge A ≡ {A : f −1 (A) ∈ F } nach dem vorigen Lemma eine σ-Algebra, andererseits enth¨ alt sie einen Erzeuger, C der σ-Algebra. Dann enth¨alt sie mindestens die erzeugte σ-Algebra, mithin Fe. Corollary 2.2.12 Sei f : R → R eine stetige Funktion. Dann ist f messbar als Funktion von (R, B(R)) → (R, B(R)).
Beweis. Wir m¨ ussen nur (z.B.) zeigen, dass die Urbilder von offenen Intervallen unter f Borelmengen sind. Nun ist aber das Urbild von offenen Mengen unter stetigen Abbildungen offen, und alle offenen Mengen sind Borel-Mengen. Im Fall das f eine beschr¨ ankte messbare Funktion und P ein Wahrscheinlichkeitsmaß auf (Ω, F ) ist, l¨asst sich die Definition des Integrals, die wir in (2.4) gegeben haben ohne weiteres wieder anwenden wenn Ω nicht endlich, sondern etwa Ω = R ist. Andernfalls m¨ ussen wir aufgrund der in (2.4) auftauchenden unendlichen Summe etwas vorsichtiger vorgehen. Dem wollen wir uns nun zuwenden. Eine zweckm¨ assige Vorgehensweise (aber nicht die Einzige) ist es, zun¨ achst das Integral f¨ ur sogenannte einfache Funktionen zu erk¨aren. Definition 2.2.6 Eine Funktion g : Ω → R heisst einfach, wenn sie nur endlich viele Werte annimmt, d.h. wenn es Zahlen w1 , . . . , wk und Mengen Ai ∈ F mit ∪ki=1 Ai = Ω, so dass Ai = {ω ∈ F : g(ω) = wi }. g kann dann geschrieben werden als g(ω) =
k X
wi 1IAi (ω).
i=1
Wir bezeichnen den Raum aller einfachen messbaren Funktion mit E, und den Raum aller positiven einfachen messbaren Funktionen mit E+ . F¨ ur einfache Funktionen ist das Integral nun wie fr¨ uher erkl¨art. Pk Definition 2.2.7 Sei (Ω, F , P ) ein Maßraum und g = i=1 wi 1IAi . Dann ist Z k X gdP = wi P (Ai ) Ω
i=1
34
2 Elemente der Maßtheorie
Sei nun f eine positive, messbare Funktion. Die Grundidee ist, dass wir f durch einfache Funktionen ann¨ahern. Daher definieren wir Definition 2.2.8 Sei f positiv und messbar. Dann ist Z Z f dP ≡ sup gdP g≤f,g∈E+
Ω
(2.7)
Ω
Beachte, dass der Wert des Integrals in R ∪ {+∞} liegt. Schließlich zerlegt man eine allgemeine Funktion in ihren positiven und negativen Teil durch f (ω) = 1If (ω)≥0 f (ω) + 1If (ω)<0 f (ω) ≡ f+ (ω) − f− (ω) und definiert
Z
Ω
f dP ≡
Z
Ω
f+ (ω) −
Z
Ω
f− (ω)dP
(2.8)
Diese Definition ist schl¨ ussig, außer wenn die Integrale sowohl von f+ als auch von f− unendlich sind. In allen anderen F¨allen haben wir damit das Integral einer messbaren Funktion erkl¨art. Man benutzt durchweg die folgenden Notationen ohne Unterschied: Z Z Z f (ω)P (dω), f (ω)dP (ω) = f dP = Ω
Ω
Ω
wobei wir die Angabe des Integrationsgebietes der Bequemlichkeit halber auch oft weglassen. Eine wichtige Eigenschaft dies Integrals ist der Satz von der monotonen Konvergenz: Theorem 2.2.13 Sei (Ω, F , P ) ein Maßraum und f eine nicht-negative reellwertige messbare Funktion. Sei f1 ≤ f2 ≤ · · · ≤ fk ≤ fk+1 ≤ · · · ≤ f eine monoton wachsende Folge von nicht-negativen messbaren Funktionen, die punktweise gegen f streben, d.h., f¨ ur jedes ω ∈ Ω gilt limn↑∞ fn (ω) = f (ω). Dann gilt Z Z f dP = lim fk dP (2.9) k↑∞
Ω
Ω
Beweis. Es ist klar, dass Z
Ω
fk dP ≤
Z
Ω
f dP,
R R und damit auch limk↑∞ Ω fk dP ≤ Ω f dP . Wir m¨ ussen nur die umgePm kehrte Ungleichung beweisen. Sei dazu h ∈ E+ , h = i=1 hi 1IAi mit
2.2 Wahrscheinlichkeitsmaße auf R.
35
h ≤ f . Sei a ∈ [0, 1), und En die Menge En ≡ {ω ∈ Ω : ah(ω) ≤ fn (ω)}. Dann ist En messbar, und da a < 1, und fn ↑ f , muss En wachsend sein und E = ∪n En . Nun ist aber fn ≥ a1IEn h, also Z Z m X hi P (Ai ∩ En ). fn dP ≥ a1IEn hdP = a i=1
Da nun aber En ↑ E, gilt auch Ai ∩ En ↑ Ai , wenn n ↑ ∞ und also Z Z m X lim fn dP ≥ a hi P (Ai ) = a hdP. n↑∞
i=1
Lassen wir noch a nach 1 streben, erhalten wir Z Z lim fn dP ≥ hdP. n↑∞
Da dies f¨ ur jedes h ≤ f gilt, ist auch Z lim fn dP ≥ sup n↑∞
h≤f,h∈E+
Z
hdP =
Z
f dP,
was zu beweisen war. Der Satz von der monotonen Konvergenz erlaubt uns nun eine “explizite” Konstruktion (im Geiste von (2.4)) anzugeben. Lemma 2.2.14 Sei f eine nicht-negative messbare Funktion. Dann ist "n2n −1 Z X f dP ≡ lim 2−n kP ω : 2−n (k − 1) ≤ f (ω) < 2−n k n↑∞
Ω
k=0
+nP (ω : f (ω) ≥ n)
#
(2.10)
Beweis. Wir bemerken, dass auf der rechten Seite der Gleichung der Limes der Integrale der messbaren einfachen Funktionen fn ≡
n n2 −1 X
2−n k1Iω:2−n (k−1)≤f (ω)<2−n k + n1Iω:f (ω)≥n
k=0
steht. Diese sind offenbar monoton wachsend und streben gegen f . Damit folgt das Lemma aus dem Satz von der monotonen Konvergenz.
36
2 Elemente der Maßtheorie
Die zwei folgenden Eigenschaften des Integrals werden immer wieder ben¨ otigt und sollen daher hier bewiesen werden. Der erste ist das sogenannte Fatou’sche Lemma: Lemma 2.2.15 Sei fn eine Folge messbarer Funktionen. Dann gilt Z Z lim inf fn dP ≤ lim inf fn dP. (2.11) n
n
Beweis. Es ist lim inf fn = lim n
k↑∞
inf fn
n≥k
wobei das Infimum in der Klammer eine monoton wachsende Funktion ist. Daher liefert der Satz von der monotonen Konvergenz, dass Z Z lim inf fn dP = lim inf fn dP. (2.12) n
k↑∞
n≥k
Andererseits ist f¨ ur jedes p ≥ k, inf fn ≤ fp .
n≥k
Deswegen ist
Z
inf fn dP ≤ inf
n≥k
p≥k
Z
fp dP.
Daher erhalten wir aber, dass Z Z Z lim fp dP = lim inf fp dP, inf fn dP ≤ lim inf k↑∞
n≥k
k↑∞ p≥k
p
(2.13)
was zu zeigen war. Der zweite zentrale Satz ist Lebesgue’s Satz von der dominierten Konvergenz. Wir nennen eine Funktion f absolut integrierbar (bez. P ), wenn Z |f |dP < ∞. Wir bezeichnen im u ¨ brigen die Menge der u ¨ber Ω bez. P absolut integrierbaren Funktionen mit L1 (Ω, P ) oder L1 (Ω, F , P ). Wir sagen dass eine Folge von Funktionen fn P-fast ¨ uberall gegen eine Funktion f konvergiert, wenn P {ω : lim fn (ω) = f (ω)} = 1. n↑∞
2.2 Wahrscheinlichkeitsmaße auf R.
37
Theorem 2.2.16 Sei fn ein Folge von absolut integrierbaren Funktionen, und sei f eine messbare Funktion so dass lim fn (ω) = f (ω), P -fast ¨ uberall. n
Sei ferner g ≥ 0 eine positive Funktion mit der Eigenschaft, dass ∞, so dass
R
gdP <
|fn (ω)| ≤ g(ω), P-fast ¨ ubberall. Dann ist f absolut integrierbar bez¨ uglich P und Z Z lim fn dP = f dP. n↑∞
(2.14)
Beweis. Wir nehmen zun¨ achst an, dass die Annahmen, die fast u ¨ berall gelten sollen sogar u ¨ berall zutreffen. Dann ist zun¨ achst einmal |f | ≤ g, und somit die absolute Integrierbarkeit von f eine direkte Folge der Integrierbarkeit von g. Da ferner |fn − f | ≤ 2g, und fn − f | → 0, folgt mit Fatou’s Lemma, dass Z Z Z lim inf (2g − |fn − f |)dP ≥ lim inf (2g − |fn − f |)dP = 2 gdP. n
n
(2.15)
Wegen der Linearit¨ at des Integrals ist das aber ¨aquivalent zu Z Z Z 2 gdP − lim sup |fn − f |)dP ≥ 2 gdP,
(2.16)
n
und daher lim sup n
Z
|fn − f |)dP = 0.
Dann folgt das Resultat wegen Z Z Z f dP − fn dP ≤ |fn − f |dP.
Um den allgemeinen Fall mit den nur fast sicheren Annahmen zu behandeln, setzen wir {ω : fn (ω) → f (ω), und∀n |fn (ω)| ≤ g(ω)} . Dann ist P (Ac ) = 0. Aus dem vorherigen folgt, dass f¨ ur die Funktionen ˜ ˜ fRn ≡ fn 1IRA , f ≡ f 1IA , die Aussage des Satzes gilt, w¨ahrend andererseits f˜d P = fn dP , etc. Damit ist der Satz bewiesen.
38
2 Elemente der Maßtheorie
2.2.5 Abbildungen von Maßen Wir kommen an dieser Stelle nochmals auf die bereits im diskreten angesprochene Frage der Verteilung einer Zufallsvariablen zur¨ uck. Diese e F), e Frage stellt sich jetzt so. Wir haben zwei Messr¨aume, (Ω, F ) und (Ω, eine W-Maß, P , auf (Ω, F ) und eine messbare Abbildung f : (Ω, F ) → e Fe). Dann k¨ e Fe) ein neues Maß, Pf definieren durch (Ω, onnen wir auf (Ω, die Forderung, dass f¨ ur alle A ∈ Fe, Pf [A] ≡ P [{ω ∈ Ω : f (ω) ∈ A}].
(2.17)
Aufgrund der Messbarkeit von f ist dieses Maß offenbar wohldefiniert. Wir schreiben h¨ aufig Pf ≡ P ◦ f −1 ,
(2.18)
e Fe) induzierte Maß oder das Bildmaß und nennen Pf das von f auf (Ω, e von P unter f . Wenn g : Ω → R eine reellwertige messbare Funktion ist, so gilt Z Z g(ω)Pf (dω) (2.19) g(f (ω))P (dω) = ˜ Ω
Ω
e F) e = (R, B(R)) ist, nennen wir Pf auch die . Wenn insbesondere (Ω, Verteilung der Zufallsvariablen f , und bemerken, dass Z Z xdPf . f dP = Ω
R
2.2.6 Beispiele von Wahrscheinlichkeitsmaßen. Das einfachste Wahrscheinlichkeitsmaß aus R ist das sogenannte DiracMaß an einem Punkt t ∈ R, δt . Es ist definiert durch δt (A) = 1It∈A , f¨ ur jede Borel-Menge A ∈ B. ¨ Ubung: Zeige dass δt ein Wahrscheinlichkeitsmaß ist. Das Dirac-Maß δt ist die Verteilung einer Zufallsvariablen, die stets den Wert t annimmt. Man sagt auch, die Zufallsvariable sei “deterministisch”. Diskrete Wahrscheinlichkeitsmaße. Aus Dirac-Maßen kann man nichttriviale Zufallsmaße durch die Bildung von konvexen Linearkombiationen bilden. Dazu benutzen wir den allgemein g¨ ultigen einfachen Satz:
2.2 Wahrscheinlichkeitsmaße auf R.
39
Lemma 2.2.17 Seien ν1 , ν2 , . . . Wahrscheinlichkeitsmaße auf einem Messraum (Ω, F ), und pi ≥ 0 f¨ ur alle i ∈ N positive reelle Zahlen mit P p = 1, dann ist i i∈N n X pi νi µ≡ i=1
ebenfalls ein Wahrscheinlichkeitsmaß auf (Ω, F ).
¨ Beweis. Ubung! Diskrete Wahrscheinlichkeitsmaße. Mit diesem Lemma k¨onnenn wir also alle Maße der Form X P = pi δwi i∈N
P definieren, mit pi ≥ 0, f¨ ur alle i ∈ N, so dass i∈N pi = 1, und wi ∈ R, i ∈ N. Wir nennen ein solches Maß ein diskretes Wahrscheinlichkeitsmaß. Im Spezialfall, in dem nur endlich viele der pi ungleich Null sind, finden wir gerade die Wahrscheinlichkeitsverteilung von Zufallsvarariablen auf einem endlichen Zustandsraum wieder. Einige besonders wichtige diskrete Verteilungen sind: Bernoulli Verteilung Ber(p). P = pδ1 + (1 − p)δ0 . Diese Verteilung kommt von einem M¨ unzwurf, in dem mit Wahrscheinlichkeit p Kopf (und mit Wahrscheinlichkeit (1 − p) Zahl erscheint. Die Zufallsvariable f , definiert durch f (Kopf ) = 1, f (Zahl) = 0 hat dann die Verteilung P . Binomialverteilung Bin(n, p). Eine besonders wichtige Verteilung ist die Binomialverteilung. Wir betrachten n M¨ unzen aus dem vorherigen Beispiel, die mit Wahrscheinlichkeit p Kopf zeigen und die gleichzeitig geworfen werden. Der Zustandsraum dieses Experiments ist Ω = {Kopf, Zahl}n. Wir definieren nun eine Funktion f auf Ω, durch f (ω) = #{Kopf kommt in ω vor} Offenbar nimmt f Werte in {0, . . . , n} an. Wir u ¨berlegen uns leicht, dass n k P (f = k) = p (1 − p)n−k k
40
2 Elemente der Maßtheorie
Daraus sehen wir, dass die Verteilung von f gegeben ist durch n X n k ˜ Pn,p = p (1 − p)n−k δk k k=0
Poissonverteilung Poi(ρ). Eine weitere wichtige Verteilung is die Poissonverteilung, eingef¨ uhrt von Sim´ on-Denis Poisson (1781–1840) . Sie ist gegeben durch Pρ =
∞ X ρn −ρ e δn . n! n=0
wobei ρ > 0 ein Parameter ist. Die Poissonverteilung h¨angt mit der Binomialverteilung durch einen Grenz¨ ubergang zusammen. So k¨onnen wir leicht sehen dass, wenn p = ρ/n gew¨ahlt wird, die Koeffizienten Pn,ρ/n (k) der Binomialverteilung gegen Pρ (k) (f¨ ur festes k) konvergieren: Pn,ρ/n (k) =
ρn −ρ ρk n! (1 − ρ/n)n−k → e , k k!(n − k)! n n!
denn n! →1 − k)!
nk (n und
(1 − ρ/n)n → e−ρ und (1 − ρ/n)−k → 1. Wir werden in K¨ urze sehen, dass solche Grenzwertbildungen von zentralem Interesse in der W-Theorie sind und diese Problematik dementsprechend gr¨ undlich behandeln. Die geometrische Verteilung Geo(p). Dies ist wieder eine Verteilung auf den positiven ganzen Zahlen mit Pp (k) = pk (1 − p). Sie hat eine wichtige Interpretation im Kontext des unendlich oft wiederholten M¨ unzwurfs mit Parameter p: Wenn N die Nummer des M¨ unzwurfs bezeichnet, bei dem erstmalig “Zahl” (= 0) erscheint, dann ist P ({N = k}) = pk−1 (1 − p) = Pp (k − 1).
2.2 Wahrscheinlichkeitsmaße auf R.
41
2.2.7 Absolut stetige Maße. Wahrscheinlichkeitsdichten. Ein besonderer Fall von Wahrscheinlichkeitsmaßen auf R liegt in dem Fall vor, dass die Verteilungsfunktion, F , ’differenzierbar’, bzw. genauer, wenn es eine positive, integrierbare Funktion, ρ, gibt, so dass1 P ((s, t]) = F (t) − F (s) =
Z
t
ρ(x)dλ(x)
s
wobei λ das Lebesgue-Maß ist. Wir nennen in diesem Fall die Funktion ρ die Wahrscheinlichkeitsdichte des Wahrscheinlichkeitsmaßes P (bez¨ uglich des Lebesgue-Maßes. Ein Wahrscheinlichkeitsmaß, dass dies Eigneschaft hat, heisst auch absolut stetig (bez¨ uglich des Lebesgue-Maßes). Warnung: In der nicht-mathematischen Literatur werden die Begriffe Verteilungsfunktion und Wahrscheinlichkeitsdichte h¨aufig durcheinander geworfen. Vor allem in der englischsprachigen Literatur, wo diese probability distribution function und probability density (function) heissen, ist die Gefahr der Verwechslung gross. In der physikalischen Literatur wird h¨aufig die Fiktion aufrechterhalten, alle Wahrscheinlichkeitsvereilungen bes¨ assen Dichten. Dazu wird insbesondere der Begriff der Dirac’schen Delta-Funktion eingef¨ uhrt, der die Gleichung δx (y) = δ(x − y)dy zu schreiben erlaubt. Man muss sich aber klar sein, dass es viele Maße gibt, die werder eine Dichte haben, noch als abz¨ahlbare Summen von DiracMaßen geschrieben werden k¨ onnen. Eine Vielzahl in der Praxis verwendeter Wahrscheinlichkeitsmaße ist absolut stetig. Dies liegt, wenigstens zum Teil, daran, dass diese einfacher zu handhaben sind wenn es um konkrete Berechnungen geht. Wichtige Beispiele sind etwa:
Gleichverteilung UI . F¨ ur ein Intervall I ⊂ R ist die Gleichverteilung auf I definiert als dPI (x) = |I|−1 1Ix∈I dx wo dx f¨ ur das Lebesgue-Maß steht. Die Funktion |I|−1 1Ix∈I ist die Wahrscheinlichkeitsdichte.
1
Man beachte, dass f¨ ur diese Darstellung F nicht u ¨berall differenzierbar sein muss; es kann durchaus auf Lebesgue-Nullmengen nicht-differenzierbar sein.
42
2 Elemente der Maßtheorie
Fig. 2.1. Gaussverteilung und approximierende Binomialverteilung
Gaußverteilung N (m, σ 2 ). Die mit Abstand wichtigste Verteilung hat die Dichte (x − m)2 1 √ exp − 2σ 2 2πσ wobei m ∈ R (Mittel) und σ > 0 (Standardabweichung) Parameter sind auf die wir noch zu sprechen kommen. Aus vielen guten Gr¨ unden ist die Gaußverteilung die erste Wahl, wenn es um die Verteilung von Abweichungen um ein typisches Verhalten geht. Der Grund hierf¨ ur wird sich bei der Diskussion des zentralen Grenzwertsatzes offenbaren. Interessanterweise wurde die Gauß’verteilung von dem in England lebenden Franzosen Abraham de Moivre (26. 05 1667 bis 27.11. 1754) 1733 als Approximation der Binomialverteilung eingef¨ uhrt. Gauß benutzte sie erst 1794 (publiziert 1809) in der Fehlerrechnung (Methode der kleinsten Quadrate). Exponentialverteilung Exp(a). Hier ist die Dichte ρ(x) = 1Ix≥0 ae−ax Die Exponentialverteilung tritt insbesondere als Verteilung von Wartezeiten gerne auf. Ihr Characteristikum ist die “Ged¨achtnislosigkeit”. a > 0 is ein Parameter. Cauchy-Verteilung Cauchy(a). Diese hat Dichte ρ(x) =
1 a 2 π a + x2
2.2 Wahrscheinlichkeitsmaße auf R.
43
Diese Verteilung zeichnet sich dadurch aus, dass die Funktion x nicht gegen sie integrierbar ist, d.h. dass kein Mittelwert existiert.
3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße
Bisher haben wir Wahrscheinlichkeitstheorie weitgehend wie einen Teil der Analysis behandelt. In diesem Kapitel kommen wir nun zu zentralen Konzepten, die mathematisch die Eigenst¨andigkeit der Wahrscheinlichkeitstheorie begr¨ unden.
3.1 Bedingte Wahrscheinlichleiten Wir betrachten nunmehr einen beliebigen Wahrscheinlichkeitsraum (Ω, F , P ). Es seien A, B ∈ F zwei Ereignisse. Die Wahrscheinlichkeit von A∩B, d.h. das gleichzeitige Eintreten beider Ereignisse ist dann P (A ∩ B) ≤ min(P (A), P (B)). Was uns nun interessiert ist, wie Information u ¨ber das Ereignis B unsere Annahmen u ¨ ber das Ereignis A beeinflussen. Dazu definieren wir die bedingte Wahrscheinlichkeit: Definition 3.1.1 Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum und seien A, B ∈ F. Sei P (B) > 0. Dann heisst P (A ∩ B) (3.1) P (A|B) ≡ P (B) die bedingte Wahrscheinlichkeit von A gegeben B. Diese Definition der bedingten Wahrscheinlichkeit ist einleuchtend und kompatibel mit der frequentistischen Interpretation von Wahrscheinlichkeiten: Wenn P eine empirische Verteilung ist, dann stellt P (A|B) offenbar die Frequenz des Eintretens von A unter all den Experimenten mit Ausgang in B dar. Die bedingte Wahrscheinlichkeit hat zwei wichtige Eigenschaften: 44
3.1 Bedingte Wahrscheinlichleiten
45
Theorem 3.1.1 Sei B ∈ F mit P (B) > 0. (i) Die bedingte Wahrscheinlichkeit, P (·|B) definiert ein Wahrscheinlichkeitsmaß auf dem Raum (B, F ∩ B), wo F ∩ B ≡ {A ∩ B, A ∈ F }
(3.2)
(ii) Sei Bn ∈ F, n ∈ N , eine paarweise disjunkte Folge von Mengen, so dass (a) ∪n∈N Bn = Ω, (b) P (Bn ) > 0, f¨ ur alle n. Dann gilt, dass, f¨ ur alle A ∈ F, X P (A|Bn )P (Bn ) = P (A)
(3.3)
n∈N
Beweis. Bevor wir mit dem Beweis von (i) beginnen, m¨ ussen wir zeigen, dass F ∩ B eine σ-Algebra u ¨ber B ist. Dies l¨asst sich aber sofort durch Nachpr¨ ufen der Axiome best¨ atigen. Als n¨achstes pr¨ ufen wir, ob P (·|B) ein Wahrscheinlichkeitsmaß ist. Offenbar gilt P (B|B) = 1 und P (∅|B) = 0. Weiterhin gilt dass P (B\A|B) =
P (B\A) P (B) − P (A ∩ B) P (B\A ∩ B) = = = 1−P (A|B). P (B) P (B) P (B)
Schliesslich sei An eine folge paarweise disjunkter Teilmengen von B. Dann gilt P (∪n An ∩ B) X P (An ∩ B) X P (∪n An |B) = = = P (An |B), P (B) P (B) n n und somit gilt (i). Wegen (ii) schreiben wir X X P (A|Bn )P (Bn ) = P (A∩Bn ) = P (A∩∪n Bn ) = P (A∩Ω) = P (A) n∈N
n∈N
Definition 3.1.2 Zwei Ereignisse A, B ∈ F, mit P (B) > 0 und P (A) > 0, heissen unabh¨angig, genau dann wenn P (A|B) = P (A),
(3.4)
beziehungsweise (was das gleiche ist), wenn P (A ∩ B) = P (A)P (B)
(3.5)
Allgemeiner heissen n Ereignisse, A1 , . . . , An , mit P (Ai ) > 0, f¨ ur alle i = 1, . . . , n, unabh¨ angig, genau dann, wenn
46 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße
P (∩ni=1 Ai )
=
n Y
P (Ai )
(3.6)
i=1
Bemerkung. Falls P (A) = 0 und P (B) > 0, so gilt stets P (A|B) = 0. Ein triviales Korollar aus der Definition der bedingten Wahrscheinlichkeit ist die ber¨ uhmte Bayes’sche Formel: Theorem 3.1.2 Seien A, B ∈ F und P (A) > 0, P (B) > 0. Dann gilt P (B) P (B|A) = P (A|B) (3.7) P (A) Der Beweis ist trivial. Die Formel ist in der Statistik von grosser Bedeutung. Thomas Bayes (1702 - 1761) (siehe das Bild am Kapitelanfang) hat diesen Satz in seinem Werk “Essay towards solving a problem in the doctrine of chances” in einem speziellen Fall hergeleitet. Da Bayes von Beruf Priester war, ist sein Interesse an Wahrscheinlichkeiten wohl rein akademischer Natur gewesen. Ein Beispiel soll zeigen, dass man aus ihr durchaus nicht v¨ollig intuitive Ergebnisse gewinnen kann. Beispiel 1. Ein Test auf Vogelgrippe liefert mit Wahrscheinlichkeit von 99% ein korrektes Ergebnis. Ein bekanntes Pharmaunternehmen empfiehlt, sich sofort testen zu lassen, und bei positivem Resultat sofort Oseltamivirphosphate (http://www.tamiflu.com/) prophylaktisch einzunehmen. F¨ ur wen ist das sinnvoll? Wir nehmen dazu an, dass der tats¨achliche Durchseuchungsgrad x betr¨ agt. Wir bezeichnen das Ereignis “krank” mit A und das Ereignis “Test richtig” mit B. Dann ist das Ereignis C =“positiv auf Vogelgrippe getestet” gegeben durch C = (A ∩ B) ∪ (Ac ∩ B c ) Offenbar gilt P (A ∩ B) = x × 0.99 und P (Ac ∩ B c ) = (1 − x) × 0.01 Insbesondere ist P (C) ≥ 1%, unabh¨angig vom tats¨achlichen Wert von x. Angenommen nun, eine Versuchsperson sei positiv getestet worden. Wie wahrscheinlich ist es, dass sie auch krank ist? Dazu m¨ ussen wir P (A|C) berechnen. Nach der Formel von Bayes ist dann
3.1 Bedingte Wahrscheinlichleiten P (A) P (C ∩ A) P (A ∩ B) = = P (C) P (C) P (C) x × 0.99 . = x × 0.99 + (1 − x) × 0.01
P (A|C) = P (C|A)
47
(3.8)
Wenn x 1 ist, dann ist im wesentlichen P (A|C) = 100P (A) 1, d.h. der Test hat eigentlich keine neue Information gebracht, bzw. fast alle positiv getesteten erweisen sich im Nachhinein als gesund.... Beispiel 2. (Gewinnen mit bedingter Wahrscheinlichkeit). Ein sch¨ones Beispiel, das zeigt wie man Nutzen aus der Kenntnis des Konzepts der bedingten Wahrscheinlichkeit ziehen kann, ist folgendes Spiel. Spieler A schreibt zwei Zahlen, auf je einen Zettel. Dann wirft er eine faire M¨ unze und zeigt je nach Ausgang des Wurfs entweder den einen oder den anderen Zettel Spieler B. Nennen wir die gezeigte Zahl im folgenden x und die versteckte Zahl y. Die Aufgabe von Spieler B besteht darin, zu erraten, ob x > y oder ob x < y. Spieler A bietet eine Wette mit Quote 1 : 2 an. Soll Spieler B die Wette annehmen? Die Antwort auf die Frage ist ja, und zwar weil Spieler B tats¨achlich in der Lage ist, die richtige Antwort mit einer Wahrscheinlichkeit vom mehr als 1/2 zu geben. Dazu muss er sich nur eine geschickte Strategie ausdenken! Eine solche Strategie sieht so aus: Spieler B zieht gem¨aß einer Gaußverteilung N (0, 100) eine Zufallszahl, Z. Nun vergleicht er x mit Z: Wenn x < Z, so r¨ at er x < y, wenn x ≥ Z r¨at er y < x. Berechnen wir nun die Wahrscheinlichkeit, dass B richtig r¨at. Offenbar hat B genau dann richtig geraten, wenn folgendes Ereignis C eintritt: C ≡ {x < y} ∩ {x < Z} ∪ {y < x} ∩ {x ≥ Z}. Da C die Vereinigung zweier disjunkter Ereignisse ist, gilt P [C] = P [{x < y} ∩ {x < Z}] + P [{y < x} ∩ {x ≥ Z}]
= P [{x < y}|{x < Z}]P [{x < Z}] + P [{y < x}|{x ≥ Z}]P [{x ≥ Z}]
Schauen wir uns nun beide Terme an. Offenbar k¨onne wir das Ereignis {x < Z} nochmals in zwei disjunkte Ereignisse zerlegen, n¨amlich {x < Z} = {x < Z} ∩ {y < Z} ∪ {x < Z} ∩ {y ≥ Z}. Damit wird P [{x < y}|{x < Z}] = P [{x < y}|{x < Z} ∪ {y < Z}]P [{y < Z}|{x < Z}]
+ P [{x < y}|{x < Z} ∪ {y ≥ Z}]P [{y ≥ Z}|{x < Z}].
48 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße Nun wird im zweiten Term gerade auf das Ereignis {x < Z ≤ y} bedingt, was aber das Ereignis {x < y} impliziert. Also ist P [{x < y}|{x < Z} ∪ {y ≥ Z}] = 1. Im ersten Term dagegen sagt die Bedingung {x < Z} ∪ {y < Z} nichts u altnis von x und y aus, die Ereignisse sind unab¨angig, und ¨ ber das Verh¨ P [{x < y}|{x < Z} ∪ {y < Z}] = P [{x < y}] = 1/2. Damit ist P [{x < y}|{x < Z}] =
1 P [{y < Z}|{x < Z}] + P [{y ≥ Z}|x < Z}], 2
und 1 P [{y < Z} ∩ {x < Z}] 2 + P [{y ≥ Z} ∩ {x < Z}].
P [{x < y}|{x < Z}]P [{x < Z}] =
Genauso schliesst man, dass 1 P [{y > Z} ∩ {x ≥ Z}] 2 + P [{y < Z} ∩ {x ≥ Z}].
P [{y < x}|{x ≥ Z}]P [{x ≤ Z}] = Wenn wie dies aufaddieren, erhalten wir
P [C] = P [{x < Z ≤ y}] + P [{y < Z ≤ x}] 1 + [P [{y < Z}|{x < Z}] + P [{y > Z} ∩ {x ≥ Z}]] 2 1 = [P [{min(x, y) < Z ≤ max(x, y)}]] 2 1 + P [{min(x, y) < Z ≤ max(y, y)}] 2 +P [{y < Z}|{x < Z}] + P [{y > Z} ∩ {x ≥ Z}]
Hier haben wir benutzt, dass die Vereinigung der zwei sich gegenseitig ausschliessenden Ereignisse {x < Z ≤ y} und {y < Z ≤ x} gerade das Ereignis {min(x, y) < Z ≤ max(x, y)} ergibt. Nun ist die Summe der Ausdr¨ ucke im zweiten Term gerade gleich eins, da Z ja entweder zwischen x und y, oder u ¨ ber, bzw. unter beide Fallen muss. Damit ist Z max(x,y) 1 1 1 z2 P [C] = + √ exp − > 1/2, (3.9) 2 2 2πσ min(x,y) 200 wie behauptet.
3.2 Unabh¨angige Zufallsvariablen
49
3.2 Unabh¨ angige Zufallsvariablen Wir betrachten wieder einen Wahrscheinlichkeitsraum (Ω, F , P ). Es seien X1 , X2 zwei Zufallsvariablen (messbare Funktionen) auf (Ω, F ). Wir wollen nun den Begriff der von einer Zufallsvariablen erzeugten σ-Algebra einf¨ uhren. Definition 3.2.1 Sei (Ω, F ) ein Messraum, und f : Ω → R eine messbare Funktion. Sei σ(f ) die kleinste Unter-σ-Algebra von F mit der Eigenschaft dass f bez¨ uglich σ(f ) messbar ist. Wir sagen σ(f ) sei die von f erzeugte σ-Algebra. Die σ-Algebra σ(f ) kann wie folgt konstruiert werden: Es sei f −1 (B) die Menge aller Urbilder von Elementen der Borel’schen σ-Algebra. Dann ist σ(f ) die kleinste σ-Algbra, die f −1 (B) enth¨alt. Es ist klar, dass σ(f ) f −1 (B) enthalten muss, damit f messbar wird. Andererseits stellt dies die Messbarkeit auch sicher. Definition 3.2.2 Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum, und seien X1 , X2 Zufallsvariablen. X1 und X2 heissen unabh¨angig, wenn folgendes gilt: F¨ ur jedes Paar von Ereignissen A ∈ σ(X1 ), B ∈ σ(X2 ) mit P (A) > 0, P (B) > 0 gilt P (A|B) = P (A). Wir sagen in diesem Fall auch: X1 ist unabh¨angig von der σ-Algebra σ(X2 ). Das folgende Lemma gibt eine alternative Definition der Unabh¨angigkeit. Lemma 3.2.1 Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum, und seien X1 , X2 unabh¨angige Zufallsvariablen. Seien R g1 , g2 messbare Funktionen von (R, B) nach (R, B). Es seien ferner Ω |gi (Xi )|dP < ∞. Dann gilt Z Z Z g1 (X1 )g2 (X2 )dP = g1 (X1 )dP g2 (X2 )dP (3.10) Ω
Ω
Ω
Beweis. Es seien zun¨ achst gi ≥ 0. der entscheidende Punkt ist die Beobachtung, dass gi (Xi ) : Ω → R bez¨ uglich σ(Xi ) messbar ist, da −1 (gi (Xi )) (B) = Xi−1 ◦ gi−1 (B) ⊂ Xi−1 (B) ⊂ σ(Xi ). Daher k¨onnen wir gi (Xi ) durch Folgen von σ(Xi )-messbaren einfachen Funktionen P hin = j hin,j 1IAin,j mit Ain,j ∈ σ(Xi ) approximieren, mit hin ↑ gi (Xi ). Dann ist aber
50 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße Z
Ω
h1n h2n dP =
X
j1 ,j2
=
X
h1n,j1 h2n,j2 P (A1n,j1 ∩ A2n,J2 ) h1n,j1 h2n,j2 P (A1n,j1 )P (A2n,J2 )
j1 ,j2
=
=
Z
X
Ω
(3.11)
j1
h1n,j1 P (A1n,j1 )
h1n dP
Z
Ω
X j2
h2n dP
h2n,j2 P (A2n,J2 )
Indem wir nun zum Grenzwert u ¨ bergehen erhalten wir das Resultat aus dem Satz von der monotonen Konvergenz. Der Fall allgemeiner Funktionen folgt durch die u ¨ bliche Zerlegung in positiven und negativen Teil. ¨ Ubung. Beweisen Sie den Umkehrschluss zu Lemma 3.2.1! Eine Eigenschaft, die der aus dem Lemma a¨hnlich sieht, aber deutlich schw¨ acher ist, ist die sogenannte Unkorreliertheit von Zufallsvariablen. Definition 3.2.3 Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum, und seien X1 , X2 unabh¨ angige Zufallsvariablen. X1 und X2 heissen unkorreliert, genau dann wenn gilt Z Z Z X1 X2 dP = X1 dP X2 dP (3.12) Ω
Ω
Ω
Offensichtlich ist die Unkorreliertheit viel leichter nachzupr¨ ufen als die Unabh¨ angigkeit. H¨ aufig wird erstere darum auch als wichtiges Indiz f¨ ur die Unabh¨ angigkeit benutzt. Allerdings muss man sich klarmachen, dass dieses Indiz keinesfalls schl¨ ussig ist. So seien X, Y zwei unabh¨angige, gleichverteilte Zufallsvariablen, und Z+ ≡ X + Y , Z− ≡ X − Y . Dann sind Z+ , Z− unkorreliert. Im allgemeinen sind sie aber nicht unabh¨angig. Dazu betrachten wir den Fall der Bernoulli Verteilung mit Parameter p = 1/2. Dann ist P (Z− = 0|Z+ = 2) = 1 aber
P (Z− = 0|Z+ = 0) = 0,
was sofort die Unabh¨ angigkeit falsifiziert. Wir werden sp¨ ater sehen, dass es genau eine Verteilungsklasse gibt, in der Unkorreliertheit zur Unabh¨angigkeit a¨quivalent ist, n¨amlich die Gaußverteilungen.
3.3 Produktr¨aume
51
3.3 Produktr¨ aume Unabh¨ angige Zufallsvariablen k¨onnen wir explizit konstruieren. Dazu betrachten wir zwei Wahrscheinlichkeitsr¨aume, (Ω1 , F1 , P1 ) und (Ω2 , F2 , P2 ) und messbare Funktionen f1 : Ω1 → R, f2 : Ω2 → R. Die Idee ist, einen Wahrscheinlichkeitsraum u ¨ ber dem Produktraum Ω1 × Ω2 zu konstruieren, bez¨ uglich dessen fi und f2 unabh¨angige Zufallsvariablen sind. Dazu f¨ uhren wir zun¨ achst die entsprechende σ-Algebra ein. Definition 3.3.1 Die Produkt-σ-Algebra, F1 ⊗ F2 , ist die kleinste σAlgbra, die alle Mengen, A, der Form C = A × B mit A ∈ F1 , B ∈ F2 enth¨ alt. Wir nenne Mengen der Form A × B gelegentlich Rechtecke, obwohl das etwas irref¨ uhrend ist. Man beachte, dass die Menge aller Rechtecke ein durchschnittsstabiler Erzeuger der Produkt-σ-Algebra ist, da (A1 × B1 ) ∩ (A2 × B2 ) = (A1 ∩ A2 ) × (B1 ∩ B2 ). Der n¨ achste Schritt ist die Konstruktion eines W -Maßes auf (Ω1 × Ω2 , F1 ⊗ F2 ) f¨ ur das die Unter-σ-Algebren F1 × Ω2 und F2 × Ω1 unabh¨ angig sind. Sei C ∈ F1 ⊗ F2 . F¨ ur jedes x ∈ Ω1 und jedes y ∈ Ω2 f¨ uhren wir die Mengen Cx ≡ {y ∈ Ω2 : (x, y) ∈ C}
(3.13)
C y ≡ {x ∈ Ω1 : (x, y) ∈ C}
(3.14)
und
ein. Entsprechend definieren wir auch f¨ ur jede messbare Funktion f auf Ω1 × Ω2 f¨ ur jedes x ∈ Ω1 die Funktion fx (y) ≡ f (x, y) und f¨ ur jedes y ∈ Ω2 die Funktion f y (x) ≡ f (x, y). Dann gilt folgendes: Lemma 3.3.1 Mit den Definitionen von oben gilt: (i) F¨ ur jedes C ∈ F1 ⊗ F2 und x ∈ Ω1 , y ∈ Ω2 ist Cx ∈ F1 und C y ∈ F2 . (ii) F¨ ur jede messbare Funktion, f : Ω1 ⊗ Ω2 → G, und x ∈ Ω1 , y ∈ Ω2 ist fx messbar bez¨ uglich F1 und f y messbar bez¨ uglich F2 . Beweis. Wir setzen C ≡ {C ∈ F1 ⊗ F2 : Cx ∈ F2 }. Dann enth¨ alt C sicher die einfachen Mengen A × B, denn entweder ist dann x ∈ A, und Cx = B, oder x 6∈ A, und Cx = ∅. Beidesmal ist
52 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße Cx ∈ F2 . Nun kann man andererseits leicht nachweisen, dass C eine σAlgebra ist. Da dies aber den Erzeuger von F1 ⊗ F2 enth¨alt, andererseits per Konstruktion nicht gr¨ osser als F1 ⊗ F2 ist, muss C = F1 ⊗ F2 gelten. Weiter ist f¨ ur jede messbare Menge D ⊂ R,
fx−1 (D) = {y ∈ Ω2 : fx (y) ∈ D} = {y ∈ Ω2 : f (x, y) ∈ D} (3.15) = {y ∈ Ω2 : (x, y) ∈ f −1 (D)} = (f −1 (D))x ,
die aber nach (i) in F2 liegt. Damit ist das Lemma bewiesen. Theorem 3.3.2 Seien P1 , P2 Wahrscheinlichkeitsmaße auf (Ω1 , F1 ), bzw. (Ω2 , F2 ). (i) Dann existiert ein einziges Wahrscheinlichkeitsmaß, P ≡ P1 ⊗ P2 , genannt das Produktmaß, auf der Produkt-σ-Algebra, F1 ⊗ F2 , mit der Eigenschaft, dass f¨ ur alle A ∈ F1 und B ∈ F2 P1 ⊗ P2 (A × B) ≡ P1 (A)P2 (B),
(ii) Wenn C ∈ F1 ⊗ F2 , so gilt dass Z Z P1 ⊗ P2 (C) P2 (Cx )P1 (dx) = Ω1
P1 (C y )P2 (dy)
(3.16)
(3.17)
Ω2
Beweis. Die erste Aussage des Satzes folgt aus der Tatsache, dass die Mengen den Form A × B ein durchschnittstabiles Mengensystem bilden und F1 ⊗ F2 erzeugen. Um die zweite Aussage zu beweisen, setzen wir zun¨achst f¨ ur C ∈ F1 ⊗ F2 Z P (C) ≡
P2 (Cx )P1 (dx).
(3.18)
Ω1
Dies ist wohldefiniert, wenn P2 (Cx ) messbar bez. F1 ist. In der Tat ist zun¨ achst P2 (Cx ) wohldefiniert, da Cx ∈ F2 wegen Lemma 3.3.1. Setzen wir nun G ≡ {C ∈ F1 ⊗ F2 : P2 (Cx ) ist F1 − messbar}.
(3.19)
F¨ ur einfache Mengen C = A × B gilt, dass P2 (Cx ) = 1IA (x)P2 (B), was offenbar eine F1 -messbare Funktion ist. Daher sind alle solchen Mengen in G enthalten. Wir zeigen noch, dass G ein Dynkin-System ist. Wir wissen schon, dass Ω1 × Ω2 ∈ G. Ferner sieht man aus der Definition, dass (C c )x = (Cx )c , und so P2 ((C c )x ) = 1 − P2 (Cx ), so dass mit C auch C c ∈ G. Weiter ist, wenn Ci ∈ G eine abz¨ahlbare Familie disjunkter Mengen sind, (∪i Ci )x = ∪i (Ci )x ,
3.3 Produktr¨aume
53
wobei auch die (Ci )x paarweise disjunkt sind. Mithin ist wegen der σAdditivit¨ at X P2 [(∪i Ci )x ] = P2 [(Ci )x ] , i
was als abz¨ ahlbare Summe messbarer Funktionen ebenfalls messbar ist. Damit ist (∪i Ci )x ∈ G, und G ist ein Dynkin-System dass den durchschnittstabilen Erzeuger von F1 ⊗F2 enth¨alt. Also ist G = F1 ⊗F2 . Damit aber sind alle Funktionen P2 (Cx ) messbar bez¨ uglich F1 , und P (C) ist durch (3.18) wohldefiniert. Wir sehen auch, dass, wenn C = A × B ist, Z P (A × B) = P2 (B) 1IA (x)P1 (dx) = P2 (B)P1 (A).
Es bleibt zu zeigen, dass m ein Wahrscheinlichkeitsmass ist. Wir haben aber schon gesehen, dass f¨ ur disjunkte Familien Ci , i ∈ N, Z X XZ P (Ci ), P2 ((Ci )x )P1 (dx) = P (∪i Ci ) = P2 ((∪i Ci )x )P1 (dx) = i
i
d.h. m ist σ-additiv. Da auch P (Ω1 × Ω2 ) = 1 gilt, ist m ein W-Maß auf unserem Produktraum, dass der Bedingung (i) des Satzes gen¨ ugt. Damit ist die Existenz gezeigt. Die alternative Formel in der rechten Seite von (3.17) beweist man in v¨ ollig gleicher Weise, und die Gleichheit beider Ausdr¨ ucke folgt aus der schon bewiesenen Eindeutigkeit.
Der Punkt ist nun, dass, wenn fi Zufallsvariablen auf (Ωi , Fi ), i = 1, 2, sind, dann sind f1 und f2 unab¨angige Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω1 × Ω2 , F1 ⊗ F2 , P1 ⊗ P2 ) sind. Dies ist die kanonische Konstruktion von unabh¨angigen Zufallsvariablen. Es ist offensichtlich, dass durch Iteration die obige Konstruktion auf beliebige endliche Produkte von Wahrscheinlichkeitsmaßen ausgedehnt werden kann. Beispiel. Wir betrachten das Werfen von n M¨ unzen. Der Zustandsraum jeder M¨ unze ist Ωi = {0, 1}. Dann ist der Zustandsraum der n W¨ urfe n Ω1 ×· · ·×Ωn = {0, 1} . Jede einzelne M¨ unze hat eine Bernoulliverteillung mit Parameter p. Die Zufallsvariablen X1 , . . . , Xn , wo Xi (ω1 , . . . , ωn ) = ωi sind dann unter dem n-fachen Produktmaß dieser Bernoulliveteilung unabh¨ angig (und gleichverteilt). Beispiel. Sei Ω = R, dann ist der Rn ein Produktraum mit B n der Produkt-Borel-σ-Algebra. Das Gauß’sche Maß mit Dichte ! n X x2i 1 Q exp − 2σi2 (2π)n/2 ni=1 σi i=1
54 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße auf Rn is dann ein Produktmaß. Die Koordinaten des Vektors X = (x1 , . . . , xn ) sind dann unabh¨ angige Zufallsvariablen. Unabh¨ angige Zufallsvariablen sind ein wesentlicher Baustein der Wahrscheinlichkeitstheorie. Vielfach wird im all¨aglichen Sprachgebrauch der Begriff Unabh¨ angigkeit mit dem der Zuf¨alligkeit gleichgesetzt. So geht man stillschweigend davon aus, dass die sukzessiven Ausg¨ange eines Roulettspiels unabh¨ angig sind, und wird dies als den zuf¨alligen Charakter des Spiels betrachten.
3.4 Der Satz von Fubini Eines der wichtigsten Hilfmittel zur Berechnung komplizierter Integrale auf Produktr¨aumen ist die Vertauschung der Integrationsreihenfolge. Bedingungen die solche Operationen erlauben sind durch ein nach Guido Fubini (19. 01. 1879 – 6. 06. 1943) benanntes Theorem gegeben. Wir beginnen zu¨achst mit dem Fall positiver Funktionen. Theorem 3.4.3 [Fubini-Tonnelli] Seien P1 , P2 zwei W-Maße auf den Messr¨aumen (Ω1 , F1 ), bzw. (Ω2 , F2 ), und sei f eine reellwertige, positive, messbare Funktion auf (Ω1 × Ω2 , F1 ⊗ F2 ). Dann sind die Funktionen Z f (x, y)P2 (dy) h(x) ≡ Ω2
und g(y) ≡
Z
f (x, y)P1 (dx) Ω1
messbare bez¨ Z uglich F1 bzw. F2 , und Z es gilt Z f d(P1 ⊗ P2 ) = hdP1 = Ω1 ×Ω2
Ω1
gdP2
(3.20)
Ω2
Beweis. Wir beginnen mit den Messbarkeitsaussagen. F¨ ur C ∈ F1 ⊗ F2 und f = 1IC ist haben wir bereits im Beweis von Theorem 3.3.2 gesehen, dass Z h(x) =
und
g(x) =
f P2 (dy) = P2 (Cx )
Z
f P1 (dx) = P1 (C y )
3.4 Der Satz von Fubini
55
messbar sind wir behauptet. Wegen der Linearit¨at des Integrals folgt dann dasselbe f¨ ur jede einfache Funktion. Schliesslich stellen wir jede messbare positive Funktion als monotonen Limes von einfachen Funktionen dar und schliesst daraus das Resultat im allgemeinen Fall. Teil (ii) der Aussage ist im Fall wo f Indikatorfunktion ist schon Teil des Theorems 3.3.2. Wieder folgt der Fall einfacher Funktionen aus der Linearit¨ at und der allgemeine Fall durch Approximation durch monotone Folgen von einfachen Funktionen und der (zweifachen) Anwendung des Satzes von der monotonen Konvergenz.
Als n¨ achstes betrachten wir den Fall allgemeiner messbarer Funktionen. Theorem 3.4.4 [Fubini-Lebesgue] Sei f : (Ω1 ×Ω2 , F1 ⊗F2 ) → (R, B(R)) absolut integrierbar bez¨ uglich des Produktmasses P1 ⊗ P2 . Dann ist (i) f (x, y) f¨ ur P1 -fast-alle x absolut integrierbar bez¨ uglich P2 , und umgekehrt. R R (ii) Die Funktionen h(x) ≡ Ω2 f (x, y)P2 (dy), bzw. g(y) ≡ Ω1 f (x, y)P1 (dx) sind wohldefiniert, ausser m¨oglicherweise auf Mengen vom Maß null bez. P1 , bzw. P2 , und absolut integrierbar bez¨ uglich dieser Maße. (iii) Es gilt, dass Z Z Z f d(P1 ⊗ P2 ) = h(x)P1 (dx) = g(y)P2 (dy) (3.21) Ω1 ×Ω2
Ω1
Ω2
Beweis. Indem wir den vorhergehenden Satz auf die Funktion |f | anwenden, erhalten wir, dass Z Z Z |f |d(P1 ⊗ P2 ) < ∞. |f (x, y)|P2 (dy) P1 (dx) = Ω1
Ω1 ×Ω2
Ω2
(3.22) Daher folgt, dass Ω2 |f (x, y)|P2 (dy) nur auf einer Menge vom P1 -Maß null nicht endlich sein kann. Hieraus folgt die erste Behauptung. Indem wir nun f in den positiven und negativen Teil zerlegen und wieder das Resultat von oben verwenden, finden wir sofort, dass h(x) und g(y) wie behauptet messbar sind (als Differenzen entsprechender messbarer Funktionen), wobei wir genau genommen diesen Funktionen einen beliebigen Wert, etwa 0 f¨ ur diejenigen x (bzw. y) zuschreiben muss, an denen die die absolute Integrierbarkeit nicht gilt. Da dies Nullmengen sind, spielen sie keine Rolle. R
56 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße Weiter ist Z Z |g(x)|P1 (dx) ≤ Ω1
Ω1
Z
Ω2
|f (x, y)|P2 (dy) P1 (dx) < ∞,
so dass auch die behauptete Integrierbarkeit bewiesen ist. Um schliesslich den Punkt (iii) zu beweisen gen¨ ugt es zu benutzen, dass Z Z Z f− d(P1 ⊗ P2 ) f+ d(P1 ⊗ P2 ) − f d(P1 ⊗ P2 ) = Ω1 ×Ω2
Ω1 ×Ω2
Ω1 ×Ω2
gilt, und den Satz von Fubini-Tonnelli auf beide Terme anzuwenden. Bemerkung. In beiden vorgehenden S¨atzen ist die Tatsache, dass wir es mit Wahrscheinlichkeitsmaßen zu tun haben nicht wesentlich. Sie gelten auch f¨ ur allgemeine σ-endliche Maße. Wenn man sich die Details des Beweises anschaut, sieht man, dass die absolute Integrierbarkeit von f wesentlich benutzt wird. Insbesondere ist andernfalls die Schlussfolgerung im Allgemeinen falsch. ¨ Ubung. Zeige, dass die Aussage des Satzes von Fubini f¨ ur die Funktion −2xy −xy f (x, y) = 2e −e auf R+ × R+ bez¨ uglich dem Lebesguemaß nicht zutrifft. Nochmal: Das zwei Zahlen Spiel. Wir kommen nun nochmal auf unser Spiel mit den zwei Zahlen zur¨ uck und beschreiben was wir getan haben in einem etwas formaleren Kontext. Gegeben sind zwei Zahlen, x0 < x1 , von denen eine, x bekannt ist. Ferner gibt es eine Bernoulli Zufallsvariable mit Parameter 1/2 definiert auf einem W-Raum (Ω1 F1 , P1 ). Die dem Spieler zug¨angliche Information ist nur die Zufallsvariable Y = xB . Ziel des Spiels ist es, B zu sch¨ atzen, d.h. eine neue Zufallsvariable zu konstruieren die nur von Y abh¨ angt und B voraussagen l¨asst. Dazu f¨ uhrt der Spieler einen neuen Wahrscheinlichkeitsraum (Ω2 , F2 , P2 ) ein, auf dem er eine Gauß’sche Zufallsvariable, Z konstruiert. Nun betrachten wir den Produktraum, (Ω1 × Ω2 , F1 ⊗, F2 , P ≡ P1 ⊗ P2 ). Auf diesem sind die Zufallsvariablen B und Z unabh¨ angig. Die Strategie des Spielers besteht nun darin, auf diesem Produktraum eine Zufallsvariable, A, zu konstruieren, deren Wert nur von (den dem Spieler bekannten Werten von )Z und Y abh¨angt ist, die aber mit B positiv korreliert in dem Sinne, dass P (A = B) > 1/2.
3.5 Unendliche Produkte
57
Die Wahl von A ist A ≡ 1IZ 2
≥ x0 } ∩ {B = 0}) 1 . (3.23) 2
Im zweiten Schritt haben wir dabei benutzt dass B und Z unabh¨angig sind, un die letzte Ungleichung folgt, das die Intervalle (−∞, x1 ) und [x0 , ∞) nicht-leeren Durchschnitt dessen P2 -Maß positiv ist, und R abdecken.
3.5 Unendliche Produkte Nat¨ urlich w¨ urden wir letztlich gerne von der Verteilung von “beliebig”, also “unendlich” vielen Zufallsexperimenten, etwa M¨ unzw¨ urfen, sprechen. Ist das wirklich so schwierig? Wr k¨onnten zun¨achst geneigt sein, diese Frage zu verneinen. Nehmen wir dazu als einfache R¨aume Ωi endliche Mengen (etwa Ωi = {0, 1}). Die Frage ist dann, was die geeigneQ te σ-Algebra f¨ ur den unendlichen Produktraum ∞ i=1 Ωi sein soll. Wir k¨ onnten uns vorstellen, wie im Falle endlicher Produkte, die Potenzmenge zuw¨ ahlen. Ein wenig Nachdenken sollte uns aber skeptisch stimmen: es ist ja bekanntlich so, dass der Raum {0, 1}N isomorph zu dem Intervall [0, 1] ist (bekanntlich via der Abbildung ω ≡ (ω1 , . . . , ωn . . . ) → P∞ −i+1 urden wir ); insbesondere ist stets ΩN u ¨ berabz¨ahlbar. W¨ i=1 ωi 2 also einen Wahrscheinlichkeitsraum u ¨ ber ΩN mit der σ-Algebra der Potenzmenge konstruieren, so h¨ atten wir implizit dasselbe f¨ ur die reellen Zahlen getan, was aber auf die bekannten Schwierigkeiten stossen muss. W¨ ur m¨ ussen also davon ausgehen, dass wir eine kleinere σ-Algebra konstruieren m¨ ussen, ¨ ahnlich der Borel σ-Algebra im reellen Fall (in der Tat k¨ onnte wir dies sogar via obiger Abbildung genau so tun). Wir wollen uns bei unserem Vorgehen aber lieber von praktischen Erw¨ agungen leiten lassen. Nun ist es ja so, dass wir auch wenn wir unendlich viele M¨ unzw¨ urfe durchf¨ uhren wollen, uns stets zun¨achst f¨ ur den
58 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße Ausgang der ersten n davon interessieren, d.h. wie betrachten zun¨achst jeweils nur endlich viele auf einmal. Das heisst, dass unsere σ-Algebra sicher alle endlichen Produkte von Elementen der σ-Algebren der einfachen Mengen Ωi enthalten soll. Wir k¨onnen uns ohne weiteres auf den Standpunkt stellen, dass ausser diesen nur das Unvermeidliche noch daQ zugenommen werden soll, also dass die σ-Algebra B( i Ωi ) gerade die von diesen Mengen erzeugte σ-Algebra sein soll. b ≡ QN Ωi Definition 3.5.1 Seien (Ωi , Fi ), i ∈ N, Messr¨aume, und sei Ω i=1 der unendlich Produktraum. Dann definieren wir die Produkt-σ-Algebra, b u b als die kleinste σ-Algebra, die all Teilmengen von Ω b der Form F, ¨ber Ω A = ⊗i∈I Ai
(3.24)
mit Ai ∈ Fi und I = (j1 , . . . , jk ) ⊂ N, k ∈ N enth¨alt. Die Mengen A der Form (3.24) heissen Zylindermengen. Definition 3.5.2 Seien (Ωi , Fi , Pi ) Wahrscheinlichkeitsr¨aume. Dann deQ b F ) dadurch, finieren wir das unendliche Produktmaß, Pb ≡ i Pi , auf Ω, dass f¨ ur alle Zylindermengen A = ⊗Ai , Y Pb(A) = Pi (Ai ). (3.25) i∈I
Die Produkt-σ-Algebra enth¨alt eine ¨ausserst reiche Klasse von Mengen, jedoch ist sie wieder, und zwar selbst in dem Fall, dass Ω endlich ist, kleiner als die Potenzmenge. In der Tat ist sie ihrer Natur nach der Borel’schen σ-Algebra vergleichbar. In der Tat gilt folgender Satz, den wir hier aber nicht beweisen wollen. Theorem 3.5.5 Seien Ωi , i ∈ N, metrische R¨aume (etwa Ωi = R), und B(Ωi ) die zugeh¨origen Borel’schen σ-Algebren. Dann kann der unendlie ≡ ⊗i Ωi mit einer Metrik versehen werden, so dass che Produktraum Ω b ist, d.h. es ist die Produkt-σ-Algebra die Borel’sche σ-Algebra bez¨ uglich Ω die von den offenen Mengen bez¨ uglich der metrischen Topologie erzeugte σ-Algebra.
In anderen Worten, die Produkt-σ-Algebra enth¨alt alle offenen Mengen (und somit auch alle abgeschlossenen Mengen) bez¨ uglich der Prob F¨ duktopologie auf Ω. ur unsere Zwecke heisst das letztlich einfach: keine Angst vor unendlichen Produktr¨aumen, sie sind nicht schlimmer als die reellen Zahlen. P∞ ¨ Ubung. Benutze den Isomorphismus I : {0, 1}N → [0, 1], I(ω) = i=1 ωi 2−i und das Beispiel einer nicht-Borel’schen Menge aus Kapitel 2, um eine
3.6 Summen von unabh¨angigen Zufallsvariablen
59
Menge in {0, 1}N zu konstruieren, die nicht in der Produkt-σ-Algebra enthalten ist. Wir k¨ onnen mittels der Konstruktion unendlicher Produktr¨aume nun unendliche Folgen von Zufallsvariablen konstruieren. Definition 3.5.3 Sei (Ω, F , P) ein Wahrscheinlichkeitsraum. Dann heisst eine messbare Abbildung, f : (Ω, F ) → (RN , B(RN )) eine Zufallsfolge oder ein stochastischer Prozess (mit diskreter Zeit). Falls die Verteilung von f , P ◦ f −1 , ein Produktmaß auf (RN , B(RN )) ist, so heisst f eine Folge unabh¨angiger Zufallsvariablen. Sind die Verteilungen der Komponentenfunktionen dar¨ uber hinaus identisch, so heisst die Folge eine Folge unabh¨ angiger, identisch verteilter Zufallsvariablen. Unendliche Folgen unah¨ angiger Zufallsvariablen sind die wichtigsten Bausteine der Wahrscheinlichkeitstheorie. Mit ihrer Hilfe k¨onnen wir insbesondere die Folge der Ergebnisse von (beliebig oft) wiederholten identischen Zufallsexperimenten modellieren, also etwa wiederholte M¨ unzw¨ urfe, Roulettespiele, etc.
3.6 Summen von unabh¨ angigen Zufallsvariablen Ein weiter Teil der Wahrscheinlichkeitstheorie behandelt die Eigenschaften von Funktionen von unabh¨ angigen Zufallsvariablen. Insbesondere deren Summen, aber auch anderer, wie etwa der Maxima. In der Vorlesung werden wir uns im weiteren ebenfalls weitgehend darauf konzentrieren. Seien X1 , . . . , Xn unabh¨ angige Zufallsvariablen mit Verteilung P. Eine naheliegende Frage ist, was ist die Verteilung der Zufallsvariablen Sn ≡
n X
Xi
i=1
Beispiel. Seien Xi unabh¨ angige Bernoulli Variablen mit Parameter p. In diesem Fall k¨ onnen wir die Verteilung von Sn elementar kombinatorisch bestimmen: P(Sn = k) =
(3.26)
P(“k der Variablen nehmen den Wert 1 an, alle anderen den Wert 0”) Also ist
60 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße X
P(Sn = k) =
(i1 ,...,ik )⊂(1,...,n)
=
P(∀kj=1 Xij = 1, ∀l6∈ i1 , . . . , ik Xl = 0)
n k p (1 − p)n−k , k
(3.27)
d.h. Sn is Bernoulli verteilt mit Parametern n, p. Also? Wir k¨ onnen solche Verteilungen hinschreiben, aber wir wollen ja irgendetwas sinnvolles dar¨ uber sagen. Das kann nur bedeuten, dass wir nach allgemein g¨ ultigen Eigenschaften suchen, die gelten, wenn n gross wird. Im Prinzip ist dabei die erste Idee, die Binomialkoeffizienten mit Hilfe der Stirling’schen Formel zu approximieren. Diese sagt, in der f¨ ur uns interessanten Form, dass √ √ 2πnn+1/2 e−n ≤ n! ≤ 2πnn+1/2 e−n (1 + 1/(12n − 1)). (3.28) Damit gilt r nn 1 n n n! =√ (3.29) = (n − k)!k! k 2π (n − k)k (n − k)n−k k k × (1 + O(1/n) + O(1/k) + O(1/(n − k))) s 1 1 nn = √ n−k (1 − k/n)n−k nk (k/n)k 2πn (1 − k/n)k/n n
× (1 + O(1/n) + O(1/k) + O(1/(n − k))) s n 1 1 1 (3.30) = √ 2πn (1 − k/n)k/n (1 − k/n)1−k/n (k/n)k/n × (1 + O(1/n) + O(1/k) + O(1/(n − k)))
(3.31)
Wir sehen, dass diese Absch¨ atzung nur gut ist, wenn neben n auch k und (n − k) gross werden. Allerdings brauchen uns die anderen Terme nicht weiter zu bek¨ ummern. Immerhin ist stets n! ≤ nk , (n − k)!k!
n! ≤ nn−k , (n − k)!k!
und somit P[Sn = k] ≤ min nk Daher haben wir:
k pk n (1 − p) n n−k (1 − p) , p n . (1 − p)k pk
(3.32)
3.6 Summen von unabh¨angigen Zufallsvariablen 61 √ √ Lemma 3.6.1 Sei 0 < p < 1, und sei k ≤ n, oder (n − k) ≤ n. Dann gibt es Konstanten Cp < ∞, cp > 0, so dass √ n
P[Sn = k] ≤ Cp e−cp n+ln n
.
(3.33)
Insbesonder ist lim P[{Sn ≤ n1/2 } ∩ {Sn ≥ n − n1/2 }] = 0. n↑0
(3.34)
Beweis. Der Beweis ist elementar aus (3.32). Wir m¨ uessen uns also in der Folge nur noch auf solche k konzentrieren, f¨ ur die n1/2 < k < n − n1/2 . Setzen wir dann noch k/n = x und all dies in die Formel (3.27) f¨ ur P(Sn = xn) ein, so ist ist s x n 1 p (1 − p)1−x 1 (3.35) P(Sn = nx) = √ 2πn (1 − x)x (1 − x)1−x (x)x ×O(1 + O(n−1/2 )) s 1 1 = √ exp (−nI(p, x)) 2πn (1 − x)x ×O(1 + O(n−1/2 ))
wobei I(p, x) = ln (x/p)x [(1 − x)/(1 − p)]1−x = x ln(x/p)+(1−x) ln((1−x)/(1−p))
¨ Folgende einfache Sachverhalte sind leicht nachzupr¨ ufen (Ubung!): (i) I(p, p) = 0 (ii) I(p, ·) is konvex und nimmt ihr einziges Minimum x = p an. 2 I(p,x) 1 = x1 + 1−x . (iii) ∂ ∂x 2
Wir sehen an den obigen Rechnungen, dass P(Sn = nx) nur dann nicht exponentiell klein in n wird, wenn x sehr nahe bei p liegt. Wir √ setzten daher x = p + y/ n. Genauer gesagt, ist in gr¨obster N¨aherung f¨ ur |x − p| > n−1/3− I(x, p) ≥ I(p + n−1/3 , p) ≥ und somit, analog zu Lemma (3.6.1), 1 lim P[{|Sn −pn| ≥ n2/3− }}] ≤ n √ n↑0 2πn
n−2/3−2 + Cn−1−3 , 2p(1 − p) s
1 exp −nn−2/3− ↓ 0. (1 − p)p (3.36)
62 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße Andererseits ist f¨ ur |x − p| ≤ n−1/3− I(x, p) =
(x − p)2 + O(n−1−3 ), 2p(1 − p)
so dass, f¨ ur |y| ≤ n−1/3− , und n1/2 y + np ∈ Z, s 1 1 −1/2 exp −nI(p, p + n−1/2 y) P(n (Sn − np) = y) = √ 2πn (1 − p)p ×(1 + O(n−1/2 ) 1 1 y2 p = √ exp − 2p(1 − p) 2πn (1 − p)p ×(1 + O(n−1/2 + O(n−3 )
Wir erkennen die Dichte der Gaußverteilung mit Varianz µ2 = (1 − p)p; der zus¨ atzliche Faktor n−1/2 ist die geeignete Normierung. Diese Rechnung liefert im wesentlichen das sogenannte De Moivre-Laplace Theorem, eine Version des zentralen Grenzwertsatzes.
3.6.1 Faltungen F¨ ur die Verteilungsfunktion der Summe zweier unab¨angiger Zufallsvariablen ergibt sich in einfacher Weise der folgende Ausdruck: Seien FX , FY , FX+Y die Verteilungsfunktionen der jeweiligen Variablen, dann ist Z Z FX+Y (a) = FX (a − Y )dP(Y ) = FY (a − X)dP(X). (3.37) Wir schreiben FX+Y = FX ? FY . Im Fall dass die Zufallsvariablen X und Y Verteilungen mit Dichten fX , fY haben, so pr¨ uft man leicht nach, dass Z fX+Y (z) = fX (x)fY (z − x)dx (3.38) gilt. Man kann sich die Frage stellen, ob es Typen von Verteilungen gibt, die unter der Faltungsoperation invariant bleiben. Solche Verteilungen nennt man stabil. Wir werden diese Frage hier nicht im allgemeinen untersuchen, sondern nur zwei (wichtige) Beispiele betrachten. Theorem 3.6.2 Seien X, Y zwei unabh¨angige Gauß’sche Zufallsvariablen mit Varianz σ12 , σ22 und Mittelwerten m1 , m2 . Dann ist X +Y Gaußverteilt mit Mittelwert m1 + m2 und Varianz σ12 + σ22 .
3.6 Summen von unabh¨angigen Zufallsvariablen
63
Beweis. Zum Beweis benutzen wir die Formel (3.38) f¨ ur die Dichte der Faltung. Der das Verhalten des Mittelwertes trivial ist, nehmen wir der Einfachheit halber beide Variablen mit Mittelwert 0. Wir sehen dass Z ∞ 1 x2 (z − x)2 fX+Y (z) = − 2 dx exp − (3.39) 2πσ1 σ2 −∞ 2σ22 2σ1 Nun benutzen wir nur noch, dass z2 x2 z 2 σ12 + x2 (σ12 + σ22 ) − 2xzσ12 + = σ22 σ12 σ22 σ12 2 σ14 zσ12 + (σ12 + σ22 ) x − σ2 +σ z 2 σ12 − σ2 +σ 2 2 1 2 1 2 = σ12 σ22 2 zσ12 2 2 (σ + σ ) x − 2 2 2 1 2 z σ1 +σ2 = 2 + σ1 + σ22 σ12 σ22 Wenn wir diese Gleichung in (3.39) einsetzten und die Integration u ¨ ber x ausf¨ uhren, erhalten wir wie behauptet die Dichte einer Gaußverteilung mit Varianz σ12 + σ22 . Corollary 3.6.3 Seien Xi , i ∈ N unabh¨angige Gauß’sche Zufallsvariablen mit Varianz σ 2 und Mittelwert 0. Dann hat n−1/2 (X1 + · · · + Xn ) dieselbe Verteilung wie X1 .
3.6.2 Die Irrfahrt Gerne betrachten wir eine leichte Abwandlung der Summe Sn : Wir w¨ahlen statt der Bernoulli-Variablen Xi die (manchmal1 ) sogenannten Rademacher Variablen, Yi , mit der Eigenschaft, dass P[Yi = 1] = 1 − P[Yi = −1] = p, wobei der Fall p = 1/2 von besonderem Interesse ist. In diesem Fall nennen wir die Folge von Zufallsvariablem Sn =
n X
Yi
i=1
die einfache (falls p = 1/2 symmetrische) Irrfahrt auf Z. Beachte dass die Folge Sn , n ∈ N selbst wieder eine Zufallsfolge ist, allerdings nat¨ urlich 1
Oft werden auch die folgenden Rademacher Variablen als Bernoulli Variablen bezeichnet.
64 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße 0.25 100
200
300
400
-0.25 -0.5 -0.75 -1
Fig. 3.1. Eine Realisierung der symmetrischen Irrfahrt.
keine unabh¨ angigen. Sn ist unser erster stochastische Prozess neben unabh¨ angigen Zufallsvariablen. Das Interesse an Sn ist in nat¨ urlicher Weise dadurch begr¨ undet, dass es die Entwicklung des Gewinns (oder Verlustes) eines Spielers darstellt, der wiederholt auf den Ausgang von M¨ unzw¨ urfen wettet und dabei jeweils einen festen Betrag, 1, setzt, wobei die Bank ihm im Gewinnfalle den doppelten Betrag auszahlt (D.h., die Bank bewertet das Spiel so, als w¨ are die M¨ unze fair, also p = 1/2). Unser Formalismus, d.h. die Modellierung von wiederholten Spielen durch unabh¨ angige Zufallsvariablen, erlaubt es uns nun nicht nur einzelne Spiele, sondern ganze Folgen von Spielen zu analysieren. An dieser Stelle ist es vielleicht interessant, zwei Beispiele von Resultaten, die wir damit erhalten k¨ onnen zu betrachten. Beispiel 1: Strategien. Ein Spieler k¨onnte versuchen, seine Gewinnchancen in einer Folge von Spielen zu verbessern, indem er in irgendeiner Weise statt immer auf Kopf zu setzen, wahlweise auf Kopf oder Zahl setzt. Eine solche Strategie ist dann gegeben durch eine Folge ai ∈ {0, 1}, i ∈ N. Gegeben eine solche Strategie ist die Auszahlung im i-ten Spiel r(i) ≡ 21IXi =ai − 1.
(3.40)
Es ist klar, dass wenn die Folge ai von vorneherein festgesetzt wird, dass die r(i) unabh¨ angige Rademachervariablen sind, der akkumulierte Gewinn also die gleiche Verteilung f¨ ur jede Wahl der Folge ai hat. Nun k¨ onnte aber der Spieler seine Strategie dem Spielverlauf anpassen, d.h. ak k¨ onnte als Funktion der Ausg¨ange der vorangegangenen Spiele gew¨ ahlt werden (etwa ai = Xi−1 ), d.h. ak = ak (X1 , . . . , Xk−1 ).
3.6 Summen von unabh¨angigen Zufallsvariablen
65
(Nat¨ urlich kann ak von Xk nur dann abh¨angen, wenn der Spieler betr¨ ugt (bzw. “Insiderwissen” hat)). Interessanterweise ist auch damit nichts gewonnen, und die Auszahlungen r(i) bleiben unab¨angige Rademachervariablen. Theorem 3.6.4 Sei ak , k ∈ N, eine Folge von bez¨ uglich der von den Zufallsvariablen X1 , . . . , Xk−1 erzeugten σ-Algebren (im weiteren Fk−1 genannt) messbaren Funktionen. Dann ist die durch (3.40) definierte Folge von Zufallsvariablen unab¨angig. Beweis. Wir m¨ ussen nur zeigen, dass die Zufallsvariable r(k) unabh¨angig von den durch die Zufallsvariablen r(1), . . . , r(k − 1) erzeugte σ-Algebra ist. Nun ist aber P[r(k) = 1|r(k − 1), . . . , r(1)] = P[Xk = ak |r(k − 1), . . . , r(1)] = 1/2 (3.41) da n¨ amlich unabh¨ angig davon, welchen (ggf. von den r(i) abh¨angigen) Wert ak (X1 , . . . , Xk−1 ) annehmen mag, die Wahrscheinlichkeit dass die von der σ-Algebra Fk−1 unabh¨angige Zufallsvariable Xk denselben annimmt gerade 1/2 ist. Genauso ist P[r(k) = −1|r(k − 1), . . . , r(1)] = P[Xk 6= ak |r(k − 1), . . . , r(1)] = 1/2 (3.42) was die Aussage beweist.
3.6.3 Strategien 2. Optionspreise. Wir kommen im Kontext der Irrfahrt wieder auf unser Problem der Bewertung von Wetten zu¨ uck. Dazu betrachten wir eine Summe, Sn , von unah¨ angigen Rademacher Zufallsvariablen, Yn , mit Parameter p. Diese stelle den Logarithmus des Wertes) einer Aktie zm Zeitpunkt n dar. Das heisst, der Kurs der Aktie ! n X Yi = exp(δSn ), Wn = exp δ i=1
wo δ > 0 ein Parameter ist. Eine (europ¨aische) Option ist eine Wette auf den Wert, SN (bzw WN ), zu einem festen Zeitpunkt N . Der Begeber der Option (etwa eine Bank) verpflichtet sich, dem Optionsinhaber, einen Betrag f (x) ≥ 0 auszuzahlen, wenn SN = x (aus Bequemlichkeit denken wir lieber an f als Funktion von SN ). Das Problem besteht darin, zu bestimmen, was der Wert der Option ist, d.h. was der niedrigste Preis,
66 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße V , ist, der es der Bank m¨ oglich macht, mit der Option die Option ohne Verlustrisiko verkauft werden kann. Bemerkung. Klassischen call bzw. put Optionen bestehen in dem Recht, zum Zeitpunkt N die Aktie zum Preis Wc zu kaufen, bzw. zum Preis Wp zu verkaufen. Man sieht, dass dies den Funktionen F (SN ) = (WN − Wc )+ , bzw. F (SN ) = −(Wp − WN )+ entspricht. Die Theorie der Optionspreisbewertung hat dazu gef¨ uhrt, dass auch viel “exotischere” Optionen angeboten werden. Dabei hofft der Optionsgeber, dem Kunden eine u ¨ berteuerte Option verkaufen zu k¨onnen. Wie ist das u oglich? Um risikofrei wetten zu k¨onnen, ¨berhhaupt m¨ m¨ ussen wir in der Lage sein, eine Zufallsvariable zu konstruieren, die mit Sicherheit gr¨ osser oder gleich dem Wert der Auzahlung der Option, f (SN ) ist. Genauer gesagt, die Bank verkauft die Option zum Preis V , und investiert einen Teil dieser Summe, a1 in die Aktie. Am n¨achsten Zeitpunkt, n = 2, hat sie dann das Kapital V1 = V0 − a1 + a1 eY1 δ ; von diesem wird wieder ein Teil, a2 in die Aktie investiert, und so weiter. Dann entwickelt sich ein Anfangskapital V0 mit der Zeit wie Vn = V0 +
n X i=1
ai (eδYi − 1)
wobei regelm¨ assig ai ≤ Vi−1 gelten soll. Wenn wir also die Option zum Preis V0 verkaufen, und sicherstellen k¨onnen, durch geeignete Wahl der ai VN ≥ f (SN ) zu erzielen, dann k¨onnen wir offenbar f (SN ) bezahlen, und haben sogar noch den Betrag f (SN ) − VN als Gewinn u ¨brig. Man bezeichnet eine solche Reproduktionsstragie auch gerne als “hedging”. Das so etwas m¨ oglich ist, wollen wir im einfachsten Fall, wo SN die gew¨ ohnliche Irrfahrt ist, nachpr¨ ufen. Dazu betrachten wir zun¨ achst den letzten Zeitschritt. Sei unser Kapital K und sei a die Menge des in die Aktie investierten Kapitals, und sei x der Preis der Aktie zur Zeit N − 1. Dann ¨andert sich unser Kapital in der Strategie um den Betrag a(e±δ − 1), wenn der Wert der Aktie sich andert. Andererseits ¨andert sich die Auszahlung der um den Faktor e±δ ¨ Option auf f (x ± 1). K¨ onnen wir c und a finden, so dass unsere Strategie aufgeht, d.h. das f (x + 1) = K + a(eδ − 1), Offenbar ja, mit
f (x − 1) = K + a(e−δ − 1)?
3.6 Summen von unabh¨angigen Zufallsvariablen
67
1 [f (x + 1) − f (x − 1)] / sinh δ 2 1 K = K(x) = [f (x + 1) + f (x − 1)] − a(cosh δ − 1) 2 1 − e−δ e+δ − 1 = δ f (x + 1) + δ f (x − 1) e − e−δ e − e−δ a = a(x) =
D.h., zum Zeitpunkt N − 1 be¨otigen wir ein Kapital K(x) um sicher zu sein, im Zeitpunkt N unsere Option bedienen zu k¨onnen. Daher ist der “Wert” der Option zur Zeit N − 1 gerade VN −1 = K(YN −1 ). Daher m¨ ussen wir im Zeitpunkt N −2 eine Strategie fahren, die uns sicherstellt, K(x) zur Zeit N − 1 zu haben, also wenn YN −2 = x, K(x ± 1) = VN −2 + an−1 (e±δ − 1). Iterativ folgt, dass 1 [Vj (x − 1) − Vj (x + 1)] / sinh δ 2 1 − e−δ e+δ − 1 Vj−1 (x) = δ V (x + 1) + V (x − 1) j j e − e−δ eδ − e−δ aj−1 (x) =
bis wir schliesslich V0 erreichen. Interessanterweise k¨ onnen wir das Schlussresultat in der Form V0 = Ep∗ F (SN )
(3.43) PN schreiben, wo Ep∗ die Verteilung der Zufallsvariablem SN = i=1 Xi ist, und Xi unabh¨ angige Rademachervariablen mit Parameter p∗ = Pp∗ (X1 = 1) =
1 − e−δ . eδ − e−δ
Wie man leicht zeigt, ist diese neue Verteilung dadurch charakterisiert, dass Ep∗ eδXi = 1 gilt. Die Formel (3.43) heisst die Black-Sholes Formel in der Optionspreistheorie. Der Wert der Option ist nat¨ urlich vom Aktienkurs zum Zeitpunkt n = 0, in unserem Modell als 1 gew¨ahlt, abh¨angig. Die Gr¨ossen Vj (x) sind die Werte der Option zum Zeitpunkt j, falls der Aktienkurs zu dieser Zeit gerade eδx ist. Wir k¨onnen diese darstellen als Vj (x) = Ep∗ [F (SN )|Sj = x]
(3.44)
Entsprechend haben wir auch f¨ ur die aj (x) einen expliziten Ausdruck
68 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße
1 (Ep∗ [F (SN )|Sj = x + 1] − Ep∗ [F (SN )|Sj = x + 1]) 2 sinh δ (3.45) Die Ausf¨ uhrung der Strategie geschieht also so, dass zu jedem Zeitpunkt j der Restwert der Option f¨ ur den aktuellen Kurs berechnet wird, und daraus der Anteil aj (Sj ), der in die Aktie investiert wird. Dann wird bis zum n¨ achsten Zeitpunkt gewartet, und so weiter. In unserem diskreten Modell stellt dies einen ganz erheblichen Rechenaufwand dar, und auch in der Praxis sind die numerischen Aspekte von Optionsbewertungen und “Hedging-Strategien” durchaus nicht trivial. aj (x) =
Bemerkung. Wir haben streng genommen bisher gezeigt, dass es g¨ unstig ist, eine Option f¨ ur einen Preis, P , gr¨osser als den durch (3.43) gegebenen Wert zu verkaufen, dann damit ein sicherer Gewinn, P − V0 , erzielt werden kann. Umgekehrt macht es aber auch Sinn eine Option f¨ ur jeden Preis P < V0 zu kaufen. Dazu kauft man die Option f¨ ur den Preis P (ggf. auf Kredit) und engagiert sich dann in Leerk¨aufen der Aktie, d.h. man “borgt” sich f¨ ur den Betrag an zum Zeitpunkt n Aktien. Man f¨ahrt also die gleiche Strategie wir vorher, aber mit einem Engagement von jeweils −an in der Aktie. Dies f¨ uhrt zum Zeitpunkt n zu einer Position −f (Sn ), die gerade durch die Auzahlung der Option ausgeglichen wird. Es bleibt der sichere Gewinn V0 − P u ¨ brig.
Bemerkung. Es mag auff¨ allig erscheinen, dass p∗ nicht vom urspr¨ unglichen Parameter p der Verteilung der Xi abh¨angt. Dies legt zun¨achst den Verdacht nahe, dass die Formel v¨ ollig sinnlos f¨ ur praktische Zwecke ist. Der Punkt ist jedoch, dass wir die Annahme gemacht haben, dass das nicht investierte Kapital mit einem Zinssatz Null verzinst wird. Tats¨achlich ist in der vollen Theorie die Verzinsung des Kapitals mit dem Wert von p gekoppelt (nach der These, dass die Zinsen am Kapitalmarkt mit dem Erwarteten Wachstum von Aktien zusammenh¨angen, was vielleicht nur bedingt zutrifft). Insofern ist implizit in unserer Rechnung der Einfachheit halber p = 1/2 angenommen. Auch sonst haben wir viele wichtige Effekte vernachl¨ assigt, insbesonder Transaktionskosten, und unser Modell f¨ ur Wn ist sehr unrealistisch. Tats¨achlich aber ist das Grundprinzip, das wir hier dargelegt haben, die Grundlage der modernen Optionspreistheorie.
3.6 Summen von unabh¨angigen Zufallsvariablen
69
3.6.4 Das Ruin-Problem Eine andere Form der Spielstrategie ist es, solange zu spielen, bis entweder ein festgesetzter Gewinn, G ≥ 0, oder Verlust, V ≤ 0, erreicht ist. Da notorische G¨ ucksspieler letzteren oft mit ihrem gesammten Anfangskapital gleichsetzten, wird dieser Fall gerne als “Ruin” des Spielers bezeichnet. In einem solchen Spiel k¨onnen wir die Frage stellen, wie wahrscheinlich es ist, dass die Spielfolge mit dem Ruin des Spielers endet. Wir sehen dass hier die Anzahl der Spiele nicht von vorherein feststeht, wir also wirklich eine Frage im unendlichen Produktraum {−1, 1}N stellen. Wie k¨ onnen wir das gesuchte Ereignis formal beschreiben: Dazu legen wir zun¨ achst den Wert, n, an dem das Spiel endet fest, und betrachten dann die Vereinigung u ¨ ber alle diese Werte. Wir setzen also n−1 An = {Sn = V } ∩k=1 {V < Sk < G}
und unser gesuchtes Ereignis ist A = ∪∞ n=1 An . Wir sehen sofort an der Konstruktion, dass A ∈ Fe ist. Es gibt allerdings eine in mancher Hinsicht einfachere Beschreibung desselben Ereignisses: A = {inf{n : Sn = V } < inf{n : Sn = G}} . Mathematisch formuliert sieht unsere Frage wie folgt aus: Was ist P[A]? Diese Frage sieht zun¨ achst nach einem a¨usserst u ¨ blen kombinatorischen Problem aus, gilt es doch alle M¨oglichen Sequenzen Sn auszuz¨ ahlen, die von Null ausgehend V vor G treffen!! Zum Gl¨ uck kann man sich das m¨ uhsame Z¨ ahlen sparen, wenn man geschickt vorgeht. Dazu machen wir zun¨ achst einmal die Abh¨angigkeit des Problems von den Parametern V und G explizit, und setzen A ≡ A(G, V ), und L(G, V ) ≡ P[A(G, V )]. Wir nehmen an, dass weder G noch V den Wert Null haben. Nun k¨ onnen wir zun¨ achst einmal in Gedanken das erste Spiel ausf¨ uhren. Mit Wahrscheinlichkeit von je 1/2 is nun das Kapital des Spielers gleich 1 oder −1. Sollte V = −1 sein, ist u ¨ berdies das Spiel beendet, und A ist eingetreten, w¨ ahrend im Falle G = 1 das Spiel ebenfalls beendet ist, das Ereignis A aber nicht eintraf. In allen Anderen F¨allen wird weitergespielt. Damit A eintritt, muss im weiteren Verlauf die Summe, S˜n = Sn − S1 , V − S1 vor G − S1 treffen. Daher erhalten wir die folgende Gleichung:
70 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße 1 1 1 1IV =−1 + L(G − 1, V − 1)1IV <−1 + L(G + 1, V + 1)1IG>1 2 2 2 (3.46) Dies k¨ onnen wir einfacher schreiben, wenn wir L(0, V ) = 0 und L(G, 0) = 1 setzen. Dann ist 1 1 L(G, V ) = L(G − 1, V − 1) + L(G + 1, V + 1) (3.47) 2 2 Es ist nicht schwer, die eindeutige L¨osung dieser Gleichung zu finden: L(G, V ) =
L(G, V ) =
G . G−V
(f¨ uhre neue Variablen Y = G−V und x = (G+V )/2 ein. Dann nimmt die Gleichung f¨ ur fY (x) ≡ L(G, V ) die Form fY (x) = 12 (fY (x−1)+fY (x+1) mit fY (Y /2) = 1, fY (−Y /2) = 0 als Randbedingungen an). ¨ Ubung. L¨ ose dasselbe Problem f¨ ur den Fall dass die Auszahlungsregel gleich bleibt, die tats¨ achlichen Wahrscheinlichkeiten f¨ ur Kopf bzw. Zahl aber p und 1 − p sind. 3.6.5 Das Arcussinusgesetz Ein interessantes, weil nicht intuitives Resultat u ¨ ber die einfache Irrfahrt ist das sogenannte Arcussinusgesetz. Wir betrachten wieder die Irrfahrt, P Sn = ni=1 Xi , wo Xi unabh¨ angige Rademachervariablen mit Parameter 1/2 sind. Die Frage, die wir uns stellen wollen ist die nach dem Verh¨altnis der Zeit die eine solche Irrfahrt positiv, bzw. negativ ist. Man sollte denken, dass mit grosser Wahrscheinlichkeit diese Zeiten in etwa gleich sind. Tats¨ achlich aber gilt der folgende Satz. Theorem 3.6.5 Sei Sn die einfache symmetrische Irrfahrt. Sei p2k,2n die Wahrscheinlichkeit, dass die Zahl der Male, dass Si ≤ 0, f¨ ur i ≤ 2n gerade 2k ist. Dann gilt 2k −2k 2n − 2k −2n+2k p2k,2n = 2 2 . (3.48) k n−k Beweis. Sei f2r die Wahrscheinlichkeit, dass die erste R¨ uckkehr der Irrfahrt nach 0 zur Zeit 2r passiert. Offenbar ist bis zu dieser Zeit Si entweder stets positiv, oder stets negativ. Beides tritt mit gleicher Wahrscheinlichkeit ein. Also haben wir p2k,2n
k n−k 1X 1X f2r p2k−2r,2n−2r + f2r p2k,2n−2r . = 2 r=1 2 r=1
3.6 Summen von unabh¨angigen Zufallsvariablen
71
Wir wollen diese Rekursion l¨ osen, ohne uns die M¨ uhe zu machen, f2r zu berechnen. Dazu bemerken wir zun¨achst, dass −2n 2n P[S2n = 0] = 2 ≡ usn . n Ausserdem ist u2n = P[S2n = 0] =
n X
f2r P[S2n−2r = 0] =
r=1
n X
f2r u2n−2r .
(3.49)
r=1
Nun k¨ onnen wir unseren Satz per Induktion beweisen. Wir nehmen an, p2k,2m = u2k u2m−2k gelte f¨ ur m ≤ n − 1. Dann folgt f¨ ur m = n p2k,2n =
k n−k X X 1 1 f2r u2k−2r + u2k f2r u2n−2k−2r . u2n−2k 2 2 r=1 r=1
Beide Summen k¨ onnen wir mittels (3.49) berechnen und erhalten p2k,2n =
1 1 u2k u2n−2k + u2k u2n−2k = u2n−2k u2k , 2 2
wie behauptet. Mittels der Approximation der Binomialkoeffizienten durch die Sterlingformel erhalten wir f¨ ur grosse n und k p2k,2n ∼
1 1 √ √ p = n−1 p π k n−k π k/n −k/n
Mithin ist die Wahrscheinlichkeit, dass k zwischen 1/2 und α liegt X X 1 1 p p p2k,2n ∼ (3.50) πn k/n −k/n n/2≤k≤α n/2≤k≤α Z α √ 2 dx 1 −1 p = arcsin α − ∼π π 2 x(1 − x) 1/2 Die Botschaft dieser Rechnung ist, dass die Irrfahrt mit hoher Wahrscheinlichkeit sehr einseitig ist, w¨ahrend der ausgeglichene Fall, halb positiv, halb negativ, kaum vorkommt!
72 3 Bedingte Wahrscheinlichkeiten, Unabh¨angigkeit, Produktmaße 1
1
0.5
0.5
200
400
600
800
1000
200
-0.5
-0.5
-1
-1
400
600
Fig. 3.2. Zwei Realisierungen von sign (Sn )
800
1000
4 Konvergenzbegriffe
Wie immer in der Analysis ist auch in der Wahrscheinlichkeitstheorie der Konvergenzbegriff ein ganz zentrales Konzept. Dabei gibt es einige Besonderheiten, und es ist sinnvoll, sich die Begrifflichkeiten von Anfang an klar zu machen. Wir werden in der Folge dann verschiedene wichtige Beispiele kennenlernen.
4.1 Konvergenz von Verteilungsfunktionen Wahrscheinlichkeitsmaße waren die ersten Objekte die wie kennengelernt haben. Klarerweise ist die Konvergenz von Folgen von Wahrscheinlichkeitsmaßen nun auch das erste, was wir betrachten m¨ ussen. Wir wollen daf¨ ur zun¨ achst nur Wahrscheinlichkeitsmaße auf (R, B(R)), also Verteilungen von reellwertigen Zufallsvariablen, betrachten. Wir hatten gesehen, dass diese eindeutig durch ihre Verteilungsfunktionen charakterisiert sind. Daher k¨ onnen wir diese auch zur Definition von Konvergenz heranziehen. Definition 4.1.1 Seien Fn , n ∈ N eine Folge von Verteilungsfunktionen. Dann konvergiert Fn schwach gegen eine Verteilungsfunktion F , genau dann wenn Fn (c) → F (c),
(4.1)
f¨ ur alle c ∈ R f¨ ur welche F stetig ist. Die Einschr¨ ankung der Konvergenzforderung auf die Stetigkeitstellen der Funktion F mag zun¨ achst u ¨ berraschen. Doch wissen wir ja, dass die einzigen Unstetigkeiten von F Sprungstellen sind, an denen F rechststetig ist. Nun kann man sich leicht Funktionenfolgen konstruieren, die an den Unstetigkeitstellen nicht konvergieren, oder keinen rechtstetigen 73
74
4 Konvergenzbegriffe
Limes haben. (Beispiel: (1 + tanh(nx))/2.) Dann w¨ urde man dennoch die rechtsstetige Variante als Limes akzeptieren wollen. Schwache Konvergenz von Verteilungsfunktionen ist ¨aquivalent zur schwachen Konvergenz von Wahrscheinlichkeitsmaßen, die wie folgt definiert wird: Definition 4.1.2 Sei Ω ein Metrischer Raum und B(Ω) die Borel-ΣAlgebra. Sei Pn eine Folge von Wahrscheinlichkeitsmaßen auf (Ω, B(Ω)). Dann konvergiert Pn schwach gegen ein Wahrscheinlichleitsmaß P , genau dann wenn, f¨ ur alle beschr¨ankten stetigen Funktionen f , Z Z f dPn → f dP. (4.2) Ω
Ω
Genauer gesagt gilt: Theorem 4.1.1 Sei Pn , n ∈ N, eine Folge von Wahrscheinlichkeitsmaßen auf (R, B(R)) und seien Fn die zugeh¨origen Verteilungsfunktionen. Dann konvergiert Pn schwach gegen ein Wahrscheinlichkeitsmaß P mit Verteilungsfunktion F genau dann, wenn die Folge Fn schwach gegen F konvergiert.
4.2 Konvergenz von Zufallsvariablen Schliesslich sprechen wir von der Verteilungskonvergenz von Zufallsvariablen.
4.2.1 Konvergenz in Verteilung Definition 4.2.1 Sei Xn eine Folge von (reellen) Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F , P). Dann konvergiert Xn in Verteilung gegen eine Zufallsvariable X, D
Xn → X, genau dann wenn die Verteilungsfunktionen, Fn (x) ≡ P[Xn ≤ x], schwach gegen die Verteilungsfunktion F (x) ≡ P[X ≤ x] einer Zufallsvariablen X konvergieren.
4.2 Konvergenz von Zufallsvariablen
75
Beispiel: Der Satz von de Moivre-Laplace. WIr k¨ onnen aus der Definition und der Rechnung, die wir schon bei der Betrachtung von Summen von Zufallsvariablen im Kapitel 3 ausgef¨ uhrt haben, unsere erste Version des zentralen Grenzwertsatzes wie er im 17. Jahrhundert zuerst von de Moivre bewiesen wurde, erhalten. Theorem 4.2.1 Seien Xi eine Folge von unabh¨angigen BernoullivariaPn blen mit Parameter p. Dann konvergiert die Folge Zn ≡ √1n i=1 (Xi −p) in Verteilung gegen eine Gaußverteilte Zufallsvariable N (0, p(1 − p)). Beweis. Wir betrachten die Verteilungsfunktion der Variablen Sn . Offenbar ist Fn (x) ≡ P[Zn ≤ x] = =
n X
k=0
1Ik≤np+x√n P[Sn = k] X√
n
P[n−1 (Sn − np) = y]
√ −p n≤y≤x}
P √n √ wobei das Symbol bedeuten soll, dass nur u ¨ ber Vielfache von 1/ n summiert wird. Nun haben wir in Kapitel 3 bereits gesehen, dass die Summe aller Terme mit |y| ≥ n1/6− gegen Null konvergiert, w¨ahrend f¨ ur alle anderen Terme die Approximation (3.37) gilt. Daraus folgt sofort, dass X√ y2 1 1 n √ p exp − Fn (x) = 2p(1 − p) 2πn (1 − p)p 1/6− −n
=
Z
x
−∞
×(1 + O(n−3 )) 1 1 y2 √ p exp − 2p(1 − p) 2π (1 − p)p ×(1 + O(n−3 ))
wobei wir im letzten Schritt benutzt haben dass 1 1 y2 √ p exp − 2p(1 − p) 2πn (1 − p)p Z y+1/√n √ 1 1 z2 = dz √ p (1 + O(n1/6− n)) exp − 2p(1 − p) 2π (1 − p)p y
76
4 Konvergenzbegriffe 2
was wiederum daraus folgt, dass √e−cy auf einem Intervall der L¨ange √ 1/ n nur um einen Faktor e−2cy/ n variiert. Damit haben wir aber das behauptete Resultat bewiesen.
4.2.2 Konvergenz in Wahrscheinlichkeit Ein besonderer Fall liegt vor, wenn die Zufallsvariablen Xn gegen eine deterministische Zufallvariable, also eine Konstante1 konvergieren, wie wir es etwa im Gesetz der grossen Zahlen sehen werden. Hier benutzen wie gerne auch noch den Begriff der “Konvergenz in Wahrscheinlichkeit”: Definition 4.2.2 Eine Folge von Zufallsvariablen, Xn , konvergiert gegen eine Konstante, x, genau dann, wenn, f¨ ur alle > 0, P[|Xn − x| > ] → 0.
(4.3)
Es ist leicht einzusehen, dass eine Zufallsvariable genau dann in Wahrscheinlichkeit gegen eine Konstante x konvergiert, wenn ihre Verteilung gegen die Dirac-Verteilung δx konvergiert.
4.2.3 Fast sichere Konvergenz Ein wesentlich st¨ arkerer Konvergenzbegriff f¨ ur Zufallsvariablen ist allerdings der der sogenannten fast sicheren Konvergenz. Wir rufen uns ins Ged¨ achtnis, dass eine Folge von Zufallsvariablen ja eine messbare Funktion von Ω in den Produktraum RN ist. Wir k¨onnen uns also fragen, ob tats¨ achlich diese Folgen (fast) alle gegen den gleichen Wert x streben. Hier betrachten wir also wieder einmal Wahrscheinlichkeiten auf dem gesammten unendlichen Produktraum. Definition 4.2.3 Sei Xn eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F , P). Dann sagen wir, dass Xn fast sicher (f.s.) gegen x konvergiert,
genau dann, wenn
Xn → x, f.s.,
(4.4)
P lim Xn = x → 1
(4.5)
n↑∞
1
Man kann allgemeiner auch den Fall der Konvergenz gegen eine nichtdeterministische Zufallsvariable betrachten.
4.2 Konvergenz von Zufallsvariablen
77
Wir sollten als erstes nachpr¨ ufen, ob diese Definition sinnvoll ist, d.h. ob das Ereignis {[limn↑∞ Xn = x} u ¨berhaupt in B(R) liegt. Dazu m¨ ussen wir das Ereignis {limn↑∞ Xn = x} unter Verwendung der Definition von Konvergenz ausschreiben: ∞ ∞ lim Xn = x = ∩∞ (4.6) k=1 ∪n0 =1 ∩n≥n0 {|Xn − x| ≤ 1/k} n↑∞
Offenbar ist jeder Klammerausdruck {|Xn+1 − Xn | < 1/k} eine Borelmenge, und somit auch die abz¨ ahlbaren Durchschnitte und Vereinigungen davon, so dass also unsere Frage Sinn macht. In Worten lautet die rechte Seite von (4.6): “F¨ ur alle k ∈ N ist f¨ ur alle bis auf endlich viele Werte von n |Xn − x| ≤ 1/k”. Das komplement¨ are Ereignis ist dann “Es gibt k so, dass f¨ ur unendlich viele Werte des Indexes n, |Xn − x| > 1/k gilt”. Damit ist P lim Xn = x = 1 − P [∪k {|Xn − x| > 1/k, u.o.}] . (4.7) n↑∞
(“u.o.” = “unendlich oft”). Somit ist P [limn↑∞ Xn ≤ x] = 1 genau dann, wenn P [∪k {|Xn − x| > 1/k, u.o.}]. Da aber X P [{|Xn − x| > 1/k, u.o.}] (4.8) k∈N
≥ P [∪k {|Xn − x| > 1/k, u.o.}]
≥ max P [{|Xn − x| > 1/k, u.o.}] k∈N
CE sehen wir, dass P [limn↑∞ Xn ≤ x] = 1 genau dann, wenn f¨ ur alle k ∈ N, P [{|Xn − x| > 1/k, u.o.}] = 0. Letztere Frage kann nun mit einem der wichtigsten Lemma der Wahrscheinlichkeitstheorie entschieden werden, dem sogenannten Borel-Cantelli Lemmas. Lemma 4.2.2 [Erstes Borel-Cantelli Lemma] Sei (Ω, F , P) ein Wahrscheinlichkeitsraum, und seien An ∈ F eine Folge von Ereignissen. P Wenn ∞ n=1 P [An ] < ∞, dann gilt P[An , u.o.] = 0.
Lemma 4.2.3 [Zweites Borel-Cantelli Lemma] Sei (Ω, F , P) ein Wahrscheinlichkeitsraum, und seien An ∈ F eine Folge von unabh¨angigen P∞ Ereignissen. Wenn n=1 P [An ] = +∞, dann gilt P[An , u.o.] = 1.
78
4 Konvergenzbegriffe
Beweis. Wir beweisen zun¨ achst das wichtigere erste Borel-Cantelli Lemma. Wir haben P[An , u.o.] = P [∩∞ k=1 ∪n≥k An ]
(4.9)
∞
≤ min P [∪n≥k An ] k=1
∞ X
∞
≤ min k=1
P[An ]
n=k
P Nun ist nach Voraussetzung die Reihe ∞ n=1 P[An ] konvergent, woraus P∞ folgt, dass dass die Folge rk ≡ n=k P[An ] eine Nullfolge ist. Damit ist die Aussage des Lemma evident. Beweisen wir nun noch das zweite Lemma. Offenbar ist P[An , u.o.] = P [∩∞ k=1 ∪n≥k An ]
(4.10)
= lim P [∪n≥k An ] k↑∞
Aber 0 ≤ 1 − P [∪n≥k An ] = P [(∪n≥k An )c ] =
P [∩n≥k Acn ]
= lim
N ↑∞
N Y
= lim
N ↑∞
P [Acn ] =
n=k
≤ exp −
(4.11)
∞ X
n=k
P [∩N ≥n≥k Acn ]
∞ Y
n=k
!
P [An ]
(1 − P [An ])
=0
P∞ da ja f¨ ur jedes k, n=k P [An ] = +∞ ist. Ausserdem haben wir hier noch die (auch sonst) sehr n¨ utliche Absch¨atzung 1 − x ≤ e−x benutzt. Wir k¨ onnen diese Lemmata sofort auf die Frage der fast sicheren Konvergenz anwenden. Corollary 4.2.4 Eine Folge von Zufallsvariablen Xn konvergiert gegen eine Zahl x fast sicher, wenn, f¨ ur alle > 0, ∞ X P[|Xn − x| > ] < ∞. (4.12) n=1
4.2 Konvergenz von Zufallsvariablen
79
1 0.8 0.6 0.4 0.2
2000
4000
6000
8000
10000
√ Fig. 4.1. Folge von Bernoullivariablen mit pn = 1/ n.
Wenn Xn eine Folge von unabh¨angigen Zufallsvariablen ist, so ist die Bedingung (4.12) auch notwendig. Beweis. Wir haben zu gesehen, dass Xn fast sicher gegen x konvergiert, genau dann, wenn f¨ ur alle 1 ≤ k < ∞, P[|Xn − x| > 1/k, u.o.] = 0. Wegen dem ersten Borel-Cantelli lemma gilt dies aber wegen (4.12). Wir sehen aus dem Korollar leicht, dass es m¨oglich ist, dass eine Folge von Zufallsvariablen in Wahrscheinlichkeit gegen eine Konstante x konvergiert, nicht aber fast sicher. Das einfachste Beispiel ist durch eine Folge von unabh¨ angigen Zufallsvariables Xn gegeben, bei denen P[Xn = 0] = 1 − nα ,
, P[Xn = 1] = n−α .
Diese Folge konvergiert f¨ ur jedes α > 0 in Wahrscheinlichkeit gegen 0, aber nur f¨r α > 1 tut sie das auch fast sicher.
80
4 Konvergenzbegriffe 10000 8000 6000 4000 2000
50
100
150
200
√ Fig. 4.2. Folge Werte n mit Xn = 1, mit pn = 1/ n .
1 0.8 0.6 0.4 0.2
2000
4000
6000
8000
Fig. 4.3. Folge von Bernoullivariablen mit pn = n−1 .
10000
4.2 Konvergenz von Zufallsvariablen
81
60000
40000
20000
4
6
8
10
Fig. 4.4. Folge Werte n mit Xn = 1, mit pn = n−1 .
1 0.8 0.6 0.4 0.2
2000
4000
6000
8000
Fig. 4.5. Folge von Bernoullivariablen mit pn = n−1.1 .
10000
82
4 Konvergenzbegriffe
150
100
50
2
3
4
5
6
Fig. 4.6. Folge Werte n mit Xn = 1, mit pn = n−1.1 .
7
5 Das Gesetz der großen Zahlen.
Das zentrale Anliegen dieser Sektion ist die Behandlung des wohl fundamentalsten Satzes der Wahrscheinlichkeitstheorie, des Gesetzes der großen Zahlen. Dieses begr¨ undet insbesondere den Zusammenhang zwischen Wahrscheinlichkeit und Frequenz, und erkl¨art die Bedeutung des Erwartungswertes als Mittel u ¨ ber wiederholte Zufallsexperimente. Im weiteren Sinne ist das Gesetz der großen Zahlen unsere erste Begegnung mit dem Prinzip, dass aus v¨ ollig zuf¨alligen Ereignissen dennoch v¨ollig deterministische Resultate folgen k¨onnen. 5.1 Erwartungswert, Varianz, Momente Sei X eine reelle Zufallsvariable auf (R, B, P) mit Verteilungsfunktion F (x) ≡ P (X ≤ x) . Grunds¨ atzlch haben wir ja gesehen, dass diese durch ihre Verteilungsfunktion die Zufallsvariable vollst¨andig charakterisiert. Wir sind aber vielfach an alternativen, einfacheren Kenngr¨ossen interessiert, und insbesondere f¨ ur statistische Anwendungen m¨ochten wir einige wenige bedeutungsvolle Parameter identifizieren, die die Eigenschaft einer Verteilung bestimmen. Wir hatten bereits gesehen dass der Erwartungswert von X gegeben ist durch Z EX ≡
xdPX (x).
(5.1)
R
wo PX ≡ P◦X −1 die Verteilung von X ist. Die Bedeutung der Erwartung ist ziemlich offensichtlich. Im weiteren m¨ochte man nat¨ urlich wissen, wie sehr sich die Verteilung um diese Erwartung herum streut. Die erste naheliegende Gr¨ osse ist die sogenannte Varianz, 83
84
5 Das Gesetz der großen Zahlen.
var(X) = E(X − EX)2
(5.2)
Man bezeichnet im u ¨ brigen die Quadratwurzel der Varianz als Standardabweichung. Beachte, dass die Varianz einer Zufallsvariablen unendlich sein kann, auch wenn die Erwartung endlich ist. Momente Eine naheliegende Verallgemeinerung der Varianz sind die sogenannten Momente eine Wahrscheinlichkeitsverteilung. Wir definieren Mp ≡ EX p
(5.3)
Momente spielen auch deswegen eine ¨ausserst wichtige Rolle, weil in vielen, aber nicht allen (!) Fa¨llen die Kenntnis aller Momente einer Wahrscheinlichkeitsverteilung diese vollst¨andig bestimmen. Ohne im Detail auf diese Fragen eingehen zu wollen, ist es n¨ utzlich folgendes Kriterium zu kennen: Theorem 5.1.1 Seien Mp so, dass f¨ ur irgendeine a > 0, ∞ X a2p < ∞, M2p (2p)! p=1
(5.4)
dann gibt es h¨ochstens ein Wahrscheinlichkeitsmaß auf (R, B(R)), so dass Mp = EX p , f¨ ur alle p ≥ 1. Erzeugende Funktion Eng mit den Momenten verk¨ upft, h¨ ufig aber weit n¨ utlicher, ist die sogenannte Momenten erzeugende Funktion, oder Laplace Transformierte. Diese ist definiert durch ψ(z) ≡ EezX
(5.5)
Nat¨ urlich muss ψ(z) f¨ ur z 6= 0 nicht notwendig endlich sein. Wenn ψ(z) auf einem Intervall [−h0 , h0 ] endlich ist, dann gilt, dass Mp =
dp ψ(z = 0), dz0
d.h. aus ψ k¨ onnen alle Momente berechnet werden.
5.2 Chebychev’s Ungleichung Die Bedeutung von Varianz, Momenten und erzeugenden Funktionen erschliesst sich zum Teil aus der sogenannten Chebychev Ungleichung.
5.2 Chebychev’s Ungleichung
85
Lemma 5.2.2 Sei X eine rellwertige Zufallsvariable mit Verteilung P. Dann gilt, f¨ ur alle x > 0 var(X) P (X − EX > x) ≤ . (5.6) x2 Beweis. Wir k¨ onnen ohne Verlust der Allgemeinheit annehmen, dass EX = 0. Dann ist, f¨ ur alle x > 0, P(X > x) = E1IX>x ≤ E1IX>x
X2 var(X) X2 ≤ 2 = , 2 x x x2
was zu beweisen war. Die Herleitung dieser Ungleichung mag diese auf den ersten Blick v¨ ollig absurd wirken lassen. Allerdings steht der Nutzen der Ungleichung in keinem Verh¨ altnis zu der Schwierigkeit ihres Beweises. Der Punkt ist die große Universalit¨ at der Aussage, die wesentliche Informationen aus nur einer relative leicht berechenbaren Kenngr¨osse einer Verteilung zu ziehen erlaubt. Der singul¨ ar einfache Beweis l¨ad nat¨ urlich dazu ein, eine allgemeinere Ungleichung herzuleiten: Lemma 5.2.3 Sei X eine rellwertige Zufallsvariable mit Verteilung P, und sein f : R → R+ eine monoton wachsende Funktion. Dann gilt Ef (X − EX) . (5.7) P (X − EX > x) ≤ f (x) Beweis. Wir k¨ onnen ohne Verlust der Allgemeinheit annehmen, dass EX = 0. Dann ist, f¨ ur alle x > 0, P(X > x) = E1IX>x ≤ E1IX>x
f (X) Ef (X) ≤ , f (x) f (x)
was zu beweisen war. Die allgemeinere Ungleichung ist nat¨ urlich nur dann n¨ utzlich, wenn Ef (X) nicht nur endlich, sondern auch berechenbar ist. Typischerweise wir die Markov-Ungleichung f¨ ur die F¨alle f (x) = |x|p und f (x) = exp(tx) gerne verwendet. Insbesondere der letzte Fall ist von großer Wichtigkeit, und bildet die Grundlage der sogenannten Theorie der großen Abweichungen. Corollary 5.2.4 Sei X eine rellwertige Zufallsvariable, und x ≥. Dann gilt P[X ≥ x] ≤ inf e−tx EetX . t≥0
(5.8)
86
5 Das Gesetz der großen Zahlen.
Diese Absch¨ atzung ist nat¨ urlich nur dann n¨ utzlich, wenn EetX zumindest f¨ ur kleine positive t endlich ist. Die besondere St¨ arke dieser Ungleichung erweist sich wenn man Summen unabh¨ ngiger Zufallsvariablen betrachtet: Corollary 5.2.5 Sei Xi eine Familie unabh¨angiger Zufallsvariablen, und x ≥. Dann gilt n n X Y P[ Xi ≥ x] ≤ inf e−tx EetXi . (5.9) t≥0
i=1
i=1
Das Produkt ist dabei oft leicht zu berechnen. Insbesondere im Fall identisch verteilter Zufallsvariablen ergibt sich ein sehr einfacher Ausdruck. Betrachten wir als Beispiel Unabh¨angige Rademachervariablen mit Parameter 1/2. Dann ist " # n X P n−1 Xi ≥ x ≤ inf e−txn (cosh t)n i=1
t≥0
n = exp inf (−tx + ln cosh(t)) = e−nI(x) t≥0
wo I(x) = (1 − x) ln(1 − x) + (1 + x) ln(1 + x). Um dieses Ergebnis zu erhalten bemerkt man, dass das Minimum der Funktion −tx + ln cosh t angenommen wird, wenn tanh(t) = x. Da tanh−1 (x) = 21 ln 1+x 1−x ist, folgt dies nach einigen elementaren Rechnungen. Man vergleiche mit dem exakten Wert!! Absch¨ atzungen dieser Art spielen eine wesentliche Rolle in der theorie der sogenannten großen Abweichungen.
5.3 Das Gesetz der großen Zahlen Wir k¨ onnen mit Hilfe der Chebychev Ungleichung sofort eines der Fundamentalen Ergebnisse der Wahrscheinlichkeitstheorie herleiten, dass Gesetz der großen Zahlen (GGZ).
5.3.1 Das schwache Gesetz. Das Gesetz der großen Zahlen macht f¨ ur den Fall des Modells von unabh¨ ngigen Zufallsvariablen den Zusammenhang zwischen Wahrscheinlichkeit und Frequenz mathematisch rigoros. Wir betrachten zun¨achst die einfachere Variante, das sogenannte schwache Gesetz.
5.3 Das Gesetz der großen Zahlen
87
Theorem 5.3.6 Seien Xi , i ∈ N, unabh¨angige, identische verteilte Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F , P) mit endlicher Varianz σ 2 . Dann gilt n 1X Xi → EX1 , in Wahrscheinlichkeit. (5.10) n i=1 Beweis. Der Beweis ist denkbar einfach. Wir haben wegen der Chebychev Ungleichung (5.6), dass # " n 2 Pn E n1 i=1 (Xi − EX1 ) 1X (5.11) (Xi − EX1 ) > ≤ P n i=1 2 Pn n−2 i=1 E(Xi − EX1 )2 σ2 = = 2. 2 n Genauso gilt # P " n n E(Xi − EX1 )2 1X σ2 (Xi − EX1 ) < − ≤ i=1 P = . (5.12) n i=1 n2 2 n2 Da die rechten Seiten f¨ ur jedes > 0 nach Null konvergieren, folgt die Konvergenz wie behautet sofort. Bemerkung. Es ist nat¨ urlich von dem Beweis her klar, dass wir l¨angst keine identische Verteilung brauchen. Was wirklich gebraucht wird ist Pn Pn nur, dass n1 i=1 EXi → m, und dass n−1 i=1 E(Xi − EX1 )2 < σ 2 < ∞. 5.3.2 Das starke Gesetz Wenn wir st¨ arkere Integrationsbedingungen an die Variablen Xn stellen, l¨asst sich auf dem gleichen Weg auch das starke Gesetz der großen Zahlen herleiten. Theorem 5.3.7 Seien wieder Xi unabh¨angige, identisch verteilte Zufallsvariablen, und sei EXi4 < ∞. Dann gilt dass n 1X Sn Xi → EX1 , f.s.. (5.13) ≡ n n i=1 Beweis. Wir k¨ onnen ohne Schaden annehmen, dass EX1 = 0. Unter Verwendung unseres Kriteriums aus Korollar 4.11 m¨ ussen wir nur zeigen, dass
88
5 Das Gesetz der großen Zahlen. ∞ X
n=1
P[|Sn /n| > ] < ∞.
(5.14)
Dies folgt aus der Chebychev-Ungleichung wenn wir zeigen, dass E(Sn /n)4 ≤ Cn2 , f¨ ur C < ∞. Nun ist aber ESn =
n X
EXi1 Xi2 Xi3 Xi4 .
i1 ,i2 ,i3 ,i4 =1
Wegen EXi = 0 tragen in dieser Summe nur Terme bei, in denen je zwei der Indizes gleich sind. Daher ist n X
i1 ,12 ,i3 ,i4 =1
EXi1 Xi2 Xi3 = (3n2 − n)EX12 + nEX14 .
Hieraus folgt aber das gew¨ unschte Ergebnis sofort.
5.3.3 Kolmogorov’s Ungleichung Wir k¨ onnten geneigt sein, mit dem im vorigen Kapitel formulierten Gesetz der großen Zahlen zufrieden sein. Allerdings st¨ort die Forderung nach vier endlichen Momenten. Wahrscheinlichkeittheoretiker haben viele kluge Ideen entwickelt wie man sich an solchen Bedingungen vorbeimogelt und optimale Resultate produziert. Wir wollen sehen, wie das geht. Als erstes brauchen wir dazu eine bessere Ungleichung als die von Chebychev. Lemma 5.3.8 Seien Xi , i ∈ N, unabhh¨angige Zufallsvariablen mit MitPn telwerten EXk − µk und Varianzen σk2 . Sei Sn = k=1 Xk , mn = Pn P n 2 2 ur alle t > 0, k=1 µk und sn ≡ k=1 σk . Dann ist f¨ P [∃k≤n : |Sk − mk | ≥ tsn ] ≤ t−2 .
(5.15)
Beweis. Wir definieren die Zufallsvariablen Y Yk = 1I|Sk −mk |≥tsn 1I|Sk −mk |
Offenbar kann nur h¨ ochstens eine der Variablen Yk den Wert eins anPn nehmen, so dass Zn ≡ k=1 Yk nur die Werte null und eins annimmt.
5.3 Das Gesetz der großen Zahlen
89
Offenbar ist Zn genau dann eins wenn das Ereignis in (5.15) eintritt. Daher ist auch P[Zn = 1] = EZn . Ferner ist Zn (Sn − mn )2 ≤ (Sn − mn )2 , und somit EZn (Sn − mn )2 =
n X
k=1
EYk (Sn − mn )2 ≤ s2n .
(5.16)
Nun setzen wir n X
Uk ≡ (Sn − mn ) − (Sk − mk ) =
`=k+1
(X` − µ` ).
Die letzte Gleichung macht deutlich, dass Uk nur von den Variablen X` mit ` > k abh¨ angt, weswegen Uk von Sk und von Yk unabh¨angig sind. Nun schreiben wir 2
(Sn − mn )2 = (Uk + (Sk − mk )) , und erhalten so 2
EYk (Sn − mn )2 = EYk (Uk + (Sk − mk ))
= EYk (Sk − mk )2 + 2EUk Yk (Sk − mk ) + EUk2 Yk .
Wegen der angesprochenen Unabh¨angigkeit ist der zweite Term im letzten Ausdruck gleich 2EUk EYk (Sk − mk ) = 0, da die Erwartung von Uk verschwindet. Da zudem der letzte Term nicht negativ ist, erhalten wir EYk (Sn − mn )2 ≥ EYk (Sk − mk )2 . Da, wenn Yk 6= 0 ist, |Sk − mk | ≥ tsn , folgt weiter EYk (Sn − mn )2 ≥ EYk t2 s2n . Setzen wir diese Ungleichung in (5.16) ein folgt EZn t2 s2n ≤ s2n , was unmittelbar die Behauptung ergibt. Bemerkung. Wir sehen, dass die Aussage des Satzes gerade die ChebychevUngleichung der Ordnung zwei f¨ ur den Endpunkt Sn impliziert. Die Kolmogorov Ungleichung ist aber strikt sch¨arfer, da sie ja das Maximum der Sk mit k ≤ n kontrolliert. In der Tat ist die erzielte Verbesserung signifikant gegen¨ uber dem, was wir etwa durch Absch¨atzung via Subadditivit¨at erhalten k¨ onnten!
90
5 Das Gesetz der großen Zahlen.
5.3.4 GGZ ohne Momentenbedingungen Die St¨ arke der Kolmogorov’schen Ungleichung zeigt sich im folgenden Kriterium f¨ ur das starke Gesetz f¨ ur unabh¨angige, aber nicht identisch verteilte Zufallsvariablen her. Lemma 5.3.9 Es seien Xk , k ∈ N unabh¨angige Zufallsvariablem mit Varianz σk2 und (o.b.d.a.) Mittelwert 0. Wenn ∞ X σk2 < ∞, (5.17) k2 k=1
dann konvergiert Sn /n fast sicher gegen null. Beweis. Wir definieren die Ereignisse Ap durch Ap = ∪2p−1
Nun m¨ ussen wir nur noch summieren: ∞ X p=1
P[Ap ] ≤
∞ X
4−2 2−2p s22p
(5.18)
p=1
= 4
−2
∞ X
p
2
−2p
p=1
= 4−2
∞ X
k=1
≤ 8−2
∞ X
2 X
σk2
k=1
σk2
X
2−2p
p:2p ≥k
σk2 k −2
k=1
was nach Annahme endlich ist. Somit ist das Lemma bewiesen.
5.3 Das Gesetz der großen Zahlen
91
Mit diesem Kriterium k¨ onnen wir nun eine weitgehende Formulierung des starken Gesetzes geben. Theorem 5.3.10 Seien Xn unabh¨angige, identisch verteilte Zufallsvariablen mit Mittelwert µ = EXn . Dann ist lim n−1 Sn = µ, f.s..
(5.19)
n↑∞
Beweis. In diesem lernen wir ein wichtige Technik kennen, die der Trunkation. Im wesentlichen wollen wir unsere Variablen so aufspalten, dass wir einen Term erhalten, auf den wir das Lemma von oben anwenden k¨ onnen, w¨ ahrend der Rest nach null konvergiert. Dazu setzen wir Uk = Xk 1I|Xk |
Vk = Xk 1I|Xk |≥k .
Offenbar ist Xk = Uk +Vk . Nun erf¨ ullen die Uk Kolmogorov’s Kriterium: σk2 ≤ EUk2 ≡ Daher gilt
k X `=1
`E1I`−1≤|Xk |<` |Xk | ≡
k X
`a` .
`=1
k ∞ ∞ X X X X 1 σk2 1 X ∞ 2 <2 ∞ 2 ≤ `a` = `a` ∞ 2 a` , k k k k=1ell k=1 `=1 `=1 k=1 `=1 P wobei wir benutzt haben, dass k=1ell ∞ k12 < 2/` ist; nun ist aber die letzte Summe kleiner als E|Xk |, was wir als endlich angenommen haben. Damit ist in der Tat das Kolmogorov Kriterium erf¨ ullt, und da wir leicht sehen, dass EUk → µ, liefert das vorhergehende Lemma, dass in der Tat P n−1 nk=1 Uk rightarrowµ, fast sicher. Wir m¨ ussen nur noch zeigen, dass Vn unwichtig ist. Die Gefahr an Vn ist ja, dass es sehr groß sein kann: daf¨ ur ist es aber auch meistens gleich Null. In der Tat wollen wir zeigen, dass es nur endlich oft von Null verschieden ist. Dazu schreiben wir ∞ X a`+1 . P[Vn 6= 0] = E1I|Xn |≥n ≤ `
X
`=n
Dann ist
∞ X
n=1
P[Vn 6= 0] ≤ =
∞ X ∞ X a`+1
n=1 `=n
`
∞ ` X a`+1 X `=1
`
n=1
1=
∞ X `=1
a`+1 < ∞
92
5 Das Gesetz der großen Zahlen.
und das Ergebnis folgt aus dem ersten Borel-Cantelli Lemma.
5.4 Anwendungen in der Statistik. 5.4.1 Statistische Modelle und Sch¨ atzer Die Aufgabe der Statistik ist die Beschreibung von Beobachtungen von “Zufallsexperimenten” durch ein auf ein auf Zufallsvariablen basiertem Modell. Ganz allgemein gesprochen sieht das so aus. Gegeben sind eine Folge von Beobachtungen (= Ausg¨ange Zufallexperimenten), Z1 , . . . , Zn . Der Statistiker m¨ ochte diese als Realisierungen von n Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F , P) interpretieren. Er interessiert sich f¨ ur die gemeinsame Verteilung der entsprechenden n Zufallsvariablen, die er a priori nicht kennt, sondern aus den Beobachtungen (also einer Realisierung ω ∈ Ω!) Zi , bestimmen, bzw. im statistischen Sprachgebrauch, sch¨atzen. Ohne weiteres ist dies praktisch nicht m¨oglich, und man wird aufgrund von zus¨ atzlichen “a priori” Informationen weitere Annahmen (Hypothesen) an die Zufallsvariablen machen. Im allgemeinen besteht ein statistisches Modell somit aus Modellannahmen und Modellparametern, wobei die Annahmen als wahr angesehen werden, und dir Parameter zun¨achst unbekannt sind. Um dir unbekannten Parameter zu bestimmen konstruiert der Statistiker nun sogenannte Sch¨atzer, d.h. Funktionen der beobachteten Gr¨ ossen Xi , die die Werte der “wahren” Parameter ann¨ahren sollen. Die Sch¨ atzer, an , h¨ angen dabei von n und von den Beobachtungen Xi , i ≤ n ab. Solche Sch¨ atzer (oder Familien von Sch¨atzern, da es f¨ ur jedes n einen solchen gibt) heissen konsistent, wenn folgendes gilt: Seien Xi , i ∈ N Zufallsvariablen, f¨ ur die die Annahmen des Modells mit gegebenen Parametern a zutreffen. Dann ist an (X1 , . . . , Xn ) ein konsistenter Sch¨atzer, wenn an → a, fast sicher, wenn n ↑ ∞. Wir betrachten jetzt einige wichtige Beispiele.
5.4.2 Frequenzen Seien unsere Beobachtungen Xi die Ausg¨ange von stets gleichen und sich nicht beeinflussenden Zufallsexperimenten, etwa eine Folge von G¨ ucksspielen. Dann ist es eine plausible Annahme, dass die Xi durch unabh¨abgige, gleichverteilte Zufallsvariablen mit gemeinsamer Verteilung ν zu modellieren sind. Hier ist also die Unabh¨angigkeit eine Modellannahmen,
5.4 Anwendungen in der Statistik.
93
w¨ahrend die Verteilung, ν, zun¨achst ein unbekannter “Parameter” ist. Wie k¨ onnen wir aus den Beobachtungen ν sch¨atzen? Das Gesetz der großen Zahlen erlaubt es uns auf die Frage nach der Konvergenz der Frequenzen, die schon im ersten Abschnitt angesprochen war genauer einzugehen. Wir erinnern uns, dass wir in einer Reihe von n “identischen” Spiele (Zufallsexperimente) die Frequenzen der Ausg¨ange Xi ∈ A definiert hatten als n
νn (A) ≡
1X 1IA (Xi ). n i=1
Wir hatten damals gesagt, dass falls dies Frequenzen konvergieren, der Limes das einzige f¨ ur eine Spielbank akzeptable Wahrscheinlichkeitsmaß ist. Folgen unabh¨ angiger, identisch verteilter Zufallsvariablen sind nun genau das statistische Modell f¨ ur eine solche Folge identischer, sich nicht beeinflussender Zufallsexperimente. Das Gesetz der großen Zahlen sagt uns dann, dass die Annahme der Konvergenz in der Tat korrekt war. Es gilt n¨ amlich: Lemma 5.4.11 Seien Xi , i ∈ N, eine Folge rellwertiger, unabh¨angiger, identisch verteilter Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F , P). Dann gilt: (i) F¨ ur jedes A ∈ B(R) gilt
νn (A) → ν(A),
P − f.s.,
(5.20)
und (ii) ν ist die Wahrscheinlichkeitsverteilung von X1 , i.e. f¨ ur alle A ∈ F gilt ν(A) = P[X1 ∈ A]. Beweis. Der Beweis ist denkbar einfach: Die Funktionen 1IA (Xi ) sind selbst Zufallsvariablen, und zwar, wie man leicht nachpr¨ uft, unabh¨angige. Ihre Erwartung ist gerade E1IA (Xi ) = P[Xi ∈ A] = P[X1 ∈ A]. Da diese endlich sind, folgen beide Aussagen des Lemmas aus dem starken Gesetz der großen Zahlen. Die Sammlung der νn (A) stellt f¨ ur jede Realisierung der Zufallsvariablen Xi ein Wahrscheinlichkeitsmaß auf den reellen Zahlen dar. Wir k¨onnen damit νn auch als eine Abbildung von Ω in die Menge der
94
5 Das Gesetz der großen Zahlen.
Wahrscheinlichkeitsmaße u ¨ber (R, B(R)) auffassen. Man nennt so etwas manchmal auch eine maßwertige Zufallsvariable. Um diese Begrifflichkeit pr¨ azise zu machen, m¨ ussten wir allerdings noch kl¨aren, wie der Raum dieser Maße in einen Wahrscheinlichkeitsraum u uhrt werden kann. ¨ berf¨ Dies w¨ urde uns im Moment zu weit f¨ uhren. Zumindest k¨onnen wir aber folgendes feststellen: Theorem 5.4.12 Seien Xi , i ∈ N, eine Folge rellwertiger, unabh¨angiger, identisch verteilter Zufallsvariablen mit Verteilungsfunktion F auf einem Wahrscheinlichkeitsraum (Ω, F , P). Seien νn die oben definierten empirische Maße, und Fn die zugeh¨origen Verteilungsfunktionen. Dann gibt ˜ ⊂ Ω, mit P[Ω] ˜ = 1, so dass, f¨ ˜ es eine Menge Ω ur alle ω ∈ Ω, D
Fnω → F.
(5.21)
Beweis. Wir wissen, dass νn von den Zufallsvariablem Xi abh¨angt, mithin also eine Funktion auf Ω. Wir machen diese Abh¨angigkeit f¨ ur die zugeh¨ origen Verteilungsfunktionen Fnω durch den Superskript ω explizit. Wir wissen aus Lemma 5.4.11, dass f¨ ur jedes x ∈ R wenn F bei x e x , vom Maß eins existiert, so dass f¨ stetig ist, eine Teilmenge, Ω ur alle e x, ω∈Ω lim Fnω (x) = F (x).
n↑∞
(5.22)
e q ] = 1, so dass es auch eine Teilmenge vom Maß Nun ist auch, P[∪q∈Q Ω eins gibt, auf der (5.22) simultan f¨ ur alle x ∈ Q gilt. Aber eine monotone Funktion, die auf einer dichten Teilmenge von R konvergiert, hat einen eindeutigen rechtsstetigen Limes. Also, im Rahmen des statistischen Modells, in dem die Ausg¨ange eines Zufallsexperiments unabh¨ angige, gleichverteilte Zufallsvariablen sind, sind die empirischen Verteilungen, d.h. die Frequenzen, tats¨achlich Sch¨atzer f¨ ur die gemeinsame Verteilung dieser Zufallsvariablen, und dieser Sch¨atzer ist dar¨ uberhinaus konsistent. Mit der Chebychev’schen Ungleichung erhalten wir sogar eine Qualit¨atsabsch¨atzung. Lemma 5.4.13 Seien Xi , i ∈ N, eine Folge rellwertiger, unabh¨angiger, identisch verteilter Zufallsvariablen mit Verteilungsfunktion F auf einem Wahrscheinlichkeitsraum (Ω, F , P). Dann gilt, f¨ ur jede Borelmenge A, dass 1 . (5.23) P [|νn (A) − ν(A)| > cν(A)] ≤ ncν(A)
5.4 Anwendungen in der Statistik.
95
¨ Beweis. Ubung! Wie man an der Absch¨ atzung sieht, sind die Sch¨atzungen f¨ ur Mengen kleiner Masse fehlerhafter als die von großer Masse. Dies ist nur nat¨ urlich: Ist ν(A) klein, so bedarf er vieler Experimente, bis u ¨ berhaupt einmal ein Ergebnis in A f¨ allt! Die Qualit¨at des Sch¨atzers h¨angt also von der erwarteten Zahl der Ereignisse, die in A fallen, eben nν(A) direkt ab.
5.4.3 Sch¨ atzen von Erwartungswert und Varianz Wir haben gesehen, dass Erwartungswert und Varianz einer Zufallsvariable bereits wichtige Informationen u ¨ ber deren Verteilung enthalten. Es liegt also f¨ ur einen Statistiker nahe, zun¨achst mal diese Kenngr¨ossen zu sch¨ atzen, als gleich die ganze Verteilung. Das Gesetz der großen Zahlen liefert uns wieder Kandidaten f¨ ur solche Sch¨atzer sowie eine Rechtfertigung. Betrachten wir zun¨ achst den Mittelwert einer Verteilung. Nach dem Gesetz der großen Zahlen konvergiert ja das empirische Mittel, n X Xi (5.24) mn ≡ n−1 i=1
fast sicher gegen µ ≡ EX1 , falls die Xi unabh¨angige, identisch Verteilte Zufallsvariablen sind. Damit ist die Zufallsvariable mn , gut geeignet, um als Sch¨atzer f¨ ur den Mittelwert zu dienen. Dar¨ uber hinaus hat dieser Sch¨ atzer noch die Eigenschaft, dass Emn = µ.
Solche Sch¨ atzer nennt man in der Statistik “erwartungstreu”, oder “unvoreingenommen” (Englisch “un-biased”). Vielfach (aber nicht immer) wird diese Eigenschaft gefordert, um einem Sch¨atzer vor anderen den Vorzug zu geben. Der Punkt ist dabei, dass wir zu jedem Sch¨atzer (genauer gesagt einer Folge von Sch¨atzern) noch eine Nullfolge dazu addieren k¨ onnen, und eine andere Familie von Sch¨atzern zu bekommen, die auch gegen den gesuchten Sch¨ atzwert konvergiert. So k¨onnten wir etwa alternativ zu mn die Gr¨ osse n
m en ≡
1 X Xi n − 1 i=1
w¨ ahlen. Sicher konvergiert auch m en = Em en =
n n−1 mn
n µ 6= µ. n−1
fast sicher gegen m, aber
96
5 Das Gesetz der großen Zahlen.
Dieser Sch¨ atzer h¨ atte also die Tendenz, den Mittelwert leicht zu u ¨ bersch¨atzen. Betrachten wir nun wieder die Zuverl¨assigkeit des Sch¨atzers. Wir begn¨ ugen uns mit dem Fall, dass die X1 endliche zweite Momente haben. Dann liefert Satz 5.11 sofort: Lemma 5.4.14 Seien Xi , i ∈ N, unabh¨angige, gleichverteilte Zufallsvariablen mit Mittelwert µ und mit endlicher Varianz σ 2 . Dann ist mn ein erwartungstreuer Sch¨atzer f¨ ur µ und es gilt P[|mn − µ| > cµ] ≤ 2
σ2 . nµ2 c2
(5.25)
Wir sehen, dass die Qualit¨ at des Sch¨atzers erheblich von Verh¨altnis 2 σ /µ abh¨ angt. In der Praxis will man sich ja eine gewisse Genauigkeit der Sch¨ atzung vorgeben, und dann n so w¨ahlen, dass diese erzielt wird. Dabei soll nat¨ urlich n so klein wie m¨oglich sein, da in der Regel die Durchf¨ uhrung eines Zufallsexperimentes Kosten verursacht. Nun kennen wir nat¨ urlich µ und σ 2 nicht, wir wollen µ ja gerade bestimmen. Was µ angeht, ist das nicht so tragisch, da wir ja zumindest den Sch¨ atzer mn haben. Allerdings reicht das noch nicht aus, um eine “Stoppregel” f¨ ur das ben¨ otigte n zu entwickeln, da wir dazu auch σ 2 brauchen. Also sollten wir besser auch gleich versuchen, einen Sch¨atzer f¨ ur die Varianz zu finden und gleich mitzuberechnen. Naheliegend ist wieder die empirische Varianz, d.h. die Varianz der empirischen Verteilung νn : 2
n
1X 2 (Xi − mn ) . Vn ≡ νn (X − νn (X)) = n i=1 2
(5.26)
Wir zeigen zun¨ achst, dass dieser Sch¨atzer fast sicher gegen die Varianz konvergiert, falls σ 2 endlich ist. Lemma 5.4.15 Seien Xi , i ∈ N, wie in Lemma 5.4.14 und sei var(Xi ) = σ 2 . Dann konvergiert die Zufallsvariable Vn fast sicher gegen σ 2 . Beweis. Zum Beweis schreiben wir Vn leicht um: n
Vn =
1X 2 X − m2n . n i=1 i
Nach Voraussetzung sind die Xi2 unabh¨angige, gleichverteilte Zufallsvariablen mit endlicher Erwartung. Daher konvergiert die erste Summe,
5.4 Anwendungen in der Statistik.
97
wegen dem starken Gesetz, fast sicher n
1X Xi = EX12 , f.s.. n↑∞ n i=1 lim
Andererseits wissen wir, dass mn → µ, f.s., und somit auch m2n → µ2 , f.s.. Daraus folgt, dass n
1X 2 X − m2n → EX12 − (EX1 )2 = σ 2 , f.s., n i=1 i was wir behauptet haben. Wir wollen noch nachpr¨ ufen, ob Vn erwartungstreu ist. Da man nachrechnet, dass n−1 2 σ , EVn = n ist dies offenbar nicht der Fall. Man findet nat¨ urlich leicht einen erwartungstreuen Sch¨ atzer f¨ ur die Varianz, der ebenfalls fast sicher gegen σ 2 konvergiert, n¨ amlich n n 1 X 2 Vn∗ ≡ (Xi − mn ) . (5.27) Vn = n−1 n − 1 i=1 Dieser Ausdruck hat den Charme anzudeuten, dass nach einer Beobachtung die Varianz noch als unendlich gesch¨atzt werden sollte (w¨ahrend eine einzige Beobachtung bereits einen endlichen erwartungstreuen Sch¨atzer f¨ ur das Mittel liefert. Nat¨ urlich ist dieser f¨ ur praktische Belange ziemlich unbrauchbar). Die Forderung der Erwartungstreue ist ansonsten etwas willk¨ urlich, und nicht oft sub-optimal. Wenn wir die Qualit¨at des Sch¨ atzers f¨ ur die Varianz bestimmen wollten, so k¨onnten wir wie bei mn vorgehen, ben¨ otigten dann aber wieder h¨ohere Momente von X1 , die wiederum gesch¨ atzt werden m¨ ussten, etc. Immerhin sehen wir, dass wir mit Hilfe unserer Sch¨atzer mn und Vn∗ bereits ein praktisches Verfahren zur qualit¨atskontrollierten Sch¨atzung des Mittelwertes haben. Dazu ersetzen wir in der Absch¨atzung (5.25) f¨ ur die Wahrscheinlichkeit einer Abweichung des Sch¨atzers mn vom wahren Wert µ, die Gr¨ ossen µ und σ 2 durch ihre Sch¨atzer. Dies liefert uns einen Sch¨ atzer f¨ ur den wahren Fehler, der zumindest die gute Eigenschaft hat, fast sicher gegen eine obere Schranke zu konvergieren. Damit liegt folgende Strategie nahe: Wir suchen einen Sch¨atzer f¨ ur µ, der mit h¨ochstens Wahrscheinlichkeit x um mehr als cµ falsch liegt. Dann berechnen wir
98
5 Das Gesetz der großen Zahlen.
sukzessive mn , Vn bis zu einem Wert n∗ wo erstmals 2Vn2 < x. n2 m2n∗ c2
6 Der zentrale Grenzwertsatz
Wir kommen nun zu dem zweiten wichtigen Satz der Wahrscheinlichkeitstheorie, dem nicht ohne Grund so genannten zentralen Grenzwertsatz. Seine Bedeutung liegt zum einen wieder in den Implikationen f¨ ur die Statistik, denn er rechtfertigt in vielen F¨allen die Annahme einer Gauß’schen Verteilung (bzw. derer Derivate) f¨ ur Zufallsgr¨ossen die auf komplizierte Art und Weise zustande kommen. Zum anderen ist er ein weiteres Beispiel da¨ ur wie spezifische Gesetzm¨assigkeiten aus zuf¨ alligem Geschehen folgen. Einen speziellen Fall des zentralen Grenzwertsatzes haben wir schon mit dem Satz von de Moivre-Laplace kennengelernt.
6.1 Grenzwerts¨ atze Der zentrale Grenzwertsatz kann als eine Verfeinerung des Gesetzes der großen Zahlen aufgefasst werden. Wir wissen, das f¨ ur Summen, Sn ≡ Pn angiger, identisch verteilter Zufallsvariablen, Xi , n−1 Sn i=1 Xi , unabh¨ fast sicher gegen den Erwartungswert, EX1 konvergiert. Es liegt nun nahe, die Frage nach der Konvergenzgeschwindigkeit zu stellen. Dazu nehmen wir n−1 Sn − EX1 und blasen es mit einem n-abh¨angigen Faktor auf, der so gew¨ ahlt ist, dass im Grenzwert etwa endliches u ¨ brigbleibt. Offenbar muss dieser Faktor nach unendlich gehen, aber langsamer als n. Es liegt nahe, eine Potenz von n zu versuchen. Die Frage ist also: gibt es 0 < γ, so dass n−γ (Sn − nEX1 ) 99
(6.1)
100
6 Der zentrale Grenzwertsatz
einen nicht-trivialen Limes hat. Dieser sollte i.A. eine Zufallsvariable sein. Durch Betrachtung schon von numerischen Simulationen wird man sich leicht u ¨ berzeugen, dass die Konvergenz dabei bestenfalls in Verteilung zu erwarten ist. Unser Problem ist also die Berechnung der Verteilung des Limes von Summen unnabh¨angiger Zufallsvariablen nach geeigneter Reskalierung. Unsere Erfahrung mit dem speziellen Fall der Bernoulliverteilung legt dabei nahe, dass wohl γ = 1/2 gew¨ahlt werden sollte, und das der Grenzwert gerade die Gaußverteilung sein sollte; jedoch ist von vorneherein nicht auszuschliessen, dass all dies von der speziellen Wahl der Verteilungen abh¨angen kann. Ganz allgemein gesprochen, stellt sich die Aufgabe also wie folgt: • Unter welchen Annahmen an die Zufallsvariablen Xi gibt es ein γ, so dass der Ausdruck in (6.1) in Verteilung gegen eine Zufallsvariable konvergiert? • Was sind die m¨ oglichen Verteilungen der Grenzwerte? • Welche Bedingungen an die Verteilungen der Xi charakterisieren die Verteilung des Grenzwertes? Wir wollen dieses Problem hier nur in einem eingschr¨ankten Kontext behandeln, in dem die Xi unabh¨angige und identisch verteilte Zufallsvariablen sind. Unser Ziel wird also sein, die Konvergenz in Verteilung von Zufallsvariablen der Form (6.1) zu zeigen. Dazu k¨onnten wir auf verschiedene Weise vorgehen.
6.2 Charakteristische Funktionen Wir hatten gesehen, dass die Verteilungen als n-fache Faltungen der Verteilungen von Xi ausgedr¨ uckt werden k¨onnen. Die entsprechenden Ausdr¨ ucke wirken allerdings im Allgemeinen unhandlich. Eine gute Methode, mit solchen Faltungen umzugehen ist ist sogenannte Fouriertransformation. Wir definieren: Definition 6.2.1 Sei X eine reelle Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F ; P), dann heisst
φ(t) ≡ φX (t) = EeitX ≡ E cos(Xt) + iE sin(tX), (6.2) √ wo t ∈ R und i = −1 ist, die charakteristische Funktion von X bzw. die charakteristische Funktion der Verteilung, PX ≡ P ◦ X −1 , von X.
6.2 Charakteristische Funktionen
101
Bemerkung. Nat¨ urlich ist, wenn PX die Verteilung von X ist, Z φX (t) = eitx PX (dx) gerade die Fouriertransformierte des Masses PX . Wir beobachten zu¨ achst, dass φX (t) f¨ ur alle t ∈ R existiert, das sowohl sin(xt) als auch cos(xt) absolut integrierbar gegen jedes W -Maß sind. Wie schon die erzeugenden Funktionen sind die charakteristischen Funktionen mit den Momenten verkn¨ upft. Lemma 6.2.1 Sein φ die charakteristische Funktion einer Zufallvariablen X und sei φ(t) bei 0 n-mal differenzierbar. Dann gilt φ(0) = 1, φ(n) (0) ≡
(6.3)
dn φ(t = 0) = in EX n , dtn
(6.4)
Der Beweis ist elementar. Die N¨ utzlichkeit der charakteristischen Funktionen r¨ uhrt unter anderem daher, dass sie eine sehr sch¨one Eigenschaft bez¨ uglich der Faltung hat. Lemma 6.2.2 Seien X` , ` ∈ N unabh¨angige Zufallsvariablen mit Mittelwert EX` = m und mit charakteristischen Funktionen φ` (t) ≡ φX` (t). Pn Sei Sn = `=1 X` . Dann ist n Y φ` (t). (6.5) φSn (t) = `=1
Weiter gilt, wenn Zn ≡ n−γ (Sn − nm), 1−γ
φZn (t) = e−itn
m
n Y
φ` (n−γ t).
(6.6) (6.7)
`=1
Der Beweis ist elementar. In der Welt der charakteristischen Funktionen sind also die Summen unnabh¨ angier Zufallsvariablen einfach mit den Produkten verkn¨ upft, was viel leichter zu handhaben ist als die Faltung. Was man also nur noch braucht, damit dies n¨ utzlich ist, ist ein Weg zur¨ uck aus der Welt der charakteristischen Funktionen in die der Verteilungen. Diesen liefert uns der folgende Satz von Paul-Pierre L´evy.
102
6 Der zentrale Grenzwertsatz
Theorem 6.2.3 Sei X eine Zufallsvariable mit charakteristischer Funktion φ, dann gilt, f¨ ur alle a < b ∈ R, Z C −ita e − e−itb 1 φ(t)dt (6.8) lim C↑∞ 2π −C it P[X = a] + P[X = b] = P[a < X < b] + 2 Beweis. Wir setzen Z C −ita Z C −ita 1 e − e−itb e − e−itb itX 1 φ(t)dt = Ee dt I(C) ≡ 2π −C it 2π −C it −ita
−ibt
−e Da e eitX f¨ ur alle t und alle ω beschr¨ankt ist, k¨onnen wir den it Satz von Fubini anwenden und zun¨achst u ¨ber t integrieren. Dann ist Z C it(X−a) 1 e − eit(X−b) I(C) = E dt 2π it −C Z C 1 sin t(X − a) − sin t(X − b) = E dt π t "0Z # Z C(X−b) C(X−a) sin t sin t 1 dt − dt ≡ EJC (X) = E π t t 0 0
Jetzt m¨ ussen wir nur noch wissen, dass Z C Z 0 sin t π sin t lim dt = dt = C↑∞ 0 t t 2 −C ¨ [Beweis als Ubung: Beweise diese Formel. Hinweis: Benutze dass 1t = R0 tz amlich, dass −∞ e dz ist, und den Satz von Fubini!] ist. Dann folgt n¨ , wenn a < x < b, 1 lim JC (x) = 1/2 , wenn z = a, ∨z = b, C↑∞ 0 , wenn , a > x ∨ b < x
Da im u ¨brigen |JC (x)| ≤ 2 ist, folgt aus Lebegue’s Satz von der dominierten Konvergenz das behauptete Resultat. Der Satz impliziert, dass Verteilungsfunktionen und charakteristische Funktionen in einem eins-zu-eins Verh¨altnis stehen, und insbesondere die charakteristische Funktion die Verteilung vollst¨andig bestimmt (weswegen auch der Name).
6.3 Der zentrale Grenzwertsatz
103
Es ist also nicht verwunderlich, dass Konvergenz der charakteristischen Funktionen einer Folge von Zufallsvariablen deren Verteilung in Konvergenz impliziert. Auch dieser Satz geht auf L´evy zur¨ uck. Theorem 6.2.4 Seien Fn die Verteilungsfunktionen einer Folge von Zufallsvariablen Xn , und seien φn deren charakteristiche Funktionen. Wenn die Folge Fn schwach gegen eine Verteilungsfunktion, F , einer Zufallsvariablen X konvergiert, so konvergieren die Folgen φn (t) gleichm¨assig in |t| ≤ T , f¨ ur alle T < ∞, gegen die charakteristische Funktion von X. Wenn umgekehrt die charakteristischen Funktionen φn (t) gegen einen Grenzwert g(t) auf R konvergieren, der stetig in t = 0 ist, dann ist g(t) die charkteristische Funktion einer Zufallsvariablen X mit Verteilungsfunktion F , und die Folge Fn konvergiert schwach gegen F .
6.3 Der zentrale Grenzwertsatz Der Satz 6.2.4 von L´evy gibt uns ein einfach zu handhabendes Kriterium an die Hand, um einen zentralen Grenzwertsatz zu beweisen. Es gen¨ ugt danach offenbar, die charakteristische Funktion der Zufallsvariablen Zn zu berechnen und deren Konvergenz nachzuweisen und den Grenzwert als charakteristische Funktion einer bekannten Zufallsvariable zu identifizieren. In Hinblick darauf, dass wir stets statt Xi die Variablen Xi −EXi betrachten k¨ onnen, gen¨ ugt es im Folgenden die Annahme EXi = 0 zu machen. Aus Lemma 6.2.2 folgt sofort als Korollar: Corollary 6.3.5 Seien Xi unabh¨angige identisch verteilte Zufallsvariablen mit Erwartungswert 0 und charakteristischer Funktion φ, und sei Zn wie in (6.6). n φZn (t) = φ(nγ−1 t) . (6.9) n Bleibt also nur zu zeigen, wann und wohin φ(nγ−1 t) konvergiert.
Lemma 6.3.6 Sei φ eine zweimal differenzierbare Funktion auf R mit φ(0) = 1 und φ0 (0) = 0. Dann gilt 2 h in t 00 −1/2 (6.10) lim φ(n t) = exp + φ (0) . n↑∞ 2 Beweis. Wir setzen R2 (s) ≡ φ(s) − 1 −
s2 00 φ (0). 2
(6.11)
104
6 Der zentrale Grenzwertsatz
Wenn φ(t) zweimal differenzierbar ist, so bedeutet dies, da φ(0) = 1 und φ0 (0) = 0 ist, dass lim s−2 R2 (s) = 0,
|s|↓0
also f¨ ur jedes t ∈ R,
n R2 (tn−1/2 ) = 0. n↑∞ t2 lim
Nun ist aber
n h in t2 00 −1/2 −1/2 φ(n t) = 1 + φ (0) + R2 (n t) 2n
Da limn↑∞ (1 − y/n)n = e−y , ist n −1/2 t2 00 t2 00 t) φ (0) + R2 (tn−1/2 ) = lim e+ 2 φ (0)+nR2 (n lim 1 + n↑∞ n↑∞ 2n 2 t 00 = exp + φ (0) , 2 da ja limn↑∞ nR2 (tn−1/2 ) = 0. Damit ist das Lemma bewiesen. Damit k¨ onnen wir nun unser Hauptresultat sehr leicht herleiten. Theorem 6.3.7 Seinen Xi , i ∈ N unabh¨angige identisch verteilte Zu2 fallsvariable mit EXi = µ und E (Xi − EXi ) = σ 2 < ∞. Dann konvergiert n X (Xi − EXi )) Zn ≡ n−1/2 i=1
in Verteilung gegen eine Gauß’sche Zufallsvariable mit Mittelwert 0 und Varianz σ 2 .
Bemerkung. Der Satz in dieser Allgemeinheit wurde 1922 von Jarl Waldemar Lindeberg [6] bewiesen, nachdem Lyapunov eine Version unter st¨ arkeren Bedingungen schon 1901 gezeigt hatte. Beweis. Wir nehmen ohne Beschr¨ankung der Allgemeinheit µ = 0 an. Offenbar konvergiert nach dem Vorhergehenden die charakteristische Funktion von Zn gegen 2 2 τ σ . exp − 2 Andererseits ist die charakteristische Funktion der Gaußverteilung N (0, σ 2 ) gerade
6.3 Der zentrale Grenzwertsatz
φN (0,σ2 ) (t) = √
1 2πσ 2
Z
∞
2
e
x itx − 2σ 2
e
−∞
105
2 2 t σ dx = exp − . 2
(6.12)
Exkurs. Die Gleichung (6.12) kann man auf verschiedene Art beweisen. Die eleganteste ist folgende: Man bemerkt zun¨achst (durch quadratische Erg¨ anzung), dass t2
eitx e− 2σ2 dx = e−
t2 σ2 2
e−
(x−itσ2 )2 2σ2
.
Dann folgt die Behauptung, wenn Z ∞ (x−itσ2 )2 1 √ e− 2σ2 dx = 1. 2πσ 2 −∞ Nun ist aber durch Variablentransformation Z ∞ Z ∞−itσ2 2 )2 x2 1 1 − (x−itσ 2 2σ √ dx = √ e e− 2σ2 dx, 2 2 2πσ −∞ 2πσ −∞−itσ2 wobei im letzten Term das Integral in der komplexen Ebene l¨angs einer Geraden, die durch den Punkt −itσ 2 parallel zu reellen Achse verl¨auft, zu nehmen ist. Da der Integrand eine analytische Funktion ist, folgt aus dem Chauchy’schen Integralsatz, dass der Wert des Integrals derselbe (n¨ amlich 1) ist, als wenn l¨ angs der reellen Achse integriert wird. Fall man den Cauchy’schen Integralsatz nicht benutzen will, kann man stattdessen auch die Reihendarstellung der Exponentialfunktion und die Werte der Momente der Gaußverteilung benutzen. Es ist n¨amlich ∞ X (itX)n EN (0,σ2 ) eitx = EN (0,σ2 ) n! n=0 = = =
∞ X (it)n EN (0,σ2 ) X n n! n=0 ∞ X (−t2 )k
k=0 ∞ X
k=0
2k!
σ 2k (2k − 1)!!
t2 σ2 (−t2 σ 2 )k 1 = e− 2 . k 2 k!
wobei wir benutzt haben, dass ( 0, wenn n ungerade ist n EN (0,σ2 ) X = n σ (n − 1)!!, wenn n gerade ist
(6.13)
106
6 Der zentrale Grenzwertsatz
¨ [Der Beweis dieser Formel wird als Ubung belassen], sowie dass (2k − 1)!! 1 = k . 2k! 2 k! 6.4 Zentraler Grenzwertsatz bei nicht-konstanter Varianz Wir haben im zentralen Grenzwertsatz bisher nur den Fall unabh¨angiger, identisch verteilter Zufallsvariablen betrachtet. Man kann sich nat¨ urlich auch fragen, was passiert, wenn die Variablen zwar noch unabh¨angig sind, aber nicht mehr identisch verteilt sind. Klarerweise k¨onnen wir einen zentralen Grenzwertsatz nur unter geeigneten Voraussetzungen erwarten. So ist es klar, dass die Konvergenz zur Gaußverteilung nicht zu erwarten ist, wenn die Summen Sn tats¨achlich konvergieren, also durch die ersten paar Terme dominiert sind. Pn Wir setzen wie schon fr¨ uher s2n ≡ k=1 σk2 , wo σk2 = var(Xk ), und der Einfachheit EXk = 0 vorausgesetzt sei. Sicher werden wir f¨ ur den zentralen Grenzwertsatz fordern m¨ ussen, dass limn↑∞ sn = ∞. In dem Falle k¨ onnten wir hoffen, dass Zn ≡ Sn /sn , dass nun Mittelwert 0 und Varianz 1 hat, gegen die Gaußverteilung mit Varianz 1 konvergiert. Wenn wir mit diesem Ansatz in den oben gegebenen Beweis eingehen, stellen wir aber fest, dass wir ohne weiteres nicht zum Ziel kommen. Wir m¨ ussten n¨ amlich wissen, ob k X
R2,k (t/sn )
k=1
(wo R2,k wie in (6.11), aber mit φ durch ein k-abh¨angiges φk ersetzt, definiert ist) gegen Null konvergiert. Dies w¨are aber nur f¨ ur den Fall, √ dass sn ∼ n evident. Erstaunlicherweise gibt es ein scharfes Kriterium f¨ ur den ZGS, der ebenfalls auf die schon zitierte Arbeit von Lindeberg zur¨ uckgeht. Ich zitiere diesen Satz ohne auf den (nicht ganz einfachen Beweis) einzugehen. Theorem 6.4.8 Seien Xk unabh¨angige Zufallsvariablen mit Verteilung PX−k ≡ Pk , Mittelwerten µk Varianzen σk2 , so dass limn s2n = +∞ und Pn σ2 limn s2n = 0. Dann konvergiert s−1 n k=1 (Xk − µk ) dann und nur dann n in Verteilung gegen eine Gauß’sche Zufallsvariable mit Mittelwert 0 und Varianz 1, wenn, f¨ ur jedes > 0 n Z 1 X x2 Pk (dx) = 0 (6.14) lim 2 n↑∞ sn |x−µk |≥sn k=1
6.5 Stabile Verteilungen
107
Wir sehen leicht, dass unser altes Resultat aus dem neuen folgt. Im Fall identischer Verteilung ist (6.14) nur die Bedingung daran, dass das zweite Moment von X − EX existiert. 6.5 Stabile Verteilungen Die Tatsache, dass die Normalverteilung im zentralen Grenzwertsatz auftaucht kann man auch anders als u ¨ ber den oben gezeigten Beweis verstehen. Man kann sich n¨ amlich die Frage stellen, welche Eigenschaften u ussen, die als Limes von reskalierten ¨ berhaupt Zufallsvariablen haben m¨ Summen wie in (6.1) auftreten. Dazu schreiben sie p < 1, und q = 1 − p. Wir setzen n = pn + qn. P[pn] 0 Dann ist in Verteilung Sn = Spn + Sqn wobei wir S[pn] = i=1 Xi und 0 S[pn]= [qn] X 0 , wobei die Xi und die Xi alle unabh¨angig und identisch i=1 i verteilt sind. Offenbar ist dann (6.15) Zn = n−γ S[pn] − npEX1 + S[qn] − nqEX10 −γ γ −γ = n [np] [np] S[pn] − npEX1 0 +n−γ [nq]γ [nq]−γ S[qn] − nqEX10 0 = pγ Z[pn] + q γ Z[qn]
wo Z 0 eine unabh¨ angige Kopie (= eine von Z unabh¨angige Zufallsvariable mit der gleichen Verteilung wie Z) von Z ist. Wenn nun Zn in Verteilung gegen eine Zufallsvariable Z konvergiert, so konvergieren nat¨ urlich 0 die Verteilungen von Z[pn] und Z[qn] gegen Zufallsvariablen mit derselben Verteilung. Dass, heisst, Z muss die Eigenschaft haben, dass D
Z = pγ Z + q γ Z 0 ,
(6.16)
wo Z und Z 0 unabh¨ angig sind und die gleiche Verteilung haben. Wir hatten schon gesehen, dass f¨ ur γ = 21 , die Gaußverteilung gerade diese Eigenschaft hat. Man kann im u ufen, dass die Gauߨ brigen leicht nachpr¨ verteilung die einzige Verteilung ist, die diese Eigenschaft mit γ = 1/2 hat. Nun ist auch leicht zu sehen, dass, wenn die Varianz von Xi endlich ist, dass dann nur die Normierung mit γ = 1/2 dazu f¨ uhrt, dass auch die Varianz von Z endlich ist. Damit ist die Gaußverteilung in diesem Fall schon ein klarer Favorit. Im Fall, dass die Varianz von Xi nicht endlich ist, schl¨agt das Argument f¨ ur γ = 1/2 nat¨ urlich nicht mehr, und man kann sich dann die Frage nach einem Verteilungslimes mit allgemeineren γ stellen. Aus den obigen Betrachtungen sehen wir dann, dass im Ergebnis in jedem Fall
108
6 Der zentrale Grenzwertsatz
nur eine Zufallvariable herauskommen kann, die die Gleichung (6.16) erf¨ ullt. Die Verteilungen solcher Zufallsvariablen nennt man auch stabile Verteilungen (im engeren Sinn). Mit Hilfe solcher Verteilungen kann man in der Tat Verallgemeinerungen des zentralen Grenzwertsatzes f¨ ur Zufallsvariablen die keine endliche Varianz haben herleiten. Es w¨ urde hier allerdings zu weit gehen, dieses Thema auszuf¨ uhren.
6.6 Parametersch¨ atzung Wir hatten im vorigen Kapitel gesehen, wie das Gesetz der großen Zahlen verwendet werden kann um Sch¨atzer sowohl f¨ ur Wahrscheinlichkeitsverteilungen als auch Erwartungswert und Varianz zu konstruieren. Allerdings hatten wir auch gesehen, dass es schwierig und aufwendig ist, Wahrscheinlichkeitsverteilungen zu sch¨atzen. Es w¨are f¨ ur praktische Zwecke wesentlich einfacher, wenn wir bereits a priori etwas u ¨ ber die Wahrscheinlichkeitsverteilung der zugrundeliegenden Zufallsvariablen w¨ ussten, und nur noch einige wenige Parameter identifizieren m¨ ussten. Der zentrale Grenzwertsatz ist ein wesentliches Resultat, dass in gewissen Situationen solche von wenigen Parametern indizierten Klassen von Verteilungen suggeriert, hier n¨amlich gerade die Gaußverteilung. Betrachten wir ein Beispiel aus der sogenannten linearen Regression. Wir betrachten etwa einen zeitabh¨angigen Vorgang, f (t) ∈ R, t ∈ R+ , zu gewissen Zeiten t1 < t2 < · · · < tn . Jede Beobachtung liefert einen Messwert zi . Idealerweise w¨ are zi = f (ti ), aber durch Fehler ist diese Gleichung verf¨ alscht und wir sollen annehmen, dass die Differenz eine Zufallsvariable ist. Unsere Aufgabe ist, aus den Beobachtungen einen Sch¨ atzer f¨ ur f zu gewinnen, und gleichzeitig eine Qualit¨atsabsch¨atzung f¨ ur den Sch¨ atzer, sowie einen Sch¨atzer f¨ ur die Verteilung der Fehler, finden. Ohne weitere Vorabinformation ist dieses Problem praktisch unl¨osbar, da es unendlich viele Parameter involviert. Wir m¨ ussen also vereinfachende Annahmen machen. Zu¨achst betrachten wir den Fall, in dem wir annehmen, dass f (t) = a+bt eine lineare Funktion ist, wobei a und b unbekannte, zu bestimmende Parameter sind. Weiter nehmen wir an, dass die Messfehler unabh¨ angige, identisch verteilte Zufallsvariablen, Xi sind. Dann sind unsere Beobachtungen (im Rahmen des Modells) beschrieben als Zufallsvariablen Zi = a + bti + Xi .
(6.17)
6.6 Parametersch¨atzung
109
Eine weitere Vereinfachung tr¨ ate ein, wenn wie einschr¨ankende Annahmen an die Verteilung der Xi machen k¨onnten. Hier greift nun der zen¨ trale Grenzwertsatz: wenn wir der Uberzeugung sind, dass die Fehler Xi sich als Summen vieler kleiner “Elementarfehler”, die unseren Messapparat beeinflussen, ergeben, dann liegt es nahe anzunehmen, dass die Xi gaußverteilt sind, mit unbekanntem Mittelwert, µ, und Varianz, σ 2 . Wir haben also ein vier-parametriges Modell f¨ ur unsere Beobachtungen, mit Parametern a, b, µ, σ2 (wobei wir leicht sehen, dass wir in unserem Fall zwischen a und µ nicht unterscheiden k¨onnen, und daher nur hoffen k¨ onnen, dass µ = 0, d.h. dass unsere Messungen keinen systematischen Fehler aufweisen). Die Aufgabe der Statistik ist es nun, Sch¨atzer f¨ ur diese Parameter zu finden (also Familien von Zufallsvariablen, die, wenn die Zi durch dieses Modell beschrieben werden), gegen diese Parameter konvergieren. Eine solche Familie von Sch¨atzern nennt man konsistent. Letzlich ist dies eigentlich noch nicht genug: wir w¨ urden auch gerne wissen, ob unsere Modellannahmen plausibel waren!
6.6.1 Das Maximum-Likelihood Prinzip Eine einleuchtende Idee zu solchen Sch¨atzern zu kommen besteht darin, die Parameter so zu sch¨ atzen, dass den beobachteten Werten, Xi , die gr¨ osste Wahrscheinlichkeit zukommt. Betrachten wir dazu zun¨achst ein sehr einfaches BeispieL: Wir beobachten eine Folge von M¨ unzw¨ urfen, z1 , . . . , zn ∈ {0, 1}. Wir wollen diese modellieren als Realisierung von unabh¨ angigen, identisch verteilten Bernoulli Zufallsvariablen, Xi , mit Parameter p. Aus den Beobachtungen wollen wir nun den Wert von p sch¨ atzen. Das Maximum-likelihood Prinzip sagt, man sch¨atze p = p(z1 , . . . , zn ), so dass die Wahrscheinlichkeit der Beobachtungen maximal wird, also dass %n (z1 , . . . , zn ; p) ≡ P[X1 = z1 ∧ X2 = z2 ∧ · · · ∧ Xn = zn ] (6.18) n Y = pzi (1 − p)1−z1 i=1
maximal wird. Wir nennen %n (p; z1 , . . . , zn ) die likelihood-Funktion f¨ ur unser Modell. Um dasjenige p zu bestimmen, dass %n (p; z1 , . . . , zn ) maximiert, suchen wir zun¨ achst einen kritischen Punkt dieser Funktion, d.h. wir l¨osen die Gleichung
110
6 Der zentrale Grenzwertsatz
n
X d %n (p; z1 , . . . , zn ) = 0= dp i=1
zi 1 − zi − p 1−p
= %n (p; z1 , . . . , zn )
Y n i=1
n X i=1
pzi (1 − p)1−z1 zi 1 − p(1 − p) 1 − p
.
Diese Gleichung hat als einzige L¨osung n
p = p∗n = p∗n (z1 , . . . , zn ) =
1X zi . n i=1
Da zi ∈ {0, 1} liegen, ist zi = 1Izi =1 , so dass der Maximum-Likelihood Sch¨ atzer f¨ ur die Wahrscheinlichkeit von {Xi = 1} gerade gleich der Frequenz des Auftretens von 1 ist, der uns ja schon als konsistenter Sch¨atzer bekannt ist. In diesem Fall liefert das Maximum-likelihood Prinzip also nichts neues, gibt aber eine interessante alternative Interpretation der Frequenz. Als n¨ achstes betrachten wir das interessantere Beispiel der Regression in dem oben beschriebeben Gauß’schen Modell. Hier ist es allerdings so, dass wegen der Stetigkeit der Gaußverteilung die Wahrscheinlichkeit jeder Beobachtung gleich null is. Es liegt aber nahe, als “likelihood Funktion” statt der Wahrscheinlichkeit der Beobachtung die Wahrscheinlichkeitsdichte zu w¨ ahlen, also %n (a, b, σ 2 ; z1 , . . . , zn ) ≡ =
n Y
i=1 n Y
i=1
ρ0,σ2 (zi − a − bti ) √
(6.19)
(zi − a − bti )2 . exp − 2σ 2 2πσ 2 1
Das maximum-likelihood Prinzip sagt nun, dass der maximum-likelihood Sch¨ atzer f¨ ur a, b, σ 2 , a∗n , b∗n , (σ 2 )∗n , dadurch gegeben ist, dass %n (n(a∗n , b∗n , (σ 2 )∗n ; z1 , . . . , zn ) ≡
max
a,b∈R,σ2 ∈R+
%n (a, b, σ 2 ; z1 , . . . , zn )
(6.20) Nat¨ urlich h¨ angt der maximum-likelihood Sch¨atzer von den Beobachtungen zi ab, ist also eine Zufallsvariable. In unserem Fall ist die L¨ osung des Maximierungsproblems recht einfach. Es empfiehlt sich, anstatt direkt %n zu maximieren, dessen Loga-
6.6 Parametersch¨atzung
111
rithmus, ln %n ((a, b, σ 2 ; z1 , . . . , zn ) = −
n X (zi − a − bti )2 i=1
2σ 2
−
1 ln(2πσ 2 ), 2
zu maximieren. Dies f¨ uhrt auf die drei Gleichungen n X i=1
n X i=1
n X i=1
(zi − a − bti )/σ 2 = 0 ti (zi − a − bti )/σ 2 = 0 (zi − a − bti )2 /2σ 4 −
n = 0. 2σ 2
Es folgt n
σ2 =
1X (zi − a − bti )2 n i=1
(6.21)
n
1X (zi − bti ) n i=1 Pn t (z − a) Pni i 2 b = i=1 i=1 ti
a=
und weiter, mit Tn =
Pn
i=1 ti , Pn Pn ti zi − Tnn i=1 zi , b∗n = i=1Pn Tn2 2 i=1 ti − n
(6.22) (6.23)
(6.24)
Nachdem b exlizit bekannt ist kann nun a und σ 2 ebenfalls exlizit durch Einsetzen ausgerechnet werden. n
a∗n = ∗
σ2 n =
1X (zi − b∗n ti ), n i=1
(6.25)
n
1X (zi − a∗n − b∗n ti )2 . n i=1
(6.26)
Wesentlich zu bemerken ist aber, dass die Gleichungen (6.22) und (6.23) besagen, dass a und b so gew¨ ahlt werden m¨ ussen, dass der durch (6.21) gegebene Ausdruck f¨ ur σ 2 als Funktion von a und b minimiert wird. Letzterer ist aber gerade die Summe der Quadrate der Abweichung des Beobachtung vom theoretischen Wert. Mit anderen Worten, die maximumlikelihood Methode liefert im Fall der Gaußverteilung gerade die Metho-
112
6 Der zentrale Grenzwertsatz
de der kleinsten Quadrate f¨ ur die Sch¨atzung der Parameter a und b. Wir wollen noch nachpr¨ ufen, ob bzw. wann unsere Sch¨atzer gut sind, d.h., ob sie im Fall, dass unsere Modellannahme richtig war, d.h. ob, wenn die zi durch die Zufallsvariablen (6.17) gegeben sind, a∗n → a, ∗ b∗n → b und σ 2 n → σ 2 konvergieren. Dazu stellen wir als erstes fest, dass unsere Sch¨ atzer f¨ ur a und b erwartungstreu sind. Indem wir (6.17) in (6.24) einsetzen, sehen wir n¨ amlich leicht, dass Pn Tn Pn i=1 ti EZi − n i=1 EZi ∗ Ebn = Pn 2 Tn2 i=1 ti − n Pn Tn Pn i=1 (a + bti ) i=1 ti (a + bti ) − n = Pn 2 Tn2 i=1 ti − n Pn 2 Pn T2 b i=1 t + a i=1 ti − Tn a − b nn ) = Pn 2 Tn2 i=1 ti − n = b. Weiter ist dann auch n
Ea∗n =
n
1X 1X E(Zi − b∗n ti ) = Ea∗n = (a + bti − Eb∗n ti ) = a, n i=1 n i=1
Der Sch¨ atzer f¨ ur σ 2 wird dagegen nicht erwartungstreu sein, was uns aber hier nicht bek¨ ummern soll. Als n¨achstes fragen wir nach der Konsistenz. Offenbar ist Pn Tn Pn i=1 ti (a + bti + Xi ) − n i=1 (a + bti + Xi ) ∗ bn = Pn 2 Tn2 i=1 ti − n Pn Tn Pn ti X i − n i=1 Xi . = b + i=1 Pn 2 T 2 n i=1 ti − n
Wir wllen zeigen, dass der zweite Term nach null konvergiert. Dabei benutzen wir diesmal, dass die Variablen Xi gaußverteilt sind, und daher dasselbe f¨ ur die hier auftretenden Summen gilt. Wir k¨onnen zum Beispiel die exponentielle Markov-Ungleichung (Korollar 5.2.4) benutzen um zu zeigen, dass " n # X √ 2 2 Xi | ≥ Cn n ≤ 2e−Cn/2σ P | (6.27) i=1
und
6.6 Parametersch¨atzung
P |
n X i=1
v u n uX 2 2 ti Xi | ≥ Cn t t2i ≤ 2e−Cn/2σ
113
(6.28)
i=1
¨ [Ubung: Beweise die Absch¨ atzungen (6.27) und (6.28)!] Wenn wir Cn ≥ √ 2σ ln n w¨ ahlen, so sind diese Wahrscheinlichkeiten summierbar, die betreffenden Ereignisse treten also mit Wahrscheinlichkeit 1 nur endlich oft auf. Daher haben wirfast sicher f¨ ur alle bis auf endlich viele Werte von n, pPn Tn 2 √ i=1 ti + n ∗ |bn − b| ≤ Cn Pn . (6.29) 2 2 − Tn t i i=1 n Pn Nun ist schon nach der Schwartz’schen Ungleichung Tn2 /n ≤ i=1 t2i , Pn 2 und der Nenner ist proportional zu i=1 ti , so dass insgesamt, mit Wahrscheinlichkeit 1 f¨ ur alle bis auf endlich viele Werte von n, 1 (6.30) |b∗n − b| ≤ Cn C pPn 2 ≤ CCn n−3/2 ↓ 0 i=1 ti
f¨ ur eine numerische Konstante C. Weiter ist n n 1X 1X Xi + ti (b − b∗n ). a∗n − a = n i=1 n i=1
Der erste Term der rechten Seite konvergiert wegen dem Gesetz der großen Zahlen fast sicher gegen Null; der zweite ist wegen (6.30) kleiner als Tn CCn pPn 2 ≤ CCn n−1/2 , i=1 ti
und konvergiert damit auch fast sicher gegen null. Damit sind also be∗ reits b∗n und a∗n konsistente Sch¨atzer. Schliesslich bleibt noch σ 2 n zu betrachten. Hier ist n 1X ∗ σ2 n = (Xi + (a − a∗n ) + (b − b∗n )ti )2 (6.31) n i=1 n
=
1X 2 X n i=1 i n
1X + 2Xi ((a − a∗n ) + (b − b∗n )ti ) + ((a − a∗n ) + (b − b∗n )ti )2 n i=1
Der erste Term strebt fast sicher gegen σ 2 nach dem Gesetz der großen
114
6 Der zentrale Grenzwertsatz
Zahlen, und die letzte Zeile konvergiert fast sicher gegen null, wie man unter Benutzung der bisherigen Absch¨atzungen mit einiger Rechnung zeigen kann. Die maximum-likelihood Methode liefert uns also tats¨achslich eine konsistente Familie von Sch¨ atzern. Ein grosser Vorteil der Methode ist es, in sehr vielf¨ altigen Situationen anwendbar zu sein.
7 Markov Prozesse
In den bisherigen 6 Kapiteln haben wir die grundlegenden Begriffe der Wahrscheinlichkeitstheorie kennengelernt und insbesonder die zwei wichtigsten S¨atze, das Gesetz der Großen Zahlen und den zentralen Grenzwertsatz hergeleitet. Dabei waren unabh¨angige Zufallsvariablen unser Grundbaustein, und alle unsere Resultate betrafen Objekte, die aus solchen konstruiert waren, insbesonder Summen und deren Grenzwerte. In diesem Teil der Vorlesung wollen wir erstmals u angige Zufallsvariablen hinausgehen und eine in vielen ¨ber unabh¨ Anwendungen wichtige Klasse von stochastischen Prozessen, die sogenannten Markov Prozesse behandeln. Diese sind in vieler Hinsicht die wichtigsten stochastischen Prozesse u ur ist, ¨ berhaupt. Der Grund daf¨ dass sie einerseits so vielseitig sind, dass sehr viele dynamischen Prozesse mit ihrer Hilfe modelliert werden k¨onnen, andererseits aber mathematisch noch einigermaßen behandelbar sind. Wir werden in dieser Vorlesung nat¨ urlich nur einige wenige, einfache Beispiele dieser reichen Klasse betrachten. Markov Prozesse wurden von Andrey Andreyevich Markov (1856-1922) eingef¨ uhrt.
7.1 Definitionen Der Begriff des stochastischen Prozesses verallgemeinert den der Folgen unabh¨ angiger Zufallsvariablen beziehungsweise der Summen solcher, wie wir sie in den vorherigen Kapiteln betrachtet haben. Ingredienzen sind Familien von Zufallsvariable Xt , die f¨ ur gegebenes t Werte in einem Raum S, dem sogenannten Zustandsraum, annehmen. In der Regel wird 115
116
7 Markov Prozesse
S eine Teilmenge von R, oder von Rd , d ≥ 1 sein, man kann aber auch allgemeinere R¨ aume zulassen. In der Folge werden wir uns haupts¨achlich mit dem einfachsten Fall, in dem S eine endliche Menge ist befassen. t nimmt Werte in einer sogenannten Indexmenge, I an. Die wichtigsten Beispiele sind I = N0 und I = R+ , wobei wir uns hier im wesentlichen auf den einfacheren Fall I = N0 einschr¨anken wollen. Wir interpretieren den Index t als Zeit, und fassen Xt als Zustand eines Systems zur Zeit t auf. Der stochastische Prozess {Xt }t∈I ist als Familie von Zufallsvariablen definiert auf einem Wahrscheinlichkeitsraum (Ω, F , P) zu verstehen. Im Fall, dass I = N0 k¨ onnen wir nat¨ urlich Ω = S0N , und F = B(S)⊗N0 , also den unendlichen Produktraum, w¨ahlen. Definition 7.1.1 Sei (Ω, F , P) ein abstrakter Wahrscheinlichkeitsraum. Eine Familie Xt , t ∈ N0 von messbaren Abbildungen von (Ω, F ) → (S N0 , B(S)⊗N0 ) heißt ein Stochastischer Prozess mit Zustandsraum S und Indexmenge N0 . Bemerkung. Ein stochastischer Prozess mit Indexmenge I heißt auch ein stochastischer Prozess mit diskreter Zeit. Eine wichtige Gr¨ oße ist selbstverst¨andlich die Verteilung des Prozesses X, formal gegeben durch das Maß PX ≡ P◦X −1 . PX ist ein Wahrscheinlichkeitsmaß auf (S0N , B(S)⊗N0 ). Nun hatten wir die Produkt-σ-Algebra B(S)⊗N0 im Kapitel 3, Definition 3.5.1 definiert. Daraus ergibt sich eine wichtige Charakterisierung der Verteilung eines stochastischen Prozesses: Theorem 7.1.1 Die Verteilung, PX , eines stochastischen Prozesses X mit Indexmenge N0 und Zustandsraum S ist vollst¨andig bestimmt durch die Angabe aller endlich-dimensionaler Randverteilungen, Pt1 ,...,tn , n ∈ N0 , t1 , . . . tn ∈ N0 , gegeben durch Pt1 ,...,tn (A1 , . . . , An ) = P [{Xt1 ∈ A1 } ∩ · · · ∩ {Xtn ∈ An }]
(7.1)
f¨ ur Ai ∈ B(S). Die Randverteilungen erf¨ ullen die Kompatibilit¨atsbedingungen: F¨ ur k < n, Pt1 ,...,tn (A1 , . . . , Ak , S, . . . , S) = Pt1 ,...,tk (A1 , . . . , Ak )
(7.2)
Umgekehrt gibt es f¨ ur jede Sammlung von Verteilungen, die dieses Kompatibilit¨atsbedingungen erf¨ ullen, einen stochastischen Prozess mit diesen Randverteilungen. Beweis. Dass die Verteilung PX durch die Randverteilungen eindeutig bestimmt ist, folgt, wie im Fall des Produktmaßes, aus der Tatsache,
7.1 Definitionen
117
dass die Zylindermengen ein durchschnittstabiles Dynkin-System bilden dass die σ-Algebra erzeugt. Der Beweis der Existenz wird wie schon im Fall des Produktmaßes ausgelassen. In dieser Allgemeinheit sind stochastische Prozesse nat¨ urlich nur schwer handhabbar. Wir m¨ ussen uns also auf spezielle Klassen einschr¨anken, die in der einen oder anderen Form leichter zu beschreiben sind. Die Markovprozesse sind (neben den Gauss’schen Prozessen) die wichtigste Klasse. Wir werden in dieser Vorlesung nur eine spezielle Unterklasse von Markovprozessen, die sogenannten Markovketten mit diskreter Zeit, betrachten. Dabei ist der Zustandsraum eine h¨ochstens abz¨ahlbare Menge. Definition 7.1.2 Ein stochastischer Prozess mit diskreter Zeit und abz¨ ahlbarem Zustandsraum S heißt eine Markovkette, genau dann, wenn, f¨ ur alle n ∈ N0 , und t1 < t2 < · · · < tn , x1 , . . . , xn ∈ S, P Xtn = xn |Xtn−1 = xn−1 , Xtn−2 = xn−2 , . . . , Xt1 = x1 (7.3) = P Xtn = xn |Xtn−1 = xn−1
Bemerkung. Markovprozesse k¨onnen auch f¨ ur allgemeine Zustandsr¨aume wie oben angegeben definiert werden, jedoch m¨ ußten wir dazu den Begriff der bedingten Wahrscheinlichkeit so verallgemeinern, dass auch auf Ereignisse mit Wahrscheinlichkeit Null bedingt werden kann. Dies wird aber erst Gegenstand der Vorlesung W-Theorie 2 sein. Aufgrund der Diskretheit der Zeit k¨onnen wir in (7.3) nat¨ urlich ti = i w¨ahlen und erhalten dann, dass P [Xn = xn |Xn−1 = xn−1 , Xn−2 = xn−2 , . . . , X1 = x1 ]
(7.4)
= P [Xn = xn |Xn−1 = xn−1 ] ≡ pn−1 (xn−1 , xn )
¨ Die Gr¨ oßen pn−1 (xn−1 , xn ) heissen Ubergangswahrscheinlichkeiten Wie man sich leicht u ¨ berzeugt bestimmen Sie zusammen mit der Anfangsverteilung π0 (x) ≡ P[X0 = x] vollst¨andig die Verteilung einer Markovkette. Theorem 7.1.2 Die Wahrscheinlichkeitsverteilung einer Markovkette mit diskreter Zeit ist eindeutig bestimmt durch die Angabe der Anfangs¨ verteilung, π0 (x), x ∈ S und der Ubergangswahrscheinlichkeiten pn (x, y), n ∈ N, x, y ∈ S. Umgekehrt gibt es f¨ ur jedes Wahrscheinlichkeitsmaß π0 auf (S, B(S)) und einer Sammlung von Zahlen pn (x, y) mit der Eigenschaft, dass, f¨ ur alle n ∈ N und alle x ∈ S, X pn (x, y) = 1, (7.5) y∈S
118
7 Markov Prozesse
¨ eine Markovkette mir Anfangsverteilung π0 und Ubergangswahrscheinlichkeiten pn (x, y). Beweis. Da wir auf einem diskreten Raum S arbeiten, gen¨ ugt es offenbar f¨ ur alle n ∈ N, und alle xi ∈ S, i ≤ n, alle Wahrscheinlichkeiten der Form P[Xn = xn , Xn−1 = xn−1 , . . . , X1 = x1 , X0 = x0 ] zu kennen. Nun ist aber wegen der Markoveigenschaft (5.2.3) und der Definition der bedingten Wahrscheinlichkeit P[Xn = xn , Xn−1 = xn−1 , . . . , X1 = x1 , X0 = x0 ]
(7.6)
= P[Xn = xn |Xn−1 = xn−1 ]P[Xn−1 = xn−1 , . . . , X1 = x1 , X0 = x0 ] = pn−1 (xn−1 , xn )P[Xn−1 = xn−1 , . . . , X1 = x1 , X0 = x0 ]
= pn−1 (xn−1 , xn )pn−2 (xn−2 , xn−1 )P[Xn−2 = xn−2 , . . . , X1 = x1 , X0 = x0 ] = pn−1 (xn−1 , xn )pn−2 (xn−2 , xn−1 ) . . . p0 (x0 , x1 )P [X0 = x0 ] = pn−1 (xn−1 , xn )pn−2 (xn−2 , xn−1 ) . . . p0 (x0 , x1 )π0 (x0 ) Die erste Aussage des Satzes ist damit offensichtlich wahr. Um die Existenz einer Markovkette f¨ ur gegebene π0 und pn (x, y) einzusehen, m¨ ussen wir nur Zeigen, dass die durch die rechte Seite von (7.6) gegebenen Ausdr¨ ucke eine kompatible Familie von Randverteilugen definieren, wenn (7.5) erf¨ ullt ist. Dies ist aber in der Tat leicht (wenn auch mit einigem ¨ Schreibaufwand ) nachzupr¨ ufen und wird als Ubung gestellt.
7.2 Markovketten mit endlichem Zustandsraum Nach diesem allgemeinen Bemerkungen wollen wir uns in dieser Vorlesung nur mit dem einfachsten, aber bereits interessanten Spezialfall befassen, in dem (i) der Zustandsraum, S, eine endlich Menge ist, also S = {1, . . . , d}, d ∈ N, und ¨ (ii) die Ubergangswahrscheinlichkeiten pn−1 (xn−1 , xn ) nicht von n abh¨angen. Man nennst solche Markovketten zeitlich homogene oder station¨are Markovketten mit endlichem Zustandsraum. Beispiel. Ein sehr einfaches Beispiel f¨ ur eine station¨are Markovkette ist folgendes (recht schlechte) Klimamodell. Wir wollen dabei das Wetter auf die Grundfrage “Regen oder Sonnenschein” reduzieren. Das Wetter am Tag n soll also durch eine Zufallsvariable Xn die die Werte 0 (=Regen) und 1 (=Sonne) annimmt beschrieben werden. Versucht man diese
7.2 Markovketten mit endlichem Zustandsraum
119
durch unabh¨ angige Zufallsvariablen zu beschreiben, stellt man fest, dass dies mit den Beobachtungen nicht kompatibel ist: l¨angere Perioden mit konstantem Regen oder Sonnenschein treten in Wirklichkeit h¨aufiger auf als das Modell vorhersagt. Man u ¨ berlegt sich, dass es sinnvoll scheint, die Prognose des Wetters morgen davon abh¨angig zu machen, wie das Wetter heute ist (aber nicht davon wie es gestern und vorgestern war). Dies f¨ uhrt auf die Beschreibung durch eine Markovkette mit den Zust¨anden ¨ 0 und 1, und Ubergangswahrscheinlichkeiten p(0, 1) = p01 , p(0, 0) = p00 = 1 − p01 ,
(7.7)
p(1, 0) = p10 , p(1, 1) = p11 = 1 − p1,0
Zusammen mit der Anfangsverteilung p(0) = p0 , p(1) = p1 = 1 − p0 legt dies eine Markovkette fest. Wie sehen, dass wir nun 3 freie Parameter zur Verf¨ ugung haben, mit denen wir im Zweifel das Wetter besser fitten k¨ onnen. ¨ Wir sehen, dass die Ubergangswahrscheinlichkeiten einer station¨aren Markovkette eine d × d Matrix, P , bilden. Diese Matrix nennt man auch ¨ die Ubergangsmatrix der Markovkette. Zusammen mit dem Vektor der Anfangsverteilung, π0 , legt diese die Wahrscheinlichkeitsverteilung einer Markovkette vollst¨ andig fest, d.h. Wahrscheinlichkeiten beliebiger Ereignisse lassen sich durch diese Objekte ausdr¨ ucken. Durch diese Beobachtung begr¨ undet sich ein enger Zusammenhang zwischen Markovketten und der linearen Algebra. ¨ Ubergangsmatriten sind freilich keine beliebigen Matrizen, sondern sie haben eine Reihe von wichtigen Eigenschaften. ¨ Lemma 7.2.3 Sei P die Ubergangsmatrix einer station¨aren Markovkette mit Zustandsraum S = {1, . . . , d}. Seien pij die Elemente von P . Dann gilt: (i) F¨ ur alle i, j ∈ S gilt 1 ≥ pij ≥ 0. P (ii) F¨ ur alle i ∈ S gilt j∈S Pij = 1.
¨ Umgekehrt gilt: Jede Matrix die (i) und (ii) erf¨ ullt, ist die Ubergangsmatrix einer Markovkette. Beweis. Die beiden ersten Eigenschaften sind offensichtlich, weil ja f¨ ur jedes i, pi· = P[Xn+1 = ·|Xn=i ] eine Wahrscheinlichkeitsverteilung auf S ist. Der Umkehrschluss folgt aus Satz 7.1.2.
120
7 Markov Prozesse 1 0.8 0.6 0.4 0.2
50
100
150
200
250
300
350
50
100
150
200
250
300
350
50
100
150
200
250
300
350
1 0.8 0.6 0.4 0.2
1 0.8 0.6 0.4 0.2
Fig. 7.1. Ein Jahresverlauf des “Wetters” in unserem Modell mit p01 = p10 = 0.5, 0.15, und 0.05.
Matrizen die die Eigenschaften (i) und (ii) aus Lemma 7.2.3 erf¨ ullen ¨ heissen stochastische Matrizen Wir wollen uns die Ubergangsmatrizen f¨ ur einige Beispiele von Markovketten ansehen. Beispiele. • Unabh¨ angige Zufallsvariablen. Schon eine Folge unabh¨angiger, identisch verteilter Zufallsvariablen ist eine Markovkette. Hier ist P[Xn = j|Xn−1 = i] = P[X0 = j] = p0 (j).
7.2 Markovketten mit endlichem Zustandsraum
121
Also ist pij = p0 (j), d.h. alle Zeilen der Matrix P sind identisch gleich dem Vektor der die Anfangsverteilung der Markovkette angibt. • Summen unabh¨ angiger Zufallsvariablen Auch Summen unabh¨angiger Zufallsvariablen sind Markovketten. Wir betrachten den Fall dass Xi unabh¨ angige Rademachervariablen mit Parameter p sind, aslo eine Irrfahrt. In der Tat ist if i = j + 1 p, P[Sn = j|Sn−i = i] = 1 − p, if i = j − 1 (7.8) 0, else allerdings ist in diesem Fall der Zustandsraum abz¨ahlbar unendlich, n¨ amlich Z. Wir k¨ onnen eine Variante betrachten, in dem die Irrfahrt angehalten wird, wenn sie auf den Rand des endlichen Gebiets [−L, L] ¨ trifft. Dazu modifizieren wir die Uberangswahrscheinlichkeiten aus (7.8) f¨ ur den Fall i = ±L, so dass ( 1, if i = ±L P[Sn = j|Sn−i = ±L] = (7.9) 0, else ¨ Die Ubergangsmatrix hat dann folgende Gestalt: 1 0 0 ... ... ... 1 − p 0 p 0 ... ... 0 1−p 0 p 0 ... ... ... ... ... ... ... P = ... ... ... ... ... ... 0 ... 0 1 − p 0 p 0 ... ... 0 1 − p 0 0 ... ... ... 0 0
0 0 0 . . . . . . 0 p 1
• Unser Wettermodell (7.7). Hier ist 1 − p01 p01 P = p10 1 − p10 Dass der Zusammenhang zwischen Markovketten und Matrizen nicht nur oberfl¨ achlich ist, zeigt sich daran, dass in der Berechnung verschiedener Wahrscheinlichkeiten tats¨achlich Matrixoperationen auftauchen.
122
7 Markov Prozesse
So ist P[Xn = j|X0 = i] =
X
p(i, i1 )p(i1 , i2 ) . . . p(in−2 , in−1 )p(in−1 , j) = (P n )ij .
i1 ,i2 ,...,in−1
Man schreibt gelegentlich f¨ ur die bedingte Wahrscheinlichkeit P[Xn = j|X1 = i] = Pn (i, j) und nennt diesen Ausdruck den Propagator. Es folgt, dass X Pn (j) ≡ P[Xn = j] = π0 (i)Pn (i, j) = (π0 P n )j . (7.10) i∈S
Wir sehen also, dass die Verteilung der Markovkette zur Zeit n durch die Wirkung der Matrix P n von links auf die Anfangsverteilung gegeben ist. Eine der ersten Fragen, die man sich stellen wird, ist, ob Verteilungen, π0 , gibt, die unter der Wirkung der Markovkette invariant sind, d.h. f¨ ur die Pn (j) = π0 (j),
(7.11)
f¨ ur alle n ∈ N und f¨ ur alle j ∈ S gilt. Offensichtlich ist wegen der Gleichung (7.10), die Frage nach invarianten Verteilungen ¨aquivalent zur Frage nach links-Eigenwerten der Matrix P : Lemma 7.2.4 Sei P eine stochastische Matrix. Dann ist π0 genau dann ¨ eine invariante Verteilung f¨ ur eine station¨are Markov-Kette mit Ubergangsmatrix P , wenn π0 ein links-Eigenvektor von P zum Eigenwert 1 ist, mit π0 (i) ≥ P 0 und i∈S π0 (i) = 1. Beweis. Wir kombinieren (7.11) mit (7.10) und erhalten, dass π0 invariant ist, wenn π0 (i) = (π0 P )i .
(7.12)
Wenn andererseits ein Vektor mit positiven Komponenten deren Summe gleich eins ist die Gleichung (7.12) erf¨ ullt, so liefert er eine invariante Anfangsverteilung. Theorem 7.2.5 Jede station¨are Markovkette mit endlichem Zustandsraum besitzt mindestens eine invariante Verteilung. Beweis. Der Beweis ist am einfachsten mit Hilfe eines tiefen Resultats der linearen Algebra, dem Perron-Frobenius Theorem zu f¨ uhren. Dieses lautet wie folgt.
7.3 Markovketten und Graphen. Klassifizierung der Zust¨ande 123 Theorem 7.2.6 (Perron-Frobenius) Sei A eine d × d Matrix mit nicht-negativen Eintr¨agen, und sei zumindest einer der Eintr¨age strikt positiv. Sei λ0 definiert als Supremum ¨ uber all λ ∈ R so dass es einen Vektor x mit nicht-negativen reellen Elements gibt, so dass d X
xi = 1,
und
i=1
Dann gilt
Ax ≥ λx.
(i) λ0 ein Eigenwert mit Eigenvektor x mit nicht-negativen Elementen. (ii) Alle anderen Eigenwerte, λ, von A erf¨ ullen |λ| ≤ λ0 . (iii) Wenn λ Eigenwert von A ist und |λ| = λ0 , dann ist λ/λ0 ≡ η eine Wurzel der Eins (d.h. es gibt k ∈ N, so dass η k = 1) und η m λ0 ist f¨ ur alle m ∈ N eine Eigenwert von A.
¨ Wir wollen diesen Satz nun auf den Fall anwenden dass A die Ubergangsmatrix, P , einer Markovkette ist. Wir zeigen zu¨achst, dass λ0 = 1. Es gilt n¨amlich einerseits dass 1 ein Eigenwert ist mit zugeh¨origem Eigenvektor (1, . . . , 1), also λ0 ≥ 1. Andererseits ist X X pij = max xj . pij xj ≤ max xj j
j
j
j
Hieraus folgt, dass λ0 ≤ 1, also λ0 = 1. Damit hat also P einen maximalen Eigenwert 1 mit positivem rechts-Eigenvektor. Nun sind die Links-Eigenvektoren von A gerade die Rechts-Eigenvektoren der transponierten Matrix P t . Nun hat P t ebenfalls nicht-negative Eintr¨age, und die Eigenwerte von P und P t sind die selben. Daher hat P einen nichtnegativen Rechts-Eigenvektor zum Eigenwert 1, und somit P einen ebenP solchen Links-Eigenvektor, µ. Dieser kann auf i µ(i) = 1 normiert werden und ist die erhoffte invariante Verteilung. Nach der Existenz sind die Fragen der Eindeutigkeit und der Konvergenz naheliegend. Diese gestalten sich etwas komplexer.
7.3 Markovketten und Graphen. Klassifizierung der Zust¨ ande ¨ Es erweist sich als instruktiv mit einer Ubergangsmatrix einen gerichteten Graphen auf dem Zustandsraum S zu verbinden. Wir fassen die Menge S als Knotenmenge eines Graphen, (S, E) auf. Wir sagen, dass E die Kante, (i, j), i ∈ S, j ∈ S enth¨alt, (i, j) ∈ E, wenn pij > 0. Graphisch stellen wir dies durch einen Pfeil dar.
124
7 Markov Prozesse
Fig. 7.2. Der Graph der Markovkette unseres Wettermodells
Fig. 7.3. Der Graph der am Rand gestoppten Irrfahrt
Wir sagen dass zwei Knoten, i, j ∈ S einem Graphen kommunizieren, wenn Pfade aus Kanten gibt l¨ nags derer man i von j aus und j von i aus erreichen kann indem man den Kanten in Pfeilrichtung folgt. Man kann leicht nachpr¨ ufen, dass die Relation “kommunizieren” ¨ ¨ eine Aquivalenzrelation ist. Nun definiert eine Aquivalenzrelation ei¨ ne Zerlegung der Menge S in Aquivalenzklassen. Wir bezeichnen die ¨ Aquivalenzklassen kommunizierender Zust¨ande einfach als “Klassen”. Definition 7.3.1 Eine Markovkette heißt irreduzibel genau dann wenn der Zustandsraum aus einer einzigen Klasse besteht. Bemerkung. Beachte, dass eine Markovkette deren Graph nicht zusammenh¨ angend ist, auch nicht irreduzibel ist. Wenn der Graph einer Markovkette zusammenh¨ angend ist, muss diese aber noch lange nicht irreduzibel sein. Lemma 7.3.7 Eine Markovkette ist genau dann irreduzibel, wenn es f¨ ur jedes Paar, (i, j) ∈ S × S, ein k ∈ N gibt, so dass P k ij > 0. Ein weiteres wichtiges Konzept ist die Periodizit¨at.
Definition 7.3.2 Wir sagen, dass ein Zustand i Periode d(i) hat, wenn d(i) der gr¨ oßte gemeinsame Teiler aller Zahlen n ∈ N ist f¨ ur die (P n )ii > 0. Ein Zustand mit Periode 1 heißt aperiodisch. Lemma 7.3.8 Wenn i, j ∈ S kommunizieren, dann ist d(i) = d(j). Beweis. Wir wissen, das es n und m gibt, so dass Pjin > 0 und Pijm > 0.
7.3 Markovketten und Graphen. Klassifizierung der Zust¨ande 125
C1
C2
C3
C4
Fig. 7.4. Der Graph einer Markovkette mit vier Klassen C1 , C2 , C3 , C4 . Die Klassen C1 und C2 sind transient, C3 und C4 sind rekurrent.
Sei nun Pii` > 0. Dann ist auch n+`+m Pjj ≥ Pjin Pii` Pijm > 0. n+2`+m Da auch Pii2` > 0, ist auch Pjj > 0, so dass d(j) sowohl n + m + ` als auch n + m + 2` teilt. Mithin teilt es auch die Differenz dieser Zahlen, n¨ amlich `. Daher ist d(j) ≥ d(i). Da wir das Argument auch umdrehen k¨ onnen, folgt genausogut, dass d(i) ≥ d(j), mithin die Behauptung.
Lemma 7.3.9 Wenn i ∈ S Periode d(i) hat, dann gibt es N ∈ N, so dass f¨ ur alle n ≥ N , P nd(j) ii > 0.
Beweis. Die Behauptung folgt aus der zahlentheoretischen Tatsache, dass, wenn n1 , . . . , nk nat¨ urliche Zahlen mit gr¨oßtem gemeinsamen Teiler d sind, es ein M ∈ N gibt, so dass f¨ ur alle m ≥ M , dm als Linearkombination der ni geschrieben werden kann, dm =
k X i=1
wo ci ∈ N0 sind.
ci n i ,
126
7 Markov Prozesse
Lemma 7.3.10 Eine irreduzible und aperiodische Markovkette mit endlichem Zustandsraumhat die Eigenschaft, dass es ein k ∈ N gibt, so dass f¨ ur alle i, j ∈ S, P k ij > 0.
Beweis. Wegen der vorhergehenden S¨atze wissen wir, dass f¨ ur alle hinm reichend großen m, Pjj > 0. Andererseits gibt es f¨ ur jedes (i, j) ein nij so, dass n
Pij ij > 0. m
Wenn Pjj ij > 0, was f¨ ur alle großen mij der Fall ist, ist dann auch n +mij
Pij ij
> 0.
Also w¨ ahlen wir mij > M so, dass nij + mij = n und die Behauptung folgt. Irreduzible und aperiodische Markovketten sind in der Praxis von großer Wichtigkeit. Dar¨ uber hinaus kann man au Resultaten f¨ ur diese Ergebnisse f¨ ur den allgemeinen Fall zusammenbasteln. Die Bedeutung der Aussage des letzten Lemmas erschließt sich aus dem sog. ersten Perron-Frobenius Theorem. Theorem 7.3.11 [Perron-Frobenius] Sei A eine d × d Matrix mit strikt positiven Eintr¨agen. Dann gibt es einen Vektor, x, mit strikt positiven Komponenten, so dass Ax = λ0 x. Der Eigenwert λ0 ist einfach, und f¨ ur alle anderen Eigenwerte, λi , von A, gilt |λi | < λ0 . Die Anwendung auf unsere Markovketten ist sehr einfach: ¨ Theorem 7.3.12 Sei P die Ubergangsmatrix einer Markovkette mit endlichem Zustandsraum und es gebe k ∈ N so, dass die Matrix P n nur strikt positive Eintr¨age hat. Dann gibt es genau eine invariante Verteilung, µ, mit µP = µ, und lim P n = Π0
n↑∞
existiert und ist eine stochastische Matrix vom Rang 1 deren Zeilen gerade durch den Vektor µ gegeben sind, d.h. µ(1) µ(2) . . . µ(d) µ(1) µ(2) . . . µ(d) Π0 = ... ... ... ... . ... ... ... ... µ(1) µ(2) . . . µ(d)
7.3 Markovketten und Graphen. Klassifizierung der Zust¨ande 127 Bemerkung. Markovketten, f¨ ur die die Aussage des Theorems 7.3.12 gilt, d.h. die eine einzige invariante Verteilung, µ, besitzen gegen welche die Verteilung πt f¨ ur jede Anfangsverteilung π0 konvergiert, nennt man auch ergodisch. Die Aussage des Theorems kombiniert mit Lemma 7.3.10 ist dann, dass jede irreduzible, aperiodische Markovkette mit endlichem Zustandsraum ergodisch ist. Beweis. Nach Voraussetzung erf¨ ullt die Matrix A = P k die Voraussetzungen des zweiten Perron-Frobenius Satzes. Da P und P k die gleichen Eigenvektoren haben, gelten also alle Aussagen u ¨ ber Eigenwerte und Eigenvektoren von P k auch f¨ ur die von P . Nun hatten wir bereits gesehen, dass der gr¨ oßte Eigenwert von P eins ist, und dass es einen positiven Links-Eigenwert, µ gibt. Das zweite Perron-Frobebinius Theorem besagt nun, dass dieser Eigenwert einfach ist, und dass alle anderen Eigenwerte strikt kleiner als 1 sind. Daher k¨onnen wir P zerlegen als P = Π0 + Q, wobei Π0 der Projektor auf den Eigenraum zum Eigenwert 1 (und zwar sowohl bez¨ uglich der Wirkung nach rechts als auch nach links), und Q bildet den dazu orthogonalen Unterraum auf sich ab. Insbesondere ist Π0 Q = QΠ0 = 0. Da alle anderen Eigenwerte von P kleiner als eins sind, gilt kQvk = λ1 < 1. (7.13) sup kvk d v∈R Es folgt dass P n = Π0 + Qn , und wegen (7.13) limn↑∞ Qn = 0. Mithin ist lim↑∞ P n = Π0 , wie behauptet. Wenn X ein ergodischer Markovprozess ist, und µ die einzige invariante Verteilung ist, so bezeichnet man die Verteilung, Pµ , dieses Prozesses mit Anfangsverteilung π0 = µ auch als station¨re Verteilung. Es gilt dann insbesondere, dass Pµ [(X0 , X1 , . . . , ) ∈ A] = Pµ [(Xn , Xn+1 , . . . , ) ∈ A],
f¨ ur alle n ∈ N0 und alle A ∈ B(S)⊗N0 . Es gilt in der Tat, dass die Verteilung einer ergodischen Markovkette gegen diese station¨are Verteilung konvergiert, in dem Sinne, dass, f¨ ur alle A ∈ B(S)⊗N0 , und alle x ∈ S, lim |Pµ [(X0 , X1 , . . . , ) ∈ A] − Px [(Xn , Xn+1 , . . . , ) ∈ A]| = 0.
n↑∞
128
7 Markov Prozesse
Der Beweis ist sehr einfach, und nutzt die definierende Eigenschaft einer Markovkette: |Pµ [(X0 , X1 , . . . , ) ∈ A] − Px [(Xn , Xn+1 , . . . , ) ∈ A]| X (Px [Xn = y] − µ(y)) Py [(X0 , X1 , . . . , ) ∈ A] = y∈S X (Px [Xn = y] − µ(y)) ↓ 0 ≤ y∈S
Markovketten Monte-Carlo Verfahren. Eine in der Praxis wesentliche Anwendung der Konvergenz gegen die invariante Verteilung ist die M¨ oglichkeit, mit seiner Hilfe Integrale bez¨ uglich einer gew¨ unschten Verteilung numerisch approximativ zu berechnen. Dabei macht man sich zwei Fakten zu Nutzen: Das Gesetz der großen Zahlen, und den Ergodensatz (7.3.12). Das Gesetz der großen Zahlen ist die Grundlage des sogenannten Monte-Carlo Verfahrens zur Berechnung von Erwartungswerten, die besonders in sehr hochdimensionalen Problemen sehr n¨ utzlich sein kann. Im Prinzip geht man dazu wie folgt vor. Sei ρ eine uns interessierende Verteilung auf einer Menge S. Wir wollen ein Integral Z X f (x)dρ(x) = ρ(x)f (x) S
x∈S
zu berechnen. Dies scheint zun¨achst elementar; wenn aber die Menge S etwa von der Form {−1, 1}N ist, mit N sehr groß (e.g. 1000000), so ist klar dass die Berechnung der Summe schnell de facto unm¨oglich wird. Das Gesetz der großen Zahlen erlaubt uns nun dieses Integral durch eine Summe von nur n Termen zu approximieren, n¨amlich durch n
1X f (Zi (ω)), n i=1 wo Zi (ω) Realisierungen von unabh¨angige Zufallsvariablen Zi mit Verteilung ρ sind. Wir wir schon gesehen haben, h¨angt die Konvergenzgeschwindigkeit gegen das gesuchte Integral nur von den Eigenschaften der Zufallsvariable f ab, nicht von der Raumdimension N . Bleibt das Problem, numerisch Realisierungen der Zufallsvariablen mit Verteilung ρ zu erzeugen, insbesondere wenn ρ(x) auf recht komplizierte
7.3 Markovketten und Graphen. Klassifizierung der Zust¨ande 129 Weise zu berechnen ist. So sind oft, etwa in der statistischen Mechanik, Masse nur “bis auf die Normierung” explizit gegeben, eta in der Form ρ(x) =
1 exp (−βH(x)) , Z
Wo H(x) eine einfach zu berechende Funktion ist, die Konstante Z aber P nur als x∈S exp (−βH(x)) gegeben ist, also etwa so schwer zu berechnen ist wie das Integral selbst. Hier kommen nun die Markovketten und der Ergodensatz ins Spiel. Angenommen, wir f¨ anden eine ergodische Markovkette mit Zustandraum S derart, das die invariante Verteilung der Kette gerade ρ ist. Da die Normierung f¨ ur die Invarianzgleichung keine Rolle spielt, kann man eine solche konstruieren, ohne Z zu kennen. Dann wissen wir, dass Z X f dρ. pnxy f (y) = lim Ez f (Xn ) ≡ lim n↑∞
n↑∞
y∈S
S
Damit ist also Ez f (Xn ) eine systematiche Approximation unseres Integrals. Nun kann man Realisierungen der Zufallsvariable Xt erzeugen, indem man sukzessive Realisierungen der Zufallsvariablen X1 , X2 , . . . etc. erzeugt. Dabei gewinnen wir nat¨ urlich nur dann etwas, wenn die entspre¨ chenden bedingten Verteilungen, also die Ubergangwahrscheinlichkeiten der Markovkette, wesentlich einfachere Verteilungen sind, als ρ selbst. Dies ist insbesondere der Fall, wenn diese so beschaffen sind, dass man von einem gegebenen Zustand aus nur sehr wenige Zust¨ande erreichen kann; im obigen Beispiel S = {−1, 1}N w¨ahlt man die Markovkette etwa so, dass man in einem Schritt nur eine der Koordinaten des Vektors ¨ x ¨ andern kann. Dann sind die Ubergangswahrscheinlichkeiten effektiv Vertelungen auf nur N (statt 2N ) Zust¨anden, und somit viel leichter handhabbar. Wir sehen, dass wir damit das Problem eine Zufallsvariable auf einem Raum der Kardinalit¨at 2N zu erzeugen reduziert haben auf das Problem, n Zufallsvariablen auf einem Raum der Kardinalit¨at N zu erzeugen. Dies ist f¨ ur nicht u ¨bertrieben große n im Fall sehr großer N ein erheblicher Gewinn. Damit dieses Verfahren fuktioniert, sollte nat¨ urlich die Konvergenz gegen die Invariante Verteilung schnell genug erfolgen, so dass man tats¨ achlich rasch gute Approximationen erh¨alt. Dies ist im Allgemeinen ein schwieriges Problem. In vielen F¨allen liefert dieses Markovketten Monte-Carlo Verfahren aber sehr gute Resultate. Monte-Carlo Verfahren sind ein wichtiges Hilfsmittel der stochastischen Numerik und werden in verschiedener Form sehr verbreitet eingesetzt.
130
7 Markov Prozesse
Wesentliche und unwesentliche Klassen. Besitzt eine Markovkette mehrere Klassen, so kann man diese in zwei Gruppen einteilen: solche, aus denen man in eine andere Klasse austreten kann (aber nicht wieder zur¨ uck kann), und solche aus denen man nicht in eine andere Klasse eintreten kann (in die man aber ggf. aus anderen eintreten kann). Erstere heissen “unwesentlich”, letztere “wesentlich”. Bemerkung. Im Fall endlichen Zustandsraums k¨onnen wir wesentliche Klassen auch als rekurrent, unwesentliche als transient bezeichnen. Im Fall von Markovketten mit unendlichem Zustandsraum sind diese Begriffe aber zu entscheiden. Es ist klar, dass es f¨ ur jede wesentliche aperiodische Klasse genau eine invariante Verteilung gibt. Sei n¨amlich C eine wesentliche Klasse. Wenn die Anfangsverteilung π0 so gew¨ahlt ist, dass f¨ ur alle i 6∈ C, π0 (i) = 0, dann ist f¨ ur alle Zeiten f¨ ur solche i, πt (i) = 0. Die Matrix P eingeschr¨ ankt auf den von den Zust¨anden j ∈ C aufgespannten Unterraum ¨ ist aber die Ubergangsmatrix einer irreduziblen aperiodischen Markovkette mit Zustandsraum C. Also gibt es eine invariante Verteilung µC die C Maß eins gibt. Dies gilt f¨ ur jede wesentliche Klasse separat. Ebenso kann man sich leicht u ur jede invariante ¨berzeugen, dass f¨ Verteilung, µ, und jede unwesentliche Klasse, D, gilt, dass µ(D) = P amlich µ(D) > 0. Wir betrachten dazu zu¨achst j∈D µ(j) = 0. Sei n¨ solche unwesentliche Klassen, in die man aus keiner anderen Klasse eintreten kann (wegen der Endlichkeit des Zustandsraumes muss es mindestens eine solche geben). Sei D eine solche Klasse. Da µ invariant ist, muss (µP )(D) = µ(D) gelten. Nun ist aber XX (µP )(D) = µ(i)pij (7.14) j∈D i∈S
=
XX
µ(i)pij + 0
j∈D i∈D
da ja f¨ ur alle j ∈ D und i 6∈ D, pij = 0, gem¨aß unserer Annahme. Daher ist X X X (µP )(D) = µ(i) pij ≤ µ(i). i∈D
j∈D
i∈D
Dabei kann Gleichheit nur dann gelten, wenn d¨ ur alle i ∈ D f¨ ur die es c j ∈ D gibt mit pij > 0, µ(i) = 0. Andererseits gilt f¨ ur diese j dann X 0 = µ(i) = µ(j)pji , j∈D
weswegen µ(j) = 0 auch f¨ ur alle Zust¨ande in D gilt die mit i verbunden
7.3 Markovketten und Graphen. Klassifizierung der Zust¨ande 131 sind; indem wir dieses Argument iterieren, und benutzen, dass D eine kommunizierende Klasse ist, folgt µ(j) = 0 f¨ ur alle j ∈ D. Nachdem wir wissen, dass µ(D) = 0 f¨ ur alle unwesentlichen Klassen, in die man nicht eintritt, kann man nun diese D aus dem Zustandsraum aussondern, und die Restriktion der Markovkette auf den verbleibenden Zustandsraum S\D betrachten. Wenn dieser noch unwesentliche Klassen enth¨ alt, so gibt es mindestens eine, in die man nicht mehr eintreten kann, und man sieht, dass auf diesen die invariante Verteilung auch Null ist. Durch Iteration folgt, dass µ auf allen unwesentlichen Klassen verschwindet. Beispiele. Wir schauen uns die Klassenzerlegung und invarianten Verteilungen f¨ ur unsere drei Beispiele von vorher an. (i) (Unnabh¨ angige Zufallsvariablen). Hier ist die Markovkette irreduzibel und aperiodisch. Dar¨ uber hinaus ist die u ¨ bergannsmatrix bereits ein Projektor auf die einzige invariante Verteilung π0 . (ii) (Irrfahrt mit Rand). Hier gibt es offenbar drei Klassen: C1 ≡ {−L + 1, . . . , L − 1}, C2 = {−L} und C3 = {L}. Dabei ist C1 unwesentlich und C2 und C3 sind wesentlich. daher haben wir zwei invariante Verteilungen, µ2 und µ3 , wobei µ2 (j) = δj,−L ,
µ3 (j) = δj,L .
Nat¨ urlich sind auch alle konvexen Linearkombinationen dieser zwei Verteilungen invariante Verteilungen. Da f¨ ur jede invariante Verteilung µ(C1 ) = 0 gilt, ersch¨ opfen diese offenbar die invarianten Verteilungen dieser Markovkette. (iii) (Wettermodell). Seien zun¨ achst p01 , p10 ∈ (0, 1). Dann ist die Markovkette wieder irreduzibel und aperiodisch, und die einzige invariante Verteilung ist 1 (p10 , p01 ). µ= (p01 + p10 ) Dasselbe gilt wenn einer der beiden Parameter gleich eins ist, der andere aber in (0, 1) liegt. Wenn p10 und p01 gleich null sind, so gibt es zwei wesentliche Klassen mit den jeweils trivialen Verteilungen. Falls nur eine der beiden null ist, so gibt es eine wesentliche und eine unwesentliche Klasse. Wenn p01 = p10 = 0 ist, haben wir einen irreduzible, aber nicht aperiodische Klasse. Die Markovkette hat dann Periode zwei. Hier gibt es zwar auch wieder eine einzige invariante Verteilung, µ = (1, 1),
132
7 Markov Prozesse
aber es gibt einen Eigenvektor, ν = (1, −1) mit Eigenwert −1. In diesem Fall sieht man auch leicht, dass ! 0 1 , wenn n ungerade ist n 10 01 n ! = P = 10 1 0 , wenn n gerade ist 01 Hier konvergiert P n also nicht.
7.4 Stoppzeiten und Anwendungen In der Folge werden wir mit Erwartungen von Funktionen von Markovprozessen besch¨ afftigt sein. Wir scheiben dazu f¨ ur messbare Funktionen ⊗N0 F auf (ΣN ) und f¨ ur x ∈ S, 0 , B(S) Ex F = E[F (X0 , . . . , Xn , . . . )|X0 = x]. Es ist in der Folge oft bequem, die Wahrscheinlichkeitsr¨aume (Ω, F , P) und (S0N , B(S)⊗N0 , PX ) zu identifizieren. Wir definieren die Zeittranslation θn durch F ◦ θT (X0 , X1 , . . . , Xn , . . . ) ≡ F (XT , XT +1 , . . . , XT +n , . . . ). Ein wesentliches Konzept in der Analyse von Markovprozessen ist das der Stoppzeit. Wir bezeichnen mit Fn die σ-Algebra, die von den Zufallsvariablen X0 , X1 , . . . Xn erzeugt wird. Die Familie {Fn }n∈N0 bezeichnet man auch als eine Filtrierung, bzw. die dem Markovprozess {Xn }n∈N0 zugeh¨ orige Filtrierung der σ-Algebra F . Definition 7.4.1 Eine Abbildung T : Ω → N0 heißt eine Stoppzeit genau dann, wenn f¨ ur jedes n ∈ N0 , das Ereignis {T = n} in Fn liegt. Stoppzeiten sind also dadurch charakterisiert, dass man zu jedem Zeitpunkt, n, aus der Kenntnis des Verlaufs der Vergangenheit des Prozesses X entscheiden kann, ob diese Stoppzeit gerade erreicht ist. Ein wichtiges Beispiel f¨ ur Stoppzeiten sind die ersten Eintrittszeiten in Untermengen. Ist D ⊂ S, so definieren wir τD ≡ inf{n > 0|Xn ∈ D}.
Wir sehen, dass τD eine Stoppzeit ist: {τD = n} = {∀k
(7.15)
7.4 Stoppzeiten und Anwendungen
133
Die rechte Seite ist manifest in Fn , das sie nur von Xk mit k ≤ n abh¨ angt. Beispiel f¨ ur eine interessante Gr¨oße, die keine Stoppzeit ist, ist die letzten Austrittszeiten aus Untermengen, σD ≡ sup{n ≥ 0|Xn ∈ D}. Klarerweise k¨ onnen wir zu keinem Zeitpunkt wissen, ob der Prozess nicht nochmal nach D zur¨ uckkehrt, ohne in die Zukunft zu blicken. Eine der wichtigsten Eigenschaften von Stoppzeiten ist die sogenannte starke Markoveigenschaft. Sie besagt, dass man die Erwartung u ¨ ber bez¨ uglich Verteilungen einer Markovkette an Stoppzeiten faktorisieren kann. Damit meinen wir das folgende. Wir definieren zu¨ achst die σ-Algebra FT als die Menge aller Ereignisse, die nur von Xn mit n ≤ T abh¨angen. Formal ist FT ≡ ∪n∈N0 Fn ∩ {n ≤ T }. Theorem 7.4.13 Sei T eine Stoppzeit und seien F und G F -messbare Funktionen auf Ω. Sei dar¨ uber hinaus F messbar bez¨ uglich FT . Dann gilt f¨ ur jedes x ∈ S, dass Ex [1IT <∞ F G ◦ θT ] = Ex [1IT <∞ F EXT [G]]
(7.16)
wo X 0 eine unabh¨angige Kopie von X ist. bedeutet. Beweis. Man kann sich durch explizites Ausschreiben davon u ¨berzeugen, dass f¨ ur jedes endliche n E [1IT =n F G ◦ θT |X0 = x] = E [1IT =n F E[G|X00 = XT ]|X0 = x]
(7.17)
Nun summiert man einfach u ¨ber n und erhalten die Behauptung. Eine Anwendung der starken Markoveigenschaft liefert eine neue Interpretation der invarianten Verteilung. Lemma 7.4.14 Sei X eine irreduzible aperiodische Markovkette mit endlichem Zustandsraum S. Sei µ die invariante Verteilung. Dann gilt, f¨ ur j, ` ∈ S, P` E` [ τt=1 1IXt =j ] µ(j) = . (7.18) E` τ` Pτ` 1IXt =j ]. Wenn wir zeigen, Beweis. Wir definieren ν` (j) = E` [ t=1 dass ν` (j) die Invarianzeigenschaft erf¨ ullt, so tut dies auch µ, und nach
134
7 Markov Prozesse
Konstruktion ist µ eine Wahrscheinlichkeitsverteilung. Wir schreiben P zun¨ achst 1 = m∈Σ 1IX`−1 =m , und daher "τ # " # τ` ` X X XX ν` (j) ≡ E` 1IXt =j = E` 1IXt =j 1IXt−1 =m t=1
m∈S t=1
m∈S
X
=
E`
=
E`
"τ ` X
#
1IXt−1 =m p(m, , j).
t=1
m∈S
#
1IXt−1 =m P[Xt = j|Xt−1 = m]
t=1
m∈S
X
"τ ` X
Hier haben wir in der zweiten Gleichheit die starke Markoveigenschaft benutzt. Da unter der bedingten Erwartung τ` X
1IXt−1 =m =
τX ` −1
1IXt =m
t=0
t=1
= 1IX0 =m +
τ` X t=1
= 1I`=m +
τ` X t=1
=
τ` X
1IXt =m − 1IXτ` =m
1IXt =m − 1I`=m
1IXt =m
t=1
ist die letzte Zeile gleich
X
ν(m)p(m, , j),
m∈S
das heißt ν l¨ ost die Gleichung ν(j) =
X
ν` (m)p(m, j),
m∈S
Dies ist aber gerade die Gleichung f¨ ur die invariante Verteilung. Daher P ist ν` (j)/ i∈S ν` (i) eine invariante Wahrscheinlichkeitsverteilung, und wegen deren Eindeutigkeit ist ν` = µ. Nun ist aber # "τ ` X X X 1IXt =i ν` (i) = E` i∈S
i∈S
= E`
"τ ` X t=1
= E` τ`
t=1
1IXt ∈S
#
7.5 Vorw¨artsgleichungen, Eintrittswahrscheinlichkeiten und Zeiten. 135 woraus die Behauptung es Lemmas folgt. Corollary 7.4.15 F¨ ur eine irreduzible, aperiodische Markovkette mit endlichem Zustandsraum gilt 1 (7.19) µ(j) = Eτj Beweis. Wir haben mit der Notation von oben νj (j) µ(j) = . νj (S) Pτj Nun ist νj (j) = Ej t=1 1IXt =x = 1. Andererseits ist νj (E) = Ej
τj X t=1
1IXt ∈S = Ej τj .
Einsetzen liefert die Behauptung. Beachte dabei, dass f¨ ur endliche irreduzible Markovketten stets Ej τj < ∞ gilt. Bemerkung. Im vorigen Beweis haben wir stillschweigend benutzt, dass Ek τk endlich ist. Dies ist aber im Fall ergodischer Markovketten mit endlichem Zustandsraum leicht zu zeigen. Es gib ja nach Voraussetzung ein k ∈ N, so dass pk`` ≥ c > 0 ist. Dann ist aber P` [τ` > t] ≤ Pk [Xki 6= `, ∀ik ≤ t] ≤ Damit ist dann nat¨ urlich E` τ` =
P
t
( Y
i:ki≤t
1 − c) ∼ (1 − c)t/k .
P` [τ` > t] < ∞.
7.5 Vorw¨ artsgleichungen, Eintrittswahrscheinlichkeiten und Zeiten. Ein typisches Vorgehen zur Berechnung verschiedener Wahrscheinlichkeiten in Markovketten besteht in der Herleitung von linearen Gleichungen f¨ ur diese. Als Beispiel betrachten wir eine Markovkette mit Zustandsraum S, die zwei wesentliche Klassen C1 , C2 sowie eine unwesentliche Klasse C3 = S\(C1 ∪ C2 ) habe. Wir interessieren uns daf¨ ur, mit welcher Wahrscheinlichkeit man, ausgehend von einem Zustand x ∈ C3 in der wesentlichen Klasse C1 endet. Diese k¨onnen wir schreiben als Px [τC1 < τC2 ] . Um eine Gleichung f¨ ur diese Wahrscheinlichkeit zu erhalten, betrachten wir zunn¨ achst alle m¨ oglichen ersten Schritte der Kette und wenden dann
136
7 Markov Prozesse
die Markoveigenschaft an. Wenn der erste Schritt bereits nach C1 f¨ uhrt, so ist das Ereignis bereits realisiert und wir erhalten einen Beitrag 1; f¨ uhrt der erste Schritt nach C2 , so kann das Ereignis nicht eintreten, und wir erhalteneinen Beitrag 0; wenn schliesslich der erste Schrittnac y in C3 bleibt, ist der Beitrag gerade die Wahrscheinlichkeit, das Ereignis ausgehend von y zu realisieren. Dies liefert X X p(x, y)Py [τC1 < τC2 ] . p(x, y) + Px [τC1 < τC2 ] = y∈C1
y∈S\(C1 ∪C2 )
(7.20) Wir k¨ onnen diese Gleichung in einer geschlossenen Form schreiben, wenn wir die Funktion hC1 ,C2 (x) definieren als Px [τC−1 < τC−2 ] , if x ∈ S\(C1 ∪ C2 ), hC1 ,C2 (x) ≡ 0, if x ∈ C2 , 1, if x ∈ C . 1
Damit wird (7.20) in der Form X p(x, y)hC1 ,C2 (y) ≡ (P hC1 ,C2 )(x) hC1 ,C2 (x) =
(7.21)
y∈S
schreibbar. Eine solche Gleichung nennt man auch Vorw¨artsgleichung. Eine Funktion, die in einem Gebiet die Gleichung f = P f l¨ost, wo P ¨ Ubergangsmatrix einer Markovkette ist, nennt man auch eine harmonische Funnktion. Die Funktion hC1 ,C2 heisst speziell auch Gleichgewichtspotential. Man kan diese als L¨ osung des Gleichungssystems hC1 ,C2 (x) = (P hC1 ,C2 )(x), hC1 ,C2 (x) = 1, hC1 ,C−2 (x) = 0,
x ∈ C1
x ∈ S\(C1 ∪ C2 )
(7.22)
x ∈ C2
erhalten. Gleichungen wie (7.22) bilden die Grundlage f¨ ur eine sehr weitgehende und tiefe Beziehung zwischen der Theorie der Markovprozesse und der Potentialtheorie, mithin zwischen Stochastik und Analysis. Wir werden diese Thematik in fortgeschrittenen Vorlesungen zur W-Theorie wieder aufgreifen. ¨ Ubung. Sei eine Markovkette wie oben mit zwei wesentlichen und einer unwesentlichen Klasse gegeben. Seien die wesentlichen Klassen aperiodisch, und seien µ1 , µ2 die invariante Masse mit µi (Ci ) = 1. Dann gilt, f¨ ur alle x ∈ C3 , wenn π0 (y) = δx (y), lim πn (z) = Px [τC1 < τC2 ] µ1 (z) + Px [τC2 < τC1 ] µ2 (z).
t↑∞
7.5 Vorw¨artsgleichungen, Eintrittswahrscheinlichkeiten und Zeiten. 137 Neben den Eintreffwahrscheinlichkeiten in verschiedenen Klassen kann man auch nach der Verteilung der Eintrittszeiten fragen. So sei D eine beliebige Untermenge des Zustandsraums S. Was ist die Verteilung der Stoppzeit τD , Px [τD = t] ≡ fD (x, t).
(7.23)
Wir k¨ onnen wieder eine Gleichung f¨ ur fD (x, t) herleiten, indem wir uns zun¨ achst den ersten Schritt der Kette ansehen. Falls t = 1, sehen wir dass (f¨ ur t ≥ 1 und x 6 inD) X Px [τD = 1] = p(x, y), y∈D
f¨ ur t > 1 ist Px [τD = t] =
X
y6∈D
p(x, y)Py [τD = t − 1].
Diese Gleichung kann man in einer sch¨oneren Form schreiben, wenn die Definition der Funktion fD wie folgt ausweitet: Px [τD = t], if x ∈ Dc , t ≥ 1 0, if x ∈ D, t > 0, fD (x, t) ≡ 0, if x ∈ Dc , t = 0, 1, if x ∈ D, t = 0,
Dann erhalten wir n¨ amlich f¨ ar all t > 0, x ∈ Dc , X fD (x, t) = p(x, y)fD (y, t − 1). y∈S
Damit sieht man, dass man die gesuchte Wahrscheinlichkeit durch L¨osung eines disketen Rand-Anfangswertproblems erhalten kann, dass wie folgt aussieht: X p(x, y)fD (y, t − 1), x ∈ S\D, t > 0 fD (x, t) − fD (x, t − 1) = y∈S\x
fD (x, t) = 0,
fD (x, 0) = 1, fD (x, 0) = 0,
x ∈ D, t ≥ 1
x ∈ D,
x ∈ S\D.
(7.24)
Mit Hilfe der Matrix L ≡ P − 1I k¨onnen wir die Gleichung (7.24) noch in der Form fD (x, t) − fD (x, t − 1) = (LfD )(x, t − 1)
138
7 Markov Prozesse
schreiben. Die L¨ osung dieser linearen Gleichungen sind also geeignet die Wahrscheinlichkeitsverteilung von τD zu berechnen. ¨ Ubung. Zeige, dass die Funktion ( Ex τD , x ∈ S\D wD (x) ≡ 0, x ∈ S\D die Gleichung wD (x) =
X
y∈S
wD (x) = 0,
p(x, y)wD (y) + 1, x ∈ S\D,
(7.25)
x ∈ D,
l¨ost. Benutze dazu entweder die Geichung (7.24) und die Beobachtung, P∞ dass wD (x) = t=1 fd (x, t), oder leite die Gleichung direkt analaog zu der f¨ ur fd her.
Bibliography
[1] Yuan Shih Chow and Henry Teicher. Probability theory. Springer Texts in Statistics. Springer-Verlag, New York, third edition, 1997. [2] William Feller. An introduction to probability theory and its applications. Vol. I. Third edition. John Wiley & Sons Inc., New York, 1968. [3] William Feller. An introduction to probability theory and its applications. Vol. II. Second edition. John Wiley & Sons Inc., New York, 1971. [4] Hans-Otto Georgii. Stochastik. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin, 2002. [5] A. Klenke. Wahrscheinlichkeitstheorie. Springer-Verlag, New York, 2006. [6] J. W. Lindeberg. Eine neue Herleitung des Exponentialgesetzes in der Wahrscheinlichkeitsrechnung. Math. Zeitschrift, 15(4):211–225, 1922.
139
Index
σ-Additivit¨ at, 9 σ-Algebra, 9 erzeugt von Funktionen, 49 Produkt, 51 ¨ Ubergangswahrscheinlichkeiten, 117 Algebra, 27 aperiodisch, 124 Arcussinusgesetz, 70 Bayes’sche Formel, 46 Bayes, Th., 46 Bernoulli Verteilung, 39 Bildmaß, 38 Binomialverteilung, 39 Black-Sholes-Formel, 67 Borel-σ-Algebra, 24 Borel-Mengen, 24 Carath´ eodory Satz von, 29 Cauchyverteilung, 42 charakteristische Funktion, 100 Chebychev Ungleichung, 84 de Moivre-Laplace Satz von, 62 Dirac-Maß, 38 Dynkin-System, 26 Ereignisse unabh¨ angige, 45 ergodische Markovkette, 127 Erwartung mathematische, 23 Erwartungswert, 23, 83 erzeugende Funktion, 84 Erzeuger, 20 Exponentialverteilung, 42
Faltung, 62 Fatou’s Lemma, 36 Filtrierung, 132 Fouriertransformation, 100 Frequenz, 11 Fubini Satz von, 55 Funktion charakteristische, 100 Funktionen einfache, 33 messbare, 20, 32 Gaußverteilung, 41, 63 charakteristische Funktion, 105 Momente, 105 geometrische Verteilung, 40 Gesetz der großen Zahlen, 86 schwaches, 86, 87 Gl¨ uckspiel, 3 Gleichverteilung, 14, 41 Graph einer Markovkette, 123 Grenzwertsatz, 99 zentraler, 103, 104 große Abweichungen, 86 hedging, 66 Inhalt, 27 Integral, 21, 33 invariante Verteilung, 122 Inversionsformel von L´ evy, 101 irreduzibel, 124 Irrfahrt, 63 kleinste Quadrate Methode, 112 Kolmogorov Ungleichung, 88
140
Index Kolmogorov-Axiome, 9 Konvergenz monotone, 34 L´ evy Satz von, 103 L´ evy’s Inversionsformel, 101 Lebesgue dominierter Konvergenzsatz, 36 Lebesgue, H.L., 31 Lebesgue-Maß, 31 Lemma Fatou’s, 36 likelihood Funnktion, 110 likelihood-Funktion, 109 Maß absolut stetiges, 41 Dirac, 38 maßbestimmend, 20 Markov Prozess, 115 Markovketten Monte-Carlo, 128 Matrix stochastische, 120 maximum-likelihood Prinzip, 110 Sch¨ atzer, 110 Mengensystem durchschnittstabiles, 26 maßbestimmendes, 29 Messbarkeit, 20 Messraum, 8 Mittelwert, 23 Modell statistisches, 109 Momente, 84 Gaußverteilung, 105 Monte-Carlo Verfahren, 128 Newton, I., 1 Optionspreise, 65 Parametersch¨ atzung, 108 Periodizit¨ at, 124 Perron-Frobenius Satz von, 122, 126 Poissonverteilung, 40 Pr¨ amaß, 27 Produkt-σ-Algebra, 51, 58 Produktmaß, 51 Produktraum, 51 unendlicher, 58 Prozess stochastischer, 59 Quote, 3
141
Rademacher Variablen, 63 Regression lineare, 108 Ruin-Problem, 69 Satz von Carath´ eodory, 29 von de Moivre-Laplace, 62 von der monotonen Konvergenz, 34 von Fubini-Lebesgue, 55 von Fubini-Tonnelli, 54 von L´ evy, 103 von Lebesgue, 36 Sch¨ atzer erwartungstreuer, 96 f¨ ur Mittelwert, 95 f¨ ur Varianz, 96 konsistenter, 109 stochastische Matrix, 120 stochastischer Prozess, 59, 115 Stoppzeit, 132 Strategie, 64 unabh¨ angig Zufallsvariablen, 49 unah¨ angig Ereignisse, 45 Ungleichung Chebychev, 84 Kolmogorov, 88 Markov, 85 Unkorreliertheit, 50 Varianz, 83 Verteilung invariante, 122 stabile, 63 Verteilungsfunktion, 24, 30 Vorw¨ artsgleichung, 136 Wahrscheinlichkeit, 2 bedingte, 44 Wahrscheinlichkeitsdichte, 41 Wahrscheinlichkeitsmaß, 8 Wahrscheinlichkeitsraum, 3 zentraler Grenzwertsatz, 103, 104 Zufall, 1 Zufallsexperiment, 2 Zufallsvariable, 21 Summen von, 59 unab¨ angige, 49 unabh¨ angige, identisch verteilte, 59 Zylindermengen, 58