Klenke Wahrscheinlichkeitstheorie
Achim Klenke
Wahrscheinlichkeitstheorie Mit 34 Abbildungen
123
Prof. Dr. Achim Klenke Institut für Mathematik Johannes Gutenberg-Universität Mainz Staudingerweg 9 55099 Mainz, Deutschland e-mail:
[email protected]
Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar.
Mathematics Subject Classification (2000): 60-01, 28-01, 60G05, 60J10, 60H05
ISBN-10 3-540-25545-1 Springer Berlin Heidelberg New York ISBN-13 978-3-540-25545-1 Springer Berlin Heidelberg New York Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer ist ein Unternehmen von Springer Science+Business Media springer.de © Springer-Verlag Berlin Heidelberg 2006 Printed in Germany Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Text und Abbildungen wurden mit größter Sorgfalt erarbeitet. Verlag und Autor können jedoch für eventuell verbliebene fehlerhafte Angaben und deren Folgen weder eine juristische Verantwortung noch irgendeine Haftung übernehmen. Umschlaggestaltung: design & production GmbH, Heidelberg Herstellung: LE-TEX Jelonek, Schmidt & Vöckler GbR, Leipzig Satz: Datenerstellung durch den Autor unter Verwendung eines Springer TEX-Makropakets Gedruckt auf säurefreiem Papier 44/3100YL - 5 4 3 2 1 0
Vorwort
Das vorliegende Buch basiert auf den vierst¨undigen Vorlesungen Stochastik I und Stochastik II, die ich in den vergangenen Jahren an der Universit¨at zu K¨oln und an der Johannes Gutenberg-Universit¨at in Mainz gehalten habe, und die an eine Vorlesung u¨ ber elementare Stochastik anschließen. Eine gewisse Vertrautheit mit den Ideen der elementaren Stochastik wird zwar nicht formal vorausgesetzt, dem Leser jedoch empfohlen. Ziel dieses Buches ist es, die zentralen Objekte und Konzepte der Wahrscheinlichkeitstheorie vorzustellen: Zufallsvariablen, Unabh¨angigkeit, Gesetze der großen Zahl und zentrale Grenzwerts¨atze, Martingale, Austauschbarkeit und unbegrenzte Teilbarkeit, Markovketten und -prozesse sowie den Zusammenhang mit der diskreten Potentialtheorie, Kopplung, Ergodentheorie, die Brown’sche Bewegung und das Itˆo-Integral (nebst stochastischen Differentialgleichungen), den Poisson’schen Punktprozess, Perkolation und die Theorie der großen Abweichungen, sowie stochastische Differentialgleichungen. Die Maß- und Integrationstheorie wird entwickelt, soweit sie f¨ur das Verst¨andnis und die Formulierung der Wahrscheinlichkeitstheorie notwendig ist: Konstruktion von Maßen und Integralen, Satz von Radon-Nikodym und regul¨are bedingte Verteilungen, Konvergenzs¨atze f¨ur Funktionen (Lebesgue) und Maße (Prohorov) und Konstruktion von Maßen in Produktr¨aumen. Die einzelnen maßtheoretischen Kapitel kommen nicht als Block am Anfang des Buches, obwohl sie so geschrieben sind, dass das m¨oglich w¨are, n¨amlich unabh¨angig von den wahrscheinlichkeitstheoretischen Kapiteln, sondern abwechselnd mit wahrscheinlichkeitstheoretischen Kapiteln, die so gebaut sind, dass sie mit den gerade zur Verf¨ugung stehenden Begriffen auskommen (beispielsweise kann man Perkolation studieren, ohne einen Integralbegriff an der Hand zu haben). Als einzige Ausnahme wird die systematische Konstruktion von unabh¨angigen Zufallsvariablen erst im 14ten Kapitel nachgeliefert. Ich verspreche mir von diesem Vorgehen eine Auflockerung des maßtheoretischen Stoffes, der von manchen als etwas trocken empfunden wird. Letztlich ist dieses genauso eine Geschmacksfrage wie diejenige, welches der beiden Themen als linke und welches als rechte Hand anzusehen ist. Wer eine maßtheoretische Grundbildung hat, kann insbesondere das erste Kapitel beim ersten Lesen zun¨achst u¨ berspringen und braucht eventuell nur Einzelnes darin nachzuschlagen. Das Gleiche gilt f¨ur das vierte Kapitel (Integrationstheorie).
VI
Vorwort
In den ersten acht Kapiteln wird das Fundament gelegt, das in allen weiteren Kapiteln ben¨otigt wird. Danach k¨onnen die sieben inhaltlichen Einheiten von Kapitel 9–12, 13, 14, 15–16, 17–19, 20, und 23 einigermaßen unabh¨angig voneinander gelesen werden. Das Kapitel zur Brown’schen Bewegung (21) greift auf die Kapitel 9–15 zur¨uck. Danach sind unabh¨angig voneinander die Bl¨ocke 22, 24 und 25–26 lesbar. Ich danke all denjenigen, die das Manuskript gelesen und zahlreiche Verbesserungsvorschl¨age und Korrekturen angebracht haben: Den Mitarbeitern und Studenten Roland Alkemper, Dirk Br¨uggemann, Anne Eisenb¨urger, Ortwin Lorenz, Mario Oeler, Marcus Sch¨olpen, den Kollegen Wolfgang B¨uhler und Wolfgang K¨onig sowie besonders dem M¨unchener Kollegen Hans-Otto Georgii. F¨ur weitere Hinweise auf Fehler unter
[email protected] w¨are ich dankbar. Außerdem m¨ochte ich mich beim Springer-Verlag f¨ur die gute Zusammenarbeit bedanken.
Mainz, November 2005
Achim Klenke
Inhaltsverzeichnis
1
Grundlagen der Maßtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.1
Mengensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Mengenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3
Fortsetzung von Maßen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4
Messbare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.5 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2
Unabh¨angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.1
Unabh¨angigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2
Unabh¨angigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3
Kolmogorov’sches 0-1 Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.4 Beispiel: Perkolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3
Erzeugendenfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.1 Definition und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4
5
3.2
Poisson-Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.3
Verzweigungsprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Das Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.1
Konstruktion und einfache Eigenschaften . . . . . . . . . . . . . . . . . . . . . . 83
4.2
Monotone Konvergenz und Lemma von Fatou . . . . . . . . . . . . . . . . . . 91
4.3
Lebesgue-Integral versus Riemann-Integral . . . . . . . . . . . . . . . . . . . . . 93
Momente und Gesetze der Großen Zahl . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.1
Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2 Schwaches Gesetz der Großen Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
VIII
Inhaltsverzeichnis
5.3 Starkes Gesetz der Großen Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.4 Konvergenzrate im starken GGZ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.5 6
7
Der Poissonprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Konvergenzs¨atze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.1
Fast-¨uberall- und stochastische Konvergenz . . . . . . . . . . . . . . . . . . . . . 125
6.2
Gleichgradige Integrierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
6.3
Vertauschung von Integral und Ableitung . . . . . . . . . . . . . . . . . . . . . . . 136
Lp -R¨aume und Satz von Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . 139 7.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 7.2 Ungleichungen und Satz von Fischer-Riesz . . . . . . . . . . . . . . . . . . . . . 141 7.3 Hilbertr¨aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 7.4 Lebesgue’scher Zerlegungssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 7.5 Erg¨anzung: Signierte Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 7.6 Erg¨anzung: Dualr¨aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
8
9
10
Bedingte Erwartungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 8.1
Elementare bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . 165
8.2
Bedingte Erwartungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
8.3
Regul¨are Version der bedingten Verteilung . . . . . . . . . . . . . . . . . . . . . 175
Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 9.1
Prozesse, Filtrationen, Stoppzeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
9.2
Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
9.3
Diskretes stochastisches Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
9.4
Diskreter Martingaldarstellungssatz und CRR Modell . . . . . . . . . . . . 194
Optional Sampling S¨atze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 10.1 Doob-Zerlegung und quadratische Variation . . . . . . . . . . . . . . . . . . . . 199 10.2 Optional Sampling und Optional Stopping . . . . . . . . . . . . . . . . . . . . . . 203 10.3 Gleichgradige Integrierbarkeit und Optional Sampling . . . . . . . . . . . . 207
11
Martingalkonvergenzs¨atze und Anwendungen . . . . . . . . . . . . . . . . . . . 209
Inhaltsverzeichnis
IX
11.1 Die Doob’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 11.2 Martingalkonvergenzs¨atze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 11.3 Beispiel: Verzweigungsprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 12
¨ Ruckw¨ artsmartingale und Austauschbarkeit . . . . . . . . . . . . . . . . . . . . . 221 12.1 Austauschbare Familien von Zufallsvariablen . . . . . . . . . . . . . . . . . . . 221 12.2 R¨uckw¨artsmartingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 12.3 Satz von de Finetti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
13
Konvergenz von Maßen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 13.1 Wiederholung Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 13.2 Schwache und vage Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 13.3 Der Satz von Prohorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 13.4 Anwendung: Satz von de Finetti – anders angeschaut . . . . . . . . . . . . . 257
14
W-Maße auf Produktr¨aumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 14.1 Produktr¨aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 ¨ 14.2 Endliche Produkte und Ubergangskerne . . . . . . . . . . . . . . . . . . . . . . . . 263 14.3 Satz von Ionescu-Tulcea und Projektive Familien . . . . . . . . . . . . . . . . 272 14.4 Markov’sche Halbgruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
15
Charakteristische Funktion und Zentraler Grenzwertsatz . . . . . . . . . 281 15.1 Trennende Funktionenklassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281 15.2 Charakteristische Funktionen: Beispiele . . . . . . . . . . . . . . . . . . . . . . . . 288 15.3 Der L´evy’sche Stetigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 15.4 Charakteristische Funktion und Momente . . . . . . . . . . . . . . . . . . . . . . 299 15.5 Der Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 15.6 Mehrdimensionaler Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . 312
16
Unbegrenzt teilbare Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 16.1 Die L´evy-Khinchin Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 16.2 Stabile Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
17
Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
X
Inhaltsverzeichnis
17.1 Begriffsbildung und Konstruktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 17.2 Diskrete Markovketten, Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 17.3 Diskrete Markovprozesse in stetiger Zeit . . . . . . . . . . . . . . . . . . . . . . . 344 17.4 Diskrete Markovketten, Rekurrenz und Transienz . . . . . . . . . . . . . . . . 349 17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten . . . . . . . . . . . . 353 17.6 Invariante Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360 18
Konvergenz von Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 18.1 Periodizit¨at von Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 18.2 Kopplung und Konvergenzsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 18.3 Markovketten Monte Carlo Methode . . . . . . . . . . . . . . . . . . . . . . . . . . 376 18.4 Konvergenzgeschwindigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
19
Markovketten und elektrische Netzwerke . . . . . . . . . . . . . . . . . . . . . . . 389 19.1 Harmonische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 19.2 Reversible Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392 19.3 Elektrische Netzwerke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393 19.4 Rekurrenz und Transienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399 19.5 Netzwerkreduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 19.6 Irrfahrt in zuf¨alliger Umgebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
20
Ergodentheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415 20.1 Begriffsbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415 20.2 Ergodens¨atze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418 20.3 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421 20.4 Anwendung: Rekurrenz von Irrfahrten . . . . . . . . . . . . . . . . . . . . . . . . . 423 20.5 Mischung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
21
Die Brown’sche Bewegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 21.1 Stetige Modifikationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 21.2 Konstruktion und Pfadeigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 436 21.3 Starke Markoveigenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 21.4 Erg¨anzung: Feller Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444
Inhaltsverzeichnis
XI
21.5 Konstruktion durch L2 -Approximation . . . . . . . . . . . . . . . . . . . . . . . . 447 21.6 Der Raum C([0, ∞)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451 21.7 Konvergenz von W-Maßen auf C([0, ∞)) . . . . . . . . . . . . . . . . . . . . . . 453 21.8 Satz von Donsker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456 21.9 Pfadweise Konvergenz von Verzweigungsprozessen∗ . . . . . . . . . . . . . 460 21.10Quadratische Variation und lokale Martingale . . . . . . . . . . . . . . . . . . . 465 22
Gesetz vom iterierten Logarithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477 22.1 Iterierter Logarithmus f¨ur die Brown’sche Bewegung . . . . . . . . . . . . . 477 22.2 Skorohod’scher Einbettungssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480 22.3 Satz von Hartman-Wintner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
23
Große Abweichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489 23.1 Satz von Cram´er . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490 23.2 Prinzip der großen Abweichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494 23.3 Satz von Sanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498 23.4 Varadhan’sches Lemma und Freie Energie . . . . . . . . . . . . . . . . . . . . . . 502
24
Der Poisson’sche Punktprozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509 24.1 Zuf¨allige Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509 24.2 Eigenschaften des Poisson’schen Punktprozesses . . . . . . . . . . . . . . . . 513 24.3 Die Poisson-Dirichlet-Verteilung∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
25
Das Itˆo-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 25.1 Das Itˆo-Integral bez¨uglich der Brown’schen Bewegung . . . . . . . . . . . 527 25.2 Itˆo-Integral bez¨uglich Diffusionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535 25.3 Die Itˆo-Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 538 25.4 Dirichlet-Problem und Brown’sche Bewegung . . . . . . . . . . . . . . . . . . 546 25.5 Rekurrenz und Transienz der Brown’schen Bewegung . . . . . . . . . . . . 548
26
Stochastische Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . 551 26.1 Starke L¨osungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551 26.2 Schwache L¨osungen und Martingalproblem . . . . . . . . . . . . . . . . . . . . 560 26.3 Eindeutigkeit schwacher L¨osungen via Dualit¨at . . . . . . . . . . . . . . . . . 567
XII
Inhaltsverzeichnis
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583 ¨ Glossar englischer Ausdrucke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 587 Namensregister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 589 Sachregister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
1 Grundlagen der Maßtheorie
In diesem Kapitel f¨uhren wir die Mengensysteme ein, die eine systematische Betrachtung von Ereignissen und zuf¨alligen Beobachtungen in der Wahrscheinlichkeitstheorie erlauben. Ferner sollen Maße, insbesondere Wahrscheinlichkeitsmaße, auf solchen Mengensystemen konstruiert werden. Schließlich werden wir Zufallsvariablen als messbare Abbildungen definieren.
1.1 Mengensysteme Im Folgenden ist stets Ω = ∅ eine Menge und A ⊂ 2Ω (Potenzmenge von Ω) eine Familie von Teilmengen. Sp¨ater wird die Menge Ω als Raum von Elementarereignissen interpretiert werden und A als ein System von beobachtbaren Ereignissen. Wir wollen in diesem Abschnitt Mengensysteme, die abgeschlossen sind unter einfachen mengentheoretischen Verkn¨upfungen, mit Namen versehen und einfache Beziehungen zwischen solchen Systemen herstellen. Definition 1.1. Das Mengensystem A heißt – ∩-stabil (sprich: schnittstabil) oder ein π-System, falls f¨ur je zwei Mengen A, B ∈ A gilt, dass auch A ∩ B ∈ A, – σ-∩-stabil (sigma-schnittstabil), falls f¨ur je abz¨ahlbar unendlich viele Mengen ∞ An ∈ A, A1 , A2 , . . . ∈ A gilt, dass auch n=1
– ∪-stabil (vereinigungsstabil), falls f¨ur je zwei Mengen A, B ∈ A gilt, dass auch A ∪ B ∈ A, – σ-∪-stabil (sigma-vereinigungsstabil), falls f¨ur je abz¨ahlbar unendlich viele Men∞ An ∈ A, gen A1 , A2 , . . . ∈ A gilt, dass auch n=1
– \-stabil (differenzmengenstabil), falls f¨ur je zwei Mengen A, B ∈ A gilt, dass auch A \ B ∈ A, – komplementstabil, falls mit jeder Menge A ∈ A auch Ac := Ω \ A ∈ A gilt.
2
1 Grundlagen der Maßtheorie
Definition 1.2 (σ-Algebra). Ein Mengensystem A ⊂ 2Ω heißt σ-Algebra, falls die folgenden drei Bedingungen erf¨ullt sind. (i) Ω ∈ A, (ii) A ist komplementstabil, (iii) A ist σ-∪-stabil. σ-Algebren sind die nat¨urlichen Mengensysteme f¨ur zuf¨allige Ereignisse, denn wie wir sehen werden, k¨onnen wir diesen Ereignissen in konsistenter Weise Wahrscheinlichkeiten zuordnen. ¨ Satz 1.3. Ist A komplementstabil, so gelten die beiden folgenden Aquivalenzen. A ist ∩ -stabil
⇐⇒
A ist ∪ -stabil,
A ist σ- ∩ -stabil
⇐⇒
A ist σ- ∪ -stabil.
Beweis. Dies folgt direkt aus den de Morgan’schen Regeln (Erinnerung: ( Ai )c = c Ai ). Ist beispielsweise A σ-∩-stabil und sind A1 , A2 , . . . ∈ A, so ist auch ∞ c ∞ c An = An ∈ A. n=1
n=1
Also ist A auch σ-∪-stabil. Die anderen F¨alle folgen analog.
2
Satz 1.4. Ist A \-stabil, so gelten die folgenden Aussagen. (i) A ist ∩-stabil. (ii) Falls A σ-∪-stabil ist, dann ist A auch σ-∩-stabil. (iii) Jede abz¨ahlbare (beziehungsweise endliche) Vereinigung von Mengen aus A l¨asst sich als abz¨ahlbare (beziehungsweise endliche), disjunkte Vereinigung von Mengen in A schreiben. Beweis. (i) Seien A, B ∈ A. Dann ist auch A ∩ B = A \ (A \ B) ∈ A. (ii) Seien A1 , A2 , . . . ∈ A. Dann ist ∞ n=1
An =
∞
(A1 ∩ An ) =
n=2
∞
A1 \ (A1 \ An ) = A1 \
n=2
(iii) Seien A1 , A2 , . . . ∈ A. Dann ist gung in A darstellbar durch
∞
(A1 \ An ) ∈ A.
n=2 ∞ n=1
An als abz¨ahlbare, disjunkte Vereini-
1.1 Mengensysteme ∞
3
An = A1 (A2 \ A1 ) ((A3 \ A1 ) \ A2 ) (((A4 \ A1 ) \ A2 ) \ A3 ) . . . 2
n=1
Bemerkung 1.5. Manchmal bezeichnen wir, wie imobigen Beweis, die Vereinigung paarweise disjunkter Mengen mit dem Symbol . Dies soll lediglich der optischen Verdeutlichung dienen und ist keine neue Verkn¨upfung. 3 Definition 1.6. Ein Mengensystem A ⊂ 2Ω heißt Algebra, falls gilt: (i) Ω ∈ A, (ii) A ist \-stabil, (iii) A ist ∪-stabil. Offenbar ist in einer Algebra stets ∅ = Ω \ Ω enthalten. Diese Eigenschaft ist im Allgemeinen jedoch schw¨acher als (i) in Definition 1.6. Satz 1.7. Ein Mengensystem A ⊂ 2Ω ist genau dann eine Algebra, wenn es folgende drei Eigenschaften hat: (i) Ω ∈ A, (ii) A ist komplementstabil, (iii) A ist ∩-stabil. ¨ Beweis. Ubung!
2
Definition 1.8. Ein Mengensystem A ⊂ 2Ω heißt Ring, falls gilt: (i) ∅ ∈ A, (ii) A ist \-stabil, (iii) A ist ∪-stabil. Ein Ring heißt σ-Ring, falls er σ-∪-stabil ist. Definition 1.9. Ein Mengensystem A ⊂ 2Ω heißt Semiring (oder Halbring), falls gilt: (i) ∅ ∈ A, (ii) f¨ur je zwei Mengen A, B ∈ A ist B \ A endliche Vereinigung von paarweise disjunkten Mengen aus A, (iii) A ist ∩-stabil.
4
1 Grundlagen der Maßtheorie
Definition 1.10. Ein Mengensystem A ⊂ 2Ω heißt Dynkin-System (oder λ-System), falls gilt: (i) Ω ∈ A, (ii) f¨ur je zwei Mengen A, B ∈ A mit A ⊂ B ist B \ A ∈ A, (iii) f¨ ur je abz¨ahlbar viele, paarweise disjunkte Mengen A1 , A2 , . . . ∈ A gilt ∞ n=1 An ∈ A. Beispiele 1.11. (i) Ist Ω eine beliebige nichtleere Menge, so sind A = {∅, Ω} und A = 2Ω die trivialen Beispiele f¨ur Algebren, σ-Algebren und Dynkin-Systeme. Hingegen sind A = {∅} und A = 2Ω die trivialen Beispiele f¨ur Semiringe, Ringe und σ-Ringe. (ii) Sei Ω = R. Dann ist A = {A ⊂ R : A ist abz¨ahlbar} ein σ-Ring. (iii) A = {(a, b] : a, b ∈ R, a ≤ b} ist ein Semiring u¨ ber Ω = R (aber kein Ring). (iv) Die Menge endlicher Vereinigungen von beschr¨ankten Intervallen ist ein Ring u¨ ber Ω = R (aber keine Algebra). (v) Die Menge endlicher Vereinigungen beliebiger (auch unbeschr¨ankter) Intervalle ist eine Algebra u¨ ber Ω = R (aber keine σ-Algebra). (vi) Sei E eine endliche, nichtleere Menge und Ω := E N die Menge aller Folgen ω = (ωn )n∈N mit Werten in E. F¨ur ω1 , . . . , ωn ∈ E sei [ω1 , . . . , ωn ] := {ω ∈ Ω : ωi = ωi f¨ur jedes i = 1, . . . , n} die Menge aller Folgen, die mit den Werten ω1 , . . . , ωn beginnen. Sei A0 = {∅}. F¨ur n ∈ N setze Dann ist A :=
∞
An := {[ω1 , . . . , ωn ] : ω1 , . . . , ωn ∈ E}.
n=0
(1.1)
An ein Semiring, aber kein Ring (falls #E > 1).
(vii) Sei Ω eine beliebige nichtleere Menge. Dann ist A := {A ⊂ Ω : A oder Ac ist endlich} eine Algebra. Ist #Ω = ∞, so ist A jedoch keine σ-Algebra. (viii) Sei Ω eine beliebige nichtleere Menge. Dann ist A := {A ⊂ Ω : A oder Ac ist abz¨ahlbar} eine σ-Algebra. (ix) Jede σ-Algebra ist auch ein Dynkin-System.
(x) Sei Ω = {1, 2, 3, 4} und A = ∅, {1, 2}, {1, 4}, {2, 3}, {3, 4}, {1, 2, 3, 4} . Dann ist A ein Dynkin-System, aber keine Algebra. 3
1.1 Mengensysteme
5
Satz 1.12 (Inklusionen zwischen Mengensystemen). (i) Jede σ-Algebra ist ein Dynkin-System, eine Algebra und ein σ-Ring. (ii) Jeder σ-Ring ist ein Ring, jeder Ring ein Semiring. (iii) Jede Algebra ist auch ein Ring. Eine Algebra auf einer endlichen Menge Ω ist auch eine σ-Algebra. Beweis. (i) Das ist klar. (ii) Sei A ein Ring. Nach Satz 1.4 ist A schnittstabil und damit ein Semiring. (iii) Sei A eine Algebra, und seien A, B ∈ A. Dann ist A \ B = (Ac ∪ B)c ∈ A, also ist A ein Ring. Ist zudem Ω endlich, so ist A endlich und damit jede abz¨ahlbare Vereinigung in A schon eine endliche Vereinigung. 2 Definition 1.13 (liminf und limsup). Es seien A1 , A2 , . . . Teilmengen von Ω. Dann heißen ∞ ∞ ∞ ∞ Am und lim sup An := Am lim inf An := n→∞
n→∞
n=1 m=n
n=1 m=n
Limes inferior beziehungsweise Limes superior der Folge (An )n∈N . Bemerkung 1.14. (i) Es gilt
lim inf An = ω ∈ Ω : #{n ∈ N : ω ∈ An } < ∞ , n→∞
lim sup An = ω ∈ Ω : #{n ∈ N : ω ∈ An } = ∞ . n→∞
Der Limes inferior ist also das Ereignis, dass schließlich alle der An eintreten, der Limes superior hingegen das Ereignis, dass unendlich viele der An eintreten. Insbesondere ist A∗ := lim inf n→∞ An ⊂ A∗ := lim supn→∞ An . (ii) Bezeichnen wir mit A (x)
:=
1, 0,
falls x ∈ A, falls x ∈ A,
(1.2)
die Indikatorfunktion auf der Menge A, so gilt A∗
= lim inf n→∞
An ,
A∗
= lim sup n→∞
An .
(iii) Ist A ⊂ 2Ω eine σ-Algebra und An ∈ A f¨ur jedes n ∈ N, so ist A∗ ∈ A und 3 A∗ ∈ A. ¨ Beweis. Ubung!
2
6
1 Grundlagen der Maßtheorie
Satz 1.15 (Schnitt von Mengensystemen). Ist I eine beliebige Indexmenge und Ai eine σ-Algebra f¨ur jedes i ∈ I, so ist
AI := A ⊂ Ω : A ∈ Ai f¨ur jedes i ∈ I = Ai i∈I
eine σ-Algebra. Dies gilt analog f¨ur: Ringe, σ-Ringe, Algebren und Dynkin-Systeme; nicht aber f¨ur Semiringe. Beweis. Wir f¨uhren den Beweis hier nur f¨ur σ-Algebren durch. Wir pr¨ufen f¨ur A die Punkte (i)-(iii) aus Definition 1.2. (i) F¨ur jedes i ∈ I ist Ω ∈ Ai . Also ist Ω ∈ A. (ii) Sei A ∈ A. Dann ist A ∈ Ai f¨ur jedes i ∈ I. Also ist auch Ac ∈ Ai f¨ur jedes i ∈ I. Mithin ist Ac ∈ A. . . . ∈ A. Dann ist An ∈ Ai f¨ur jedes n ∈ N und jedes i ∈ I. Also (iii) Seien A1 , A2 , ∞ ist auch A := n=1 An ∈ Ai f¨ur jedes i ∈ I und damit A ∈ A. Gegenbeispiel f¨ur Semiringe: Seien Ω = {1, 2, 3, 4}, A1 = {∅, Ω, {1}, {2, 3}, {4}} und A2 = {∅, Ω, {1}, {2}, {3, 4}}. Dann sind A1 und A2 Semiringe, aber A1 ∩ 2 A2 = {∅, Ω, {1}} ist keiner. Satz 1.16 (Erzeugte σ-Algebra). Sei E ⊂ 2Ω . Dann existiert eine kleinste σAlgebra σ(E) mit E ⊂ σ(E): A. σ(E) := A⊂2Ω ist σ-Algebra A⊃E
σ(E) heißt die von E erzeugte σ-Algebra. E heißt Erzeuger von σ(E). Analog wird das von E erzeugte Dynkin-System δ(E) definiert. Beweis. A = 2Ω ist eine σ-Algebra mit E ⊂ A. Also ist der Schnitt nicht leer. Nach Satz 1.15 ist σ(E) eine σ-Algebra, und dies ist offenbar die kleinste σ-Algebra, die E enth¨alt. F¨ur Dynkin-Systeme geht der Beweis genauso. 2 Bemerkung 1.17. Es gelten die folgenden einfachen Aussagen. (i) E ⊂ σ(E). (ii) Gilt E1 ⊂ E2 , so ist σ(E1 ) ⊂ σ(E2 ). (iii) A ist genau dann σ-Algebra, wenn σ(A) = A. Die analogen Aussagen gelten f¨ur Dynkin-Systeme. Ferner ist stets δ(E) ⊂ σ(E).3
1.1 Mengensysteme
7
Satz 1.18 (Schnittstabiles Dynkin-System). Ist D ⊂ 2Ω ein Dynkin-System, so gilt D ist ∩-stabil Beweis. ”
=⇒ “
”
⇐= “
⇐⇒
D ist eine σ-Algebra.
Dies ist klar.
Wir pr¨ufen die Eigenschaften (i)-(iii) aus Definition 1.2.
(i) Offensichtlich ist Ω ∈ D. (ii) (Komplementstabilit¨at) Sei A ∈ D. Da Ω ∈ D gilt, und nach Eigenschaft (ii) des Dynkin-Systems, ist Ac = Ω \ A ∈ D. (iii) (σ-∪-Stabilit¨at) Seien A, B ∈ D. Nach Voraussetzung ist A ∩ B ∈ D, und es gilt trivialerweise A ∩ B ⊂ A. Also ist A \ B = A \ (A ∩ B) ∈ D. Mithin ist D \-stabil. Seien nun A1 , A2 , . . . ∈ D. Nach Satz 1.4(iii) existieren paarweise ∞ ∞ An = Bn ∈ D. 2 disjunkte Mengen B1 , B2 , . . . ∈ D mit n=1
n=1
Satz 1.19 (Dynkin’scher π–λ–Satz). Sei E ⊂ 2Ω ein ∩-stabiles Mengensystem. Dann gilt σ(E) = δ(E). Beweis. ⊃“ Dies ist klar nach Bemerkung 1.17. ” ⊂“ Zu zeigen ist: δ(E) ist eine σ-Algebra. Nach Satz 1.18 reicht es zu zeigen, ” dass δ(E) ∩-stabil ist. F¨ur B ∈ δ(E) sei DB := {A ∈ δ(E) : A ∩ B ∈ δ(E)}. F¨ur die Schnittstabilit¨at von δ(E) reicht es zu zeigen, dass δ(E) ⊂ DB
f¨ur jedes B ∈ δ(E).
(1.3)
Wir zeigen, dass DE f¨ur jedes E ∈ δ(E) ein Dynkin-System ist, indem wir (i)-(iii) aus Definition 1.10) pr¨ufen: (i) Offenbar ist Ω ∩ E = E ∈ δ(E), also ist Ω ∈ DE . (ii) F¨ur A, B ∈ DE mit A ⊂ B ist (B \ A) ∩ E = (B ∩ E) \ (A ∩ E) ∈ δ(E). (iii) Seien A1 , A2 , . . . ∈ DE paarweise disjunkt. Dann ist ∞ ∞ An ∩ E = (An ∩ E) ∈ δ(E). n=1
n=1
8
1 Grundlagen der Maßtheorie
Nach Voraussetzung ist f¨ur A ∈ E auch A ∩ E ∈ E, also ist E ⊂ DE , falls E ∈ E gilt. Nach Bemerkung 1.17(ii) ist daher auch δ(E) ⊂ DE f¨ur E ∈ E. F¨ur B ∈ δ(E) und E ∈ E ist also B ∩ E ∈ δ(E). Mithin gilt E ∈ DB f¨ur jedes B ∈ δ(E), also 2 E ⊂ DB f¨ur jedes B ∈ δ(E), und damit gilt (1.3). Von besonderer Bedeutung sind σ-Algebren, die von Topologien erzeugt werden. Hier wiederum spielt nat¨urlich der euklidische Raum Rn die prominenteste Rolle, aber wir wollen auch den (unendlichdimensionalen) Raum C([0, 1]) der stetigen Funktionen [0, 1] → R im Blick haben. Auf diesem Raum wird durch die Norm f ∞ = supx∈[0,1] |f (x)| eine Topologie erzeugt. Zur Erinnerung bringen wir hier das Axiomensystem der Topologie. Definition 1.20 (Topologie). Sei Ω = ∅ eine beliebige Menge. Ein Mengensystem τ ⊂ Ω heißt Topologie auf Ω, falls folgende drei Eigenschaften gelten. (i) ∅, Ω ∈ τ . (ii) Sind A, B ∈ τ , so ist auch A ∩ B ∈ τ . (iii) Ist F ⊂ τ eine beliebige Familie, so ist auch
A∈F
A ∈ τ.
Das Paar (Ω, τ ) heißt dann topologischer Raum. Die Mengen A ∈ τ heißen offen, die Mengen A ⊂ Ω mit Ac ∈ τ heißen abgeschlossen. Anders als bei σ-Algebren sind bei Topologien nur endliche Schnitte, jedoch auch u¨ berabz¨ahlbare Vereinigungen erlaubt. Ist d eine Metrik auf Ω, und bezeichnet Br (x) = {y ∈ Ω : d(x, y) < r} die offene Kugel um x ∈ Ω mit Radius r > 0, so wird eine Topologie erzeugt durch τ= Br (x) : F ⊂ Ω × (0, ∞) . (x,r)∈F
Dies ist das gew¨ohnliche System offener Mengen, das man in den meisten Analysisb¨uchern findet. Definition 1.21 (Borel’sche σ-Algebra). Sei (Ω, τ ) ein topologischer Raum. Die von den offenen Mengen erzeugte σ-Algebra B(Ω) := B(Ω, τ ) := σ(τ ) heißt Borel’sche σ-Algebra auf Ω. Die Elemente A ∈ B(Ω, τ ) heißen Borel’sche Mengen oder Borel-messbare Mengen. Bemerkung 1.22. Wir sind meistens an B(Rn ) interessiert, wobei wir auf Rn den euklidischen Abstand annehmen:
1.1 Mengensysteme
9
n d(x, y) = x − y2 = (xi − yi )2 . i=1
(i) Es gibt Teilmengen von R , die keine Borel’schen Mengen sind. Diese sind kompliziert herzustellen, wie beispielsweise die Vitali-Mengen, die man in Analysisb¨uchern findet (siehe etwa [7]). Wir wollen hier auf diesen Aspekt nicht n¨aher eingehen, sondern lediglich die - mathematisch unpr¨azise - Feststellung treffen, dass jede Menge, die man sich konstruktiv herstellen kann, auch Borel’sch ist. n
(ii) Jede abgeschlossene Menge C ⊂ Rn ist in B(Rn ), denn es ist C c ∈ τ , also ist C = (C c )c ∈ σ(τ ). Speziell ist {x} ∈ B(Rn ) f¨ur jedes x ∈ Rn . (iii) B(Rn ) ist keine Topologie. Sei n¨amlich V ⊂ Rn , V ∈ B(Rn ). W¨are B(Rn ) eine Topologie, so w¨aren beliebige Vereinigungen Borel’scher Mengen wieder Bo3 rel’sch, also auch V = x∈V {x} ∈ B(Rn ). Das Mengensystem der offenen Mengen, das die Borel’sche σ-Algebra erzeugt, ist in vielen F¨allen unhandlich groß. Wir wollen daher andere Mengensysteme als Erzeuger von B(Rn ) identifizieren, mit denen wir in der Praxis besser arbeiten k¨onnen. Hierzu wollen wir einerseits Mengen von einfacher Struktur, Quader etwa, betrachten, andererseits aber auch die Gr¨oße des Systems einschr¨anken, indem wir abz¨ahlbare Mengensysteme betrachten. Wir f¨uhren folgende Notationen ein. Mit Q bezeichnen wir die Menge der rationalen Zahlen, mit Q+ die Menge der strikt positiven rationalen Zahlen. F¨ur a, b ∈ Rn schreiben wir a < b,
falls ai < bi
f¨ur jedes i = 1, . . . , n.
(1.4)
Wir definieren f¨ur a < b den offenen Quader als das kartesische Produkt
×(a , b ) := (a , b ) × (a , b ) × · · · × (a , b ) n
(a, b) :=
i
i
1
1
2
2
n
n
(1.5)
i=1
und analog [a, b], (a, b] und [a, b). Ferner schreiben wir (−∞, b) := ×i=1 (−∞, bi ) und definieren analog (−∞, b] und so fort. Wir f¨uhren die folgenden Mengensysteme ein: n
E1 := {A ⊂ Rn : A ist offen},
E2 := {A ⊂ Rn : A ist abgeschlossen},
E3 := {A ⊂ Rn : A ist kompakt}, E5 := {(a, b) : a, b ∈ Qn , a < b},
E4 := {Br (x) : x ∈ Qn , r ∈ Q+ }, E6 := {[a, b) : a, b ∈ Qn , a < b},
E7 := {(a, b] : a, b ∈ Qn , a < b}, E9 := {(−∞, b) : b ∈ Qn }, E11 := {(a, ∞) : a ∈ Qn },
E8 := {[a, b] : a, b ∈ Qn , a < b}, E10 := {(−∞, b] : b ∈ Qn }, E12 := {[a, ∞) : a ∈ Qn }.
Satz 1.23. Die Borel’sche σ-Algebra B(Rn ) wird von jedem der Mengensysteme E1 , . . . , E12 erzeugt: B(Rn ) = σ(Ei ) f¨ur jedes i = 1, . . . , 12.
10
1 Grundlagen der Maßtheorie
Beweis. Wir zeigen nur exemplarisch ein paar der Identit¨aten. (1)
B(Rn ) = σ(E1 ) gilt per Definition.
(2) Sei A ∈ E1 . Dann ist Ac ∈ E2 , also A = (Ac )c ∈ σ(E2 ). Daher gilt E1 ⊂ σ(E2 ) und dann (wegen Bemerkung 1.17) auch σ(E1 ) ⊂ σ(E2 ). Analog folgt aber σ(E2 ) ⊂ σ(E1 ) und damit die Gleichheit. (3) Jede kompakte Menge ist abgeschlossen. Also gilt σ(E3 ) ⊂ σ(E2 ). Sei nun A ∈ E2 . Dann sind die Mengen AK := A ∩ [−K, K]n , K ∈ N, kompakt, also ist ∞ die abz¨ahlbare Vereinigung A = K=1 AK in σ(E3 ). Es gilt also E2 ⊂ σ(E3 ) und damit σ(E2 ) = σ(E3 ). (4) Offenbar ist E4 ⊂ E1 , also σ(E4 ) ⊂ σ(E1 ). Sei nun A ⊂ Rn offen. F¨ur x ∈ A sei R(x) = min(1, sup{r > 0 : Br (x) ⊂ A}). Da A offen ist, folgt R(x) > 0. Sei r(x) ∈ (R(x)/2, R(x)) ∩ Q. F¨ur jedes y ∈ A und x ∈ BR(y)/3 ∩ Qn ist nun 2 1 R(x) ≥ R(y) − x − y2 > 3 R(y), also r(x) > 3 R(y), also y ∈ Br(x) (x). Also ist A = x∈A∩Qn Br(x) (x) eine abz¨ahlbare Vereinigung von Mengen aus E4 und damit in σ(E3 ). Es gilt also auch σ(E1 ) ⊂ σ(E4 ). ¨ (5-12) Ahnliche Aussch¨opfungsargumente wie in (4) funktionieren auch f¨ur die Quader. In (4) k¨onnen statt der offenen Kugeln Br (x) offene Quader genommen werden. So folgt die Gleichheit mit σ(E5 ). Man bemerke beispielsweise, dass
× n
[ai , bi ) =
i=1
∞
× n
k=1 i=1
ai −
1 , bi ∈ σ(E5 ). k
Die anderen Inklusionen Ei ⊂ σ(Ej ) zeigt man analog.
2
Bemerkung 1.24. Jedes der Mengensystem E1 , E2 , E3 , E5 , . . . , E12 (nicht aber E4 ) ist schnittstabil, mithin ist die Borel’sche σ-Algebra jeweils gleich dem erzeugten Dynkin-System: B(Rn ) = δ(Ei ) f¨ur i = 1, . . . , 12. Die Mengensysteme E4 , . . . , E12 sind zudem abz¨ahlbar. Dies ist eine Eigenschaft, die wir an sp¨aterer Stelle wieder ben¨otigen werden. 3 Definition 1.25 (Spur eines Mengensystems). Es sei A ⊂ 2Ω ein beliebiges System von Teilmengen von Ω und A ∈ 2Ω \ {∅}. Das Mengensystem A := {A ∩ B : B ∈ A} ⊂ 2A (1.6) A
heißt Spur von A auf A, oder Einschr¨ankung von A auf A. Satz 1.26. Ist A eine σ-Algebra, oder eines der Mengensysteme aus den Definitio nen 1.6 – 1.10 auf Ω, so ist A ein Mengensystem vom selben Typ, allerdings auf A A statt Ω. ¨ Beweis. Ubung!
2
1.2 Mengenfunktionen
11
¨ Ubung 1.1.1. Sei A ein Semiring. Man zeige: Jede abz¨ahlbare (beziehungsweise endliche) Vereinigung von Mengen aus A l¨asst sich als abz¨ahlbare (beziehungsweise endliche), disjunkte Vereinigung von Mengen in A schreiben. ♣ ¨ Ubung 1.1.2. Man zeige durch ein Gegenbeispiel, dass im die Allgemeinen die Ver♣ einigung A ∪ A zweier σ-Algebren keine σ-Algebra ist. ¨ Ubung 1.1.3. Seien (Ω1 , d1 ) und (Ω2 , d2 ) metrische R¨aume, f : Ω1 → Ω2 eine beliebige Abbildung und Uf = x ∈ Ω1 : f ist unstetig in x die Menge der Unstetigkeitsstellen. Man zeige: Uf ∈ B(Ω1 ). Hinweis: Man zeige zun¨achst, dass f¨ur ε > 0 und δ > 0 die Menge
Ufδ,ε := x ∈ Ω1 : es gibt y, z ∈ Bε (x) mit d2 (f (y), f (z)) > δ (wobei Bε (x) = {y ∈ Ω1 : d1 (x, y) < ε}) offen ist und konstruiere dann Uf aus solchen Mengen. ♣ ¨ Ubung 1.1.4. Sei Ω eine u¨ berabz¨ahlbare Menge und A = σ({ω} : ω ∈ Ω). Zeige:
A = A ⊂ Ω : A ist abz¨ahlbar oder Ac ist abz¨ahlbar . ♣ ¨ Ubung 1.1.5. Sei A ein Ring auf der Menge Ω. Man zeige: A erf¨ullt die Axiome eines kommutativen Rings (im Sinne der Algebra) mit ∩“ als Multiplikation und ” “ als Addition. ♣ ”
1.2 Mengenfunktionen Definition 1.27. Sei A ⊂ 2Ω und μ : A → [0, ∞] eine Mengenfunktion. μ heißt (i) monoton, falls f¨ur je zwei Mengen A, B ∈ A mit A ⊂ B gilt, dass μ(A) ≤ μ(B), (ii) additiv, falls f¨ur je endlich viele disjunkte Mengen A1 , . . . , An ∈ A n paarweise n n Ai ∈ A gilt, dass μ Ai = μ(Ai ), mit i=1
i=1
i=1
(iii) σ-additiv, falls f¨ur je abz¨ahlbar viele disjunkte Mengen A1 , A2 , . . . ∞paarweise ∞ ∞ Ai ∈ A gilt, dass μ Ai = μ(Ai ), aus A mit i=1
i=1
i=1
(iv) subadditiv, falls f¨ur je endlich viele Mengen A, A1 , A2 , . . . , An ∈ A mit A ⊂ n n Ai gilt, dass μ(A) ≤ μ(Ai ), i=1
i=1
12
1 Grundlagen der Maßtheorie
(v) σ-subadditiv, falls f¨ur je abz¨ahlbar viele A, A1 , A2 , . . . ∈ A mit A ⊂ gilt, dass μ(A) ≤
∞
∞
Ai
i=1
μ(Ai ).
i=1
Definition 1.28. Sei A ein Semiring und μ : A → [0, ∞] eine Mengenfunktion mit μ(∅) = 0. μ heißt – Inhalt, falls μ additiv ist, – Pr¨amaß, falls μ σ-additiv ist, – Maß, falls μ ein Pr¨amaß ist und A eine σ-Algebra, – Wahrscheinlichkeitsmaß (kurz W-Maß), falls μ ein Maß ist und μ(Ω) = 1. Definition 1.29. Sei A ein Semiring. Ein Inhalt μ auf A heißt (i) endlich, falls μ(A) < ∞ f¨ur jedes A ∈ A, (ii) σ-endlich, falls es Mengen Ω1 , Ω2 , . . . ∈ A gibt mit Ω =
∞
Ωn und
n=1
μ(Ωn ) < ∞ f¨ur jedes n ∈ N.
Beispiel 1.30 (Inhalte, Maße). (i) Sei ω ∈ Ω und δω (A) = A (ω) (siehe (1.2)). Dann ist δω ein Wahrscheinlichkeitsmaß auf jeder σ-Algebra A ⊂ 2Ω und heißt Dirac-Maß im Punkt ω, oder Einheitsmasse. (ii) Sei Ω eine endliche, nichtleere Menge. Durch μ(A) :=
#A #Ω
f¨ur A ⊂ Ω,
wird ein Wahrscheinlichkeitsmaß auf A = 2Ω definiert. μ heißt Gleichverteilung oder uniforme Verteilung auf Ω. Wir f¨uhren hierf¨ur das Symbol UΩ := μ ein. Der so definierte Wahrscheinlichkeitsraum (Ω, A, UΩ ) wird auch Laplace-Raum genannt. (iii) Sei Ω abz¨ahlbar unendlich und A := {A ⊂ Ω : #A < ∞ oder #Ac < ∞}. Dann ist A eine Algebra. Die durch μ(A) =
0, ∞,
falls A endlich, falls Ac endlich,
auf Mengenfunktion ist
A definierte ein Inhalt, aber kein Pr¨amaß, denn es gilt μ ω∈Ω {ω} = μ(Ω) = ∞, aber ω∈Ω μ ({ω}) = 0.
1.2 Mengenfunktionen
13
(iv) Sei (μn )n∈N eine Folge von Maßen (Pr¨amaßen, Inhalten) ∞ und (αn )n∈N eine Folge von nichtnegativen Zahlen. Dann ist auch μ := n=1 αn μn ein Maß (Pr¨amaß, Inhalt). Ω (v) Sei Ω eine (h¨ochstens) abz¨ahlbare, nichtleere Menge und A = 2 . Ferner seien (pω )ω∈Ω nichtnegative Zahlen. Dann wird durch μ(A) := ω∈A pω f¨ur jedes A ⊂ Ω, ein σ-endliches Maß auf 2Ω definiert. Wir nennen p = (pω )ω∈Ω die Gewichtsfunktion von μ. (vi) Ist in (v) speziell ω∈Ω pω = 1, so ist μ ein Wahrscheinlichkeitsmaß. Wir interpretieren dann pω als Wahrscheinlichkeit des Elementarereignisses ω und nennen p = (pω )ω∈Ω auch einen Wahrscheinlichkeitsvektor.
(vii) Ist in (v) speziell pω = 1 f¨ur jedes ω ∈ Ω, so heißt μ das Z¨ahlmaß auf Ω. Ist Ω endlich, so ist auch μ endlich. (viii) Sei A der Ring endlicher Vereinigungen von Intervallen (a, b] ⊂ R. F¨ur n (ai , bi ] setzen wir a1 < b1 < a2 < b2 < . . . < bn und A = i=1
μ(A) =
n
|bi − ai |.
i=1
μ ist ein σ-endlicher Inhalt auf A (sogar ein Pr¨amaß), denn es ist und μ((−n, n]) = 2n < ∞ f¨ur jedes n ∈ N.
∞
n=1 (−n, n]
=R
(ix) Sei f : R → [0, ∞) stetig. Analog zu (viii) setze μf (A) =
n i=1
bi
f (x) dx.
ai
μf ist ein σ-endlicher Inhalt auf A (sogar ein Pr¨amaß). Die Funktion f heißt Dichte und spielt hier eine a¨ hnliche Rolle wie die Gewichtsfunktion p in (v). 3 Lemma 1.31 (Eigenschaften von Inhalten). Sei A ein Semiring und μ ein Inhalt auf A. Dann gelten die folgenden Aussagen. (i) Ist A ein Ring, so ist μ(A∪B)+μ(A∩B) = μ(A)+μ(B) f¨ur je zwei Mengen A, B ∈ A. (ii) μ ist monoton. Ist A ein Ring, so gilt genauer μ(B) = μ(A) + μ(B \ A) f¨ur je zwei Mengen A, B ∈ A mit A ⊂ B. (iii) μ ist subadditiv. Ist μ sogar σ-additiv, so ist μ auch σ-subadditiv. (iv) Ist A ein Ring, so gilt f¨ur je abz¨ahlbar viele, paarweise disjunkte Mengen ∞ ∞ ∞ An ∈ A stets μ(An ) ≤ μ An . A1 , A2 , . . . ∈ A mit n=1
n=1
n=1
14
1 Grundlagen der Maßtheorie
Beweis. (i) Es ist A ∪ B = A (B \ A) und B = (A ∩ B) (B \ A). Da μ additiv ist, folgt μ(A ∪ B) = μ(A) + μ(B \ A)
μ(B) = μ(A ∩ B) + μ(B \ A).
und
Hieraus folgt sofort (i). (ii) Sei A ⊂ B. Wegen A ∩ B = A folgt μ(B) = μ(A (B \ A)) = μ(A) + μ(B \ A), falls B \ A ∈ A ist,insbesondere also, falls A ein Ring ist. Ist nun A nur n disjunkte ein Semiring, so ist B \ A = i=1 Ci f¨ur gewisses n ∈ N und paarweise n Mengen C1 , . . . , Cn ∈ A. In diesem Fall ist μ(B) = μ(A) + i=1 μ(Ci ) ≥ μ(A), also ist μ monoton. n (iii) Seien n ∈ N und A, A1 , . . . , An ∈ A mit A ⊂ i=1 Ai . Setze B1 = A1 und Bk = Ak \
k−1
k−1
Ai =
i=1
(Ak \ (Ak ∩ Ai ))
f¨ur k = 2, . . . , n.
i=1
Per Definition des Semirings ist jedes Ak \ (Ak ∩ Ai ) disjunkte Vereinigung endlich vieler ck Mengen in A, also existiert ein ck ∈ N und Mengen Ck,1 , . . . , Ck,ck ∈ A mit B ⊂ Ak . Analog existieren dk ∈ N und Dk,1 , . . . , Dk,dk ∈ A mit i=1 Ck,i = dkk Dk,i . Da μ additiv ist, gilt Ak \ Bk = i=1 μ(Ak ) =
ck
μ(Ck,i ) +
i=1
dk
μ(Dk,i ) ≥
i=1
ck
μ(Ck,i ).
i=1
Wiederum aufgrund von Additivit¨at und Monotonie gilt n c ck n k μ(A) = μ (Ck,i ∩ A) = μ(Ck,i ∩ A) k=1 i=1
≤
ck n
k=1 i=1
μ(Ck,i ) ≤
k=1 i=1
n
μ(Ak ).
k=1
Also ist μ subadditiv. Die σ-Subadditivit¨at folgt aus der σ-Additivit¨at in analoger Weise. (iv)
∞
Sei A ein Ring und A =
An ∈ A. Da μ additiv (und damit monoton) ist,
n=1
gilt nach (ii) m
μ(An ) = μ
n=1
Also ist
∞ n=1
μ(An ) ≤ μ(A).
m
An
≤ μ(A)
f¨ur jedes m ∈ N.
n=1
2
1.2 Mengenfunktionen
15
Bemerkung 1.32. In (iv) kann strikte Ungleichheit herrschen (siehe etwa Beispiel 1.30(iii)). Mit anderen Worten: Es gibt Inhalte, die keine Pr¨amaße sind. 3 Satz 1.33 (Einschluss- Ausschlussformel). Sei A ein Ring und μ ein Inhalt. Dann gelten f¨ur n ∈ N und A1 , . . . , An ∈ A die Einschluss- Ausschlussformeln μ(A1 ∪ . . . ∪ An ) = μ(A1 ∩ . . . ∩ An ) =
n
(−1)k−1
k=1
{i1 ,...,ik }⊂{1,...,n}
n
(−1)k−1
k=1
μ(Ai1 ∩ . . . ∩ Aik ), μ(Ai1 ∪ . . . ∪ Aik ),
{i1 ,...,ik }⊂{1,...,n}
wobei sich die Summen u¨ ber alle k-elementigen Teilmengen von {1, . . . , n} erstrecken. ¨ Beweis. Ubung! Hinweis: Man verwende vollst¨andige Induktion u¨ ber n.
2
Wir wollen die σ-Subadditivit¨at durch eine Stetigkeitseigenschaft charakterisieren (Satz 1.36). Hierzu verabreden wir die folgende Sprechweise und Notation. Definition 1.34. Sind A, A1 , A2 , . . . Mengen, so schreiben wir – An ↑ A, falls A1 ⊂ A2 ⊂ . . . und
∞
An = A, ∞ – An ↓ A, falls A1 ⊃ A2 ⊃ A3 ⊃ . . . und n=1 An = A. n=1
Wir sagen dann, dass (An )n∈N gegen A aufsteigt beziehungsweise absteigt. Definition 1.35 (Stetigkeit von Inhalten). Sei μ ein Inhalt auf dem Ring A. (i) μ heißt stetig von unten, falls f¨ur jedes A ∈ A und jede Folge (An )n∈N in A n→∞ mit An ↑ A gilt: μ(An ) −→ μ(A). (ii) μ heißt stetig von oben, falls f¨ur jedes A ∈ A und jede Folge (An )n∈N in A n→∞ mit An ↓ A sowie μ(An ) < ∞ f¨ur jedes n ∈ N gilt: μ(An ) −→ μ(A). (iii) μ heißt ∅-stetig, falls (ii) f¨ur A = ∅ gilt. Bei der Stetigkeit von oben wurde die Endlichkeitsbedingung eingef¨uhrt, weil sogar f¨ur das Z¨ahlmaß μ auf (N, 2N ) und An := {n, n+1, . . .} ↓ ∅ sonst keine Gleichheit gelten kann.
16
1 Grundlagen der Maßtheorie
Satz 1.36 (Stetigkeit und Pr¨amaß). Sei μ ein Inhalt auf einem Ring A. Betrachte die folgenden f¨unf Eigenschaften. (i) μ ist σ-additiv (also ein Pr¨amaß). (ii) μ ist σ-subadditiv. (iii) μ ist stetig von unten. (iv) μ ist ∅-stetig. (v) μ ist stetig von oben. Dann gelten die Implikationen (i) ⇐⇒ (ii) ⇐⇒ (iii) =⇒ (iv) ⇐⇒ (v). Ist μ endlich, so gilt auch (iv) =⇒ (iii). ∞ Beweis. (i) =⇒ (ii)“ Seien A, A1 , A2 , . . . ∈ A mit A ⊂ i=1 Ai . Setze B1 = ” n−1 ∞ A1 und Bn = An \ i=1 Ai ∈ A f¨ur n = 2, 3, . . . Dann ist A = n=1 (A ∩ Bn ), also wegen der Monotonie von μ und der σ-Additivit¨at von μ μ(A) =
∞
μ(A ∩ Bn ) ≤
n=1
∞
μ(An ).
n=1
Damit ist μ als σ-subadditiv erkannt. (ii) =⇒ (i)“ Dies folgt aus Lemma 1.31(iv). ” (i) =⇒ (iii)“ Sei μ ein Pr¨amaß und A ∈ A sowie (An )n∈N eine Folge in A mit ” An ↑ A sowie A0 = ∅. Dann gilt μ(A) =
∞
μ(Ai \ Ai−1 ) = lim
n→∞
i=1
n
μ(Ai \ Ai−1 ) = lim μ(An ). n→∞
i=1
(iii) =⇒ (i)“ Gelte nun (iii). Seien B1 , B2 , . . . ∈ A paarweise disjunkt, und ” ∞ n gelte B = Bn ∈ A. Setze An = Bi f¨ur jedes n ∈ N. Dann folgt aus (iii) n=1
i=1
μ(B) = lim μ(An ) = n→∞
∞
μ(Bi ).
i=1
Also ist μ σ-additiv und damit ein Pr¨amaß. (iv) =⇒ (v)“ Seien A, A1 , A2 , . . . ∈ A mit An ↓ A und μ(A1 ) < ∞. Setze ” Bn = An \ A ∈ A f¨ur jedes n ∈ N. Dann gilt Bn ↓ ∅. Es gilt also μ(An ) − μ(A) = n→∞ μ(Bn ) −→ 0. (v) =⇒ (iv)“ ”
Dies ist trivial.
1.3 Fortsetzung von Maßen
17
(iii) =⇒ (iv)“ Seien A1 , A2 , . . . ∈ A mit An ↓ ∅ und μ(A1 ) < ∞. Dann gilt ” A1 \ An ∈ A f¨ur jedes n ∈ N und A1 \ An ↑ A1 , also μ(A1 ) = lim μ(A1 \ An ) = μ(A1 ) − lim μ(An ). n→∞
n→∞
Wegen μ(A1 ) < ∞ ist lim μ(An ) = 0. n→∞
(iv) =⇒ (iii)“ (f¨ur den Fall μ endlich) Es gelte nun μ(A) < ∞ f¨ur jedes A ∈ A, ” und μ sei ∅-stetig. Seien A, A1 , A2 , . . . ∈ A mit An ↑ A. Dann gilt A \ An ↓ ∅ und n→∞
μ(A) − μ(An ) = μ(A \ An ) −→ 0. 2
Also gilt (iii). Beispiel 1.37. (Vergleiche Beispiel 1.30(iii).) Sei Ω abz¨ahlbar und A = {A ⊂ Ω : #A < ∞ oder #Ac < ∞}, 0, falls A endlich, μ(A) = ∞, falls A unendlich. Dann ist μ ein ∅-stetiger Inhalt, aber kein Pr¨amaß.
3
Definition 1.38. (i) Ein Paar (Ω, A), bestehend aus einer nichtleeren Menge Ω und einer σ-Algebra A ⊂ 2Ω , heißt Messraum. Die Mengen A ∈ A heißen messbare Mengen. Ist Ω h¨ochstens abz¨ahlbar und A = 2Ω , so heißt der Messraum (Ω, 2Ω ) diskret. (ii) Ein Tripel (Ω, A, μ) heißt Maßraum, wenn (Ω, A) ein Messraum ist und μ ein Maß auf A. (iii) Ist zudem μ(Ω) = 1, so heißt (Ω, A, μ) ein Wahrscheinlichkeitsraum. In diesem Fall heißen die Mengen A ∈ A auch Ereignisse. (iv) Den Raum aller endlichen Maße auf (Ω, A) bezeichnen wir mit Mf (Ω) := Mf (Ω, A), den der W-Maße mit M1 (Ω) := M1 (Ω, A), schließlich den der σ-endlichen Maße mit Mσ (Ω, A).
1.3 Fortsetzung von Maßen In diesem Abschnitt wollen wir Maße konstruieren, indem wir zun¨achst auf einem einfachen Mengensystem, n¨amlich einem Semiring, plausible Werte f¨ur einen Inhalt angeben und dann, nach M¨oglichkeit, diesen Inhalt zu einem Maß auf der erzeugten σ-Algebra fortsetzen. Bevor wir zu den konkreten Bedingungen kommen, unter denen das machbar ist, bringen wir zwei Beispiele.
18
1 Grundlagen der Maßtheorie
Beispiel 1.39 (Lebesgue-Maß). Sei n ∈ N und A = {(a, b] : a, b ∈ Rn , a < b} der Semiring der halboffenen Quader (a, b] ⊂ Rn (vergleiche (1.5)). Das n-dimensionale Volumen des Quaders ist μ((a, b]) =
n
(bi − ai ).
i=1
K¨onnen wir μ zu einem (eindeutig bestimmten) Maß auf der Borel’schen σ-Algebra B(Rn ) = σ(A) fortsetzen? Wir werden sehen, dass dies m¨oglich ist. Das resultierende Maß heißt Lebesgue-Maß (manchmal auch Lebesgue-Borel-Maß) λ auf (R, B(R)). 3 Beispiel 1.40 (Produktmaß, Bernoulli-Maß). Wir wollen ein Wahrscheinlichkeitsmaß konstruieren f¨ur die unendliche, unabh¨angige Wiederholung eines Zufallsexperiments mit endlich vielen m¨oglichen Ausg¨angen. Die Menge der Ausg¨ ange sei E. F¨ur e ∈ E sei pe die Wahrscheinlichkeit, dass e eintritt. Es gilt also e∈E pe = 1. Die Ergebnisse dieser Experimente seien ω1 , ω2 , . . . ∈ E. Der Raum des gesamten Experiments ist daher Ω = E N . Wie in Beispiel 1.11(vi) definieren wir [ω1 , . . . , ωn ] := {ω ∈ Ω : ωi = ωi f¨ur jedes i = 1, . . . , n}
(1.7)
als die Menge aller Folgen, die mit den Werten ω1 , . . . , ωn beginnen. Sei A0 = {∅}. F¨ur n ∈ N definieren wir das Mengensystem der Zylindermengen, die nur von den ersten n Koordinaten abh¨angen, An := {[ω1 , . . . , ωn ] : ω1 , . . . , ωn ∈ E}, ∞ und setzen A := n=0 An .
(1.8)
Wir interpretieren [ω1 , . . . , ωn ] als das Ereignis, dass im ersten Experiment der Wert ω1 herauskommt, im zweiten ω2 und schließlich im n-ten Experiment der Wert ωn . Die Ergebnisse der weiteren Experimente spielen f¨ur das Eintreten des Ereignisses keine Rolle. F¨ur ω1 , . . . , ωn ∈ E soll die Wahrscheinlichkeit f¨ur [ω1 , . . . , ωn ] das Produkt der einzelnen Wahrscheinlichkeiten sein (das verstehen wir intuitiv unter Unabh¨angigkeit“) ” n p ωi . μ([ω1 , . . . , ωn ]) = i=1
Hierdurch wird ein Inhalt auf A definiert, und unser Ziel ist es, μ in eindeutiger Weise zu einem Wahrscheinlichkeitsmaß auf σ(A) fortzusetzen. Bevor wir dies tun, treffen wir noch die folgenden Definition. Wir definieren eine (Ultra-)Metrik auf Ω durch
1.3 Fortsetzung von Maßen
d(ω, ω ) =
2− inf{n∈N: ωn =ωn } ,
falls ω = ω ,
0,
falls ω = ω .
19
(1.9)
Dann ist (Ω, d) ein kompakter, metrischer Raum. Offenbar ist [ω1 , . . . , ωn ] = B2−n (ω) = {ω ∈ Ω : d(ω, ω ) < 2−n }. Das Komplement von [ω1 , . . . , ωn ] ist die Vereinigung von (#E)n − 1 offenen Kugeln [ω1 , . . . , ωn ], [ω1 , . . . , ωn ]c = ) =(ω ,...,ω ) (ω1 ,...,ωn 1 n
also offen. Damit ist [ω1 , . . . , ωn ] abgeschlossen und kompakt, weil Ω kompakt ist. ¨ Ahnlich wie in Satz 1.23 kann man zeigen, dass σ(A) = B(Ω, d). ¨ Ubung: Man zeige die obigen Aussagen. 3 Das Hauptergebnis dieses Kapitels ist der Fortsetzungssatz f¨ur Maße, den wir hier in der Form von Carath´eodory formulieren. Satz 1.41 (Carath´eodory). Sei A ⊂ 2Ω ein Ring und μ ein σ-endliches Pr¨amaß auf A. Dann kann μ auf genau eine Weise zu einem Maß μ auf σ(A) fortgesetzt werden, und μ ˜ ist σ-endlich. Den Beweis dieses Satzes m¨ussen wir mit einigen Lemmata vorbereiten. Wir zeigen dann in Satz 1.53 eine etwas st¨arkere Aussage. Dort wird auch die griffige Formulierung kann fortgesetzt werden“ pr¨azisiert. ” Lemma 1.42 (Eindeutigkeit durch schnittstabilen Erzeuger). Sei (Ω, A, μ) ein σ-endlicher Maßraum und E ⊂ A ein schnittstabiler Erzeuger von A. Es gebe E1 , E2 , . . . ∈ E mit En ↑ Ω und μ(En ) < ∞ f¨ur jedes n ∈ N. Dann ist μ durch die Werte μ(E), E ∈ E, eindeutig festgelegt. Ist μ ein W-Maß, so gilt die Folgerung auch ohne die Existenz der Folge (En )n∈N . Beweis. Sei ν ein weiteres σ-endliches Maß auf (Ω, A) mit der Eigenschaft μ(E) = ν(E)
f¨ur jedes E ∈ E.
Sei E ∈ E mit μ(E) < ∞. Betrachte das Mengensystem DE = {A ∈ A : μ(A ∩ E) = ν(A ∩ E)}. Um zu zeigen, dass DE ein Dynkin-System ist, pr¨ufen wir die Eigenschaften aus Definition 1.10: (i) Offensichtlich ist Ω ∈ DE .
20
1 Grundlagen der Maßtheorie
(ii) Seien A, B ∈ DE mit A ⊃ B. Dann ist μ ((A \ B) ∩ E) = μ(A ∩ E) − μ(B ∩ E) = ν(A ∩ E) − ν(B ∩ E) = ν ((A \ B) ∩ E) . Also ist A \ B ∈ DE . (iii) Seien A1 , A2 , . . . ∈ DE paarweise disjunkt sowie A =
∞
An . Dann ist
n=1
μ(A ∩ E) =
∞ n=1
μ(An ∩ E) =
∞
ν(An ∩ E) = ν(A ∩ E),
n=1
also A ∈ DE . Offenbar ist E ⊂ DE , also δ(E) ⊂ DE . Da E schnittstabil ist, ist nach Satz 1.19 A ⊃ DE ⊃ δ(E) = σ(E) = A. Also ist DE = A. F¨ur jedes A ∈ A und E ∈ E mit μ(E) < ∞ gilt also μ(A ∩ E) = ν(A ∩ E). Seien nun E1 , E2 , . . . ∈ E mit En ↑ Ω und μ(En ) < ∞ f¨ur jedes n ∈ N. Da μ und ν von unten stetig sind, gilt f¨ur A ∈ A μ(A) = lim μ(A ∩ En ) = lim ν(A ∩ En ) = ν(A). n→∞
n→∞
Der Zusatz ist trivial, denn E˜ := E ∪ {Ω} ist ebenfalls ein schnittstabiler Erzeuger von A, und der Wert μ(Ω) = 1 ist bekannt. Es kann also die konstante Folge En = Ω, n ∈ N, gew¨ahlt werden. Man beachte jedoch, dass es nicht reicht zu fordern, dass μ endlich ist, weil dann im Allgemeinen die Gesamtmasse μ(Ω) nicht eindeutig festgelegt ist (siehe Beispiel 1.45(ii)). 2
Beispiel 1.43. Sei Ω = Z und E = En : n ∈ Z , wobei En = (−∞, n] ∩ Z. E ist schnittstabil und σ(E) = 2Ω . Also ist ein endliches Maß μ auf (Ω, 2Ω ) eindeutig festgelegt durch die Werte μ(En ), n ∈ N. Ein σ-endliches Maß auf Z ist jedoch durch die Werte auf E noch nicht eindeutig bestimmt: Sei μ das Z¨ahlmaß auf Z und ν = 2μ. Dann ist μ(E) = ∞ = ν(E) f¨ur jedes E ∈ E. Um μ und ν zu unterscheiden, brauchen wir also einen Erzeuger, der Mengen endlichen Maßes (f¨ur μ) enth¨alt. Tun es die Mengen F˜n = [−n, n] ∩ Z, n ∈ N? In der Tat ist f¨ur jedes σ-endliche Maß μ jetzt μ(F˜n ) < ∞ f¨ur jedes n ∈ N. Allerdings erzeugen die F˜n nicht 2Ω (sondern welche σ-Algebra?). Wir k¨onnen aber die Definition so modifizieren: Fn = [−n/2, (n + 1)/2] ∩ Z. Dann ist σ({Fn , n ∈ N}) = 2Ω , also E = {Fn , n ∈ N} ein schnittstabiler Erzeuger von 2Ω und μ(Fn ) < ∞ f¨ur jedes n ∈ N. Wegen Fn ↑ Ω sind die Bedingungen des Satzes erf¨ullt. 3
1.3 Fortsetzung von Maßen
21
Beispiel 1.44 (Verteilungsfunktion). Ein W-Maß μ auf dem Raum (Rn , B(Rn )) ist n durch Angabe der Werte μ((−∞, b]) auf den Mengen (−∞, b] = ×i=1 (−∞, bi ], b ∈ Rn , eindeutig festgelegt, da diese Mengen einen schnittstabilen Erzeuger bilden (Satz 1.23). Speziell ist ein W-Maß μ auf R durch Angabe der Verteilungsfunktion F : R → [0, 1], x → μ((−∞, x]) eindeutig bestimmt. 3
Beispiel 1.45. (i) Sei Ω = {1, 2, 3, 4} und E = { 1, 2}, {2, 3} . Offenbar gilt σ(E) = 2Ω , jedoch ist E nicht schnittstabil. Tats¨achlich ist hier ein W-Maß μ durch Angabe der Werte μ({1, 2}) = μ({2, 3}) = 12 nicht eindeutig festgelegt. Es gibt beispielsweise die M¨oglichkeiten μ = 12 δ1 + 12 δ3 oder μ = 12 δ2 + 12 δ4 . (ii) Sei Ω = {1, 2} und E = {{1}}. Dann ist E ein schnittstabiler Erzeuger von 2Ω , und ein W-Maß μ ist durch Angabe von μ({1}) eindeutig festgelegt. Allerdings gilt dies nicht f¨ur endliche Maße im Allgemeinen, denn μ = 0 und ν = δ2 sind zwei endliche Maße, die auf E u¨ bereinstimmen. 3 ¨ Definition 1.46 (Außeres Maß). Eine Mengenfunktion μ∗ : 2Ω → [0, ∞] heißt a¨ ußeres Maß, falls gilt: (i) μ∗ (∅) = 0, (ii) μ∗ ist monoton, (iii) μ∗ ist σ-subadditiv. Lemma 1.47. Sei A ⊂ 2Ω ein beliebiges Mengensystem mit ∅ ∈ A und μ eine monotone Mengenfunktion auf A mit μ(∅) = 0. F¨ur A ⊂ Ω sei F U(A) = F ⊂ A : F ist h¨ochstens abz¨ahlbar und A ⊂ F ∈F
¨ die Menge der abz¨ahlbaren Uberdeckungen F von A mit Mengen F aus A. Setze ∗ μ (A) := inf μ(F ) : F ∈ U(A) , F ∈F
wobei inf ∅ = ∞. Dann ist μ∗ (A) = μ(A) f¨ur jedes A ∈ A, und μ∗ ist ein a¨ ußeres Maß. Beweis. Wir weisen die Eigenschaften (i)-(iii) des a¨ ußeren Maßes nach. (i) Wegen ∅ ∈ A ist {∅} ∈ U(∅), also ist μ∗ (∅) = 0. (ii) Ist A ⊂ B, so ist U(A) ⊃ U(B), also ist μ∗ (A) ≤ μ∗ (B). ∞ (iii) Sei An ⊂ Ω f¨ur jedes n ∈ N und A ⊂ n=1 An . Wir m¨ussen zeigen, dass ∞ ∗ ankung sei μ∗ (An ) < ∞ und damit μ∗ (A) ≤ n=1 μ (An ). Ohne Einschr¨
22
1 Grundlagen der Maßtheorie
U(An ) = ∅ f¨ur jedes n ∈ N. W¨ahle ε > 0 und zu jedem n ∈ N eine ¨ Uberdeckung Fn ∈ U(An ) mit μ(F ) ≤ μ∗ (An ) + ε 2−n . F ∈Fn
Dann ist F :=
∞ n=1
μ∗ (A) ≤
Fn ∈ U(A) und
μ(F ) ≤
F ∈F
∞
μ(F ) ≤
n=1 F ∈Fn
∞
μ∗ (An ) + ε.
2
n=1
Definition 1.48 (μ∗ -messbare Mengen). Sei μ∗ ein a¨ ußeres Maß. Eine Menge A ∈ 2Ω heißt μ∗ -messbar, falls μ∗ (A ∩ E) + μ∗ (Ac ∩ E) = μ∗ (E)
f¨ur jedes E ∈ 2Ω .
(1.10)
Wir schreiben M(μ∗ ) = {A ∈ 2Ω : A ist μ∗ -messbar}. Lemma 1.49. Es ist A ∈ M(μ∗ ) genau dann, wenn μ∗ (A ∩ E) + μ∗ (Ac ∩ E) ≤ μ∗ (E)
f¨ur jedes E ∈ 2Ω .
Beweis. Da μ∗ subadditiv ist, gilt stets die andere Ungleichung.
2
Lemma 1.50. M(μ∗ ) ist eine Algebra. Beweis. Wir pr¨ufen die Eigenschaften (i)-(iii) der Algebra aus Satz 1.7. (i) Ω ∈ M(μ∗ ) ist klar. (ii) (Komplementstabilit¨at)
Per Definition ist A ∈ M(μ∗ ) ⇐⇒ Ac ∈ M(μ∗ ).
(iii) (Schnittstabilit¨at) Seien A, B ∈ M(μ∗ ) und E ∈ 2Ω . Dann ist μ∗ ((A ∩ B) ∩ E) + μ∗ ((A ∩ B)c ∩ E)
= μ∗ (A ∩ B ∩ E) + μ∗ (Ac ∩ B ∩ E) ∪ (Ac ∩ B c ∩ E) ∪ (A ∩ B c ∩ E) ≤ μ∗ (A ∩ B ∩ E) + μ∗ (Ac ∩ B ∩ E) + μ∗ (Ac ∩ B c ∩ E) + μ∗ (A ∩ B c ∩ E) = μ∗ (B ∩ E) + μ∗ (B c ∩ E) = μ∗ (E). Dabei haben wir in der vorletzten Gleichung A ∈ M(μ∗ ) benutzt und in der letzten 2 B ∈ M(μ∗ ). Lemma 1.51. Ein a¨ ußeres Maß μ∗ ist σ-additiv auf M(μ∗ ).
1.3 Fortsetzung von Maßen
23
Beweis. Seien A, B ∈ M(μ∗ ) mit A ∩ B = ∅. Dann ist μ∗ (A ∪ B) = μ∗ (A ∩ (A ∪ B)) + μ∗ (Ac ∩ (A ∪ B)) = μ∗ (A) + μ∗ (B). Induktiv folgt die (endliche) Additivit¨at. Da μ∗ per Definition σ-subadditiv ist, folgt nach Satz 1.36, dass μ∗ auch σ-additiv ist. 2 Lemma 1.52. Ist μ∗ ein a¨ ußeres Maß, so ist M(μ∗ ) eine σ-Algebra. Speziell ist μ∗ ein Maß auf M(μ∗ ). Beweis. Nach Lemma 1.50 ist M(μ∗ ) eine Algebra, also insbesondere schnittstabil. Nach Satz 1.18 reicht es zu zeigen, dass M(μ∗ ) ein Dynkin-System ist. ∞ Seien also A1 , A2 , . . . ∈ M(μ∗ ) paarweise disjunkt und A := An . Zu zeigen n=1
ist A ∈ M(μ∗ ), also μ∗ (A ∩ E) + μ∗ (Ac ∩ E) ≤ μ∗ (E) Setze Bn =
n
f¨ur jedes E ∈ 2Ω .
(1.11)
Ai f¨ur jedes n ∈ N. Es gilt f¨ur jedes n ∈ N
i=1
μ∗ (E ∩ Bn+1 ) = μ∗ (E ∩ Bn+1 ) ∩ Bn + μ∗ (E ∩ Bn+1 ) ∩ Bnc = μ∗ (E ∩ Bn ) + μ∗ (E ∩ An+1 ), n und induktiv μ∗ (E ∩ Bn ) = i=1 μ∗ (E ∩ Ai ). Wegen der Monotonie von μ∗ folgt μ∗ (E) = μ∗ (E ∩ Bn ) + μ∗ (E ∩ Bnc ) ≥ μ∗ (E ∩ Bn ) + μ∗ (E ∩ Ac ) =
n
μ∗ (E ∩ Ai ) + μ∗ (E ∩ Ac ).
i=1
Indem wir n → ∞ gehen lassen, folgt mit der σ-Subadditivit¨at von μ∗ μ∗ (E) ≥
∞
μ∗ (E ∩ Ai ) + μ∗ (E ∩ Ac ) ≥ μ∗ (E ∩ A) + μ∗ (E ∩ Ac ).
i=1
Also gilt (1.11), und der Beweis ist komplett.
2
Wir zeigen nun einen Satz, der mit schw¨acheren Voraussetzungen auskommt als der Satz von Carath´eodory (Satz 1.41) und diesen impliziert. ¨ Maße). Sei A ein Semiring und μ : A → [0, ∞] Satz 1.53 (Fortsetzungssatz fur eine additive, σ-subadditive, σ-endliche Mengenfunktion mit μ(∅) = 0. Dann existiert ein eindeutig bestimmtes, σ-endliches Maß μ : σ(A) → [0, ∞] mit μ (A) = μ(A) f¨ur jedes A ∈ A.
24
1 Grundlagen der Maßtheorie
Beweis. Da A schnittstabil ist, folgt die Eindeutigkeit aus Lemma 1.42. Um die Existenz zu zeigen, definieren wir wie in Lemma 1.47 ∗ μ(F ) : F ∈ U(A) f¨ur jedes A ∈ 2Ω . μ (A) := inf F ∈F
Nach Lemma 1.31(ii) ist μ monoton, also ist μ∗ nach Lemma 1.47 ein a¨ ußeres Maß und μ∗ (A) = μ(A) f¨ur jedes A ∈ A. Wir m¨ussen zeigen, dass M(μ∗ ) ⊃ σ(A) gilt. Da M(μ∗ ) eine σ-Algebra ist (Lemma 1.52), reicht es, A ⊂ M(μ∗ ) zu zeigen. Seien also A ∈ A und E ∈ 2Ω mit μ∗ (E) < ∞. Sei ε > 0. Dann gibt es E1 , E2 , . . . ∈ A mit E⊂
∞
En
∞
und
n=1
μ(En ) ≤ μ∗ (E) + ε.
n=1
Setze Bn := En ∩ A ∈ A . Da A ein Semiring ist, gibt es zu jedem n ∈ N ein m n k Cn . Also ist mn ∈ N sowie Cn1 , . . . , Cnmn ∈ A mit En \ A = En \ Bn = k=1
E∩A⊂
∞ n=1
Bn ,
E ∩ Ac ⊂
∞
m n
n=1
k=1
Cnk
En = Bn
und
m n
Cnk .
k=1
μ∗ ist σ-subadditiv, und nach Voraussetzung ist μ additiv. Wegen μ∗ ≤ μ (es gilt A sogar Gleichheit, wie wir gleich sehen) folgt μ∗ (E ∩ A) + μ∗ (E ∩ Ac ) ≤
∞
μ∗ (Bn ) +
n=1
≤
∞
=
n=1
=
∞
μ∗
n=1
μ(Bn ) +
n=1 ∞
∞
m n
μ(Cnk )
k=1
mn ∞
μ(Cnk )
n=1 k=1
μ(Bn ) +
mn
μ(Cnk )
k=1
μ(En ) ≤ μ∗ (E) + ε.
n=1
Daher ist μ∗ (E ∩ A) + μ∗ (E ∩ Ac ) ≤ μ∗ (E) und damit A ∈ M(μ∗ ), also ist : σ(A) → [0, ∞], A → μ∗ (A). Nach Lemma 1.51 ist μ A ⊂ M(μ∗ ). Setze nun μ ein Maß und μ ist σ-endlich, weil μ σ-endlich ist. 2 Beispiel 1.54 (Lebesgue-Maß, Fortsetzung von Beispiel 1.39). Wir wollen das auf den Quadern A = {(a, b] : a, b ∈ Rn , a < b} eingef¨uhrte Volumen μ((a, b]) =
1.3 Fortsetzung von Maßen
25
n
− ai ) zu einem Maß auf der Borel’schen σ-Algebra B(Rn ) fortsetzen. Um die Voraussetzungen von Satz 1.53 zu pr¨ufen, m¨ussen wir nur noch zeigen, dass μ σ-subadditiv ist. Seien also (a, b], (a(1), b(1)], (a(2), b(2)], . . . ∈ A mit i=1 (bi
∞
(a, b] ⊂
(a(k), b(k)].
k=1
Wir m¨ussen zeigen, dass μ((a, b]) ≤
∞
μ((a(k), b(k)]).
(1.12)
k=1
Hierzu benutzen wir ein Kompaktheitsargument, um (1.12) auf die endliche Additivit¨at zur¨uck zu f¨uhren. Sei also ε > 0, und sei f¨ur jedes k ∈ N ein bε (k) > b(k) so gew¨ahlt, dass μ((a(k), bε (k)]) ≤ μ((a(k), b(k)]) + ε 2−k−1 . Ferner sei aε ∈ (a, b) so gew¨ahlt, dass μ((aε , b]) ≥ μ((a, b]) − 2ε . Nun ist [aε , b] kompakt und ∞
(a(k), bε (k)) ⊃
k=1
∞
(a(k), b(k)] ⊃ (a, b] ⊃ [aε , b].
k=1
K0 Also existiert ein K0 mit k=1 (a(k), bε (k)) ⊃ (aε , b]. Da μ (endlich) subadditiv ist (Lemma 1.31(iii)), folgt 0 ε ε + μ((aε , b]) ≤ + μ((a(k), bε (k)]) 2 2
K
μ((a, b]) ≤
k=1
ε ≤ + 2
K0
−k−1
ε2
∞ + μ((a(k), b(k)]) ≤ ε + μ((a(k), b(k)]).
k=1
k=1
Da ε > 0 beliebig war, folgt (1.12) und damit die σ-Subadditivit¨at von μ.
3
Zusammen mit Satz 1.53 haben wir den folgenden Satz gezeigt. Satz 1.55 (Lebesgue-Maß). Es existiert ein eindeutig bestimmtes Maß λn auf (Rn , B(Rn )) mit der Eigenschaft λn ((a, b]) =
n
(bi − ai )
f¨ur alle a, b ∈ Rn mit a < b.
i=1
λn heißt Lebesgue-Maß auf (Rn , B(Rn )), oder Lebesgue-Borel-Maß.
26
1 Grundlagen der Maßtheorie
Beispiel 1.56 (Lebesgue-Stieltjes-Maß). Sei Ω = R und A = {(a, b] : a, b ∈ R, a ≤ b}. A ist ein Semiring und σ(A) = B(R), wo B(R) die Borel’sche σAlgebra auf R ist. Ferner sei F : R → R monoton wachsend und rechtsseitig stetig. Wir definieren eine Mengenfunktion μ ˜F : A → [0, ∞),
(a, b] → F (b) − F (a).
˜F ist additiv. Offensichtlich ist μ ˜F (∅) = 0, und μ
∞ Seien (a, b], (a(1), b(1)], (a(2), b(2)], . . . ∈ A mit (a, b] ⊂ n=1 (a(n), b(n)]. Sei ε > 0, und sei aε ∈ (a, b) so gew¨ahlt, dass F (aε ) − F (a) < ε/2. Dies geht, weil F als rechtsstetig angenommen wurde. Ferner sei f¨ur jedes k ∈ N ein bε (k) > b(k) so gew¨ahlt, dass F (bε (k)) − F (b(k))< ε 2−k−1 . Wie in Beispiel 1.54 kann man ∞ ˜F ((a(k), b(k)]). Es folgt, dass μ ˜F σjetzt zeigen, dass μ ˜F ((a, b]) ≤ ε + k=1 μ subadditiv ist. Nach Satz 1.53 k¨onnen wir μ ˜F auf eindeutige Weise zu einem σ3 endlichen Maß μF auf B(R) fortsetzen. Definition 1.57 (Lebesgue-Stieltjes-Maß). Das Maß μF auf (R, B(R)) mit μF ((a, b]) = F (b) − F (a)
f¨ur alle a, b ∈ R mit a < b
heißt Lebesgue-Stieltjes-Maß zur Funktion F . Beispiel 1.58. Wichtige Spezialf¨alle f¨ur das Lebesgue-Stieltjes-Maß sind: (i) Ist F (x) = x, so ist μF = λ1 das Lebesgue-Maß auf R. x f (t) dt f¨ur x ∈ R. Dann ist μF (ii) Sei f : R → [0, ∞) stetig und F (x) = 0
die Fortsetzung des in Beispiel 1.30(ix) definierten Pr¨amaßes mit Dichte f . ∞ (iii) Sind x1 , x2 , . . . ∈ R und αn ≥ 0 f¨ur n ∈ N mit n=1 αn < ∞, so geh¨ort zu ∞ ∞ F = n=1 αn [xn ,∞) das endliche Maß μF = n=1 αn δxn . ∞ (iv) Sind x1 , x2 , . . . ∈ R, so ist μ = n=1 δxn ein σ-endliches Maß. μ ist genau dann ein Lebesgue-Stieltjes-Maß, wenn die Folge (xn )n∈N keinen H¨aufungspunkt hat. Hat n¨amlich (xn )n∈N keinen H¨aufungspunkt, so ist nach dem Satz von BolzanoWeierstraß #{n ∈ N : xn ∈ [−K, K]} < ∞ f¨ur jedes K > 0. Setzen wir F (x) = #{n ∈ N : xn ∈ [0, x]} f¨ur x ≥ 0 und F (x) = −#{n ∈ N : xn ∈ [x, 0)}, so ist μ = μF . Ist nun andererseits μ ein Lebesgue-Stieltjes-Maß, also μ = μF f¨ur ein F , dann ist #{n ∈ N : xn ∈ (−K, K]} = F (K) − F (−K) < ∞ f¨ur jedes K > 0, also hat (xn )n∈N keinen H¨aufungspunkt. (v)
Gilt lim F (x) − F (−x) = 1, so ist μF ein W-Maß. x→∞
Den Fall, wo μF ein W-Maß ist, wollen wir noch weiter untersuchen.
3
1.3 Fortsetzung von Maßen
27
Definition 1.59 (Verteilungsfunktion). Eine rechtsseitig stetige, monoton wachsende Funktion F : R → [0, 1] mit F (−∞) := lim F (x) = 0 und F (∞) := x→−∞
lim F (x) = 1 heißt Verteilungsfunktion. Gilt statt F (∞) = 1 lediglich F (∞) ≤ x→∞ 1, so heißt F uneigentliche Verteilungsfunktion. Ist μ ein (Sub-)W-Maß auf (R, B(R)), so heißt Fμ : x → μ((−∞, x]) die Verteilungsfunktion von μ. Offenbar ist Fμ rechtsseitig stetig und F (−∞) = 0, weil μ stetig von oben und endlich ist (Satz 1.36). Auf Grund der Stetigkeit von unten ist F (∞) = μ(R), also ist Fμ tats¨achlich eine (uneigentliche) Verteilungsfunktion, wenn μ ein (Sub-)WMaß ist. Die Argumentation aus Beispiel 1.56 liefert nun den folgenden Satz. Satz 1.60. Die Abbildung μ → Fμ ist eine Bijektion von der Menge der W-Maße auf (R, B(R)) auf die Menge der Verteilungsfunktionen, beziehungsweise von der Menge der Sub-W-Maße auf die der uneigentlichen Verteilungsfunktionen. Wir sehen also, dass jedes endliche Maß auf (R, B(R)) ein Lebesgue-Stieltjes-Maß f¨ur eine gewisse Funktion F ist. F¨ur σ-endliche Maße ist dies im Allgemeinen falsch, wie wir in Beispiel 1.58(iv) gesehen haben. Wir kommen nun zu einem Satz, der Satz 1.55 mit dem Lebesgue-Stieltjes-Maß kombiniert. Sp¨ater werden wir sehen, dass dieser Satz in gr¨oßerer Allgemeinheit g¨ultig ist. Speziell kann man auf die Bedingung verzichten, dass die einzelnen Faktoren vom Lebesgue-Stieltjes-Typ sind. Satz 1.61 (Endliche Produkte von Maßen). Sei n ∈ N, und seien μ1 , . . . , μn endliche Maße oder, allgemeiner, Lebesgue-Stieltjes-Maße auf (R, B(R)). Dann existiert ein eindeutig bestimmtes, σ-endliches Maß μ auf (Rn , B(Rn )) mit μ((a, b]) =
n
μi ((ai , bi ])
f¨ur alle a, b ∈ Rn mit a < b.
i=1 n
μi das Produktmaß zu den Maßen μ1 , . . . , μn .
Wir nennen μ =: i=1
Beweis. Dies geht v¨ollig analog zum Beweis von Satz 1.55. Man muss sich vergewissern, dass die Intervalle (a, bε ] und so weiter, so gew¨ahlt werden k¨onnen, dass μ((a, bε ]) < μ((a, b]) + ε. Hierzu wird die Rechtsstetigkeit der zu den μi geh¨origen ¨ 2 wachsenden Funktion Fi verwendet. Wir u¨ berlassen die Details zur Ubung. Bemerkung 1.62. Wir werden sp¨ater in Satz 14.14 sehen, dass die Aussage auch f¨ur beliebige σ-endliche Maße μ1 , . . . , μn auf beliebigen (auch unterschiedlichen)
28
1 Grundlagen der Maßtheorie
Messr¨aumen gilt. Wir k¨onnen auch unendliche (sogar u¨ berabz¨ahlbare) Produkte betrachten, wenn wir voraussetzen, dass alle Faktoren Wahrscheinlichkeitsr¨aume sind (Satz 14.36). 3 Beispiel 1.63 (Unendliches Produktmaß, Fortsetzung von Beispiel 1.40). Sei E eine endliche Menge und Ω = E N der Raum der Folgen mit Werten in E. Ferner sei (pe )e∈E ein Wahrscheinlichkeitsvektor. Der auf A = {[ω1 , . . . , ωn ] : ω1 , . . . , ωn ∈ E, n ∈ N} definierte Inhalt μ([ω1 , . . . , ωn ]) =
n
p ωi
i=1
soll nun zu einem Maß auf σ(A) fortgesetzt werden. Um die Voraussetzungen von Satz 1.53 zu pr¨ufen, m¨ussen wir zeigen, dass μ σ-subadditiv ist. Wie im vorangehenden Beispiel geht dies mit Hilfe eines Kompaktheitsarguments. ∞ Seien also A, A1 , A2 , . . . ∈ A und A ⊂ n=1 An . Es reicht zu zeigen, dass es ein N ∈ N gibt mit der Eigenschaft A⊂
N
An .
(1.13)
n=1
Dann ist n¨amlich aufgrund der endlichen Subadditivit¨at von μ (Lemma 1.31(iii)) N ∞ μ(An ) ≤ μ(An ), also ist μ σ-subadditiv. schon μ(A) ≤ n=1
n=1
Wir geben nun zwei Beweise f¨ur (1.13) an. 1. Beweis Wie in Beispiel 1.40 angemerkt, ist Ω mit der von der Metrik d in (1.9) erzeugten Produkttopologie kompakt, und jedes A ∈ A ist abgeschlossen und damit auch kompakt. Da jedes der An zugleich offen ist, gibt es eine endliche Teil¨uberdeckung von A, mithin gilt (1.13). 2. Beweis Wir zeigen nun auf elementare Weise die G¨ultigkeit von (1.13). Das Vorgehen imitiert den Beweis daf¨ur, dass Ω kompakt ist. Wir setzen Bn := n A \ i=1 Ai , nehmen an, dass Bn = ∅ f¨ur jedes n ∈ N und f¨uhren dies zum Widerspruch. Nach dem Dirichlet’schen Schubfachprinzip (E ist endlich) k¨onnen wir ein ω1 ∈ E ausw¨ahlen, sodass [ω1 ] ∩ Bn = ∅ f¨ur unendlich viele n ∈ N. Wegen B1 ⊃ B2 ⊃ . . . folgt [ω1 ] ∩ Bn = ∅
f¨ur jedes n ∈ N.
W¨ahle nun sukzessive ω2 , ω3 , . . . ∈ E so aus, dass [ω1 , . . . , ωk ] ∩ Bn = ∅
f¨ur alle k, n ∈ N.
Bn ist disjunkte Vereinigung von gewissen Mengen Cn,1 , . . . , Cn,mn ∈ A. Daher existiert zu jedem n ∈ N ein in ∈ {1, . . . , mn } mit [ω1 , . . . , ωk ] ∩ Cn,in = ∅ f¨ur unendlich viele k ∈ N. Wegen [ω1 ] ⊃ [ω1 , ω2 ] ⊃ . . . folgt
1.3 Fortsetzung von Maßen
[ω1 , . . . , ωk ] ∩ Cn,in = ∅
29
f¨ur alle k, n ∈ N.
ist ω = (ω1 , ω2 , . . .) ∈ F¨ur festes n ∈ N und großes k ist [ω1 , . . . , ωk ] ⊂ Cn,in , also ∞ 3 Cn,in ⊂ Bn . Es folgt im Widerspruch zur Annahme, dass n=1 Bn = ∅. Zusammen mit Satz 1.53 haben wir den folgenden Satz gezeigt. Satz 1.64 (Produktmaß, Bernoulli-Maß). Sei E eine endliche, nichtleere Menge und Ω = E N sowie (pe )e∈E ein Wahrscheinlichkeitsvektor. Dann gibt es ein eindeutig bestimmtes W-Maß μ auf σ(A) = B(Ω) mit μ([ω1 , . . . , ωn ]) =
n
p ωi
f¨ur alle ω1 , . . . , ωn ∈ E und n ∈ N.
i=1
Wir nennen μ das Produktmaß oder Bernoulli-Maß auf Ω mit Gewichten (pe )e∈E . ⊗N
:= μ. Wir schreiben auch e∈E pe δe E ⊗N Ferner nennen wir (2 ) := σ(A) die Produkt-σ-Algebra auf Ω. Auf Produktmaße gehen wir systematisch noch einmal in Kapitel 14 ein. Der Fortsetzungssatz liefert uns einen abstrakten Existenz- und Eindeutigkeitssatz f¨ur Maße, die wir zuvor nur auf einem Semiring A definiert hatten. Der folgende Satz zeigt, wie gut wir das Maß von σ(A)-messbaren Mengen durch endliche, beziehungsweise abz¨ahlbare Operationen mit Mengen aus A ann¨ahern k¨onnen. Wir schreiben A B := (A \ B) ∪ (B \ A),
f¨ur A, B ⊂ Ω,
(1.14)
f¨ur die symmetrische Differenz zweier Mengen A und B. ¨ Maße). Sei A ⊂ 2Ω ein Semiring und μ ein Satz 1.65 (Approximationssatz fur Maß auf σ(A), das σ-endlich auf A ist. (i) Zu A ∈ σ(A) und ε > 0gibt es paarweise disjunkte Mengen A1 , A2 , . . . ∈ A ∞ ∞ mit A ⊂ An und μ An \ A < ε. n=1
n=1
(ii) Zu A ∈ σ(A) mit μ(A) < ∞ und ε > 0 gibt es n ∈ N und paarweise n Ak < ε. disjunkte Mengen A1 , . . . , An ∈ A mit μ A k=1 ∗
(iii) Zu jedem A ∈ M(μ ) gibt es A− , A+ ∈ σ(A) mit A− ⊂ A ⊂ A+ und μ(A+ \ A− ) = 0. Bemerkung 1.66. Nach (iii) gelten (i) und (ii) auch f¨ur A ∈ M(μ∗ ) (mit μ∗ statt μ). Ist A eine Algebra, so gilt in (ii) f¨ur jedes A ∈ A sogar inf μ(A B) = 0. 3 B∈A
30
1 Grundlagen der Maßtheorie
Beweis. (ii) Da μ auf σ(A) mit dem a¨ ußeren Maß μ∗ u¨ bereinstimmt und μ(A) ¨ endlich ist, gibt es nach Definition von μ∗ (siehe Lemma 1.47) eine Uberdeckung B1 , B2 , . . . ∈ A von A mit ∞
μ(A) ≥
μ(Bi ) − ε/2.
i=1
Sei n ∈ N mit
∞
μ(Bi ) <
i=n+1
(dies existiert, weil μ(A) < ∞). F¨ur je drei
ε 2
Mengen C, D, E gilt C D = (D \ C) ∪ (C \ D) ⊂ (D \ C) ∪ (C \ (D ∪ E)) ∪ E ⊂ (C (D ∪ E)) ∪ E. ∞ n Mit C = A, D = i=1 Bi und E = i=n+1 Bi erhalten wir ∞ n ∞ μ A Bi ≤ μ A Bi + μ Bi i=1
i=1
≤μ
∞
i=n+1
Bi
− μ(A) +
i=1
Schreibe nun
n
Bi = B1
i=1
n i−1
(Bi \ Bj ) =:
i=2 j=1
ε ≤ ε. 2
k
Ai
i=1
f¨ur ein gewisses k ∈ N und gewisse A1 , . . . , Ak ∈ A (Semiring-Eigenschaft). (i) Sei A ∈ σ(A) und En ↑ Ω, En ∈ σ(A) mit μ(En ) < ∞ f¨ur jedes n ∈ N. ¨ W¨ahle zu n ∈ N eine Uberdeckung (Bn,m )m∈N von A ∩ En mit ∞
μ(A ∩ En ) ≥
μ(Bn,m ) − 2−n ε.
m=1
(Dies ist m¨oglich nach Definition des a¨ ußeren Maßes μ∗ , das auf A mit μ u¨ ber∞ ∞ einstimmt.) Schreibe Bn,m = An f¨ur gewisse An ∈ A, n ∈ N m,n=1
n=1
¨ (Ubung 1.1.1). Dann ist ∞ ∞ ∞ An \ A = μ Bn,m \ A μ n=1
n=1 m=1
≤μ
∞ ∞
Bn,m \ (A ∩ En )
n=1 m=1
≤
∞ n=1
∞
m=1
μ(Bn,m )
− μ(A ∩ En )
≤ ε.
1.3 Fortsetzung von Maßen
31
(iii) Sei A ∈ M(μ∗ ) und (En )n∈N wie oben. W¨ahle zu m, n ∈ N ein An,m ∈ −n σ(A) mit An,m ⊃ A ∩ En und μ∗ (An,m ) ≤ μ∗ (A ∩ En ) + 2m . ∞ 1 Setze Am := An,m ∈ σ(A). Dann ist Am ⊃ A und μ∗ (Am \ A) ≤ m . Setze A+ :=
∞
n=1
Am . Dann ist σ(A) A+ ⊃ A und μ∗ (A+ \ A) = 0. W¨ahle analog
m=1
(A− )c ∈ σ(A) mit (A− )c ⊃ Ac und μ∗ ((A− )c \ Ac ) = 0. Dann ist A+ ⊃ A ⊃ A− und μ(A+ \ A− ) = μ∗ (A+ \ A− ) = μ∗ (A+ \ A) + μ∗ (A \ A− ) = 0. 2 Bemerkung 1.67. (Regularit¨at von Maßen) (Vergleiche auch Satz 13.6 auf Seite 236.) Sei λn das Lebesgue-Maß auf (Rn , B(Rn )). Sei A der Semiring der Quader der Form [a, b) ⊂ Rn . Nach Satz 1.23 ist B(Rn ) = σ(A). Nach dem Approximationssatz gibt es zu A ∈ B(Rn ) und ε > 0 abz¨ahlbar viele A1 , A2 , . . . ∈ A mit ∞ Ai \ A < ε/2. λn i=1
⊃ Ai mit λn (Bi \ Ai ) < ε 2−i−1 Zu jedem Ai existiert ein offener Quader Bi ∞ n (Stetigkeit von oben von λ ). Daher ist U = i=1 Bi eine offene Menge U ⊃ A mit λn (U \ A) < ε. Diese Eigenschaft von λn heißt Regularit¨at von außen. Ist λn (A) endlich, so gibt es zu ε > 0 eine kompakte Menge K ⊂ Rn mit λn (A \ K) < ε. Diese Eigenschaft von λn heißt Regularit¨at von innen. In der Tat: Sei N > 0 mit λn (A)−λn (A∩[−N, N ]n ) < ε/2. W¨ahle eine offene Menge U ⊃ (A∩[−N, N ]n )c mit λn (U \ (A ∩ [−N, N ]n )c ) < ε/2 und setze K := [−N, N ]n \ U ⊂ A. 3 Definition 1.68 (Nullmenge). Sei (Ω, A, μ) ein Maßraum. (i) Eine Menge A ∈ A heißt μ-Nullmenge, oder kurz Nullmenge, falls μ(A) = 0. Mit Nμ bezeichnen wir das System aller Teilmengen von μ-Nullmengen. (ii) Sei E(ω) eine Eigenschaft, die dem Punkt ω ∈ Ω zukommen kann. Wir sagen, dass E μ-fast uberall (f.¨u.) gilt oder f¨ur fast alle ω, falls es eine Nullmenge N gibt, ¨ sodass E(ω) f¨ur jedes ω ∈ Ω \ N gilt. Ist A ∈ A, so sagen wir, dass E fast u¨ berall auf A gilt, falls es eine Nullmenge N gibt, sodass E(ω) f¨ur jedes ω ∈ A \ N gilt. Ist μ = P ein W-Maß, so sagen wir dann auch, dass E P -fast sicher (f.s.) gilt, beziehungsweise fast sicher auf A. (iii) Sind A, B ∈ A, so schreiben wir A = B N gibt mit A B ⊂ N .
(mod μ), falls es eine Nullmenge
32
1 Grundlagen der Maßtheorie
Definition 1.69. Ein Maßraum (Ω, A, μ) heißt vollst¨andig, falls Nμ ⊂ A. Bemerkung 1.70 (Vervollst¨andigung eines Maßraums). Sei (Ω, A, μ) ein Maßraum. Es gibt genau eine kleinste σ-Algebra A∗ ⊃ A und eine Fortsetzung μ∗ von μ auf A∗ , sodass (Ω, A∗ , μ∗ ) vollst¨andig ist. (Ω, A∗ , μ∗ ) heißt die Vervollst¨andigung von (Ω, A, μ). In der Notation des Beweises von Satz 1.53 ist Ω, M(μ∗ ), μ∗ M(μ∗ )
diese Vervollst¨andigung. Ferner ist M(μ∗ ) = σ(A ∪ Nμ ) = {A ∪ N : A ∈ A, N ∈ Nμ } und μ∗ (A ∪ N ) = μ(A) f¨ur jedes A ∈ A und N ∈ Nμ . Da wir diese Aussagen im Folgenden nicht ben¨otigen werden, verzichten wir auf den Beweis und verweisen auf die g¨angigen Maßtheorieb¨ucher, etwa [43]. Beispiel 1.71. Ist λ das Lebesgue-Maß (genauer: das Lebesgue-Borel-Maß) auf (Rn , B(Rn )), so l¨asst sich λ eindeutig fortsetzen zu einem Maß λ∗ auf B ∗ (Rn ) = σ(B(Rn ) ∪ N ), wo N die Menge der Teilmengen der Lebesgue-Borel’schen Nullmengen bezeichnet. B ∗ (Rn ) heißt σ-Algebra der Lebesgue-messbaren Mengen. Zur Unterscheidung wird manchmal λ das Lebesgue-Borel-Maß genannt und λ∗ das LebesgueMaß. Wir werden diese Unterscheidung im Folgenden aber nicht ben¨otigen. 3 Beispiel 1.72. Sei μ = δω auf einem Messraum (Ω, A). Ist {ω} ∈ A, so ist die Vervollst¨andigung A∗ = 2Ω , μ∗ = δω . Im Extremfall der trivialen σ-Algebra A = {∅, Ω} hingegen ist Nμ = {∅}, also die Vervollst¨andigung A∗ = {∅, Ω}, μ∗ = δω . Man beachte, dass man auf dieser trivialen σ-Algebra die Dirac-Maße zu verschiedenen Punkten aus Ω nicht unterscheiden kann. 3 Definition 1.73. Sei (Ω, A, μ) ein Messraum und Ω ∈ A. Dann wird durch μ (A) := μ(A) f¨ur A ∈ A mit A ⊂ Ω Ω
ein Maß auf der Spur-σ-Algebra A
Ω
definiert. Dieses Maß nennen wir die Ein-
schr¨ankung von μ auf Ω . Beispiel 1.74. Die Einschr¨ankung des Lebesgue-Borel-Maßes λ von (R, B(R)) auf ). Allgemeiner nennen wir f¨ur messbares [0, 1] ist ein W-Maß auf ([0, 1], B(R) [0,1] A ∈ B(R) die Einschr¨ankung λ das Lebesgue-Maß auf A. Oftmals wird als SymA bol wieder λ verwendet, weil wir nicht zu viele kleinliche Unterscheidungen treffen wollen. Wir sehen sp¨ater (Korollar 1.84), dass B(R) = B(A), wobei B(A) die Borel’sche A σ-Algebra auf A ist, die von den in A (relativ) offenen Mengen erzeugt wird. 3
1.4 Messbare Abbildungen
33
Beispiel 1.75 (Gleichverteilung). Ist A ∈ B(Rn ) mit n-dimensionalem LebesgueMaß λn (A) ∈ (0, ∞), so wird durch μ(B) :=
λn (B) λn (A)
f¨ur B ∈ B(Rn ), B ⊂ A,
ein W-Maß auf B(Rn ) definiert. Wir nennen μ die uniforme Verteilung oder A 3 Gleichverteilung auf A und schreiben UA := μ. ¨ Ubung Man zeige die folgende Verallgemeinerung von Beispiel 1.58(iv): Ein 1.3.1. ∞ ist genau dann ein Lebesgue-Stieltjes Maß zu einer geeigneten Maß n=1 αn δxn ♣ Funktion F , wenn n: |xn |≤K αn < ∞ f¨ur jedes K > 0 gilt. ¨ Ubung 1.3.2. Sei Ω eine u¨ berabz¨ahlbare Menge und ω0 ∈ Ω ein beliebiges Element. Sei A = σ({ω} : ω ∈ {ω0 }). ¨ (i) Charakterisiere A a¨ hnlich wie in Ubung 1.1.4 (Seite 11). ♣
(ii) Zeige, dass (Ω, A, δω0 ) vollst¨andig ist.
¨ Ubung 1.3.3. Sei (μn )n∈N eine Folge von endlichen Maßen auf dem Messraum (Ω, A). F¨ur jedes A ∈ A existiere der Grenzwert μ(A) := lim μn (A). n→∞
Man zeige: μ ist ein Maß auf (Ω, A). Hinweis: Zu zeigen ist insbesondere die ∅-Stetigkeit von μ.
♣
1.4 Messbare Abbildungen Eine Zwangshandlung in der Mathematik ist es, Homomorphismen zwischen Objekten anzugeben, also strukturerhaltende Abbildungen. F¨ur topologische R¨aume sind dies die stetigen Abbildungen, f¨ur Messr¨aume die messbaren Abbildungen. Seien im Folgenden stets (Ω, A) und (Ω , A ) Messr¨aume. Definition 1.76 (Messbare Abbildungen). (i) Eine Abbildung X : Ω → Ω heißt A – A -messbar (oder kurz: messbar), falls X −1 (A ) := {X −1 (A ) : A ∈ A } ⊂ A ist, falls also X −1 (A ) ∈ A
f¨ur jedes A ∈ A .
Ist X messbar, so schreiben wir auch X : (Ω, A) → (Ω , A ). (ii) Ist Ω = R und A = B(R) die Borel’sche σ-Algebra auf R, so heißt X : (Ω, A) → (R, B(R)) kurz eine reelle A-messbare Abbildung.
34
1 Grundlagen der Maßtheorie
Beispiel 1.77. (i) Die Identit¨at id : Ω → Ω ist A – A-messbar. (ii) Ist A = 2Ω oder A = {∅, Ω }, so ist jede Abbildung X : Ω → Ω schon A – A -messbar. (iii) Sei A ⊂ Ω. Die Indikatorfunktion 2{0,1} -messbar, wenn A ∈ A.
A
: Ω → {0, 1} ist genau dann A – 3
Satz 1.78 (Erzeugte σ-Algebra). Sei (Ω , A ) ein Messraum und Ω eine nichtleere Menge sowie X : Ω → Ω eine Abbildung. Das Urbild X −1 (A ) := {X −1 (A ) : A ∈ A }
(1.15)
ist die kleinste σ-Algebra, bez¨uglich der X messbar ist. Wir nennen σ(X) := X −1 (A ) die von X erzeugte σ-Algebra auf Ω. 2
¨ Beweis. Ubung!
Wir wollen nun σ-Algebren betrachten, die von mehreren Abbildungen erzeugt werden. Definition 1.79 (Erzeugte σ-Algebra). Sei Ω eine nichtleere Menge. Sei I eine beliebige Indexmenge, und f¨ur jedes i ∈ I sei (Ωi , Ai ) ein Messraum sowie Xi : Ω → Ωi eine beliebige Abbildung. Dann heißt −1 σ(Xi , i ∈ I) := σ σ(Xi ) = σ Xi (Ai ) i∈I
i∈I
die von (Xi , i ∈ I) erzeugte σ-Algebra auf Ω. Dies ist die kleinste σ-Algebra, bez¨uglich der jedes Xi messbar ist. Wie bei stetigen oder linearen Abbildungen gibt es eine Verkn¨upfungseigenschaft. ¨ Satz 1.80 (Verknupfung von Abbildungen). Sind (Ω, A), (Ω , A ) und (Ω , A ) Messr¨aume sowie X : Ω → Ω messbar und X : Ω → Ω messbar, so ist die Abbildung Y := X ◦ X : Ω → Ω , ω → X (X(ω)) messbar bez¨uglich A – A . Beweis. Es ist Y −1 (A ) = X −1 ((X )−1 (A )) ⊂ X −1 (A ) ⊂ A.
2
Praktisch kann man die Messbarkeit einer Abbildung X kaum pr¨ufen, indem man s¨amtliche Urbilder X −1 (A ), A ∈ A auf Messbarkeit hin untersucht. Daf¨ur sind die meisten σ-Algebren A einfach zu groß. Gl¨ucklicherweise reicht hier die Betrachtung eines Erzeugers von A aus:
1.4 Messbare Abbildungen
35
Satz 1.81 (Messbarkeit auf einem Erzeuger). F¨ur jedes System E ⊂ A von A -messbaren Mengen gilt σ(X −1 (E )) = X −1 (σ(E )) und damit X ist A – σ(E )-messbar ⇐⇒ X −1 (E ) ∈ A
f¨ur jedes E ∈ E .
Ist speziell σ(E ) = A , dann gilt X ist A – A -messbar ⇐⇒ X −1 (E ) ⊂ A. Beweis. Offenbar ist X −1 (E ) ⊂ X −1 (σ(E )) = σ(X −1 (σ(E ))). Also ist auch σ(X −1 (E )) ⊂ X −1 (σ(E )). F¨ur die andere Inklusion betrachten wir das Mengensystem
A0 := A ∈ σ(E ) : X −1 (A ) ∈ σ(X −1 (E )) und zeigen zun¨achst, dass A0 eine σ-Algebra ist, indem wir die Punkte (i)-(iii) aus Definition 1.2 pr¨ufen: (i) Offensichtlich ist Ω ∈ A0 . (ii) (Komplementstabilit¨at)
Ist A ∈ A0 , so ist
X −1 ((A )c ) = (X −1 (A ))c ∈ σ(X −1 (E )), also (A )c ∈ A0 . (iii) (σ-∪-Stabilit¨at) Seien A1 , A2 , . . . ∈ A0 . Dann ist ∞ ∞ −1 X An = X −1 (An ) ∈ σ(X −1 (E )), also ist
∞
n=1 An
n=1
∈
n=1
A0 .
Wegen E ⊂ A0 ist A0 = σ(E ), also X −1 (A ) ∈ σ(X −1 (E )) f¨ur jedes A ∈ σ(E ) 2 und damit X −1 (σ(E )) ⊂ σ(X −1 (E )). ¨ Korollar 1.82 (Messbarkeit von verknupften Abbildungen). Sei I eine nichtleere Indexmenge sowie (Ω, A), (Ω , A ) und (Ωi , Ai ) Messr¨aume, i ∈ I. Sei ferner (Xi : i ∈ I) eine Familie messbarer Abbildungen Xi : Ω → Ωi mit der Eigenschaft A = σ(Xi : i ∈ I). Dann gilt: Eine Abbildung Y : Ω → Ω ist genau dann A-A messbar, wenn Xi ◦ Y messbar ist bez¨uglich A-Ai f¨ur jedes i ∈ I. Beweis. Ist Y messbar, so ist nach Satz 1.80 jedes Xi ◦ Y messbar. Sei nun jede der zusammengesetzten Abbildungen Xi ◦ Y messbar bez¨uglich A-Ai . Die Menge E := {Xi−1 (A ) : A ∈ Ai , i ∈ I} ist nach Voraussetzung ein Erzeuger von A , und es gilt Y −1 (A ) ∈ A f¨ur jedes A ∈ E wegen der Messbarkeit aller Xi ◦ Y . Nach Satz 1.81 ist also Y messbar. 2
36
1 Grundlagen der Maßtheorie
Wir erinnern an den Begriff der Spur eines Mengensystems aus Definition 1.25. Korollar 1.83 (Spur der erzeugten σ-Algebra). Ist E ⊂ 2Ω und A ⊂ Ω nichtleer, so gilt σ E = σ(E) A
A
Beweis. Sei X : A → Ω, ω → ω die Inklusionsabbildung. Dann ist X −1 (B) = A ∩ B f¨ur jedes B ∈ Ω. Nach Satz 1.81 ist
σ E = σ({E ∩ A : E ∈ E}) A
= σ({X −1 (E) : E ∈ E}) = σ(X −1 (E))
= X −1 (σ(E)) = {A ∩ B : B ∈ σ(E)} = σ(E) .
2
A
Zur Erinnerung: F¨ur eine Teilmenge A ⊂ Ω eines topologischen Raums (Ω, τ ) ist τ die Topologie der in A relativ offenen Mengen. Mit B(Ω, τ ) = σ(τ ) bezeichnen A wir die Borel’sche σ-Algebra auf (Ω, τ ). Korollar 1.84 (Spur der Borel’schen σ-Algebra). Sei (Ω, τ ) ein topologischer Raum und A ⊂ Ω eine beliebige Teilmenge von Ω. Dann gilt
B(Ω, τ ) = B A, τ . A
A
Beispiel 1.85. (i) Ist Ω abz¨ahlbar, so ist X : Ω → Ω genau dann A – 2Ω messbar, wenn X −1 ({ω }) ∈ A f¨ur jedes ω ∈ Ω . F¨ur u¨ berabz¨ahlbare Ω ist dies im Allgemeinen falsch. (Man betrachte etwa Ω = Ω = R, A = B(R), X(ω) = ω f¨ur jedes ω ∈ Ω. Offenbar ist X −1 (ω) = {ω} ∈ B(R). Ist andererseits A ⊂ R nicht in B(R), so ist A ∈ 2R , jedoch X −1 (A) ∈ B(R).) (ii) F¨ur x ∈ R verabreden wir folgende Schreibweisen f¨ur das Ab- und Aufrunden x := max{k ∈ Z : k ≤ x}
und
x :== min{k ∈ Z : k ≥ x}.
(1.16)
Die Abbildungen R → Z, x → x und x → x sind messbar bez¨uglich B(R) – 2Z , denn f¨ur jedes k ∈ Z sind die Urbilder {x ∈ R : x = k} = [k, k + 1) und {x ∈ R : x = k} = (k − 1, k] in B(R). Nach dem Verkn¨upfungssatz (Satz 1.80) sind dann f¨ur jede messbare Abbildung f : (Ω, A) → (R, B(R)) auch die Abbildungen f und f messbar bez¨uglich A – 2Z . (iii) Eine Abbildung X : Ω → Rd ist genau dann A – B(Rd )-messbar, wenn X −1 ((−∞, a]) ∈ A
f¨ur jedes a ∈ Rd ,
denn σ((−∞, a], a ∈ Rd ) = B(Rd ) nach Satz 1.23. Analog gilt dies auch f¨ur die anderen Mengensysteme E1 , . . . , E12 aus Satz 1.23. 3
1.4 Messbare Abbildungen
37
Beispiel 1.86. Sei d(x, y) = x − y2 der gew¨ohnliche euklidische Abstand auf Rn und B(Rn , d) = B(Rn ) die Borel’sche σ-Algebra zu der von d erzeugten Topologie. 3 F¨ur jede Teilmenge A von Rn ist dann B(A, d) = B(Rn , d) . A
Wir wollen die reellen Zahlen um die Punkte −∞ und +∞ erweitern und definieren R := R ∪ {−∞, +∞}. Topologisch wollen wir R als die so genannte Zweipunktkompaktifizierung ansehen, indem wir R als topologisch isomorph zu [−1, 1] betrachten, beispielsweise verm¨oge der Abbildung ⎧ ⎪ ⎨ tan(πx/2), falls x ∈ (−1, 1), −∞, falls x = −1, x → ϕ : [−1, 1] → R, ⎪ ⎩ ∞, falls x = +1. ¯ y) = ϕ−1 (x)−ϕ−1 (y) f¨ur x, y ∈ R eine Metrik auf R In der Tat wird durch d(x, definiert, sodass ϕ und ϕ−1 stetig sind (also ist ϕ ein topologischer Isomorphismus). Mit τ¯ bezeichnen wir die induzierte Topologie auf R, mit τ die gew¨ohnliche Topologie auf R. Korollar 1.87. Es gilt τ¯ = τ , und daher gilt B(R) = B(R). R
R
Ist speziell X : (Ω, A) → (R, B(R)) messbar, so ist X in kanonischer Weise auch eine R-wertige messbare Abbildung. Mit R haben wir also eine echte Erweiterung der reellen Zahlen geschaffen, und die Inklusion R → R ist messbar. Satz 1.88 (Messbarkeit stetiger Abbildungen). Sind (Ω, τ ) und (Ω , τ ) topologische R¨aume und f : Ω → Ω stetig, dann ist f auch B(Ω) – B(Ω )-messbar. Beweis. Wegen B(Ω ) = σ(τ ) reicht es nach Satz 1.81 zu zeigen, dass f −1 (A ) ∈ σ(τ ) f¨ur jedes A ∈ τ . Da f stetig ist, gilt aber sogar f −1 (A ) ∈ τ f¨ur jedes 2 A ∈ τ . F¨ur x, y ∈ R verabreden wir folgende Notationen x ∨ y = max(x, y) x ∧ y = min(x, y) x+ = max(x, 0) x− = max(−x, 0) |x| = max(x, −x) = x− + x+ sign(x) = {x>0} − {x<0}
(Maximum), (Minimum), (Positivteil), (Negativteil), (Absolutbetrag), (Vorzeichenfunktion).
38
1 Grundlagen der Maßtheorie
Analog bezeichnen wir f¨ur reelle messbare Abbildungen beispielsweise X + = max(X, 0). Die Abbildungen x → x+ , x → x− und x → |x| sind stetig (und damit nach dem vorangehenden Satz messbar), die Abbildung x → sign(x) ist offenbar auch stetig. Wir erhalten also (zusammen mit Korollar 1.82): Korollar 1.89. Ist X eine reelle oder R-wertige messbare Abbildung, so sind auch die Abbildungen X − , X + , |X| und sign(X) messbar. Satz 1.90 (Koordinatenabbildungen sind messbar). Sei (Ω, A) ein Messraum und f1 , . . . , fn : Ω → R Abbildungen, sowie f := (f1 , . . . , fn ) : Ω → Rn . Dann gilt f ist A – B(Rn )-messbar
⇐⇒
jedes fi ist A – B(R)-messbar.
Die Aussage gilt analog f¨ur fi : Ω → R := R ∪ {±∞}. Beweis. F¨ur b ∈ Rn ist f −1 ((−∞, b)) =
n i=1
fi−1 ((−∞, bi )). Ist jedes fi messbar,
so ist also f −1 ((−∞, b)) ∈ A. Die Quader (−∞, b), b ∈ Rn , erzeugen aber B(Rn ), und daher ist dann f messbar. Sei nun f messbar. F¨ur i = 1, . . . , n sei πi : Rn → R, x → xi die i-te Projektion. Offenbar ist πi stetig also B(Rn ) – B(R)-messbar. Nach 2 Satz 1.80 ist auch fi = πi ◦ f messbar. F¨ur den folgenden Satz vereinbaren wir die Konvention
x 0
:= 0 f¨ur jedes x ∈ R.
Satz 1.91. Sei (Ω, A) ein Messraum und f, g : (Ω, A) → (Rn , B(Rn )) sowie h : (Ω, A) → (R, B(R)) messbar. Dann sind auch die Abbildungen f + g, f − g, f · h und f /h messbar. Beweis. Die Abbildung π : Rn × R → Rn , (x, α) → α · x ist stetig, also messbar. Nach Satz 1.90 ist (f, h) : Ω → Rn × R messbar, also auch die zusammengesetzte Abbildung f · h = π ◦ (f, h). Analog folgt die Messbarkeit von f + g und f − g. Um die Messbarkeit von f /h zu zeigen, definieren wir H : R → R, x → 1/x. Nach unserer Konvention ist H(0) = 0. Dann ist f /h = f · H ◦ h. Es reicht also stetig. F¨ur offenes U ⊂ R ist zu zeigen, dass H messbar ist. Offenbar ist H R\{0}
auch U \ {0} offen und damit H −1 (U \ {0}) ∈ B(R). Ferner ist H −1 ({0}) = {0}. 2 Also ist schließlich H −1 (U ) = H −1 (U \ {0}) ∪ (U ∩ {0}) ∈ B(R). Satz 1.92. Sind X1 , X2 , . . . messbare Abbildungen (Ω, A) → (R, B(Rq)), dann sind auch die folgenden Abbildungen messbar: inf Xn ,
n∈N
sup Xn , n∈N
lim inf Xn , n→∞
lim sup Xn . n→∞
1.4 Messbare Abbildungen
39
Beweis. F¨ur jedes a ∈ R gilt
−1 inf Xn
n∈N
([−∞, a)) =
∞
Xn−1 ([−∞, a)) ∈ A.
n=1
Nach Satz 1.81 folgt hieraus die Messbarkeit von inf Xn . Analog geht der Beweis n∈N
f¨ur sup Xn . n∈N
F¨ur n ∈ N setzen wir Yn := inf Xm . Dann ist Yn messbar, und damit auch m≥n
lim inf Xn := sup Yn . Analog folgt der Beweis f¨ur den Limes superior. n→∞
2
n∈N
Ein wichtiges Beispiel f¨ur messbare Abbildungen (Ω, A) → (R, B(R)) sind Elementarfunktionen. Definition 1.93 (Elementarfunktion). Sei (Ω, A) ein Messraum. Eine Abbildung f : Ω → R heißt Elementarfunktion, wenn es ein n ∈ N und paarweise disjunkte, messbare Mengen A1 , . . . , An ∈ A, sowie Zahlen α1 , . . . , αn ∈ R gibt mit f=
n
αi
Ai .
i=1
Bemerkung 1.94. Eine messbare Abbildung, die nur endlich viele Werte annimmt ¨ ist eine Elementarfunktion. (Ubung!) 3 Definition 1.95. Sind f, f1 , f2 , . . . Abbildungen Ω → R mit f1 (ω) ≤ f2 (ω) ≤ . . . und
lim fn (ω) = f (ω)
n→∞
f¨ur jedes ω ∈ Ω,
so schreiben wir fn ↑ f und sagen, dass (fn )n∈N punktweise monoton aufsteigend gegen f konvergiert. Analog schreiben wir fn ↓ f , falls (−fn ) ↑ (−f ). Satz 1.96. Sei (Ω, A) ein Messraum und f : Ω → [0, ∞] messbar. Dann gelten die folgenden Aussagen. (i) Es gibt eine Folge nichtnegativer Elementarfunktionen (fn )n∈N mit fn ↑ f . (ii) Es gibt A1 , A2 , . . . ∈ A und α1 , α2 , . . . ≥ 0 mit f =
∞
αn
An .
n=1
Beweis. (i) F¨ur n ∈ N0 definiere fn = (2−n 2n f ) ∧ n. Dann ist fn messbar (nach Satz 1.92 und Beispiel 1.85(ii)) und nimmt h¨ochstens n2n + 1 Werte an, ist also eine Elementarfunktion. Offenbar gilt fn ↑ f .
40
1 Grundlagen der Maßtheorie
(ii) Seien fn wie oben, Bn,i := {ω : fn (ω)−fn−1 (ω) = i 2−n } und βn,i = i 2−n 2n f¨ur n ∈ N und i = 1, . . . , 2n . Man u¨ berlege sich, dass i=1 Bn,i = Ω. Dann ist 2n βn,i Bn,i . Nach Umnummerierung (n, i) → m erhalten wir fn − fn−1 = i=1
(αm )m∈N und (Am )m∈N , sodass f = f0 +
∞
(fn − fn−1 ) =
n=1
∞
αm
Am .
2
m=1
Als Korollar zu dieser Strukturaussage f¨ur messbare [0, ∞]-wertige Abbildungen zeigen wir das Faktorisierungslemma. Korollar 1.97 (Faktorisierungslemma). Seien (Ω , A ) ein Messraum und Ω eine nichtleere Menge. Sei f : Ω → Ω eine Abbildung. Eine Abbildung g : Ω → R ist genau dann messbar bez¨uglich σ(f ) – B(R), wenn es eine messbare Abbildung ϕ : (Ω , A ) → (R, B(R)) gibt mit g = ϕ ◦ f . Beweis.
”
⇐= “
Ist ϕ messbar und g = ϕ ◦ f , so ist g messbar nach Satz 1.80.
=⇒ “ Sei nun g messbar bez¨uglich σ(f ) – B(R). Wir betrachten zun¨achst den ” Fall, wo g nichtnegativ ist. Dann existieren messbare ∞ Mengen A1 , A2 . . . ∈ σ(f ) sowie Zahlen α1 , α2 , . . . , ∈ [0, ∞) mit g = n=1 αn An . Nach der Definition von σ(f ) gibt es f¨ur jedes n ∈ N eine Menge Bn ∈ A mit f −1 (Bn ) = An , also mit An = Bn ◦ f . Wir definieren nun ϕ : Ω → R durch ϕ=
∞
αn
Bn .
n=1
Offenbar ist ϕ messbar bez¨uglich A – B(R), und es gilt g = ϕ ◦ f . Sei nun der allgemeine Fall betrachtet, wo g auch negative Werte annehmen kann. Dann existieren messbare Abbildungen ϕ− und ϕ+ mit g − = ϕ− ◦ f und g + = 2 ϕ+ ◦ f . Daher leistet ϕ := ϕ+ − ϕ− das Gew¨unschte. Mit einer messbaren Abbildung wird auch ein Maß von einem Raum auf einen anderen transportiert. Definition 1.98 (Bildmaß). Seien (Ω, A) und (Ω , A ) Messr¨aume und μ ein Maß auf (Ω, A). Ferner sei X : (Ω, A) → (Ω , A ) messbar. Das durch μ ◦ X −1 : A → [0, ∞],
A → μ(X −1 (A ))
definierte Maß auf (Ω , A ) heißt Bildmaß von μ unter X.
1.4 Messbare Abbildungen
41
Beispiel 1.99. Sei μ ein Maß auf Z2 und X : Z2 → Z, (x, y) → x + y. Dann ist μ ◦ X −1 ({x}) = μ({x − y, y}). 3 y∈Z
Beispiel 1.100. Ist L : Rn → Rn eine bijektive lineare Abbildung und λ das Lebesgue-Maß auf (Rn , B(Rn )), so ist λ ◦ L−1 = | det(L)|−1 λ. Dies ist klar, weil n mit a < b das Spat (oder Parallelepiped) L−1 ([a, b)) das Volumen f¨ur a, b ∈ R n −1 3 | det(L )| i=1 (bi − ai ) hat. Als Verallgemeinerung des letzten Beispiels geben wir hier ohne Beweis den Transformationssatz f¨ur Maße mit stetigen Dichten unter differenzierbaren Abbildungen an. Den Beweis findet man in Lehrb¨uchern zur Analysis II unter dem Stichwort Transformationssatz“ oder Substitutionsregel“ (siehe etwa [7] oder [43]). ” ” Satz 1.101 (Dichtetransformationsformel im Rn ). Es sei μ ein Maß auf Rn mit stetiger (oder st¨uckweise stetiger) Dichte f : Rn → [0, ∞), das heißt xn x1 dt1 · · · dtn f (t1 , . . . , tn ) f¨ur jedes x ∈ Rn . μ((−∞, x]) = −∞
−∞
Sei A ⊂ R eine offene (oder abgeschlossene) Menge mit μ(Rn \ A) = 0. Ferner sei B ⊂ Rn offen oder abgeschlossen, sowie ϕ : A → B bijektiv und stetig differenzierbar mit Ableitung ϕ . Dann hat das Bildmaß μ ◦ ϕ−1 die Dichte ⎧ f (ϕ−1 (x)) ⎪ ⎨ , falls x ∈ B, −1 fϕ (x) = | det(ϕ (ϕ (x)))| ⎪ ⎩ 0, falls x ∈ Rn \ B. n
¨ Ubung 1.4.1. Sei f : R → R, x → |x|. Zeige: Eine Borel-messbare Abbildung g : R → R ist genau dann messbar bez¨uglich σ(f ) = f −1 (B(R)), wenn g gerade ist. ♣ ¨ Ubung 1.4.2. Man zeige: Ist (Ω, A, μ) ein Maßraum, f : Ω → R messbar und g = f μ-fast u¨ berall, so braucht g nicht messbar zu sein. ♣ ¨ Ubung 1.4.3. Sei f : R → R differenzierbar mit Ableitung f . Zeige: f ist B(R)– B(R) messbar. ♣ ¨ Ubung 1.4.4. (Vergleich Beispiele 1.40 und 1.63.) Sei Ω = {0, 1}N und A = {0,1} ⊗N ) die σ-Algebra, (2
die von den Zylindermengen [ω11 , . . . , ω1n ] :⊗Nn ∈ das N, ω1 , . . . , ωn ∈ {0, 1} erzeugt wird. Ferner sei μ = ( 2 δ0 + 2 δ1 ) Bernoulli-Maß auf Ω mit gleichen Gewichten auf 0 und 1. F¨ur n ∈ N sei Xn : Ω → {0, 1}, ω → ωn die n-te Koordinatenabbildung, und sei U (ω) =
∞ n=1
Xn (ω) 2−n ,
f¨ur ω ∈ Ω.
42
1 Grundlagen der Maßtheorie
(i) Zeige: A = σ(Xn : n ∈ N). (ii) Zeige: U ist A–B([0, 1]) messbar. (iii) Bestimme das Bildmaß μ ◦ U −1 auf ([0, 1], B([0, 1])). ˜ := U bijektiv ist. (iv) Man gebe ein Ω0 ∈ A an, sodass U Ω0
˜ −1
(v) Man zeige, dass U
messbar ist bez¨uglich B([0, 1])–A
. Ω0
˜ −1 ? (vi) Welche Interpretation hat die Abbildung Xn ◦ U
♣
1.5 Zufallsvariablen In diesem Abschnitt werden wir messbare Abbildungen als Zufallsvariablen auffassen, die zuf¨allige Beobachtungen beschreiben. Wir definieren den Begriff der Verteilung von Zufallsvariablen. Im Folgenden sei stets (Ω, A, P) ein Wahrscheinlichkeitsraum. Die Mengen A ∈ A heißen Ereignisse. P[A] wird als die Wahrscheinlichkeit interpretiert, dass A eintritt. Oft ist allerdings nicht der Wahrscheinlichkeitsraum selbst betrachtbar, sondern nur gewisse Beobachtungsgr¨oßen. Wir wollen also Wahrscheinlichkeiten daf¨ur definieren, dass Zufallsgr¨oßen bestimmte Werte annehmen und einen Kalk¨ul f¨ur, zum Beispiel, Summen von Zufallsgr¨oßen entwickeln. Definition 1.102 (Zufallsvariablen). Sei (Ω , A ) ein Messraum und X : Ω → Ω messbar. (i) X heißt Zufallsvariable mit Werten in (Ω , A ). Ist (Ω , A ) = (R, B(R)), so nennen wir X eine reelle Zufallsvariable oder schlicht Zufallsvariable. (ii) Ist A ∈ A , so schreiben wir {X ∈ A } := X −1 (A ) und P[X ∈ A ] := P[X −1 (A )]. Speziell schreiben wir {X ≥ 0} := X −1 ([0, ∞)) und analog {X ≤ b} und so weiter.
Definition 1.103 (Verteilungen). Sei X eine Zufallsvariable. (i) Das W-Maß PX := P ◦ X −1 heißt Verteilung von X. (ii) Ist X eine reelle Zufallsvariable, so heißt die Abbildung FX : x → P[X ≤ x] die Verteilungsfunktion von X (eigentlich von PX ). Ist μ = PX , so schreiben wir auch X ∼ μ und sagen, dass X nach μ verteilt ist. (iii) Eine Familie (Xi )i∈I heißt identisch verteilt, falls PXi = PXj D
i, j ∈ I. Wir schreiben X = Y , falls PX = PY (D f¨ur distribution).
f¨ur alle
1.5 Zufallsvariablen
43
Satz 1.104. Zu jeder Verteilungsfunktion F existiert eine reelle Zufallsvariable X mit FX = F . Beweis. Wir m¨ussen explizit einen Wahrscheinlichkeitsraum (Ω, A, P) und eine Zufallsvariable X : Ω → R angeben mit FX = F . Die einfachste M¨oglichkeit ist, (Ω, A) = (R, B(R)) zu w¨ahlen, X : R → R die identische Abbildung und P das Lebesgue-Stieltjes Maß mit Verteilungsfunktion F (siehe Beispiel 1.56). Eine andere M¨oglichkeit, die zudem etwas lehrreicher ist, beruht darauf, zun¨achst unabh¨angig vom konkreten F eine Art Standard-Wahrscheinlichkeitsraum zu definieren, auf dem eine uniform auf (0, 1) verteilte Zufallsvariable definiert ist, die dann verm¨oge der Umkehrabbildung F −1 zu einer Zufallsvariablen X mit Vertei lungsfunktion F transformiert wird: Wir w¨ahlen Ω := (0, 1), A := B(R) und Ω
P das Lebesgue-Maß auf (Ω, A) (siehe Beispiel 1.74). Definiere die (linkssstetige) Inverse von F F −1 (t) := inf{x ∈ R : F (x) ≥ t} Dann ist
f¨ur t ∈ (0, 1).
F −1 (t) ≤ x ⇐⇒ t ≤ F (x).
Speziell ist {t : F −1 (t) ≤ x} = (0, F (x)] ∩ (0, 1), also ist F −1 : (Ω, A) → (R, B(R)) messbar und P[{t : F −1 (t) ≤ x}] = F (x). Mithin ist X := F −1 die gew¨unschte Zufallsvariable.
2
Beispiel 1.105. Wir geben zu verschiedenen Wahrscheinlichkeitsverteilungen auf R reelle Zufallsvariablen X mit ebendieser Verteilung an. (Der konkrete Ort in diesem Buch dient lediglich als Vorwand, um ein paar der wichtigsten Verteilungen einzuf¨uhren, auf die wir bei sp¨ateren Gelegenheiten immer wieder zur¨uckkommen.) (i) Ist p ∈ [0, 1] und P[X = 1] = p, P[X = 0] = 1 − p, so heißt PX =: Berp die Bernoulli-Verteilung mit Parameter p. Formal ist Berp = (1 − p) δ0 + p δ1 , und die Verteilungsfunktion ist FX (x) =
⎧ ⎨
0, 1 − p, ⎩ 1
falls x < 0, falls x ∈ [0, 1), falls x ≥ 1.
(ii) Ist p ∈ [0, 1] und n ∈ N sowie X : Ω → {0, . . . , n} mit n k P[X = k] = p (1 − p)n−k , k
44
1 Grundlagen der Maßtheorie
so heißt PX =: bn,p die Binomialverteilung mit Parametern n und p. Formal ist bn,p =
n n
k
k=0
pk (1 − p)n−k δk .
(iii) Ist p ∈ (0, 1] und X : Ω → N0 mit P[X = n] = p (1 − p)n
f¨ur jedes n ∈ N0 ,
1 so heißt γp := b− 1,p := PX die geometrische Verteilung mit Parameter p. Formal k¨onnen wir schreiben: ∞ γp = p (1 − p)n δn . n=0
Die Verteilungsfunktion ist F (x) = 1 − (1 − p)x∨0
f¨ur x ∈ R.
Wir k¨onnen X + 1 als die Wartezeit auf den ersten Erfolg bei unabh¨angigen“ ” Zufallsexperimenten auffassen, die jeweils mit Wahrscheinlichkeit p zum Erfolg ⊗N
f¨uhren. In der Tat: Sei Ω = {0, 1}N und P das Produktmaß (1 − p)δ0 + p δ1 (Satz 1.64), sowie A = σ([ω1 , . . . , ωn ] : ω1 , . . . , ωn ∈ {0, 1}, n ∈ N). Wir setzen X(ω) := inf{n ∈ N : ωn = 1} − 1, mit der Konvention inf ∅ = ∞. Offenbar ist jede der Abbildungen n − 1, falls ωn = 1, Xn : Ω → R, ω → ∞, falls ωn = 0, A – B(R)-messbar und X = inf n∈N Xn . Also ist X auch A – B(R)-messbar, also eine Zufallsvariable. Sei ω 0 := (0, 0, . . .) ∈ Ω. Dann ist P[X ≥ n] = P[[ω10 , . . . , ωn0 ]] = (1 − p)n . Also ist P[X = n] = P[X ≥ n] − P[X ≥ n + 1] = (1 − p)n − (1 − p)n+1 = p (1 − p)n . (iv)
Seien r > 0 (nicht notwendigerweise ganzzahlig) und p ∈ (0, 1]. Mit b− r,p
:=
∞ −r k=0
k
(−1)k pr (1 − p)k δk
(1.17)
bezeichnen wir die negative Binomialverteilung oder Pascal-Verteilung mit Pa rametern r und p. (Hierbei ist xk = x(x−1)···(x−k+1) f¨ur x ∈ R und k ∈ N der k! 1
Obacht: Manche Autoren nennen die um Eins verschobene Verteilung auf N die geometrische Verteilung.
1.5 Zufallsvariablen
45
¨ hnlich wie im vorangeverallgemeinerte Binomialkoeffizient.) F¨ur r ∈ N ist b− r,p , a henden Beispiel, die Verteilung der Wartezeit auf den r-ten Erfolg bei unabh¨angigen Versuchen. Wir werden hierauf in Beispiel 3.4(iv) zur¨uckkommen. (v)
Ist λ ∈ [0, ∞) und X : Ω → N0 mit P[X = n] = e−λ
λn n!
f¨ur jedes n ∈ N0 ,
so heißt PX =: Poiλ die Poisson-Verteilung mit Parameter λ. (vi)
Die hypergeometrische Verteilung mit Parametern S, W, n ∈ N
S W n−s HypS,W,n ({s}) = sS+W ,
s ∈ {0, . . . , n},
(1.18)
n
gibt die Wahrscheinlichkeit an, aus einer Urne mit S schwarzen und W weißen Kugeln bei n-maligen Ziehen ohne Zur¨ucklegen genau s schwarze Kugeln zu ziehen. (vii) Seien μ ∈ R, σ 2 > 0 und X reell mit x (t−μ)2 1 √ P[X ≤ x] = e− 2σ2 dt 2πσ 2 −∞
f¨ur x ∈ R,
Dann heißt PX =: Nμ,σ2 Gauß’sche Normalverteilung mit Parametern μ und σ 2 . (viii) Ist X ≥ 0 reell und θ > 0, sowie
P[X ≤ x] = P[X ∈ [0, x]] =
x
θe−θt dt
f¨ur x ≥ 0,
0
so heißt PX Exponentialverteilung mit Parameter θ (kurz: expθ ). (ix) Ist X Rd -wertig, μ ∈ Rd , Σ eine positiv definite d × d Matrix und 1% & t − μ, Σ −1 (t − μ) λd (dt) P[X ≤ x] = det(2π Σ)−1/2 exp − 2 (−∞,x] f¨ur x ∈ Rd (wobei · , · ! das Skalarprodukt im Rd bezeichnet), so heißt PX =: 3 Nμ,Σ die d-dimensionale Normalverteilung mit Parametern μ und Σ. Definition 1.106. Hat die Verteilungsfunktion F : Rn → [0, 1] die Gestalt x1 xn F (x) = dt1 · · · dtn f (t1 , . . . , tn ) f¨ur x = (x1 , . . . , xn ) ∈ Rn , −∞
−∞
f¨ur eine integrierbare Funktion f : Rn → [0, ∞), so heißt f die Dichte der Verteilung.
46
1 Grundlagen der Maßtheorie
Beispiel 1.107.
(i) F¨ur θ, r > 0 heißt die Verteilung Γθ,r auf [0, ∞) mit Dichte x →
θr xr−1 e−θx Γ (r)
(wo Γ die Gamma-Funktion bezeichnet) Gamma-Verteilung mit Gr¨oßenparameter θ und Formparameter r. (ii) F¨ur r, s > 0 heißt die Verteilung βr,s auf [0, 1] mit Dichte x →
Γ (r + s) r−1 x (1 − x)s−1 Γ (r)Γ (s)
Beta-Verteilung mit Parametern r und s. (iii) F¨ur a > 0 heißt die Verteilung Caua auf R mit Dichte x →
1 1 aπ 1 + (x/a)2
Cauchy-Verteilung mit Parameter a.
3
¨ Ubung 1.5.1. Man leite (1.17) nach als Wartezeit kombinatorisch Interpretation
der
n+k−1 k . ♣ her unter Benutzung der Identit¨at −n k (−1) = k ¨ Ubung 1.5.2. Man gebe ein Beispiel an f¨ur zwei normalverteilte X und Y , sodass (X, Y ) nicht (zweidimensional) normalverteilt ist. ♣ ¨ Ubung 1.5.3. Man zeige mit Hilfe von Satz 1.101 (Transformationsformel f¨ur Dichten): (i) Ist X ∼ Nμ,σ2 und sind a ∈ R\{0} und b ∈ R, so ist (aX +b) ∼ Naμ+b,a2 σ2 . (ii) Ist X ∼ expθ und a > 0, so ist aX ∼ expθ/a .
♣
2 Unabh¨angigkeit
Die Maßtheorie aus dem vorigen Kapitel ist eine lineare Theorie, die keine Abh¨angigkeitsstrukturen zwischen Ereignissen oder Zufallsvariablen kennt. Wir betreten das Gebiet der Wahrscheinlichkeitstheorie genau an dieser Stelle mit der Definition der Unabh¨angigkeit von Ereignissen und schließlich von Zufallsvariablen. Die Unabh¨angigkeit ist ein zentraler Begriff der Wahrscheinlichkeitstheorie, die Quantifizierung von Abh¨angigkeiten eines ihrer wichtigen Anliegen. Fortan ist stets (Ω, A, P) ein Wahrscheinlichkeitsraum, und die Mengen A ∈ A sind die Ereignisse. Sobald wir die Phase hinter uns gelassen haben, in der wir WR¨aume explizit konstruieren, wird der konkrete W-Raum in den Hintergrund treten, und die beobachtbaren Gr¨oßen, also Zufallsvariablen, werden an Bedeutung gewinnen. Das fett gedruckte P steht dann f¨ur das universelle Objekt des W-Maßes, und Wahrscheinlichkeiten P[ · ] bez¨uglich P werden stets mit eckigen Klammern geschrieben.
2.1 Unabh¨angigkeit von Ereignissen Wir wollen zwei Ereignisse A und B als (stochastisch) unabh¨angig betrachten, wenn das Eintreten von A nicht die Wahrscheinlichkeit beeinflusst, dass zudem B eintritt. Etwas formaler k¨onnen wir diesen intuitiven Begriff fassen, indem wir A und B als unabh¨angig betrachten, wenn P[A ∩ B] = P[A] · P[B].
(2.1)
¨ Beispiel 2.1 (Zweifacher Wurfelwurf). Wir betrachten das Zufallsexperiment des zweifachen W¨urfelwurfes. Es ist also Ω = {1, . . . , 6}2 mit der σ-Algebra A = 2Ω und der Gleichverteilung P = UΩ (siehe Beispiel 1.30(ii)). (i) Zwei Ereignisse A und B sollten unabh¨angig sein, wenn A nur vom Ergebnis des ersten Wurfes abh¨angt, B hingegen nur vom Ergebnis des zweiten Wurfes. Formal beschreiben wir diese Situation, indem wir annehmen, dass es Mengen ˜ B ˜ ⊂ {1, . . . , 6} gibt mit A, A = A˜ × {1, . . . , 6}
und
˜ B = {1, . . . , 6} × B.
48
2 Unabh¨angigkeit
Wir pr¨ufen jetzt, dass A und B tats¨achlich (2.1) erf¨ullen. Dazu berechnen wir ˜ ˜ #A #B #B P[A] = #A 36 = 6 und P[B] = 36 = 6 . Ferner ist P[A ∩ B] =
˜ ˜ #A˜ #B #(A˜ × B) = · = P[A] · P[B]. 36 6 6
(ii) Stochastische Unabh¨angigkeit kann auch in weniger augenf¨alligen Situationen auftreten. Sei hierzu A das Ereignis, dass die Augensumme ungerade ist, A = (ω1 , ω2 ) ∈ Ω : ω1 + ω2 ∈ {3, 5, 7, 9, 11} , und B das Ereignis, dass
der erste Wurf h¨ochstens eine Drei bringt, B = {(ω1 , ω2 ) ∈ Ω : ω1 ∈ {1, 2, 3} . Obwohl beide Ereignisse anscheinend etwas miteinander zu tun haben, sind sie stochastisch unabh¨angig, denn es gilt, wie man leicht pr¨uft, P[A] = P[B] = 12 und 3 P[A ∩ B] = 14 . Wann sind nun drei Ereignisse A1 , A2 , A3 unabh¨angig? Hierzu muss nat¨urlich jedes der Paare (A1 , A2 ), (A1 , A3 ) und (A2 , A3 ) unabh¨angig sein. Jedoch wollen wir auch sicherstellen, dass beispielsweise das Eintreten von A1 und A2 nicht die Wahrscheinlichkeit f¨ur das zus¨atzliche Eintreten von A3 beeinflusst. Wir m¨ussen also mehr als nur Paare betrachten. Formal nennen wir daher drei Ereignisse A1 , A2 und A3 (stochastisch) unabh¨angig, falls (2.2) P[Ai ∩ Aj ] = P[Ai ] · P[Aj ] f¨ur alle i, j ∈ {1, 2, 3}, i = j, und P[A1 ∩ A2 ∩ A3 ] = P[A1 ] · P[A2 ] · P[A3 ].
(2.3)
Man beachte, dass (2.3) nicht aus (2.2) folgt (und (2.2) nicht aus (2.3)). ¨ Beispiel 2.2 (Dreifacher Wurfelwurf). Wir betrachten den dreifachen Wurf eines W¨urfels. Sei also Ω = {1, . . . , 6}3 ausgestattet mit der diskreten σ-Algebra A = 2Ω und der Gleichverteilung P = UΩ (siehe Beispiel 1.30(ii)). (i) H¨angt f¨ur i = 1, 2, 3 das Ereignis Ai nur vom i-ten Wurf ab, so sind die Ereignisse A1 , A2 und A3 unabh¨angig. In der Tat k¨onnen wir sie wie im vorangehenden Beispiel f¨ur gewisse Mengen A˜1 , A˜2 , A˜3 ⊂ {1, . . . 6} schreiben als A1 = A˜1 × {1, . . . , 6}2 , A2 = {1, . . . , 6} × A˜2 × {1, . . . , 6}, A3 = {1, . . . , 6}2 × A˜3 . Die G¨ultigkeit von (2.2) folgt wie in Beispiel 2.1(i). Um (2.3) zu zeigen, berechnen wir #(A˜1 × A˜2 × A˜3 ) #A˜i = = P[Ai ]. 216 6 i=1 i=1 3
P[A1 ∩ A2 ∩ A3 ] =
(ii) Wir betrachten nun die folgenden drei Ereignisse
3
2.1 Unabh¨angigkeit von Ereignissen
49
A1 := {ω ∈ Ω : ω1 = ω2 }, A2 := {ω ∈ Ω : ω2 = ω3 }, A3 := {ω ∈ Ω : ω1 = ω3 }. Dann ist #A1 = #A2 = #A3 = 36, also P[A1 ] = P[A2 ] = P[A3 ] = 16 . Ferner 1 . Daher gilt (2.2). Jedoch ist ist #(Ai ∩ Aj ) = 6, falls i = j, also P[Ai ∩ Aj ] = 36 1 #(A1 ∩ A2 ∩ A3 ) = 6, also P[A1 ∩ A2 ∩ A3 ] = 36 = 16 · 16 · 16 , mithin ist (2.3) 3 verletzt, und die Ereignisse A1 , A2 , A3 sind nicht unabh¨angig. Um f¨ur gr¨oßere Familien von Ereignissen Unabh¨angigkeit zu definieren, m¨ussen wir die G¨ultigkeit von Produktformeln wie (2.2) und (2.3) nunmehr nicht nur f¨ur Paare und Tripel fordern, sondern f¨ur alle endlichen Teilfamilien. Wir treffen daher die folgende Definition. Definition 2.3 (Unabh¨angigkeit von Ereignissen). Sei I eine beliebige Indexmenge, und sei (Ai )i∈I eine beliebige Familie von Ereignissen. Die Familie (Ai )i∈I heißt unabh¨angig, falls f¨ur jede endliche Teilmenge J ⊂ I gilt, dass ' ( P Aj = P[Aj ]. j∈J
j∈J
Das wichtigste Beispiel f¨ur eine unendlich große, unabh¨angige Familie von Ereignissen wird durch die unendliche (unabh¨angige) Wiederholung eines Zufallsexperiments gegeben. Beispiel 2.4. Sei E eine endliche Menge (die m¨oglichen Ausg¨ange des einzelnen Experiments) und (pe )e∈E ein Wahrscheinlichkeitsvektor auf E. Sei (wie in Satz 1.64) der Wahrscheinlichkeitsraum Ω = E N ausgestattet mit der σ-Algebra ⊗N
A = σ({[ω1 , . . . , ωn ] : ω1 , . . . , ωn ∈ E, n ∈ N}) und P = das e∈E pe δe n * ) pωi . Sei Produktmaß (oder Bernoulli-Maß) auf (Ω, A), also P [ω1 , . . . , ωn ] = i=1
A˜i ⊂ E f¨ur jedes i ∈ N, und Ai das Ereignis, dass A˜i im i-ten Durchgang des Experiments auftritt, also
Ai = ω ∈ Ω : ωi ∈ A˜i = [ω1 , . . . , ωi ]. ˜i (ω1 ,...,ωi )∈E i−1 ×A
Nach unserer Intuition sollte die Familie (Ai )i∈N unabh¨angig sein, wenn die Definition der Unabh¨angigkeit sinnvoll sein soll. Wir weisen jetzt nach, dass dies in der Tat richtig ist. Sei J ⊂ N endlich mit k := #J und n := max J. Wir setzen formal ˜j = A˜j f¨ur j ∈ J und Bj = Ω und B ˜j = E f¨ur j ∈ {1, . . . , n} \ J. Bj = Aj und B Dann ist
50
2 Unabh¨angigkeit
P
+
, + , + , n Aj = P Bj = P Bj
j∈J
j=1
j∈J
=
···
˜1 e1 ∈ B
n
p ej =
˜ n j=1 en ∈ B
n j=1
˜j e∈B
Dies gilt speziell nat¨urlich f¨ur #J = 1, also ist P[Ai ] = Es folgt + , Aj = P[Aj ]. P j∈J
pe
=
j∈J
˜i e∈A
pe .
˜j e∈A
pe f¨ur jedes i ∈ N. (2.4)
j∈J
Da dies f¨ur alle endlichen J ⊂ N gilt, ist die Familie (Ai )i∈N unabh¨angig.
3
Sind A und B unabh¨angig, so sind auch Ac und B unabh¨angig, denn P[Ac ∩ B] = P[B] − P[A ∩ B] = P[B] − P[A]P[B] = (1 − P[A])P[B] = P[Ac ]P[B]. Wir wollen diese Beobachtung etwas verallgemeinern und als Satz festhalten. Satz 2.5. Sei I eine beliebige Indexmenge, und sei (Ai )i∈I eine Familie von Ereignissen. Setze Bi0 = Ai und Bi1 = Aci f¨ur i ∈ I. Dann sind folgende drei Aussagen a¨ quivalent. (i) Die Familie (Ai )i∈I ist unabh¨angig. (ii) Es gibt ein α ∈ {0, 1}I , sodass die Familie (Biαi )i∈I unabh¨angig ist. (iii) F¨ur jedes α ∈ {0, 1}I ist die Familie (Biαi )i∈I unabh¨angig. ¨ Beweis Ubung! Beispiel 2.6 (Euler’sche Primzahlformel). Die Riemann’sche Zetafunktion ist definiert durch die Dirichlet-Reihe ζ(s) :=
∞
n−s
f¨ur s ∈ (1, ∞).
n=1
Die Euler’sche Primzahlformel ist die Produktdarstellung −1 1 − p−s ζ(s) = ,
(2.5)
p∈P
wobei P := {p ∈ N : p ist Primzahl} ist. Wir beweisen die Produktdarstellung probabilistisch. Sei Ω = N und (f¨ur festes s) P definiert durch P[{n}] = ζ(s)−1 n−s f¨ur n ∈ N. Sei pN = {pn : n ∈ N} und Pn = {p ∈ P : p ≤ n}. Wir fassen pN ⊂ Ω als Ereignis auf und bemerken, dass (pN, p ∈ P) unabh¨angig ist. In der Tat: F¨ur k ∈ N k und unterschiedliche p1 , . . . , pk ∈ P ist i=1 pi N = (p1 · · · pk )N, also
2.1 Unabh¨angigkeit von Ereignissen
P
k
. (pi N) =
51
∞ ) * P {p1 · · · pk n} n=1
i=1
= ζ(s)−1 (p1 · · · pk )−s
∞
n−s
n=1
= (p1 · · · pk )−s =
k
P[ pi N ].
i=1
Nach Satz 2.5 ist nun auch ((pN)c , p ∈ P) unabh¨angig. Deshalb gilt + , −1 c ζ(s) = P[{1}] = P (pN) = lim P n→∞
= lim
n→∞
'
p∈P
(pN)c
(
p∈Pn
1 − P[ pN ] = 1 − p−s .
p∈Pn
p∈P
3
Damit ist (2.5) gezeigt.
Wenn wir einen W¨urfel unendlich oft werfen, wie groß ist die Wahrscheinlichkeit, dass unendlich oft (also: immer wieder mal) eine Sechs geworfen wird? Diese Wahrscheinlichkeit sollte Eins sein, denn sonst g¨abe es einen letzten Zeitpunkt, zu dem eine Sechs f¨allt und danach nicht wieder. Dies w¨are zumindest nicht sehr plausibel. Man erinnere sich daran, wie wir mit Hilfe des Limes superior (Definition 1.13) formalisiert hatten, dass unendlich viele Ereignisse aus einer Familie von Ereignissen eintreten. Der folgende Satz best¨atigt nun unsere oben ge¨außerte Vermutung und gibt zudem Auskunft dar¨uber, unter welchen Bedingungen wir nicht erwarten k¨onnen, dass unendlich viele der Ereignisse eintreten. Satz 2.7 (Lemma von Borel-Cantelli). Seien A1 , A2 , . . . Ereignisse, und sei A∗ = lim sup An . n→∞
(i) Ist
∞ n=1
P[An ] < ∞, so ist P[A∗ ] = 0. (Hier kann P ein beliebiges Maß
auf (Ω, A) sein.) (ii) Ist (An )n∈N unabh¨angig und
∞ n=1
P[An ] = ∞, so ist P[A∗ ] = 1.
Beweis. (i) Da P stetig von oben und σ-subadditiv ist, ist nach Voraussetzung . - ∞ ∞ ∗ P[A ] = lim P Am ≤ lim P[Am ] = 0. n→∞
m=n
n→∞
m=n
52
2 Unabh¨angigkeit
(ii) Offensichtlich ist log(1 − x) ≤ −x f¨ur x ∈ [0, 1]. Nach den de Morgan’schen Regeln und der Stetigkeit von P von unten gilt daher - ∞ ∞ - ∞ . . ) ∗ c* c c An = lim P An . P (A ) = P m→∞
m=1 n=m
n=m
Nun ist aber f¨ur jedes m ∈ N , + ∞ ∞
1 − P[An ] Acn = P n=m
n=m
= exp
∞
log 1 − P[An ]
≤ exp
n=m
−
∞
P[An ] = 0.
2
n=m
Beispiel 2.8. Wir betrachten den unendlich oft wiederholten W¨urfelwurf und fragen nach der Wahrscheinlichkeit, dass unendlich oft die Sechs auftritt. Es ist also Ω = {1, . . . , 6}N , A = (2{1,...,6} )⊗N die Produkt-σ-Algebra und P =
⊗N 1 das Bernoulli-Maß (vergleiche Satz 1.64). Ferner sei An = 6 δe e∈{1,...,6}
{ω ∈ Ω : ωn = 6} das Ereignis, dass beim n-ten Wurf eine Sechs auftritt. Dann ist A∗ = lim sup An das Ereignis, dass unendlich oft eine Sechs auftritt (sien→∞
he Beispiel 1.14). Ferner ist (An )n∈N eine unabh¨angige Familie mit ∞ n=1
∞
P[An ] =
n=1 1 6
= ∞ und deshalb nach dem Lemma von Borel-Cantelli P[A∗ ] = 1.
3
Beispiel 2.9. Wir werfen einen W¨urfel nur einmal und definieren An f¨ur jedes n ∈ N als das Ereignis, dass bei diesem (einen) Wurf eine Sechs geworfen wurde. Man bemerke, dass A1 = A2 = A3 = . . . Dann ist n∈N P[An ] = ∞, jedoch P[A∗ ] = P[A1 ] = 16 . Dies zeigt, dass in Teil (ii) des Lemmas von Borel-Cantelli nicht ohne weiteres auf die Unabh¨angigkeit verzichtet werden kann. 3 Beispiel 2.10. Sei Λ ∈ (0, ∞) und 0 ≤ λn ≤ Λ f¨ur n ∈ N. Ferner seien Xn , n ∈ N, Poisson-verteilte Zufallsvariablen mit Parametern λn . Dann gilt ) * P Xn ≥ n f¨ur unendlich viele n = 0. Es ist n¨amlich ∞
P[Xn ≥ n] =
n=1
=
∞ ∞ n=1 m=n ∞ m m=1 n=1
P[Xn = m] = e−λn
λm n ≤ m!
∞ m
m=1 n=1 ∞ m
m
m=1
P[Xn = m]
Λ = Λ eΛ < ∞. m!
3
2.1 Unabh¨angigkeit von Ereignissen
53
Da im obigen Satz, zumindest im Falle unabh¨angiger Ereignisse, nur die Wahrscheinlichkeiten P[A∗ ] = 0 und P[A∗ ] = 1 auftreten k¨onnen, z¨ahlt das Lemma von Borel-Cantelli zu den so genannten 0-1 Gesetzen. Wir werden sp¨ater weitere 0-1 Gesetze kennen lernen (siehe beispielsweise Satz 2.37). Wir wollen jetzt den Begriff der Unabh¨angigkeit von Familien von Ereignissen auf Familien von Ereignissystemen ausdehnen. Definition 2.11 (Unabh¨angigkeit von Mengensystemen). Sei I eine beliebige Indexmenge und Ei ⊂ A f¨ur jedes i ∈ I. Die Familie (Ei )i∈I heißt unabh¨angig, falls f¨ur jede endliche Teilmenge J ⊂ I und f¨ur jede Wahl von Ej ∈ Ej , j ∈ J, gilt, dass + , Ej = P[Ej ]. (2.6) P j∈J
j∈J
Beispiel 2.12. Sei (Ω, A, P) wie in Beispiel 2.4 der Produktraum der unendlichen Wiederholung des Experiments mit Ausg¨angen in der endlichen Menge E mit Wahrscheinlichkeitsvektor p = (pe )e∈E . Setze f¨ur i ∈ N
Ei = {ω ∈ Ω : ωi ∈ A} : A ⊂ E . Dann ist f¨ur jede Wahl von Ai ∈ Ei , i ∈ N, die Familie (Ai )i∈N unabh¨angig, also 3 ist (Ei )i∈N unabh¨angig.
Satz 2.13. gilt
(ii) (Ei )i∈I
(i) Sei I endlich, und f¨ur jedes i ∈ I sei Ei ⊂ A mit Ω ∈ Ei . Dann (Ei )i∈I ist unabh¨angig ⇐⇒ (2.6) gilt f¨ur J = I.
ist unabh. ⇐⇒ (Ej )j∈J ist unabh. f¨ur alle endlichen J ⊂ I .
(iii) Ist (Ei ∪ {∅}) ∩-stabil, dann gilt (Ei )i∈I ist unabh¨angig
⇐⇒ (σ(Ei ))i∈I ist unabh¨angig.
(iv) Sei K eine beliebige Menge und (Ik )k∈K paarweise disjunkte Teilmengen
E angig. von I. Ist (Ei )i∈I unabh¨angig, dann ist auch i∈Ik i k∈K unabh¨ Beweis. (i) =⇒ “ Dies ist trivial. ” (i) ⇐= “ F¨ur J ⊂ I und j ∈ I \ J w¨ahle Ej = Ω. ” (ii) Dies ist trivial. (iii) ⇐= “ ”
Dies ist trivial.
54
2 Unabh¨angigkeit
(iii) =⇒ “ Sei J ⊂ I endlich. Wir zeigen: F¨ur je zwei endliche Mengen J und ” J mit J ⊂ J ⊂ I gilt + , Ei ∈ σ(Ei ), falls i ∈ J, P (2.7) Ei = P[Ei ] f¨ur jede Wahl Ei ∈ Ei , falls i ∈ J \ J. i∈J i∈J Mit J = J ist dies genau die zu zeigende Aussage. Wir f¨uhren den Beweis von (2.7) durch vollst¨andige Induktion nach #J. F¨ur #J = 0 gilt (2.7) nach Voraussetzung des Satzes. Es gelte nun (2.7) f¨ur jedes J mit #J = n und jedes endliche J ⊃ J. Sei solch ein J gew¨ahlt und j ∈ I \ J. Sei J ⊃ J˜ := J ∪ {j}. Wir zeigen nun die G¨ultigkeit von (2.7) mit J˜ statt mit J. Wegen #J˜ = n + 1 ist damit der Induktionsschritt gezeigt. Sei Ei ∈ σ(Ei ) f¨ur jedes i ∈ J und Ei ∈ Ei f¨ur jedes i ∈ J \ (J ∪ {j}). Wir definieren Maße μ und ν auf (Ω, A) durch + , Ei P[Ei ]. und ν : Ej → μ : Ej → P i∈J
i∈J
Nach Induktionsvoraussetzung (2.7) gilt μ(Ej ) = ν(Ej ) f¨ur jedes Ej ∈ Ej ∪{∅, Ω}. Da Ej ∪ {∅} schnittstabil ist, gilt nach Lemma 1.42 auch μ(Ej ) = ν(Ej ) f¨ur jedes Ej ∈ σ(Ej ), das heißt, es gilt (2.7) mit J ∪ {j} statt J. (iv)
Dies ist trivial, weil (2.6) nur f¨ur J ⊂ I mit #(J ∩ Ik ) ≤ 1
f¨ur jedes k ∈ K,
nachgewiesen werden muss.
2
2.2 Unabh¨angigkeit von Zufallsvariablen Nachdem wir Unabh¨angigkeit von Ereignissen behandelt haben, wollen wir auch Unabh¨angigkeit von Zufallsvariablen betrachten. Auch hier l¨auft die Definition auf eine Produktformel hinaus. Formal k¨onnen wir jedoch die Unabh¨angigkeit der von Zufallsvariablen erzeugten σ-Algebren als Definition heranziehen. Wir k¨onnen dann Verteilungen von Summen unabh¨angiger Zufallsvariablen vermittels Faltung ausrechnen. Da wir an dieser Stelle noch keinen allgemeinen Integralbegriff zur Verf¨ugung haben, bringen wir die Faltung zun¨achst nur f¨ur Zufallsvariablen mit ganzzahligen Werten. Sei I eine beliebige Indexmenge, und f¨ur jedes i ∈ I sei (Ωi , Ai ) ein Messraum sowie Xi : (Ω, A) → (Ωi , Ai ) eine Zufallsvariable mit erzeugter σ-Algebra σ(Xi ) = Xi−1 (Ai ).
2.2 Unabh¨angigkeit von Zufallsvariablen
55
Definition 2.14 (Unabh¨angigkeit von Zufallsvariablen). Die Familie (Xi )i∈I von Zufallsvariablen heißt unabh¨angig, falls die Familie (σ(Xi ))i∈I von σAlgebren unabh¨angig ist. Wir schreiben, dass (Xi )i∈I u.i.v.“ ist, f¨ur unabh¨angig und identisch verteilt“ ” ” (englisch: i.i.d.“ f¨ur independent and identically distributed“), falls (Xi )i∈I un” ” abh¨angig ist und PXi = PXj f¨ur alle i, j ∈ I gilt. Bemerkung 2.15. (i) Ist (A˜i )i∈I eine unabh¨angige Familie von σ-Algebren und ist jedes Xi messbar bez¨uglich A˜i – Ai , so ist (Xi )i∈I unabh¨angig. Dies ist klar, weil σ(Xi ) ⊂ A˜i , also die Bedingung an die Unabh¨angigkeit von (Xi )i∈I schw¨acher ist als die Bedingung an die Unabh¨angigkeit von (A˜i )i∈I . (ii) F¨ur jedes i ∈ I sei (Ωi , Ai ) ein weiterer Messraum, sowie fi : (Ωi , Ai ) → (Ωi , Ai ) eine messbare Abbildung. Ist (Xi )i∈I unabh¨angig, so ist (fi ◦ Xi )i∈I unabh¨angig. Diese Aussage ist ein Spezialfall von (i), weil fi ◦Xi messbar ist bez¨uglich σ(Xi ) – Ai (siehe Satz 1.80). 3 Satz 2.16 (Unabh¨angigkeit von Erzeugern). F¨ur jedes i ∈ I sei Ei ⊂ Ai ein schnittstabiler Erzeuger von Ai . Ist (Xi−1 (Ei ))i∈I unabh¨angig, so ist (Xi )i∈I unabh¨angig. Beweis. Nach Satz 1.81(iii) ist Xi−1 (Ei ) ist ein schnittstabiler Erzeuger der σ2 Algebra Xi−1 (Ai ) = σ(Xi ). Mit Satz 2.13 folgt die Aussage. Beispiel 2.17. Sei E eine h¨ochstens abz¨ahlbare Menge, und seien (Xi )i∈I Zufallsvariablen mit Werten in (E, 2E ). In diesem Falle ist (Xi )i∈I genau dann unabh¨angig, wenn f¨ur jede endliche Teilmenge J ⊂ I und jede Wahl von xj ∈ E, j ∈ J, gilt, dass * ) P[Xj = xj ]. P Xj = xj f¨ur jedes j ∈ J = j∈J
Dies ist klar, weil {x} : x ∈ E ∪ {∅} ein schnittstabiler Erzeuger von 2E ist,
also Xi−1 ({xi }) : xi ∈ E ∪ {∅} ein schnittstabiler Erzeuger von σ(Xi ) ist (Satz 1.81). 3 Beispiel 2.18. Sei E eine endliche Menge und p = (pe )e∈E ein Wahrscheinlichkeitsvektor. Wir wollen das zu E und p geh¨orige Zufallsexperiment unendlich oft unabh¨angig wiederholen (siehe Beispiel 1.40 und Satz 1.64). Sei Ω = E N der unendliche Produktraum und A die von den endlichen Zylindermengen (siehe (1.8)) ⊗N
erzeugte σ-Algebra, sowie P = das Bernoulli-Maß. Ferner sei f¨ur e∈E pe δe jedes n ∈ N
56
2 Unabh¨angigkeit
Xn : Ω → E,
(ωm )m∈N → ωn ,
die Projektion auf die n-te Koordinate. Mit anderen Worten: Zu jedem Elementarereignis ω ∈ Ω liefert Xn (ω) das Ergebnis des n-ten Experiments. Dann gilt nach (2.4) (in Beispiel 2.4) f¨ur n ∈ N und x ∈ E n + , n ) * ) * −1 P Xj = xj f¨ur jedes j = 1, . . . , n = P [x1 , . . . , xn ] = P Xj ({xj }) j=1
=
n
n ) * P Xj−1 ({xj }) = P[Xj = xj ],
j=1
j=1
sowie P[Xj = xj ] = pxj . Nach Satz 2.13(i) sind also (X1 , . . . , Xn ) unabh¨angig 3 und nach Satz 2.13(ii) auch (Xn )n∈N . Speziell haben wir den folgenden Satz gezeigt. Satz 2.19. Sei E eine endliche Menge und (pe )e∈E ein Wahrscheinlichkeitsvektor auf E. Dann existiert ein Wahrscheinlichkeitsraum (Ω, A, P) und eine unabh¨angige Familie (Xn )n∈N von E-wertigen Zufallsvariablen auf (Ω, A, P) mit P[Xn = e] = pe f¨ur jedes e ∈ E. Wir werden sp¨ater sehen, dass wir auf die Endlichkeit von E verzichten k¨onnen und auch unterschiedliche Verteilungen zulassen k¨onnen. F¨ur den Moment gibt uns dieser Satz aber gen¨ugend Beispiele f¨ur abz¨ahlbare Familien von unabh¨angigen Zufallsvariablen an die Hand. Wir wollen nun einfache Kriterien zur Pr¨ufung der Unabh¨angigkeit von Zufallsvariablen herleiten, die sich mit Hilfe von Verteilungsfunktionen beziehungsweise Dichten ausdr¨ucken lassen. Definition 2.20. F¨ur jedes i ∈ I sei Xi eine reelle Zufallsvariable. F¨ur jede endliche Teilmenge J ⊂ I sei FJ := F(Xj )j∈J : RJ → [0, 1],
+ ,
* ) −1 Xj (−∞, xj ] . x → P Xj ≤ xj f¨ur jedes j ∈ J = P j∈J
Dann heißt FJ die gemeinsame Verteilungsfunktion von (Xj )j∈J . Das W-Maß P(Xj )j∈J auf RJ heißt gemeinsame Verteilung von (Xj )j∈J . Satz 2.21. Eine Familie (Xi )i∈I reeller Zufallsvariablen ist genau dann unabh¨angig, wenn f¨ur jedes endliche J ⊂ I und jedes x = (xj )j∈J ∈ RJ gilt, dass FJ (x) = F{j} (xj ). (2.8) j∈J
2.2 Unabh¨angigkeit von Zufallsvariablen
57
Beweis. Das Mengensystem {(−∞, b], b ∈ R} ist ein schnittstabiler Erzeuger der Borel’schen σ-Algebra B(R) (siehe Satz 1.23). Die Gleichung (2.8) besagt nun aber, dass f¨ur jede Wahl von reellen Zahlen (xi )i∈I die Ereignisse (X −1 ((−∞, xi ]))i∈I unabh¨angig sind. Nach Satz 2.16 folgt daher die Aussage dieses Satzes. 2 Korollar 2.22. Zus¨atzlich zur Situation von Satz 2.21 nehmen wir an, dass jedes FJ eine stetige Dichte fJ = f(Xj )j∈J hat, das heißt, es gibt eine stetige Abbildung fJ : RJ → [0, ∞) mit xj1 xjn FJ (x) = dt1 · · · dtn fJ (t1 , . . . , tn ) f¨ur jedes x ∈ RJ , −∞
−∞
(wobei J = {j1 , . . . , jn }). Dann ist die Familie (Xi )i∈I genau dann unabh¨angig, wenn f¨ur jedes endliche J ⊂ I gilt fj (xj ) f¨ur jedes x ∈ RJ . (2.9) fJ (x) = j∈J
Korollar 2.23. Seien n ∈ N und μ1 , . . . , μn W-Maße auf (R, B(R)). Dann existiert ein W-Raum (Ω, A, P) und eine unabh¨angige Familie von Zufallsvariablen (Xi )i=1,...,n auf (Ω, A, P) mit PXi = μi f¨ur jedes i = 1, . . . , n. /n Beweis. Sei Ω = Rn und A = B(Rn ) sowie P = i=1 μi das Produktmaß der μi (siehe Satz 1.61). Ferner sei Xi : Rn → R, (x1 , . . . , xn ) → xi die Projektion auf die i-te Koordinate f¨ur jedes i = 1, . . . , n. Dann ist f¨ur jedes i = 1, . . . , n * ) F{i} (x) = P[Xi ≤ x] = P Ri−1 × (−∞, x] × Rn−i−1
μj (R) = μi (−∞, x] . = μi (−∞, x] · j =i
Also gilt tats¨achlich PXi = μi . Ferner ist f¨ur x1 , . . . , xn ∈ R + F{1,...,n} (x1 , . . . , xn ) = P
, n n
(−∞, xi ] = μi (−∞, xi ] = F{i} (xi ).
× n
i=1
i=1
i=1
Nach Satz 2.21 (und Satz 2.13(i)) folgt die Unabh¨angigkeit von (Xi )i=1,...,n .
2
ZufallsvariabBeispiel 2.24. Seien X1 , . . . , Xn unabh¨angige, exponentialverteilte 0x len mit Parametern θ1 , . . . , θn ∈ (0, ∞). Dann ist F{i} (x) = 0 θi exp(−θi t) dt = 1 − exp(−θi x) f¨ur x ≥ 0 und daher F{1,...,n}
n
(x1 , . . . , xn ) = 1 − e−θi xi . i=1
Betrachte nun die Zufallsvariable Y = max(X1 , . . . , Xn ). Dann ist
58
2 Unabh¨angigkeit
) * FY (x) = P Xi ≤ x f¨ur jedes i = 1, . . . , n n
1 − e−θi x . = F{1,...,n} (x, . . . , x) = i=1
F¨ur die Zufallsvariable Z := min(X1 , . . . , Xn ) hat die Verteilungsfunktion eine sch¨one geschlossene Form FZ (x) = 1 − P[Z > x] ) * = 1 − P Xi > x f¨ur jedes i = 1, . . . , n n
=1− e−θi x = 1 − exp − (θ1 + . . . + θn ) x . i=1
Mit anderen Worten: Z ist exponentialverteilt mit Parameter θ1 + . . . + θn .
3
Beispiel 2.25. Seien μi ∈ R und σi2 > 0, i ∈ I, sowie (Xi )i∈I reell mit gemeinsamen Dichtefunktionen (f¨ur endliches J ⊂ I) 1 (xj − μj )2 2 −2 2πσj exp − fJ (x) = f¨ur x ∈ RJ . 2σj2 j∈J
j∈J
Dann sind die (Xi )i∈I unabh¨angig und normalverteilt mit Parametern (μi , σi2 ). F¨ur jedes endliche I = {i1 , . . . , in } (mit paarweise unterschiedlichen i1 , . . . , in ) ist der Vektor Y = (Xi1 , . . . , Xin ) n-dimensional normalverteilt mit μ = μI := (μi1 , . . . , μin ) und Σ = Σ I die Diagonalmatrix mit Eintr¨agen σi21 , . . . , σi2n (vergleiche Beispiel 1.105(ix)). 3 Satz 2.26. Sei K eine beliebige Menge und Ik , k ∈ K, beliebige paarweise disjunkte Indexmengen sowie I = Ik . k∈K
Ist die Familie (Xi )i∈I unabh¨angig, dann sind auch die σ-Algebren (σ(Xj , j ∈ Ik ))k∈K unabh¨angig. Beweis. Sei f¨ur k ∈ K 1 2 Zk = Aj : Aj ∈ σ(Xj ), #{j ∈ Ik : Aj = Ω} < ∞ j∈Ik
der Ring der endlichdimensionalen Zylinder. Offenbar ist Zk schnittstabil und σ(Zk ) = σ(Xj , j ∈ Ik ). Also reicht es nach Satz 2.13(iii) zu zeigen, dass (Zk )k∈K unabh¨angig ist. Nach Satz 2.13(ii) k¨onnen wir sogar annehmen, dass K endlich ist. F¨ur k ∈ K seien nun Bk ∈ Zkund Jk ⊂ Ik endlich mit Bk = j∈Jk Aj f¨ur gewisse Aj ∈ σ(Xj ). Setze J = k∈K Jk . Dann ist
2.2 Unabh¨angigkeit von Zufallsvariablen
+ , + , P Bk = P Aj = P[Aj ] = P[Aj ] = P[Bk ]. j∈J
k∈K
j∈J
k∈K j∈Jk
59
2
k∈K
Beispiel 2.27. Sind (Xn )n∈N unabh¨angige, reelle Zufallsvariablen, dann sind auch (Yn )n∈N = (X2n − X2n−1 )n∈N unabh¨angig. In der Tat ist f¨ur jedes n ∈ N die Zufallsvariable Yn schon messbar bez¨uglich σ(X2n , X2n−1 ) nach Satz 1.91, und 3 (σ(X2n , X2n−1 ))n∈N ist unabh¨angig nach Satz 2.26. Beispiel 2.28. Seien (Xm,n )(m,n)∈N2 unabh¨angige Bernoulli-Zufallsvariablen mit Parameter p ∈ (0, 1). Sei
Ym := inf n ∈ N : Xm,n = 1 − 1 die Wartezeit auf den ersten Erfolg“ in der m-ten Zeile der Matrix (Xm,n )m,n . ” Dann sind (Ym )m∈N unabh¨angige, geometrisch verteilte Zufallsvariablen mit Parameter p (siehe Beispiel 1.105(iii)). Denn: {Ym ≤ k} =
k+1
{Xm,l = 1} ∈ σ(Xm,l , l = 1, . . . , k + 1) ⊂ σ(Xm,l , l ∈ N).
l=1
Also ist Ym messbar bez¨uglich σ(Xm,l , l ∈ N), und damit ist (Ym )m∈N unabh¨angig. Ferner ist P[Ym > k] = P[Xm,l = 0, l = 1, . . . , k + 1] =
k+1
P[Xm,l = 0] = (1 − p)k+1 .
l=1
Es folgt P[Ym = k] = P[Ym > k − 1] − P[Ym > k] = p(1 − p)k .
3
Definition 2.29 (Faltung). Seien μ und ν W-Maße auf (Z, 2Z ). Wir definieren die Faltung μ ∗ ν als das W-Maß auf (Z, 2Z ) mit (μ ∗ ν)({n}) =
∞
μ({m}) ν({n − m}).
m=−∞
Wir definieren die n-te Faltungspotenz rekursiv durch μ∗1 = μ und μ∗(n+1) = μ∗n ∗ μ. Bemerkung 2.30. Es gilt μ ∗ ν = ν ∗ μ Satz 2.31. Sind X und Y unabh¨angige Z-wertige Zufallsvariablen, so gilt PX+Y = PX ∗ PY .
3
60
2 Unabh¨angigkeit
Beweis. F¨ur jedes n ∈ Z gilt PX+Y ({n}) = P[X + Y = n] + , =P {X = m} ∩ {Y = n − m} m∈Z
=
) * P {X = m} ∩ {Y = n − m}
m∈Z
=
PX [{m}] PY [{n − m}] = (PX ∗ PY )[{n}].
2
m∈Z
Auf Grund dieses Satzes liegt es nahe, die Faltung von zwei Wahrscheinlichkeitsmaßen auf Rn (oder allgemeiner: auf abelschen Gruppen) als die Verteilung der Summe zweier unabh¨angiger Zufallsvariablen mit den entsprechenden Verteilungen zu definieren. Wir werden sp¨ater eine andere Definition kennen lernen, die nat¨urlich zu dieser a¨ quivalent ist, jedoch auf den Integralbegriff zur¨uckgreift, der hier noch nicht verf¨ugbar ist (siehe Definition 14.17). Definition 2.32 (Faltung von Maßen). Seien μ und ν W-Maße auf Rn , und seien X und Y unabh¨angige Zufallsvariablen mit PX = μ und PY = ν. Dann definieren wir die Faltung von μ und ν durch μ ∗ ν = PX+Y . Iterativ definieren wir die Faltungspotenzen μ∗k f¨ur k ∈ N, sowie μ∗0 = δ0 . Beispiel 2.33. Seien X und Y unabh¨angig und Poisson-verteilt mit Parametern μ, λ ≥ 0. Dann gilt P[X + Y = n] = e−μ e−λ −(μ+λ)
=e
n μm λn−m m! (n − m)! m=0 n 1 n m n−m (μ + λ)n . = e−(μ+λ) μ λ n! m=0 m n!
Also ist Poiμ ∗ Poiλ = Poiμ+λ .
3
¨ Ubung 2.2.1. Seien X und Y unabh¨angige Zufallsvariablen mit X ∼ expθ und Y ∼ expρ f¨ur gewisse θ, ρ > 0. Man zeige: P[X < Y ] =
θ . θ+ρ
♣
¨ Ubung 2.2.2 (Box-Muller Methode). Seien U und V unabh¨angige, uniform auf [0, 1] verteilte Zufallsvariablen. Setze
2.3 Kolmogorov’sches 0-1 Gesetz
X :=
3
−2 log(U ) cos(2πV )
und
Y :=
3
61
−2 log(U ) sin(2πV ).
Man zeige: X und Y sind unabh¨angig und N0,1 -verteilt. 3 Hinweis: Man berechne zun¨achst die Verteilung von −2 log(U ) und benutze die Transformationsformel f¨ur Dichten (Satz 1.101) sowie Polarkoordinatentransformation. ♣
2.3 Kolmogorov’sches 0-1 Gesetz Mit dem Lemma von Borel-Cantelli haben wir bereits ein 0-1 Gesetz f¨ur unabh¨angige Ereignisse kennen gelernt. Wir kommen jetzt zu einem weiteren 0-1 Gesetz f¨ur unabh¨angige Ereignisse, beziehungsweise σ-Algebren. Um dies zu formulieren, m¨ussen wir zun¨achst den Begriff der terminalen σ-Algebra einf¨uhren. Definition 2.34 (Terminale σ-Algebra). Sei I eine abz¨ahlbar unendliche Indexmenge und (Ai )i∈I eine Familie von σ-Algebren. Dann heißt
σ Aj T (Ai )i∈I := J⊂I #J<∞
j∈I\J
die terminale σ-Algebra (oder das tail σ-field) von (Ai )i∈I . Sind (Ai )i∈I Ereignisse, so setzen wir
T (Ai )i∈I := T ({∅, Ai , Aci , Ω})i∈I .
Ist (Xi )i∈I eine := Familie von Zufallsvariablen, so setzen wir T (X ) i i∈I T (σ(Xi ))i∈I . In der terminalen σ-Algebra sind alle diejenigen Ereignisse A enthalten, deren Eintreten von jeder festen endlichen Teilfamilie der Xi nicht abh¨angt. Anders gesagt: f¨ur jede endliche Teilfamilie der Xi k¨onnen wir die Werte dieser Xi willk¨urlich a¨ ndern, ohne dass sich dadurch am Eintreten von A etwas a¨ nderte.
Satz 2.35.
Seien J1 , J2 ,. . . endliche Mengen mit Jn ↑ I. Dann ist T (Ai )i∈I = ∞ n=1 σ m∈I\Jn Am . ∞ ∞
Ist speziell I = N, so ist T (An )n∈N = σ Am . n=1
m=n
Von dem Fall I = N, wo I als Menge von Zeitpunkten interpretiert wird, r¨uhrt der Begriff terminale σ-Algebra her. Wie aus dem Satz hervorgeht, liegen in T nur die Ereignisse, die nicht von den ersten endlich vielen Zeitpunkten abh¨angen, u¨ ber deren Eintreten man also erst terminal eine Aussage machen kann.
62
2 Unabh¨angigkeit
Beweis. ⊂“ Dies ist klar. ” ⊃“ Sei Jn ↑ I mit endlichen Mengen Jn ⊂ I, n ∈ N, und sei J ⊂ I endlich. ” Dann existiert ein N ∈ N mit J ⊂ JN , und es ist ∞ σ n=1
m∈I\Jn
Am
N ⊂ σ
m∈I\Jn
n=1
=σ
m∈I\JN
Am
Am
⊂ σ
m∈I\J
Am .
Die linke Seite h¨angt nicht von J ab, also k¨onnen wir den Schnitt u¨ ber alle endlichen J bilden und erhalten ∞
2 σ Am ⊂ T (Ai )i∈I . m∈I\Jn
n=1
Es ist vielleicht nicht so ohne weiteres klar, dass es u¨ berhaupt noch interessante Ereignisse in der terminalen σ-Algebra gibt. Vielleicht ist nicht einmal a priori klar, dass nicht etwa T = {∅, Ω} gilt. Daher geben wir jetzt erst einmal einfache Beispiele f¨ur terminale Ereignisse beziehungsweise terminal messbare Zufallsvariablen an. In Abschnitt 2.4 werden wir ein weiteres Beispiel kennen lernen. Beispiel 2.36. (i) Seien A1 , A2 , . . . Ereignisse. Dann sind die Ereignisse A∗ := lim inf An und A∗ := lim sup An in T ((An )n∈N ). Setzen wir n¨amlich Bn := n→∞ ∞
m=n
n→∞
Am f¨ur n ∈ N, dann gilt Bn ↑ A∗ und Bn ∈ σ((Am )m≥N ) f¨ur jedes n ≥ N .
Also ist A∗ ∈ σ((Am )m≥N ) f¨ur jedes N ∈ N und damit A∗ ∈ T ((An )n∈N ). F¨ur A∗ geht dies analog.
(ii) Ist (Xn )n∈N eine Familie R-wertiger Zufallsvariablen, so sind auch die Abbildungen X∗ := lim inf n→∞ Xn und X ∗ := lim supn→∞ Xn messbar bez¨uglich T ((Xn )n∈N ). In der Tat: Setzen wir Yn := supm≥n Xm , so ist f¨ur jedes N ∈ N die Zufallsvariable X ∗ = inf n≥1 Yn = inf n≥N Ynmessbar bez¨uglich TN := ∞ σ(Xn , n ≥ N ), also auch bez¨uglich T ((Xn )n∈N ) = n=1 Tn . F¨ur X∗ geht dies analog. (iii) Seien (Xn )n∈N reellwertige Zufallsvariablen. Dann sind die Ces`aro-Limiten 1 Xi n i=1 n
lim inf n→∞
1 Xi n i=1 n
und
lim sup n→∞
messbar bez¨uglich T ((Xn )n∈N ). Um dies zu zeigen, w¨ahlen wir ein N ∈ N und beachten, dass X∗ := lim inf n→∞
n n 1 1 Xi = lim inf Xi n→∞ n n i=1 i=N
2.3 Kolmogorov’sches 0-1 Gesetz
63
σ((Xn )n≥N )-messbar ist. Da dies f¨ur jedes N gilt, ist X∗ auch T ((Xn )n∈N )messbar. F¨ur den Limes superior geht das analog. 3 Satz 2.37 (Kolmogorov’sches 0-1 Gesetz). Sei I eine abz¨ahlbar unendliche Indexmenge, und sei (Ai )i∈I eine unabh¨angige Familie von σ-Algebren. Dann ist die terminale σ-Algebra P-trivial, das heißt, es gilt P[A] ∈ {0, 1}
f¨ur jedes A ∈ T ((Ai )i∈I ).
Beweis. Es reicht, den Fall I = N zu betrachten. Sei A ∈ T := T (An )n∈N . F¨ur n ∈ N sei 1 2 n Fn := Ak : A1 ∈ A1 , . . . , An ∈ An . k=1
= σ( n∈N An ). In der Tat ist f¨ur Dann ist F := n=1 Fn ein Semiring und σ(F) jedes n ∈ N und An ∈ An auch An ∈ F, also σ( n∈N An ) ⊂ σ(F). Andererseits m ist Fm ⊂ σ( n=1 An ) ⊂ σ( n∈N An ) f¨ur jedes m ∈ N, also F ⊂ σ( n∈N An ). ∞
Sei A ∈ T ((An )n∈N ), und sei ε > 0. Nach dem Approximationssatz f¨ur Maße F˜1 . . . F˜N mit F˜1 , . . . , F˜N ∈ Fn (Satz 1.65) existiert ein n ∈ N und ein Fn = ∞ und mit P[A Fn ] < ε. Offenbar ist A ∈ σ( m=n+1 Am ), also ist A unabh¨angig von Fn . Daher ist ε > P[A \ Fn ] = P[A ∩ (Ω \ Fn )] = P[A](1 − P[Fn ]) ≥ P[A](1 − P[A] − ε). Da ε > 0 beliebig war, folgt 0 = P[A](1 − P[A]).
2
Korollar 2.38. Sei (An )n∈N eine Folge unabh¨angiger Ereignisse. Dann gilt ' ( ' ( P lim sup An ∈ {0, 1} und P lim inf An ∈ {0, 1}. n→∞
n→∞
Beweis. Dies ist im Grunde eine Schlussfolgerung aus dem Lemma von BorelCantelli. Allerdings folgt es auch direkt aus dem Kolmogorov’schen 0-1 Gesetz, da Limes superior und Limes inferior in der terminalen σ-Algebra liegen. 2 Korollar 2.39. Sei (Xn )n∈N eine unabh¨angige Familie von R-wertigen Zufallsvariablen. Dann sind X∗ := lim inf n→∞ Xn und X ∗ := lim supn→∞ Xn fast sicher konstant, das heißt, es gibt x∗ , x∗ ∈ R mit P[X∗ = x∗ ] = 1 und P[X ∗ = x∗ ] = 1. Falls alle Xi sogar reellwertig sind, so sind auch die Ces`aro-Limiten 1 Xi n i=1 n
lim inf n→∞
fast sicher konstant.
1 Xi n i=1 n
und
lim sup n→∞
64
2 Unabh¨angigkeit
Beweis. Sei X∗ := lim inf Xn . F¨ur jedes x ∈ R ist {X∗ ≤ x} ∈ T ((Xn )n∈N ), n→∞
also P[X∗ ≤ x] ∈ {0, 1}. Setze x∗ := inf{x ∈ R : P[X∗ ≤ x] = 1} ∈ R. Ist x∗ = ∞, so ist offenbar P[X∗ < ∞] = lim P[X∗ ≤ n] = 0. n→∞
Ist x∗ ∈ R, so ist ' 1( P[X∗ ≤ x∗ ] = lim P X∗ ≤ x∗ + =1 n→∞ n und
' 1( P[X∗ < x∗ ] = lim P X∗ ≤ x − = 0. n→∞ n Ist x∗ = −∞, so ist P[X∗ > −∞] = lim P[X∗ > −n] = 0. n→∞
F¨ur den Limes superior sowie f¨ur die Ces`aro-Limiten geht dies analog.
2
¨ Ubung 2.3.1. Man zeige: Ist (Xn )n∈N eine unabh¨angige Familie von Zufallsvariablen mit P[Xn = −1] = P[Xn = +1] = 12 , und ist Sn = X1 + . . . + Xn f¨ur jedes ♣ n ∈ N, so ist lim supn→∞ Sn = ∞ fast sicher.
2.4 Beispiel: Perkolation Wir betrachten das d-dimensionale Gitter Zd , wobei jeder Punkt durch je eine Kante mit seinen 2d n¨achsten Nachbarpunkten verbunden ist. Sind x, y ∈ Zd n¨achste Nachbarn, das heißt x − y2 = 1, so schreiben wir k = x, y! = y, x! f¨ur die Kante, die x und y verbindet. Formal ist die Kantenmenge eine Teilmenge der zweielementigen Teilmengen von Zd :
K = {x, y} : x, y ∈ Zd mitx − y2 = 1 . Etwas allgemeiner ist ein (ungerichteter) Graph G ein Paar G = (V, K), wobei V eine Menge ist (die Menge der Knoten oder Punkte des Graphen) und K ⊂ {{x, y} : x, y ∈ V, x = y} eine Teilmenge aller zweielementigen Teilmengen von V (die Menge der Kanten). Da wir unter einer Kante intuitiv eine Verbindung zwischen zwei Punkten x und y verstehen (und nicht das ungeordnete Paar {x, y}), verwenden wir ein anderes Symbol als die Mengenklammern und schreiben x, y! statt {x, y}.
2.4 Beispiel: Perkolation
65
Dieses Gitter ist f¨ur uns der Ausgangspunkt f¨ur ein stochastisches Modell eines por¨osen Mediums. Wir stellen uns die Kanten als R¨ohren vor, entlang derer Wasser fließen kann. Nun soll das Medium allerdings nicht v¨ollig homogen wasserdurchl¨assig sein, sondern eine amorphe Struktur besitzen, etwa wie Bimsstein. Zu diesem Zweck wollen wir zuf¨allig einen gewissen Anteil 1 − p (wobei p ∈ [0, 1] ein Parameter ist) der Kanten zerst¨oren, sodass das Wasser nur durch die verbliebenen Kanten fließen kann. Die Frage, die sich stellt, ist, bei welchen Werten von p die intakten R¨ohren unendlich große verbundene Systeme bilden und bei welchen Werten alle verbundenen Systeme nur endliche Gr¨oße haben. Wir kommen jetzt zur formalen Beschreibung des Modells. Wir w¨ahlen einen Parameter p ∈ [0, 1] und eine unabh¨angige Familie identisch verteilter Zufallsvariablen (Xkp )k∈K mit Xkp = Berp , also P[Xkp = 1] = 1 − P[Xkp = 0] = p f¨ur jedes k ∈ K. Dann definieren wir (2.10) K p := {k ∈ K : Xkp = 1} als die Menge der intakten (oder offenen) Kanten. Entsprechend nennen wir die Kanten K \ K p defekt (oder geschlossen). Auf diese Weise haben wir einen (zuf¨alligen) Teilgraphen (Zd , K p ) von (Zd , K) hergestellt. Wir nennen (Zd , K) auch ein Perkolationsmodell (genauer: ein Modell f¨ur Kantenperkolation, im Gegensatz zu Punktperkolation, wo die einzelnen Punkte geschlossen oder offen sind). Ein (offener) Pfad (der L¨ange n) in diesem Teilgraphen ist eine Folge π = (x0 , x1 , . . . , xn ) von Punkten in Zd mit xi−1 , xi ! ∈ K p f¨ur jedes i = 1, . . . , n. Wir sagen, dass zwei Punkte x, y ∈ Zd durch einen offenen Pfad verbunden werden k¨onnen, wenn es ein n ∈ N und einen offenen Pfad (x0 , x1 , . . . , xn ) mit x0 = x und xn = y gibt. In die¨ jesem Fall schreiben wir x ←→p y. Offenbar ist ←→p“ eine Aquivalenzrelation, ” doch eine zuf¨allige, weil sie von den Werten der Zufallsvariablen (Xkp )k∈K abh¨angt. F¨ur x ∈ Zd nennen wir C p (x) := {y ∈ Zd : x ←→p y}
(2.11)
den (zuf¨alligen) offenen Cluster von x, also die Zusammenhangskomponente von x in dem Graphen (Zd , K p ). Lemma 2.40. F¨ur je zwei Punkte x, y ∈ Zd ist {x←→p y} eine Zufallsvariable. Insbesondere ist #C p (x) eine Zufallsvariable f¨ur jedes x ∈ Zd . Beweis. Ohne Einschr¨ankung k¨onnen wir annehmen, dass x = 0 ist. Wir setzen fn (y) = 1, falls es einen offenen Pfad von 0 nach y der L¨ange h¨ochstens n gibt, und fn (y) = 0 sonst. Offenbar ist fn (y) ↑ {0←→p y} , also reicht es, die Messbarkeit von fn zu zeigen. Sei Bn := {−n, −n + 1, . . . , n − 1, n}d und Kn := {k ∈ K : k ∩ Bn = ∅}. Dann ist Yn := (Xkp : k ∈ Kn ) : Ω → {0, 1}Kn messbar Kn (bez¨uglich 2({0,1} ) ) nach Satz 1.90. Nun ist aber fn eine Funktion von Yn , sagen wir fn = gn ◦Yn f¨ur gewisses gn : {0, 1}Kn → {0, 1}. Nach dem Verkn¨upfungssatz (Satz 1.80) ist daher fn messbar. Der Zusatz folgt, weil #C p (x) = y∈Zd {x←→p y} . 2
66
2 Unabh¨angigkeit
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
Abb. 2.1. Perkolation auf einem 15 × 15 Gitter, p = 0.42
Definition 2.41. Wir sagen, dass Perkolation eintritt, falls es (wenigstens) einen unendlich großen, offenen Cluster gibt und nennen ψ(p) := P[es gibt einen unendlich großen, offenen Cluster] ( ' =P {#C p (x) = ∞} x∈Zd
die Perkolationswahrscheinlichkeit. Wir definieren weiterhin die Funktion θ(p) := P[#C p (0) = ∞] als die Wahrscheinlichkeit, dass der Ursprung in einem unendlich großen, offenen Cluster liegt. Auf Grund der Translationsinvarianz des Gitters ist θ(p) = P[#C p (y) = ∞]
f¨ur jedes y ∈ Zd .
(2.12)
2.4 Beispiel: Perkolation
67
Die Grundfrage lautet: Wie groß sind θ(p) und ψ(p) in Abh¨angigkeit von p? Wir machen die folgende, intuitiv leicht einsehbare Beobachtung. Satz 2.42. Die Abbildung [0, 1] → [0, 1], p → θ(p) ist monoton wachsend. Beweis. Obwohl die Aussage offensichtlich erscheint, wollen wir einen formalen Beweis geben, weil er ein wichtiges Beweisprinzip, das der Kopplung, verwendet. Seien p, p ∈ [0, 1] mit p < p . Es sei (Yk )k∈K eine unabh¨angige Familie von Zufallsvariablen mit P[Yk ≤ q] = q f¨ur jedes k ∈ K und q ∈ {p, p , 1}. Wir k¨onnten an dieser Stelle zum Beispiel annehmen, dass jedes Yk ∼ U[0,1] uniform auf [0, 1] verteilt ist. Da der Existenzbeweis f¨ur unabh¨angige Familien mit solcher Verteilung noch aussteht, und da wir die reichhaltigere Struktur der uniformen Verteilung hier nicht ben¨otigen, begn¨ugen wir uns damit, dass jedes Yk nur Werte in {p, p , 1} annimmt, dass also gilt ⎧ p, falls q = p, ⎨ P[Yk = q] = p − p, falls q = p , ⎩ 1 − p , falls q = 1. Eine solche Familie (Yk )k∈K existiert nach Satz 2.19. Wir setzen dann f¨ur q ∈ {p, p } und k ∈ K 1 1, falls Yk ≤ q, Xkq := 0, sonst. Offenbar ist f¨ur q ∈ {p, p } die Familie (Xkq )k∈K unabh¨angig (Bemerkung 2.15(ii)) und Xkq ∼ Berq . Ferner ist Xkp ≤ Xkp f¨ur jedes k ∈ K. Wir nennen dieses Verfahren, zwei Familien von Zufallsvariablen auf einem Wahrscheinlichkeitsraum herzustellen eine Kopplung.
Offenbar gilt nun C p (x) ⊂ C p (x) f¨ur jedes x ∈ Zd , also auch θ(p) ≤ θ(p ).
2
Mit Hilfe des Kolmogorov’schen 0-1 Gesetzes k¨onnen wir folgenden Satz zeigen. 0, falls θ(p) = 0, Satz 2.43. F¨ur jedes p ∈ [0, 1] gilt ψ(p) = 1, falls θ(p) > 0. Beweis. Ist θ(p) = 0, so ist nach (2.12) ψ(p) ≤ P[#C p (y) = ∞] = θ(p) = 0. y∈Zd
y∈Zd
p ¨ ndert es nichts am EintreSei nun A = y∈Zd {#C (y) = ∞}. Offenbar a ten von A, wenn endlich viele Kanten ihren Zustand ver¨andern. Das heißt A ∈ σ((Xkp )k∈K\Kn ) f¨ur jedes n ∈ N. Nach Satz 2.35 ist A also in der terminalen σAlgebra T ((Xkp )k∈K ). Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) gilt also ψ(p) = P[A] ∈ {0, 1}. Ist nun θ(p) > 0, so folgt wegen ψ(p) ≥ θ(p) schon ψ(p) = 1. 2
68
2 Unabh¨angigkeit
Aufgrund der Monotonie k¨onnen wir nun die folgende Definition treffen. Definition 2.44. Der kritische Wert pc f¨ur das Auftreten von Perkolation wird definiert als pc = inf{p ∈ [0, 1] : θ(p) > 0} = sup{p ∈ [0, 1] : θ(p) = 0} = inf{p ∈ [0, 1] : ψ(p) = 1} = sup{p ∈ [0, 1] : ψ(p) = 0}. Wir kommen zu einem Hauptsatz dieses Abschnitts. Satz 2.45. F¨ur d = 1 ist pc = 1. F¨ur d ≥ 2 ist pc (d) ∈
)
1 2 2d−1 , 3
* .
p Beweis. Sei zun¨achst d = 1 und p < 1. Sei A− := {Xn,n+1 = 0 f¨ur ein n < 0} p = 0 f¨ur ein n > 0} sowie A = A− ∩ A+ . Nach dem und A+ := {Xn,n+1 Lemma von Borel-Cantelli gilt P[A− ] = P[A+ ] = 1. Also ist θ(p) = P[Ac ] = 0.
Wir betrachten nun den Fall d ≥ 2. 1 Wir zeigen zun¨achst pc ≥ 2d−1 . Offenbar gilt f¨ur jedes n ∈ N ) * P[#C p (0) = ∞] ≤ P es gibt ein x ∈ C p (0) mit x∞ = n .
Untere Schranke
Wir wollen nun die Wahrscheinlichkeit, dass ein Punkt x ∈ C p (0) im Abstand n vom Ursprung existiert, absch¨atzen. Jeder solche Punkt wird durch einen selbstu¨ berschneidungsfreien Pfad π, der im Ursprung beginnt und eine L¨ange m ≥ n hat, an den Ursprung angebunden. Sei Π0,m die Menge solcher Pfade. Offenbar ist #Π0,m ≤ 2d · (2d − 1)m−1 , denn im ersten Schritt gibt es 2d M¨oglichkeiten f¨ur den Pfad, in jedem weiteren Schritt h¨ochstens 2d − 1, da der Schritt zur¨uck zu einer Selbst¨uberschneidung f¨uhrt. Weiter ist f¨ur jedes π ∈ Π0,m die Wahrscheinlichkeit, dass π nur offene Kanten benutzt P[π ist offen] = pm . Also ist f¨ur p <
1 2d−1
θ(p) ≤
∞
P[π ist offen]
m=n π∈Π0,m
≤ = Mithin gilt pc ≥
∞ m 2d (2d − 1)p 2d − 1 m=n
n n→∞ 2d (2d − 1)p −→ 0. (2d − 1)(1 − (2d − 1)p)
1 2d−1 .
Obere Schranke Wir k¨onnen Zd als Teilmenge Zd × {0} ⊂ Zd+1 auffassen. Tritt daher f¨ur ein p Perkolation in Zd auf, so auch in Zd+1 . Daher gilt f¨ur die entsprechenden kritischen Werte pc (d + 1) ≤ pc (d).
2.4 Beispiel: Perkolation
69
Es reicht also, den Fall d = 2 zu betrachten. Hier zeigen wir pc ≤ 23 . Wir geben ein Konturargument an, das von Peierls f¨ur ein Magnetismusmodell (das Ising Modell, siehe Beispiel 18.21 und speziell (18.13)) entwickelt wurde (siehe [119]). F¨ur N ∈ N schreiben wir (vergleiche (2.11) mit x = (i, 0)) CN :=
N
C p (i, 0)
i=0
f¨ur die Menge der Punkte, die eine offene Verbindung in die Menge {0, . . . , N } × {0} haben.
Dann ist wegen der Subadditivit¨at der Wahrscheinlichkeit (und wegen P[#C p (i, 0) = ∞] = θ(p) f¨ur jedes i ∈ Z) θ(p) =
N )
* * 1 ) 1 P #CN = ∞ . P #C p (i, 0) = ∞ ≥ N + 1 i=0 N +1
˜ 2 , K), ˜ die CN umschließen, Wir betrachten nun Konturen im dualen Graphen (Z falls #CN < ∞. Der duale Graph ist dabei definiert durch ˜ 2 = 1 , 1 + Z2 , Z 2 2 ˜ 2 , x − y2 = 1 . ˜ K = {x, y} : x, y ∈ Z ˜ 2 , K) ˜ kreuzt also genau eine Kante k in Eine Kante k˜ im dualen Graphen (Z 2 (Z , K). Wir nennen k˜ offen, falls k offen ist, und sonst geschlossen. Ein Kreis ˜ 2 , K), ˜ bei dem Anfangs- und Endγ ist ein selbst¨uberschneidungsfreier Pfad in (Z punkt u¨ bereinstimmen. Eine Kontur der Menge CN ist ein minimaler Kreis, der CN umschließt. Minimal heißt dabei, dass die umschlossene Fl¨ache minimal ist (siehe Abb. 2.2). F¨ur n ≥ 2N sei Γn = γ : γ ist ein Kreis der L¨ange n und umschließt {0, . . . , N } × {0} . Wir wollen eine obere Absch¨atzung f¨ur #Γn angeben. Daf¨ur w¨ahlen wir f¨ur γ ∈ Punkt aus γ willk¨urlich als Startpunkt aus, n¨amlich den oberen Punkt Γ
n einen m + 12 , 12 des rechtesten x-Achsendurchgangs von γ (in Abb. 2.2 ist dies der Punkt 5 + 12 , 12 ). Offenbar ist m ≥ N und m ≤ n weil der Ursprung von Γn umschlossen wird. Ausgehend von m + 12 , 12 gibt es f¨ur jede weitere Kante von γ jeweils h¨ochstens drei M¨oglichkeiten. Also ist #Γn ≤ n · 3n . ˜ geschlossene Kanten benutzt. Der Kreis γ heißt geschlossen, wenn er nur (in K) Eine Kontur von CN muss automatisch geschlossen sein und eine L¨ange gr¨oßer als 2N haben. Daher gilt f¨ur p > 23
70
2 Unabh¨angigkeit
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
1 r
r
r
r
r
r
r
r
r
r
r
0 r
r
r
r
r
r
r
r
r
r
r
−1 r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r
r −1
r r r r r r bppp p p p p p p p bp p p p p p p p bp p p p p p p p bp p p p p p p p bppp r ppp r r r r pppp r r bppp p p p p p p p pbpp bpp p p p p p p p pbpp ppp r r r r r r pppp r pbpp p p p p p p p bp p p p p p p p bp p p p p p p p bp p p p p p p p bppp bppp r r r r pppp r r ppppp r bppp bppp r r r r ppppp r r ppppp r bppp bpp p p p p p p p pbp r r r r ppppp r r r ppppp bppp bpp p p p p p p p pbp bppp r r r r ppppp r ppppp r ppppp r ppppp bpp p p p p p p p pbp bppp bppp r r r r r r ppppp r ppppp ppbp p p p p p p pbp r r r r r r r 0
1
5
Abb. 2.2. Kontur des Clusters C5
P[#CN < ∞] =
∞
* ) P es gibt einen geschlossenen Kreis γ ∈ Γn
n=2N
≤
∞
n n · 3(1 − p)
N →∞
−→
0.
n=2N
Es folgt pc ≤ 23 .
2
Im Allgemeinen ist der Wert von pc nicht bekannt und extrem schwer zu bestimmen. Im Fall der Kantenperkolation in Z2 ist allerdings ein genaues Ergebnis bekannt, da man hier das starke Hilfsmittel der Selbstdualit¨at des Graphen (Z2 , K) zur Verf¨ugung hat. (Ist G = (V, K) ein planarer Graph, also einer, den man mit u¨ berschneidungsfreien Kanten in den R2 einbetten kann, so hat der duale Graph als Punktmenge die Menge der Fl¨achen von G und als Kante zwischen zwei solchen Punkten, diejenige Kante aus K, die die beiden Fl¨achenst¨ucke trennt. Offenbar ist das zweidimensionale Gitter als Graph isomorph zu seinem dualen Graphen. Man beachte, dass man die Kontur in Abb. 2.2 als geschlossenen Pfad im dualen Graphen auffassen kann.) Wir zitieren hier den Satz von Kesten [93]. Satz 2.46 (Kesten (1980)). F¨ur Kantenperkolation in Z2 ist die kritische Wahrscheinlichkeit pc = 12 , und es gilt θ(pc ) = 0. Beweis. Siehe etwa das Buch von Grimmett [62, Seite 287ff].
2
2.4 Beispiel: Perkolation
71
Es wird vermutet, dass θ(pc ) = 0 in jeder Dimension d ≥ 2 gilt. Rigoros bewiesen ist dies allerdings nur f¨ur d = 2 und d ≥ 19 (siehe [66]). Eindeutigkeit des unendlichen Clusters∗ Es sei p so gew¨ahlt, dass θ(p) > 0 ist. Wir haben gesehen, dass es mit Wahrscheinlichkeit 1 mindestens einen unendlich großen, offenen Cluster gibt. Wir wollen nun zeigen, dass es genau einen gibt. Sei also N ∈ {0, 1, . . . , ∞} die (zuf¨allige) Anzahl von unendlich großen Clustern. Satz 2.47 (Eindeutigkeit des unendlichen großen Clusters). F¨ur jedes p ∈ [0, 1] gilt Pp [N ≤ 1] = 1. Beweis. Diese Aussage wurde erstmals von Aizenman, Kesten und Newman gezeigt [1, 2]. Wir folgen der einfacheren Beweisidee von Burton und Keane [25], wie sie etwa in [62, Abschnitt 8.2] beschrieben wird. In den F¨allen p = 1 und θ(p) = 0 (speziell also im Fall p = 0) ist die Aussage trivial. Seien nun also p ∈ (0, 1) und θ(p) > 0. 1. Schritt
Wir zeigen zun¨achst: Pp [N = m] = 1
f¨ur ein m = 0, 1, . . . , ∞.
(2.13)
Wir ben¨otigen ein 0-1 Gesetz, a¨ hnlich dem Kolmogorov’schen. Allerdings ist N nicht messbar bez¨uglich der terminalen σ-Algebra, wir m¨ussen also etwas subtiler vorgehen. Sei e1 = (1, 0, . . . , 0) der erste Einheitsvektor in Zd . Auf der Kantenmenge K definieren wir die Translation τ : K → K durch τ ( x, y!) = x + e1 , y + e1 !. Sei
K0 := (x1 , . . . , xd ), (y1 , . . . , yd )! ∈ K : x1 = 0, y1 ≥ 0 die Menge aller Kanten in Zd , die zwei Punkte in {0} × Zd−1 verbinden oder einen d−1 verbinden. Offenbar sind die MenPunkt aus {0}×Zd−1 mit einem aus {1}×Z gen (τ n (K0 ), n ∈ Z) disjunkt und K = n∈Z τ n (K0 ). Daher sind die Zufallsvariablen Yn := (Xτpn (k) )k∈K0 , n ∈ Z, unabh¨angig und identisch verteilt (mit Werten in {0, 1}K0 ). Setze Y = (Yn )n∈Z und τ (Y ) = (Yn+1 )n∈Z . Sei Am ∈ {0, 1}K definiert durch {Y ∈ Am } = {N = m}. Offenbar a¨ ndert sich der Wert von N nicht, wenn wir alle Kanten gleichzeitig verschieben. Es gilt also {Y ∈ Am } = {τ (Y ) ∈ Am }. Ein Ereignis mit dieser Eigenschaft nennen wir invariant. Mit einem Argument a¨ hnlich dem f¨ur das Kolmogorov’sche 0-1 Gesetz kann man zeigen, dass invariante Ereignisse (die durch u.i.v. Zufallsvariablen definiert werden) nur die Wahrscheinlichkeiten 0 oder 1 haben k¨onnen (f¨ur einen formalen Beweis siehe Beispiel 20.26).
72
2 Unabh¨angigkeit
2. Schritt
Wir zeigen: Pp [N = m] = 0
f¨ur jedes m ∈ N \ {1}.
(2.14)
Sei also m = 2, 3, . . . Wir nehmen an, dass P[N = m] = 1 gilt und f¨uhren dies zum Widerspruch. F¨ur L ∈ N setzen wir BL := {−L, . . . , L}d und bezeichnen mit KL = {k = x, y! ∈ K : x, y ∈ BL } die Menge der Kanten, deren beide Endpunkte in BL i liegen. F¨ur i = 0, 1 sei DL := {Xkp = i f¨ur alle k ∈ KL }. Sei NL1 die Anzahl der unendlichen Cluster, wenn wir (unabh¨angig vom Wert von Xkp ) jede Kante k in KL als offen betrachten. Analog definieren wir NL0 , wobei wir hier die Kanten in KL i als geschlossen betrachten. Wegen Pp [DL ] > 0, und wegen N = m fast sicher, gilt i NL = m fast sicher f¨ur i = 0, 1. Sei A2L:=
C p (x1 ) ∩ C p (x2 ) = ∅ ∩ #C p (x1 ) = #Cp (x2 ) = ∞
x1 ,x2 ∈BL \BL−1
das Ereignis, dass es zwei Punkte auf dem Rand von BL gibt, die in unterschiedlichen, unendlich großen, offenen Clustern sitzen. Offenbar gilt A2L ↑ {N ≥ 2} f¨ur L → ∞. Sei A2L,0 a¨ hnlich wie A2L definiert, jedoch wollen wir alle Kanten k ∈ KL als geschlossen betrachten, egal ob Xkp = 1 oder Xkp = 0 ist. Tritt A2L ein, so gibt es zwei Punkte x1 , x2 auf dem Rand von BL und zu jedem i = 1, 2 einen unendlich langen selbst¨uberschneidungsfreien, offenen Pfad πxi , der in xi startet und x3−i vermeidet. Es gilt also A2L ⊂ A2L,0 . W¨ahle nun L so groß, dass P[A2L,0 ] > 0 ist. Tritt A2L,0 ein und werden alle Kanten in BL ge¨offnet, so werden mindestens zwei der unendlich großen, offenen Cluster durch Kanten in BL verbunden, die Gesamtzahl der unendlich großen, offenen Cluster also um mindestens Eins verringert. Es folgt Pp [NL1 ≤ NL0 − 1] ≥ Pp [A2L,0 ] > 0, was einen Widerspruch bedeutet. 3. Schritt Da wir im zweiten Schritt bereits gezeigt haben, dass N fast sicher keinen endlichen Wert gr¨oßer als 1 annimmt, brauchen wir nun nur noch zu zeigen, dass N fast sicher nicht den Wert ∞ annimmt. Wir zeigen hier, dass in der Tat gilt: Pp [N ≥ 3] = 0.
(2.15)
Dieses ist der schwierigste Teil. Wir nehmen an, dass Pp [N ≥ 3] > 0 gilt und f¨uhren dies zum Widerspruch. Wir nennen einen Punkt x ∈ Zd einen Trifurkationspunkt, falls x in einem unendlich großen, offenen Cluster C p (x) liegt, genau drei offene Kanten zu x f¨uhren und die Wegnahme dieser drei Kanten C p (x) in drei unendlich große, disjunkte Cluster zerteilt. Mit T bezeichnen wir die Menge der Trifurkationspunkte und schreiben TL := T ∩ BL . Sei r := Pp [0 ∈ T ]. Aufgrund der Translationsinvarianz gilt (#BL )−1 Ep [#TL ] = r f¨ur jedes L.
2.4 Beispiel: Perkolation
73
Sei A3L:=
x1 ,x2 ,x3 ∈BL \BL−1
3 p i {C (x ) ∩ C (x ) = ∅} ∩ {#C (x ) = ∞} p
i
p
j
i=1
i =j
das Ereignis, dass es drei Punkte auf dem Rand von BL gibt, die in unterschiedlichen, unendlich großen, offenen Clustern sitzen. Offenbar gilt A3L ↑ {N ≥ 3} f¨ur L → ∞. Analog zu A2L,0 definieren wir A3L,0 als das Ereignis, dass es drei Punkte auf dem Rand von BL gibt, die in unterschiedlichen unendlich großen, offenen Clustern sitzen, wenn wir alle Kanten in KL als geschlossen ansehen. Wie oben ist A3L ⊂ A3L,0 . F¨ur drei unterschiedliche Punkte x1 , x2 , x3 ∈ BL \BL−1 sei Fx1 ,x2 ,x3 das Ereignis, dass es zu jedem i = 1, 2, 3 einen unendlich langen selbst¨uberschneidungsfreien, offenen Pfad πxi gibt, der in xi startet, nur Kanten aus K p \ KL benutzt und die anderen xj , j = i, vermeidet. Dann gilt A3L,0 ⊂ Fx1 ,x2 ,x3 . x1 ,x2 ,x3 ∈BL \BL−1
paarweise unterschiedlich
Sei L so groß, dass Pp [A3L,0 ] ≥ Pp [N ≥ 3]/2 > 0 gilt. W¨ahle drei unterschiedliche Punkte x1 , x2 , x3 ∈ BL \ BL−1 mit Pp [Fx1 ,x2 ,x3 ] > 0. Tritt Fx1 ,x2 ,x3 ein, so k¨onnen wir einen Punkt y ∈ BL finden, von dem aus drei disjunkte (nicht notwendigerweise offene) Pfade π1 , π2 und π3 zu den Punkten x1 , x2 und x3 f¨uhren. Sei Gy,x1 ,x2 ,x3 das Ereignis, dass in KL genau diejenigen Kanten offen sind, die zu diesen Pfaden geh¨oren, und alle anderen geschlossen. Die Ereignisse Fx1 ,x2 ,x3 und Gy,x1 ,x2 ,x3 sind unabh¨angig, und y ist ein Trifurkationspunkt, falls beide eintreten. Daher ist
#KL r = Pp [y ∈ T ] ≥ Pp [Fx1 ,x2 ,x3 ] · p ∧ (1 − p) > 0. Wir zeigen nun, dass r = 0 sein muss, was die Annahme Pp [N ≥ 3] > 0 ad absurdum f¨uhrt. Wir machen die Menge TL zu einem Graphen, indem wir zwei Punkte x, y ∈ TL als benachbart betrachten, falls es einen offenen Pfad von x nach y gibt, der keinen anderen Punkt in T trifft. Wir schreiben dann x ∼ y. Eine Schleife ist ein selbst¨uberschneidungsfreier, endlicher Pfad, der zu seinem Startpunkt zur¨uckkehrt. Der Graph (TL , ∼) ist schleifenfrei. In der Tat: g¨abe es einen in x ∈ TL startenden selbst¨uberschneidungsfreien Pfad, der, sagen wir, die beiden Punkte y, z ∈ TL trifft, so entst¨unden durch die Wegnahme der drei Kanten k ∈ K p , die an x angrenzen, h¨ochstens zwei Cluster - wobei einer y und z enth¨alt. (x) f¨ur die Anzahl der Nachbarn von x in TL . Da TL schleifenWir schreiben degT L frei ist, ist #TL − 12 x∈TL degTL (x) die Anzahl der Zusammenhangskomponenten von TL , also insbesondere nichtnegativ. Andererseits ist 3 − degTL (x) die Anzahl
74
2 Unabh¨angigkeit
von Kanten k ∈ K p , die an x angrenzen und deren Wegnahme einen unendlich großen, offenen Cluster erzeugt, in dem kein weiterer Punkt von TL liegt. Sei ML die Anzahl der unendlich großen, offenen Cluster, die entstehen, wenn wir von allen Punkten in TL die drei benachbarten offenen Kanten wegnehmen. Es ist dann ML = (3 − degTL (x)) ≥ #TL . x∈TL
Zu jedem dieser Cluster geh¨ort aber (mindestens) ein Punkt auf BL \BL−1 . Es folgt #TL #(BL \ BL−1 ) d L→∞ ≤ ≤ −→ 0. #BL #BL L Wegen r = (#BL )−1 E[#TL ] ≤ d/L folgt r = 0. (Man beachte, dass wir hier im 2 Vorgriff auf Kapitel 5 den Erwartungswert E[#TL ] benutzt haben.)
3 Erzeugendenfunktion
Ein wichtiges Prinzip in der Mathematik ist es, eine Klasse von Objekten, die man betrachten m¨ochte, in eine andere Klasse von Objekten, mit denen man besser rechnen kann, hinein abzubilden. Diese Abbildung kann eineindeutig sein, etwa bei der Zuordnung von Matrizen zu linearen Abbildungen, oder auch nur manche Eigenschaften eindeutig abbilden, etwa bei Determinanten. Zu der zweiten Kategorie geh¨oren in der Wahrscheinlichkeitstheorie die Kenngr¨oßen wie Median, Erwartungswert und Varianz von Zufallsvariablen. Zur ersten Kategorie hingegen charakteristische Funktionen, Laplace-Transformierte und Erzeugendenfunktionen, die enge Verwandte sind und ihre N¨utzlichkeit daraus ziehen, dass Addition von unabh¨angigen Zufallsvariablen in Multiplikation u¨ bergeht. Bevor wir in sp¨ateren Kapiteln insbesondere die charakteristischen Funktionen ausgiebig behandeln, wollen wir wichtige Grundideen in der einfacheren Situation der Erzeugendenfunktionen, deren Anwendung auf N0 -wertige Zufallsvariablen beschr¨ankt ist, kennen lernen.
3.1 Definition und Beispiele Definition 3.1 (Erzeugendenfunktion). Sei X eine N0 -wertige Zufallsvariable. Die Abbildung ψPX = ψX , die erkl¨art wird durch ψX : [0, 1] → [0, 1],
z →
∞
P[X = n] z n ,
(3.1)
n=0
heißt Erzeugendenfunktion von PX (oder etwas lax: von X). Satz 3.2. (i) ψX ist stetig und in (0, 1) unendlich oft stetig differenzierbar. Es (n) gilt f¨ur n ∈ N und die n-te Ableitung ψX (n)
lim ψX (z) = z↑1
∞
P[X = k] · k(k − 1) · · · (k − n + 1),
k=n
wobei beide Seiten = +∞ sein k¨onnen.
(3.2)
76
3 Erzeugendenfunktion
(ii) Die Verteilung PX von X ist durch ψX eindeutig charakterisiert. (iii) ψX ist durch die Angabe von abz¨ahlbar vielen Werten ψX (xi ), xi ∈ [0, 1], i ∈ N, eindeutig festgelegt. Konvergiert die Reihe in (3.1) auch f¨ur ein z > 1, so gilt (n) (n) lim ψX (z) = ψX (1) < ∞ f¨ur n ∈ N, z↑1
(n)
und ψX ist durch Angabe von ψX (1), n ∈ N, eindeutig charakterisiert. 2
Beweis. Das folgt aus der elementaren Theorie der Potenzreihen.
Satz 3.3 (Multiplikativit¨at der Erzeugendenfunktion). Sind X1 , . . . , Xn unabh¨angig und N0 -wertig, so ist n ψXi . ψX1 +...+Xn = i=1
Beweis. F¨ur z ∈ [0, 1) k¨onnen wir ψX1 (z) ψX2 (z) als Cauchy-Produkt schreiben ∞ ∞ n n P[X1 = n] z P[X2 = n] z ψX1 (z) ψX2 (z) = n=0
=
∞
z
n
n=0
=
∞ n=0
=
∞
n=0
n
P[X1 = m] P[X2 = n − m]
m=0
zn
n
P[X1 = m, X2 = n − m]
m=0
P[X1 + X2 = n] z n = ψX1 +X2 (z).
n=0
Induktiv folgt die Aussage f¨ur jedes n ≥ 2.
2
Beispiel 3.4. (i) Sei X bn,p -verteilt f¨ur gewisse n ∈ N und p ∈ [0, 1]. Dann ist n
n n m ψX (z) = (3.3) p (1 − p)n−m z m = pz + (1 − p) . m m=0 (ii) Sind X, Y unabh¨angig und bm,p beziehungsweise bn,p -verteilt, so ist nach Satz 3.3 n
m
m+n pz + (1 − p) ψX+Y (z) = pz + (1 − p) = pz + (1 − p) . Also ist nach Satz 3.2(ii) X + Y bm+n,p -verteilt und damit (nach Satz 2.31)
3.1 Definition und Beispiele
77
bm,p ∗ bn,p = bm+n,p . (iii) Seien X und Y unabh¨angig und Poisson-verteilt mit Parametern λ ≥ 0 und μ ≥ 0, also P[X = n] = e−λ λn /n! f¨ur n ∈ N0 . Dann ist ∞
ψPoiλ (z) =
e−λ
n=0
(λz)n = eλ(z−1) . n!
(3.4)
Also hat X + Y die Erzeugendenfunktion ψPoiλ (z) · ψPoiμ (z) = eλ(z−1) eμ(z−1) = ψPoiλ+μ (z), und daher ist X + Y ∼ Poiλ+μ . Es folgt Poiλ ∗ Poiμ = Poiλ+μ .
(3.5)
(iv) Seien X1 , . . . , Xn ∼ γp unabh¨angig und geometrisch verteilt mit Parameter p ∈ (0, 1). Wir setzen Y = X1 + . . . + Xn . Es ist f¨ur z ∈ [0, 1] ψX1 (z) =
∞
p(1 − p)k z k =
k=0
p . 1 − (1 − p)z
(3.6)
Nach der verallgemeinerten binomischen Formel (siehe Lemma 3.5 mit α = −n), Satz 3.3 und (3.6) ist pn (1 − (1 − p)z)n ∞ −n = pn (−1)k (1 − p)k z k k
ψY (z) = ψX1 (z)n =
k=0
=
∞
k b− n,p ({k}) z ,
k=0
wobei f¨ur beliebiges r ∈ (0, ∞) und p ∈ (0, 1] b− r,p
=
∞ −r k=0
k
(−1)k pr (1 − p)k δk
(3.7)
die negative Binomialverteilung mit Parametern r und p ist. Nach dem Eindeutigkeitssatz f¨ur Erzeugendenfunktionen ist damit Y ∼ b− n,p , also (siehe Definition 2.29 ∗n = γ . 3 f¨ur die n-te Faltungspotenz) b− n,p p Lemma 3.5 (Verallgemeinerter binomischer Lehrsatz). F¨ur α ∈ R und k ∈ N0 definieren wir den Binomialkoeffizienten
78
3 Erzeugendenfunktion
α α · (α − 1) · · · (α − k + 1) . := k k!
(3.8)
Es gilt die erweiterte binomische Formel: ∞ α
xk
f¨ur jedes x ∈ C mit |x| < 1.
(3.9)
∞ 1 2n −n n = 4 x 1 − x n=0 n
f¨ur jedes x ∈ C mit |x| < 1.
(3.10)
(1 + x)α =
k=0
k
Speziell gilt √
Beweis. Die Abbildung f : x → (1 + x)α ist holomorph bis auf eventuell eine Singularit¨at bei x = −1, ist also um 0 in eine Potenzreihe entwickelbar mit Radius mindestens 1: ∞ f (k) (0) k x f¨ur |x| < 1. f (x) = k! k=0
F¨ur k ∈ N0 ist die k-te Ableitung f (k) (0) = α(α − 1) · · · (α − k + 1), also folgt (3.9). 2n
= n (−4)−n . 2 Der Zusatz folgt, weil f¨ur α = −1/2 gilt, dass −1/2 n − − ¨ Ubung 3.1.1. Man zeige b− ur r, s ∈ (0, ∞) und p ∈ (0, 1]. r,p ∗ bs,p = br+s,p f¨
♣
3.2 Poisson-Approximation Lemma 3.6. Seien μ und (μn )n∈N W-Maße auf (N0 , 2N0 ) mit Erzeugendenfunktionen ψμ und ψμn , n ∈ N. Dann sind a¨ quivalent (i) (ii) (iii) (iv)
n→∞
μn ({k}) −→ μ({k}) f¨ur jedes k ∈ N0 , n→∞
f¨ur jedes A ⊂ N0 ,
n→∞
f¨ur jedes z ∈ [0, 1],
n→∞
f¨ur jedes z ∈ [0, η) f¨ur ein η > 0.
μn (A) −→ μ(A) ψn (z) −→ ψ(z) ψn (z) −→ ψ(z)
n→∞
Gilt eine der vier Bedingungen, so schreiben wir μn −→ μ und sagen (μn )n∈N konvergiere schwach gegen μ. Beweis. (i) =⇒ (ii) Sei ε > 0 und N ∈ N so gew¨ahlt, dass μ({N + 1, N + 2, . . .}) < 4ε . F¨ur hinreichend großes n0 ∈ N ist ferner
3.2 Poisson-Approximation N μn ({k}) − μ({k}) < ε 4
79
f¨ur jedes n ≥ n0 .
k=0
Speziell ist f¨ur n ≥ n0 auch μn ({N + 1, N + 2, . . .}) < 2ε . Also ist f¨ur n ≥ n0 μn (A) − μ(A) ≤ μn ({N + 1, N + 2, . . .}) + μ({N + 1, N + 2, . . .})
+
μn ({k}) − μ({k})
k∈A∩{0,...,N }
< ε. (ii) =⇒ (i)
Dies ist trivial.
(i) ⇐⇒ (iii) ⇐⇒ (iv)
Dies folgt aus elementarer Theorie der Potenzreihen. 2
Seien (pn,k )n,k∈N Zahlen mit pn,k ∈ [0, 1], sodass der Grenzwert λ := lim
n→∞
existiert und so, dass lim
∞
n→∞
k=1
∞
pn,k ∈ (0, ∞)
(3.11)
k=1
p2n,k = 0 ist (beispielsweise pn,k = λ/n f¨ur
k ≤ n und pn,k = 0 f¨ur k > n). F¨ur jedes n ∈ N sei (Xn,k )k∈N eine unabh¨angige Familie von Zufallsvariablen mit Xn,k ∼ Berpn,k . Setze S n :=
∞ l=1
Xn,l
und
Skn :=
k
Xn,l
f¨ur k ∈ N.
l=1
Satz 3.7 (Poisson-Approximation). Unter den obigen Annahmen konvergieren die Verteilungen (PS n )n∈N schwach gegen die Poisson-Verteilung Poiλ . Beweis. Die Poisson-Verteilung hat die Erzeugendenfunktion ψ(z) = eλ(z−1) (siehe (3.4)). Andererseits sind S n − Skn und Skn unabh¨angig f¨ur jedes k ∈ N, also ψS n = ψSkn · ψS n −Skn . Nun ist f¨ur jedes z ∈ [0, 1] 1≥
∞ ψS n (z) k→∞ = ψS n −Skn (z) ≥ 1 − P[S n − Skn ≥ 1] ≥ 1 − pn,l −→ 1, ψSkn (z) l=k+1
80
3 Erzeugendenfunktion
also ψS n (z) = lim ψSkn (z) = k→∞
∞ (pn,l z + (1 − pn,l )) l=1
= exp
∞
log 1 + pn,l (z − 1) .
l=1
F¨ur |x| <
1 2
ist | log(1 + x) − x| ≤ x2 . Nach Voraussetzung gilt max pn,l → 0 f¨ur l∈N
n → ∞, also ist f¨ur hinreichend großes n ∞ ∞
log 1 + p (z − 1) p − (z − 1) n,l n,l l=1
l=1
≤
∞
p2n,l ≤
l=1
Zusammen mit (3.11) folgt
lim ψS n (z) = lim exp (z − 1)
n→∞
n→∞
∞
pn,l
l=1
∞
n→∞
max pn,l −→ 0. l∈N
pn,l
= eλ(z−1) .
2
l=1
3.3 Verzweigungsprozesse Seien T, X1 , X2 , . . . unabh¨angige, N0 -wertige Zufallsvariablen. Wie sieht die VerT teilung von S := n=1 Xn aus? Zun¨achst bemerken wir, dass S messbar ist, denn {S = k} =
∞
{T = n} ∩ {X1 + . . . + Xn = k}.
n=0
Satz 3.8. Sind die X1 , X2 , . . . zus¨atzlich identisch verteilt, so ist die Erzeugendenfunktion von S gegeben durch ψS (z) = ψT (ψX1 (z)). Beweis. ψS (z) =
∞
P[S = k] z k
k=0
=
∞ ∞
P[T = n] P[X1 + . . . + Xn = k] z k
k=0 n=0
=
∞ n=0
P[T = n] ψX1 (z)n = ψT ψX1 (z) .
2
3.3 Verzweigungsprozesse
81
∞ Wir nehmen jetzt an, dass p0 , p1 , p2 , . . . ∈ [0, 1] sind mit k=0 pk = 1. Sei (Xn,i )n,i∈N0 eine unabh¨angige Familie von Zufallsvariablen mit P[Xn,i = k] = pk f¨ur jedes k ∈ N0 und jedes i ∈ N. Setze Z0 = 1 und
Zn−1
Zn =
Xn−1,i
f¨ur n ∈ N.
i=1
Wir geben die folgende Interpretation an: Zn ist die Anzahl von Individuen in der n-ten Generation einer sich zuf¨allig entwickelnden Population. Das i-te Individuum aus der n-ten Generation hat Xn,i Nachkommen (in der (n + 1)-ten Generation). Definition 3.9. (Zn )n∈N0 heißt Galton-Watson-Prozess oder Verzweigungsprozess mit Nachkommenverteilung (pk )k∈N0 . Ein wichtiges Hilfsmittel bei der Untersuchung von Verzweigungsprozessen sind Erzeugendenfunktionen. Sei also ψ(z) =
∞
pk z k
k=0
die Erzeugendenfunktion der Nachkommenverteilung und ψ deren Ableitung. Wir definieren die n-te Iterierte von ψ durch ψ1 := ψ,
ψn := ψ ◦ ψn−1
f¨ur n = 2, 3, . . .
Sei schließlich ψZn die Erzeugendenfunktion von Zn . Lemma 3.10. Es gilt ψn = ψZn f¨ur jedes n ∈ N. Beweis. F¨ur n = 1 ist dies per Definition richtig. F¨ur n ∈ N folgt mit Satz 3.8 induktiv ψZn+1 = ψ ◦ ψZn = ψ ◦ ψn = ψn+1 . 2 Offenbar ist die Wahrscheinlichkeit qn := P[Zn = 0], dass Z zur Zeit n schon ausgestorben ist, wachsend in n. Wir bezeichnen mit q := lim P[Zn = 0] n→∞
die Aussterbewahrscheinlichkeit. Unter welchen Bedingungen ist q = 0, q = 1, oder q ∈ (0, 1)? Offenbar ist q ≥ p0 . Ist andererseits p0 = 0, so ist Zn wachsend in n, also q = 0.
82
3 Erzeugendenfunktion
Satz 3.11 (Aussterbewahrscheinlichkeit des Galton-Watson-Prozesses). Sei p1 = 1. (i) Es gilt {r ∈ [0, 1] : ψ(r) = r} = {q, 1}. ¨ (ii) Es gelten die Aquivalenzen q < 1 ⇐⇒ lim ψ (z) > 1 ⇐⇒ z↑1
∞
kpk > 1.
k=1
Beweis. ψ ist strikt konvex und monoton wachsend und ψ(1) = 1. Ist lim ψ (z) ≤ z↑1
1, so ist ψ(z) > z f¨ur jedes z ∈ [0, 1). Ist lim ψ (z) > 1, so gibt es genau ein z↑1
r ∈ [0, 1) mit ψ(r) = r. Offenbar ist q = 0 ⇐⇒ p0 = 0 ⇐⇒ ψ(0) = 0 ⇐⇒ ψ(z) < z
f¨ur jedes z ∈ (0, 1).
Sei nun also p0 > 0 angenommen. Offenbar gilt qn = ψn (0) = ψ(qn−1 ). Wir wissen, dass qn ↑ q. Da ψ stetig ist, gilt ψ(q) = ψ( lim qn ) = lim ψ(qn ) = lim qn+1 = q. n→∞
n→∞
n→∞
Also ist q ein Fixpunkt von ψ, und wir m¨ussen im Fall ψ (1) > 1 noch ausschließen, dass q = 1 ist. Ist r = ψ(r), so ist r ≥ ψ(0) = q0 , also r = ψ(r) ≥ ψ(q0 ) = q1 und induktiv r ≥ qn f¨ur jedes n ∈ N0 , also r ≥ q. Mithin ist q die kleinste L¨osung in [0, 1] von ψ(r) = r. ¨ Die zweite Aquivalenz in (ii) folgt aus (3.2). 2
4 Das Integral
Nach dem Begriff des Maßraums und der messbaren Abbildung ist das Integral messbarer reeller Abbildungen bez¨uglich allgemeiner Maße, nicht nur des Lebesgue-Maßes, wie es in den meisten Analysis-Vorlesungen behandelt wird, ein Eckstein der systematischen Wahrscheinlichkeitstheorie, der es uns beispielsweise erlaubt, Erwartungswerte und h¨ohere Momente zu definieren. In diesem Kapitel definieren wir das Integral durch Approximation mit Elementarfunktionen und leiten einfache Eigenschaften her wie das Lemma von Fatou. Die anderen Konvergenzs¨atze f¨ur Integrale folgen in den Kapiteln 6 und 7.
4.1 Konstruktion und einfache Eigenschaften Sei im Folgenden stets (Ω, A, μ) ein Maßraum. Wir bezeichnen mit E den Vektorraum der Elementarfunktionen (siehe Definition 1.93) auf (Ω, A) und mit E+ := {f ∈ E : f ≥ 0} den Kegel (woher der Name?) der nichtnegativen Elementarfunktionen. Gilt m αi Ai (4.1) f= i=1
f¨ur gewisses m ∈ N und f¨ur α1 , . . . , αm ∈ (0, ∞) sowie paarweise disjunkte Mengen A1 , . . . , Am ∈ A, so sagen wir, dass (4.1) eine Normaldarstellung der Elementarfunktion f ist. m Lemma 4.1. Sind f = i=1 αi lungen von f ∈ E+ , so gilt m i=1
Ai
und f =
αi μ(Ai ) =
n
n j=1
βj
Bj
zwei Normaldarstel-
βj μ(Bj ).
j=1
Beweis. Ist μ(Ai ∩ Bj ) > 0 f¨ur gewisse i und j, so ist Ai ∩ Bj = ∅,und f¨ur jedes n ω ∈ Ai ∩ Bj ist f (ω) = αi = βj . Außerdem ist offenbar Ai ⊂ j=1 Bj , falls m αi = 0 und Bj ⊂ i=1 Ai , falls βj = 0. Es folgt
84
4 Das Integral m
αi μ(Ai ) =
i=1
m n
αi μ(Ai ∩ Bj )
i=1 j=1
=
m n
βj μ(Ai ∩ Bj ) =
i=1 j=1
n
βj μ(Bj ).
2
j=1
Dieses Lemma erlaubt uns, die folgende Definition zu treffen (weil der definierte Wert I(f ) von der gew¨ahlten Normaldarstellung nicht abh¨angt). Definition 4.2. Wir definieren eine Abbildung I : E+ → [0, ∞] durch I(f ) =
m
αi μ(Ai ),
i=1
falls f die Normaldarstellung f =
m i=1
αi
Ai
hat.
Lemma 4.3. Die Abbildung I ist positiv linear und monoton: Seien f, g ∈ E+ und α ≥ 0. Dann gelten die folgenden Aussagen. (i) I(αf ) = α I(f ). (ii) I(f + g) = I(f ) + I(g). (iii) Ist f ≤ g, so ist I(f ) ≤ I(g). ¨ Beweis. Ubung.
2
Definition 4.4 (Integral). Ist f : Ω → [0, ∞] messbar, so definieren wir das Integral von f bez¨uglich μ durch
f dμ := sup I(g) : g ∈ E+ , g ≤ f . 0 Bemerkung 4.5. Nach Lemma 4.3(iii) ist I(f ) = f dμ f¨ur jedes f ∈ E+ . Also ist das Integral eine Fortsetzung der Abbildung I von E+ auf die Menge der nichtnegativen messbaren Funktionen. 3 Sind f, g : Ω → R Abbildungen, so schreiben wir f ≤ g, falls f (ω) ≤ g(ω) f¨ur jedes ω ∈ Ω gilt. Analog verwenden wir die Schreibweise f ≥ 0 und so fort. Hingegen schreiben wir f ≤ g fast u¨ berall“, falls die schw¨achere Bedingung gilt, ” dass eine μ-Nullmenge N existiert mit f (ω) ≤ g(ω) f¨ur jedes ω ∈ N c .
4.1 Konstruktion und einfache Eigenschaften
85
Lemma 4.6. Seien f, g, f1 , f2 , . . . messbare Abbildungen Ω → [0, ∞]. Dann gilt 0 0 (i) (Monotonie) Ist f ≤ g, dann ist f dμ ≤ g dμ. (ii) (Monotone 0 Konvergenz) Gilt fn ↑ f , dann konvergieren auch die Integrale 0 fn dμ ↑ f dμ. (iii) (Linearit¨at) Sind α, β ∈ [0, ∞], so gilt (αf + βg) dμ = α f dμ + β g dμ, wobei wir die Konvention ∞ · 0 := 0 benutzen. Beweis. (i) Dies folgt direkt aus der Definition des Integrals. (ii) Nach (i) gilt lim
n→∞
Wir m¨ussen also nur noch
fn dμ = sup
fn dμ ≤
f dμ.
n∈N
0
f dμ ≤ sup
0
fn dμ zeigen.
n∈N
Sei g ∈ E+ mit g ≤ f . Es reicht zu zeigen, dass sup fn dμ ≥ g dμ.
(4.2)
n∈N
N Die Elementarfunktion g habe die Normaldarstellung g = i=1 αi Ai , wobei α1 , . . . , αN ∈ (0, ∞) sind und A1 , . . . , AN ∈ A paarweise disjunkt sind. F¨ur jedes ε > 0 und n ∈ N definieren wir die Menge Bnε = {fn ≥ (1 − ε) g}. Wegen fn ↑ f ≥ g gilt Bnε ↑ Ω f¨ur jedes ε > 0. Also gilt nach (i) f¨ur ε > 0
fn dμ ≥ (1 − ε) g Bnε dμ =
N
(1 − ε) αi μ(Ai ∩ Bnε )
i=1 n→∞
−→
N
(1 − ε) αi μ(Ai ) = (1 − ε)
g dμ.
i=1
Da ε > 0 beliebig war, folgt (4.2) und damit die Aussage (ii). (iii) Nach Satz 1.96 ist jede nichtnegative messbare Abbildung monotoner Limes von Elementarfunktionen. Es gibt also Folgen (fn )n∈N und (gn )n∈N in E+ mit
86
4 Das Integral
fn ↑ f und gn ↑ g. Es gilt dann aber auch (αfn + βgn ) ↑ αf + βg. Nach (ii) und Lemma 4.3 gilt daher (αf + βg) dμ = lim (αfn + βgn ) dμ n→∞
= α lim
n→∞
fn dμ + β lim
n→∞
gn dμ = α
f dμ + β
g dμ.
2
0 ± + − 0 + f dμ ≤ 0F¨ur messbares f : Ω0→ R ist f ≤ |f | und f 0 ≤−|f |, also gilt auch |f | dμ. Ist speziell |f | dμ < ∞, so ist auch f dμ < ∞ und f dμ < ∞. Daher k¨onnen wir die folgende Definition treffen, die abschließend das Integral f¨ur messbare Funktionen erkl¨art. ¨ messbare Definition 4.7 (Integral fur 0 Funktionen). Eine messbare Funktion f : Ω → R heißt μ-integrierbar, falls |f | dμ < ∞. Wir schreiben 0 |f | dμ < ∞ . L1 (μ) := L1 (Ω, A, μ) := f : Ω → R : f ist messbar und F¨ur f ∈ L1 (μ) definieren wir das Integral von f bez¨uglich μ durch + f (ω) μ(dω) := f dμ := f dμ − f − dμ.
(4.3)
0 0 0 Ist lediglich f − dμ < ∞ oder f + dμ < ∞, so definieren wir ebenfalls f dμ durch (4.3), wobei wir dann die Werte +∞ beziehungsweise −∞ zulassen. f dμ := (f A ) dμ. Ist A ∈ A, so schreiben wir A
Satz 4.8. Sei f : Ω → [0, ∞] messbar. 0 (i) Es ist f = 0 fast u¨ berall genau dann, wenn f dμ = 0 gilt. 0 (ii) Ist f dμ < ∞, so gilt f < ∞ fast u¨ berall. Beweis. (i) =⇒ “ Es gelte f = 0 fast u¨ berall. Sei N = {ω : f (ω) > 0}. Dann ” ist f ≤ ∞ · N und n N ↑ ∞ · N . Es folgt nach Lemma 4.6(i) und (ii) n N dμ = 0. 0 ≤ f dμ ≤ (∞ · N ) dμ = lim n→∞
”
⇐= “
Sei Nn = {f ≥ n1 }, n ∈ N. Dann ist Nn ↑ N und μ(Nn ) 1 . 0 = f dμ ≥ Nn dμ = n n
Also gilt μ(Nn ) = 0 f¨ur jedes n ∈ N und damit μ(N ) = 0.
4.1 Konstruktion und einfache Eigenschaften
87
(ii) Sei A = {ω : f (ω) = ∞}. F¨ur n ∈ N ist n1 f {f ≥n} ≥ {f ≥n} , also nach Lemma 4.6(i) 1 1 n→∞ f {f ≥n} dμ ≤ f dμ −→ 0. 2 μ(A) = A dμ ≤ {f ≥n} dμ ≤ n n Satz 4.9 (Eigenschaften des Integrals). Seien f, g ∈ L1 (μ). 0 0 (i) (Monotonie) Ist f ≤ g fast u¨ berall, so ist f dμ ≤ g dμ. 0 0 Ist speziell f = g fast u¨ berall, so ist f dμ = g dμ. 0 0 (ii) (Dreiecksungleichung) Es gilt stets f dμ ≤ |f | dμ. Sind α, β ∈ R, dann ist αf + βg ∈ L1 (μ) und (αf + βg) dμ = α f dμ + β g dμ.
(iii) (Linearit¨at)
Diese Gleichung gilt auch, wenn h¨ochstens eines der Integrale 0 g dμ einen der Werte ±∞ annimmt.
0
f dμ und
Beweis. (i) Es gilt f + ≤ g + und f − ≥ g − f.¨u., also ist nach Lemma 4.6(i) f + dμ ≤ g + dμ und f − dμ ≥ g − dμ. Es folgt
f dμ =
f + dμ −
f − dμ ≤
g + dμ −
g − dμ =
g dμ.
(ii) Wegen f + + f − = |f | ist nach Lemma 4.6(iii) f dμ = f + dμ − f − dμ ≤ f + dμ + f − dμ =
f + + f − dμ =
|f | dμ.
(iii) Wegen |αf + βg| ≤ |α| · |f | + |β| · |g| ist nach Lemma 4.6(i) und (iii) auch αf + βg ∈ L1 (μ). Um die Linearit¨at zu zeigen, reicht es die drei folgenden Eigenschaften zu pr¨ufen. 0 0 0 (a) (f + g) dμ = f dμ + g dμ. 0 0 (b) F¨ur α ≥ 0 ist αf dμ = α f dμ. 0 0 (c) (−f ) dμ = − f dμ.
88
4 Das Integral
Zu (a): Es ist (f + g)+ − (f + g)− = f + g = f + − f − + g + − g − , also ist (f + g)+ + f − + g − = (f + g)− + f + + g + . Nach Lemma 4.6(iii) gilt + − − − + (f + g) dμ + f dμ + g dμ = (f + g) dμ + f dμ + g + dμ, also ist
(f + g) dμ − (f + g)− dμ = f + dμ − f − dμ + g + dμ − g − dμ = f dμ + g dμ. +
(f + g) dμ =
Zu (b): F¨ur α ≥ 0 ist αf dμ = αf + dμ − αf − dμ = α f + dμ − α f − dμ = α f dμ. Zu (c):
Es ist
(−f ) dμ − (−f )− dμ = f − dμ − f + dμ = − f dμ. +
(−f ) dμ =
¨ Der Zusatz ist simpel und verbleibt zur Ubung.
2
Satz 4.10 (Bildmaß). Seien (Ω, A) und (Ω , A ) Messr¨aume, μ ein Maß auf (Ω, A) und X : Ω → Ω messbar. Sei μ = μ ◦ X −1 das Bildmaß von μ unter X und f : Ω → R integrierbar bez¨uglich μ . Dann ist f ◦ X ∈ L1 (μ) und (f ◦ X) dμ = f d(μ ◦ X −1 ). Ist speziell X eine Zufallsvariable auf (Ω, A, P), so ist f (x) P[X ∈ dx] := f (x) PX [dx] = f dPX = f (X(ω)) P[dω]. 2
¨ Beweis. Ubung!
Beispiel 4.11 (Diskreter Maßraum). Sei (Ω, A) ein diskreter Messraum und μ = αω δω f¨ur gewisse Zahlen αω ≥ 0, ω ∈ Ω. Eine Abbildung f : Ω → R ist ω∈Ω |f (ω)| αω < ∞ ist. In diesem Fall gilt genau dann integrierbar, wenn
ω∈Ω
f dμ =
ω∈Ω
f (ω) αω .
3
4.1 Konstruktion und einfache Eigenschaften
89
Definition 4.12 (Lebesgue-Integral). Sei λ das Lebesgue-Maß auf Rn und f : Rn → R messbar bez¨uglich B∗ (Rn ) – B(R) (wobei B∗ (Rn ) die Lebesgue’sche σ-Algebra ist, siehe Beispiel 1.71) und λ-integrierbar. Dann nennen wir f dλ das Lebesgue-Integral von f . Ist A ∈ B(Rn ) und f : Rn → R messbar (oder f : A → R messbar bez¨uglich B∗ (Rn ) – B(R) und damit f A messbar bez¨uglich A
B∗ (Rn ) – B(R)), so schreiben wir f dλ := f
A
dλ.
A
Definition 4.13. Sei μ ein Maß auf (Ω, A) und f : Ω → [0, ∞) messbar. Wir sagen, dass das durch ν(A) := ( A f ) dμ f¨ur A ∈ A definierte Maß f μ := ν die Dichte f bez¨uglich μ hat. Bemerkung 4.14. Wir m¨ussen noch zeigen, dass ν ein Maß ist und pr¨ufen hierzu die Bedingung von Satz 1.36 nach. Offenbar ist ν(∅) = 0. Endliche Additivit¨at folgt aus der Additivit¨at des Integrals (Lemma 4.6(iii)) und Stetigkeit von unten aus dem Satz von der monotonen Konvergenz (Satz 4.20). 3 Satz 4.15. Es ist g ∈ L1 (f μ) genau dann, wenn (gf ) ∈ L1 (μ). In diesem Fall gilt g d(f μ) = (gf ) dμ. Beweis. Die Aussage gilt zun¨achst f¨ur Indikatorfunktionen und wird dann mit den u¨ blichen Argumenten auf Elementarfunktionen, nichtnegative Funktionen sowie schließlich auf messbare Funktionen fortgesetzt. 2 Definition 4.16. F¨ur messbares f : Ω → R definieren wir f p := und
1/p |f |p dμ
,
falls p ∈ [1, ∞),
f ∞ := inf K ≥ 0 : μ({|f | > K}) = 0 .
Ferner definieren wir f¨ur jedes p ∈ [1, ∞] den Vektorraum Lp (μ) := f : Ω → R ist messbar und f p < ∞ .
90
4 Das Integral
Satz 4.17. Die Abbildung · 1 ist eine Pseudonorm auf L1 (μ), das heißt, es gilt f¨ur f, g ∈ L1 (μ) und α ∈ R αf 1 = |α| · f 1 f + g1 ≤ f 1 + g1
(4.4)
f 1 ≥ 0 f¨ur alle f und f 1 = 0,
falls f = 0 f.¨u.
Beweis. Die erste und dritte Aussage folgen aus Satz 4.9(iii) und Satz 4.8(i). Die zweite folgt aus Satz 4.9(i), denn es ist |f + g| ≤ |f | + |g|, also f + g1 = |f + g| dμ ≤ |f | dμ + |g| dμ = f 1 + g1 . 2 Bemerkung 4.18. Tats¨achlich ist · p f¨ur jedes p ∈ [1, ∞] eine Pseudonorm auf Lp (μ). Linearit¨at und Positivit¨at sind klar, und die Dreiecksungleichung ist die Minkowski’sche Ungleichung, die wir in Satz 7.17 zeigen werden. 3
Satz 4.19. Seien μ(Ω) < ∞ und 1 ≤ p ≤ p ≤ ∞. Dann ist Lp (μ) ⊂ Lp (μ), und die kanonische Inklusion i : Lp (μ) → Lp (μ), f → f ist stetig.
Beweis. Sei f ∈ L∞ (μ) und p ∈ [1, ∞). Dann ist |f |p ≤ f p∞ fast u¨ berall, also |f |p dμ ≤ f p∞ dμ = f p∞ · μ(Ω) < ∞.
F¨ur f, g ∈ L∞ (μ) ist also f − gp ≤ μ(Ω)1/p f − g∞ und damit ist i stetig.
Seien nun p, p ∈ [1, ∞) mit p < p sowie f ∈ Lp (μ). Dann ist |f |p ≤ 1 + |f |p , also gilt |f |p dμ ≤ μ(Ω) + |f |p dμ < ∞. Seien schließlich f, g ∈ Lp (μ). F¨ur jedes c > 0 ist
|f − g|p = |f − g|p
{|f −g|≤c}
+ |f − g|p
{|f −g|>c}
≤ cp + cp −p |f − g|p .
Speziell erhalten wir mit c = f − gp 1/p f − gp ≤ cp μ(Ω) + cp −p f − gpp = (1 + μ(Ω))1/p f − gp . 2
Also ist i auch in diesem Falle stetig.
¨ Ubung 4.1.1 (Folgenr¨aume). Wir nehmen jetzt nicht mehr an, dass μ(Ω) < ∞ ist. Man zeige: Gibt es ein a > 0, sodass f¨ur jedes A ∈ A entweder μ(A) = 0 oder μ(A) ≥ a gilt, so gilt die zu Satz 4.19 umgekehrte Inklusion
Lp (μ) ⊂ Lp (μ),
falls 1 ≤ p ≤ p ≤ ∞.
(4.5) ♣
4.2 Monotone Konvergenz und Lemma von Fatou
91
¨ Ubung 4.1.2. Sei 1 ≤ p < p ≤ ∞ und μ σ-endlich, aber nicht endlich. Man zeige, p ♣ dass L (μ) \ Lp (μ) = ∅.
4.2 Monotone Konvergenz und Lemma von Fatou Unter welchen Bedingungen ist die Vertauschbarkeit von Limes und Integral zul¨assig? Wir geben hier zwei einfache Kriterien f¨ur die Vertauschbarkeit an, die uns wichtige Anwendungen wie Gesetze der großen Zahl (Kapitel 5) erm¨oglichen. Allgemeinere Kriterien werden in Kapitel 6 hergeleitet. Satz 4.20 (Monotone Konvergenz, Satz von Beppo Levi). Seien f1 , f2 , . . . ∈ L1 (μ) und f : Ω → R messbar. Es gelte fn ↑ f f.¨u. f¨ur n → ∞. Dann gilt fn dμ = f dμ, lim n→∞
wobei beide Seiten den Wert +∞ annehmen k¨onnen. Beweis. Sei N ⊂ Ω eine Nullmenge, sodass fn (ω) ↑ f (ω) f¨ur alle ω ∈ N c . Die Funktionen fn := (fn − f1 ) N c und f := (f − f1 ) N c sind nichtnegativ und 0 n→∞ 0 f dμ. Wegen fn = erf¨ullen fn ↑ f . Nach Lemma 4.6(ii) gilt fn dμ −→ fn + f1 f.¨u. und f = f + f1 f.¨u. folgt nach Satz 4.9(iii) n→∞ f1 dμ + f dμ = f dμ. 2 fn dμ = f1 dμ + fn dμ −→
Satz 4.21 (Lemma von Fatou). Seien f ∈ L1 (μ) und f1 , f2 , . . . messbar mit fn ≥ f f.¨u. f¨ur jedes n ∈ N. Dann gilt lim inf fn dμ ≤ lim inf fn dμ. n→∞
n→∞
Beweis. Indem wir (fn − f )n∈N betrachten, k¨onnen wir annehmen, dass fn ≥ 0 f.¨u. f¨ur jedes n ∈ N. Setze gn := inf fm . m≥n
Dann gilt gn ↑ lim inf fm , also nach dem Satz von der monotonen Konvergenz m→∞ 0 0 (Lemma 4.6(ii)) sowie der Monotonie gn ≤ fn (also gn dμ ≤ fn dμ) lim inf fn dμ = lim gn dμ ≤ lim inf fn dμ. 2 n→∞
n→∞
n→∞
92
4 Das Integral
Beispiel 4.22 (Petersburger Spiel). Wir wollen durch ein Beispiel zeigen, dass auf die Voraussetzung der Existenz einer integrierbaren Minorante im Lemma von Fatou nicht verzichtet werden kann. Wir betrachten ein Gl¨ucksspiel in einem Casino, bei dem in jeder Runde ein vom Spieler gew¨ahlter Einsatz entweder verdoppelt zur¨uckgezahlt wird oder verloren geht. Dies ist etwa beim Roulette der Fall, wo der Spieler zum Beispiel auf Rot“ setzen kann. Kommt eine rote Zahl, so gewinnt der ” Spieler seinen Einsatz verdoppelt zur¨uck, ansonsten verliert er ihn. Es gibt 37 Felder, von denen 18 rot sind und 18 schwarz, sowie die Null, die gr¨un ist. Die Gewinn1 ucksspiel werde unendlich oft unchance sollte also p = 18 37 < 2 betragen. Dieses Gl¨ abh¨angig hintereinander ausgef¨uhrt. Wir k¨onnen es also auf einem Wahrscheinlichkeitsraum (Ω, A, P) realisieren, wobei (Ω = {−1, 1}N , A = (2{−1,1} )⊗N die von ⊗N den Zylindern [ω1 , . . . , ωn ] erzeugte σ-Algebra ist und P = ((1 − p)δ−1 + pδ1 ) das Produktmaß. Wir bezeichnen mit Dn : Ω → {−1, 1}, ω → ωn das Ergebnis der n-ten Runde f¨ur jedes n ∈ N. Macht der Spieler in der n-ten Runde den (zuf¨alligen) Einsatz Hn , so betr¨agt die Summe der Gewinne nach der n-ten Runde Sn =
n
Hn Dn .
i=1
Wir nehmen nun an, dass der Spieler die folgende Strategie verfolgt: In der ersten Runde ist der Einsatz H1 = 1. Gewinnt er, so setzt er in den folgenden Spielen gar nicht mehr, also ist Hn = 0 f¨ur jedes n ≥ 2, falls D1 = 1. Verliert er hingegen, so setzt er in der zweiten Runde den doppelten Einsatz, also ist H2 = 2, falls D1 = −1. Gibt die zweite Runde einen Gewinn, so setzt er ab der dritten Runde gar nicht mehr, andernfalls verdoppelt er wiederum seinen Einsatz in der dritten Runde und so weiter. Wir erhalten also als Strategie 0, falls es ein i ∈ {1, . . . , n − 1} gibt mit Di = 1, Hn = n−1 2 , sonst. Man beachte, dass Hn nur von D1 , . . . , Dn−1 abh¨angt, also messbar ist bez¨uglich σ(D1 , . . . , Dn−1 ). Dies ist offenbar ein wichtige Forderung an jede Spielstrategie, da man die Entscheidung u¨ ber den Einsatz aufgrund der vorhandenen Kenntnis zum jeweiligen Zeitpunkt treffen muss und nicht in die Zukunft blicken kann. Die Wahrscheinlichkeit, dass bis zum Zeitpunkt n kein Spiel gewonnen wurde ist (1 − p)n , also ist P[Sn = 1 − 2n ] = (1 − p)n und P[Sn = 1] = 1 − (1 − p)n . Man erwartet also im Mittel einen Gewinn von
n Sn dP = (1 − p)n (1 − 2n ) + (1 − (1 − p)n ) = 1 − 2 (1 − p) ≤ 0, da p ≤
1 2
ist (in den profitablen Spielbanken). Wir setzen nun −∞, falls − 1 = D1 = D2 = . . . , S= 1, sonst.
4.3 Lebesgue-Integral versus Riemann-Integral
93
0 0 n→∞ Dann gilt Sn −→ S f.s., jedoch ist limn→∞ Sn dP < S dP = 1, weil S = 1 fast sicher gilt. Nach dem Lemma von Fatou ist dies nur m¨oglich, wenn es keine integrierbare Minorante zur Folge (Sn )n∈N gibt. Setzen wir S˜ := inf{Sn : n ∈ N}, n−1 ] = P[D1 = . . . = Dn−1 = −1 undDn = 1}] = so gilt in der Tat P[0S˜ = 1 − 2 ∞ n−1 ˜ , also S dP = n=1 (1 − 2n−1 ) p(1 − p)n−1 = −∞, weil p ≤ 12 .3 p(1 − p) 1 ¨ Ubung 4.2.1. Sei (Ω, A, μ) ein Maßraum und zeige: Zu jedem 0 f ∈ L (μ). 0 Man ♣ ε > 0 gibt es ein A ∈ A mit μ(A) < ∞ und A f dμ − f dμ < ε.
0 ¨ Ubung 4.2.2. Seien f1 , f2 , . . . ∈ L1 (μ) nichtnegativ und so, dass limn→∞ fn dμ n→∞ existiert. Es gebe ein messbares f mit fn −→ f μ-fast u¨ berall. Man zeige: Es gilt 1 f ∈ L (μ) und fn − f dμ = lim ♣ fn dμ − f dμ. n→∞
4.3 Lebesgue-Integral versus Riemann-Integral Wir zeigen, dass f¨ur Riemann-integrierbare Funktionen das Lebesgue-Integral und das Riemann-Integral u¨ bereinstimmen. Sei I = [a, b] ⊂ R ein Intervall und λ das Lebesgue-Maß auf I. Ferner betrachten wir Folgen t = (tn )n∈N von Partitionen tn = (tni )i=0,...,n von I, also a = tn0 < tn1 < . . . < tnn = b, die immer feiner werden, das heißt, mit max{tni − tni−1 : i = n→∞ n+1 N die Partition eine 1, . . . , n} −→ 0. Wir nehmen an, dass
n ∈n+1
t n f¨ur jedes n+1 n n Verfeinerung von t ist, dass also gilt t0 , . . . , tn ⊂ t0 , . . . , tn+1 . F¨ur jede Funktion f : I → R und jedes n ∈ N definieren wir die n-te Untersumme beziehungsweise Obersumme durch Unt (f ) :=
n
(tni − tni−1 ) inf f [tni−1 , tni ) ,
i=1
Ont (f ) :=
n
(tni − tni−1 ) sup f [tni−1 , tni ) .
i=1
Bekanntlich heißt eine Funktion f : I → R Riemann-integrierbar, wenn es ein t gibt, sodass die Limiten von Obersummen und Untersummen u¨ bereinstimmen und endlich sind. Der Grenzwert h¨angt dann nicht vom gew¨ahlten t ab, und man definiert b f (x) dx := lim Unt (f ) = lim Ont (f ) (4.6) a
n→∞
als das Riemann-Integral von f (siehe etwa [141]).
n→∞
94
4 Das Integral
Satz 4.23 (Riemann-Integral und Lebesgue-Integral). Sei f : I → R Riemannintegrierbar auf I = [a, b]. Dann ist f Lebesgue-integrierbar auf I mit Integral
f dλ =
b
f (x) dx. a
I
Beweis. Sei t so gew¨ahlt, dass (4.6) gilt. Nach Voraussetzung gibt es ein n ∈ N mit |Unt (f )| < ∞ und |Ont (f )| < ∞. Also ist f beschr¨ankt. Indem wir f durch f + f ∞ ersetzen, k¨onnen wir annehmen, dass f ≥ 0 gilt. Setze gn := f (b)
{b} +
n
(inf f ([tni−1 , tni )))
n , [tn i−1 ,ti )
i=1
hn := f (b)
{b} +
n
(sup f ([tni−1 , tni )))
n . [tn i−1 ,ti )
i1
Da tn+1 eine Verfeinerung von tn ist, gilt gn ≤ gn+1 ≤ hn+1 ≤ hn . Also existieren g und h mit gn ↑ g und hn ↓ h. Nach Konstruktion gilt g ≤ h und g dλ = lim gn dλ = lim Unt (f ) I
n→∞
I
n→∞
= lim Ont (f ) = lim n→∞
n→∞
hn dλ =
I
h dλ. I
Also ist λ-fast u¨ berall h = g. Nach Konstruktion ist g ≤ f ≤ h, und g und h sind als Limiten von Elementarfunktionen messbar bez¨uglich B(I) – B(R). Es folgt, dass f¨ur jedes α ∈ R
{f ≤ α} = {g ≤ α} ∩ {g = h} {f ≤ α} ∩ {g = h} die Vereinigung einer B(I)-Menge mit einer Teilmenge einer Nullmenge ist, also in B(I)∗ (der Lebesgue’schen Vervollst¨andigung von B(I)) liegt. Mithin ist f messbar bez¨uglich B(I)∗ . Nach dem Satz u¨ ber monotone Konvergenz (Satz 4.20) ist
f dλ = lim
I
n→∞
gn dλ =
I
b
f (x) dx.
2
a
Beispiel 4.24. Sei f : [0, 1] → R, x → Q . Dann ist f offenbar nicht Riemannintegrierbar, weil Un (f ) = 0 und 0On (f ) = 1 f¨ur jedes n ∈ N. Andererseits ist f Lebesgue-integrierbar mit Integral [0,1] f dλ = 0, denn Q ∩ [0, 1] ist eine Nullmenge. 3
4.3 Lebesgue-Integral versus Riemann-Integral
95
Bemerkung 4.25. Eine uneigentlich Riemann-integrierbare Funktion f auf einem halboffenen Intervall I = (a, b] oder I = [0, ∞) ist nicht notwendigerweise auch 0∞ Lebesgue-integrierbar. Hier wird n¨amlich das uneigentliche Integral 0 f (x) dx := 0n limn→∞ 0 f (x) dx durch eine Grenzwertprozedur definiert, die R¨ucksicht auf die Geometrie von R nimmt. Dies tut das Lebesgue-Integral nicht. So ist die Funktion 1 sin(x) (uneigentlich) Riemann-integrierbar, jedoch nicht f : [0, ∞) → R, x → 1+x 0 Lebesgue-integrierbar, weil [0,∞) |f | dλ = ∞ ist. 3 Wir haben schon gesehen, dass uneigentlich Riemann-integrierbare Funktionen nicht notwendigerweise auch Lebesgue-integrierbar sind. Andererseits gibt es Lebesgue-integrierbare Funktionen, die nicht Riemann-integrierbar sind (wie etwa asst sich dies so interpretieren, dass das Riemann-Integral die Q ). Geometrisch l¨ Geometrie des Integrationsbereiches respektiert, indem es als Grenzwert von Fl¨achen schmaler senkrechter Streifen entsteht, w¨ahrend das Lebesgue-Integral als Grenzwert mit flachen waagerechten Streifen gedacht werden kann. Insbesondere macht dieses Integral gar keine Annahmen an den Definitionsbereich des Integranden, weshalb es eben universeller einsetzbar ist. Um dies zu unterstreichen, bringen wir einen Satz, der uns auch ansonsten noch n¨utzlich sein wird. Satz 4.26. Sei f : Ω → R messbar und f ≥ 0 fast u¨ berall. Dann gelten ∞
μ({f ≥ n}) ≤
∞
f dμ ≤
n=1
μ({f > n})
(4.7)
n=0
und
f dμ =
∞
μ({f ≥ t}) dt.
(4.8)
0 Beweis. Setze 0 f =0 f und f = f . Dann ist f ≤ f ≤ f und deshalb 0 f dμ ≤ f dμ ≤ f dμ. Nun ist
f dμ =
∞
μ({f = k}) · k =
k=1
= =
k ∞
μ({f = k})
k=1 n=1 ∞ ∞
μ({f = k})
n=1 k=n ∞
∞
n=1
n=1
μ({f ≥ n}) =
μ({f ≥ n}).
Analog ist
f dμ =
∞ n=1
μ({f ≥ n}) =
∞ n=1
μ({f > n − 1}).
96
4 Das Integral
Hieraus folgt (4.7). Gilt g(t) := μ({f ≥ t}) = ∞ f¨ur ein t > 0, so sind beide Seiten in (4.8) gleich ∞. Sei im Folgenden also g(t) < ∞ f¨ur alle t > 0. F¨ur ε > 0 und k ∈ N setze f ε := f
{f ≥ε}
αkε := 2−k
∞
sowie fkε = 2k f ε und
μ({f ε ≥ n2−k }).
n=1 k→∞
Dann gilt αkε −→ αkε = 2−k
∞
0∞ ε
g(t) dt. Ferner gilt nach (4.7) (mit fkε statt f )
μ({fkε ≥ n}) ≤
f ε dμ
n=1
≤ 2−k
∞ n=0
μ({fkε > n}) = 2−k
∞
μ({f ε > n2−k }) ≤ αkε + 2−k g(ε).
n=0
0∞ 0 k→∞ Wegen 2−k g(ε) −→ 0 folgt ε g(t) dt = f ε dμ. Wegen f ε ↑ f f¨ur ε ↓ 0 folgt (4.8) aus dem Satz u¨ ber monotone Konvergenz. 2 ¨ Ubung 4.3.1. Sei f : [0, 1] → R beschr¨ankt. Zeige: f ist genau dann (eigentlich) Riemann-integrierbar, wenn f λ-f.¨u. stetig ist. ♣ ¨ Ubung 4.3.2. Ist f : [0, 1] → R Riemann-integrierbar, so ist f Lebesgue-messbar. Man zeige durch ein Beispiel, dass f nicht Borel-messbar sein muss. (Hinweis: Man verwende ohne Beweis die Existenz einer Teilmenge von [0, 1], die nicht Borelmessbar ist und konstruiere hieraus eine nicht-Borel’sche Menge, deren Abschluss eine Nullmenge ist.) ♣
5 Momente und Gesetze der Großen Zahl
Die wichtigsten Kenngr¨oßen f¨ur Zufallsvariablen sind Median, Erwartungswert und Varianz. Der Erwartungswert beschreibt f¨ur großes n den typischen ungef¨ahren Wert des arithmetischen Mittels (X1 + . . . + Xn )/n von u.i.v. Zufallsvariablen (Gesetz der Großen Zahl). In Kapitel 15 werden wir sehen, wie die Varianz hingegen die typischen Abweichungen des arithmetischen Mittels vom Erwartungswert determiniert.
5.1 Momente Im Folgenden sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Definition 5.1. Sei X eine Zufallsvariable. (i) Ist X ∈ L1 (P), so heißt X integrierbar, und wir nennen E[X] := X dP den Erwartungswert von X. Ist E[X] 0 = 0, so heißt X zentriert. Etwas allgemeiner schreiben wir auch E[X] = X dP, falls nur X − oder X + integrierbar ist. (ii) Ist n ∈ N und X ∈ Ln (P), so heißen die Gr¨oßen * ) * ) mk := E X k , Mk := E |X|k f¨ur jedes k = 1, . . . , n, die k-ten Momente beziehungsweise absoluten Momente von X. (iii) Ist X ∈ L2 (P), so heißt X quadratintegrierbar, und wir nennen ) * Var[X] := E X 2 − E[X]2 √ die Varianz von X. Die Zahl σ := Var[X] heißt die Streuung oder Standardabweichung von X. Formal setzen wir manchmal Var[X] = ∞, falls E[X 2 ] = ∞ ist.
98
5 Momente und Gesetze der Großen Zahl
(iv) Sind X, Y ∈ L2 (P), so definieren wir die Kovarianz von X und Y durch ) * Cov[X, Y ] := E X − E[X] Y − E[Y ] . X und Y heißen unkorreliert, falls Cov[X, Y ] = 0 ist. Bemerkung 5.2. (i) Die Definition in (ii) ist sinnvoll, denn f¨ur X ∈ Ln (P) ist nach Satz 4.19 Mk < ∞ f¨ur jedes k = 1, . . . , n. (ii) Sind X, Y ∈ L2 (P), so ist wegen |XY | ≤ X 2 + Y 2 auch XY ∈ L1 (P). Deshalb ist die Definition in (iv) sinnvoll, und es gilt Cov[X, Y ] = E[XY ] − E[X] E[Y ]. Speziell ist Var[X] = Cov[X, X].
3
Wir fassen die wichtigsten Rechenregeln f¨ur Erwartungswerte als Satz zusammen. Alle aufgef¨uhrten Eigenschaften folgen direkt aus den Eigenschaften des Integrals. ¨ den Erwartungswert). Seien X, Y, Xn , Yn , n ∈ N, Satz 5.3 (Rechenregeln fur reelle integrierbare Zufallsvariablen auf (Ω, A, P). Dann gilt (i) Ist PX = PY , so ist E[X] = E[Y ]. (ii) (Linearit¨at) Sei c ∈ R. Dann gelten cX ∈ L1 (P) und X + Y ∈ L1 (P) sowie E[cX] = cE[X]
und
E[X + Y ] = E[X] + E[Y ].
(iii) Ist X ≥ 0 fast sicher, so gilt E[X] = 0
⇐⇒
X = 0 fast sicher.
(iv) (Monotonie) Gilt X ≤ Y fast sicher, so gilt E[X] ≤ E[Y ] mit Gleichheit genau dann, wenn X = Y fast sicher. ) * (v) (Dreiecksungleichung) Es ist E[X] ≤ E |X| . ( ' ∞ ∞ (vi) Ist Xn ≥ 0 fast sicher f¨ur jedes n ∈ N, so ist E Xn = E[Xn ]. n=1
n=1
(vii) Gilt Yn ↑ Y , so gilt E[Y ] = limn→∞ E[Yn ]. Die Wahrscheinlichkeitstheorie beginnt wieder an der Stelle, wo die Unabh¨angigkeit ins Spiel kommt, wir also den Bereich der linearen Integrationstheorie verlassen. Satz 5.4 (Unabh¨angige Zufallsvariablen sind unkorreliert). Seien X, Y ∈ L1 (P) unabh¨angig. Dann ist (X Y ) ∈ L1 (P) und E[XY ] = E[X] E[Y ]. Speziell sind unabh¨angige Zufallsvariablen unkorreliert.
5.1 Momente
99
Beweis. Wir nehmen zun¨achst an, dass X und Y nur endlich viele Werte annehmen. Dann nimmt auch XY nur endlich viele Werte an, speziell ist offenbar XY ∈ L1 (P). Es folgt E[XY ] = z P[XY = z] z∈R\{0}
=
x
z∈R\{0} x∈R\{0}
=
z P[X = x, Y = z/x] x
xy P[X = x] P[Y = y]
y∈R\{0} x∈R\{0}
=
x P[X = x] y P[Y = y]
x∈R
y∈R
= E[X] E[Y ]. 4
5 F¨ r N4∈ N sind auch die Zufallsvariablen XN := 2−N 2N |X| ∧ N und YN := 5
u−N 2N |Y | ∧ N , die nur endlich viele Werte annehmen, unabh¨angig, und es 2 gilt XN ↑ |X| sowie YN ↑ |Y |. Nach dem Satz von der monotonen Konvergenz (Satz 4.20) ist daher E[|XY |] = lim E[XN YN ] = lim E[XN ] E[YN ] N →∞ N →∞ lim E[YN ] = E[|X|] E[|Y |] < ∞. = lim E[XN ] N →∞
N →∞
Also ist XY ∈ L1 (P). Außerdem haben wir damit den Satz gezeigt f¨ur den Fall, wo X und Y nichtnegativ sind. Daher (und weil jede der Familien {X + , Y + }, {X − , Y + }, {X + , Y − } und {X − , Y − } unabh¨angig ist) gilt E[XY ] = E[(X + − X − )(Y + − Y − )] = E[X + Y + ] − E[X − Y + ] − E[X + Y − ] + E[X − Y − ] = E[X + ] E[Y + ] − E[X − ] E[Y + ] − E[X + ] E[Y − ] + E[X − ] E[Y − ] = E[X + − X − ] E[Y + − Y − ] = E[X] E[Y ].
2
Satz 5.5 (Wald’sche Identit¨at). Seien T, X1 , X2 , . . . unabh¨angige, reelle Zufallsvariablen in L1 (P). Es sei P[T ∈ N0 ] = 1, und es seien X1 , X2 , . . . identisch verteilt. Wir setzen T Xi . ST := i=1
Dann ist ST ∈ L (P) und E[ST ] = E[T ] E[X1 ]. 1
n ∞ Beweis. Setze Sn = ur n ∈ N0 . Dann ist ST = i=1 Xi f¨ n=1 Sn {T =n} . Nach Bemerkung 2.15 sind Sn und {T =n} unabh¨angig f¨ur jedes n ∈ N und damit unkorreliert. Es folgt (mit Hilfe der Dreiecksungleichung, siehe Satz 5.3(v))
100
5 Momente und Gesetze der Großen Zahl ∞ ) * ) E |ST | = E |Sn |
≤
n=1 ∞
{T =n}
*
=
∞ ) * ) E |Sn | E
{T =n}
*
n=1
) * E |X1 | n P[T = n] = E[|X1 |] E[T ].
n=1
2
Die selbe Rechnung ohne Betragstriche liefert den Rest der Behauptung. Wir stellen hier ein paar einfache Eigenschaften der Varianz zusammen. Satz 5.6. Sei X ∈ L2 (P). Dann gilt: * ) (i) Var[X] = E (X − E[X])2 ≥ 0,
(ii) Var[X] = 0 ⇐⇒ X = E[X] fast sicher, ) * (iii) Die Abbildung f : R → R, x → E (X −x)2 ist minimal genau in x0 = E[X] mit f (E[X]) = Var[X]. Beweis. (i) Klar nach Bemerkung 5.2(ii). * ) (ii) Nach Satz 5.3(iii) ist E (X − E[X])2 = 0 ⇐⇒ (X − E[X])2 = 0 f.s. (iii) Es ist f (x) = E[X 2 ] − 2x E[X] + x2 = Var[X] + (x − E[X])2 .
2
Satz 5.7. Die Abbildung Cov : L2 (P) × L2 (P) → R ist eine positiv semidefinite symmetrische Bilinearform, und es gilt Cov[X, Y ] = 0, falls Y fast sicher konstant ist. Ausgeschrieben heißt dies: F¨ur X1 , . . ., Xm , Y1 , . . ., Yn ∈ L2 (P) und α1 , . . . , αm , β1 , . . . , βn ∈ R, sowie d, e ∈ R gilt ⎤ ⎡ m n αi Xi , e + βj Yj ⎦ = αi βj Cov[Xi , Yj ]. (5.1) Cov ⎣d + i=1
j=1
i,j
Speziell gilt die Bienaym´e-Gleichung -m . m m Var Xi = Var[Xi ] + Cov[Xi , Xj ]. i=1
i=1
i,j=1 i =j
m m F¨ur unkorrelierte X1 , . . . , Xm gilt Var [ i=1 Xi ] = i=1 Var[Xi ].
(5.2)
5.1 Momente
101
Beweis. + , m n Cov d + αi Xi , e + βj Yj i=1
j=1
+ m
=E
, n αi (Xi − E[Xi ]) βj (Yj − E[Yj ])
i=1
=
n m
j=1
) * αi βj E (Xi − E[Xi ])(Yj − E[Yj ])
i=1 j=1
=
m n
αi βj Cov[Xi , Yj ].
2
i=1 j=1
Satz 5.8 (Cauchy-Schwarz’sche Ungleichung). Sind X, Y ∈ L2 (P), so gilt
2 Cov[X, Y ] ≤ Var[X] Var[Y ]. Es gilt genau dann Gleichheit, wenn es a, b, c ∈ R gibt aX + bY + c = 0 f.s. Beweis. Die Cauchy-Schwarz’sche Ungleichung gilt f¨ur jede positiv semidefinite Bilinearform · , · ! auf einem Vektorraum V . Es gilt jeweils genau dann Gleichheit x, y!2 = x, x! y, y!, wenn es Zahlen a, b ∈ R gibt mit ax − by, ax − by! = 0. Wenden wir dies auf die positiv semidefinite Bilinearform Cov[ · , · ] auf L2 (P) an, so erhalten wir die Cauchy-Schwarz’sche Ungleichung f¨ur X, Y ∈ L2 (P) mit Gleichheit genau dann, wenn Var[aX + bY ] = 0, also genau dann, wenn (vergleiche Satz 5.6(ii)) aX + bY = c := E[aX + bY ] fast sicher. Zeigen wir nun also die Aussage f¨ur die allgemeine positiv semidefinite Bilinearform auf R. Ohne Einschr¨ankung gilt y, y! > 0 (sonst ist die Aussage trivial). Es gilt dann mit θ = − x,y y,y : ; 0 ≤ x + θy, x + θy y, y! = x, x! + 2θ x, y! + θ2 y, y! y, y! = x, x! y, y! − x, y!2 .
2
Beispiel 5.9. (i) Es sei p ∈ [0, 1] und X ∼ Berp . Dann ist E[X 2 ] = E[X] = P[X = 1] = p und damit Var[X] = p(1 − p). (ii) Seien n ∈ N und p ∈ [0, 1] sowie X binomialverteilt X ∼ bn,p . Dann ist
102
5 Momente und Gesetze der Großen Zahl
E[X] =
n
kP[X = k] =
k=0
n n k k p (1 − p)n−k k
k=0
= np ·
n n−1 k=1
k−1
pk−1 (1 − p)(n−1)−(k−1) = np.
Ferner ist E[X(X − 1)] =
n
k(k − 1) P[X = k]
k=0
=
n k=0
= np ·
n k k(k − 1) p (1 − p)n−k k n
n − 1 k−1 (k − 1) p (1 − p)(n−1)−(k−1) k−1
k=1
= n(n − 1)p · 2
n n−2 k=2
k−2
pk−2 (1 − p)(n−2)−(k−2)
= n(n − 1)p2 . Also ist E[X 2 ] = E[X(X − 1)] + E[X] = n2 p2 + np(1 − p) und damit Var[X] = np(1 − p). Etwas einfacher als durch die direkte Berechnung sehen wir dies ein, indem wir bemerken (siehe nach Beispiel 3.4(ii)), dass bn,p = b∗n 1,p . Das heißt, es gilt (siehe Satz 2.31) PX = PY1 +...+Yn , wo Y1 , . . . , Yn unabh¨angig sind und Yi ∼ Berp f¨ur jedes i = 1, . . . , n. Es folgt E[X] = nE[Y1 ] = np Var[X] = nVar[Y1 ] = np(1 − p).
(5.3)
(iii) Seien μ ∈ R und σ 2 > 0 sowie X normalverteilt X ∼ Nμ,σ2 . Dann ist ∞ 2 2 1 E[X] = √ x e−(x−μ) /(2σ ) dx 2 2πσ −∞ ∞ 2 2 1 = √ (x + μ) e−x /(2σ ) dx (5.4) 2 2πσ −∞ ∞ 2 2 1 = μ+ √ x e−x /(2σ ) dx = μ 2 2πσ −∞ ¨ Ahnlich folgt Var[X] = E[X 2 ] − μ2 = . . . = σ 2 .
5.1 Momente
103
Sei θ > 0 und X exponentialverteilt X ∼ expθ . Dann ist ∞ 1 E[X] = θ x e−θx dx = , θ 0 ∞ ∞ −2 2 −θx −2 2 −x Var[X] = −θ + θ −1 + x e dx = θ x e dx = θ−2 . 3
(iv)
0
0
Satz 5.10 (Blackwell-Girshick). Seien T, X1 , X2 , . . . unabh¨angige, reelle Zufallsvariablen in L2 (P). Es sei P[T ∈ N0 ] = 1, und es seien X1 , X2 , . . . identisch verteilt. Wir setzen T Xi . ST := i=1
Dann ist ST ∈ L2 (P) und Var[ST ] = E[X1 ]2 Var[T ] + E[T ] Var[X1 ]. n Beweis. Wir setzen Sn = i=1 Xi f¨ur n ∈ N. Dann sind (wie beim Beweis der Wald’schen Identit¨at) Sn und {T =n} unabh¨angig, also Sn2 und {T =n} unkorreliert und damit ∞ ) ) * E E ST2 =
= = =
n=0 ∞ n=0 ∞ n=0 ∞
E[
{T =n}
Sn2
{T =n} ] E
*
)
Sn2
*
P[T = n] Var[Sn ] + E[Sn ]2 P[T = n] n Var[X1 ] + n2 E[X1 ]2
n=0
) * = E[T ] Var[X1 ] + E T 2 E[X1 ]2 . Nach der Wald’schen Identit¨at (Satz 5.5) ist E[ST ] = E[T ] E[X1 ], also ist ) *
) * Var[ST ] = E ST2 − E[ST ]2 = E[T ] Var[X1 ] + E T 2 − E[T ]2 E[X1 ]2 . 2
Dies ist aber die Behauptung.
¨ Ubung 5.1.1. Man zeige (mit Satz 4.15): Ist X eine integrierbare reelle Zufallsvariable, deren Verteilung PX die Dichte f (bez¨uglich des Lebesgue-Maßes λ) besitzt, so gilt E[X] =
xf (x) λ(dx). R
♣
104
5 Momente und Gesetze der Großen Zahl
¨ Ubung 5.1.2. Sei X ∼ βr,s eine Beta-verteilte Zufallsvariable mit Parametern r, s > 0 (vergleiche Beispiel 1.107(ii)). Man zeige E[X ] = n
n−1 k=0
r+k r+s+k
f¨ur jedes n ∈ N.
♣
¨ Ubung 5.1.3. Es seien X1 , X2 , . . . u.i.v. nichtnegative Zufallsvariablen. Man zeige mit Hilfe des Lemmas von Borel-Cantelli: 0 f.s., falls E[X1 ] < ∞, 1 ♣ lim sup Xn = n→∞ n ∞ f.s., falls E[X1 ] = ∞. ¨ Ubung 5.1.4. Es seien X1 , X2 , . . . u.i.v. nichtnegative Zufallsvariablen Man zeige mit Hilfe des Lemmas von Borel-Cantelli: F¨ur jedes c ∈ (0, 1) gilt ∞ < ∞ f.s., falls E[X1 ] < ∞, ♣ eXn cn lim sup n→∞ = ∞ f.s., falls E[X1 ] = ∞. n=1
5.2 Schwaches Gesetz der Großen Zahl Satz 5.11 (Markov’sche Ungleichung, Chebyshev’sche Ungleichung). Sei X eine Zufallsvariable und f : [0, ∞) → [0, ∞) monoton wachsend. Dann gilt f¨ur jedes ε > 0 mit f (ε) > 0 die Markov’sche Ungleichung ) * E[f (|X|)] . P |X| ≥ ε ≤ f (ε) ) * ) * Im Spezialfall f (x) = x2 erhalten wir P |X| ≥ ε ≤ ε−2 E X 2 und, falls X ∈ L2 (P), insbesondere die Chebyshev’sche Ungleichung ) * P |X − E[X]| ≥ ε ≤ ε−2 Var[X]. Beweis. Es gilt * ) E[f (|X|)] ≥ E f (|X|) {f (|X|)≥f (ε)} * ) ≥ E f (ε) {f (|X|)≥f (ε)} ) * ≥ f (ε) P |X| ≥ ε .
2
5.2 Schwaches Gesetz der Großen Zahl
105
Definition 5.12. Sei (Xn )n∈N eine Folge reeller Zufallsvariablen in L1 (P) und n Sn = i=1 (Xi − E[Xi ]). (i) Wir sagen, (Xn )n∈N gen¨uge dem schwachen Gesetz der großen Zahl, falls + , 1 lim P Sn > ε = 0 f¨ur jedes ε > 0. n→∞ n (ii) Wir sagen, (Xn )n∈N gen¨uge dem starken Gesetz der großen Zahl, falls , + 1 P lim sup Sn = 0 = 1. n n→∞ Bemerkung 5.13. impliziert das schwache. Ist Das starke Gesetz dergroßen Zahl 1 1 ε n¨amlich An := n Sn > ε und A = lim sup n Sn > 0 , so gilt offenbar A=
n→∞
lim sup A1/m , n
m∈N
n→∞
( ' also P lim sup Aεn = 0 f¨ur ε > 0. Nach dem Lemma von Fatou (Satz 4.21) ist n→∞
lim sup P [Aεn ] = 1 − lim inf E n→∞
*
)
n→∞
(Aεn )c
(
'
≤ 1 − E lim inf n→∞
(Aεn )c
+
,
= E lim sup n→∞
Aεn
= 0.
2
Satz 5.14. Seien X1 , X2 , . . . unkorrelierte Zufallsvariablen in L2 (P) mit V := supn∈N Var[Xn ] < ∞. Dann gen¨ugt (Xn )n∈N dem schwachen Gesetz der großen Zahl. Es gilt sogar f¨ur jedes ε > 0 , + 1 V f¨ur jedes n ∈ N. (5.5) P Sn ≥ ε ≤ 2 n ε n Beweis. Ohne Einschr¨ankung sei E[Xi ] = 0 f¨ur jedes i ∈ N und damit Sn = X1 + · · · + Xn . Nach der Formel von Bienaym´e (Satz 5.7) ist , + n V 1 Sn = n−2 Var [Xi ] ≤ . Var n n i=1 Nach der Chebyshev’schen Ungleichung (Satz 5.11) gilt f¨ur ε > 0 ) * V n→∞ P |Sn /n| > ε ≤ 2 −→ 0. ε n
2
106
5 Momente und Gesetze der Großen Zahl
Beispiel 5.15 (Weierstraß’scher Approximationssatz). Sei f : [0, 1] → R eine stetige Abbildung. Nach dem Weierstraß’schen Approximationssatz existieren Polynome fn vom Grad h¨ochstens n, sodass n→∞
fn − f ∞ −→ 0, wobei f ∞ := sup{|f (x)| : x ∈ [0, 1]} die Supremumsnorm von f ∈ C([0, 1]) bezeichnet. Wir f¨uhren hier einen probabilistischen Beweis dieser Aussage vor. F¨ur n ∈ N sei das Polynom fn definiert durch fn (x) :=
n
f (k/n)
k=0
n k x (1 − x)n−k k
f¨ur x ∈ [0, 1].
Dieses Polynom heißt Bernstein-Polynom der Ordnung n. Sei ε > 0 fest gew¨ahlt. Da f auf [0, 1] stetig ist, ist f sogar gleichm¨aßig stetig. Es existiert also ein δ > 0, sodass |f (x) − f (y)| < ε
f¨ur alle x, y ∈ [0, 1] mit |x − y| < δ.
Sei nun p ∈ [0, 1] fest gew¨ahlt, und seien X1 , X2 , . . . unabh¨angige Zufallsvariablen mit Xi ∼ Berp , i ∈ N. Dann ist Sn := X1 + . . . + Xn ∼ bn,p und deshalb E[f (Sn /n)] =
n
f (k/n) P[Sn = k] = fn (p).
k=0
Wir erhalten |f (Sn /n) − f (p)| ≤ ε + 2f ∞
{|(Sn /n)−p|≥δ}
und daher (nach Satz 5.14 mit V = p(1 − p) ≤ 14 ) |fn (p) − f (p)| ≤ E[|f (Sn /n) − f (p)|] , + Sn − p ≥ δ ≤ ε + 2f ∞ P n ≤ε+
f ∞ , 2 δ2 n n→∞
f¨ur jedes p ∈ [0, 1]. Also gilt fn − f ∞ −→ 0.
3
¨ Ubung 5.2.1 (Bernstein-Chernov Absch¨atzung). Seien n ∈ N und p1 , . . . , pn ∈ [0, 1] sowie X1 , . . . , Xn unabh¨angige Zufallsvariablen mit Xi = Berpi f¨ur jedes i = 1, . . . , n. Setze Sn = X1 + . . . + Xn und m := E[Sn ]. Man zeige, dass f¨ur jedes δ > 0 die beiden folgenden Absch¨atzungen gelten
5.3 Starkes Gesetz der Großen Zahl
) * P Sn ≥ (1 + δ)m ≤ und
eδ (1 + δ)1+δ
107
m
2 * ) δ m P Sn ≤ (1 − δ)m ≤ exp − . 2
Hinweis: Verwende f¨ur Sn die Markov’sche Ungleichung mit f (x) = eλx f¨ur gewisses λ > 0 und finde dasjenige λ, das die Absch¨atzung optimiert. ♣
5.3 Starkes Gesetz der Großen Zahl Wir kommen nun zu einem starken Gesetz der großen Zahl, n¨amlich dem in der Form von Etemadi f¨ur identisch verteilte, paarweise unabh¨angige Zufallsvariablen. Es gibt viele verschiedene Formen von starken Gesetzen der großen Zahl, die unterschiedliche Voraussetzungen machen. So kann man darauf verzichten, dass die Zufallsvariablen identisch verteilt sind, wenn man st¨arkere Annahmen, etwa beschr¨ankte Varianzen, macht und so weiter. Wir werden hier nicht bis in alle Tiefen gehen, sondern nur exemplarisch ein paar Aussagen vorstellen. Um die Methode f¨ur den Beweis des Satzes von Etemadi zu illustrieren, stellen wir zun¨achst ein Starkes Gesetz der großen Zahl unter st¨arkeren Annahmen vor. Satz 5.16. Sind X1 , X2 , . . . ∈ L2 (P) paarweise unabh¨angig (das heißt, Xi und Xj sind unabh¨angig f¨ur alle i, j ∈ N mit i = j) und identisch verteilt, so gen¨ugt (Xn )n∈N dem starken Gesetz der großen Zahl. Beweis. Es sind (Xn+ )n∈N und (Xn− )n∈N wieder paarweise unabh¨angige Familien quadratintegrierbarer Zufallsvariablen (vergleiche Bemerkung 2.15(ii)). Es reicht daher, (Xn+ )n∈N zu betrachten. Wir nehmen also im Folgenden an, dass Xn ≥ 0 ist fast sicher f¨ur jedes n ∈ N. Sei Sn = X1 + . . . + Xn f¨ur n ∈ N. W¨ahle ε > 0. F¨ur jedes n ∈ N setzen wir kn = (1 + ε)n ≥ 12 (1 + ε)n . Dann ist nach der Chebyshev’schen Ungleichung (Satz 5.11) + , ∞ ∞ Sk n * ) −n/4 P − E[X1 ] ≥ (1 + ε) (1 + ε)n/2 Var kn−1 Skn ≤ kn n=1 n=1 =
∞
(1 + ε)n/2 kn−1 Var[X1 ]
n=1
≤ 2 Var[X1 ]
∞ n=1
(1 + ε)−n/2 < ∞.
(5.6)
108
5 Momente und Gesetze der Großen Zahl
Nach dem Lemma von Borel-Cantelli gibt es daher f¨ur P-f.a. ω ein n0 = n0 (ω) mit Skn −n/4 f¨ur jedes n ≥ n0 . kn − E[X1 ] < (1 + ε) Also gilt
lim sup kn−1 Skn − E[X1 ] = 0
fast sicher.
n→∞
F¨ur hinreichend großes n ∈ N ist kn+1 ≤ (1 + 2ε)kn . F¨ur l ∈ {kn , . . . , kn+1 } ist dann 1 −1 −1 k −1 Skn ≤ kn+1 Skn ≤ l−1 Sl ≤ kn−1 Skn+1 ≤ (1 + 2ε) kn+1 Skn+1 . 1 + 2ε n Wegen 1 − (1 + 2ε)−1 ≤ 2ε folgt lim sup l−1 Sl − E[X1 ] ≤ lim sup kn−1 Skn − E[X1 ] + 2ε lim sup kn−1 Skn n→∞
l→∞
n→∞
≤ 2ε E[X1 ] fast sicher, 2
und damit gilt das starke Gesetz der großen Zahl.
¨ Die Ahnlichkeit der Varianzabsch¨atzungen im schwachen Gesetz der großen Zahl und in (5.6) legen nahe, dass im vorangehenden Satz auf die Bedingung verzichtet werden kann, dass die Zufallsvariablen X1 , X2 , . . . identisch verteilt sind, wenn ¨ man nur fordert, dass die Varianzen beschr¨ankt sind (siehe Ubung 5.3.1). Wir k¨onnen die Bedingung in Satz 5.16 in anderer Weise abschw¨achen, indem wir nur Integrierbarkeit statt Quadratintegrierbarkeit der Zufallsvariablen fordern. Satz 5.17 (Starkes Gesetz der großen Zahl von Etemadi (1981)). Es seien X1 , X2 , . . . ∈ L1 (P) paarweise unabh¨angig und identisch verteilt. Dann gen¨ugt (Xn )n∈N dem starken Gesetz der großen Zahl. Wir folgen dem Beweis in [38]. Setze im Folgenden μ = E[X1 ]. Zur Vorbereitung des Beweises stellen wir ein paar Lemmata bereit. Lemma 5.18. F¨ur n ∈ N seien Yn := Xn {|Xn |≤n} und Tn = Y1 + · · · + Yn . Die n→∞ Folge (Xn )n∈N erf¨ullt das starke Gesetz der großen Zahl, falls Tn /n −→ μ f.s. Beweis. Nach Satz 4.26 ist
∞
) * ) * P |Xn | > n ≤ E |X1 | < ∞. Nach dem Lemma
n=1
von Borel-Cantelli ist daher * ) P Xn = Yn f¨ur unendlich viele n = 0. Es gibt also ein n0 = n0 (ω) mit Xn = Yn f¨ur jedes n ≥ n0 . Daher gilt f¨ur n ≥ n0 Tn0 − Sn0 Tn − Sn = n n
n→∞
−→ 0.
2
5.3 Starkes Gesetz der Großen Zahl
Lemma 5.19. F¨ur jedes x ≥ 0 ist 2x
109
n−2 ≤ 4.
n>x
Beweis. F¨ur m ∈ N ist nach dem Integralvergleichskriterium ∞
n−2 ≤ m−2 +
∞
t−2 dt = m−2 + m−1 ≤
m
n=m
2 . m
2
) * ∞ E Yn2 Lemma 5.20. Es gilt ≤ 4 E[|X1 |]. n2 n=1 ) * * 0∞ ) Beweis. Nach Satz 4.26 ist E Yn2 = 0 P Yn2 > t dt. Mit der Substitution √ x = t erhalten wir ∞ n ) * E Yn2 = 2x P[|Yn | > x] dx ≤ 2x P[|X1 | > x] dx. 0
0
Nach dem Satz u¨ ber monotone Konvergenz und Lemma 5.19 gilt f¨ur m → ∞ m n−2 {x
x] ↑ f (x) ≤ 4 P[|X1 | > x]. fm (x) = n=1
Wir k¨onnen also Summation und Integral vertauschen und erhalten ) * ∞ ∞ ∞ E Yn2 −2 ≤ n {x x] dx n2 0 n=1 n=1
∞
= 0
∞
−2
n
{x
2x P[|X1 | > x] dx
n=1
≤ 4
∞
P[|X1 | > x] dx = 4 E[|X1 |].
2
0
Beweis von Satz 5.17 Wie im Beweis von Satz 5.16 reicht es, Xn ≥ 0 zu betrachten. W¨ahle ε > 0 und setze α = 1 + ε. F¨ur n ∈ N setzen wir kn = αn und haben speziell kn ≥ αn /2. Es ist also (mit n0 = log m/ log α) n: kn ≥m
kn−2 ≤ 4
∞
α−2n = 4 α−2n0 (1 − α−2 )−1 ≤ 4(1 − α−2 )−1 m−2 . (5.7)
n=n0
Unser Ziel ist es, mit Hilfe von Lemma 5.20 die Absch¨atzung (5.6) f¨ur (Yn )n∈N und (Tn )n∈N zu verfeinern. Die Chebyshev’sche Ungleichung liefert (zusammen mit (5.7)) wiederum f¨ur δ > 0
110
5 Momente und Gesetze der Großen Zahl
∞ ∞ * * ) ) Var [Tkn ] P Tkn − E Tkn > δ kn ≤ δ −2 kn2 n=1 n=1
=δ
−2
∞
kn−2
n=1
kn
Var[Ym ] = δ
m=1
≤ 4(1 − α−2 )−1 δ −2
−2
∞
Var[Ym ]
m=1 ∞
kn−2
n: kn ≥m
) * m−2 E Ym2 < ∞ nach Lemma 5.20.
m=1
(Im dritten Schritt durften wir die Summationsreihenfolge vertauschen, weil alle Summanden nichtnegativ sind.) Da δ > 0 beliebig war, folgt (mit dem Lemma von Borel-Cantelli) Tkn − E [Tkn ] = 0 fast sicher. (5.8) lim n→∞ kn Nach dem Satz u¨ ber monotone Konvergenz (Satz 4.20) gilt * n→∞ ) E[Yn ] = E X1 {|X1 |≤n} −→ E[X1 ]. n→∞
n→∞
Also gilt E[Tkn ]/kn −→ E[X1 ] und wegen (5.8) auch Tkn /kn −→ E[X1 ] f.s. Wie im Beweis von Satz 5.16 gilt jetzt auch (weil Yn ≥ 0) lim
l→∞
Tl = E[X1 ] fast sicher. l
Nach Lemma 5.18 folgt hieraus die Behauptung von Satz 5.17.
2
Beispiel 5.21 (Monte Carlo Integration). Betrachte eine Funktion f : [0, 1] → R, 01 deren Integral I := 0 f (x) dx numerisch bestimmt werden soll. Wir nehmen an, dass uns der Computer Zahlen X1 , X2 , . . . generiert, die wir als unabh¨angige Zufallszahlen auffassen k¨onnen, die auf [0, 1] gleichverteilt sind. F¨ur n ∈ N definieren wir den Sch¨atzwert n 1 f (Xi ). I ε] bekommen. Um genauere Sch¨atzungen f¨ur das Integral zu bekommen, ben¨otigen wir zus¨atzliche Information, etwa den Wert 0 V1 := f 2 (x) dx − I 2 , falls f ∈ L2 ([0, 1]) ist. (F¨ur beschr¨anktes f etwa l¨asst sich V1 leicht nach oben absch¨atzen.) Dann ist n¨amlich Var[I ε n−1/2 ≤ V1 /ε2 .
5.3 Starkes Gesetz der Großen Zahl
111
Der Fehler ist mithin maximal von der Gr¨oßenordnung n−1/2 . Der Zentrale Grenzwertsatz wird uns zeigen, dass der Fehler exakt von dieser Ordnung ist. Wenn u¨ ber f minimale Glattheitseigenschaften bekannt sind, so liefern die g¨angigen numerischen Verfahren sehr viel bessere Konvergenzordnungen. Die hier beschriebene Monte Carlo Simulation sollte also nur angewandt werden, wenn alle anderen Verfahren ungeeignet sind. Speziell ist dies der Fall, wenn statt [0, 1] ein Gebiet 3 G ⊂ Rd f¨ur sehr großes d betrachtet wird. Definition 5.22 (Empirische Verteilungsfunktion). Seien X1 , X2 , . . . reelle Zun fallsvariablen. Dann heißt die Abbildung F : R → [0, 1], x → n1 (−∞,x] (Xi ) i=1
die empirische Verteilungsfunktion von X1 , . . . , Xn . Satz 5.23 (Glivenko-Cantelli). Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit Verteilungsfunktion F , und seien Fn , n ∈ N, die empirischen Verteilungsfunktionen. Dann gilt lim sup sup Fn (x) − F (x) = 0 fast sicher. n→∞
x∈R
Beweis. W¨ahle ein x ∈ R und setze Yn (x) = (−∞,x] (Xn ) und Zn (x) = ur n ∈ N. Wir definieren außerdem die linksseitigen Limiten (−∞,x) (Xn ) f¨ F (x−) = limy↑x F (y) und analog f¨ur Fn . Dann sind (Yn (x))n∈N und (Zn (x))n∈N jeweils unabh¨angige Familien und E[Yn (x)] = P[Xn ≤ x] = F (x) sowie E[Zn (x)] = P[Xn < x] = F (x−). Nach dem starken Gesetz der großen Zahl gilt also n 1 n→∞ Yi −→ F (x) fast sicher Fn (x) = n i=1 und
1 n→∞ Zi −→ F (x−) fast sicher. n i=1 n
Fn (x−) =
Wir setzen formal F (−∞) = 0 und F (∞) = 1. Wir w¨ahlen ein beliebiges N ∈ N und setzen
xj := inf x ∈ R : F (x) ≥ j/N , j = 0, . . . , N, und Rn :=
max
j=1,...,N −1
Fn (xj ) − F (xj ) + Fn (xj −) − F (xj −) . n→∞
Nach dem Gezeigten gilt Rn −→ 0 fast sicher. F¨ur x ∈ (xj−1 , xj ) ist (nach Definition von xj ) Fn (x) ≤ Fn (xj −) ≤ F (xj −) + Rn ≤ F (x) + Rn +
1 N
112
5 Momente und Gesetze der Großen Zahl
und Fn (x) ≥ Fn (xj−1 ) ≥ F (xj−1 ) − Rn ≥ F (x) − Rn −
1 . N
Also gilt 1 1 lim sup sup Fn (x) − F (x) ≤ + lim sup Rn = . N N n→∞ x∈R n→∞ Indem wir N → ∞ gehen lassen, folgt die Behauptung.
2
Beispiel 5.24 (Satz von Shannon). Wir betrachten eine Informationsquelle, die zuf¨allig (und unabh¨angig) hintereinander Zeichen X1 , X2 , . . . eines endlichen Alphabets E (also einer beliebigen endlichen Menge) ausgibt. Dabei soll pe die Wahrscheinlichkeit f¨ur das Auftreten des Zeichens e ∈ E sein. Formal sind also X1 , X2 , . . . u.i.v. E-wertige Zufallsvariablen mit P[Xi = e] = pe f¨ur e ∈ E. Sei f¨ur jedes ω ∈ Ω und n ∈ N πn (ω) :=
n
pXi (ω)
i=1
die Wahrscheinlichkeit, dass die beobachtete Sequenz X1 (ω), . . . , Xn (ω) auftritt. Wir setzen Yn := − log(pXn (ω) ). Dann ist (Yn )n∈N u.i.v. und E[Yn ] = H(p), wobei pe log(pe ) H(p) := − e∈E
die Entropie der Verteilung p = (pe )e∈E ist. Aus dem starken Gesetz der großen Zahl folgt der Satz von Shannon: 1 1 n→∞ log πn = Yi −→ H(p) n n i=1 n
−
fast sicher.
3
Entropie und Quellenkodierungssatz∗ Wir wollen kurz auf die Bedeutung von πn und der Entropie eingehen. Wie groß ist die Information“, die in einer Nachricht X1 (ω), . . . , Xn (ω) steckt? Diese Informa” tion kann man messen durch die L¨ange der k¨urzesten Folge von Nullen und Einsen, mit der man die Nachricht kodieren kann. Wir wollen jetzt nat¨urlich nicht f¨ur jede Nachricht eine eigene Kodierung erfinden, und auch nicht f¨ur jede m¨ogliche Nachrichtenl¨ange. Stattdessen ordnen wir jedem einzelnen Zeichen e ∈ E eine Folge von Nullen und Einsen zu, die dann aneinander gereiht die Nachricht ergeben. Die L¨ange l(e) der Folge, die das Zeichen e kodiert, darf dabei von e abh¨angen. So geben wir Zeichen, die h¨aufiger auftreten, einen k¨urzeren Code als den selteneren Zeichen, um einen m¨oglichst effizienten Code zu bekommen. Beim Morse-Alphabet ist dies
5.3 Starkes Gesetz der Großen Zahl
113
so a¨ hnlich eingerichtet ( e“ und t“, die im Englischen h¨aufig vorkommen, haben ” ” die Codes kurz“ und lang“, der seltenere Buchstabe q“ hat den Code lang-lang” ” ” ” kurz-lang“), allerdings besteht der Morse-Code nicht nur aus kurzen und langen Signalen, sondern auch noch aus Pausenzeichen, die das Ende eines Buchstabens signalisieren. Wenn wir nur Nullen und Einsen verwenden d¨urfen, haben wir keine solchen Pausenzeichen und m¨ussen den Code so anlegen, dass der Code eines Zeichens nicht gleichzeitig der Anfang eines Codes eines anderen Zeichens ist. Wir d¨urfen also nicht etwa ein Zeichen mit 0110 kodieren und ein anderes mit 011011. Ein Code, der diese Bedingung erf¨ullt, heißt ein bin¨arer Pr¨afixcode. Wir bezeichnen mit c(e) ∈ {0, 1}l(e) den Code von e, wobei l(e) die L¨ange ist. Wir k¨onnen die Codes aller Zeichen in einem Baum darstellen. Wir wollen nun einen Code C = (c(e), e ∈ E) herstellen, der effizient ist in dem Sinne, dass die erwartete L¨ange des Codes (f¨ur ein zuf¨alliges Zeichen) Lp (C) := pe l(e) e∈E
m¨oglichst klein ist. Wir konstruieren zun¨achst einen Code und zeigen dann, dass dieser fast optimal ist. Als ersten Schritt nummerieren wir E = {e1 , . . . , eN } so, dass pe1 ≥ pe2 ≥ . . . ≥ peN gilt. Wir definieren (e) ∈ N f¨ur jedes e ∈ E durch
Setze p˜e = 2−(e)
2−(e) ≤ pe < 2−(e)+1 . f¨ur jedes e ∈ E und q˜k = l
Nach Konstruktion gilt (el ) ≤ (ek ) f¨ur alle l ≤ k, also hat die Bin¨ardarstellung von q˜k maximal (ek ) Stellen: q˜k =
(k)
ci (ek ) 2−i ,
i=1
wobei die Zahlen c1 (ek ), . . . , c(k) (ek ) ∈ {0, 1} eindeutig festgelegt sind. Offenbar ist q˜l ≥ q˜k + 2−(k) f¨ur jedes l > k, also ist
c1 (ek ), . . . , c(ek ) (ek ) = c1 (el ), . . . , c(ek ) (el )
f¨ur alle l ≥ k.
Daher ist C = (c(e) : e ∈ E) ein Pr¨afixcode. Wir schreiben f¨ur jedes b > 0 und x > 0 logb (x) := log(x) ur den Logarithmus log(b) f¨ von x zur Basis b. Nach Konstruktion ist − log2 (pe ) ≤ l(e) ≤ 1 − log2 (pe ). Also ist die erwartete L¨ange − pe log2 (pe ) ≤ Lp (C) ≤ 1 − pe log2 (pe ). e∈E
e∈E
114
5 Momente und Gesetze der Großen Zahl
Die L¨ange dieses n Codes f¨ur die ersten n Zeichen unserer zuf¨alligen Quelle ist also ungef¨ahr k=1 log2 (pXk (ω) ) = log2 πn (ω), womit wir den Ankn¨upfungspunkt zum Satz von Shannon haben. Dieser trifft also eine Aussage u¨ ber die L¨ange eines ¨ Bin¨arcodes, der zur Ubertragung einer langen Nachricht gebraucht wird. Ist nun der oben angegebene Code optimal, oder gibt es Codes mit geringerer erwarteter L¨ange? Antwort gibt der Quellenkodierungssatz, den wir hier mit einer Definition und einem Lemma vorbereiten. Definition 5.25 (Entropie). Sei p = (pe )e∈E eine Wahrscheinlichkeitsverteilung auf einer h¨ochstens abz¨ahlbaren Menge E. F¨ur b > 0 definieren wir pe logb (pe ), Hb (p) := − e∈E
wobei wir 0 logb (0) := 0 festlegen. Wir nennen H(p) := He (p) (e die Euler’sche Zahl) die Entropie und H2 (p) die bin¨are Entropie von p. Man beachte, dass nur f¨ur endliches E die Entropie stets endlich ist. Lemma 5.26 (Entropie-Ungleichung). Seien b und p wie oben. Ferner sei q eine Sub-Wahrscheinlichkeitsverteilung, also qe ≥ 0 f¨ur jedes e ∈ E und e∈E qe ≤ 1. Dann gilt pe logb (qe ) (5.9) Hb (p) ≤ − e∈E
mit Gleichheit genau dann, wenn Hb (p) = ∞ oder q = p. Beweis. Ohne Einschr¨ankung k¨onnen wir mit b = e, also mit dem nat¨urlichen Logarithmus rechnen. Es gilt log(1 + x) ≤ x f¨ur x > −1 mit Gleichheit genau dann, wenn x = 0 ist. Ist in (5.9) die linke oder die rechte Seite endlich, so k¨onnen wir die rechte von der linken Seite abziehen und erhalten pe log(qe ) = pe log(qe /pe ) H(p) + e∈E
e: pe >0
qe − p e pe log 1 + = pe e: pe >0
qe − pe ≤ qe − pe ≤ 0. pe = p e e: p >0
e
e∈E
Ist q = p, so ist qe = pe f¨ur ein e ∈ E mit pe > 0. Ist dies nun der Fall, so gilt strikte Ungleichheit, falls H(p) < ∞. 2 Satz 5.27 (Quellenkodierungssatz). Sei p = (pe )e∈E eine Wahrscheinlichkeitsverteilung auf dem endlichen Alphabet E. F¨ur jeden bin¨aren Pr¨afixcode C = (c(e), e ∈ E) gilt Lp (C) ≥ H2 (p), und es gibt einen solchen Code C mit Lp (C) ≤ H2 (p) + 1.
5.4 Konvergenzrate im starken GGZ
115
Beweis. Der zweite Teil des Satzes wurde durch die obige Konstruktion schon gezeigt. Sei nun also ein Pr¨afixcode gegeben. Sei L = maxe∈E l(e). F¨ur e ∈ E sei CL (e) = {c ∈ {0, 1}L : ck = ck (e) f¨ur k ≤ l(e)} die Menge aller Bin¨arfolgen der L¨ange L, die wie c(e) beginnen. Da wireinen Pr¨afixcode vorliegen haben, sind die CL (e), e ∈ E, paarweise disjunkt und e∈E CL (e) ⊂ {0, 1}L . Setzen wir also qe := 2−l(e) , so ist (beachte: #CL (e) = 2L−l(e) ) qe = 2−L #CL (e) ≤ 1. e∈E
Nach Lemma 5.26 gilt Lp (C) =
e∈E
pe l(e) = −
e∈E
pe log2 (qe ) ≥ H2 (p).
2
e∈E
¨ Ubung 5.3.1. Man zeige die folgende Verbesserung von Satz 5.16: Sind X1 , X2 , . . . ∈ L2 (P) paarweise unabh¨angig mit beschr¨ankten Varianzen, so gen¨ugt (Xn )n∈N dem starken Gesetz der großen Zahl. ♣ ¨ Ubung 5.3.2. Man zeige: Ist (Xn )n∈N eine unabh¨angige Folge identisch verteilter n→∞ Zufallsvariablen mit n1 (X1 + . . . + Xn ) −→ Y fast sicher f¨ur eine Zufallsvariable Y , so ist X1 ∈ L1 (P) und Y = E[X1 ] fast sicher. Hinweis: Man zeige zun¨achst * ) P |Xn | > n f¨ur unendlich viele n = 0
⇐⇒
X1 ∈ L1 (P).
♣
¨ Ubung 5.3.3. Sei E endlich und p ein Wahrscheinlichkeitsvektor auf E. Man zeige, dass die Entropie H(p) minimal ist (n¨amlich Null), falls p = δe f¨ur ein e ∈ E und maximal (n¨amlich log(#E)), falls p die Gleichverteilung auf E ist. ♣ ¨ Ubung 5.3.4. Sei b ∈ {2, 3, 4, . . .}. Ein b-adischer Pr¨afixcode ist a¨ hnlich definiert wie ein bin¨arer Pr¨afixcode, jedoch sind jetzt als Zeichen die Zahlen 0, 1, . . . , b − 1 zugelassen. Man zeige, dass die Aussage des Quellenkodierungssatzes sinngem¨aß ♣ f¨ur b-adische Pr¨afixcodes gilt, mit Hb (p) statt H2 (p).
5.4 Konvergenzrate im starken GGZ Im schwachen Gesetz der großen Zahl hatten wir auch eine Aussage u¨ ber die Konvergenzgeschwindigkeit gemacht (Satz 5.14), im starken Gesetz der großen Zahl hingegen nicht. Da wir hier nur erste Momente der Zufallsvariablen gefordert hatten, k¨onnen wir auch keine brauchbaren allgemein g¨ultigen Aussagen erwarten. Nehmen wir hingegen h¨ohere Momente an, so bekommen wir n¨utzliche Aussagen zur Konvergenzgeschwindigkeit. Das Herzst¨uck des schwachen Gesetzes der großen Zahl ist die Chebyshev’sche Ungleichung. Hier geben wir eine sch¨arfere Ungleichung an, die mit der gleichen
116
5 Momente und Gesetze der Großen Zahl
oberen Schranke nun das Maximum u¨ ber alle Partialsummen bis zu einer bestimmten Grenze absch¨atzt. Satz 5.28 (Kolmogorov’sche Ungleichung). Seien n ∈ N und X1 , X2 , . . . , Xn unabh¨angige Zufallsvariablen mit E[Xi ] = 0 und Var[Xi ] < ∞ f¨ur i = 1, . . . , n. Ferner sei Sk = X1 + . . . + Xk f¨ur k = 1, . . . , n. Dann gilt f¨ur jedes t > 0 * ) P max{Sk : k = 1, . . . , n} ≥ t ≤
t2
Var[Sn ] + Var[Sn ]
(5.10)
sowie die Kolmogorov’sche Ungleichung ) * P max{|Sk | : k = 1, . . . , n} ≥ t ≤ t−2 Var[Sn ].
(5.11)
In Satz 11.2 werden wir mit der Doob’schen Ungleichung eine Verallgemeinerung der Kolmogorov’schen Ungleichung kennen lernen. Beweis. Wir f¨uhren eine Zerlegung durch nach dem ersten Zeitpunkt τ , zu dem die Partialsummen t u¨ berschreiten. Sei also
τ := min k ∈ {1, . . . , n} : Sk ≥ t und Ak = {τ = k} f¨ur k = 1, . . . , n sowie A=
n
Ak =
max{Sk : k = 1, . . . , n} ≥ t .
k=1
Sei c ≥ 0. Die Zufallsvariable (Sk + c) Ak ist messbar bez¨uglich σ(X1 , . . . , Xk ), und Sn − Sk ist messbar bez¨uglich σ(Xk+1 , . . . , Xn ). Nach Satz 2.26 sind die beiden Zufallsvariablen unabh¨angig, und es gilt * ) * * ) ) E (Sk + c) Ak (Sn − Sk ) = E (Sk + c) Ak E Sn − Sk = 0. n Offenbar sind die Ereignisse A1 , . . . , An paarweise disjunkt, also k=1 Ak = A ≤ 1. Wir erhalten so * ) Var[Sn ] + c2 = E (Sn + c)2 . - n n * ) 2 (Sn + c) Ak = E (Sn + c)2 Ak ≥E k=1
= = ≥
n k=1 n k=1 n k=1
k=1
) E (Sk + c)2 + 2(Sk + c)(Sn − Sk ) + (Sn − Sk )2 ) E (Sk + c)2
* Ak
+
n k=1
) E (Sk + c)2
* Ak
.
) E (Sn − Sk )2
* Ak
* Ak
(5.12)
5.4 Konvergenzrate im starken GGZ
Wegen c ≥ 0 ist (Sk + c)2 durch n ) ≥ E (t + c)2
Ak
* Ak
≥ (t + c)2
Ak ,
117
also k¨onnen wir (5.12) fortsetzen
= (t + c)2 P[A].
k=1
F¨ur c = Var[Sn ]/t ≥ 0 erhalten wir Var[Sn ] Var[Sn ] + c2 c(t + c) tc = 2 . = = 2 2 2 (t + c) (t + c) t + tc t + Var[Sn ] Damit ist (5.10) gezeigt. Um (5.11) zu zeigen, w¨ahle τ¯ := min k ∈ {1, . . . , n} : |Sk | ≥ t und A¯k = {¯ τ = k} sowie A¯ = {¯ τ ≤ n}. Die obige Fortsetzung von (5.12) mit c > 0 ist jetzt nicht zul¨assig. Wenn wir aber c = 0 w¨ahlen, gilt Sk2 ≥ ¯ ≤ t−2 Var[Sn ].2 t2 A¯k . Mit der selben Rechnung wie in (5.12) erhalten wir P[A] P[A] ≤
Wir folgern aus der Kolmogorov’schen Ungleichung eine erste Versch¨arfung des starken Gesetzes der großen Zahl. Satz 5.29. Seien X1 , X2 , . . . unabh¨angige Zufallsvariablen mit E[Xn ] = 0 f¨ur jedes n ∈ N und V := sup{Var[Xn ] : n ∈ N} < ∞. Dann gilt f¨ur jedes ε > 0 lim sup n→∞
|Sn | 1/2 n (log(n))(1/2)+ε
=0
fast sicher.
Beweis. Setze kn = 2n und l(n) = n1/2 (log(n))(1/2)+ε f¨ur n ∈ N. F¨ur k ∈ N mit kn ≤ k ≤ kn+1 ist |Sk |/k ≤ 2|Sk |/kn+1 . Also reicht es, f¨ur δ > 0 zu zeigen, dass lim sup l(kn )−1 max{|Sk | : k ≤ kn } ≤ δ n→∞
F¨ur δ > 0 und n ∈ N setze Aδn := Kolmogorov’sche Ungleichung liefert ∞
fast sicher.
(5.13)
max{|Sk | : k ≤ kn } > δ l(kn ) . Die
∞ ) * P Aδn ≤ δ −2 (l(kn ))−2 V kn =
∞
V n−1−2ε < ∞. 2 1+2ε δ (log 2) n=1 n=1 n=1 * ) 2 Das Borel Cantelli Lemma liefert nun P lim supn→∞ Aδn = 0, also (5.13). Wir werden in Kapitel 22 sehen, dass f¨ur unabh¨angige, identisch verteilte, quadratintegrierbare, zentrierte Zufallsvariablen X1 , X2 , . . . die folgende Versch¨arfung gilt lim sup 3 n→∞
|Sn | 2n Var[X1 ] log(log(n))
= 1 fast sicher.
Die Konvergenzrate ist also in diesem Fall genau bekannt. Sind die X1 , X2 , . . . nicht unabh¨angig, sondern nur paarweise unabh¨angig, so verschlechtert sich die Konvergenzrate, wenngleich nicht drastisch: Wir geben hier ohne Beweis einen Satz an, den Rademacher 1922 [134] und Menshov 1923 [111] unabh¨angig voneinander gefunden haben.
118
5 Momente und Gesetze der Großen Zahl
Satz 5.30 (Rademacher–Menshov). Seien X1 , X2 , . . . unkorrelierte quadratintegrierbare zentrierte Zufallsvariablen und (an )n∈N eine wachsende Folge nichtnegativer Zahlen mit ∞ (log n)2 a−2 (5.14) n Var[Xn ] < ∞. n=1
n −1 Dann gilt lim sup an Xk = 0 n→∞
fast sicher.
k=1
2
Beweis. Siehe etwa [120].
Bemerkung 5.31. Die Bedingung (5.14) ∞ ist scharf in2 dem Sinne, dass es f¨ur jede wachsende Folge (an )n∈N mit n=1 a−2 n (log n) = ∞ eine Folge paarweise unabh¨angiger, quadratintegrierbarer, zentrierter Zufallsvariablen X1 , X2 , . . . mit Var[Xn ] = 1 f¨ur jedes n ∈ N gibt, sodass n −1 Xk = ∞ fast sicher. lim sup an n→∞ k=1
Siehe [24]. Dort wird ein Beispiel von Tandori [151] f¨ur so genannte orthogonale Reihen weiter entwickelt. Siehe auch [114]. 3 F¨ur Zufallsvariablen mit unendlicher Varianz werden Aussagen u¨ ber die Konvergenzgeschwindigkeit naturgem¨aß schw¨acher. Es gilt beispielsweise (siehe [11]): Satz 5.32 (Baum und Katz (1965)). Sei γ > 1, und seien X1 , X2 , . . . u.i.v. sowie Sn = X1 + . . . + Xn f¨ur n ∈ N. Dann gilt ∞
nγ−2 P[|Sn |/n > ε] < ∞ f¨ur jedes ε > 0 ⇐⇒ E[|X1 |γ ] < ∞ und E[X1 = 0].
n=1
¨ Ubung 5.4.1. Seien X1 , . . . , Xn unabh¨angige, reelle Zufallsvariablen und Sk = X1 + . . . + Xk f¨ur jedes k = 1, . . . , n. Man zeige, dass f¨ur jedes t > 0 die Ungleichung von Etemadi gilt: ( ' ) * ♣ P max |Sk | ≥ t ≤ 3 max P |Sk | ≥ t/3 . k=1,...,n
k=1,...,n
5.5 Der Poissonprozess Wir wollen ein Modell f¨ur die Anzahl der Klicks entwickeln, die ein Geigerz¨ahler in einem (Zeit-)Intervall I = (a, b] macht. Die Anzahl der Klicks soll dabei
5.5 Der Poissonprozess
119
– zuf¨allig sein und unabh¨angig f¨ur disjunkte Intervalle, – zeitlich homogen in dem Sinne, dass die Anzahl der Klicks in I = (a, b] die selbe Verteilung hat, wie die Anzahl der Klicks in c + I = (a + c, b + c], – einen Erwartungswert besitzen, – keine Doppelpunkte aufweisen: der Z¨ahler macht zu jedem Zeitpunkt nur einen Klick. Wir formalisieren diese Forderungen, indem wir die Notation einf¨uhren: I := {(a, b] : a, b ∈ [0, ∞), a ≤ b}. ((a, b]) := b − a
(die L¨ange des Intervalls I = (a, b]).
F¨ur I ∈ I sei NI die Anzahl der Klicks nach Zeitpunkt a und nicht sp¨ater als b. Speziell setzen wir Nt := N(0,t] f¨ur die Gesamtzahl aller Klicks bis zur Zeit t. Die obigen Forderungen lassen sich nun u¨ bersetzen zu: (NI , I ∈ I) ist eine Familie von Zufallsvariablen mit Werten in N0 mit den Eigenschaften (P1) NI∪J = NI + NJ , falls I ∩ J = ∅ und I ∪ J ∈ I ist. (P2) Die Verteilung von NI h¨angt nur von der L¨ange von I ab: PNI = PNJ f¨ur alle I, J ∈ I mit (I) = (J). (P3) Ist J ⊂ I mit I ∩ J = ∅ f¨ur alle I, J ∈ J mit I = J, so ist (NJ , J ∈ J ) eine unabh¨angige Familie. (P4) F¨ur jedes I ∈ I gilt E[NI ] < ∞. (P5) Es gilt lim supε↓0 ε−1 P[Nε ≥ 2] = 0. Die Bedeutung von (P5) erkl¨art sich durch die folgende Rechnung: Setzen wir λ := k→∞ k→∞ lim supε↓0 ε−1 P[Nε ≥ 2], so ist (wegen (1 − ak /k)k −→ e−a , falls ak −→ a) + 2n , −1
P es gibt einen Doppelklick in (0, 1] = lim P N(k 2−n ,(k+1)2−n ] ≥ 2 )
*
n→∞
k=0
+ 2n , −1
N(k 2−n ,(k+1)2−n ] ≤ 1 = 1 − lim P n→∞
= 1 − lim
n→∞
k=0 n −1 2
) * P N(k 2−n ,(k+1)2−n ] ≤ 1
k=0
2n = 1 − lim 1 − P[N2−n ≥ 2] n→∞ −λ
=1−e
.
Wir m¨ussen also λ = 0 fordern; dies ist aber gerade (P5).
120
5 Momente und Gesetze der Großen Zahl
Der n¨achste Satz zeigt, dass die Bedingungen (P1) – (P5) die Zufallsvariablen (NI , I ∈ I) eindeutig charakterisieren und zwar als Poissonprozess. Definition 5.33 (Poissonprozess). Eine Familie (Nt , t ≥ 0) von N0 –wertigen Zufallsvariablen heißt Poissonprozess mit Intensit¨at α ≥ 0, falls N0 = 0 und: (i) F¨ur jedes n ∈ N und je n + 1 Zahlen 0 = t0 < t1 < . . . < tn ist die Familie (Nti − Nti−1 , i = 1, . . . , n) unabh¨angig. (ii) F¨ur t > s ≥ 0 ist Nt − Ns Poisson-verteilt mit Parameter α(t − s), also P[Nt − Ns = k] = e−α(t−s)
(α(t − s))k k!
f¨ur jedes k ∈ N0 .
Die Existenz eines Poissonprozesses ist an dieser Stelle noch nicht gesichert. Darauf kommen wir in Satz 5.35 zur¨uck. Satz 5.34. Erf¨ullt (NI , I ∈ I) die Bedingungen (P1) – (P5), so ist (N(0,t] , t ≥ 0) ein Poissonprozess mit Intensit¨at α := E[N(0,1] ]. Ist umgekehrt (Nt , t ≥ 0) ein Poissonprozess, so erf¨ullt (Nt − Ns , (s, t] ∈ I) die Bedingungen (P1)–(P5). Beweis. Sei zun¨achst (Nt , t ≥ 0) ein Poissonprozess mit Intensit¨at α ≥ 0. Dann ist f¨ur I = (a, b] offenbar PNI = Poiα(b−a) = Poiα(I) . Also gilt (P2). Wegen (i) gilt (P3). Offenbar ist E[NI ] = α (I) < ∞, also gilt (P4). Schließlich ist P[Nε ≥ 2] = 1 − e−αε − α ε e−αε = f (0) − f (αε), wobei f (x) := e−x + xe−x . Wir bilden die Ableitung f (x) = −xe−x . Dann ist offenbar lim ε−1 P[Nε ≥ 2] = −αf (0) = 0. ε↓0
Also gilt auch (P5). Erf¨ulle nun (NI , I ∈ I) die Bedingungen (P1) – (P5). Setze α(t) := E[Nt ]. Dann ist (wegen (P2)) * ) * ) * ) α(s + t) = E N(0,s] + N(s,s+t] = E N(0,s] + E N(0,t] = α(s) + α(t). Da t → α(t) monoton wachsend ist, folgt hieraus sogar α(t) = t α(1) f¨ur jedes t ≥ 0. Wir setzen α := α(1) und erhalten E[NI ] = α (I). Wir m¨ussen nur noch zeigen, dass PNt = Poiαt gilt. Um den Satz u¨ ber die Poissonapproximation (Satz 3.7) zu verwenden, zerlegen wir f¨ur festes n ∈ N, das Intervall (0, t] in 2n disjunkte gleich lange Intervalle
* k = 1, . . . , 2n , I n (k) := (k − 1)2−n t, k2−n t , und setzen X n (k) := NI n (k) sowie 1 1, X n (k) := 0,
falls X n (k) ≥ 1, sonst.
5.5 Der Poissonprozess
121
Nach den Annahmen (P2) und (P3) sind (X n (k), k = 1, . . . , 2n ) unabh¨angig und identisch verteilt. Daher ist auch (X n (k), k = 1, . . . , 2n ) unabh¨angig und identisch verteilt, n¨amlich X n (k) ∼ Berpn , wobei pn = P[N2−n t ≥ 1]. 2n Schließlich setzen wir Ntn := k=1 X n (k). Dann ist Ntn ∼ b2n ,pn . Offenbar ist Ntn+1 − Ntn ≥ 0. Nun gilt nach (P5) n
P [Nt = Ntn ] ≤
2
n→∞
P [X n (k) ≥ 2] = 2n P [N2−n t ≥ 2] −→ 0.
(5.15)
k=1
' ( Also ist P Nt = lim Ntn = 1. Nach dem Satz u¨ ber monotone Konvergenz gilt n→∞
α t = E [Nt ] = lim E [Ntn ] = lim pn 2n . n→∞
n→∞
Nach dem Satz u¨ ber Poisson-Approximation (Satz 3.7) gilt daher f¨ur jedes l ∈ N0 P[Nt = l] = lim P [Ntn = l] = Poiαt ({l}). n→∞
Also ist PNt = Poiα t .
2
Bislang steht noch der Nachweis aus, dass es u¨ berhaupt Poissonprozesse gibt. In Kapitel 24 werden wir ein allgemeines Konstruktionsprinzip kennen lernen, das auch ¨ f¨ur allgemeinere R¨aume als [0, ∞) funktioniert (siehe auch Ubung 5.5.1). Eine weitere, instruktive Konstruktion basiert auf den Wartezeiten zwischen den Klicks, oder formal zwischen den Unstetigkeitsstellen der Abbildung t → Nt (ω). Wie groß ist die Wahrscheinlichkeit, dass wir zur Zeit s auf den n¨achsten Klick des Z¨ahlers l¨anger als t Zeiteinheiten warten m¨ussen? Wenn wir die Klicks als Poissonprozess mit Intensit¨at α modellieren, ist diese Wahrscheinlichkeit * ) P N(s,s+t] = 0 = e−αt . Mithin ist die Wartezeit auf den n¨achsten Klick exponentialverteilt mit Parameter α. Außerdem sollten die Wartezeiten unabh¨angig voneinander sein. Wir nehmen nun die Wartezeiten als Startpunkt der Betrachtung und konstruieren hieraus den Poissonprozess. Sei W1 , W2 , . . . eine unabh¨angige Familie von exponentialverteilten Zufallsvariablen mit Parameter α > 0, also P[Wn > x] = e−αx . Wir setzen Tn :=
n
Wk
k=1
und interpretieren Wn als die Wartezeit zwischen dem (n − 1)-ten und dem nten Klick. Tn ist der Zeitpunkt des n-ten Klicks. In Anlehnung an diese Intuition definieren wir
122
5 Momente und Gesetze der Großen Zahl
Nt := #{n ∈ N0 : Tn ≤ t} als die Anzahl der Klicks bis zur Zeit t. Es ist dann {Nt = k} = {Tk ≤ t < Tk+1 }. Speziell ist also Nt eine Zufallsvariable. Satz 5.35. Die Familie (Nt , t ≥ 0) ist ein Poissonprozess mit Intensit¨at α. Beweis. (Wir folgen dem Beweis in [58].) Wir m¨ussen zeigen, dass f¨ur jedes n ∈ N und jede Folge 0 = t0 < t1 < . . . < tn gilt: (Nti − Nti−1 , i = 1, . . . , n) ist unabh¨angig und Nti − Nti−1 = Poiα(ti −ti−1 ) . Wir wissen zwar, dass es nicht ausreicht, dies nur f¨ur n = 2 zu zeigen. Allerdings wird der Schreibaufwand f¨ur n ≥ 3 extrem groß, und das Prinzip, wie man den Beweis f¨ur allgemeines n ∈ N f¨uhrt, wird klar, wenn man n = 2 untersucht hat. Daher beschr¨anken wir uns hier auf den Fall n = 2. Wir zeigen also, f¨ur 0 < s < t und l, k ∈ N0 (αs)k (α(t − s))l e−α(t−s) . P[Ns = k, Nt − Ns = l] = e−αs k! l!
(5.16)
Hieraus folgt, dass Ns und (Nt − Ns ) unabh¨angig sind. Außerdem folgt, indem wir u¨ ber k ∈ N0 summieren, dass Nt − Ns ∼ Poiα(t−s) . Nach Korollar 2.22 hat die Verteilung P(W1 ,...,Wk+l+1 ) die Dichte x → αk+l+1 e−αSk+l+1 (x) , wobei Sn (x) := x1 + . . . + xn . Es reicht nun, l ≥ 1 zu betrachten, da wir den (l = 0)-Term durch die Normierung des W-Maßes erhalten. Sei also l ≥ 1. Wir erhalten P[Ns = k, Nt − Ns = l] = P[Tk ≤ s < Tk+1 , Tk+l ≤ t < Tk+l+1 ] ∞ ∞ = ··· dx1 · · · dxk+l+1 0
α
0 k+l+1 −αSk+l+1 (x)
e
{Sk (x)≤s<Sk+1 (x)}
{Sk+l (x)≤t<Sk+l+1 (x)} ,
Wir integrieren nun sukzessive, mit xk+l+1 beginnend. Im ersten Schritt substituieren wir z = Sk+l+1 (x) und erhalten ∞ ∞ dxk+l+1 α e−αSk+l+1 (x) {Sk+l+1 (x)>t} = dz α e−αz = e−αt . 0
t
Nun halten wir x1 , . . . , xk fest und erhalten f¨ur die restlichen Variablen durch die Substitution y1 = Sk+1 (x) − s, y2 = xk+2 , . . . , yl = xk+l
5.5 Der Poissonprozess
0
∞
···
123
∞
dxk+1 · · · dxk+l {s<Sk+1 (x)≤Sk+l ≤t} ∞ ∞ (t − s)l . = ··· dy1 · · · dyl {y1 +...+yl ≤t−s} = l! 0 0 0
(Dies erh¨alt man zum Beispiel per Induktion u¨ ber l.) Wir integrieren nun u¨ ber die verbleibenden Variablen x1 , . . . , xk und erhalten ∞ ∞ sk ··· dx1 · · · dxk {Sk (x)≤s} = . k! 0 0 Insgesamt erhalten wir P[Ns = k, Nt − Ns = l] = e−αt αk+l
sk (t − s)l , k! l! 2
also (5.16).
¨ Ubung 5.5.1. Seien Rn , Ykn , k, n ∈ N unabh¨angige Zufallsvariablen mit Rn ∼ Poiα und Ykn ∼ U(n−1,n] (Gleichverteilung auf (n − 1, n]) f¨ur alle k, n ∈ N. Setze
Nt := # (k, n) ∈ N2 : k ≤ Rn und Ykn ≤ t . Man zeige, dass (Nt )t≥0 ein Poissonprozess mit Intensit¨at α ist.
♣
6 Konvergenzs¨atze
Im starken und schwachen Gesetz der großen Zahl hatten wir implizit schon die Begriffe von fast sicherer und stochastischer Konvergenz von Folgen von Zufallsvariablen kennen gelernt und gesehen, dass die fast sichere die stochastische Konvergenz impliziert. In diesem Kapitel definieren wir die Begriffe von fast sicherer und stochastischer Konvergenz sowie Konvergenz im Mittel von Folgen messbarer Abbildungen und setzen sie in Beziehung zueinander. Eine Schl¨usselrolle kommt dabei dem Konzept der gleichgradigen Integrierbarkeit zu.
¨ 6.1 Fast-uberallund stochastische Konvergenz Im Folgenden ist (Ω, A, μ) stets ein σ-endlicher Maßraum. Wir definieren zun¨achst Fast-¨uberall-Konvergenz und stochastische Konvergenz in metrischen R¨aumen und vergleichen dann beide Konzepte miteinander. Hierf¨ur ben¨otigen wir zun¨achst zwei Lemmata, die sicher stellen, dass die Abstandsfunktion zweier messbarer Abbildungen wieder messbar ist. Sei im Folgenden (E, d) ein separabler, metrischer Raum mit Borel’scher σ-Algebra B(E). Separabel“ heißt dabei bekanntlich, dass es ei” ne abz¨ahlbare, dichte Teilmenge gibt. F¨ur x ∈ E und r > 0 bezeichnen wir mit Br (x) = {y ∈ E : d(x, y) < r} die offene Kugel um x mit Radius r. Lemma 6.1. Seien f, g : Ω → E messbar bez¨uglich A – B(E). Dann ist die Abbildung H : Ω → [0, ∞), ω → d(f (ω), g(ω)) messbar bez¨uglich A – B([0, ∞)). Beweis. Sei F ⊂ E abz¨ahlbar und dicht. Nach der Dreiecksungleichung ist d(x, z) + d(z, y) ≥ d(x, y) f¨ur alle x, y ∈ E und f¨ur z ∈ F . Sei (zn )n∈N eine n→∞ n→∞ Folge in F mit zn −→ x. Da d stetig ist, gilt d(x, zn ) + d(zn , y) −→ d(x, y). Insgesamt haben wir inf z∈F (d(x, z) + d(z, y)) = d(x, y). Da x → d(x, z) stetig ist, also messbar, sind auch fz , gz : Ω → [0, ∞) mit fz (ω) = d(f (ω), z) und gz (ω) = d(g(ω), z) messbar, also auch fz + gz sowie H = inf z∈F (fz + gz ). (Etwas systematischer l¨asst sich der Satz zeigen, wenn wir benutzen, dass (f, g) messbar ist bez¨uglich A – B(E × E) (dies folgt aus Satz 14.8) und d : E × E → [0, ∞) stetig also messbar bez¨uglich B(E ×E) – B([0, ∞)). Als Verkn¨upfung messbarer Abbildungen ist dann auch ω → d(f (ω), g(ω)) messbar.) 2
126
6 Konvergenzs¨atze
Seien f, f1 , f2 , . . . : Ω → E messbar bez¨uglich A – B(E). Definition 6.2. Wir sagen: (fn )n∈N konvergiert gegen f stoch
(i) μ-stochastisch (oder dem Maße nach), in Formeln fn −→ f , wenn f¨ur jedes A ∈ A mit μ(A) < ∞ und f¨ur jedes ε > 0 gilt, dass n→∞
μ({d(f, fn ) > ε} ∩ A) −→ 0. f.¨u.
(ii) μ-fast uberall, in Formeln fn −→ f , wenn es eine μ-Nullmenge N ∈ A gibt, ¨ sodass f¨ur jedes ω ∈ Ω \ N gilt, dass n→∞
d(f (ω), fn (ω)) −→ 0. Ist μ ein W-Maß, so sagen wir in diesem Fall auch, dass (fn )n∈N fast sicher f.s. konvergiert und schreiben fn −→ f . Gelegentlich werden die Hinweise fast ” u¨ berall“ und fast sicher“ auch weglassen. ” Bemerkung 6.3. Fast-¨uberall-Konvergenz ist a¨ quivalent zur Fast-¨uberall-Konvergenz auf allen Mengen endlichen Maßes. 3 Bemerkung 6.4. Fast-¨uberall-Konvergenz impliziert die stochastische: Sei zu ε > 0 Dn (ε) = {d(f, fm ) > ε f¨ur ein m ≥ n}. ∞ Dann gilt D(ε) := n=1 Dn (ε) ⊂ N , wobei N die Nullmenge aus der Definition der F.¨u.-Konvergenz ist. Die σ-Stetigkeit von oben von μ impliziert μ(Dn (ε) ∩ n→∞ A) −→ μ(D(ε) ∩ A) = 0 f¨ur jedes A ∈ A mit μ(A) < ∞. 3 Bemerkung 6.5. Stochastische oder Fast-¨uberall-Konvergenz legen den Grenzwert stoch stoch eindeutig fest bis auf Gleichheit fast u¨ berall. In der Tat: Sei fn −→ f und fn −→ g. Seien A1 , A2 , . . . ∈ A mit An ↑ Ω und μ(An ) < ∞ f¨ur jedes n ∈ N. Dann ist (wegen d(f, g) ≤ d(f, fn ) + d(g, fn )) f¨ur jedes m ∈ N und ε > 0
μ Am ∩ {d(f, g) > ε}
n→∞
≤ μ Am ∩ {d(f, fn ) > ε/2} + μ Am ∩ {d(g, fn ) > ε/2} −→ 0.
Also ist μ {d(f, g) > 0} = 0. 3 Bemerkung 6.6. Im Allgemeinen impliziert stochastische Konvergenz nicht F.¨u.Konvergenz. In der Tat: Sei (Xn )n∈N eine unabh¨angige Familie von Zufallsvaristoch ablen mit Xn ∼ Ber1/n . Dann gilt Xn −→ 0, jedoch ist nach dem Lemma von 3 Borel-Cantelli lim supn→∞ Xn = 1 fast sicher.
6.1 Fast-¨uberall- und stochastische Konvergenz
127
Satz 6.7. Seien A1 , A2 , . . . ∈ A mit AN ↑ Ω und μ(AN ) < ∞ f¨ur jedes N ∈ N. F¨ur messbare f, g : Ω → E setze ˜ g) := d(f,
∞
2−N 1 + μ(AN )
N =1
1 ∧ d(f (ω), g(ω)) μ(dω).
(6.1)
AN
Dann ist d˜ eine Metrik, die die stochastische Konvergenz erzeugt: Sind f, f1 , f2 , . . . messbar, so gilt stoch ˜ fn ) n→∞ fn −→ f ⇐⇒ d(f, −→ 0. Beweis. F¨ur N ∈ N setze
d˜N (f, g) :=
1 ∧ d(f (ω), g(ω)) μ(dω).
AN n→∞
n→∞
˜ fn ) −→ 0, wenn d˜N (f, fn ) −→ 0 f¨ur jedes N ∈ N. Genau dann gilt d(f, ”
=⇒ “
stoch
Es gelte fn −→ f . Dann ist f¨ur jedes ε ∈ (0, 1)
n→∞ d˜N (f, fn ) ≤ μ AN ∩ {d(f, fn ) > ε} + ε μ(AN ) −→ ε μ(AN ).
n→∞ Da ε ∈ (0, 1) beliebig war, gilt d˜N (f, fn ) −→ 0.
˜ fn ) n→∞ ⇐= “ Es gelte d(f, −→ 0. Sei B ∈ A mit μ(B) < ∞. W¨ahle δ > 0 und ” N ∈ N so groß, dass μ(B \ AN ) < δ. Dann ist f¨ur ε ∈ (0, 1)
μ B ∩ {d(f, fn ) > ε} ≤ δ + μ AN ∩ {d(f, fn ) > ε} n→∞ ≤ δ + ε−1 d˜N (f, fn ) −→ δ.
n→∞ stoch Da δ > 0 beliebig war, folgt μ B ∩ {d(f, fn ) > ε} −→ 0, also fn −→ f .
2
Wir betrachten nun den wichtigen Fall E = R mit der euklidischen Metrik. Hier haben wir durch das Integral einen weiteren Konvergenzbegriff zur Verf¨ugung. Definition 6.8 (Konvergenz im Mittel). Seien f, f1 , f2 , . . . ∈ L1 (μ). Wir sagen (fn )n∈N konvergiere im Mittel gegen f , in Formeln L1
fn −→ f, n→∞
falls fn − f 1 −→ 0. L1
Bemerkung 6.9. Gilt fn −→ f , so gilt insbesondere
0
n→∞
fn dμ −→
0
f dμ.
3
128
6 Konvergenzs¨atze L1
L1
Bemerkung 6.10. Gilt fn −→ f und fn −→ g, so ist f = g fast u¨ berall. In der Tat n→∞ ist nach der Dreiecksungleichung f − g1 ≤ fn − f 1 + fn − g1 −→ 0. 3 Bemerkung 6.11. L1 -Konvergenz und F.¨u.-Konvergenz implizieren jeweils stochastische Konvergenz. Alle anderen Implikationen sind im Allgemeinen falsch. 3 Satz 6.12 (Schnelle Konvergenz). Sei (E, d) ein separabler, metrischer Raum. Damit die Folge (fn )n∈N messbarer Abbildungen Ω → E fast u¨ berall konvergiert, ist hinreichend, dass eine der folgenden Bedingungen gilt. (i) Es gilt E = R, es gibt ein p ∈ [1, ∞) mit fn ∈ Lp (μ) f¨ur jedes n ∈ N, und ∞ fn − f p < ∞. es gibt ein f ∈ Lp (μ) mit n=1
(ii) Es gibt ein messbares f mit
∞
μ(A ∩ {d(f, fn ) > ε}) < ∞ f¨ur jedes ε > 0
n=1
und f¨ur jedes A ∈ A mit μ(A) < ∞. n→∞
In beiden F¨allen gilt fn −→ f fast u¨ berall. (iii) E ist vollst¨andig, und es gibt eine summierbare Folge (εn )n∈N , sodass ∞
μ(A ∩ {d(fn , fn+1 ) > εn }) < ∞
f¨ur jedes A ∈ A mit μ(A) < ∞.
n=1
Beweis. Offenbar impliziert (i) schon (ii), denn nach der Markov’schen Ungleichung ist μ({|f − fn | > ε}) ≤ ε−p f − fn pp . Nach Bemerkung 6.3 reicht es, den Fall μ(Ω) < ∞ zu betrachten. Gelte nun (ii). Sei Bn (ε) = {d(f, fn ) > ε} und B(ε) = lim sup Bn (ε). Das ∞ n→∞ Lemma von Borel-Cantelli liefert μ(B(ε)) = 0. Sei N = n=1 B (1/n). Dann gilt n→∞ μ(N ) = 0 und fn (ω) −→ f (ω) f¨ur jedes ω ∈ Ω \ N. Gelte (iii). Sei Bn = {d(fn+1 , fn ) > εn } und B = lim sup Bn . Dann ist μ(B) = n→∞
0, und f¨ur jedes ω ∈ Ω\B ist (fn (ω))n∈N eine Cauchy-Folge in E. Da E vollst¨andig 2 ist, existiert der Limes f (ω) := limn→∞ fn (ω). F¨ur ω ∈ B setze f (ω) = 0. Korollar 6.13. Sei (E, d) vollst¨andig und separabel. Seien f, f1 , f2 , . . . messbare Abbildungen Ω → E. Dann sind die beiden folgenden Aussagen a¨ quivalent. n→∞
(i) fn −→ f stochastisch, (ii) Zu jeder Teilfolge von (fn )n∈N existiert eine gegen f fast u¨ berall konvergente Teilfolge.
6.1 Fast-¨uberall- und stochastische Konvergenz
129
Beweis. (ii) =⇒ (i)“ Wir nehmen an, dass (i) nicht gilt. Dann gibt es ein ε > 0 ” ˜ n,k , f ) > ε f¨ur jedes k ∈ N. Offenbar konverund eine Teilfolge (fnk )k∈N mit d(f giert keine Teilfolge von (fnk )k∈N stochastisch gegen f , also auch nicht f.¨u. (i) =⇒ (ii)“ Gelte nun (i). Nach Bemerkung 6.3 k¨onnen wir ohne Einschr¨an” stoch kung annehmen, dass μ(Ω) < ∞ gilt. Sei nk ↑ ∞ beliebig. Wegen fnk −→ f f¨ur k → ∞, k¨onnen wir eine Teilfolge (fnkl )l∈N w¨ahlen, sodass ∞ 1 μ |f − fnkl | > < ∞. l l=1
2
Nach Satz 6.12(ii) konvergiert (fnkl )l∈N fast u¨ berall gegen f .
Korollar 6.14. Ist (Ω, A, μ) ein Maßraum, bei dem stochastische und F.¨u.-Konvergenz nicht zusammenfallen, so gibt es keine Topologie auf der Menge der messbaren Abbildungen Ω → E, die die F.¨u.-Konvergenz erzeugt. Beweis. Wir nehmen an, dass es eine Topologie gibt, die die F.¨u.-Konvergenz erstoch zeugt. Seien f, f1 , f2 , . . . messbare Abbildungen mit der Eigenschaft, dass fn −→ n→∞ f , jedoch nicht fn −→ f fast u¨ berall. Sei nun U eine offene Menge, die f enth¨alt, f¨ur die jedoch fn ∈ U f¨ur unendlich viele n ∈ N gilt. Sei also (fnk )k∈N eine Teilk→∞
folge mit fnk ∈ U f¨ur jedes k ∈ N. Wegen fnk −→ f stochastisch, gibt es nach l→∞
Korollar 6.13 wiederum eine Teilfolge (fnkl )l∈N von (fnk )k∈N mit fnkl −→ f fast u¨ berall. Es ist dann aber fnkl ∈ U f¨ur alle bis auf endlich viele l, was einen Widerspruch darstellt. 2 Korollar 6.15. Sei (E, d) ein separabler, vollst¨andiger metrischer Raum. Es sei (fn )n∈N eine stochastische Cauchy-Folge in E, das heißt, f¨ur jedes A ∈ A mit μ(A) < ∞ und jedes ε > 0 gilt
μ A ∩ {d(fn , fm ) > ε} −→ 0 f¨ur m, n → ∞. Dann konvergiert (fn )n∈N stochastisch. Beweis. Ohne Einschr¨ankung kann μ(Ω) < ∞ angenommen werden. W¨ahle eine Teilfolge (fnk )k∈N , sodass
μ d(fn , fnk ) > 2−k < 2−k f¨ur jedes n ≥ nk . k→∞
Nach Satz 6.12(iii) gibt es ein f mit fnk −→ f fast u¨ berall, also insbesondere k→∞
μ({d(fnk , f ) > ε/2}) −→ 0 f¨ur jedes ε > 0. Nun ist aber μ({d(fn , f ) > ε}) ≤ μ({d(fnk , fn ) > ε/2}) + μ({d(fnk , f ) > ε/2}). Ist k so groß, dass 2−k < ε/2 ist und n ≥ nk , so ist der erste Summand kleiner als stoch n→∞ 2 2−k , also gilt μ({d(fn , f ) > ε}) −→ 0, das heißt, es gilt fn −→ f .
130
6 Konvergenzs¨atze
¨ Ubung 6.1.1. Man zeige: Ist Ω h¨ochstens abz¨ahlbar, so folgt aus stochastischer Konvergenz schon F.¨u.-Konvergenz. ♣ ¨ Ubung 6.1.2. Man gebe jeweils ein Beispiel an f¨ur eine Folge, die (i) in L1 konvergiert, aber nicht fast u¨ berall, (ii) fast u¨ berall konvergiert, aber nicht in L1 .
♣
¨ Ubung 6.1.3. (Satz von Egorov (1911)) Sei (Ω, A, μ) ein endlicher Maßraum, und seien f1 , f2 , . . . messbare Funktionen, die fast u¨ berall gegen ein f konvergieren. Man zeige: Zu jedem ε > 0 gibt es eine Menge A ∈ A mit μ(Ω \ A) < ε und n→∞ supω∈A |fn (ω) − f (ω)| −→ 0. ♣ ¨ Ubung 6.1.4. Man zeige: Sind X1 , X2 , . . . unabh¨angige, ∞quadratintegrierbare Zufallsvariablen mit E[Xi ] = 0 f¨ur jedes i ∈ N und i=1 Var[Xi ] < ∞, dann n existiert ein quadratintegrierbares X mit X = limn→∞ i=1 Xi fast sicher. ♣
6.2 Gleichgradige Integrierbarkeit Wie bekommt man nun die Konvergenz im Mittel aus der F.¨u.-Konvergenz? Das notwendige Additiv ist die gleichgradige Integrierbarkeit. Definition 6.16. Eine Familie F ⊂ L1 (μ) heißt gleichgradig integrierbar, falls
+ inf1 sup (6.2) |f | − g dμ = 0. 0≤g∈L (μ) f ∈F
Satz 6.17. Die Familie F ⊂ L1 (μ) ist genau dann gleichgradig integrierbar, wenn inf 1 sup |f | dμ = 0. (6.3) 0≤ g ∈L (μ) f ∈F
{|f |> g}
Ist μ(Ω) < ∞, so ist die gleichgradige Integrierbarkeit a¨ quivalent zu jeder der beiden folgenden Bedingungen (i) inf sup (|f | − a)+ dμ = 0, a∈[0,∞) f ∈F
(ii)
inf
|f | dμ = 0.
sup
a∈[0,∞) f ∈F
{|f |>a}
6.2 Gleichgradige Integrierbarkeit
Beweis. Offenbar gilt (|f | − g)+ ≤ |f | · gradige Integrierbarkeit.
{|f |>g} ,
also impliziert (6.3) die gleich-
Gelte nun (6.2). F¨ur jedes ε > 0 sei gε ∈ L1 (μ) so gew¨ahlt, dass sup (|f | − gε )+ dμ ≤ ε. f ∈F
Setze gε = 2gε/2 . Dann ist f¨ur f ∈ F |f | dμ ≤ (|f | − gε/2 )+ dμ + {|f |>gε }
{|f |>gε }
131
(6.4)
gε/2 dμ.
{|f |>gε }
0
Per Konstruktion ist {|f |>gε } (|f | − gε/2 )+ dμ ≤ ε/2 und gε/2 {|f |>gε } ≤ (|f | − 0 0 gε/2 )+ {|f |>gε } , also auch {|f |>gε } gε/2 dμ ≤ |f |>gε (|f | − gε/2 )+ dμ ≤ ε/2. Insgesamt haben wir also |f | dμ ≤ ε. (6.5) sup f ∈F
{|f |>gε }
Offenbar impliziert (ii) schon (i), und (i) impliziert die gleichgradige Integrierbarkeit von F , denn das Infimum wird hier ja u¨ ber die kleinere Menge der konstanten Funktionen gebildet. Wir m¨ussen noch zeigen, dass gleichgradige Integrierbarkeit (ii) impliziert. Sei also F gleichgradig integrierbar und μ(Ω) 0 < ∞. Zu gegebenem ε > 0 (und gε und g˜ε wie oben) w¨ahlen wir aε so, dass {gε/2 >aε } gε/2 dμ < 2ε . Dann ist |f | dμ ≤ |f | dμ + gε/2 dμ < ε. 2 {|f |>aε }
{|f |> gε/2 }
{ gε/2 >aε }
Satz 6.18. (i) Ist F ⊂ L1 (μ) eine endliche Menge, so ist F gleichgradig integrierbar. (ii) Sind F , G ⊂ L1 (μ) gleichgradig integrierbar, dann sind auch (f + g : f ∈ F , g ∈ G) und (f − g : f ∈ F, g ∈ G) sowie {|f | : f ∈ F } gleichgradig integrierbar. (iii) Ist F gleichgradig integrierbar und existiert zu jedem g ∈ G ein f ∈ F mit |g| ≤ |f |, so ist auch G gleichgradig integrierbar. ¨ Beweis. Der einfache Beweis verbleibt zur Ubung.
2
Der folgende Satz beschreibt ein sehr gut anwendbares Kriterium f¨ur gleichgradige Integrierbarkeit. Wir werden diesen Satz an vielen Stellen einsetzen.
132
6 Konvergenzs¨atze
Satz 6.19. F¨ur endliches μ ist F ⊂ L1 (μ) genau dann gleichgradig integrierbar, wenn es eine Funktion H : [0, ∞) → [0, ∞) gibt mit limx→∞ H(x)/x = ∞ und sup H(|f |) dμ < ∞. f ∈F
H kann sogar monoton wachsend und konvex gew¨ahlt werden. Beweis. ⇐= “ Es existiere H mit den angegebenen Eigenschaften. Dann gilt ” ↑ ∞, wenn a ↑ ∞. Also ist f¨ur a > 0 Ka := inf x≥a H(x) x 1 |f | dμ ≤ sup H(|f |) dμ sup Ka f ∈F {|f |≥a} f ∈F {|f |≥a} 1 a→∞ sup H (|f |) dμ −→ 0. ≤ Ka f ∈F =⇒ “ Sei F gleichgradig integrierbar. Da μ(Ω) < ∞ gilt, gibt es (nach ” Satz 6.17) eine Folge an ↑ ∞ mit sup (|f | − an )+ dμ < 2−n . f ∈F
Wir setzen H(x) =
∞
(x − an )+
f¨ur jedes x ≥ 0.
n=1
Dann ist H als Summe konvexer nFunktionen konvex. Ferner gilt f¨ur jedes n ∈ N und x ≥ 2an , dass H(x)/x ≥ k=1 (1 − ak /x)+ ≥ n/2, also gilt H(x)/x ↑ ∞. Schließlich ist nach dem Satz u¨ ber monotone Konvergenz f¨ur jedes f ∈ F H(|f (ω)|) μ(dω) =
∞
(|f | − an ) dμ ≤ +
n=1
∞
2−n = 1.
3
n=1
Zur Notation · p erinnere man sich an Definition 4.16. Definition 6.20. Sei p ∈ [1, ∞]. Eine Familie F ⊂ Lp (μ) heißt beschr¨ankt in Lp (μ), falls sup{f p : f ∈ F} < ∞ gilt. Korollar 6.21. Ist μ(Ω) < ∞ und p > 1 sowie F beschr¨ankt in Lp (μ), dann ist F gleichgradig integrierbar. Beweis. Wende Satz 6.19 an mit der konvexen Abbildung H(x) = xp .
2
6.2 Gleichgradige Integrierbarkeit
133
Korollar 6.22. Ist (Xi )i∈I eine Familie von Zufallsvariablen mit sup{|E[Xi ]| : i ∈ I} < ∞ und sup{Var[Xi ] : i ∈ I} < ∞, dann ist (Xi )i∈I gleichgradig integrierbar. Beweis. Dies folgt aus Korollar 6.21 mit p = 2, denn E[Xi2 ] = E[Xi ]2 + Var[Xi ] ist in i ∈ I beschr¨ankt. 2 Lemma 6.23. Es existiert eine Abbildung h ∈ L1 (μ) mit h > 0 fast u¨ berall. Beweis. Seien A1 , A2 , . . . , ∈ A mit An ↑ Ω und μ(An ) < ∞ f¨ur n ∈ N. Setze h=
∞
2−n 1 + μ(An ))−1
An .
n=1
Dann ist h > 0 fast u¨ berall und
0
h dμ ≤
∞ n=1
μ(An ) 2−n 1+μ(A ≤ 1. n)
2
Satz 6.24. Eine Familie F ⊂ L1 (μ) ist genau dann gleichgradig integrierbar, wenn die beiden folgenden Bedingungen erf¨ullt sind. (i) C := sup |f | dμ < ∞. f ∈F
(ii) Es gibt eine Funktion 0 ≤ h ∈ L1 (μ), sodass f¨ur jedes ε > 0 ein δ(ε) > 0 existiert mit |f | dμ ≤ ε f¨ur jedes A ∈ A mit h dμ < δ(ε). sup f ∈F
A
A
Ist μ(Ω) < ∞, so ist (ii) gleichwertig mit (iii): (iii) F¨ur jedes ε > 0 gibt es ein δ(ε) > 0, sodass |f | dμ ≤ ε f¨ur jedes A ∈ A mit μ(A) < δ(ε). sup f ∈F
A
Beweis. =⇒ “ Sei F gleichgradig integrierbar. Sei h ∈ L1 (μ) mit h > 0 ” fast u¨ berall. Sei ε > 0 und gε/3 eine ε/3–Schranke f¨ur F (wie in (6.5)). Wegen gε/3 ≥ αh ↓ ∅ f¨ur α → ∞, gilt f¨ur hinreichend großes α = α(ε) ε gε/3 dμ < . 3 g ε/3 ≥αh Mit δ(ε) :=
ε 3α(ε)
gilt dann f¨ur jedes A ∈ A mit
0 A
h dμ < δ(ε) und jedes f ∈ F
134
6 Konvergenzs¨atze
|f | dμ ≤
|f | dμ +
gε/3 dμ
{|f |> gε/3 }
A
≤
ε + α 3
A
gε/3 dμ ≤ ε.
h dμ + g ε/3 ≥αh
A
Damit ist (ii) gezeigt. Setzen wir in die Rechnung A = Ω ein, so erhalten wir 2ε + α h dμ < ∞. |f | dμ ≤ 3 Damit ist auch (i) gezeigt. ⇐= “ Es gelten (i) und (ii). Sei ε > 0. W¨ahle h und δ(ε) > 0 wie in (ii) und C ” C h. Dann ist wie in (i). Setze h = δ(ε)
δ(ε) h dμ = C
{|f |> h}
δ(ε) h dμ ≤ C
|f | dμ ≤ δ(ε),
{|f |> h}
|f | dμ < ε.
also nach Voraussetzung {|f |> h}
(ii) =⇒ (iii)“ Es gelte (ii).0 Sei ε > 0 und δ = δ(ε) wie in (ii) gew¨ahlt. Sei ” K < ∞ so groß gew¨ahlt, dass {h≥K} h dμ < δ/2. F¨ur A ∈ A mit μ(A) < δ/(2K) ist dann h dμ ≤ Kμ(A) + h dμ < δ, also
{h≥K}
A
0 A
|f | dμ ≤ ε f¨ur jedes f ∈ F.
(iii) =⇒ (ii)“ ”
Gelten (iii) und μ(Ω) < ∞, so leistet h ≡ 1 das Gew¨unschte. 2
Wir kommen zum Hauptsatz dieses Abschnittes. Satz 6.25. Sei {fn : n ∈ N} ⊂ L1 (μ). Die folgenden Aussagen sind a¨ quivalent. n→∞
(i) Es gibt ein f ∈ L1 (μ) mit fn −→ f in L1 . (ii) (fn )n∈N ist L1 (μ)-Cauchy-Folge, also fn − fm 1 −→ 0 f¨ur m, n → ∞. (iii) (fn )n∈N ist gleichgradig integrierbar, und es gibt eine messbare Abbildung f stoch mit fn −→ f . Die Limiten in (i) und (iii) stimmen u¨ berein.
6.2 Gleichgradige Integrierbarkeit
135
Beweis. (i) =⇒ (ii)“ Dies ist klar. ” (ii) =⇒ (iii)“ F¨ur jedes ε > 0 gibt es ein nε ∈ N, sodass fn − fnε 1 < ε f¨ur ” jedes n ≥ nε gilt. Also ist f¨ur jedes n ≥ nε auch (|fn | − |fnε |)+ 1 < ε. Mithin ist gε = max{|f1 |, . . . , |fnε |} eine ε-Schranke f¨ur (fn )n∈N (wie in (6.4)). F¨ur ε > 0 ist μ({|fm − fn | > ε}) ≤ ε−1 fm − fn 1 −→ 0 f¨ur m, n → ∞. Deshalb ist (fn )n∈N auch eine stochastische Cauchy-Folge, also stochastisch konvergent nach Korollar 6.15. (iii) =⇒ (i)“ Sei f der stochastische Grenzwert der Folge (fn )n∈N . Wir nehmen ” an, dass (fn )n∈N nicht in L1 gegen f konvergiert. Dann gibt es ein ε > 0 und eine Teilfolge (fnk )k∈N mit f − fnk 1 > 2ε
f¨ur jedes k ∈ N,
(6.6)
wobei wir f − fnk 1 = ∞ setzen, falls f ∈ L (μ) ist. Nach Korollar 6.13 gibt 1
k→∞
es eine Teilfolge (fnk )k∈N von (fnk )k∈N mit fnk −→ f fast u¨ berall. Nach dem Lemma von Fatou (Satz 4.21) mit 0 als Minorante gilt daher |f | dμ ≤ lim inf |fnk | dμ < ∞. k→∞
Also ist f ∈ L (μ). Nach Satz 6.18(ii) (mit G = {f }) ist (f −fnk )n∈N gleichgradig 0 integrierbar, also gibt es ein 0 ≤ g ∈ L1 (μ), sodass (|f − fnk | − g)+ dμ < ε. Setze gk = |fnk − f | ∧ g f¨ur jedes k ∈ N. 1
k→∞
Dann gilt gk −→ 0 fast u¨ berall und g − gk ≥ 0. Nach dem Lemma von Fatou ist lim sup gk dμ = g dμ − lim inf (g − gk ) dμ k→∞ k→∞ ≤ g dμ − lim (g − gk ) dμ = 0. k→∞
Wegen {|f − fnk | > gk } = {|f − fnk | > g} ist also |f − fnk | dμ + lim sup gk dμ ≤ ε, lim sup f − fnk 1 ≤ lim sup k→∞
k→∞
{|f −fn |>g}
k→∞
k
im Widerspruch zu (6.6).
2
Korollar 6.26 (Lebesgue’scher Konvergenzsatz, majorisierte Konvergenz). Sei n→∞ f messbar und (fn )n∈N eine Folge in L1 (μ) mit fn −→ f stochastisch. Es existiere eine integrierbare Majorante 0 ≤ g ∈ L1 (μ) mit |fn | ≤ g fast u¨ berall f¨ur n→∞ jedes n ∈ N. Dann gilt f ∈ L1 (μ) und fn −→ f in L1 , also insbesondere 0 n→∞ 0 fn dμ −→ f dμ.
136
6 Konvergenzs¨atze
Beweis. Das folgt aus Satz 6.25, weil die Majorante die gleichgradige Integrierbar2 keit der Folge (fn )n∈N sichert. ¨ Ubung 6.2.1. Sei H ∈ L1 (μ) mit H > 0 μ-f.¨u. (siehe Lemma 6.23) und (E, d) ein separabler metrischer Raum. Man zeige: (i) Durch
dH (f, g) :=
1 ∧ d(f (ω), g(ω)) H(ω) μ(dω)
wird eine Metrik definiert, die die stochastische Konvergenz erzeugt. (ii) Ist (E, d) vollst¨andig, so ist dH vollst¨andig.
♣
6.3 Vertauschung von Integral und Ableitung Wir wollen untersuchen, wie sich Eigenschaften wie Stetigkeit und Differenzierbarkeit von Zweiparameterfunktionen unter Integration nach einer Variablen erhalten. Satz 6.27 (Stetigkeitslemma). Sei (E, d) ein metrischer Raum, x0 ∈ E und f : Ω × E → R eine Abbildung mit den Eigenschaften (i) f¨ur jedes x ∈ E ist die Abbildung ω → f (ω, x) in L1 (μ), (ii) f¨ur fast alle ω ∈ Ω ist die Abbildung x → f (ω, x) stetig im Punkte x0 , (iii) die Abbildung h : ω → supx∈E |f (ω, x)| ist in L1 (μ). Dann ist die Abbildung F : E → R, x → f (ω, x) μ(dω) stetig in x0 . Beweis. Sei (xn )n∈N eine Folge in E mit lim xn = x0 . Setze fn = f ( · , xn ). n→∞ n→∞
Nach Voraussetzung ist |fn | ≤ h und fn −→ f ( · , x0 ) fast u¨ berall. Nach dem Satz von der majorisierten Konvergenz (Korollar 6.26) ist n→∞ F (xn ) = fn dμ −→ f ( · , x0 ) dμ = F (x0 ). Also ist F stetig in x0 .
2
6.3 Vertauschung von Integral und Ableitung
137
Satz 6.28 (Differentiationslemma). Sei I ⊂ R ein nichttriviales, offenes Intervall und f : Ω × I eine Abbildung mit den Eigenschaften (i) f¨ur jedes x ∈ I ist (ω → f (ω, x)) ∈ L1 (μ), (ii) f¨ur fast alle ω ∈ Ω ist I → R, x → f (ω, x) differenzierbar, wobei wir die Ableitung mit f bezeichnen, (iii) h := supx∈I |f ( · , x)| ∈ L1 (μ). Dann gilt: F¨ur jedes x ∈ I ist f ( · , x) ∈ L1 (μ). Die Funktion F : x → 0 f (ω, x) μ(dω) ist differenzierbar mit Ableitung F (x) = f (ω, x) μ(dω).
Beweis. Sei x0 ∈ I und (xn )n∈N eine Folge in I mit xn = x0 f¨ur jedes n ∈ N, sowie lim xn = x0 . Wir zeigen, dass entlang der Folge (xn )n∈N die Differenzenn→∞ quotienten konvergieren. Setze gn (ω) =
f (ω, xn ) − f (ω, x0 ) xn − x0
f¨ur jedes ω ∈ Ω.
Nach Voraussetzung (ii) gilt gn −→ f ( · , x0 ) n→∞
μ − fast u¨ berall.
Nach dem Zwischenwertsatz der Differentialrechnung existiert zu jedem n ∈ N und fast jedem ω ∈ Ω ein yn (ω) ∈ I mit gn (ω) = f (ω, yn (ω)). Speziell ist |gn | ≤ h f¨ur jedes n ∈ N. Nach dem Satz von der majorisierten Konvergenz (Korollar 6.26) ist also die Grenzfunktion f ( · , x0 ) in L1 (μ) und F (xn ) − F (x0 ) lim = lim 2 gn (ω) μ(dω) = f (ω, x0 ) μ(dω). n→∞ n→∞ xn − x0 Beispiel 6.29. (Laplace-Transformation) Sei X eine nichtnegative Zufallsvariable auf (Ω, A, P), I = [0, ∞) und f (x, λ) = e−λx f¨ur λ ∈ I. Dann ist * ) F (λ) = E e−λX in (0, ∞) unendlich oft differenzierbar. Die ersten Ableitungen sind F (λ) = −E[Xe−λX ] und F (λ) = E[(X 2 )e−λX ]. Sukzessive erhalten wir die n-te Ableitung F (n) (λ) = E[(−X)n e−λX ]. Es gilt (monotone Konvergenz) E[X] = − lim F (λ) λ↓0
(6.7)
138
6 Konvergenzs¨atze
und E[X n ] = (−1)n lim F (n) (λ) λ↓0
In der Tat: F¨ur ε > 0 und I = (ε, ∞) ist
sup x≥0, λ∈I
f¨ur jedes n ∈ N.
d dλ f (x, λ)
=
(6.8) sup
x e−λx =
x≥0, λ∈I
f¨ur F . Iterativ erhalten ε−1 e−1 < ∞. Damit gelten die Voraussetzungen dn des Satzes n −n wir die Aussage f¨ur F (n) , denn dλ < ∞ f¨ur x ≥ 0 und n f (x, λ) ≤ (n/ε) e λ ≥ ε. 3 ¨ Ubung 6.3.1. Sei X eine Zufallsvariable auf (Ω, A, P) und
) * Λ(t) := log E etX f¨ur jedes t ∈ R. Man zeige, dass D := {t ∈ R : Λ(t) < ∞} ein nichtleeres Intervall ist, und dass Λ im Inneren von D unendlich oft differenzierbar ist. ♣
7 Lp -R¨aume und Satz von Radon-Nikodym
In diesem Kapitel wollen wir die R¨aume der Funktionen untersuchen, deren p-te Potenz integrierbar ist. Wir leiten in Abschnitt 7.2 zun¨achst wichtige Ungleichungen her (H¨older, Minkowski, Jensen) und untersuchen dann in Abschnitt 7.3 den Fall p = 2, wo wir Hilbertr¨aume vorliegen haben, im Detail. Neben den genannten Ungleichungen sind die wichtigsten Ergebnisse f¨ur die Stochastik der Zerlegungssatz von Lebesgue sowie der Satz von Radon-Nikodym in Abschnitt 7.4. Der Leser mag beim ersten Lesen die anderen, eher analytisch als stochastisch ausgerichteten, Teile dieses Kapitels u¨ berschlagen.
7.1 Definitionen In Definition 4.16 hatten wir f¨ur messbares f : Ω → R definiert 1/p p f p := |f | dμ f¨ur p ∈ [1, ∞), und
f ∞ := inf K ≥ 0 : μ(|f | > K) = 0 .
Ferner hatten wir die R¨aume definiert, wo diese Ausdr¨ucke endlich sind Lp (Ω, A, μ) = Lp (A, μ) = Lp (μ) = {f : Ω → R ist messbar und f p < ∞}. Wir hatten gesehen, dass · 1 eine Pseudonorm auf L1 (μ) ist. Unser erstes Ziel ist es hier, · p zu einer echten Norm zu machen, und zwar f¨ur jedes p ∈ [1, ∞]. Abgesehen davon, dass die Dreiecksungleichung noch zu zeigen ist, m¨ussen wir zu diesem Zwecke auch den Raum ver¨andern, denn es gilt nur f − gp = 0
⇐⇒
f =g
μ-f.¨u.
Bei einer echten (also nicht nur Pseudo-)Norm muss aus der linken Seite schon Gleichheit (nicht nur f.¨u.) von f und g gelten. Wir sehen daher f und g als a¨ quivalent an, falls f = g fast u¨ berall. Sei also N = {f ist messbar und f = 0 μ-f.¨u.}.
7 Lp -R¨aume und Satz von Radon-Nikodym
140
F¨ur jedes p ∈ [1, ∞] ist N ein Untervektorraum von Lp (μ). Wir k¨onnen also formal den Quotientenraum bilden. Dies ist das Standardverfahren, um aus einer Pseudonorm, eine Norm zu machen. Definition 7.1 (Quotientenraum). F¨ur jedes p ∈ [1, ∞] definieren wir Lp (Ω, A, μ) := Lp (Ω, A, μ)/N = {f¯ := f + N : f ∈ Lp (μ)}. = = 0 0 F¨ur f¯ ∈ Lp (μ) setzen wir =f¯=p = f p f¨ur ein f ∈ f¯ und f¯ dμ = f dμ, falls dieser Ausdruck f¨ur f definiert ist. = = Man beachte, dass =f¯=p nicht von der Wahl des Repr¨asentanten f ∈ f¯ abh¨angt. Wir wollen jetzt zun¨achst die Konvergenz bez¨uglich · p untersuchen und erweitern dazu den entsprechenden Satz (Satz 6.25) u¨ ber die Konvergenz bez¨uglich · 1 . n→∞
Definition 7.2. Seien p ∈ [1, ∞] und f, f1 , f2 , . . . ∈ Lp (μ). Falls fn − f p −→ 0 gilt, so sagen wir, dass (fn )n∈N im p-ten Mittel gegen f konvergiere und schreiben Lp
fn −→ f. Satz 7.3. Seien p ∈ [1, ∞] und f1 , f2 , . . . ∈ Lp (μ). Dann sind a¨ quivalent: Lp
(i) Es gibt ein f ∈ Lp (μ) mit fn −→ f . (ii) (fn )n∈N ist eine Cauchy-Folge in Lp (μ). Ist p < ∞ so sind (i) und (ii) zudem a¨ quivalent zu (iii) (|fn |p )n∈N ist gleichgradig integrierbar, und es gibt ein messbares f mit stoch fn −→ f . Die Limiten in (i) und (iii) stimmen u¨ berein. ¨ Beweis. F¨ur p = ∞ ist die Aquivalenz von (i) und (ii) eine einfache Schlussfolgerung aus der Dreiecksungleichung. Sei nun p ∈ [1, ∞). Der Beweis verl¨auft a¨ hnlich wie der Beweis von Satz 6.25. F¨ur x, y ∈ R ist |x + y|p ≤ 2p (|x|p + |y|p ). Also ist
n→∞ fm − fn pp ≤ 2p fm − f pp + fn − f pp −→ 0 f¨ur m, n → ∞.
(i) =⇒ (ii)“ ”
(ii) =⇒ (iii)“ Das geht genauso wie im Beweis von Satz 6.25 ” n→∞ (iii) =⇒ (i)“ Wegen |fn |p −→ |f |p stoch., gilt |f |p ∈ L1 (μ) nach Satz 6.25, ” n→∞ p und damit f ∈ L (μ). Setze gn = |fn − f |p f¨ur n ∈ N. Dann ist gn −→ 0
7.2 Ungleichungen und Satz von Fischer-Riesz
141
stochastisch, und (gn )n∈N ist gleichgradig integrierbar, da gn ≤ 2p (|fn |p + |f |p ). n→∞ Also gilt (nach Satz 6.25) fn − f pp = gn 1 −→ 0. 2 ¨ Ubung 7.1.1. Seien (Xi )i∈N unabh¨angige, quadratintegrierbare Zufallsvariablen mit E[Xi ] = 0 f¨ur jedes i ∈ N. ∞ (i) Man zeige: Gilt i=1 Var[Xi ] < ∞, so existiert eine reelle Zufallsvariable n n→∞ X mit i=1 Xi −→ X fast sicher. ♣
(ii) Gilt in (i) auch die Umkehrung? ¨ Ubung 7.1.2. Sei f : Ω → R messbar. Zeige: (i) Gilt
0
p→∞
|f |p dμ < ∞ f¨ur ein p ∈ (0, ∞), so gilt f p −→ f ∞ .
(ii) Auf die Integrierbarkeitsbedingung in (i) kann nicht verzichtet werden.
♣
¨ Ubung 7.1.3. Sei p ∈ (1, ∞), f ∈ Lp (λ), wobei λ das Lebesgue-Maß auf R ist, und T : R → R, x → x + 1. Man zeige: n−1 1 n→∞ f ◦ T k −→ 0 n
in Lp (λ).
♣
k=0
7.2 Ungleichungen und Satz von Fischer-Riesz Wir wollen eine der wichtigsten Ungleichungen der Wahrscheinlichkeitstheorie, die Jensen’sche Ungleichung f¨ur konvexe Funktionen, herleiten. Aus dieser kann man die H¨older’sche Ungleichung und die Minkowski’sche Ungleichung folgern, die uns die Dreiecksungleichung f¨ur · p liefern sowie den Dualraum zu bestimmen helfen. Allerdings geben wir hier direkte (und einfachere) Beweise f¨ur die beiden letztgenannten Ungleichungen. Bevor wir zur Jensen’schen Ungleichung kommen, wiederholen wir kurz Grunds¨atzliches zur Konvexit¨at von Mengen und Funktionen. Definition 7.4. Eine Teilmenge G eines Vektorraums (beziehungsweise eines affinlinearen Raums) heißt konvex, falls f¨ur je zwei Punkte x, y ∈ G und jedes λ ∈ [0, 1] auch λx + (1 − λ)y ∈ G ist. Beispiele 7.5.
(i) Die konvexen Teilmengen von R sind die Intervalle.
(ii) Ein linearer Unterraum eines Vektorraums ist konvex. (iii) Die Menge aller W-Maße auf einem Messraum ist eine konvexe Menge
3
142
7 Lp -R¨aume und Satz von Radon-Nikodym
Definition 7.6. Sei G eine konvexe Menge. Eine Abbildung ϕ : G → R heißt konvex, falls f¨ur je zwei Punkte x, y ∈ G und jedes λ ∈ [0, 1] gilt ϕ(λx + (1 − λ)y) ≤ λϕ(x) + (1 − λ)ϕ(y). f heißt konkav, falls −f konvex ist. Ist I ⊂ R ein Intervall und ϕ : I → R stetig und im Inneren I ◦ zweimal stetig differenzierbar mit zweiter Ableitung ϕ , so ist ϕ genau dann konvex, wenn ϕ (x) ≥ 0 ist f¨ur alle x ∈ I ◦ . Anders ausgedr¨uckt: Die erste Ableitung ϕ einer konvexen Funktion ist eine monoton wachsende Funktion. Wir werden im n¨achsten Satz sehen, dass dies auch dann noch gilt, wenn ϕ nicht zweimal stetig differenzierbar ist, wenn wir zur rechtsseitigen Ableitung D+ ϕ u¨ bergehen (oder zur linksseitigen), von der wir zeigen, dass sie immer existiert. Satz 7.7. Sei I ⊂ R ein Intervall mit Innerem I ◦ , sowie ϕ : I → R eine konvexe Abbildung. Dann gilt: (i) ϕ ist stetig in I ◦ und insbesondere messbar bez¨uglich B(I). (ii) F¨ur x ∈ I ◦ definiere die Funktion der Differenzenquotienten gx (y) :=
ϕ(y) − ϕ(x) y−x
f¨ur y ∈ I \ {x}.
Dann ist gx monoton wachsend, und es existieren die links- und rechtsseitigen Ableitungen D− ϕ(x) := lim gx (y) = sup{gx (y) : y < x} y↑x
und D+ ϕ(x) := lim gx (y) = inf{gx (y) : y > x}. y↓x
(iii) F¨ur x ∈ I ◦ gilt D− ϕ(x) ≤ D+ ϕ(x) und ϕ(x) + (y − x)t ≤ ϕ(y) f¨ur jedes y ∈ I
⇐⇒
t ∈ [D− ϕ(x), D+ ϕ(x)].
D− ϕ(x) und D+ ϕ(x) sind also die minimale und die maximale Tangentensteigung in x. (iv) Die Abbildungen x → D− ϕ(x) und x → D+ ϕ(x) sind monoton wachsend. x → D− ϕ(x) ist linksstetig und x → D+ ϕ(x) ist rechtsstetig. Es gilt D− ϕ(x) = D+ ϕ(x) in allen Stetigkeitspunkten von D− ϕ und D+ ϕ. (v) ϕ ist genau dann in x differenzierbar, wenn D− ϕ(x) = D+ ϕ(x) ist. In diesem Fall ist die Ableitung ϕ (x) = D+ ϕ(x). 0b (vi) ϕ ist fast u¨ berall differenzierbar, und es gilt ϕ(b) − ϕ(a) = a D+ ϕ(x) dx f¨ur a, b ∈ I ◦ .
7.2 Ungleichungen und Satz von Fischer-Riesz
143
Beweis. (i) Sei x ∈ I ◦ . Wir nehmen an, dass lim inf n→∞ ϕ(x−1/n) ≤ ϕ(x)−ε f¨ur ein ε > 0 gilt. Da ϕ konvex ist, gilt ϕ(y) ≥ ϕ(x) + n(y − x)(ϕ(x) − ϕ(x − 1/n))
f¨ur jedes y > x und n ∈ N.
Zusammen mit der obigen Annahme folgt ϕ(y) = ∞ f¨ur jedes y > x. Mithin ¨ war die Annahme falsch. Die analoge Uberlegung f¨ur die rechte Seite liefert die Stetigkeit von ϕ in x. (ii)
Die Monotonie folgt aus der Konvexit¨at. Die anderen Aussagen sind klar.
(iii) Aufgrund der Monotonie von gx gilt D− ϕ(x) ≤ D+ ϕ(x). Per Konstruktion ist ϕ(x) + (y − x)t ≤ ϕ(y) f¨ur alle y < x genau dann, wenn t ≥ D− ϕ(x) ist und f¨ur alle y > x genau dann, wenn t ≤ D+ ϕ(x) ist. (iv) F¨ur ε > 0 ist aufgrund der Konvexit¨at x → gx (x + ε) monoton wachsend und nach (i) stetig. Als Infimum monotoner, stetiger Funktionen ist x → D+ ϕ(x) monoton wachsend und rechtsstetig. Analog folgt die Aussage f¨ur D− ϕ. Da x → gx (y) monoton ist, folgt D+ ϕ(x ) ≥ D− ϕ(x ) ≥ D+ ϕ(x) f¨ur x > x. Ist D+ ϕ stetig in x, so ist D− ϕ(x) = D+ ϕ(x). (v) Dies ist klar, da D− ϕ und D+ ϕ die Limiten der linksseitigen und rechtsseitigen Sekantensteigungsfolgen sind. (vi) F¨ur ε > 0 sei Aε = {x ∈ I : D+ ϕ(x) ≥ ε + limy↑x D+ ϕ(y)} die Menge der Unstetigkeitsstellen der H¨ohe mindestens ε. F¨ur je zwei Punkte a, b ∈ I mit a < b ist #(Aε ∩ (a, b)) ≤ ε−1 (D+ ϕ(b) − D+ ϕ(a)), also Aε∩ (a, b) eine endliche ∞ Menge. Daher ist Aε h¨ochstens abz¨ahlbar. Also ist auch A = n=1 A1/n h¨ochstens abz¨ahlbar und damit eine Nullmenge. Nach (iv) und (v) ist ϕ differenzierbar in I ◦ \A 2 mit Ableitung D+ ϕ. Ist I ein Intervall, so heißt eine Abbildung g : I → R affin linear, falls es Zahlen a, b ∈ R gibt mit g(x) = ax + b f¨ur alle x ∈ I. Ist ϕ : I → R eine Abbildung, so schreiben wir L(ϕ) := {g : I → R ist affin linear und g ≤ ϕ}. Wir schreiben kurz sup L(ϕ) f¨ur die Abbildung x → sup{f (x) : f ∈ L(ϕ)}. Korollar 7.8. Sei I ⊂ R ein offenes Intervall und ϕ : I → R eine Abbildung. Dann sind a¨ quivalent (i) ϕ ist konvex. (ii) Zu jedem x0 ∈ I existiert ein g ∈ L(ϕ) mit g(x0 ) = ϕ(x0 ). (iii) L(ϕ) ist nichtleer und ϕ = sup L(ϕ). (iv) Es existiert eine Folge (gn )n∈N in L(ϕ) mit ϕ = limn→∞ max{g1 , . . . , gn }.
144
7 Lp -R¨aume und Satz von Radon-Nikodym
Beweis. (ii) =⇒ (iii) ⇐⇒ (iv)“ Dies ist klar. ” (iii) =⇒ (i)“ Das Supremum konvexer Funktionen ist konvex, und jede affin ” lineare Funktion ist konvex. Also ist sup L(ϕ) konvex, falls L(ϕ) = ∅. (i) =⇒ (ii)“ Nach Satz 7.7(iii) ist f¨ur jedes x0 ∈ I die Abbildung x → ϕ(x0 ) + ” 2 (x − x0 )D+ ϕ(x0 ) in L(ϕ). Satz 7.9 (Jensen’sche Ungleichung). Sei I ⊂ R ein Intervall und X eine Zufallsvariable mit Werten in I und E[|X|] < ∞. Ist ϕ konvex, dann gilt E[ϕ(X)− ] < ∞ und E[ϕ(X)] ≥ ϕ(E[X]). Beweis. Da nach Korollar 7.8(iii) L(ϕ) = ∅ ist, k¨onnen wir a, b ∈ R so w¨ahlen, dass ax + b ≤ ϕ(x) gilt f¨ur alle x ∈ I. Es ist dann E[ϕ(X)− ] ≤ E[(aX + b)− ] ≤ |b| + |a| · E[|X|] < ∞. Wir unterscheiden die F¨alle, wo E[X] im Inneren I ◦ oder am Rand ∂I liegt. 1. Fall Ist E[X] ∈ I ◦ , so sei t+ := D+ ϕ(E[X]) die maximale Tangentensteigung von ϕ in E[X]. Dann ist ϕ(x) ≥ t+ · (x − E[X]) + ϕ(E[X]) f¨ur jedes x ∈ I, also E[ϕ(X)] ≥ t+ E[X − E[X]] + E[ϕ(E[X])] = ϕ(E[X]). 2. Fall Ist E[X] ∈ ∂I, so ist X = E[X] f.s., also E[ϕ(X)] = E[ϕ(E[X])] = ϕ(E[X]). 2 Die Jensen’sche Ungleichung l¨asst sich auf den Rn ausweiten. Hierf¨ur ben¨otigen wir eine Darstellung konvexer Funktionen mehrerer Ver¨anderlicher als Supremum von affin linearen Funktionen. Dabei heißt eine Funktion g : Rn → R affin linear, wenn es ein a ∈ Rn und ein b ∈ R gibt mit g(x) = a, x! + b f¨ur jedes x. Hierbei bezeichnet · , · ! das gew¨ohnliche Skalarprodukt auf Rn . Satz 7.10. Sei G ⊂ Rn offen und konvex und ϕ : G → R eine Abbildung. Dann gilt Korollar 7.8 sinngem¨aß mit I = G. Ist ϕ konvex, so ist ϕ stetig und insbesondere messbar. Ist ϕ zweimal stetig differenzierbar, so ist ϕ genau dann konvex, wenn die Hesse-Matrix positiv semidefinit ist. Beweis. Da wir die Aussagen nur f¨ur den Beweis der mehrdimensionalen Jensen’schen Ungleichung ben¨otigen, die aber im weiteren Verlaufe keine tragende Bedeutung hat, geben wir nur die Literatur an: Im Buch von Rockafellar [138] folgt die Stetigkeit aus Theorem 10.1, die Aussage von 7.8 aus Theorem 12.1 beziehungsweise Theorem 18.8. Die Aussage u¨ ber die Hesse-Matrix steht in Theorem 4.5. 2
7.2 Ungleichungen und Satz von Fischer-Riesz
145
Satz 7.11 (Jensen’sche Ungleichung im Rn ). Sei G ⊂ Rn konvex, und seien X1 , . . . , Xn integrierbare reelle Zufallsvariablen mit P[(X1 , . . . , Xn ) ∈ G] = 1. Sei ferner ϕ : G → R konvex. Dann ist E[ϕ(X1 , . . . , Xn )− ] < ∞ und ) * E ϕ(X1 , . . . , Xn ) ≥ ϕ(E[X1 ], . . . , E[Xn ]). Beweis. Wir betrachten zun¨achst den Fall, wo G offen ist. Die Argumentation l¨auft hier a¨ hnlich wie beim Beweis von Satz 7.9. Sei g ∈ L(ϕ) mit g(E[X1 ], . . . , E[Xn ]) = ϕ(E[X1 ], . . . , E[Xn ]). Da g ≤ ϕ linear ist, folgt * ) E ϕ(X1 , . . . , Xn ) ≥ E[g(X1 , . . . , Xn )] = g(E[X1 ], . . . , E[Xn ]). Die Integrierbarkeit von ϕ(X1 , . . . , Xn )− folgt v¨ollig analog wie im eindimensionalen Fall. Sei jetzt der allgemeine Fall betrachtet, das heißt derjenige, wo G nicht notwendigerweise offen ist. Hier ist das Problem, wenn (E[X1 ], . . . , E[Xn ]) ∈ ∂G liegt, etwas kniffliger als im eindimensionalen Fall, weil ∂G flache St¨ucke haben kann, die aber selbst notwendigerweise wieder konvex sind. Man kann also nicht schließen, dass (X1 , . . . , Xn ) fast sicher gleich dem Erwartungswert ist. Wir skizzieren nur das Argument: Zun¨achst kann man nur folgern, dass (X1 , . . . , Xn ) fast sicher in einem solchen flachen St¨uck liegt. Dieses ist dann notwendigerweise von Dimension kleiner als n ist (oder Null, falls das St¨uck schon ein Punkt ist). Jetzt muss man ϕ auf das flache St¨uck einschr¨anken und sich iterativ in der Dimension herunter arbeiten. Die Details finden sich beispielsweise in [37, Theorem 10.2.6].2 Beispiel 7.12. Sei X eine reelle Zufallsvariable mit E[X 2 ] < ∞, I = R und ϕ(x) = x2 . Aus der Jensen’schen Ungleichung folgt Var[X] = E[X 2 ] − (E[X])2 ≥ 0.
3
Beispiel 7.13. G = [0, ∞) × [0, ∞), und α ∈ (0, 1), sowie ϕ(x, y) = xα y 1−α . ¨ ϕ ist konkav (Ubung!), daher gilt f¨ur nichtnegative Zufallsvariablen X und Y mit endlicher Erwartung (nach Satz 7.11) * ) 3 E X α Y 1−α ≤ (E[X])α (E[Y ])1−α . Beispiel 7.14. und Y wie in Beispiel 7.13. Sei p ∈ (1, ∞). Dann ist
Seien G, X p ψ(x, y) = x1/p + y 1/p konkav. Daher gilt (nach Satz 7.11) p p ( ' E[X]1/p + E[Y ]1/p . 3 ≥ E X 1/p + Y 1/p Wir kommen nun zu den beiden weiteren wichtigen Ungleichungen, der H¨older’schen Ungleichung und der Minkowski’schen Ungleichung. Zur Vorbereitung bringen wir ein Lemma.
146
7 Lp -R¨aume und Satz von Radon-Nikodym
Lemma 7.15 (Young’sche Ungleichung). F¨ur p, q ∈ (1, ∞) mit x, y ∈ [0, ∞) gilt yq xp + . xy ≤ p q
1 p
+ 1q = 1 und f¨ur (7.1)
yq xp + − xy f¨ur p q x ∈ [0, ∞). f ist zweimal stetig differenzierbar in (0, ∞) mit Ableitungen f (x) = xp−1 − y und f (x) = (p − 1)xp−2 . Speziell ist f strikt konvex und besitzt daher p , eine eindeutige Minimalstelle bei x0 = y 1/(p−1) . Nach Voraussetzung ist q = p−1 p q also x0 = y und daher 1 1 + 2 f (x0 ) = y q − y 1/(p−1) y = 0. p q Beweis. Wir halten y ∈ [0, ∞) fest und definieren f (x) :=
Satz 7.16 (H¨older’sche Ungleichung). Seien p, q ∈ [1, ∞] mit f ∈ Lp (μ), g ∈ Lq (μ). Dann gilt (f g) ∈ L1 (μ) und
1 p
+
1 q
= 1 und
f g1 ≤ f p · gq . Beweis. Die F¨alle p = 1 und p = ∞ sind trivial. Sei also nun p ∈ (1, ∞) und f ∈ Lp (μ) und g ∈ Lq (μ) nicht fast u¨ berall Null. Indem wir zu f /f p und g/gq u¨ bergehen, k¨onnen wir f p = gq = 1 annehmen. Nach Lemma 7.15 ist 1 1 |f |p dμ + |g|q dμ f g1 = |f | · |g| dμ ≤ p q 1 1 = + = 1 = f p · gq . 2 p q Satz 7.17 (Minkowski’sche Ungleichung). F¨ur p ∈ [1, ∞] und f, g ∈ Lp (μ) gilt f + gp ≤ f p + gp .
(7.2)
Beweis. Der Fall p = ∞ ist wiederum trivial. Sei also p ∈ [1, ∞). Die linke Seite in (7.2) wird nicht kleiner, wenn wir f und g durch |f | und |g| ersetzen. Wir k¨onnen also ohne Einschr¨ankung annehmen, dass f ≥ 0 und g ≥ 0 gelten. Nun ist (f + g)p ≤ 2p (f p ∨ g p ) ≤ 2p (f p + g p ), also ist f + g ∈ Lp (μ). Mit Hilfe der H¨older’schen Ungleichung, angewandt auf f · (f + g)p−1 und auf g · (f + g)p−1 , erhalten wir f + gpp = (f + g)p dμ = f (f + g)p−1 dμ + g(f + g)p−1 dμ ≤ f p · (f + g)p−1 q + gp · (f + g)p−1 q = (f p + gp ) · f + gp−1 , p
7.3 Hilbertr¨aume
147
wobei wir im letzten Schritt ausgenutzt haben, dass p − p/q = 1 ist. Teilen wir nun , so folgt (7.2). 2 beide Seiten durch f + gp−1 p Wir haben in Satz 7.17 die Dreiecksungleichung gezeigt und damit, dass · p eine Norm ist. In Satz 7.3 wurde hingegen gezeigt, dass diese Norm vollst¨andig ist (jede Cauchy-Folge konvergiert). Ein vollst¨andiger normierter Vektorraum heißt Banachraum. Wir haben also den folgenden Satz gezeigt: Satz 7.18 (Fischer-Riesz). F¨ur p ∈ [1, ∞] ist (Lp (μ), · p ) ein Banachraum. ¨ Ubung 7.2.1. Zeige die H¨older’sche Ungleichung mit Hilfe der Jensen’schen Ungleichung mit der Funktion aus Beispiel 7.13. ♣ ¨ Ubung 7.2.2. Zeige die Minkowski’sche Ungleichung mit Hilfe der Jensen’schen Ungleichung mit der Funktion aus Beispiel 7.14. ♣ ¨ Ubung 7.2.3. Sei X eine reelle Zufallsvariable und p, q ∈ (1, ∞) mit p1 + 1q = 1. Zeige: X ist genau dann in Lp (P), wenn es ein C < ∞ gibt, sodass |E[XY ]| ≤ ♣ C Y q f¨ur jede beschr¨ankte Zufallsvariable Y .
7.3 Hilbertr¨aume In diesem Abschnitt betrachten wir nur den Fall p = 2. Ziel ist der Darstellungssatz von Riesz-Fr´echet f¨ur stetige lineare Funktionale auf Hilbertr¨aumen. Dieser Satz stellt einen Baustein f¨ur einen funktionalanalytischen Beweis des Satzes von RadonNikodym dar. Definition 7.19. Sei V ein reeller Vektorraum. Eine Abbildung · , · ! : V ×V → R heißt Skalarprodukt, falls (i) (Linearit¨at)
x, α y + z! = α x, y! + x, z! f¨ur alle x, y, z ∈ V und α ∈ R.
(ii) (Symmetrie)
x, y! = y, x! f¨ur alle x, y ∈ V .
(iii) (Positive Definitheit)
x, x! > 0 f¨ur jedes x ∈ V \ {0}.
Gelten lediglich (i), (ii) und x, x! ≥ 0 f¨ur jedes x, so heißt · , · ! eine positiv semidefinite symmetrische Bilinearform. Ist · , · ! ein Skalarprodukt, so heißt (V, · , · !) ein (reeller) Hilbertraum, falls die durch x := x, x!1/2 definierte Norm vollst¨andig ist, falls also (V, · ) ein Banachraum ist.
148
7 Lp -R¨aume und Satz von Radon-Nikodym
Definition 7.20. F¨ur f, g ∈ L2 (μ) definieren wir f, g! := f g dμ. F¨ur f¯, g¯ ∈ L2 (μ) definieren wir f¯, g¯! := f, g!, wobei f ∈ f¯ und g ∈ g¯. Man beachte, dass diese Definition unabh¨angig von der Wahl der Repr¨asentanten f und g ist. Satz 7.21. · , · ! ist ein Skalarprodukt auf L2 (μ) und eine positiv semidefinite symmetrische Bilinearform auf L2 (μ). Es gilt f 2 = f, f !1/2 . ¨ Beweis. Ubung!
2
Als Korollar zu Satz 7.18 erhalten wir: Korollar 7.22. (L2 (μ), · , · !) ist ein reeller Hilbertraum. Lemma 7.23. Ist · , · ! eine positiv semidefinite Bilinearform auf dem reellen Vektorraum V , so ist · , · ! : V × V → R stetig (bez¨uglich der Produkttopologie der Topologie auf V , die von der Pseudometrik d(x, y) = x − y, x − y!1/2 erzeugt wird). Beweis. Klar.
2
Definition 7.24 (Orthogonales Komplement). Sei V ein reeller Vektorraum mit Skalarprodukt · , · !. Ist W ⊂ V , so bezeichnen wir den Untervektorraum
W ⊥ := v ∈ V : v, w! = 0 f¨ur alle w ∈ W als das orthogonale Komplement von W . Satz 7.25 (Orthogonale Zerlegung). Sei (V, · , · !) ein Hilbertraum und W ⊂ V ein abgeschlossener linearer Unterraum. F¨ur jedes x ∈ V existiert eine eindeutige Darstellung x = y + z, wobei y ∈ W und z ∈ W ⊥ ist. Beweis. Sei x ∈ V und c := inf{x − w : w ∈ W }. Sei ferner (wn )n∈N eine n→∞ Folge in W mit x − wn −→ c. Die Parallelogrammgleichung ergibt = =2 =1 = = . wm − wn 2 = 2 wm − x2 + 2 wn − x2 − 4 = (w + w ) − x n =2 m = Da W linear ist, ist (wm + wn )/2 ∈ W , also 12 (wm + wn ) − x ≥ c. Also ist (wn )n∈N eine Cauchy-Folge: wm − wn −→ 0, falls m, n → ∞.
7.3 Hilbertr¨aume
149
Da V vollst¨andig ist und W abgeschlossen, ist auch W vollst¨andig, also gibt es ein n→∞ y ∈ W mit wn −→ y. Setze nun z := x−y. Dann ist z = limn→∞ wn −x = c aufgrund der Stetigkeit der Norm (Lemma 7.23). Betrachte ein beliebiges w ∈ W \ {0}. Wir setzen := − z, w!/w2 und erhalten y + w ∈ W , also c2 ≤ x − (y + w)2 = z2 + 2 w2 + 2 z, w! = c2 − 2 w2 . Folglich ist z, w! = 0 f¨ur alle w ∈ W und damit z ∈ W ⊥ . Die Eindeutigkeit der Darstellung klar: Ist x = y + z eine weitere orthogonale Zerlegung, so ist y − y ∈ W und z − z ∈ W ⊥ sowie y − y + z − z = 0, also ist 0 = y − y + z − z 2 = y − y 2 + z − z 2 + 2 y − y , z − z ! = y − y 2 + z − z 2 . Es folgt y = y und z = z .
2
Satz 7.26 (Darstellungssatz von Riesz-Fr´echet). Sei (V, · , · !) ein Hilbertraum und F : V → R eine Abbildung. Dann sind a¨ quivalent: (i) F ist stetig und linear. (ii) Es gibt ein f ∈ V mit F (x) = x, f ! f¨ur alle x ∈ V . Das Element f ∈ V in (ii) ist eindeutig bestimmt. Beweis. (ii) =⇒ (i)“ F¨ur jedes f ∈ V ist per Definition des Skalarprodukts die ” Abbildung x → x, f ! linear. Nach Lemma 7.23 ist diese Abbildung auch stetig. (i) =⇒ (ii)“ Ist F ≡ 0, so w¨ahle f = 0. Sei nun F nicht identisch Null. Da F ” stetig ist, ist der Kern W := F −1 ({0}) ein abgeschlossener echter linearer Unterraum von V . Sei v ∈ V \ W und v = y + z f¨ur y ∈ W und z ∈ W ⊥ die orthogonale Zerlegung von v. Dann ist z = 0, und F (z) = F (v) − F (y) = F (v) = 0, und wir k¨onnen u := z/F (z) ∈ W ⊥ definieren. Offenbar ist F (u) = 1, und f¨ur jedes x ∈ V ist F (x − F (x)u) = F (x) − F (x)F (u) = 0, also x − F (x)u ∈ W und damit x − F (x)u, u! = 0. Folglich ist F (x) = x, u!/u2 . Setzen wir nun f := u/u2 , so ist F (x) = x, f ! f¨ur alle x ∈ V . Eindeutigkeit“ Sei x, f ! = x, g! f¨ur alle x ∈ V . Setzen wir x = f − g, so ” erhalten wir 0 = f − g, f − g!, also f = g. 2 Wir werden den Darstellungssatz im folgenden Abschnitt f¨ur den Raum L2 (μ) brauchen statt f¨ur den Hilbertraum L2 (μ). Mit ein bisschen abstract nonsense l¨asst sich aber der vorangehende Satz auf diese Situation anwenden. Wir erinnern daran, dass N = {f ∈ L2 (μ) : f, f ! = 0} der Unterraum der Funktionen ist, die fast sicher Null sind, und L2 (μ) = L2 (μ)/N der Quotientenraum. Dies ist ein Spezialfall der
150
7 Lp -R¨aume und Satz von Radon-Nikodym
Situation, wo (V, · , · !) ein linearer Raum mit vollst¨andiger positiv semidefiniter symmetrischer Bilinearform ist. In diesem Fall ist N := {v ∈ V : v, v! = 0} und V0 = V /N := {f + N : f ∈ V }. Wir schreiben v + N , w + N !0 := v, w! und erhalten so einen Hilbertraum (V0 , · , · !0 ). Korollar 7.27. Sei (V, · , · !) ein linearer Vektorraum mit vollst¨andiger positiv semidefiniter symmetrischer Bilinearform. Die Abbildung F : V → R ist genau dann stetig und linear, wenn es ein f ∈ V gibt mit F (x) = x, f ! f¨ur alle x ∈ V . Beweis. Die eine Implikation ist trivial. Sei also F stetig und linear. Dann ist F (0) = 0, weil F linear ist, und f¨ur jedes v ∈ N ist F (v) = F (0) = 0, weil F stetig ist (klar: v liegt in jeder offenen Umgebung von 0, also muss F in v denselben Wert annehmen wie in 0). Also induziert F eine stetige lineare Abbildung F0 : V0 → R durch F0 (x + N ) = F (x). Nach Satz 7.26 existiert ein f + N ∈ V0 mit F0 (x + N ) = x + N , f + N !0 f¨ur jedes x + N ∈ V0 . Nach Definition von F0 und · , · !0 ist nun aber F (x) = x, f ! f¨ur jedes x ∈ V . 2 Korollar 7.28. Die Abbildung F : L2 (μ) 0 → R ist genau dann stetig und linear, wenn es ein f ∈ L2 (μ) gibt mit F (g) = gf dμ f¨ur alle g ∈ L2 (μ). Beweis. Der Raum L2 (μ) erf¨ullt die Bedingungen des vorangehenden Korollars.2
7.4 Lebesgue’scher Zerlegungssatz In diesem Abschnitt benutzen wir die eben gewonnen Aussagen u¨ ber Hilbertr¨aume, um ein Maß zu zerlegen in einen singul¨aren und einen absolutstetigen Anteil bez¨uglich eines zweiten Maßes. F¨ur den absolutstetigen Anteil zeigen wir, dass er eine Dichte besitzt. Seien μ und ν Maße auf (Ω, A). Nach Definition 4.13 heißt eine messbare Funktion f : Ω → [0, ∞) eine Dichte von ν bez¨uglich μ, falls (7.3) ν(A) := f A dμ f¨ur jedes A ∈ A. Andererseits definiert f¨ur jedes messbare f : Ω → [0, ∞) Gleichung (7.3) ein Maß ν auf (Ω, A). Wir schreiben in diesem Fall auch ν = fμ
und
f=
dν . dμ
Beispielsweise hat die Normalverteilung ν = N0,1 die Dichte f (x) = bez¨uglich des Lebesgue-Maßes μ = λ auf R. Ist g : Ω → [0, ∞] messbar, so gilt (nach Satz 4.15)
(7.4) 2 √1 e−x /2 2π
7.4 Lebesgue’scher Zerlegungssatz
151
g dν =
gf dμ.
(7.5)
Wir erhalten so, dass genau dann g ∈ L1 (ν) ist, wenn gf ∈ L1 (μ) gilt, und in diesem Fall ist (7.5) erf¨ullt. Gilt ν = f μ, so ist offenbar ν(A) = 0 f¨ur jedes A ∈ A mit μ(A) = 0. In gewissem Sinne komplement¨ar ist die Situation beispielsweise bei der Poissonverteilung μ = Poi mit Parameter > 0 und ν = N0,1 . Hier ist N0 ⊂ R eine ν-Nullmenge mit μ(R \ N0 ) = 0. Wir sagen, dass ν singul¨ar zu μ ist. Das Ziel dieses Kapitels ist es, im allgemeinen Fall zu zeigen, dass ein beliebiges σ-endliches Maß ν auf einem Messraum (Ω, A) zerlegt werden kann in einen Teil, der singul¨ar zum σ-endlichen Maß μ ist, und einen Teil, der eine Dichte bez¨uglich μ hat (Lebesgue’scher Zerlegungssatz, Satz 7.33). Satz 7.29 (Eindeutigkeit der Dichte). Sei ν σ-endlich. Sind f1 und f2 Dichten von dν ν bez¨uglich μ, so gilt f1 = f2 μ-fast u¨ berall. Speziell ist die Dichtefunktion dμ eindeutig bis auf Gleichheit μ-fast u¨ berall. Beweis. Sei En ↑ Ω mit ν(En ) < ∞, n ∈ N. Sei An = En ∩ {f1 > f2 } f¨ur n ∈ N. Dann ist ν(An ) < ∞, also f1 − f2 dμ. 0 = ν(An ) − ν(An ) = An
Nach Satz 4.8(i) gilt f2 An = f1 An μ–f.¨u., also μ(An ) = 0 und μ({f1 > f2 }) = 2 μ( n∈N An ) = 0. Analog folgt μ({f1 < f2 }) = 0, also f1 = f2 μ–f.¨u. Definition 7.30. Seien μ und ν zwei Maße auf (Ω, A). (i) ν heißt absolutstetig bez¨uglich μ (kurz ν % μ), falls ν(A) = 0
f¨ur jedes A ∈ A mit μ(A) = 0.
(7.6)
Die Maße μ und ν heißen a¨ quivalent (kurz μ ≈ ν), falls ν % μ und μ % ν. (ii) μ heißt singul¨ar zu ν (kurz μ ⊥ ν), falls es ein A ∈ A gibt mit μ(A) = 0 und ν(Ω \ A) = 0. Bemerkung 7.31. Offenbar gilt μ ⊥ ν ⇐⇒ ν ⊥ μ.
3
Beispiel 7.32. (i) Sei μ ein Maß auf (R, B(R)) mit Dichte f bez¨uglich des Le0 besgue-Maßes λ. Dann ist f¨ur A ∈ A mit λ(A) = 0 0schon μ(A) = A f dλ = 0, also μ % λ. Ist λ-fast u¨ berall f > 0, so ist μ(A) = A f dλ > 0 falls λ(A) > 0, also μ ≈ λ. Ist λ({f = 0}) > 0, so ist (wegen μ({f = 0}) = 0) λ % μ.
152
7 Lp -R¨aume und Satz von Radon-Nikodym
(ii) Betrachte die Bernoulli-Verteilungen Berp und Berq f¨ur p, q ∈ [0, 1]. Ist p ∈ (0, 1), so gilt Berq % Berp . Ist p ∈ {0, 1}, so ist Berq % Berp genau dann, wenn p = q, und Berq ⊥ Berp genau dann, wenn q = 1 − p. (iii) Betrachte die Poisson-Verteilungen Poiα und Poiβ f¨ur α, β ≥ 0. Es ist genau dann Poiα % Poiβ , wenn β > 0 oder α = 0. (iv) Betrachte die unendlichen Produktmaße (siehe Satz 1.64) Ber⊗N und Ber⊗N p q ⊗N auf Ω = {0, 1}N . Dann ist Ber⊗N ⊥ Ber , falls p = q. In der Tat: Sei p q Xn ((ω1 , ω2 , . . .)) = ωn f¨ur jedes n ∈ N die Projektion von Ω auf die n-te Koordinate. Dann ist (Xn )n∈N unabh¨angig und Bernoulli-verteilt (siehe Beispiel 2.18) mit Parameter r unter Ber⊗N r . Nach dem starken Gesetz der großen Zahl gibt es also f¨ur r ∈ {p, q} eine messbare Menge Ar ⊂ Ω mit Ber⊗N r (Ω \ Ar ) = 0 und 1 Xi (ω) = r n→∞ n i=1 n
lim
f¨ur jedes ω ∈ Ar .
⊗N Speziell ist also Ap ∩ Aq = ∅, falls p = q, und damit Ber⊗N p ⊥ Berq .
3
Satz 7.33 (Zerlegungssatz von Lebesgue). Seien μ und ν σ-endliche Maße auf (Ω, A). Dann l¨asst sich ν auf eindeutige Weise zerlegen in den (bez¨uglich μ) absolutstetigen Anteil νa und den singul¨aren Anteil νs : ν = νa + νs , wobei νa % μ und νs ⊥ μ. νa hat eine Dichte bez¨uglich μ, und
dνa ist A-messbar und μ–f.¨u. endlich. dμ
Korollar 7.34 (Satz von Radon-Nikodym). Seien μ und ν σ-endliche Maße auf (Ω, A). Dann gilt ν hat eine Dichte bez¨uglich μ
⇐⇒
dν In diesem Fall ist dμ A-messbar und μ–f.¨u. endlich. Ableitung von ν nach μ.
dν dμ
ν % μ. heißt Radon-Nikodym-
Beweis. Die eine Richtung ist trivial. Sei also ν % μ. Mit Satz 7.33 bekommen 2 wir, dass ν = νa eine Dichte bez¨uglich μ hat. Beweis (Satz 7.33). Die Idee geht auf v. Neumann zur¨uck, wir folgen der Darstellung in [37]. Wir k¨onnen uns durch die u¨ blichen Aussch¨opfungsargumente auf den Fall beschr¨anken wo μ und ν endlich sind. Nach Satz 4.19 ist die kanonische Inklusion
7.4 Lebesgue’scher Zerlegungssatz
153
i : L2 (Ω, A, μ + ν) → L1 (Ω, A, μ + ν) stetig. 0 Wegen ν ≤ μ + ν ist also auch die Linearform L2 (Ω, A, μ + ν) → R, h → h dν stetig. Nach dem Satz von Riesz-Fr´echet (hier: Korollar 7.28) existiert daher ein g ∈ L2 (Ω, A, μ + ν) mit h dν = hg d(μ + ν) f¨ur jedes h ∈ L2 (Ω, A, μ + ν), (7.7) oder a¨ quivalent dazu f (1 − g) d(μ + ν) = f dμ
f¨ur jedes f ∈ L2 (Ω, A, μ + ν).
(7.8)
W¨ahlen wir in (7.7) speziell h = {g<0} , so folgt, dass (μ + ν)-fast u¨ berall g ≥ 0 gilt. Analog folgt mit f = {g>1} , in (7.8) dass (μ + ν)-fast u¨ berall g ≤ 1 gilt, also ist 0 ≤ g ≤ 1. Sei nun f ∈ L1 (Ω, A, μ + ν), und seien (fn )n∈N nichtnegative Funktionen in L2 (Ω, A, μ + ν) mit fn ↑ f . Nach dem Satz von der monotonen Konvergenz (angewandt auf das Maß (1 − g)(μ + ν), dem Maß mit Dichte (1 − g) bez¨uglich μ + ν) erhalten wir, dass (7.8) f¨ur alle messbaren f ≥ 0 gilt. Analog folgt die G¨ultigkeit von (7.7) f¨ur alle messbaren h ≥ 0. Sei E := g −1 ({1}). Setzen wir f = E in (7.8) ein, so erhalten wir μ(E) = 0. Wir definieren jetzt zwei Maße νa und νs f¨ur A ∈ A durch νa (A) := ν(A \ E)
und
νs (A) := ν(A ∩ E).
Offenbar gilt ν = νa 0+ νs und νs (Ω \ E) = 0, also νs 0⊥ μ. Ist nun A ∩ E = ∅ und μ(A) = 0, so ist A dμ = 0, also nach (7.8) auch A (1 − g) d(μ + ν) = 0. Andererseits ist 1−g > 0 auf A, also μ(A)+ν(A) = 0 und damit νa (A) = ν(A) = 0. Ist allgemeiner B messbar mit μ(B) = 0, so ist μ(B \ E) = 0, also nach dem Gezeigten νa (B) = νa (B \ E) = 0. Folglich ist νa % μ und ν = νa + νs die gew¨unschte Zerlegung. g ur Um die Dichte von νa bez¨uglich μ zu erhalten, setzen wir f := Ω\E . F¨ 1−g jedes A ∈ A ist nun nach (7.8) und (7.7) mit h = A\E
g d(μ + ν) = ν(A \ E) = νa (A).
f dμ = A
Also ist f =
A∩E c
2
dνa dμ .
¨ Ubung 7.4.1. Wir definieren eine Abbildung F : (0, 1] → (0, 1] an der Stelle x ∈ (0, 1] mit nicht abbrechender Bin¨ardarstellung x = (0, x1 x2 x3 . . .) := ∞ −n durch n=1 xn 2 F (x) = (0, x1 x1 x2 x2 x3 x3 . . .) =
∞
3 xn 4−n .
n=1
Man zeige, dass F die stetige Verteilungsfunktion eines W-Maßes μ auf B((0, 1]) ist. ♣ ist, und dass μ singul¨ar zum Lebesgue-Maß λ (0,1]
154
7 Lp -R¨aume und Satz von Radon-Nikodym
¨ Ubung 7.4.2. Sei n ∈ N und p, q ∈ [0, 1]. Unter welchen Bedingungen gilt f¨ur die Binomialverteilungen bn,p % bn,q ? Man bestimme die Radon-Nikodym Ableitung dbn,p ♣ dbn,q .
7.5 Erg¨anzung: Signierte Maße In diesem Abschnitt bringen wir die Zerlegungss¨atze f¨ur signierte Maße (Hahn, Jordan) und liefern einen alternativen Beweis f¨ur den Lebesgue’schen Zerlegungssatz. Definition 7.35. Seien μ und ν zwei Maße auf (Ω, A). ν heißt totalstetig bez¨uglich μ, falls es f¨ur jedes ε > 0 ein δ > 0 gibt, sodass f¨ur jedes A ∈ A gilt μ(A) < δ
impliziert ν(A) < ε.
(7.9)
Bemerkung 7.36. Die Definition der Totalstetigkeit ist sehr a¨ hnlich der der gleichgradigen Integrierbarkeit (siehe Satz 6.24(iii)), jedenfalls f¨ur endliches μ. Auf diesen Zusammenhang kommen wir im Rahmen des Martingalkonvergenzsatzes zur¨uck, der einen alternativen Beweis f¨ur den Satz von Radon-Nikodym (Korollar 7.34) liefert. 3 Satz 7.37. Seien μ und ν Maße auf (Ω, A). Ist ν totalstetig bez¨uglich μ, dann ist ν % μ. Ist ν(Ω) < ∞, so gilt auch die umgekehrte Implikation. Beweis. =⇒ “ Sei ν totalstetig bez¨uglich μ. Sei A ∈ A mit μ(A) = 0. F¨ur ” jedes ε > 0 ist nach Voraussetzung ν(A) < ε, also ν(A) = 0 und damit ν % μ. ⇐= “ Sei ν endlich, aber nicht totalstetig bez¨uglich μ. Dann existiert ein ε > 0 ” und Mengen An ∈ A mit μ(An ) < 2−n , aber ν(An ) ≥ ε f¨ur jedes n ∈ N. Setze ∞ ∞ Ak . Dann ist A := lim sup An = n→∞
n=1 k=n
μ(A) ≤ lim μ n→∞
∞
Ak
= lim
n→∞
k=n
∞
μ(Ak ) ≤ lim
k=n
n→∞
∞
2−k = 0.
k=n
Da ν endlich ist, ist ν stetig von oben (Satz 1.36), also ∞ ν(A) = lim ν Ak ≥ inf ν(An ) ≥ ε > 0. n→∞
Also ist ν % μ.
k=n
n∈N
2
7.5 Erg¨anzung: Signierte Maße
155
Beispiel 7.38. Die Endlichkeitsannahme ist f¨ur die Umkehrung im vorigen Satz essenziell. Sei beispielsweise μ = N0,1 die Standardnormalverteilung auf R und ν √ 2 das Lebesgue-Maß auf R. Dann hat ν bez¨uglich μ die Dichte f (x) = 2π ex /2 . n→∞ Speziell gilt ν % μ. Andererseits gilt μ([n, ∞)) −→ 0 und ν([n, ∞)) = ∞ f¨ur jedes n ∈ N. Mithin ist ν nicht totalstetig bez¨uglich μ. 3 Beispiel 7.39. Sei (Ω, A) ein Messraum, und seien μ und ν endliche Maße auf (Ω, A). Mit Z bezeichnen wir die Menge der endlichen Zerlegungen von Ω in disjunkte, messbare Mengen. Das heißt, Z ∈ Z ist eine endliche Teilmenge von A so, dass die Mengen C ∈ Z paarweise disjunkt sind und C∈Z C = Ω f¨ur jedes Z. F¨ur Z ∈ Z definieren wir eine Funktion fZ : Ω → R durch fZ (ω) =
C∈Z: μ(C)>0
ν(C) μ(C)
C (ω).
Wir zeigen, dass die folgenden drei Aussagen a¨ quivalent sind: (i) 0Die Familie (fZ : Z ∈ Z) ist gleichgradig integrierbar in L1 (μ) und fZ dμ = ν(Ω) f¨ur jedes Z ∈ Z. (ii) Es gilt ν % μ. (iii) ν ist totalstetig bez¨uglich μ. ¨ Die Aquivalenz von (ii) und (iii) wurde im vorigen Satz bewiesen. Gilt (ii), so ist f¨ur jedes Z ∈ Z fZ dμ = ν(C) = ν(Ω), C∈Z: μ(C)>0
weil ν(C) = 0 ist f¨ur diejenigen C, die in der Summe nicht auftauchen. Sei nun ε > 0 gegeben. Da aus (iii) aus (ii) folgt, gibt es ein δ > 0, sodass ν(A) < ε/2 ist f¨ur jedes A ∈ A mit μ(A) ≤ δ . Sei K := ν(Ω)/δ und δ < ε/(2K). Dann ist ⎛ ⎞ 1 ν(Ω) = δ , μ⎝ C⎠ = μ(C) ≤ K C∈Z: Kμ(C)≤ν(C)
also C∈Z: Kμ(C)≤ν(C)
C∈Z: Kμ(C)≤ν(C)
⎛ ν(C) = ν ⎝
C∈Z: Kμ(C)≤ν(C)
⎞ C⎠ <
ε . 2
156
7 Lp -R¨aume und Satz von Radon-Nikodym
Es folgt schließlich f¨ur A ∈ A mit μ(A) < δ ν(C) fZ dμ = μ(A ∩ C) μ(C) A C∈Z: μ(C)>0
=
μ(A ∩ C)
0
≤
ε + 2
ν(C) + μ(C)
K μ(A ∩ C) ≤
Kμ(C)>ν(C)
μ(A ∩ C)
Kμ(C)>ν(C)
ν(C) μ(C)
ε + K μ(A) < ε. 2
Also ist (fZ , Z ∈ Z) gleichgradig integrierbar nach Satz 6.24(iii). 0 Gelte nun (i). Ist μ = 0, so ist f dμ = 0 f¨ur jedes f , also ν(Ω) = 0 und damit ν % μ. Sei also μ = 0. Sei A ∈ A mit μ(A) = 0. Dann ist Z0 = {A, Ac } ∈ Z und fZ = Ac ν(Ac )/μ(Ac ). Nach Voraussetzung ist ν(Ω) = f dμ = ν(Ac ), also ν(A) = 0 und damit ν % μ. 3 Definition 7.40 (Ladungsverteilung, signiertes Maß). Eine Mengenfunktion ϕ : A → R heißt signiertes Maß oder Ladungsverteilung auf (Ω, A), falls sie σ– additiv ist, falls also f¨ur jede Folge paarweise disjunkter Mengen A1 , A2 , . . . ∈ A gilt, dass ∞ ∞ An = ϕ(An ). (7.10) ϕ n=1
n=1
Die Menge aller Ladungsverteilungen bezeichnen wir mit LV = LV(Ω, A). Bemerkung 7.41. (i) Ist ϕ ein signiertes Maß, so liegt in (7.10) automatisch schon absolute Konvergenz vor. Tats¨achlich a¨ ndert sich ja der Wert der linken Seite nicht, wenn wir die Mengen A1 , A2 , . . . umnummerieren. Damit dies f¨ur die rechte Seite auch gilt, muss nach dem Weierstraß’schen Umordnungssatz die Reihe absolut konvergieren. Speziell gilt f¨ur jede Folge (An )n∈N paarweise disjunkter Mengen ∞ |ϕ(Ak )| = 0. lim k=n n→∞ (ii) Ist ϕ ∈ LV, so ist ϕ(∅) = 0, da R ν(∅) = n∈N ν(∅). (iii) ϕ ∈ LV ist im Allgemeinen nicht σ-subadditiv.
3
Beispiel 7.42. Sind μ+ , μ− endliche Maße, so ist ϕ := μ+ −μ− ∈ LV. Wir werden sehen, dass jedes signierte Maß eine solche Darstellung besitzt. 3 Satz 7.43 (Zerlegungssatz von Hahn). Sei ϕ ein signiertes Maß. Dann gibt es eine Menge Ω + ∈ A mit ϕ(A) ≥ 0 f¨ur jedes A ∈ A, A ⊂ Ω + und ϕ(A) ≤ 0 f¨ur jedes A ∈ A, A ⊂ Ω − := Ω \ Ω + . Eine solche Darstellung Ω = Ω − Ω + wird auch Hahn-Zerlegung von Ω (bez¨uglich ϕ) genannt.
7.5 Erg¨anzung: Signierte Maße
157
Beweis. Sei α := sup ϕ(A) : A ∈ A . Wir m¨ussen zeigen, dass ϕ das Maximum α tats¨achlich annimmt, dass es also ein Ω + ∈ A gibt mit ϕ(Ω + ) = α. Dann ist n¨amlich α ∈ R, und f¨ur A ⊂ Ω + , A ∈ A gilt α ≥ ϕ(Ω + \ A) = ϕ(Ω + ) − ϕ(A) = α − ϕ(A), also ϕ(A) ≥ 0. F¨ur A ⊂ Ω − , A ∈ A ist ϕ(A) ≤ 0, denn α ≥ ϕ(Ω + ∪ A) = ϕ(Ω + ) + ϕ(A) = α + ϕ(A). + Wir konstruieren nun Ω + mit ϕ(Ω ∞ ) = α. Sei (An )n∈N eine Folge in A mit α = lim ϕ(An ). Setze A := n=1 An . Da jedes An noch Anteile mit negati” n→∞ ver Masse“ enthalten kann, k¨onnen wir nicht einfach Ω + = A w¨ahlen. Vielmehr m¨ussen wir Schicht f¨ur Schicht die negativen Anteile abfischen.
Setze A0n := An und A1n := A \ An sowie n s(i) n Pn := Ai : s ∈ {0, 1} i=1
die Partition von A, die von A1 , . . . , An erzeugt wird. Offensichtlich gilt f¨ur B, C ∈ Pn entweder B = C oder B ∩ C = ∅. Außerdem gilt An = B. Setze B∈Pn B⊂An
Pn− := {B ∈ Pn : ϕ(B) < 0},
Pn+ := Pn \ Pn− ,
und Cn :=
B.
+ B∈Pn
Wegen der endlichen Additivit¨at von ϕ ist ϕ(An ) = ϕ(B) ≤ ϕ(B) ≤ ϕ(B) = ϕ(Cn ). + B∈Pn B⊂An
B∈Pn B⊂An
+ B∈Pn
n n n−1 = Cm ∪ . . . ∪ Cn . F¨ur m < n ist Em \ Em ⊂ Cn , also F¨ur m ≤ n setze Em n n−1 \ Em = B. Em + B∈Pn n \E n−1 B⊂Em m
n n−1 \ Em ) ≥ 0. F¨ur Em := Speziell ist ϕ(Em (n → ∞) und
n≥m
m m ) ≤ ϕ(Em )+ ϕ(Am ) ≤ ϕ(Cm ) = ϕ(Em
= ϕ
m Em
∪
∞
n (Em n=m+1
\
n−1 Em )
n Cn gilt außerdem Em ↑ Em
∞
n n−1 ϕ(Em \ Em )
n=m+1
= ϕ
∞ n=m
n Em
= ϕ(Em ).
158
7 Lp -R¨aume und Satz von Radon-Nikodym
∞
Em , also Em ↓ Ω + . Dann ist ⎛ ⎞ ϕ(Em ) = ϕ ⎝Ω + (En \ En+1 )⎠
Wir setzen jetzt Ω + =
m=1
n≥m
= ϕ(Ω + ) +
∞
m→∞
ϕ(En \ En+1 ) −→ ϕ(Ω + ),
n=m
wobei wir im letzten Schritt Bemerkung 7.41(i) ausgenutzt haben. Insgesamt ist α = lim ϕ(Am ) ≤ lim ϕ(Em ) = ϕ(Ω + ). m→∞
m→∞
Per Definition ist aber α ≥ ϕ(Ω + ), also α = ϕ(Ω + ), was zu zeigen war.
2
Korollar 7.44 (Zerlegungssatz von Jordan). Sei ϕ ∈ LV(Ω, A) ein signiertes Maß. Dann gibt es eindeutig bestimmte endliche Maße ϕ+ , ϕ− mit ϕ = ϕ+ − ϕ− und ϕ+ ⊥ ϕ− . Beweis. Sei Ω = Ω + Ω − die Hahn-Zerlegung. Setze ϕ+ (A) := ϕ(A ∩ Ω + ) und ϕ− (A) := −ϕ(A ∩ Ω − ). Die Eindeutigkeit der Zerlegung ist trivial.
2
Korollar 7.45. Sei ϕ ∈ LV(Ω, A) und ϕ = ϕ+ − ϕ− die Jordan-Zerlegung von ϕ, sowie Ω = Ω + Ω − die Hahn-Zerlegung von Ω. Dann definiert
ϕT V := sup ϕ(A) − ϕ(Ω \ A) : A ∈ A = ϕ(Ω + ) − ϕ(Ω − ) = ϕ+ (Ω) + ϕ− (Ω) eine Norm auf LV(Ω, A), die so genannte Totalvariationsnorm. Beweis. Zu zeigen ist nur die Dreiecksungleichung. Seien ϕ1 , ϕ2 ∈ LV. Sei Ω = Ω + Ω − die Hahn-Zerlegung bez¨uglich ϕ := ϕ1 + ϕ2 und Ω = Ωi+ Ωi− die bez¨uglich ϕi , i = 1, 2. Dann gilt ϕ1 + ϕ2 T V = ϕ1 (Ω + ) − ϕ1 (Ω − ) + ϕ2 (Ω + ) − ϕ2 (Ω − ) ≤ ϕ1 (Ω1+ ) − ϕ1 (Ω1− ) + ϕ2 (Ω2+ ) − ϕ2 (Ω2− ) = ϕ1 T V + ϕ2 T V .
2
Wir wollen jetzt einen alternativen Beweis des Zerlegungssatzes von Lebesgue (Satz 7.33) angeben und bereiten dies mit einem Lemma vor.
7.5 Erg¨anzung: Signierte Maße
159
Lemma 7.46. Seien μ, ν endliche Maße auf (Ω, A), die nicht singul¨ar zueinander sind, kurz: μ ⊥ ν. Dann gibt es ein A ∈ A mit μ(A) > 0 und ein ε > 0 mit εμ(E) ≤ ν(E)
f¨ur jedes E ∈ A mit E ⊂ A.
Beweis. F¨ sei Ω = Ωn+ Ωn− eine Hahn-Zerlegung zu (ν− n1 μ) ∈ LV. Setur n ∈ N − ze M := n∈N Ωn . Offenbar ist (ν − n1 μ)(M ) ≤ 0, also ν(M ) ≤ n1 μ(M ) f¨urjedes n ∈ N und deshalb ν(M ) = 0. Wegen μ ⊥ ν folgt μ Ω \ M ) = μ( n∈N Ωn+ > 0, also μ(Ωn+0 ) > 0 f¨ur ein n0 ∈ N. Setze A := Ωn+0 und ε := n10 . Damit ist dann μ(A) > 0 und (ν − εμ)(E) ≥ 0 f¨ur jedes E ⊂ A, E ∈ A. 2 Alternativer Beweis von Satz 7.33 Wir zeigen hier nur die Existenz der Zerlegung. Indem wir eine geeignete Folge Ωn ↑ Ω betrachten, k¨onnen wir annehmen, dass ν schon endlich ist. Betrachte die Menge der Funktionen 1 2 G := g : Ω → [0, ∞] : g ist messbar und g dμ ≤ ν(A) f¨ur alle A ∈ A A
und setze γ := sup
g dμ : g ∈ G .
Unser Ziel ist es, ein maximales Element f in G zu konstruieren (also eines mit 0 f dμ = γ), das dann die gesuchte Dichte von νa ist. Offenbar ist 0 ∈ G, also G = ∅. Weiter gilt f, g ∈ G
f ∨ g ∈ G.
impliziert
(7.11)
Mit E := {f ≥ g} ist n¨amlich f¨ur A ∈ A f ∨ g dμ = f dμ + g dμ ≤ ν(A ∩ E) + ν(A \ E) = ν(A). A
A∩E
A\E
0 n→∞ W¨ahle eine Folge (gn )n∈N in G mit gn dμ −→ γ und setze fn = g1 ∨ . . . ∨ gn . Wegen (7.11) ist fn ∈ G. Der Satz von der monotonen Konvergenz liefert f¨ur f := sup{fn : n ∈ N} f dμ = sup fn dμ ≤ ν(A) f¨ur jedes A ∈ A, A
n∈N
A
(das heißt f ∈ G) und weiter f dμ = sup fn dμ ≥ sup gn dμ = γ, n∈N
also
0
n∈N
f dμ = γ ≤ ν(Ω). Wir definieren nun f¨ur jedes A ∈ A
7 Lp -R¨aume und Satz von Radon-Nikodym
160
νa (A) :=
f dμ,
νs (A) := ν(A) − νa (A).
A
Nach Konstruktion ist nun νa % μ0ein endliches Maß mit Dichte f bez¨uglich μ. Wegen f ∈ G ist νs (A) = ν(A) − A f dμ ≥ 0 f¨ur jedes A ∈ A, also ist auch νs ein endliches Maß. Es bleibt zu zeigen, dass νs ⊥ μ. An dieser Stelle benutzen wir Lemma 7.46. Wir nehmen an, dass νs ⊥ μ g¨alte. Dann g¨abe es ein ε > 0 und ein A ∈ A mit μ(A) > 0 so, dass εμ(E) ≤ νs (E) f¨ur jedes E ⊂ A, E ∈ A. F¨ur B ∈ A w¨are dann (f + ε A ) dμ = f dμ + εμ(A ∩ B) B
B
≤ νa (B) + νs (A ∩ B) ≤ νa (B) + νs (B) = ν(B). 0 Mit anderen Worten: (f + ε A ) ∈ G und damit (f + ε A ) dμ = γ + εμ(A) > γ, 2 was im Widerspruch zur Definition von γ steht. Also ist tats¨achlich νs ⊥ μ. ¨ Ubung 7.5.1. Sei μ ein σ-endliches Maß auf (Ω, A) und ϕ ein signiertes Maß auf (Ω, A). Man zeige, dass, analog zum Satz von Radon-Nikodym, die beiden folgenden Aussagen a¨ quivalent sind: (i) F¨ur jedes A ∈ A mit μ(A) = 0 ist ϕ(A) = 0. 0 (ii) Es gibt ein f ∈ L1 (μ) mit ϕ = f μ, also A f dμ = ϕ(A) f¨ur jedes A ∈ A. ♣ ¨ Ubung 7.5.2. Seien μ, ν, α endliche Maße auf (Ω, A) mit ν % μ % α. (i) Zeige, dass die Kettenregel f¨ur die Radon-Nikodym-Ableitung gilt: dν dμ dν = dα dμ dα (ii) Zeige, dass f :=
dν d(μ+ν)
α-f.¨u.
existiert und dass μ-f.¨u.
dν dμ
=
f 1−f
gilt.
♣
7.6 Erg¨anzung: Dualr¨aume Nach dem Darstellungssatz von Riesz-Fr´echet (Satz 7.26) hat jede stetige Linearform F : L2 (μ) → R eine Darstellung F (g) = f, g! f¨ur ein f ∈ L2 (μ). Andererseits ist f¨ur jedes f ∈ L2 (μ) die Abbildung L2 (μ) → R, g → f, g! stetig und linear. Daher ist L2 (μ) in kanonischer Weise isomorph zu seinem topologischen Dualraum (L2 (μ)) . Dieser ist allgemein wie folgt definiert. Definition 7.47 (Dualraum). Sei (V, · ) ein Banachraum. Der Dualraum V von V ist definiert durch
7.6 Erg¨anzung: Dualr¨aume
161
V := {F : V → R ist stetig und linear}. F¨ur F ∈ V setzen wir F := sup{|F (f )| : f = 1}. Bemerkung 7.48. Da F stetig ist, existiert f¨ur jedes δ > 0 ein ε > 0, sodass 3 |F (f )| < δ gilt f¨ur jedes f ∈ V mit f < ε. Also ist F ≤ δ/ε < ∞. Wir sind nun an dem Fall V = Lp (μ) f¨ur p ∈ [1, ∞] interessiert. Betrachten wir speziell V = L2 (μ), so ist also F 2 = f 2 . Dies l¨asst sich verallgemeinern: Lemma 7.49. Seien p, q ∈ [1, ∞] mit p1 + 1q = 1. Dann ist die kanonische Abbildung κ : Lq (μ) → (Lp (μ)) κ(f )(g) = f g dμ
f¨ur f ∈ Lq (μ), g ∈ Lp (μ)
eine Isometrie, das heißt κ(f )p = f q . Beweis. Wir zeigen die Gleichheit, indem wir beide Ungleichungen zeigen. ≤“ Dies folgt direkt aus der H¨older’schen Ungleichung. ” q p ≥“ F¨ur jedes zul¨assige Paar p, q und 0 f ∈ L (μ), g ∈ L (μ) gilt per Definition ” der Operatornorm κ(f )p gp ≥ f g dμ. Wir definieren die Vorzeichenfunktion sign(x) = (0,∞) (x)− (−∞,0) (x). Indem wir g durch g˜ := |g| sign(f ) ersetzen (beachte ˜ g p = gp ), erhalten wir κ(f )p gp ≥ f g˜ dμ = f g1 . (7.12) Sei zun¨achst q = 1 und f ∈ L1 (μ). Mit g ≡ 1 ∈ L∞ (μ) in (7.12) folgt κ(f )∞ ≥ f 1 . Sei nun q ∈ (1, ∞). W¨ahle g = |f |q−1 . Wegen
q−1 q
=
1 p
ist dann
= f q · gp . κ(f )p · gp ≥ f g1 = |f |q ||1 = f qq = f q · f q−1 q Sei schließlich q = ∞. Ohne Einschr¨ankung sei f ∞ ∈ (0, ∞). Sei ε > 0. Dann existiert ein Aε ∈ A mit 0 < μ(Aε ) < ∞, sodass
Aε ⊂ |f | > (1 − ε)f ∞ . Setzen wir g =
1 μ(Aε )
Aε ,
so ist g1 = 1 und κ(f )1 ≥ f g1 ≥ (1 − ε)f ∞ . 2
Satz 7.50. F¨ur p ∈ [1, ∞) und p1 + 1q = 1 ist Lq (μ) isomorph zu (Lp (μ)) verm¨oge der Isometrie κ.
162
7 Lp -R¨aume und Satz von Radon-Nikodym
Beweis. F¨ur den Beweis greifen wir zur¨uck auf den Satz von Radon-Nikodym (Korollar 7.34). Allerdings skizzieren wir den Beweis nur, weil wir die Theorie der signierten Maße und Inhalte nicht vertiefen wollen. Ein signierter Inhalt ν ist eine additive Mengenfunktion, die sich als Differenz ν = ν + − ν − zweier endlicher Inhalte darstellen l¨asst, also auch negative Werte annehmen kann. (Diese Begriffsbildung ist analog zu der des signierten Maßes, das sich ja als Differenz zweier Maße darstellen l¨asst.) Da κ eine Isometrie ist, ist κ insbesondere injektiv. Wir m¨ussen also nur noch zeigen, dass κ surjektiv ist. Sei F ∈ (Lp (μ)) . Dann ist ν(A) = F ( A ) ein signierter Inhalt auf A, und es gilt |ν(A)| ≤ F p (μ(A))1/p . Da μ ∅-stetig ist, ist also auch ν ∅-stetig und daher ein signiertes Maß auf A. Es gilt sogar ν % μ. Nach dem Satz von Radon-Nikodym (Korollar 7.34) (angewandt auf ¨ 7.5.1) besitzt ν eine Dichte bez¨uglich μ, die Maße ν − und ν + , vergleiche Ubung also eine messbare Funktion f mit ν = f μ. Sei Ee := {g : g ist Elementarfunktion mit μ(g = 0) < ∞} und E+ e := {g ∈ Ee : g ≥ 0}. Dann ist f¨ur g ∈ Ee F (g) = gf dμ. (7.13) Um zu zeigen, dass (7.13) f¨ur alle g ∈ Lp (μ) gilt, m¨ussen wir zun¨achst zeigen, dass f ∈ Lq (μ) liegt. Wir unterscheiden zwei F¨alle. Fall 1: p = 1.
F¨ur jedes α > 0 ist
1 ν({|f | > α}) α 1 1 = F ( {|f |>α} ) ≤ F 1 · α α
μ({|f | > α}) ≤
{|f |>α} 1
=
1 F 1 · μ({|f | > α}). α
Es folgt μ({|f | > α}) = 0, falls α > F 1 , also f ∞ ≤ F 1 < ∞. Fall 2: p ∈ (0, ∞). Nach Satz 1.96 existieren g1 , g2 , . . . ∈ E+ e so, dass gn ↑ |f | μ–f.¨u. Setzen wir hn = sign(f )(gn )q−1 ∈ Ee , so gilt gn qq ≤ hn f dμ = F (hn ) ≤ F p · hn p = F p · (gn q )q−1 , also ist gn q ≤ F p . Monotone Konvergenz (Satz 4.20) liefert nun f q ≤ F p < ∞ also f ∈ Lq (μ). 0 Daher ist die Abbildung F : g → gf dμ in (Lp (μ)) und F(g) = F (g) f¨ur jedes g ∈ Ee . Da F stetig ist und Ee ⊂ Lp (μ) dicht liegt, gilt schon F = F . 2
7.6 Erg¨anzung: Dualr¨aume
163
Bemerkung 7.51. Die Aussage von Satz 7.50 ist f¨ur p = ∞ im Allgemeinen falsch. (F¨ur endliches A ist die Aussage trivialerweise auch f¨ur p = ∞ richtig.) Sei beispielsweise Ω = N, A = 2Ω und μ das Z¨ahlmaß. Wir betrachten also Folgenr¨aume p = Lp (N, 2N , μ). F¨ur den Unterraum K ⊂ ∞ der konvergenten Folgen ist F : K → R, (an )n∈N → lim an ein stetiges lineares Funktional. Nach den n→∞ Hahn-Banach S¨atzen der Funktionalanalysis (siehe etwa [73] oder [156]) kann F zu einem stetigen linearen Funktional auf ∞ fortgesetzt werden. Offenbar gibt es ∞ jedoch kein (bn )n∈N ∈ 1 mit F ((an )n∈N ) = am bm . 3 m=1
¨ Ubung 7.6.1. Man zeige, dass Ee ⊂ Lp (μ) dicht liegt, falls p ∈ [1, ∞).
♣
8 Bedingte Erwartungen
Wenn u¨ ber den Ausgang eines Zufallsexperimentes eine Teilinformation vorhanden ist, a¨ ndern sich die Wahrscheinlichkeiten f¨ur die m¨oglichen Ereignisse. Das Konzept der bedingten Wahrscheinlichkeiten und bedingten Erwartungen formalisiert den zugeh¨origen Kalk¨ul.
8.1 Elementare bedingte Wahrscheinlichkeiten Beispiel 8.1. Wir werfen einen fairen sechsseitigen W¨urfel und betrachten die Ereignisse A := {Augenzahl drei oder kleiner}, B := {Augenzahl ungerade}. Offenbar ist P[A] = 12 und P[B] = 12 . Wie groß ist aber die Wahrscheinlichkeit, dass B eintritt, wenn wir schon wissen, dass A eintritt? Wir modellieren das Experiment auf einem Wahrscheinlichkeitsraum (Ω, A, P), wobei Ω = {1, . . . , 6}, A = 2Ω und P die Gleichverteilung auf Ω ist. Dann ist A = {1, 2, 3}
B = {1, 3, 5}.
und
Wenn wir nur wissen, dass A eingetreten ist, liegt es nahe, auf {1, 2, 3} die Gleichverteilung zu vermuten. Wir definieren also auf (A, 2A ) ein neues W-Maß PA durch PA [C] =
#C #A
f¨ur C ⊂ A.
Indem wir Punkten in Ω \ A die Wahrscheinlichkeit Null geben (die k¨onnen ja nicht eingetreten sein, wenn A eingetreten ist), k¨onnen wir PA auf Ω fortsetzen durch P[C |A] := PA [C ∩ A] = So erhalten wir P[B |A] =
#(C ∩ A) #A
#{1, 3} 2 = . #{1, 2, 3} 3
f¨ur C ⊂ Ω. 3
166
8 Bedingte Erwartungen
Durch das Beispiel motiviert treffen wir die folgende Definition. Definition 8.2 (Bedingte Wahrscheinlichkeit). Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und A ∈ A. Dann definieren wir die bedingte Wahrscheinlichkeit gegeben A f¨ur jedes B ∈ A durch ⎧ ⎨ P[A ∩ B] , falls P[A] > 0, P[A] (8.1) P[B |A] = ⎩ 0, sonst. Bemerkung 8.3. Die genaue Festsetzung in (8.1) f¨ur den Fall P[A] = 0 ist willk¨urlich und unerheblich. 3 Satz 8.4. Ist P[A] > 0, so ist P[ · |A] ein W-Maß auf (Ω, A). 2
Beweis. Trivial! Satz 8.5. Seien A, B ∈ A mit P[A], P[B] > 0. Dann gilt A, B sind unabh¨angig
⇐⇒ P[B |A] = P[B] ⇐⇒ P[A|B] = P[A]. 2
Beweis. Trivial! Satz 8.6 (Formel von der totalen Wahrscheinlichkeit).
Sei I eine abz¨ahlbare Menge und (Bi )i∈I paarweise disjunkte Mengen * ) h¨ochstens mit P i∈I Bi = 1. Dann gilt f¨ur jedes A ∈ A P[A] =
P[A|Bi ] P[Bi ].
(8.2)
i∈I
Beweis. Wegen der σ-Additivit¨at von P ist . (A ∩ Bi ) = P[A ∩ Bi ] = P[A|Bi ]P[Bi ]. P[A] = P i∈I
i∈I
2
i∈I
Satz 8.7 (Bayes’sche Formel). Sei I eine h¨ ochstens* abz¨ahlbare Menge sowie ) (Bi )i∈I paarweise disjunkte Mengen mit P i∈I Bi = 1. Dann gilt f¨ur jedes A ∈ A mit P[A] > 0 und jedes k ∈ I P[A|Bk ] P[Bk ] i∈I P[A|Bi ] P[Bi ]
P[Bk |A] =
(8.3)
8.1 Elementare bedingte Wahrscheinlichkeiten
167
Beweis. Es gilt P[Bk |A] =
P[A|Bk ] P[Bk ] P[Bk ∩ A] = . P[A] P[A]
Setze jetzt (8.2) f¨ur P[A] ein.
2
Beispiel 8.8. Bei der Produktion gewisser elektronischer Bauteile sind 2% der Ware defekt. Ein schnelles Testverfahren erkennt ein defektes Bauteil mit Wahrscheinlichkeit 95%, meldet aber bei 10% der intakten Bauteile falschen Alarm. Mit welcher Wahrscheinlichkeit ist ein als defekt erkanntes Bauteil wirklich defekt? Wir formalisieren die obige Beschreibung. Seien A := {Bauteil wird als defekt deklariert}, B := {Bauteil ist defekt}, sowie
P[B] = 0.02, P[A|B] = 0.95,
P[B c ] = 0.98, P[A|B c ] = 0.1.
Die Bayes’sche Formel liefert nun P[B |A] = =
P[A|B] P[B] P[A|B] P[B] + P[A|B c ] P[B c ] 19 0.95 · 0.02 = ≈ 0.162. 0.95 · 0.02 + 0.1 · 0.98 117
Andererseits ist die Wahrscheinlichkeit, dass ein nicht als defekt erkanntes Bauteil dennoch defekt ist P[B |Ac ] =
1 0.05 · 0.02 = ≈ 0.00113. 0.05 · 0.02 + 0.9 · 0.98 883
Sei nun X ∈ L1 (P). Ist A ∈ A, so ist offenbar auch E[X; A] := E[
A
AX
3
∈ L1 (P), und wir setzen
X].
(8.4)
Ist P[A] > 0, so ist P[ · |A] ein W-Maß. Wegen A X ∈ L1 (P) ist auch X ∈ L1 (P[ · |A]). Also k¨onnen wir den Erwartungswert von X bez¨uglich P[ · |A] definieren. Definition 8.9. Sei X ∈ L1 (P) und A ∈ A. Dann setzen wir ⎧ ⎨ E[ A X] , falls P[A] > 0, P[A] E[X |A] := X(ω) P[dω |A] = ⎩ 0, sonst.
(8.5)
168
8 Bedingte Erwartungen
Offenbar ist P[B |A] = E[
B |A]
f¨ur jedes B ∈ A.
Wir betrachten nun die Situation, die wir bei der Formel von der totalen Wahrscheinlichkeit untersucht hatten. Sei also I eine h¨ ochstens abz¨ahlbare Menge, und Bi = Ω. Wir definieren F := seien (Bi )i∈I paarweise disjunkte Ereignisse mit i∈I
σ(Bi , i ∈ I). F¨ur X ∈ L1 (P) definieren wir eine Abbildung E[X |F] : Ω → R durch ⇐⇒ Bi ω. (8.6) E[X |F](ω) = E[X |Bi ] Lemma 8.10. Die Abbildung E[X |F] hat die folgenden Eigenschaften: (i) E[X |F] ist F -messbar,
(ii) E[X |F] ∈ L (P), und f¨ur jedes A ∈ F gilt
E[X |F] dP =
1
A
X dP. A
Beweis. (i) Sei f die Abbildung f : Ω → I, mit f (ω) = i
⇐⇒
Bi ω.
Ferner sei g : I → R, i → E[X |Bi ]. Da I diskret ist, ist g messbar. Da f messbar ist bez¨uglich F , ist auch E[X |F] = g ◦ f messbar bez¨uglich F . (ii) Sei A ∈ F und J ⊂ I mit A = j∈J Bj . Sei J := {i ∈ J : P[Bi ] > 0}. Dann ist E[X |F] dP = P[Bi ] E[X |Bi ] = E[ Bi X] = X dP. 2 A
i∈J
i∈J
A
¨ Ubung 8.1.1 (Ged¨achtnislosigkeit der Exponentialverteilung). Sei X eine nichtnegative Zufallsvariable und θ > 0. Man zeige: Genau dann ist X exponentialverteilt, wenn P[X > t + s|X > s] = P[X > t]
f¨ur alle s, t ≥ 0.
Insbesondere gilt f¨ur θ > 0: Genau dann ist X ∼ expθ , wenn P[X > t + s|X > ♣ s] = e−θt f¨ur alle s, t ≥ 0 gilt.
8.2 Bedingte Erwartungen Wir nehmen an, dass X eine uniform auf [0, 1] verteilte Zufallsvariable ist, und dass bei Kenntnis des Wertes X = x die Zufallsvariablen Y1 , . . . , Yn unabh¨angig und Berx -verteilt sind. Mit unserem Apparat k¨onnen wir bisher bedingte Wahrscheinlichkeiten vom Typ P[ · |X ∈ [a, b]], a < b, ausrechnen. Wie sieht es aber aus
8.2 Bedingte Erwartungen
169
mit P[Y1 = . . . = Yn = 1 X = x]? Intuitiv sollte dies xn sein. Wir brauchen einen Begriff der bedingten Wahrscheinlichkeit, der auch f¨ur Ereignisse mit Wahrscheinlichkeit Null in konsistenter Weise unserer Intuition entspricht. Wir werden (im n¨achsten Abschnitt) sehen, dass dies im vorliegenden Beispiel mit Hilfe von ¨ Ubergangskernen m¨oglich ist. Zun¨achst aber betrachten wir die allgemeine Situation. Sei im Folgenden stets F ⊂ A eine Unter-σ-Algebra und X ∈ L1 (Ω, A, P). In Anlehnung an Lemma 8.10 treffen wir die folgende Definition. Definition 8.11 (Bedingte Erwartung). Eine Zufallsvariable Y heißt bedingte Erwartung von X gegeben F , symbolisch E[X |F] := Y , falls gilt: (i) Y ist F -messbar. (ii) F¨ur jedes A ∈ F gilt E[X
A]
F¨ur B ∈ A heißt P[B |F] := E[ gegeben F .
= E[Y
B |F]
A ].
die bedingte Wahrscheinlichkeit von B
Satz 8.12. E[X |F] existiert und ist eindeutig (bis auf Gleichheit fast sicher). Da bedingte Erwartungen nur bis auf Gleichheit f.s. definiert sind, sind alle Gleichheiten mit bedingten Erwartungen immer nur als Gleichheiten f.s. zu verstehen, auch wenn nicht explizit darauf hingewiesen wird. Beweis. Eindeutigkeit. Seien Y und Y Zufallsvariablen, die (i) und (ii) erf¨ullen. Setze A = {Y > Y } ∈ F. Dann ist nach Bedingung (ii) 0 = E[Y
A]
− E[Y
A]
= E[(Y − Y )
A ].
Wegen (Y − Y ) A ≥ 0, ist dann P[A] = 0, also Y ≤ Y fast sicher. Analog folgt Y ≥ Y fast sicher. Existenz.
Seien X + = X ∨ 0 und X − = X + − X. Durch Q± (A) := E[X ±
A]
f¨ur jedes A ∈ F,
werden zwei endliche Maße auf (Ω, F ) definiert. Offenbar ist Q± % P, also liefert der Satz von Radon-Nikodym (Korollar 7.34) die Existenz von Dichten Y ± , sodass Y ± dP = E[Y ± A ]. Q± (A) = A
Setze nun Y = Y + − Y − .
2
Definition 8.13. Ist Y eine Zufallsvariable und X ∈ L1 (P), so definieren wir E[X |Y ] := E[X |σ(Y )].
170
8 Bedingte Erwartungen
Satz 8.14 (Eigenschaften der bedingten Erwartung). Seien (Ω, A, P) und X wie oben sowie G ⊂ F ⊂ A σ-Algebren. Ferner sei Y ∈ L1 (Ω, A, P). Dann gilt: (i) (Linearit¨at) E[λX + Y |F] = λE[X |F] + E[ Y |F]. (ii) (Monotonie)
Ist X ≥ Y f.s., so ist E[X |F] ≥ E[ Y |F].
(iii) Ist E[|XY |] < ∞ und Y messbar bez¨uglich F , dann ist E[XY |F] = Y E[X |F]
E[ Y |F] = E[ Y |Y ] = Y.
und
E[E[X |F]|G] = E[E[X |G]|F] = E[X |G]. (v) (Dreiecksungleichung) E[|X| F ] ≥ E[X |F].
(iv) (Turmeigenschaft) (vi) (Unabh¨angigkeit)
Sind σ(X) und F unabh¨angig, so ist E[X |F] = E[X].
(vii) Gilt P[A] ∈ {0, 1} f¨ur jedes A ∈ F, so ist E[X |F] = E[X]. (viii) (Majorisierte Konvergenz) Ist Y ≥ 0 und ist (Xn )n∈N eine Folge von Zun→∞ fallsvariablen mit |Xn | ≤ Y f¨ur n ∈ N sowie Xn −→ X f.s., so gilt lim E[Xn |F] = E[X |F]
n→∞
f.s. und in L1 (P).
Beweis. (i) Die rechte Seite ist F -messbar, und f¨ur A ∈ F ist ) * ) * ) E A λE[X |F] + E[Y |F] = λE A E[X |F] + E
(8.7)
A
* E[Y |F]
A
(X − Y )] ≥ 0,
= λE[ A X] + E[ A Y ] * ) = E A (λX + Y ) . (ii) Sei A = {E[X |F] < E[Y |F]} ∈ F. Wegen X ≥ Y ist E[ also P[A] = 0.
(iii) Sei zun¨achst X ≥ 0 und Y ≥ 0. F¨ur n ∈ N setze Yn = 2−n 2n Y . Dann ist Yn ↑ Y sowie Yn E[X |F] ↑ Y E[X |F] (da E[X |F] ≥ 0 nach (ii)). Es gilt nach dem Satz von der monotonen Konvergenz (Lemma 4.6(ii)) * n→∞ ) * ) E A Yn E[X |F] −→ E A Y E[X |F] . Andererseits ist ) E
∞ * ) E A Yn E[X |F] =
=
k=1 ∞
E
A
{Yn =k 2−n }
* k 2−n E[X |F]
A
{Yn =k 2−n }
k 2−n X
)
k=1
) = E
A
Yn X
*
n→∞
−→ E[
A
Y X].
*
8.2 Bedingte Erwartungen
171
Also gilt E[ A Y E[X |F]] = E[ A Y X]. Im allgemeinen Fall schreiben wir X = X + − X − und Y = Y + − Y − und nutzen die Linearit¨at der bedingten Erwartung aus. (iv) Die zweite Gleichung folgt aus (iii) mit Y = E[X |G] und X = 1. Sei nun A ∈ G. Dann ist insbesondere auch A ∈ F, also * ) * ) * ) E A E[E[X |F]|G] = E A E[X |F] = E[ A X] = E A E[X |G] . (v) Das folgt aus (i) und (ii) mit X = X + − X − . (vi) Trivialerweise ist E[X] messbar bez¨uglich F. Sei A ∈ F. Dann sind X und angig, also ist E[E[X |F] A ] = E[X A ] = E[X] E[ A ]. A unabh¨ (vii) F¨ur jedes A ∈ F und B ∈ A gilt P[A ∩ B] = 0, falls P[A] = 0 ist, und P[A ∩ B] = P[B], falls P[A] = 1 ist. Also ist F von A unabh¨angig und damit auch von jeder Teil-σ-Algebra von A. Speziell ist F von σ(X) unabh¨angig. Die Aussage folgt also aus (vi). n→∞
(viii) Sei |Xn | ≤ Y f¨ur jedes n ∈ N und Xn −→ X fast sicher. Setze Zn := f.s. supk≥n |Xk − X|. Dann ist 0 ≤ Zn ≤ 2Y und Zn −→ 0. Nach Korollar 6.26 n→∞ (majorisierte Konvergenz) gilt E[Zn ] −→ 0, also nach der Dreiecksungleichung * ) n→∞ E E[Xn |F]−E[X |F] ≤ E[E[|Xn −X| F ]] = E[|Xn −X|] ≤ E[Zn ] −→ 0. Dies ist aber die L1 (P)-Konvergenz in (8.7). Sei Z := lim supn→∞ E[Zn F]. Nach dem Lemma von Fatou ist E[Z] ≤ lim E[Zn ] = 0, n→∞
n→∞ also Z = 0 und damit E[Zn F] −→ 0 fast sicher. Nach (v) ist aber E[Xn F] − E[X F] ≤ E[Zn ].
2
Bemerkung 8.15. Intuitiv ist E[X |F] die beste Vorhersage, die wir f¨ur den Wert von X machen k¨onnen, wenn uns die Information aus der σ-Algebra F zur Verf¨ugung steht. Ist beispielsweise σ(X) ⊂ F, kennen wir also X schon, dann ist E[X |F] = X, wie in (iii) gezeigt. Am anderen Ende der Skala ist der Fall, wo X und F unabh¨angig sind, wir also durch Kenntnis von F keine Information u¨ ber X gewinnen. Hier ist die beste Vorhersage f¨ur X der Erwartungswert selber, also E[X] = E[X |F] wie in (vii) gezeigt. Was heißt dabei aber eigentlich genau beste Vorhersage“? Wir wollen dies f¨ur qua” dratintegrierbare Zufallsvariablen X als diejenige F -messbare Zufallsvariable ver2 stehen, die den L –Abstand zu X minimiert. Dass dies die bedingte Erwartung tats¨achlich tut, ist der Inhalt des folgenden Korollars. 3
172
8 Bedingte Erwartungen
Korollar 8.16 (Bedingte Erwartung als Projektion). Sei F ⊂ A eine σ-Algebra und X eine Zufallsvariable mit E[X 2 ] < ∞. Dann ist E[X |F] die orthogonale Projektion von X auf L2 (Ω, F, P). Es gilt also f¨ur jedes F-messbare Y mit E[Y 2 ] < ∞ * ) * ) E (X − Y )2 ≥ E (X − E[X |F])2 mit Gleichheit genau dann, wenn Y = E[X |F]. Beweis. Sei Y messbar E[XY ]= * ) * ) bez¨uglich* F. Dann ) ist (mit der Turmeigenschaft) E[E[X |F]Y ] und E XE[X |F] = E E[XE[X |F] F] = E E[X |F]2 , also ' *2 ( ) * E (X − Y )2 − E X − E[X |F ( ' = E X 2 − 2XY + Y 2 − X 2 + 2XE[X |F] − E[X |F]2 ( ' = E Y 2 − 2Y E[X |F] + E[X |F]2 ' 2 ( = E Y − E[X |F] ≥ 0. 2 Beispiel 8.17. Seien X, Y ∈ L1 (P) unabh¨angig. Dann ist E[X + Y |Y ] = E[X |Y ] + E[Y |Y ] = E[X] + Y.
3
Beispiel 8.18. Seien X1 , . . . , XN unabh¨angig mit E[Xi ] = 0, i = 1, . . . , N . Setze Fn := σ(X1 , . . . , Xn ) und Sn := X1 + . . . + Xn f¨ur n = 1, . . . , N . Dann ist f¨ur n≥m E[Sn Fm ] = E[X1 Fm ] + . . . + E[Xn Fm ] = X1 + . . . + Xm + E[Xm+1 ] + . . . + E[Xn ] = Sm Nach Satz 8.14(iv) ist wegen σ(Sm ) ⊂ Fm auch * ) E[Sn |Sm ] = E E[Sn |Fm ] Sm = E[Sm |Sm ] = Sm .
3
Wir kommen nun zur Jensen’schen Ungleichung f¨ur bedingte Erwartungen. Satz 8.19 (Jensen’sche Ungleichung). Sei I ⊂ R ein Intervall, und sei ϕ : I → R konvex und X eine Zufallsvariable auf (Ω, A, P) mit Werten in I. Ferner sei E[|X|] < ∞ und F ⊂ A eine σ-Algebra. Dann gilt ∞ ≥ E[ϕ(X)|F] ≥ ϕ(E[X |F]). Beweis. (Man erinnere sich der Definition 1.68 zur Sprechweise fast sicher auf ” A“.) Auf dem Ereignis {E[X |F] ist ein Randpunkt von I} ist X = E[X |F] fast
8.2 Bedingte Erwartungen
173
sicher, und die Aussage ist trivial. In der Tat: Ohne Einschr¨ankung sei 0 der linke Randpunkt von I und A := {E[X |F] = 0}. Da X Werte in I ⊂ [0, ∞) annimmt, ist 0 ≤ E[X A ] = E[E[X |F] A ] = 0, also ist X A = 0. Der Fall eines rechten Randpunktes geht analog. Sei also nun das Ereignis B := {E[X |F] ist innerer Punkt von I} betrachtet. F¨ur jeden inneren Punkt x ∈ I sei D+ ϕ(x) die maximale Tangentensteigung von ϕ in x, also der maximale Wert t mit ϕ(y) ≥ (y − x)t + ϕ(x) f¨ur alle y ∈ I (siehe Satz 7.7). Die Abbildung x → D+ ϕ(x) ist monoton wachsend, also messbar, und daher ist D+ ϕ(E[X |F]) eine F -messbare Zufallsvariable. Es folgt '
( ) * E ϕ(X)|F ≥ E X − E[X |F] D+ ϕ(E[X |F]) + ϕ E[X |F] F
= ϕ E[X |F] f.s auf B. 2 Korollar 8.20. Sei p ∈ [1, ∞] und F ⊂ A eine Teil-σ-Algebra. Dann ist die Abbildung Lp (Ω, A, P) → Lp (Ω, F , P), X → E[X |F] eine Kontraktion (das heißt: E[X |F]p ≤ Xp ) und damit insbesondere stetig. Es gilt also f¨ur n→∞ X, X1 , X2 , . . . ∈ Lp (Ω, A, P) mit Xn − Xp −→ 0 auch = = =E[Xn |F] − E[X |F]=
n→∞ p
−→ 0.
p Beweis. F¨ur p ∈ [1, ∞) benutze die Jensen’sche Ungleichung mit ϕ(x) = |x| . F¨ur 2 p = ∞ beachte, dass |E[X |F]| ≤ E[|X||F] ≤ E[X∞ F] = X∞ .
Korollar 8.21. Ist (Xi , i ∈ I) gleichgradig integrierbar und (Fj , j ∈ J) eine Familie von Teil-σ-Algebren von A, sowie Xi,j := E[Xi Fj ], dann ist (Xi,j , (i, j) ∈ I × J) gleichgradig integrierbar. Insbesondere ist f¨ur X ∈ L1 (P) die Familie (E[X |Fj ], j ∈ J) gleichgradig integrierbar. Beweis. Nach Satz 6.19 existiert eine wachsende, konvexe Funktion f mit der Eigenschaft f (x)/x → ∞, x → ∞ und L := supi∈I E[f (|Xi |)] < ∞. Dann ist x → f (|x|) konvex, also nach der Jensen’schen Ungleichung * * ) ) E f (|Xi,j |) = E f E[Xi |Fj ] ≤ L < ∞. Nach Satz 6.19 ist daher (Xi,j , (i, j) ∈ I × J) gleichgradig integrierbar.
2
Beispiel 8.22. Seien μ und ν endliche Maße mit ν % μ. Sei f = dν/dμ die RadonNikodym-Ableitung, und sei I = {F ⊂ A : F ist eine σ-Algebra}. Betrachte die auf F eingeschr¨ankten Maße μ und ν . Dann ist ν % μ (klar, denn in F F F F F gibt es ja weniger μ–Nullmengen), also existiert die Radon-Nikodym-Ableitung fF := dν /dμ . Dann ist (fF : F ∈ I) gleichgradig integrierbar (bez¨uglich F F μ). (F¨ur endliche σ-Algebren F wurde dies schon in Beispiel 7.39 gezeigt.) In der
174
8 Bedingte Erwartungen
Tat: Sei P = μ/μ(Ω) und Q = ν/μ(Ω). Dann ist fF = dQ /dP . F¨ur jedes F F 0 0 F ∈ F ist also E[fF F ] = F fF dP = Q(F ) = F f dP = E[f F ], also fF = E[f |F]. Nach dem vorangehenden Korollar ist (fF : F ∈ I) gleichgradig integrierbar bez¨uglich P und damit auch bez¨uglich μ. 3 ¨ Ubung 8.2.1. (Bayes’sche Formel) Seien A ∈ A und B ∈ F. Man zeige 0 P[A|F] dP . P[B |A] = 0B P[A|F] dP Wird F von paarweise disjunkten Mengen B1 , B2 , . . . erzeugt, so ist dies gerade die Bayes’sche Formel aus Satz 8.7. ♣ ¨ Ubung 8.2.2. Man zeige durch ein Beispiel, dass E[E[X |F]|G] = E[E[X |G]|F] gelten kann. ♣ ¨ Ubung 8.2.3. Man zeige die bedingte Markov’sche Ungleichung: F¨ur monoton wachsendes f : [0, ∞) → [0, ∞) und ε > 0 mit f (ε) > 0 ist * ) ) * E f (|X|) F . ♣ P |X| ≥ ε|F ≤ f (ε) ¨ Ubung 8.2.4. Man zeige die bedingte Cauchy-Schwarz’sche Ungleichung: F¨ur quadratintegrierbare Zufallsvariablen X, Y gilt E[XY |F]2 ≤ E[X 2 |F] E[Y 2 |F].
♣
¨ Ubung 8.2.5. Seien X1 , . . . , Xn integrierbar, unabh¨angig und identisch verteilt. Sei Sn = X1 + . . . + Xn . Zeige: E[Xi |Sn ] =
1 Sn n
f¨ur jedes i = 1, . . . , n.
♣
¨ Ubung 8.2.6. Seien X1 und X2 unabh¨angig und exponentialverteilt mit Parameter ♣ θ > 0. Man bestimme E[X1 ∧ X2 |X1 ]. ¨ Ubung 8.2.7. Seien X und Y reelle Zufallsvariablen mit gemeinsamer Dichte f , und sei h : R → R messbar mit E[|h(X)|] < ∞. Es bezeiche λ das Lebesgue-Maß auf R. (i) Zeige, dass fast sicher gilt: E[h(X)|Y ] =
0
h(x)f (x, Y ) λ(dx) 0 . f (x, Y ) λ(dx)
(ii) Seien speziell X und Y unabh¨angig und expθ -verteilt f¨ur ein θ > 0. Bestimme E[X |X + Y ] und P[X ≤ x|X + Y ] f¨ur x ≥ 0. ♣
8.3 Regul¨are Version der bedingten Verteilung
175
8.3 Regul¨are Version der bedingten Verteilung Ist X eine Zufallsvariable mit Werten in einem Messraum (E, E), so k¨onnen wir mit unserem Apparat bisher f¨ur festes A ∈ A die bedingte Wahrscheinlichkeit P[A|X] angeben. K¨onnen wir die Situation aber auch so einrichten, dass wir f¨ur jedes x ∈ E ein W-Maß P[ · |X = x] angeben k¨onnen, sodass f¨ur jedes A ∈ A gilt P[A|X] = P[A|X = x] auf {X = x}? Wir sind beispielsweise an einem zweistufigen Zufallsexperiment interessiert: Im ersten Schritt wird eine M¨unze in zuf¨alliger Weise so gef¨alscht, dass sie die Erfolgswahrscheinlichkeit X hat. Danach werden unabh¨angige W¨urfe Y1 , . . . , Yn mit dieser M¨unze durchgef¨uhrt. Die bedingte Verteilung von (Y1 , . . . , Yn ) gegeben ” {X = x}“ sollte also (Berx )⊗n sein. Sei X wie oben und Z eine σ(X)-messbare, reelle Zufallsvariable. Nach dem Faktorisierungslemma (Korollar 1.97) existiert eine E – B(R)-messbare Abbildung ϕ : E → R mit ϕ(X) = Z. Ist X surjektiv, so ist ϕ eindeutig festgelegt. Wir schreiben dann Z ◦ X −1 := ϕ (auch wenn die Umkehrabbildung X −1 selber nicht existiert). Definition 8.23. Sei Y ∈ L1 (P) und X : (Ω, A) → (E, E). Dann definieren wir die bedingte Erwartung von Y gegeben X = x, kurz E[Y |X = x], als die Funktion ϕ aus dem Faktorisierungslemma mit Z = E[Y |X]. Wir setzen analog P[A|X = x] = E[ A X = x] f¨ur A ∈ A. F¨ur eine Menge B ∈ A mit P[B] > 0 ist die bedingte Wahrscheinlichkeit P[ · |B] ein W-Maß. Gilt das Gleiche f¨ur P[ · |X = x]? Der Fall liegt hier komplizierter, da wir f¨ur jedes A ∈ A den Ausdruck P[A|X = x] f¨ur x nur bis auf eine Ausnahmemenge, die allerdings von A abh¨angt, definiert haben. Wenn wir die σ-Algebra A nun durch abz¨ahlbar viele A gen¨ugend gut approximieren k¨onnen, besteht Hoffnung, dass die Ausnahmemengen sich zu einer Nullmenge vereinigen. Wir fassen zun¨achst die Begriffe genauer und zeigen dann das angedeutete Ergebnis. ¨ Definition 8.24 (Ubergangskern, Markovkern). Sind (Ω1 , A1 ), (Ω2 , A2 ) Mess¨ (von Ω1 r¨aume, so heißt κ : Ω1 × A2 → [0, ∞] ein (σ–)endlicher Ubergangskern nach Ω2 ), falls (i) ω1 → κ(ω1 , A2 ) ist A1 -messbar f¨ur jedes A2 ∈ A2 . (ii) A2 → κ(ω1 , A2 ) ist ein (σ–)endliches Maß auf (Ω2 , A2 ) f¨ur jedes ω1 ∈ Ω1 . Ist das Maß in (ii) ein W-Maß f¨ur jedes ω1 ∈ Ω1 , so heißt κ stochastischer Kern oder Markovkern. Wird in (ii) zus¨atzlich κ(ω1 , Ω2 ) ≤ 1 f¨ur jedes ω1 ∈ Ω1 gefordert, so heißt κ sub-Markov’sch oder substochastisch.
176
8 Bedingte Erwartungen
Bemerkung 8.25. Es reicht, in Definition 8.24 die Eigenschaft (i) nur f¨ur Mengen A2 aus einem schnittstabilen Erzeuger E von A2 , der Ω2 oder eine Folge En ↑ Ω2 enth¨alt, zu fordern. Es ist n¨amlich stets
D := A2 ∈ A2 : ω1 → κ(ω1 , A2 ) ist A1 -messbar ¨ ein Dynkin-System (Ubung!). Wegen E ⊂ D ist (Satz 1.19) D = σ(E) = A2 .
3
Beispiel 8.26. (i) Sind (Ω1 , A1 ) und (Ω2 , A2 ) diskrete Messr¨aume, so liefert jede Matrix (Kij ) i∈Ω1 mit nichtnegativen Eintr¨agen und endlichen Zeilensummen j∈Ω2
Ki :=
Kij < ∞
f¨ur i ∈ Ω1 ,
j∈Ω2
¨ einen endlichen Ubergangskern von Ω1 nach Ω2 verm¨oge κ(i, A) =
Kij . Der
j∈A
Kern ist stochastisch, falls Ki = 1 f¨ur jedes i ∈ N und substochastisch, falls Ki ≤ 1 f¨ur jedes i ∈ Ω1 . ¨ (ii) Ist μ2 ein endliches Maß auf Ω2 , dann ist κ(ω1 , · ) ≡ μ2 ein endlicher Ubergangskern. (iii) κ(x, · ) = Poix ist ein stochastischer Kern von [0, ∞) nach N0 (beachte: f¨ur jedes A ⊂ N0 ist x → Poix (A) stetig, also insbesondere messbar). (iv) Sei μ eine Verteilung auf Rn und X eine Zufallsvariable mit PX = μ. Dann definiert κ(x, · ) = P[X + x ∈ · ] = δx ∗ μ einen stochastischen Kern von Rn nach Rn . In der Tat: Die Mengen (−∞, y], y ∈ Rn , bilden einen schnittstabilen Erzeuger von B(Rn ) und x → κ(x, (−∞, y]) = μ((−∞, y − x]) ist linksstetig, also messbar. 3 Nach Bemerkung 8.25 ist daher x → κ(x, A) messbar f¨ur jedes A ∈ B(Rn ). Definition 8.27. Sei Y eine Zufallsvariable mit Werten in einem Messraum (E, E) und F ⊂ A eine Unter-σ-Algebra. Ein stochastischer Kern κY,F von (Ω, F) nach (E, E) heißt regul¨are Version der bedingten Verteilung von Y gegeben F, falls κY,F (ω, B) = P[{Y ∈ B}|F](ω) f¨ur P-fast alle ω ∈ Ω und f¨ur jedes B ∈ E. Sei speziell F = σ(X) f¨ur eine Zufallsvariable X (in einem beliebigen Messraum (E , E )). Dann heißt der stochastische Kern (x, A) → κY,X (x, A) = P[{Y ∈ A}|X = x] = κY,σ(X) (X −1 (x), A) (die Funktion aus dem Faktorisierungslemma mit beliebiger Festsetzung f¨ur x ∈ X(Ω)) eine regul¨are Version der bedingten Verteilung von Y gegeben X. Satz 8.28 (Regul¨are bedingte Verteilungen in R). Ist Y : (Ω, A) → (R, B(R)) reellwertig, dann existiert eine regul¨are Version κY,F der bedingten Verteilungen P[{Y ∈ · }|F].
8.3 Regul¨are Version der bedingten Verteilung
177
Beweis. Die Strategie besteht darin, eine messbare Version der Verteilungsfunktion der bedingten Verteilung von Y zu konstruieren, indem diese zun¨achst f¨ur rationale Werte festgelegt wird (bis auf eine Nullmenge) und dann auf die reellen Zahlen fortgesetzt wird. F¨ur r ∈ Q sei F (r, · ) eine Version der bedingten Wahrscheinlichkeit P[Y ∈ (−∞, r]|F]. F¨ur r ≤ s ist offenbar {Y ∈(−∞,r]} ≤ {Y ∈(−∞,s]} , also gibt es nach Satz 8.14(ii) (Monotonie der bedingten Erwartung) eine Nullmenge Ar,s ∈ F mit F (r, ω) ≤ F (s, ω) f¨ur jedes ω ∈ Ω \ Ar,s . Nach Satz 8.14(viii) (majorisierte Konvergenz) gibt es Nullmengen (Br )r∈Q ∈ F und C ∈ F, sodass 1 lim F r + , ω = F (r, ω) f¨ur jedes ω ∈ Ω \ Br und n→∞ n lim F (−n, ω) = 0,
lim F (n, ω) = 1
n→∞
Setze N :=
r,s∈Q
Ar,s ∪
n→∞
r∈Q
f¨ur jedes ω ∈ Ω \ C.
Br ∪ C. F¨ur ω ∈ Ω \ N definieren wir
F˜ (z, ω) := inf F (r, ω) : r ∈ Q, r ≥ z
f¨ur alle z ∈ R.
Da F ( · , ω) monoton wachsend ist, ist F˜ ( · , ω) monoton wachsend und rechtsstetig in jedem z ∈ R \ Q. Da F ( · , ω) zudem rechtsstetig ist, ist F˜ ( · , ω) rechtsstetig in jedem z ∈ Q. Also ist F˜ ( · , ω) eine Verteilungsfunktion f¨ur jedes ω ∈ Ω \ N . F¨ur ω ∈ N setze F˜ ( · , ω) = F0 , wobei F0 eine beliebige fest gew¨ahlte Verteilungsfunktion ist. F¨ur jedes ω ∈ Ω definieren wir κ(ω, · ) als das durch die Verteilungsfunktion F˜ ( · , ω) definierte W-Maß auf (Ω, A). F¨ur r ∈ Q und B = (−∞, r] ist dann ω → κ(ω, B) = P[Y ∈ B |F](ω)
N c (ω)
+ F0 (r)
N (ω)
(8.8)
F -messbar. Nun ist {(−∞, r], r ∈ Q} ein schnittstabiler Erzeuger von B(R). Nach Bemerkung 8.25 gilt die Messbarkeit also f¨ur jedes B ∈ B(R), und damit ist κ als stochastischer Kern erkannt. Wir m¨ussen noch zeigen, dass κ eine Version der bedingten Verteilungen ist. F¨ur A ∈ F, r ∈ Q und B = (−∞, r] ist nach (8.8) ) * ) * κ(ω, B) P[dω] = P Y ∈ B |F dP = P A ∩ {Y ∈ B} . A
A
Als Funktion von B sind beide Seiten
endliche Maße auf B(R), die auf dem schnittstabilen Erzeuger (−∞, r], r ∈ Q u¨ bereinstimmen. Nach dem Eindeutigkeitssatz (Lemma 1.42) gilt daher f¨ur jedes B ∈ B(R) Gleichheit und damit P-fast sicher 2 κ( · , B) = P[Y ∈ B |F], also κ = κY,F .
178
8 Bedingte Erwartungen
Beispiel 8.29. Seien Z1 , Z2 unabh¨angig und Poisson-verteilt mit den Parametern ¨ dass (mit Y = Z1 und X = Z1 + Z2 ) λ1 , λ2 ≥ 0. Dann kann man zeigen (Ubung!), P[Z1 = k Z1 + Z2 = n] = bn,p (k) f¨ur k = 0, . . . , n, wobei p =
λ1 λ1 +λ2
3
ist.
Dieses Beispiel ließ sich aber im Grunde genommen auch noch mit elementaren Mitteln bearbeiten. Die volle St¨arke des Ergebnisses nutzen wir in den folgenden Beispielen aus. Beispiel 8.30. Seien X und Y reelle Zufallsvariablen mit gemeinsamer Dichtefunktion f (bez¨uglich des Lebesgue-Maßes λ2 auf R2 ). F¨ur x ∈ R setzen wir fX (x) = f (x, y) λ(dy). R
−1 ist die Dichte des absolutstetiOffenbar ist fX (x) > 0 f¨ur PX -f.a. x ∈ R und fX gen Anteils des Lebesgue-Maßes λ bez¨uglich PX . Die regul¨are Version der bedingten Verteilung von Y gegeben X hat die Dichte
P[Y ∈ dy |X = x] f (x, y) = fY |X (x, y) := f¨ur PX [dx]-f.a. x ∈ R. (8.9) dy fX (x) In 0 der Tat ist nach dem Satz von Fubini (siehe Satz 14.16) die Abbildung x → f (x, y) λ(dy) messbar f¨ur jedes B ∈ B(R), und f¨ur A, B ∈ B(R) gilt B Y |X P[X ∈ dx] fY |X (x, y) λ(dy) A B −1 P[X ∈ dx] fX (x) f (x, y) λ(dy) = B A λ(dx) f (x, y) λ(dy) = A B = f dλ2 = P[X ∈ A, Y ∈ B]. 3 A×B
. Beispiel 8.31. Seien μ1 , μ2 ∈ R, σ1 , σ2 > 0 und Z1 , Z2 unabh¨angig und Nμi ,σi2 verteilt (i = 1, 2). Dann existiert eine regul¨are Version der bedingten Verteilung P[Z1 ∈ · |Z1 + Z2 = x]
f¨ur x ∈ R.
Setzen wir X = Z1 +Z2 und (X, Y ) ∼ Nμ,Σ bivariatnormalverteilt Y2 = Z12 , so2ist μ1 + μ2 σ1 + σ 2 σ 1 und mit μ := . Wegen mit Kovarianzmatrix Σ := σ12 σ12 μ1
8.3 Regul¨are Version der bedingten Verteilung
Σ −1 = wo B =
σ1 −σ1 0 σ2
σ12 σ22
−1
−σ12 σ12 2 2 −σ1 σ1 + σ22
179
= (σ12 σ22 )−1 B T B,
ist, hat (X, Y ) die Dichte (siehe Beispiel 1.105(ix))
= =2 1 = x − (μ1 + μ2 ) = = = exp − 2 2 =B f (x, y) = det(2π Σ) = y − μ1 2σ1 σ2
2 2 2 −1/2 σ12 (y − (x − μ1 ))2 + σ22 (y − μ2 )2 = 4π σ1 σ2 exp − 2σ12 σ22
2 2 = Cx exp − (y − μx ) /2σx , −1/2
wobei Cx eine Normalisierungskonstante ist und μx = μ1 +
σ12 (x − μ1 − μ2 ) σ12 + σ22
und
σx2 =
σ12 σ22 . σ12 + σ22
Nach (8.9) hat P[Z1 ∈ · |Z1 + Z2 = x] die Dichte (y − μx )2 Cx exp − y → fY |X (x, y) = , fX (x) 2σx2 also ist P[Z1 ∈ · |Z1 + Z2 = x] = Nμx ,σx2 f¨ur fast alle x ∈ R.
3
Beispiel 8.32. Sind X und Y unabh¨angige, reelle Zufallsvariablen, so ist f¨ur PX fast alle x ∈ R 3 P[X + Y ∈ · |X = x] = δx ∗ PY . Die Situation ist noch nicht vollends zufriedenstellend, da wir die sehr starke Annahme gemacht haben, dass Y reellwertig ist. Urspr¨unglich waren wir aber auch an einer Situation interessiert, wo Y Werte in Rn annimmt, oder sogar in allgemeineren R¨aumen. Wir dehnen nun das Ergebnis auf eine gr¨oßere Klasse von Wertebereichen von Y aus. Definition 8.33. Zwei Messr¨aume (E, E) und (E , E ) heißen isomorph, falls es eine bijektive Abbildung ϕ : E → E gibt, sodass ϕ messbar ist bez¨uglich E–E und die Umkehrabbildung ϕ−1 messbar ist bez¨uglich E –E. Wir nennen dann ϕ einen Messraum-Isomorphismus. Sind zudem μ und μ Maße auf (E, E) und (E , E ) und gilt μ = μ ◦ ϕ−1 , so ist ϕ ein Maßraum-Isomorphismus, und die Maßr¨aume (E, E, μ) und (E , E , μ ) heißen isomorph. Definition 8.34. Ein Messraum (E, E) heißt Borel’scher Raum, falls es eine Borel’sche Menge B ∈ B(R) gibt, sodass (E, E) und (B, B(B)) isomorph sind.
180
8 Bedingte Erwartungen
Ein separabler topologischer Raum, dessen Topologie durch eine vollst¨andige Metrik erzeugt wird, heißt polnischer Raum. Speziell sind Rd , Zd , RN , (C([0, 1]), · ∞ ) und so fort polnisch. Abgeschlossene Teilmengen von polnischen R¨aumen sind ebenfalls polnisch. Wir kommen auf polnische R¨aume im Zusammenhang mit der Konvergenz von Maßen in Kapitel 13 zur¨uck. Ohne Beweis bringen wir das folgende topologische Ergebnis (siehe etwa [37, Theorem 13.1.1]). Satz 8.35. Ist E ein polnischer Raum mit Borel’scher σ-Algebra E, dann ist (E, E) ein Borel’scher Raum. Satz 8.36 (Regul¨are bedingte Verteilungen). Sei F ⊂ A eine Unter-σ-Algebra. Sei Y eine Zufallsvariable mit Werten in einem Borel’schen Raum (E, E) (also zum Beispiel E polnisch, E = Rd , E = R∞ , E = C([0, 1]) usw.). Dann existiert eine regul¨are Version κY,F der bedingten Verteilungen P[{Y ∈ · }|F]. Beweis. Sei B ∈ B(R) und ϕ : E → B ein Messraum-Isomorphismus. Mit Satz 8.28 erhalten wir die regul¨aren bedingten Verteilungen κY ,F der reellen Zufallsvariablen Y = ϕ ◦ Y . Wir setzen nun κY,F (ω, A) = κY ,F (ω, ϕ(A)) f¨ur A ∈ E. 2 Abschließend greifen wir das eingangs betrachtete Beispiel wieder auf und k¨onnen nun die dort in Anf¨uhrungszeichen gemachte Aussage formal hinschreiben. Sei also X uniform auf [0, 1] verteilt, und gegeben den Wert X = x seien (Y1 , . . . , Yn ) unabh¨angig Berx –verteilt. Wir setzen Y = (Y1 , . . . , Yn ). Nach Satz 8.36 (mit E = {0, 1}n ⊂ Rn ) existieren die regul¨aren bedingten Verteilungen κY,X (x, · ) = P[Y ∈ · |X = x]
f¨ur x ∈ [0, 1].
In der Tat ist f¨ur fast alle x ∈ [0, 1] P[Y ∈ · |X = x] = (Berx )⊗n . Satz 8.37. Sei X ein Zufallsvariable auf (Ω, A, P) mit Werten in einem Borel’schen Raum (E, E). Sei F ⊂ A eine σ-Algebra und κX,F eine Version der regul¨aren bedingten Verteilungen von X gegeben F. Sei ferner f : E → R messbar und E[|f (X)|] < ∞. Dann ist (8.10) E[f (X)|F](ω) = f (x) κY,F (ω, dx) f¨ur P-fast alle ω. Beweis. Wir rechnen nach, dass die rechte Seite in (8.10) die Eigenschaften des bedingten Erwartungswertes hat. Es reicht, den Fall f ≥ 0 zu betrachten. Indem wir f durch Elementarfunktionen approximieren, sehen wir, dass die rechte Seite in (8.10) messbar bez¨uglich F ist
8.3 Regul¨are Version der bedingten Verteilung
181
(siehe Lemma 14.20 f¨ur ein formales Argument). Nach Satz 1.96 existieren dann Mengen A1 , A2 , . . . ∈ E und Zahlen α1 , α2 , . . . ≥ 0 mit gn :=
n
αi
n→∞ Ai
−→ f.
i=1
F¨ur jedes n ∈ N und B ∈ F ist nun E[gn (X)
B]
= = =
n i=1 n i=1 n
αi P[{X ∈ Ai } ∩ B] P[{X ∈ Ai }|F] P[dω]
αi B
i=1
=
n B i=1
=
κX,F (ω, Ai ) P[dω]
αi B
αi κX,F (ω, Ai ) P[dω] gn (x) κX,F (ω, dx) P[dω].
B
Nach dem Satz von der 0 monotonen Konvergenz konvergiert f¨ur fast jedes ω das innere Integral gegen f (x)κX,F (ω, dx). Erneute Anwendung des Satzes von der monotonen Konvergenz liefert f (x) κX,F (ω, dx) P[dω]. 2 E[f (X) B ] = lim E[gn (X) B ] = n→∞
B
¨ Ubung 8.3.1. Sei (E, E) ein Borel’scher Raum und μ ein atomloses Maß (das heißt, μ({x}) = 0 f¨ur jedes x ∈ E). Man zeige: F¨ur jedes A ∈ Eund jedes n ∈ N n existieren paarweise disjunkte Mengen A1 , . . . , An ∈ E mit k=1 Ak = A und ♣ μ(Ak ) = μ(A)/n f¨ur jedes k = 1, . . . , n. ¨ Ubung 8.3.2. Seien p, q ∈ (1, ∞) mit p1 + 1q = 1, und seien X ∈ Lp (P) und Y ∈ Lq (μ). Sei F ⊂ A eine σ-Algebra. Man zeige mit Hilfe des vorangehenden Satzes die bedingte Version der H¨older’schen Ungleichung: *1/p ) q *1/q * ) ) E |Y | F fast sicher. ♣ E |XY | F ≤ E |X|p F ¨ Ubung 8.3.3. Sei (X, Y ) uniform verteilt auf B := {(x, y) ∈ R2 : x2 + y 2 ≤ 1} beziehungsweise auf [−1, 1]2 . (i) Man bestimme jeweils die bedingte Verteilung von Y gegeben X = x. √ (ii) Sei R := X 2 + Y 2 und Θ = arctan(Y /X). Man bestimme jeweils die bedingte Verteilung von Θ gegeben R = r. ♣
182
8 Bedingte Erwartungen
¨ Ubung 8.3.4. Sei (X, Y ) uniform verteilt auf G := {(x, y) ∈ R2 : x2 + y 2 ≤ 1}. Man bestimme die bedingte Verteilung von Y gegeben X = x. ♣ ¨ Ubung 8.3.5. Sei A ⊂ Rn eine Borel-messbare Menge mit endlichem LebesgueMaß λ(A) ∈ (0, ∞), und sei B ⊂ A messbar mit λ(B) > 0. Zeige: Ist X uniform verteilt (siehe Beispiel 1.75) auf A, so ist die bedingte Verteilung von X gegeben {X ∈ B} die uniforme Verteilung auf B. ♣ ¨ Ubung 8.3.6. (Borel’sches Paradoxon) Wir wollen die Erde als Kugel ansehen und betrachten einen zuf¨alligen uniform auf der Erdoberfl¨ache verteilten Punkt X. Wir wollen die Koordinaten von X durch die geografische L¨ange Θ und Breite Φ angeben. Allerdings soll, entgegen der u¨ blichen Konvention, Θ die Werte in [0, π) annehmen und Φ in [−π, π). Damit wird f¨ur festes Θ ein kompletter Großkreis beschrieben, wenn Φ seinen Wertebereich durchl¨auft. Ist nun Φ gegeben Θ uniform verteilt auf [−π, π)? Man sollte annehmen, dass jeder Punkt auf dem Großkreis gleich wahrscheinlich ist. Dies ist jedoch nicht der Fall! Der etwas aufgedickte“ ¨” dicker Großkreis, mit L¨angen zwischen Θ und Θ + ε (f¨ur kleines ε) ist am Aquator als an den Polen. Lassen wir ε → 0 gehen, so sollten wir, zumindest intuitiv, die bedingten Wahrscheinlichkeiten erhalten. (i) Man zeige: P[{Φ ∈ · }|Θ = θ] hat f¨ur fast alle θ die Dichte 14 | cos(φ)| f¨ur φ ∈ [−π, π). (ii) Man zeige: P[{Θ ∈ · }|Φ = φ] = U[0,π) f¨ur fast alle φ. Hinweis: Man zeige, dass Θ und Φ unabh¨angig sind und bestimme die Verteilungen von Θ und Φ. ♣ ¨ Ubung 8.3.7 (Verwerfungmethode zur Erzeugung von Zufallsvariablen). Sei E h¨ochstens abz¨ahlbar und P und Q Wahrscheinlichkeitsmaße auf E. Es gebe ur jedes e ∈ E mit P ({e}) > 0. Seien ein c > 0 mit f (e) := Q({e}) P ({e}) ≤ c f¨ X1 , X2 , . . . unabh¨angige Zufallsvariablen mit Verteilung P und U1 , U2 , . . . davon unabh¨angige u.i.v. Zufallsvariablen, die uniform auf [0, 1] verteilt sind. W¨ahle N als die (zuf¨allige) kleinste nat¨urliche Zahl n, sodass Un ≤ f (Xn )/c, und setze Y := XN . Man zeige: Y hat die Verteilung Q. Anmerkung: Dieses Verfahren zur Erzeugung einer Zufallsvariable mit einer gew¨unschten Verteilung Q wird auch Verwerfungsmethode (rejection sampling) genannt, denn man kann es so interpretieren: Die Zufallsvariable X1 ist ein Vorschlag f¨ur den m¨oglichen Wert von Y . Dieser Vorschlag wird mit Wahrscheinlich♣ keit f (X1 )/c angenommen, ansonsten wird X2 betrachtet und so weiter. ¨ Ubung 8.3.8. Sei E ein polnischer Raum und P, Q ∈ M1 (R), sowie c > 0 mit ¨ f := dQ ♣ dP ≤ c P -fast sicher. Zeige die analoge Aussage zu Ubung 8.3.7.
9 Martingale
Einer der wichtigsten Begriffe der modernen Wahrscheinlichkeitstheorie ist das Martingal, das die Idee eines fairen Spiels (Xn )n∈N0 formalisiert. In diesem Kapitel wird der Begriffsapparat f¨ur die Beschreibung allgemeiner stochastischer Prozesse aufgebaut. Danach werden Martingale und das diskrete stochastische Integral eingef¨uhrt und auf ein Modell der Finanzmathematik angewandt.
9.1 Prozesse, Filtrationen, Stoppzeiten Wir f¨uhren die grundlegenden technischen Begriffe f¨ur die Behandlung stochastischer Prozesse, darunter Martingale, ein. Um die Begriffe sp¨ater in einem anderen Kontext weiter verwenden zu k¨onnen, streben wir eine gr¨oßere Allgemeinheit an als f¨ur die Behandlung von Martingalen notwendig w¨are. Im Folgenden sei stets (E, τ ) ein polnischer Raum mit Borel’scher σ-Algebra E. Weiter sei (Ω, F, P) ein W-Raum und I ⊂ R beliebig. Meistens interessieren uns die F¨alle I = N0 , I = Z, I = [0, ∞) und I ein Intervall. Definition 9.1 (Stochastischer Prozess). Sei I ⊂ R. Eine Familie von Zufallsvariablen X = (Xt , t ∈ I) (auf (Ω, F, P)) mit Werten in (E, E) heißt stochastischer Prozess mit Zeitbereich I und Zustandsraum E. Bemerkung 9.2. Etwas allgemeiner werden manchmal auch beliebig indizierte Familien von Zufallsvariablen stochastischer Prozess genannt. Beispielsweise ist dies beim Poisson’schen Punktprozess aus Kapitel 24 der Fall. 3 Bemerkung 9.3. Oftmals werden wir (gewissen Traditionen folgend) einen stochastischen Prozess auch als X = (Xt )t∈I schreiben, wenn wir weniger den Aspekt betonen wollen, dass X eine Familie von Zufallsvariablen ist, sondern den zeitlichen Verlauf der Beobachtungen st¨arker gewichten. Formal sollen beide Objekte identisch sein. 3 Beispiel 9.4. Sei I = N0 und (Yn , n ∈ N) eine Familie von u.i.v. Zufallsvariablen auf einem W-Raum (Ω, F, P), mit P[Yn = 1] = 1 − P[Yn = −1] = 12 . Setze
184
9 Martingale
E = Z (mit der diskreten Topologie) und Xt =
t
Yn
f¨ur jedes t ∈ N0 .
n=1
(Xt , t ∈ N0 ) heißt symmetrische einfache Irrfahrt auf Z.
3
Beispiel 9.5. Der Poissonprozess X = (Xt )t≥0 mit Intensit¨at α > 0 (siehe Kapi3 tel 5.5) ist ein stochastischer Prozess mit Wertebereich N0 . Wir f¨uhren weitere Begriffe ein: Definition 9.6. Ist X eine Zufallsvariable (oder ein stochastischer Prozess), so schreiben wir auch L[X] = PX f¨ur die Verteilung von X. Ist G ⊂ F eine σAlgebra, so schreiben wir L[X |G] f¨ur eine regul¨are Version der bedingten Verteilung von X gegeben G. Definition 9.7. Ein stochastischer Prozess X = (Xt )t∈I mit Werten in E heißt (i) reellwertig, falls E = R, (ii) Prozess mit unabh¨angigen Zuw¨achsen, falls X reellwertig ist und f¨ur jedes n ∈ N und alle t0 , . . . , tn ∈ I mit t0 < t1 < . . . < tn gilt (Xti − Xti−1 )i=1,...,n ist unabh¨angig, (iii) Gauß’scher Prozess, falls X reellwertig ist und f¨ur n ∈ N und t1 , . . . , tn ∈ I gilt (Xt1 , . . . , Xtn ) ist n-dimensional normalverteilt, (iv) integrierbar (beziehungsweise quadratintegrierbar), falls X reellwertig ist und E[|Xt |] < ∞ (beziehungsweise E[(Xt )2 ] < ∞) f¨ur jedes t ∈ I gilt. Sei nun zus¨atzlich I ⊂ R abgeschlossen unter Addition. Dann heißt X * ) * ) (v) station¨ar, falls L (Xs+t )t∈I = L (Xt )t∈I f¨ur jedes s ∈ I,
) (vi) Prozess mit station¨ a ren Zuw¨ a chsen, falls X reellwertig ist und L Xs+t+r − * ) * Xt+r = L Xs+r − Xr f¨ur alle r, s, t ∈ I. (Ist 0 ∈ I, so reicht es, r = 0 zu betrachten.)
Beispiel 9.8. (i) Der Poissonprozess mit Intensit¨at θ, sowie die Irrfahrt auf Z sind Prozesse mit station¨aren, unabh¨angigen Zuw¨achsen. (ii) Sind Xt , t ∈ I, u.i.v. Zufallsvariablen, so ist (Xt )t∈I station¨ar.
9.1 Prozesse, Filtrationen, Stoppzeiten
185
(iii) Sei (Xn )n∈Z reellwertig und station¨ar, und seien k ∈ N und c1 , . . . , ck ∈ R. Dann definiert k ci Xn−i Yn := i=1
einen station¨aren Prozess Y = (Yn )n∈Z . Gilt c1 , . . . , ck ≥ 0 und c1 + . . . + ck = 1, 3 so wird Y das gleitende Mittel von X (mit Gewichten c1 , . . . , ck ) genannt. Die beiden folgenden Definitionen sind auch f¨ur allgemeinere halbgeordnete Mengen I sinnvoll, wir beschr¨anken uns jedoch weiterhin auf den Fall I ⊂ R. Definition 9.9 (Filtration). Eine Familie F = (Ft , t ∈ I) von σ-Algebren mit Ft ⊂ F f¨ur jedes t ∈ I, heißt Filtration, falls Fs ⊂ Ft f¨ur alle s, t ∈ I mit s ≤ t. Definition 9.10 (adaptiert). Ein stochastischer Prozess X = (Xt , t ∈ I) heißt adaptiert an die Filtration F, falls Xt bez¨uglich Ft messbar ist f¨ur jedes t ∈ I. Gilt Ft = σ(Xs , s ≤ t) f¨ur jedes t ∈ I, so schreiben wir F = σ(X) und nennen F die von X erzeugte Filtration. Bemerkung 9.11. Offenbar ist ein stochastischer Prozess stets an seine erzeugte Filtration adaptiert. Die erzeugte Filtration ist die kleinste“ Filtration, an die ein ” Prozess adaptiert ist. 3 Definition 9.12 (vorhersagbar / previsibel). Ein stochastischer Prozess X = (Xn , n ∈ N0 ) heißt vorhersagbar (oder previsibel) bez¨uglich der Filtration F = (Fn , n ∈ N0 ), falls X0 konstant ist und f¨ur jedes n ∈ N gilt: Xn ist Fn−1 -messbar. Beispiel9.13. Seien I = N0 , und seien Y1 , Y2 , . . . reelle Zufallsvariablen sowie n Xn := m=1 Ym . Setze F0 = {∅, Ω}
und
Fn = σ(Y1 , . . . , Yn )
f¨ur n ∈ N.
Dann ist F = (Fn , n ∈ N0 ) = σ(Y ) die von Y = (Yn )n∈N erzeugte Filtration, und X ist an F adaptiert, also ist σ(X) ⊂ F. Offenbar ist (Y1 , . . . , Yn ) messbar bez¨uglich σ(X1 , . . . , Xn ), also σ(Y ) ⊂ σ(X), und daher gilt auch F = σ(X). n := n Sei nun X m=1 [0,∞) (Ym ). Dann ist auch X an F adaptiert, jedoch ist im Allgemeinen F σ(X). 3 Beispiel 9.14. Sei I = N0 , und seien D1 , D2 , . . . unabh¨angig und identisch verteilt mit P[Di = −1] = P[Di = 1] = 12 f¨ur jedes i ∈ N. Setze D = (Di )i∈N und
186
9 Martingale
F = σ(D). Wir interpretieren Di als das Ergebnis einer Wette, die uns pro Spielschein einen Gewinn oder Verlust von einer Geldeinheit bringt. Vor jedem Spiel entscheiden wir, wie viele Spielscheine wir einsetzen wollen. Die Anzahl Hn der in der n-ten Runde eingesetzten Spielscheine darf nur von den Ergebnissen der bisherigen Spiele abh¨angen, nicht aber von Dn und auch nicht von einem Dm f¨ur m > n. Mit anderen Worten: Es muss eine Funktion Fn : {−1, 1}n−1 → N geben mit Hn = Fn (D1 , . . . , Dn−1 ). (F¨ur das Petersburger Spiel (Beispiel 4.22) galt beispielsweise Fn (x1 , . . . , xn−1 ) = 2n−1 {x1 =x2 =...=xn−1 =0} .) Damit ist H dann vorhersagbar. Andererseits besitzt jedes vorhersagbare H die Gestalt Hn = Fn (D1 , . . . , Dn−1 ), n ∈ N, f¨ur gewisse Funktionen Fn : {−1, 1}n−1 → N, kommt also als Spielstrategie in Betracht. 3 Definition 9.15 (Stoppzeit). Eine Zufallsvariable τ mit Werten in I ∪ {∞} heißt Stoppzeit (bez¨uglich F), falls f¨ur jedes t ∈ I gilt, dass {τ ≤ t} ∈ Ft . Die Idee hinter dieser Definition ist, dass Ft den Kenntnisstand eines Beobachters zur Zeit t wiedergibt. Der Wahrheitsgehalt der Aussage {τ ≤ t} kann also aufgrund der Beobachtungen bis zur Zeit t bestimmt werden. Satz 9.16. Ist I abz¨ahlbar, so ist τ genau dann eine Stoppzeit, wenn {τ = t} ∈ Ft f¨ur jedes t ∈ I gilt. 2
¨ Beweis. Ubung!
Beispiel 9.17. Seien I ⊂ [0, ∞) abz¨ahlbar und K ⊂ R messbar, sowie X ein reeller, adaptierter stochastischer Prozess. Wir betrachten den Zeitpunkt, zu dem X erstmals in K ist: τK := inf{t ≥ 0 : Xt ∈ K}. Intuitiv ist klar, dass τK eine Stoppzeit ist, denn ob {τ ≤ t} eintritt oder nicht, k¨onnen wir aufgrund der Beobachtungen von X bis zur Zeit t entscheiden. Formal k¨onnen wir argumentieren, indem wir bemerken, dass {Xs ∈ K} ∈ Fs ⊂ Ft f¨ur s ≤ t gilt. Also ist auch die abz¨ahlbare Vereinigung dieser Mengen wieder in Ft : {Xs ∈ K} ∈ Ft . {τK ≤ t} = s∈I∩[0,t]
Betrachte nun den zuf¨alligen Zeitpunkt τ := sup{t ≥ 0 : Xt ∈ K} des letzten Aufenthalts von X in K. Zu fester Zeit t k¨onnen wir aufgrund der bisherigen Beobachtungen nicht entscheiden, ob X bereits das letzte Mal in K war. Hierzu bed¨urfte es der Prophetie. Also ist τ im Allgemeinen keine Stoppzeit. 3
9.1 Prozesse, Filtrationen, Stoppzeiten
187
Lemma 9.18. Seien σ und τ Stoppzeiten. Dann gilt: (i) σ ∨ τ und σ ∧ τ sind Stoppzeiten. (ii) Gilt σ, τ ≥ 0, dann ist auch σ + τ eine Stoppzeit. (iii) Ist s ≥ 0, dann ist τ + s eine Stoppzeit, jedoch im Allgemeinen nicht τ − s. Bevor wir zum einfachen formalen Beweis kommen, wollen wir festhalten, dass insbesondere (i) und (iii) Eigenschaften sind, die wir von Stoppzeiten erwarten konnten: Bei (i) ist die Interpretation klar. F¨ur (iii) beachte man, dass τ − s um s in die Zukunft blickt (denn {τ −s ≤ t} ∈ Ft+s ), w¨ahrend τ +s um s in die Vergangenheit schaut. Stoppzeiten ist aber nur der Blick in die Vergangenheit erlaubt. Beweis. (i) F¨ur t ∈ I ist {σ ∨ τ ≤ t} = {σ ≤ t} ∩ {τ ≤ t} ∈ Ft und {σ ∧ τ ≤ t} = {σ ≤ t} ∪ {τ ≤ t} ∈ Ft . (ii) Sei t ∈ I. Nach (i) sind τ ∧ t und σ ∧ t Stoppzeiten f¨ur jedes t ∈ I. Speziell ist f¨ur jedes s ≤ t dann {τ ∧ t ≤ s} ∈ Fs ⊂ Ft . Andererseits ist f¨ur s > t stets τ ∧ t ≤ s. Also sind τ := (τ ∧ t) + {τ >t} und σ := (σ ∧ t) + {σ>t} messbar bez¨uglich Ft und damit auch τ + σ . Es folgt {τ + σ ≤ t} = {τ + σ ≤ t} ∈ Ft . (iii) F¨ur τ + s folgt dies aus (ii) (mit der Stoppzeit σ ≡ s). F¨ur τ − s beachte man, dass in der Definition der Stoppzeit f¨ur jedes t ∈ I lediglich gefordert wird, dass {τ − s ≤ t} = {τ ≤ t + s} ∈ Ft+s . Im Allgemeinen ist aber Ft+s eine echte 2 Obermenge von Ft , also τ − s keine Stoppzeit. Definition 9.19. Ist τ eine Stoppzeit, so heißt
Fτ := A ∈ F : A ∩ {τ ≤ t} ∈ Ft f¨ur jedes t ∈ I die σ-Algebra der τ -Vergangenheit. Beispiel 9.20. Sei I h¨ochstens abz¨ahlbar, X ein adaptierter, reellwertiger stochastischer Prozess, K ∈ R und τ = inf{t : Xt ≥ K} die Stoppzeit des ersten Eintretens in [K, ∞). Betrachte die Ereignisse A = {sup{Xt : t ∈ I} > K − 5} und B = {sup{Xt : t ∈ I} > K + 5}. F¨ur jedes t ∈ I ist {τ ≤ t} ⊂ A, also ist A ∩ {τ ≤ t} = {τ ≤ t} ∈ Ft . Es folgt / Fτ , denn wir k¨onnen bis zur Zeit τ eben A ∈ Fτ . Jedoch ist im Allgemeinen B ∈ nicht entscheiden, ob X auch die H¨urde K + 5 noch nehmen wird oder nicht. 3 Lemma 9.21. Sind σ und τ Stoppzeiten mit σ ≤ τ , so gilt Fσ ⊂ Fτ . Beweis. Sei A ∈ Fσ und t ∈ I. Dann ist A ∩ {σ ≤ t} ∈ Ft . Da τ eine Stoppzeit ist, ist auch {τ ≤ t} ∈ Ft . Wegen σ ≤ τ ist also
A ∩ {τ ≤ t} = A ∩ {σ ≤ t} ∩ {τ ≤ t} ∈ Ft . 2
188
9 Martingale
Definition 9.22. Ist τ < ∞ Stoppzeit, dann setzen wir Xτ (ω) := Xτ (ω) (ω). Lemma 9.23. Ist I h¨ochstens abz¨ahlbar und X adaptiert, sowie τ < ∞ eine Stoppzeit, dann ist Xτ messbar bez¨uglich Fτ . Beweis. Sei A messbar und t ∈ I. F¨ur jedes s ≤ t ist dann {τ = s} ∩ Xs−1 (A) ∈ Fs ⊂ Ft . Also ist {τ = s} ∩ Xs−1 (A) ∈ Ft . Xτ−1 (A) ∩ {τ ≤ t} = 2 s∈I s≤t
F¨ur u¨ berabz¨ahlbares I ist die Abbildung I → E, t → Xt im Allgemeinen nicht messbar, also ist auch die Zusammensetzung Xτ nicht immer messbar. Hier brauchen wir Zusatzannahmen an die Regularit¨at der Pfade t → Xt (ω), zum Beispiel Rechtsstetigkeit. Auf diesen Punkt kommen wir in Kapitel 21 zur¨uck und belassen es hier einstweilen bei der Warnung.
9.2 Martingale Als ein faires Spiel mit mehreren Runden w¨urden wir sicherlich ohne Z¨ogern die sukzessive Auszahlung von Gewinnen Y1 , Y2 , . . . bezeichnen, falls Y1 , Y2 , . . . u.i.v. mit E[Y1 ] = 0 sind. In diesem Fall ist der Prozess X der Partialsummen Xn = Y1 + . . . + Yn integrierbar und E[Xn Fm ] = Xm , wenn m < n ist (wobei F = σ(X)). Wir wollen diese Gleichung als Definitionsgleichung f¨ur ein faires Spiel, das wir im Folgenden ein Martingal nennen, heranziehen und so die Bedingungen der Unabh¨angigkeit und der identisch verteilten Zuw¨achse erheblich abschw¨achen. Die Tragweite der folgenden Begriffsbildung wird sich erst nach und nach herausstellen. Definition 9.24. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, I ⊂ R, und F eine Filtration. Sei X = (Xt )t∈I ein reellwertiger, adaptierter stochastischer Prozess mit E[|Xt |] < ∞ f¨ur jedes t ∈ I. X heißt (bez¨uglich F) ein Martingal, falls E[Xt Fs ] = Xs f¨ur alle s, t ∈ I mit t > s, Submartingal, falls E[Xt Fs ] ≥ Xs f¨ur alle s, t ∈ I mit t > s, Supermartingal, falls E[Xt Fs ] ≤ Xs f¨ur alle s, t ∈ I mit t > s. Bemerkung 9.25. Offenbar ist f¨ur Martingale t → E[Xt ] konstant, f¨ur Submartingale monoton wachsend und f¨ur Supermartingale monoton fallend. 3 Bemerkung 9.26. Die Etymologie des Begriffs Martingal ist nicht v¨ollig gekl¨art. Das franz¨osische la martingale (urspr¨unglich provenzalisch martegalo nach der
9.2 Martingale
189
Stadt Martiques) bedeutet im Reitsport einen beim Spring- und Gel¨andereiten ver” wendeten Hilfsz¨ugel“ als Teil des Zaumzeugs ([22]). Manchmal wird die verzweigte Form, insbesondere des Jagdmartingals (franz¨osisch: la martingale a` anneaux, englisch: running martingale), als sinnbildlich f¨ur die Verdoppelungsstrategie im Petersburger Spiel angesehen. Eben diese Verdoppelungsstrategie ist die zweite Bedeutung von la martingale. Von hier aus scheint eine Bedeutungsverschiebung hin zum mathematischen Begriff durchaus m¨oglich. Eine andere Herleitung geht, statt vom Aussehen, von der Funktion des Zaumzeugs aus und nennt das Bestreben einer Spielstrategie, den Zufall im Zaume zu halten. So wird der Begriff des Martingals zun¨achst auf Spielstrategien im Allgemeinen, dann auf die Verdoppelungsstrategie im Speziellen u¨ bertragen. 3 Bemerkung 9.27. Ist I = N, I = N0 oder I = Z, so reicht es, jeweils nur t = s + 1 zu betrachten, denn nach der Turmeigenschaft der bedingten Erwartung (Satz 8.14(iv)) ist * ) E[Xs+2 Fs ] = E E[Xs+2 Fs+1 ] Fs , und wenn die definierende Gleichung (beziehungsweise Ungleichung) in einem Zeitschritt gilt, dann zieht sie sich durch in den zweiten Zeitschritt und so fort. 3 Bemerkung 9.28. Geben wir die Filtration F nicht explizit an, so nehmen wir stillschweigend an, dass F die von X erzeugte Filtration Ft = σ(Xs , s ≤ t) ist. 3 Bemerkung 9.29. Sind F und F Filtrationen mit Ft ⊂ Ft f¨ur jedes t, und ist X an F adaptiert und ein F -(Sub-, Super-)Martingal, dann ist X auch ein (Sub-, Super-) Martingal bez¨uglich der kleineren Filtration F. Es gilt n¨amlich f¨ur s < t und den Fall, wo X ein Submartingal ist, E[Xt Fs ] = E[E[Xt Fs ] Fs ] ≤ E[Xs Fs ] = Xs . Speziell ist ein F-(Sub-, Super-)Martingal X also auch stets ein (Sub-, Super-)Martingal bez¨uglich der von X erzeugten Filtration σ(X). 3 Beispiel 9.30. Seien Y1 , . . . , YN unabh¨angige Zufallsvariablen mit E[Yt ] = 0 f¨ur t Ys . Dann ist X jedes t = 1, . . . , N . Setze Ft := σ(Y1 , . . . , Yt ) und Xt := s=1 adaptiert und integrierbar, und f¨ur r > s ist E[Yr Fs ] = 0. Also ist f¨ur t > s t E[Yr Fs ] = Xs . E[Xt Fs ] = E[Xs Fs ] + E[Xt − Xs Fs ] = Xs + r=s+1
Es folgt, dass X ein F-Martingal ist. Analog ist X ein Submartingal, falls E[Yt ] ≥ 0 f¨ur jedes t gilt beziehungsweise ein 3 Supermartingal, falls E[Yt ] ≤ 0 f¨ur jedes t gilt.
190
9 Martingale
Beispiel 9.31. Wir betrachten die Situation des vorangehenden Beispiels, jedoch mit t E[Yt ] = 1 und Xt = s=1 Ys f¨ur t ∈ N0 . Nach Satz 5.4 ist Y1 · Y2 integrierbar. Iterativ erhalten wir E[|Xt |] < ∞ f¨ur jedes t ∈ N0 . Offenbar ist X an F adaptiert, und f¨ur s ∈ N0 gilt E[Xs+1 Fs ] = E[Xs Ys+1 Fs ] = Xs E[Ys+1 Fs ] = Xs . Also ist X ein F-Martingal.
3
Satz 9.32. (i) X ist genau dann ein Supermartingal, wenn (−X) ein Submartingal ist. (ii) Seien X und Y Martingale und a, b ∈ R. Dann ist (aX + bY ) ein Martingal. (iii) Seien X und Y Supermartingale und a, b ≥ 0. Dann ist (aX + bY ) ein Supermartingal. (iv) Seien X und Y Supermartingale. Dann ist Z := X ∧ Y = (min(Xt , Yt ))t∈I ein Supermartingal. (v) Ist (Xt )t∈N0 ein Supermartingal und E[XT ] ≥ E[X0 ] f¨ur ein T ∈ N0 , dann ist (Xt )t∈{0,...,T } ein Martingal. Gibt es eine Folge TN → ∞ mit E[XTN ] ≥ E[X0 ], dann ist X ein Martingal. Beweis. (i), (ii) und (iii)
Dies ist klar.
(iv) Wegen |Zt | ≤ |Xt | + |Yt | ist E[|Zt |] < ∞ f¨ur jedes t ∈ I. Wegen der Fs ] ≤ E[Xt Fs ] ≤ Monotonie der bedingten Erwartung (Satz 8.14(ii)) ist E[Z t Xs f¨ur t > s und E[Zt Fs ] ≤ E[Yt Fs ] ≤ Ys , also E[Zt Fs ] ≤ Xs ∧ Ys = Zs . (v) F¨ur t ≤ T setze Yt := E[XT Ft ]. Dann ist Y ein Martingal und Yt ≤ Xt . Daher ist E[X0 ] ≤ E[XT ] = E[YT ] = E[Yt ] ≤ E[Xt ] ≤ E[X0 ]. (Die erste Ungleichung gilt hierbei nach Voraussetzung.) Es folgt Yt = Xt fast sicher f¨ur jedes t, und daher ist (Xt )t∈{0,...,T } ein Martingal. Sei TN → ∞ mit E[XTN ] ≥ E[X0 ] f¨ur jedes N ∈ N. Dann gibt es f¨ur t > s ≥ 0 2 ein N ∈ N mit TN > t. Daher ist E[Xt Fs ] = E[Xs ], also X ein Martingal. Bemerkung 9.33. Viele Aussagen u¨ ber Supermartingale gelten mutatis mutandis auch f¨ur Submartingale. So gilt im vorangehenden Satz Aussage (i) mit vertauschten Rollen, Aussage (iv) gilt f¨ur Submartingale, wenn das Minimum durch ein Maximum ersetzt wird, und so fort. Wir geben die Aussagen nicht stets sowohl f¨ur Submartingale wie f¨ur Supermartingale an, sondern w¨ahlen pars pro toto einen Fall aus. Man beachte aber, dass die Aussagen, die explizit u¨ ber Martingale gemacht werden, nicht ohne weiteres auf Sub- oder Supermartingale u¨ bertragen werden k¨onnen (vergleiche etwa (ii) im vorangehenden Satz). 3
9.2 Martingale
191
Korollar 9.34. Sei X ein Submartingal und a ∈ R. Dann ist (X − a)+ ein Submartingal. Beweis. Offenbar sind 0 und Y = X − a Submartingale. Nach (iv) ist daher auch (X − a)+ = Y ∨ 0 ein Submartingal. 2 Satz 9.35. Sei X ein Martingal und ϕ : R → R eine konvexe Funktion. (i) Ist E[ϕ(Xt )+ ] < ∞
f¨ur jedes t ∈ I,
(9.1)
dann ist (ϕ(Xt ))t∈I ein Submartingal. (ii) Ist t∗ := sup(I) ∈ I, so impliziert E[ϕ(Xt∗ )+ ] < ∞ schon (9.1). (iii) Ist speziell p ≥ 1 und E[|Xt |p ] < ∞ f¨ur jedes t ∈ I, dann ist (|Xt |p )t∈I ein Submartingal. Beweis. (i) Es ist stets E[ϕ(Xt )− ] < ∞ (Satz 8.19), also nach Voraussetzung E[|ϕ(Xt )|] < ∞ f¨ur jedes t ∈ I. Die Jensen’sche Ungleichung (Satz 8.19) liefert f¨ur t > s E[ϕ(Xt ) Fs ] ≥ ϕ(E[Xt Fs ]) = ϕ(Xs ). (ii) Da ϕ konvex ist, ist auch x → ϕ(x)+ konvex. Weiter ist nach Voraussetzung E[ϕ(Xt∗ )+ ] < ∞, also gilt nach der Jensen’schen Ungleichung f¨ur jedes t ∈ I: + * * ) * ) ) E[ϕ(Xt )+ ] = E ϕ E[Xt∗ Ft ] ≤ E E[ϕ(Xt∗ )+ Ft ] = E ϕ(Xt∗ )+ < ∞. (iii) Dies ist klar, weil x → |x|p konvex ist.
2
Beispiel 9.36. (Siehe Beispiel 9.4.) Die symmetrische einfache Irrfahrt X auf Z ist ein quadratintegrierbares Martingal. Also ist (Xn2 )n∈N0 ein Submartingal. 3 ¨ Ubung 9.2.1. Sei Y eine Zufallsvariable mit E[|Y |] < ∞ und F eine Filtration sowie Xt := E[Y Ft ] f¨ur jedes t ∈ I. Man zeige, dass X ein F-Martingal ist.
♣
¨ Ubung 9.2.2. Sei (Xn )n∈N0 ein vorhersagbares F-Martingal. Man zeige, dass dann ♣ f¨ur jedes n ∈ N0 fast sicher Xn = X0 gilt. ¨ Ubung 9.2.3. Man zeige, dass die Aussage von Satz 9.35 auch gilt, wenn X nur ein Submartingal, ϕ jedoch zus¨atzlich monoton wachsend ist. Man zeige durch ein Beispiel, dass hier auf die Monotonie im Allgemeinen nicht verzichtet werden kann. (Vergleiche Korollar 9.34.) ♣
192
9 Martingale
¨ Ubung 9.2.4 (Ungleichung von Azuma). Man zeige: (i) Ist X eine Zufallsvariable mit |X| ≤ 1 f.s., so gibt es eine Zufallsvariable Y mit Werten in {−1, +1} und mit E[Y |X] = X. (ii) F¨ur X wie in (i) mit E[X] = 0 folgere man (mit Hilfe der Jensen’schen Ungleichung) * ) 2 E eλX ≤ cosh(λ) ≤ eλ /2 f¨ur alle λ ∈ R. (iii) Ist (Mn )n∈N0 ein Martingal mit M0 = 0, und gibt es eine Folge (ck )k∈N nichtnegativer Zahlen mit |Mn − Mn−1 | ≤ cn f.s. f¨ur jedes n ∈ N, so gilt n ) λMn * 1 2 2 E e ≤ exp λ ck . 2 k=1
(iv) Unter den Bedingungen von (iii) gilt die Azuma’sche Ungleichung ) * λ2 P |Mn | ≥ λ ≤ 2 exp − n f¨ur alle λ ≥ 0. 2 k=1 c2k Hinweis: Verwende die Markov’sche Ungleichung f¨ur f (x) = eγx und w¨ahle γ optimal. ♣
9.3 Diskretes stochastisches Integral Bisher haben wir das Martingal als Partialsummenprozess eines fairen Spiels kennen gelernt. Dies kann beispielsweise auch der Kurs einer Aktie sein, die zu diskreten Zeitpunkten an einer B¨orse gehandelt wird. Bei dieser Interpretation ist es besonders evident, dass es nat¨urlich ist, neue stochastische Prozesse zu generieren, indem man Anlagestrategien f¨ur die entsprechende Aktie betrachtet. Die Wertentwicklung des neuen Prozesses ist dann die mit der jeweilig im Portefeuille befindlichen Anzahl von Aktien zu multiplizierende Wertentwicklung des Aktienkurses. Dies f¨uhrt zu der folgenden Begriffsbildung. Definition 9.37 (Diskretes Stochastisches Integral). Sei (Xn )n∈N0 ein reeller, Fadaptierter Prozess und (Hn )n∈N reellwertig und F-vorhersagbar. Wir definieren den stochastischen Prozess H ·X durch (H ·X)n :=
n
Hm (Xm − Xm−1 )
f¨ur n ∈ N0 ,
(9.2)
m=1
und nennen H·X das diskrete stochastische Integral von H bez¨uglich X. Ist X ein Martingal, so nennen wir H ·X auch die Martingaltransformierte von X.
9.3 Diskretes stochastisches Integral
193
Bemerkung 9.38. Offenbar ist H ·X adaptiert an F.
3
Sei X ein (m¨oglicherweise unfaires) Spiel, wobei Xn − Xn−1 den Spielgewinn pro Spielschein in der n-ten Runde bezeichnet. Wir interpretieren Hn als die Anzahl der Spielscheine, die f¨ur das n-te Spiel eingesetzt werden, und verstehen H als Spielstrategie. Offenbar muss die Entscheidung, wie groß Hn sein soll, zur Zeit n − 1, also vor der Bekanntgabe des Ergebnisses Xn fallen. Das heißt, H muss vorhersagbar sein. Ist nun X ein faires Spiel, also ein Martingal, und ist H lokal beschr¨ankt (das heißt, jedes Hn ist beschr¨ankt), dann ist (wegen E[Xn+1 − Xn Fn ] = 0) E[(H ·X)n+1 Fn ] = E[(H ·X)n + Hn+1 (Xn+1 − Xn ) Fn ] = (H ·X)n + Hn+1 E[Xn+1 − Xn Fn ] = (H ·X)n . Also ist H · X ein Martingal. Im folgenden Satz zeigen wir, dass auch die Umkehrung gilt, also X ein Martingal ist, wenn f¨ur hinreichend viele vorhersagbare Prozesse das stochastische Integral ein Martingal ist. ¨ Stochastische Integrale). Satz 9.39 (Stabilit¨atssatz fur Sei (Xn )n∈N0 ein adaptierter, reeller stochastischer Prozess mit E[|X0 |] < ∞. (i) X ist genau dann ein Martingal, wenn f¨ur jeden lokal beschr¨ankten, vorhersagbaren Prozess H das stochastische Integral H ·X ein Martingal ist. (ii) X ist genau dann ein Submartingal (Supermartingal), wenn H ·X ein Submartingal (Supermartingal) ist f¨ur jedes beschr¨ankte, vorhersagbare H ≥ 0. Beweis. (i) =⇒ “ Dies hat die obige Diskussion schon gezeigt. ” ⇐= “ W¨ahle n0 ∈ N. Setze Hn = {n=n0 } . Dann ist (H ·X)n0 −1 = 0, also ” * ) * ) 0 = E (H ·X)n0 Fn0 −1 = E Xn0 Fn0 −1 − Xn0 −1 . (ii)
Dies geht analog wie in (i).
2
Der vorangehende Satz sagt uns insbesondere, dass wir keine (beschr¨ankte) Spielstrategie finden k¨onnen, die aus einem Martingal (oder schlimmer: einem Supermartingal) ein Submartingal machte. Genau dies wird einem aber nat¨urlich durch ¨ diverse Aufforderungen zum so genannten Systemlotto“ und Ahnlichem nahe ge” legt. Beispiel 9.40 (Petersburger Spiel). Wir f¨uhren Beispiel 9.14 fort (siehe auch Beispiel 4.22). Setzen wir Xn := D1 + . . . + Dn f¨ur n ∈ N0 , so ist X ein Martingal. Die Spielstrategie Hn := 2n−1 {D1 =D2 =...=Dn−1 =−1} f¨ur n ∈ N und H0 = 1 ist
194
9 Martingale
n vorhersagbar und lokal beschr¨ankt. Sei Sn = i=1 Hi Di = (H·X)n der Zugewinn nach n Runden. Dann ist S nach dem vorangehenden Satz ein Martingal. Speziell erhalten wir das bereits in Beispiel 4.22 gezeigte Ergebnis, dass E[Sn ] = 0 ist f¨ur jedes n ∈ N. Dass dies, wie dort gezeigt, in zumindest vordergr¨undigem Kontrast zu n→∞ der Aussage Sn −→ 1 f.s. steht, wird uns sp¨ater noch einmal besch¨aftigen (siehe Beispiel 11.6). F¨ur den Moment sei angemerkt, dass das Martingal S = (1 − Sn )n∈N0 wie in Beispiel 9.31 die Struktur eines Produkts nunabh¨angiger Zufallsvariablen mit Erwar3 tungswert 1 hat. Es gilt n¨amlich Sn = i=1 (1 − Di ).
9.4 Diskreter Martingaldarstellungssatz und CRR Modell Wir haben nun gesehen, dass wir vermittels des stochastischen Integrals aus einem Martingal X durch eine Spielstrategie H ein neues Martingal H ·X herstellen k¨onnen. Welche Martingale Y (mit Y0 = 0) sind nun durch eine geeignete Spielstrategie H = H(Y ) aus X zu gewinnen? Wom¨oglich alle? Dies ist sicher nicht der Fall, wie das folgende Beispiel zeigt. Allerdings sind alle Martingale darstellbar, wenn f¨ur die Zuw¨achse Xn+1 − Xn immer nur zwei Werte in Frage kommen (gegeben X1 , . . . , Xn ). Wir geben f¨ur diesen Fall einen Darstellungssatz an und diskutieren in der Folge den fairen Preis der europ¨aischen Kaufoption (europ¨aischer Call) in dem Aktienkursmodell von Cox-Ross-Rubinstein. Wir wollen dabei einen naiven Standpunkt einnehmen und einen in vielerlei Hinsicht idealisierten Markt voraussetzen (keine Handelskosten, gebrochene Anzahlen handelbar, und so fort). F¨ur eine umfassendere Lekt¨ure zum Thema Finanzmathematik eignen sich etwa die Lehrb¨ucher [41], [79], [98], [56], [12] oder [47]. Beispiel 9.41. Wir betrachten ein ganz einfaches Martingal X = (Xn )n=0,1 mit nur zwei Zeitpunkten. Es sei X0 = 0 fast sicher und P[X1 = −1] = P[X1 = 0] = P[X1 = 1] = 13 . Sei Y0 = 0 sowie Y1 = 2, falls X1 = 1 und Y1 = −1 sonst. Dann ist Y offenbar ein σ(X)-Martingal. Allerdings k¨onnen wir keine Zahl H1 angeben, 3 sodass H1 X1 = Y1 w¨are. Sei T ∈ N ein fester Zeitpunkt. Ist (Yn )n=0,1,...,T ein F-Martingal, dann ist Yn = E[YT Fn ] f¨ur jedes n ≤ T . Durch die Angabe von YT ist ein F-Martingal Y also eindeutig festgelegt (und umgekehrt). Da (H ·X) ein Martingal ist, falls X ein Martingal ist, reduziert sich das Darstellungsproblem f¨ur Martingale auf das Problem, eine integrierbare Zufallsvariable V := YT darzustellen als v0 + (H · X)T , wobei v0 = E[YT ] ist, falls X ein Martingal ist. Wir haben eben schon gesehen, dass dies im Allgemeinen nicht m¨oglich ist, wenn die Differenzen Xn+1 − Xn drei (oder mehr) unterschiedliche Werte annehmen k¨onnen. Wir betrachten nun also den Fall, wo nur zwei Werte m¨oglich sind. Hier muss in jedem Schritt ein lineares Gleichungssystem mit zwei Gleichungen und
9.4 Diskreter Martingaldarstellungssatz und CRR Modell
195
zwei Unbekannten gel¨ost werden. Im Falle von drei m¨oglichen Werten von Xn+1 − Xn w¨aren dies drei Gleichungen f¨ur zwei Unbekannte, und im Allgemeinen ist dieses Gleichungssystem dann nicht l¨osbar. Definition 9.42 (Bin¨ares Modell). Ein stochastischer Prozess X0 , . . . , XT heißt bin¨ares Modell, falls es Zufallsvariablen D1 , . . . , DT mit Werten in {−1, +1} gibt und Funktionen fn : Rn−1 × {−1, +1} → R f¨ur n = 1, . . . , T , sowie x0 ∈ R, sodass X0 = x0 und Xn = fn (X1 , . . . , Xn−1 , Dn )
f¨ur jedes n = 1, . . . , T.
Mit F = σ(X) bezeichnen wir dann die von X erzeugte Filtration. Man beachte, dass Xn nur von X1 , . . . , Xn−1 und Dn abh¨angt und nicht von der vollen Information der Werte D1 , . . . , Dn . Man mache sich klar, dass im letzteren Fall eine mehr als bin¨are Aufspaltung der Werte in einem Zeitschritt m¨oglich w¨are. Satz 9.43 (Darstellungssatz). Sei X ein bin¨ares Modell und VT eine FT -messbare Zufallsvariable. Dann existiert ein beschr¨ankter, vorhersagbarer Prozess H und ein v0 ∈ R mit VT = v0 + (H ·X)T . Man beachte, dass F die von X erzeugte Filtration ist, nicht die im Allgemeinen gr¨oßere, von D1 , . . . , DT erzeugte. F¨ur diese ist die Aussage des Satzes im Allgemeinen nicht zutreffend, weil wir eben mit H nicht auf die Di sondern nur auf X wetten k¨onnen. Beweis. Wir zeigen, dass es FT −1 -messbare Zufallsvariablen VT −1 und HT gibt, sodass VT = VT −1 + HT (XT − XT −1 ). Dies liefert per R¨uckw¨artsinduktion die gew¨unschte Aussage. Da VT messbar ist bez¨uglich FT , existiert nach dem Faktorisierungslemma (Korollar 1.97) eine Funktion gT : RT → R mit VT = gT (X1 , . . . , XT ). Wir setzen XT± = fT (X1 , . . . , XT −1 , ±1)
und
VT±
= gT (X1 , . . . , XT −1 , XT± ).
Jede dieser vier Zufallsvariablen ist offenbar FT −1 -messbar. Wir suchen nun also VT −1 und HT , die das folgende lineare Gleichungssystem l¨osen VT −1 + HT (XT− − XT −1 ) = VT− , VT −1 + HT (XT+ − XT −1 ) = VT+ .
(9.3)
Per Konstruktion ist XT+ − XT− = 0, falls VT+ − VT− = 0. Also k¨onnen wir (9.3) aufl¨osen und erhalten ⎧ + − ⎨ VT −VT , falls X + = X − , + − T T HT := XT −XT ⎩ 0, sonst, und VT −1 = VT+ − HT (XT+ − XT −1 ) = VT− − HT (XT− − XT −1 ).
2
196
9 Martingale
Wir wollen nun X als Kurs einer Aktie auffassen und VT als Auszahlungsfunktion eines Finanzderivats auf X, eines so genannten Claims. Beispielsweise kann VT eine europ¨aische Kaufoption (Call) mit F¨alligkeitszeitpunkt (maturity) T und Aus¨ubungspreis (strike price) K ≥ 0 sein. In diesem Fall w¨are VT = (XT − K)+ . ¨ Okonomisch ausgedr¨uckt gibt diese Option dem K¨aufer das Recht (aber nicht die Pflicht) vom Herausgeber der Option zum Zeitpunkt T die Eingehung eines Kaufvertrages u¨ ber eine Aktie zum Preis K einzufordern. Von diesem Recht macht man sinnvollerweise nur dann Gebrauch, wenn XT ≥ K ist. In diesem Fall kann man die erworbene Aktie zum Preis XT wieder an der B¨orse verkaufen und hat einen Gewinn von VT gemacht. An den B¨orsen werden nun aber nicht nur Aktien, sondern auch Derivate auf Aktien gehandelt. Welches ist also der faire Preis π(VT ) f¨ur den eine B¨orsenh¨andlerin den Claim VT anbieten kann? Gibt es eine Strategie H und ein v0 , sodass VT = v0 + (H ·X)T ist, dann kann die H¨andlerin gegen Bezahlung von v0 risikolos VT nachbilden, indem sie H als Handelsstrategie an der B¨orse benutzt. Wir nennen den Claim VT dann replizierbar und die Strategie H einen Hedge. Ein Markt, in dem jeder Claim replizierbar ist, heißt vollst¨andig. In diesem Sinne ist das Bin¨armodell also ein vollst¨andiger Markt. G¨abe es nun eine zweite Strategie H und ein zweites v0 mit v0 + (H ·X)T = VT , so w¨are insbesondere v0 − v0 = ((H − H) · X)T . W¨are v0 > v0 , so k¨onnte die H¨andlerin risikolos durch Verfolgen der Strategie H − H einen Gewinn v0 − v0 machen, im Falle v0 < v0 hingegen durch die Strategie H − H einen Gewinn v0 − v0 . Wenn man solche Arbitragem¨oglichkeiten ausschließt, also einen so genannten arbitragefreien Markt annimmt, so ist der faire Preis π(VT ) eindeutig festgelegt, sobald man eine Strategie H und ein v0 mit VT = v0 + (H ·X)T hat. Wir haben bislang noch nirgends angenommen, dass X ein Martingal sei. Ist nun aber X ein Martingal, so ist (H ·X) ein Martingal mit (H ·X)0 = 0, also offenbar E[(H ·X)T ] = 0. Damit ist dann π(VT ) = v0 = E[VT ].
(9.4)
Da in diesem Fall v0 nicht mehr von der Handelsstrategie abh¨angt, also eindeutig ist, ist der Markt automatisch arbitragefrei. In endlichen M¨arkten ist Arbitragefreiheit a¨ quivalent zur Existenz eines a¨ quivalenten Martingals, und in diesem Fall ist die Vollst¨andigkeit a¨ quivalent zur Eindeutigkeit des Martingals (Satz von Harrison¨ Pliska (1981), [67]). In gr¨oßeren Marktmodellen gilt Aquivalenz nur f¨ur einen etwas flexibleren Arbitrage-Begriff (siehe [31]). Ist nun X kein Martingal, so k¨onnen wir in manchen F¨allen X durch einen anderen Prozess X ersetzen, der ein Martingal ist, und so, dass die Verteilungen PX und PX die selben Nullmengen haben, also a¨ quivalent sind. Ein Hedge, der VT bez¨uglich X nachbildet, bildet VT auch bez¨uglich X nach. Insbesondere a¨ ndert sich der faire Preis π(VT ) nicht, wenn wir zum Martingal X u¨ bergehen. Wir k¨onnen π(VT ) also berechnen, indem wir (9.4) auf das a¨ quivalente Martingal anwenden.
9.4 Diskreter Martingaldarstellungssatz und CRR Modell
197
Das Maß PX wird auch a¨ quivalentes Martingalmaß genannt. W¨ahrend es hier f¨ur uns nur von rechnerischem Interesse ist, hat es eine o¨ konomische Interpretation als Maß f¨ur die Preisbildung, falls alle H¨andler sich risikoneutral verhalten, also den Wert einer k¨unftigen Auszahlung allein nach deren Erwartungswert bemessen (was typischerweise nicht der Fall ist; die meisten Anleger sind risikoavers, lassen sich also Unsicherheiten durch einen Aufschlag bezahlen). Nun wollen wir aber ein Modell im Detail betrachten. Definition 9.44. Seien T ∈ N, a ∈ (−1, 0) und b > 0 sowie p ∈ (0, 1). Ferner seien D1 , . . . , DT u.i.v. mit P[D1 = 1] = 1 − P[D1 = −1] = p. Wir definieren X0 = x0 > 0 und f¨ur n = 1, . . . , T (1 + b) Xn−1 , falls Dn = +1, Xn = (1 + a) Xn−1 , falls Dn = −1. X heißt mehrstufiges Binomialmodell oder Cox-Ross-Rubinstein’sches Modell (ohne Verzinsung). Nach dem bisher Gezeigten ist das CRR Modell vollst¨andig. Ferner k¨onnen wir a den Prozess X zu einem Martingal machen. Mithin ist durch die Wahl p∗ = a−b das Modell auch arbitragefrei (f¨ur jedes p ∈ (0, 1)). Wir wollen nun den Preis des europ¨aischen Calls VT := (XT − K)+ explizit ausrechnen. Hierzu k¨onnen wir wieder p = p∗ annehmen. Wir erhalten dann mit A := min{i ∈ N0 : (1 + b)i (1 + a)T −i x0 > K}, π(VT ) = Ep∗ [VT ] =
T
) *+ bT,p∗ ({i}) (1 + b)i (1 + a)T −i x0 − K
i=0
T T ) * T = x0 bT,p∗ ({i}). (p∗ )i (1 − p∗ )T −i (1 + b)i (1 + a)T −i − K i i=A
i=A
Setzen wir p = (1 + b)p∗ , dann ist p ∈ (0, 1) und 1 − p = (1 − p∗ )(1 + a). Wir erhalten so die Cox-Ross-Rubinstein’sche Formel π(VT ) = x0 bT,p ({A, . . . , T }) − K bT,p∗ ({A, . . . , T }).
(9.5)
Dies ist das diskrete Analogon zur ber¨uhmten Black–Scholes Formel f¨ur die Optionsbewertung in gewissen zeitkontinuierlichen M¨arkten.
10 Optional Sampling S¨atze
Wir haben im vorigen Kapitel gesehen, dass aus Martingalen wieder Martingale werden, wenn man gewisse Spielstrategien anwendet. Wir wollen in diesem Kapitel a¨ hnliche Stabilit¨atseigenschaften f¨ur zuf¨allig gestoppte Martingale zeigen. Um die Aussagen auch f¨ur Submartingale und Supermartingale zu bekommen, geben wir im ersten Abschnitt einen Zerlegungssatz f¨ur adaptierte Prozesse an. Im zweiten Abschnitt kommen dann die Optional Sampling und Optional Stopping S¨atze.
10.1 Doob-Zerlegung und quadratische Variation Sei X = (Xn )n∈N0 ein adaptierter Prozess mit E[|Xn |] < ∞ f¨ur jedes n ∈ N0 . Wir wollen X zerlegen in eine Summe aus einem Martingal und einem vorhersagbaren Prozess. Dazu definieren wir f¨ur n ∈ N0 Mn := X0 +
n
Xk − E[Xk Fk−1 ]
(10.1)
k=1
und An :=
n
E[Xk Fk−1 ] − Xk−1 .
k=1
Offenbar ist Xn = Mn + An . Per Konstruktion ist A vorhersagbar mit A0 = 0, und M ist ein Martingal, denn * ) E[Mn − Mn−1 Fn−1 ] = E Xn − E[Xn Fn−1 ] Fn−1 = 0.
Satz 10.1 (Doob-Zerlegung). Sei X = (Xn )n∈N0 ein adaptierter, integrierbarer Prozess. Dann existiert eine eindeutige Zerlegung X = M + A, wobei A vorhersagbar ist mit A0 = 0 und M ein Martingal. Diese Darstellung von X heißt Doob–Zerlegung. X ist genau dann ein Submartingal, wenn A monoton wachsend ist. Beweis. Nur die Eindeutigkeit ist zu zeigen. Seien also X = M + A = M + A zwei Zerlegungen mit den genannten Eigenschaften. Dann ist M −M = A −A ein
200
10 Optional Sampling S¨atze
¨ vorhersagbares Martingal, also ist (siehe Ubung 9.2.2) Mn − Mn = M0 − M0 = 0 2 f¨ur jedes n ∈ N0 . Beispiel 10.2. Sei I = N0 oder I = {0, . . . , N }. Sei (Xn )n∈I ein quadratisch integrierbares F–Martingal (das heißt E[Xn2 ] < ∞ f¨ur jedes n ∈ I). Nach Satz 9.32 ist Y := (Xn2 )n∈I ein Submartingal. Sei Y = M + A die Doob-Zerlegung von Y . Es ist dann (Xn2 − An )n∈I ein Martingal. Ferner ist E[Xi−1 Xi Fi−1 ] = 2 , also (wie in (10.1)) Xi−1 E[Xi Fi−1 ] = Xi−1 An =
n i=1
=
n
2 E[Xi2 Fi−1 ] − Xi−1 2 E[(Xi − Xi−1 )2 Fi−1 ] − 2Xi−1 + 2 E[Xi−1 Xi Fi−1 ]
i=1 n * ) E (Xi − Xi−1 )2 Fi−1 . =
3
i=1
Definition 10.3. Sei (Xn )n∈I ein quadratisch integrierbares F-Martingal. Der eindeutig bestimmte vorhersagbare Prozess A, mit dem (Xn2 − An )n∈I ein Martingal wird, heißt quadratischer Variationsprozess von X und wird in Formeln mit ( X!n )n∈I := A bezeichnet. Aus dem vorangehenden Beispiel ergibt sich sofort der folgende Satz. Satz 10.4. Sei X wie in Definition 10.3. Dann ist f¨ur n ∈ N0 X!n =
n * ) E (Xi − Xi−1 )2 Fi−1
(10.2)
i=1
und E[ X!n ] = Var[Xn − X0 ].
(10.3)
Bemerkung 10.5. Sind Y und A wie in Beispiel 10.2, dann ist A monoton wachsend, weil (Xn2 )n∈I ein Submartingal ist (vergleiche Satz 10.1). Deshalb wird A manchmal auch der wachsende Prozess von Y genannt. 3 Beispiel 10.6. Seien Y1 , Y2 , . . . unabh¨angige, quadratisch integrierbare, zentrierte + . . . + Yn ein quadratisch inZufallsvariablen. Dann wird durch Xn := Y1 n 2 = tegrierbares Martingal definiert mit X! n i=1 E[Yi ], denn es ist An = n n 2 2 i=1 E[Yi Y1 , . . . , Yi−1 ] = i=1 E[Yi ] (wie in Beispiel 10.2). Man beachte, dass es f¨ur diese einfache Darstellung von X! nicht ausreicht, dass die Y1 , Y2 , . . . unkorreliert sind. 3
10.1 Doob-Zerlegung und quadratische Variation
201
Beispiel 10.7. Seien Y1 , Y2 , . . . unabh¨angige, quadratisch n integrierbare Zufallsvaur n ∈ N0 . Dann riablen mit E[Yn ] = 1 f¨ur n ∈ N. Setze Xn := i=1 Yi f¨ ist X = (Xn )n∈N0 ein quadratisch integrierbares Martingal (warum?) bez¨uglich F = σ(X) und * ) * ) 2 2 Fn−1 = Var[Yn ] Xn−1 . E (Xn − Xn−1 )2 Fn−1 = E (Yn − 1)2 Xn−1 n 2 Also ist X!n = i=1 Var[Yi ] Xi−1 . Wir sehen, dass der quadratische Variationsprozess also durchaus ein echt zuf¨alliger Prozess sein kann. 3 Beispiel 10.8. Sei (Xn )n∈N0 die eindimensionale symmetrische einfache Irrfahrt: Xn =
n
Ri
f¨ur jedes n ∈ N0 ,
i=1
wobei R1 , R2 , R3 , . . . u.i.v. sind mit P[Ri = 1] = 1 − P[Ri = −1] = 12 . Offenbar ist X ein Martingal, also |X| ein Submartingal. Sei |X| = M + A die Doob-Zerlegung von |X|. Dann ist An =
n
E[|Xi | Fi−1 ] − |Xi−1 | .
i=1
Nun ist
⎧ |X | + Ri , ⎪ ⎪ ⎨ i−1 |Xi | = |Xi−1 | − Ri , ⎪ ⎪ ⎩ 1,
Also gilt E[|Xi | Fi−1 ] = Mithin ist
falls Xi−1 > 0, falls Xi−1 < 0, falls Xi−1 = 0.
|Xi−1 |,
falls |Xi−1 | = 0,
1,
falls |Xi−1 | = 0.
An = # i ≤ n − 1 : |Xi | = 0
die Lokalzeit von X in 0. Es folgt (wegen P[X2j = 0] = 0] = 0): ) * E[|Xn |] = E #{i ≤ n − 1 : Xi = 0} =
n−1 i=0
2j j
4−j und P[X2j+1 =
(n−1)/2
P[Xi = 0] =
j=0
2j −j 4 . j
3
Beispiel 10.9. Wir wollen das vorangehende Beispiel jetzt noch etwas verallgemeinern. Offenbar brauchten wir (außer in der letzten Formel) nicht, dass X eine Irrfahrt ist, sondern lediglich, dass die Differenzen (ΔX)n := Xn − Xn−1 nur die Werte
202
10 Optional Sampling S¨atze
−1 und +1 annehmen k¨onnen. Sei also jetzt X ein Martingal mit |Xn − Xn−1 | = 1 fast sicher f¨ur jedes n ∈ N und mit X0 = x0 ∈ Z fast sicher. Sei f : Z → R eine beliebige Abbildung. Dann ist Y := (f (Xn ))n∈N0 ein integrierbarer, adaptierter Prozess (weil |f (Xn )| ≤ maxx∈{x0 −n,...,x0 +n} |f (x)|). Um die Doob-Zerlegung von Y zu bestimmen, definieren wir die erste und zweite (diskrete) Ableitung von f f (x) := und
f (x + 1) − f (x − 1) 2
f (x) := f (x − 1) + f (x + 1) − 2f (x).
Wir setzen noch Fn := f (Xn−1 ) und Fn := f (Xn−1 ). Durch Unterscheidung der F¨alle Xn = Xn−1 − 1 und Xn = Xn−1 + 1 sehen wir, dass f¨ur jedes n ∈ N f (Xn−1 + 1) − f (Xn−1 − 1) (Xn − Xn−1 ) 2 1 1 + f (Xn−1 − 1) + f (Xn−1 + 1) − f (Xn−1 ) 2 2 1 = f (Xn−1 )(Xn − Xn−1 ) + f (Xn−1 ) 2 1 = Fn · (Xn − Xn−1 ) + Fn . 2
f (Xn ) − f (Xn−1 ) =
Insgesamt erhalten wir also die diskrete Itˆo-Formel f (Xn ) = f (x0 ) +
n
f (Xi−1 )(Xi − Xi−1 ) +
i=1
= f (x0 ) + (F ·X)n +
n 1 i=1
n 1 i=1
2
2
f (Xi−1 ) (10.4)
Fi .
Hierbei ist F ·X das diskrete stochastische Integral (siehe Definition 9.37). Nun ist F vorhersagbar ist (und M := f (x0 ) + F ·X ein Martingal nach Satz 9.39,
weil n 1 |Fn | ≤ maxx∈{x0 −n,...,x0 +n} |F (x)|), und A := i=1 2 Fi n∈N0 ist vorhersagbar. Also ist f (X) := (f (Xn ))n∈N0 = M + A die Doob-Zerlegung von f (X). Speziell ist nat¨urlich f (X) ein Submartingal, wenn f (x) ≥ 0 f¨ur alle x ∈ Z, wenn also f konvex ist. Dies wussten wir zwar schon aus Satz 9.35, allerdings haben wir hier auch noch quantifiziert, wie weit f (X) von einem Martingal abweicht. In den Spezialf¨allen f (x) = x2 und f (x) = |x| ist f (x) = 2 beziehungsweise f (x) = 2 · {0} (x), und wir erhalten aus (10.4) die Aussagen von Satz 10.4 und Beispiel 10.8. Sp¨ater werden wir eine zu (10.4) vergleichbare Formel auch f¨ur stochastische Prozesse in stetiger Zeit herleiten (siehe Kapitel 25.3). 3
10.2 Optional Sampling und Optional Stopping
203
10.2 Optional Sampling und Optional Stopping Lemma 10.10. Sei I ⊂ R h¨ochstens abz¨ahlbar, (X t )t∈I ein Martingal, T ∈ I und τ eine Stoppzeit mit τ ≤ T . Dann gilt Xτ = E[XT Fτ ] und speziell E[Xτ ] = E[X0 ]. Beweis. Es reicht zu zeigen, dass E[XT A ] = E[Xτ A ] f¨ur jedes A ∈ Fτ gilt. Nach der Definition von Fτ ist {τ = t} ∩ A ∈ Ft f¨ur jedes t ∈ I, also ) * E[Xt {τ =t}∩A ] = E E[XT Ft ] {τ =t}∩A E[Xτ A ] = t≤T
=
t≤T
E[XT
A
{τ =t} ]
= E[XT
A ].
2
t≤T
Satz 10.11 (Optional Sampling Theorem). Sei X = (Xn )n∈N0 ein Supermartingal, und seien σ ≤ τ Stoppzeiten. (i) Gibt es ein T ∈ N mit τ ≤ T , dann ist Xσ ≥ E[Xτ Fσ ] und speziell E[Xσ ] ≥ E[Xτ ]. Ist X ein Martingal, so gilt jeweils Gleichheit. (ii) Ist X nichtnegativ und τ < ∞ f.s., so gelten E[Xτ ] ≤ E[X0 ] < ∞, E[Xσ ] ≤ E[X0 ] < ∞ und Xσ ≥ E[Xτ Fσ ]. (iii) Ist allgemeiner X lediglich adaptiert und integrierbar, so ist X genau dann ein Martingal, wenn E[Xτ ] = E[X0 ] f¨ur jede beschr¨ankte Stoppzeit τ gilt. Beweis. (i) Sei X = M + A die Doob-Zerlegung von X, also A vorhersagbar und monoton fallend, A0 = 0, und M ein Martingal. Dann ist nach Lemma 10.10, angewandt auf M , Xσ = Aσ + Mσ = E[Aσ + MT Fσ ] ≥ E[Aτ + MT Fσ ] = E[Aτ + E[MT Fτ ] Fσ ] = E[Aτ + Mτ Fσ ] = E[Xτ Fσ ]. Wir haben dabei Fτ ⊃ Fσ , die Turmeigenschaft und die Monotonie der bedingten Erwartung (Satz 8.14) ausgenutzt. n→∞
(ii) Es gilt Xτ ∧n −→ Xτ fast sicher. Nach (i) gilt E[Xτ ∧n ] ≤ E[X0 ] f¨ur jedes n ∈ N. Nach dem Lemma von Fatou ist also E[Xτ ] ≤ lim inf E[Xτ ∧n ] ≤ E[X0 ] < ∞. n→∞
Analog zeigt man E[Xσ ] ≤ E[X0 ].
204
10 Optional Sampling S¨atze
Seien nun m, n ∈ N mit m ≥ n. Teil (i) mit den beschr¨ankten Stoppzeiten τ ∧ m ≥ σ ∧ n liefert Xσ∧n ≥ E[Xτ ∧m Fσ∧n ]. F¨ur A ∈ Fσ ist {σ < n} ∩ A ∈ Fσ∧n , also ist * ) * ) ) E Xσ {σ
{σ
) ≤ lim inf E Xτ ∧m m→∞
{σ
*
{σ
) ≤ E Xσ
Monotone Konvergenz (f¨ur n → ∞) ergibt daher E[Xτ
A]
* .
{σ
≤ E[Xσ
* .
A ].
(iii) Ist X ein Martingal, so folgt die Aussage aus Lemma 10.10. Gelte nun E[Xτ ] = E[X0 ] f¨ur jede beschr¨ankte Stoppzeit τ . Sei t > s und A ∈ Fs . Es reicht zu zeigen, dass E[Xt A ] = E[Xs A ]. Setze τ = s A + t Ac . Dann ist τ eine beschr¨ankte Stoppzeit. Nach Voraussetzung gilt aber E[Xt
A]
= E[Xt ] − E[Xt
Ac ]
= E[X0 ] − E[Xτ ] + E[Xs
A]
= E[Xs
A ].
2
Korollar 10.12. Sei X ein Martingal (beziehungsweise Submartingal), und sei (τN )N ∈N eine monoton wachsende Folge beschr¨ankter Stoppzeiten (also τN ≤ TN , N ∈ N f¨ur gewisse TN ∈ N). Dann ist (XτN )N ∈N ein Martingal (beziehungsweise Submartingal) bez¨uglich der Filtration (FτN )N ∈N . Definition 10.13. Sei I ⊂ R h¨ochstens abz¨ahlbar und (Xt )t∈I adaptiert sowie τ eine Stoppzeit. Wir definieren den gestoppten Prozess X τ durch Xtτ = Xτ ∧t
f¨ur jedes t ∈ I.
Ferner sei Fτ die Filtration Fτ = (Ftτ )t∈I = (Fτ ∧t )t∈I . Bemerkung 10.14. X τ ist an F und an Fτ adaptiert.
3
Satz 10.15 (Optional Stopping). Sei (Xn )n∈N0 ein (Sub-, Super-)Martingal bez¨uglich F und τ eine Stoppzeit. Dann ist X τ ein (Sub-, Super-)Martingal sowohl bez¨uglich F als auch bez¨uglich Fτ . Beweis. Wir f¨uhren den Beweis nur f¨ur den Fall, dass X ein Submartingal ist. Die anderen F¨alle ergeben sich, weil dann (−X) ein Submartingal ist. Sei also X ein Submartingal. Wegen {τ > n − 1} ∈ Fn−1 ist τ Fn−1 ] = E[Xτ ∧n − Xτ ∧(n−1) Fn−1 ] E[Xnτ − Xn−1 = E[(Xn − Xn−1 ) {τ >n−1} Fn−1 ] = {τ >n−1} E[Xn − Xn−1 Fn−1 ] ≥ 0, da X ein F–Submartingal ist.
10.2 Optional Sampling und Optional Stopping
205
Also ist X τ ein F-Submartingal. Da X τ an Fτ adaptiert und Fτ die kleinere Filtra2 tion ist, ist X auch ein Fτ –Submartingal (siehe Bemerkung 9.29). Beispiel 10.16. Sei X die symmetrische einfache Irrfahrt aus Beispiel 10.8. Seien a, b ∈ Z, a < 0, b > 0 sowie τa = inf{t ≥ 0 : Xt = a},
τb = inf{t ≥ 0 : Xt = b} und τa,b = τa ∧ τb .
τa,b ist eine Stoppzeit nach Lemma 9.18. Sei A = {τa,b = τa } das Ereignis, dass ¨ X in a ist bevor es in b ist. Wir wollen P[A] bestimmen. Nach Ubung 2.3.1 ist fast sicher lim supn→∞ Xn = ∞ und lim inf n→∞ Xn = −∞. Also ist fast sicher τa < ∞ und τb < ∞. Nach dem Optional Stopping Theorem X τa,b ein Martingal. n→∞ n→∞ τ τ Wegen τa,b ∧ n −→ τa,b fast sicher, gilt Xna,b −→ Xτa,b fast sicher. Da |Xna,b | n→∞ τ durch b − a beschr¨ankt ist, gilt Xna,b −→ Xτa,b auch in L1 . Also ist ) * ) τ * 0 = lim E Xna,b = E Xτa,b = a · P [τa,b = τa ] + b · P [τa,b = τb ] n→∞
= b + (a − b) P[τa,b = τa ]. Es folgt P [τa,b = τa ] =
b . b−a
3
Beispiel 10.17. Schließlich wollen wir unsere Maschinerie benutzen, um E[τa,b ] und E[τa ] zu berechnen. Der quadratische Variationsprozess X! (vergleiche Definition 10.3) ist gegeben durch X!n =
n
* ) E (Xi − Xi−1 )2 Fi−1 = n,
i=1
also ist Xn2 − n n∈N ein Martingal. Nach dem Optional Stopping Theorem ist 0 * ) f¨ur jedes n ∈ N0 . 0 = E Xτ2a,b ∧n − (τa,b ∧ n) Monotone Konvergenz liefert * ) E [τa,b ] = E Xτ2a,b = a2 P [τa,b = τa ] + b2 P [τa,b = τb ] = |a| · b. Um E[τa ] zu berechnen, bemerken wir, dass τa,b ↑ τa fast sicher gilt, falls b → ∞. Der Satz von der monotonen Konvergenz liefert also E[τa ] = lim E[τa,b ] = ∞. 3 b→∞
* ) Bemerkung 10.18. Offenbar ist Xτb = b > 0, also X0 < E Xτb F0 = b. Die Aussage des Optional Sampling Theorems gilt also im Allgemeinen nicht, falls die Stoppzeit unbeschr¨ankt ist. 3 Beispiel 10.19 (Gambler’s Ruin Problem). Wir betrachten ein Spiel zwischen zwei Personen A und B. In jeder Runde wird eine M¨unze geworfen. Je nach Ergebnis erh¨alt A von B eine Geldeinheit oder B von A. Gespielt wird so lange, bis
206
10 Optional Sampling S¨atze
einer der beiden Spieler ruiniert ist. Wir nehmen der Einfachheit halber an, dass A zum Spielbeginn kA ∈ N Geldeinheiten hat, B hingegen kB = N − kA , wobei N ∈ N, N ≥ kA . Gesucht ist die Ruinwahrscheinlichkeit von B. In Beispiel 10.16 haben wir f¨ur den Fall einer fairen M¨unze bereits ausgerechnet, dass die Ruinwahrscheinlichkeit kA /N ist. Nun wollen wir den Fall einer unfairen M¨unze betrachten. = −1] = p f¨ur alle Seien also Y1 , Y2 , . . . unabh¨angig und P[Yi = 1] = 1 − P[Yi n i ∈ N und f¨ur gewisses p ∈ (0, 1) \ { 12 }. Mit Xn := kB + i=1 Yi bezeichnen wir den Kontostand von B nach n Runden, wobei wir formal annehmen, dass die Spiele weiter gehen, auch wenn ein Spieler bereits ruiniert ist. Wir definieren noch wie oben τ0 , τN und τ0,N als die ersten Eintreffzeiten von X in 0, N beziehungsweise {0, N }. Die Ruinwahrscheinlichkeit von B ist nun pN B := P[τ0,N = τ0 ]. Da X kein Martingal ist (außer im Falle p = 12 , den wir hier ausschließen wollen), behelfen wir uns nmit einem Trick: Wir definieren einen neuen Prozess Z durch Zn := rXn = rkB i=1 rYi , wobei wir r > 0 noch geeignet w¨ahlen m¨ussen, sodass Z ein Martingal wird. Nach Beispiel 9.31 ist dies genau dann der Fall, wenn E[rY1 ] = pr + (1 − p)r−1 = 1 ist, also wenn r = 1 oder r = 1−p p ist. Offen1−p bar ist die Wahl r = 1 nutzlos, also nehmen wir r = p an. Wir erhalten so τ0 = inf{n ∈ N0 : Zn = 1} und τN = inf{n ∈ N0 : Zn = rN }. (Man beachte, dass wir hier nicht wie oben argumentieren k¨onnen, um zu zeigen, dass τ0 < ∞ und τN < ∞ fast sicher gilt. In der Tat ist f¨ur p = 12 auch stets nur genau eine der beiden Aussagen richtig. Allerdings erh¨alt man, beispielsweise durch das starke Gesetz der großen Zahl, dass lim inf n→∞ Xn = ∞ (und damit τN < ∞) fast sicher, falls p > 12 . Analog ist τ0 < ∞ fast sicher, falls p < 12 .) Wie in Beispiel 10.16 liefert der Optional Stopping Satz rkB = Z0 = E[Zτ0,N ] = N N pN B + (1 − pB )r , also ist die Ruinwahrscheinlichkeit von B
pN B =
r kB − r N . 1 − rN
(10.5)
Ist das Spiel vorteilhaft f¨ur B, also p > 12 , so ist r < 1, und wir erhalten im Limes N → ∞ (bei konstantem kB ) N kB . p∞ B := lim pB = r N →∞
(10.6) 3
¨ Ubung 10.2.1. Sei X ein quadratisch integrierbares Martingal mit quadratischem Variationsprozess X!. Sei τ eine endliche Stoppzeit. Man zeige: (i) Ist E[ X!] < ∞, so gilt * ) * ) E (Xτ − X0 )2 = E X!τ
und
) * ) * E Xτ = E X0 .
(10.7)
(ii) Ist E[ X!τ ] = ∞, so braucht keine der Gleichungen in (10.7) zu gelten.
♣
10.3 Gleichgradige Integrierbarkeit und Optional Sampling
207
¨ Ubung 10.2.2. Wir betrachten hier eine allgemeinere Situation als im vorangehenden Beispiel, indem wir nur noch annehmen, dass Y1 , Y2 , . . . u.i.v. integrierbare Zufallsvariablen sind, die nicht fast sicher konstant sind (und Xn = Y1 + . . . + Yn ). Weiter nehmen wir an, dass es ein δ > 0 gibt mit E[exp(θY1 )] < ∞ f¨ur jedes θ ∈ (−δ, δ).Wir definieren eine Abbildung ψ : (−δ, δ) → R durch θ → log E[exp(θY1 )] und setzen Znθ := exp(θXn − nψ(θ)) f¨ur n ∈ N0 . Man zeige: (i) F¨ur jedes θ ∈ (−δ, δ) ist Z θ ist ein Martingal. (ii) ψ ist strikt konvex. )3 * n→∞ (iii) E Znθ −→ 0 f¨ur θ = 0. n→∞
(iv) Znθ −→ 0 fast sicher. Interpretieren wir Yn als die Differenz zwischen Pr¨amieneinnahmen und Schadensauszahlungen einer Versicherungsgesellschaft zur Zeit n, so gibt k0 +Xn den Kontostand der Versicherung zur Zeit n wieder, wenn das Anfangskapital k0 > 0 betr¨agt. Wir interessieren uns f¨ur die Ruinwahrscheinlichkeit ) * p(k0 ) = P inf{Xn + k0 : n ∈ N0 } < 0 in Abh¨angigkeit vom Startkapital. Man kann davon ausgehen, dass die Pr¨amien so kalkuliert sind, dass E[Y1 ] > 0. Man zeige: Falls die Gleichung ψ(θ) = 0 eine L¨osung θ∗ = 0 hat, so ist θ∗ < 0. Man zeige, dass in diesem Fall die Cram´er-Lundberg’sche Ungleichung gilt: p(k0 ) ≤ exp(θ∗ k0 ).
(10.8)
In dem Fall, wo Yi nur die Werte −1 und 1 annimmt und k0 ∈ N ist, gilt Gleichheit, ♣ und wir erhalten Gleichung (10.6) mit r = exp(θ∗ ).
10.3 Gleichgradige Integrierbarkeit und Optional Sampling Wir wollen jetzt das Optional Sampling Theorem auf unbeschr¨ankte Stoppzeiten ausweiten. Dies geht, falls das zugrunde liegende Martingal gleichgradig integrierbar ist (vergleiche Definition 6.16). Lemma 10.20. Sei X ein gleichgradig integrierbares Martingal. Dann ist die Familie (Xτ : τ ist endliche Stoppzeit) gleichgradig integrierbar. Beweis. Nach Satz 6.19) eine monoton wachsende, konvexe Funktion f : [0, ∞) → [0, ∞) mit lim inf x→∞ f (x)/x = ∞ und L := supn∈N0 E[f (|Xn |)] < ∞. Ist τ < ∞ eine endliche Stoppzeit, dann ist nach dem Optional Sampling Theorem f¨ur beschr¨ankte Stoppzeiten (Satz 10.11 mit τ = n und σ = τ ∧ n) E[Xn Fτ ∧n ] = Xτ ∧n . Wegen {τ ≤ n} ∈ Fτ ∧n liefert die Jensen’sche Ungleichung
208
10 Optional Sampling S¨atze
) E f (|Xτ |)
{τ ≤n}
*
) * = E f (|Xτ ∧n |) {τ ≤n} * * ) ) ≤ E E f (|Xn |) Fτ ∧n {τ ≤n} * ) = E f (|Xn |) {τ ≤n} ≤ L.
Also ist E[f (|Xτ |)] ≤ L. Nach Satz 6.19 ist (Xτ , τ ist endliche Stoppzeit) gleichgradig integrierbar. 2 Satz 10.21 (Optional Sampling und gleichgradige Integrierbarkeit). Ist (Xn , n ∈ N0 ) ein gleichgradig integrierbares Martingal (beziehungsweise Supermartingal), und sind σ ≤ τ Stoppzeiten, dann gilt E[|Xτ |] < ∞ und Xσ = E[Xτ Fσ ] (beziehungsweise Xσ ≥ E[Xτ Fσ ]). Beweis. Sei zun¨achst X ein Martingal. F¨ur A ∈ Fσ ist {σ ≤ n} ∩ A ∈ Fσ∧n , also nach dem Optional Sampling Theorem (Satz 10.11) * ) * ) E Xτ ∧n {σ≤n}∩A = E Xσ∧n {σ≤n}∩A . Nach Lemma 10.20 ist (Xσ∧n , n ∈ N0 ) und damit (Xσ∧n {σ≤n}∩A , n ∈ N0 ) gleichgradig integrierbar. Analog gilt dies f¨ur Xτ . Nach Satz 6.25 gilt daher * * ) ) E[Xτ A ] = lim E Xτ ∧n {σ≤n}∩A = lim E Xσ∧n {σ≤n}∩A = E[Xσ A ]. n→∞
n→∞
Es folgt E[Xτ Fσ ] = Xσ . Sei nun X ein Supermartingal. Dann hat X die Doob-Zerlegung X = M + A, wobei M ein Martingal ist und A ≤ 0 vorhersagbar und fallend. Wegen E[|An |] = E[−An ] ≤ E[|Xn − X0 |] ≤ E[|X0 |] + sup E[|Xm |] < ∞, m∈N0
gilt An ↓ A∞ f¨ur ein A∞ ≤ 0 mit E[−A∞ ] < ∞. Also ist A damit auch M = X − A gleichgradig integrierbar (Satz 6.19). Es folgt E[|Xτ |] ≤ E[−Aτ ] + E[|Mτ |] ≤ E[−A∞ ] + E[|Mτ |] < ∞. Ferner ist E[Xτ Fσ ] = E[Mτ Fσ ] + E[Aτ Fσ ]
= Mσ + Aσ + E[(Aτ − Aσ ) Fσ ] ≤ Mσ + Aσ = Xσ .
2
Korollar 10.22. Ist X ein gleichgradig integrierbares Martingal (beziehungsweise Supermartingal), und sind τ1 ≤ τ2 ≤ . . . endliche Stoppzeiten, so ist (Xτn )n∈N ein Martingal (beziehungsweise Supermartingal).
11 Martingalkonvergenzs¨atze und Anwendungen
Wir haben Martingale X = (Xn )n∈N0 als faire Spiele kennen gelernt und festgestellt, dass sie unter gewissen Transformationen (Optionales Stoppen, diskretes stochastisches Integral) wieder zu Martingalen werden. In diesem Kapitel werden wir sehen, dass unter schwachen Bedingungen (Nichtnegativit¨at oder gleichgradige Integrierbarkeit) Martingale fast sicher konvergieren. Zudem impliziert die Martingalstruktur die Lp -Konvergenz schon unter formal schw¨acheren Annahmen als denen, die wir in Kapitel 7 gesehen haben. Die grundlegenden Ideen dieses Kapitels liegen in der Doob’schen Ungleichung (Satz 11.2) und in der Aufkreuzungsungleichung (Lemma 11.3).
11.1 Die Doob’sche Ungleichung Wir haben mit der Kolmogorov’schen Ungleichung (Satz 5.28) eine Ungleichung kennen gelernt, die analog zur Chebyshev’schen Ungleichung die Wahrscheinlichkeit f¨ur große Werte des Maximums eines quadratisch integrierbaren Prozesses mit unabh¨angigen, zentrierten Zuw¨achsen nach oben absch¨atzt. An dieser Stelle wollen wir die Ungleichung in mehrere Richtungen verbessern. Einerseits wollen wir Martingale betrachten. Andererseits wollen wir mit weniger als zweiten Momenten auskommen, beziehungsweise bei Anwesenheit h¨oherer Momente die Ungleichung versch¨arfen. Sei I ⊂ N0 und X = (Xn )n∈I ein stochastischer Prozess. Wir schreiben f¨ur n ∈ N Xn∗ = sup{Xk : k ≤ n}
und
|X|∗n = sup{|Xk | : k ≤ n}.
Lemma 11.1. Ist X ein Submartingal, dann gilt f¨ur jedes λ > 0 * ) * ) * ) λ P Xn∗ ≥ λ ≤ E Xn {Xn∗ ≥λ} ≤ E |Xn | {Xn∗ ≥λ} . Beweis. Die zweite Ungleichung ist trivial. F¨ur die erste betrachte
τ := inf k ∈ I : Xk ≥ λ ∧ n. Nach Satz 10.11 (Optional Sampling Theorem) ist
210
11 Martingalkonvergenzs¨atze und Anwendungen
* ) * ) E[Xn ] ≥ E[Xτ ] = E Xτ {Xn∗ ≥λ} + E Xτ {Xn∗ <λ} * ) * ) ≥ λ P Xn∗ ≥ λ + E Xn {Xn∗ <λ} . * ) (Merke: τ = n, falls Xn∗ < λ.) Jetzt subtrahiere E Xn {Xn∗ <λ} .
2
Satz 11.2 (Doob’sche Lp -Ungleichung). Sei X ein Martingal oder ein positives Submartingal. (i) F¨ur jedes p ≥ 1 und λ > 0 gilt * ) * ) λp P |X|∗n ≥ λ ≤ E |Xn |p . (ii) F¨ur jedes p > 1 gilt ) * ) * E |Xn |p ≤ E (|X|∗n )p ≤
p p−1
p
* ) E |Xn |p .
Beweis. Der Beweis folgt [137]. (i) Nach Satz 9.35 ist (|Xn |p )n∈I ein Submartingal, und die Behauptung folgt aus Lemma 11.1. (ii) Die erste Ungleichung ist trivial. F¨ur die zweite Ungleichung beachte man, dass nach Lemma 11.1 gilt * * ) ) λP |X|∗n ≥ λ ≤ E |Xn | {|X|∗n ≥λ} . Also ist f¨ur jedes K > 0 ) * E (|X|∗n ∧ K)p = E
-
|X|∗ n ∧K
. p λp−1 dλ
0
- =E
.
K
pλ
p−1
0 K
=
{|X|∗ n ≥λ}
dλ
p λp−1 P[|X|∗n ≥ λ] dλ
0
≤
0
) p λp−2 E |Xn | ∗
K
λ 0
*
dλ
.
|X|n ∧K
= p E |Xn | =
{|X|∗ n ≥λ} p−2
dλ
) * p E |Xn | · (|X|∗n ∧ K)p−1 . p−1
Die H¨older’sche Ungleichung liefert nun
11.2 Martingalkonvergenzs¨atze
211
) *(p−1)/p *1/p ) p E (|X|∗n ∧ K)p · E |Xn |p . p−1 *p−1 ) Indem wir beide Seiten zur p-ten Potenz erheben und durch E (|X|∗n ∧ K)p teilen (hier wird das Abschneiden bei K gebraucht, damit wir sicher durch eine endliche Zahl teilen), erhalten wir p ) * * ) p ∗ p E (|X|n ∧ K) ≤ E |Xn |p . p−1 * ) E (|X|∗n ∧ K)p ≤
Jetzt lassen wir K nach ∞ gehen.
2
¨ Ubung 11.1.1. Sei (Xn )n∈N0 ein Submartingal oder Supermartingal. Man zeige mit Hilfe von Satz 11.2 und der Doob-Zerlegung, dass f¨ur jedes n ∈ N und λ > 0 * ) ♣ λ P |X|∗n ≥ λ ≤ 12 E[|X0 |] + 9 E[|Xn |].
11.2 Martingalkonvergenzs¨atze In diesem Abschnitt zeigen wir die g¨angigen Martingalkonvergenzs¨atze und geben ein paar kleinere Beispiele an. Wir beginnen mit dem Herzst¨uck der Martingalkonvergenzs¨atze, der Aufkreuzungsungleichung.
Sei F = (Fn )n∈N0 eine Filtration und F∞ = σ n∈N0 Fn . Sei (Xn )n∈N0 reellwertig und an F adaptiert. Seien a, b ∈ R mit a < b. Stellen wir uns X als Aktienkurs vor, so w¨are es eine sinnvolle Handelsstratgie, immer dann die Aktie zu kaufen, wenn ihr Kurs unter a gefallen ist, und zu verkaufen, sobald der Kurs wieder u¨ ber b gestiegen ist – jedenfalls dann, wenn wir sicher wissen, dass der Kurs immer wieder u¨ ber b steigt. Jedes Mal, wenn der Kurs der Aktie eine solche Aufkreuzung von a nach b macht, erhalten wir einen Gewinn von mindestens b − a. Indem wir den maximal m¨oglichen Gewinn nach oben absch¨atzen, erhalten wir eine obere Absch¨atzung f¨ur die Zahl der Aufkreuzungen. Ist diese aber endlich f¨ur je zwei Werte a < b, so muss der Prozess fast sicher konvergieren. Wir kommen zu den technischen Details. Wir definieren Stoppzeiten σ0 ≡ 0 und τk := inf{n ≥ σk−1 : Xn ≤ a} σk := inf{n ≥ τk : Xn ≥ b}
f¨ur k ∈ N, f¨ur k ∈ N.
Man beachte, dass τk = ∞ gilt, falls σk−1 = ∞ ist, und σk = ∞, falls τk = ∞. Wir sagen, dass X zwischen τk und σk die k-te Aufkreuzung u¨ ber [a, b] hat, falls σk < ∞. F¨ur n ∈ N definieren wir Una,b := sup{k ∈ N0 : σk ≤ n} als Anzahl der Aufkreuzungen bis zur Zeit n.
212
11 Martingalkonvergenzs¨atze und Anwendungen
Lemma 11.3 (Aufkreuzungsungleichung). Es sei (Xn )n∈N0 ein Submartingal. Dann ist * ) E[(Xn − a)+ ] − E[(X0 − a)+ ] . E Una,b ≤ b−a Beweis. Wir erinnern an das diskrete stochastische Integral (Definition 9.37) H ·X und beschreiben formal die oben angedeutete Handelsstrategie H durch m ∈ N0 1, falls m ∈ {τk + 1, . . . , σk } f¨ur ein k ∈ N, Hm := 0, sonst. H ist nichtnegativ und vorhersagbar, denn f¨ur m ∈ N ist ∞
{τk ≤ m − 1} ∩ {σk > m − 1} ,
{Hm = 1} =
k=1
und jedes der Ereignisse liegt in Fm−1 . Setze Y = max(X, a). Ist k ∈ N und σk < ∞, so ist offenbar Yσi − Yτi = Yσi − a ≥ b − a f¨ur jedes i ≤ k , also ist (H ·Y )σk =
σi k
(Yj − Yj−1 ) =
i=1 j=τi +1
k
(Yσi − Yτi ) ≥ k(b − a).
i=1
F¨ur j ∈ {σk , . . . , τk+1 } ist (H ·Y )j = (H ·Y )σk , und f¨ur j ∈ {τk + 1, . . . , σk } ist (H ·Y )j ≥ (H ·Y )τk = (H ·Y )σk−1 . F¨ur n ∈ N ist daher (H ·Y )n ≥ (b − a)Una,b . Nach Korollar 9.34 ist Y ein Submartingal, und damit (nach Satz 9.39) auch H ·Y und (1 − H)·Y . Nun ist Yn − Y0 = (1·Y )n = (H ·Y )n + ((1 − H)·Y )n , also * ) * ) E[Yn − Y0 ] ≥ E (H ·Y )n ≥ (b − a)E Una,b . 2
Satz 11.4 (Martingalkonvergenzsatz). Sei (Xn )n∈N0 ein Submartingal mit sup{E[Xn+ ] : n ≥ 0} < ∞. Dann existiert n→∞ eine F∞ -messbare Zufallsvariable X∞ mit E[|X∞ |] < ∞ und Xn −→ X∞ fast sicher. Beweis. F¨ur a < b ist (wegen E[(Xn − a)+ ] ≤ |a| + E[Xn+ ]) nach Lemma 11.3 E[Una,b ] ≤
|a| + E[Xn+ ] . b−a
Offensichtlich existiert U a,b := limn→∞ U) na,b . Es gilt* nach ) a,b * der monotone Limes a,b = limn→∞ E[Un ] < ∞. Speziell ist P U a,b < ∞ = 1. Voraussetzung E U Definiere die F∞ -messbaren Ereignisse 2 1
C a,b = lim inf Xn < a ∩ lim sup Xn > b ⊂ U a,b = ∞ n→∞
n→∞
11.2 Martingalkonvergenzs¨atze
und C=
213
C a,b
a,b∈Q a
* ) Dann gilt P C a,b = 0 und damit auch P[C] = 0. Per Konstruktion ist (Xn )n∈N jedoch auf C c konvergent. Also existiert der fast sichere Limes X∞ = limn→∞ Xn . Jedes der Xn ist F∞ -messbar, also ist X∞ auch F∞ -messbar. Nach dem Lemma von Fatou ist
+ E[X∞ ] ≤ sup E[Xn+ ] : n ≥ 0 < ∞. Andererseits ist (weil X Submartingal ist), wieder mit Fatous Lemma
− E[X∞ ] ≤ lim inf E[Xn− ] = lim inf E[Xn+ ] − E[Xn ] n→∞
n→∞
≤ sup E[Xn+ ] : n ∈ N0 − E[X0 ] < ∞.
2
Korollar 11.5. Ist X ein nichtnegatives Supermartingal, so gibt es eine F∞ -messn→∞ bare Zufallsvariable X∞ ≥ 0 mit E[X∞ ] ≤ E[X0 ] und Xn −→ X∞ f.s. Beweis. Der vorige Satz mit (−X) liefert X∞ als fast sicheren Limes. Das Lemma von Fatou liefert 2 E[X∞ ] ≤ lim inf E[Xn ] ≤ E[X0 ]. n→∞
Beispiel 11.6. Sei Sn der Kontostand beim Petersburger Spiel nach der n-ten Runde (siehe Beispiel 9.40). Dann ist S ein Martingal und Sn ≤ 1 fast sicher f¨ur jedes n. Also sind die Voraussetzungen von Satz 11.4 erf¨ullt und (Sn )n∈N0 konvergiert fast sicher f¨ur n → ∞. Da sich der Kontostand noch a¨ ndert, so lange Geld eingesetzt wird, also so lange Sn < 1 ist, gilt lim Sn = 1 fast sicher. n→∞
Da E[Sn ] = 0 ist f¨ur jedes n ∈ N, kann die Konvergenz nicht in L1 gelten. Dies geht einher mit der Beobachtung, dass S nicht gleichgradig integrierbar ist. 3 F¨ur gleichgradig integrierbare Martingale gilt ein st¨arkerer Konvergenzsatz. ¨ gleichgradig integrierbare Martingale). Satz 11.7 (Konvergenzsatz fur Ist (Xn )n∈N0 ein gleichgradig integrierbares F- (Sub-, Super-) Martingal, dann n→∞ existiert eine F∞ -messbare Zufallsvariable X∞ mit Xn −→ X∞ f.s. und in L1 . Weiter gilt, dass – Xn = E[X∞ Fn ] f¨ur jedes n ∈ N, falls X ein Martingal ist, – Xn ≤ E[X∞ Fn ] f¨ur jedes n ∈ N, falls X ein Submartingal ist, – Xn ≥ E[X∞ Fn ] f¨ur jedes n ∈ N, falls X ein Supermartingal ist.
214
11 Martingalkonvergenzs¨atze und Anwendungen
Bemerkung 11.8. Die Aussage von Satz 11.7 l¨asst sich so ausdr¨ucken: Der Prozess 3 (Xn )n∈N0 ∪{∞} ist ein (Sub-, Super-) Martingal bez¨uglich (Fn )n∈N0 ∪{∞} . Beweis. Wir f¨uhren den Beweis f¨ur den Fall, wo X ein Submartingal ist. Gleichgradige Integrierbarkeit impliziert sup{E[Xn+ ] : n ≥ 0} < ∞. Nach Satz 11.4 exisn→∞ tiert der fast sichere Limes X∞ . Nach Satz 6.25 gilt dann E[|Xn − X∞ |] −→ 0. 1 Nach Korollar 8.20 impliziert die L1 -Konvergenz der * n→∞ L -Konvergenz schon ) diese −→ 0. Da X ein Subbedingten Erwartungen E E[Xn Fm ] − E[X∞ Fm ] −
= 0 f¨ur n ≥ m. Die Dreiecksungleichung martingal ist, ist E[Xn Fm ] − Xm liefert also ' ' − ( − ( E E[X∞ Fm ] − Xm = lim E E[Xn Fm ] − Xm = 0. n→∞ 2 Es folgt, dass E[X∞ Fm ] − Xm ≥ 0 fast sicher. Korollar 11.9. Sei X ≥ 0 ein Martingal und X∞ = lim Xn . Genau dann ist E[X∞ ] = E[X0 ], wenn X gleichgradig integrierbar ist.
n→∞
Beweis. Das folgt direkt aus Satz 6.25.
2
Sei p ∈ [1, ∞). Ein reellwertiger stochastischer Prozess (Xi )i∈I heißt Lp –beschr¨ankt, falls supi∈I E[|Xi |p ] < ∞ (Definition 6.20). Im Allgemeinen folgt aus der Lp –Beschr¨anktheit eines Prozesses (Xi )i∈I nicht, dass (|Xi |p )i∈I gleichgradig integrierbar w¨are. Ist X ein Martingal und p > 1, so folgt dies jedoch aus der Doob’schen Ungleichung. Insbesondere folgt dann aus fast sicherer Konvergenz schon die Konvergenz in Lp . ¨ Martingale). Satz 11.10 (Lp -Konvergenzsatz fur Sei p > 1 und (Xn )n∈N0 ein Lp -beschr¨anktes Martingal. Dann existiert eine F∞ n→∞ messbare Zufallsvariable X∞ mit E[|X∞ |p ] < ∞, sowie Xn −→ X∞ fast sicher und in Lp . Speziell ist (|Xn |p )n∈N0 gleichgradig integrierbar. Beweis. Nach Korollar 6.21 ist X gleichgradig integrierbar. Also existiert der fast sichere Limes X∞ . Nach der Doob’schen Ungleichung (Satz 11.2) ist f¨ur n ∈ N p * )
* ) p p E sup |Xk | : k ≤ n ≤ E |Xn |p . p−1 Also ist p ' )
( * p E sup |Xk |p : k ∈ N0 sup E |Xn |p : n ∈ N0 < ∞. ≤ p−1 Insbesondere ist (|Xn |p )n∈N0 also gleichgradig integrierbar. Majorisierte Konvergenz liefert (wegen |Xn − X∞ |p ≤ 2p sup{|Xn |p : n ∈ N0 }) ) * ) * n→∞ E |X∞ |p < ∞ und E |Xn − X∞ |p −→ 0. 2
11.2 Martingalkonvergenzs¨atze
215
F¨ur den Fall quadratintegrierbarer Martingale gibt es ein handliches Kriterium f¨ur die L2 -Beschr¨anktheit, das wir hier als Korollar festhalten (siehe Definition 10.3). Korollar 11.11. Sei X ein quadratintegrierbares Martingal X mit quadratischem Variationsprozess X!. Dann sind folgende vier Aussagen a¨ quivalent: (i) supn∈N E[Xn2 ] < ∞, (ii) limn→∞ E[ X!n ] < ∞, (iii) X konvergiert in L2 , (iv) X konvergiert fast sicher und in L2 . Beweis. (i) ⇐⇒ (ii)“ Wegen Var[Xn − X0 ] = E[ X!n ] (siehe Satz 10.4) ist ” X genau dann in L2 beschr¨ankt, wenn (ii) gilt. (iv) =⇒ (iii) =⇒ (i)“ Dies ist trivial. ” (i) =⇒ (iv)“ Dies ist die Aussage von Satz 11.10. ”
2
Bemerkung 11.12. Die Aussage von Satz 11.10 ist f¨ur p = 1 im Allgemeinen ¨ falsch. Siehe Ubung 11.2.1. 3 Lemma 11.13. Sei X ein quadratintegrierbares Martingal mit quadratischem Variationsprozess X!, und sei τ eine Stoppzeit. Dann hat der gestoppte Prozess X τ den quadratischen Variationsprozess X τ ! = X!τ := ( X!τ ∧n )n∈N0 . 2
¨ Beweis. Ubung!
Nehmen wir statt wie in Korollar 11.11 nicht die Beschr¨anktheit der Erwartungswerte der quadratischen Variation an, sondern lediglich die fast sichere Beschr¨anktheit, so erhalten wir immerhin noch fast sichere Konvergenz von X, im Allgemeinen nicht jedoch L2 -Konvergenz. Satz 11.14. Sei X ein quadratintegrierbares Martingal mit supn∈N X!n < ∞ fast sicher. Dann konvergiert X fast sicher. Beweis. Ohne Einschr¨ankung k¨onnen wir annehmen, dass X0 = 0 ist, sonst betrachten wir das Martingal (Xn − X0 )n∈N0 , das den selben quadratischen Variationsprozess hat. Betrachte f¨ur K > 0 τK := inf{n ∈ N : X!n+1 ≥ K}. Dies ist eine Stoppzeit, da X! vorhersagbar ist. Offenbar ist supn∈N X!τK ∧n ≤ K fast sicher. Nach Korollar 11.11 konvergiert der gestoppte Prozess X τK fast sicher τK nennen wollen. Nach Voraus(und in L2 ) gegen eine Zufallsvariable, die wir X∞ 2 setzung gilt P[τK = ∞] → 1 f¨ur K → ∞, also konvergiert X fast sicher.
216
11 Martingalkonvergenzs¨atze und Anwendungen
Beispiel 11.15. Sei X die symmetrische einfache Irrfahrt auf Z, das heißt Xn = n R , wobei R1 , R2 , . . . u.i.v. sind mit P[R1 = 1] = 1 − P[R1 = −1] = 12 . k k=1 Dann ist X ein Martingal, jedoch ist lim supn→∞ Xn = ∞ und lim inf n→∞ Xn = −∞, also X nicht einmal uneigentlich konvergent. Dies geht nach dem Martingalkonvergenzsatz einher damit, dass X nicht gleichgradig integrierbar ist. 3 Beispiel 11.16 (W¨ahlermodell). Wir betrachten ein einfaches Modell zum Verhalten von opportunistischen W¨ahlern, die nur einer von zwei Meinungen (zu einem politischen Thema) f¨ahig sind, sagen wir 0 und 1. Wir betrachten eine Menge Λ ⊂ Zd , die wir als die Menge der Orte auffassen, an denen je ein Individuum sitzt. Zur Einfachheit nehmen wir an, dass Λ = {0, . . . , L − 1}d f¨ur ein L ∈ N. Mit x ∈ {0, 1}Λ bezeichnen wir einen generischen Zustand des gesamten Wahlvolkes, wobei x(i) ∈ {0, 1} die Meinung des Individuums i ∈ Λ ist. Wir stellen uns nun vor, dass sich die Meinungen in diskreten Zeitschritten a¨ ndern. Zu jedem Zeitpunkt n vergisst ein zuf¨allig gew¨ahltes Individuum In seine Meinung und u¨ bernimmt stattdessen die Meinung eines zuf¨allig gew¨ahlten Nachbarn In + Nn , wobei wir die Addition als komponentenweise modulo L verstehen (manchmal wird dies auch periodische Randbedingungen genannt, weil wir Λ als diskreten Torus auffassen). So erhalten wir eine zuf¨allige Folge (Xn )n∈N0 von Zust¨anden in {0, 1}Λ , die die zuf¨allige Entwicklung der Meinungen darstellt. Um noch einmal formal zu fassen, was wir gerade beschrieben haben: Wir betrachten unabh¨angige Zufallsvariablen (In )n∈N und (Nn )n∈N . F¨ur jedes n ∈ N sei In uniform verteilt auf Λ und Nn uniform verteilt auf den 2d direkten Nachbarn des Ursprungs N := {i ∈ Zd : i2 = 1}. Zudem ist x = X0 ∈ {0, 1}Λ der urspr¨ungliche Zustand. Die weiteren Zust¨ande definieren wir induktiv durch Xn−1 (i), falls In = i, Xn (i) = Xn−1 (In + Nn ), falls In = i. Wir interessieren uns jetzt f¨ur das Langzeitverhalten von (Xn )n∈N0 . Wird es auf lange Sicht einen Konsens unter allen Individuen geben, oder k¨onnen zwei konkurrierende Meinungen koexistieren? Wir betrachten dazu die Gesamtzahl aller Individuen mit Meinung 1 zur Zeit n, n¨amlich Mn := i∈Λ Xn (i). Sei F die Filtration F = (Fn )n∈N0 , wobei Fn = σ(Ik , Nk : k ≤ n) ist f¨ur jedes n ∈ N0 . Dann ist M an F adaptiert und E[Mn Fn−1 ] = Mn−1 − E[Xn−1 (In ) Fn−1 ] + E[Xn−1 (In + Nn ) Fn−1 ] P[In = i] Xn−1 (i) − P[In + Nn = i] Xn−1 (i) = Mn−1 + i∈Λ
i∈Λ
= Mn−1 , weil P[In = i] = P[In + Nn = i] = L−d f¨ur jedes i ∈ Λ. Also ist M ein beschr¨anktes F-Martingal und damit fast sicher und in L1 konvergent gegen eine Zufallsvariable M∞ . Da M nur ganzzahlige Werte annimmt, gibt es ein (zuf¨alliges)
11.2 Martingalkonvergenzs¨atze
217
n0 , sodass Mn = Mn0 f¨ur jedes n ≥ n0 . Damit ist aber auch Xn = Xn0 f¨ur jedes n ≥ n0 . Offenbar ist jedoch kein Zustand x mit x ≡ 0 und x ≡ 1 stabil, denn hier gilt, falls i und j in Λ benachbart sind und x(i) = x(j), P[Xn = Xn−1 Xn−1 = x] ≥ P[In−1 = i, Nn−1 = j − i] = L−d (2d)−1 . Es muss also M∞ ∈ {0, Ld } gelten. Nun ist aber E[M∞ ] = M0 , also gilt * M0 ) P M∞ = Ld = d L
und
) * M0 P M∞ = 0 = 1 − d . L
Etwas formaler sehen wir den Sachverhalt, dass nur die beiden extremen Zust¨ande stabil sind, so ein: Wir betrachten den quadratischen Variationsprozess M ! von M . Dann ist M !n =
n {Mk =Mk−1 } k=1
=
n
{Xk−1 (Ik ) =Xk−1 (Ik +Nk )} .
k=1
Also ist L2d ≥ Var[Mn ] = E[ M !n ] n = P[Xk−1 (Ik ) = Xk−1 (Ik + Nk )] k=1
≥ (2d)−1 L−d
n
P[Mk−1 ∈ {0, Ld }].
k=1
∞
Es folgt, dass k=1 P[Mk−1 ∈ {0, Ld }] ≤ 2dL3d < ∞, also ist nach dem Lemma 3 von Borel-Cantelli M∞ ∈ {0, Ld }. Beispiel 11.17 (Satz von Radon-Nikodym). Wir wollen mit Hilfe des Martingalkonvergenzsatzes einen alternativen Beweis des Satzes von Radon-Nikodym (Korollar 7.34) angeben. Sei (Ω, F , P) ein W-Raum und Q ein weiteres W-Maß auf (Ω, A). Wir nehmen zudem an, dass F abz¨ahlbar erzeugt ist, dass es also (h¨ochstens) abz¨ahlbar viele Mengen A1 , A2 , . . . ∈ F gibt, sodass F = σ({A1 , A2 , . . .}). Dies ist beispielsweise dann richtig, wenn F die Borel’sche σ-Algebra auf einem polnischen Raum ist. Speziell k¨onnen wir f¨ur den Fall Ω = Rd offene Kugeln mit rationalen Radien und rationalen Zentren nehmen. Wir bilden nun eine Filtration F = (Fn )n∈N , indem wir Fn := σ({A1 , . . . , An }) es eine endliche setzen. Offenbar ist #Fn < ∞ f¨ur jedes n ∈ N. Genauer gilt, dass C f¨ur jedes (eindeutig bestimmte) Teilmenge Zn ⊂ Fn \ {∅} gibt mit B = C∈Zn C⊂B
B ∈ Fn . Zn ist die Zerlegung von Fn in Atome“. Schließlich definieren wir einen ” stochastischen Prozess (Xn )n∈N durch
218
11 Martingalkonvergenzs¨atze und Anwendungen
Xn :=
C∈Zn : P[C]>0
Q(C) P[C]
C.
Offenbar ist X an F adaptiert. Sei B ∈ Fn und m ≥ n. F¨ur jedes C ∈ Zm gilt entweder C ∩ B = ∅ oder C ⊂ B. Also ist Q(C) P[C ∩B] = Q(C) = Q(B). (11.1) E[Xm B ] = P[C] C∈Zm : P[C]>0
C∈Zm : C⊂B
Insbesondere ist X also ein F-Martingal. Wir nehmen nun an, dass Q absolutstetig bez¨uglich P ist. Nach Beispiel 7.39 ist X dann gleichgradig integrierbar. Nach dem Martingalkonvergenzsatz konvergiert X fast sicher und in L1 gegen eine Zufallsvariable X∞ . Nach (11.1) ist E[X∞ B ] = Q(B) f¨ur jedes B ∈ n∈N Fn , also auch f¨ur jedes B ∈ F. Mithin ist X∞ die Radon-Nikodym-Dichte von Q bez¨uglich P. Man beachte, dass wir f¨ur diesen Beweis des Satzes von Radon-Nikodym nirgends die Existenz bedingter Erwartungen vorausgesetzt haben, also nicht in versteckter Weise auf den Satz selber zur¨uckgegriffen haben. Man k¨onnte einwenden, dass wir hier nur den Spezialfall von W-Maßen behandeln konnten. Dieser Mangel kann jedoch sehr leicht behoben werden: Sind μ und ν beliebige (jedoch von Null verschiedene) σ-endliche Maße, dann gibt es messbare 0 0 Funktionen g, h : Ω → (0, ∞) mit g dμ = 1 und h dν = 1. Wir setzen nun P = gμ und Q = hν. Offenbar gilt genau dann Q % P, wenn ν % μ. In diesem dν . Fall ist hg X∞ eine Version der Radon-Nikodym-Ableitung dμ Auf die Einschr¨ankung, dass F abz¨ahlbar erzeugt werden kann, kann man ebenfalls verzichten. Mit Hilfe der Approximationss¨atze f¨ur Maße kann man zeigen, dass es stets eine abz¨ahlbar erzeugte σ-Algebra G ⊂ F gibt, sodass f¨ur jedes A ∈ F ein B ∈ G existiert mit P[A B] = 0. Hiermit l¨asst sich der allgemeine Fall beweisen. Wir f¨uhren dies hier nicht aus, sondern verweisen auf [157, Kapitel 14.13]. 3 ¨ Ubung 11.2.1. Die Aussage von Satz 11.10 ist f¨ur p = 1 im Allgemeinen falsch. Man gebe ein Beispiel an f¨ur ein nichtnegatives Martingal X mit E[Xn ] = 1 f¨ur n→∞ jedes n ∈ N, aber Xn −→ 0 fast sicher. ♣ ¨ Ubung 11.2.2. Seien X1 , X2 , . . . unabh¨angige, quadratisch integrierbare Zufallsva∞ riablen mit n=1 n12 Var[Xn ] < ∞. Man zeige mit Hilfe des Martingalkonver♣ genzsatzes das starke Gesetz der großen Zahl f¨ur (Xn )n∈N . ¨ Ubung 11.2.3. Man gebe ein Beispiel an f¨ur ein quadratisch integrierbares Martin♣ gal, das fast sicher konvergiert, aber nicht in L2 . ¨ Ubung 11.2.4. Man zeige: In Satz 11.14 gilt im Allgemeinen nicht die Umkehrung. Das heißt, es gibt ein quadratintegrierbares Martingal X, das fast sicher konvergiert, ♣ f¨ur das aber nicht gilt, dass lim X!n < ∞ fast sicher. n→∞
11.3 Beispiel: Verzweigungsprozess
219
¨ Ubung 11.2.5. Man zeige: In Satz 11.14 gilt die Umkehrung unter der zus¨atzlichen Annahme, dass es ein K > 0 gibt mit |Xn − Xn−1 | ≤ K f.s. f¨ur jedes n ∈ N. ♣ ∗ ¨ Ubung 11.2.6. Sei (Fn )n∈N0 eine
Ereignisse. Setze A = ∞Filtration und (An )n∈N lim supn→∞ An und A∞ = n=1 P[An |Fn−1 ] = ∞ . Man zeige die bedingte ∗ ] = 0. Version des Borel-Cantelli Lemmas: P[A∞ A ∞ ¨ ♣ Hinweis: Wende Ubung 11.2.5 an auf Xn = n=1 ( An − P[An |Fn−1 ]).
¨ Ubung 11.2.7. Sei p ∈ [0, 1] und X = (Xn )n∈N0 ein stochastischer Prozess mit Werten in [0, 1]. F¨ur jedes n ∈ N0 gelte: Gegeben X0 , . . . , Xn ist 1 1 − p + pXn mit Wahrscheinlichkeit Xn , Xn+1 = pXn mit Wahrscheinlichkeit 1 − Xn . Man zeige, dass X ein Martingal ist und fast sicher konvergiert. Man bestimme die Verteilung des fast sicheren Grenzwerts limn→∞ Xn . ♣ ¨ Ubung 11.2.8. Sei f ∈ L1 (λ), wobei λ die Einschr¨ankung des Lebesgue-Maßes auf [0, 1] bezeichnet. Sei In,k = [k 2−n , (k + 1) 2−n ) f¨ur n ∈ N und k = 0, . . . , 2n − 1. Definiere fn : [0, 1] → R durch n f dλ, falls k so gew¨ahlt ist, dass x ∈ Ik,n . fn (x) = 2 Ik,n n→∞
Zeige: F¨ur λ-fast alle x ∈ [0, 1] gilt fn (x) −→ f (x).
♣
¨ Ubung 11.2.9. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum mit einer Filtration F = (Fn )n∈N . Sei F∞ := σ(Fn : n ∈ N), und sei M der Vektorraum der gleichgradig integrierbaren F-Martingale. Man zeige: die Abbildung Φ : L1 (F∞ ) → M, X∞ → ♣ (E[X∞ |Fn ])n∈N ist ein Vektorraumisomorphismus.
11.3 Beispiel: Verzweigungsprozess Sei p = (pk )k∈N0 ein Wahrscheinlichkeitsvektor auf N0 und (Zn )n∈N0 der GaltonWatson-Prozess mit einem Urahn und Nachkommenverteilung p (siehe Definition 3.9). Zur Erinnerung geben wir die Konstruktion von Z an. Seien (Xn,i )n∈N0 , i∈N u.i.v. Zufallsvariablen P[X1,1 = k] = pk f¨ur k ∈ N0 . Setze Z0 = 1 und induktiv Zn+1 =
Zn
Xn,i
f¨ur n ∈ N0 .
i=1
Wir interpretieren Zn als Gr¨oße einer Population zur Zeit n und Xn,i als Anzahl der Nachkommen des i-ten Individuums aus der n-ten Generation. Seien m := E[X1,1 ] < ∞ die erwartete Kinderanzahl pro Individuum und σ 2 := Var[X1,1 ] ∈ (0, ∞) die Varianz der Kinderzahl. Setze Fn := σ(Xk,i : k < n, i ∈ N). Dann ist Z an F adaptiert. Definiere Wn = m−n Zn .
220
11 Martingalkonvergenzs¨atze und Anwendungen
Lemma 11.18. W ist ein Martingal. Speziell ist E[Z n ] = mn f¨ur jedes n ∈ N. Beweis. Wir berechnen die bedingte Erwartung f¨ur n ∈ N0 : E[Wn+1 Fn ] = m−(n+1) E[Zn+1 Fn ] . -Z n −(n+1) =m E Xn,i Fn i=1
= m−(n+1)
∞
E
)
{Zn =k} k
* · Xn,i Fn
k=1
= m−n
∞
) E k·
{Zn =k}
* Fn
k=1
= m−n Zn = Wn .
2
Satz 11.19. Sei Var[X1,1 ] ∈ (0, ∞). Es existiert der fast sichere Limes W∞ = lim Wn , und es gilt
n→∞
m>1
⇐⇒
E[W∞ ] = 1
⇐⇒
E[W∞ ] > 0.
Beweis. W∞ existiert, weil W ≥ 0 ein Martingal ist. Ist m ≤ 1, so folgt, dass (Zn )n∈N f.s. gegen ein Z∞ konvergiert. Wegen σ 2 > 0 kommt nur Z∞ = 0 in Frage. Sei nun m > 1. Es gilt nach dem Satz von Blackwell-Girshick (Satz 5.10) wegen E[Zn−1 ] = mn−1 (Lemma 11.18)
Var[Wn ] = m−2n σ 2 E[Zn−1 ] + m2 Var[Zn−1 ] = σ 2 m−(n+1) + Var[Wn−1 ]. Induktiv folgt Var[Wn ] = σ 2
n+1 k=2
m−k ≤
σ2 m < ∞. Also ist W in L2 bem−1
schr¨ankt, und Satz 11.10 liefert, dass Wn → W∞ in L2 und damit auch in L1 . 2 Speziell ist E[W∞ ] = E[W0 ] = 1. Unter der Annahme der endlichen Varianz waren die Aussagen von Satz 11.19 nicht schwer zu zeigen. Es gilt aber eine viel st¨arkere Aussage, die wir hier nur zitieren (siehe [94], beziehungsweise [108] f¨ur einen modernen Beweis). Satz 11.20 (Kesten-Stigum (1966)). Sei m > 1. Dann sind a¨ quivalent (i) E[W∞ ] = 1, (ii) E[W∞ ] > 0, (iii) E[X1,1 log(X1,1 )+ ] < ∞.
¨ 12 Ruckw¨ artsmartingale und Austauschbarkeit
Bei vielen Datenerhebungen, etwa Telefonumfragen, ist die Reihenfolge, in der die Daten kommen, unerheblich. Mathematisch sprechen wir von austauschbaren Zufallsvariablen, wenn sich die gemeinsame Verteilung unter endlichen Vertauschungen nicht a¨ ndert. Der Struktursatz f¨ur austauschbare Zufallsvariablen von de Finetti besagt, dass sich eine unendlich große austauschbare Familie von Zufallsvariablen mit Werten im Raum E als Zweistufenexperiment beschreiben l¨asst: In der ersten Stufe wird eine zuf¨allige Wahrscheinlichkeitsverteilung Ξ auf E ausgew¨urfelt. In der zweiten Stufe werden die Zufallsvariablen u.i.v. mit Verteilung Ξ realisiert. Wir definieren zun¨achst den Begriff der Austauschbarkeit. Danach betrachten wir R¨uckw¨artsmartingale und zeigen den Konvergenzsatz f¨ur R¨uckw¨artsmartingale. Dieser ist der Eckstein f¨ur den Beweis des Satzes von de Finetti.
12.1 Austauschbare Familien von Zufallsvariablen Definition 12.1. Sei I eine beliebige Indexmenge und E ein polnischer Raum. Eine Familie (Xi )i∈I von Zufallsvariablen mit Werten in E heißt austauschbar, falls f¨ur jede endliche Permutation : I → I gilt, dass ' ) ( * L X(i) i∈I = L (Xi )i∈I . Als endliche Permutation bezeichnen wir dabei eine Bijektion : I → I, die alle bis auf endlich viele Koordinaten unver¨andert l¨asst. Bemerkung 12.2. Offenbar sind a¨ quivalent: (i) (Xi )i∈I ist austauschbar. (ii) F¨ur n ∈ N und paarweise unterschiedliche i1 , . . . , in ∈ I sowie paarweise unterschiedliche j1 , . . . , jn ∈ I gilt L[(Xi1 , . . . , Xin )] = L[(Xj1 , . . . , Xjn )]. Insbesondere sind austauschbare Zufallsvariablen stets identisch verteilt (dies ist (ii) mit n = 1). 3
222
12 R¨uckw¨artsmartingale und Austauschbarkeit
Beispiel 12.3. (i) Ist (Xi )i∈I u.i.v., so ist (Xi )i∈I austauschbar. (ii) In einer Urne seien N Kugeln, davon M schwarz. Wir ziehen sukzessive ohne Zur¨ucklegen alle Kugeln und setzen 1, falls die n-te Kugel schwarz ist, Xn := 0, sonst. Dann ist (Xn )n=1,...,N austauschbar. Dies folgt aus elementarer Kombinatorik, denn f¨ur jede Wahl von x1 , . . . , xN ∈ {0, 1} mit x1 + . . . + xN = M ist offenbar * ) 1 P X1 = x1 , . . . , XN = xN = N . M
Diese Formel k¨onnen wir aber auch formal durch eine kleine Rechnung mit bedingten Wahrscheinlichkeiten herleiten, die wir in a¨ hnlicher Form f¨ur das P´olya’sche Urnenmodell in Beispiel 12.29 noch einmal durchf¨uhren werden. Setze dazu sk = x1 + . . . + xk f¨ur k = 0, . . . , N und 1 M − sk , falls x = 1, gk (x) = N − M + sk − k, falls x = 0. Dann ist P[X1 = x1 ] = g0 (x1 )/N und P[Xk+1 = xk+1 |X1 = x1 , . . . , Xk = xk ] =
gk (xk+1 ) N −k
f¨ur k = 1, . . . , N − 1.
Ferner ist offenbar gk (0) = N − M − l, wobei l = #{i < k : xi = 0}. Es folgt P[X1 = x1 , . . . , XN = xN ] = P[X1 = x1 ]
N −1
P[Xk+1 = xk+1 |X1 = x1 , . . . , Xk = xk ]
k=1
=
N −1 1 1 gk (xk+1 ) = N! N! k=0
=
k: xk =1
gk (1)
gk (0)
k: xk =0
M −1 N −1 M ! (N − M )! 1 . (M − l) (N − M − l) = N! N! l=0
l=0
(iii) Sei Y eine Zufallsvariable mit Werten in [0, 1], und gegeben Y seien (Xi )i∈I unabh¨angig und BerY –verteilt. Das heißt, f¨ur jedes endliche J ⊂ I ist P[Xj = 1 f¨ur jedes j ∈ J Y ] = Y #J . Dann ist (Xi )i∈I austauschbar.
3
12.1 Austauschbare Familien von Zufallsvariablen
223
Sei X = (Xn )n∈N ein stochastischer Prozess mit Werten in einem polnischen Raum E. Sei S(n) die Menge der Permutationen : {1, . . . , n} → {1, . . . , n}. Wir fassen ebenfalls als Abbildung N → N auf durch (k) = k f¨ur k > n. F¨ur ∈ S(n) und x = (x1 , . . . , xn ) ∈ E n schreiben wir x = (x(1) , . . . , x(n) ). F¨ur x ∈ E N schreiben wir analog x = (x(1) , x(2) , . . .) ∈ E N . Ist E ein weiterer polnischer Raum, so definieren wir f¨ur messbare Abbildungen f : E n → E und F : E N → E die Abbildungen f und F durch f (x) = f (x ) und F (x) = F (x ). Ferner schreiben wir f (x) = f (x1 , . . . , xn ) auch, falls x ∈ E N . Definition 12.4. (i) Eine Abbildung f : E n → E heißt symmetrisch, falls f = f ist f¨ur jedes ∈ S(n). (ii) Eine Abbildung F : E N → E heißt n-symmetrisch, falls F = F f¨ur jedes ∈ S(n). F heißt symmetrisch, falls F n-symmetrisch ist f¨ur jedes n ∈ N. Beispiel 12.5. F¨ur x ∈ RN definieren wir das n-te arithmetische Mittel durch (i) n 1 an (x) = n i=1 xi . Offenbar ist an eine n-symmetrische Abbildung (aber nicht m-symmetrisch f¨ur ein m > n). Weiter definiert a ¯(x) := lim sup an (x) eine symn→∞
metrische Abbildung RN → R ∪ {−∞, +∞}. ∞ (ii) Die Abbildung s : RN → [0, ∞], x → i=1 |xi | ist symmetrisch. Anders als a ¯ h¨angt der Wert von s von jeder einzelnen Koordinate ab, falls er endlich ist. N (iii) n F¨ur x ∈ E definieren wir die n-te empirische Verteilung durch ξn (x) = 1 i=1 δxi . Offenbar ist ξn eine n-symmetrische Abbildung. n
(iv)
Sei k ∈ N und ϕ : E k → R eine Abbildung. Das n-te symmetrisierte Mittel 1 ϕ(x ) (12.1) An (ϕ) : E N → R, x → n! ∈S(n)
ist eine n-symmetrische Abbildung.
3
Definition 12.6. Sei X = (Xn )n∈N ein stochastischer Prozess mit Werten in E. F¨ur n ∈ N sei En := σ(F ◦ X : F : E N → R ist messbar und n-symmetrisch) die σ-Algebra der unter allen Permutation ∈ S(n) invarianten Ereignisse. Ferner sei E :=
∞
En = σ F ◦ X : F : E N → R ist messbar und symmetrisch
n=1
die σ-Algebra der austauschbaren Ereignisse f¨ur X, oder kurz die austauschbare σ-Algebra. Bemerkung 12.7. Ist A ∈ σ(Xn , n ∈ N) ein Ereignis, so gibt es ein messbares B ⊂ E N mit A = {X ∈ B}. Schreiben wir A = {X ∈ B} f¨ur ∈ S(n), so ist En = {A : A = A f¨ur alle ∈ S(n)}. Dies rechtfertigt den Namen austauschba” res Ereignis“. 3
224
12 R¨uckw¨artsmartingale und Austauschbarkeit
n Bemerkung 12.8. Schreiben wir Ξn (ω) := ξn (X(ω)) = n1 i=1 δXi (ω) f¨ur die ¨ 3 n-te empirische Verteilung, so ist nach Ubung 12.1.1 En = σ(Ξn ). Bemerkung 12.9. Bezeichnen wir mit T = n∈N σ(Xn+1 , Xn+2 , . . .) die terminale σ-Algebra, so ist T ⊂ E, wobei im Falle #E ≥ 2 strikte Inklusion gilt. In der Tat: Offenbar ist σ(Xn+1 , Xn+2 , . . .) ⊂ En f¨ur n ∈ N, also T ⊂ E. Sei nun #E ≥2. W¨ahle ein messbares B ⊂ E mit B = ∅ und B c = ∅. Die Zufallsvariable ∞ 3 S := n=1 B (Xn ) ist messbar bez¨uglich E, nicht aber bez¨uglich T . Satz 12.10. Sei X = (Xn )n∈N austauschbar. Ist ϕ : E k → R messbar und E[|ϕ(X)|] < ∞, dann gilt f¨ur jedes n ≥ k und jedes ∈ S(n)
Speziell ist
E[ϕ(X)|En ] = E[ϕ(X )|En ].
(12.2)
1 ϕ(X ). E[ϕ(X) En ] = An (ϕ) := n!
(12.3)
∈S(n)
Beweis. Sei A ∈ En und F = X(A) . Dann ist F ◦ X = A . Nach der Definition von En ist also F : E N → R messbar, n-symmetrisch und beschr¨ankt. Daher ist ) * ) * ) * E ϕ(X)F (X) = E ϕ(X )F (X ) = E ϕ(X )F (X) , wobei wir in der ersten Gleichung die Austauschbarkeit von X benutzt haben, in der zweiten hingegen die Symmetrie von F . Hieraus folgt (12.2). Nun ist aber An (ϕ) schon En -messbar, also ist ⎡ ⎤ * ) 1 1 E ϕ(X) En = E ⎣ ϕ(X )En ⎦ = ϕ(X ). 2 n! n! ∈S(n)
∈S(n)
Heuristik zur Struktur austauschbarer Familien Wir betrachten eine endliche, austauschbare Familie X1 , . . . , XN von E-wertigen Zufallsvariablen. Wie sieht f¨ur n ≤ N die bedingte Verteilung von (X1 , . . . , Xn ) gegeben ΞN aus? F¨ur jedes messbare A ⊂ E kommt {Xi ∈ A} f¨ur genau N ΞN (A) viele i ∈ {1, . . . , N } vor, wobei die Reihenfolge des Auftretens keinen Einfluss auf die Wahrscheinlichkeit hat. Wir sind also in der Situation des Ziehens von gef¨arbten Kugeln ohne Zur¨ucklegen. Genauer gesagt k¨onnen wir annehmen, dass die paarweise unterschiedlichen e1 , . . . , ek ∈ E die Atome von ΞN mit H¨aufigkeiten k N1 , . . . , Nk sind, dass also ΞN = i=1 = (Ni /N )δei gilt. Wir haben es also mit Kugeln in k Farben zu tun, wobei von der i-ten Farbe genau Ni Kugeln vorhanden sind. Wir ziehen n dieser Kugeln ohne Zur¨ucklegen, aber mit Beachtung der Reihenfolge. Bis auf die Beachtung der Reihenfolge ist die resultierende Verteilung also
12.1 Austauschbare Familien von Zufallsvariablen
225
die allgemeine hypergeometrische Verteilung (siehe etwa [58, Abschnitt 2.3.2]). Es k gilt also f¨ur paarweise disjunkte, messbare Mengen A1 , . . . , Ak mit l=1 Al = E, f¨ur i1 , . . . , in ∈ {1, . . . , k}, paarweise unterschiedliche j1 , . . . , jn ∈ {1, . . . , N } und mit der Festlegung ml := #{r ∈ {1, . . . , n} : ir = l} f¨ur l ∈ {1, . . . , k} * ) P Xjr ∈ Air f¨ur jedes r = 1, . . . , n ΞN =
k m 1 N ΞN (Al ) l , (12.4) (N )n l=1
wobei wir (n)l := n(n − 1) · · · (n − l + 1) definieren. Was passiert nun, wenn wir N → ∞ gehen lassen? Wir nehmen hier der Einfachheit halber an, dass der Limes Ξ∞ (Al ) = limN →∞ ΞN (Al ) f¨ur jedes l = 1, . . . , k in einem geeigneten Sinne existiert. Dann wird aus (12.4) formal n * ) Ξ∞ (Al )ml . P Xjr ∈ Air f¨ur jedes r = 1, . . . , n Ξ∞ =
(12.5)
l=1
Aus dem Ziehen der Kugeln ohne Zur¨ucklegen wird nun also asymptotisch f¨ur große Kugelanzahl das Ziehen mit Zur¨ucklegen. Damit sind die Zufallsvariablen X1 , X2 , . . . unabh¨angig mit Verteilung Ξ∞ gegeben Ξ∞ . Einen formalen Beweis, der entlang der von dieser Heuristik vorgezeichneten Linie verl¨auft, bringen wir in Kapitel 13.4. Um diese Aussage, den so genannten Satz von de Finetti, in Abschnitt 12.3 rigoros zu formulieren und zu beweisen, brauchen wir noch etwas Begriffsbildung (etwa bedingte Unabh¨angigkeit). Als technisches Hilfsmittel verwenden wir in diesem Kapitel den Konvergenzsatz f¨ur R¨uckw¨artsmartingale, den wir in Abschnitt 12.2 formulieren. ¨ Ubung 12.1.1. Sei n ∈ N. Man zeige, dass sich jede symmetrische Funktion f :
n E n → R schreiben l¨asst als f (x) = g n1 i=1 δxi , wobei g (abh¨angig von f ) geeignet zu w¨ahlen ist. ♣ ¨ Ubung 12.1.2. Man leite (12.4) formal her.
♣
¨ Ubung 12.1.3. Seien X1 , . . . , Xn austauschbare quadratintegrierbare Zufallsvariablen. Man zeige 1 Var[X1 ]. Cov[X1 , X2 ] ≥ − (12.6) n−1 Man gebe f¨ur n ≥ 2 ein (nichttriviales) Beispiel f¨ur Gleichheit in (12.6) an. ♣ ¨ Ubung 12.1.4. Seien X1 , X2 , X3 . . . austauschbare, quadratintegrierbare Zufallsva♣ riablen. Man zeige, dass Cov[X1 , X2 ] ≥ 0 gilt. ¨ Ubung 12.1.5. Man zeige: F¨ur jedes n ∈ N \ {1} gibt es eine austauschbare Familie von Zufallsvariablen X1 , . . . , Xn , die nicht zu einer unendlichen, austauschbaren ♣ Familie X1 , X2 , . . . fortgesetzt werden kann.
226
12 R¨uckw¨artsmartingale und Austauschbarkeit
¨ 12.2 Ruckw¨ artsmartingale Die Begriffe der Filtration und des Martingals haben nirgends vorausgesetzt, dass die Zeitmenge I ⊂ [0, ∞) w¨are. Wir wollen jetzt den Fall I = −N0 betrachten. ¨ Definition 12.11 (Ruckw¨ artsmartingal). Sei F = (Fn )n∈−N0 eine Filtration und X = (Xn )n∈−N0 ein F-Martingal. Dann nennen wir X = (X−n )n∈N0 ein Ruckw¨ artsmartingal. ¨ Bemerkung 12.12. Ein R¨uckw¨artsmartingal ist stets gleichgradig integrierbar. Dies folgt aus Korollar 8.21 und der Tatsache, dass X−n = E[X0 F−n ] f¨ur jedes n ∈ 3 N0 . Beispiel 12.13. Seien X1 , X2 , . . . austauschbare, reelle Zufallsvariablen. F¨ur n ∈ N setze F−n = En und n 1 Y−n = Xi . n i=1 Die folgende Rechnung zeigt, dass (Y−n )n∈N ein F-R¨uckw¨artsmartingal ist: Adaptiertheit ist klar. Außerdem ist nach Satz 12.10 (mit k = n und ϕ(X1 , . . . , Xn ) = 1 n−1 (X1 + . . . + Xn−1 )) * ) 1 1 X(1) + . . . + X(n−1) = Y−n . E Y−n+1 F−n = n! n−1 ∈S(n)
Betrachten wir statt F die kleinere Filtration G = (Gn )n∈−N , die f¨ur n ∈ N durch G−n = σ(Y−n , Xn+1 , Xn+2 , . . .) = σ(Y−n , Y−n−1 , Y−n−2 , . . .) definiert wird, also die von Y erzeugte Filtration, so ist Y nat¨urlich auch bez¨uglich G ein R¨uckw¨artsmartingal (siehe Bemerkung 9.29). 3 a,b Seien a < b und n ∈ N. Sei U−n die Anzahl der Aufkreuzungen von X u¨ ber [a, b] a,b zwischen Zeit −n und 0, sowie U a,b = lim U−n . Nach der Aufkreuzungsunglein→∞ * ) ) a,b * ) * 1 chung (Lemma 11.3) ist E U−n ≤ b−a E (X0 − a)+ , also P U a,b < ∞ = 1. Wie im Beweis des Martingalkonvergenzsatzes (Satz 11.4) folgt:
¨ Ruckw¨ ¨ Satz 12.14 (Konvergenzsatz fur artsmartingale). Sei (Xn )n∈−N0 ein Martingal bez¨uglich F = (Fn )n∈−N0 . Dann existiert X−∞ = lim X−n fast n→∞ ∞ 1 sicher und in L . Es gilt X−∞ = E[X0 F−∞ ], wobei F−∞ = F−n . n=1
Beispiel 12.15. ∞Seien X1 , X2 , . . . austauschbare integrierbare Zufallsvariablen. Ferner sei T = n=1 σ(Xm , m ≥ n) die terminale σ-Algebra der X1 , X2 , . . . und E die austauschbare σ-Algebra. Dann gilt E[X1 T ] = E[X1 E] f.s. und
12.2 R¨uckw¨artsmartingale
1 n→∞ Xi −→ E[X1 E] n i=1
227
n
In der Tat: Setzen wir Y−n :=
1 n
n
f.s. und in L1 .
Xi , so ist (nach Beispiel 12.13) (Y−n )n∈N ein
i=1
R¨uckw¨artsmartingal bez¨uglich (Fn )n∈−N = (E−n )n∈−N , und daher gilt n→∞ Y−n −→ Y−∞ = E[X1 E] f.s. und in L1 . Nun ist nach Beispiel 2.36(ii) Y−∞ schon T -messbar, also (wegen T ⊂ E und der 3 Turmeigenschaft der bedingten Erwartung) Y−∞ = E[X1 T ]. Beispiel 12.16 (Starkes Gesetz der großen Zahl). Sind Z1 , Z2 , . . . reell und u.i.v. mit E[|Z1 |] < ∞, dann gilt 1 n→∞ Zi −→ E[Z1 ] fast sicher. n i=1 n
Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) ist die terminale σ-Algebra T n¨amlich trivial, also gilt E[Z1 T ] = E[Z1 ] fast sicher. In Korollar 12.19 werden wir sehen, dass im Falle unabh¨angiger Zufallsvariablen 3 auch E schon P-trivial ist, woraus E[Z1 E] = E[Z1 ] folgt. Wir schließen diesen Abschnitt, indem wir Beispiel 12.15 auf Mittelwerte von Funktionen von k ∈ N Variablen verallgemeinern. Diese Schlussfolgerung aus dem Konvergenzsatz f¨ur R¨uckw¨artsmartingale wird im folgenden Abschnitt in essenzieller Weise ben¨otigt. Satz 12.17. Sei X = (Xn )n∈N eine austauschbare Familie von Zufallsvariablen mit . . . , Xk )|] < ∞. Werten in E, sei k ∈ N und ϕ : E k → R messbar mit E[|ϕ(X1 , 1 Wir schreiben ϕ(X) = ϕ(X1 , . . . , Xk ) und setzen An (ϕ) := n! ∈S(n) ϕ(X ). Dann gilt E[ϕ(X) E] = E[ϕ(X) T ] = lim An (ϕ) f.s. und in L1 . (12.7) n→∞
Beweis. Nach Satz 12.10 ist An (ϕ) = E[ϕ(X) En ]. Also ist (A−n (ϕ))n≥k ein R¨uckw¨artsmartingal bez¨uglich (E−n )n∈−N . Nach Satz 12.14 ist also * ) n→∞ An (ϕ) −→ E ϕ(X) E
f.s. und in L1 .
(12.8)
Wir k¨onnen wie f¨ur das arithmetische Mittel (Beispiel 12.16) argumentieren, dass limn→∞ An (ϕ) schon T -messbar ist. In der Tat ist
228
12 R¨uckw¨artsmartingale und Austauschbarkeit
# ∈ S(n) : −1 (i) ≤ l f¨ur ein i ∈ {1, . . . , k} =0 lim sup n! n→∞
f¨ur jedes l ∈ N.
Der Wert von An (ϕ) h¨angt f¨ur große n also in zu vernachl¨assigender Weise von den ersten l Koordinaten ab. Zusammen mit (12.8) folgt (12.7). 2 Korollar 12.18. Sei X = (Xn )n∈N austauschbar. Dann gibt es f¨ur jedes A ∈ E ein B ∈ T mit P[A B] = 0. Man beachte, dass T ⊂ E ist, dass also die Aussage trivialerweise gilt, wenn wir die Rollen von E und T vertauschen. Beweis. Wegen E ⊂ σ(X1 , X2 , . . .) existiert nach dem Approximationssatz f¨ur Maße eine Folge von messbaren Mengen (Ak )k∈N mit Ak ∈ σ(X1 , . . . , Xk ) und k→∞
P[A Ak ] −→ 0. Sei Ck ∈ E k messbar mit Ak = {(X1 , . . . , Xk ) ∈ Ck } f¨ur jedes k ∈ N. Mit ϕk := Ck folgt aus Satz 12.17 ( ' A = E[ A |E] = E lim ϕk (X) E = lim E[ϕk (X)|E] k→∞
= lim E[ϕk (X)|T ] =: ψ k→∞
k→∞
fast sicher.
Es gibt also eine T -messbare Funktion ψ mit ψ = annehmen, dass ψ = B f¨ur ein B ∈ T .
A
fast sicher. Wir k¨onnen nun 2
Als weitere Anwendung erhalten wir das 0-1 Gesetz von Hewitt und Savage [71]. Korollar 12.19 (0-1 Gesetz von Hewitt-Savage). Seien X1 , X2 , . . . u.i.v. Zufallsvariablen. Dann ist die austauschbare σ-Algebra P-trivial, also P[A] ∈ {0, 1} f¨ur jedes A ∈ E. Beweis. Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) ist T trivial. Die Aussage folgt also ohne weiteres aus Korollar 12.18. 2
12.3 Satz von de Finetti Wir zeigen in diesem Abschnitt den Struktursatz f¨ur (abz¨ahlbar) unendliche, austauschbare Familien, den wir heuristisch schon am Ende von Abschnitt 12.1 motiviert hatten. Es soll also gezeigt werden, dass eine unendliche, austauschbare Familie von Zufallsvariablen eine unabh¨angige, identisch verteilte Familie ist gegeben die austauschbare σ-Algebra E. Ferner berechnen wir die bedingte Verteilung der einzelnen Zufallsvariablen. Als ersten Schritt geben wir eine Definition der bedingten Unabh¨angigkeit an.
12.3 Satz von de Finetti
229
Definition 12.20 (Bedingte Unabh¨angigkeit). Seien (Ω, F , P) ein W-Raum, A ⊂ F eine Teil-σ-Algebra sowie (Ai )i∈I eine beliebige Familie von Teil-σ-Algebren von F . Die Familie (Ai )i∈I heißt unabh¨angig gegeben A, falls f¨ur jedes endliche J ⊂ I und jede Wahl von Aj ∈ Aj f¨ur j ∈ J gilt ' ( ) * fast sicher. (12.9) Aj A = P Aj A P j∈J
j∈J
Eine Familie (Xi )i∈I von Zufallsvariablen auf (Ω, F , P) heißt unabh¨angig (und identisch verteilt) gegeben A, falls die erzeugten σ-Algebren (σ(Xi ))i∈I unabh¨angig gegeben A sind (und die bedingten Verteilungen P[Xi ∈ · |A] alle gleich sind). Beispiel 12.21. Jede beliebige Familie (Ai )i∈I von σ-Algebren von F ist unabh¨angig gegeben F . In der Tat ist in diesem Fall n¨amlich (mit A = j∈J Aj ) P[A|F] =
A
=
Aj j∈J
=
) * P Aj F
fast sicher.
3
j∈J
Beispiel 12.22. Ist (Ai )i∈I eine unabh¨angige Familie von σ-Algebren, und ist A 3 trivial, dann ist (Ai )i∈I unabh¨angig gegeben A. Beispiel 12.23. Es gibt keine Monotonie“ bei der bedingten Unabh¨angigkeit in fol” gendem Sinne: Sind F1 , F2 und F3 σ-Algebren mit F1 ⊂ F2 ⊂ F3 , und ist (Ai )i∈I unabh¨angig sowohl gegeben F1 wie auch gegeben F3 , so folgt noch nicht die Unabh¨angigkeit gegeben F2 . Um dies zu illustrieren, nehmen wir an, dass X und Y nichttriviale, unabh¨angige, reelle Zufallsvariablen sind. Wir w¨ahlen F1 = {∅, Ω}, F2 = σ(X + Y ) und F3 = σ(X, Y ). Dann sind σ(X) und σ(Y ) unabh¨angig gegeben F1 und gegeben F3 , nicht 3 jedoch gegeben F2 . Sei X = (Xn )n∈N ein stochastischer Prozess auf einem Wahrscheinlichkeitsraum (Ω, F , P) mit Werten in einem polnischen Raum E. Sei E die austauschbare σAlgebra und T die terminale σ-Algebra. Satz 12.24 (de Finetti). Die Familie X = (Xn )n∈N ist genau dann austauschbar, wenn es eine σ-Algebra A ⊂ F gibt, sodass (Xn )n∈N u.i.v. gegeben A ist. In diesem Fall kann A = E oder A = T gew¨ahlt werden. Beweis. =⇒ “ Sei X austauschbar, und sei A = E oder A = T . F¨ur jedes ” n ∈ N sei fn : E → R eine messbare und beschr¨ankte Abbildung. Setze ϕk (x1 , . . . , xk ) =
k i=1
fi (xi )
f¨ur jedes k ∈ N.
230
12 R¨uckw¨artsmartingale und Austauschbarkeit
Dann ist (wobei An (ϕ) das symmetrisierte Mittel aus Satz 12.17 ist) An (ϕk−1 )An (fk ) =
n 1 1 ϕk−1 (X ) fk (Xi ) n! n i=1 ∈S(n)
=
1 ϕk (X ) + Rn,k = An (ϕk ) + Rn,k , n! ∈S(n)
wobei n = = = = Rn,k ≤ 2 =ϕk−1 = · =fk = · 1 1 ∞ ∞ n! n i=1
{i∈{(1),...,(k−1)}}
∈S(n)
= = = = k − 1 n→∞ = 2 =ϕk−1 =∞ · =fk =∞ · −→ 0. n Es folgt zusammen mit Satz 12.17 * ) n→∞ An (ϕk−1 ) An (fk ) −→ E ϕk (X1 , . . . , Xk ) A f.s. und in L1 . Andererseits gilt nach Satz 12.17 * ) n→∞ An (ϕk−1 ) −→ E ϕk−1 (X1 , . . . , Xk−1 ) A und
* ) n→∞ An (fk ) −→ E fk (X1 ) A ,
also * * ) * ) ) E ϕk (X1 , . . . , Xk ) A = E ϕk−1 (X1 , . . . , Xk−1 ) A E fk (X1 ) A -
und induktiv E
k
i=1
. k * ) fi (Xi ) A = E fi (X1 ) A . i=1
Mithin ist X u.i.v. gegeben A. ⇐= “ Sei nun X u.i.v. gegeben A f¨ur eine geeignete σ-Algebra A ⊂ F . F¨ur ” n jede beschr¨ Funktion ϕ : E → R und f¨ur jedes ∈ S(n) ist dann ankte, messbare E[ϕ(X) A] = E[ϕ(X ) A], also * * ) ) E[ϕ(X)] = E E[ϕ(X) A] = E E[ϕ(X ) A] = E[ϕ(X )]. Mithin ist X austauschbar.
2
Mit M1 (E) bezeichnen wir die Menge der W-Maße auf E, ausgestattet mit der Topologie der schwachen Konvergenz (siehe Definition 13.12 und Bemerkung 13.14),
12.3 Satz von de Finetti
231
das heißt: Eine Folge (μn )n∈N in M1 (E) konvergiert genau dann schwach gegen 0 n→∞ 0 ein μ ∈ M1 (E), wenn f dμn −→ f dμ f¨ur jede stetige und beschr¨ankte Funktion f : E → R. Wir werden die schwache Konvergenz in Kapitel 13 genauer untersuchen. An dieser Stelle wollen wir die Topologie lediglich verwenden, um M1 (E) zu einem Messraum zu machen, n¨amlich mit der Borel’schen σ-Algebra B(M1 (E)). Wir k¨onnen jetzt Zufallsvariablen mit Werten in M1 (E) betrachten, so genannte zuf¨allige Maße (vergleiche Kapitel 24.1). F¨ur x ∈ E N sei n 1 ξn (x) = n i=1 δxi ∈ M1 (E). 1 δX heißt empirische n i=1 i n
Definition 12.25. Das zuf¨allige Maß Ξn := ξn (X) := Verteilung von X1 , . . . , Xn .
Wir betrachten die selben Voraussetzung wie in Satz 12.24. Satz 12.26 (de Finetti Darstellungssatz). Die Familie X = (Xn )n∈N ist genau dann austauschbar, wenn es eine σ-Algebra A ⊂ F gibt und eine A-messbare Zufallsvariable Ξ∞ : Ω → M1 (E) mit der Eigenschaft: gegeben Ξ∞ ist (Xn )n∈N u.i.v. mit L[X1 |Ξ∞ ] = Ξ∞ . In diesem Fall kann A = E oder A = T gew¨ahlt werden. Beweis.
”
⇐= “
Dies ist klar wie im Beweis von Satz 12.24.
=⇒ “ Sei X austauschbar. Dann existiert nach Satz 12.24 eine σ-Algebra A ⊂ ” eine regul¨are F, sodass (Xn )n∈N u.i.v. gegeben A ist. Da E polnisch ist, existiert Version der bedingten Verteilung (siehe Satz 8.36) Ξ∞ := L[X1 A]. F¨ur messbare A1 , . . . , An ⊂ E ist P[Xi ∈ Ai |A] = Ξ∞ (Ai ) f¨ur jedes i = 1, . . . , n, also , + , + + , n n P {Xi ∈ Ai } Ξ∞ = E P {Xi ∈ Ai } A Ξ∞ i=1
i=1
+ , n n Ξ∞ (Ai ) Ξ∞ = Ξ∞ (Ai ). =E i=1
i=1
⊗N Mithin ist L[X |Ξ∞ ] = Ξ∞ .
2
Bemerkung 12.27. In dem beschriebenen Fall ist nach dem starken Gesetz der großen Zahl f¨ur jede stetige und beschr¨ankte Funktion f : E → R n→∞ f dΞ∞ fast sicher. f dΞn −→ Ist E zudem lokalkompakt (zum Beispiel E = Rd ), so kann man sogar zeigen, dass n→∞
Ξn −→ Ξ∞
fast sicher.
3
232
12 R¨uckw¨artsmartingale und Austauschbarkeit
Beispiel 12.28. Seien (Xn )n∈N austauschbar und Xn ∈ {0, 1}. Dann existiert eine Zufallsvariable Y : Ω → [0, 1], sodass f¨ur endliches J ⊂ N * ) P Xj = 1 f¨ur jedes j ∈ J Y = Y #J . Mit anderen Worten: Gegeben Y ist (Xn )n∈N unabh¨angig und BerY -verteilt. Vergleiche Beispiel 12.3(iii). 3 Beispiel 12.29. (P´olya’sches Urnenmodell) (Siehe Beispiel 14.38 und [127].) In einer Urne seien anfangs N Kugeln, davon M schwarz und N − M weiß. In jedem Schritt wird eine Kugel gezogen und zusammen mit einer weiteren Kugel der selben Farbe wieder zur¨uckgelegt. Sei 1, falls die n-te Kugel schwarz ist, Xn := 0, sonst, n und Sn = i=1 Xi . Dann ist * Sn−1 + M ) . P Xn = 1 X1 , X2 , . . . , Xn−1 = N +n−1 k Sukzessive erh¨alt man f¨ur x1 , . . . , xn ∈ {0, 1} und sk = i=1 xi ) * P Xi = xi f¨ur jedes i = 1, . . . , n M + si−1 N + i − 1 − M − si−1 = N +i−1 N +i−1 i≤n: xi =1
i≤n: xi =0
(N − 1)! (M + sn − 1)! N − M − 1 + (n − sn ) ! = · . (N − 1 + n)! (M − 1)! (N − M − 1)! Die rechte Seite h¨angt nur von sn und nicht von der Reihenfolge der x1 , . . . , xn ab. Also ist (Xn )n∈N austauschbar. Sei Z = lim n1 Sn . Dann ist (Xn )n∈N unabh¨angig n→∞ und identisch BerZ -verteilt gegeben Z. Also ist (siehe Beispiel 12.28) ** ) ) E [Z n ] = E P X1 = · · · = Xn = 1 Z = P [Sn = n] =
(N − 1)! (M + n − 1)! (M − 1)! (N + n − 1)!
f¨ur jedes n ∈ N.
¨ Nach Ubung 5.1.2 sind dies sind aber gerade die Momente der Beta-Verteilung βM,N −M auf [0, 1] mit Parametern (M, N − M ) (siehe Beispiel 1.107(ii)). Durch Angabe der Momente ist eine Verteilung auf [0, 1] eindeutig bestimmt (Satz 15.4). 3 Also gilt Z ∼ βM,N −M .
13 Konvergenz von Maßen
In der Wahrscheinlichkeitstheorie interessiert man sich f¨ur Verteilungen, die durch das Zusammenwirken vieler zuf¨alliger Einfl¨usse zustandekommen. Oftmals l¨asst sich eine brauchbare Idealisierung erreichen, indem man Grenzwerte solcher Verteilungen anschaut, zum Beispiel, wenn die Anzahl der Einfl¨usse nach Unendlich geht. Ein Beispiel ist die Konvergenz der Anzahl eingetretener Ereignisse bei vielen seltenen Ereignissen gegen die Poisson-Verteilung (siehe Satz 3.7). Vielfach sind aber auch Skalierungen der urspr¨unglichen Verteilung notwendig, um das wesentliche Fluktuationsverhalten zu erfassen, etwa im Zentralen Grenzwertsatz. W¨ahrend diese S¨atze mit reellen Zufallsvariablen auskommen, werden wir auch Grenzwerts¨atze kennen lernen, bei denen die Zufallsvariablen Werte in allgemeineren R¨aumen annehmen, beispielsweise im Raum aller stetigen Funktionen, wenn wir die zuf¨allige zeitliche Bewegung eines Teilchens modellieren. In diesem Kapitel wird der Begriff der schwachen Konvergenz von W-Maßen auf allgemeinen (meist polnischen) R¨aumen eingef¨uhrt und untersucht. Hierzu ist eine solide Kenntnis von mengentheoretischer Topologie notwendig. Wir beginnen da¨ her mit einem kurzen Uberblick u¨ ber die verwendeten topologischen Begriffe und S¨atze. Dieses Kapitel soll nur eine knappe Einf¨uhrung in die f¨ur die Wahrscheinlichkeitstheorie wichtigsten S¨atze liefern. Als ausf¨uhrlichere Darstellungen seien [17] und [83] empfohlen. Beim ersten Lesen mag der Leser dieses eher analytisch gepr¨agte Kapitel vielleicht u¨ berspringen. In diesem Fall gen¨ugt es f¨urs Erste, sich mit den Definitionen von schwacher Konvergenz und Straffheit (Definition 13.12 und 13.26) vertraut zu machen, sowie mit den Aussagen des Portemanteau Theorems (Satz 13.16) und des Satzes von Prohorov (Satz 13.29).
13.1 Wiederholung Topologie Wir geben kursorisch einige Definitionen und Aussagen der mengentheoretischen Topologie an. Zum Nachlesen eignen sich etwa [90] oder [133].
234
13 Konvergenz von Maßen
Im Folgenden sei stets (E, τ ) ein topologischer Raum mit der Borel’schen σAlgebra E = B(E) (vergleiche Definition 1.20 und 1.21). (E, τ ) heißt Hausdorffraum, falls zu je zwei Punkten x, y ∈ E mit x = y offene Mengen U, V existieren mit x ∈ U , y ∈ V und U ∩ V = ∅. Ist A ⊂ E, so bezeichnen wir mit A den Abschluss von A, mit A◦ das Innere und mit ∂A den Rand von A. Eine Menge A ⊂ E heißt dicht, falls A = E. (E, τ ) heißt metrisierbar, falls es eine Metrik d auf E gibt, sodass τ durch die offenen Kugeln Bε (x) := {y ∈ E : d(x, y) < ε} erzeugt wird. Eine Metrik d auf E heißt vollst¨andig, falls jede Cauchy-Folge bez¨uglich d einen Grenzwert in E besitzt. (E, τ ) heißt vollst¨andig metrisierbar, falls es eine vollst¨andige Metrik auf E gibt, die τ erzeugt. Ist (E, d) ein metrischer Raum und A, B ⊂ E, so schreiben wir d(A, B) = inf{d(x, y) : x ∈ A, y ∈ B}, sowie d(x, B) := d({x}, B) f¨ur x ∈ E. Ein metrisierbarer Raum (E, τ ) heißt separabel, falls es eine abz¨ahlbare, dichte Teilmenge von E gibt. Separabilit¨at in metrisierbaren R¨aumen ist a¨ quivalent dazu, dass es eine abz¨ ahlbare Basis der Topologie gibt, also eine abz¨ahlbare Menge U ⊂ τ mit A = U ∈U: U ⊂A U f¨ur jedes A ∈ τ . (Man w¨ahle etwa ε-Kugeln um die Punkte aus einer abz¨ahlbaren, dichten Teilmenge und lasse ε die positiven rationalen Zahlen durchlaufen.) Ein kompakter, metrischer Raum ist stets separabel (man ¨ w¨ahle einfach zu jedem n ∈ N eine endliche Uberdeckung Un ⊂ τ mit Kugeln vom Radius n1 und nehme dann U := n∈N Un ). ¨ Eine Menge A ⊂ E heißt kompakt, falls zu jeder offenen Uberdeckung U ⊂ τ von A (das heißt, A ⊂ U ∈U U ) eine endliche Teil¨uberdeckung existiert, also eine endliche Menge U ⊂ U mit A ⊂ U ∈U U . Kompakte Mengen sind stets abgeschlossen. Nach dem Satz von Heine-Borel ist eine Teilmenge von Rd genau dann dann kompakt, wenn sie beschr¨ankt und abgeschlossen ist. A ⊂ E heißt relativ kompakt, falls A kompakt ist. Hingegen heißt A folgenkompakt (beziehungsweise relativ folgenkompakt), falls jede Folge (xn )n∈N mit Werten in A eine Teilfolge (xnk )k∈N hat, die gegen einen Grenzwert x ∈ A (beziehungsweise x ∈ A) konvergiert. In metrisierbaren R¨aumen fallen die Begriffe kompakt und folgenkompakt zusammen. Eine Menge A ⊂ E heißt σ-kompakt, falls A abz¨ahlbare Vereinigung von kompakten Mengen ist. E heißt lokalkompakt, falls jeder Punkt x ∈ E eine offene Umgebung besitzt, deren Abschluss kompakt ist. Ein lokalkompakter, separabler, metrischer Raum ist offenbar stets σ-kompakt. Ist E lokalkompakt und metrisch und U ⊂ E offen, sowie K ⊂ U kompakt, so existiert eine kompakte Menge L mit K ⊂ L◦ ⊂ L ⊂ U . (Man bilde etwa zu jedem Punkt x ∈ K eine offene Kugel Bεx (x) vom Radius εx > 0, die ganz in U liegt und relativ kompakt ist. Indem man εx eventuell nochmal halbiert, kann man annehmen, dass sogar der Abschluss dieser Kugel in U liegt. Da K kompakt ist, gibt es endlich viele x1 , . . . , xn ∈ K n mit K ⊂ V := i=1 Bεxi (xi ). Nach Konstruktion ist L = V ⊂ U kompakt.) Einen in der Wahrscheinlichkeitstheorie wichtigen Typ von topologischen R¨aumen stellen wir in einer separaten Definition vor.
13.1 Wiederholung Topologie
235
Definition 13.1. Ein topologischer Raum (E, τ ) heißt polnischer Raum, falls er vollst¨andig metrisierbar und separabel ist. Polnische R¨aume sind beispielsweise abz¨ahlbare, diskrete R¨aume (nicht jedoch Q mit der u¨ blichen Topologie), die euklidischen R¨aume Rn , aber auch der Raum C([0, 1]) der stetigen Funktionen [0, 1] → R, ausgestattet mit der Supremumsnorm · ∞ . Praktisch sind alle R¨aume, die in der Wahrscheinlichkeitstheorie bedeutsam sind, polnische R¨aume. Sei (E, d) ein metrischer Raum. Eine Menge A ⊂ E heißt total beschr¨ankt, falls n Bε (xi ). es zu jedem ε > 0 endlich viele Punkte x1 , . . . , xn ∈ A gibt mit A ⊂ i=1
Kompakte Mengen sind offenbar total beschr¨ankt. In polnischen R¨aumen gilt sogar: Lemma 13.2. Sei (E, τ ) polnisch mit vollst¨andiger Metrik d. Eine Teilmenge A ⊂ E ist genau dann total beschr¨ankt bez¨uglich d, wenn A relativ kompakt ist. 2
¨ Beweis. Ubung!
Im Folgenden sei stets (E, τ ) ein topologischer Raum mit Borel’scher σ-Algebra E = B(E) := σ(τ ) und vollst¨andiger Metrik d. F¨ur Maße auf (E, E) f¨uhren wir die folgenden Regularit¨atsbegriffe ein. Definition 13.3. Ein σ-endliches Maß μ auf (E, E) heißt (i) lokal endlich oder Borel-Maß, falls es zu jedem Punkt x ∈ E eine offene Menge U x gibt mit μ(U ) < ∞, (ii) regul¨ar von innen, falls
μ(A) = sup μ(K) : K ⊂ A ist kompakt (iii) regul¨ar von außen, falls
μ(A) = inf μ(U ) : U ⊃ A ist offen
f¨ur jedes A ∈ E,
f¨ur jedes A ∈ E,
(iv) regul¨ar, falls μ von innen und von außen regul¨ar ist, (v) Radon-Maß, falls μ ein von innen regul¨ares Borel-Maß ist. Definition 13.4. Wir f¨uhren die folgenden Mengen von Maßen auf E ein.
M(E) := Radon-Maße auf (E, E) ,
Mf (E) := endliche Maße auf (E, E) ,
M1 (E) := μ ∈ Mf (E) : μ(E) = 1 ,
M≤1 (E) := μ ∈ Mf (E) : μ(E) ≤ 1 .
(13.1)
(13.2)
236
13 Konvergenz von Maßen
Die Elemente von M≤1 (E) nennen wir Sub-Wahrscheinlichkeitsmaße auf E. Ferner vereinbaren wir die folgende Notation f¨ur Mengen von stetigen Funktionen
C(E) := f : E → R ist stetig ,
Cb (E) := f ∈ C(E) ist beschr¨ankt ,
Cc (E) := f ∈ C(E) hat kompakten Tr¨ager ⊂ Cb (E). Der Tr¨ager einer reellen Funktion f ist dabei f −1 (R \ {0}). Ist nichts anderes vereinbart, so sind die Vektorr¨aume C(E), Cb (E) und Cc (E) mit der Supremumsnorm ausgestattet. Lemma 13.5. Ist E polnisch und μ ∈ Mf (E), so existiert zu jedem ε > 0 eine kompakte Menge K ⊂ E mit μ(E \ K) < ε. Beweis. Sei ε > 0. Zu jedem n ∈ N existieren xn1 , xn2 , . . . ∈ E mit E = N ∞ n ε B1/n (xni ). W¨ahle Nn ∈ N so, dass μ E \ B1/n (xni ) < n . Setze 2 i=1 i=1 A :=
∞ N n
B1/n (xni ) .
n=1 i=1
Nach Konstruktion ist A total beschr¨ankt. Da E polnisch ist, ist also A kompakt. ∞
Außerdem folgt μ E \ A ≤ μ E \ A < ε 2−n = ε. 2 n=1
Satz 13.6. Ist E polnisch und μ ∈ Mf (E), so ist μ regul¨ar. Speziell ist dann Mf (E) ⊂ M(E). Beweis. Sei B ∈ E und ε > 0. Nach dem Approximationssatz (Satz 1.65 mit A = τ ) gibt es eine offene Menge U ⊃ B mit μ(U \ B) < ε. Also ist μ regul¨ar von außen. Das selbe Argument mit B c statt B liefert die Existenz einer abgeschlossenen Menge D ⊂ B mit μ(B \ D) < ε/2. Nach Lemma 13.5 existiert ein Kompaktum K mit μ(K c ) < ε/2. Setze C = D ∩ K. Dann ist C ⊂ B kompakt und μ(B \ C) < ε. Also ist μ auch regul¨ar von innen. 2 Korollar 13.7. Das Lebesgue-Maß λ auf Rd ist ein regul¨ares Radon-Maß. Jedoch ist nicht jedes σ-endliche Maß auf Rd regul¨ar. Beweis. Offenbar ist Rd polnisch und λ lokal endlich. Sei A ∈ B(Rd ) und ε > 0. Es existiert eine aufsteigende Folge (Kn )n∈N von kompakten Mengen mit Kn ↑ Rd .
13.1 Wiederholung Topologie
237
Da jedes Kn beschr¨ankt ist, ist λ(Kn ) < ∞. Es existiert also nach dem vorangehenn den Satz zu jedem n ∈ N eine offene Menge Un ⊃ A ∩ Kn mit λ(Un \ A) < ε/2 . F¨ur die offene Menge U := n∈N Un gilt daher λ(U \ A) < ε. Ist λ(A) < ∞, so existiert ein n ∈ N mit λ(A \ Kn ) < ε/2. Nach dem vorangehenden Satz existiert eine kompakte Menge C ⊂ A ∩ Kn mit λ((A ∩ Kn ) \ C) < ε/2. Es folgt λ(A \ C) < ε. Ist andererseits λ(A) = ∞, so m¨ussen wir zu jedem L > 0 ein Kompaktum C ⊂ A n→∞ finden mit λ(C) > L. Nun gilt aber λ(A ∩ Kn ) −→ ∞, also existiert ein n ∈ N mit λ(A ∩ Kn ) > L + 1. Nach dem schon Gezeigten existiert ein Kompaktum C ⊂ A ∩ Kn mit λ((A ∩ Kn ) \ C) < 1, also λ(C) > L. Schließlich sei das Maß μ = q∈Q δq betrachtet. Dieses Maß ist offenbar σendlich, jedoch nicht lokal endlich und auch nicht regul¨ar von außen. 2 Definition 13.8. Seien (E, dE ) und (F, dF ) metrische R¨aume. Eine Funktion f : E → F heißt Lipschitz-stetig, falls es eine Zahl K < ∞ gibt, die so genannte Lipschitz-Konstante, mit dF (f (x), f (y)) ≤ K · dE (x, y) f¨ur alle x, y ∈ E. Mit LipK (E; F ) bezeichnen wir den Raum der Lipschitz-stetigen Funktionen zur Konstanten K, und mit Lip(E; F ) = K>0 LipK (E; F ) den Raum der Lipschitzstetigen Funktionen auf E. Wir schreiben kurz LipK (E) := LipK (E; R) und Lip(E) := Lip(E; R). Definition 13.9. Sei F ⊂ M(E) eine Familie von Radon-Maßen. Eine Familie C messbarer Abbildungen E → R heißt trennende Familie f¨ur F, falls f¨ur je zwei Maße μ, ν ∈ F gilt: 1 1 =⇒ μ = ν. f dμ = f dν f¨ur jedes f ∈ C ∩ L (μ) ∩ L (ν) Lemma 13.10. Sei (E, d) ein metrischer Raum. Zu jeder abgeschlossenen Menge A ⊂ E und jedem ε > 0 gibt es eine Lipschitz-stetige Abbildung ρA,ε : E → [0, 1] mit 1, falls x ∈ A, ρA,ε (x) = 0, falls d(x, A) ≥ ε. Beweis. → [0, 1], t → (t ∨ 0) ∧ 1. F¨ur x ∈ E setze ρA,ε (x) =
Sei ϕ : R 2 1 − ϕ ε−1 d(x, A) . Satz 13.11. Sei (E, d) ein metrischer Raum. (i) Lip1 (E; [0, 1]) ist trennend f¨ur M(E). (ii) Ist E zudem lokalkompakt, so ist Cc (E) ∩ Lip1 (E; [0, 1]) trennend f¨ur M(E).
238
13 Konvergenz von Maßen
0 0 Beweis. (i) Seien μ1 , μ2 ∈ M(E) mit f dμ1 = f dμ2 f¨ur jedes f ∈ Lip1 (E; [0, 1]). Ist A ∈ E, so ist μi (A) = sup{μi (K) : K ⊂ A ist kompakt}, da das Radon-Maß μi von innen regul¨ar ist (i = 1, 2). Es reicht also zu zeigen, dass μ1 (K) = μ2 (K) f¨ur jede kompakte Menge K. Sei nun K ⊂ E kompakt. Da μ1 und μ2 lokal endlich sind, existiert zu jedem x ∈ K eine offene Menge Ux x mit μ1 (Ux ) < ∞ und μ2 (Ux ) < ∞. Da K kompakt ist, k¨onnen wir endlich viele Punkte x1 , . . . , xn ∈ K finden, sodass n K ⊂ U := j=1 Uxj . Nach Konstruktion ist μi (U ) < ∞, also U ∈ L1 (μi ) f¨ur i = 1, 2. Da U c abgeschlossen ist, und U c ∩ K = ∅, ist δ := d(U c , K) > 0. F¨ur die Abbildung ρK,ε aus Lemma 13.10 ist also K ≤ ρK,ε ≤ U ∈ L1 (μi ), falls ε→0 ε ∈ (0, δ). Wegen ρK,ε −→ K 0folgt aus dem Satz u¨ ber majorisierte Konvergenz (Korollar 6.26) μi (K) = limε→0 ρK,ε dμi . Nun ist aber ερK,ε ∈ Lip1 (E; [0, 1]) f¨ur jedes ε > 0, also nach Voraussetzung ρK,ε dμ1 = ε−1 (ερK,ε ) dμ1 = ε−1 (ερK,ε ) dμ2 = ρK,ε dμ2 . Es folgt μ1 (K) = μ2 (K), also μ1 = μ2 . (ii) Ist E lokalkompakt, so k¨onnen wir in (i) die Umgebungen Ux zus¨atzlich relativ kompakt w¨ahlen. Es ist dann U relativ kompakt, also hat ρK,ε f¨ur ε ∈ (0, δ) einen 2 kompakten Tr¨ager, ist also in Cc (E). ¨ Ubung 13.1.1. besitzt.
(i) Man zeige, dass C([0, 1]) eine abz¨ahlbare, dichte Teilmenge
(ii) Man zeige, dass der Raum (Cb ([0, ∞)), · ∞ ) der stetigen, beschr¨ankten Funktionen mit der Supremumsnorm nicht separabel ist. (iii) Man zeige, dass der Raum Cc ([0, ∞)) der stetigen Funktionen mit kompaktem Tr¨ager, ausgestattet mit der Supremumsnorm, separabel ist. ♣ ¨ Ubung 13.1.2. Man zeige: Ist μ ein lokal endliches Maß, so ist μ(K) < ∞ f¨ur jede kompakte Menge K. ♣ ¨ Ubung 13.1.3 (Satz von Lusin). Sei Ω ein polnischer Raum, μ ein σ-endliches Maß auf (Ω, B(Ω)) und f : Ω → R eine Abbildung. Man zeige, dass die beiden folgenden Aussagen a¨ quivalent sind: (i) Es gibt eine Borel-messbare Abbildung g : Ω → R mit f = g μ-fast u¨ berall. (ii) Zu jedem ε > 0 gibt es eine kompakte Menge Kε mit μ(Ω \ Kε ) < ε, sodass ♣ die eingeschr¨ankte Funktion f stetig ist. Kε
13.1 Wiederholung Topologie
239
¨ Ubung 13.1.4. Sei U eine Familie offener Intervalle in R so, dass W := U ∈U U endliches Lebesgue-Maß λ(W ) hat. Man zeige: F¨ur jedes ε > 0 gibt es endlich viele, paarweise disjunkte Mengen U1 , . . . , Un ∈ U mit n
λ(Ui ) >
i=1
1−ε λ(W ). 3
Hinweis: Man w¨ahle eine endliche Familie U ⊂ U, sodass U ∈U U das Maß mindestens (1 − ε)λ(W ) hat. Hieraus w¨ahle man eine nach absteigender L¨ange sortierte maximale Folge U disjunkter Intervalle aus und zeige, dass jedes U ∈ U in (x − 3a, x + 3a) liegt f¨ur ein (x − a, x + a) ∈ U . ♣ ¨ Menge und Ubung 13.1.5. Sei C ⊂ Rd eine offene, beschr¨ankte und konvexe U ⊂ {x + rC : x ∈ Rd , r > 0} so gew¨ahlt, dass W := U ∈U U endliches Lebesgue-Maß λd (W ) hat. Man zeige: F¨ur jedes ε > 0 gibt es endlich viele, paarweise disjunkte Mengen U1 , . . . , Un ∈ U mit n
λd (Ui ) >
i=1
1−ε λ(W ). 3d
Man u¨ berlege sich ein Gegenbeispiel, das zeigt, dass man auf die Bedingung der ¨ Ahnlichkeit der offenen Mengen aus U nicht ohne Weiteres verzichten kann. ♣ ¨ Ubung 13.1.6. Sei μ ein Radon-Maß auf Rd und A ∈ B(Rd ) eine μ-Nullmenge. ¨ Man zeige mit Hilfe von Ubung 13.1.5, dass f¨ur jede beschr¨ankte, konvexe und d offene Menge C ⊂ R mit 0 ∈ C gilt: lim r↓0
μ(x + rC) =0 rd
f¨ur λd – fast alle x ∈ A.
Man folgere: Ist F die Verteilungsfunktion eines Stieltjes-Maßes μ auf R und A ∈ d F (x) = 0 f¨ur λ – fast alle x ∈ A. ♣ B(R) eine μ-Nullmenge, so gilt dx ¨ Ubung 13.1.7 (Hauptsatz der Differential- und Integralrechnung). Sei f ∈ L1 (Rd ), μ = f λd und C ⊂ Rd offen, konvex und beschr¨ankt mit 0 ∈ C. Man zeige: μ(x + rC) = f (x) f¨ur λd – fast alle x ∈ Rd . lim d d r↓0 r λ (C) Man folgere f¨ur den Fall d = 1 den Hauptsatz der Differential- und Integralrechnung: d f dλ = f (x) f¨ur λ – fast alle x ∈ R. dx [0,x] ¨ Hinweis: Verwende Ubung 13.1.6 mit μq (dx) = (f (x) − q)+ λd (dx) f¨ur q ∈ Q, sowie die Ungleichung μq (x + rC) μ(x + rC) ≤q+ d d . d d r λ (C) r λ (C)
♣
240
13 Konvergenz von Maßen
13.2 Schwache und vage Konvergenz Nachdem wir in Satz 13.11 gesehen haben, dass Integrale stetiger, beschr¨ankter Funktionen, beziehungsweise f¨ur lokalkompaktes E sogar stetiger Funktionen mit kompaktem Tr¨ager, ein Radon-Maß vollst¨andig bestimmen, liegt es nahe, Cb (E) und Cc (E) auch als Klassen von Testfunktionen f¨ur Konvergenzbegriffe f¨ur Maße heranzuziehen. Definition 13.12 (Schwache und vage Konvergenz). Sei E ein metrischer Raum. (i) Seien μ, μ1 , μ2 , . . . ∈ Mf (E). Wir sagen, dass (μn )n∈N schwach (weakly) n→∞ gegen μ konvergiere, in Formeln μn −→ μ schwach oder μ = w-lim μn , n→∞ falls n→∞
f dμn −→
f dμ
f¨ur jedes f ∈ Cb (E).
(ii) Es seien μ, μ1 , μ2 , . . . ∈ M(E). Wir sagen, dass (μn )n∈N vag (vaguely) gen→∞ gen μ konvergiert, in Formeln μn −→ μ vag oder μ = v-lim μn , falls n→∞
n→∞
f dμn −→
f dμ
f¨ur jedes f ∈ Cc (E).
Bemerkung 13.13. Ist E polnisch, so ist nach Satz 13.6 und 13.11 der schwache Limes eindeutig. Das Gleiche gilt f¨ur den vagen Limes, falls E lokalkompakt ist. 3 Bemerkung 13.14. (i) In der Funktionalanalysis wird die hier eingef¨uhrte schwache Konvergenz die Schwach∗ -Konvergenz genannt. (ii) Die schwache Konvergenz erzeugt auf Mf (E) die schwache Topologie τw (oder Schwach∗ -Topologie in der Funktionalanalysis). Dies ist die gr¨o0bste Topologie, sodass f¨ur jedes f ∈ Cb (E) die Abbildung Mf (E) → R, μ → f dμ stetig ist. Ist E separabel, so kann man zeigen, dass (Mf (E), τw ) metrisierbar ist, zum Beispiel mit der so genannten Prohorov-Metrik dP (μ, ν) := max{dP (μ, ν), dP (ν, μ)},
(13.3)
wobei dP (μ, ν) := inf{ε > 0 : μ(B) ≤ ν(B ε ) + ε f¨ur jedes B ∈ B(E)},
(13.4)
und wo B ε = {x : d(x, B) < ε} ist, siehe etwa [17, Appendix III, Theorem 5]. (Man kann zeigen, dass dP (μ, ν) = dP (ν, μ) ist, falls μ, ν ∈ M1 (E).) Ist E lokalkompakt und polnisch, so ist (Mf (E), τw ) sogar polnisch (siehe [128, Seite 167]). (iii) Analog ist die vage Topologie τv auf M(E) die gr¨o0bste Topologie, sodass f¨ur jedes f ∈ Cc (E) die Abbildung M(E) → R, μ → f dμ stetig ist. Ist E
13.2 Schwache und vage Konvergenz
241
lokalkompakt, so ist (M(E), τv ) ein Hausdorffraum. Ist E zudem polnisch, so ist 3 (M(E), τv ) ebenfalls polnisch (siehe etwa [83, Sektion 15.7]). W¨ahrend bei der schwachen Konvergenz stets auch Konvergenz der Gesamtmassen gilt (schließlich ist 1 ∈ Cb (E)), kann bei der vagen Konvergenz ein Massendefekt im Limes auftreten, jedoch kein Massenzuwachs, wie das folgende Lemma zeigt. Lemma 13.15. Sei E ein lokalkompakter, polnischer Raum, und seien μ, μ1 , μ2 , . . . n→∞ ∈ Mf (E) mit μn −→ μ vag. Dann gilt μ(E) ≤ lim sup μn (E). n→∞
Beweis. Sei (fN )N ∈N eine Folge in Cc (E; [0, 1]) mit fN ↑ 1. Dann gilt μ(E) = sup fN dμ = sup lim fN dμn N ∈N N ∈N n→∞ ≤ lim sup sup fN dμn = lim sup μn (E). n→∞ N ∈N
n→∞
3
Die Folge (δ1/n )n∈N von W-Maßen auf R konvergiert offenbar schwach gegen δ0 , nicht jedoch in der Totalvariationsnorm: F¨ur die abgeschlossene Menge (−∞, 0] gilt n¨amlich limn→∞ δ1/n ((−∞, 0]) = 0 < 1 = δ0 ((−∞, 0]). Etwas lax gesagt, kann in abgeschlossene Mengen im schwachen Limes Masse an der R¨andern einwandern (nicht jedoch auswandern). Die komplement¨are Aussage gilt f¨ur offene Mengen, denn limn→∞ δ1/n ((0, ∞)) = 1 > 0 = δ0 ((0, ∞)), hier kann also Masse auswandern, nicht jedoch einwandern. Tats¨achlich kann man die schwache Konvergenz u¨ ber diese Eigenschaft charakterisieren. Im folgenden Satz werden wir ein ganzes B¨undel solcher Aussagen auf einen Kleiderb¨ugel (franz¨osisch: porteman” teau) h¨angen“. F¨ur messbares g : Ω → R sei Ug die Menge der Unstetigkeitsstellen von g. Beachte, ¨ 1.1.3). dass Ug Borel-messbar ist (nach Ubung
242
13 Konvergenz von Maßen
Satz 13.16 (Portemanteau Theorem). Sei E ein metrischer Raum, und seien μ, μ1 , μ2 , . . . ∈ M≤1 (E). Dann sind a¨ quivalent: (i) μ = w-lim μn . n→∞ 0 n→∞ 0 (ii) f dμn −→ f dμ f¨ur alle beschr¨ankten, Lipschitz-stetigen f . 0 n→∞ 0 (iii) f dμn −→ f dμ f¨ur alle beschr¨ankten, messbaren f mit μ(Uf ) = 0. (iv) Es gilt lim inf μn (E) ≥ μ(E) und lim sup μn (F ) ≤ μ(F ) f¨ur alle abgen→∞
n→∞
schlossenen F ⊂ E.
(v) Es gilt lim sup μn (E) ≤ μ(E) und lim inf μn (G) ≥ μ(G) f¨ur alle offenen G ⊂ E.
n→∞
n→∞
(vi) lim μn (A) = μ(A) f¨ur alle messbaren A mit μ(∂A) = 0. n→∞
Ist E auch lokalkompakt und polnisch, so sind zudem jeweils a¨ quivalent (vii) μ = v-lim μn und μ(E) = lim μn (E). n→∞
n→∞
(viii) μ = v-lim μn und μ(E) ≥ lim μn (E). n→∞
n→∞
Beweis. (iv) ⇐⇒ (v) =⇒ (vi)“ Dies ist trivial. ” (iii) =⇒ (i) =⇒ (ii)“ Dies ist trivial. ” (ii) =⇒ (iv)“ Die Konvergenz der Gesamtmassen folgt mit der Testfunktion ” 1 ∈ Lip(E; [0, 1]). Sei F abgeschlossen und ρF,ε wie in Lemma 13.10. Dann ist ρF,ε dμn = inf ρF,ε dμ = μ(F ), lim sup μn (F ) ≤ inf lim ε>0 n→∞
n→∞
ε→0
weil ρF,ε (x) −→
F (x)
ε>0
f¨ur jedes x ∈ E.
(vii) =⇒ (viii)“ Dies ist klar nach Lemma 13.15. ” (i) =⇒ (vii)“ Wegen Cc (E) ⊂ Cb (E) und 1 ∈ Cb (E) ist dies klar. ” (vii) =⇒ (v)“ Sei G offen und ε > 0. Da μ von innen regul¨ar ist (Satz 13.6), ” gibt es ein Kompaktum K ⊂ G mit μ(G) − μ(K) < ε. Da E lokalkompakt ist, gibt es ein Kompaktum L mit K ⊂ L◦ ⊂ L ⊂ G. Sei δ := d(K, Lc ) > 0 und ρK,δ wie in Lemma 13.10. Dann ist K ≤ ρK,δ ≤ L , also ρK,δ ∈ Cc (E) und daher lim inf μn (G) ≥ lim inf ρK,δ dμn = ρK,δ dμ ≥ μ(K) ≥ μ(G) − ε. n→∞
n→∞
Indem wir ε → 0 gehen lassen, folgt die Aussage von (v).
13.2 Schwache und vage Konvergenz
243
(vi) =⇒ (iii)“ Sei f : E → R beschr¨ankt und messbar mit μ(Uf ) = 0. Wir ” machen die elementare Beobachtung, dass f¨ur jedes D ⊂ R gilt ∂f −1 (D) ⊂ f −1 (∂D) ∪ Uf .
(13.5)
In der Tat: Falls f in x ∈ E stetig ist, so existiert zu jedem δ > 0 ein ε(δ) > 0 mit f (Bε(δ) (x)) ⊂ Bδ (f (x)). Ist x ∈ ∂f −1 (D), so existieren y ∈ f −1 (D) ∩ Bε(δ) (x) und z ∈ f −1 (Dc ) ∩ Bε(δ) (x). Also ist f (y) ∈ Bδ (f (x)) ∩ D = ∅ und f (z) ∈ Bδ (f (x)) ∩ Dc = ∅, also f (x) ∈ ∂D.
Sei ε > 0. Offenbar ist die Menge A := y ∈ R : μ f −1 ({y}) > 0 der Atome des endlichen Maßes μ ◦ f −1 h¨ochstens abz¨ahlbar. Daher gibt es N ∈ N und y0 ≤ −f ∞ < y1 < . . . < yN −1 < f ∞ < yN so, dass yi ∈ R \ A und
|yi+1 − yi | < ε
f¨ur jedes i. N Sei Ei = f −1 ([yi−1 , yi )) f¨ur i = 1, . . . , N . Dann ist E = i=1 Ei und wegen Gleichung (13.5)
μ ∂Ei ≤ μ f −1 ({yi−1 }) + μ f −1 ({yi }) + μ Uf = 0. Daher gilt lim sup n→∞
f dμn ≤ lim sup n→∞
N
μn (Ei ) · yi =
i=1
N
μ(Ei ) · yi ≤ ε +
f dμ.
i=1
0 0 Wir lassen ε → 0 gehen und erhalten lim sup f dμn ≤ f dμ. Indem wir (−f ) n→∞ betrachten, folgt die andere Ungleichung lim inf f dμn ≥ f dμ. 2 n→∞
Definition 13.17. Seien X, X1 , X2 , . . . Zufallsvariablen mit Werten in E. Wir saD gen (Xn )n∈N konvergiert in Verteilung gegen X, in Formeln Xn −→ X oder n→∞ Xn =⇒ X, wenn die Verteilungen schwach konvergieren, also wenn PX = D n→∞ w-lim PXn . Manchmal schreiben wir auch Xn −→ PX oder Xn =⇒ PX , wenn n→∞ wir nur die Verteilung PX nicht aber die Zufallsvariable X spezifizieren wollen. Satz 13.18 (Satz von Slutzky). Seien X, X1 , X2 , . . . und Y1 , Y2 , . . . ZufallsvariabD n→∞ len mit Werten in E und Xn −→ X, sowie d(Xn , Yn ) −→ 0 stochastisch. Dann D gilt Yn −→ X. Beweis. Sei f : E → R beschr¨ankt und Lipschitz-stetig mit Konstante K. Dann ist f (x) − f (y) ≤ K d(x, y) ∧ 2 f ∞ f¨ur alle x, y ∈ E. * ) Majorisierte Konvergenz liefert lim sup E f (Xn ) − f (Yn ) = 0. Also gilt n→∞
244
13 Konvergenz von Maßen
lim supE[f (Yn )] − E[f (X)] n→∞ ≤ lim sup E[f (X)] − E[f (Xn )] + lim sup E[f (Xn ) − f (Yn )] = 0. 2 n→∞
n→∞
n→∞
D
Korollar 13.19. Gilt Xn −→ X stochastisch, so gilt auch Xn −→ X, n → ∞. Die Umkehrung ist im Allgemeinen falsch. Beispiel 13.20. Sind X, X1 , X2 , . . . u.i.v. (mit nicht-trivialer Verteilung), so gilt triD n→∞ 3 vialerweise Xn −→ X, jedoch nicht Xn −→ X stochastisch. Man erinnere sich an die Definition der Verteilungsfunktion eines Wahrscheinlichkeitsmaßes in Definition 1.59. Definition 13.21. Seien F, F1 , F2 , . . . Verteilungsfunktionen von W-Maßen auf R. n→∞ Wir sagen (Fn )n∈N konvergiere schwach gegen F , in Formeln Fn =⇒ F , D Fn −→ F oder F = w-lim Fn , wenn n→∞
F (x) = lim Fn (x) n→∞
f¨ur alle Stetigkeitspunkte x von F.
(13.6)
Sind F, F1 , F2 , . . . Verteilungsfunktionen von Sub-Wahrscheinlichkeitsmaßen, so setzen wir F (∞) := limx→∞ F (x) und fordern f¨ur die schwache Konvergenz zus¨atzlich F (∞) ≥ lim supn→∞ Fn (∞). Man beachte, dass aus (13.6) stets F (∞) ≤ lim inf n→∞ Fn (∞) folgt. Gilt nun D Fn −→ F , so ist also F (∞) = limn→∞ Fn (∞). Beispiel 13.22. Ist F die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes auf R und Fn (x) := F (x + n) f¨ur x ∈ R, so konvergiert (Fn )n∈N punktweise gegen 1. Dies ist jedoch keine Verteilungsfunktion, da diese f¨ur x → −∞ gegen Null konvergieren. Ist andererseits Gn (x) = F (x − n), so konvergiert (Gn )n∈N punktweise gegen G ≡ 0. Nun ist aber G(∞) = 0 < lim supn→∞ Gn (∞) = 1, also liegt auch in diesem Falle keine schwache Konvergenz vor. In der Tat: es tritt jeweils im Limes ein Massendefekt ein (bei den Fn nach links, bei den Gn nach rechts). Die Definition der schwachen Konvergenz von Verteilungsfunktionen ist aber so angelegt, dass kein Massendefekt im Limes eintreten darf. 3 Satz 13.23. Seien μ, μ1 , μ2 , . . . ∈ M≤1 (R) mit zugeh¨origen Verteilungsfunktionen F, F1 , F2 , . . . Dann sind a¨ quivalent (i) μ = w-lim μn , n→∞ D
(ii) Fn −→ F .
13.2 Schwache und vage Konvergenz
245
Beweis. (i) =⇒ (ii)“ Sei F in x stetig. Dann ist μ ∂(−∞, x] = μ({x}) = 0. ” n→∞ Nach Satz 13.16 gilt Fn (x) = μn ((−∞, x]) −→ μ((−∞, x]) = F (x). (ii) =⇒ (i)“ ”
Sei f ∈ Lip1 (R; [0, 1]). Nach Satz 13.16 reicht es zu zeigen, dass n→∞ f dμ. (13.7) f dμn −→
Sei ε > 0. W¨ahle N ∈ N und N + 1 Stetigkeitspunkte y0 < y1 < . . . < yN von F so, dass F (y0 ) < ε, F (yN ) > F (∞) − ε, und yi − yi−1 < ε f¨ur jedes i. Dann ist
N
f dμn ≤ Fn (y0 ) + Fn (∞) − Fn (yN ) + (f (yi ) + ε)(Fn (yi ) − Fn (yi−1 )). i=1 n→∞
Nach Voraussetzung gilt limn→∞ Fn (∞) = F (∞) und Fn (yi ) −→ F (yi ) f¨ur jedes i = 0, . . . , N , also N
f (yi ) F (yi ) − F (yi−1 ) ≤ 4ε + f dμ. lim sup f dμn ≤ 3ε + n→∞
i=1
Daher gilt
f dμn ≤
lim sup n→∞
f dμ.
Indem wir f durch (1 − f ) ersetzen, folgt (13.7).
2
Korollar 13.24. Seien X, X1 , X2 , . . . reelle Zufallsvariablen mit Verteilungsfunktionen F, F1 , F2 , . . . Dann sind a¨ quivalent: D
(i) Xn −→ X, n→∞
(ii) E[f (Xn )] −→ E[f (X)] f¨ur jedes f ∈ Cb (R), D
(iii) Fn −→ F . Wie verh¨alt sich die schwache Konvergenz, wenn wir zu Bildmaßen u¨ bergehen? Wir brauchen gewisse Stetigkeitseigenschaften, damit die schwache Konvergenz erhalten bleibt. Der folgende einfache Satz ist in den Anwendungen extrem n¨utzlich. Satz 13.25 (Continuous Mapping Theorem). Seien (E1 , d1 ) und (E2 , d2 ) metrische R¨aume und ϕ : E1 → E2 messbar sowie Uϕ die Menge der Unstetigkeitsstellen von ϕ. n→∞
(i) Sind μ, μ1 , μ2 , . . . ∈ M≤1 (E1 ) mit μ(Uϕ ) = 0 und μn −→ μ schwach, so n→∞ gilt μn ◦ ϕ−1 −→ μ ◦ ϕ−1 schwach. (ii) Sind X, X1 , X2 , . . . E1 -wertige Zufallsvariablen mit P[X ∈ Uϕ ] = 0 und D
D
Xn −→ X, so gilt ϕ(Xn ) −→ ϕ(X).
246
13 Konvergenz von Maßen
¨ Beweis. Nach Ubung 1.1.3 ist Uϕ ⊂ E1 Borel-messbar. Also sind die angegebenen Bedingungen sinnvoll. (i) Sei f ∈ Cb (E2 ). Dann ist f ◦ϕ beschr¨ankt und messbar, und es ist Uf ◦ϕ ⊂ Uϕ , also μ(Uf ◦ϕ ) = 0. Nach Satz 13.16 ist
−1 lim = lim f d μn ◦ ϕ (f ◦ ϕ) dμn n→∞
n→∞
(f ◦ ϕ) dμ =
=
f d μ ◦ ϕ−1 .
(ii) Dies ist klar, wegen Pϕ(X) = PX ◦ ϕ−1 .
2
¨ Ubung 13.2.1. Man zeige: F¨ur dP aus (13.4) und μ, ν ∈ M1 (E) gilt: dP (μ, ν) = ♣ dP (μ, ν) = dP (ν, μ). ¨ Ubung 13.2.2. Man zeige: Die Topologie der schwachen Konvergenz auf Mf (E) ist gr¨ober als die von der Totalvariation (siehe Korollar 7.45) erzeugte Topologie auf n→∞ n→∞ Mf (E). Das heißt, es gilt μn − μT V −→ 0, so gilt μn −→ μ schwach. ♣ ¨ Ubung 13.2.3. Sei E = R und μn =
1 n
n
k=0 δk/n
sowie μ = λ
das auf [0, 1]
[0,1]
eingeschr¨ankte Lebesgue-Maß. Man zeige, dass μ = w-lim μn . n→∞
♣
¨ Ubung 13.2.4. Sei E = R und λ das Lebesgue-Maß auf R. F¨ur n ∈ N sei μn = . Man zeige: λ = v-lim μn , jedoch ist (μ)n∈N nicht schwach konvergent. ♣ λ n→∞
[−n,n]
¨ Ubung 13.2.5. Sei E = R und μn = δn f¨ur n ∈ N. Man zeige: v-lim μn = 0, n→∞
jedoch ist (μn )n∈N nicht schwach konvergent.
♣
¨ Ubung 13.2.6 (L´evy-Abstand). F¨ur zwei Verteilungsfunktionen F und G von Wahrscheinlichkeitsmaßen auf R wird der L´evy-Abstand definiert als
d(F, G) = inf ε ≥ 0 : G(x − ε) − ε ≤ F (x) ≤ G(x + ε) + ε f¨ur alle x ∈ R . Zeige: (i) d ist eine Metrik auf der Menge der Verteilungsfunktionen. n→∞
n→∞
(ii) Es gilt Fn =⇒ F genau dann, wenn d(Fn , F ) −→ 0. (iii) Zu jedem P ∈ M1 (R) gibt es eine Folge (Pn )n∈N in M1 (R), sodass jedes Pn n→∞ endlichen Tr¨ager hat, und sodass Pn =⇒ P . ♣
13.2 Schwache und vage Konvergenz
247
¨ Ubung 13.2.7. Wir k¨onnen die Begriffe schwache Konvergenz und vage Konvergenz auf Ladungsverteilungen ausdehnen, also auf Differenzen ϕ := μ+ −μ− von Maßen aus Mf (E) beziehungsweise M(E), indem wir den Wortlaut von Definition 13.12 auf diese Klassen anwenden. Man zeige, dass man hier die schwache Konvergenz im Allgemeinen nicht metrisieren kann. Anleitung: Man betrachte E = [0, 1]. (i) F¨ur n ∈ N definiere ϕn = δ1/n − δ2/n . Zeige: F¨ur jedes C > 0 konvergiert (Cϕn )n∈N schwach gegen das Nullmaß. (ii) Man nehme an, dass es eine Metrik g¨abe, die die schwache Konvergenz erzeugt. Man zeige: Dann g¨abe es eine Folge (Cn )n∈N mit Cn ↑ ∞ und 0 = w-lim(Cn ϕn ). n→∞
−1/2
f¨ur jedes n ∈ N und (iii) W¨ahleein f ∈ C([0,1]) mit f (2−n ) = (−1)n Cn 0 f d(Cn ϕn ) zeige: konvergiert nicht gegen Null. n∈N
(iv) Man f¨uhre diese Konstruktion zum Widerspruch mit der Metrisierbarkeitsannahme. ♣ ¨ Ubung 13.2.8. Man zeige, dass durch (13.3) eine Metrik auf M1 (E) definiert wird, und dass diese die Topologie der schwachen Konvergenz erzeugt. ♣ ¨ Ubung 13.2.9. Man zeige die Implikation (vi) =⇒ (iv)“ aus Satz 13.16 direkt. ♣ ” ¨ Ubung 13.2.10. Seien X, X1 , X2 , . . . und Y1 , Y2 , . . . reelle Zufallsvariablen. Es D gelte PYn = N0,1/n f¨ur jedes n ∈ N. Man zeige: Es gilt genau dann Xn −→ X, D
wenn Xn + Yn −→ X.
♣
¨ Ubung 13.2.11. Betrachte die Maße μn := n1 (δ1/n + . . . + δ(n−1)/n + δ1 ) auf [0, 1]. ♣ Zeige, dass μn schwach gegen das Lebesgue-Maß auf [0, 1] konvergiert. ¨ Ubung 13.2.12. F¨ur jedes n ∈ N sei Xn eine geometrisch verteilte Zufallsvariable mit Parameter pn ∈ (0, 1). Wie muss die Folge (pn )n∈N gew¨ahlt sein, damit PXn /n schwach gegen die Exponentialverteilung mit Parameter α > 0 konvergiert? ♣ ¨ Ubung 13.2.13. Seien X, X1 , X2 , . . . reelle Zufallsvariablen mit Xn Zeige:
n→∞
=⇒
X.
(i) E[|X|] ≤ lim inf n→∞ E[|Xn |]. (ii) Ist p > 0 und supn∈N E[|Xn |r ] < ∞ f¨ur eine r > p, so gilt E[|X|p ] = ♣ limn→∞ E[|Xn |p ].
248
13 Konvergenz von Maßen
13.3 Der Satz von Prohorov Sei E stets ein polnischer Raum mit Borel’scher σ-Algebra E. Eine grundlegende Frage ist, wann eine Folge (μn )n∈N von Maßen auf (E, E) einen schwachen Grenzwert besitzt, oder wenigstens einen schwachen H¨aufungspunkt. Eine offensichtlich notwendige Bedingung ist, dass (μn (E))n∈N beschr¨ankt ist, deshalb werden wir ohne Beschr¨ankung der Allgemeinheit nur Folgen in M≤1 (E) betrachten. Dies ist allerdings nicht hinreichend, denn beispielsweise konvergiert die Folge (δn )n∈N von W-Maßen auf R nicht schwach. Wir m¨ussen also zus¨atzlich noch sicher stellen, dass keine Masse ins Unendliche auswandert“. Dies liefert gerade die Bedingung der ” Straffheit. Wir beginnen diesen Abschnitt, indem wir zun¨achst als Hauptsatz den Satz von Prohorov [128] vorstellen. Wir geben den Beweis erst in dem Spezialfall E = R an und kommen dann zu Anwendungen, bevor wir den Satz am Ende des Abschnitts in voller Allgemeinheit beweisen. Definition 13.26 (Straffheit). Eine Familie F ⊂ Mf (E) heißt straff, falls zu jedem ε > 0 eine kompakte Menge K ⊂ E existiert mit
sup μ(E \ K) : μ ∈ F < ε. Bemerkung 13.27. Ist E polnisch, so ist nach Lemma 13.5 jede einelementige Fa3 milie {μ} ⊂ Mf (E) straff und damit auch jede endliche Familie. Beispiele 13.28.
(i) Ist E kompakt, so sind M1 (E) und M≤1 (E) straff.
(ii) Ist (Xi )i∈I eine beliebige Familie von reellen Zufallsvariablen mit C := sup{|E[Xi ]| : i ∈ I} < ∞, so ist {PXi : i ∈ I} straff. In der Tat: F¨ur ε > 0 und K = [−C/ε, C/ε] ist nach der Markov’schen Ungleichung PXi (R \ K) = P[|Xi | > C/ε] ≤ ε. (iii) Die Familie (δn )n∈N von W-Maßen auf R ist nicht straff. (iv) Die Familie (U[−n,n] )n∈N von uniformen Verteilungen auf den Intervallen [−n, n] ist nicht straff. 3
13.3 Der Satz von Prohorov
249
Satz 13.29 (Satz von Prohorov (1956)). Sei (E, d) ein metrischer Raum und F ⊂ M≤1 (E). (i) Es gilt F ist straff
=⇒
F ist schwach relativ folgenkompakt.
(ii) Ist E zudem polnisch, so gilt auch die Umkehrung F ist straff
⇐=
F ist schwach relativ folgenkompakt.
Korollar 13.30. Sei E ein kompakter, metrischer Raum. Dann sind die Mengen M≤1 (E) und M1 (E) schwach folgenkompakt. Korollar 13.31. Ist E ein lokalkompakter, separabler, metrischer Raum, so ist M≤1 (E) vag folgenkompakt. Beweis. Seien x1 , x2 , . . . dicht in E. Da E lokalkompakt ist, existiert zu jedem n ∈ N eine offene Umgebung Un xn , deren Abschluss U n kompakt ist. Dann ist n r jede kompakte Menge aber auch En := k=1 U n kompakt f¨ur jedes n ∈ N. F¨u n ¨ K ⊂ E gibt es nun eine endliche Uberdeckung K ⊂ k=1 Uk ⊂ En , wobei n = n(K) von K abh¨angt. Nach Korollar 13.30 gibt es zu jedem n ∈ N ein μ ˜n ∈ M≤1 (Kn ) und eine Teilfolge ˜n = w-lim μkln . Mit Hilfe des Diagonalfolgenarguments k¨onnen (kln )l∈N mit μ l→∞ Kn ˜n+1 = wir annehmen, dass (kln+1 )l∈N eine Teilfolge von (kln )l∈N ist und damit μ Kn =μ ˜n f¨ur jedes μ ˜n f¨ur jedes n ∈ N. Es existiert also ein μ ∈ M≤1 (E) mit μ Kn
n ∈ N. F¨ur jedes f ∈ Cc (E) ist der Tr¨ager in einem Km enthalten, also gilt (wegen n→∞ μknn −→ μ schwach) Km
Km
n→∞
f dμknn −→
f dμ,
n→∞
und damit μknn −→ μ vag.
2
Bemerkung 13.32. Die Implikation in Satz 13.29(ii) ist die weitaus einfachere, wenn auch weniger n¨utzliche. Hier wird ben¨otigt, dass E polnisch ist, denn eine einelementige Familie ist offenbar immer schwach kompakt, jedoch nur unter Zusatzannahmen straff – beispielsweise eben, wenn E polnisch ist (Lemma 13.5). 3 Beweis (von Satz 13.29(ii)). Wir gehen zun¨achst a¨ hnlich vor wie im Beweis von N Lemma 13.5. Sei {x1 , x2 , . . .} ⊂ E dicht. F¨ur n ∈ N setze An,N := B1/n (xi ). Dann gilt An,N ↑ E f¨ur N → ∞ f¨ur jedes n ∈ N. Sei
i=1
250
13 Konvergenz von Maßen
δ := sup inf sup μ(Acn,N ). n∈N N ∈N μ∈F
Dann gibt es ein n ∈ N, sodass f¨ur jedes N ∈ N ein μN ∈ F existiert mit μN (Acn,N ) ≥ δ/2. Da F schwach relativ folgenkompakt ist, besitzt (μN )N ∈N eine schwach konvergente Teilfolge (μNk )k∈N mit einem schwachen Limes μ ∈ M≤1 (E). Nach dem Portemanteau Theorem (Satz 13.16(iv)) gilt f¨ur jedes N ∈ N μ(Acn,N ) ≥ lim inf μNk (Acn,N ) ≥ lim inf μNk (Acn,Nk ) ≥ δ/2. k→∞
k→∞
N →∞
Andererseits gilt Acn,N ↓ ∅ f¨ur N → ∞, also μ(Acn,N ) −→ 0. Mithin ist δ = 0. Sei nun ε > 0 beliebig. Nach dem eben Gezeigten k¨onnen wir zu jedem n ∈ N ein Nn ∈ N w¨ahlen, sodass μ(Acn,Nn ) < ε/2n f¨ur jedes μ ∈ F. Die Menge A := ∞ ist nach Konstruktion total beschr¨ ankt, also relativ kompakt. Ferner ist n=1 An,Nn f¨ur jedes μ ∈ F ∞
c c μ ( A ) ≤ μ(A ) ≤ μ(Acn,Nn ) ≤ ε. n=1
Also ist F straff.
2
Die andere Implikation im Satz von Prohorov ist schwieriger zu zeigen, vor allem im Fall allgemeiner (metrischer) R¨aume. Wir geben daher zun¨achst nur f¨ur E = R einen Beweis an und kommen dann zu Anwendungen, bevor wir die schwierigere Implikation im allgemeinen Fall beweisen. Das Problem besteht darin, sich einen Kandidaten f¨ur einen schwachen Limespunkt zu verschaffen. F¨ur Verteilungen auf R ist das Problem a¨ quivalent dazu, sich einen schwachen Limespunkt einer Folge von Verteilungsfunktionen zu verschaffen. Hier hilft uns der Helly’sche Auswahlsatz, der auf einem Diagonalfolgenargument beruht, das wir in a¨ hnlicher Form im Beweis des Satzes von Prohorov in allgemeiner Form wieder gebrauchen werden. Sei
V = F : R → R ist rechtsstetig, monoton wachsend und beschr¨ankt die Menge der Verteilungsfunktionen von endlichen Maßen auf R. Satz 13.33 (Auswahlsatz von Helly). Sei (Fn )n∈N eine gleichm¨aßig beschr¨ankte Folge in V . Dann existiert ein F ∈ V und eine Teilfolge (Fnk )k∈N mit k→∞
Fnk (x) −→ F (x) in allen Stetigkeitsstellen von F. Beweis. Wir benutzen ein Diagonalfolgenargument. Wir w¨ahlen eine Abz¨ahlung Q = {q1 , q2 , q3 , . . . } der rationalen Zahlen. Nach dem Satz von Bolzano-Weierstraß
13.3 Der Satz von Prohorov
251
besitzt (Fn (q1 ))n∈N eine konvergente Teilfolge Fn1k (q1 ) k∈N . Ebenso finden wir
eine Teilfolge (n2k )k∈N von (n1k )k∈N , sodass Fn2k (q2 ) k∈N konvergiert. Iterativ er halten wir Teilfolgen (n1k ) ⊃ (n2k ) ⊃ (n3k ) ⊃ . . ., sodass Fnlk (ql ) k∈N f¨ur jedes
l ∈ N konvergiert. Setze jetzt nk := nkk . Dann konvergiert Fnk (q) k∈N f¨ur jedes q ∈ Q. Setze F(q) = lim Fn (q) und k→∞
k
F (x) = inf F(q) : q ∈ Q mit q > x . Da F monoton wachsend ist, ist F rechtsstetig und monoton wachsend. Ist F stetig in x, so existieren zu ε > 0 Zahlen q − , q + ∈ Q, q − < x < q + mit F(q − ) ≥ F (x) − ε und F(q + ) ≤ F (x) + ε. Nach Konstruktion ist dann lim sup Fnk (x) ≤ lim Fnk (q + ) = F(q + ) ≤ F (x) + ε. k→∞
k→∞
Also ist lim sup Fnk (x) ≤ F (x) und analog mit q − auch lim inf Fnk (x) ≥ F (x).2 k→∞
k→∞
¨ den Fall E = R). Beweis (von Satz 13.29(i) fur Sei F straff und (μn )n∈N eine Folge in F mit Verteilungsfunktionen Fn : x → μ((−∞, x]). Nach dem Satz von Helly gibt es eine monotone, rechtsstetige Funkk→∞
tion F : R → [0, 1] und eine Teilfolge (Fnk )k∈N von (Fn )n∈N mit Fnk (x) −→ F (x) in allen Stetigkeitspunkten x von F . Nach Satz 13.23 reicht es zu zeigen, dass F (∞) ≥ lim supk→∞ Fnk (∞). Da F straff ist, existiert zu ε > 0 ein K < ∞ mit Fn (∞) − Fn (x) < ε f¨ur jedes n ∈ N und x > K. Ist x > K eine Stetigkeitsstelle von F , dann gilt 2 lim supk→∞ Fnk (∞) ≤ lim supk→∞ Fnk (x) + ε = F (x) + ε ≤ F (∞) + ε. Wir kommen zu einer ersten Anwendung des Satzes von Prohorov. Die ganze St¨arke des folgenden Satzes wird erst deutlich, wenn wir geeignete trennende Funktionenklassen zur Verf¨ugung haben. Diese werden wir in Kapitel 15 genauer untersuchen. Satz 13.34. Sei E polnisch, und seien μ, μ1 , μ2 , . . . ∈ M≤1 (E). Dann sind a¨ quivalent: (i) μ = w-lim μn . n→∞
(ii) (μn )n∈N ist straff, und es gibt eine trennende Familie C ⊂ Cb (E) mit f dμ = lim (13.8) f dμn f¨ur jedes f ∈ C. n→∞
Beweis. (i) =⇒ (ii)“ Nach der einfachen Implikation im Satz von Prohorov ” (Satz 13.29(ii)) folgt aus der schwachen Konvergenz die Straffheit.
252
13 Konvergenz von Maßen
(ii) =⇒ (i)“ Sei (μn )n∈N straff und C ⊂ Cb (E) trennend mit (13.8). Wir nehmen ” an, (μn )n∈N konvergiere nicht schwach gegen μ. Dann existieren ε > 0, f ∈ Cb (E) und (nk )k∈N mit nk ↑ ∞ und f dμn − f dμ > ε f¨ur alle k ∈ N. (13.9) k Nach dem Satz von Prohorov (Satz 13.29) existiert ein ν ∈ M≤1 (E) und eine Teilfolge (nk )k∈N von (nk )k∈N mit μnk → ν schwach. Wegen (13.9) ist 0 0 f dμ − f dν ≥ ε, also μ = ν. Andererseits ist h dμnk = h dν f¨ur jedes h ∈ C, h dμ = lim k→∞
also μ = ν. Damit ist die Annahme zum Widerspruch gef¨uhrt, und es gilt (i).
2
Wir wollen den Zusammenhang zwischen schwacher und vager Konvergenz n¨aher beleuchten. Satz 13.35. Sei E ein lokalkompakter, polnischer Raum, und seien μ, μ1 , μ2 , . . . ∈ Mf (E). Dann sind a¨ quivalent: (i) μ = w-lim μn , n→∞
(ii) μ = v-lim μn und μ(E) = lim μn (E), n→∞
n→∞
(iii) μ = v-lim μn und μ(E) ≥ lim sup μn (E), n→∞
n→∞
(iv) μ = v-lim μn und {μn , n ∈ N} ist straff. n→∞
Beweis. (i) ⇐⇒ (ii) ⇐⇒ (iii)“ Dies folgt aus dem Portemanteau Theorem. ” (ii) =⇒ (iv)“ Es reicht zu zeigen, dass f¨ur jedes ε > 0 ein Kompaktum K ⊂ E ” existiert mit lim supn→∞ μn (E \ K) ≤ ε. Da μ regul¨ar ist (Satz 13.6) existiert eine kompakte Menge L ⊂ E mit μ(E \ L) < ε. Da E lokalkompakt ist, existiert ein Kompaktum K ⊂ E mit K ◦ ⊃ L sowie ein ρL,K ∈ Cc (E) mit L ≤ ρL,K (x) ≤ K . Es folgt lim sup μn (E \ K) ≤ lim sup μn (E) − ρL,K dμn n→∞ n→∞ = μ(E) − ρL,K dμ ≤ μ(E \ L) < ε.
(iv) =⇒ (i)“ Sei L ⊂ E kompakt mit μn (E \ L) ≤ 1 f¨ur jedes n ∈ N. Sei ” ρ ∈ Cc (E) mit ρ ≥ L . Dann ist
13.3 Der Satz von Prohorov
253
sup μn (E) ≤ 1 + sup μn (L) ≤ 1 + sup n∈N
weil nach Voraussetzung
0
n∈N
ρ dμn < ∞,
n∈N
ρ dμn konvergiert. Es ist also auch
C := max(μ(E), sup{μn (E) : n ∈ N}) < ∞, und wir k¨onnen zu μ/C und μn /C u¨ bergehen und ohne Einschr¨ankung annehmen, dass alle Maße in M≤1 (E) liegen. Da Cc (E) trennend ist f¨ur M≤1 (E) (siehe Satz 13.11), folgt (i) aus Satz 13.34. 2 Beweis des Satzes von Prohorov, Teil (i), allgemeiner Fall. Es gibt prinzipiell zwei M¨oglichkeiten, den Satz im allgemeinen Fall zu beweisen. Die eine M¨oglichkeit besteht darin, den Satz zun¨achst f¨ur Maße auf Rd zu zeigen (das ha¨ ben wir f¨ur d = 1 bereits getan, siehe auch Ubung 13.3.4 f¨ur d ≥ 2). In einem zweiten Schritt wird die Aussage auf Folgenr¨aume RN angehoben. Schließlich wird im dritten Schritt eine Einbettung von E in RN konstruiert. Diesen Weg findet man beispielsweise in [14] oder [84]. Wir folgen hier der anderen Route, wie sie etwa in [15] (beziehungsweise [17]) oder [43] dargestellt wird. Der Hauptpunkt des Beweises besteht darin, einen Kandidaten f¨ur einen schwachen H¨aufungspunkt der Familie F zu finden. Wir werden diesen zun¨achst als Inhalt auf einem abz¨ahlbaren Mengensystem konstruieren und dann ein a¨ ußeres Maß daraus ableiten. Schließlich zeigen wir, dass die abgeschlossenen Mengen messbar bez¨uglich dieses a¨ ußeren Maßes sind. Die Argumentation verl¨auft also in Teilen recht a¨ hnlich wie beim Beweis des Satzes von Carath´eodory. Sei (E, d) ein metrischer Raum und F ⊂ M≤1 (E) straff. Dann existiert eine aufE, sodass steigende Folge K1 ⊂ K2 ⊂ K3 ⊂ . . . von kompakten Mengen in ∞ μ(Knc ) < n1 gilt f¨ur jedes μ ∈ F und jedes n ∈ N. Setze E := n=1 Kn . Dann ist E ein σ-kompakter, metrischer Raum, also insbesondere separabel. Da nach Konstruktion μ(E \ E ) = 0 f¨ur jedes μ ∈ F gilt, k¨onnen wir jedes μ als Maß auf E auffassen. Ohne Beschr¨ankung der Allgemeinheit k¨onnen wir also annehmen, dass E σ-kompakt und damit separabel ist. Es existiert also eine abz¨ahlbare Basis U der Topologie τ auf E, das heißt eine abz¨ahlbare Menge E E von offenen Mengen, sodass A = U ∈U, U ⊂A U f¨ur jedes offene A ⊂ E ist. Setze
C := U ∩ Kn : U ∈ U, n ∈ N und C :=
1 N
2 Cn : N ∈ N und C1 , . . . , CN ∈ C .
n=1
Offenbar ist C eine abz¨ahlbare Menge kompakter Mengen in E, und C ist vereini¨ mit Mengen aus U, also ist gungsstabil. Jedes Kn hat eine endliche Uberdeckung Kn ∈ C. Sei nun (μn )n∈N eine Folge in F. Mit Hilfe des Diagonalfolgenarguments (siehe Beweis des Auswahlsatzes von Helly, Satz 13.33) k¨onnen wir eine Teilfolge (μnk )k∈N finden, f¨ur die der Grenzwert
254
13 Konvergenz von Maßen
α(C) := lim μnk (C)
(13.10)
k→∞
f¨ur jedes C ∈ C existiert. Angenommen es gibt ein Maß μ auf der Borel’schen σ-Algebra E von E, sodass
μ(A) = sup α(C) : C ∈ C mit C ⊂ A f¨ur A ⊂ E offen. (13.11) Dann ist
μ(E) ≥ sup α(Kn ) = sup lim μnk (Kn ) n∈N k→∞
n∈N
1 ≥ sup lim sup μnk (E) − n n∈N k→∞
= lim sup μnk (E). k→∞
F¨ur offenes A und f¨ur C ∈ C mit C ⊂ A ist ferner α(C) = lim μnk (C) ≤ lim inf μnk (A), k→∞
k→∞
also μ(A) ≤ lim inf k→∞ μnk (A). Nach dem Portemanteau Theorem (Satz 13.16) ist μ = w-lim μnk , und damit ist F als schwach relativ folgenkompakt erkannt. Es k→∞
bleibt zu zeigen, dass es ein Maß μ auf (E, E) gibt, das (13.11) erf¨ullt. Die Mengenfunktion α auf C ist offenbar monoton, additiv und subadditiv: α(C1 ) ≤ α(C2 ), α(C1 ∪ C2 ) = α(C1 ) + α(C2 ), α(C1 ∪ C2 ) ≤ α(C1 ) + α(C2 ).
falls C1 ⊂ C2 , falls C1 ∩ C2 = ∅,
(13.12)
Wir definieren
β(A) := sup α(C) : C ∈ C mit C ⊂ A und
μ∗ (G) := inf β(A) : A ⊃ G ist offen
f¨ur A ⊂ E offen f¨ur G ∈ 2E .
Offenbar ist β(A) = μ∗ (A) f¨ur jedes offene A. Es reicht zu zeigen (Schritte 1-3 unten), dass μ∗ ein a¨ ußeres Maß ist (siehe Definition 1.46), und (4. Schritt) dass die σ-Algebra der μ∗ -messbaren Mengen (siehe Definition 1.48 und Lemma 1.52) die abgeschlossenen Mengen und damit ganz E enth¨alt. Nach Lemma 1.52 ist dann n¨amlich μ∗ ein Maß auf der σ-Algebra der μ∗ -messbaren Mengen, und die Ein schr¨ankung μ := μ∗ erf¨ullt μ(A) = μ∗ (A) = β(A) f¨ur alle offenen A, also gilt E Gleichung (13.11). Offenbar ist μ∗ (∅) = 0, und μ∗ ist monoton. Um zu zeigen, dass μ∗ ein a¨ ußeres Maß ist, m¨ussen wir nur noch die σ-Subadditivit¨at nachweisen.
13.3 Der Satz von Prohorov
255
1. Schritt (endliche Subadditivit¨at von β) Seien A1 , A2 ⊂ E offen und C ∈ C mit C ⊂ A1 ∪ A2 . Sei n ∈ N mit C ⊂ Kn . Wir definieren zwei Mengen
B1 := x ∈ C : d(x, Ac1 ) ≥ d(x, Ac2 ) ,
B2 := x ∈ C : d(x, Ac1 ) ≤ d(x, Ac2 ) .
A1 B1
B2
A2
C
Offenbar ist B1 ⊂ A1 und B2 ⊂ A2 . Da x → d(x, Aci ) stetig ist f¨ur i = 1, 2, sind B1 und B2 als abgeschlossene Teilmengen von C kompakt. Also ist d(B1 , Ac1 ) > 0. Es existiert also eine offene Menge D1 mit B1 ⊂ D1 ⊂ D1 ⊂ A1 . (Man w¨ahle etwa ¨ von B1 mit Kugeln vom Radius D1 als Vereinigung einer endlichen Uberdeckung c Abschl¨ ussen in A1 .) Sei UD1 := d(B1 , A1 )/2. Diese Kugeln liegen nebst ihren {U ∈ U : U ⊂ D1 }. Dann ist B1 ⊂ D1 = U ∈UD U . W¨ahle nun eine endliche 1 N Teil¨uberdeckung {U1 , . . . , UN } ⊂ UD1 von B1 und setze C1 := i=1 U i ∩ Kn . Dann ist B1 ⊂ C1 ⊂ A1 und C1 ∈ C. W¨ahle analog ein C2 ∈ C mit B2 ⊂ C2 ⊂ A2 . Es folgt α(C) ≤ α(C1 ∪ C2 ) ≤ α(C1 ) + α(C2 ) ≤ β(A1 ) + β(A2 ). Also gilt auch
β(A1 ∪ A2 ) = sup α(C) : C ∈ C mit C ⊂ A1 ∪ A2 ≤ β(A1 ) + β(A2 ).
2. Schritt (σ-Subadditivit¨at von β) Seien A1 , A2 , . . . offene Mengen nund C ∈ C ∞ mit C ⊂ i=1 Ai . Da C kompakt ist, existiert ein n ∈ N mit C ⊂ i=1 Ai . Die schon gezeigte endliche Subadditivit¨at von β impliziert n n ∞ α(C) ≤ α Ai = β Ai ≤ β(Ai ). i=1
i=1
i=1
Indem wir das Supremum u¨ ber solche C bilden, folgt 1 2 ∞ ∞ ∞ β Ai = sup α(C) : C ∈ C mit C ⊂ Ai ≤ β(Ai ). i=1
i=1
i=1
3. Schritt (σ-Subadditivit¨at von μ∗ ) Seien G1 , G2 , . . . ∈ 2E . Sei ε > 0. W¨ahle f¨ur jedes n ∈ N eine offene Menge An ⊃ Gn mit β(An ) < μ∗ (Gn ) + ε/2n . Dann gilt aufgrund der σ-Subadditivit¨at von β ∞ ∞ ∞ ∞ Gn ≤ β An ≤ β(An ) ≤ ε + μ∗ (Gn ). μ∗ n=1
n=1
n=1
n=1
256
13 Konvergenz von Maßen
Da ε > 0 beliebig war, folgt μ∗ a¨ ußeres Maß.
∞ n=1
∞ Gn ≤ n=1 μ∗ (Gn ). Mithin ist μ∗ ein
4. Schritt (Abgeschlossene Mengen sind in μ∗ -messbar) eine Menge B ⊂ E genau dann μ∗ -messbar, wenn μ∗ (B ∩ G) + μ∗ (B c ∩ G) ≤ μ∗ (G)
Nach Lemma 1.49 ist
f¨ur alle G ∈ 2E .
Indem wir das Infimum u¨ ber alle offenen Mengen A ⊃ G bilden, reicht es zu zeigen, dass f¨ur jedes abgeschlossene B und jedes offene A ⊂ E gilt, dass μ∗ (B ∩ A) + μ∗ (B c ∩ A) ≤ β(A).
(13.13)
Sei ε > 0. W¨ahle C1 ∈ C mit C1 ⊂ A ∩ B c und α(C1 ) > β(A ∩ B c ) − ε. W¨ahle ferner C2 ∈ C mit C2 ⊂ A ∩ C1c und α(C2 ) > β(A ∩ C1c ) − ε. Wegen C1 ∩ C2 = ∅ und C1 ∪ C2 ⊂ A folgt β(A) ≥ α(C1 ∪ C2 ) = α(C1 ) + α(C2 ) ≥ β(A ∩ B c ) + β(A ∩ C1c ) − 2ε ≥ μ∗ (A ∩ B c ) + μ∗ (A ∩ B) − 2ε. Indem wir ε → 0 gehen lassen, folgt (13.13). Damit ist der Beweis des Satzes von Prohorov vollst¨andig. 2 ¨ Ubung 13.3.1. Man zeige: Eine Familie F ⊂ Mf (R) ist genau dann straff, wenn es eine messbare Abbildung f : R → [0, ∞) gibt mit f (x) → ∞ f¨ur |x| → ∞ und 0 ♣ supμ∈F f dμ < ∞. ¨ Ubung 13.3.2. Sei L ⊂ R×(0, ∞) sowie F = {Nμ,σ2 : (μ, σ 2 ) ∈ L} eine Familie von Normalverteilungen mit Parametern in L. Man zeige: F ist genau dann straff, wenn L beschr¨ankt ist. ♣ 0 ¨ Ubung 13.3.3. Ist P ein W-Maß auf [0, ∞) mit mP := x P (dx) ∈ (0, ∞), so definieren wir die gr¨oßenverzerrte Verteilung P< auf [0, ∞) durch x P (dx). (13.14) P<(A) = m−1 P A
Sei nun (Xi )i∈I eine Familie von Zufallsvariablen auf [0, ∞) mit E[Xi ] = 1. Man
B zeige: P Xi i∈I ist genau dann straff, wenn (Xi )i∈I gleichgradig integrierbar ist.♣ ¨ Ubung 13.3.4. (Satz von Helly im Rd ) Seien x = (x1 , . . . , xd ) ∈ Rd und y = 1 (y , . . . , y d ) ∈ Rd . Wir schreiben x ≤ y, falls xi ≤ y i f¨ur jedes i = 1, . . . , d. Eine Abbildung F : Rd → R heißt monoton wachsend, falls F (x) ≤ F (y) f¨ur x ≤ y. F heißt rechtsstetig, falls f¨ur jedes x ∈ Rd und jede Folge (xn )n∈N in Rd mit x1 ≥ x2 ≥ x3 ≥ . . . und x = limn→∞ xn gilt, dass F (x) = limn→∞ F (xn ). Mit Vd bezeichnen wir die Menge der monoton wachsenden, rechtsstetigen, beschr¨ankten Funktionen auf Rd . (i) Man zeige, dass der Satz von Helly mit Vd statt V gilt. (ii) Man folgere die G¨ultigkeit des Satzes von Prohorov f¨ur E = Rd .
♣
13.4 Anwendung: Satz von de Finetti – anders angeschaut
257
13.4 Anwendung: Satz von de Finetti – anders angeschaut (Nach einer Idee von G¨otz Kersting.) Sei E ein polnischer Raum und X1 , X2 , . . . eine austauschbare Folge von Zufallsvariablen mit Werten in E. Wir wollen hier, alternativ zu dem R¨uckw¨artsmartingalargument aus Kapitel 12.3, einen Beweis f¨ur den Satz von de Finetti (Satz 12.26) angeben, der besagt, dass es ein zuf¨alliges W. unabh¨angig Maß Ξ auf E gibt, sodass, gegeben Ξ, die Zufallsvariablen X1 , X2 , . . n und Ξ-verteilt sind. F¨ur x = (x1 , x2 , . . .) ∈ E N seien ξn (x) := n1 l=1 δxl die empirische Verteilung von x1 , . . . , xn , μn,k (x) := ξn (x)⊗k = n−k
n
δ(xi1 ,...,xik )
i1 ,...,ik =1
die Verteilung auf E k des k-fachen unabh¨angigen Ziehens (mit Beachtung der Reihenfolge) aus (x1 , . . . , xn ) mit Zur¨ucklegen und νn,k (x) :=
(n − k)! n!
n i1 ,...,ik =1 #{i1 ,...,ik }=k
δ(xi1 ,...,xik )
die Verteilung auf E k des k-fachen unabh¨angigen Ziehens (mit Beachtung der Reihenfolge) aus (x1 , . . . , xn ) ohne Zur¨ucklegen. F¨ur jedes x ∈ E N gilt = = k(k − 1) =μn,k (x) − νn,k (x)= . ≤ Rn,k := TV n In der Tat ist die Wahrscheinlichkeit pn,k , beim k-maligen Ziehen (mit Zur¨ucklegen) aus n unterscheidbaren Kugeln keine zwei gleichen Kugeln zu ziehen, pn,k =
k−1
(1 − l/n)
l=1
und Rn,k ≥ 2(1 − pn,k ). Wir erhalten also die, intuitiv klare, Aussage, dass sich f¨ur n → ∞ die Verteilungen des k-maligen Ziehens mit und ohne Zur¨ucklegen ann¨ahern = = lim sup =μn,k (x) − νn,k (x)=T V = 0. n→∞ x∈E N
Seien nun f1 , . . . , fk ∈ Cb (E) und F (x1 , . . . , xk ) := f1 (x1 ) · · · fk (xk ). Dann gilt wegen der Austauschbarkeit der Folge X1 , X2 , . . . f¨ur jede Wahl von paarweise unterschiedlichen Zahlen 1 ≤ i1 , . . . , ik ≤ n E[F (X1 , . . . , Xk )] = E[F (Xi1 , . . . , Xik )]. Indem wir u¨ ber alle solchen Wahlen von i1 , . . . , ik mitteln, erhalten wir
258
13 Konvergenz von Maßen
' ) * ) * E f1 (X1 ) · · · fk (Xk ) = E F (X1 , . . . , Xk ) = E
( F dνn,k (X) .
Also ist ) ' ( * f1 dξn (X) · · · fk dξn (X) E f1 (X1 ) · · · fk (Xk ) − E ' ( ' ( = E F dνn,k (X) − E F dμn,k (X) n→∞
≤ F ∞ Rn,k −→ 0. Wir machen uns jetzt das folgende Kriterium f¨ur die Straffheit von Teilmengen von M1 (M1 (E)) zu Nutze. ¨ Ubung 13.4.1. Man zeige: Eine Teilmenge K ⊂ M1 (M1 (E)) ist genau dann straff, wenn f¨ur jedes ε > 0 eine kompakte Menge K ⊂ E existiert mit der Eigenschaft
μ μ ∈ M1 (E) : μ(K c ) > ε < ε f¨ur jedes μ ∈ K. ♣ Da E polnisch ist, ist PX1 straff. Zu ε > 0 existiert also ein Kompaktum K ⊂ E mit P[X1 ∈ K c ] < ε2 . Es folgt, dass P[ξn (X)(K c ) > ε] ≤ ε−1 E[ξn (X)(K c )] = ε−1 P[X1 ∈ K c ] ≤ ε. Also ist die Familie (Pξn (X) )n∈N straff. Sei Ξ∞ eine Zufallsvariable (mit Werten in M1 (E)), sodass PΞ∞ = w-lim Pξnl (X) f¨ur eine geeignete 0 0l→∞ 0 Teilfolge (nl )l∈N . Die Abbildung ξ → F dξ = f1 dξ · · · fk dξ ist beschr¨ankt und (als Produkt stetiger Abbildungen) stetig bez¨uglich der Topologie der schwachen Konvergenz auf M1 (E), also aus Cb (M1 (E)). Daher gilt ( ' ( ' ⊗k = lim E E f1 dξnl (X) · · · fk dξnl (X) F dΞ∞ l→∞ ) * = E f1 (X1 ) · · · fk (Xk ) . Nun h¨angt der Grenzwert aber nicht mehr von der gew¨ahlten Teilfolge ab und ist damit eindeutig. Es folgt, noch einmal komplett ausgeschrieben, dass ( ' ) * E f1 (X1 ) · · · fk (Xk ) = E f1 dΞ∞ · · · fk dΞ∞ . Durch diese Integrale ist aber die Verteilung von (X1 , . . . , Xk ) vollst¨andig bestimmt, und es folgt, dass P(X1 ,...,Xk ) = PΞ∞ ⊗k , oder als Zufallsvariablen ausD
gedr¨uckt: (X1 , . . . , Xk ) = (Y1 , . . . , Yk ), wo, gegeben Ξ∞ , die Zufallsvariablen Y1 , . . . , Yk unabh¨angig mit Verteilung Ξ∞ . ¨ Ubung 13.4.2. Man zeige: Eine Familie (Xn )n∈N von Zufallsvariablen ist genau dann austauschbar, wenn f¨ur jede Wahl von nat¨urlichen Zahlen mit 1 ≤ n1 < n2 < n3 . . . gilt D (X1 , X2 , . . .) = (Xn1 , Xn2 , . . .). Obacht: Die eine Richtung ist schwierig zu zeigen.
♣
14 W-Maße auf Produktr¨aumen
Als Motivation betrachten wir das folgende Beispiel. Sei X eine uniform auf [0, 1] verteilte Zufallsvariable. Sobald wir den Wert von X kennen, wollen wir n mal eine M¨unze werfen, die Erfolgswahrscheinlichkeit X hat. Die Ergebnisse seien Y1 , . . . , Yn . Wie konstruieren wir einen geeigneten Wahrscheinlichkeitsraum, auf dem alle Zufallsvariablen definiert sind? Eine M¨oglichkeit: Wir wissen schon, wie wir n + 1 unabh¨angige Zufallsvariablen Z0 , . . . , Zn konstruieren, die uniform auf [0, 1] verteilt sind (siehe etwa Korollar 2.23). Setze nun X = Z0 und 1 1, falls Zk < X, Yk = 0, falls Zk ≥ X. Intuitiv entspricht das unserer Vorstellung davon, dass die Y1 , . . . , Yn unabh¨angig sind, sobald wir den Wert von X kennen, und mit Wahrscheinlichkeit X einen Erfolg zeigen. In diesem Beispiel haben wir uns von Hand ein Zweistufenexperiment gebastelt: In der ersten Stufe haben wir den Wert von X festgelegt, in der zweiten Stufe wird, abh¨angig vom Wert von X, der Wert von Y = (Y1 , . . . , Yn ) bestimmt. Offenbar haben wir bei der Konstruktion Nutzen aus der speziellen Struktur des Problems gezogen. Wir suchen nun nach einem allgemeinen Rahmen, in dem sich mehrstufige Experimente beschreiben und allgemein konstruieren lassen. Anders als in Kapitel 2 brauchen die Zufallsvariablen nicht mehr unabh¨angig zu sein. Außerdem wollen wir systematisch auch unendlich große Familien von Zufallsvariablen mit gegebenen Verteilungen konstruieren. Im ersten Abschnitt beginnen wir mit Produkten von Messr¨aumen. Danach kommen ¨ wir zu endlichen Produkten von Maßr¨aumen, sowie Produktmaßen mit Ubergangskernen, um schließlich unendliche Produkte von Wahrscheinlichkeitsr¨aumen zu betrachten. Das Hauptergebnis ist der Erweiterungssatz von Kolmogorov.
260
14 W-Maße auf Produktr¨aumen
14.1 Produktr¨aume Definition 14.1 (Produktraum). Sei (Ωi , i ∈ I) eine beliebige Familie von MenΩi gen. Mit Ω = × Ωi bezeichnen wir die Menge der Abbildungen ω : I → i∈I
i∈I
mit der Eigenschaft, dass ω(i) ∈ Ωi f¨ur jedes i ∈ I gilt. Ω heißt das Produkt der (Ωi , i ∈ I), oder kurz Produktraum. Sind speziell alle Ωi gleich, etwa Ωi = Ω0 , so schreiben wir Ω = × Ωi = Ω0I . i∈I
Beispiele 14.2. (i) Ist Ω1 = {1, . . . , 6} und Ω2 = {1, 2, 3}, so ist
Ω1 × Ω2 = ω = (ω1 , ω2 ) : ω1 ∈ {1, . . . , 6}, ω2 ∈ {1, 2, 3} . (ii) Ist Ω0 = R und I = {1, 2, 3}, so ist R{1,2,3} isomorph zum u¨ blichen R3 . (iii) Ist Ω0 = R und I = N, so ist RN der Raum der Folgen (ω(n), n ∈ N) in R. (iv)
Ist I = R und Ω0 = R, so ist RR Menge der Abbildungen R → R.
3
Definition 14.3 (Koordinatenabbildung). Ist i ∈ I, so bezeichnet Xi : Ω → Ωi , ω → ω(i) die i-te Koordinatenabbildung. Allgemeiner nennen wir f¨ur J ⊂ J ⊂ I die eingeschr¨ankte Abbildung
XJJ :
× Ω −→ × Ω , j
j∈J
j
ω → ω
j∈J
(14.1) J
die kanonische Projektion. Speziell schreiben wir XJ := XJI . Definition 14.4 (Produkt-σ-Algebra). Seien (Ωi , Ai ), i ∈ I, Messr¨aume. Die Produkt-σ-Algebra Ai A= i∈I
ist die kleinste σ- Algebra auf Ω, sodass f¨ur jedes i ∈ I die Abbildung Xi messbar bez¨uglich A – Ai ist:
A = σ Xi , i ∈ I := σ Xi−1 (Ai ), i ∈ I . Ist (Ωi , Ai ) = (Ω0 , A0 ) f¨ur jedes i ∈ I, so schreiben wir auch A = A⊗I 0 . / Aj . F¨ur J ⊂ I schreiben wir ΩJ = × Ωj und AJ = j∈J
j∈J
Bemerkung 14.5. Die Begriffsbildung der Produkt-σ-Algebra ist analog zu der der Produkttopologie: Sind ((Ωi , τi ), i ∈ I) topologische R¨aume, so ist die Produkttopologie τ auf Ω = × Ωi die gr¨obste Topologie, bez¨uglich der alle Koordinateni∈I
abbildungen Xi : Ω −→ Ωi stetig sind.
3
14.1 Produktr¨aume
261
Definition 14.6. Sei I = ∅ eine beliebige Indexmenge, (E, E) ein Messraum, (Ω, A) = (E I , B(E)⊗I ) und Xt : Ω → E die Koordinatenabbildung f¨ur jedes t ∈ I. Dann nennen wir die Familie (Xt )t∈I den kanonischen Prozess auf (Ω, A). Lemma 14.7. Sei ∅ = J ⊂ I. Dann ist XJI messbar bez¨uglich AI – AJ . Beweis. F¨ur jedes j ∈ J ist Xj = XjJ ◦ XJI messbar bez¨uglich A – Aj . Nach Korollar 1.82 ist daher XJI messbar. 2 Satz 14.8. Sei I h¨ochstens abz¨ahlbar, und f¨ur jedes i ∈ I sei (Ωi , τi ) polnisch mit Borel’scher σ-Algebra Bi = σ(τi ). Es sei τ die Produkttopologie auf Ω = × Ωi i∈I
und B = σ(τ ). Dann ist (Ω, τ ) polnisch und B =
/
Bi . Speziell ist B(Rd ) = B(R)⊗d f¨ur d ∈ N.
i∈I
Beweis. Ohne Einschr¨ankung sei I = N. F¨ur i ∈ N sei di eine vollst¨andige Metrik, die τi erzeugt. Man pr¨uft leicht nach, dass dann
d(ω, ω ) :=
∞ i=1
2−i
di (ω(i), ω (i)) 1 + di (ω(i), ω (i))
(14.2)
eine vollst¨andige Metrik auf Ω ist, die τ erzeugt. F¨ur jedes i ∈ N sei nun Di ⊂ Ωi eine abz¨ahlbare, dichte Teilmenge und yi ∈ Di ein beliebiger fester Punkt. Die Menge D= x∈ Di : xi = yi nur endlich oft
× i∈N
ist, wie man leicht pr¨uft, eine abz¨ahlbare, dichte Teilmenge von Ω. Also ist Ω separabel und damit polnisch. Sei nun βi = {Bε (xi ) : xi ∈ Di , ε ∈ Q+ } f¨ur jedes i ∈ I eine abz¨ahlbare Basis der Topologie von Ωi aus ε-Kugeln. Setze N ∞ −1 β := Xi (Bi ) : B1 ∈ β1 , . . . , BN ∈ βN . N =1
i=1
Dann ist β eine abz¨ahlbare Basis der Topologie τ/ , also ist jede offene Menge /A ⊂ Ω B . Mithin ist τ ⊂ (abz¨ahlbare) Vereinigung von Mengen in β ⊂ i i∈N i∈N Bi / und damit B ⊂ i∈N Bi . Andererseits ist jedes Xi stetig, also messbar bez¨uglich B – Bi und damit B ⊃ / B . 2 i∈N i
262
14 W-Maße auf Produktr¨aumen
Definition 14.9 (Zylindermengen). F¨ur jedes i ∈ I sei Ei ⊂ Ai ein Teilsystem der messbaren Mengen. F¨ur jedes A ∈ AJ heißt XJ−1 (A) ⊂ Ω Zylindermenge mit Basis J. Die Menge dieser Zylindermengen wird mit ZJ bezeichnet. Ist speziell A = ×j∈J Aj f¨ur gewisse Aj ∈ Aj , so heißt XJ−1 (A) Rechteckzylinder mit Basis J. Die Menge dieser Rechteckzylinder wird mit ZJR bezeichnet, die Menge aller Rechteckzylinder, f¨ur die zus¨atzlich Aj ∈ Ej f¨ur jedes j ∈ J gilt, mit ZJE,R .
Wir schreiben Z=
ZJ ,
(14.3)
J⊂I endlich
und definieren analog Z R und Z E,R . Ferner definieren wir N ∞ R R Z∗ = An : A1 , . . . , An ∈ Z n=1
N =1
und analog Z∗E,R . R Bemerkung 14.10. / Jedes ZJ ist eine σ-Algebra, und Z und Z∗ sind Algebren. 3 Außerdem gilt i∈I Ai = σ(Z).
Lemma 14.11. Ist jedes Ei schnittstabil, beziehungsweise ein Semiring, so ist Z E,R schnittstabil, beziehungsweise ein Semiring. 2
¨ Beweis. Ubung! Satz 14.12. F¨ur jedes i ∈ I sei Ei ⊂ Ai ein Erzeuger von Ai . / Aj = σ × Ej : Ej ∈ Ej . (i) F¨ur jedes endliche J ⊂ I gilt (ii) Es gilt
/
j∈J
j∈J
Ai = σ(Z R ) = σ Z E,R .
i∈I
(iii) Sei μ ein σ-endliches Maß auf A, und sei jedes Ei zudem schnittstabil. Ferner gebe es eine Folge (En )n∈N in Z E,R mit En ↑ Ω und μ(En ) < ∞ f¨ur jedes n ∈ N (speziell ist diese Bedingung nat¨urlich erf¨ullt, wenn μ endlich ist und Ωi ∈ Ei f¨ur jedes i ∈ I). Dann ist μ durch Angabe von μ(A) f¨ur jedes A ∈ Z E,R eindeutig festgelegt.
× E : E ∈ E f¨ur jedes j ∈ J . Es ist × E = (X ) (E ) ∈ A ,
Beweis. (i) Sei AJ = σ
j
j
j
j∈J
J −1 j
j
j∈J
j∈J
j
J
¨ 14.2 Endliche Produkte und Ubergangskerne
263
also AJ ⊂ AJ . Umgekehrt gilt (XjJ )−1 (Ej ) ∈ AJ f¨ur j ∈ J und Ej ∈ Ej . Da Ei ein Erzeuger von Ai ist, ist (XjJ )−1 (Aj ) ∈ AJ f¨ur jedes Aj ∈ Aj , also gilt AJ ⊂ AJ . R E,R R ) ⊂ A. Nach (ii) Offenbar ist Z E,R ⊂ Z ⊂ A, also auch σ(Z ) ⊂ σ(Z E,R
E,R Satz 1.81 gilt σ Z{i} = σ(Xi ) f¨ur jedes i ∈ I, also σ(Xi ) ⊂ σ(Z ) und damit AI ⊂ σ(Z E,R ).
(iii) Nach (ii) und Lemma 14.11 ist Z E,R ein schnittstabiler Erzeuger von A. Die Aussage folgt daher aus Lemma 1.42. 2 ¨ Ubung 14.1.1. Man zeige: Ai = i∈I
ZJ .
(14.4)
J⊂I abz¨ahlbar
Hinweis: Man zeige, dass die rechte Seite eine σ-Algebra ist.
♣
¨ 14.2 Endliche Produkte und Ubergangskerne Wir betrachten jetzt die Situation endlich vieler σ-endlicher Maßr¨aume (Ωi , Ai , μi ), i = 1, . . . , n, wobei n ∈ N. Lemma 14.13. Sei A ∈ A1 ⊗ A2 und f : Ω1 × Ω2 → R eine A1 ⊗ A2 -messbare Abbildung. Dann gilt f¨ur jedes ω ˜ 1 ∈ Ω1 und ω ˜ 2 ∈ Ω2 Aω˜ 1 := {ω2 ∈ Ω2 : (˜ ω1 , ω2 ) ∈ A} ∈ A2 , Aω˜ 2 := {ω1 ∈ Ω1 : (ω1 , ω ˜ 2 ) ∈ A} ∈ A1 , fω˜ 1 : Ω2 → R,
ω2 → f (˜ ω1 , ω2 ) ist A2 –messbar,
fω˜ 2 : Ω1 → R,
ω1 → f (ω1 , ω ˜ 2 ) ist A1 –messbar.
ω1 , ω2 ). Beweis. F¨ur ω ˜ 1 definiere die Einbettung i : Ω2 → Ω1 ×Ω2 durch i(ω2 ) = (˜ ˜ 1 ist (also A1 -messbar), und X2 ◦ i = idΩ2 (also A2 Da X1 ◦ i konstant gleich ω messbar), ist nach Korollar 1.82 die Abbildung i messbar bez¨uglich A2 – (A1 ⊗A2 ). 2 Mithin ist Aω˜ 1 = i−1 (A) ∈ A2 und fω˜ 1 = f ◦ i messbar bez¨uglich A2 . Der folgende Satz verallgemeinert Satz 1.61.
264
14 W-Maße auf Produktr¨aumen
Satz 14.14/ (Endliche Produktmaße). Es existiert genau ein σ-endliches Maß μ n auf A := i=1 Ai mit μ(A1 × · · · × An ) =
n
μi (Ai )
f¨ur Ai ∈ Ai , i = 1, . . . , n.
(14.5)
i=1 n
μi := μ1 ⊗ · · · ⊗ μn := μ das Produktmaß der μi .
Wir nennen i=1
Sind alle R¨aume gleich (Ω0 , A0 , μ0 ), so schreiben wir μ⊗n 0 :=
n /
μ0 .
i=1
Beweis. Sei μ ˜ auf Z R wie μ in (14.5) festgesetzt. Offenbar ist μ ˜(∅) = 0, und man u¨ berlegt sich leicht, dass μ ˜ σ-endlich ist. Seien A1 , A2 , . . . ∈ Z R paarweise ∞ disjunkt und A ∈ Z R mit A ⊂ k=1 Ak . Dann ist nach dem Satz u¨ ber monotone Konvergenz μ ˜(A) = μ1 (dω1 ) · · · μn (dωn ) A ((ω1 , . . . , ωn )) ≤
μ1 (dω1 ) · · ·
μn (dωn )
∞ Ak k=1
((ω1 , . . . , ωn )) =
∞
μ ˜(Ak ).
k=1
1
˜(A) = μ ˜(A1 ) + μ ˜(A2 ). Mithin ist Ist speziell A = A A2 , so erh¨alt man analog μ μ ˜ eine σ-endliche, additive, σ-subadditive Mengenfunktion auf dem Semiring Z R mit μ ˜(∅) = 0. Nach dem Fortsetzungssatz (Satz 1.53) kann μ ˜ in eindeutiger Weise zu einem σ-endlichen Maß fortgesetzt werden. 2 ein Wahrscheinlichkeitsraum. Auf Beispiel 14.15. F¨ur i = 1, . . . , n sei (Ω /i ,nAi , Pi )/ n n dem Raum (Ω, A, P) := ×i=1 Ωi , i=1 Ai , i=1 Pi sind die Koordinatenabbildungen Xi : Ω → Ωi unabh¨angig mit Verteilung PXi = Pi . 3
¨ 14.2 Endliche Produkte und Ubergangskerne
265
Satz 14.16 (Fubini). Seien (Ωi , Ai , μi ) σ-endliche Maßr¨aume, i = 1, 2, sowie f : Ω1 × Ω2 → R messbar bez¨uglich A1 ⊗ A2 . Ist f ≥ 0 oder f ∈ L1 (μ1 ⊗ μ2 ), dann gelten ω1 → ω2 → und
f (ω1 , ω2 ) μ2 (dω2 ) ist A1 -messbar, (14.6) f (ω1 , ω2 ) μ1 (dω1 ) ist A2 -messbar,
f d(μ1 ⊗ μ2 ) = f (ω1 , ω2 ) μ2 (dω2 ) μ1 (dω1 ) Ω1 ×Ω2 Ω1 Ω2 = f (ω1 , ω2 ) μ1 (dω1 ) μ2 (dω2 ).
Ω2
(14.7)
Ω1
Beweis. Der Beweis folgt dem u¨ blichen Schema der schrittweisen Approximation ausgehend von einfachen Funktionen. Sei zun¨achst f = A f¨ur A = A1 × A2 mit A1 ∈ A1 und A2 ∈ A2 . Dann gelten (14.6) und (14.7) trivialerweise. Durch endliche Summenbildung gilt dies nun auch f¨ur A ∈ Z∗R (Algebra der endlichen Vereinigungen von Rechtecken). Sei nun A ∈ A1 ⊗ A2 . Nach dem Approximationssatz (Satz 1.65) gibt es eine Folge von Mengen (An )n∈N in Z∗R , die A dem Maße μ1 ⊗ μ2 nach approximieren. Da Limiten messbarer Funktionen wieder messbar sind, und nach Konstruktion die Integrale konvergieren, gelten (14.6) und (14.7) jetzt auch f¨ur f = A und A ∈ A1 ⊗ A2 . Durch endliche Summenbildung gelten nun (14.6) und (14.7) auch f¨ur den Fall, wo f eine Elementarfunktion ist. Wir betrachten jetzt f ≥ 0. Dann existiert nach Satz 1.96 eine Folge von Elementarfunktionen (fn )n∈N mit fn ↑ f . Nach dem Satz von der monotonen Konvergenz (Satz 4.20) gelten (14.6) und (14.7) nun auch f¨ur dieses f . Ist f ∈ L1 (μ1 ⊗μ2 ), dann ist f = f + −f − mit integrierbaren Funktionen f + , f − ≥ 0, f¨ur die (14.6) und (14.7) gelten, also auch f¨ur f . 2 In Definition 2.32 hatten wir die Faltung zweier W-Maße μ und ν als die Verteilung der Summe zweier unabh¨angiger, wie μ und ν verteilter Zufallsvariablen definiert. Als eine einfache Anwendung des Satzes von Fubini wollen wir eine neue Definition geben (die nat¨urlich mit der alten konsistent ist), die alle endlichen Maße auf dem Rn umfasst. Haben diese Maße zus¨atzlich Dichten bez¨uglich des Lebesgue-Maßes, so k¨onnen wir eine explizite Formel zur Berechnung der Faltung angeben. Seien also X und Y Rn -wertige Zufallsvariablen mit Dichten fX und fY . Das heißt, fX , fY : Rn → [0, ∞] sind messbar und integrierbar bez¨uglich des ndimensionalen Lebesgue-Maßes λn , und es gilt f¨ur jedes x ∈ Rn
266
14 W-Maße auf Produktr¨aumen
P[X ≤ x] =
n
fX (t) λ (dt)
und
P[Y ≤ x] =
(−∞,x]
fY (t) λn (dt). (−∞,x]
Hierbei ist (−∞, x] = {y ∈ Rn : yi ≤ xi f¨ur i = 1, . . . , n} (vergleiche (1.5)). Definition 14.17. Sei n ∈ N. F¨ur zwei Lebesgue-integrierbare Abbildungen f, g : Rn → [0, ∞] definieren wir die Faltung f ∗ g : Rn → [0, ∞] durch (f ∗ g)(x) = f (y) g(x − y) λn (dy). Rn
F¨ur zwei endliche Maße μ, ν ∈ Mf (Rn ) definieren wir die Faltung μ ∗ ν ∈ Mf (Rn ) durch (μ ∗ ν)((−∞, x]) = Ax (u, v) μ(du) ν(dv), wobei Ax := {(u, v) ∈ Rn × Rn : u + v ≤ x} ist. Lemma 14.18. Die Abbildung f ∗ g ist messbar, und es gelten f ∗ g = g ∗ f und n n n (f ∗ g) dλ = f dλ g dλ . Rn
Rn
Rn
Ebenso gelten μ ∗ ν = ν ∗ μ und (μ ∗ ν)(Rn ) = μ(Rn ) ν(Rn ). Beweis. Die Aussagen folgen direkt aus dem Satz von Fubini.
2
Satz 14.19 (Faltung von n-dimensionalen Maßen). (i) Sind X und Y unabh¨angige Rn -wertige Zufallsvariablen mit Dichten fX und fY , so hat X + Y die Dichte fX ∗ fY . (ii) Sind μ = f λn und ν = gλn endliche Maße mit Dichten f und g bez¨uglich des Lebesgue-Maßes, so gilt μ ∗ ν = (f ∗ g)λn . Beweis. (i) Sei x ∈ Rn und A := {(u, v) ∈ Rn × Rn : u + v ≤ x}. Dann gilt nach mehrfacher Anwendung des Satzes von Fubini (sowie der Translationsinvarianz von λn )
¨ 14.2 Endliche Produkte und Ubergangskerne
267
P[X + Y ≤ x] = P[(X, Y ) ∈ A] n ⊗2 = (d(u, v)) A (u, v) fX (u) fY (v) (λ ) n n R ×R n n = A (u, v) fX (u) λ (du) fY (v) λ (dv) Rn Rn fX (u) λn (du) fY (v) λn (dv)
= Rn
(−∞,x−v]
fX (u − v) λ (du) fY (v) λn (dv) n
= Rn
(−∞,x]
fX (u − v) fY (v) λ (dv) λn (du) n
= (−∞,x]
Rn
(fX ∗ fY ) dλn .
= (−∞,x]
(ii)
Ersetze in (i) μ = PX und ν = PY . Die Aussage folgt unmittelbar.
2
Wir kommen zu einer Begriffsbildung, die diejenige der Produktmaße verallgemeinert und in Richtung unseres Eingangsbeispiels steuert. ¨ Wir erinnern an den Begriff des Ubergangskerns aus Definition 8.24. ¨ Lemma 14.20. Sei κ ein endlicher Ubergangskern von (Ω1 , A1 ) nach (Ω2 , A2 ), und sei f : Ω1 × Ω2 → [0, ∞] messbar bez¨uglich A1 ⊗ A2 − B([0, ∞]). Dann ist die Abbildung If : Ω1 → [0, ∞] ω1 → f (ω1 , ω2 ) κ(ω1 , dω2 ) wohldefiniert und A1 –messbar. Beweis. Nach Lemma 14.13 ist 0f¨ur jedes ω1 ∈ Ω1 die Abbildung fω1 messbar bez¨uglich A2 , also ist If (ω1 ) = fω1 (ω2 ) κ(ω1 , dω2 ) wohldefiniert. Wir m¨ussen also nur noch die Messbarkeit von If zeigen. Ist g = A1 ×A2 f¨ur A1 ∈ A1 und A2 ∈ A2 , so ist Ig (ω1 ) = A1 (ω
1 )κ(ω1 , A2 ) offenbar messbar. Sei nun D = A ∈ A1 ⊗A2 : I A ist A1 –messbar . Wir zeigen, dass D ein Dynkin-System ist: (i) Offenbar ist Ω1 × Ω2 ∈ D. (ii) Sind A, B ∈ D mit A ⊂ B, so ist I B\A = I B − I A messbar, wobei wir die Endlichkeit von κ ausgenutzt haben, also ist B \ A ∈ D.
268
14 W-Maße auf Produktr¨aumen
(iii) Sind ∞ A1 , A2 , . . . ∈ D paarweise disjunkt und A := n=1 I An messbar, also A ∈ D.
∞ n=1
An , so ist I
A
=
Nun ist D also ein Dynkin-System, das den schnittstabilen Erzeuger aller Rechteckmengen in A1 ⊗ A2 enth¨alt, also ist (nach Satz 1.19) D = A1 ⊗ A2 . Mithin ist I A messbar f¨ur jedes A ∈ A1 ⊗ A2 . Es folgt, dass Ig messbar ist f¨ur jede Elementarfunktion. Sei nun (fn )n∈N eine Folge von Elementarfunktion mit fn ↑ f . F¨ur jedes feste ω1 ∈ Ω1 gilt nach dem Satz von der monotonen Konvergenz If (ω1 ) = limn→∞ Ifn (ω1 ), und If ist als Limes messbarer Funktionen messbar. 2 0 0Bemerkung 14.21. Wir schreiben im Folgenden oft κ(ω1 , dω2 ) f (ω1 , ω2 ) statt f (ω1 , ω2 ) κ(ω1 , dω2 ), denn bei Mehrfachintegralen erlaubt diese Notation es, den Integrator n¨aher an das betreffende Integralzeichen heran zu r¨ucken. 3 ¨ Satz 14.22. Seien (Ωi , Ai ), i = 0, 1, 2, Messr¨aume und κ1 ein endlicher Uber¨ von gangskern von (Ω0 , A0 ) nach (Ω1 , A1 ) sowie κ2 ein endlicher Ubergangskern (Ω0 × Ω1 , A0 ⊗ A1 ) nach (Ω2 , A2 ). Dann ist die Abbildung κ1 ⊗ κ2 : Ω0 × (A1 ⊗ A2 ) → [0, ∞) (ω0 , A) → κ1 (ω0 , dω1 ) κ2 ((ω0 , ω1 ), dω2 ) Ω1
A ((ω1 , ω2 ))
Ω2
¨ wohldefiniert und ist ein σ-endlicher (aber nicht notwendig endlicher) Ubergangskern von (Ω0 , A0 ) nach (Ω1 × Ω2 , A1 ⊗ A2 ). Sind κ1 und κ2 (sub-)stochastisch, so ist κ1 ⊗ κ2 (sub-)stochastisch. Wir nennen κ1 ⊗ κ2 das Produkt von κ1 und κ2 . Ist κ2 ein Kern von (Ω1 , A1 ) nach (Ω2 , A2 ), so definieren wir das Produkt κ1 ⊗ κ2 analog, indem wir κ2 einfach formal als Kern von (Ω0 × Ω1 , A0 ⊗ A1 ) nach (Ω2 , A2 ) auffassen, der nicht von der Ω0 -Koordinate abh¨angt. Beweis. Sei A ∈ A1 ⊗ A2 . Die Abbildung gA : (ω0 , ω1 ) → κ2 ((ω0 , ω1 ), dω2 )
A (ω1 , ω2 )
ist nach Lemma 14.20 wohldefiniert und messbar bez¨uglich A0 ⊗ A1 . Daher ist, wiederum nach Lemma 14.20, die Abbildung ω0 → κ1 ⊗ κ2 (ω0 , A) = κ1 (ω0 , dω1 ) gA (ω0 , ω1 ) wohldefiniert und A0 -messbar. F¨ur festes ω0 ist nach dem Satz u¨ ber monotone Konvergenz die Abbildung A → κ1 ⊗ κ2 (ω0 , A) σ-additiv, also ein Maß. F¨ur ω0 ∈ Ω0 und n ∈N sei Aω0 ,n := {ω1 ∈ Ω1 : κ2 ((ω0 , ω1 ), Ω2 ) < n}. Da κ2 endlich ist, gilt n≥1 Aω0 ,n = Ω1 f¨ur jedes ω0 ∈ Ω0 , und es gilt κ1 ⊗ κ2 (ω0 , An × Ω2 ) ≤ n · κ1 (ω0 , An ) < ∞. Also ist κ1 ⊗ κ(ω0 , · ) σ-endlich und ¨ damit ein Ubergangskern. Der Zusatz ist trivial.
2
¨ 14.2 Endliche Produkte und Ubergangskerne
269
Korollar 14.23 (Produkte mit Kernen). Sei (Ω1 , A1 , μ) ein endlicher Maßraum, ¨ von Ω1 nach Ω2 . (Ω2 , A2 ) ein Messraum und κ ein endlicher Ubergangskern Dann existiert ein eindeutig bestimmtes, σ-endliches Maß μ ⊗ κ auf (Ω1 × Ω2 , A1 ⊗ A2 ) mit μ ⊗ κ(A1 × A2 ) = κ(ω1 , A2 ) μ(dω1 ) f¨ur alle A1 ∈ A1 , A2 ∈ A2 . A1
Ist κ stochastisch und μ ein W-Maß, so ist μ ⊗ κ ein W-Maß. Beweis. Wende Satz 14.22 an mit κ2 = κ und κ1 (ω0 , · ) = μ.
2
Korollar 14.24. Seien n ∈ N und (Ωi , Ai ), i = 0, . . . , n, Messr¨aume. F¨ur i = i−1 i−1 / 1, . . . , n sei κi ein substochastischer Kern von × Ωk , Ak nach (Ωi , Ai ) k=0
k=0
oder von (Ωi−1 , Ai−1 ) nach (Ωi , Ai ). Dann definiert die Rekursion κ1 ⊗ · · · ⊗ κi := (κ1 ⊗ · · · ⊗ κi−1 ) ⊗ κi f¨ur jedes i = 1, . . . , n einen substochastischen Kern i i i / / κk := κ1 ⊗ · · · ⊗ κi von (Ω0 , A0 ) nach × Ωk , Ak . Sind alle κi k=1
k=1
stochastisch, so ist jedes
i /
k=0
κk stochastisch.
k=1 i / κk ein endliches Maß Ist μ ein endliches Maß auf (Ω0 , A0 ), so ist μi := μ ⊗ k=1 i i / auf × Ωk , Ak . Ist μ ein W-Maß und jedes κi stochastisch, so ist μi ein k=0
k=0
Wahrscheinlichkeitsmaß. Beweis. Die Aussagen folgen per Induktion aus Satz 14.22.
2
Definition 14.25 (Verkettung von Kernen). Seien (Ωi , Ai ) Messr¨aume, i = 0, 1, 2, und κi ein substochastischer Kern von (Ωi−1 , Ai−1 ) nach (Ωi , Ai ), i = 1, 2. Wir definieren die Verkettung von κ1 und κ2 durch κ1 · κ2 : Ω0 × A2 → [0, ∞) (ω0 , A2 ) → κ1 (ω0 , dω1 ) κ2 (ω1 , A2 ). Ω1
Satz 14.26. Bezeichnen wir mit π2 : Ω1 × Ω2 → Ω2 die Projektion auf die zweite Koordinate, so ist
f¨ur jedes A2 ∈ A2 . (κ1 · κ2 )(ω0 , A2 ) = (κ1 ⊗ κ2 ) ω0 , π2−1 (A2 ) Speziell ist die Verkettung κ1 · κ2 ein (sub-)stochastischer Kern von (Ω0 , A0 ) nach (Ω2 , A2 ).
270
14 W-Maße auf Produktr¨aumen
2
Beweis. Klar.
Lemma 14.27 (Kerne und Faltung). Seien μ und ν W-Maße auf Rd und die Kerne κi : (Rd , B(Rd )) → (Rd , B(Rd )), i = 1, 2, definiert durch κ1 (x, dy) = μ(dy) sowie κ2 (y, dz) = (δy ∗ ν)(dz). Dann ist κ1 · κ2 = μ ∗ ν. 2
Beweis. Das ist trivial.
Satz 14.28 (Kerne und Faltung). Seien X1 , X2 , . . . unabh¨angige Rd -wertige Zufallsvariablen mit Verteilungen μi := Pi , i = 1, . . . , n. Setze Sk := X1 + . . . + Xk f¨ur k = 1, . . . , n und definiere stochastische Kerne von Rd nach Rd durch κk (x, · ) = δx ∗ μk f¨ur k = 1, . . . , n. Dann gilt n κk
(0, · ) = P(S1 ,...,Sn ) .
(14.8)
k=1
Beweis. F¨ur k = 1, . . . , n definiere die messbare Bijektion ϕk : (Rd )k → (Rd )k durch ϕk (x1 , . . . , xk ) = (x1 , x1 + x2 , . . . , x1 + . . . + xk ). Offenbar ist B((Rd )n ) = σ ϕn (A1 × · · · × An ) : A1 , . . . , An ∈ B(Rd ) . Es reicht also (14.8) f¨ur Mengen von diesem Typ nachzuweisen, also zu zeigen, dass n n κk (0, ϕk (A1 ×· · ·×An )) = P(S1 ,...,Sn ) (ϕn (A1 ×· · ·×An )) = μk (Ak ). k=1
k=1
F¨ur n = 1 ist die Aussage klar. Per Definition ist κn (yn−1 , yn−1 + An ) = μn (An ). Induktiv folgt n κk (0, ϕn (A1 × · · · × An )) k=1
n−1
= ϕn−1 (A1 ×···×An−1 )
=
n−1
κk
0, d(y1 , . . . , yk−1 ) κn yn−1 , yn−1 + An
k=1
μk (Ak ) μn (An ).
2
k=1
¨ ¨ Ubergangskerne). Satz 14.29 (Fubini fur Seien (Ωi , Ai ) Messr¨aume, i = 1, 2, μ ¨ von Ω1 nach Ω2 ein endliches Maß auf (Ω1 , A1 ), κ ein endlicher Ubergangskern sowie f : Ω1 ×Ω2 → R messbar bez¨uglich A1 ⊗A2 . Ist f ≥ 0 oder f ∈ L1 (μ⊗κ), dann gilt f d(μ ⊗ κ) = f (ω1 , ω2 ) κ(ω1 , dω2 ) μ1 (dω1 ). (14.9) Ω1 ×Ω2
Ω1
Ω2
¨ 14.2 Endliche Produkte und Ubergangskerne
271
Beweis. F¨ur f = A1 ×A2 mit A1 ∈ A1 und A2 ∈ A2 gilt die Aussage per Definition. F¨ur allgemeine f verwenden wir die Approximationsargumente wie in Satz 14.16. 2 Beispiel 14.30. Wir kommen auf das Beispielvom Anfang des Kapitels zur¨uck. Sei
n ∈ N und (Ω2 , A2 ) = {0, 1}n , (2{0,1} )⊗n der Raum des n-fachen M¨unzwurfs. F¨ur jedes p ∈ [0, 1] definieren wir ⊗n
. Pp = (Berp )⊗n = (1 − p)δ0 + pδ1 Pp ist dasjenige W-Maß auf (Ω2 , A2 ), mit dem die Koordinatenabbildungen Yi unabh¨angige Bernoulli-Zufallsvariablen mit Erfolgswahrscheinlichkeit p sind. Ferner sei Ω1 = [0, 1] und A1 = B([0, 1]) die Borel’sche σ-Algebra auf Ω1 , sowie μ = U[0,1] die Gleichverteilung auf [0, 1]. Die identische Abbildung X : Ω1 → [0, 1], ist dann eine uniform auf [0, 1] verteilte Zufallsvariable auf (Ω1 , A1 , μ). Schließlich betrachten wir den stochastischen Kern von Ω1 nach Ω2 κ(ω1 , · ) = Pω1 . Setzen wir Ω = Ω1 × Ω2 , A = A1 ⊗ A2 und P = μ ⊗ κ, dann beschreiben X und Y1 , . . . , Yn genau die Zufallsvariablen auf (Ω, A, P) aus dem Beispiel am Anfang des Kapitels. 3 Bemerkung 14.31. Das Verfahren l¨asst sich nat¨urlich f¨ur n-stufige Experimente erweitern. Sei (Ωi , Ai ) der Messraum des i-ten Experiments, i = 0, . . . , n − 1. Sei P0 ein W-Maß auf (Ω0 , A0 ). F¨ur i = 1, . . . , n − 1 sei die Verteilung auf (Ωi , Ai ) abh¨angig von (ω1 , . . . , ωi−1 ) und gegeben durch einen stochastischen Kern κi von Ω0 × · · · × Ωi−1 nach Ωi . Das gesamte n-stufige Experiment wird dann durch die Koordinatenabbildungen in dem Wahrscheinlichkeits n−1 n−1 n−1 / / 3 A i , P0 ⊗ κi beschrieben. raum × Ωi , i=0
i=0
i=1
¨ Ubung 14.2.1. Man zeige die Faltungsformeln: (i) Normalverteilung: Nμ1 ,σ12 ∗ Nμ2 ,σ22 = Nμ1 +μ2 ,σ12 +σ22 f¨ur alle μ1 , μ2 ∈ R und σ12 , σ22 > 0. (ii) Gamma-Verteilung: Γθ,r ∗ Γθ,s = Γθ,r+s f¨ur alle θ, r, s > 0. (iii) Cauchy-Verteilung: Caur ∗ Caus = Caur+s f¨ur alle r, s > 0.
♣
¨ Ubung 14.2.2 (Hilbert-Schmidt Operator). Seien (Ωi , Ai , μi ), i = 1, 2, σendliche Maßr¨aume und a : Ω1 × Ω2 → R messbar mit μ1 (dt1 ) μ2 (dt2 ) a(t1 , t2 )2 < ∞.
272
14 W-Maße auf Produktr¨aumen
F¨ur f ∈ L2 (μ1 ) definiere (Af )(t2 ) =
a(t1 , t2 )f (t1 ) μ1 (dt1 ).
Zeige: A ist ein stetiger linearer Operator von L2 (μ1 ) nach L2 (μ2 ).
♣
¨ Ubung 14.2.3 (Partielle Integration). Seien Fμ und Fν die Verteilungsfunktionen der lokal endlichen Maße μ und ν auf R. F¨ur x ∈ R definieren wir den linksseitigen Grenzwert F (x−) = supy<x F (y) und die Sprungh¨ohe ΔF (x) = F (x) − F (x−). Man zeige: F¨ur a < b gilt Fμ dν = Fμ (b)Fν (b) − Fμ (a)Fν (a) − Fν (x−)μ(dx) (a,b]
(a,b]
= Fμ (b)Fν (b) − Fμ (a)Fν (a) −
Fν dμ + (a,b]
ΔFμ (x) ΔFν (x). ♣
a<x≤b
14.3 Satz von Ionescu-Tulcea und Projektive Familien Im vorigen Abschnitt hatten wir gesehen, wie wir n-stufige Experimente auf einem W-Raum realisieren k¨onnen. In diesem Abschnitt wollen wir zun¨achst zeigen, wie wir abz¨ahlbar viele sukzessive Experimente auf einem W-Raum realisieren k¨onnen (Satz von Ionescu-Tulcea). Danach werden wir auch Maße auf u¨ berabz¨ahlbaren Produktr¨aumen konstruieren (Erweiterungssatz von Kolmogorov). Seien (Ωi , Ai ), i ∈ N0 , Messr¨aume und P0 ein W-Maß auf (Ω0 , A0 ). Setze Ω i := / ×ik=0 Ωk und Ai = ik=0 Ak , sowie
× ∞
Ω :=
∞
Ωk
A=
und
k=0
Ak . k=0
Es sei κi ein stochastischer Kern von (Ω i−1 , Ai−1 ) nach (Ωi , Ai ) f¨ur jedes i ∈ N. /i Wir hatten in Korollar 14.24 rekursiv W-Maße Pi = P0 ⊗ k=1 κk auf (Ω i , Ai ) definiert. Per Konstruktion galt Pi (A × Ωk+1 × · · · × Ωi ) = Pj (A × Ωk+1 × · · · × Ωj )
(14.10)
f¨ur i, j ≥ k und A ∈ Ak . Wir wollen nun ein Wahrscheinlichkeitsmaß P auf (Ω, A) definieren, sodass f¨ur k ∈ N0 und A ∈ Ak gilt: P A×
×Ω
∞
i=k+1
i
= Pk (A).
(14.11)
14.3 Satz von Ionescu-Tulcea und Projektive Familien
273
Satz 14.32 (Ionescu-Tulcea). Es gibt ein eindeutig bestimmtes W-Maß auf (Ω, A), sodass (14.11) gilt. Beweis. Die Eindeutigkeit ist klar, weil die endlichdimensionalen Rechteckzylinder einen schnittstabilen Erzeuger von A bilden. Es bleibt die Existenz zu zeigen. Wir definieren eine Mengenfunktion P auf den Zylindermengen Z durch (14.11). Offenbar ist P additiv, also ein Inhalt. Ist P nun aber ∅-stetig, so ist P nach Satz 1.36 ein Pr¨amaß und l¨asst sich nach dem Satz von Carath´eodory (Satz 1.41) eindeutig zu einem Maß auf A fortsetzen. Sei also A0 ⊃ A1 ⊃ A 2∞⊃ . . . eine Folge in Z mit α := inf n∈N0 P (An ) > 0. Es reicht zu zeigen, dass n=0 An = ∅. Ohne Einschr¨ankung k¨onnen wir annehmen, ∞ dass An = An × ×k=n+1 Ωk f¨ur gewisses An ∈ An . F¨ur n ≥ m setze n
κk (ω0 , . . . , ωm ), An hm,n (ω0 , . . . , ωm ) := k=m+1
und hm := inf n≥m hm,n . Wir zeigen induktiv, dass es i ∈ Ωi , i ∈ N0 , gibt mit hm (0 , . . . , m ) ≥ α. Wegen
An+1
⊂
An
× Ωn+1 gilt n+1
hm,n+1 (ω0 , . . . , ωm ) =
κk
k=m+1
n+1
≤
κk
k=m+1
n
=
κk
(14.12)
(ω0 , . . . , ωm ), An+1
(ω0 , . . . , ωm ), An × Ωn+1
(ω0 , . . . , ωm ), An = hm,n (ω0 , . . . , ωm ).
k=m+1
Also gilt hm,n ↓ hm f¨ur n → ∞ und nach dem Satz von der monotonen Konvergenz hm,n dPm = inf Pn (An ) = α. hm dPm = inf n≥m
n∈N
Daher gilt (14.12) f¨ur m = 0. Gelte nun (14.12) f¨ur ein m ∈ N0 . Dann ist
hm+1 (0 , . . . , m , ωm+1 ) κm+1 (0 , . . . , m ), dωm+1
hm+1,n (0 , . . . , m , ωm+1 ) κm+1 (0 , . . . , m ), dωm+1 = inf n≥m+1
= hm (0 , . . . , m ) ≥ α. Es folgt (14.12) f¨ur m + 1. Sei := (0 , 1 , . . .) ∈ Ω. Nach Konstruktion ist α ≤ hm,m (0 , . . . , m ) = ∞ ur jedes m ∈ N und damit i=0 Ai = ∅. 2 Am (0 , . . . , m ), also ∈ Am f¨
274
14 W-Maße auf Produktr¨aumen
Korollar 14.33 (Produktmaß). F¨ur jedes n ∈ N0 sei Pn ein W-Maß auf (Ωn , An ). Dann existiert ein eindeutig bestimmtes W-Maß P auf (Ω, A) mit ∞ n P A0 × · · · × An × Ωi = Pk (Ak )
×
i=n+1
k=0
f¨ur Ai ∈ Ai , i = 0, . . . , n und n ∈ N0 . /∞ Wir nennen i=0 Pi := P das Produkt der Maße P0 , P1 , . . . Unter P sind die Koordinatenabbildungen (Xi )i∈N0 unabh¨angig. Beweis. Wende den Satz von Ionescu-Tulcea mit κi ((ω0 , . . . , ωi−1 ), · ) = Pi an.2 Wir wollen nun eine dem Satz von Ionescu-Tulcea vergleichbare Aussage treffen, dabei jedoch auf die Annahme verzichten, dass die Maße Pk auf Ak a priori durch Kerne definiert werden. Bevor wir den Satz formulieren, wollen wir die Konsistenzbedingung (14.10) verallgemeinern. (Erinnerung: f¨ur L ⊂ J ⊂ I bezeichnet XLJ : ΩJ −→ ΩL die Projektion.) Definition 14.34. Eine Familie (PJ , J ⊂ I endlich) von W -Maßen auf (ΩJ , AJ ) heißt projektive Familie, falls f¨ur alle endlichen L ⊂ J ⊂ I gilt
−1 . PL = PJ ◦ XLJ Ist P ein W-Maß auf (Ω, A), wobei Ω=
×Ω i∈I
i
und
A=
Ai , i∈I
so ist wegen XL = XLJ ◦ XJ , die Familie (PJ := P ◦ XJ−1 , J ⊂ I endlich) projektiv. Projektivit¨at ist also eine notwendige Bedingung f¨ur die Existenz des Maßes P auf dem Produktraum. Sind alle beteiligten Messr¨aume Borel’sche R¨aume (siehe Definition 8.34) – also beispielsweise Rd , Zd , C([0, 1]) oder allgemeiner polnische R¨aume –, so ist diese Bedingung auch ausreichend. Wir formulieren diese Aussage zun¨achst f¨ur abz¨ahlbare Indexmengen. Satz 14.35. Sei I h¨ochstens abz¨ahlbar, und seien (Ωi , Ai ) Borel’sche Messr¨aume, i ∈ I. Sei (PJ , J ⊂ I endlich) eine projektive Familie von W-Maßen. Dann gibt es ein eindeutig bestimmtes W-Maß P auf (Ω, A) mit PJ = P ◦ XJ−1 f¨ur jedes endliche J ⊂ I. Beweis. Ohne Einschr¨ankung sei I = N0 und Pn := P{0,...,n} . Man pr¨uft leicht nach, dass endliche Produkte von Borel’schen R¨aumen wieder Borel’sche R¨aume sind, also ist (Ω{0,...,n} , A{0,...,n} ) Borel’sch f¨ur jedes n ∈ N0 .
14.3 Satz von Ionescu-Tulcea und Projektive Familien
275
Sei A˜n := {A × Ωn+1 : A ∈ A{0,...,n} } und das W-Maß P˜n auf (Ω{0,...,n+1} , A˜n ) definiert durch P˜n (A×Ωn+1 ) = Pn (A) f¨ur A ∈ A{0,...,n} . Die Projektivit¨at liefert, dass Pn+1 n = P˜n . Nach dem Satz u¨ ber die Existenz regul¨arer bedingter Vertei˜ A lungen (Satz 8.36) existiert ein stochastischer Kern κn+1 von (Ω{0,...,n+1} , A˜n ) nach (Ωn+1 , An+1 ) mit Pn+1 (A) = ˜ n+1 ) κn+1 ((ω0 , . . . , ωn+1 ), d˜ ωn+1 ) P˜n (d(ω0 , . . . , ωn+1 )) A (ω0 , . . . , ωn , ω f¨ur jedes A ∈ A{0,...,n+1} . Da κn+1 ( · , A) messbar ist bez¨uglich A˜n , h¨angt κn+1 nicht von ωn+1 ab. Durch κn+1 ((ω0 , . . . , ωn ), · ) := κn+1 ((ω0 , . . . , ωn+1 ), · ) wird also ein stochastischer Kern von (Ω{0,...,n} , A{0,...,n} ) nach (Ωn+1 , An+1 ) definiert mit Pn+1 (A) = A (ω0 , . . . , ωn+1 ) κn+1 ((ω0 , . . . , ωn ), dωn+1 ) Pn (d(ω0 , . . . , ωn )). Mithin gilt Pn+1 = Pn ⊗ κn+1 , und wir k¨onnen Satz 14.32 anwenden.
2
Als letzten Schritt in unserer Konstruktion wollen wir in Satz 14.35 die abz¨ahlbare Indexmenge durch eine beliebige Indexmenge ersetzen. Satz 14.36 (Kolmogorov’scher Erweiterungssatz). Sei I eine beliebige Indexmenge, und seien (Ωi , Ai ) Borel’sche Messr¨aume, i ∈ I. Sei (PJ , J ⊂ I endlich) eine projektive Familie von W-Maßen. Dann gibt es ein eindeutig bestimmtes WMaß P auf (Ω, A) mit PJ = P ◦ XJ−1 . Wir nennen P den projektiven Limes und P . bezeichnen ihn in Formeln mit P =: lim ←− J J↑I
Beweis. F¨ur abz¨ahlbares J ⊂ I gibt es nach Satz 14.35 ein eindeutig bestimmtes J −1 ) = PK f¨ur endliches K ⊂ J. Durch Maß PJ auf (ΩJ , AJ ) mit PJ ◦ (XK −1 ˜ PJ (XJ (AJ )) := PJ (AJ ), AJ ∈ AJ , wird hieraus ein Maß auf (Ω, σ(XJ )). Seien J, J ⊂ I h¨ochstens abz¨ahlbar und A ∈ σ(XJ ) ∩ σ(XJ ) ∩ Z ein σ(XJ ) ∩ σ(XJ )-messbarer Zylinder mit endlicher Basis. Dann existiert ein endliches K ⊂ −1 (AK ). Also ist P˜J (A) = PK (AK ) = P˜J (A). J ∩ J und AK ∈ AK mit A = XK Nach Satz 14.12 ist dann aber auch P˜J (A) = PK (AK ) = P˜J (A) f¨ur alle A ∈ ¨ 14.1.1) f¨ur jedes A ∈ A ein abz¨ahlbares σ(XJ ) ∩ σ(XJ ). Nun gibt es (nach Ubung J ⊂ I mit A ∈ σ(XJ ), also k¨onnen wir auf eindeutige Weise (und unabh¨angig von der Wahl von J) eine Mengenfunktion P auf A definieren durch P (A) = P˜J (A). Es bleibt zu zeigen, dass P ein W-Maß ist. Offenbar ist P (Ω) = 1. Sind A1 , A2 , . . . ∈
276
14 W-Maße auf Produktr¨aumen
∞ A paarweise disjunkt und A := n=1 An , so gibt es abz¨ahlbare Jn ⊂ I mit An ∈ σ(XJn ) f¨ur n ∈ N. Setze J = n∈N Jn . Dann ist jedes An in σ(XJ ) und damit auch A ∈ σ(XJ ), also P (A) = P˜J (A) =
∞
P˜J (An ) =
n=1
∞
P (An ).
n=1
2
Damit ist P als W-Maß erkannt.
Beispiel 14.37. Sei (Ωi , τi ), i ∈ I eine beliebige Familie von polnischen R¨aumen (Erinnerung: nach Satz 8.35 sind polnische R¨aume auch Borel’sche R¨aume), σ(τi ) und Pi ein beliebiges W-Maß auf (Ωi , Ai ). F¨ur endliches J ⊂ I sei Ai = / PJ = j∈J Pj das Produktmaß der Pj , j ∈ J. Offenbar ist die Familie (PJ , J ⊂ I endlich) projektiv. Wir nennen Pi := lim P ←− J
P = i∈I
J↑I
das Produktmaß auf (Ω, A). Unter P sind alle Projektionen Xj unabh¨angig.
3
Beispiel 14.38. (P´olya’sches Urnenmodell) (Vergleiche Beispiel 12.29.) Zun¨achst befinden sich k rote und n − k blaue Kugeln in einer Urne. Es wird in jedem Zeitschritt eine Kugel gezogen und zusammen mit einer weiteren Kugel der selben Farbe zur¨uckgelegt. Zur Zeit i ∈ N0 befinden sich also n + i Kugeln in der Urne, wobei die Anzahl Xi der roten Kugeln zuf¨allig ist. Formal definieren wir das Modell so: Sei n ∈ N und k ∈ {0, . . . , n}. Sei I = N0 , Ωi = {0, . . . , n + i}, i ∈ N. Setze P0 [{k}] = 1 und definiere die stochastischen Kerne κi von Ωi nach Ωi+1 durch ⎧ xi falls xi+1 = xi + 1, ⎪ ⎪ n+i , ⎨ xi , falls xi+1 = xi , κi (xi , {xi+1 }) = 1 − n+i ⎪ ⎪ ⎩ 0, sonst. Setze nun Pi+1 = Pi ⊗ κi . Unter dem Maß P = lim Pi beschreiben die Projek←− i→∞
tionen (Xi , i ∈ N0 ) gerade das P´olya’sche Urnenmodell.
3
14.4 Markov’sche Halbgruppen Definition 14.39. Sei E ein polnischer Raum. Sei I ⊂ R eine nichtleere Indexmenge und (κs,t : s, t ∈ I, s < t) eine Familie von stochastischen Kernen von E nach E. Wir sagen, dass die Familie konsistent ist, falls f¨ur je drei Zahlen r, s, t ∈ I mit r < s < t gilt, dass κr,s · κs,t = κr,t .
14.4 Markov’sche Halbgruppen
277
Definition 14.40. Sei E ein polnischer Raum. Sei I ⊂ [0, ∞) eine Halbgruppe (zum Beispiel I = N0 oder I = [0, ∞)). Eine Familie (κt : t ∈ I) von stochastischen Kernen heißt eine Halbgruppe von stochastischen Kernen, oder Markov’sche Halbgruppe, falls sie die Chapman-Kolmogorov’sche Gleichung erf¨ullt: κs · κt = κs+t
f¨ur alle s, t ∈ I.
(14.13)
Tats¨achlich ist ({κt : t ∈ I}, · ) eine Halbgruppe im algebraischen Sinne, und die Abbildung t → κt ist ein Halbgruppenhomomorphismus. Insbesondere kommutieren die Kerne in dem Sinne, dass κs · κt = κt · κs f¨ur alle s, t ∈ I. Lemma 14.41. Ist (κt : t ∈ I) eine Markov’sche Halbgruppe, so ist die f¨ur t > s durch κ ˜ s,t := κt−s definierte Familie von Kernen konsistent. 2
Beweis. Das ist trivial.
Satz 14.42 (Kern durch konsistente Familie von Kernen). Sei I ⊂ [0, ∞) mit 0 ∈ I und (κs,t : s, t ∈ I, s < t) eine konsistente Familie von stochastischen Kernen auf dem polnischen Raum E. Dann existiert ein Kern κ von (E, B(E)) nach (E I , B(E)⊗I ), sodass f¨ur jedes x ∈ E und je endlich viele Zahlen 0 = j0 < j1 < j2 < . . . < jn aus I sowie J := {j0 , . . . , jn } gilt n−1 κ(x, · ) ◦ XJ−1 =
κjk ,jk+1
(x, · ).
(14.14)
k=0
Beweis. Wir zeigen zun¨achst, dass f¨ur festes x ∈ E durch (14.14) ein W-Maß definiertwird. Hierf¨urreicht es nach dem Erweiterungssatz zu zeigen, dass die durch n−1 / κjk ,jk+1 (x, · ) definierte Familie (PJ : J ⊂ I endlich, 0 ∈ J) von PJ := k=0
W-Maßen konsistent ist. Sei also 0 ∈ L ⊂ J ⊂ I mit J ⊂ I endlich. Dann ist zu zeigen, dass PJ ◦ (XLJ )−1 = PL ist. Wir k¨onnen annehmen, dass L = J \ {jl } ist f¨ur ein l = 1, . . . , n. Den allgemeinen Fall erh¨alt man hieraus induktiv. Sei zun¨achst l = n. Seien Aj0 , . . . , Ajn−1 ∈ B(E) und A := ×j∈L Aj . Dann ist PJ ◦ (XLJ )−1 (A) = PJ (A × E) = PL ⊗ κjn−1 ,jn (A × E)
PL d(ω0 , . . . , ωn−1 ) κjn−1 ,jn (ωn−1 , E) = PL (A). = A
Sei nun l ∈ {1, . . . , n − 1} und Aj ∈ B(E) f¨ur jedes j ∈ L sowie Ajl := l−1 E. Setze A := ×j∈L Aj und, zur Abk¨urzung, A = ×k=0 Ajk und P = /l−2 ur i = 0, . . . , n − 1 k=0 κjk ,jk+1 (x, · ) sowie f¨
278
14 W-Maße auf Produktr¨aumen
n
fi (ωi ) =
κjk ,jk+1
(ωi , Aji+1 × · · · × Ajn ).
k=l
Nach Voraussetzung (und dem Satz von Fubini) ist κjl−1 ,jl (ωl−1 , dωl ) κjl ,jl+1 (ωl , dωl+1 ) fl+1 (ωl+1 ) fl−1 (ωl−1 ) = E
Al+1
=
κjl−1 ,jl+1 (ωl−1 , dωl+1 ) fl+1 (ωl+1 ). Al+1
Es folgt PJ ◦(XLJ )−1 (A) = P (d(ω0 , . . . , ωl−1 )) fl+1 (ωl+1 ) A P (d(ω0 , . . . , ωl−1 )) (κjl−1 ,jl+1 )(ωl−1 , dωl+1 ) f (ωl+1 ) = A
Ajl+1
= PL (A). Wir m¨ussen nun noch zeigen, dass κ ein stochastischer Kern ist, also dass x → κ(x, A) messbar ist bez¨uglich B(E) – B(E)⊗I . Nach Bemerkung 8.25 reicht es aus, dies f¨ur Rechteckmengen mit endlicher Basis A ∈ Z R zu pr¨ufen, denn Z R ist ⊗I . Seien also 0 = t0 < t1 < . . . < tn und ein schnittstabiler Erzeuger von B(E) n (Bi ). Nach Korollar 14.24 ist aber die B0 , . . . , Bn ∈ B(E) sowie A = i=0 Xt−1 i folgende Abbildung messbar n−1 x → Px [A] =
κti+1 −ti
i=0
× n
x,
Bi .
2
i=0
Korollar 14.43 (Maß durch konsistente Familie von Kernen). Unter den Bedingungen von Satz 14.42 existiert zu jedem W-Maß μ auf E genau ein W-Maß Pμ auf
I E , B(E)⊗I mit der Eigenschaft: F¨ur je endlich viele Zahlen 0 = j0 < j1 < /n−1 j2 < . . . < jn aus I und J := {j0 , . . . , jn } ist Pμ ◦ XJ−1 = μ ⊗ k=0 κjk ,jk+1 . Beweis. Man setze Pμ = μ ⊗ κ.
2
Als einfache Schlussfolgerung aus Lemma 14.41 und Satz 14.42 ergibt sich die folgende Aussage, die wir separat formulieren, weil wir sie sp¨ater noch an zentraler Stelle ben¨otigen werden.
14.4 Markov’sche Halbgruppen
279
Korollar 14.44 (Maße durch Markov’sche Halbgruppen). Sei (κt : t ∈ I) eine Markov’sche Halbgruppe auf dem polnischen Raum E. Dann existiert genau ein stochastischer Kern κ von (E, B(E)) nach (E I , B(E)⊗I ) mit der Eigenschaft: F¨ur jedes x ∈ E und je endlich viele Zahlen 0 = t0 < t1 < t2 < . . . < tn aus I sowie J := {t0 , . . . , tn } ist n−1 κ(x, · ) ◦ XJ−1 =
κtk+1 −tk
(x, · ).
(14.15)
k=0
F¨ur jedes W-Maß μ auf E existiert genau ein W-Maß Pμ auf E I , B(E)⊗I mit der Eigenschaft: F¨ur je endlich viele Zahlen 0 = / t0 < t1 < t2 < . . . < tn aus n−1 I und J := {t0 , . . . , tn } ist Pμ ◦ XJ−1 = μ ⊗ k=0 κtk+1 −tk . Wir schreiben Px = Pδx = κ(x, · ) f¨ur x ∈ E. Beispiel 14.45 (Unabh¨angige, normalverteilte Zuw¨achse). Seien I = [0, ∞) und Ωi = R, i ∈ [0, ∞), mit der Borel’schen σ-Algebra B = B(R), Ω = R[0,∞) , A = B ⊗[0,∞) und Xt die kanonische Projektion f¨ur t ∈ [0, ∞). Im Sinne von Definition 14.6 ist X = (Xt )t≥0 also der kanonische Prozess auf (Ω, A). Wir wollen ein W-Maß P auf (Ω, A) konstruieren, sodass der stochastische Prozess X unabh¨angige, station¨are, normalverteilte Zuw¨achse hat (siehe Definition 9.7). Das heißt, es sollen gelten: f¨ur 0 =: t0 < t1 < . . . < tn ist (Xti − Xti−1 )i=1,...,n unabh¨angig, f¨ur
t>s
ist
PXt −Xs = N0,t−s .
(14.16) (14.17)
Dazu definieren wir die stochastischen Kerne κt (x, dy) := δx ∗ N0,t (dy) f¨ur t ∈ [0, ∞), wobei N0,0 = δ0 . Nach Lemma 14.27 gilt die Chapman-Kolmogorov’sche ¨ Gleichung, denn (vergleiche Ubung 14.2.1(i)) κs · κt (x, dy) = δx ∗ (N0,s ∗ N0,t )(dy) = δx ∗ N0,s+t (dy) = κs+t (x, dy). Sei P0 = δ0 und P das nach Korollar 14.44 zu P0 und (κt : t ≥ 0) geh¨orige W-Maß auf Ω. Nach Satz 14.28 gelten (14.16) und (14.17). Wir haben mit (Xt )t≥0 fast schon die so genannte Brown’sche Bewegung konstruiert. Zus¨atzlich zu den gezeigten Eigenschaften hat die Brown’sche Bewegung die Eigenschaft, dass die Pfade, also die Abbildungen t → Xt , stetig sind. In der Tat ist mit der bisherigen Konstruktion sogar die Messbarkeit der Pfade noch ungekl¨art. Hier muss noch gearbeitet werden, und wir kommen darauf in Kapitel 21 zur¨uck.3 Die Konstruktion im vorangehenden Beispiel h¨angt nicht von den Details der Normalverteilung ab, sondern nur von der Eigenschaft N0,s+t = N0,s ∗ N0,t . Wir k¨onnen also in (14.17) die Normalverteilung durch eine beliebige parametrisierte
280
14 W-Maße auf Produktr¨aumen
Familie von Verteilungen (νt , t ≥ 0) mit der Eigenschaft νt+s = νt ∗ νs ersetzen. Dies gilt speziell f¨ur die Familie der Gammaverteilungen νt = Γθ,t (f¨ur festes θ > 0), die Poissonverteilung νt = Poit , die negative Binomialverteilung νt = b− t,p (f¨ur festes p ∈ (0, 1]), die Cauchy-Verteilung νt = Caut und andere (vergleiche Satz 15.12 und Korollar 15.13). Wir halten dieses Ergebnis in einem Satz fest. Definition 14.46 (Faltungshalbgruppe). Sei I ⊂ [0, ∞) eine Halbgruppe. Eine Familie ν = (νt : t ∈ I) von Wahrscheinlichkeitsverteilungen auf Rd heißt Faltungshalbgruppe, falls νs+t = νs ∗ νt gilt f¨ur alle s, t ∈ I. t→0
Ist I = [0, ∞) und gilt zudem νt −→ δ0 , so heißt die Faltungshalbgruppe stetig (im Sinne der schwachen Konvergenz). Ist d = 1 und νt ((−∞, 0)) = 0 f¨ur jedes t ∈ I, so heißt ν eine nichtnegative Faltungshalbgruppe. F¨ur den folgenden Satz vergleiche Definition 9.7. Satz 14.47. Zu jeder Faltungshalbgruppe (νt : t ∈ I) und jedem x ∈ Rd existiert ein W-Maß Px auf dem Produktraum (Ω, A) = (Rd )I , B(Rd )⊗I , sodass der kanonische Prozess (Xt )t∈I ein stochastischer Prozess mit Px [X0 = x] = 1 und station¨aren unabh¨angigen Zuw¨achsen ist mit Px ◦ (Xt − Xs )−1 = νt−s f¨ur t > s. Umgekehrt definiert jeder stochastische Prozess (Xt )t∈I (auf einem beliebigen Wahrscheinlichkeitsraum (Ω, A, P)) mit station¨aren unabh¨angigen Zuw¨achsen eine Faltungshalbgruppe durch νt = P ◦ (Xt − X0 )−1 f¨ur jedes t ∈ I. ¨ Ubung 14.4.1. Sei (νt : t ≥ 0) eine stetige Faltungshalbgruppe. Man zeige: F¨ur ♣ jedes t > 0 gilt νt = lims→t νs . n→∞ ¨ Ubung 14.4.2. Sei (νt : t ≥ 0) eine Faltungshalbgruppe. Man zeige: F¨ur νt/n −→ ♣ δ0 .
¨ Ubung 14.4.3. Man zeige: Eine nichtnegative Faltungshalbgruppe ist stetig.
♣
¨ Ubung 14.4.4. Man zeige: Eine stetige, reelle Faltungshalbgruppe (νt : t ≥ 0) mit νt ((−∞, 0)) = 0 f¨ur ein t > 0 ist nichtnegativ. ♣
15 Charakteristische Funktion und Zentraler Grenzwertsatz
Hauptziel dieses Abschnitts ist der Zentrale Grenzwertsatz f¨ur Summen unabh¨angiger Zufallsvariablen (Satz 15.37) und f¨ur unabh¨angige Schemata (Satz von Lindeberg-Feller, Satz 15.43), wobei wir f¨ur den letzteren nur die eine Richtung beweisen (Satz von Lindeberg). Das Hilfsmittel der Wahl f¨ur die Behandlung von Zentralen Grenzwerts¨atzen sind charakteristische Funktionen, also Fouriertransformierte von W-Maßen. Wir beginnen mit einer sehr allgemeinen Betrachtung u¨ ber Klassen von Testfunktionen, die schwache Konvergenz charakterisieren k¨onnen, und betrachten dann Fouriertransformierte im Detail. Der nachfolgende Abschnitt beweist mit Hilfe von charakteristischen Funktionen den Zentralen Grenzwertsatz f¨ur reelle Zufallsvariablen. Im f¨unften Abschnitt zeigen wir den mehrdimensionalen Zentralen Grenzwertsatz.
15.1 Trennende Funktionenklassen Sei (E, d) ein metrischer Raum mit Borel’scher σ-Algebra E = B(E). Mit C = {u + iv : u, v ∈ R} bezeichnen wir den K¨orper der komplexen Zahlen. Mit Re(u + iv) = u und Im(u + iv) = v bezeichnen wir den Realteil und den Imagin¨arteil von√z = u + iv ∈ C, mit z = u − iv die zu z komplex konjugierte Zahl und mit |z| = u2 + v 2 den Betrag von z. Von prominenter Bedeutung wird f¨ur uns die komplexe Exponentialfunktion exp : C → C sein, die wir durch exp(z) = ∞ exp(u) cos(v) + i sin(v) oder durch die Potenzreihe exp(z) = n=0 z n /n! definieren k¨onnen. Bekanntlich gilt exp(z1 + z2 ) = exp(z1 ) · exp(z2 ). Man beachte, dass aus Re(z) = (z + z)/2 und Im(z) = (z − z)/2i folgt, dass cos(x) =
eix + e−ix 2
und
sin(x) =
eix − e−ix 2i
f¨ur jedes x ∈ R.
Eine Abbildung f : E → C ist genau dann messbar, wenn Re(f ) und Im(f ) messbar sind (siehe Satz 1.90 mit C ∼ = R2 ). Insbesondere ist jede stetige Funktion E → C messbar. Ist μ ∈ M(E), so definieren wir f dμ := Re(f ) dμ + i Im(f ) dμ,
282
15 Charakteristische Funktion und Zentraler Grenzwertsatz
wenn beide Integrale existieren und endlich sind. Mit Cb (E; C) bezeichnen wir den Banachraum der stetigen, beschr¨ankten, komplexwertigen Funktionen auf E, ausgestattet mit der Supremumsnorm f ∞ = sup{|f (x)| : x ∈ E}. Wir nennen C ⊂ Cb (E; C) trennend f¨ur M 0 f (E), falls 0 es f¨ur je zwei Maße μ, ν ∈ Mf (E) mit μ = ν ein f ∈ C gibt mit f dμ = f dν. Satz 13.34 gilt f¨ur C ⊂ Cb (E; C) sinngem¨aß. Definition 15.1. Sei K = R oder K = C. Eine Teilmenge C ⊂ Cb (E; K) heißt Algebra, falls (i) 1 ∈ C, (ii) f¨ur f, g ∈ C sind f · g ∈ C und f + g ∈ C, (iii) f¨ur f ∈ C und α ∈ K ist (αf ) ∈ C. C heißt Punkte trennend, falls es zu je zwei Punkten x, y ∈ E mit x = y ein f ∈ C gibt mit f (x) = f (y). Satz 15.2 (Stone-Weierstraß). Sei E ein kompakter Hausdorffraum. Sei K = R oder K = C. Sei C ⊂ Cb (E; K) eine Punkte trennende Algebra. Ist K = C, so sei C zus¨atzlich abgeschlossen bez¨uglich komplexer Konjugation (das heißt, mit f ist stets auch die komplex konjugierte Funktion f in C). Dann liegt C dicht in Cb (E; K) bez¨uglich der Supremumsnorm. Beweis. Wir folgen der Darstellung in Dieudonn´e ([34, Kapitel VII.3]). Sei zun¨achst der Fall K = R betrachtet. Wir gehen in mehreren Schritten vor. 1. Schritt Nach dem Weierstraß’schen Approximationssatz (Beispiel 5.15) gibt √ es eine Folge (pn )n∈N von Polynomen, die die Abbildung [0, 1] → [0, 1], t → t gleichm¨aßig approximiert. Ist f ∈ C, so ist also |f | = f ∞ limn→∞ pn (f 2 /f 2∞ ) im Abschluss C von C in Cb (E; R). 2. Schritt Indem wir den 1. Schritt auf die Algebra C anwenden, folgt, dass mit f, g ∈ C auch f ∨ g = 12 (f + g + |f − g|) und f ∧ g = 12 (f + g − |f − g|) in C liegen. 3. Schritt F¨ur jedes f ∈ Cb (E; R), jedes x ∈ E und jedes ε > 0 existiert ein gx ∈ C mit gx (x) = f (x) und gx (y) ≤ f (y) + ε f¨ur jedes y ∈ E. Da C Punkte trennt, existiert f¨ur jedes z ∈ E \{x} ein Hz ∈ C mit Hz (z) = H(x) = 0. F¨ur diese (x) ur jedes y ∈ E. z definieren wir hz ∈ C durch hz (y) = f (x) + f (z)−f Hz (z) Hz (y) f¨ Zudem setzen wir hx := f . Dann ist hz (x) = f (x) und hz (z) = f (z) f¨ur jedes z ∈ E. Da f und hz stetig sind, existiert zu jedem z ∈ E eine offene Umgebung ¨ Uz z mit h(y) ≤ f (y)+ε f¨ur jedes y ∈ Uz . Wir bilden eine endliche Uberdeckung Uz1 , . . . , Uzn von E mit solchen Umgebungen und setzen gx = min(hz1 , . . . , hzn ). Nach Schritt 2 ist gx ∈ C.
15.1 Trennende Funktionenklassen
283
4. Schritt Sei f ∈ Cb (E; R), ε > 0 und gx wie im 3. Schritt f¨ur jedes x ∈ E. Da f und gx stetig sind, existiert zu jedem x ∈ E eine offene Umgebung Vx x ¨ mit gx (y) ≥ f (y) − ε f¨ur jedes y ∈ Vx . Wir bilden eine endliche Uberdeckung Vx1 , . . . , Vxn von E und definieren g := max(gx1 , . . . , gxn ). Dann ist g ∈ C nach Schritt 2 und g − f ∞ < ε nach Konstruktion. Da ε > 0 beliebig war, gilt also C = Cb (E; R). 5. Schritt Sei nun K = C betrachtet. Nach Voraussetzung sind mit f auch der Realteil Re(f ) = (f + f¯)/2 und der Imagin¨arteil Im(f ) = (f − f¯)/2i in C. Speziell ist C0 := {Re(f ) : f ∈ C} ⊂ C eine reelle Algebra, die nach Voraussetzung Punkte trennt und die konstanten Funktionen enth¨alt. Also ist C0 dicht in Cb (E; R). Wegen 2 C = C0 + iC0 folgt, dass C dicht in Cb (E; C) ist. Korollar 15.3. Sei E ein kompakter, metrischer Raum. Sei K = R oder K = C. Sei C ⊂ Cb (E; K) eine Punkte trennende Familie, die stabil ist unter Multiplikation und 1 enth¨alt. Ist K = C, so sei C zus¨atzlich abgeschlossen bez¨uglich komplexer Konjugation. Dann ist C eine trennende Familie f¨ur Mf (E). 0 0 Beweis. Seien μ1 , μ2 ∈ Mf (E) mit g dμ1 = g dμ2 f¨ur jedes g ∈ C. Sei C die Algebra der endlichen Linearkombinationen von Elementen aus C. Aufgrund der 0 0 Linearit¨at des Integrals gilt g dμ1 = g dμ2 f¨ur jedes g ∈ C . ε > 0 existiert nach dem Satz von StoneZu jedem f ∈ Cb (E, R)=und jedem = Weierstraß ein g ∈ C mit =f − g =∞ < ε. Nach der Dreiecksungleichung ist f dμ1 − f dμ2 ≤ f dμ1 − g dμ1 + g dμ1 − g dμ2 + g dμ2 − f dμ2 ≤ ε (μ1 (E) + μ2 (E)). Da ε > 0 beliebig war, gilt Gleichheit und damit μ1 = μ2 (nach Satz 13.11).
2
Als einfache Schlussfolgerungen bekommen wir die folgenden S¨atze. Satz 15.4. Die Verteilung einer beschr¨ankten reellen Zufallsvariablen X ist durch die Angabe aller Momente eindeutig bestimmt. Beweis. Ohne Einschr¨ankung k¨onnen wir annehmen, dass X nur Werte in E := [0, 1] annimmt. F¨ur n ∈ N definiere die Abbildung fn : [0, 1] → [0, 1] durch fn : x → xn . Ferner sei f0 ≡ 1. Die Familie C = {fn , n ∈ N0 } ist Punkte trennend und abgeschlossen unter Multiplikation, also trennend f¨ur0Mf (E). PX ist also eindeutig festgelegt durch Angabe der Momente E[X n ] = xn PX (dx), n ∈ N. 2
284
15 Charakteristische Funktion und Zentraler Grenzwertsatz
Beispiel 15.5 (nach [72]). Im vorangehenden Satz k¨onnen wir nicht ohne Weiteres auf die Beschr¨anktheit von X verzichten, selbst wenn alle Momente existieren (es gibt allerdings schw¨achere Bedingungen, siehe Korollar 15.32). Wir betrachten hierzu X := exp(Y ), wobei Y ∼ N0,1 . Die Verteilung von X heißt auch LogNormalverteilung. F¨ur jedes n ∈ N ist nY verteilt wie die Summe von n2 unD abh¨angigen, standardnormalverteilten Zufallsvariablen nY = Y1 + . . . + Yn2 . Also ist f¨ur n ∈ N n2 2 n nY Y1 +...+Yn2 ]= E[eYi ] = E[eY ]n E[X ] = E[e ] = E[e
i=1 ∞
=
(2π)−1/2 ey e−y
2
n2
/2
dy
(15.1) 2
= en
/2
.
−∞
Wir wollen nun gleich eine ganze Familie von Verteilungen konstruieren, die die gleichen Momente wie X besitzen. Nach der Transformationsformel f¨ur Dichten (Satz 1.101) hat die Verteilung von X die Dichte 1 1 −1 2 √ x exp − log(x) f (x) = f¨ur x > 0. 2 2π F¨ur α ∈ [−1, 1] definieren wir Wahrscheinlichkeitsdichten fα auf (0, ∞) durch
fα (x) = f (x) 1 + α sin(2π log(x)) . Um zu zeigen, dass fα eine Dichte ist und die selben Momente wie f besitzt, reicht es zu zeigen, dass f¨ur jedes n ∈ N0 gilt ∞ m(n) := xn f (x) sin(2π log(x)) dx = 0. 0
Mit der Substitution y = log(x) − n erhalten wir (wegen sin(2π(y + n)) = sin(2πy)) ∞ 2 2 m(n) = eyn+n (2π)−1/2 e−(y+n) /2 sin(2π(y + n)) dy −∞ 2
= (2π)−1/2 en
/2
∞
e−y
2
/2
sin(2πy) dy = 0,
−∞
wobei die letzte Gleichheit folgt, weil der Integrand eine ungerade Funktion ist. 3 Satz 15.6 (Laplace-Transformation). Ein endliches Maß μ auf [0, ∞) ist eindeutig bestimmt durch Angabe der Laplace-Transformierten Lμ (λ) := e−λx μ(dx) f¨ur λ ≥ 0.
15.1 Trennende Funktionenklassen
285
Beweis. Dem Problem, dass der Raum [0, ∞) nicht kompakt ist, begegnen wir, indem wir zur (Einpunkt-) Kompaktifizierung E = [0, ∞] u¨ bergehen. Wir definieren f¨ur λ ≥ 0 die stetige Funktion fλ : [0, ∞] → [0, 1] durch fλ (x) = e−λx , falls x < ∞ und fλ (∞) = limx→∞ e−λx . Dann ist C = {fλ , λ ≥ 0} Punkte trennend, f0 = 1 ∈ C und fμ · fλ = fμ+λ ∈ C. Nach Korollar 15.3 ist C trennend f¨ur 2 Mf ([0, ∞]), also auch f¨ur Mf ([0, ∞)). Definition 15.7. F¨ur μ ∈ Mf (Rd ) heißt die Abbildung ϕμ : Rd → C, die durch ϕμ (t) := eit,x μ(dx) definiert wird, die charakteristische Funktion von μ.
Satz 15.8 (Charakteristische Funktion). Ein endliches Maß μ ∈ Mf (Rd ) ist durch Angabe der charakteristischen Funktion eindeutig festgelegt.
Beweis. F¨ur t ∈ Rd definiere ft : Rd → C durch ft : x → exp i t, x! . Offenbar ist C = {ft , t ∈ Rd } eine Punkte trennende Algebra, die abgeschlossen gegen¨uber komplexer Konjugation ist. Allerdings ist Rd nicht kompakt, sodass wir den Satz von Stone-Weierstraß nicht direkt anwenden k¨onnen. Unsere Beweisstrategie ist nun zu zeigen, dass wir eine stetige, beschr¨ankte Funktion f auf jedem Kompaktum gleichm¨aßig approximieren k¨onnen, wobei das Supremum der approximierenden Funktionen außerhalb dieses Kompaktums beschr¨ankt bleibt. Seien also μ1 , μ2 ∈ Mf (Rd ) mit ϕμ1 (t) = ϕμ2 (t) f¨ur alle t ∈ Rd . Sei f ∈ Cb (Rd ) beliebig und ε > 0. W¨ahle N ∈ N so groß, dass (1 + 2f ∞ ) · (μ1 + μ2 )(Rd \ [−N, N ]d ) < ε/2. Sei C die Algebra endlicher Linearkombination von Funktionen : g ∈ C } die Algebra der auf f2πm f¨ur m ∈ Zd , und sei CN := {g d [−N,N ]
[−N, N ]d eingeschr¨ankten Funktion aus C . Die Algebra CN ist Punkte trennend und abgeschlossen unter komplexer Konjugation, also nach dem Satz von StoneWeierstraß (Satz 15.2) dicht in Cb ([−N, N ]d ; C). Daher existiert ein g ∈ C mit
ε δ := sup |g(x) − f (x)| : x ∈ [−N, N ]d < min 1, . 2(μ1 + μ2 )(Rd ) Wegen g(x) = g(x − kN ) f¨ur jedes k ∈ Zd , ist g − f ∞ ≤ g∞ + f ∞ ≤ 1 + 2f ∞ . Wir erhalten also f dμ1 − f dμ2
≤ g − f ∞ (μ1 + μ2 ) Rd \ [−N, N ]d + δ μ1 + μ2 (Rd ) ε ε ≤ + = ε. 2 2
286
15 Charakteristische Funktion und Zentraler Grenzwertsatz
Da ε > 0 beliebig war, stimmen die Integrale u¨ berein. Nach Satz 13.11 ist also 2 μ1 = μ2 . Korollar 15.9. Ein endliches Maß μ auf Zd ist durch die Werte ϕμ (t) = eit,x μ(dx), t ∈ [−π, π)d , eindeutig festgelegt. Beweis. Dies ist klar, weil ϕμ (t + 2πk) = ϕμ (t) f¨ur jedes k ∈ Zd .
2
W¨ahrend das vorangehende Korollar nur eine abstrakte Eindeutigkeitsaussage liefert, wird uns manchmal eine explizite Inversionsformel von Nutzen sein. Satz 15.10 (Diskrete Fourier-Inversionsformel). Sei μ ∈ Mf (Zd ) mit charakteristischer Funktion ϕμ . Dann gilt f¨ur jedes x ∈ Zd −d μ({x}) = (2π) e−it,x ϕμ (t) dt. [−π,π)d
Beweis. Nach dem Satz u¨ ber majorisierte Konvergenz ist ⎛ ⎞ e−it,x ϕμ (t) dt = e−it,x ⎝ lim eit,y μ({y})⎠ dt [−π,π)d
n→∞
[−π,π)d
e−it,x
= lim
n→∞
=
[−π,π)d
|y|≤n
eit,y μ({y}) dt
|y|≤n
eit,y−x dt.
μ({y}) [−π,π)d
y∈Zd
Die Behauptung folgt, weil f¨ur y ∈ Zd gilt (2π)d , it,y−x e dt = 0, [−π,π)d
falls x = y, sonst.
2
¨ Ahnliche Inversionsformeln gelten f¨ur Maße μ auf Rd . Besonders einfach ist der uglich des d-dimensionalen Fall, wo μ eine integrierbare Dichte f := dμ dλ bez¨ Lebesgue-Maßes λ hat. In diesem Fall gilt die Fourier-Inversionsformel e−it,x ϕμ (t) λ(dt). (15.2) f (x) = (2π)−d Rd
Es gilt die Plancherel’sche Gleichung: Es ist genau dann f ∈ L2 (λ), wenn ϕμ ∈ L2 (λ). In diesem Fall ist f 2 = ϕ2 . Da wir diese Aussagen jedoch nicht weiter verwenden werden, verweisen wir lediglich auf die einschl¨agigen Lehrb¨ucher (etwa [156, Kapitel V.2] oder [53, Theorem XV.3.3 und Gleichung (XV.3.8)]).
15.1 Trennende Funktionenklassen
287
¨ Ubung 15.1.1. Man zeige, dass im Satz von Stone-Weierstraß auf die Kompaktheit von E nicht verzichtet werden kann. Hinweis: Man w¨ahle etwa E = R, nutze aus, dass Cb (R) = Cb (R; R) nicht separabel ist und konstruiere eine abz¨ahlbare, Punkte ♣ trennende Algebra C ⊂ Cb (R). ¨ Ubung 15.1.2. Sei d ∈ N und μ ein endliches Maß auf [0, ∞)d . Man zeige: μ ist 0 −λ,x μ(dx), λ ∈ [0, ∞)d durch Angabe der Laplace-Transformierten Lμ (λ) = e eindeutig bestimmt. ♣ ¨ Ubung 15.1.3. Man zeige, dass unter den Voraussetzungen von Satz 15.10 die Plancherel’sche Gleichung gilt: μ({x})2 = (2π)−d |ϕμ (t)|2 dt. ♣ [−π,π)d
x∈Zd
¨ Ubung 15.1.4 (Mellin-Transformierte). Sei X eine nichtnegative reelle Zufallsvariable. F¨ur s ≥ 0 definieren wir die Mellin-Transformierte von PX mX (s) = E[X s ] mit Werten in [0, ∞]. Man zeige: Gibt es ein ε0 > 0 mit mX (ε0 ) < ∞ (beziehungsweise mX (−ε0 ) < ∞), so ist f¨ur jedes ε > 0 die Verteilung PX eindeutig bestimmt durch die Werte mX (s) (beziehungsweise mX (−s)), s ∈ [0, ε]. Anleitung: F¨ur stetiges f : [0, ∞) → [0, ∞) sei ∞ φf (s) = tz−1 f (z), 0
f¨ur diejenigen z ∈ C, f¨ur die dies wohldefiniert ist. Aus der Funktionentheorie ist bekannt: Ist φf (s) < ∞ f¨ur ein s > 1, so ist φf holomorph in {z ∈ C : Re(z) ∈ (1, s)} (und damit durch die Werte φf (r), r ∈ (1, 1 + ε) eindeutig festgelegt f¨ur jedes ε > 0), und es gilt f¨ur jedes r ∈ (1, s) ∞ 1 f (t) = t−(r+iρ) φf (r + iρ) dρ. 2π i −∞ (i) Man folgere die Aussage f¨ur X mit stetiger Dichte. (ii) F¨ur δ > 0 sei Yδ ∼ U[1−δ,1] und unabh¨angig von X. Man zeige, dass XYδ eine stetige Dichte hat. (iii) Man bestimme mXYδ und zeige, dass mXYδ → mX f¨ur δ ↓ 0. (iv) Man zeige, dass XYδ =⇒ X f¨ur δ ↓ 0.
♣
288
15 Charakteristische Funktion und Zentraler Grenzwertsatz
¨ Ubung 15.1.5. Seien X, Y, Z unabh¨angige nichtnegative reelle Zufallsvariablen, sodass P[Z > 0] > 0, und sodass die Mellin-Transformierte mXZ (s) < ∞ ist f¨ur ein s > 0. D
D
Zeige: Gilt XZ = Y Z, so ist X = Y .
♣
¨ Ubung 15.1.6. Sei μ ein W-Maß auf R mit integrierbarer charakteristischer Funktion ϕμ , also ϕμ ∈ L1 (λ), wobei λ das Lebesgue-Maß auf R ist. Man zeige, dass μ absolutstetig ist und die stetige und beschr¨ankte Dichte f = dμ dλ gegeben ist durch ∞ 1 f (x) = e−itx ϕμ (t) dt f¨ur jedes x ∈ R. 2π −∞ Anleitung: Man zeige dies zun¨achst f¨ur die Normalverteilung N0,ε , ε > 0. Man zeige dann, dass μ ∗ N0,ε absolutstetig ist mit Dichte fε , die punktweise gegen f konvergiert. ♣ ¨ Ubung 15.1.7. Sei (Ω, τ ) ein separabler topologischer Raum, der das T3 12 -Trennungsaxiom erf¨ullt: Zu jeder abgeschlossenen Menge A ⊂ Ω und jedem Punkt x ∈ Ω \ A existiert eine stetige Funktion f : Ω → [0, 1] mit f (x) = 0 und f (y) = 1 f¨ur jedes y ∈ A. (Insbesondere ist jeder metrische Raum ein T3 12 -Raum.) Man zeige: σ(Cb (Ω)) = B(Ω), das heißt, die Borel’sche σ-Algebra wird durch die beschr¨ankten, stetigen Funktionen Ω → R erzeugt. ♣
15.2 Charakteristische Funktionen: Beispiele Lemma 15.11. Sei X) eine Zufallsvariable mit Werten in Rd und charakteristischer * it,X . Dann gelten Funktion ϕX (t) = E e (i) |ϕX (t)| ≤ 1 f¨ur jedes t ∈ Rd und ϕX (0) = 1, (ii) ϕaX+b (t) = ϕX (at) eib,t f¨ur jedes a ∈ R und b ∈ Rd , (iii) PX = P−X genau dann, wenn ϕ reellwertig ist, (iv) Sind X und Y unabh¨angig, so ist ϕX+Y = ϕX · ϕY . (v) F¨ur jedes t ∈ R gilt f¨ur den Realteil 0 ≤ 1−Re(ϕX (2t)) ≤ 4(1−Re(ϕX (t))). Beweis. (i) und (ii) sind trivial. (iii) ϕX (t) = ϕX (−t) = ϕ−X (t). (iv)
Da eit,X und eit,Y unabh¨angige Zufallsvariablen sind, gilt * ) * ) * ) ϕX+Y (t) = E eit,X · eit,Y = E eit,X E eit,Y = ϕX (t) ϕY (t).
15.2 Charakteristische Funktionen: Beispiele
(v)
289
Nach dem Additionstheorem f¨ur Winkelfunktionen ist
1 − cos(2tX) = 2 1 − (cos(tX))2 ≤ 4 1 − cos(tX) . 2
Bilde jetzt den Erwartungswert.
Satz 15.12 (Charakteristische Funktionen wichtiger Verteilungen). Wir geben f¨ur verschiedene Verteilungen P mit Dichte x → f (x) auf R oder Gewichten P ({k}), k ∈ N0 , die charakteristische Funktion ϕ(t) an: Verteilung
Char. Fkt.
Name Symbol
Parameter
auf
Dichte / Gewicht
Normal Nμ,σ2
μ∈R σ2 > 0
R
√ 1 2πσ 2
a>0
[0, a]
1/a
eiat −1 iat
a>0
[−a, a]
1/2a
sin(at) at
a>0
[−a, a]
1 a
Gleichvert. U[0,a] Gleichvert. U[−a,a] Dreieck Tria
+ 1 − |x|/a
2 1−cos(at) a2 t2 (1 − |t|/a)
[0, ∞)
θr Γ (r)
(1 − it/θ)
[0, ∞)
θ e−θx
θ θ − it
θ −θ|x| e 2
1 1 + (t/a)2
a>0
R
Gamma Γθ,r
θ>0 r>0
Exponential θ>0 expθ zweiseitig Exponential θ > 0 exp2θ Cauchy a>0 Caua
Negativ Binomial b− r,p Poisson Poiλ
2 2 2 exp − (x−μ) eiμt · e−σ t /2 2 2σ
1 1−cos(ax) π ax2
N.N.
Binomial bn,p
ϕ(t)
R
xr−1 e−θx
+
−r
1 1 e−a|t| aπ 1 + (x/a)2
n n k n∈N (1 − p) + peit {0, . . . , n} p (1 − p)n−k p ∈ [0, 1] k r −r p r>0 (−1)k pr (1 − p)k N0 p ∈ (0, 1] k 1 − (1 − p)eit λ>0
R
N0
e−λ
λk k!
exp λ(eit − 1)
290
15 Charakteristische Funktion und Zentraler Grenzwertsatz
Beweis. (i) (Normalverteilung) Nach Lemma 15.11 reicht es, den Fall μ = 0 und σ 2 = 1 zu betrachten. Mit Hilfe des Differentiationslemmas (Satz 6.28) und durch partielle Integration erhalten wir ∞ 2 d ϕ(t) = eitx ix e−x /2 dx = −t ϕ(t). dt −∞ Diese lineare Differentialgleichung mit Anfangswert ϕ(0) = 1 hat die eindeutige 2 L¨osung ϕ(t) = e−t /2 . (ii) (Gleichverteilung) (iii) (Dreieck)
Dies ist unmittelbar.
Es gilt Tria = U[−a/2,a/2] ∗ U[−a/2,a/2] , also ist
ϕTria (t) = ϕU[−a/2,a/2] (t)2 = 4
sin(at/2)2 1 − cos(at) =2 , a2 t2 a2 t2
wobei wir ausgenutzt haben, dass nach dem Additionstheorem gilt 1 − cos(x) = sin(x/2)2 + cos(x/2)2 − cos(x) = 2 sin(x/2)2 . (iv) (N.N.) Dies l¨asst sich entweder direkt ausrechnen, oder mit Hilfe der FourierInversionsformel (Gleichung (15.2)) aus (iii) folgern. (v) (Gammaverteilung) Es reicht wiederum, den Fall θ = 1 zu betrachten. F¨ur 0 ≤ b < c ≤ ∞ und t ∈ R sei γb,c,t der gerade Weg in C von b + ibt nach c + ict und δb,t der gerade Weg von b nach b + ibt sowie #c,t der gerade Weg von c + ict nach c. Mit der Substitution z = (1 − it)x ist ∞ 1 (1 − it)−r ϕ(t) = xr−1 e−x eitx dx = z r−1 e−z dz. Γ (r) 0 Γ (r) γ0,∞,t Daher reicht es zu zeigen, dass
0 γ0,∞,t
z r−1 exp(−z) dz = Γ (r).
Die Funktion z → z r−1 exp(−z) ist holomorph in der rechten komplexen Halbebene. Nach dem Residuensatz ist daher f¨ur 0 < b < c < ∞ c xr−1 exp(−x) dx = z r−1 exp(−z) dz b
γb,c,t
z r−1 exp(−z) dz +
+ δb,t
z r−1 exp(−z) dz. c,t
0∞
Wegen 0 xr−1 exp(−x) dx =: Γ (r), reicht es zu zeigen, dass die Integrale entlang δb,t und #c,t verschwinden, wenn b → 0 und c → ∞. 2 (r−1)/2 r−1 b exp(−b) f¨ur z ∈ δb,t . Da der Nun ist aber |z r−1 exp(−z)| ≤ (1 + 0t ) r−1 Weg δb,t die L¨ange b |t| hat, ist also δb,t z exp(−z) dz ≤ br e−b (1 + t2 )r/2 →
15.2 Charakteristische Funktionen: Beispiele
291
0 0, wenn b → 0. Analog ist c,t z r−1 exp(−z) dz ≤ cr exp(−c)(1 + t2 )r/2 → 0, wenn c → ∞. (vi) (Exponentialverteilung)
Wegen expθ = Γθ,1 folgt dies aus (v).
(vii) (Zweiseitige Exponentialverteilung) Sind X und Y unabh¨angige expθ verteilte Zufallsvariablen, so ist X − Y ∼ exp2θ (Nachrechnen!). Also ist ϕexp2θ (t) = ϕexpθ (t) ϕexpθ (−t) =
1 1 1 = . 1 − it/θ 1 + it/θ 1 + (t/θ)2
(viii) (Cauchy Verteilung) Dies l¨asst sich entweder mit Hilfe des Residuenkalk¨uls direkt ausrechnen, oder mit Hilfe der Fourier-Inversionsformel (Gleichung (15.2)) aus der Aussage f¨ur die zweiseitige Exponentialverteilung folgern. (ix) (Binomialverteilung) Nach dem binomischen Lehrsatz ist n n ϕ(t) = (1 − p)n−k (peit )k = (1 − p + peit )n . k k=0
(x) (Negative Binomialverteilung) Nach dem verallgemeinerten binomischen Lehrsatz (Lemma 3.5) ist f¨ur jedes x ∈ C mit |x| < 1 ∞ −r −r (1 − x) = (−x)k . k k=0
Wenn wir x = (1 − p) e setzen, folgt die Behauptung. it
(xi) (Poissonverteilung)
Es ist ϕPoiλ (t) =
∞
e−λ
n=0
it (λeit )n = eλ(e −1) . n!
2
Korollar 15.13. Es gelten die folgenden Faltungsformeln: (i) Nμ1 ,σ12 ∗ Nμ2 ,σ22 = Nμ1 +μ2 ,σ12 +σ22 f¨ur μ1 , μ2 ∈ R und σ12 , σ22 > 0, (ii) Γθ,r ∗ Γθ,s = Γθ,r+s f¨ur θ, r, s > 0, (iii) Caua ∗ Caub = Caua+b f¨ur a, b > 0, (iv) bm,p ∗ bn,p = bm+n,p f¨ur m, n ∈ N und p ∈ [0, 1], − − ur r, s > 0 und p ∈ (0, 1], (v) b− r,p ∗ bs,p = br+s,p f¨
(vi) Poiλ ∗ Poiμ = Poiλ+μ f¨ur λ, μ ≥ 0. Beweis. Die Aussagen folgen aus dem vorangehenden Satz zusammen mit ϕμ∗∗ν = 2 ϕμ ϕν (Lemma 15.11). Zwei einfache Verfahren, um charakteristische Funktionen von zusammengesetzten Verteilungen auszurechnen, liefert der folgende Satz:
292
15 Charakteristische Funktion und Zentraler Grenzwertsatz
Satz 15.14. (i) Seien μ1 , μ2 , . . . ∈ Mf (Rd ) und p1 , p2 , . . . nichtnegative Zahlen ∞ ∞ mit pn μn (Rd ) < ∞. Dann hat das Maß μ := pn μn ∈ Mf (Rd ) die n=1
n=1
charakteristische Funktion ϕμ =
∞
pn ϕμn .
(15.3)
n=1
(ii) Es seien N, X1 , X2 , . . . unabh¨angige Zufallsvariablen. Die X1 , X2 , . . . seien identisch verteilt auf Rd mit charakteristischer Funktion ϕX . N habe Werte in N N0 und die Erzeugendenfunktion fN . Dann hat Y := Xn die charakterisn=1
tische Funktion ϕY (t) = fN (ϕX (t)). (iii) Ist in (ii) speziell N ∼ Poiλ , so ist ϕY (t) = exp(λ(ϕX (t) − 1)). n
Beweis. (i) Setzen wir νn =
k=1
pk μk , so gilt ϕνn =
n k=1
pk ϕμk wegen der Li-
nearit¨at des Integrals. Nach Voraussetzung ist μ = w-lim νn , also auch ϕμ (t) = n→∞
lim ϕνn (t).
n→∞
(ii) Es ist ϕY (t) = =
∞ n=0 ∞
* ) P[N = n] E eit,X1 +...+Xn P[N = n] ϕX (t)n = fN (ϕ(t)).
n=0
(iii) Der Spezialfall folgt, weil hier fN (z) = eλ(z−1) f¨ur z ∈ C mit |z| ≤ 1.
2
Beispiel 15.15. Sei n ∈ N, und seien Punkte 0 = a0 < a1 < . . . < an und 1 = y0 > y1 > . . . > yn = 0 gegeben. Sei ϕ : R → [0, ∞) diejenige gerade Funktion (also ϕ(x) = ϕ(−x)), die ϕ(ak ) = yk f¨ur jedes k = 0, . . . , n erf¨ullt und zwischen den Punkten ak linear interpoliert ist, sowie ferner ϕ(x) = 0 f¨ur |x| > an erf¨ullt. Wir wollen zus¨atzlich annehmen, dass die yk so gew¨ahlt sind, dass ϕ auf [0, ∞) konvex ist. Das ist a¨ quivalent zu der Bedingung, dass m1 ≤ m2 ≤ . . . ≤ mn ≤ 0, k−1 wo mk := aykk −y −ak−1 die Steigung im k-ten Intervall ist. Wir wollen zeigen, dass ϕ die charakteristische Funktion eines W-Maßes μ ∈ M1 (R) ist. Setze pk = ak (mk+1 − mk ) f¨ur k = 1, . . . , n. k π) . Nach Satz 15.12 Sei μk ∈ M1 (Rd ) die Verteilung auf R mit Dichte π1 1−cos(a ak x2 + hat μk die charakteristische Funktion ϕμk (t) = 1 − a|t|k . Die charakteristische n Funktion ϕμ von μ := k=1 pk μk ist dann
15.2 Charakteristische Funktionen: Beispiele
ϕμ (t) =
n
293
pk (1 − |t|/ak )+ .
k=1
Dies ist eine stetige, symmetrische, reelle Funktion mit ϕμ (0) = 1, die auf den Intervallen [ak−1 , ak ] jeweils linear ist. Durch partielle Summation erhalten wir (wegen mn+1 = 0) f¨ur jedes k = 1, . . . , n ϕμ (al ) =
n k=1
al ak (mk+1 − mk ) 1 − ak
+ =
' ( = (an − al )mn+1 − (al − al )ml −
n
(ak − al )(mk+1 − mk )
k=l n
(ak − ak−1 )mk
k=l+1 n
=−
(yk − yk−1 ) = yl = ϕ(al ).
k=l+1
3
Also ist ϕμ = ϕ.
Beispiel 15.16. Wir betrachten die Funktion ϕ : R → [0, 1], die periodisch mit Periode 2π ist, und die f¨ur t ∈ [−π, π) definiert ist durch ϕ(t) = 1 − 2|t|/π. Durch die diskrete Fourier-Inversionsformel (Satz 15.10) erhalten wir, dass0ϕ die charakteristiπ sche Funktion des W-Maßes μ ∈ M1 (Z) mit μ({x}) = (2π)−1 −π cos(tx) ϕ(t) dt ist, wenn wir zeigen k¨onnen, dass alle diese Zahlen μ({x}) nichtnegativ sind. F¨ur x = 0 ist offenbar μ({x}) = 0. F¨ur x ∈ Z \ {0} berechnen wir das Integral mit Hilfe partieller Integration π π cos(tx) ϕ(t) dt = 2 cos(tx) (1 − 2t/π) dt −π 0 π 4 4 2 4 = sin(tx) dt 1− sin(πx) − sin(0) + x π x πx 0 4 = (1 − cos(πx)). πx2 Insgesamt erhalten wir μ({x}) =
4 π 2 x2 ,
0,
falls x ungerade ist, sonst.
Wegen μ(Z) = ϕ(0) = 1 ist μ tats¨achlich ein W-Maß.
3
Beispiel 15.17. Wir betrachten die Funktion ψ : R → [0, 1], die periodisch mit Periode π ist, und die f¨ur t ∈ [−π/2, π/2) definiert ist durch ψ(t) = 1 − 2|t|/π. Ist ϕ die charakteristische Funktion zum Maß μ aus dem vorangehenden Beispiel, so ist offenbar ψ(t) = |ϕ(t)|. Andererseits ist ψ(t) = 12 + 12 ϕ(2t). Nach Satz15.14
294
15 Charakteristische Funktion und Zentraler Grenzwertsatz
und Lemma 15.11(ii) ist daher ψ die charakteristische Funktion des Maßes ν mit ν(A) = 12 δ0 (A) + 12 μ(A/2) f¨ur A ⊂ R. Also ist ⎧ 1 falls x = 0, ⎪ ⎪ 2, ⎨ 8 ν({x}) = π2 x2 , falls x2 ∈ Z ungerade ist, ⎪ ⎪ ⎩ 0, sonst. 3 Beispiel 15.18. Sei ϕ(t) = (1 − 2|t|/π)+ die charakteristische Funktion der Verteilung N.N.“ aus Satz 15.12 (mit a = π/2) und ψ die charakteristische Funktion ” aus dem vorangehenden Beispiel. Man beachte, dass ϕ(t) = ψ(t) f¨ur |t| ≤ π/2 und ϕ(t) = 0 f¨ur |t| > π/2, also ϕ2 = ϕ · ψ. Seien nun X, Y, Z unabh¨angige, reelle Zufallsvariablen mit charakteristischen Funktionen ϕX = ϕY = ϕ und ϕZ = ψ. D Dann ist ϕX ϕY = ϕX ϕZ , also X + Y = X + Z, jedoch stimmen die Verteilungen von Y und Z nicht u¨ berein. 3 ¨ Ubung 15.2.1. Sei ϕ die charakteristische Funktion der d-dimensionalen Zufallsvariablen X. Man zeige: Ist ϕ(t) = 1 f¨ur ein t = 0, so ist P[X ∈ Ht ] = 1, wo Ht = {x ∈ Rd : x, t! ∈ 2πZ}
= y + z · (2πt/t22 ) : z ∈ Z, y ∈ Rd mit y, t! = 0 . Man folgere, dass ϕ(t + s) = ϕ(s) ist f¨ur jedes s ∈ Rd .
♣
D ¨ Ubung 15.2.2. Man zeige: Es gibt reelle Zufallsvariablen X, X und Y, Y mit X = D D X und Y = Y , sodass X und Y unabh¨angig sind und X + Y = X + Y gilt, jedoch X und Y nicht unabh¨angig sind. ♣
¨ Ubung 15.2.3. Sei X eine reelle Zufallsvariable mit charakteristischer Funktion ϕ. X heißt gitterverteilt, wenn es a, d ∈ R gibt, sodass P[X ∈ a + dZ] = 1. Zeige: X ist genau dann gitterverteilt, wenn es ein u = 0 gibt mit |ϕ(u)| = 1. ♣
15.3 Der L´evy’sche Stetigkeitssatz Die Hauptaussage dieses Abschnitts ist der Stetigkeitssatz von L´evy (Satz 15.23), der, grob gesprochen, besagt, dass eine Folge von charakteristischen Funktionen genau dann punktweise gegen eine stetige Funktion konvergiert, wenn der Grenzwert wieder eine charakteristische Funktion ist und die zugeh¨origen Wahrscheinlichkeitsmaße schwach konvergieren. Wir bereiten den Beweis des Satzes mit ein paar analytischen Aussagen vor.
15.3 Der L´evy’sche Stetigkeitssatz
295
Lemma 15.19. Sei μ ∈ M1 (Rd ) mit charakteristischer Funktion ϕ. Dann gilt
|ϕ(t) − ϕ(s)|2 ≤ 2 1 − Re(ϕ(t − s)) f¨ur alle s, t ∈ Rd . Beweis. Nach der Cauchy-Schwarz’schen Ungleichung gilt 2 eit,x − eis,x μ(dx) |ϕ(t) − ϕ(s)|2 = Rd 2
it−s,x is,x e = −1 e μ(dx) d R 2 it−s,x is,x 2 e μ(dx) e ≤ − 1 μ(dx) · Rd Rd
it−s,x e − 1 e−it−s,x − 1 μ(dx) = d
R = 2 1 − Re(ϕ(t − s)) .
2
Definition 15.20. Sei (E, d) ein metrischer Raum. Eine Familie (fi , i ∈ I) von Abbildungen E → R heißt gleichgradig gleichm¨aßig stetig, falls f¨ur jedes ε > 0 ein δ > 0 existiert, sodass |fi (t) − fi (s)| < ε f¨ur alle i ∈ I und alle s, t ∈ E mit d(s, t) < δ. Satz 15.21. Ist F ⊂ M1 (Rd ) eine straffe Familie, so ist {ϕμ : μ ∈ F} gleichgradig gleichm¨aßig stetig. Speziell ist jede charakteristische Funktion gleichm¨aßig stetig. Beweis. Zu zeigen ist, dass f¨ur jedes ε > 0 ein δ > 0 existiert, sodass f¨ur jedes t ∈ Rd , jedes s ∈ Rd mit |t − s| < δ und jedes μ ∈ F gilt: |ϕμ (t) − ϕμ (s)| < ε. Da F straff ist, existiert ein N ∈ N mit μ([−N, N ]d ) > 1 − ε2 /6 f¨ur jedes μ ∈ F. d d Weiterhin existiert ein δ >2 0, sodass f¨ur x ∈ [−N, N ] und u ∈ R mit |u| < δ iu,x < ε /6. Wir erhalten so f¨ur jedes μ ∈ F gilt, dass 1 − e 1 − eiu,x μ(dx) 1 − Re(ϕμ (u)) ≤ d R ε2 1 − eiu,x μ(dx) ≤ + 3 d [−N,N ] ≤
ε2 ε2 ε2 + = 3 6 2
und damit f¨ur |t − s| < δ nach Lemma 15.19 |ϕμ (t) − ϕμ (s)| ≤ ε.
2
Lemma 15.22. Sei (E, d) ein metrischer Raum und f, f1 , f2 , . . . Abbildungen E → n→∞ R mit fn −→ f punktweise. Ist (fn )n∈N gleichgradig gleichm¨aßig stetig, so ist f gleichm¨aßig stetig und (fn )n∈N konvergiert gegen f gleichm¨aßig auf kompakten n→∞ Mengen: F¨ur jede kompakte Menge K ⊂ E gilt sups∈K |fn (s) − f (s)| −→ 0.
296
15 Charakteristische Funktion und Zentraler Grenzwertsatz
Beweis. Sei ε > 0 vorgegeben und δ > 0 so gew¨ahlt, dass |fn (t) − fn (s)| < ε f¨ur alle n ∈ N und alle s, t ∈ E sind mit d(s, t) < δ. F¨ur diese s, t gilt dann |f (s) − f (t)| = lim |fn (s) − fn (t)| ≤ ε. n→∞
Also ist f gleichm¨aßig stetig. Sei nun K ⊂ E kompakt. Da kompakte Mengen total beschr¨ankt sind, existiert ein N N ∈ N sowie t1 , . . . , tN ∈ K mit K ⊂ i=1 Bδ (ti ). W¨ahle n0 ∈ N so groß, dass |fn (ti ) − f (ti )| ≤ ε ist f¨ur jedes i = 1, . . . , N und jedes n ≥ n0 . Sei nun s ∈ K und n ≥ n0 . W¨ahle ein ti mit d(s, ti ) < δ. Dann gilt |fn (s) − f (s)| ≤ |fn (s) − fn (ti )| + |fn (ti ) − f (ti )| + |f (ti ) − f (s)| ≤ 3ε. n→∞
Da ε > 0 beliebig war, gilt fn −→ f gleichm¨aßig auf K.
2
Wir nennen eine Abbildung f : Rd → R partiell stetig im Punkte x = (x1 , . . . , xd ), falls f¨ur jedes i = 1, . . . , d die Abbildung yi → f (x1 , . . . , xi−1 , yi , xi+1 , . . . , xd ) in yi = xi stetig ist. Satz 15.23 (L´evy’scher Stetigkeitssatz). Seien P, P1 , P2 , . . . ∈ M1 (Rd ) mit charakteristischen Funktionen ϕ, ϕ1 , ϕ2 , . . . n→∞
(i) Ist P = w-lim Pn , so gilt ϕn −→ ϕ gleichm¨aßig auf kompakten Mengen. n→∞
n→∞
(ii) Gilt ϕn −→ f punktweise f¨ur eine in 0 partiell stetige Funktion f : Rd → C, so existiert ein W-Maß Q mit ϕQ = f und Q = w-lim Pn . n→∞
n→∞
Beweis. (i) Es gilt ϕn −→ ϕ punktweise. Da die Familie (Pn )n∈N straff ist, ist (ϕn )n∈N nach Satz 15.21 gleichgradig gleichm¨aßig stetig. Nach Lemma 15.22 folgt hieraus die gleichm¨aßige Konvergenz auf kompakten Mengen. (ii) Nach Satz 13.34 reicht es zu zeigen, dass die Folge (Pn )n∈N straff ist. Zu diesem Zweck reicht es zu zeigen, dass f¨ur jedes k = 1, . . . , n die durch Pnk = Pn ◦πk−1 (wo πk : Rd → R die Projektion auf die k-te Koordinate ist) definierte Folge (Pnk )n∈N der k-ten Marginalverteilungen straff ist. Bezeichnet ek den k-ten Einheitsvektor in Rd , so ist die charakteristische Funktion von Pnk gegeben durch ϕPnk (t) = ϕn (t ek ). Nach Voraussetzung konvergiert nun aber ϕPnk f¨ur n → ∞ punktweise gegen eine in 0 stetige Funktion fk . Wir haben damit das Problem auf den eindimensionalen Fall zur¨uckgef¨uhrt und k¨onnen daher im Folgenden annehmen, dass d = 1 gilt. Da ϕn (0) = 1 ist f¨ur jedes n ∈ N, haben wir f (0) = 1. Wir definieren die Abbildung h : R → [0, ∞) durch h(x) = 1 − sin(x)/x f¨ur x = 0 und h(0) = 0. Offenbar ist h auf ganz R stetig differenzierbar. Wir erhalten leicht, dass
15.3 Der L´evy’sche Stetigkeitssatz
297
α := inf{h(x) : |x| ≥ 1} = 1 − sin(1) > 0. Jetzt berechnen wir (unter Benutzung der Markov’schen Ungleichung und des Satzes von Fubini) f¨ur K > 0
Pn [−K, K]c ≤ α−1 h(x/K) Pn (dx) [−K,K]c −1 ≤α h(x/K) Pn (dx) R 1
−1 1 − cos(tx/K) dt Pn (dx) =α =α
−1
R 1
0
R
0
= α−1
1
1 − cos(tx/K) Pn (dx) dt
1 − Re(ϕn (t/K)) dt.
0
Wir erhalten nun (mit dem Satz von der majorisierten Konvergenz) lim sup Pn ([−K, K]c ) ≤ α−1 lim sup n→∞
= α−1
n→∞ 1
= α−1
1
1 − Re(ϕn (t/K)) dt
0
lim 1 − Re(ϕn (t/K)) dt
n→∞
0
1
1 − Re(f (t/K)) dt.
0
Da f stetig und f (0) = 1 ist, konvergiert das letzte Integral gegen 0, wenn K → ∞. Also ist (Pn )n∈N straff. 2 Eine einfache Anwendung des L´evy’schen Stetigkeitssatzes auf Beispiel 15.15 liefert den folgenden Satz von P´olya. Satz 15.24 (P´olya). Sei f : R → [0, 1] stetig und gerade mit f (0) = 1. Ferner sei f auf [0, ∞) konvex. Dann ist f die charakteristische Funktion eines W-Maßes. Beweis. Wir k¨onnen f auf [0, ∞) durch konvexe Polygonz¨uge fn approximieren, indem wir fn (k/n) = f (k/n) setzen f¨ur k = 0, . . . , n2 und fn zwischen den St¨utzstellen linear interpolieren und rechts von n konstant fortsetzen. F¨ur x < 0 setzen wir fn (x) = fn (−x). Nach Beispiel 15.15 ist jedes fn charakteristische n→∞ Funktion eines W-Maßes μn . Offenbar gilt fn −→ f punktweise, also ist f die 2 charakteristische Funktion eines W-Maßes μ = w-lim μn auf R. n→∞
Korollar 15.25. F¨ur jedes α ∈ (0, 1] und r > 0 ist ϕα,r (t) = e−|r t| die charakteristische Funktion eines symmetrischen W-Maßes μα,r auf R. α
298
15 Charakteristische Funktion und Zentraler Grenzwertsatz
Bemerkung 15.26. Tats¨achlich ist ϕα,r auch f¨ur α ∈ (0, 2] eine charakteristische Funktion (f¨ur α = 2 die der Normalverteilung), siehe Kapitel 16.2. Die Verteilungen μα,r haben die Eigenschaft α-stabil zu sein (siehe Definition 16.20): Sind X1 , X2 , . . . , Xn unabh¨angig und μα,a -verteilt, so ist ϕX1 +...+Xn (t) = ϕX (t)n = D
3
ϕX (n1/α t), also X1 + . . . + Xn = n1/α X1 .
Wir haben mit dem Satz von Stone-Weierstraß gesehen, dass charakteristische Funktionen Verteilungen eindeutig bestimmen. Der Satz von P´olya bietet eine hinreichende Bedingung daf¨ur, dass eine symmetrische reelle Funktion eine charakteristische Funktion ist. Dass diese Bedingung nicht notwendig ist, sieht man schon daran, dass die charakteristische Funktion der Normalverteilung sie nicht erf¨ullt. Wir geben nun, gewissermaßen zur Allgemeinbildung und ohne Beweis, den Satz von Bochner an, der eine notwendige und hinreichende Bedingung daf¨ur formuliert, dass eine Funktion ϕ : Rd → C die charakteristische Funktion eines W-Maßes ist. Definition 15.27. Eine Funktion f : Rd → C heißt positiv semidefinit, falls f¨ur jedes n ∈ N und alle t1 , . . . , tn ∈ Rd sowie y1 , . . . , yn ∈ C gilt n
yk y¯l f (tk − tl ) ≥ 0,
k,l=1
mit anderen Worten, falls die Matrix (f (tk − tl ))k,l=1,...,n positiv semidefinit ist. Lemma 15.28. Ist μ ∈ Mf (Rd ) mit charakteristischer Funktion ϕ, so ist ϕ positiv semidefinit. Beweis. Es gilt n
yk y¯l ϕ(tk − tl ) =
k,l=1
=
n
yk y¯l
k,l=1 n
eix(tk −tl ) μ(dx)
yk eixtk yl eixtl μ(dx)
k,l=1
2 n yk eixtk μ(dx) ≥ 0. =
2
k=1
Der folgende Satz geht im Falle d = 1 auf Bochner (1932) zur¨uck. Satz 15.29 (Bochner). Eine stetige Funktion f : Rd → C ist genau dann die charakteristische Funktion einer Wahrscheinlichkeitsverteilung auf Rd , wenn f positiv semidefinit ist und f (0) = 1 gilt. Die Aussage gilt ebenfalls, wenn wir Rd durch eine lokalkompakte, abelsche Gruppe ersetzen.
15.4 Charakteristische Funktion und Momente
299
Beweis. F¨ur den Fall d = 1 siehe [20, §20, Satz 23] oder [53, Kapitel XIX.2, Seite 622]. F¨ur den ganz allgemeinen Fall siehe etwa [70, Seite 293, Theorem 33.3]. 2 ¨ Ubung 15.3.1. (Vergleiche [49] und [3].) Man zeige: Es gibt zwei austauschbare Folgen X = (Xn )n∈N und Y = (Yn )n∈N reeller Zufallsvariablen mit PX = PY , jedoch mit n n D Xk = Yk f¨ur jedes n ∈ N. (15.4) k=1
k=1
Anleitung: (i) Definiere die charakteristischen Funktionen (siehe Satz 15.12) ϕ1 (t) = und ϕ2 (t) = (1 − t/2)+ . Zeige mit dem Satz von P´olya, dass ϕ1 (t), falls |t| ≤ 1, ψ1 (t) := ϕ2 (t), falls |t| > 1,
und ψ2 (t) :=
ϕ2 (t),
falls |t| ≤ 1,
ϕ1 (t),
falls |t| > 1,
1 1+t2
charakteristische Funktionen von Wahrscheinlichkeitsverteilungen auf R sind. (ii) Definiere unabh¨angige Zufallsvariablen Xn,i , Yn,i , n ∈ N, i = 1, 2, und Θn , n ∈ N mit: Xn,i hat charakteristische Funktion ϕi , Yn,i hat charakteristische Funktion ψi und P[Θn = 1] = P[Θn = −1] = 12 . Setze Xn = Xn,Θn und Yn = Yn,Θn . Zeige, dass (15.4) gilt. (iii) Bestimme E[ei t1 X1 +i t2 X2 ] und E[eit1 Y1 +it2 Y2 ] f¨ur t1 = D
folgere, dass (X1 , X2 ) = (Y1 , Y2 ) und damit PX = PY .
1 2
und t2 = 2 und ♣
15.4 Charakteristische Funktion und Momente Wir wollen den Zusammenhang zwischen den Ableitungen der charakteristischen Funktion ϕX einer reellen Zufallsvariablen X und den Momenten von X untersuchen. Wir beginnen mit einem elementaren Lemma. it (it)n−1 |t|n it ≤ Lemma 15.30. F¨ur t ∈ R und n ∈ N gilt e − 1 − − . . . − . 1! (n − 1)! n! Beweis. Dies folgt direkt aus der Taylorformel, da die n-te Ableitung von eit dem Betrage nach 1 ist. 2
300
15 Charakteristische Funktion und Zentraler Grenzwertsatz
Satz 15.31 (Momente und Differenzierbarkeit). Sei X eine reelle Zufallsvariable mit charakteristischer Funktion ϕ. (i) Ist E[|X|n ] < ∞, so ist ϕ n-mal stetig differenzierbar mit Ableitungen * ) f¨ur jedes k = 0, . . . , n. ϕ(k) (t) = E (iX)k eitX (ii) Ist speziell E[X 2 ] < ∞, so ist 1 ϕ(t) = 1 + it E[X] − t2 E[X 2 ] + ε(t) t2 2 mit ε(t) → 0 f¨ur t → 0. (iii) Sei h ∈ R. Gilt lim
n→∞
|h|n E[|X|n ] n!
ϕ(t + h) =
= 0, so ist f¨ur jedes t ∈ R ∞ (ih)k k=0
k!
) * E eitX X k .
) * Speziell gilt dies, falls E e|hX| < ∞. Beweis. (i) F¨ur t ∈ R, h ∈ R \ {0} und k ∈ {1, . . . , n} sei k−1 (ihx)l −k itx ihx Yk (t, h, x) = k! h e e − . l! l=0
Dann ist E[Yk (t, h, X)] = k! h
−k
ϕ(t + h) − ϕ(t) −
k−1 l=1
* hl ) E eitX (iX)l l!
.
Existiert nun der Limes ϕk (t) := limh→0 E[Yk (t, h, X)], so ist ϕ k-mal differenzierbar in t mit ϕ(k) (t) = ϕk (t). h→0
Es gilt aber (nach Lemma 15.30 mit n = k + 1) Yk (t, h, x) −→ (ix)k eitx f¨ur jedes x ∈ R und (nach Lemma 15.30 mit n = k) |Yk (t, h, x)| ≤ |x|k . Da nach Voraussetzung E[|X|k ] < ∞ gilt, folgt mit dem Satz u¨ ber majorisierte Konvergenz, h→0
dass E[Yk (t, h, X)] −→ E[(iX)k eitX ] = ϕ(k) (t). Eine einfache Anwendung des Stetigkeitslemmas (Satz 6.27) liefert die Stetigkeit von ϕ(k) . (ii) Dies folgt direkt aus (i). (iii) Nach Voraussetzung gilt
15.4 Charakteristische Funktion und Momente
301
n−1 hn (ih)k ) * E[Yn (t, h, X)] E eitX X k = ϕ(t + h) − k! n! k=0
≤
hn E[|X|n ] n→∞ −→ 0. n!
2
Korollar 15.32 (Momentenproblem). Sei X eine reelle Zufallsvariable mit α := lim sup n→∞
1 ) n *1/n E |X| < ∞. n
Dann ist die charakteristische Funktion ϕ von X analytisch, und die Verteilung n von X ist durch die Angabe * Momente E[X ], n ∈ N, eindeutig bestimmt. ) t|X|der < ∞ ist f¨ur ein t > 0. Speziell gilt dies, falls E e √ 1 n −n Beweis. Nach der Stirling’schen Formel ist limn→∞ n! n e 2π n = 1. F¨ur |h| < 1/(3α) gilt daher ) n √ * *1/n ) lim sup E |X|n · |h|n /n! = lim sup 2π n E |X|n · |h| · e/n n→∞ n→∞ √ ≤ lim sup 2π n (e/3)n = 0. n→∞
Die charakteristische Funktion ist also um jeden Punkt t ∈ R in eine Potenzreihe entwickelbar mit Konvergenzradius mindestens 1/(3α), ist insbesondere also analytisch. Damit ist sie festgelegt durch die Koeffizienten der Potenzreihe um t = 0, also durch die Momente von X. 2 Beispiele 15.33. (i) Sei X ∼ Nμ,σ2 . Dann ist f¨ur jedes t ∈ R * −1/2 ∞ tx −(x−μ)2 /2σ2 ) e e dx E etX = 2πσ 2 −∞
−1/2 ∞ −(x−μ−tσ2 )2 /2σ2 2 2 = eμt+t σ /2 2πσ 2 e dx −∞ μt+t2 σ 2 /2
=e
< ∞.
Also ist die Verteilung von X durch Angabe aller Momente komplett bestimmt. Die 2 2 charakteristische Funktion ϕ(t) = eiμt e−σ t /2 , die wir durch die obige Rechnung mit it statt t erhalten, ist in der Tat analytisch. (ii) Sei X exponentialverteilt mit Parameter θ > 0. Dann ist f¨ur t ∈ (0, θ) ∞ θ < ∞. E[etX ] = θ etx e−θx dx = θ−t 0 Also ist die Verteilung von X durch Angabe aller Momente bestimmt. Die selbe Rechnung mit it statt t liefert ϕ(t) = θ/(θ − it), und diese Funktion ist in der Tat
302
15 Charakteristische Funktion und Zentraler Grenzwertsatz
analytisch. Der Umstand, dass ϕ im Komplexen eine Singularit¨at bei t = −iθ hat, impliziert, dass die Potenzreihe von ϕ um 0 den Konvergenzradius θ hat. Insbesondere folgt hieraus, dass nicht alle exponentiellen Momente existieren k¨onnen. Dies wird reflektiert durch die obige Rechnung, die zeigt, dass f¨ur t ≥ θ keine exponentiellen Momente existieren. 2
(iii) Sei X log-normalverteilt (siehe Beispiel 15.5). Dann ist E[X n ] = en /2 . Speziell ist in diesem Fall α = ∞. Tats¨achlich hatten wir in Beispiel 15.5 gesehen, dass die Momente in diesem Fall nicht die Verteilung von X bestimmen. lim supn→∞ E[X n ]1/n < 1, so gilt nach (iv) Hat X Werte in N0 und gilt β := ∞ k ur |z| < 1/β. den Hadamard-Kriterium ψX (z) := k=1 P[X = k] z < ∞ f¨ (n) Speziell ist die Erzeugendenfunktion von X durch die Ableitungen ψX (1), n ∈ N, und damit durch die Momente von X eindeutig festgelegt. Vergleiche Satz 3.2(iii). 3 Satz 15.34. Sei X eine reelle Zufallsvariable und ϕ die charakteristische Funktion von X. Sei n ∈ N, und ϕ sei 2n-mal differenzierbar in 0 mit Ableitung ϕ(2n) (0). Dann gilt E[X 2n ] = ϕ(2n) (0) < ∞. Beweis. Wir f¨uhren den Beweis per Induktion nach n ∈ N0 . F¨ur n = 0 ist die Aussage trivialerweise richtig. Sei nun n ∈ N, und ϕ sei 2n-mal differenzierbar in 0. Wir setzen u(t) = Re(ϕ(t)). Dann ist u ebenfalls 2n-mal differenzierbar in 0 und u(2k−1) (0) = 0 f¨ur k = 1, . . . , n, weil u gerade ist. Da ϕ(2n) (0) existiert, ist ϕ(2n−1) stetig in 0 und ϕ(2n−1) (t) existiert f¨ur t ∈ (−ε, ε) f¨ur gewisses ε > 0. Ferner existiert dann ϕ(k) in (−ε, ε) und ist dort stetig f¨ur jedes k = 0, . . . , 2n − 2. Nach der Taylorformel gilt also f¨ur jedes t ∈ (−ε, ε) n−1 |t|2n−1 t2k (2k) (15.5) sup u(2n−1) (θt) . u (0) u(t) − ≤ (2k)! (2n − 1)! θ∈(0,1] k=0
Wir definieren eine stetige Funktion fn : R → [0, ∞) durch fn (0) = 1 und f¨ur x = 0 . n−1 2k n −2n k x . fn (x) = (−1) (2n)! x (−1) cos(x) − (2k)! k=0
Nach Induktionsvoraussetzung ist E[X ] = u Es folgt mit (15.5) 2k
(2k)
(0) f¨ur jedes k = 1, . . . , n − 1.
* 2n ) |u(2n−1) (θt)| sup |u(2n−1) (θt)| ≤ gn (t) := 2n sup . E fn (tX) X 2n ≤ |t| θ∈(0,1] θ |t| θ∈(0,1] Mit dem Lemma von Fatou folgt ) * ) * * ) E X 2n = E fn (0)X 2n ≤ lim inf E fn (tX)X 2n t→0
≤ lim inf gn (t) = 2n u(2n) (0) < ∞. t→0
15.4 Charakteristische Funktion und Momente
Hieraus folgt nach Satz 15.31 aber schon E[X 2n ] = u(2n) (0) = ϕ(2n) (0).
303
2
Bemerkung 15.35. F¨ur ungerade Momente gilt die Aussage des Satzes nicht (siehe ¨ etwa Ubung 15.4.4 f¨ur das erste Moment). In der Tat ist ϕ in 0 genau dann diffex→∞ renzierbar mit Ableitung i m f¨ur ein m ∈ R, wenn x P[|X| > x] −→ 0 und x→∞ E[X {|X|≤x} ] −→ m. (Siehe [53, Kapitel XVII.2a, Seite 565].) 3 ¨ Ubung 15.4.1. Es seien X und Y nichtnegative Zufallsvariablen mit lim sup n→∞
1 E[|X|n ]1/n < ∞, n
lim sup n→∞
1 E[|Y |n ]1/n < ∞, n
und E[X m Y n ] = E[X m ] E[Y n ]
f¨ur alle m, n ∈ N0 .
Man zeige: X und Y sind unabh¨angig. Hinweis: Verwende Korollar 15.32 f¨ur die Zufallsvariable Y bez¨uglich des Wahrscheinlichkeitsmaßes X m P[ · ]/E[X m ] um zu zeigen, dass E[X m
A (Y
)]/E[X m ] = P[Y ∈ A]
f¨ur jedes A ∈ B(R) und m ∈ N0 .
Verwende nun Korollar 15.32 f¨ur X bez¨uglich des W-Maßes P[ · |Y ∈ A].
♣
¨ Ubung 15.4.2. Seien r, s > 0 und Z ∼ Γ1,r+s , B ∼ βr,s (siehe Beispiel 1.107). ¨ Man zeige mit Hilfe von Ubung 15.4.1: Die Zufallsvariablen X := BZ und Y := ♣ (1 − B)Z sind unabh¨angig mit X ∼ Γ1,r und Y ∼ Γ1,s . α ¨ Ubung 15.4.3. Man zeige, dass f¨ur α > 2 die Funktion φα (t) = e−|t| keine charakteristische Funktion ist.
(Hinweis: Man nehme das Gegenteil an und zeige, dass dann die zugeh¨orige Verteilung verschwindende Varianz h¨atte.) ♣ ¨ Ubung 15.4.4. Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit charakteristischer Funktion ϕ. Man zeige: (i) Ist ϕ differenzierbar in 0, so ist ϕ (0) = i m f¨ur ein m ∈ R. (ii) ϕ ist differenzierbar in 0 mit ϕ (0) = i m genau dann, wenn (X1 + . . . + n→∞ Xn )/n −→ m stochastisch. (iii) Die Verteilung von X1 kann so gew¨ahlt werden, dass ϕ differenzierbar in 0 ist, ♣ aber E[|X1 |] = ∞.
304
15 Charakteristische Funktion und Zentraler Grenzwertsatz
15.5 Der Zentrale Grenzwertsatz W¨ahrend wir im starken Gesetz der großen Zahl gesehen haben, dass Summen Sn = X1 + . . . + Xn u.i.v. integrierbarer Zufallsvariablen Werte in etwa von der Gr¨oße n·E[X1 ] annehmen, wollen wir jetzt anschauen, wie groß und von welcher Form die typischen Abweichungen von diesem Wert sind – jedenfalls unter der zus¨atzlichen Annahme, dass Var[X1 ] ∈ (0, ∞). Wir bereiten den Beweis des zentralen Grenzwertsatzes mit einem Lemma vor. Lemma 15.36. Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit E[X1 ] = μ und Var[X1 ] = σ 2 ∈ (0, ∞). Sei n 1 (Xk − μ) Sn∗ := √ nσ 2 k=1
die standardisierte n-te Partialsumme. Dann gilt 2
lim ϕSn∗ (t) = e−t
n→∞
/2
f¨ur jedes t ∈ R.
Beweis. Sei ϕ = ϕXk −μ . Dann ist nach Satz 15.31(ii) σ2 2 t + ε(t) t2 , 2 wobei ε(t) → 0, wenn t → 0. Nach Lemma 15.11(iv) und (ii) ist n t ϕSn∗ (t) = ϕ √ . nσ 2 n n→∞ −t2 /2 t2 Nun ist 1 − 2n −→ e und n n 2 t2 t t 1− t ≤ n 1 − −ϕ √ −ϕ √ 2 2 2n 2n nσ nσ n→∞ t t2 −→ 0. ≤ n 2 ε √ nσ nσ 2 ϕ(t) = 1 −
(Beachte: |un − v n | ≤ |u − v| · n · max(|u|, |v|)n−1 f¨ur alle u, v ∈ C.)
2
Satz 15.37 (Zentraler Grenzwertsatz). Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit μ:= E[X1 ] ∈ R und σ 2 := Var[X1 ] ∈ (0, ∞). F¨ur n ∈ N sei n Sn∗ := √σ12 n i=1 (Xi − μ). Dann gilt n→∞
PSn∗ −→ N0,1 schwach. F¨ur −∞ ≤ a < b ≤ +∞ gilt lim P[Sn∗ ∈ [a, b]] = n→∞
√1 2π
0b a
2
e−x
/2
dx.
15.5 Der Zentrale Grenzwertsatz
305
Beweis. Nach Lemma 15.36 und dem L´evy’schen Stetigkeitssatz (Satz 15.23) kon2 vergiert PSn∗ gegen die Verteilung mit charakteristischer Funktion ϕ(t) = e−t /2 . Nach Satz 15.12(i) ist dies N0,1 . Der Zusatz folgt mit dem Portemanteau Theorem 2 (Satz 13.16), weil N0,1 eine Dichte hat, also N0,1 (∂[a, b]) = 0 gilt. Bemerkung 15.38. Man kann ohne Benutzung des Stetigkeitssatzes auch so argumentieren: F¨ur jedes K > 0 und n ∈ N ist P[|Sn∗ | > K] ≤ Var[Sn∗ ]/K 2 = 1/K 2 , also ist die Folge PSn∗ straff. Da die charakteristischen Funktionen verteilungsbestimmend sind, folgt die Aussage mit Satz 13.34. 3 Wir wollen uns nun von der Annahme von Satz 15.37 l¨osen, dass die Zufallsvariablen identisch verteilt sind. Tats¨achlich k¨onnen wir sogar Partialsummen bilden, die jeweils ganz unterschiedliche zentrierte Zufallsvariablen aufsummieren. Entscheidend ist, dass die Varianz der normierten Summe 1 ist, und dass jeder einzelne Summanden nur einen kleinen Beitrag liefert. Definition 15.39. F¨ur jedes n ∈ N sei k n ∈ N und seien Xn,1 , . . . , Xn,kn reelle Zufallsvariablen. Wir nennen (Xn,l ) = Xn,l , l = 1, . . . , kn , n ∈ N ein Schema von Zufallsvariablen. Wir definieren stets Sn = Xn,1 + . . . + Xn,kn als die Zeilensumme. Das Schema heißt – unabh¨angig, falls f¨ur jedes n ∈ N die Familie (Xn,l )l=1,...,kn unabh¨angig ist, – zentriert, falls Xn,l ∈ L1 (P) und E[Xn,l ] = 0 ist f¨ur jedes n und l, – normiert, falls Xn,l ∈ L2 (P) und
kn
Var[Xn,l ] = 1 ist f¨ur jedes n ∈ N.
l=1
Ein zentriertes Schema heißt asymptotisch vernachl¨assigbar, falls f¨ur jedes ε > 0 lim
max P[|Xn,l | > ε] = 0.
n→∞ 1≤l≤kn
Definition 15.40. Ein zentriertes Schema (Xn,l ) mit Xn,l ∈ L2 (P) f¨ur jedes n ∈ N und l = 1, . . . , kn erf¨ullt die Lindeberg-Bedingung, falls f¨ur jedes ε > 0 gilt, dass Ln (ε) :=
kn ( ' 1 n→∞ 2 E Xn,l −→ 0. 2 2 Xn,l > ε Var[Sn ]} { Var[Sn ]
(15.6)
l=1
Das Schema erf¨ullt die Lyapunov-Bedingung, falls f¨ur ein δ > 0 gilt kn * ) 1 E |Xn,l |2+δ = 0. 1+(δ/2) n→∞ Var[Sn ] l=1
lim
(15.7)
Lemma 15.41. Die Lyapunov-Bedingung impliziert die Lindeberg-Bedingung.
306
15 Charakteristische Funktion und Zentraler Grenzwertsatz
Beweis. F¨ur x ∈ R ist x2 {|x|>ε } ≤ (ε )−δ |x|2+δ {|x|>ε } ≤ (ε )−δ |x|2+δ . Mit kn 3 * ) 1 −δ 2+δ . 2 E |X | ε := ε Var[Sn ] folgt Ln (ε) ≤ ε n,l Var[Sn ]1+(δ/2) l=1 Beispiel 15.42. Seien (Yn )n∈N u.i.v. mit E[Yn ] = 0 und Var[Yn ] = 1. Sei kn = n und Xn,l = √Ynl . Dann ist (Xn,l ) unabh¨angig, zentriert und normiert. Es gilt √ n→∞ P[|Xn,l | > ε] = P[|Y1 | > ε n ] −→ 0, also ist (Xn,l ) asymptotisch ver* n→∞ ) 2 nachl¨assigbar. Es gilt Ln (ε) = E Y1 {|Y1 |>ε√n} −→ 0, also erf¨ullt (Xn,l ) die Lindeberg-Bedingung. Gilt Y1 ∈ L2+δ (P) f¨ur ein δ > 0, so ist n * * n→∞ ) ) E |Xn,l |2+δ = n−(δ/2) E |Y1 |2+δ −→ 0. l=1
3
In diesem Fall erf¨ullt (Xn,l ) auch die Lyapunov Bedingung.
Der folgende Satz geht auf Lindeberg (1922) f¨ur die Richtung (i) =⇒ (ii) und Feller (1935 und 1937) f¨ur die Richtung (ii) =⇒ (i) zur¨uck. In den Anwendungen interessiert meist nur die Richtung von Lindeberg (i) =⇒ (ii), daher beweisen wir nur diesen Teil. F¨ur die Richtung (ii) =⇒ (i) siehe etwa [145, Theorem III.4.3]. Satz 15.43 (Zentraler Grenzwertsatz von Lindeberg-Feller). Sei (Xn,l ) ein unabh¨angiges, zentriertes und normiertes Schema reeller Zufallsvariablen, sowie Sn = Xn,1 + . . . + Xn,kn f¨ur jedes n ∈ N. Dann sind a¨ quivalent (i) Es gilt die Lindeberg-Bedingung. n→∞
(ii) (Xn,l ) ist asymptotisch vernachl¨assigbar, und es gilt PSn −→ N0,1 . Wir bereiten den Beweis des Satzes von Lindeberg mit ein paar Lemmata vor. Lemma 15.44. Gilt (i) in Satz 15.43, so ist (Xn,l ) asymptotisch vernachl¨assigbar. Beweis. F¨ur ε > 0 ist nach der Chebyshev’schen Ungleichung kn kn ) * ) 2 P |Xn,l | > ε ≤ ε−2 E Xn,l l=1
{|Xn,l |>ε}
*
n→∞
= Ln (ε) −→ 0.
2
l=1
Seien im Folgenden stets ϕn,l und ϕn die charakteristischen Funktionen von Xn,l und Sn . Lemma 15.45. F¨ur jedes n ∈ N und t ∈ R gilt
kn 2 1 − ϕn,l (t) ≤ t . 2 l=1
15.5 Der Zentrale Grenzwertsatz t2 x2 2 .
Beweis. F¨ur jedes x ∈ R ist |eitx − 1 − itx| ≤ kn
|ϕn,l (t) − 1| =
l=1
307
Wegen E[Xn,l ] = 0 ist
kn itX E[e n,l − 1] l=1
≤
kn * ) E eitXn,l − itXn,l − 1 + E[itXn,l ] l=1
≤
kn 2 t l=1
2
t2 . 2
2 E[Xn,l ]=
2
kn ) * Lemma 15.46. Gilt (i) in Satz 15.43, so ist lim log ϕn (t)− E eitXn,l −1 = 0. n→∞
Beweis. Setze mn :=
l=1
max |ϕn,l (t) − 1|. Beachte, dass f¨ur jedes ε > 0 gilt:
l=1,...,kn
itx e − 1 ≤
2 x2 /ε2 , ε t,
falls |x| > ε, falls |x| ≤ ε.
Hieraus folgt ' |ϕn,l (t) − 1| ≤ E eitXn,l − 1
( {|Xn,l |≤ε}
' 2 ≤ εt + 2 ε−2 E Xn,l
' + E eitXn,l − 1
( {|Xn,l |>ε}
( {|Xn,l |>ε}
.
Also ist f¨ur jedes ε > 0
lim sup mn ≤ lim sup εt + 2 ε−2 Ln (ε) = εt, n→∞
n→∞
und damit lim mn = 0. Nun ist f¨ur x ∈ C mit |x| ≤ n→∞
Ist n groß genug, sodass mn < 12 , dann ist
1 2
stets | log(1 + x) − x| ≤ x2 .
308
15 Charakteristische Funktion und Zentraler Grenzwertsatz
k kn n itXn,l itXn,l E[e − 1] = log(ϕn,l (t)) − E[e − 1] log ϕn (t) − l=1
l=1
≤
kn
2 ϕn,l (t) − 1
l=1
≤ mn
kn
|ϕn,l (t) − 1|
l=1
≤
1 mn t 2 2
−→ 0
(nach Lemma 15.45)
f¨ur n → ∞.
2
Der eigentliche Trick besteht in der Einf¨uhrung der Funktion ⎧ 1 + x2 itx itx ⎪ ⎪ e −1− , falls x = 0, ⎨ x2 1 + x2 ft (x) := ⎪ ⎪ t2 ⎩ − , falls x = 0, 2
(15.8)
sowie der Maße μn , νn ∈ Mf (R), n ∈ N, νn (dx) :=
kn
x2 PXn,l (dx)
und
μn (dx) :=
l=1
kn l=1
x2 PXn,l (dx). 1 + x2
Lemma 15.47. F¨ur jedes t ∈ R gilt ft ∈ Cb (R). Beweis. F¨ur jedes |x| ≥ 1 ist
1+x2 x2
|ft (x)| ≤ 2 |e
itx
≤ 2, also gilt tx |+1+ 1 + x2
≤ 4 + 2|t|.
Wir m¨ussen zeigen, dass ft stetig in 0 ist. Die Taylorformel (Lemma 15.30) liefert eitx = 1 + itx −
t2 x2 + R(tx) 2
mit |R(tx)| ≤ 16 |tx|3 . Also ist f¨ur festes t t2 1 1 t2 x2 + R(tx) =− . 2 itx 1 − − lim ft (x) = lim 2 2 0 =x→0 0 =x→0 x 1+x 2 2 n→∞
Lemma 15.48. Gilt (i) in Satz 15.43, so gilt νn −→ δ0 schwach.
15.5 Der Zentrale Grenzwertsatz
309
Beweis. F¨ur jedes n ∈ N ist νn ∈ M1 (R), denn νn (R) =
kn
x2 PXn,l (dx) =
l=1
kn
Var[Xn,l ] = 1,
l=1 n→∞
n→∞
F¨ur ε > 0 gilt aber νn ((−ε, ε)c ) = Ln (ε) −→ 0, also νn −→ δ0 .
2
Lemma 15.49. Gilt (i) in Satz 15.43, so gilt
ft (x) μn (dx) + it
t2 1 n→∞ μn (dx) −→ − . x 2
Beweis. Wegen (x → ft (x)/(1 + x2 )) ∈ Cb (R) ist nach Lemma 15.48 1 t2 n→∞ . ν (dx) −→ f (0) = − ft (x) μn (dx) = ft (x) n t 1 + x2 2 Nun ist (x → x/(1 + x2 )) ∈ Cb (R) und E[Xn,l ] = 0 f¨ur jedes n und l, also . . kn kn 1 Xn,l Xn,l μn (dx) = E E = 2 2 − Xn,l x 1 + Xn,l 1 + Xn,l l=1
=−
l=1
kn l=1
-
Xn,l 2 E Xn,l · 2 1 + Xn,l
.
x n→∞ νn (dx) −→ 0. 1 + x2
=−
2
Beweis von Satz 15.43 2 (i) =⇒ (ii)“ Wir m¨ussen f¨ur jedes t ∈ R zeigen, dass lim log ϕn (t) = − t2 . ” n→∞ Nach Lemma 15.46 ist dies a¨ quivalent zu lim
n→∞
kn
l=1
2
x itx Nun ist ft (x) 1+x −1− 2 = e kn
kn ϕn,l (t) − 1 =
l=1
t2 ϕn,l (t) − 1 = − . 2
itx 1+x2 .
Also gilt
ft (x)
l=1
=
ft dμn + it
n→∞
−→ −
x2 itx + 1 + x2 1 + x2
t2 2
PXn,l (dx)
1 μn (dx) x
(nach Lemma 15.49)
2
310
15 Charakteristische Funktion und Zentraler Grenzwertsatz
Als eine Anwendung des Satzes von Lindeberg-Feller bringen wir den so genannten Dreireihensatz, der auf Kolmogorov zur¨uckgeht. Satz 15.50 (Kolmogorov’scher Dreireihensatz). Seien X1 , X2 , . . . unabh¨angige reelle Zufallsvariablen. Es sei K > 0 und Yn := Xn {|Xn |≤K} f¨ur jedes n ∈ N. ∞ Die Reihe n=1 Xn konvergiert genau dann fast sicher, wenn die folgenden drei Bedingungen gelten: (i)
∞
P[|Xn | > K] < ∞,
n=1
(ii)
∞
E[Yn ] konvergiert,
n=1
(iii)
∞
Var[Yn ] < ∞.
n=1
¨ Beweis. ⇐= “ Es gelten (i), (ii) und (iii). Nach Ubung 7.1.1 konvergiert ∞ wegen ” ∞ (iii) die Reihe n=1 (Yn − E[Yn ]) f.s. Wegen (ii) konvergiert also n=1 Yn f.s. Nach dem Lemma von Borel-Cantelli existiert ein N = N (ω), sodass |Xn | < K, ∞ N −1 ∞ also Xn = Yn , f¨ur n ≥ N . Also ist n=1 Xn = n=1 Xn + n=N Yn f.s. konvergent. ∞ =⇒ “ Es konvergiere n=1 Xn f.s. Offenbar folgt daraus, dass (i) gilt (andern” falls w¨are nach dem Lemma von Borel-Cantelli |Xn | > K unendlich oft, was der Annahme widerspr¨ache). Wir nehmen n an, dass (iii) nicht gilt und f¨uhren dies zum Widerspruch. Wir setzen σn2 = k=1 Var[Yk ] und definieren ein Schema (Xn,l ; l = 1, . . . , n, n ∈ N) durch Xn,l = (Yl − E[Yl ])/σn . Das Schema ist zentriert und normiert. Wegen n→∞ σn2 −→ ∞, gilt f¨ur jedes ε > 0 und großes n ∈ N, dass 2K < εσn , aber n→∞ |Xn,l | ≤ ε f¨ur alle l = 1, . . . , n. Es folgt Ln (ε) −→ 0, wobei Ln (ε) = n * ) 2 E Xn,l {|Xn,l |≥ε} die Gr¨oße aus der Lindeberg-Bedingung ist (siehe (15.6)). l=1
n→∞
Nach dem Satz von Lindeberg-Feller gilt also Sn := Xn,1 +. . .+Xn,n =⇒ N0,1 . Wie ∞im ersten Teil des Beweises gezeigt, folgt aus der fast sicheren Konvergenz von n=1 Xn und aus (i) ∞
Yn
konvergiert fast sicher.
(15.9)
n=1 n→∞
Insbesondere gilt Tn := (Y1 + . . . + Yn )/σn =⇒ 0. Nach dem Satz von Slutzky n→∞ gilt also auch (Sn − Tn ) =⇒ N0,1 . Andererseits ist Sn − Tn deterministisch f¨ur jedes n ∈ N, womit die Annahme, dass (iii) nicht gilt ad absurdum gef¨uhrt ist.
15.5 Der Zentrale Grenzwertsatz
¨ Nachdem wir (iii) schon gezeigt haben, folgt mit Ubung 7.1.1, dass E[Yn ]) fast sicher konvergiert. Wegen (15.9) folgt (ii).
∞
311
n=1 (Yn
− 2
Als Erg¨anzung bringen wir ohne Beweis eine Absch¨atzung f¨ur die Konvergenzgeschwindigkeit im Zentralen Grenzwertsatz (siehe beispielsweise [145, Kapitel III, §11] f¨ur einen Beweis), die mit anderen Konstanten (statt 0.8) unabh¨angig von Berry [13] und Esseen [45] gefunden wurde. Satz 15.51 (Berry-Esseen). Seien X1 , X2 , . . . unabh¨angig und identisch verteilt mit E[X1 ] = 0, E[X12 ] = σ 2 ∈ (0, ∞) und γ := E[|X1 |3 ] < ∞. Seien Sn∗ := 0 x −t2 /2 √ 1 (X1 + · · · + Xn ) und Φ : x → √1 e dt die Verteilungsfunktion 2π −∞ nσ 2 der Standardnormalverteilung. Dann gilt f¨ur jedes n ∈ N 0.8 γ sup P [Sn∗ ≤ x] − Φ(x) ≤ 3 √ . σ n x∈R ¨ Ubung 15.5.1. Die Argumentation aus Bemerkung 15.38 ist etwas direkter als die Argumentation mit dem L´evy’schen Stetigkeitssatz, allerdings etwas weniger robust: Man gebe eine Folge X1 , X2 , . . . von unabh¨angigen, reellen Zufallsvariablen an mit E[|Xn |] = ∞ f¨ur jedes n ∈ N, aber mit X1 + . . . + Xn n→∞ √ =⇒ N0,1 . n
♣
¨ Ubung 15.5.2. Seien Y1 , Y2 , . . . u.i.v. mit E[Yi ] = 0 und E[Yi2 ] = 1. Davon unabh¨angig seien Z1 , Z2 , . . . unabh¨angige Zufallsvariablen mit P[Zi = i] = P[Zi = −i] =
11 1 1 − P[Zi = 0] = 2 . 2 2i
Setze Xi := Yi + Zi und Sn = X1 + . . . + Xn f¨ur i, n ∈ N. n→∞
Man zeige: n−1/2 Sn =⇒ N0,1 , aber (Xi )i∈N erf¨ullt keine Lindeberg-Bedingung. Hinweis: M¨oglichst nicht direkt ausrechnen!
♣
¨ Ubung 15.5.3. Seien X1 , X2 , . . . u.i.v. Zufallsvariablen mit Dichte f (x) =
1 |x|3
R\[−1,1] (x).
Dann ist E[X12 ] = ∞, aber es gibt Zahlen A1 , A2 , . . ., sodass X1 + . . . + Xn n→∞ =⇒ N0,1 . An Man gebe die Folge (An )n∈N explizit an.
♣
312
15 Charakteristische Funktion und Zentraler Grenzwertsatz
15.6 Mehrdimensionaler Zentraler Grenzwertsatz Wir kommen zu einer mehrdimensionalen Variante des zentralen Grenzwertsatzes. Definition 15.52. Sei C eine (strikt) positiv definite symmetrische reelle d×d Matrix und μ ∈ Rd . Ein Zufallsvektor X = (X1 , . . . , Xd )T heißt d-dimensional normalverteilt mit Erwartungswert μ und Kovarianzmatrix C, falls X die Dichte 1: ; 1 fμ,C (x) = 3 exp − x − μ, C −1 (x − μ) (15.10) 2 (2π)d det(C) f¨ur x ∈ Rd hat. Wir schreiben X ∼ Nμ,C . Satz 15.53. Sei μ ∈ Rd und C eine reelle positiv definite symmetrische reelle d×d Matrix. Ist X ∼ Nμ,C , dann gelten: (i) E[Xi ] = μi f¨ur jedes i = 1, . . . , d. (ii) Cov[Xi , Xj ] = Ci,j f¨ur alle i, j = 1, . . . , d. (iii) λ, X! ∼ Nλ,μ,λ,Cλ f¨ur jedes λ ∈ Rd . 1
(iv) ϕ(t) := E[eit,X ] = eit,μ e− 2 t,Ct f¨ur jedes t ∈ Rd . Es gilt sogar X ∼ Nμ,C ⇐⇒ (iii) ⇐⇒ (iv). Beweis. (i) und (ii) sind einfache Rechnungen, ebenso (iii) und (iv). Die Implikation (iii) =⇒ (iv) ist simpel. Die Familie {ft : x → eit,x , t ∈ Rd } ist trennend f¨ur M1 (Rd ) nach dem Satz von Stone–Weierstraß. Also legt ϕ die Verteilung von X eindeutig fest. 2 Bemerkung 15.54. F¨ur eindimensionale Normalverteilungen liegt es nahe, Nμ,0 als δμ zu definieren. Einen so einfachen Begriff k¨onnen wir bei mehrdimensionalen Normalverteilungen nicht mehr erwarten (außer f¨ur den Fall C = 0), wenn eine Entartung nur in einigen Richtungen auftritt, also C nur noch positiv semidefinit und symmetrisch ist. In diesem Fall definieren wir Nμ,C als diejenige Verteilung 1 auf Rn mit charakteristischer Funktion ϕ(t) = eit,μ e− 2 t,Ct . 3 Satz 15.55 (Cram´er-Wold Device). Sind Xn = (Xn,1 , . . . , Xn,d )T ∈ Rd , n ∈ N ∪ {∞}, Zufallsvektoren, so gilt genau dann n→∞
PXn −→ PX∞
schwach,
(15.11)
wenn f¨ur jedes λ ∈ Rd gilt, dass n→∞
Pλ,Xn −→ Pλ,X∞
schwach.
(15.12)
15.6 Mehrdimensionaler Zentraler Grenzwertsatz
313
Beweis. Gelte (15.11). Sei λ ∈ Rd und s ∈ R. Die Abbildung Rd → C, x → n→∞ ei sλ,x ist stetig und beschr¨ankt, also gilt E[ei sλ,Xn ] −→ E[ei sλ,X∞ ]. Damit gilt (15.12). Gelte nun (15.12). Dann ist (Xn,l )n∈N straff, l = 1, . . . , d. Also ist (Xn )n∈N straff und damit relativ folgenkompakt (Satz von Prohorov). F¨ur jeden schwachen H¨aufungspunkt Q von (PXn )n∈N ist f¨ur jedes λ ∈ Rd * ) Q(dx) eiλ,x = E eiλ,X∞ . Also gilt Q = PX∞ und damit (15.11).
2
Satz 15.56 (Zentraler Grenzwertsatz im Rd ). Seien (Xn )n∈N u.i.v. Zufallsvektoren mit E[Xn,i ] = 0 und E[Xn,i Xn,j ] = Cij , i, j = 1, . . . , d. Sei Sn∗ := X1 +...+X n √ . Dann gilt n n→∞
PSn∗ −→ N0,C
schwach.
Beweis. Sei λ ∈ Rd . Setze Xnλ = λ, Xn !, Snλ = λ, Sn∗ ! und S∞ ∼ N0,C . Dann ist E[Xnλ ] = 0 und Var[Xnλ ] = λ, Cλ!. Nach dem eindimensionalen Zentralen n→∞ Grenzwertsatz gilt PSnλ −→ N0,λ,Cλ = Pλ, S∞ . Nach Satz 15.55 zeigt dies die Aussage. 2 ¨ Ubung 15.6.1. Sei μ ∈ Rd , C eine symmetrische positiv semidefinite reelle d × d Matrix und X ∼ Nμ,C (im Sinne von Bemerkung 15.54). Man zeige: F¨ur jedes ♣ m ∈ N und jede reelle m × d Matrix A gilt AX ∼ NAμ,ACAT . ¨ Ubung 15.6.2. (Cholesky-Faktorisierung) Sei C eine positiv definite symmetrische reelle d × d Matrix. Dann existiert eine reelle d × d Matrix A = (akl ) mit A · AT = C. Man kann A sogar als untere Dreiecksmatrix w¨ahlen. Sei W := (W1 , . . . , Wd )T , wo W1 , . . . , Wd unabh¨angig und N0,1 verteilt sind. Wir ♣ setzen X := AW + μ. Man zeige: X ∼ Nμ,C .
16 Unbegrenzt teilbare Verteilungen
Die Normalverteilung Nμ,σ2 l¨asst sich f¨ur jedes n ∈ N als n-te Faltungspotenz eines W-Maßes schreiben (n¨amlich von Nμ/n,σ2 /n ). Die selbe Eigenschaft, die wir unbegrenzte Teilbarkeit nennen, hat die Poisson-Verteilung. Im ersten Abschnitt untersuchen wir, welche W-Maße auf R unbegrenzt teilbar sind und geben eine ersch¨opfende Beschreibung der Klasse dieser Maße durch die L´evy-Khinchin Formel. Die Normalverteilung hat (im Gegensatz zur Poisson-Verteilung) die Eigenschaft, dass sie als Grenzwert reskalierter Summen von u.i.v. Zufallsvariablen auftritt (Zentraler Grenzwertsatz). Im zweiten Abschnitt untersuchen wir knapp die Teilklasse unbegrenzt teilbarer Maße auf R, die diese Eigenschaft haben.
16.1 Die L´evy-Khinchin Formel Zur Abk¨urzung verwenden wir in diesem Abschnitt die Bezeichnung CFW“ f¨ur ” charakteristische Funktion eines W-Maßes auf R“. ” Definition 16.1. Ein Maß μ ∈ M1 (R) heißt unbegrenzt teilbar, falls es f¨ur jedes n ∈ N ein μn ∈ M1 (R) mit der Eigenschaft μ∗n n = μ gibt. Analog nennen wir eine CFW ϕ unbegrenzt teilbar, falls es zu jedem n ∈ N eine CFW ϕn gibt mit ϕ = ϕnn . Eine reelle Zufallsvariable X heißt unbegrenzt teilbar, falls es zu jedem n ∈ N u.i.v. D Zufallsvariablen Xn,1 , . . . , Xn,n gibt mit X = Xn,1 + . . . + Xn,n . Offenbar sind alle drei Begriffe der unendlichen Teilbarkeit a¨ quivalent, und wir wollen sie synonym verwenden. Man beachte, dass die Eindeutigkeit von μn beziehungsweise ϕn keineswegs evident ist. Tats¨achlich folgt aus der n-fachen Teilbarkeit noch nicht die Eindeutigkeit der n-ten Faltungswurzel μ∗1/n := μn beziehungsweise von ϕn . Um dies f¨ur gerades n einzusehen, w¨ahle man etwa eine reelle CFW ϕ, f¨ur die |ϕ| = ϕ ebenfalls eine CFW ist (siehe Beispiel 15.16 und 15.17). Dann ist ϕn = |ϕ|n n-fach teilbar, jedoch sind die Faktoren nicht eindeutig. ¨ Mit Hilfe des L´evy’schen Stetigkeitssatzes kann man zeigen (siehe Ubung 16.1.1), dass ϕ(t) = 0 f¨ur alle t ∈ R gilt, falls ϕ unbegrenzt teilbar ist. Die probabilistische Bedeutung dieser Aussage liegt darin, dass log(ϕ(t)) als stetige Funktion eindeutig
316
16 Unbegrenzt teilbare Verteilungen
definiert ist und damit auch nur genau eine stetige Funktion ϕ1/n = exp(log(ϕ)/n) existiert. Die n-ten Faltungswurzeln sind also eindeutig definiert, falls die Verteilung unbegrenzt teilbar ist. ∗n = δx f¨ur jedes n ∈ N. Beispiele 16.2. (i) δx ist unbegrenzt teilbar mit δx/n ∗n (ii) Die Normalverteilung ist unbegrenzt teilbar mit Nm,σ2 = Nm/n,σ 2 /n .
(iii) Die Cauchy-Verteilung Caua mit Dichte x → (aπ)−1 (1 + (x/a)2 )−1 ist −a|t| , unbegrenzt teilbar mit Caua = Cau∗n a/n . In der Tat: Caua hat CFW ϕa (t) = e n also ist ϕa/n = ϕa . (iv) Jede symmetrische stabile Verteilung mit Index α ∈ (0, 2] und Gr¨oßenparaα meter γ > 0, also mit CFW ϕα,γ (t) = e−|γt| , ist unbegrenzt teilbar. In der Tat ist ϕnα,γ/n1/α = ϕα,γ . (Genau genommen haben wir bislang erst f¨ur α ∈ (0, 1] (in Korollar 15.25) und f¨ur α = 2 (Normalverteilung) gezeigt, dass ϕα,γ u¨ berhaupt eine CFW ist. In Abschnitt 16.2 zeigen wir, dass dies tats¨achlich f¨ur alle α ∈ (0, 2] ¨ 15.4.3.) richtig ist. F¨ur α > 2 ist ϕα,γ hingegen keine CFW, siehe Ubung (v) Die Gamma-Verteilung Γθ,r mit CFW ϕθ,r (t) = exp(rψθ (t)), wo ψθ (t) = ∗n . log(1 − it/θ) ist, ist unbegrenzt teilbar mit Γθ,r = Γθ,r/n (vi) Die Poisson-Verteilung ist unbegrenzt teilbar mit Poiλ = Poi∗n λ/n . −r ({k}) = (−1)k pr (1 − p)k , k ∈ (vii) Die negative Binomialverteilung b− r,p k N0 , mit Parametern r > 0 und p ∈ (0, 1) ist unbegrenzt teilbar mit b− r,p = ∗n rψp (t) (b− ) . In der Tat ist ϕ (t) = e , wo r,p r/n,p ψp (t) = log(p) − log(1 − (1 − p)eit ).
(viii) Seien X und Y unabh¨angig und X ∼ N0,σ2 sowie Y ∼ Γθ,r√ , wobei σ 2 , θ, r > 0 sind. Man kann zeigen, dass die Zufallsvariable Z := X/ Y unbegrenzt teilbar ist (siehe [64] oder [123]). Insbesondere ist die Student’sche tVerteilung mit k ∈ N Freiheitsgraden unbegrenzt teilbar (dieses ist der Fall σ 2 = 1 und θ−1 = r = k). (ix) Die Binomialverteilung bn,p ist f¨ur n ∈ N und p ∈ (0, 1) nicht unbegrenzt teilbar (warum?). (x) Etwas allgemeiner ist außer der trivialen Verteilung keine Verteilung unbegrenzt teilbar, die auf ein endliches Intervall konzentriert ist. 3 Ein Hauptziel dieses Abschnitts ist es zu zeigen, dass sich jede unbegrenzt teilbare Verteilung aus drei generischen zusammensetzt:
16.1 Die L´evy-Khinchin Formel
317
– den Punktverteilungen δx mit x ∈ R, – den Normalverteilungen Nμ,σ2 mit μ ∈ R und σ 2 > 0, – (Grenzwerten von) Faltungen von Poisson-Verteilungen. Da die Faltungen von Poisson-Verteilungen eine besondere Rolle spielen, wollen wir sie hier gesondert betrachten. Ist ν ∈ M1 (R) mit CFW ϕν und ist λ > 0, so kann man leicht nachrechnen, ∞ k dass ϕ(t) = exp(λ(ϕν (t) − 1)) die CFW von μλ = k=0 e−λ λk! ν ∗k ist. Formal k¨onnen wir also μλ = e∗λ(ν−δ0 ) schreiben. Tats¨achlich ist μλ unbegrenzt teilbar mit μλ = μ∗n λ/n . Wir wollen nun die Parameter λ und ν zu λν zusammenfassen. F¨ur ν ∈ Mf (R) k¨onnen wir ν ∗n = ν(R)n (ν/ν(R))∗n setzen, beziehungsweise ν ∗n = 0, falls ν = 0. Wir treffen daher die folgende Definition. Definition 16.3. Die zusammengesetzte Poissonverteilung (compound Poisson distribution) mit Intensit¨atsmaß ν ∈ Mf (R) ist das folgende W-Maß auf R: ∗(ν−ν(R)δ0 )
CPoiν := e
−ν(R)
:= e
∞ ν ∗n . n! n=0
Die CFW von CPoiν ist gegeben durch itx ϕν (t) = exp (e − 1) ν(dx) .
(16.1)
Speziell ist CPoiμ+ν = CPoiμ ∗ CPoiν , also ist CPoiν unbegrenzt teilbar. Beispiel 16.4. F¨ur jede messbare Menge A ⊂ R \ {0} und jedes r > 0 ist r−1 CPoirν (A) = e−rν(R) ν(A) + e−rν(R)
∞ rk−1 ν ∗k (A) k=2
k!
r↓0
−→ ν(A).
Wir wollen dies benutzen um zu zeigen, dass b− ur ein gewisses ν ∈ r,p = CPoirν f¨ Mf (N). Wir berechnen dazu f¨ur k ∈ N r−1 b− r,p ({k}) =
k r(r + 1) · · · (r + k − 1) r r↓0 (1 − p) p (1 − p)k −→ . r k! k
Wenn b− ur ein ν ∈ Mf (N) ist, ist also ν({k}) = (1 − p)k /k. Wir r,p = CPoirν f¨ berechnen die CFW von CPoirν f¨ur dieses ν ∞ ((1 − p)eit )k −r
. ϕrν (t) = exp r = 1 − (1 − p)eit k k=1
Dies ist aber die CFW von b− achlich b− r,p , also ist tats¨ r,p = CPoirν .
3
318
16 Unbegrenzt teilbare Verteilungen
Nicht jede unbegrenzt teilbare Verteilung ist vom Typ CPoiν , allerdings gilt: Satz 16.5. Ein W-Maß μ auf R ist genau dann unbegrenzt teilbar, wenn es eine n→∞ Folge (νn )n∈N in Mf (R \ {0}) gibt mit CPoiνn −→ μ. Da jedes CPoiνn unbegrenzt teilbar ist, m¨ussen wir einerseits zeigen, dass diese Eigenschaft unter schwachen Limiten erhalten bleibt. Andererseits zeigen wir, dass f¨ur unbegrenzt teilbares μ die Folge νn = nμ∗1/n das Gew¨unschte leistet. Wir bereiten den Beweis mit einem weiteren Satz vor. Satz 16.6. Sei (ϕn )n∈N eine Folge von CFWs. Dann sind a¨ quivalent: (i) F¨ur jedes t ∈ R existiert ϕ(t) = lim ϕnn (t), und ϕ ist stetig in 0. n→∞
(ii) F¨ur jedes t ∈ R existiert ψ(t) = lim n(ϕn (t) − 1), und ψ ist stetig in 0. n→∞
Gelten (i) und (ii), so ist ϕ = eψ eine CFW. Beweis. Der Beweis beruht auf der Taylor-Entwicklung des Logarithmus’ | log(z) − (z − 1)| ≤ |z − 1|2 /2
f¨ur z ∈ C mit |z − 1| < 1/2.
Speziell gilt f¨ur (zn )n∈N in C lim sup n |zn − 1| < ∞ ⇐⇒ lim sup |n log(zn )| < ∞. n→∞
(16.2)
n→∞
und limn→∞ n(zn − 1) = limn→∞ n log(zn ), falls einer der Limiten existiert. Wenden wir dies auf zn = ϕn (t) an, so folgt (i) aus (ii). Andererseits folgt (ii) aus (i), wenn lim inf n→∞ n log(|ϕn (t)|) > −∞, also wenn ϕ(t) = 0 f¨ur jedes t ∈ R. Da ϕ stetig in 0 ist und ϕ(0) = 1 gilt, gibt es ein ε > 0 mit |ϕ(t)| > 12 f¨ur jedes t ∈ [−ε, ε]. Da ϕ und ϕn CFWs sind, sind auch |ϕ|2 und |ϕn |2 CFWs. Aus der punktweisen Konvergenz von |ϕn (t)|2n gegen |ϕ(t)|2 folgt nach dem L´evy’schen Stetigkeitssatz also die gleichm¨aßige Konvergenz auf kompakten Mengen. Wende nun (16.2) mit zn = |ϕn (t)|2 an. F¨ur t ∈ [−ε, ε] ist daher (n(1 − |ϕn (t)|2 ))n∈N beschr¨ankt. Nach Lemma 15.11(v) ist dann aber auch n(1 − |ϕn (2t)|2 ) ≤ 4n(1 − |ϕn (t)|2 ) beschr¨ankt, also |ϕ(2t)|2 ≥ lim inf exp(4n(|ϕn (t)|2 − 1)) = (|ϕ(t)|2 )4 . n→∞
Iterativ erhalten wir |ϕ(t)| ≥ 2−(4 |ϕ(t)| > Gelten (i) und (ii), so ist
k
)
f¨ur |t| ≤ 2k ε. Es gibt also ein γ > 0, sodass
1 −γ t2 e 2
f¨ur jedes t ∈ R.
(16.3)
16.1 Die L´evy-Khinchin Formel
319
log ϕ(t) = lim n log(ϕn (t)) = lim n(ϕn (t) − 1) = ψ(t). n→∞
n→∞
Nach dem L´evy’schen Stetigkeitssatz ist ϕ als stetiger Limes von CFWs selbst eine CFW. 2 Korollar 16.7. Gelten die Bedingungen von Satz 16.6, so ist ϕr eine CFW f¨ur jedes r > 0. Insbesondere ist ϕ = (ϕ1/n )n unbegrenzt teilbar. Beweis. Ist ϕn die CFW von μn ∈ M1 (R), so ist ern(ϕn −1) die CFW von CPoirnμn . Als in 0 stetiger Limes von CFWs ist ϕr = erψ = limn→∞ ern(ϕn −1) nach dem L´evy’schen Stetigkeitssatz eine CFW. Mit r = n1 folgt, dass ϕ = (ϕ1/n )n unbegrenzt teilbar ist. 2 Korollar 16.8. Eine in 0 stetige Funktion ϕ : R → C ist genau dann eine unbegrenzt teilbare CFW, wenn es eine Folge (ϕn )n∈N von CFWs gibt mit ϕnn (t) → ϕ(t) f¨ur jedes t ∈ R. Beweis. Die eine Richtung ist schon in Korollar 16.7 gezeigt worden. Sei also ϕ 2 eine unbegrenzt teilbare CFW. Dann leistet ϕn = ϕ1/n das Gew¨unschte. Korollar 16.9. Ist (μn )n∈N eine (schwach) konvergente Folge unbegrenzt teilbarer W-Maße auf R, so ist μ = limn→∞ μn unbegrenzt teilbar. ∗1/n
Beweis. Wende Satz 16.6 an mit ϕn die CFW von μn
.
2
Korollar 16.10. Ist μ ∈ M1 (R) unbegrenzt teilbar, so existiert eine stetige Faltungshalbgruppe (μt )t≥0 mit μ1 = μ und ein stochastischer Prozess (Xt )t≥0 mit unabh¨angigen, station¨aren Zuw¨achsen Xt − Xs ∼ μt−s f¨ur t > s. Beweis. Sei ϕ die CFW von μ. Die Existenz der Faltungshalbgruppe folgt aus Korollar 16.8 und 16.7, indem wir μr durch ϕr definieren. Die Stetigkeit der Halbgruppe folgt, da ϕr → 1 f¨ur r → 0 (weil ϕr (t) = 0 f¨ur alle t ∈ R). Schließlich folgt die Existenz des Prozesses X aus Satz 14.47. 2 Korollar 16.11. Ist ϕ eine unbegrenzt teilbare CFW, so existiert ein γ > 0 mit 2 α |ϕ(t)| ≥ 12 e−γ t f¨ur jedes t ∈ R. Speziell ist t → e−|t| f¨ur kein α > 2 eine CFW. Beweis. Dies folgt direkt aus (16.3).
2
Beweis (von Satz 16.5). Da CPoiνn unbegrenzt teilbar ist, ist nach Korollar 16.9 auch der schwache Limes unbegrenzt teilbar. Sei nun μ unbegrenzt teilbar mit CFW ϕ. W¨ahle W-Maße μn mit CFW ϕn wie in n→∞ n→∞ Korollar 16.8. Nach Satz 16.6 gilt en(ϕn −1) −→ ϕ, also auch CPoinμn −→ ν. 2
320
16 Unbegrenzt teilbare Verteilungen
Ohne Beweis bringen wir die folgende Versch¨arfung von Korollar 16.8, die auf einer feineren Analyse mit den Argumenten aus Satz 16.6 beruht. Satz 16.12. Sei (ϕn,l ; l = 1, . . . , kn , n ∈ N) ein Schema von CFWs mit der Eigenschaft sup |ϕn,l (t) − 1| = 0. (16.4) sup lim sup sup L>0
n→∞
t∈[−L,L] l=1,...,kn
Existiert f¨ur jedes t ∈ R der Limes ϕ(t) := limn→∞ in 0, so ist ϕ eine unbegrenzt teilbare CFW.
kn l=1
ϕn,l (t), und ist ϕ stetig
2
Beweis. Siehe etwa [53, Kapitel XV.7]. n→∞
In dem Fall, wo f¨ur jedes n die ϕn,l alle gleich sind und kn −→ ∞, gilt (16.4) automatisch, wenn das Produkt gegen eine stetige Funktion konvergiert. Der Satz liefert also tats¨achlich eine Verbesserung von Korollar 16.8. Der Wert des Satzes liegt in der folgenden Beobachtung. Sei (Xn,l ; l = 1, . . . , kn , n ∈ N) ein Schema reeller Zufallsvariablen mit CFWs ϕn,l . Genau dann ist das Schema asymptotisch vernachl¨assigbar, wenn (16.4) gilt: Gilt P[|Xn,l | > ε] < δ, so ist f¨ur jedes t ∈ [−1/ε, 1/ε] schon |ϕn,l (t) − 1| ≤ 2ε + δ. Also folgt (16.4) aus der Vernachl¨assigbarkeit des Schemas. Andererseits impliziert (16.4), dass f¨ur jede n→∞ n→∞ Folge (ln ) mit ln ≤ kn gilt ϕn,ln −→ 1, also Xn,ln −→ 0 stochastisch. Aus diesen Betrachtungen und Satz 16.12 erhalten wir den folgenden Satz. Satz 16.13. Sei (Xn, l ; l = 1, . . . , kn , n ∈ N) ein unabh¨angiges, asymptotisch vernachl¨assigbares Schema reeller Zufallsvariablen. Gibt es ein S mit Xn,1 + n→∞ . . . + Xn,kn =⇒ S, so ist S unbegrenzt teilbar. Wir wollen als eine direkte Anwendung von Satz 16.5 die unbegrenzt teilbaren WMaße auf [0, ∞) durch Angabe ihrer Laplace-Transformierten vollst¨andig beschreiben. Der folgende Satz ist von eigenst¨andigem Interesse, dient aber haupts¨achlich zur Einstimmung auf die etwas technischere Beschreibung aller unbegrenzt teilbaren W-Maße auf R.
16.1 Die L´evy-Khinchin Formel
321
Satz 16.14 (L´evy-Khinchin 0Formel auf [0, ∞)). Sei μ ∈ M1 ([0, ∞)) und u : [0, ∞) → [0, 1], t → − log e−tx μ(dx) die log-Laplace Transformierte von μ. Genau dann ist μ unbegrenzt teilbar, wenn es ein α ≥ 0 und ein σ-endliches Maß ν ∈ M((0, ∞)) mit (1 ∧ x) ν(dx) < ∞ gibt, sodass
u(t) = αt +
1 − e−tx ν(dx)
(16.5)
f¨ur t ≥ 0.
(16.6)
Das Paar (α, ν) ist dann eindeutig. Wir nennen ν das kanonische Maß oder L´evyMaß von μ und α den deterministischen Anteil. Beweis. =⇒ “ Sei zun¨achst μ unbegrenzt teilbar. Der Fall μ = δ0 ist trivial. ” Sei nun μ = δ0 , also u(1) > 0. n→∞
Nach Satz 16.5 existieren ν1 , ν2 , . . . ∈ Mf (R\{0}) mit CPoiν0n −→ μ. Offenbar k¨onnen wir νn ((−∞, 0)) = 0 annehmen. Setzen wir un (t) := (1 − e−tx ) νn (dx), n→∞ so gilt (nach (16.1)) un (t) −→ u(t) f¨ur jedes t ≥ 0. Speziell ist un (1) > 0 f¨ur −x ur jedes große n. Definiere ν˜n ∈ M1 ([0, ∞)) durch ν˜n (dx) := 1−e un (1) νn (dx). F¨ t ≥ 0 gilt dann un (t + 1) − un (t) n→∞ u(t + 1) − u(t) e−tx ν˜n (dx) = . −→ un (1) u(1) Also existiert ν˜ := w-lim ν˜n (in M1 ([0, ∞)) und ist eindeutig durch u festgelegt. Wir setzen α := ν˜({0}) u(1) und definieren ν ∈ M((0, ∞)) durch ν(dx) = u(1)(1 − e−x )−1
˜(dx). (0,∞) (x) ν
Wegen 1 ∧ x ≤ 2(1 − e−x ) f¨ur alle x ≥ 0 ist dann offenbar (1 ∧ x) ν(dx) ≤ 2 (1 − e−x ) ν(dx) ≤ u(1) < ∞. F¨ur jedes t ≥ 0 ist die Funktion (vergleiche (15.8)) 1 1−e−tx , ft : [0, ∞) → [0, ∞), x → 1−e−x t,
falls x > 0, falls x = 0,
stetig und beschr¨ankt (durch t ∧ 1), also gilt u(t) = lim un (t) = lim un (1) ft d˜ νn n→∞ n→∞ = u(1) ft d˜ ν = αt + (1 − e−tx ) ν(dx).
322
16 Unbegrenzt teilbare Verteilungen
⇐= “ Seien nun α und ν gegeben. Sei I0 = [1, ∞) und Ik = [1/(k + 1), 1/k) ” f¨ur k ∈ N. Seien X0 , X1 , . . . unabh¨angige Zufallsvariablen mit PXk = CPoi(ν | ) Ik ∞ f¨ u r k = 0, 1, . . ., und sei X := α + X . F¨ u r jedes k ∈ N ist E[X ] = k k k=0 0 0 ∞ x ν(dx), also ist E[X ] = x ν(dx) < ∞. Mithin gilt X < ∞ fast k k=1 Ik (0,1) n n→∞ sicher und α + k=0 Xk =⇒ X. Daher ist ∞
) −tX * ) −tX * k = αt − = αt + 1 − e−tx ν(dx). 2 − log E e log E e k=0
Beispiel 16.15. Wir k¨onnen zu einer unbegrenzt teilbaren Verteilung μ auf [0, ∞) das L´evy-Maß ν ausrechnen durch ν = v-lim nμ∗1/n . (16.7) n→∞
(0,∞)
¨ Oft ist auch α leicht direkt zug¨anglich, etwa u¨ ber die Darstellung aus Ubung 16.1.3. Wir erhalten so beispielsweise f¨ur die Gamma-Verteilung α = 0 und θ1/n n→∞ nΓθ,1/n (A) = x(1/n)−1 e−θx dx −→ x−1 e−θx dx, Γ (1/n)/n A A also ν(dx) = x−1 e−θx dx.
3
F¨ur unbegrenzt teilbare Verteilungen auf R wollen wir eine a¨ hnliche Darstellung angeben wie im vorigen Satz. Nun ist aber eine unbegrenzt teilbare, reelle Zufallsvariable X nicht einfach die Differenz zweier unbegrenzt teilbarer, nichtnegativer Zufallsvariablen, wie etwa die Normalverteilung zeigt. Außerdem haben wir nun mehr Freiheiten, wenn wir X wie im letzten Beweis als Summe unabh¨angiger Zufallsvariablen Xk darstellen wollen. Wir definieren also eine reelle Zufallsvariable X als Summe unabh¨angiger Zufallsvariablen ∞ (Xk − αk ), (16.8) X = b + X N + X0 + k=1
wobei b ∈ R, X = N0,σ2 f¨ur ein σ ≥ 0 und PXk = CPoiνk mit Intensit¨atsmaß νk , das auf Ik := (−1/k, −1/(k + 1)] ∪ [1/(k 0+ 1), 1/k) (mit 1/0 = ∞), k ∈ N0 , konzentriert liegt. Ferner ist αk = E[Xk ] = x νk (dx) f¨ur k ≥ 1. F¨ur die fast sichere Konvergenz der Reihe ist hinreichend (und, wie eine einfache Anwendung des Kolmogorov’schen Dreireihensatzes zeigt, notwendig), dass N
2
∞ k=1
Var[Xk ] < ∞.
(16.9)
∞ (Anders als in Satz 16.14 ist nicht notwendig, dass k=1 E[|Xk − αk |] < ∞. Dies ergibt eine gr¨oßere Freiheit bei der 0 Wahl von ν als im Fall nichtnegativer ∞ Zufallsvariablen.) Nun ist Var[Xk ] = x2 νk (dx). Setzen wir also ν = k=0 νk , so ist
16.1 Die L´evy-Khinchin Formel
323
0 (16.9) a¨ quivalent zu der Bedingung (−1,1) x2 ν(dx) < ∞. Da ν0 stets endlich ist, 0 2 ist dies wiederum a¨ quivalent zu (x ∧ 1) ν(dx) < ∞. Definition 16.16. Ein σ-endliches Maß ν auf R mit ν({0}) = 0 und
2 x ∧ 1 ν(dx) < ∞
(16.10)
heißt kanonisches Maß. Sind σ 2 ≥ 0 und b ∈ R, so heißt (σ 2 , b, ν) ein kanonisches Tripel. Zu jedem kanonischen Tripel geh¨ort u¨ ber die Konstruktion (16.8) eine unbegrenzt teilbare Zufallsvariable. Wir setzen *
itx ) e − 1 ν(dx) ψ0 (t) = log E eitX0 = I0
und f¨ur k ∈ N * ) ψk (t) = log E eit(Xk −αk ) =
eitx − 1 − itx ν(dx).
Ik
Also gen¨ugt ∞ * ) σ2 ψk (t) ψ(t) := log E eitX = − t2 + ibt + 2 k=0
der L´evy-Khinchin Formel ψ(t) = −
σ2 2 t + ibt + 2
eitx − 1 − itx
{|x|<1}
ν(dx).
(16.11)
Satz 16.17 (L´evy-Khinchin Formel). Sei μ ∈ M1 (R) und ψ(t) := log eitx μ(dx). μ ist genau dann unbegrenzt teilbar, wenn es ein kanonisches Tripel (σ2 , b, ν) gibt, sodass (16.11) gilt. Dieses Tripel ist durch (16.11) eindeutig festgelegt. Wir nennen ν wiederum das L´evy-Maß von μ, σ 2 den Gauß’schen Koeffizienten und b die Zentrierungskonstante. Beweis. Wir haben schon gezeigt, dass es zu jedem kanonischen Tripel (σ2 , b, ν) eine unbegrenzt teilbare Verteilung μ gibt, sodass (16.11) gilt. Es bleibt zu zeigen:
324
16 Unbegrenzt teilbare Verteilungen
(i) Durch (16.11) wird das kanonische Tripel eindeutig bestimmt. (ii) Zu jeder unbegrenzt teilbaren Verteilung existiert ein kanonisches Tripel, sodass (16.11) gilt. (i) Eindeutigkeit
Wir setzen gt (x) = eitx − 1 − itx gt (x) t→∞ −→ 0. 2≥ 2 t (1 ∧ x2 )
{|x|<1} .
F¨ur jedes x = 0 ist
Wegen (16.10) gilt nach dem Satz u¨ ber majorisierte Konvergenz ∞ gt (x) σ2 ψ(t) ib + lim + lim (1 ∧ x2 )ν(dx) lim 2 = − t→∞ t t→∞ t t→∞ −∞ 2 t2 (1 ∧ x2 ) σ2 =− . 2
(16.12)
Da σ 2 damit eindeutig ist, k¨onnen wir im Folgenden σ 2 = 0 annehmen. Definiere 1 t+1 ψ(t) = ψ(t) − ψ(s) ds. (16.13) 2 t−1 Dann ist 1 1 isx eitx 1 − e ds ν(dx) = eitx h(x) ν(dx), 2 −1 R
ψ(t) =
(16.14)
ˆ wobei h(t) = 1 − sin(x) f¨ur x = 0 und h(0) = 0 ist. Offenbar sind h und h(x) = x 2 ˆ h(x)/(1 ∧ x ) mit der Festsetzung h(0) = 1/6 stetig und beschr¨ankt und 3 ˆ 0 < 1 − sin(1) ≤ h(x) ≤ 2
f¨ur jedes x ∈ R.
ψ ist die charakteristische Funktion von ν˜ ∈ Mf (R), wo ν˜(dx) = h(x)ν(dx). ν (dx) Damit ist ν˜ durch ψ eindeutig festgelegt und wegen ν(dx) = ( {x =0} /h(x))˜ auch ν. Die Zahl b ergibt sich nun als Differenz der restlichen Terme. (ii) 0Existenz eines kanonischen Tripels Sei μ unbegrenzt teilbar und ψ(t) = log eitx μ(dx). Offenbar ist Im(ψ) ungerade und Re(ψ(t)) ≤ 0 f¨ur jedes t ∈ R, also ist ψ(0) ≤ 0 (mit ψ aus (16.13)). Nach der Jensen’schen Ungleichung ist genau dann ψ(0) = 0, wenn μ = δb f¨ur ein b ∈ R. In diesem Fall ist (0, b, 0) das zugeh¨orige kanonische Tripel. Sei nun ψ(0) < 0. Nach Satz 16.5 existiert eine Folge (νn )n∈N in Mf (R) mit n→∞ CPoiνn −→ μ. Setze bn = x {|x|<1} νn (dx).
16.1 Die L´evy-Khinchin Formel
325
Dann ist nach (16.1) und mit gt aus (i) ψn (t) := log eitx CPoiνn (dx) = (eitx − 1) νn (dx) = gt dνn + ibn t. Wie in (16.14) ist ψ n (t) := ψn (t) −
1 2
t+1
ψn (s) ds =
eitx h(x) νn (dx).
t−1
n→∞
Da ψn −→ ψ gleichm¨aßig auf kompakten Mengen konvergiert (Satz 15.23(i)), n→∞ und weil ψ stetig und damit lokal beschr¨ankt ist, gilt ψ n −→ ψ punktweise, also n→∞ eitx h(x) νn (dx) −→ ψ(t). (16.15) Speziell ist ψ n (0) < 0 f¨ur große n. Setzen wir ν˜n (dx) = −(h(x)/ψ n (0))νn (dx) ∈ 0 n→∞ M1 (R), so gilt eitx ν˜n (dx) −→ −ψ(t)/ψ(0), wobei die rechte Seite stetig ist. n→∞ Nach dem L´evy’schen Stetigkeitssatz gibt es also ein ν˜ ∈ M1 (R) mit ν˜n −→ ν˜ und ψ(t) = −ψ(0) eitx ν˜(dx). Wir setzen σ 2 := −6 ψ(0) ν˜({0}) und definieren ein kanonisches Maß ν durch ν(dx) = −
ψ(0) h(x)
{x =0}
ν˜(dx).
Die Abbildung (vergleiche (15.8)) ft : R → C,
x →
gt (x) h(x) ,
falls x = 0,
−3t2 ,
falls x = 0,
ist stetig und beschr¨ankt. Nach Voraussetzung ist ft (x) ν˜n (dx) + ibn t . ψ(t) = lim ψn (t) = lim n→∞
n→∞
Da die Integrale konvergieren, existiert auch b = limn→∞ bn , und es ist σ2 2 ν + ibt = − t + ibt + gt dν. ψ(t) = ft d˜ 2 Bemerkung 16.18. Es gibt mehrere Varianten der L´evy-Khinchin Formel
itx σ2 e − 1 − it f (x) ν(dx), ψ(t) = − t2 + ibt + 2
2
326
16 Unbegrenzt teilbare Verteilungen
die sich in der Funktion it f (x) unterscheiden, die als Zentrierung im Integral abgezogen wird. Wir haben f (x) = x {|x|<1} gew¨ahlt, weil dies am besten zur Konstruktion mit den Zufallsvariablen Xk passte. 0 Jedoch ist bei gegebenem kanonischen Maß ν jede Funktion f˜ m¨oglich, f¨ur die |f − f˜| dν < ∞ ist, also allgemein jedes f˜, f¨ur das |f (x)− f˜(x)|/(1∧x2 ) beschr¨ankt ist. Eine u¨ bliche Funktion ist beispielsweise f˜(x) = sin(x). Das L´evy-Maß und der Gauß’sche Anteil σ 2 sind bei allen diesen Darstellungen gleich, jedoch a¨ ndert sich das b:
˜b − b = f − f˜ dν. 0 Wenn ν ein Maß ist, das auf (0, ∞) konzentriert liegt und (1 ∧ x) ν(dx) < ∞ erf¨ullt, ist das hier gew¨ahlte f bez¨uglich ν integrierbar und kann daher durch f˜ = 0 ersetzt werden. Wir erhalten so Satz 16.14 als Spezialfall zur¨uck. Da jedoch die Klasse der kanonischen Maße, die auf (0, ∞) konzentriert liegen, auf Grund der schw¨acheren Bedingung (16.10) gr¨oßer ist als die in Satz 16.14 betrachtete, folgt, dass eine Verteilung mit kanonischem Tripel (b, 0, ν), wo ν((−∞, 0)) = 0 und 0 (1 ∧ x) ν(dx) = ∞ ist, zu einer unbegrenzt teilbaren Verteilung μ geh¨ort, die 3 nicht auf [0, ∞) konzentriert liegt – egal wie b gew¨ahlt wird. Wir k¨onnen zu gegebener unbegrenzt teilbarer Verteilung μ wieder das kanonische Maß ν ausrechnen als den vagen Limes . (16.16) ν = v-lim nμ∗1/n n→∞
(0,∞)
Beispiel 16.19. F¨ur die Cauchy-Verteilung Caua mit ψ(t) = −a |t| bekommen wir auf Grund der Symmetrie b = 0 und nach (16.12) σ 2 = −2 limt→∞ ψ(t)/t2 = 0. Schließlich ist f¨ur A ⊂ R mit (−ε, ε) ∩ A = 0 f¨ur ein ε > 0 1 n2 1 n→∞ 1 dx −→ dx. n Cau1/n (A) = π A 1 + (nx)2 π A x2
Also hat Cau1 das kanonische Tripel 0, 0, (πx2 )−1 dx . 3 ¨ Ubung 16.1.1. Man zeige mit einem Varianzargument, dass eine unbegrenzt teilbare Verteilung, die auf einem endlichen Intervall konzentriert liegt, schon in einem einzigen Punkt konzentriert ist. ♣ ¨ Ubung 16.1.2. Sei ϕ unbegrenzt teilbar, und f¨ur jedes n ∈ N sei ϕn eine CFW mit ϕnn = ϕ. Man zeige mit Hilfe des L´evy’schen Stetigkeitssatzes, dass gleichm¨aßig n→∞ auf kompakten Mengen ϕn −→ 1 gilt und folgere hieraus, dass ϕ(t) = 0 f¨ur jedes t ∈ R. ♣ ¨ Ubung 16.1.3. Man zeige, dass unter den Bedingungen von Satz 16.14 gilt:
α = sup x ≥ 0 : μ([0, x)) = 0 .
♣
16.2 Stabile Verteilungen
327
16.2 Stabile Verteilungen Symmetrische stabile Verteilungen F¨ur α ∈ (0, 2) sei 1 −2Γ (−α) cos(απ/2), −α−1 dx = θα := (1 − cos(x)) |x| π, R
falls α = 1, falls α = 1.
Dann ist να (dx) = θα−1 |x|−α−1 dx ein kanonisches Maß, denn
(1 ∧ x2 ) να (dx) = 2θα−1 α−1 + (2 − α)−1 < ∞. Sei ψα die logarithmierte charakteristische Funktion, die zum unbegrenzt teilbaren Maß μα mit kanonischem Tripel (0, 0, να ) geh¨ort. Nach der L´evy-Khinchin Formel ist ∞
itx e − 1 − itx {|x|<1} θα−1 |x|−α−1 dx ψα (t) = −∞ ∞
1 − cos(tx) |x|−α−1 dx = −θα−1 −∞
= −|t|α . Also ist ϕα (t) := e−|t| die charakteristische Funktion des unbegrenzt teilbaren Maßes μα , das wir symmetrische stabile Verteilung mit Index α nennen. Die Namensgebung leitet sich aus der Eigenschaft ab, dass f¨ur u.i.v. nach μα verteilte Zufallsvariablen X1 , X2 , . . . gilt α
D
X1 + . . . + Xn = n1/α Xn
f¨ur jedes n ∈ N.
(16.17)
Definition 16.20 (Stabile Verteilung). Sei μ ∈ M1 (R), und seien X1 , X2 , . . . u.i.v. Zufallsvariablen mit Verteilung μ. Die Verteilung μ heißt stabil mit Index α ∈ (0, 2], falls (16.17) gilt. μ heißt stabil im weiteren Sinne mit Index α ∈ (0, 2], falls es Zahlen (bn )n∈N gibt mit D
X1 + . . . + Xn = n1/α X1 + bn
f¨ur jedes n ∈ N.
Bemerkung 16.21. Eine einfache Rechnung zeigt, dass eine Verteilung, die α-stabil mit α > 2 ist, eine charakteristische Funktion hat, die zweimal stetig differenzierbar in 0 ist, und deren ersten beiden Ableitungen dort gleich 0 sind. Die Verteilung hat also Erwartungswert und Varianz Null und ist damit als δ0 erkannt. Ein a¨ hnliches Argument zeigt, dass stabile Verteilungen im weiteren Sinne f¨ur α > 2 notwendigerweise trivial sind. 3
328
16 Unbegrenzt teilbare Verteilungen
Asymmetrische stabile Verteilungen Sind μ1 und μ2 unbegrenzt teilbar mit den kanonischen Tripeln (σ12 , b1 , ν1 ) und (σ22 , b2 , ν2 ), so ist μ1 ∗ μ2 unbegrenzt teilbar mit kanonischem Tripel (σ12 + σ22 , b1 + b2 , ν1 +ν2 ). Ist nun μ unbegrenzt teilbar mit kanonischem Tripel (σ 2 , b, ν), und sind X1 , X2 , . . . u.i.v. Zufallsvariablen mit Verteilung μ, so ist X1 +. . .+Xn unbegrenzt teilbar mit kanonischem Tripel (nσ 2 , nb, nν). Andererseits ist n1/α X1 unbegrenzt teilbar mit kanonischem Tripel (n2/α σ 2 , n1/α b, ν ◦ m−1 ), wobei mγ : R → R, n1/α x → γx die Multiplikation mit γ > 0 ist. Ist nun μ stabil mit Index α, so folgt aus (16.17) nb = n1/α b,
nσ 2 = n2/α σ 2
und
nν = ν ◦ m−1 . n1/α
Ist α = 1, so folgt b = 0. F¨ur α ∈ (0, 2) ist hingegen σ 2 = 0. Außerdem ist ∞ ∞ ∞
n (dx) = (1∧x2 ) ν(dx) = (1∧x2 ) ν ◦m−1 (1∧n2/α x2 ) ν(dx). n1/α −∞
−∞
−∞
−1
2
n→∞
(1∧nx ) Im Fall α = 2 folgt wegen 1 ≥ n 1∧x −→ 0 f¨ur alle x = 0 und wegen 2 (16.10) mit dem Satz u¨ ber majorisierte Konvergenz ∞ −1 ∞ n (1 ∧ nx2 ) n→∞ (1 ∧ x2 ) ν(dx) = (1 ∧ x2 ) ν(dx) −→ 0. 1 ∧ x2 −∞ −∞
Das heißt, es gilt ν = 0, falls α = 2 ist. Hat ν eine auf R \ {0} stetige Dichte f , so folgt aus (16.17) die Skalierungsrelation f (rx) = r−α−1 f (x) f¨ur jedes r > 0, also mit c− := f (−1) und c+ := f (1) c− (−x)−α−1 , falls x < 0, ν(dx) = dx c+ x−α−1 , falls x > 0. Wir haben also einen Freiheitsgrad mehr (in dem Sinne, dass wir jetzt die zwei Parameter c− und c+ statt nur c haben), wenn wir auch asymmetrische stabile Verteilungen zulassen. Wir k¨onnen nun ψ ausrechnen )
* α |t| Γ (−α) (c+ + c− ) cos πα + i (c+ − c− ) sin πα , α = 1, 2 2 ψ(t) = ) * −|t|(c+ + c− ) π2 + i sign(t)(c+ − c− ) log(|t|) , α = 1. (16.18) Im Fall α ∈ (0, 1) ∪ (1, 2) haben wir so eine stabile Verteilung hergestellt, denn es gilt (16.17). Im Fall α = 1 gilt hingegen nψ(t/n) = ψ(t) + it(c+ − c− ) log n, also D
X1 + . . . + Xn = nX1 + (c+ − c− ) n log(n). Man kann zeigen, dass die stabilen Verteilungen, die wir hier hergestellt haben, tats¨achlich die gesamte Klasse der im weiteren Sinne stabilen Verteilungen aussch¨opfen (siehe etwa [53, Kapitel XVII.5]).
16.2 Stabile Verteilungen
329
Konvergenz gegen stabile Verteilungen Zur Abrundung des Bildes zitieren wir aus [53, Kapitel XVII.5] (siehe auch [61] und [120]) S¨atze dar¨uber, dass nur stabile Verteilungen als Grenzverteilungen reskalierter Summen von u.i.v. Zufallsvariablen X1 , X2 , . . . auftreten k¨onnen, wie die genauen Skalierungen aussehen, und welche Verteilungen PX1 zu welchen Grenzverteilungen f¨uhren. Seien im Folgenden X, X1 , X2 , . . . u.i.v. Zufallsvariablen und Sn = X1 + . . . + Xn f¨ur n ∈ N. Definition 16.22 (Anziehungsbereich einer Verteilung). Sei μ ∈ M1 (R) nicht auf einen Punkt konzentriert. Der Anziehungsbereich (domain of attraction) Dom(μ) ⊂ M1 (R) ist die Menge aller Verteilungen PX mit der Eigenschaft, dass es Folgen reeller Zahlen (an )n∈N und (bn )n∈N gibt mit Sn − bn n→∞ =⇒ μ. an Ist μ stabil (im weiteren Sinne) mit Index α ∈ (0, 2], so liegt PX im normalen Anziehungsbereich (domain of normal attraction), falls an = n1/α gew¨ahlt werden kann. Satz 16.23. Sei μ ∈ M1 (R) nicht auf einen Punkt konzentriert. Genau dann ist Dom(μ) = ∅, wenn μ stabil (im weiteren Sinne) ist. Es gilt dann μ ∈ Dom(μ). Eine wichtige Rolle spielt im Folgenden die Funktion * ) U (x) := E X 2 {|X|≤x} .
(16.19)
Eine Funktion H : (0, ∞) → (0, ∞) heißt langsam variierend bei ∞, falls lim
x→∞
H(γx) =1 H(x)
f¨ur alle γ > 0.
Wir nehmen im Folgenden an, dass es ein α ∈ (0, 2] gibt, mit der Eigenschaft: U (x) xα−2 ist langsam variierend bei ∞.
(16.20)
Satz 16.24. (i) Liegt PX im Anziehungsbereich einer Verteilung, dann existiert ein α ∈ (0, 2], sodass (16.20) gilt. (ii) Im Falle α = 2 gilt: Ist PX nicht in einem Punkt konzentriert, so ist (16.20) hinreichend daf¨ur, dass PX im Anziehungsbereich einer Verteilung liegt. (iii) Im Falle α ∈ (0, 2) gilt: Genau dann liegt PX im Anziehungsbereich einer Verteilung, wenn (16.20) gilt und p := lim
x→∞
P[X ≥ x] P[|X| ≥ x]
existiert.
(16.21)
330
16 Unbegrenzt teilbare Verteilungen
Satz 16.25. Es sei PX im Anziehungsbereich einer α-stabilen Verteilung – es gelte also Bedingung (ii) oder (iii) aus Satz 16.24 – und es sei (an )n∈N so gew¨ahlt, dass C := lim
n→∞
n U (an ) ∈ (0, ∞) a2n
existiert. Es sei ferner μ diejenige stabile Verteilung mit Index α, deren charakteristische Funktion durch (16.18) gegeben ist mit c+ = Cp und c− = C(1 − p). (i) Im Falle α ∈ (0, 1) sei bn ≡ 0. (ii) Im Falle α = 2 und Var[X] < ∞ sei E[X] = 0. (iii) Im Falle α ∈ (1, 2] sei bn = n E[X] f¨ur jedes n ∈ N. (iv) Im Falle α = 1 sei bn = n an E[sin(X/an )] f¨ur jedes n ∈ N. Dann gilt
Sn − bn n→∞ =⇒ μ. an
Korollar 16.26.)Liegt *PX im Anziehungsbereich einer )stabilen * Verteilung mit Index α, so gilt E |X|β < ∞ f¨ur alle β ∈ (0, α) und E |X|β = ∞, falls β > α und α < 2. ♣
¨ Ubung 16.2.1. Man zeige die Behauptung von Bemerkung 16.21.
1 − cos(x) ¨ Ubung 16.2.2. Man zeige: Die Verteilung auf R mit Dichte f (x) = ist πx2 nicht unbegrenzt teilbar. ♣ ¨ Ubung 16.2.3. Sei Φ die Verteilungsfunktion der Standardnormalverteilung N0,1 und F : R → [0, 1] definiert durch
2 1 − Φ x−1/2 , falls x > 0, F (x) = 0, sonst. Man zeige: (i) F ist die Verteilungsfunktion einer 12 -stabilen Verteilung. (ii) Sind X1 , X2 , . . . u.i.v. mit Verteilungsfunktion F , so divergiert f¨ur n → ∞ fast sicher.
1 n
n k=0
Xk
Hinweis: Man bestimme die Dichte von F und zeige, dass die Laplace Transfor√ mierte gegeben ist durch λ → e− 2λ . ♣ ¨ Ubung 16.2.4. Welche der folgenden Verteilungen liegen im Anziehungsbereich einer stabilen Verteilung und gegebenenfalls zu welchem Parameter?
16.2 Stabile Verteilungen
(i) Die Verteilung auf R mit Dichte ⎧ 1 1+α |x|α , ⎪ ⎪ ⎨ 1 xβ , f (x) = (1 − ) 1+β ⎪ ⎪ ⎩ 0,
331
falls x < −1, falls x > 1, sonst.
Dabei sind α, β < −1 und ∈ [0, 1]. (ii) Die Exponentialverteilung expθ f¨ur θ > 0. (iii) Die Verteilung auf N mit Gewichten c nα falls n gerade ist und c nβ , falls n ungerade ist. Dabei sind α, β < −1, und c = (2α ζ(−α) + (1 − 2β )ζ(−β))−1 (ζ ist die Riemann’sche Zetafunktion) ist die Normierungskonstante. ♣
17 Markovketten
Markovprozesse mit abz¨ahlbarem Zustandsraum (und diskreter Zeit) sind trotz ihrer Simplizit¨at interessante mathematische Objekte, mit denen sich eine Vielzahl von Ph¨anomenen modellieren l¨asst. Wir bringen hier einen Einblick in die grundlegenden Begriffe und schauen dann Beispiele etwas detaillierter an. Der Zusammenhang mit der (diskreten) Potentialtheorie wird erst in Kapitel 19 untersucht. Beim ersten Lesen kann in Abschnitt 17.1 die (etwas abstrakte) Konstruktion von allgemeinen Markovprozessen u¨ bersprungen werden.
17.1 Begriffsbildung und Konstruktion Im Folgenden sei E stets ein polnischer Raum mit Borel’scher σ-Algebra B(E), I ⊂ R und (Xt )t∈I ein stochastischer Prozess mit Werten in E. Wir nehmen an, dass (Ft )t∈I = F = σ(X) die von X erzeugte Filtration ist. Definition 17.1. Wir sagen, dass X die elementare Markoveigenschaft (ME) hat, falls f¨ur jedes A ∈ B(E) und je zwei s, t ∈ I mit s ≤ t gilt * * ) ) P Xt ∈ A Fs = P Xt ∈ A Xs . Bemerkung 17.2. Ist E abz¨ahlbar, so hat X genau dann die elementare Markoveigenschaft, wenn f¨ur jedes n ∈ N und alle s1 < . . . < sn < t und i1 , . . . , in , i ∈ E mit P[Xs1 = i1 , . . . , Xsn = in ] > 0 gilt * ) * ) (17.1) P Xt = i Xs1 = i1 , . . . , Xsn = in = P Xt = i Xsn = in . In der Tat impliziert (17.1) nat¨urlich sofort die elementare Markoveigenschaft. Habe nun X die elementare Markoveigenschaft. dass f¨ur fast Wir bemerken (siehe (8.6)), alle ω ∈ {Xsn = in } gilt P[Xt = i Xsn ](ω) = P[Xt = i Xsn = in ]. Also gilt mit A := {Xs1 = i1 , . . . , Xsn = in } (unter Verwendung der elementaren Markoveigenschaft in der zweiten Gleichheit) * ) P Xt = i,Xs1 = i1 , . . . , Xsn = in * ) * ) = E E[ {Xt =i} Fsn ] A = E E[ {Xt =i} Xsn ] A * ) * ) = E P[Xt = i Xsn = in ] A = P Xt = i Xsn = in P[A].
334
17 Markovketten
Teilen wir jetzt auf beiden Seiten durch P[A], so folgt (17.1).
3
Definition 17.3. Sei I = N0 oder I = [0, ∞). X = (Xt )t∈I heißt Markovprozess mit Verteilungen (Px )x∈E auf dem Raum (Ω, A), falls gilt: (i) F¨ur jedes x ∈ E ist X ist ein stochastischer Prozess auf dem Wahrscheinlichkeitsraum (Ω, A, Px ) mit Px [X0 = x] = 1. (ii) Die Abbildung κ : E × B(E)⊗I → [0, 1], (x, B) → Px [X ∈ B] ist ein stochastischer Kern. (iii) Es gilt die (schwache) Markoveigenschaft (ME): F¨ur jedes A ∈ B(E), jedes x ∈ E und je zwei s, t ∈ I gilt * ) Px Xt+s ∈ A Fs = κt (Xs , A) Px − f.s. Hierbei definiert f¨ur jedes t ∈ I und x ∈ E sowie A ∈ B(E)
κt (x, A) := κ x, {y ∈ E I : y(t) ∈ A} = Px [Xt ∈ A] ¨ den stochastischen Kern κt : E × B(E) → [0, 1] der Ubergangswahrscheinlichkeiten von X zur Zeitdifferenz t. Wir schreiben stets Ex f¨ur die Erwartungswerte bez¨uglich Px und Lx [X] = Px sowie Lx [X |F] = Px [X ∈ · |F] (f¨ur eine regul¨are Version der bedingten Verteilungen von X gegeben F) und so fort. Ist E h¨ochstens abz¨ahlbar, so heißt X diskreter Markovprozess. Im Spezialfall I = N0 heißt X Markovkette. Es heißt dann κn auch die Familie der ¨ n-Schritt-Ubergangswahrscheinlichkeiten. Bemerkung 17.4. Die schwache Markoveigenschaft impliziert die elementare Markoveigenschaft. In der Tat ist schwache ME = elementare ME + zeitliche Homoge” nit¨at“. 3 Wir verwenden im Folgenden die etwas nachl¨assige Bezeichnung PXs [X ∈ · ] := κ(Xs , · ). Wir verstehen also Xs als Startwert eines zweiten Markovprozesses mit denselben Verteilungen (Px )x∈E . Beispiel 17.5. Seien Y1 , Y2 , . . . u.i.v. Rd -wertige Zufallsvariablen und Snx = x +
n
Yi
f¨ur x ∈ Rd und n ∈ N0 .
i=1
−1 Definiere W-Maße Px auf (Rd )N0 , (B(Rd ))⊗N0 durch Px = P ◦ (S x ) . Dann d N0 d ist der kanonische Prozess Xn : (R ) → R eine Markovkette mit Verteilungen 3 (Px )x∈Rd . Der Prozess X heißt Irrfahrt auf Rd mit Startwert x.
17.1 Begriffsbildung und Konstruktion
335
Beispiel 17.6. Wir k¨onnen das vorangehende Beispiel leicht auf die Situation stetiger Zeit, also I = [0, ∞), u¨ bertragen. Sei hierzu (νt )t≥0 eine Faltungshalbgruppe d auf Rd und κt (x, dy) = δx ∗ νt (dy). Zu jedem x ∈ R sei Px das in Satz 14.47 d [0,∞) d ⊗[0,∞) mit , B(R ) konstruierte Maß auf (R ) n−1
Px ◦ (X0 , Xt1 , . . . , Xtn )−1 = δx ⊗
κtn+1 −tn i=0
f¨ur je endlich viele Punkte 0 = t0 < t1 < . . . < tn . Man pr¨uft leicht, dass die Abbildung κ : Rd × B(Rd )⊗[0,∞) , (x, A) → Px [A] ein stochastischer Kern ist. Die schwache Markoveigenschaft folgt direkt aus der Tatsache, dass die Zuw¨achse unabh¨angig und station¨ar sind. 3 Beispiel 17.7. (Siehe Beispiel 9.5 und Satz 5.35.) Sei θ > 0 und νtθ ({k}) = k k e−θt t k!θ , k ∈ N0 , die Faltungshalbgruppe der Poisson-Verteilung. Der Markov3 prozess X auf N0 mit dieser Halbgruppe heißt Poissonprozess mit Rate θ. Wir wollen, a¨ hnlich wie in Beispiel 17.6, nun etwas allgemeiner zu einer Markov’schen Halbgruppe von stochastischen Kernen einen Markovprozess herstellen. Satz 17.8. Sei I ⊂ [0, ∞) abgeschlossen unter Addition, und sei (κt )t∈I eine Markov’sche Halbgruppe stochastischer Kerne von E nach E. Dann gibt es einen Messraum (Ω, A) und einen Markovprozess ((Xt )t∈I , (Px )x∈E ) auf (Ω, A) mit ¨ Ubergangswahrscheinlichkeiten Px [Xt ∈ A] = κt (x, A)
f¨ur alle x ∈ E, A ∈ B(E), t ∈ I.
(17.2)
Umgekehrt definiert f¨ur jeden Markovprozess X die Gleichung (17.2) eine Halbgruppe stochastischer Kerne. Durch (17.2) sind die endlichdimensionalen Verteilungen von X eindeutig bestimmt. Beweis. =⇒ “ Wir konstruieren X als kanonischen Prozess. Sei Ω = E [0,∞) ” und A = B(E)⊗[0,∞) . Ferner sei Xt die Projektion auf die t-te Koordinate. F¨ur x ∈ E definieren wir (siehe Korollar 14.43) auf (Ω, A) das W-Maß Px , sodass f¨ur endlich viele Zeitpunkte 0 = t0 < t1 < . . . < tn gilt n−1
Px ◦ (Xt0 , . . . , Xtn )−1 = δx ⊗
κti+1 −ti . i=0
Dann ist ) * Px Xt0 ∈ A0 , . . . , Xtn ∈ An ) * Px Xt0 ∈ A0 , . . . , Xtn−2 ∈ An−2 , Xtn−1 ∈ dxn−1 = An−1
κtn −tn−1 (xn−1 , An ),
336
17 Markovketten
also Px [Xtn ∈ An |Ftn−1 ] = κtn −tn−1 (Xtn−1 , An ). Damit ist X als Markovprozess erkannt. Ferner ist Px [Xt ∈ A] = (δx · κt )(A) = κt (x, A). ”
⇐= “
Sei nun (X, (Px )x∈E ) ein Markovprozess. Dann definiert κt (x, A) := Px [Xt ∈ A]
f¨ur alle x ∈ E, A ∈ B(E), t ∈ I,
einen stochastischen Kern κt . Nach der Markoveigenschaft ist κt+s (x, A) = Px [Xt+s ∈ A] = Ex [PXs [Xt ∈ A]] = Px [Xs ∈ dy] Py [Xt ∈ A] =
κs (x, dy)κt (y, A) = (κs · κt ) (x, A). 2
Also ist (κt )t∈I eine Markov’sche Halbgruppe.
Satz 17.9. Ein stochastischer Prozess X = (Xt )t∈I ist genau dann ein Markovprozess, wenn es einen stochastischen Kern κ : E × B(E)⊗I → [0, 1] gibt, sodass f¨ur jede B(E)⊗I − B(R) messbare, beschr¨ankte Funktion f : E I → R und f¨ur jedes s ≥ 0 und x ∈ E gilt: * ) κ(Xs , dy) f (y). (17.3) Ex f ((Xt+s )t∈I ) Fs = EXs [f (X)] := EI
Beweis. ⇐= “ Die schwache Markoveigenschaft folgt aus (17.3) mit der Funk” tion f (y) = A (y(t)), denn PXs [Xt ∈ A] = Px [Xt+s ∈ A|Fs ] = κt (Xs , A). =⇒ “ Nach den u¨ blichen Approximationsargumenten reicht es, Funktionen f ” zu betrachten, die nur von endlich vielen Koordinaten 0 ≤ t1 ≤ t2 ≤ . . . ≤ tn abh¨angen. Wir f¨uhren den Beweis per Induktion u¨ ber n. F¨ur n = 1 und f eine Indikatorfunktion ist dies die (schwache) Markoveigenschaft. F¨ur allgemeines, messbares f folgt die Aussage nun aus den u¨ blichen Approximationsargumenten. Sei nun die Aussage f¨ur n ∈ N bereits gezeigt. Es reicht wiederum, f¨ur f eine Indikatorfunktion der Art f (x) = B1 ×···×Bn+1 (xt1 , . . . , xtn+1 ) (mit B1 , . . . , Bn+1 ∈ B(E)) zu betrachten. Zusammen mit der Markoveigenschaft (dritte und f¨unfte Gleichheit in der folgenden Gleichungskette) und der Induktionsvoraussetzung (vierte Gleichheit) erhalten wir
17.1 Begriffsbildung und Konstruktion
337
' ( Ex f (Xt+s )t≥0 Fs ' ) * ( = Ex Ex f (Xt+s )t≥0 Ftn +s Fs ' ) = Ex Ex
{Xtn+1 +s ∈Bn+1 }
Ft
n +s
' ) * = Ex PXtn +s Xtn+1 −tn ∈ Bn+1 ' ) * = EXs PXtn Xtn+1 −tn ∈ Bn+1 ' ) * = EXs PX0 Xtn+1 ∈ Bn+1 Ftn
*
B1 (Xt1 +s ) · · · B1 (Xt1 +s ) · · ·
B1 (Xt1 ) · · · B1 (Xt1 ) · · ·
Bn (Xtn +s ) Fs
Bn (Xtn +s ) Fs
(
(
( Bn (Xtn )
( (X ) Bn tn
' ) *( = EXs PX0 Xt1 ∈ B1 , . . . , Xtn+1 ∈ Bn+1 Ftn = EXs [f (X)] .
2
Korollar 17.10. Ein stochastischer Prozess (Xn )n∈N0 ist genau dann eine Markovkette, wenn * ) ) * f¨ur jedes k ∈ N0 . (17.4) Lx (Xn+k )n∈N0 Fk = LXk (Xn )n∈N0 Beweis. Wenn die bedingten Verteilungen existieren, ist nach Satz 17.9 die Gleichung (17.4) a¨ quivalent dazu, dass X eine Markovkette ist. Zu zeigen ist also nur, dass die bedingten Verteilungen auch existieren. Da E polnisch ist, ist E N0 polnisch und B(E N0 ) = B(E)⊗N0 (siehe Satz 14.8). Nach Satz 8.36 existiert also eine regul¨are Version der bedingten Verteilungen von 2 (Xn+k )n∈N0 gegeben Fk . Satz 17.11. Sei I = N0 . Ist (Xn )n∈N0 ein stochastischer Prozess mit Verteilungen (Px , x ∈ E), so folgt die schwache Markoveigenschaft in Definition 17.3(iii) schon aus der Existenz eines stochastischen Kerns κ1 : E × B(E) → [0, 1] mit der Eigenschaft: F¨ur jedes A ∈ B(E), jedes x ∈ E und jedes s ∈ I gilt * ) (17.5) Px Xs+1 ∈ A Fs = κ1 (Xs , A). ¨ In diesem Fall erh¨alt man die n–Schritt Ubergangskerne κn induktiv durch κn−1 ( · , dx) κ1 (x, · ). κn = κn−1 · κ1 = E
Speziell ist die Familie (κn )n∈N eine Markov’sche Halbgruppe, und die Verteilung von X ist durch die Angabe von κ1 eindeutig festgelegt. Beweis. Setze in Satz 17.9 ti = i f¨ur i ∈ N0 . F¨ur den Beweis des Satzes wurde nur (17.5) ausgenutzt. 2
338
17 Markovketten
Die (schwache) Markoveigenschaft eines Prozesses besagt, dass zu fester Zeit t die Zukunft (nach t) von der Vergangenheit (bis t) nur durch die Gegenwart (also den Wert zur Zeit t) abh¨angt. Wir k¨onnen diesen Begriff verallgemeinern, indem wir statt fester Zeiten auch Stoppzeiten zulassen. Definition 17.12. Sei I ⊂ [0, ∞) abgeschlossen unter Addition. Ein Markovprozess (Xt )t∈I mit Verteilungen (Px , x ∈ E) hat die starke Markoveigenschaft, falls f¨ur jede f.s. endliche Stoppzeit τ und jede B(E)⊗I − B(R) messbare, beschr¨ankte Funktion f : E I → R, sowie jedes x ∈ E gilt: * ) κ(Xτ , dy) f (y). (17.6) Ex f ((Xτ +t )t∈I ) Fτ = EXτ [f (X)] := EI
Bemerkung 17.13. Ist I h¨ochstens abz¨ahlbar, so ist die starke Markoveigenschaft a¨ quivalent dazu, dass f¨ur jede fast sicher endliche Stoppzeit τ gilt * ) ) * Lx (Xτ +t )t∈N0 Fτ = LXτ (Xt )t∈N0 := κ(Xτ , · ). (17.7) 3
Dies folgt genau wie in Korollar 17.10.
Die meisten relevanten Markovprozesse besitzen auch die starke Markoveigenschaft. Statt hier den Begriff der Relevanz zu diskutieren, was sich wohl kaum ersch¨opfend machen ließe, wollen wir lieber zeigen, dass f¨ur abz¨ahlbare Zeitmenge die starke Markoveigenschaft aus der schwachen folgt. In zeitstetigen Situationen hingegen muss man im Allgemeinen mehr arbeiten, um die starke Markoveigenschaft zu etablieren. Satz 17.14. Ist I ⊂ [0, ∞) h¨ochstens abz¨ahlbar und abgeschlossen unter Addition, so hat jeder Markovprozess (Xn )n∈I mit Verteilungen (Px )x∈E die starke Markoveigenschaft. Beweis. Sei f : E I → R undbeschr¨ ) messbar
* ankt. Dann ist f¨ur jedes s ∈ I die Zufallsvariable {τ =s} Ex f (Xs+t )t∈I |Fτ messbar bez¨uglich Fs . Mit der Turmeigenschaft der bedingten Erwartung und Satz 17.9 in der dritten Gleichheit erhalten wir daher ) * ) * Fτ Ex f (Xτ +t )t∈I Fτ = {τ =s} Ex f (Xs+t )t∈I s∈I
=
Ex
{τ =s}
) * ( Ex f (Xs+t )t∈I Fs Fτ
{τ =s}
) * ( EXs f (Xt )t∈I Fτ
'
s∈I
=
Ex
'
s∈I
) * = EXτ f (Xt )t∈I .
2
17.1 Begriffsbildung und Konstruktion
339
Wir bringen eine einfache Anwendung der starken Markoveigenschaft. Satz 17.15 (Reflexionsprinzip). Seien Y1 , Y2 , . . . u.i.v. reelle Zufallsvariablen mit symmetrischer Verteilung L[Y1 ] = L[−Y1 ]. Setze X0 = 0 und Xn := Y1 + . . . + Yn f¨ur n ∈ N. Dann gilt f¨ur jedes n ∈ N0 und a > 0 + , P sup Xm ≥ a ≤ 2 P[Xn ≥ a] − P[Xn = a]. (17.8) m≤n
Gilt P[Y1 ∈ {−1, 0, 1}] = 1, so gilt f¨ur a ∈ N in (17.8) sogar Gleichheit. Beweis. Sei a > 0 und n ∈ N. Definiere die bei (n + 1) abgeschnittene Zeit des ¨ ersten Uberschreitens von a τ := inf{m ≥ 0 : Xm ≥ a} ∧ (n + 1). Dann ist τ eine beschr¨ankte Stoppzeit und sup Xm ≥ a
⇐⇒
τ ≤ n.
m≤n
Setze f (m, X) = {m≤n} {Xn−m >a} + 12
f τ, (Xτ +m )m∈N0 = {τ ≤n}
{Xn−m =a} {Xn >a}
+
. Dann ist 1 2
{Xn =a}
.
Die starke Markoveigenschaft von X liefert ' ( E0 f τ, (Xτ +m )m≥0 Fτ = ϕ (τ, Xτ ) , wobei ϕ(m, x) = Ex [f (m, X)]. (Hierbei bezeichnet Ex die Erwartung f¨ur X, falls X0 = x.) Wegen der Symmetrie der Yi ist ⎧ 1 ≥ , falls m ≤ n und x ≥ a, ⎪ ⎪ ⎨ 2 ϕ(m, x) = 12 , falls m ≤ n und x = a, ⎪ ⎪ ⎩ = 0, falls m > n. Also gilt
1
{τ ≤ n} = {τ ≤ n} ∩ {Xτ ≥ a} ⊂
ϕ(τ, Xτ ) ≥
1 2
2 ∩ {τ ≤ n}
= {ϕ(τ, Xτ ) > 0} ∩ {τ ≤ n}. Nun folgt (17.8) aus P[Xn > a] +
* ) 1 P[Xn = a] = E f τ, (Xτ +m )m≥0 2 (17.9) ) * 1 = E0 ϕ(τ, Xτ ) {τ ≤n} ≥ P0 [τ ≤ n] . 2
340
17 Markovketten
Gilt P[Y1 ∈ {−1, 0, 1}] = 1, und ist a ∈ N, so ist Xτ = a, falls τ ≤ n. Also ist 1 {ϕ(τ, Xτ ) > 0} ∩ {τ ≤ n} = ϕ(τ, Xτ ) = ∩ {τ ≤ n}. 2 Daher gilt Gleichheit im letzten Schritt von (17.9) und damit auch in (17.8).
2
¨ Ubung 17.1.1. Sei I ⊂ R X = (Xt )t∈I ein stochastischer Prozess. Definiere f¨ur t ∈ I die σ-Algebren, die die Vergangenheit bis und die Zukunft ab t kodieren: F≤t := σ(Xs : s ∈ I, s ≤ t)
und
F≥t := σ(Xs : s ∈ I, s ≥ t).
Man zeige: X hat genau dann die elementare Markoveigenschaft, wenn f¨ur jedes t ∈ I die σ-Algebren F≤t und F≥t unabh¨angig sind gegeben σ(Xt ) (vergleiche Definition 12.20). Mit anderen Worten: Ein Prozess hat die elementare Markoveigenschaft genau dann, wenn Vergangenheit und Zukunft unabh¨angig sind gegeben die Gegenwart. ♣
17.2 Diskrete Markovketten, Beispiele Sei E h¨ochstens abz¨ahlbar und I = N0 . Ein Markovprozess X = (Xn )n∈N0 auf E ist nach Definition 17.3 eine diskrete Markovkette (oder Markovkette mit diskretem Zustandsraum). Ist X eine diskrete Markovkette, so ist (Px )x∈E festgelegt durch die Angabe von ¨ der Ubergangsmatrix p = (p(x, y))x,y∈I := (Px [X1 = y])x,y∈E . Die n-Schritt¨ubergangswahrscheinlichkeiten p(n) (x, y) := Px [Xn = y] ergeben sich n¨amlich als n-faches Matrixprodukt p(n) (x, y) = pn (x, y), wobei pn (x, y) =
pn−1 (x, z)p(z, y)
z∈E 0
und p = I die Einheitsmatrix ist. Durch Iteration folgt die Chapman-Kolmogorov’sche Gleichung (siehe (14.13)) f¨ur alle m, n ∈ N0 und x, y ∈ E p(m) (x, z) p(n) (z, y). (17.10) p(m+n) (x, y) = z∈E
17.2 Diskrete Markovketten, Beispiele
341
Definition 17.16. Eine Matrix (p(x, y))x,y∈E mit nichtnegativen Eintr¨agen und
p(x, y) = 1
f¨ur jedes x ∈ E
y∈E
heißt stochastische Matrix auf E. Nun ist eine stochastische Matrix im Wesentlichen ein stochastischer Kern von E nach E. In Satz 17.8 hatten wir gesehen, dass zu der Halbgruppe von Kernen ¨ (pn )n∈N genau eine diskrete Markovkette existiert, deren Ubergangswahrscheinlichkeiten durch p gegeben sind. Die dort angegeben Argumente waren eher abstrakter Natur. Wir wollen hier eine Konstruktion von X angeben, mit der man beispielsweise auch eine Computersimulation bauen kann. Sei (Rn )n∈N0 eine unabh¨angige Familie von Zufallsvariablen mit Werten in E E mit der Eigenschaft, dass P[Rn (x) = y] = p(x, y)
f¨ur alle x, y ∈ E.
(17.11)
Beispielsweise w¨ahle man (Rn (x), x ∈ E, n ∈ N) als eine unabh¨angige Familie von Zufallsvariablen mit Werten in E und Verteilungen P[Rn (x) = y] = p(x, y)
f¨ur alle x, y ∈ E und n ∈ N0 .
Man beachte aber, dass wir in (17.11) weder die Unabh¨angigkeit der Zufallsvariablen (Rn (x), x ∈ E) gefordert haben, noch, dass alle Rn die selbe Verteilung haben (lediglich die eindimensionalen Randverteilungen sind festgelegt). In der Tat m¨ochte man in vielen wichtigen Anwendungen wohldefinierte Abh¨angigkeitsstrukturen haben, um Markovketten mit unterschiedlichen Startzust¨anden miteinander zu koppeln. Diesen Faden verfolgen wir erst in Abschnitt 18.2 weiter. F¨ur x ∈ E definiere X0x = x
und
x Xnx = Rn (Xn−1 )
f¨ur n ∈ N.
Schließlich definieren wir Px := L[X x ] als die Verteilung von X x , also als ein W-Maß auf dem Folgenraum (E N0 , B(E)⊗N0 ). Satz 17.17. (i) Der kanonische Prozess X auf (E N0 , B(E)⊗N0 ) ist bez¨uglich ¨ p. der Verteilung (Px )x∈E eine Markovkette mit Ubergangsmatrix (ii) Insbesondere geh¨ort zu jeder stochastischen Matrix p genau eine diskrete ¨ Markovkette X mit Ubergangswahrscheinlichkeiten p. Beweis. (ii)“ folgt aus (i), da Satz 17.11 die Eindeutigkeit von X liefert. ” (i)“ F¨ur n ∈ N0 und x, y, z ∈ E gilt nach Konstruktion ”
342
17 Markovketten
) x * Px [Xn+1 = z Fn , Xn = y] = P Xn+1 = z σ Rm , m ≤ n , Xnx = y * ) = P Rn+1 (Xnx ) = z σ Rm , m ≤ n , Xnx = y ) = P Rn+1 (y) = z] = p(y, z). ¨ Nach Satz 17.11 ist X also eine Markovkette mit Ubergangsmatrix p.
2
Beispiel 17.18. (Irrfahrt auf Z) Sei E = Z, und gelte p(x, y) = p(0, y − x)
f¨ur alle x, y ∈ Z.
Wir sagen in diesem Fall, dass p translationsinvariant ist. Eine diskrete MarD ¨ kovkette X mit Ubergangsmatrix p ist eine Irrfahrt auf Z. Es ist n¨amlich Xn = X0 + Z1 + . . . + Zn , wo (Zn )n∈N u.i.v. sind mit P [Zn = x] = p(0, x). Die Rn aus der expliziten Konstruktion erhalten wir durch Rn (x) := x + Zn .
3
Beispiel 17.19 (Simulation am Computer). Wir betrachten die Situation wo E = ¨ {1, . . . , k} sogar endlich ist und wollen eine Markovkette X mit Ubergangsmatrix p am Computer simulieren. Wir nehmen an, dass der Computer einen Zufallszahlengenerator bereitstellt, der eine Folge (Un )n∈N unabh¨angiger uniform auf [0, 1] verteilter Zufallsvariablen erzeugt. Wir setzen r(i, 0) = 0, r(i, j) = p(i, 1) + . . . + p(i, j) f¨ur i, j ∈ E, und definieren Yn durch ⇐⇒ Un ∈ [r(i, j − 1), r(i, j)). Rn (i) = j Per Konstruktion ist dann P[Rn (i) = j] = r(i, j) − r(i, j − 1) = p(i, j).
3
Beispiel 17.20 (Verzweigungsprozess als Markovkette). Wir wollen den GaltonWatson Verzweigungsprozess (siehe Definition 3.9) als Markovkette auf E = N0 auffassen. Sei hierzu (qk )k∈N0 ein Wahrscheinlichkeitsvektor, den wir als Verteilung der Nachkommenschaft eines Individuums auffassen. Definiere qk∗0 = {0} (k) und qk∗n =
k
∗(n−1)
qk−l
ql
f¨ur n ∈ N
l=0
als n-fache Faltung von q sowie die Matrix p durch p(x, y) = qy∗x f¨ur x, y ∈ N0 . Seien nun (Yn,i , n ∈ N0 , i ∈ N0 ) u.i.v. mit P[Yn,i = k] = qk . F¨ur x ∈ N0 definieren wir den Verzweigungsprozess X mit x Urahnen und Nachkommenverteilung q Xn−1 durch X0 = x und Xn := i=1 Yn−1,i . Um zu zeigen, dass X eine Markovkette ist, berechnen wir
17.2 Diskrete Markovketten, Beispiele
343
P[Xn = xn X0 = x, X1 = x1 , . . . , Xn−1 = xn−1 ] = P[Yn−1,1 + . . . + Yn−1,xn−1 = xn ] ∗x
n−1 = PY1,1 ({xn }) = qx∗xnn−1 = p(xn−1 , xn ).
¨ Also ist X eine Markovkette auf N0 mit Ubergangsmatrix p.
3
Beispiel 17.21 (Wright’sches Evolutionsmodell). In der Biologie beschreibt das Wright’sche Evolutionsmodell ([159]) die Vererbung eines genetischen Merkmales mit zwei m¨oglichen Auspr¨agungen, etwa A und B, (zum Beispiel Resistenz/keine Resistenz gegen ein bestimmtes Antibiotikum) in einer Population konstanter Gr¨oße N ∈ N mit diskreter Generationenfolge. Die Individuen werden dabei als haploid angenommen, die Chromosomen liegen also einfach vor (wie etwa bei gewissen Einzellern) und nicht als Paare (wie etwa bei S¨augetieren). Wir betrachten hier den Fall, wo keines der beiden Merkmale einen Selektionsvorteil bietet. Es wird also angenommen, dass sich jedes Individuum der neuen Generation zuf¨allig (gleichverteilt) eines der Individuen der vorangehenden Generation als Ahn (oder Vorg¨anger) aussucht und dessen komplettes Erbgut u¨ bernimmt. Die Wahl wird f¨ur jedes Individuum unabh¨angig getroffen, wobei mehrere Individuen auf den selben Ahn zur¨uckgehen k¨onnen. Betr¨agt die Anzahl der Individuen vom Typ A in der Elterngeneration k ∈ {0, . . . , N }, so ist dieselbe Anzahl in der Kindergeneration zuf¨allig und binomialverteilt mit Parametern N und k/N . Wir k¨onnen die Genfrequenzen (also die relativen Anteile k/N ) in diesem Modell offenbar durch eine Markovkette X auf E = {0, 1/N, . . . , (N − 1)/N, 1} mit ¨ Ubergangsmatrix p(x, y) = bN,x ({N y}) beschreiben. Man beachte, dass X ein (beschr¨anktes) Martingal ist. Nach dem Martingalkonvergenzsatz konvergiert X also Px -fast sicher gegen eine Zufallsvariable X∞ mit Ex [X∞ ] = Ex [X0 ] = x. ¨ Ahnlich wie beim W¨ahlermodell (siehe Beispiel 11.16), das in der Tat sehr eng verwandt mit diesem Modell ist, k¨onnen wir argumentieren, dass X∞ nur die stabilen Randwerte 0 und 1 annehmen kann. Es gilt also Px [limn→∞ Xn = 1] = x = 3 1 − Px [limn→∞ Xn = 0]. Beispiel 17.22 (Diskretes Moran-Modell). Wir wollen ein dem Wright’schen Evo¨ lutionsmodell verwandtes Modell mit Uberlappung der Generationen betrachten. Die Situation ist wie beim Wright’schen Modell, jedoch soll jetzt pro Zeitschritt immer nur genau ein Individuum durch ein neues ersetzt werden, dessen Typ durch eine zuf¨allige Wahl aus der Elterngeneration bestimmt wird. Da die Typen des zu ersetzenden und des neuen Individuums unabh¨angig sind, erhalten wir als Modell f¨ur die Genfrequenzen eine Markovkette X auf E = ¨ {0, N1 , . . . , 1} mit Ubergangsmatrix ⎧ x(1 − x), falls y = x + 1/N, ⎪ ⎪ ⎪ ⎨ x2 + (1 − x)2 , falls y = x, p(x, y) = ⎪ x(1 − x), falls y = x − 1/N, ⎪ ⎪ ⎩ 0, sonst.
344
17 Markovketten
Auch hier ist X wieder ein beschr¨anktes Martingal, und wir k¨onnen den quadratischen Variationsprozess ausrechnen: X!n =
n−1
n−1 * ) 2 E (Xi − Xi−1 )2 Xi−1 = 2 Xi (1 − Xi ). N i=0 i=0
(17.12) 3
¨ Ubung 17.2.1 (Diskretes Martingalproblem). Sei E ⊂ R h¨ochstens abz¨ahlbar ¨ und X eine Markovkette auf E mit Ubergangsmatrix p und der Eigenschaft, dass es ⊂ E gibt mit p(x, y) = 0 f¨ur f¨ur jedes x eine h¨ochstens dreielementige Menge A x jedes y ∈ E \ Ax . Sei d(x) := y∈E (y − x) p(x, y) f¨ur x ∈ E. n−1 (i) Man zeige: Durch Mn := Xn − k=0 d(Xk ) wird ein Martingal M definiert n−1 mit quadratischem Variationsprozess M !n = i=0 f (Xi ) f¨ur eine eindeutig bestimmte Funktion f : E → [0, ∞). ¨ (ii) Man zeige: Die Ubergangsmatrix p ist durch Angabe von f und d eindeutig bestimmt. ¨ (iii) Man berechne f¨ur das Moran-Modell (Beispiel 17.22) die Ubergangsmatrix aus der expliziten Form (17.12) des quadratischen Variationsprozesses. ♣
17.3 Diskrete Markovprozesse in stetiger Zeit ¨ Sei E abz¨ahlbar und (Xt )t∈[0,∞) ein Markovprozess auf E mit Ubergangswahrscheinlichkeiten pt (x, y) = Px [Xt = y] (f¨ur x, y ∈ E). (Manche Autoren nennen solch einen Prozess auch Markovkette in stetiger Zeit.) Sind x, y ∈ E mit x = y, so sagen wir, dass X mit Rate q(x, y) von x nach y springt, falls der folgende Limes existiert q(x, y) := lim t↓0
1 Px [Xt = y]. t
Wir nehmen nun an, dass q(x, y) f¨ur alle y = x existiert, und dass q(x, y) < ∞ f¨ur jedes x ∈ E
(17.13)
y =x
gilt. Wir setzen dann q(x, x) = −
q(x, y).
(17.14)
y =x
Mit dieser Festsetzung gilt lim t↓0
1 Px [Xt = y] − t
{x=y}
= q(x, y)
f¨ur alle x, y ∈ E.
(17.15)
17.3 Diskrete Markovprozesse in stetiger Zeit
345
Definition 17.23. Gelten (17.13), (17.14) und (17.15), so heißt q die Q-Matrix von X. Manchmal wird q auch der Generator der Halbgruppe (pt )t≥0 genannt. Beispiel 17.24 (Poissonprozess). Der Poissonprozess mit Rate α > 0 (vergleiche 3 Kapitel 5.5) hat die Q-Matrix q(x, y) = α( {y=x+1} − {y=x} ). Satz 17.25. Gilt q(x, y) ≥ 0 f¨ur alle x, y ∈ E mit x = y, gelten (17.13), (17.14), und ist (17.16) λ := sup |q(x, x)| < ∞, x∈E
so ist q die Q-Matrix eines eindeutig bestimmten Markovprozesses X. Ganz naiv betrachtet legt (17.15) nahe, dass man pt = etq in einem geeigneten Sinne d pt . Der folgende Beweis zeigt, dass definiert. Dann w¨are rein formal q = dt t=0 diese formale Argumentation unter den angegebenen Bedingungen rigoros gemacht werden kann. Beweis. Sei I die Einheitsmatrix. Definiere p(x, y) =
1 q(x, y) + I(x, y) λ
f¨ur x, y ∈ E.
Dann ist p eine stochastische Matrix und q = λ(p − I). Sei (Yn )n∈N0 , PYx x∈E
¨ eine diskrete Markovkette mit Ubergangsmatrix p, und sei (Tt )t≥0 , PTn n∈N0
ein Poissonprozess mit Rate λ. Sei Xt := YTt und Px = PYx ⊗ PT0 . Dann ist X := ((Xt )t≥0 , (Px )x∈E ) ein Markovprozess und pt (x, y) := Px [Xt = y] =
∞
PT0 [Tt = n] PxY [Yn = y]
n=0
= e−λt
∞
λ n tn n p (x, y). n! n=0
Diese Potenzreihe (in t) ist u¨ berall konvergent (da p als linearer Operator endliche Norm p2 ≤ 1 hat) gegen die Matrix-Exponentialfunktion eλtp (x, y), und es gilt pt (x, y) = e−λt eλtp (x, y) = eλt(p−I) (x, y) = etq (x, y). Durch gliedweise Differentiation der Potenzreihe erhalten wir
d dt pt (x, y)
= t=0
q(x, y). Damit ist X der gew¨unschte Markovprozess. ¨ Wir nehmen nun an, dass ( pt )t≥0 die Ubergangswahrscheinlichkeiten eines weite sind, mit dem selben Generator q, also mit ren Markovprozesses X lim s↓0
1 ps (x, y) − I(x, y) = q(x, y). s
346
17 Markovketten
Man pr¨uft leicht nach, dass 1 pt+s (x, y) − pt (x, y) = (q · pt )(x, y) s
lim s↓0
gilt, das heißt, es gilt (d/dt)pt (x, y) = q pt (x, y) und analog (d/dt) pt = q pt (x, y). Damit gilt ebenfalls t
q(ps − ps ) (x, y) ds. pt (x, y) − pt (x, y) = 0
Setzen wir rs = ps − ps , so ist rs 2 ≤ 2 und q2 ≤ 2λ, also s≤t
t
sup rs 2 ≤ sup
qru 2 du ≤ q2 sup
s≤t
0
s≤t
t
ru 2 du ≤ 2λt sup rs 2 . s≤t
0
F¨ur t < 1/2λ folgt hieraus rt = 0 und iterativ rt = 0 f¨ur alle t ≥ 0, also pt = pt .2 Bemerkung 17.26. Auf die Bedingung (17.16) kann nicht ersatzlos verzichtet werden, wie dieses Beispiel zeigt: Sei E = N und ⎧ 2 ⎪ ⎨ x , q(x, y) = −x2 , ⎪ ⎩ 0,
falls y = x + 1, falls y = x, sonst.
Wir stellen uns einen Kandidaten X f¨ur einen Markovprozess mit Q-Matrix q explizit her. Seien T1 , T2 , . . . unabh¨angige, exponentialverteilte Zufallsvariablen mit PTn = expn2 . Setze Sn = T1 + . . . + Tn−1 und Xt = sup{n ∈ N0 : Sn ≤ t}. Dann macht X zu jedem Zeitpunkt h¨ochstens einen Schritt nach rechts, und es gilt ¨ aufgrund der Ged¨achtnislosigkeit der Exponentialverteilung (siehe Ubung 8.1.1) P[Xt+s ≥ n + 1|Xt = n] = P[Sn+1 ≤ t + s|Sn ≤ t, Sn+1 > t] = P[Tn ≤ s + t − Sn |Sn ≤ t, Tn > t − Sn ] = P[Tn ≤ s] = 1 − exp(−n2 s). Es folgt
lim s−1 P[Xt+s = n + 1|Xt = n] = n2 s↓0
und
lim s−1 P[Xt+s = n|Xt = n] − 1 = −n2 , s↓0
also
lim s−1 P[Xt+s = m|Xt = n] − I(m, n) = q(m, n) s↓0
f¨ur alle m, n ∈ N.
17.3 Diskrete Markovprozesse in stetiger Zeit
347
Schreiben wir τ n = inf{t ≥ 0 : Xt = n} = Sn f¨ur n ∈ N, ) * n−1 so gilt E1 [τ n ] = k=1 k12 . Speziell ist also E1 supn∈N τ n < ∞, das heißt, X u¨ berschreitet in endlicher Zeit alle Schranken. Wir sagen, dass X explodiert. 3 Beispiel 17.27 (Eine Variante des P´olya’schen Urnenmodells). Wir betrachten eine Variante des P´olya’schen Urnenmodells mit schwarzen und roten Kugeln (vergleiche Beispiel 12.29), wo nicht jeweils einfach nur eine weitere Kugel der selben Farbe zur¨uckgelegt wird, sondern f¨ur die k-te Kugel, die von einer Farbe gezogen wird, werden rk weitere Kugeln zur¨uckgelegt. Dabei sind die Zahlen r1 , r2 , . . . ∈ N die Parameter des Modells. Der Fall 1 = r1 = r2 = . . . entspricht dem klassischen P´olya’schen Urnenmodell. Sei 1, falls die n-te Kugel schwarz ist, Xn := 0, sonst. Beim klassischen Modell hatten wir gesehen (Beispiel 12.29), dass der Anteil der schwarzen Kugeln gegen eine betaverteilte Zufallsvariable Z konvergiert, und dass gegeben Z die Folge X1 , X2 , . . . unabh¨angig und BerZ verteilt ist. Ganz a¨ hnliche Aussagen bekommen wir in dem Fall, wo r = r1 = r2 = . . . ist f¨ur ein r ∈ N. In der Tat a¨ ndern sich hier nur die Parameter der Betaverteilung. Insbesondere (da die Betaverteilung keine Atome in 0 und 1 hat), werden von jeder Farbe fast sicher unendlich viele Kugeln gezogen. Es gilt also P[B] = 0, wo B das Ereignis ist, dass von einer der Farben nur endlich viele Kugeln gezogen werden. Wir werden jetzt sehen, dass dies nicht so sein muss, wenn die Zahlen rk nur rasch genug wachsen. Wir nehmen an, dass anfangs nje eine rote und eine schwarze Kugel in der Urne liegen und schreiben wn = 1+ k=1 rk f¨ur die Gesamtzahl von Kugeln einer Farbe, nachdem die Farbe bereits n-mal gezogen wurde (n ∈ N0 ). Wir betrachten zun¨achst eine extreme Situation wo wn = 2n f¨ur jedes n ∈ N. Die Gr¨oße Sn = 2(X1 + . . . + Xn ) − n z¨ahlt, wie viel mehr schwarze Kugeln als rote Kugeln bis zum n-ten Schritt gezogen wurden. Dann ist f¨ur jedes n ∈ N0 P[Xn+1 = 1|Sn ] =
2Sn 1 + 2Sn
und
P[Xn+1 = 0|Sn ] =
2−Sn . 1 + 2−Sn
Zusammen erhalten wir, dass (Zn )n∈N0 := (|Sn |)n∈N0 eine Markovkette auf N0 ist ¨ mit Ubergangsmatrix ⎧ z 2 /(1 + 2z ), falls z = z + 1 > 1, ⎪ ⎪ ⎨ 1, falls z = z + 1 = 1, p(z, z ) = z 1/(1 + 2 ), falls z = z − 1, ⎪ ⎪ ⎩ 0, sonst.
348
17 Markovketten
Das Ereignis B von oben k¨onnen wir schreiben als
B = Zn+1 < Zn nur endlich oft .
Sei A = Zn+1 > Zn f¨ur alle n ∈ N0 das Ereignis, dass Z auf direktem Weg nach ∞ flieht und τz = inf{n ∈ N0 : Zn ≥ z}. Offenbar ist Pz [A] =
∞ z =z
p(z , z + 1) ≥ 1 −
∞ z =z
1 ≥ 1 − 21−z . 1 + 2z
Man kann leicht zeigen, dass P0 [τz < ∞] = 1 ist f¨ur jedes z ∈ N0 . Wir erhalten f¨ur jedes z ∈ N0 mit der starken Markoveigenschaft P0 [B] ≥ P0 [Zn+1 > Zn f¨ur alle n ≥ τz ] = Pz [A] ≥ 1 − 21−z und damit P0 [B] = 1. Damit ist nachgewiesen, dass fast sicher irgendwann nur noch Kugeln einer Farbe gezogen werden. Wir wollen nun von diesem extremen Beispiel weg und mit (noch) subtileren Methoden, die an das obige Beispiel mit der Explosion des Markovprozesses ankn¨upfen, arbeiten. ∞ 1 Wir wollen nun zeigen, dass P[B] = 1, falls n=0 wn < ∞. Hierzu betrachs r s ten wir unabh¨angige Zufallsvariablen T1 , T1 , T2 , T2r , . . . mit PTnr = PTns = ∞ ∞ r s r expwn−1 . Ferner sei T∞ = n=1 Tnr und T∞ = n=1 Tns . Offenbar ist E[T∞ ]= ∞ r n=0 1/wn < ∞, also ist insbesondere P[T∞ < ∞] = 1. Die analoge Aussage s r s . Man beachte, dass T∞ und T∞ unabh¨angig sind und Dichten haben gilt f¨ur T∞ r s r s = T∞ ] = 0. (weil T1 und T1 Dichten haben), also gilt P[T∞ Seien nun
r ≤t Rt = sup n ∈ N : T1r + . . . + Tn−1
und
s ≤t . St = sup n ∈ N : T1s + . . . + Tn−1
Seien R := {T1r + . . . + Tnr , n ∈ N} und S := {T1s + . . . + Tns , n ∈ N} die Sprungzeitpunkte von (Rt ) und (St ), sowie U := R ∪ S = {u1 , u2 , . . .}, wobei u1 < u2 < . . . Sei 1 1, falls un ∈ S, Xn = 0, sonst. Sei Ln = x1 + . . . + xn . Dann ist P[Xn+1 = 1 X1 = x1 , . . . , Xn = xn ] ) * = P un+1 ∈ S (uk ∈ S ⇐⇒ xk = 1) f¨ur jedes k ≤ n ) r = P T1s + . . . + TLs n +1 < T1r + . . . + Tn−L n +1 s r T1 + . . . + TLs +1 > T1r + . . . + Tn−L ] n n * ) s w Ln r = . = P TLn +1 < Tn−L n +1 wLn + wn−Ln
17.4 Diskrete Markovketten, Rekurrenz und Transienz
349
Also ist (Xn )n∈N0 das erweiterte Urnenmodell mit Gewichten (wn )n∈N0 . Wir betrachten nun das Ereignis B, dass von jeder Farbe unendlich viele Kugeln gezogen werden. Offenbar ist {Xn = 1 unendlich oft} = {sup S = sup U } und {Xn = s r und sup R = T∞ ist 0 unendlich oft} = {sup R = sup U }. Wegen sup S = T∞ r s 3 also P[B] = P[T∞ = T∞ ] = 0. ¨ Ubung 17.3.1. Seien r, s, R, S ∈ N. Man betrachte das P´olya’sche Urnenmodell (Xn )n∈N0 mit rk = r und sk = s f¨ur alle k ∈ N und anf¨anglich R roten Kugeln und S schwarzen Kugeln. Man zeige, dass der Anteil der schwarzen Kugeln fast sicher gegen eine Zufallsvariable Z mit Beta-Verteilung konvergiert und bestimme die Parameter. Man zeige, dass (Xn )n∈N0 u.i.v. ist gegeben Z und Xi ∼ BerZ f¨ur jedes i ∈ N0 . ♣ ¨ Ubung 17.3.2. Man zeige, dass fast sicher unendlich viele Kugeln jeder Farbe ge∞ 1 zogen werden, falls = ∞. ♣ w n=0 n
17.4 Diskrete Markovketten, Rekurrenz und Transienz Sei im Folgenden X = (Xn )n∈N0 eine Markovkette auf dem abz¨ahlbaren Raum E ¨ mit Ubergangsmatrix p. Definition 17.28. F¨ur jedes x ∈ E sei τx := τx1 := inf{n > 0 : Xn = x} und
τxk = inf n > τxk−1 : Xn = x f¨ur k ∈ N, k ≥ 2. τxk heißt k-te Eintrittszeit von X in x. F¨ur x, y ∈ E sei ) * F (x, y) := Px [τy1 < ∞] = Px es gibt ein n ≥ 1 mit Xn = y die Wahrscheinlichkeit jemals von x nach y zu gehen. Speziell ist F (x, x) die R¨uckkehrwahrscheinlichkeit (nach dem ersten Sprung) von x nach x. Man beachte, dass τx1 > 0 selbst bei Start in X0 = x gilt. ) * Satz 17.29. F¨ur alle x, y ∈ E und k ∈ N gilt Px τyk < ∞ = F (x, y) F (y, y)k−1 . Beweis. Wir f¨uhren den Beweis per Induktion u¨ ber k. F¨ur k = 1 ist die Aussage per Definition richtig. Sei nun k ≥ 2. Dann ist wegen der starken Markoveigenschaft von X (siehe Satz 17.14)
350
17 Markovketten
1/6
1
1/2
1/3
2
4 1/2
1/2
3/4
1/2
3
5
3/4
1/4
6
1/4
1
1/2
1 1/2
8
7 1/2
¨ Abb. 17.1. Markovkette mit acht Zust¨anden. Die Zahlen sind die Ubergangswahrscheinlichkeiten f¨ur die entsprechenden Pfeile. Der Zustand 2 ist absorbierend, die Zust¨ande 1, 3, 4 und 5 transient, die Zust¨ande 6, 7 und 8 (positiv) rekurrent.
' ' ( ) * Px τyk < ∞ = Ex Px τyk < ∞ Fτyk−1 ' = Ex F (y, y) ·
( {τyk−1 <∞}
( {τyk−1 <∞}
= F (y, y) · F (x, y) F (y, y)k−2 = F (x, y) F (y, y)k−1 .
2
Definition 17.30. Ein Zustand x ∈ E heißt – rekurrent, falls F (x, x) = 1, – positiv rekurrent, falls Ex [τx1 ] < ∞, – nullrekurrent, falls x rekurrent ist, aber nicht positiv rekurrent, – transient, falls F (x, x) < 1, – absorbierend, falls p(x, x) = 1. Die Markovkette X heißt (positiv / null-) rekurrent, falls jeder Zustand x ∈ E (positiv / null-) rekurrent ist und transient, falls jeder rekurrente Zustand absorbierend ist. Bemerkung 17.31. Offenbar gilt: absorbierend“ =⇒ positiv rekurrent“ =⇒ rekurrent“. ” ” ”
3
Beispiel 17.32. (i) In Abb. 17.1 ist offenbar der Zustand 2 absorbierend. Andererseits wird die Kette irgendwann einmal den Sprung von 5 nach 6 machen und danach nicht wieder zur¨uckkehren. Also sind 1, 3, 4 und 5 transient. Die Zust¨ande 6, 7 und 8 sind positiv rekurrent. Man kann zeigen (siehe 17 17 ¨ Ubung 17.6.1), dass E6 [τ6 ] = 17 4 , E7 [τ7 ] = 5 und E8 [τ8 ] = 8 .
17.4 Diskrete Markovketten, Rekurrenz und Transienz
1
r
0
r
1
r
2
1Ŧr
351
3
1Ŧr
1Ŧr
1Ŧr
Abb. 17.2. Markovkette auf N0 mit Parameter r ∈ (0, 1). Die Kette ist positiv rekurrent, wenn r ∈ (0, 1/2), nullrekurrent, wenn r = 1/2 und transient f¨ur r ∈ (1/2, 1).
(ii) In Abb. 17.2 hat die Kette eine Tendenz, nach rechts auszuwandern, falls r > 12 ist. Daher ist in diesem Fall jeder Zustand transient. Ist hingegen r ∈ (0, 12 ), so hat die Kette einen Drall nach links (außer in 0) und besucht daher jeden Zustand immer wieder, ist also rekurrent. Mit etwas mehr Nachdenken kann ¨ man zeigen (siehe Ubung 17.6.4), dass die Kette in diesem Fall sogar positiv 3 rekurrent ist und im verbleibenden Fall r = 12 nullrekurrent Definition 17.33. Mit N (y) = Besuche von X in y und mit
∞ n=0
{Xn =y}
G(x, y) = Ex [N (y)] =
bezeichnen wir die Gesamtzahl der ∞
pn (x, y)
n=0
die Greenfunktion von X. Satz 17.34.
(i) F¨ur alle x, y ∈ E gilt (mit 1/0 := ∞)
G(x, y) =
F (x,y) 1−F (y,y) , 1 1−F (y,y) ,
falls x = y
falls x = y
= F (x, y) G(y, y) +
{x=y} .
(17.17)
(ii) Ein Punkt x ∈ E ist genau dann rekurrent, wenn G(x, x) = ∞. Beweis. (ii) folgt aus (i). Wir m¨ussen also noch (17.17) zeigen. Nach Satz 17.29 ist G(x, y) = Ex [N (y)] =
∞
Px [N (y) ≥ k]
k=1
=
{x=y}
+
∞
) * Px τyk < ∞ =
{x=y}
k=1
=
F (x,y) 1−F (y,y) , 1 1−F (x,x) ,
+
∞
F (x, y) F (y, y)k−1
k=1
falls x = y, falls x = y.
Die zweite Gleichheit in (17.17) folgt hieraus direkt.
2
352
17 Markovketten
Satz 17.35. Ist x rekurrent und F (x, y) > 0, dann ist auch y rekurrent, und es gilt F (x, y) = F (y, x) = 1. Beweis. Sei F (x, y) > 0. Dann gibt es ein k ∈ N und Punkte x1 , . . . , xk ∈ E mit xk = y und xi = x f¨ur jedes i = 1, . . . , k sowie Px [Xi = xi f¨ur jedes i = 1, . . . , k] > 0. Speziell ist pk (x, y) > 0. Nach der Markoveigenschaft ist ) ) * * 1 − F (x, x) = Px τx1 = ∞ ≥ Px X1 = x1 , . . . , Xk = xk , τx1 = ∞ ) * = Px [X1 = x1 , . . . , Xk = xk ] · Py τx1 = ∞ = Px [X1 = x1 , . . . , Xk = xk ] (1 − F (y, x)) . Ist nun F (x, x) = 1, dann ist auch F (y, x) = 1. Wegen F (y, x) > 0 existiert ein l ∈ N mit pl (y, x) > 0. Also ist f¨ur n ∈ N0 pl+n+k (y, y) ≥ pl (y, x) pn (x, x) pk (x, y). Mithin ist, falls x rekurrent ist, G(y, y) ≥
∞
pl+n+k (y, y) ≥ pl (y, x)pk (x, y)G(x, x) = ∞.
n=0
Folglich ist auch y rekurrent. Wenn wir jetzt im Argument x und y vertauschen, dann erhalten wir noch F (x, y) = 1. 2 Definition 17.36. Eine diskrete Markovkette heißt – irreduzibel, falls F (x, y) > 0 f¨ur alle x, y ∈ E gilt, oder a¨ quivalent G(x, y) > 0. – schwach irreduzibel, falls F (x, y) + F (y, x) > 0 f¨ur alle x, y ∈ E gilt. Satz 17.37. Eine irreduzible diskrete Markovkette ist entweder rekurrent oder transient. Ist |E| ≥ 2, so gibt es keine absorbierenden Zust¨ande. 2
Beweis. Das folgt direkt aus Satz 17.35. Satz 17.38. Ist E endlich und X irreduzibel, so ist X rekurrent. Beweis. Offenbar ist f¨ur jedes x ∈ E y∈E
G(x, y) =
∞ n=0 y∈E
pn (x, y) =
∞ n=0
1 = ∞.
17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten
353
Da E endlich ist, gibt es ein y ∈ E mit G(x, y) = ∞. Wegen F (y, x) > 0 existiert ein k ∈ N mit pk (y, x) > 0, also ist pn+k (x, x) ≥ pn (x, y) pk (y, x) und G(x, x) ≥
∞
pn (x, y) pk (y, x) = pk (y, x) G(x, y) = ∞.
2
n=0
¨ Ubung 17.4.1. Sei x positiv rekurrent und F (x, y) > 0. Man zeige, dass auch y positiv rekurrent ist. ♣
17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten Wir wollen in diesem Abschnitt die Rekurrenz- und Transienzeigenschaften von Irrfahrten auf ZD , D = 1, 2, . . . untersuchen. Eine ausf¨uhrlichere Behandlung findet der Leser im Buch von Spitzer [147]. Wir wollen untersuchen, ob die symmetrische einfache Irrfahrt X auf ZD , die in jedem Schritt mit gleicher Wahrscheinlichkeit zu einem der 2D n¨achsten Nachbarn springt, rekurrent oder transient ist. Sei also E = ZD und 1 falls |x − y| = 1, 2D , p(x, y) = 0, sonst. Der zentrale Grenzwertsatz legt nahe zu vermuten, dass pn (0, 0) ≈ CD n−D/2
f¨ur n → ∞
f¨ur eine Konstante CD , die von der Dimension abh¨angt. Wir m¨ussen hier jedoch zun¨achst einmal den Fall ausschließen, wo n ungerade ist, denn f¨ur ungerades n ist offenbar pn (0, 0) = 0. Seien also Y1 , Y2 , . . . unabh¨angige ZD -wertige ZufallsvariD ablen mit P[Yi = x] = p2 (0, x). Dann ist X2n = Sn := Y1 + . . . + Yn f¨ur n ∈ N0 , ∞ also G(0, 0) = n=0 P[Sn = 0]. Offenbar hat Y1 = (Y11 , . . . , Y1D ) die Kovarianz2 matrix Ci,j := E[Y1i · Y1j ] = D {i=j} . Nach dem lokalen zentralen Grenzwertsatz (siehe etwa [21, Seite 224ff] f¨ur eine eindimensionale Version dieses Satzes oder ¨ Ubung 17.5.1 f¨ur eine analytische Herleitung) gilt nD/2 p2n (0, 0) = nD/2 P[Sn = 0] −→ 2 (4π/D)−D/2 . n→∞
(17.18)
∞ Nun ist genau dann n=1 n−α < ∞, wenn α > 1 ist, also ist G(0, 0) < ∞ genau dann, wenn D > 2 ist. Wir haben damit einen Satz von P´olya gezeigt: Satz 17.39 (P´olya (1921)). Die symmetrische einfache Irrfahrt auf ZD ist genau dann rekurrent, wenn D ≤ 2.
354
17 Markovketten
Das hier verwendete Vorgehen hat den Nachteil, dass wir den lokalen zentralen Grenzwertsatz bem¨uht haben, den wir nicht bewiesen haben. Wir wollen daher weitere Ans¨atze betrachten, die ohne dieses Hilfsmittel auskommen und auch an sich von Interesse sind. Betrachten wir zun¨achst die eindimensionale einfache Irrfahrt, die mit Wahrscheinlichkeit p einen Schritt nach rechts macht und mit Wahrscheinlichkeit 1 − p einen Schritt nach links. Dann ist ∞ ∞ 2n −1/2 G(0, 0) = (p(1 − p))n = (−p(1 − p))n . n n n=0 n=0 Unter Benutzung des verallgemeinerten binomischen Lehrsatzes (Lemma 3.5) folgt ⎧ 1 ⎨3 , falls p = 12 , G(0, 0) = (17.19) (1 − 4p(1 − p)) ⎩ ∞, falls p = 12 . Wir erhalten also, dass die einfache Irrfahrt auf Z genau dann rekurrent ist, wenn sie symmetrisch ist, also falls p = 12 gilt. Die Transienz im Falle p = 12 folgt nat¨urlich auch direkt aus dem starken Gesetz der großen Zahl, denn limn→∞ n1 Xn = E0 [X1 ] = 2p − 1 fast sicher. Tats¨achlich haben wir bei diesem Argument nur benutzt, dass die einzelnen Schritte von X einen Erwartungswert haben, der ungleich Null ist. Betrachten wir nun die allgemeinere Situation, wo X nicht notwendigerweise nur zu den n¨achsten Nachbarn springt, wo aber immer noch E0 [|X1 |] < ∞ und E0 [X0 ] = 0 gelten. Das starke Gesetz der großen Zahl liefert hier nicht direkt die gew¨unschte Aussage, sondern wir m¨ussen etwas sorgf¨altiger argumentieren. Die Markoveigenschaft liefert f¨ur jedes N ∈ N und y = x GN (x, y) :=
N
Px [Xk = y] =
k=0
N
−k ) * N Px τy1 = k Py [Xl = y] ≤ GN (y, y).
k=0
l=0
Hieraus folgt f¨ur jedes L ∈ N GN (0, 0) ≥
1 GN (0, y) 2L + 1 |y|≤L
=
N 1 k p (0, y) 2L + 1 k=0 |y|≤L
1 2L + 1 N
≥
pk (0, y).
k=1 y: |y/k|≤L/N
Nach dem schwachen Gesetz der großen Zahl ist lim inf k→∞ f¨ur jedes ε > 0, also folgt, wenn wir L = εN setzen
|y|≤εk
pk (0, y) = 1
17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten
lim inf GN (0, 0) ≥ N →∞
1 2ε
355
f¨ur jedes ε > 0.
Wir haben damit G(0, 0) = ∞ und folglich die Rekurrenz von X gezeigt. Zusammen mit der vorangehenden, einfachen Richtung haben wir gezeigt: ∞ Satz 17.40. Eine Irrfahrt auf Z mit x=−∞ |x| p(0, x) < ∞ ist genau dann re∞ kurrent, wenn x=−∞ x p(0, x) = 0 gilt. Wie steht es nun f¨ur symmetrische einfache Irrfahrten in Dimension D = 2 und h¨oheren Dimensionen? Damit die Irrfahrt nach 2n Schritten wieder im Ursprung ist, muss sie ki Schritte in die i-te Richtung machen und ki Schritte in die Gegenrichtung, wobei k1 + . . . + kD = 2n ist. Wir erhalten also 2n 2n −2n p (0, 0) = (2D) , (17.20) k1 , k1 , . . . , kD , kD k1 +...+kD =n
wobei
N l1 ,...,lr
=
N! l1 !···lr !
der Multinomialkoeffizienten ist. Speziell ist f¨ur D = 2
p2n (0, 0) = 4−2n
n k=0
= 4−2n
(2n)! (k!)2 ((n − k)!)2
n 2 2n n n 2n , = 2−2n n k n−k n k=0
wobei wir im letzten Schritt eine einfache kombinatorische Identit¨at benutzt haben, die beispielsweise direkt aus der Faltungsformel (bn,p ∗ bn,p )({n}) = b2n,p ({n}) folgt. Nach der Stirling’schen Formel gilt nun √ −2n 2n 1 =√ , lim n 2 n→∞ n π ∞ also limn→∞ np2n (0, 0) = π1 . Insbesondere ist also n=1 p2n (0, 0) = ∞, das heißt, die zweidimensionale, symmetrische einfache Irrfahrt ist rekurrent. F¨ur D ≥ 3 l¨asst sich die Summe u¨ ber die Multinomialkoeffizienten nicht mehr in befriedigender Weise ausrechnen. Man kann allerdings immer noch obere Absch¨atzungen angeben, die zeigen, dass es ein c = cD gibt, sodass p2n (0, 0) ≤ c n−D/2 gilt, ∞ woraus dann G(0, 0) ≤ c n=1 n−D/2 < ∞ folgt (siehe etwa [58, Beispiel 6.30] oder [52, Seite 361]). Wir wollen hier jedoch eine andere Argumentation verfolgen. Die Sache w¨are ganz einfach, wenn die einzelnen Koordinaten der Kette unabh¨angig w¨aren. Dann w¨are ja die Wahrscheinlichkeit, dass zur Zeit 2n alle Koordinaten gleich Null sind, gleich der D-ten Potenz der Wahrscheinlichkeit, dass etwa die erste Koordinate gleich Null ist. F¨ur eine Koordinate ist aber (weil sich eine einzelne Koordinate ja nur mit Wahrscheinlichkeit 1/D bewegt, also nur Varianz 1/D
356
17 Markovketten
hat) die Wahrscheinlichkeit, von der 0 aus startend nach 2n Schritten wieder in 0 zu sein ungef¨ahr (n π/D)−1/2 . Bis auf einen Faktor erhielte man so (17.18), ohne dass man den mehrdimensionalen lokalen zentralen Grenzwertsatz direkt bem¨uht h¨atte. Eine M¨oglichkeit, die Koordinaten tats¨achlich unabh¨angig zu machen, besteht darin, die zeitdiskrete Markovkette in einen zeitstetigen Markovprozess auf ZD zu verwandeln, der die gleiche Greenfunktion hat. Wir betrachten also D unabh¨angige Poissonprozesse (Tti )t≥0 , i = 1, . . . , D mit Rate 1/D und D unabh¨angige, symmetrische einfache Irrfahrten Z 1 , . . . , Z D auf Z. Wir setzen T := T 1 + . . . + T D , Yti := ZTi i f¨ur i = 1, . . . , D und Yt = t
(Yt1 , . . . , YtD ). Dann ist Y eine Markovkette in stetiger Zeit mit Q-Matrix q(x, y) = p(x, y) − {x=y} . Da T ein Poissonprozess mit Rate 1 ist, ist auch (XTt )t≥0 ein D
Markovprozess mit Q-Matrix q. Es folgt (XTt )t≥0 = (Yt )t≥0 . Wir berechnen nun ∞ ∞ ∞ ) * GY := P0 [Yt = 0] dt = P0 X2n = 0, Tt = 2n dt 0
0
=
∞
n=0
∞
p2n (0, 0)
n=0
0
e−t
t2n dt = G(0, 0). (2n)!
Die beiden Prozesse (Xn )n∈N0 und (Yt )t∈[0,∞) haben also die selbe Greenfunktion. Nun sind aber die Koordinaten von Y tats¨achlich unabh¨angig, also ist ∞ P0 [Yt1 = 0]D dt. GY = 0
P0 [Yt1
Wir m¨ussen also nur noch = 0] f¨ur große t berechnen. Wir k¨onnen so argumentieren: nach dem Gesetz der großen Zahl ist Tt1 ≈ t/D f¨ur große t. Außerdem gilt P0 [Yt1 ist gerade] ≈ 12 . Es gilt also, mit nt = t/2D f¨ur t → ∞ (vergleiche ¨ Ubung 17.5.2) * 1 2nt −nt −1/2 −1/2 1 ) 1 1 4 P0 [Yt = 0] ∼ P Z2nt = 0 = ∼ 2π/D t . (17.21) 2 2 nt 0∞ Da genau dann 1 t−α dt < ∞ gilt, wenn α > 1 ist, so gilt auch GY < ∞ genau dann, wenn D > 2 ist. Dies ist aber gerade die Aussage des Satzes von P´olya. Schließlich stellen wir noch eine dritte Methode vor, um Rekurrenz und Transienz von Irrfahrten zu untersuchen, die unabh¨angig von den euklidischen Eigenschaften des D-dimensionalen Gitters ist und auf der Fourier-Inversionsformel beruht. ¨ Wir betrachten zun¨achst eine allgemeine irreduzible Irrfahrt mit Uber (zeitdiskrete) D it,x p(0, x) bezeichnen wir die charakgangsmatrix p auf Z . Mit φ(t) = x∈ZD e ¨ ¨ teristische Funktion eines einzelnen Ubergangs. Die Faltung der Ubergangswahrscheinlichkeiten u¨ bertr¨agt sich in Potenzen der charakteristischen Funktion, also ist φn (t) = eit,x pn (0, x). x∈ZD
17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten
357
Nach der Fourier-Inversionsformel (Satz 15.10) erhalten wir aus φn die n-Schritt ¨ Ubergangswahrscheinlichkeiten zur¨uck durch pn (0, x) = (2π)−D e−it,x φn (t) dt. [−π,π)D
Speziell ist f¨ur λ ∈ (0, 1) Rλ :=
∞
λn pn (0, 0) = (2π)−D
n=0
∞ n=0
λn φn (t) dt
[−π,π)D
1 dt. [−π,π)D 1 − λ φ(t) 1 −D = (2π) Re dt. 1 − λ φ(t) [−π,π)D = (2π)−D
Nun ist G(0, 0) = limλ↑1 Rλ , also X ist rekurrent ⇐⇒ lim λ↑1
Re
[−π,π)D
1 1 − λ φ(t)
dt = ∞.
(17.22)
W¨are φ(t) = 1 f¨ur ein t ∈ (−2π, 2π)D \{0}, so w¨are φn (t) = 1 f¨ur jedes n ∈ N und ¨ damit nach Ubung 15.2.1 P0 [ Xn , t/(2π)! ∈ Z] = 1, also w¨are X nicht irreduzibel, im Widerspruch zur Annahme. Wegen der Stetigkeit von φ ist also f¨ur jedes ε > 0
inf |φ(t) − 1| : t ∈ [−π, π)D \ (−ε, ε)D > 0. Es gilt also der folgende Satz. Satz 17.41 (Chung-Fuchs (1951)). Eine irreduzible Irrfahrt auf ZD mit charakteristischer Funktion φ ist genau dann rekurrent, wenn f¨ur jedes ε > 0 gilt: 1 lim Re dt = ∞. (17.23) λ↑1 (−ε,ε)D 1 − λ φ(t) D 1 Betrachten wir nun die symmetrische einfache Irrfahrt, so ist φ(t) = D i=1 cos(ti ). Entwickeln wir die Kosinusfunktion in eine Taylorreihe um 0, so erhalten wir 1 t22 + O(t42 ). Es folgt, dass cos(ti ) = 1 − 12 t2i + O(t4 ), also 1 − φ(t) = 2D 0 −2 X genau dann rekurrent ist, wenn t2 <ε t2 dt = ∞. Wir berechnen dieses Integral in Polarkoordinaten (mit CD die Oberfl¨ache der Einheitskugel in RD ) ε t−2 dt = C rD−1 r−2 dr = ∞ ⇐⇒ D ≤ 2. D 2 t2 <ε
0
Also ist X genau dann rekurrent, wenn D ≤ 2 ist.
358
17 Markovketten
Wir werden in Kapitel 19.3 noch eine weitere, strukturell v¨ollig andere Methode kennen lernen, um den Satz von P´olya zu beweisen, die auf dem Zusammenhang von Irrfahrten mit elektrischen Netzwerken beruht. Tats¨achlich k¨onnen wir mit Hilfe des Satzes von Chung-Fuchs die Greenfunktion GD (0, 0) der symmetrischen einfachen Irrfahrt auf ZD berechnen, indem wir das so genannte Watson Integral D −D dx (17.24) GD (0, 0) = (2π) D − (cos(x ) + . . . + cos(xD )) D 1 (−π,π] numerisch berechnen. Hierzu folgen wir [81] (wo sich auch noch eine Verfeinerung des Verfahrens findet) und f¨uhren 0 ∞das D-fache Integral auf ein zweifaches zur¨uck. Indem wir die Gleichung λ1 = 0 e−λt dt f¨ur den Integranden benutzen und den Satz von Fubini verwenden, erhalten wir ∞ D −Dt t(cos(x1 )+...+cos(xD )) e e dx dt GD (0, 0) = (2π)D 0 (−π,π]D
und damit GD (0, 0) = D
∞
e−Dt I0 (t)D dt,
(17.25)
0
0π wobei I0 (t) := π1 0 et cos(θ) dθ die modifizierte Bessel-Funktion erster Art bezeichnet. Die Darstellung (17.25) l¨asst sich vermittels numerischer Integration in guter Genauigkeit schnell berechnen (siehe Tabelle 17.1). F¨ur den Fall D = 3 hat Watson [155] die Darstellung √ √ √ √ √ √ 2 18 + 12 2 − 10 3 − 7 6 K (2 − 3)( 3 − 2) G3 (0, 0) = 12 π2 −1/2 01 angegeben, wobei K(m) = 0 (1 − t2 )(1 − mt2 ) dt das vollst¨andige elliptische Integral erster Ordnung mit Modul m ∈ (−1, 1) ist und eine Darstellung als schnell konvergierende Reihe besitzt 2 ∞ (2n)! π 2 m . 1+ K(m) = 2 4n (n!)2 n=1 Glasser und Zucker [60] haben einen Ausdruck als Produkt von Gammafunktionen gefunden: √ 1 5 7 11 6 G3 (0, 0) = Γ Γ Γ Γ = 1.5163860591519780181 . . . 32π 3 24 24 24 24
17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten
359
Tabelle 17.1. Greenfunktion GD (0, 0) und R¨uckkehrwahrscheinlichkeit FD (0, 0) der einfachen symmetrischen Irrfahrt auf ZD , numerisch berechnet mit Formel (17.25). D
GD (0, 0)
FD (0, 0)
2
∞
1
3
1.51638605915
0.34053732955
4
1.23946712185
0.19320167322
5
1.15630812484
0.13517860982
6
1.11696337322
0.10471549562
7
1.09390631559
0.08584493411
8
1.07864701202
0.07291264996
9
1.06774608638
0.06344774965
10
1.05954374789
0.05619753597
11
1.05313615291
0.05045515982
12
1.04798637482
0.04578912090
13
1.04375406289
0.04191989708
14
1.04021240323
0.03865787709
15
1.03720412092
0.03586962312
16
1.03461657857
0.03345836447
17
1.03236691238
0.03135214040
18
1.03039276285
0.02949628913
19
1.02864627888
0.02784852234
20
1.02709011674
0.02637559869
¨ ¨ Ubung 17.5.1. F¨ur n ∈ N0 sei pn die Matrix der n-Schritt Ubergangswahrscheinlichkeiten der einfachen symmetrischen Irrfahrt auf ZD . Man leite f¨ur n ∈ N die Formel
−2n D−2n cos(t1 ) + . . . + cos(tD ) dt p2n (0, 0) = (2π)−D [−π,π)D
her (siehe Satz 15.10). Man schließe durch geeignete Absch¨atzung des Integrals die n→∞ ♣ Konvergenz nD/2 p2n (0, 0) −→ 2(4π/D)−D/2 (siehe (17.18)). ¨ Ubung 17.5.2. Man zeige (17.21) formal.
♣
¨ Ubung 17.5.3. Man zeige mit Hilfe vonSatz 17.41, dass eine Irrfahrt auf Z2 mit 2 ♣ x∈Z2 x p(0, x) = 0 rekurrent ist, falls x∈Z2 x2 p(0, x) < ∞. ¨ Ubung 17.5.4. Man zeige mit Hilfe von Satz 17.41, dass f¨ur D ≥ 3 jede irreduzible ♣ Irrfahrt auf ZD transient ist. 2n ¨ Ubung 17.5.5. Man zeige (17.25) f¨ur G D (0, 0) direkt mit den p (0, 0) aus (17.20) ∞ und mit der Reihendarstellung I0 (t) = k=0 (k!)−2 (t/2)k . ♣
360
17 Markovketten
17.6 Invariante Verteilungen Sei im Folgenden stets p eine stochastische Matrix auf dem diskreten Raum E sowie (Xn )n∈N0 eine zugeh¨orige Markovkette. In diesem Abschnitt interessieren wir uns daf¨ur, welche Wahrscheinlichkeitsverteilungen unter der Dynamik der Markovkette erhalten bleiben. Im Kapitel 18 werden wir unter einfachen Bedingungen zeigen, wann die Verteilung einer Markovkette f¨ur lange Zeiten gegen eine solche Verteilung konvergiert. Definition 17.42. Ist μ ein Maß auf E und f : E → R eine Abbildung, so schreiben wir μp({x}) = y∈E μ({y})p(y, x) und pf (x) = y∈E p(x, y)f (y), falls die Summen konvergieren. Definition 17.43.
(i) Ein σ-endliches Maß μ auf E heißt invariantes Maß, falls μp = μ.
μ heißt invariante Verteilung, falls zudem μ(E) = 1 gilt. Mit I bezeichnen wir die Menge der invarianten Verteilungen. (ii) Eine Funktion f : E → R heißt subharmonisch, falls pf existiert und f ≤ pf gilt. f heißt superharmonisch, falls f ≥ pf gilt und harmonisch, falls f = pf . Bemerkung 17.44. Im Sinne der linearen Algebra ist ein invariantes Maß ein LinksEigenvektor von p und eine harmonische Funktion ein Rechts-Eigenvektor, jeweils zum Eigenwert 1. 3 Lemma 17.45. Ist f beschr¨ankt und (sub-, super-) harmonisch, so ist (f (Xn ))n∈N0 ein (Sub-, Super-) Martingal bez¨uglich der erzeugten Filtration F = σ(X). Beweis. Sei f beschr¨ankt und subharmonisch. Dann ist p(Xn−1 , y)f (y) Ex [f (Xn ) Fn−1 ] = EXn−1 [f (X1 )] = y∈E
= pf (Xn−1 ) ≥ f (Xn−1 ).
2
Satz 17.46. Ist X transient, so existiert keine invariante Verteilung. ∞ Beweis. Nach Voraussetzung ist G(x, y) = n=0 pn (x, y) < ∞ f¨ur alle x, y ∈ E, n→∞ n→∞ also pn (x, y) −→ 0. F¨ur jedes W-Maß μ auf E ist daher μpn (x) −→ 0. W¨are n 2 μ invariant, so w¨are aber μp (x) = μ(x) f¨ur jedes n ∈ N.
17.6 Invariante Verteilungen
361
Satz 17.47. Sei x ein rekurrenter Zustand und τx1 = inf{n ≥ 1 : Xn = x}. Dann wird ein invariantes Maß μx definiert durch ⎡ 1 ⎤ τx −1 ∞ ) * ⎣ ⎦ μx ({y}) = Ex Px Xn = y; τx1 > n . {Xn =y} = n=0
n=0
Beweis. Zun¨achst m¨ussen wir zeigen, dass μx ({y}) < ∞ ist f¨ur jedes y ∈ E. F¨ur y = x ist offenbar μx ({x}) = 1. F¨ur y = x und F (x, y) = 0 ist μx ({y}) = 0. Sei nun y = x und F (x, y) > 0. Da x rekurrent ist, ist F (x, y) = F (y, x) = 1, und y ist rekurrent (Satz 17.35). Sei ) * F<(x, y) = Px τx1 > τy1 . Dann ist F<(x, y) > 0 (sonst w¨urde y nicht getroffen) und nach Vertauschung der Rollen von x und y auch F<(y, x) > 0. Nach der starken Markoveigenschaft (Satz 17.14) ist ⎡ 1 ⎤ ⎡ 1 ⎤ τx −1 τx −1 1 1⎦ ⎦ ⎣ Ey ⎣ {Xn =y} = 1 + Ey {Xn =y} ; τx > τy n=τy1
n=0
⎡ 1 τx −1 < ⎣ = 1 + 1 − F (y, x) Ey
⎤ {Xn =y}
⎦.
n=0
⎡
Also ist
⎤
τx1 −1
Ey ⎣
{Xn =y}
⎦=
n=0
Mithin ist
⎡
⎤
τx1 −1
μx ({y}) = Ex⎣
{Xn =y}
⎡
⎦ = Ex⎣
1 F<(y, x)
⎤
τx1 −1
1 {Xn =y} ; τx
n=τy1
n=0
.
> τy1 ⎦ =
F<(x, y) < ∞. F<(y, x)
) * Definiere pn (x, y) = Px Xn = y; τx1 > n . Dann ist f¨ur jedes z ∈ E μx p({z}) =
μx ({y}) p(y, z) =
∞
pn (x, y) p(y, z).
n=0 y∈E
y∈E
1. Fall: x = z. Dann ist ) * pn (x, y)p(y, z) = Px Xn = y, τx1 > n, Xn+1 = z y∈E
y∈E
) * = Px τx1 > n + 1; Xn+1 = z = pn+1 (x, z).
362
17 Markovketten
Also ist (wegen p0 (x, z) = 0) μx p({z}) =
∞
pn+1 (x, z) =
n=0
∞
pn (x, z) =
n=1
∞
pn (x, z) = μx ({z}).
n=0
2. Fall: x = z. Jetzt ist ) ) * * pn (x, y)p(y, x) = Px Xn = y; τx1 > n; Xn+1 = x = Px τx1 = n + 1 . y∈E
y∈E
) * Also ist (wegen Px τx1 = 0 = 0) μx p({x}) =
∞
) * Px τx1 = n + 1 = 1 = μx ({x}).
2
n=0
Korollar 17.48. Ist x positiv rekurrent, so wird durch π({x}) := eine invariante Verteilung π definiert.
μx f¨ur x ∈ E Ex [τx1 ]
Satz 17.49. Ist X irreduzibel, so hat X h¨ochstens eine invariante Verteilung. Bemerkung 17.50. Man kann auch zeigen: Ein invariantes Maß von X ist bis auf einen Faktor eindeutig. Der Beweis ist allerdings aufw¨andiger als der f¨ur invariante Verteilungen. Weil die Aussage hier nicht ben¨otigt wird, verweisen wir lediglich auf [38, Theorem 5.4.4]. 3 Beweis. Seien π und ν invariante Verteilungen. W¨ahle einen beliebigen Wahrscheinlichkeitsvektor (gn )n∈N mit gn > 0 f¨ur jedes n ∈ N. Definiere die stochas∞ tische Matrix p(x, y) = n=1 gn pn (x, y). Dann ist p(x, y) > 0 f¨ur alle x, y ∈ E und π p = π sowie ν p = ν. Betrachte nun das signierte Maß μ = π − ν. Es gilt μ p = μ. W¨are nun μ = 0, so g¨abe es (wegen μ(E) = 0) Punkte x1 , x2 ∈ E mit μ({x1 }) > 0 und μ({x2 }) < 0. Offensichtlich w¨are f¨ur jedes y ∈ E dann μ({x1 }) p(x1 , y) + μ({x2 }) p(x2 , y) < μ({x1 }) p(x1 , y) + μ({x2 }) p(x2 , y), also = = = = μ p TV = μ({x}) p(x, y) y∈E
<
x∈E
|μ({x})| p(x, y) =
y∈E x∈E
|μ({x})| = μ T V .
x∈E
Da dies widerspr¨uchlich ist, gilt μ = 0. Es sei daran erinnert, dass I die Menge der invarianten Verteilungen von X ist.
2
17.6 Invariante Verteilungen
363
Satz 17.51. Sei X irreduzibel. X ist genau dann positiv rekurrent, wenn I = ∅ ist. In diesem Fall ist I = {π} mit π({x}) =
1 >0 Ex [τx1 ]
f¨ur jedes x ∈ E.
Beweis. Ist X positiv rekurrent, so ist I = ∅ nach Korollar 17.48. Sei nun I = ∅ und π ∈ I. Da X irreduzibel ist, ist π({x}) > 0 f¨ur jedes x ∈ E. Sei Pπ = ur n ∈ N0 x∈E π({x})Px . Sei x ∈ E fest und f¨
σxn = sup m ≤ n : Xm = x ∈ N0 ∪ {−∞} die letzte Eintrittszeit in x bis zur Zeit n. (Man bemerke, dass dies keine Stoppzeit ist.) Nach der Markoveigenschaft gilt dann f¨ur k ≤ n ) * Pπ [σxn = k] = Pπ Xk = x, Xk+1 = x, . . . , Xn = x ) * = Pπ Xk+1 = x, . . . , Xn = x|Xk = x Pπ [Xk = x] ) * = π({x}) Px X1 , . . . , Xn−k = x ) * = π({x}) Px τx1 ≥ n − k + 1 . ) * Also ist f¨ur jedes n ∈ N0 (wegen Py τx1 < ∞ = 1 f¨ur jedes y ∈ E) 1=
n
Pπ [σxn = k] + Pπ [σxn = −∞]
k=0
= π({x})
n
) ) * * Px τx1 ≥ n − k + 1 + Pπ τx1 ≥ n + 1
k=0 n→∞
−→ π({x})
∞
) ) * * Px τx1 ≥ k = π({x}) Ex τx1 .
k=1
) * Mithin ist Ex τx1 =
1 π({x})
< ∞, und damit ist X positiv rekurrent.
2
¨ Ubung 17.6.1. Betrachte die Markovkette aus Abb. 17.1 (Seite 350). Man bestimme die Menge aller invarianten Verteilungen und zeige, dass die Zust¨ande 6, 7 und 8 positiv rekurrent sind mit erwarteten Eintrittszeiten E6 [τ6 ] =
17 , 4
E7 [τ7 ] =
17 5
und
E8 [τ8 ] =
17 . 5
♣
364
17 Markovketten
¨ Ubung 17.6.2. Sei X = (Xt )t≥0 eine Markovkette auf E in stetiger Zeit mit QMatrix q. Man zeige: Ein Wahrscheinlichkeitsmaß π auf E ist genau dann eine in ♣ variante Verteilung f¨ur X, wenn x∈E π({x})q(x, y) = 0 f¨ur alle y ∈ E. ¨ ¨ Ubung 17.6.3. Sei G eine abz¨ahlbare, abelsche Gruppe und p die Ubergangsmatrix einer irreduziblen Irrfahrt X auf G, das heißt, es gilt p(hg, hf ) = p(h, f ) f¨ur alle h, g, f ∈ G. (Dies verallgemeinert den Begriff der Irrfahrt auf ZD .) Man zeige mit Hilfe von Satz 17.51: X ist genau dann positiv rekurrent, wenn G endlich ist. ♣ ¨ ¨ Ubung 17.6.4. Sei r ∈ [0, 1] und X die Markovkette auf N0 mit Ubergangsmatrix (siehe Abb. 17.2 auf Seite 351) ⎧ 1, falls x = 0 und y = 1, ⎪ ⎪ ⎪ ⎨ r, falls y = x + 1 ≥ 2, p(x, y) = ⎪ 1 − r, falls y = x − 1, ⎪ ⎪ ⎩ 0, sonst. Man bestimme das invariante Maß und zeige mit Hilfe von Satz 17.51:
(i) Ist r ∈ 0, 12 , so ist X positiv rekurrent. (ii) Ist r = 12 , so ist X nullrekurrent. *
(iii) Ist r ∈ {0} ∪ 12 , 1 , so ist X transient.
♣
18 Konvergenz von Markovketten
Wir betrachten eine Markovkette X mit invarianter Verteilung π und untersuchen unter welchen Bedingungen die Verteilung von Xn f¨ur n → ∞ gegen π konvergiert. Im Wesentlichen ist daf¨ur notwendig und hinreichend, dass der Zustandsraum der Kette nicht in Unterr¨aume zerf¨allt, die – von der Kette nicht verlassen werden, – oder von der Kette beispielsweise nur f¨ur ungerade n beziehungsweise gerade n besucht werden. Im ersten Fall w¨are die Kette reduzibel, im zweiten hingegen periodisch. Wir untersuchen Periodizit¨at von Ketten im ersten Abschnitt und zeigen im zweiten den Konvergenzsatz. Im dritten Abschnitt besch¨aftigen wir uns mit Anwendungen des Konvergenzsatzes f¨ur Computersimulationen mit der so genannten Markovketten Monte Carlo Methode. Im letzten Abschnitt beschreiben wir die Geschwindigkeit der Konvergenz gegen das Gleichgewicht mit Hilfe des Spektrums ¨ der Ubergangsmatrix.
18.1 Periodizit¨at von Markovketten Wir untersuchen, unter welchen Bedingungen eine Markovkette X auf dem abz¨ahl¨ baren Raum E (und mit Ubergangsmatrix p), die in einem beliebigen μ ∈ M1 (E) gestartet wird, in Verteilung gegen eine invariante Verteilung π konvergiert, also n→∞ μpn −→ π gilt. Sicherlich ist hierzu notwendig, dass π die einzige invariante Verteilung ist, und damit bis auf Vielfache der einzige Links-Eigenvektor von p zum Eigenwert 1. Hierf¨ur ist ausreichend, dass die Kette irreduzibel ist (Satz 17.49). n→∞
Es sind gewisse Kontraktionseigenschaften von p notwendig, damit μpn −→ π f¨ur jedes μ ∈ M1 (E) gelten kann. Offenbar ist 1 der betragsm¨aßig gr¨oßte Eigenwert von p. Allerdings ist p nur dann (ausreichend) kontrahierend, wenn die Vielfachheit dieses Eigenwertes genau 1 ist und keine weiteren (komplexwertigen) Eigenwerte mit Betrag 1 existieren. F¨ur die letztgenannte Bedingung ist die Irreduzibilit¨at der Kette nicht hinreichend, ¨ wie wir sehen, wenn wir auf E = {0, . . . , N − 1} die Markovkette mit Ubergangs-
366
18 Konvergenz von Markovketten
matrix p(x, y) = {y=x+1(mod N )} betrachten. Der Eigenwert 1 hat die Vielfachheit 1. Jedoch sind alle N -ten Einheitswurzeln eik/N , k = 0, . . . , N − 1, ebenfalls Eigenwerte mit Betrag 1. Offenbar ist die Gleichverteilung auf E invariant, jedoch existiert lim δx pn f¨ur kein x ∈ E, denn jeder Punkt wird periodisch immer nur n→∞ nach jeweils genau N Schritten besucht. Um Konvergenz zu erzielen, m¨ussen wir also zun¨achst Periodizit¨at untersuchen (und ausschließen). Hernach k¨onnen wir f¨ur irreduzible aperiodische Markovketten einen Konvergenzsatz angeben. n ∈ N. Sind m, n ∈ N, so schreiben wir mn, falls m ein Teiler von n ist, also falls m Ist M ⊂ N, so schreiben wir ggT(M ) f¨ur den gr¨oßten gemeinsamen Teiler aller n ∈ M . Sei im Folgenden stets X eine Markovkette auf dem abz¨ahlbaren Raum E ¨ mit Ubergangsmatrix p. Definition 18.1.
(i) F¨ur x, y ∈ E schreiben wir
N (x, y) := n ∈ N0 : pn (x, y) > 0 .
F¨ur jedes x ∈ E heißt dx := ggT(N (x, x)) die Periode des Punktes x. (ii) Ist dx = dy f¨ur alle x, y ∈ E, so heißt d := dx die Periode von X. (iii) Ist dx = 1 f¨ur jedes x ∈ E, so heißt X aperiodisch.
1/2 1/2
1 1/2
1/2
1/2
1/2
1
Abb. 18.1. Die linke Markovkette ist periodisch mit Periode 2, die rechte Markovkette ist aperiodisch.
Lemma 18.2. F¨ur jedes x ∈ E existiert ein nx ∈ N mit pndx (x, x) > 0
f¨ur jedes n ≥ nx .
(18.1)
Beweis. Seien k1 , . . . , kr ∈ N (x, x) mit ggT({k1 , . . . , kr }) = dx . Dann ist f¨ur alle r m1 , . . . , mr ∈ N0 auch i=1 ki mi ∈ N(x, x). Elementare Zahlentheorie liefert r uns nun, dass f¨ur jedes ≥ nx := r · i=1 (ki /dx ) Zahlen m1 , . . . , mr ∈ N0 n r existieren mit n dx = i=1 ki mi . Also gilt (18.1). 2
18.1 Periodizit¨at von Markovketten
3
1/2
2
1/2
5
1
6
1
4
367
1
1
1
1
8
1
7
Abb. 18.2. Es ist N (8, 8) = {6, 10, 12, 14, 16, . . .}, also d8 := ggT({6, 10, 12, . . .}) = 2 und n8 = 5. Die Kette hat also Periode 2. Hingegen ist n1 = 2 und n4 = 4.
Das Problem, die kleinste Zahl N zu finden, sodass sich jedes n dx , n ≥ N als nichtnegative ganzzahlige Linearkombination von k1 , . . . , kr darstellen l¨asst, wird Frobenius Problem genannt. Die allgemeine L¨osung ist unbekannt, allerdings hat Sylvester [150] f¨ur den Fall r = 2 gezeigt, dass N = (k1 /dx − 1)(k2 /dx − 1) minimal ist. Im allgemeinen Fall ist als obere Schranken f¨ur N beispielsweise 2 max{ki : i = 1, . . . , r}2 /(rd2x ) bekannt, siehe etwa [44]. Lemma 18.3. Sei X irreduzibel. Dann gelten: (i) d := dx = dy f¨ur alle x, y ∈ E. (ii) F¨ur alle x, y ∈ E existieren nx,y ∈ N und Lx,y ∈ {0, . . . , d − 1} mit nd + Lx,y ∈ N (x, y)
f¨ur jedes n ≥ nx,y .
(18.2)
f¨ur alle x, y, z ∈ E.
(18.3)
Lx,y ist eindeutig bestimmt, und es gilt Lx,y + Ly,z + Lz,x = 0 (mod d)
Beweis. (i) Seien m, n ∈ N0 mit pm (x, y) > 0 und pn (y, z) > 0. Dann ist pm+n (x, z) ≥ pm (x, y) pn (y, z) > 0. Also gilt
N (x, y) + N (y, z) := m + n : m ∈ N (x, y), n ∈ N (y, z) ⊂ N (x, z). (18.4) Sind speziell m ∈ N (x, y), n ∈ N (y, x) und k ≥ ny , so ist kd y ∈ N (y, y), also (m + n + kdy ) f¨ur m + n + kd ∈ N (x, x). Es folgt d m + kdy ∈ N (x, y) und y x jedes k ≥ ny , also dx dy . Analog erhalten wir dy dx , also dx = dy . (ii) Sei m ∈ N (x, y). Dann ist m + kd ∈ N (x, y) f¨ur jedes k ≥ nx . Also gilt (18.2) mit CmD CmD nx,y := nx + und Lx,y := m − d . d d Wegen (18.4) ist
368
18 Konvergenz von Markovketten
(nx,y + ny,z )d + Lx,y + Ly,z ∈ N (x, z). Mit z = x folgt: d(Lx,y + Ly,x ), also ist Lx,y eindeutig in {0, . . . , d − 1} und Lx,y = −Ly,x (mod d). F¨ur allgemeines z folgt: d(Lx,y + Ly,z + Lz,x ), also gilt (18.3). 2 Satz 18.4. Sei X irreduzibel mit Periode d. Dann existiert eine disjunkte Zerlegung des Zustandsraums d−1 Ei (18.5) E= i=0
mit der Eigenschaft p(x, y) > 0 und x ∈ Ei
=⇒
y ∈ Ei+1 (mod d) .
(18.6)
Bis auf zyklische Vertauschung ist diese Zerlegung eindeutig. E0 E2 E1
Abb. 18.3. Markovkette mit Periode d = 3.
Die Eigenschaft (18.6) besagt gerade, dass X die Mengen Ei nacheinander besucht und zu jedem Zeitschritt in das n¨achste Ei wechselt (siehe Abb. 18.3 oder Abb. 18.2, wo d = 2, E0 = {1, 3, 5, 7} und E1 = {2, 4, 6, 8} ist).) Etwas formaler k¨o*nnen wir dies schreiben als: Ist x ∈ Ei f¨ur gewisses i, so ist Px Xn ∈ Ei+n (mod d) = 1. W¨ahle ein beliebiges x0 ∈ E und setze
Ei := y ∈ E : Lx0 ,y = i f¨ur i = 0, . . . , d − 1.
Beweis. Existenz“ ”
Offenbar gilt (18.5). Sei i ∈ {0, . . . , d − 1} und x ∈ Ei . Ist y ∈ E mit p(x, y) > 0, so ist Lx,y = 1, also ist Lx0 ,y = Lx0 ,x + Lx,y = i + 1 (mod d). i , i = 0, . . . , d − 1) eine weitere Zerlegung, die (18.5) Eindeutigkeit“ Sei (E ” 0 = ∅ (sonst vertausche die E i und (18.6) erf¨ullt. Ohne Einschr¨ankung sei E0 ∩ E zyklisch bis dies gilt) und x0 ∈ E0 ∩ E0 beliebig. Nach Voraussetzung impliziert
18.2 Kopplung und Konvergenzsatz
369
1 , also y ∈ E1 ∩ E 1 . Iterativ erhalten wir, dass p(x0 , y) > 0 nun y ∈ E1 und y ∈ E nd+i p (x, y) > 0 impliziert, dass y ∈ Ei ∩ Ei (f¨ur n ∈ N und i = 0, . . . , d − 1). Da die Kette irreduzibel ist, existieren aber f¨ur jedes y ∈ E Zahlen n(y) und i(y), i(y) . Mithin gilt Ei = E i f¨ur jedes sodass pn(y) d+i(y) (x0 , y) > 0, also y ∈ Ei(y) ∩ E i = 0, . . . , d − 1. 2
18.2 Kopplung und Konvergenzsatz Es ist oftmals n¨utzlich, einen gemeinsamen Wahrscheinlichkeitsraum f¨ur zwei Verteilungen anzugeben, sodass die jeweiligen Verteilungen sich als die Randverteilungen ergeben. Wir stellen zun¨achst das Prinzip der Kopplung abstrakt vor und geben dann Beispiele an. Schließlich wenden wir die Begriffe auf Markovketten an. Definition 18.5. Sind (E1 , E1 , μ1 ) und (E2 , E2 , μ2 ) Wahrscheinlichkeitsr¨aume, so heißt jedes W-Maß μ auf (E1 ×E2 , E1 ⊗E2 ) mit μ( · ×E2 ) = μ1 und μ(E1 × · ) = μ2 eine Kopplung von μ1 und μ2 . Beispiel 18.6. Seien X eine reelle Zufallsvariable und f, g : R → R monoton wachsende Funktionen mit E[f (X)2 ] < ∞ und E[g(X)2 ] < ∞. Wir wollen zeigen, dass die Zufallsvariablen f (X) und g(X) nichtnegativ korreliert sind. Sei dazu Y eine unabh¨angige Kopie von X, also eine von X unabh¨angige Zufallsvariable mit PY = PX . Speziell ist E[f (X)] = E[f (Y )] und E[g(X)] = E[g(Y )]. F¨ur alle Zahlen x, y ∈ R ist (f (x) − f (y))(g(x) − g(y)) ≥ 0. Also ist ) * 0 ≤ E f (X) − f (Y ) g(X) − g(Y ) = E[f (X)g(X)] − E[f (X)] E[g(Y )] + E[f (Y )g(Y )] − E[f (Y )] E[g(X)] = 2 Cov[f (X), g(X)]. 2 0 0 Beispiel 18.7. Sind μ, ν ∈ M1 (Rd ), so schreiben wir μ ) ν, falls f dμ ≤ f dν f¨ur jede monoton wachsende, beschr¨ankte Funktion f : Rd → R. Wir sagen dann, dass ν stochastisch gr¨oßer als μ ist. Offenbar ist ) eine Halbordnung auf M1 (Rd ). Sind F1 und F2 die Verteilungsfunktionen von μ1 und μ2 , so ist offenbar μ1 ) ¨ u¨ ber μ2 genau dann, wenn F1 (x) ≥ F2 (x) f¨ur jedes x ∈ Rd . (Einen Uberblick verschiedene stochastische Ordnungen findet man beispielsweise in [116].) Wir zeigen jetzt, dass genau dann μ ) ν gilt, wenn es eine Kopplung ϕ von μ1 und μ2 gibt mit ϕ(L) = 1, wo L := {x = (x1 , x2 ) ∈ Rd × Rd : x1 ≤ x2 }. d Sei ϕ eine solche Kopplung. F¨ur monoton wachsendes, beschr¨ 0 anktes f 0: R → R 0ist f (x1 ) − f (x2 ) ≤ 0 f¨ur jedes x = (x1 , x2 ) ∈ L, also f dμ1 − f dμ2 = f (x1 ) − f (x2 ) ϕ(dx) ≤ 0 und damit μ1 ) μ2 . L
Gilt andererseits μ1 ) μ2 , so wird durch F ((x1 , x2 )) := min(F1 (x1 ), F2 (x2 )) eine Verteilungsfunktion auf Rd × Rd definiert, die zu einer Kopplung ϕ mit ϕ(L) = 1 geh¨ort. 3
370
18 Konvergenz von Markovketten
Beispiel 18.8. Sei (E, ) ein polnischer Raum. F¨ur zwei W-Maße P und Q auf (E, B(E)) schreiben wir K(P, Q) ⊂ M1 (E × E) f¨ur die Menge der Kopplungen von P und Q. Wir k¨onnen dann einen Abstand, die so genannte Wasserstein Metrik, auf M1 (E) definieren durch 1 2 dW (P, Q) := inf (x, y) ϕ(d(x, y)) : ϕ ∈ K(P, Q) . (18.7) Man kann zeigen (Satz von Kantorovich-Rubinstein [85], siehe auch [37, Seite 420ff]), dass 1 2 dW (P, Q) = sup f d(P − Q) : f ∈ Lip1 (E; R) . (18.8) Man vergleiche diese Darstellung der Wasserstein Metrik mit derjenigen der Totalvariationsnorm: 1 2 f d(P − Q) : f ∈ L∞ (E) mit f ∞ ≤ 1 . (18.9) P − QT V = sup Tats¨achlich k¨onnen wir auch hier eine Definition durch eine Kopplung angeben: Sei D := {(x, x) : x ∈ E} die Diagonale in E × E. Dann ist
P − QT V = inf ϕ((E × E) \ D) : ϕ ∈ K(P, Q) . (18.10) Siehe [59] f¨ur einen Vergleich verschiedener Metriken auf M1 (E).
3
Ein weiteres Beispiel f¨ur eine komplexere Kopplung liefert der folgende Satz von Skorohod, den wir hier nur zitieren. Satz 18.9 (Skorohod Kopplung). Es seien μ, μ1 , μ2 , . . . W-Maße auf einem poln→∞ nischen Raum E mit μn −→ μ. Dann existiert ein Wahrscheinlichkeitsraum (Ω, A, P) mit Zufallsvariablen X, X1 , X2 , . . . mit PX = μ und PXn = μn f¨ur n→∞ jedes n ∈ N sowie Xn −→ X fast sicher. 2
Beweis. Siehe etwa [84, Seite 79].
Wir wollen die Kopplung diskreter Markovketten betrachten, die in unterschiedlichen Verteilungen μ und ν gestartet werden. Im Folgenden sei E stets ein abz¨ahlbarer Raum und p eine stochastische Matrix auf E. Definition 18.10. Eine bivariate Markovkette ((Xn , Yn ))n∈N0 mit Werten in E × E ¨ heißt eine Kopplung, falls (Xn )n∈N0 und (Yn )n∈N0 Markovketten mit Ubergangsmatrix p sind. n→∞
Eine Kopplung heißt erfolgreich, falls P(x,y) [Xn = Yn ] −→ 0 f¨ur alle x, y ∈ E.
18.2 Kopplung und Konvergenzsatz
371
Diese Definition der Kopplung von Markovketten ist in gewisser Weise sehr restriktiv, weil sie die Markoveigenschaft auch wieder f¨ur den gekoppelten Prozess fordert. F¨ur die Anwendungen, die wir im Sinne haben, reicht dies aber v¨ollig aus. Nat¨urlich sind zwei unabh¨angig laufende Ketten eine Kopplung, allerdings vielleicht nicht die interessanteste. Beispiel 18.11 (Unabh¨angiges Verschmelzen). Die wichtigste Kopplung sind die verschmelzenden Markovketten: Wir lassen X und Y unabh¨angig voneinander mit ¨ Ubergangsmatrix p laufen, so lange bis sie sich das erste Mal treffen. Danach laufen die Ketten gemeinsam weiter. Diese Kopplung nennen wir unabh¨angiges Ver¨ schmelzen, sie hat die Ubergangsmatrix ⎧ ⎪ p(x1 , x2 ) · p(y1 , y2 ), falls x1 = y1 , ⎨
p(x1 , x2 ), falls x1 = y1 , x2 = y2 , p¯ (x1 , y1 ), (x2 , y2 ) = ⎪ ⎩ 0, falls x1 = y1 , x2 = y2 . Mit τ := inf{n ∈ N0 : Xn = Yn } bezeichnen wir den Verschmelzungszeitpunkt. ˜ und Y˜ herWir k¨onnen die Kopplung tats¨achlich aus zwei unabh¨angigen Ketten X ˜ setzen, τ˜ := inf{n ∈ N0 : X ˜ n = Y˜n } und stellen, indem wir X := X 1 Y˜n , falls n < τ˜, Yn := Xn , falls n ≥ τ˜. Statt mit einer direkten Rechnung zu pr¨ufen, dass der so definierte Prozess (X, Y ) ¨ eine Kopplung mit Ubergangsmatrix p¯ ist, betrachten wir die Konstruktion von Markovketten aus Satz 17.17: Seien (Rn (x) : n ∈ N0 , x ∈ E) unabh¨angige Zufalls˜ n ((x1 , y1 )) = variablen mit Verteilung P[Rn (x1 ) = x2 ] = p(x1 , x2 ), und sei R ˜ n )n∈N unabh¨angig, und es gilt P[R ˜ n ((x1 , y1 )) = (Rn (x1 ), Rn (y 1 )). Dann ist (R 0 (x2 , y2 )] = p¯ (x1 , y1 ), (x2 , y2 ) . Wie in Satz 17.17 gesehen, definiert Xn+1 := ¨ p. AndeRn (Xn ) und Yn+1 := Rn (Yn ) zwei Markovketten mit Ubergangsmatrix ˜ n ((Xn , Yn )), also ist der bivariate Prozess tats¨achlich rerseits ist (Xn+1 , Yn+1 ) = R ¨ eine Kopplung mit Ubergangsmatrix p¯. 3 Beispiel 18.12. Sei E = Z und p(x, y) = 1/3, falls |x − y| ≤ 1 und 0 sonst. Offenbar geh¨ort p zu einer aperiodischen, rekurrenten Irrfahrt auf Z. Wir wollen zeigen, dass wir eine erfolgreiche Kopplung durch Verschmelzung unabh¨angiger Ketten erreichen k¨onnen. ˜ und Y˜ unabh¨angige Irrfahrten mit Ubergangsmatrix ¨ p. Dann ist die Seien also X ˜ n − Y˜n )n∈N eine symmetrische Irrfahrt mit endliDifferenz (Zn )n∈N0 := (X 0 chem Erwartungswert, also rekurrent. Zudem ist Z irreduzibel. F¨ur je zwei Punkte τ < ∞] = Px−y [Zn = 0 f¨ur ein n ∈ N0 ] = 1. Also x, y ∈ Z gilt also P(x,y) [˜ verschmelzen X und Y fast sicher. 3 Rekurrenz, Irreduzibilit¨at und Aperiodizit¨at alleine reichen nicht aus, damit das un¨ abh¨angige Verschmelzen eine erfolgreiche Kopplung ist. In Ubung 18.2.4 wird an
372
18 Konvergenz von Markovketten
einem Beispiel gezeigt, dass wir auf die r¨aumliche Homogenit¨at nicht leicht verzichten k¨onnen, wenn wir eine erfolgreiche Kopplung haben m¨ochten. Der Verzicht auf Rekurrenz f¨allt leichter, wie der folgende Satz zeigt. Satz 18.13. Sei X eine beliebige aperiodische und irreduzible Irrfahrt auf Zd mit ¨ Ubergangsmatrix p. Dann existiert eine erfolgreiche Kopplung (X, Y ). Der Beweis ist etwas technisch und kann beim ersten Lesen ausgelassen werden. Beweis. Sei zun¨achst der Fall d = 1 betrachtet. F¨ur jedes L ∈ N definieren wir die ¨ Ubergangsmatrix pˇL einer Irrfahrt auf Z durch p(x, z) p(y, z), falls x = y, pˇL (x, y) = z∈Z: |z−y|≤L, |z−x|≤L
und pˇL (x, x) = 1 −
y =x
pˇL (x, y).
Offenbar ist pˇL stets aperiodisch. W¨ahle nun L so groß, dass pˇL irreduzibel ist. ¨ (Dass dies geht, zeigt die folgende Uberlegung: Da p aperiodisch und irreduzibel ist, gibt es zu jedem x ∈ Z ein Nx ∈ N mit p(n) (0, x) > 0 f¨ur n ≥ Nx . F¨ur n ≥ N0 ∨ Nx ist dann pˇ(n) (0, x) > 0, wobei pˇ = pˇ∞ die Symmetrisierung von p ist, denn p(n) (0, x) = ((p(n) )T p(n) )(0, x) ≥ (p(n) )T (0, 0) p(n) (0, x) > 0. (n)
L→∞
Wegen pˇL (0, x) −→ pˇ(n) (0, x), gilt f¨ur hinreichend großes L und n ≥ N0 ∨ (n) (n) (n) N−1 ∨ N1 , dass pˇL (0, −1) > 0, pˇL (0, 0) > 0, und pˇL (0, 1) > 0. Mithin ist pˇL irreduzibel.) Wir konstruieren die Kopplung (X, Y ), indem wir X und Y alle Spr¨unge der Weite gr¨oßer als L gemeinsam ausf¨uhren lassen, diejenigen von k¨urzerer Weite jedoch unabh¨angig, solange bis X und Y sich treffen und dann verschmelzen. Wir betrachten ˜ Y˜ ) ¨ also als Ubergangsmatrix f¨ur die nicht verschmelzende Kette (X, p˜L ((x1 , y1 ), (x2 , y2 )) ⎧ p(x1 , x2 ) p(y1 , y2 ), ⎪ ⎪ ⎨ p(x1 , x2 ), = ⎪ ⎪ ⎩ 0,
falls |x1 − x2 | ≤ L, |y1 − y2 | ≤ L, falls |x1 − x2 | > L und y1 − y2 = x1 − x2 , sonst.
˜ n = Y˜n } verschmelzende Schließlich sei (X, Y ) die nach Zeit τ := inf{n ∈ N0 : X ˜ ˜ Kette, also X = X und Yn = Yn f¨ur n ≤ τ und Yn = Xn f¨ur n ≥ τ . Offenbar ist ¨ (X, Y ) eine Kopplung der Ketten mit Ubergangsmatrix p. ˜ n − Y˜n )n∈N eine Irrfahrt mit Ubergangs¨ Nach Konstruktion ist die Differenz (X 0 matrix pˇL , also eine symmetrische irreduzible, aperiodische Irrfahrt mit beschr¨ankter Sprungweite und damit rekurrent. F¨ur x, y ∈ Z gilt daher
18.2 Kopplung und Konvergenzsatz
373
) * ) * ˜ k = Y˜k f¨ur alle k ≤ n n→∞ P(x,y) Xn = Yn = Px−y X −→ 0. Wir behandeln jetzt den allgemeinen Fall d ∈ N, indem wir die einzelnen Koordinaten nacheinander koppeln. Um dies rigoros zu machen, m¨ussen wir etwas Notationsaufwand treiben. F¨ur x = (x1 , . . . , xd ) und k = 1, . . . , d − 1 sei ˇk = (xk+1 , . . . , xd ). Wir setzen pk (x, yˆk ) = pk (ˆ xk , yˆk ) = x ˆk = (x1 , . . . , xk ) und x k k k y | yˆ )) = p(x, y)/p(x, yˆ ). Diese Schreibweise yˇk ∈Zd−k p(x, y), sowie pk (x, (ˇ soll suggerieren, dass es sich um die bedingte Wahrscheinlichkeit handelt, von x nach y zu springen, gegeben, dass wir schon wissen, dass die ersten k Koordinaten des Ziels durch yˆk gegeben sind. ˇd = 0, x ˆd = x ˇ0 = x, p0 (x, yˆ0 ) =
1 und Wir setzen noch formal x ˆ0 = x 0 0 p0 (x, (ˇ y | yˆ )) = p(x, y) sowie l(x) := max k ∈ {0, . . . , d} : x ˆk = 0 . Sei jetzt f¨ur L ∈ N die Matrix pˇL,k definiert durch
k k
pˇL,k x ˇ , yˇ = zk − x z k − yˇk | zˆk ) pk 0, zˆk , pk 0, (ˇ ˇk | zˆk ) pk 0, (ˇ z∈Zd ˇ z k −ˇ xk ∞ ≤L y k ∞ ≤L ˇ z k −ˇ
falls x ˇk = yˇk und pˇL,k (ˇ xk , x ˇk ) = 1 −
pˇL,k (ˇ xk , yˇk ).
yˇk =x ˇk
Wir nehmen an, dass L groß genug gew¨ahlt ist, dass alle pˇL,k irreduzibel sind. Setze nun noch
p˜L,k (x1 , y1 ), (x2 , y2 ) = ⎧
p(x1 , x2 ) pk yˆ1k , (ˇ y k2 | yˆ2k ) , falls yˆ1k − yˆ2k = x ˆk1 − x ˆk2 ⎪ ⎪ ⎪ ⎪ ⎪ und ˇ y k1 − yˇk2 ∞ ≤ L, ˇ xk1 − x ˇk2 ∞ ≤ L, ⎪ ⎪ ⎨ p(x1 , x2 ), falls y2 − y1 = x2 − x1 ⎪ ⎪ ⎪ und ˇ xk1 − x ˇk∞ 2 > L, ⎪ ⎪ ⎪ ⎪ ⎩ 0, sonst. ¨ Schließlich definieren wir die Ubergangsmatrix q von (X, Y ) durch
q (x1 , y1 ), (x2 , y2 ) = p˜L,l(y1 −x1 ) (x1 , y1 ), (x2 , y2 ) . Die Zahl l(Xn − Yn ) gibt an, wie viele Koordinaten schon gekoppelt sind. Sind ¨ genomschon genau k Koordinaten gekoppelt, so wird p˜L,k als Ubergangsmatrix men. Unter dieser Matrix bleiben die ersten k Koordinaten gekoppelt. Sei τk := ˇ nk )n∈N eine inf{n ∈ N0 : l(Xn − Yn ) = k}. Zwischen τk und τk+1 ist (Yˇnk − X ¨ Irrfahrt mit Ubergangsmatrix pˇL,k , also symmetrisch, irreduzibel und mit endlicher Sprungweite. Damit ist jede einzelne Koordinate eine rekurrente Irrfahrt und insbesondere τk+1 < ∞ fast sicher. Es folgt, dass f¨ur alle x, y ∈ Zd gilt n→∞
P(x,y) [Xn = Yn ] = P(x,y) [τd > n] −→ 0.
2
374
18 Konvergenz von Markovketten
¨ Satz 18.14. Sei X eine Markovkette auf E mit Ubergangsmatrix p. Existiert eine erfolgreiche Kopplung, so ist jede beschr¨ankte, harmonische Funktion konstant. Beweis. Sei f : E → R beschr¨ankt und harmonisch, also pf = f . Seien x, y ∈ E, und sei (X, Y ) eine erfolgreiche Kopplung. Nach Lemma 17.45 sind (f (Xn ))n∈N0 und (f (Yn ))n∈N0 Martingale, also gilt n→∞
f (x) − f (y) = E(x,y) [f (Xn ) − f (Yn )] ≤ 2f ∞ P(x,y) [Xn = Yn ] −→ 0. 2 Korollar 18.15. Ist X eine irreduzible Irrfahrt auf Zd , so ist jede beschr¨ankte, harmonische Funktion konstant. Diese Aussage gilt allgemeiner, wenn wir Zd durch eine lokalkompakte, abelsche Gruppe ersetzen und geht in dieser Form auf Choquet und Deny [26] zur¨uck, siehe auch [136]. ¯ eine Markovkette mit Uber¨ ¨ Beweis. Ist p die Ubergangsmatrix von X, so sei X 1 1 ¯ gangsmatrix p¯(x, y) = 2 p(x, y) + 2 {x} (y). Offenbar haben X und X die selben ¯ eine aperiodische, irreduzible Irrfahrt, harmonischen Funktionen. Nun ist aber X besitzt also nach Satz 18.13 eine erfolgreiche Kopplung f¨ur alle Startpunkte. 2 ¨ Satz 18.16. Sei p die Ubergangsmatrix einer irreduziblen, positiv rekurrenten, aperiodischen Kette auf E. Dann ist die verschmelzende Kette eine erfolgreiche Kopplung. ˜ und Y˜ zwei unabh¨angige Markovketten auf E mit Ubergangs¨ Beweis. Seien X ¨ matrix p. Dann hat die bivariate Markovkette Z := ((Xn , Yn ))n∈N0 die Ubergangsmatrix p, die durch
p (x1 , y1 ), (x2 , y2 ) = p(x1 , x2 ) · p(y1 , y2 ) definiert wird. Wir zeigen zun¨achst, dass die Matrix p irreduzibel ist. Nur an dieser Stelle ben¨otigen wir die Aperiodizit¨at von p. Seien also (x1 , y1 ), (x2 , y2 ) ∈ E × E gegeben. Dann existiert nach Lemma 18.2 ein m0 ∈ N mit pn (x1 , x2 ) > 0 und pn (y1 , y2 ) > 0 f¨ur jedes n ≥ m0 .
F¨ur n ≥ m0 ist daher pn (x1 , y1 ), (x2 , y2 ) > 0. Also ist p irreduzibel. ˜ Y˜ ) in der DiagoWir definieren nun die Stoppzeit τ des ersten Eintreffens von (X,
˜ n = Y˜n . Sei π die innalen D := {(x, x) : x ∈ E} durch τ := inf n ∈ N0 : X ˜ Offenbar ist dann das Produktmaß π ⊗ π ∈ M1 (E × E) variante Verteilung von X. ˜ Y˜ ). Nach Satz 17.51 ist daher eine (und damit die) invariante Verteilung von (X, ˜ ˜ (X, Y ) positiv rekurrent, also insbesondere rekurrent. Mithin gilt P(x,y) [τ < ∞] = 1 f¨ur alle Startpunkte (x, y) ∈ E × E von Z. 2
18.2 Kopplung und Konvergenzsatz
375
¨ Satz 18.17. Sei X eine Markovkette mit Ubergangsmatrix = p, zu der eine = erfolgrein→∞ che Kopplung existiert. F¨ur alle μ, ν ∈ M1 (E) gilt dann =(μ − ν)pn =T V −→ 0. Ist und positiv rekurrent mit invarianter Verteilung π, so gilt = speziell X =aperiodisch n→∞ =Lμ [Xn ] − π = −→ 0 f¨ur jedes μ ∈ M1 (E). TV Beweis. Es reicht, den Fall μ = δx , ν = δy f¨ur gewisse x, y ∈ E zu betrachten. Summation u¨ ber x und y liefert dann den allgemeinen Fall. Sei (Xn , Yn )n∈N0 eine erfolgreiche Kopplung. Dann ist = = n→∞ =(δx − δy )pn = ≤ 2 P(x,y) [Xn = Yn ] −→ 0. 2 TV Wir fassen den Zusammenhang von Aperiodizit¨at und Verteilungskonvergenz von X im folgenden Satz zusammen. ¨ Markovketten). Sei X eine irreduzible, positiv Satz 18.18 (Konvergenzsatz fur rekurrente Markovkette auf E mit invarianter Verteilung π. Dann sind a¨ quivalent: (i) X ist aperiodisch. (ii) F¨ur jedes x ∈ E gilt = = n→∞ =Lx [Xn ] − π = −→ 0. TV
(18.11)
(iii) F¨ur ein x ∈ E gilt (18.11).
= = n→∞ (iv) F¨ur jedes μ ∈ M1 (E) gilt =μpn − π =T V −→ 0.
Beweis. Die Implikationen (iv) ⇐⇒ (ii) =⇒ (iii) sind klar. Die Implikation (i) =⇒ (ii) wurde in Satz18.17 gezeigt. Wir zeigen also (iii) =⇒ (i). (iii) =⇒ (i)“ Wir nehmen an, dass (i) nicht gilt. Hat X die Periode d ≥ 2, und ” ist n ∈ N kein Vielfaches von d, so ist nach Satz 17.51 = n = =δx p − π = ≥ |pn (x, x) − π({x})| = π({x}) > 0. TV = = F¨ur jedes x ∈ E gilt daher lim sup =δx pn − π =T V > 0, folglich gilt (iii) nicht. 2 n→∞
¨ ¨ Ubung 18.2.1. Sei d3 P die Prohorov-Metrik (siehe (13.3) und Ubung 13.2.1). Man zeige: dP (P, Q) ≤ dW (P, Q) f¨ur alle P, Q ∈ M1 (E). Hat E endlichen Durchmesser diam(E), so ist dW (P, Q) ≤ (diam(E) + 1)dP (P, Q) f¨ur alle P, Q ∈ ♣ M1 (E). ¨ Ubung 18.2.2. Man zeige durch eine direkte Rechnung, dass der in Beispiel 18.11 ˜ und Y˜ hergestellte Prozess (X, Y ) eine Kopplung mit Ubergangsmatrix ¨ aus X p¯ ist. ♣
376
18 Konvergenz von Markovketten
¨ Ubung 18.2.3. Sei X eine beliebige aperiodische, irreduzible, rekurrente Irrfahrt auf Zd . Man zeige, dass dann zu je zwei Startpunkten die unabh¨angige Verschmelzung eine erfolgreiche Kopplung ist. Hinweis: Man zeige, dass die Differenz zweier rekurrenter Irrfahrten stets wieder rekurrent ist. ♣ ¨ ¨ Ubung 18.2.4. Sei X eine Markovkette auf Z2 mit Ubergangsmatrix ⎧1 falls x1 = 0, y − x2 = 1, ⎪ ⎪ 4, ⎪ ⎪ ⎪ 1 ⎨ , falls x1 = 0 und y1 = x1 ± 1, x2 = y2 , 4 p((x1 , x2 ), (y1 , y2 )) = 1 ⎪ ⎪ ⎪ 2 , falls x1 = 0 und y1 = x1 , x2 = y2 , ⎪ ⎪ ⎩ 0, sonst. Anschaulich ist dies die symmetrische einfache Irrfahrt, bei der alle senkrechten ¨ Uberg¨ ange außerhalb der senkrechten Koordinatenachse blockiert werden. Man zeige, dass X nullrekurrent, irreduzibel und aperiodisch ist, und dass die unabh¨angige Verschmelzung keine erfolgreiche Kopplung ist. ♣
18.3 Markovketten Monte Carlo Methode Es sei E eine endliche Menge und π ∈ M1 (E) mit π(x) := π({x}) > 0 f¨ur jedes x ∈ E. Wir betrachten das Problem, eine Zufallsvariable Y mit Verteilung π mit dem Computer zu generieren. Dies ist etwa dann relevant, wenn E eine sehr große Menge ist und Summen vom Typ x∈E f (x)π(x) numerisch approximiert werden n sollen durch Sch¨atzer n−1 i=1 f (Yi ) (siehe Beispiel 5.21). Wir nehmen an, dass unser Computer in der Lage ist, Realisierungen von u.i.v. Zufallsvariablen U1 , U2 , . . . zu generieren, die uniform auf [0, 1] verteilt sind. Die Verteilung π soll jedoch nicht leicht direkt herstellbar sein. Metropolis-Algorithmus Wir haben schon gesehen, wie man Markovketten mit dem Computer simulieren kann (Beispiel 17.19). Die Idee ist nun, eine Markovkette X zu erzeugen, deren Verteilung gegen π konvergiert. Wenn wir X lange genug laufen lassen, so wird Xn ungef¨ahr wie π verteilt sein. Gleichzeitig sollte die Kette so gestaltet sein, dass ¨ in jedem Schritt immer nur wenige Uberg¨ ange wirklich m¨oglich sind, sodass das in Beispiel 17.19 beschriebene Verfahren auch effizient umsetzbar ist. (Nat¨urlich ¨ w¨are eine Kette mit Ubergangsmatrix p(x, y) = π(y) gegen π konvergent, aber das Problem ließe sich hiermit nicht vereinfachen.) Die so beschriebene Methode des Ziehens von π-verteilten Stichproben wird Markovketten Monte Carlo Methode oder MCMC (f¨ur Markov chain Monte Carlo) genannt (siehe [18, 110, 115]).
18.3 Markovketten Monte Carlo Methode
377
¨ Sei q die Ubergangsmatrix einer beliebigen irreduziblen Markovkette auf E (mit q(x, y) = 0 f¨ur m¨oglichst viele y ∈ E). Wir erstellen hieraus die Metropolis-Matrix (siehe [69, 112]). Definition 18.19. Wir definieren eine stochastische Matrix p auf E durch ⎧ π(y)q(y,x) ⎪ ⎨ q(x, y) min 1, π(x)q(x,y) , falls x = y, q(x, y) > 0, p(x, y) = 0, falls x = y, q(x, y) = 0, ⎪ ⎩ 1 − z =x p(x, z), falls x = y. p heißt Metropolis-Matrix zu q und π. Man sieht direkt, dass p reversibel ist, dass also f¨ur alle x, y ∈ E gilt π(x) p(x, y) = π(y) p(y, x).
(18.12)
Speziell ist π invariant (Nachrechnen!). Wir erhalten sofort den folgenden Satz. Satz 18.20. Ist q irreduzibel, so ist die Metropolis-Matrix p zu q und π irreduzibel mit eindeutiger Gleichgewichtsverteilung π. Ist zudem q aperiodisch, oder π nicht die Gleichverteilung auf E, so ist p aperiodisch. Zur Simulation einer Kette X, die gegen π konvergiert, k¨onnen wir nun, aus¨ gehend von einer Referenzkette, die Uberg¨ ange nach q macht, den Metropolis¨ ¨ Algorithmus verwenden: Schl¨agt die Kette mit Ubergangsmatrix q einen Ubergang vom aktuellen Zustand x nach y vor, so akzeptieren wir diesen Vorschlag mit Wahrscheinlichkeit π(y)q(y, x) ∧ 1. π(x)q(x, y) Ansonsten bleiben wir in x stehen. In der Definition von p taucht π nur in der Form des Quotienten π(y)/π(x) auf. In vielen F¨allen von Interesse ist dieser Quotient relativ leicht berechenbar, auch wenn π(x) und π(y) selber nicht leicht zu bestimmen sind. Wir wollen dies an einem Beispiel erl¨autern. Beispiel 18.21 (Ising Modell). Das Ising Modell ist ein thermodynamisches (und quantenmechanisches) Modell f¨ur Ferromagnetismus in Kristallen, das von folgenden Annahmen ausgeht: – Atome sitzen auf den Punkten des Gitters Λ (zum Beispiel Λ = {0, . . . , N −1}2 ), – jedes Atom i ∈ Λ hat ein magnetisches Moment (Spin): x(i) ∈ {−1, 1}, das entweder nach oben zeigt (x(i) = +1) oder nach unten (x(i) = −1), – benachbarte Atome wechselwirken miteinander,
378
18 Konvergenz von Markovketten
– auf Grund thermischer Schwankungen ist der Zustand des Systems zuf¨allig und verteilt nach der so genannten Boltzmann-Verteilung π auf dem Zustandsraum E := {−1, 1}Λ , abh¨angig von der inversen Temperatur β = T1 ≥ 0. Wir definieren die lokale Energiefunktion, die das Energieniveau eines Atoms in i ∈ Λ als Funktion des Zustands x des Gesamtsystems angibt H i (x) =
1 2
{x(i) =x(j)} .
j∈Λ: i∼j
Hierbei bedeutet i ∼ j, dass i und j Nachbarn sind in Λ (damit meinen wir koordinatenweise mod N , wir sprechen auch von periodischen Randbedingungen). Die Gesamtenergie (oder Hamiltonfunktion) des Systems im Zustand x ist die Summe der Einzelenergien, H i (x) = H(x) = {x(i) =x(j)} . i∼j
i∈Λ
Die Boltzmann-Verteilung π auf E := {−1, 1}Λ zur inversen Temperatur β ≥ 0 wird definiert durch π(x) = Zβ−1 exp(−βH(x)), exp(−βH(x)) (oder Partitionsfunktion) wobei die Zustandssumme Zβ = x∈E
die Normierungskonstante ist, die π zu einem W-Maß macht. Makroskopisch beobachtbar ist nicht jeder einzelne Spin, sondern nur die mittlere Magnetisierung, die sich als Betrag des Mittelwerts der einzelnen Spins ergibt 1 mΛ (β) = π(x) x(i) . #Λ x∈E
i∈Λ
Wenn wir sehr große Systeme betrachten, sind wir nahe am so genannten thermodynamischen Limes m(β) := lim mΛ (β). Λ↑Zd
Man kann mit einem Konturargument, a¨ hnlich wie bei der Perkolation, zeigen (siehe [119]), dass (f¨ur d ≥ 2) eine Zahl βc = βc (d) ∈ (0, ∞) existiert, mit 1 > 0, falls β > βc , (18.13) m(β) = 0, falls β < βc . An einem a¨ hnlichen Modell, dem Weiss’schen Ferromagneten, werden wir in Bei¨ spiel 23.20 die Existenz eines solchen Phasenubergangs rigoros nachweisen. In der Physik wird Tc := 1/βc die Curie-Temperatur f¨ur die spontane Magnetisierung genannt. Dies ist eine materialabh¨angige Konstante (Chrombromid (CrBr) 37Kelvin, Nickel 645K, Eisen 1017K, Kobalt 1404 K). Unterhalb der Curie-Temperatur
18.3 Markovketten Monte Carlo Methode
379
1
0.6
0.4
Magnetisierung
0.8
0.2
0 0.84
0.85
0.86
0.87
0.88 0.89 Inverse Temperatur
0.9
0.91
0.92
Abb. 18.4. Magnetisierungskurve im Ising-Modell auf einem 1000 × 1000-Gitter, per Computersimulation berechnet. Die senkrechte Linie markiert die kritische Temperatur.
sind die Stoffe magnetisch, oberhalb sind sie es nicht. Dabei nimmt der Magnetisierungsgrad bei fallender Temperatur noch zu. Das Ising-Modell, das wir jetzt untersuchen, soll (zumindest in Computer-Simulationen) diesen Effekt einer kritischen Temperatur nachbilden. Wir definieren den Zustand xi,σ , bei dem an der Stelle i der Spin σ ∈ {−1, +1} eingesetzt wird σ, falls j = i, i,σ x (j) = x(j), falls j = i. Außerdem definieren wir den Zustand xi , bei dem der Spin in i umgedreht wird xi := xi,−x(i) . Als vorschlagende Kette, oder Referenzkette, w¨ahlen wir nun eine ¨ Kette mit Ubergangswahrscheinlichkeiten 1 falls y = xi f¨ur ein i ∈ Λ, #Λ , q(x, y) = 0, sonst. In Worten: Wir suchen einen Punkt i ∈ Λ zuf¨allig (uniform verteilt) aus und drehen den Spin an dieser Stelle um. Offenbar ist q irreduzibel. Der Metropolis-Algorithmus zu dieser Kette akzeptiert den Vorschlag der Referenzkette sicher, falls π(xi ) ≥ π(x). Andernfalls wird der Vorschlag mit Wahrscheinlichkeit π(xi )/π(x) akzeptiert. Nun ist aber
380
18 Konvergenz von Markovketten
Abb. 18.5. Gleichgewichte des Ising-Modells f¨ur ein 800 × 800 Gitter. (schwarzer Punkt = spin +1) Links: k¨alter als die kritische Temperatur (β > βc ), rechts: w¨armer.
Abb. 18.6. Ising-Modell (150 × 150 Gitter) unterhalb der kritischen Temperatur. Die Computersimulation zeigt auch nach langer Laufzeit noch nicht das Gleichgewicht, sondern metastabile Zust¨ande, in denen man die Weiss’schen Bezirke gut sehen kann.
H(xi ) − H(x) =
{x(j) =−x(i)} j: j∼i
= −2
j: j∼i
−
{x(j) =x(i)} j: j∼i
{x(j) =x(i)} −
1 2
.
Also ist π(xi )/π(x) = exp − 2β j∼i {x(j)=x(i)} − 12 , und dieser Ausdruck ist leicht zu berechnen, da er nur von den 2d Nachbarspins abh¨angt und zudem die ¨ Kenntnis von Zβ nicht ben¨otigt. Wir erhalten also als Metropolis-Ubergangsmatrix
18.3 Markovketten Monte Carlo Methode
' ⎧ 1 ⎪ 1 ∧ exp 2β ( ⎪ ⎨ #Λ p(x, y) =
j: j∼i
⎪ ⎪ ⎩
381
( 1 − ) , falls y = xi f¨ur ein i ∈ Λ, {x(j) =x(i)} 2 1 − i∈Λ p(x, xi ), falls x = y, 0, sonst.
Praktisch wird man diese Kette simulieren, indem man sich unabh¨angige Zufallsvariablen I1 , I2 , . . . und U1 , U2 , . . . verschafft mit In ∼ UΛ und Un ∼ U[0,1] . Man setzt nun ' ( xIn , falls Un ≤ exp 2β j: j∼i ( {x(j) =x(i)} − 12 ) , Fn (x) = x, sonst, und definiert die Markovkette (Xn )n∈N durch Xn = Fn (Xn−1 ) f¨ur n ∈ N.
3
Gibbs-Sampler Wir betrachten eine Situation, in der, wie im obigen Beispiel, ein Zustand aus vielen Komponenten x = (xi )i∈Λ ∈ E besteht, wobei Λ eine endliche Menge ist. Alternativ zur Metropolis-Kette betrachten wir ein weiteres Verfahren, um eine Markovkette mit gegebener invarianter Verteilung herzustellen. Beim so genannten GibbsSampler oder heat bath algorithm ist die Idee, den Zustand lokal an die station¨are Verteilung anzupassen. Ist x der momentane Zustand, dann verf¨ahrt man wie folgt. F¨ur i ∈ Λ setze x−i := {y ∈ E : y(j) = x(j) f¨ur j = i}. Definition 18.22 (Gibbs-Sampler). Sei q ∈ M1 (Λ) mit q(i) > 0 f¨ur jedes i ∈ Λ. ¨ Die Ubergangsmatrix p auf E mit i,σ ) qi π(x falls y = xi,σ f¨ur ein i ∈ Λ, π(x−i ) , p(x, y) = 0, sonst. heißt Gibbs-Sampler zur invarianten Verteilung π. In Worten verf¨ahrt eine nach p konstruierte Kette in jedem Schritt wie folgt: (1) W¨ahle eine Komponente I gem¨aß einer Verteilung (qi )i∈Λ . (2) Ersetze in x durch xI,σ mit Wahrscheinlichkeit π(xI,σ )/π(x−I ). Falls I = i ist, dann hat der neue Zustand also die Verteilung L(X|X−i = x−i ), wobei X eine Zufallsvariable mit Verteilung π bezeichnet. Man beachte, dass man auch beim Gibbs-Sampler die Verteilung π nur bis auf die Normierungskonstante zu kennen braucht (in einem etwas allgemeineren Rahmen lassen sich der GibbsSampler und der Metropolis Algorithmus als Spezialf¨alle ein und desselben Verfahren auffassen). F¨ur Zust¨ande x und y, die sich nur in der i-ten Komponente unterscheiden, gilt (wegen x−i = y−i )
382
18 Konvergenz von Markovketten
π(x) p(x, y) = π(x) qi
π(y) π(x) = π(y) qi = π(y) p(y, x). π(x−i ) π(y−i )
Der Gibbs-Sampler beschreibt also eine reversible Markovkette mit Gleichgewicht π. Die Irreduzibilit¨at des Gibbs-Samplers ist von Fall zu Fall zu kl¨aren. Beispiel 18.23 (Ising Modell). Im oben beschriebenen Ising-Modell ist x−i = {xi,−1 , xi,+1 }. Daher ist f¨ur i ∈ Λ und σ ∈ {−1, +1} π(xi,σ x−i ) =
π(xi,σ ) π({xi,−1 , xi,+1 })
e−βH(x ) = −βH(xi,−1 ) e + e−βH(xi,+1 ) ' (−1 = 1 + exp β H(xi,σ ) − H(xi,−σ ) ' (−1 = 1 + exp 2β j: j∼i ( {x(j) =σ} − 12 ) . i,σ
Der Gibbs-Sampler des Ising-Modells ist also die Markovkette (Xn )n∈N0 mit Wer¨ ten in E = {−1, 1}Λ und mit Ubergangsmatrix ⎧ ' (−1 ⎨ 1 1+exp 2β ( 1 , falls y = xi f¨ur ein i ∈ Λ, {x(j) =x(i)} − 2 ) #Λ p(x, y) = j: j∼i ⎩ 0, sonst. 3 Perfekte Simulation Die bislang betrachtete MCMC Methode baut auf dem Prinzip Hoffnung: Wir lassen die Kette lange laufen und hoffen, dass sie sich in einem Zustand nahe dem Gleichgewicht befindet. Selbst wenn wir die Konvergenzgeschwindigkeit bestimmen k¨onnen (und das ist oft nicht ganz leicht – wir kommen dazu in Abschnitt 18.4), werden wir doch nie einen Zustand bekommen, der exakt wie das Gleichgewicht verteilt ist. Tats¨achlich ist es, zumindest theoretisch, m¨oglich, ein der MCMC Methode verwandtes Verfahren anzugeben, das perfektes Ziehen von Stichproben nach der Verteilung π erm¨oglicht, sogar, wenn wir u¨ ber die Konvergenzgeschwindigkeit gar nichts wissen. Hierzu nehmen wir an, dass F1 , F2 , . . . u.i.v. zuf¨allige Abbildungen E → E sind mit P[F (x) = y] = p(x, y) f¨ur alle x, y ∈ E. Wir hatten gesehen, dass wir die Markovkette X mit Start in x durch Xn = Fn ◦ Fn−1 ◦ · · · ◦ F1 (x) konstruieren k¨onnen. D
Nun gilt F1n (x) := F1 ◦ . . . ◦ Fn (x) = Fn ◦ . . . ◦ F1 (x). Also gilt P[F1n (x) = n→∞ y] −→ π(y) f¨ur jedes y. Ist nun aber F1n die konstante Abbildung, etwa F1n ≡ x∗
18.4 Konvergenzgeschwindigkeit
383
(f¨ur ein zuf¨alliges x∗ ), so ist auch F1m ≡ x∗ f¨ur jedes m ≥ n. Wenn man also durch geschickte Wahl der Verteilung der Fn erreichen kann, dass die Stoppzeit T := inf{n ∈ N : F1n ist konstant} fast sicher endlich ist (und das geht immer), so ist P[F1T (x) = y] = π(y) f¨ur alle x, y ∈ E. Ein einfacher Algorithmus f¨ur dieses Verfahren sieht so aus: (1) Setze F ← idE und n ← 0. (2) Setze n ← n + 1. Erzeuge Fn und setze F ← F ◦ Fn . (3) Falls F nicht die konstante Abbildung ist, gehe zu (2). (4) Ausgabe F (∗). Dieses Verfahren wird Kopplung aus der Vergangenheit (coupling from the past) genannt und geht auf Propp und Wilson [130] zur¨uck (siehe auch [54, 55, 158, 129, 131, 91]). Interessante Simulationen sowie ein Forschungs¨uberblick finden sich im Internet unter http://www.dbwilson.com/. Praktisch ergeben sich zwei Probleme: Es muss die komplette Abbildung Fn erzeugt und mit F verkn¨upft werden. Die Rechenzeit daf¨ur ist mindestens von der Ordnung der Gr¨oße des Raums E. Außerdem erfordert das Pr¨ufen von F auf Konstanz einen Rechenaufwand von gleicher Gr¨oßenordnung. Das Verfahren l¨asst sich effektiv nur durchf¨uhren, wenn man mehr Struktur zur Verf¨ugung hat, etwa, wenn E eine Halbordnung mit einem kleinsten Element 0 und einem gr¨oßten Element 1 besitzt (wie beim Ising-Modell) und man die Abbildungen Fn so w¨ahlen kann, dass sie fast sicher monoton wachsend sind. In diesem Fall braucht man immer nur F (0) und F (1) zu berechnen, und F ist konstant, falls F (0) = F (1).
18.4 Konvergenzgeschwindigkeit Bei den bisherigen Betrachtungen ist die Frage nach der Geschwindigkeit der Konvergenz der Verteilung PXn gegen π ignoriert worden. F¨ur praktische Anwendungen ist aber dies genau die wichtigste Frage. Wir wollen hier nicht auf die Details eingehen, sondern das Thema nur kurz anreißen. Ohne Einschr¨ankung sei E = {1, . . . , N }. Ist p reversibel (Gleichung (18.12)), so wird durch f → pf ein ¨ Alle Eigenwerte symmetrischer linearer Operator auf L2 (E, π) definiert (Ubung!). λ1 , . . . , λN (mit Mehrfachnennung je nach Vielfachheit) sind reell und dem Betrage nach nicht gr¨oßer als 1, da p stochastisch ist. Wir k¨onnen also die Eigenwerte dem Betrage nach ordnen: λ1 = 1 ≥ |λ2 | ≥ . . . ≥ |λN |. Ist p irreduzibel und aperiodisch, so ist |λ2 | < 1. Sei μ1 = π, μ2 , . . . , μN eine Orthonormalbasis aus LinksEigenvektoren zu Eigenwerten λ1 , . . . , λN . F¨ur jedes μ = α1 μ1 + . . . + αN μN den N ist dann μpn = i=1 λni αi μi , also μpn − πT V ≤ C|λ2 |n
(18.14)
384
18 Konvergenz von Markovketten
f¨ur eine Konstante C (die nicht einmal von μ abh¨angt). Eine a¨ hnliche Formel gilt f¨ur den Fall, wo p nicht reversibel ist, wobei Korrekturterme der Ordnung maximal nV −1 auftreten. Dabei ist V die Gr¨oße des gr¨oßten Jordan-K¨astchens zum Eigenwert λ2 in der Jordan’schen Normalform von p, speziell also h¨ochstens die Vielfachheit des betragsm¨aßig zweitgr¨oßten Eigenwertes. Die Konvergenzgeschwindkeit ist also exponentiell mit einer Rate, die durch die ¨ Spektrallucke 1 − |λ2 | zum zweitgr¨oßten Eigenwert von p bestimmt ist. Die analytische Bestimmung der Spektrall¨ucke ist f¨ur große R¨aume E h¨aufig extrem schwer. Beispiel 18.24. Sei r ∈ (0, 1) und N ¨ betrachten die Ubergangsmatrix ⎧ r, ⎨ p(i, j) = 1 − r, ⎩ 0,
∈ N, N ≥ 2, sowie E = {0, . . . , N − 1}. Wir falls j = i + 1 (mod N ), falls j = i − 1 (mod N ), sonst.
¨ p ist die Ubergangsmatrix der einfachen (asymmetrischen) Irrfahrt auf dem diskreten Torus Z/(N ), die mit Wahrscheinlichkeit r einen Schritt nach rechts springt, mit Wahrscheinlichkeit 1 − r hingegen einen Schritt nach links springt. Offenbar ist p irreduzibel, und p ist genau dann aperiodisch, wenn N ungerade ist. Offensichtlich ist die Gleichverteilung UE die eindeutige invariante Verteilung. Fall 1: N ungerade.
Man pr¨uft leicht nach, dass p die Eigenwerte
λk := r θk + (1 − r) θk = cos 2πk + (2r − 1) i sin 2πk k = 0, . . . , N − 1, N N , hat, wobei θk = e2πi k/N , k = 0, . . . , N − 1, die N -ten Einheitswurzeln sind, und die zugeh¨origen (Rechts-) Eigenvektoren
xk := θk0 , θk1 , . . . , θkN −1 . Die Betr¨age der Eigenwerte bekommen wir durch |λk | = f (2πk/N ), wobei 3 f (ϑ) = 1 − 4r(1 − r) sin(ϑ)2 f¨ur ϑ ∈ R. Da N ungerade ist, ist |λk | maximal (außer f¨ur k = 0) f¨ur k = N 2−1 und k = N2+1 3 mit dem Wert γ := 1 − 4r(1 − r) sin(π/N )2 . Da die Eigenwerte alle unterschiedlich sind, hat jeder Eigenwert die Vielfachheit 1, und es gibt ein C < ∞ mit μpn − UE T V ≤ C γ n f¨ur alle n ∈ N, μ ∈ M1 (E).
Fall 2: N gerade. In diesem Fall ist p nicht aperiodisch, nichtsdestoweniger haben die Eigenwerte und Eigenvektoren die selbe Gestalt wie im ersten Fall. Um eine ¨ aperiodische Kette zu erhalten, bilden wir f¨ur ε > 0 die Ubergangsmatrix pε := (1 − ε)p + εI,
18.4 Konvergenzgeschwindigkeit
385
wo I die Einheitsmatrix auf E ist. pε beschreibt die Irrfahrt auf E, die mit Wahrscheinlichkeit ε am Ort stehen bleibt und mit Wahrscheinlichkeit 1−ε einen Sprung gem¨aß p macht. Offenbar ist pε irreduzibel und aperiodisch. Die Eigenwerte sind λε,k = (1 − ε)λk + ε,
k = 0, . . . , N − 1,
mit zugeh¨origen Eigenvektoren xk wie oben. Offenbar ist λε,0 = 1, und λε,N/2 = 2ε − 1 ist der betragsm¨aßig zweitgr¨oßte Eigenwerte, falls ε > 0 sehr klein ist. F¨ur gr¨oßere ε ist |λε,1 | > |λε,N/2 |. Genauer gilt: Setzen wir ε0 :=
(1 − (2r − 1)2 ) sin(2π/N )2 , (1 − (2r − 1)2 ) sin(2π/N )2 + 2 cos(2π/N )
so ist der Betrag γε des betragsm¨aßig zweitgr¨oßten Eigenwertes γε = |λε,N/2 | = 1 − 2ε,
falls ε ≤ ε0 ,
und γε = |λε,1 | E
2
2 (1 − ε) cos 2π = + (1 − ε)(2r − 1) sin 2π N +ε N
falls ε ≥ ε0 .
Es ist nicht schwer zu zeigen, dass ε → |λε,N/2 | monoton fallend ist und ε → |λε,1 | monoton wachsend. Daher ist γε minimal f¨ur ε = ε0 . Es gibt also ein C < ∞ mit μpnε − UE T V ≤ C γεn
f¨ur alle n ∈ N, μ ∈ M1 (E),
¨ und die beste Konvergenzgeschwindigkeit (in dieser Klasse von Ubergangsmatrizen) wird erreicht durch die Wahl ε = ε0 . 3 Beispiel 18.25 (Gambler’s Ruin). Wir betrachten das Gambler’s Ruin Problem aus Beispiel 10.19 mit Erfolgswahrscheinlichkeit r ∈ (0, 1). Hier ist der Zustandsraum ¨ E = {0, . . . , N }, und die Ubergangsmatrix hat die Gestalt ⎧ r, falls j = i + 1 ∈ {2, . . . , N }, ⎪ ⎪ ⎨ 1 − r, falls j = i − 1 ∈ {0, . . . , N − 2}, p(i, j) = 1, falls j = i ∈ {0, N }, ⎪ ⎪ ⎩ 0, sonst. ¨ Diese Ubergangsmatrix ist nicht irreduzibel, sondern hat die zwei absorbierenden Zust¨ande 0 und N . In Beispiel 10.19 (Gleichung (10.5)), f¨ur den Fall r = 12 , und Beispiel 10.16, f¨ur den Fall r = 12 , wurde gezeigt, dass f¨ur jedes μ ∈ M1 (E) n→∞
μpn −→ (1 − m(μ))δ0 + m(μ)δN ,
(18.15)
386
18 Konvergenz von Markovketten
0 wobei m(μ) = pN (x) μ(dx) ist, und die Wahrscheinlichkeit pN (x), dass die in x gestartete Kette N trifft, gegeben ist durch ⎧
x ⎪ 1 − 1−r ⎪ r 1 ⎨ N , falls r = 2 ,
pN (x) = 1 − 1−r r ⎪ x ⎪ ⎩ , falls r = 12 . N Wie schnell geht nun die Konvergenz in (18.15)? Auch hier ist die Konvergenz exponentiell schnell, und die Rate wird wieder durch den zweitgr¨oßten Eigenwert von p bestimmt. Wir wollen nun also das Spektrum von p bestimmen. Klar sind x0 = (1, 0, . . . , 0) und xN = (0, . . . , 0, 1) Links-Eigenvektoren zum Eigenwert 1. Damit nun x = (x0 , . . . , xN ) ein Links-Eigenvektor zum Eigenwert λ ist, m¨ussen die folgenden Gleichungen erf¨ullt sein: λxk = rxk−1 + (1 − r)xk+1
f¨ur k = 2, . . . , N − 2,
(18.16)
und λxN −1 = rxN −2 .
(18.17) 1−p λ−1 x1
Gelten (18.16) und (18.17) f¨ur x1 , . . . , xN −1 , so setzen wir x0 := und p xN −1 und erhalten dadurch tats¨achlich xp = λx. Wir machen den xN := λ−1 Ansatz λ = (1 − r)ρ(θ + θ) und xk = k (θk − θk ) wobei ρ=
3
f¨ur k = 1, . . . , N − 1,
r/(1 − r) und θ ∈ C \ {−1, +1} mit |θ| = 1.
Es gilt also θθ = 1 und (1 − r)ρk+1 = rρk−1 . Daher ist f¨ur jedes k = 2, . . . , N − 1 λxk = (1 − r) ρk+1 (θk − θk )(θ + θ) ) * = (1 − r) ρk+1 (θk+1 − θk+1 ) + θθ (θk−1 − θk−1 ) = r ρk−1 (θk−1 − θk−1 ) + (1 − r) ρk+1 (θk+1 − θk+1 ) = r xk−1 + (1 − r) xk+1 , das heißt, es gilt (18.16). Die selbe Rechnung mit k = N − 1 zeigt, dass (18.17) genau dann gilt, wenn θN −θN = 0 ist, also wenn θ2N = 1 gilt. Wir erhalten also f¨ur θ die N − 1 unterschiedlichen Werte (man beachte, dass die komplex konjugierten der hier angegeben Werte zu den selben λn f¨uhren) θn = e(n/N )π i Die zugeh¨origen Eigenwerte sind n π λn = σ cos N
f¨ur n = 1, . . . , N − 1.
f¨ur n = 1, . . . , N − 1.
18.4 Konvergenzgeschwindigkeit
387
Dabei ist die Varianz des einzelnen Irrfahrt-Schrittes: σ 2 := 4r(1 − r).
(18.18)
Da alle Eigenwerte reell sind, sind die zugeh¨origen Eigenvektoren gegeben durch xnk = 2
r 1−r
n/2 sin
n π N
,
k = 1, . . . , N − 1.
π der betragsm¨aßig zweitgr¨oßte F¨ur n = 1 und n = N − 1 ist |λn | = σ cos N Eigenwert. Es folgt, dass es ein C > 0 gibt, sodass f¨ur jedes μ ∈ M1 (E) gilt π n f¨ur jedes n ∈ N. μpn ({1, . . . , N − 1}) ≤ C σ cos N Mit anderen Worten: Die Wahrscheinlichkeit, dass dasSpiel bis zur n-ten Runde
n noch nicht entschieden ist, ist maximal C σ cos(π/N ) . Ein alternativer Zugang zu den Eigenwerten geht u¨ ber die Nullstellen des charakteristischen Polynoms χN (x) = det(p − xI),
x ∈ R.
¨ Man sieht sofort, dass χ1 (x) = (1 − x)2 und χ2 (x) = −x(1 − x)2 gilt. Uber die Entwicklungsformel der Determinante durch Streichen von Zeilen und Spalten erhalten wir die Rekursionsformel χN (x) = −x χN −1 (x) − r(1 − r) χN −2 (x).
(18.19)
Wir erhalten als L¨osung (Nachrechnen!)
χN (x) = (−1)N −1 (σ/2)N −1 (1 − x)2 UN −1 x/σ , wobei
m/2
Um (x) :=
k=0
k
(−1)
(18.20)
m−k (2x)m−2k k
das m-te Chebyshev Polynom zweiter Art bezeichnet. F¨ur x ∈ (−σ, σ) kann man mit Hilfe der de Moivre’schen Formel zeigen, dass
sin N arccos x/σ 3 χN (x) = (−1)N −1 (σ/2)N −1 (1 − x)2 1 − (x/σ)2 (18.21) N −1 πk 2 = (1 − x) σ cos −x . N k=1
Neben der doppelten Nullstelle 1 erhalten wir als Nullstellen
σ cos πk/N ), k = 1, . . . , N − 1.
3
388
18 Konvergenz von Markovketten
¨ Ubung 18.4.1. Man zeige (18.20).
♣
¨ Ubung 18.4.2. Man zeige (18.21).
♣
√ ¨ Ubung 18.4.3. Sei ν(dx) = π2 1 − x2 [−1,1] (x) dx. Man zeige, dass die Chebyshev Polynome zweiter Art bez¨uglich ν orthogonal sind: Um Un dν = m=n . ♣ ⎛
⎞ 1/2 1/3 1/6 ⎜ ⎟ ¨ Ubung 18.4.4. Sei E = {1, 2, 3} und p = ⎝ 1/3 1/3 1/3⎠. Man bestimme die 0 3/4 1/4 invariante Verteilung und die exponentielle Konvergenzrate.
♣
¨ Ubung 18.4.5. Sei E = {0, . . . , N − 1}, r ∈ (0, 1) und ⎧ r, falls j = i + 1 (mod N ), ⎨ p(i, j) = 1 − r, falls j = i (mod N ), ⎩ 0, sonst. ¨ Man zeige, dass p die Ubergangsmatrix einer irreduziblen, aperiodischen Irrfahrt ist, bestimme die invariante Verteilung und bestimme die exponentielle Konvergenzge♣ schwindigkeit. ¨ Ubung 18.4.6. Sei N ∈ N und E = {0, 1}N der N -dimensionale Hyperkubus, das heißt, zwei Punkte x, y ∈ E sind genau dann durch eine Kante verbunden, wenn sie ¨ sich in genau einer Koordinate unterscheiden. Sei p die Ubergangsmatrix der Irrfahrt auf E, die mit Wahrscheinlichkeit ε > 0 am Ort bleibt, mit Wahrscheinlichkeit 1−ε hingegen zu einem (uniform gew¨ahlten) zuf¨alligen Nachbarpunkt springt. Man beschreibe p formal, zeige dass p aperiodisch und irreduzibel ist, und bestimme die invariante Verteilung sowie die exponentielle Konvergenzgeschwindigkeit. ♣
19 Markovketten und elektrische Netzwerke
Wir betrachten eine symmetrische einfache Irrfahrt auf Z2 . Nach dem Satz von P´olya (Satz 17.39) ist diese Irrfahrt rekurrent. Was passiert aber, wenn wir eine einzelne Kante aus dem Gitter L2 von Z2 entfernen? Intuitiv sollte dies nichts an der Rekurrenz a¨ ndern. Die in Kapitel 17.5 verwendeten Rechnungen sind allerdings in dieser Hinsicht nicht sehr robust und k¨onnen hier nicht mehr zum Beweis der Rekurrenz benutzt werden. Noch un¨ubersichtlicher wird die Situation, wenn wir die Irrfahrt auf die obere Halbebene {(x, y) : x ∈ Z, y ∈ N0 } von Z2 beschr¨anken. Wie sieht es hier mit der Rekurrenz aus? Oder wir betrachten die Situation von Kantenperkolation auf Z2 . Wir fixieren einen Parameter p ∈ [0, 1] und definieren jede Kante von L2 mit Wahrscheinlichkeit p als offen und mit Wahrscheinlichkeit 1 − p als geschlossen. Nachdem dies im ersten Schritt geschehen ist, wird die Irrfahrt auf dem zuf¨alligen Teilgraphen der offenen Kanten betrachtet. Der Irrfahrer w¨ahlt in jedem Schritt mit gleicher Wahrscheinlichkeit eine der benachbarten offenen Kanten aus. F¨ur p > 12 existiert genau eine unendlich große Zusammenhangskomponente offener Kanten (Satz 2.47). Ist die Irrfahrt auf dieser (zuf¨alligen) Komponente rekurrent oder transient? Ziel dieses Kapitels ist es, einen Zusammenhang zwischen gewissen Markovketten und elektrischen Netzwerken herzustellen, der – es in manchen F¨allen erlaubt, zwischen Rekurrenz und Transienz anhand von leicht berechenbaren Gr¨oßen zu entscheiden, – in anderen F¨allen ein Vergleichskriterium bietet, das besagt, dass eine Irrfahrt auf einem Teilgraphen rekurrent ist, wenn die Irrfahrt auf dem urspr¨unglichen Graphen rekurrent ist. Damit l¨asst sich f¨ur alle oben betrachteten Irrfahrten Rekurrenz nachweisen. Dieses Kapitel lehnt sich an [109] und [36] an.
19.1 Harmonische Funktionen Sei in diesem Kapitel stets E eine abz¨ahlbare Menge und X eine diskrete Markov¨ kette auf E mit Ubergangsmatrix p und Greenfunktion G.
390
19 Markovketten und elektrische Netzwerke
Definition 19.1. Sei A ⊂ E. Eine Funktion f : E → R heißt harmonisch auf ur jedes E \ A, falls pf (x) = y∈E p(x, y)f (y) existiert und pf (x) = f (x) f¨ x ∈ E \ A gilt. Satz 19.2 (Superpositionsprinzip). Sind f und g harmonisch auf E \A und α, β ∈ R, so ist auch αf + βg harmonisch auf E \ A. 2
Beweis. Trivial.
Beispiel 19.3. Sei X transient und a ∈ E ein transienter Zustand (also ein nicht absorbierender). Dann ist f (x) := G(x, a) harmonisch auf E \ {a}: F¨ur x = a ist pf (x) = p
∞
pn (x, a) =
n=0
∞
pn (x, a) = G(x, a) −
{a} (x)
= G(x, a).
3
n=1
Beispiel 19.4. F¨ur jedes x ∈ E sei τx := inf{n > 0 : Xn = x}. F¨ur A ⊂ E sei τ := τA := inf τx x∈A
die Zeit des ersten Eintritts in A. Wir nehmen an, dass A so gew¨ahlt ist, dass Px [τA < ∞] = 1 f¨ur jedes x ∈ E. Sei g : A → R eine beschr¨ankte Funktion. Wir definieren g(x), falls x ∈ A, (19.1) f (x) := Ex [g(Xτ )], falls x ∈ E \ A. Dann ist f harmonisch in E \ A. Wir geben hierf¨ur zwei Beweise an. Nach der Markoveigenschaft ist f¨ur x ∈ A und y ∈ E g(y), falls y ∈ A ) * = f (y). Ex g(Xτ ) X1 = y = Ey [g(Xτ )], falls y ∈ E \ A
1. Beweis
Also ist f¨ur x ∈ E \ A f (x) = Ex [g(Xτ )] = =
y∈E
) * Ex g(Xτ ); X1 = y
y∈E
) * p(x, y) Ex g(Xτ ) X1 = y = p(x, y) f (y) = pf (x). y∈E
2. Beweis Wir ver¨andern die Markovkette, indem wir einen Zustand Δ als Falle ˜ = E ∪ {Δ} und hinzuf¨ugen. Es gelte also E ⎧ p(x, y), falls x ∈ E \ A, y = Δ, ⎪ ⎪ ⎨ 0, falls x ∈ E \ A, y = Δ, p˜(x, y) = (19.2) ⎪ ⎪ ⎩ 1, falls x ∈ A ∪ {Δ}, y = Δ.
19.1 Harmonische Funktionen
391
˜ ist transient mit Δ als einzigem absorbierenden Die so erzeugte Markovkette X Zustand. Weiterhin ist genau dann pf = f auf E \ A, wenn p˜f = f auf E \ A ist. ˜ y) = 1 f¨ur y ∈ A ist (vergleiche Satz 17.34) Wegen G(y, ˜ y) Px [Xτ = y] = Px [˜ τy < ∞] = F˜ (x, y) = G(x,
f¨ur alle x ∈ E \ A, y ∈ A.
˜ y) harmonisch auf E \ A. Nach dem Superpositionsprinzip ist Nun ist x → G(x, auch ˜ y) g(y) G(x, (19.3) f (x) = y∈A
harmonisch auf E \ A. Wegen dieser Darstellung heißt, in Analogie zur kontinuier˜ die Greenfunktion f¨ur die Gleichung (p − I)f = 0 auf lichen Potentialtheorie, G E \ A. 3 Definition 19.5. Wir nennen das Gleichungssystem (p − I)f (x) = 0, f (x) = g(x),
f¨ur x ∈ E \ A, f¨ur x ∈ A,
(19.4)
das zu p − I geh¨orige Dirichlet-Problem auf E \ A mit Randwerten g auf A. Im Folgenden wollen wir stets annehmen, dass F (x, y) > 0 ist f¨ur jedes x ∈ E \ A und jedes y ∈ A. Speziell ist dies nat¨urlich erf¨ullt, wenn X irreduzibel ist. Satz 19.6 (Maximumprinzip). Sei f eine harmonische Funktion auf E \ A. Gibt es ein x0 ∈ E \ A mit f (x0 ) = supx∈E f (x), so ist f konstant.
Beweis. F¨ur n ∈ N sei Gn := x ∈ E : pn (x0 , x) > 0 . Nach Voraussetzung ist f (x0 ) = pn f (x0 ) = pn (x0 , x)f (x) ≤ f (x0 ), x∈Gn
also ∞ f (x) = f (x0 ) f¨ur jedes x ∈ Gn . Wegen F (x0 , x) > 0 f¨ur jedes x ∈ E, ist ur jedes x ∈ E. 2 n=1 Gn = E, also f (x) = f (x0 ) f¨ ¨ harmonische Funktionen). Ist E \ A endlich Satz 19.7 (Eindeutigkeitssatz fur und sind f1 und f2 harmonisch auf E \ A und f1 = f2 auf A, dann ist f1 = f2 . Mit anderen Worten: Das Dirichlet-Problem (19.4) besitzt eine eindeutige L¨osung, die durch (19.3) (oder a¨ quivalent (19.1)) gegeben ist. Beweis. Nach dem Superpositionsprinzip ist f := f1 −f2 harmonisch auf E \A mit f ≡ 0. Ist supx∈E f (x) > 0, so gibt es ein x0 ∈ E\A mit f (x0 ) = supx∈E f (x). A Nach dem Maximumprinzip ist dann aber f konstant und damit f ≡ 0. 2
392
19 Markovketten und elektrische Netzwerke
¨ Ubung 19.1.1. Sei p die substochastische E × E Matrix, die durch p(x, y) = p˜(x, y), x, y ∈ E, (mit p˜ aus (19.2)) definiert wird, also p(x, y) = p(x, y) x∈E\A , und sei I die Einheitsmatrix auf E. Man zeige: (i) I − p ist invertierbar. ˜ y) f¨ur alle x, y ∈ E \ A und (ii) Setzen wir G := (I − p)−1 , so ist G(x, y) = G(x, G(x, y) = {x=y} , falls x ∈ A. Speziell ist G(x, y) = Px [XτA = y]
f¨ur x ∈ E \ A und y ∈ A.
♣
19.2 Reversible Markovketten Definition 19.8. Die Markovkette X heißt reversibel bez¨uglich des Maßes π, falls π({x}) p(x, y) = π({y}) p(y, x)
f¨ur alle x, y ∈ E.
(19.5)
Die Gleichung (19.5) heißt auch die Gleichung der detaillierten Balance (detailed balance). X heißt reversibel, falls es ein π gibt, bez¨uglich dessen X reversibel ist. Bemerkung 19.9. Ist X reversibel bez¨uglich π, dann ist π ein invariantes Maß f¨ur X, denn π({y}) p(y, x) = π({x}) p(x, y) = π({x}). π p({x}) = y∈E
y∈E
Nach Bemerkung 17.50 ist π daher bis auf konstante Vielfache eindeutig.
3
Beispiel 19.10. Sei (E, K) ein Graph mit Eckenmenge (oder Menge der Knoten) E und Kantenmenge K (siehe Seite 64). Mit x, y! = y, x! ∈ K bezeichnen wir eine (ungerichtete) Kante, die x und y verbindet. Sei C := (C(x, y), x, y ∈ E) eine Familie von Gewichten mit C(x, y) = C(y, x) ≥ 0 f¨ur alle x, y ∈ E und C(x, y) < ∞ f¨ur jedes x ∈ E. C(x) := y∈E
ur alle x, y ∈ E, so ist X reversibel bez¨uglich Setzen wir p(x, y) := C(x,y) C(x) f¨ π({x}) = C(x). Es gilt n¨amlich C(x, y) = C(x, y) C(x) C(y, x) = π({y}) p(y, x). = C(y, x) = C(y) C(y)
π({x}) p(x, y) = C(x)
3
19.3 Elektrische Netzwerke
393
Definition 19.11. Seien (E, K), C und X wie in Beispiel 19.10. Dann heißt X Irrfahrt auf E mit Gewichten C. Ist speziell C(x, y) = {x,y∈K} , dann heißt X einfache Irrfahrt auf (E, K). Die Irrfahrt mit Gewichten C ist also reversibel. Es gilt aber auch die Umkehrung. Satz 19.12. Ist X eine reversible Markovkette, so ist X eine Irrfahrt auf E mit Gewichten C(x, y) = p(x, y) π({x}), falls π ein invariantes Maß ist. Da π bis auf Vielfache eindeutig ist, sind die Gewichte bis auf konstante Vielfache festgelegt. 2
Beweis. Klar.
¨ Ubung 19.2.1. Man zeige: p ist genau dann reversibel bez¨uglich π, wenn die lineare ♣ Abbildung f → pf in L2 (π) selbstadjungiert ist. ¨ Ubung 19.2.2. Sei K ∈ N und Zahlen W1 , . . . , WK ∈ R und β > 0 gegeben. Wir definieren p(i, j) := wobei Z :=
K j=1
1 exp(−βWj ) Z
f¨ur alle i, j = 1, . . . , K,
exp(−βWj ) die Normalisierungskonstante ist.
In K (nummerierten) Urnen befinden sich insgesamt N ununterscheidbare Kugeln. In jedem Zeitschritt wird (uniform) eine der N Kugeln zuf¨allig ausgesucht. Ist i die Nummer der Urne, aus der die Kugel gezogen wurde, so wird die Kugel mit Wahrscheinlichkeit p(i, j) in die Urne mit der Nummer j gelegt. (i) Man gebe eine formale Beschreibung als Markovkette an. (ii) Man bestimme den invarianten Zustand π und zeige, dass die Kette reversibel bez¨uglich π ist. ♣
19.3 Elektrische Netzwerke Ein (endliches) elektrisches Netzwerk (E, C) ist ein (endliches) System E von Punkten, die paarweise mit Dr¨ahten der Leitf¨ahigkeit (conductivity) C(x, y) ∈ [0, ∞), x, y ∈ E verbunden sind. Wir interpretieren C(x, y) = 0 so, dass es keinen ” Draht zwischen x und y“ gibt. Symmetrie erfordert C(x, y) = C(y, x). Mit R(x, y) =
1 ∈ (0, ∞] C(x, y)
bezeichnen wir den Widerstand der Verbindung x, y!. Ist (E, K) ein Graph und C(x, y) = {x,y∈K} , so bezeichnen wir (E, C) als Einheitsnetzwerk auf (E, K).
394
19 Markovketten und elektrische Netzwerke
Sei nun A ⊂ E. Wir legen an den Punkten x0 ∈ A jeweils elektrische Spannungen u(x0 ) an (zum Beispiel durch Anschluss einer oder mehrerer Batterien). Wie groß ist dann die Spannung u(x) in x ∈ E \ A? Definition 19.13. Eine Abbildung I : E × E → R heißt ein Fluss auf E \ A, falls sie antisymmetrisch ist (I(x, y) = −I(y, x)) und das Kirchhoff’sche Gesetz erf¨ullt: I(x) = 0, I(A) = 0, wobei I(x) :=
I(x, y)
f¨ur x ∈ E \ A,
und
y∈E
I(A) :=
(19.6)
I(x).
x∈A
Definition 19.14. Ein Fluss I : E × E → R auf E \ A heißt elektrischer Fluss, falls es eine Funktion u : E → R gibt, bez¨uglich der das Ohm’sche Gesetz gilt: I(x, y) =
u(x) − u(y) R(x, y)
f¨ur alle x, y ∈ E, x = y.
Wir nennen dann I(x, y) die Stromst¨arke von x nach y und u(x) die elektrische Spannung in x. Satz 19.15. Eine elektrische Spannung u in (E, C) ist harmonisch auf E \ A: u(x) =
y∈E
1 C(x, y) u(y) C(x)
f¨ur jedes x ∈ E \ A.
Speziell ist die elektrische Spannung durch Angabe der Werte auf A festgelegt, wenn das Netzwerk irreduzibel ist. Beweis. Nach dem Ohm’schen und dem Kirchhoff’schen Gesetz ist u(x) −
C(x, y) C(x, y) 1 u(y) = (u(x) − u(y)) = I(x, y) = 0. C(x) C(x) C(x)
y∈E
y∈E
y∈E
Nach dem Eindeutigkeitssatz f¨ur harmonische Funktionen (Satz 19.7) ist u hierdurch und durch die Werte auf A eindeutig festgelegt. 2 Korollar 19.16. Sei X eine Markovkette auf E mit Kantengewichten C. Dann ist u(x) = Ex [u(XτA )]. Betrachte A = {x0 , x1 }, x0 = x1 , und u(x0 ) = 0, u(x1 ) = 1. Dann ist I(x1 ) der gesamte Stromfluss in das Netzwerk und −I(x0 ) der gesamte Stromfluss aus dem Netzwerk. Das Kirchhoff’sche Gesetz besagt, dass der Stromfluss divergenzfrei ist,
19.3 Elektrische Netzwerke
395
und dass in Summe genauso viel Strom rein- wie rausfließt. Mit anderen Worten eben I(x0 ) + I(x1 ) = 0. In Anlehnung an das Ohm’sche Gesetz definieren wir den effektiven Widerstand zwischen x0 und x1 durch Reff (x0 ↔ x1 ) =
1 1 u(x1 ) − u(x0 ) = =− I(x1 ) I(x1 ) I(x0 )
und die effektive Leitf¨ahigkeit durch Ceff (x0 ↔ x1 ) = Reff (x10 ↔x1 ) . Da I und u eindeutig durch die Angabe von x0 , x1 und C festgelegt sind, sind Ceff (x0 ↔ x1 ) und Reff (x0 ↔ x1 ) Gr¨oßen, die sich aus C berechnen lassen. Wir betrachten nun zwei Mengen A0 , A1 ⊂ E mit A0 ∩ A1 = ∅, A0 , A1 = ∅, und setzen u(x) = 0 f¨ur jedes x ∈ A0 sowie u(x) = 1 f¨ur jedes x ∈ A1 . Sei I der zugeh¨orige elektrische Fluss. In Analogie zu oben treffen wir die folgende Definition. Definition 19.17. Wir nennen Ceff (A0 ↔ A1 ) := I(A1 ) die effektive Leitf¨ahigkeit 1 zwischen A0 und A1 und Reff (A0 ↔ A1 ) := I(A den effektiven Widerstand 1) zwischen A0 und A1 . Beispiel 19.18. (i) Sei E = {0, 1, 2} mit C(0, 2) = 0, und A0 = {x0 } = {0}, A1 = {x1 } = {2}. Wir setzen u(0) = 0 und u(2) = 1. Dann ist (mit p(x, y) = C(x, y)/C(x)) u(1) = 1 · p(1, 2) + 0 · p(1, 0) = =
R(1, 0) C(1, 2) = C(1, 2) + C(1, 0) R(1, 0) + R(1, 2) Reff (1 ↔ 0) . Reff (1 ↔ 0) + Reff (1 ↔ 2)
Der gesamte Fluss ist I({2}) = u(1) C(0, 1) = Entsprechend ist Reff (0 ↔ 2) =
1 −1 1 . C(0,1) + C(1,2)
1 = R(0, 1) + R(1, 2)
1 I({2})
1 C(0,1)
1 +
1 C(1,2)
.
= R(0, 1) + R(1, 2) und Ceff (0 ↔ 2) =
(ii) (Reihenschaltung) Sei n ∈ N, n ≥ 2 und E = {0, . . . , n} mit Leitf¨ahigkeiten C(k − 1, k) > 0 und C(k, l) = 0, falls |k − l| > 1. Wie in (i) bekommen wir f¨ur k ∈ {1, . . . , n − 1} u(k) =
Reff (0 ↔ k) . Reff (0 ↔ k) + Reff (k ↔ n)
Induktiv (in n) erhalten wir also
396
19 Markovketten und elektrische Netzwerke
Reff (0 ↔ n) =
n−1
R(k, k + 1).
k=0
Wir erhalten so eine Aussage u¨ ber die Ruinwahrscheinlichkeit der korrespondierenden Markovkette X auf {0, . . . , n} durch H n−1 k−1 Reff (0 ↔ k) = Pk [τn < τ0 ] = u(k) = R(l, l + 1) R(l, l + 1). (19.7) Reff (0 ↔ n) l=0
x =0 0 C(0,1)
l=0
1 C(1,2)
u(0)=0
C(5,6)
x =6 1
u(6)=1
Abb. 19.1. Reihenschaltung von sechs Widerst¨anden. Der effektive Gesamtwiderstand betr¨agt Reff (0 ↔ 6) = R(0, 1) + . . . + R(5, 6)
(iii) (Parallelschaltung) Sei E = {0, 1}. Wir wollen formal mehrere (parallele) Dr¨ahte zwischen 0 und 1 erlauben mit Leitf¨ahigkeiten C1 , . . . , Cn . Dann ist nach = R1i , dem Ohm’schen Gesetz der Strom entlang des i-ten Drahtes Ii = u(1)−u(0) Ri n 1 also der Gesamtstrom I = i=1 Ri und damit n −1 n 1 Ceff = Ci und Reff = . 3 Ri i=1 i=1 In allen drei Beispielen ist der effektive Widerstand eine monotone Funktion der einzelnen Widerst¨ande. Dass dies allgemein gilt, ist die Aussage des Rayleigh’schen Monotonieprinzips. Satz 19.19 (Rayleigh’sches Monotonieprinzip). Seien (E, C) und (E, C ) elektrische Netzwerke mit C(x, y) ≥ C (x, y) f¨ur alle x, y ∈ E. Dann ist f¨ur A0 , A1 ⊂ E mit A0 ∩ A1 = ∅, A0 , A1 = ∅ Ceff (A0 ↔ A1 ) ≥ Ceff (A0 ↔ A1 ).
Der Rest dieses Abschnitts ist dem Beweis dieses Satzes gewidmet. Wir ben¨otigen dazu den Energieerhaltungssatz sowie das Thomson’sche (oder Dirichlet’sche) Prinzip der Leistungsminimierung.
19.3 Elektrische Netzwerke
397
R1 R2 R3 x 0 =0
x 1 =1 R4 R5
u(0)=0
u(6)=1
R6
Abb. 19.2. Parallelschaltung von sechs Widerst¨anden. Der effektive Gesamtwiderstand betr¨agt Reff (0 ↔ 1) = (R1−1 + . . . + R6−1 )−1 .
Satz 19.20 (Energieerhaltungssatz). Sei A = A0 ∪ A1 , und sei I ein Fluss (das heißt eine antisymmetrische Funktion, die dem Kirchhoff’schen Gesetz gen¨ugt, nicht aber notwendigerweise dem Ohm’schen Gesetz) auf E \ A. Ferner sei w : E → R eine Funktion, die auf A0 und A1 jeweils konstant ist: w ≡: w0 und w ≡: A0
w1 . Dann gilt (w1 − w0 )I(A1 ) =
A1
1 (w(x) − w(y)) I(x, y). 2 x,y∈E
Dies ist die diskrete Version des Satzes von Gauß f¨ur (wI), wobei man beachte, dass das Kirchhoff’sche Gesetz besagt, dass I auf E \ A divergenzfrei ist. Beweis. Wir berechnen (w(x) − w(y))I(x, y) = I(x, y) − I(x, y) w(x) w(y) x,y∈E
x∈E
=
x∈A
y∈E
w(x)
y∈E
x∈E
y∈A
x∈E
I(x, y) − I(x, y) w(y)
y∈E
= w0 I(A0 )+w1 I(A1 )−w0 (−I(A0 ))−w1 (−I(A1 )) = 2(w1 − w0 )I(A1 ). 2 Definition 19.21. Sei I ein Fluss auf E \ A. Mit LI := LC I :=
1 I(x, y)2 R(x, y) 2 x,y∈E
bezeichnen wir die Leistung von I im Netzwerk (E, C).
398
19 Markovketten und elektrische Netzwerke
Satz 19.22 (Thomson’sches oder Dirichlet’sches Prinzip der Leistungsminimierung). Seien I, J Einheitsfl¨usse von A1 nach A0 (das heißt I(A1 ) = J(A1 ) = 1). I sei zudem ein elektrischer Fluss (erf¨ulle also das Ohm’sche Gesetz mit einer Spannungsfunktion u, die auf A0 und A1 jeweils konstant ist). Dann gilt LI ≤ LJ mit Gleichheit genau dann, wenn I = J ist. Speziell ist der elektrische Einheitsfluss eindeutig festgelegt. Beweis. Sei D = J − I ≡ 0 der Differenzfluss. Dann ist offenbar D(A0 ) = D(A1 ) = 0. Wir erhalten J(x, y)2 R(x, y) x,y∈E
=
2 I(x, y) + D(x, y) R(x, y)
x,y∈E
=
I(x, y)2 + D(x, y)2 R(x, y) + 2 I(x, y) D(x, y) R(x, y)
x,y∈E
=
2
2
I(x, y) + D(x, y)
x,y∈E
R(x, y) + 2
x,y∈E
u(y) − u(x) D(x, y).
x,y∈E
Nach dem Energieerhaltungssatz ist der letzte Term u(y) − u(x) D(x, y) = 2D(A1 )(u1 − u0 ) = 0. 2 x,y∈E
Es folgt (wegen D ≡ 0) LJ = LI +
1 D(x, y)2 R(x, y) > LI . 2
2
x,y∈E
Beweis (Rayleigh’sches Monotonieprinzip, Satz 19.19) Seien I und I die elektrischen Einheitsfl¨usse von A1 nach A0 bez¨uglich C beziehungsweise C . Nach dem Thomson’schen Prinzip, dem Energieerhaltungssatz und der Voraussetzung R(x, y) ≤ R (x, y) f¨ur alle x, y ∈ E ist u(1) − u(0) = u(1) − u(0) I(A1 ) 1 = I(x, y)2 R(x, y) 2
Reff (A0 ↔ A1 ) =
x,y∈E
1 1 I (x, y)2 R(x, y) ≤ I (x, y)2 R (x, y) ≤ 2 2 x,y∈E
x,y∈E
(A0 ↔ A1 ). = u (1) − u (0) = Reff
2
19.4 Rekurrenz und Transienz
399
19.4 Rekurrenz und Transienz Wir betrachten die Situation, wo E abz¨ahlbar ist und A1 = {x1 } f¨ur ein x1 ∈ E. ¨ Sei X eine Irrfahrt auf E mit Gewichten C = (C(x, y), x, y ∈ E), also mit Ubergangswahrscheinlichkeiten p(x, y) = C(x, y)/C(x) (vergleiche Definition 19.11). Um die Ergebnisse u¨ ber endliche elektrische Netzwerke aus dem letzten Abschnitt anwenden zu k¨onnen, nehmen wir zudem immer an, dass A0 ⊂ E so gew¨ahlt ist, dass E \ A0 endlich ist. Es sei dann stets u = ux1 ,A0 die eindeutig bestimmte Spannungsfunktion auf E mit u(x1 ) = 1 und u(x) = 0 f¨ur jedes x ∈ A0 . Nach Satz 19.7 ist u harmonisch und hat die Darstellung ' ( ux1 ,A0 (x) = Ex {XτA ∪{x } =x1 } 0
1
= Px [τx1 < τA0 ]
f¨ur jedes x ∈ E \ (A0 ∪ {x1 }).
Daher ist f¨ur den zu u geh¨origen elektrischen Fluss I u(x1 ) − u(x) C(x1 , x) −I(A0 ) = I(x1 ) = I(x1 , x) = x∈E
x∈E
1 − u(x) p(x1 , x) = C(x1 ) x∈E
⎛
= C(x1 ) ⎝
p(x1 , x) Px [τA0 < τx1 ] +
x ∈A0 ∪{x1 }
⎞ p(x1 , x)⎠
x∈A0
= C(x1 ) Px1 [τA0 < τx1 ] . Es folgt pF (x1 , A0 ) := Px1 [τA0 < τx1 ] =
1 Ceff (x1 ↔ A0 ) 1 = . C(x1 ) C(x1 ) Reff (x1 ↔ A0 )
(19.8)
Definition 19.23. Die Fluchtwahrscheinlichkeit von x1 bezeichnen wir mit pF (x1 ) = Px1 [τx1 = ∞] = 1 − F (x1 , x1 ). Die effektive Leitf¨ahigkeit von x1 nach ∞ bezeichnen wir mit
Ceff (x1 ↔ ∞) := C(x1 ) inf pF (x1 , A0 ) : |E \ A0 | < ∞, x1 ∈ A0 . Lemma 19.24. F¨ur jede absteigende Folge An0 ↓ ∅ mit |E \ An0 | < ∞ und x1 ∈ An0 f¨ur jedes n ∈ N ist Ceff (x1 ↔ ∞) = lim Ceff (x1 ↔ An0 ). n→∞
400
19 Markovketten und elektrische Netzwerke
Beweis. Klar, weil
Ceff (x1 ↔ ∞) = C(x1 ) inf pF (x1 , A0 ) : |E \ A0 | < ∞, x1 ∈ A0 ,
(19.9) 2
und weil pF (x1 , A0 ) monoton fallend in A0 ist. Satz 19.25. Es gilt pF (x1 ) =
1 Ceff (x1 ↔ ∞). C(x1 )
(19.10)
Speziell gilt x1 ist rekurrent
⇐⇒
Ceff (x1 ↔ ∞) = 0
⇐⇒
Reff (x1 ↔ ∞) = ∞.
Beweis. Sei An0 ↓ ∅ eine absteigende Folge mit |E \ An0 | < ∞ und x1 ∈ An0 f¨ur jedes n ∈ N. Setze Fn := τAn0 < τx1 . F¨ur jedes M ∈ N ist Px1 [τ
An 0
≤ M] ≤
M
n→∞
Px1 [Xk ∈ An0 ] −→ 0.
k=0
Also gilt τAn0 ↑ ∞ fast sicher, und damit ist Fn ↓ {τx1 = ∞} (bis auf eine Nullmenge). Wir erhalten 1 Ceff (x1 ↔ ∞) = lim Px1 [Fn ] = Px1 [τx1 = ∞] = pF (x1 ). n→∞ C(x1 )
2
Beispiel 19.26. Die symmetrische einfache Irrfahrt auf E = Z ist rekurrent. Hier ist C(x, y) = {|x−y|=1} . Der effektive Widerstand von 0 nach ∞ ist nach den Formeln u¨ ber Parallel- und Reihenschaltung ∞
Reff (0 ↔ ∞) =
1 R(i, i + 1) = ∞. 2 i=0
3
Beispiel 19.27. Die asymmetrische einfache Irrfahrt auf E = Z mit p(x, x + 1) = p ∈ ( 12 , 1), p(x, x − 1) = 1 − p ist transient. Hier ist x p f¨ur x ∈ Z, C(x, x + 1) = 1−p und C(x, y) = 0, falls |x − y| > 1. Der effektive Widerstand von 0 nach ∞ ist nach dem Monotonieprinzip Reff (0 ↔ ∞) = lim Reff (0 ↔ {−n, n}) n→∞
≤ lim Reff (0 ↔ n) n→∞
=
n ∞ 1−p
n=0
p
=
p < ∞. 2p − 1
3
19.4 Rekurrenz und Transienz
401
Beispiel 19.28. Die symmetrische einfache Irrfahrt auf E = Z2 ist rekurrent. Hier ist wieder C(x, y) = {|x−y|=1} . Sei Bn = {−n, . . . , n}2 und ∂Bn = Bn \ Bn−1 . Wir stellen ein Netzwerk C mit gr¨oßeren Leitf¨ahigkeiten her, indem wir ringf¨ormige Supraleiter entlang ∂B einf¨ugen Wir ersetzen also C(x, y) durch ∞, falls x, y ∈ ∂Bn f¨ur ein n ∈ N, C (x, y) = C(x, y), sonst.
5 4 3 2 1 0
Abb. 19.3. Elektrisches Netzwerk auf Z2 . Die fetten Linien stellen Supraleiter dar. Zwischen dem n-ten und dem (n + 1)-ten Supraleiter sind genau 4(2n + 1) Kanten.
1 Dann ist Reff (Bn ↔ Bnc ) = 4(2n+1) (merke: 4(2n + 1) ist die Anzahl der Kanten, die Bn mit Bnc verbinden), und daher ist (0 ↔ ∞) = Reff
∞
1 = ∞. 4(2n + 1) n=0
(0 ↔ ∞) = ∞. Nach dem Monotonieprinzip ist daher Reff (0 ↔ ∞) ≥ Reff
3
402
19 Markovketten und elektrische Netzwerke
0
1
4 Kanten
2
12 Kanten
3
20 Kanten
n
n+1
4*(2n+1) Kanten
Abb. 19.4. Effektives Netzwerk, das aus Z2 durch Einf¨ugen der Supraleiter entsteht. Die Ringe der Supraleiter sind hier zu einzelnen Punkten verschmolzen.
Beispiel 19.29. Sei (E, K) ein beliebiger zusammenh¨angender Teilgraph des quadratischen Gitters (Z2 , L2 ). Dann ist die einfache Irrfahrt auf (E, K) (siehe Definition 19.11) rekurrent. Nach dem Monotonieprinzip ist n¨amlich (E,K)
Reff
(Z2 ,L2 )
(0 ↔ ∞) ≥ Reff
(0 ↔ ∞) = ∞.
3
Wir formulieren das Vorgehen in den letzten Beispielen als Satz. Satz 19.30. Seien C und C Kantengewichte auf E mit C (x, y) ≤ C(x, y) f¨ur alle x, y ∈ E. Ist die Markovkette X zu den Gewichten C rekurrent, so ist es auch die Markovkette X zu den Gewichten C . Sei speziell (E, K) ein Graph und (E , K ) ein Teilgraph. Ist die einfache Irrfahrt auf (E, K) rekurrent, so ist auch die einfache Irrfahrt auf (E , K ) rekurrent. Beweis. Das folgt direkt aus Satz 19.25 zusammen mit dem Rayleigh’schen Monotonieprinzip (Satz 19.19). 2 Beispiel 19.31. Die symmetrische einfache Irrfahrt auf Z3 ist transient. Zum Beweis (0 ↔ ∞) < ∞ ausrechnen konstruieren wir einen Teilgraphen, f¨ur den wir Reff k¨onnen. Skizze Wir betrachten die Menge aller unendlichen Pfade, die in 0 starten und – einen Schritt in x-Richtung, y-Richtung oder z-Richtung gehen (rechts, oben oder hinten, nicht links, unten oder vorne), – eine eventuell andere Richtung x, y oder z w¨ahlen und dann zwei Schritte in diese Richtung gehen,
19.4 Rekurrenz und Transienz
403
– in der n-ten Stufe eine der Richtungen x, y oder z w¨ahlen und 2n+1 Schritte in diese Richtung gehen. Wir bezeichnen etwa mit xyyxxxxzzzzzzzz . . . den Pfad, der zun¨achst die xRichtung, dann y, dann x, dann z und so fort gew¨ahlt hat. Zwei Pfade benutzen offenbar nach dem Zeitpunkt, wo sich ihre Wege trennen, keine gemeinsamen Kanten mehr. Allerdings werden manche Knoten von mehreren Pfaden getroffen. xxx
xxx xx
xx
xzz xz
xz
xy
xy
xyy
xyy
x
yxx
x yxx
yx y
yy
yyy
yz
yzz
yx
y
yy yz
z
zx
zyy
zy zz
zxx
yyy yzz
z zyy zy
zzz
xzz
zx
zz
zzz zxx
Abb. 19.5. Schema der ersten drei Schritte des Graphen von Beispiel 19.31. Links sind die tats¨achlichen Kanten eingezeichnet, wobei beispielsweise xyy bedeutet, dass zun¨achst in Schritt in x-Richtung gemacht wurde, dann einer in y-Richtung und jetzt die weiterf¨uhrende Kante in y-Richtung betrachtet wird. Rechts sind die Knoten an den Enden von xz/zx, xy/yx und yz/zy jeweils in zwei Knoten aufgel¨ost und mit einem Supraleiter“ (fette ” Linien) verbunden. Wenn wir die Supraleiter entfernen, so erhalten wir das Netzwerk aus Abb. 19.6, dessen effektiver Widerstand Reff (0 ↔ ∞) nicht kleiner ist als derjenige in Z3 . (Wird an die Wurzel die Spannung 1 und an den rechten Punkten jeweils die Spannung 0 angelegt, so fließt aus Symmetriegr¨unden durch die Supraleiter kein Strom. Das Netzwerk hier ist also sogar a¨ quivalent zu dem in Abb. 19.6.)
Wenn wir das elektrische Netzwerk mit Einheitswiderst¨anden und Spannung 1 im Ursprung sowie Spannung 0 an allen Punkten von Pfaden nach der n-ten Stufe betrachten, so h¨angt aus Symmetriegr¨unden die Spannung an jedem Knoten des Netzwerks nur vom Abstand (k¨urzester Weg entlang Pfaden) zum Ursprung ab. Wir erhalten also ein a¨ quivalentes Netzwerk, wenn wir mehrfach benutzte Knoten durch entsprechend mehrere Knoten ersetzen (siehe Abb. 19.5). So erhalten wir ein Netzwerk, das eine Baumstruktur hat: jeweils nach 2n Schritten verzweigt jeder Pfad in
404
19 Markovketten und elektrische Netzwerke
drei Pfade (siehe Abb. 19.6). Die 3n Pfade von der n-ten Generation zur (n + 1)ten Generation sind disjunkte Pfade der L¨ange 2n−1 . Sind B(n) alle Punkte bis zur n-ten Generation, so ist (0 ↔ B(n + 1)c ) = Reff
n−1
Reff (B(k) ↔ B(k)c ) =
k=0
0
1
R(0<Ŧ>1)=1/3
2k 3−k .
k=0
2
R(1<Ŧ>2)=2/9
n−1
3
R(2<Ŧ>3)=4/27
R eff (0<Ŧ>2)=5/9
R eff (0<Ŧ>3)=19/27 Abb. 19.6. Ein Baum als Teilgraph von Z3 , auf dem die Irrfahrt immer noch transient ist.
19.5 Netzwerkreduktion Also ist Reff (0 ↔ ∞) =
∞
1 3
k=0
405
k 2 = 1 < ∞. F¨ur diesen Baum ist die Irrfahrt 3
transient, nach Satz 19.30 also auch f¨ur Z3 .
3
Beispiel 19.32. Die symmetrische einfache Irrfahrt auf Zd , d ≥ 3, ist transient. Dies gilt nach Satz 19.30, weil wir Z3 als Teilgraphen von Zd auffassen k¨onnen und hier die Irrfahrt transient ist. 3
19.5 Netzwerkreduktion Beispiel 19.33. Wir betrachten die Irrfahrt auf dem Graphen aus Abb. 19.7, die in x startet und an jedem Punkt mit gleicher Wahrscheinlichkeit zu einem der Nachbarpunkte springt. Mit welcher Wahrscheinlichkeit P trifft die Kette den Punkt 1 bevor sie den Punkt 0 trifft? Wir k¨onnen den Graphen als elektrisches Netzwerk auffassen
x
1
0
Abb. 19.7. Ausgangssituation
mit gleichem Widerstand (etwa 1) an jeder Kante, Spannung 0 in 0 und Spannung 1 in 1. Wenn wir die beiden effektiven Widerst¨ande Reff (0 ↔ x) und Reff (x ↔ 1) kennen, erhalten wir als Spannung P = u(x) =
Reff (0 ↔ x) . Reff (0 ↔ x) + Reff (x ↔ 1)
(19.11)
Um die effektiven Widerst¨ande auszurechnen, wollen wir das Netzwerk schrittweise vereinfachen, bis nur noch zwei Kanten u¨ brig sind: von 0 nach x und von x nach 1. Die erforderlichen Schritte werden im Folgenden vorgestellt und dann im Beispiel angewandt. 3
406
19 Markovketten und elektrische Netzwerke
Um ein elektrisches Netzwerk zu reduzieren, kann man vier elementare Transformationen anwenden: 1. Entfernen von Schleifen Die drei Punkte ganz rechts im Graphen bilden eine Schleife, die ohne Ver¨anderungen im Rest des Netzwerks entfernt werden kann. Insbesondere kann jede Kante entfernt werden, die 0 und 1 direkt verbindet. 2. Zusammenfassen von seriellen Kannten Zwei (oder mehr) Kanten, die seriell liegen, und deren dazwischen liegende Knoten keine weiteren Verbindungen haben, k¨onnen durch ein Kante ersetzt werden, deren Widerstand die Summe der einzelnen Widerst¨ande ist (siehe Abb. 19.1). 3. Zusammenfassen von parallelen Kannten Zwei (oder mehr) Kanten mit Widerst¨anden R1 , . . . , Rn , die die selben Knoten verbinden, k¨onnen durch eine Kante mit Widerstand R = (R1−1 + . . . + Rn−1 )−1 ersetzt werden (siehe Abb. 19.2). ¨ 4. Stern-Dreieck-Transformation (Siehe Ubung 17.5.1) Der sternf¨ormige Ausschnitt eines Netzwerk links in Abb. 19.8 ist a¨ quivalent zum dreieckigen Aus1 , R 2 , R 3 die folgende Bedinschnitt rechts, wenn die Widerst¨ande R1 , R2 , R3 , R gung erf¨ullen ˜i = δ Ri R wobei
f¨ur jedes i = 1, 2, 3,
δ = R1 R2 R3 R1−1 + R2−1 + R3−1 =
(19.12)
1 R 2 R 3 R . 1 + R 2 + R 3 R
x3
2 R
R3 R1 x1
z
1 R
x1
R2 x2
x3
3 R
x2
Abb. 19.8. Stern-Dreieck-Transformation
Wir l¨osen nun die Aufgabe aus Beispiel 19.33 konkret. Wir nehmen an, dass anfangs jede Kante den Widerstand 1 hat. Kanten, die im Verlauf der Reduktion andere Widerst¨ande als 1 haben, werden mit dem entsprechenden Widerstand beschriftet.
19.5 Netzwerkreduktion
Schritt 1.
407
Die Schleife am rechten Rand wird entfernt.
Schritt 2. Die Serien an der oberen, rechten und unteren Ecke werden durch je einen Widerstand der Gr¨oße 2 ersetzt.
x
1 2
x
0
1
2 0
2 Abb. 19.9. Schritt 1 und 2
Schritt 3. Der linke untere Knoten wird mit der Stern-Dreieck-Transformation 1 = δ/R1 = 5, R 2 = δ/R2 = entfernt. Hier ist R1 = 1, R2 = 2, R3 = 1, δ = 5, R 5/2 und R3 = δ/R3 = 5. Schritt 4. Die parallelen Kanten mit Widerst¨anden R1 = 5 und R2 = 1 werden ersetzt durch eine Kante mit R = ( 15 + 1)−1 = 56 .
2
x
1
2
x
1
2 0
5/2
2 0
5/2 5/6
5 5
5 Abb. 19.10. Schritt 3 und 4
408
19 Markovketten und elektrische Netzwerke
Schritt 5. Der rechte untere Knoten wird mit der Stern-Dreieck-Transformation 1 = δ/R1 = 19/6, entfernt. Hier ist R1 = 5, R2 = 2, R3 = 56 , δ = 95/6, R 3 = δ/R3 = 19. 2 = δ/R2 = 95/12 und R R Schritt 6. Die parallelen Kanten werden durch je eine Kante ersetzt mit Wider2 −1 6 −1 stand ( 12 = 19 = 19 95 + 5 ) 10 beziehungsweise ( 19 + 1) 25 . Zudem wird die direkte Kante zwischen Punkt 0 und Punkt 1 entfernt.
2
x
1 x
5/2
2
1
19/6
0
19/25 95/12 19
0
19/10
Abb. 19.11. Schritt 5 und 6
Schritt 7. Der rechte untere Knoten wird mit der Stern-Dreieck-Transformation 19 513 54 entfernt. Hier ist R1 = 19 10 , R2 = 25 , R3 = 1, δ = 125 , R1 = δ/R1 = 25 , 2 = δ/R2 = 27 und R 3 = δ/R3 = 513 . R 5 125 Schritt 8. Die parallelen Kanten werden durch je eine Kante ersetzt mit Wider5 25 1 −1 stand ( 27 + 1)−1 = 27 = 27 32 beziehungsweise ( 54 + 2 ) 26 . Zudem wird die direkte Kante zwischen Punkt 0 und Punkt 1 entfernt.
2
x
x
1
1 27/26
27/5
54/25
27/32
513/125 0
0 Abb. 19.12. Schritt 7 und 8
Wir haben jetzt also die effektiven Widerst¨ande Reff (0 ↔ x) = 27 32 und Reff (x ↔ 1) = 27 26 . Mit Gleichung (19.11) erhalten wir als Wahrscheinlichkeit, dass die Irrfahrt 1 erreicht, bevor sie 0 erreicht: P =
27 32 27 32
+
27 26
=
13 . 29
3
19.5 Netzwerkreduktion
409
Alternative L¨osung Wir k¨onnen die L¨osung des Problems aus Beispiel 19.33 auch ohne Netzwerke, alleine mit linearer Algebra angeben. Welche L¨osung eleganter ist, ist wohl Ge¨ schmackssache. Zun¨achst stellen wir die Ubergangsmatrix p der Markovkette auf (hierf¨ur werden die Knoten des Graphen von 1 bis 12 durchnummeriert wie in Abb. 19.13). Der Startpunkt ist die 2, das Gewinnfeld“ ist die 3 und das Ver” ” lustfeld“ die 5. Nun wird die Matrix p der in 3 und 5 get¨oteten Kette gebildet und
1 2 5
3 6
9
4 7
10
8 11
12 Abb. 19.13. Graph mit nummerierten Knoten
¨ G = (I − p)−1 berechnet. Nach Ubung 19.1.1 (mit A = {3, 5}, x ist die Wahrscheinlichkeit 3 vor 5 zu treffen P = G(2, 3) = 13 29 . ⎛ 0 1 1 0 0 0 0 0 0 0 0 ⎜ 1 2 2 1 1 ⎜ ⎜ 3 0 0 0 3 3 0 0 0 0 0 ⎜ ⎜ 0 0 0 0 0 0 0 0 0 0 0 ⎜ ⎜ 0 0 0 0 0 0 1 1 0 0 0 ⎜ 2 2 ⎜ ⎜ 0 0 0 0 0 0 0 0 0 0 0 ⎜ ⎜ 0 1 1 0 0 0 0 0 1 1 0 ⎜ 4 4 4 4 p := ⎜ ⎜ 0 0 1 1 0 0 0 0 0 1 1 4 4 4 4 ⎜ ⎜ ⎜ 0 0 0 12 0 0 0 0 0 0 12 ⎜ ⎜ 0 0 0 0 1 1 0 0 0 0 0 ⎜ 3 3 ⎜ ⎜ 0 0 0 0 0 13 31 0 0 0 0 ⎜ ⎜ 0 0 0 0 0 0 1 1 0 0 0 ⎝ 2 2 0 0 0 0 0 0 0 0 12 21 0
= 2 und y = 3) 0
⎞
⎟ 0 ⎟ ⎟ ⎟ 0 ⎟ ⎟ 0 ⎟ ⎟ ⎟ 0 ⎟ ⎟ 0 ⎟ ⎟ ⎟ 0 ⎟ ⎟ ⎟ 0 ⎟ ⎟ 1 ⎟ 3 ⎟ 1 ⎟ ⎟ 3 ⎟ 0 ⎟ ⎠ 0
410
19 Markovketten und elektrische Netzwerke
⎛
G := (I − p)−1
143 116
⎜ ⎜ 27 ⎜ 58 ⎜ ⎜ ⎜ 0 ⎜ ⎜ 3 ⎜ 58 ⎜ ⎜ ⎜ 0 ⎜ ⎜ 19 ⎜ 116 =⎜ ⎜ 3 ⎜ 58 ⎜ ⎜ 3 ⎜ 58 ⎜ ⎜ 5 ⎜ 58 ⎜ ⎜ 3 ⎜ 29 ⎜ ⎜ 3 ⎜ 58 ⎝ 11 116
81 116
21 29
3 58
8 29
19 58
3 29
3 58
15 116
9 58
3 58
11 116
81 58
13 29
3 29
16 29
19 29
6 29
3 29
15 58
9 29
3 29
11 58
0
1
0
0
0
0
0
0
0
0
9 58
24 29
165 58
5 29
15 29
78 29
68 29
21 58
30 29
107 58
0
0
0
1
0
0
0
0
0
0
57 116
18 29
15 58
11 29
95 58
15 29
15 58
75 116
45 58
15 58
9 58
24 29
39 29
5 29
15 29
78 29
39 29
21 58
30 29
39 29
9 58
24 29
68 29
5 29
15 29
78 29
97 29
21 58
30 29
68 29
15 58
11 29
7 29
18 29
25 29
14 29
7 29
93 58
21 29
7 29
9 29
19 29
20 29
10 29
30 29
40 29
20 29
21 29
60 29
20 29
9 58
24 29
107 58
5 29
15 29
78 29
68 29
21 58
30 29
165 58
33 116
15 29
27 58
14 29
55 58
27 29
27 58
135 116
81 58
27 58
⎞
⎟ ⎟ ⎟ ⎟ ⎟ 0 ⎟ ⎟ 27 ⎟ ⎟ 58 ⎟ ⎟ 0 ⎟ ⎟ 55 ⎟ ⎟ 116 ⎟ 27 ⎟ ⎟ 58 ⎟ 27 ⎟ ⎟ 58 ⎟ 45 ⎟ ⎟ 58 ⎟ 27 ⎟ ⎟ 29 ⎟ 27 ⎟ ⎟ 58 ⎠ 215 116
¨ Ubung 19.5.1. Man zeige die G¨ultigkeit der Stern-Dreieck-Transformation.
♣
¨ Ubung 19.5.2. Man zeige f¨ur den unten stehenden hexagonalen Graphen, dass die 8 Wahrscheinlichkeit, von x aus startend die 1 vor der 0 zu treffen, gleich 17 ist (i) mit der Methode der Netzwerkreduktion, ♣
(ii) mit der Methode der Matrixinversion.
0
1
x
19.5 Netzwerkreduktion
411
¨ Ubung 19.5.3. Man betrachte den Graphen aus Abb. 19.14. (i) Zeige f¨ur die effektive Leitf¨ahigkeit zwischen den Punkten a und z, dass √ Ceff (a ←→ z) = 3. (ii) Zeige, dass die Wahrscheinlichkeit Pa [τz < τa ], dass in eine in a√gestartete Irrfahrt z trifft bevor sie a zur¨uckkehrt, den Wert Pa [τz < τa ] = 1/ 3 hat. ♣
a
z Abb. 19.14.
¨ Ubung 19.5.4. Man bestimme Ceff (a ←→ z) und Pa [τz < τa ] f¨ur den Graphen ¨ aus Abb. 19.15. (Das geht leichter als in Ubung 19.5.3!) ♣
a
z Abb. 19.15.
¨ Ubung 19.5.5. Man bestimme die Wahrscheinlichkeit Pa [τz < τa ] f¨ur den Graphen aus Abb. 19.16. ♣
z a Abb. 19.16.
412
19 Markovketten und elektrische Netzwerke
19.6 Irrfahrt in zuf¨alliger Umgebung (Vergleiche [163], [135] und [76, 77].) Wir betrachten eine Markovkette X auf Z, die in jedem Schritt entweder einen Punkt nach links oder einen Punkt nach rechts springt, jeweils mit Wahrscheinlichkeit wi− beziehungsweise wi+ , falls X in i ∈ Z ist. Es seien also wi− ∈ (0, 1) und wi+ := 1 − wi− f¨ur i ∈ Z. Dann ist X ¨ die Markovkette mit Ubergangsmatrix ⎧ − ⎪ ⎨ wi , falls j = i − 1, pw (i, j) = wi+ , falls j = i + 1, ⎪ ⎩ 0, sonst. Um X durch die Leitf¨ahigkeiten eines elektrischen Netzwerks zu beschreiben, setzen wir i := wi− /wi+ f¨ur i ∈ Z sowie Cw (i, j) := 0 falls |i − j| = 1 und i Cw (i + 1, i) := Cw (i, i + 1) :=
k=0
−1 k ,
falls i ≥ 0,
k ,
falls i < 0.
−1
k=i
Mit dieser Definition ist Cw (i, i + 1) 1 = = wi+ Cw (i) i + 1
und
i Cw (i, i − 1) = = wi− . Cw (i) i + 1
¨ Die Ubergangswahrscheinlichkeiten pw werden also tats¨achlich durch Cw beschrieben. Sei + Rw :=
∞
Rw (i, i + 1) =
i=0
∞ i=0
∞ i 1 = k Cw (i, i + 1) i=0 k=0
und − := Rw
∞
Rw (−i, −i − 1) =
i=0
∞ i=0
∞ 1 1 = −1 k . Cw (−i, −i − 1) i=1 k=−i
+ − und Rw sind die effektiven Widerst¨ande von 0 nach +∞ beziehungsweise Rw nach −∞. Also ist 1 Rw,eff (0 ↔ ∞) = 1 1 + R− R+ − + genau dann endlich, wenn Rw < ∞ oder Rw < ∞ ist. Nach Satz 19.25 gilt also
X ist transient
⇐⇒
− + Rw < ∞ oder Rw < ∞.
In welche Richtung l¨auft X davon, wenn X transient ist?
(19.13)
19.6 Irrfahrt in zuf¨alliger Umgebung
Satz 19.34.
− + (i) Gilt Rw < ∞ oder Rw < ∞, so gilt (mit
) * n→∞ P0 Xn −→ −∞ =
+ Rw − + Rw + Rw
und
∞ ∞
413
= 1)
) * n→∞ P0 Xn −→ +∞ =
− Rw − +. Rw + Rw
− + (ii) Gilt Rw = ∞ und Rw = ∞, so gilt lim inf Xn = −∞ und lim sup Xn = ∞ n→∞
n→∞
fast sicher. − Beweis. (i) Ohne Einschr¨ankung sei Rw < ∞. Der andere
Fall folgt aus Symmetriegr¨unden. Sei τN := inf n ∈ N0 : Xn ∈ {−N, N } . Da X transient ist, ist P0 [τN < ∞] = 1 und (wie in (19.7))
) * Rw,eff (0 ↔ N ) Rw,eff (0 ↔ N ) = . P0 XτN = −N = Rw,eff (−N ↔ N ) Rw,eff (0 ↔ −N ) + Rw,eff (0 ↔ N ) Es folgt, wiederum, weil X transient ist, ) * ) * n→∞ P0 Xn −→ −∞ = P sup{Xn : n ∈ N0 } < ∞ ) * = lim P sup{Xn : n ∈ N0 } < N N →∞ ) * = lim P XτN = −N =
N →∞ + Rw − +. Rw + Rw
− + (ii) Gilt Rw = Rw = ∞, so ist X rekurrent, also wird jeder Punkt unendlich oft 2 besucht, das heißt, es gilt lim sup Xn = ∞ und lim inf Xn = −∞ f.s. n→∞
n→∞
Wir wollen nun die Situation betrachten, wo die Zahlenfolge w = (wi− )i∈Z zuf¨allig ist. Das heißt, wir betrachten ein Zweistufen-Experiment: In der ersten Stufe werden u.i.v. Zufallsvariablen W = (Wi− )i∈Z auf (0, 1) realisiert und Wi+ := 1 − Wi− gesetzt. In der zweiten Stufe wird, gegeben W , eine Markovkette X auf Z mit ¨ Ubergangsmatrix pW konstruiert, wobei ⎧ − ⎪ ⎨ Wi , falls j = i − 1, pW (i, j) = Wi+ , falls j = i + 1, ⎪ ⎩ 0, sonst. Man beachte, dass X nur gegeben W eine Markovkette ist, also unter dem Wahrscheinlichkeitsmaß P[X ∈ · |W ], nicht aber bez¨uglich P[X ∈ · ]. Ist n¨amlich W unbekannt, so kann man durch Beobachtung von X R¨uckschl¨usse u¨ ber die tats¨achliche Realisierung von W ziehen. Dies ist aber genau das, was Ged¨achtnis ist, steht also im Widerspruch zur Markoveigenschaft von X.
414
19 Markovketten und elektrische Netzwerke
Definition 19.35. Der Prozess X heißt heißt Irrfahrt in der zuf¨alligen Umgebung W (random walk in random environment). − + und RW wie oben definiert. Seien i := Wi− /Wi+ f¨ur i ∈ Z und RW n→∞
(i) Gilt E[log(0 )] < 0, so gilt Xn −→ ∞ f.s.
Satz 19.36.
n→∞
(ii) Gilt E[log(0 )] > 0, so gilt Xn −→ −∞ f.s. (iii) Gilt E[log(0 )] = 0, so gilt lim inf Xn = −∞ und lim sup Xn = ∞ f.s. n→∞
n→∞
Beweis. (i) und (ii) Aus Symmetriegr¨unden reicht es, (ii) zu zeigen. Sei also c := − E[log(0 )] > 0. Nach dem starken Gesetz der großen Zahl gibt es ein n− 0 = n0 (ω) mit 1
−1 k = exp
−
k=−n
log(i ) < e−cn/2
1
f¨ur alle n ≥ n− 0.
k=−n
Es folgt − RW
=
1 ∞
−1 k
n=1 k=−n
n− 0 −1
≤
1
−1 k +
∞
e−cn/2 < ∞
f.s.
n=n− 0
n=1 k=−n
+ Analog gibt es ein n+ 0 = n0 (ω) mit n
k > ecn/2
f¨ur alle n ≥ n+ 0.
k=0
Es folgt + RW
=
n ∞ n=0 k=0
k ≥
n+ n 0 −1 n=0 k=0
k +
∞
ecn/2 = ∞
f.s.
n=n+ 0
n→∞
Aus Satz 19.34 folgt nun Xn −→ −∞ fast sicher. − + = RW = ∞ fast sicher gilt, reicht es zu zeigen, dass (iii) Um zeigen, dass RW n 1 lim supn→∞ k=0 log(k ) > −∞ und lim supn→∞ k=−n log(−1 k ) > −∞ fast sicher, wenn E[log(0 )] = 0 gilt. Wenn log(0 ) von endlicher Varianz ist, folgt dies aus dem Zentralen Grenzwertsatz. Im allgemeinen Fall folgt dies aus Satz 20.21. 2
20 Ergodentheorie
Gesetze der großen zum Beispiel f¨ur u.i.v. Zufallsvariablen X1 , X2 , . . . besan Zahl, n→∞ gen, dass n−1 i=1 Xi −→ E[X1 ] fast sicher konvergiert. Wir k¨onnen also die Mittelung u¨ ber die tats¨achliche Realisierung vieler Zufallsvariablen mit der Mittelung u¨ ber die m¨oglichen Realisierungen eines Xi vertauschen. In der statistischen ¨ Physik spricht man von der Aquivalenz von Zeitmittel und Scharmittel, oder der Mittelung entlang einer Trajektorie (griechisch odos) des Systems gegen¨uber der Mittelung aller m¨oglichen Zust¨ande mit gleicher Energie (griechisch ergon). Hieraus leitet sich der Begriff der Ergodentheorie ab, die Gesetze der großen Zahl f¨ur Zufallsvariablen mit Abh¨angigkeiten, aber zeitlicher Stationarit¨at liefert.
20.1 Begriffsbildung Definition 20.1. Sei I eine unter Addition abgeschlossene Menge (die wichtigsten Beispiele f¨ur uns sind I = N0 , I = N, I = Z, I = R, I = [0, ∞), I = Zd usw.). Ein stochastischer Prozess X = (Xt )t∈I heißt station¨ar, falls L [(Xt+s )t∈I ] = L [(Xt )t∈I ]
f¨ur jedes s ∈ I.
(20.1)
Bemerkung 20.2. Ist I = N0 , I = N oder I = Z, so ist (20.1) a¨ quivalent zu L [(Xn+1 )n∈I ] = L [(Xn )n∈I ] .
3
Beispiel 20.3. (i) Ist X = (Xt )t∈I u.i.v., so ist X station¨ar. Ist lediglich PXt = PX0 f¨ur jedes t ∈ I (ohne die Unabh¨angigkeit), so ist X im Allgemeinen nicht station¨ar. Beispielsweise sei I = N0 und X1 = X2 = X3 = . . ., jedoch X0 = X1 . Dann ist X nicht station¨ar. (ii) Ist X eine Markovkette mit invarianter Verteilung π , sowie L[X0 ] = π, dann ist X station¨ar. (iii) Sind (Yn )n∈Z u.i.v. und reell, sowie c1 , . . . , ck ∈ R, dann definiert Xn :=
k l=1
cl Yn−l
416
20 Ergodentheorie
einen station¨aren Prozess X. X heißt manchmal auch moving average oder gleitendes Mittel mit Gewichten (c1 , . . . , ck ). Eine genauere Betrachtung ergibt, dass X sogar dann station¨ar ist, wenn Y nur als station¨ar vorausgesetzt wird. 3 Lemma 20.4. Ist (Xn )n∈N0 station¨ar, so l¨asst sich X zu einem station¨aren Pro n zess X fortsetzen. n∈Z {−n,−n+1,...} ∈ der kanonische Prozess auf Ω = E Z . Sei P Beweis. Sei X
{−n,−n+1,...} definiert durch M1 E ) * {−n,−n+1,...} X −n ∈ A−n , X −n+1 ∈ A−n+1 , . . . P * ) = P X0 ∈ A−n , X1 ∈ A−n+1 , . . . .
{−n,−n+1,...} , n ∈ N projektiv und {−n, −n + 1, . . .} ↑ Z. Nach Dann ist P := dem Satz von Ionescu-Tulcea (Satz 14.32) existiert der projektive Limes P {−n,−n+1,...} . Per Konstruktion ist X station¨ar bez¨uglich P und lim P ←− n→∞
◦ (X n )n∈N −1 = P ◦ (Xn )n∈N −1 . P 0 0
2
Im Folgenden sei stets (Ω, A, P) ein W-Raum und τ : Ω → Ω eine messbare Abbildung. Definition 20.5. Ein Ereignis A ∈ A heißt invariant, falls τ −1 (A) = A und quasi-invariant, falls τ −1 (A) = A P–f.s. Die σ-Algebra der invarianten Ereignisse bezeichnen wir mit
I = A ∈ A : τ −1 (A) = A Lemma 20.6. Eine messbare Abbildung f : (Ω, A) → (R, B(R)) ist genau dann I-messbar, wenn f ◦ τ = f ist. Beweis. F¨ur Indikatorfunktionen f = A ist dies klar. Der allgemeine Fall folgt mit den u¨ blichen Approximationsargumenten (siehe Satz 1.96(i)). 2 Zur Erinnerung: Eine σ-Algebra I heißt P-trivial, falls P[A] ∈ {0, 1} f¨ur jedes A ∈ I gilt. Definition 20.7.
(i) τ heißt maßtreu, falls * ) P τ −1 (A) = P[A]
f¨ur jedes A ∈ A.
In diesem Falle heißt (Ω, A, P, τ ) ein maßerhaltendes dynamisches System. (ii) Ist τ maßtreu und I P-trivial, so heißt (Ω, A, P, τ ) ergodisch.
20.1 Begriffsbildung
417
Beispiel 20.8. Sei n ∈ N \ {1}, Ω = Z/(n), A = 2Ω und P die Gleichverteilung auf Ω. Sei r ∈ {1, . . . , n} und τ : Ω → Ω,
x → x + r
(mod n).
Dann ist τ maßtreu. Ist d = ggT(n, r) und f¨ur i = 0, . . . , d − 1
Ai = i, τ (i), τ 2 (i), . . . , τ n−1 (i) = i + r!, so sind A0 , . . . , Ad−1 die disjunkten Nebenklassen des Normalteilers r! Ω. Also ist Ai ∈ I f¨ur i = 0, . . . , d − 1, und jedes A ∈ I ist Vereinigung von gewissen Ai . Mithin gilt: (Ω, A, P, τ ) ist ergodisch
⇐⇒
ggT(r, n) = 1.
3
Beispiel 20.9 (Rotation). Sei Ω = [0, 1), A = B(Ω), P = λ das Lebesgue-Maß, r ∈ (0, 1) und τr (x) = x + r (mod 1). Offenbar ist (Ω, A, P, τr ) ein maßerhaltendes dynamisches System. Sei zun¨achst r rational, also r = pq f¨ur gewisse teilerfremde Zahlen p, q ∈ N. Setze ) 1 q−1 und A = n=0 τrn (A0 ). Wegen τ q = idΩ , ist A ∈ I und P[A] = 12 , A0 = 0, 2q also ist (Ω, A, P, τr ) nicht ergodisch. Sei nun r ∈ (0, 1) irrational. Offenbar gilt f¨ur jedes x ∈ [0, 1) und ε > 0, dass ∞ −k −1 −2 k=1 τr (Bε (x)) = [0, 1), weil {x, τr (x), τr (x), . . .} ⊂ [0, 1) dicht ist. Also gilt f¨ur jede offene Menge V ∈ I entweder V = ∅ oder V = [0, 1). Sei nun A ∈ I beliebig mit P[A] > 0. Nach dem Approximationssatz f¨ur Maße (Satz 1.65) existiert ein offene Menge U ⊂ A mit P[U ] > 0. Setzen wir V =
∞
τrk (U ) ⊂
k=−∞
∞
τrk (A) = A,
k=−∞
so ist V offen und V ∈ I, also V = [0, 1) und damit A = [0, 1). Wir haben also gezeigt: (Ω, A, P, τr ) ist ergodisch
⇐⇒
r ist irrational.
3
Beispiel 20.10. Sei X = (Xn )n∈N0 ein stochastischer Prozess mit Werten in einem polnischen Raum E. Ohne Einschr¨ankung k¨onnen X der ka wir annehmen, dass nonische Prozess auf dem W-Raum (Ω, A, P) = E N0 , B(E)⊗N0 , P ist. Definiere den Shift τ : Ω → Ω, (ωn )n∈N0 → (ωn+1 )n∈N0 . Dann ist Xn (ω) = X0 (τ n (ω)). Also ist X genau dann station¨ar, wenn (Ω, A, P, τ ) ein maßerhaltendes dynamisches System ist. 3 Definition 20.11. Der stochastische Prozess X (aus Beispiel 20.10) heißt ergodisch, falls (Ω, A, P, τ ) ergodisch ist.
418
20 Ergodentheorie
Beispiel 20.12. Seien (Xn )n∈N0 u.i.v. und Xn (ω) = X0 (τ n (ω)). Ist A ∈ I, so ist f¨ur n ∈ N A = τ −n (A) = {ω : τ n (ω) ∈ A} ∈ σ(Xn , Xn+1 , . . .). Also ist (mit T die terminale σ-Algebra von (Xn )n∈N , siehe Definition 2.34) I⊂T =
∞
σ(Xn , Xn+1 , . . .).
n=1
Nach dem Kolmogorov’schen 0 − 1 Gesetz (Satz 2.37) ist T P-trivial, also ist auch 3 I P-trivial und damit (Xn )n∈N0 ergodisch. ¨ Ubung 20.1.1. Sei G eine endliche Gruppe von maßtreuen messbaren Abbildungen auf (Ω, A, P) und A0 := {A ∈ A : g(A) = A f¨ur alle g ∈ G}. Man zeige: F¨ur jedes X ∈ L1 (P) gilt E[X |A0 ] =
1 X ◦ g. #G
♣
g∈G
20.2 Ergodens¨atze In diesem Abschnitt ist stets (Ω, A, P, τ ) ein maßerhaltendes dynamisches System. Ferner sei f : Ω → R messbar und Xn (ω) = f ◦ τ n (ω)
f¨ur jedes n ∈ N0 .
Also ist X = (Xn )n∈N0 ein station¨arer, reeller stochastischer Prozess. Sei Sn =
n−1
Xk
k=0
die n-te Partialsumme. Die Ergodens¨atze besch¨aftigen sich mit Gesetzen der großen Zahl f¨ur die (Sn ). Als Vorbereitung bringen wir ein Lemma. Lemma 20.13 (Hopf’sches Maximal-Ergodenlemma). Sei X0 ∈ L1 (P). Setze Mn = max{0, S1 , . . . , Sn }, n ∈ N. Dann gilt ) * E X0 {Mn >0} ≥ 0 f¨ur jedes n ∈ N. Beweis. F¨ur k ≤ n ist Mn (τ (ω)) ≥ Sk (τ (ω)). Also ist X0 + Mn ◦ τ ≥ X0 + Sk ◦ τ = Sk+1 .
20.2 Ergodens¨atze
419
Daher ist X0 ≥ Sk+1 − Mn ◦ τ f¨ur k = 1, . . . , n. Offensichtlich ist S1 = X0 und Mn ◦ τ ≥ 0, also auch (f¨ur k = 0) X0 ≥ S1 − Mn ◦ τ und damit auch X0 ≥ max{S1 , . . . , Sn } − Mn ◦ τ.
(20.2)
Außerdem ist offenbar {Mn > 0}c ⊂ {Mn = 0} ∩ {Mn ◦ τ ≥ 0} ⊂ {Mn − Mn ◦ τ ≤ 0}. Aus (20.2) und (20.3) und der Maßtreue von τ folgt * ) * ) E X0 {Mn >0} ≥ E (max{S1 , . . . , Sn } − Mn ◦ τ ) {Mn >0} * ) = E (Mn − Mn ◦ τ ) {Mn >0} ) * ≥ E Mn − Mn ◦ τ = E[Mn ] − E[Mn ] = 0.
(20.3)
2
Satz 20.14 (Individueller Ergodensatz, Birkhoff 1931). Sei f = X0 ∈ L1 (P). Dann gilt n−1 n−1 1 1 n→∞ Xk = f ◦ τ k −→ E[X0 I] P-f.s. n n k=0
k=0
Ist speziell τ ergodisch, so gilt
1 n
n−1
n→∞
Xk −→ E[X0 ] P-f.s.
k=0
Beweis. Ist τ ergodisch, so ist E[X0 |I] = E[X0 ] und der Zusatz folgt aus der ersten Aussage. Wir betrachten nun den allgemeinen Fall. Nach Lemma 20.6 ist E[X0 |I] ◦ τ = n := Xn − E[X0 |I] betrachten und daher E[X0 |I] P–f.s. Wir k¨onnen also X ohne Beschr¨ankung der Allgemeinheit E[X0 |I] = 0 annehmen. Setze Z := lim sup n→∞
1 Sn . n
Sei ε > 0 und F := {Z > ε}. Zu zeigen ist, dass P[F ] = 0 gilt. Hieraus folgt dann P[Z > 0] = 0 und analog mit −X auch lim inf n1 Sn ≥ 0 fast sicher, also n→∞ 1 n Sn −→
n→∞
0 f.s.
Offenbar ist Z ◦ τ = Z, also F ∈ I. Setze Xnε := (Xn − ε)
F,
Mnε := max{0, S1ε , . . . , Snε },
ε Snε := X0ε + . . . + Xn−1 ,
Fn := {Mnε > 0}.
420
20 Ergodentheorie
Dann ist F1 ⊂ F2 ⊂ . . . und 1 2 1 2 ∞ 1 ε 1 Fn = sup Sk > 0 = sup Sk > ε ∩ F = F, k∈N k k∈N k n=1 also Fn ↑ F . Majorisierte Konvergenz liefert E [X0ε
Fn ]
n→∞
−→ E [X0ε ].
Nach dem Maximal-Ergodenlemma (angewandt auf X ε ) ist E [X0ε 0≤
E [X0ε ]
= E [(X0 − ε)
F]
= E [E [X0 |I]
F]
Fn ]
≥ 0, also
− εP[F ] = −εP[F ].
Mithin ist P[F ] = 0.
2
Als Folgerung erh¨alt man den statistischen Ergodensatz oder Lp -Ergodensatz, den von Neumann 1931 vor Birkhoff gefunden hat. Zur Vorbereitung bringen wir ein elementares Lemma. Lemma 20.15. Sei p ≥ 1, und seien X0 , X1 , . . . identisch verteilte, reelle Zufalls n−1 p Xk f¨ur n ∈ N, so ist variablen mit E[|X0 |p ] < ∞. Setzen wir Yn := n1 k=0
(Yn )n∈N gleichgradig integrierbar. Beweis. Offenbar ist die einelementige Familie {|X0 |p } gleichgradig integrierbar. Nach Satz 6.19 existiert also eine monoton wachsende, konvexe Abbildung ur x → ∞ und C := E[f (|X0 |p )] < ∞. Nach f : [0, ∞) → [0, ∞) mit f (x) x → ∞ f¨ Satz 6.19 reicht es wiederum zu zeigen, dass E[f (Yn )] ≤ C f¨ur jedes n ∈ N. Nach der Jensen’schen Ungleichung (f¨ur x → |x|p ) ist Yn ≤
n−1 1 |Xk |p . n k=0
Die Jensen’sche Ungleichung (diesmal auf f angewandt) liefert dann n−1 n−1 1 1 p ≤ |Xk | f (|Xk |p ), f (Yn ) ≤ f n n k=0
also E[f (Yn )] ≤
1 n
n−1
k=0
E[f (|Xk |p )] = C.
2
k=0
Satz 20.16 (Lp -Ergodensatz, von Neumann 1931). Sei (Ω, A, P, τ ) ein maßerhaltendes dynamisches System, p ≥ 1, X0 ∈ Lp (P) und Xn = X0 ◦ τ n . Dann gilt n−1 1 n→∞ Xk −→ E[X0 |I] in Lp (P). n k=0
Ist speziell τ ergodisch, so gilt
1 n
n−1 k=0
n→∞
Xk −→ E[X0 ] in Lp (P).
20.3 Beispiele
Beweis. Setze
n−1 p 1 Xk − E[X0 |I] Yn := n
421
f¨ur jedes n ∈ N.
k=0
Nach Lemma 20.15 ist (Yn )n∈N gleichgradig integrierbar, und nach dem Birkn→∞ hoff’schen Ergodensatz gilt Yn −→ 0 fast sicher. Nach Satz 6.25 gilt daher lim E[Yn ] = 0. n→∞
Ist τ ergodisch, so ist E[X0 |I] = E[X0 ].
2
20.3 Beispiele Beispiel 20.17. Sei (X, (Px )x∈E ) eine positiv rekurrente, irreduzible Markovkette auf dem abz¨ahlbaren Raum E mit invarianter Verteilung π. Dann ist π({x}) > 0 f¨ur jedes x ∈ E. Setze Pπ = x∈E π({x})Px . Dann ist X station¨ar auf (Ω, A, Pπ ). Wir schreiben τ f¨ur den Shift, also Xn = X0 ◦ τ n . ∞ Sei nun A ∈ I invariant. Dann ist A ∈ T = σ(Xn , Xn+1 , . . .). Nach der n=1
starken Markoveigenschaft ist daher f¨ur jede endliche Stoppzeit σ (mit Fσ die σAlgebra der σ-Vergangenheit) (20.4) Pπ [X ∈ A Fσ ] = PXσ [X ∈ A]. In der Tat ist {X ∈ A} = {X ∈ τ −n (A)} = {(Xn , Xn+1 , . . .) ∈ A}. F¨ur B ∈ Fσ erhalten wir mit der Markoveigenschaft (in der dritten Zeile) Eπ
)
{X∈B}
{X∈A}
*
=
=
=
∞ n=0 x∈E ∞ n=0 x∈E ∞
) * Pπ X ∈ B, σ = n, Xn = x, X ∈ A ) * Pπ X ∈ B, σ = n, Xn = x, X ◦ τ n ∈ A ) * Pπ X ∈ B, σ = n, Xn = x Px [X ∈ A]
n=0 x∈E
= Eπ
)
{X∈B}
* PXσ [X ∈ A] .
Ist speziell x ∈ E und σx = inf{n ∈ N0 : Xn = x}, so ist σx < ∞, weil X rekurrent und irreduzibel ist. Es folgt aus (20.4) f¨ur jedes x ∈ E Pπ [X ∈ A] = Eπ [Px [X ∈ A]] = Px [X ∈ A]. Also ist PXn [X ∈ A] = Pπ [X ∈ A] fast sicher und daher (mit σ = n in (20.4))
422
20 Ergodentheorie
Pπ [X ∈ A X0 , . . . , Xn ] = PXn [X ∈ A] = Pπ [X ∈ A]. Nun ist A ∈ I ⊂ σ(X1 , X2 , . . .), also n→∞ Pπ [X ∈ A X0 , . . . , Xn ] −→ Pπ [X ∈ Aσ(X0 , X1 , . . .)] =
{X∈A} .
Damit folgt Pπ [X ∈ A] ∈ {0, 1}. Mithin ist X ergodisch. Der Birkhoff’sche Ergodensatz liefert also f¨ur jedes x ∈ E n−1 1 n
{Xk =x}
n→∞
−→ π({x}) Pπ − f.s.
k=0
In diesem Sinne ist π({x}) die mittlere Aufenthaltsdauer von X in x.
3
Beispiel 20.18. Es seien P und Q W-Maße auf dem Messraum (Ω, A), und es seien (Ω, A, P, τ ) und (Ω, A, Q, τ ) ergodisch. dann ist 0 P = Q0oder P ⊥ Q. Ist n¨amlich P = Q, dann existiert f mit |f | ≤ 1 und f dP = f dQ. Nach dem Birkhoff’schen Ergodensatz gilt aber ⎧ ⎪ n−1 ⎨ f dP P –f.s., 1 k n→∞ f ◦ τ −→ ⎪ n ⎩ f dQ Q–f.s. k=0 Setzen wir A := Also ist P ⊥ Q.
1 n−1 n
k=0
n→∞
f ◦ τ k −→
0
f dP , so ist P (A) = 1 und Q(A) = 0. 3
¨ Ubung 20.3.1. Sei (Ω, A) ein Messraum und τ : Ω → Ω eine messbare Abbildung. (i) Man zeige, dass die Menge M := {μ ∈ M1 (Ω) : μ ◦ τ −1 = μ} der unter τ invarianten Maße eine konvexe Menge ist. (ii) Ein Element μ aus M heißt extremal, wenn aus μ = λμ1 + (1 − λ)μ2 f¨ur gewisse μ1 , μ2 ∈ M und λ ∈ (0, 1) schon μ = μ1 = μ2 folgt. Man zeige, dass μ ∈ M genau dann extremal ist, wenn τ bez¨uglich μ ergodisch ist. ♣ ¨ Ubung 20.3.2. Sei p = 2, 3, 5, 6, 7, 10, . . . quadratfrei (das heißt, es gibt keine Zahl r = 2, 3, 4, . . ., deren Quadrat ein Teiler von p ist) und q ∈ {2, 3, . . . , p − 1}. F¨ur jedes n ∈ N sei an die f¨uhrende Ziffer der p-adischen Entwicklung von q n . Man zeige die folgende Variante des Benford’schen Gesetzes: F¨ur jedes d ∈ {1, . . . , p − 1} gilt
n→∞ log(d + 1) − log(d) 1 # i ≤ n : ai = d −→ . n log(p)
♣
20.4 Anwendung: Rekurrenz von Irrfahrten
423
20.4 Anwendung: Rekurrenz von Irrfahrten Sei (Xn )n∈N ein station¨arer Prozess mit Werten in Rd . Setze Sn := jedes n ∈ N0 . Ferner sei Rn = {S1 , . . . , Sn }
n k=1
Xk f¨ur
die Anzahl der von S bis zur Zeit n besuchten Punkte (der so genannte Range). Außerdem sei A := {Sn = 0 f¨ur jedes n ∈ N} das Fluchtereignis“. ” Satz 20.19. Es gilt lim
n→∞
1 Rn = P[A|I] fast sicher. n
Beweis.
d N Wirdnehmen an, dass X der kanonische Prozess ist auf (Ω, A, P) = (R ) , B(R )⊗N , P , und dass τ : Ω → Ω der Shift ist, also Xn = X0 ◦ τ n . Offenbar ist
Sk f¨ur jedes l ∈ {k + 1, . . . , n} Rn = # k ≤ n : Sl =
Sk f¨ur jedes l > k ≥ # k ≤ n : Sl = =
n A
◦ τ k.
k=1
Der Birkhoff’sche Ergodensatz liefert nun lim inf n→∞
1 Rn ≥ P[A|I] f.s. n
(20.5)
F¨ur die andere Ungleichung betrachte Am = {Sl = 0 f¨ur jedes l = 1, . . . , m}. Dann ist f¨ur n ≥ m
Rn ≤ m + # k ≤ n − m : Sl = Sk f¨ur jedes l ∈ {k + 1, . . . , n}
≤ m + # k ≤ n − m : Sl = Sk f¨ur jedes l ∈ {k + 1, . . . , k + m} =m+
n−m Am
◦ τ k.
k=1
Der Ergodensatz liefert wieder lim sup n→∞
1 Rn ≤ P[Am I] f.s. n
(20.6)
n→∞ Wegen Am ↓ A und P[Am I] −→ P[A|I] fast sicher (nach Satz 8.14(viii)) folgt aus (20.5) und (20.6) die Aussage. 2
424
20 Ergodentheorie
Satz 20.20. Sei X = (Xn )n∈N ein station¨arer Prozess mit Werten in Z und E[|X1 |] < ∞ sowie E[X1 I] = 0 f.s. Sei Sn = X1 + . . . + Xn , n ∈ N. Dann gilt * ) P Sn = 0 f¨ur unendlich viele n ∈ N = 1. Speziell ist jede Irrfahrt auf Z mit zentrierten Zuw¨achsen rekurrent (Satz von Chung-Fuchs [28]). Beweis. Setze A = {Sn = 0 f¨ur jedes n ∈ N}. 1. Schritt Wir zeigen P[A] = 0. (Ist X u.i.v., so ist S eine Markovkette, und es folgt hieraus direkt die Rekurrenz von 0. Nur f¨ur den allgemeinen Fall station¨arer Prozesse X brauchen wir einen weiteren Schritt.) Nach dem Ergodensatz n→∞ gilt n1 Sn −→ E[X1 I] = 0 f.s. Es folgt f¨ur jedes m ∈ N 1 1 lim sup max Sk = lim sup max Sk n k=1,...,n n k=m,...,n n→∞ n→∞ ≤ max k≥m
Also ist
Nun ist Rn
|Sk | m→∞ −→ 0. k
1 1 lim max Sk = lim min Sk = 0. n→∞ n k=1,...,n n→∞ n k=1,...,n n→∞ ≤ 1+ max Sk − min Sk , also n1 Rn −→ 0. Nach k=1,...,n
k=1,...,n
Satz 20.19 ist dann P[A] = 0 Setze σn := inf{m ∈ N : Sm+n = Sn } und Bn := {σn < ∞} f¨ur ∞ Bn . n ∈ N0 und B :=
2. Schritt
n=0
Wegen {σ0 = ∞} = A ist P[σ0 < ∞] = 1. Stationarit¨at impliziert P[σn < ∞] = 1 f¨ur jedes n ∈ N0 , also P[B] = 1. Setze τ0 = 0 und iterativ τn+1 = τn + στn f¨ur n ∈ N0 . Dann ist τn der Zeitpunkt der n-ten R¨uckkehr von S nach 0. Auf B ist τn < ∞ f¨ur jedes n ∈ N0 , also ) * ) * P Sn = 0 unendlich oft = P τn < ∞ f¨ur alle n ∈ N ≥ P[B] = 1. 2 Wenn in Satz 20.20 die Zufallsvariablen Xn nicht ganzzahlig sind, kann man nicht hoffen, dass Sn = 0 f¨ur irgendein n ∈ N mit positiver Wahrscheinlichkeit gilt. Ann→∞ dererseits gilt auch hier eine Art Rekurrenzeigenschaft, n¨amlich Sn /n −→ 0 fast sicher nach dem Ergodensatz. Damit ist allerdings noch nicht ausgeschlossen, dass n→∞ vielleicht Sn −→ ∞ mit positiver Wahrscheinlichkeit gelten k¨onnte, etwa, wenn
20.4 Anwendung: Rekurrenz von Irrfahrten
425
√ Sn von der Gr¨oßenordnung n w¨achst. Der n¨achste Satz zeigt uns, dass der Partialsummenprozess nur linear schnell nach ∞ gehen kann, wenn die Xn integrierbar sind. Satz 20.21. Sei (Xn )n∈N ein reeller ergodischer Prozess und jedes Xn integrierbar. Sei Sn = X1 + . . . + Xn f¨ur n ∈ N0 . Dann sind die folgenden Aussagen a¨ quivalent. n→∞
(i) Sn −→ ∞ fast sicher. ( ' n→∞ (ii) P Sn −→ ∞ > 0. (iii) lim
n→∞
Sn = E[X1 ] > 0 fast sicher. n
Sind die Zufallsvariablen X1 , X2 , . . . u.i.v. mit E[X1 ] = 0 und P[X1 = 0] < 1, so gilt lim inf n→∞ Sn = −∞ und lim supn→∞ Sn = ∞ fast sicher. n→∞
Beweis. (i) ⇐⇒ (ii)“ Offenbar ist {Sn −→ ∞} ein invariantes Ereignis, hat ” also Wahrscheinlichkeit 0 oder 1. (iii) =⇒ (i)“ Dies ist trivial. ” (i) =⇒ (iii)“ Die Gleichheit folgt aus dem individuellen Ergodensatz. Es reicht ” also zu zeigen, dass lim inf n→∞ Sn /n > 0 fast sicher gilt. F¨ur n ∈ N0 und ε > 0 sei
Aεn := Sm > Sn + ε f¨ur alle m ≥ n + 1 .
Sei S − := inf{Sn : n ∈ N0 }. Nach Voraussetzung (i) ist S − > −∞ fast sicher und τ := sup{n ∈ N0 : Sn = S − } fast sicher endlich. Es gibt also ein N ∈ N mit P[τ < N ] ≥ 12 . Es folgt P
, 1 A0n = P[τ < N ] ≥ . 2 n=0
+ N −1
) ε* 1 Wegen Aεn ↑ A0n f¨ur ε ↓ 0 gibt es ein ε > 0 mit p := P A0 ≥ 4N > 0.
Da (Xn )n∈N ergodisch ist, ist auch Aεn n∈N ergodisch. Nach dem individuellen 0 n−1 n→∞ Ergodensatz gilt daher n1 i=0 Aεn −→ p fast sicher. Also existiert ein n0 = n−1 ur alle n ≥ n0 . Es folgt Sn ≥ pnε ur n ≥ n0 , also n0 (ω) mit i=0 Aεn ≥ pn 2 f¨ 2 f¨ pnε lim inf n→∞ Sn /n ≥ 2 > 0. Der Zusatz folgt, weil lim inf Sn und lim sup Sn keinen endlichen Wert annehmen k¨onnen und damit terminal messbar sind, also fast sicher konstant gleich −∞ oder n→∞ +∞. Nach dem schon Gezeigten ist aber Sn −→ ∞ ausgeschlossen, also gilt 2 lim inf n→∞ Sn = −∞. Analog folgt lim supn→∞ Sn = ∞. Bemerkung 20.22. Satz 20.21 gilt auch ohne die Integrierbarkeitsbedingung f¨ur die 3 Xn . Siehe [92].
426
20 Ergodentheorie
20.5 Mischung Ergodizit¨at stellt einen relativ schwachen Begriff f¨ur Unabh¨angigkeit“ oder Durch” ” mischung“ dar. Auf dem anderen Ende der Skala steht als st¨arkster Begriff u.i.v.“. ” Hier wollen wir dazwischen liegende Mischungsbegriffe betrachten. Sei im Folgenden stets (Ω, A, P, τ ) ein maßerhaltendes dynamisches System und Xn := X0 ◦ τ n . Wir beginnen mit einer einfachen Betrachtung. Satz 20.23. (Ω, A, P, τ ) ist genau dann ergodisch, wenn f¨ur alle A, B ∈ A gilt lim
n→∞
Beweis.
”
=⇒ “
n−1 * 1 ) P A ∩ τ −k (B) = P[A] P[B]. n
(20.7)
k=0
Sei (Ω, A, P, τ ) ergodisch. Setze Yn :=
n−1 1 n
τ −k (B)
k=0
=
n−1 1 n
B
◦ τ k.
k=0
n→∞
Nach dem Birkhoff’schen Ergodensatz gilt Yn −→ P[B] fast sicher. Also gilt n→∞ Yn A −→ A P[B] fast sicher. Majorisierte Konvergenz liefert n−1 * 1 ) P A ∩ τ −k (B) = E [Yn n
A]
n→∞
−→ E [
A
P[B]] = P[A] P[B].
k=0
⇐= “ Gelte nun (20.7). Sei A ∈ I (invariante σ-Algebra) und B = A. Offenbar ” ist A ∩ τ −k (A) = A f¨ur jedes k ∈ N0 . Also ist nach (20.7) P[A] =
n−1 * n→∞ 1 ) P A ∩ τ −k (A) −→ P[A]2 . n k=0
Mithin ist P[A] ∈ {0, 1}, also I trivial und damit τ ergodisch.
2
Wir betrachten jetzt folgende Versch¨arfung von (20.7). Definition 20.24. Ein maßerhaltendes dynamisches System (Ω, A, P, τ ) heißt mischend, falls ) * (20.8) lim P A ∩ τ −n (B) = P[A] P[B] f¨ur alle A, B ∈ A. n→∞
Bemerkung 20.25. Gelegentlich wird die Mischungseigenschaft (20.8) auch als stark mischend bezeichnet. Im Gegensatz dazu heißt (Ω, A, P, τ ) schwach mischend, falls
20.5 Mischung n−1 * 1 ) P A ∩ τ −n (B) − P[A] P[B] = 0 n→∞ n i=0
f¨ur alle A, B ∈ A.
lim
427
3
¨ Stark mischend“ impliziert schwach mischend“ (siehe Ubung 20.5.1). Anderer” ” seits gibt es schwach mischende Systeme, die nicht stark mischend sind (siehe [82]). Beispiel 20.26. Sei I = N0 oder I = Z und (Xn )n∈I eine u.i.v. Folge mit Werten im Messraum (E, E), also τ der Shift auf dem Produktraum Ω = E I , P = ⊗I (PX0 ) . Seien A, B ∈ E ⊗I . Zu jedem ε > 0 gibt es Ereignisse Aε und B ε , die nur von endlich vielen Koordinaten abh¨angen und mit P[AAε ] < ε und P[BB ε ] < ε. Offenbar gilt dann auch P[τ −n (AAε )] < ε und P[τ −n (B B ε )] < ε f¨ur jedes n ∈ Z. F¨ur hinreichend großes |n| h¨angen Aε und τ −n (B ε ) von unterschiedlichen Koordinaten ab, sind also unabh¨angig. Es folgt lim sup P[A ∩ τ −n (B)] − P[A] P[B] |n|→∞
≤ lim sup P[Aε ∩ τ −n (B ε )] − P[Aε ] P[B ε ] + 4ε = 4ε. |n|→∞
Also ist τ mischend. Ist speziell A = B ∈ I, so erhalten wir das 0-1 Gesetz f¨ur invariante Ereignisse: P[A] ∈ {0, 1}. 3 Bemerkung 20.27. Offenbar folgt (20.7) aus (20.8), also impliziert mischend“ ” schon ergodisch“. Die umgekehrte Implikation gilt nicht. 3 ” Beispiel 20.28. Sei Ω = [0, 1), A = B([0, 1)) und P = λ das Lebesgue-Maß auf ([0, 1), B([0, 1))), sowie f¨ur r ∈ [0, 1) τr (x) = x + r − x + r = x + r
(mod 1).
Ist r irrational, so ist τr ergodisch (Beispiel 20.9). Jedoch ist τr nicht mischend: Da r irrational ist, existiert eine Folge kn ↑ ∞, sodass 1 3 , τrkn (0) ∈ f¨ur n ∈ N. 4 4 * ) F¨ur A = 0, 14 gilt dann A ∩ τr−kn (A) = ∅. Also ist ) * 1 = P[A]2 . lim inf P A ∩ τr−n (A) = 0 = n→∞ 16
3
Satz 20.29. Sei X eine irreduzible, positiv rekurrente Markovkette auf dem abz¨ahlbaren Raum E mit invarianter Verteilung π, sowie Pπ = x∈E π(x) Px . Dann gelten (i) X ist ergodisch (auf (Ω, A, Pπ )). (ii) X ist genau dann mischend, wenn X aperiodisch ist.
428
20 Ergodentheorie
Beweis. (i) Dies haben wir schon in Beispiel 20.17 gezeigt. (ii) Da X irreduzibel ist, ist π({x}) > 0 f¨ur jedes x ∈ E nach Satz 17.51. =⇒ “ Sei X periodisch mit Periode d ≥ 2. Ist n ∈ N kein Vielfaches von d, so ” n ist p (x, x) = 0. Mithin gilt f¨ur A = B = {X0 = x} lim inf Pπ [X0 = x, Xn = x] = lim inf π({x}) pn (x, x) n→∞
n→∞
= 0 = π({x})2 = Pπ [X0 = x]2 . Also ist X nicht mischend. ⇐= “ Sei X aperiodisch. Zur Vereinfachung der Notation k¨onnen wir anneh” men, dass X der kanonische Prozess auf E N0 ist. Seien A, B ⊂ Ω = E N0 messbar. Zu jedem ε > 0 existiert ein N ∈ N und A˜ε ∈ E {0,...,N } , sodass, mit Aε = A˜ε × E {N +1,N +2,...} gilt, dass P[A Aε ] < ε. Nach der Markoveigenschaft ist f¨ur n ≥ N ' ( ) * Pπ Aε ∩ τ −n (B) = Pπ (X0 , . . . , XN ) ∈ A˜ε , (Xn , Xn+1 , . . .) ∈ B =
Eπ
) Aε
{XN =x}
Aε
{XN =x}
{Xn =y}
(Xn , Xn+1 , . . .) ∈ B
*
x,y∈E
=
Eπ
)
*
pn−N (x, y)Py [B] .
x,y∈E n→∞
Nach Satz 18.18 gilt pn−N (x, y) −→ π({y}) f¨ur alle x, y ∈ E. (F¨ur periodisches X ist dies falsch.) Majorisierte Konvergenz ergibt daher ) ) * * Eπ Aε {XN =x} π({y})Py [B] lim Pπ Aε ∩ τ −n (B) = n→∞
x,y∈E
= Pπ [Aε ] Pπ [B]. Wegen Pπ [Aε ∩ τ −n (B)] − P [A ∩ τ −n (B)] < ε folgt die Aussage mit ε → 0. 2 ¨ Ubung 20.5.1. Man zeige: stark mischend“ impliziert schwach mischend“ und ” ” dies impliziert wiederum ergodisch“. Man gebe ein Beispiel an f¨ur ein maßerhal” tendes dynamisches System, das ergodisch aber nicht schwach mischend ist. ♣
21 Die Brown’sche Bewegung
In Beispiel 14.45 hatten wir einen (kanonischen) Prozess (Xt )t∈[0,∞) hergestellt mit unabh¨angigen, station¨aren, normalverteilten Zuw¨achsen. Ein solcher Prozess kann beispielsweise als Modell eines Flimmerteilchens in einer Suspension dienen oder als Grundlage f¨ur Aktienkursmodelle. Jetzt sind wir nicht nur an den Eigenschaften von X zu einem oder mehreren festen Zeitpunkten interessiert, sondern auch an Eigenschaften, die den ganzen Pfad t → Xt betreffen, beispielsweise am Funktional F (X) := supt∈[0,1] Xt . Ist aber F u¨ berhaupt eine Zufallsvariable? Wir werden in diesem Kapitel Stetigkeitseigenschaften von Pfaden stochastischer Prozesse untersuchen, die die Messbarkeit von interessanten Funktionalen sichern. Danach konstruieren wir eine Version von X, die stetige Pfade hat, die so genannte ¨ Brown’sche Bewegung. Ohne Ubertreibung kann man sagen, dass dies das zentrale Objekt der Wahrscheinlichkeitstheorie ist.
21.1 Stetige Modifikationen Die Pfade eines kanonischen Prozesses sind nat¨urlich nicht per se stetig, da ja jede Abbildung als Pfad auftaucht. Es wird also wichtig sein zu entscheiden, welche Pfade zumindest P-fast sicher keine Rolle spielen. Definition 21.1 (Modifikation / ununterscheidbare Prozesse). Seien X und Y stochastische Prozesse auf (Ω, A, P) mit Zeitbereich I und Zustandsraum E. (i) X und Y heißen Modifikationen oder Versionen voneinander, falls f¨ur jedes t ∈ I gilt P-fast sicher. Xt = Yt (ii) X und Y heißen ununterscheidbar, falls es ein N ∈ A gibt mit P[N ] = 0 und {Xt = Yt } ⊂ N
f¨ur jedes t ∈ I.
Offenbar ist ununterscheidbar“ st¨arker als Modifikation“. Unter gewissen Stetig” ” keitsannahmen an die Prozesse fallen die Begriffe allerdings zusammen.
430
21 Die Brown’sche Bewegung
Definition 21.2. Seien (E, d) und (E , d ) metrische R¨aume und γ ∈ (0, 1]. Eine Abbildung ϕ : E → E heißt im Punkte r ∈ E H¨older-stetig der Ordnung γ (kurz: H¨older-γ-stetig), falls es ein ε > 0 und ein C < ∞ gibt, sodass f¨ur jedes s ∈ E mit d(s, r) < ε gilt (21.1) d (ϕ(r), ϕ(s)) ≤ C d(r, s)γ . ϕ heißt lokal H¨older-stetig der Ordnung γ, wenn es zu jedem t ∈ E ein ε > 0 und ein C = C(t, ε) > 0 gibt, sodass f¨ur alle s, r ∈ E mit d(s, t) < ε und d(r, t) < ε die Ungleichung (21.1) gilt. Schließlich heißt ϕ H¨older-stetig der Ordnung γ, falls es ein C gibt, sodass (21.1) f¨ur alle s, r ∈ E gilt. Im Falle γ = 1 ist die H¨older-Stetigkeit nat¨urlich gerade die Lipschitz-Stetigkeit (siehe Definition 13.8). Zudem ist f¨ur E = R und γ > 1 jede lokal H¨older-γ-stetige Funktion konstant. Offenbar ist eine lokal H¨older-γ-stetige Abbildung in jedem Punkte H¨older-γ-stetig. Andererseits braucht f¨ur eine in einem Punkte t H¨olderγ-stetige Abbildung ϕ keine Umgebung von t zu existieren, in der ϕ stetig oder gar H¨older-γ-stetig w¨are. Wir sammeln ein paar einfache Eigenschaften der H¨older-Stetigkeit. Lemma 21.3. Seien I ⊂ R und f : I → R lokal H¨older-stetig von der Ordnung γ ∈ (0, 1]. Dann gelten: (i) f ist lokal H¨older-stetig von der Ordnung γ f¨ur jedes γ ∈ (0, γ). (ii) Ist I kompakt, dann ist f auch H¨older-stetig. (iii) Ist I ein beschr¨anktes Intervall mit L¨ange T > 0, und gilt f¨ur ein ε > 0 und ein C(ε) < ∞, sowie f¨ur alle s, t ∈ I mit |t − s| ≤ ε |f (t) − f (s)| ≤ C(ε) |t − s|γ , 1−γ
so ist f H¨older-stetig der Ordnung γ mit Konstante C := C(ε) T /ε
.
Beweis. (i) Klar, weil |t − s|γ ≤ |t − s|γ f¨ur alle s, t ∈ I mit |t − s| ≤ 1. (ii) F¨ur t ∈ I und ε > 0 sei Uε (t) := {s ∈ I : |s − t| < ε}. F¨ur jedes t ∈ I seien ε(t) > 0 und C(t) < ∞ so gew¨ahlt, dass |f (r) − f (s)| ≤ C(t) · |r − s|γ
f¨ur alle r, s ∈ Ut := Uε(t) (t).
¨ Zu der offenen Uberdeckung U := {Ut , t ∈ I} von I gibt es eine endliche Teil¨uberdeckung U = {Ut1 , . . . , Utn }. Sei > 0 eine Lebesgue’sche Zahl der ¨ Uberdeckung U , das heißt, > 0 ist so gew¨ahlt, dass f¨ur jedes t ∈ I ein U ∈ U existiert mit U (t) ⊂ U . Setze
C := max C(t1 ), . . . , C(tn ), 2f ∞ γ .
21.1 Stetige Modifikationen
431
F¨ur s, t ∈ I mit |t − s| < gibt es ein i ∈ {1, . . . , n} mit s, t ∈ Uti . Nach Voraussetzung ist |f (t) − f (s)| ≤ C(ti ) |t − s|γ ≤ C |t − s|γ . Seien nun s, t ∈ I mit |s − t| ≥ . Dann ist γ |t − s| ≤ C |t − s|γ . |f (t) − f (s)| ≤ 2f ∞ Also ist f H¨older-stetig von der Ordnung γ mit Konstante C. I J (iii) Sei n = Tε . F¨ur s, t ∈ I gilt nach Voraussetzung |t−s| n ≤ ε und daher |f (t) − f (s)| ≤
n f s + (t − s) k − f s + (t − s) k − 1 n n
k=1
≤ C(ε) n1−γ |t − s|γ = C |t − s|γ .
2
Definition 21.4 (Pfadeigenschaften). Sei I ⊂ R und X = (Xt , t ∈ I) ein reellwertiger stochastischer Prozess auf einem W-Raum (Ω, A, P) mit Werten in einem metrischen Raum (E, d) sowie γ ∈ (0, 1]. F¨ur jedes ω ∈ Ω nennen wir die Abbildung I → E, t → Xt (ω) einen Pfad von X. Wir sagen, dass X fast sicher stetige Pfade hat, oder kurz, dass X f.s. stetig ist, falls f¨ur fast jedes ω ∈ Ω der Pfad t → Xt (ω) stetig ist. Analog definieren wir lokal H¨older-γ-stetige Pfade und so weiter. Lemma 21.5. Seien X und Y Modifikationen voneinander. Es gelte eine der Bedingungen (i) I ist abz¨ahlbar. (ii) I ⊂ R ist ein Intervall und X und Y sind fast sicher rechtsstetig. Dann sind X und Y ununterscheidbar. ¯ = Nt . Nach Voraussetzung Beweis. Setze Nt := {Xt = Yt } f¨ur t ∈ I und N t∈I ¯ ⊂N gilt P[Nt ] = 0 f¨ur jedes t ∈ I. Zu zeigen ist jeweils: Es existiert N ∈ A mit N und P[N ] = 0. ¯ messbar und P[N ] ≤ P[Nt ] = 0. (i) Ist I abz¨ahlbar, so ist N := N t∈I
(ii) Sei nun I ⊂ R ein Intervall, und seien X und Y fast sicher rechtsstetig. Setze ¯ := {X und Y sind rechtsstetig} R ¯ und P[R] = 1. Setze und w¨ahle R ∈ A mit R ⊂ R 1 Q ∩ I, falls I rechtsseitig offen ist, I := (Q ∩ I) ∪ max I, falls I rechtsseitig abgeschlossen ist,
432
21 Die Brown’sche Bewegung
:= Nr . Nach (i) gilt P[N ] = 0. Weiter gilt f¨ur jedes t ∈ I und N r∈I Nt ∩ R ⊂
. (Nr ∩ R) ⊂ N
r≥t, r∈I
Also gilt ¯ ⊂ Rc ∪ N
=: N, Nt ⊂ R c ∪ N
t∈I
] = 0. und damit P[N ] ≤ P[Rc ] + P[N
2
Wir kommen zum Hauptsatz dieses Abschnitts. Satz 21.6 (Kolmogorov-Chentsov). Sei X = (Xt , t ∈ [0, ∞)) ein reellwertiger Prozess. F¨ur jedes T > 0 gebe es Zahlen α, β, C > 0 mit E [|Xt − Xs |α ] ≤ C|t − s|1+β
f¨ur alle s, t ∈ [0, T ].
(21.2)
Dann gelten: = (X t , t ∈ [0, ∞)) von X, die lokal H¨older(i) Es existiert eine Modifikation X β stetige Pfade hat von jeder Ordnung γ ∈ 0, α . β . Zu jedem ε > 0 und T < ∞ existiert eine Zahl K < ∞, die (ii) Sei γ ∈ 0, α nur von ε, T, α, β, C, γ abh¨angt, mit ' ( ˜ t (ω) − X ˜ s (ω)| ≤ K |t − s|γ , s, t ∈ [0, T ] ≥ 1 − ε. (21.3) P |X
Beweis. Es reicht, f¨ur jedes T > 0 zu zeigen, dass X eine auf [0, T ] stetige Modifikation X T besitzt. F¨ur S, T > 0 sind dann nach Lemma 21.5 die Prozesse X S und X T ununterscheidbar auf [0, S ∧ T ], also ist ΩS,T := es gibt ein t ∈ [0, S ∧ T ] mit XtT = XtS eine Nullmenge, und damit ist auch Ω∞ :=
ΩS,T eine Nullmenge. Mithin ist
S,T ∈N
˜ t (ω) := Xtt (ω) f¨ur ω ∈ Ω \ Ω∞ , und X ˜ ist eine stetige Modifikation von X. X Ohne Beschr¨ankung der Allgemeinheit sei T = 1. Wir zeigen, dass X eine auf [0, 1] stetige Modifikation besitzt. Die Chebyshev’sche Ungleichung liefert f¨ur ε > 0 P [|Xt − Xs | ≥ ε] ≤ Cε−α |t − s|1+β also
(21.4)
21.1 Stetige Modifikationen s→t
Xs −→ Xt
stochastisch.
433
(21.5)
auf den bin¨ar rationalen Zahlen zu konstruieren und dann Die Idee ist, zun¨achst X stetig auf [0, 1] fortzusetzen. Daf¨ur wird (21.5) gebraucht. Speziell ist f¨ur γ > 0 sowie n ∈ N und k ∈ {1, . . . , 2n } ) * P Xk2−n − X(k−1)2−n ≥ 2−γn ≤ C 2−n(1+β−αγ) . Wir setzen An = An (γ) :=
sowie
max |Xk2−n − X(k−1)2−n |, k ∈ {1, . . . , 2n } ≥ 2−γn , ∞
Bn :=
Am ,
und
N := lim sup An = n→∞
m=n
∞
Bn .
n=1
Es folgt dann f¨ur jedes n ∈ N n
P[An ] ≤
2
* ) P |Xk2−n − X(k−1)2−n | ≥ 2−γn ≤ C 2−n(β−αγ) .
k=1
Wir w¨ahlen jetzt ein γ ∈ (0, β/α) und erhalten P[Bn ] ≤
∞
P[Am ] ≤ C
m=n
2−(β−αγ)n 1 − 2αγ−β
n→∞
−→ 0,
(21.6) ∞
also P[N ] = 0. Sei nun ω ∈ Ω \ N fest und n0 = n0 (ω) so, dass ω ∈
An .
n=n0
Also gilt Xk2−n (ω) − X(k−1)2−n (ω) < 2−γn
f¨ur k ∈ {1, . . . , 2n }, n ≥ n0 .
(21.7)
−m Wir definieren die Mengen endlicher dyadischer Zahlen Dm = {k2 , k = m Dm . Jedes t ∈ Dm besitzt eine eindeutige Bin¨ardar0, . . . , 2 } und D = m∈N
stellung t=
m
bi (t) 2−i
f¨ur gewisse bi (t) ∈ {0, 1}, i = 1, . . . , m.
i=1
Seien m ≥ n ≥ n0 sowie s, t ∈ Dm , s ≤ t mit |s−t| ≤ 2−n . Dann ist bi (t−s) = 0 f¨ur i < n, also m bi (t − s) 2−i . t−s= Sei rl = s +
l
i=n bi (t
i=n
− s) 2−i , l = n − 1, . . . , m. Dann gelten
434
21 Die Brown’sche Bewegung
rn−1 = s,
rm = t
und
rl+1 − rl ≤ 2−(l+1) f¨ur l = n − 1, . . . , m.
Also ist nach (21.7) |Xt (ω) − Xs (ω)| ≤
m−1
X r
m (ω) − Xrl (ω) ≤ 2−γl ≤ l+1
l=n−1
l=n
2−γn . (21.8) 1 − 2−γ
Setze nun C0 = 2γ (1 − 2−γ )−1 < ∞. Seien s, t ∈ D mit |s − t| ≤ 2−n0 . Indem wir n ≥ n0 minimal w¨ahlen mit |t − s| ≥ 2−n , erhalten wir aus (21.8) γ
|Xt (ω) − Xs (ω)| ≤ C0 |t − s| .
(21.9)
Wie im Beweis von Lemma 21.3(iii) folgt hieraus, dass (mit K := C0 2(n+1)(1−γ) ) γ
|Xt (ω) − Xs (ω)| ≤ K |t − s|
f¨ur alle s, t ∈ D.
(21.10)
Mit anderen Worten: Auf den bin¨arrationalen Zahlen D ist X(ω) (global) H¨olderγ-stetig. Speziell ist X auf D gleichm¨aßig stetig, l¨asst sich also eindeutig stetig auf t := Xt . F¨ur t ∈ [0, 1]\D und {sn , n ∈ N} ⊂ D [0, 1] fortsetzen: F¨ur t ∈ D setze X mit sn −→ t ist (Xsn (ω))n∈N eine Cauchy-Folge. Also existiert der Limes t (ω) := lim Xs (ω), X Ds→t
(21.11)
und es gilt dann die zu (21.10) analoge Aussage auch f¨ur beliebige s, t ∈ [0, 1] s (ω) ≤ K |t − s|γ f¨ur alle s, t ∈ [0, 1]. (21.12) Xt (ω) − X Also H¨older-stetig von der Ordnung γ. Nach (21.5) und (21.11) gilt * ) ist X lokal eine Modifikation von X. t = 0 f¨ur jedes t ∈ [0, 1]. Also ist X P Xt = X Um (ii) zu zeigen, sei ε > 0, und sei n ∈ N so groß gew¨ahlt, dass (siehe (21.6)) P[Bn ] ≤ C
2−(β−αγ)n < ε. 1 − 2αγ−β
F¨ur ω ∈ Bn gilt nach dem oben Gezeigten (21.10). Dies ist aber gerade (21.3) mit T = 1. F¨ur allgemeine T folgt die Aussage durch lineare Transformationen. 2 Bemerkung 21.7. Die Aussage von Satz 21.6 gilt unver¨andert, wenn X Werte in einem polnischen Raum (E, ) annimmt, denn im Beweis wurde nirgends ausgenutzt, dass der Wertebereich R ist. Wenn wir jedoch den Zeitbereich ver¨andern, m¨ussen wir die Voraussetzungen versch¨arfen: Ist (Xt )t∈Rd ein Prozess mit Werten in E, und gilt f¨ur gewisse α, β > 0 sowie jedes T > 0 und gewisses C < ∞ E[(Xt , Xs )α ] ≤ C t − sd+β 2
f¨ur alle s, t ∈ [−T, T ]d ,
(21.13)
so existiert f¨ur jedes γ ∈ (0, β/α) eine lokal H¨older-γ-stetige Version von X.
3
21.1 Stetige Modifikationen
¨ Ubung 21.1.1. Man zeige die Aussage von Bemerkung 21.7.
435
♣
¨ Ubung 21.1.2. Sei X = (Xt )t≥0 ein reellwertiger Prozess mit stetigen Pfaden. Man 0b zeige, dass f¨ur alle 0 ≤ a < b die Abbildung ω → a Xt (ω) dt messbar ist. ♣ ¨ Ubung 21.1.3. (Optional Sampling/ Stopping) Sei F eine Filtration und (Xt )t≥0 ein F-Supermartingal mit rechtsstetigen Pfaden. Seien σ und τ beschr¨ankte Stoppzeiten. Setze σ n := 2−n 2n σ und τ n := 2−n 2n τ . n→∞
(i) Zeige, dass E[Xτ m |Fσn ] −→ E[Xτ m |Fσ ] fast sicher und in L1 sowie n→∞ Xσn −→ Xσ fast sicher und in L1 . (ii) Folgere das Optional Sampling Theorem f¨ur rechtsstetige Supermartingale mit Hilfe der analogen Aussage f¨ur diskrete Zeit (Satz 10.11): Xσ ≥ E[Xτ |Fσ ]. (iii) Zeige: Ist Y adaptiert, integrierbar und rechtsstetig, so ist Y genau dann ein Martingal, wenn E[Yτ ] = E[Y0 ] f¨ur jede beschr¨ankte Stoppzeit τ gilt. (iv) Zeige, dass Xσ ≥ E[Xτ |Fσ ] f¨ur endliche Stoppzeiten σ ≤ τ gilt, falls X gleichgradig integrierbar ist. (v) Sei τ eine beliebige Stoppzeit. Man folgere das Optional Stopping Theorem f¨ur rechtsstetige Supermartingale: (Xτ ∧t )t≥0 ist ein rechtsstetiges Supermartingal. ♣ ¨ Ubung 21.1.4. Sei X = (Xt )t≥0 ein stochastischer Prozess auf (Ω, F, P) mit Werten im polnischen Raum E und rechtsstetigen Pfaden. Man zeige: (i) Die Abbildung (ω, t) → Xt (ω) ist messbar bez¨uglich F ⊗ B([0, ∞))–B(E). (ii) Ist X zudem an die Filtration F adaptiert, so ist f¨ur jedes t ≥ 0 die Abbildung Ω × [0, t] → E, (ω, s) → Xs (ω) messbar bez¨uglich Ft ⊗ B([0, t])–B(E). (iii) Ist τ eine F-Stoppzeit und X adaptiert, so ist Xτ eine Fτ -messbare Zufallsvariable. ♣
436
21 Die Brown’sche Bewegung
21.2 Konstruktion und Pfadeigenschaften Definition 21.8. Ein reellwertiger stochastischer Prozess B = (Bt , t ∈ [0, ∞)) heißt Brown’sche Bewegung, falls (i) B0 = 0, (ii) B hat unabh¨angige, station¨are Zuw¨achse (vergleiche Definition 9.7), (iii) Bt ∼ N0,t f¨ur t > 0, (iv) P-fast sicher gilt: t → Bt ist stetig.
3
2.5
2
1.5
1
0.5
0
0.5
1
1.5
2
Abb. 21.1. Computersimulation einer Brown’schen Bewegung.
Satz 21.9. Es existiert ein W-Raum (Ω, A, P) und eine Brown’sche Bewegung B auf (Ω, A, P). Die Pfade von B sind f.s. lokal H¨older-γ-stetig f¨ur jedes γ < 12 . Beweis. Wie in Beispiel 14.45 oder Korollar 16.10 gibt es einen stochastischen D √ Prozess X, der (i), (ii) und (iii) erf¨ullt. Offenbar ist Xt −Xs = t − s X1 ∼ N0,t−s f¨ur alle t > s ≥ 0. Es gilt daher f¨ur jedes n ∈ N und Cn := E[Xn2n ] = (2n)! 2n n! < ∞ ' ( ' √ ( 2n 2n n E (Xt − Xs ) t − s X1 =E = Cn |t − s| . Sei nun n ≥ 2 und γ ∈ (0, n−1 2n ). Satz 21.6 liefert die Existenz einer Version B von X mit H¨older-γ-stetigen Pfaden. Da alle stetigen Versionen eines Prozesses a¨ quivalent sind, ist B lokal H¨older-γ-stetig f¨ur jedes γ ∈ (0, n−1 2n ) und jedes n ≥ 2, 2 also f¨ur jedes γ ∈ (0, 12 ).
21.2 Konstruktion und Pfadeigenschaften
437
Erinnerung: Ein stochastischer Prozess (Xt )t∈I heißt Gauß’scher Prozess, falls f¨ur jedes n ∈ N und alle t1 , . . . , tn ∈ I gilt (Xt1 , . . . , Xtn )
ist n–dimensional normalverteilt.
Wir nennen X zentriert, falls E[Xt ] = 0 f¨ur jedes t ∈ I. Die Funktion Γ (s, t) := Cov[Xs , Xt ]
f¨ur s, t ∈ I,
heißt Kovarianzfunktion von X. Bemerkung 21.10. Durch die Kovarianzfunktion sind die endlichdimensionalen Verteilungen eines zentrierten, Gauß’schen Prozesses eindeutig festgelegt, denn eine mehrdimensionale Normalverteilung ist durch den Erwartungswertvektor und Kovarianzmatrix vollst¨andig beschrieben. 3 Satz 21.11. F¨ur einen stochastischen Prozess X = (Xt )t∈[0,∞) sind a¨ quivalent: (i) X ist eine Brown’sche Bewegung. (ii) X ist ein stetiger, zentrierter, Gauß’scher Prozess mit Cov[Xs , Xt ] = s ∧ t f¨ur alle s, t ≥ 0. Beweis. Nach Bemerkung 21.10 ist X durch (ii) eindeutig bestimmt. Es reicht also zu zeigen, dass Cov[Xs , Xt ] = min(s, t) f¨ur die Brown’sche Bewegung X gilt. Dies ist aber richtig, denn f¨ur t > s sind Xs und Xt − Xs unabh¨angig, also ist Cov[Xs , Xt ] = Cov[Xs , Xt − Xs ] + Cov[Xs , Xs ] = Var[Xs ] = s.
2
Korollar 21.12 (Skalierungseigenschaft der Brown’schen Bewegung). Ist B eine Brown’sche Bewegung und K = 0, dann ist auch (KBK 2 t )t≥0 eine Brown’sche Bewegung. Beispiel 21.13. Ein weiteres Beispiel f¨ur einen stetigen, Gauß’schen Prozess ist die ¨ Brown’sche Brucke X, die die Kovarianzfunktion Γ (s, t) = s ∧ t − st hat. Wir konstruieren die Brown’sche Br¨ucke wie folgt: Sei B = (Bt , t ∈ [0, 1]) eine Brown’sche Bewegung und Xt := Bt − tB1 . Offenbar ist X ein zentrierter, Gauß’scher Prozess mit stetigen Pfaden. Die Kovarianzfunktion Γ von X errechnet sich zu Γ (s, t) = Cov[Xs , Xt ] = Cov[Bs − sB1 , Bt − tB1 ] = Cov[Bs , Bt ] − s Cov[B1 , Bt ] − t Cov[Bs , B1 ] + st Cov[B1 , B1 ] = min(s, t) − st − st + st = min(s, t) − st. 3
438
21 Die Brown’sche Bewegung
Satz 21.14. Sei (Bt )t≥0 eine Brown’sche Bewegung und tB1/t , falls t > 0, Xt = 0, falls t = 0. Dann ist X eine Brown’sche Bewegung. Beweis. Offenbar ist X ein Gauß’scher Prozess. F¨ur s, t > 0 ist
Cov[Xs , Xt ] = ts · Cov[B1/s , B1/t ] = ts min s−1 , t−1 = min(s, t). Offenbar ist t → Xt stetig in allen t > 0. F¨ur die Stetigkeit in t = 0 betrachte 1 Bt t
1 1 ≤ lim sup Bn + lim sup sup Bt − Bn , t ∈ [n, n + 1] . n→∞ n n→∞ n
lim sup Xt = lim sup t→∞
t↓0
Nach dem Starken Gesetz der großen Zahl ist limn→∞ n1 Bn = 0 f.s. Nach einer Verallgemeinerung des Spiegelungsprinzips (Satz 17.15, siehe auch Satz 21.19) ist f¨ur x > 0 (mit der Abk¨urzung B[a,b] := {Bt : t ∈ [a, b]}) ) * ) * P sup B[n,n+1] − Bn > x = P sup B[0,1] > x = 2 P[B1 > x] ∞ 2 2 2 1 =√ e−u /2 du ≤ e−x /2 . x 2π x Speziell ist
∞ * ) P sup B[n,n+1] − Bn > nε < ∞ f¨ur jedes ε > 0. Nach dem n=1
Lemma von Borel-Cantelli (Satz 2.7) ist daher
1 lim sup sup Bt − Bn , t ∈ [n, n + 1] = 0 n→∞ n
fast sicher. 2
Mithin ist X auch in 0 stetig.
Satz 21.15 (Blumenthal’sches 0-1 Gesetz). Sei B eine Brown’sche Bewegung und F = (Ft )t≥0 = σ(B) die erzeugte Filtration, sowie F0+ = t>0 Ft . Dann ist F0+ eine P-triviale σ-Algebra. Beweis. Setze Y n = (B2−n +t − B2−n )t∈[0,2−n ] , n ∈ N. Dann ist (Y n )n∈N eine unabh¨angige Familie von (mit Werten in C([0, 2−n ])). Die termi Zufallsvariablen m nale σ-Algebra T = n∈N σ(Y , m ≥ n) ist nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) P–trivial. Andererseits ist σ(Y m , m ≥ n) = F2−n+1 , also ist Ft = F2−n+1 = T F0+ = t>0
P–trivial.
n∈N
2
21.2 Konstruktion und Pfadeigenschaften
Beispiel 21.16. Sei B eine Brown’sche Bewegung. F¨ur jedes K > 0 ist √
) * P inf t > 0 : Bt ≥ K t = 0 = 1. √
Um dies einzusehen, setze As := inf{t > 0 : Bt ≥ K t } < s und √
As ∈ F0+ . A := inf t > 0 : Bt ≥ K t = 0 =
439
(21.14)
s>0
Dann ist P[A] ∈ {0, 1}. Wegen der Skalierungseigenschaft der Brown’schen Bewegung ist P[A] = inf P[As ] ≥ P[B1 ≥ K] > 0 und deshalb P[A] = 1. s>0
3
Das eben untersuchte Beispiel zeigt insbesondere f¨ur jedes t ≥ 0, dass B in t fast sicher nicht H¨older- 12 -stetig ist. Hier ist Vorsicht mit der Reihenfolge der Quantoren angebracht: Wir haben nicht gezeigt, dass B fast sicher in keinem t ≥ 0 H¨older1 are (siehe aber Bemerkung 22.4). Wir k¨onnen allerdings ohne großen 2 -stetig w¨ Aufwand den folgenden Satz zeigen, der f¨ur den Fall γ = 1 auf Paley, Wiener und Zygmund [118] zur¨uckgeht. Der hier vorgestellte Beweis beruht auf einer Idee von Dvoretzky, Erd¨os und Kakutani (siehe [39]). Satz 21.17 (Paley-Wiener-Zygmund (1933)). F¨ur jedes γ > 12 sind die Pfade der Brown’schen Bewegung (Bt )t≥0 fast sicher in keinem Punkte H¨older-stetig der Ordnung γ. Insbesondere sind die Pfade fast sicher nirgends differenzierbar. Beweis. Sei γ > 12 . Es reicht, B = (Bt )t∈[0,1] zu betrachten. Wir bezeichnen mit Hγ,t die Menge der in t H¨older-γ-stetigen Abbildungen [0, 1] → R und setzen Hγ := t∈[0,1] Hγ,t . Das Ziel ist zu zeigen, dass fast sicher B ∈ Hγ gilt. Ist t ∈ [0, 1) und w ∈ Hγ,t , so existiert zu jedem δ > 0 ein c = c(δ, w) mit der Eigenschaft, dass |ws − wt | ≤ c |s − t|γ ist f¨ur jedes s ∈ [0, 1] mit |s − t| < δ. 2 , so ist f¨ur n ∈ N mit n ≥ n0 := (k + 1)/δ, W¨ahlen wir k ∈ N mit k > 2γ−1 i = tn + 1 und l ∈ {0, . . . , k − 1} speziell w(i+l+1)/n − w(i+l)/n ≤ w(i+l+1)/n − wt + w(i+l)/n − wt ≤ 2c (k + 1)γ n−γ . F¨ur N ≥ 2c (k + 1)γ ist also w ∈ AN,n,i , wobei AN,n,i :=
k−1
w : w(i+l+1)/n − w(i+l)/n ≤ N n−γ .
l=0
n
∞ Setzen wir AN,n = i=1 AN,n,i , AN = n≥n0 AN,n und A = N =1 AN , so ist offenbar Hγ ⊂ A. Nun ist wegen der Unabh¨angigkeit der Zuw¨achse, und weil die Dichte der Standardnormalverteilung nirgends gr¨oßer als 1 ist *k *k ) ) P[B ∈ AN,n,i ] = P |B1/n | ≤ N n−γ = P |B1 | ≤ N n−γ+1/2 ≤ N k nk(−γ+1/2) .
440
21 Die Brown’sche Bewegung
Nach Wahl von k und wegen der Stationarit¨at der Zuw¨achse von B gilt , + n * ) P B ∈ AN ≤ lim P AN,m ≤ lim sup P[AN,n ] ≤ lim sup P[AN,n,i ] n→∞
n→∞
m≥n
n→∞
i=1
≤ lim sup n P[B ∈ AN,n,1 ] ≤ N lim sup n k
1+k(−γ+1/2)
n→∞
=0
n→∞
2
und damit P[B ∈ A] = 0. Mithin ist fast sicher B ∈ Hγ .
¨ Ubung 21.2.1. Sei B eine Brown’sche Bewegung und λ das Lebesgue-Maß auf [0, ∞). 01 (i) Bestimme Erwartungswert und Varianz von 0 Bs ds. (F¨ur die Messbarkeit des ¨ Integrals siehe Ubung 21.1.2.)
(ii) Zeige, dass λ {t : Bt = 0} = 0 fast sicher gilt. (iii) Bestimme Erwartungswert und Varianz von
1
1
Bt − 0
0
2
1
Bs ds
♣
dt.
0
¨ Ubung 21.2.2. Sei B eine Brown’sche Bewegung. Zeige, dass auch (Bt2 − t)t≥0 ein Martingal ist. ♣ ¨ Ubung 21.2.3. Sei B eine Brown’sche Bewegung und σ > 0. Zeige, dass auch
2 exp σBt − σ2 t t≥0 ein Martingal ist. ♣ ¨ Ubung 21.2.4. Sei B eine Brown’sche Bewegung und a < 0 < b sowie τa,b = inf{t ≥ 0 : Bt ∈ {a, b}}. a Man zeige, dass τa,b < ∞ fast sicher gilt und P[Bτa,b = b] = − b−a . Man zeige ¨ ♣ ferner (mit Ubung 21.2.2), dass E[τa,b ] = −ab.
¨ Ubung 21.2.5. Sei B eine Brown’sche Bewegung und b > 0 sowie τb = inf{t ≥ 0 : Bt = b}. Man zeige: √
¨ 21.2.3 und den (i) E[e−λτb ] = e−b 2λ f¨ur λ ≥ 0. (Hinweis: Verwende Ubung Optional Sampling Satz.) (ii) τb hat eine 12 -stabile Verteilung mit L´evy-Maß
√ ν(dx) = b/( 2π) x−3/2 (iii) Die Verteilung von τb hat die Dichte fb (x) =
{x>0}
√b 2π
e−b
dx.
2
/(2x)
x−3/2 .
♣
21.3 Starke Markoveigenschaft
441
¨ Ubung 21.2.6. Sei B eine Brown’sche Bewegung, a ∈ R und b > 0 sowie τ = inf{t ≥ 0 : Bt = at + b}. Man zeige f¨ur λ ≥ 0 3 * ) E e−λτ = exp − ba − b a2 + λ2 und folgere P[τ < ∞] = 1 ∧ e−2ba .
♣
21.3 Starke Markoveigenschaft Wir bezeichnen mit Px das W-Maß, unter dem B = (Bt )t≥0 eine in x ∈ R gestartete Brown’sche Bewegung ist. Anders gesagt ist unter Px der um −x verschobene Prozess (Bt − x)t≥0 eine (in Null gestartete) Brown’sche Bewegung. W¨ahrend die (elementare) Markoveigenschaft von (B, (Px )x∈R ) evident ist, brauchen wir f¨ur den Nachweis der starken Markoveigenschaft ein wenig Arbeit. Satz 21.18 (Starke Markoveigenschaft). Die Brown’sche Bewegung B mit Verteilungen (Px )x∈R hat die starke Markoveigenschaft. Beweis. Sei F = σ(B) die von B erzeugte Filtration und τ < ∞ eine F-Stoppzeit. Zu zeigen ist, dass f¨ur jedes beschr¨ankte, messbare F : R[0,∞) → R gilt: ) * Ex F (Bt+τ )t≥0 Fτ = EBτ [F (B)]. (21.15) Es reicht, stetige, beschr¨ankte Funktionen F zu betrachten, die nur von endlich vielen Koordinaten t1 , . . . , tN abh¨angen, da diese die Verteilung von (Bt+τ )t≥0 eindeutig bestimmen. Sei also f : Rn → R stetig und beschr¨ankt und F (B) = f (Bt1 , . . . , BtN ). Offenbar ist die Abbildung x → Ex [F (B)] = E0 [f (Bt1 + x, . . . , Btn + x)] stetig und beschr¨ankt. Sei nun τ n := 2−n 2n τ + 1 f¨ur n ∈ N. n→∞ Dann ist τ n eine Stoppzeit und τ n ↓ τ , also Bτ n −→ Bτ fast sicher. Nun ist jeder Markovprozess mit abz¨ahlbarer Zeitmenge (hier: alle positiven rationalen Linearkombinationen von 1, t1 , . . . , tN ) ein starker Markovprozess (nach Satz 17.14), also gilt ) * ) * Ex F (Bτ n +t )t≥0 Fτ n = Ex f (Bτn +t1 , . . . , Bτ n +tN ) Fτ n ) * = EBτ n f (Bt1 , . . . , BtN ) (21.16) ) * n→∞ −→ EBτ f (Bt1 , . . . , BtN ) = EBτ [F (B)]. n→∞
Aufgrund der Rechtsstetigkeit von B gilt F (Bτ n + t)t≥0 −→ F (Bτ +t )t≥0 fast sicher und in L1 und damit ' ) * ) *( E Ex F (Bτ n +t )t≥0 Fτ n − Ex F (Bτ +t )t≥0 Fτ n (21.17) '
( n→∞ ≤ Ex F (Bτ n +t )t≥0 − F (Bτ +t )t≥0 −→ 0.
442
21 Die Brown’sche Bewegung
Weiter gilt Fτn ↓ Fτ + :=
Fσ ⊃ Fτ .
σ>τ ist Stoppzeit
Nach (21.16) und (21.17) sowie dem Konvergenzsatz f¨ur R¨uckw¨artsmartingale (Satz 12.14) gilt also im Sinne von L1 -Limiten ) * EBτ [F (B)] = lim Ex F (Bτ n +t )t≥0 Fτ n n→∞ ) * ) * = lim Ex F (Bτ +t )t≥0 Fτ n = Ex F (Bτ +t )t≥0 Fτ + . n→∞
Die linke Seite ist Fτ -messbar. Die Turmeigenschaft der bedingten Erwartung liefert also (21.15). 2 Mit Hilfe der starken Markoveigenschaft zeigen wir das Reflexionsprinzip f¨ur die Brown’sche Bewegung. ¨ die Brown’sche Bewegung). F¨ur jedes a > 0 Satz 21.19 (Reflexionsprinzip fur und T > 0 gilt √
* ) 2 T 1 −a2 /2T e . P sup Bt : t ∈ [0, T ] > a = 2 P[BT > a] ≤ √ 2π a Beweis. Wegen der Skalierungseigenschaft der Brown’schen Bewegung (Korollar 21.12) k¨onnen wir ohne Einschr¨ankung T = 1 annehmen. Sei τ := inf{t ≥ 0 : Bt ≥ a} ∧ 1. Aus Symmetriegr¨unden ist Pa [B1−τ > a] = 12 , falls τ < 1, also P[B1 > a] = P[B1 > a τ < 1] P[τ < 1] 1 = Pa [B1−τ > a] P[τ < 1] = P[τ < 1]. 2 F¨ur die Ungleichung berechnen wir ∞ 2 1 P[B1 > a] = √ e−x /2 dx 2π a 1 1 −a2 /2 1 1 ∞ −x2 /2 e xe dx = √ . ≤√ 2π a a 2π a
2
Eine Anwendung des Reflexionsprinzips ist das Arkussinus-Gesetzes von Paul L´evy [104, Seite 216] f¨ur den letzten Besuch der Brown’schen Bewegung in der Null. Satz 21.20 (L´evy’sches Arkussinus-Gesetz). Sei T > 0 und ζT := sup{t ≤ T : Bt = 0}. Dann gilt f¨ur t ∈ [0, T ] 3 ) * 2 P ζT ≤ t = arcsin t/T . π
21.3 Starke Markoveigenschaft
443
eine weitere, unBeweis. Ohne Einschr¨ankung sei T = 1 und ζ = ζ1 . Sei B abh¨angige Brown’sche Bewegung. Nach dem Reflexionsprinzip gilt * ) P[ζ ≤ t] = P Bs = 0 f¨ur jedes s ∈ [t, 1] ∞ ) * P Bs = 0 f¨ur jedes s ∈ [t, 1] Bt = a P[Bt ∈ da] = −∞ ∞ ) * s > 0 f¨ur jedes s ∈ [0, 1 − t] P[Bt ∈ da] = P|a| B −∞ ∞ ) * ) * 1−t | ≤ |a| P[Bt ∈ da] = P |B 1−t | ≤ |Bt | . P0 |B = −∞
D √
√ 1−t = t X, 1 − t Y . Sind X, Y unabh¨angig und N0,1 -verteilt, so ist Bt , B Es folgt √ * )√ P[ζ ≤ t] = P 1 − t |Y | ≤ t |X| * ) = P Y 2 ≤ t(X 2 + Y 2 ) ∞ ∞ 2 2 1 dx dy e−(x +y )/2 {y2 ≤t(x2 +y2 )} . = 2π −∞ −∞ Durch Polarkoordinatentransformation erhalten wir 2π ∞ √ 2 1 2 P[ζ ≤ t] = r dre−r /2 dϕ {sin(ϕ)2 ≤t} = arcsin t . 2π 0 π 0
2
¨ Bewegung mit Ubung 21.3.1. (Schwierig!) Sei Px die Verteilung der Brown’schen
Start in x ∈ R. Sei a > 0 und τ = inf t ≥ 0 : Bt ∈ {0, a} . Man zeige mit Hilfe des Spiegelungsprinzips, dass f¨ur jedes x ∈ (0, a) gilt P [τ < T ] = x
∞
(−1)n Px [BT ∈ [na, (n + 1)a]].
(21.18)
n=−∞
Ist f die Dichte einer Wahrscheinlichkeitsverteilung auf R mit charakteristischer Funktion ϕ und supx∈R x2 f (x) < ∞, so gilt die Poisson’sche Summationsformel (siehe etwa [23, Satz 2.2.2]) ∞
f (s + n) =
n=−∞
∞
ϕ(k) e2πis
f¨ur jedes s ∈ R.
(21.19)
k=−∞
Man folgere aus (21.18) und (21.19) (vergleiche auch (21.37)) Px [τ < T ] =
4 π
∞ k=0
1 2k+1
2 2 π T (2k+1)πx sin . exp − (2k+1) 2 2a a
(21.20) ♣
444
21 Die Brown’sche Bewegung
21.4 Erg¨anzung: Feller Prozesse In vielen Situationen kann man keine stetige Version eines Prozesses erwarten, etwa beim Poissonprozess, der ja gewissermaßen von seinen Spr¨ungen lebt. Oft kann jedoch eine Version mit rechtsstetigen Pfaden, die einen endlichen linksseitigen Grenzwert besitzen, etabliert werden. Wir wollen hier knapp den Existenzsatz f¨ur solche Prozesse f¨ur Feller’sche Halbgruppen plausibel machen. Definition 21.21. Sei E ein polnischer Raum. Eine Abbildung f : [0, ∞) → E heißt RCLL (right continuous with left limits) oder c`adl`ag (continue a` droit, limites a` gauche), falls f (t) = f (t+) := lims↓t f (s) f¨ur jedes t ≥ 0 und falls der linksseitige Grenzwert f (t−) := lims↑t f (s) f¨ur jedes t > 0 existiert und endlich ist. Bemerkung 21.22. Ist F eine beliebige Filtration und Ft+,∗ die Vervollst¨andigung 3 von Ft+ , so erf¨ullt F+,∗ die u¨ blichen Bedingungen. Definition 21.23. Eine Filtration F = (Ft )t≥0 heißt rechtsstetig, falls F = F+ , + Bedingungen wo Ft = s>t Fs . Wir sagen, dass eine Filtration F die ublichen ¨ erf¨ullt, falls F rechtsstetig ist und F0 jede P-Nullmenge enth¨alt. Satz 21.24 (Doob’sche Regularisierung). Sei F eine Filtration, die die u¨ blichen Bedingungen erf¨ullt, und X = (Xt )t≥0 ein F-Supermartingal mit der Eigenschaft, von X mit RCLL dass t → E[Xt ] rechtsstetig ist. Dann gibt es eine Modifikation X Pfaden. Beweis. F¨ur a, b ∈ Q+ , a < b und I ⊂ [0, ∞) sei UIa,b die Anzahl der Aufkreuzungen von (Xt )t∈I u¨ ber [a, b]. Nach der Aufkreuzungsungleichung (Lemma 11.3) folgt f¨ur jedes N > 0 und jede endliche Menge I ⊂ [0, N ], dass a,b E[UIa,b ] ≤ (E[|XN |] + |a|)/(b − a). Setzen wir UN = UQa,b + ∩[0,N ] , so folgt a,b ¨ E[U ] ≤ (E[|XN |] + |a|)/(b − a). F¨ur λ > 0 ist nach Ubung 11.1.1 N
* ) λ P sup{|Xt | : t ∈ Q+ ∩ [0, N ]} > λ ) * = λ sup P sup{|Xt | : t ∈ I} > λ : I ⊂ Q+ ∩ [0, N ] endlich ≤ 12 E[|X0 |] + 9 E[|XN |]. Betrachte das Ereignis
a,b A := {UN < ∞} ∩ sup{|Xt | : t ∈ Q+ ∩ [0, N ]} < ∞ . N ∈N
a,b∈Q+ 0≤a
Nach dem Gezeigten ist P[A] = 1, also A ∈ Ft f¨ur jedes t ≥ 0, da F die u¨ blichen Bedingungen erf¨ullt. F¨ur ω ∈ A existiert f¨ur jedes t ≥ 0 der Limes
21.4 Erg¨anzung: Feller Prozesse
t (ω) := X
lim
Q+ s↓t, s>t
445
Xs (ω)
und ist RCLL. F¨ur ω ∈ Ac setzen wir Xt (ω) = 0. Da F die u¨ blichen Bedingungen an F adaptiert. Da X ein Supermartingal ist, ist (Xs )s≤N f¨ur jedes N erf¨ullt, ist X gleichgradig integrierbar. Also gilt (nach Voraussetzung), dass t ] = E[X
lim
Q+ s↓t, s>t
E[Xs ] = E[Xt ].
Da X ein Supermartingal ist, ist aber f¨ur s > t Xt ≥ E[Xs |Ft ]
Q+ s↓t, s>t
−→
t |Ft ] = X t E[X
in L1 .
eine Modifikation von X. t fast sicher, also X 2 Folglich ist Xt = X 0 Korollar 21.25. Sei (νt )t≥0 eine stetige Faltungshalbgruppe mit |x|ν1 (dx) < ∞. Dann existiert ein Markov-Prozess X mit unabh¨angigen, station¨aren Zuw¨achsen PXt −Xs = νt−s f¨ur alle t > s und mit RCLL Pfaden. Sei E ein lokalkompakter, polnischer Raum und C0 (E) die Menge der (beschr¨ankten) stetigen Funktionen, die im Unendlichen verschwinden. Ist κ ein stochastischer Kern von E nach E und ist f messbar und beschr¨ankt, so schreiben wir κf (x) = 0 κ(x, dy) f (y). Definition 21.26. Eine Markov’sche Halbgruppe (κt )t≥0 auf E heißt Feller’sche Halbgruppe, falls f (x) = lim κt f (x) t→0
f¨ur jedes x ∈ E, f ∈ C0 (E)
und κt f ∈ C0 (E) f¨ur jedes f ∈ C0 (E). Sei X ein zu (κt )t≥0 geh¨origer Markovprozess bez¨uglich einer Filtration F, die die u¨ blichen Bedingungen erf¨ullt. 0∞ Sei g ∈ C0 (E), g ≥ 0. Setze h = 0 e−t κt g dt. Dann ist ∞ ∞ −s −s −t e κs h = e e κs κt g dt = e−t κt g dt ≤ h. 0
s
−t
Also ist X := (e h(Xt ))t≥0 ein F-Supermartingal. g
Die Fellereigenschaft und Satz 21.24 sichern nun die Existenz einer RCLL Version g von X g . Mit etwas mehr Arbeit kann man zeigen, dass mit einer abz¨ahlbaren X g , g ∈ G, eindeutig festgelegt ist durch alle X Menge G ⊂ C0 (E) ein Prozess X und eine RCLL Version von X ist. Siehe etwa [139, Kapitel III.7ff]. Wir wollen nun r¨uckblicken, wie wir die starke Markoveigenschaft der Brown’schen Bewegung in Abschnitt 21.3 hergeleitet hatten. Tats¨achlich wurde dort lediglich die Rechtsstetigkeit der Pfade sowie eine Stetigkeit im Anfangspunkt ben¨otigt, die genau die Fellereigenschaft ist. Mit etwas Arbeit kann man daher den folgenden Satz zeigen (siehe etwa [139, Kapitel III.8ff] oder [137, Kapitel III, Theorem 2.7]).
446
21 Die Brown’sche Bewegung
Satz 21.27. Sei (κt )t≥0 eine Feller’sche Halbgruppe auf dem lokalkompakten, polnischen Raum E. Dann existiert ein starker Markovprozess (Xt )t≥0 mit RCLL Pfa¨ den und Ubergangskernen (κt )t≥0 . Einen solchen Prozess X nennen wir auch einen Feller-Prozess. ¨ Ubung 21.4.1 (Doob’sche Ungleichung). Sei X = (Xt )t≥0 ein Martingal oder nichtnegatives Submartingal mit RCLL Pfaden. F¨ur T ≥ 0 sei |X|∗T = sup |Xt |. t∈[0,T ]
Man zeige die Doob’schen Ungleichungen: * ) * ) (i) F¨ur jedes p ≥ 1 und λ > 0 gilt λp P |X|∗T ≥ λ ≤ E |XT |p . * ) * p p ) * ) E |XT |p . (ii) F¨ur jedes p > 1 gilt E |XT |p ≤ E (|X|∗T )p ≤ p−1 Man zeige durch ein Gegenbeispiel, dass auf die Rechtsstetigkeit von X nicht ohne Weiteres verzichtet werden kann. ♣ ¨ Ubung 21.4.2 (Martingalkonvergenzs¨atze). Sei X ein stochastischer Prozess mit ¨ RCLL Pfaden. Man zeige mit Hilfe der Doob’schen Ungleichung (Ubung 21.4.1), dass die Martingalkonvergenzs¨atze (f.s. Konvergenz (Satz 11.4), f.s. und L1 -Konvergenz f¨ur gleichgradig integrierbare Martingale (Satz 11.7) und der Lp -Martingalkonvergenzsatz (Satz 11.10)) sinngem¨aß f¨ur X gelten. ♣ ¨ Ubung 21.4.3. Sei p ≥ 1 und X 1 , X 2 , X 3 , . . . p-fach integrierbare Martingale. F¨ur t ∈ Lp (P) mit Xtn n→∞ t in Lp . −→ X jedes t ≥ 0 gebe es ein X t )t≥0 ist ein Martingal. (i) Zeige: (X (ii) Zeige mit Hilfe der Doob’schen Ungleichung: Ist p > 1 und sind X 1 , X 2 , . . . f.s. stetig, so gibt es ein stetiges Martingal X mit den Eigenschaften: X ist eine p und X n n→∞ ur jedes t ≥ 0. ♣ Modifikation von X t −→ Xt in L f¨ ¨ Ubung 21.4.4. Sei X ein stochastischer Prozess mit Werten in einem polnischen Raum E mit RCLL Pfaden, und sei F = σ(X) die von X erzeugte Filtration, sowie F+ := (Ft+ )t≥0 definiert durch Ft+ = s>t Fs . Sei U ⊂ E offen und C ⊂ E abgeschlossen. F¨ur jede Menge A ⊂ E sei τA := inf{t > 0 : Xt ∈ A}. Man zeige: (i) τC ist eine F-Stoppzeit (und eine F+ -Stoppzeit). (ii) τU ist eine F+ -Stoppzeit, jedoch im Allgemeinen (selbst f¨ur stetiges X) keine F-Stoppzeit. ♣ ¨ Ubung 21.4.5. Man zeige die Aussage von Bemerkung 21.22 und folgere: Ist F eine Filtration und B eine Brown’sche Bewegung, die ein F-Martingal ist. Dann ist ♣ B auch ein F+,∗ -Martingal.
21.5 Konstruktion durch L2 -Approximation
447
21.5 Konstruktion durch L2 -Approximation Wir geben eine funktionalanalytische Konstruktion der Brown’schen Bewegung durch eine L2 –Approximation an. Der Einfachheit halber betrachten wir als Zeitintervall [0, 1] statt [0, ∞). Es sei also H = L2 ([0, 1]) der Hilbertraum der quadratintegrierbaren (bez¨uglich des Lebesgue-Maßes λ) Funktionen [0, 1] → R mit Skalarprodukt f (x)g(x) λ(dx) f, g! = [0,1]
3
und Norm f = f, f ! (vergleiche Kapitel 7.3). Zwei Funktionen f, g ∈ H werden als gleich angesehen, wenn f = g λ-f.¨u. Sei (bn )n∈N eine Orthonormalbasis (ONB) von H, also bm , bn ! = {m=n} und n = = = = f, bm !bm = = 0 lim =f −
n→∞
f¨ur jedes f ∈ H.
m=1
Speziell gilt f¨ur jedes f ∈ H die Parseval’sche Gleichung f 2 =
∞
f, bm !2
(21.21)
f, bm ! g, bm !.
(21.22)
m=1
und f¨ur f, g ∈ H
∞
f, g! =
m=1
Betrachte jetzt eine u.i.v. Folge (ξn )n∈N von N0,1 -Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P). F¨ur n ∈ N und t ∈ [0, 1] setze n n n ξm bm (s) λ(ds) = ξm [0,t] , bm !. Xt = [0,t] (s) m=1
Offenbar ist f¨ur n ≥ m * ) E (Xtm − Xtn )2 = E
-
m=1
n
ξk
:
[0,t] , bk
;
k=m+1
=
n :
[0,t] , bk
k=m+1
Wegen
∞ k=1
2 [0,t] , bk !
= lim
2 [0,t]
n
ξl
:
[0,t] , bl
l=m+1
;2
≤
∞ :
[0,t] , bk
;2
.
k=m+1
= t < ∞, gilt Xtn ∈ L2 (P) und * ) sup E (Xtm − Xtn )2 = 0.
m→∞ n≥m
;
.
448
21 Die Brown’sche Bewegung
Also ist (Xtn )n∈N eine Cauchy-Folge in L2 (P) und hat wegen der Vollst¨andigkeit von L2 (P) (siehe Satz 7.3) einen L2 -Grenzwert Xt . Offenbar gilt dann auch f¨ur N ∈ N und 0 ≤ t1 , . . . , tN ≤ 1 . -N 2 Xtni − Xti = 0. lim E n→∞
i=1
n→∞
Speziell gilt also Xtn1 , . . . , XtnN −→ (Xt1 , . . . , XtN ) P-stochastisch.
Offenbar ist Xtn1 , . . . , XtnN Gauß-verteilt und zentriert. F¨ur s, t ∈ [0, 1] gilt n . - n : : ; ; n n Cov [Xs , Xt ] = E ξk [0,s] , bk ξl [0,t] , bl k=1
=
=
n
E[ξk ξl ]
k,l=1 n
:
k=1 n→∞ :
−→
l=1
:
[0,s] , bk [0,s] ,
[0,s] , bk
;:
[0,t] , bk
; [0,t]
;:
[0,t] , bl
;
;
= min(s, t).
Also ist (Xt )t∈[0,1] ein zentrierter, Gauß’scher Prozess mit Cov[Xs , Xt ] = min(s, t).
(21.23)
Bis auf die Stetigkeit der Pfade ist X also eine Brown’sche Bewegung. Eine stetige Version von X liefert jetzt der Satz von Kolmogorov-Chentsov (Satz 21.6). Wir k¨onnen X aber auch direkt als stetigen Prozess konstruieren, indem wir die ONB (bn )n∈N geschickt w¨ahlen, beispielsweise die Haar-Funktionen bn,k : Sei b0,1 ≡ 1 und f¨ur n ∈ N und k = 1, . . . , 2n sei ⎧ 2k − 2 2k − 1 ⎪ ⎪ ≤ t < n+1 , 2n/2 , falls ⎪ n+1 ⎪ 2 2 ⎪ ⎨ 2k − 1 2k bn,k (t) = −2n/2 , falls ≤ t < n+1 , ⎪ n+1 ⎪ 2 2 ⎪ ⎪ ⎪ ⎩ 0, sonst. Dann ist (bn,k ) ein Orthonormalsystem: bm,k , bn,l ! = {(m,k)=(n,l)} . Man pr¨uft ¨ Wir definieren die Schauebenfalls leicht nach, dass (bn,k ) eine Basis ist (Ubung!). derfunktionen durch ; : bn,k (s) λ(ds) = [0,t] , bn,k . Bn,k (t) = [0,t]
Seien (ξn,k )n∈N0 , k=1,...,2n unabh¨angig und N0,1 -verteilt. Wir setzen
21.5 Konstruktion durch L2 -Approximation
449
m
n
X :=
2 n
ξm,k Bm,k
m=0 k=1
und definieren Xt als den L2 (P)-Limes Xt = L2 − lim X n . n→∞
Satz 21.28 (Brown’sche Bewegung, L2 –Approximation). X ist eine Brown’sche Bewegung, und es gilt = = lim =X n − X =∞ = 0 P–fast sicher.
(21.24)
n→∞
Beweis. Da gleichm¨aßige Limiten stetiger Funktionen wieder stetig sind, folgt aus (21.24) die Stetigkeit von X und aus (21.23) (zusammen mit Satz 21.11), dass X eine Brown’sche Bewegung ist. Es reicht also, (21.24) zu zeigen. Da (C([0, 1]), · ∞ ) vollst¨andig ist, reicht es zu zeigen, dass P-fast sicher X n eine Cauchy-Folge in (C([0, 1]), · ∞ ) ist. Man beachte, dass Bn,k ∞ ≤ 2−n/2 und Bn,k Bn,l = 0, falls k = l. Also ist = n =
=X − X n−1 = ≤ 2−n/2 max |ξn,k |, k = 1, . . . , 2n . ∞ Mithin ist '
P X − X n
n−1
−n/4
∞ > 2
(
n
≤
2
( ' P |ξn,k | > 2n/4
k=1
2 = 2n √ 2π
∞
2
e−x
/2
dx ≤ 2n+1 exp −2(n/2)−1 . Offenbar ist
∞ n=1
2n/4
P[X n − X n−1 ∞ > 2−n/4 ] < ∞, also nach dem Lemma von
Borel-Cantelli '= = P =X n − X n−1 =∞ > 2−n/4
( h¨ochstens endlich oft = 1.
Es folgt lim sup X m − X n ∞ = 0 P–fast sicher. n→∞ m≥n
2
Beispiel 21.29 (Stochastisches Integral). Wir nehmen an, dass (ξn )n∈N eine u.i.v. sowie (bn )n∈N eine OrthonormalFolge von N0,1 verteilten Zufallsvariablen ist, n basis von L2 ([0, 1]), sodass Wt := limn→∞ k=1 [0,t] , bk !, t ∈ [0, 1], eine 2 Brown’sche Bewegung ist. F¨ur f ∈ L ([0, 1]) definieren wir I(f ) :=
∞ n=1
ξn f, bn !.
450
21 Die Brown’sche Bewegung
Nach der Parseval’schen Gleichung und der Bienaym´e Formel ist f 22 =
∞
) * ) * f, bn !2 = Var I(f ) = E I 2 ,
n=1
also gilt: I : L2 ([0, 1]) → L2 (P),
f → I(f )
ist eine Isometrie.
(21.25)
Wir nennen
t
f (s) dWs := I f
[0,t]
,
t ∈ [0, 1], f ∈ L2 ([0, 1]),
0
0t das stochastische Integral von f bez¨uglich W . Durch Xt := 0 f (s) dWs wird ein stetiger, zentrierter, Gauß’scher Prozess definiert mit Kovarianzfunktion Cov[Xs , Xt ] =
s∧t
f 2 (u) du. 0
In der Tat ist klar, dass X zentriert und Gauß’sch ist (als Limes von Gauß’schen Partialsummenprozessen) mit der angegebenen Kovarianzfunktion. Ferner folgt die Stetigkeit wie f¨ur die Brown’sche Bewegung mit den vierten Momenten der Zuw¨achse, die wir bei normalverteilten Zufallsvariablen aus den Varianzen berechnen k¨onnen (vergleiche Satz 21.9). n In dem Spezialfall f = i=1 αi (ti−1 ,ti ] f¨ur gewisses n ∈ N und 0 = t0 < t1 < . . . < tn und α1 , . . . , αn ∈ R erhalten wir
1
f (s) dWs = 0
n
αi Wti − Wti−1 .
3
i=1
¨ Ubung 21.5.1. Man zeige mit Hilfe der Darstellung der Brown’schen Bewegung (Wt )t∈[0,1] als zuf¨allige Linearkombination der Haar-Funktionen (bn,k ), dass die Brown’sche Br¨ucke Y = (Yt )t∈[0,1] = (Wt − tW1 )t∈[0,1] ein stetiger, Gauß’scher Prozess mit Kovarianzfunktion Cov[Yt , Ys ] = (s ∧ t) − st ist. Man zeige ferner ) * ♣ PY = lim P W ∈ · |W1 ∈ (−ε, ε) . ε↓0
¨ Ubung 21.5.2. (Vergleiche Beispiel 8.31.) Sei T ∈ (0, 1) fest gew¨ahlt. Man zeige mit Hilfe einer Orthonormalbasis b0,1 , (cn,k ), (dn,k ) von geeignet modifizierten Haar-Funktionen (so, dass die cn,k von [0, T ] getragen werden und die dn,k von [T, 1]): Eine regul¨are Version der bedingten Verteilung von WT gegeben W1 wird beschrieben durch ♣ P[WT ∈ · |W1 = x] = NT x,T .
21.6 Der Raum C([0, ∞))
451
¨ Ubung 21.5.3. Sei d ∈ N. Man zeige mit Hilfe einer geeigneten Orthonormalbasis auf [0, 1]d : (i) Es gibt einen Gauß’schen Prozess (Wt )t∈[0,1]d mit Kovarianzfunktion Cov[Wt , Ws ] =
d
ti ∧ si .
i=1
(ii) Es existiert eine Modifikation von W , sodass t → W fast sicher stetig ist (siehe Bemerkung 21.7). Ein Prozess W mit den Eigenschaften (i) und (ii) heißt Brown’sches Blatt.
♣
21.6 Der Raum C([0, ∞)) Sind Funktionale, die vom ganzen Pfad der Brown’schen Bewegung abh¨angen, messbar? Ist beispielsweise sup{Xt , t ∈ [0, 1])} messbar? F¨ur allgemeine stochastische Prozesse ist dies sicherlich falsch, weil das Supremum von mehr als abz¨ahlbar vielen Koordinaten abh¨angt. F¨ur Prozesse mit stetigen Pfaden ist dies jedoch richtig, wie wir in diesem Abschnitt in allgemeinem Rahmen zeigen werden. Es liegt nahe, dass man die Brown’sche Bewegung als kanonischen Prozess auf dem Raum Ω := C([0, ∞)) der stetigen Pfade begreift. Wir sammeln zun¨achst ein paar Eigenschaften von Ω = C([0, ∞)) ⊂ R[0,∞) . Wir definieren die Auswertungsabbildung Xt : Ω → R,
ω → ω(t),
(21.26)
also die Einschr¨ankung der kanonischen Projektion R[0,∞) → R auf Ω. = =
= = F¨ur f, g ∈ C [0, ∞) und n ∈ N sei dn (f, g) := =(f − g) = ∧ 1 und [0,n] ∞
d(f, g) =
∞
2−n dn (f, g).
(21.27)
n=1
Satz 21.30. d ist eine vollst¨andige Metrik auf Ω := C [0, ∞) , die die Topologie der gleichm¨aßigen Konvergenz auf kompakten Mengen erzeugt. Der Raum (Ω, d) ist separabel, also polnisch. Beweis. Offenbar ist jedes dn eine vollst¨andige Metrik auf (C([0, n]), · ∞ )). Zu jeder Cauchy-Folge (fN ) in (Ω, d) und jedem n ∈ N existiert daher ein gn ∈ Ω N →∞ mit dn (fN , gn ) −→ 0. Offenbar ist gn (x) = gm (x) f¨ur jedes x ≤ m ∧ n, also
452
21 Die Brown’sche Bewegung
existiert ein g ∈ Ω mit g(x) = gn (x) f¨ur jedes x ≤ n f¨ur jedes n ∈ N. Offenbar gilt N →∞ dann d(fN , g) −→ 0, also ist d vollst¨andig. Die Menge der Polynome mit rationalen Koeffizienten ist abz¨ahlbar und nach dem 2 Satz von Weierstraß dicht in jedem (C([0, n]), · ∞ )) also dicht in (Ω, d). Satz 21.31. Bez¨uglich der Borel’schen σ-Algebra B(Ω, d) sind die kanonischen Projektionen Xt , t ∈ [0, ∞) messbar. Andererseits erzeugen die Xt schon B(Ω, d). Es gilt also
(B(R))⊗[0,∞) = σ Xt , t ∈ [0, ∞) = B(Ω, d). Ω
Beweis. Die erste Gleichung gilt per definitionem. F¨ur die zweite betrachten wir die gegenseitigen Inklusionen. ⊂“ Offenbar ist jedes Xt : Ω −→ R stetig, also (B(Ω, d)–B(R)) messbar.
” Mithin ist σ Xt , t ∈ [0, ∞) ⊂ B(Ω, d). ⊃“ Wir ω ∈ Ω und f¨ur jedes ε∈ (0, 1) die ε-Umgebung zeigen, dass f¨ur jedes
” Uε (ω) = ω ∈ Ω : d(ω, ω ) < ε in σ Xt , t ∈ [0, ∞) liegt. Dies folgt aber aus der Darstellung ω ∈ Ω : |Xt (ω) − Xt (ω )| ∧ 1 < δ 2t −1 Uε (ω) = δ∈Q+ δ<ε
=
δ∈Q+ δ<ε
t∈Q+
Xt−1
ω(t) − δ 2t
−1
, ω(t) + δ 2t
−1
.
2
+
t∈Q 21− t ≥δ
Im Folgenden sei stets A = σ Xt , t ∈ [0, ∞) . Korollar 21.32. Die Abbildung F1 : Ω → [0, ∞), ω → sup{ω(t) : t ∈ [0, 1]} ist A-messbar. Beweis. F1 ist stetig bez¨uglich d, also B(Ω, d)-messbar.
2
so existiert Ω ∈ A, P)), Ist B eine Brown’sche Bewegung (auf einem W-Raum (Ω, ) * A mit P Ω = 1 und B(ω) ∈ C([0, ∞)) f¨ur jedes ω ∈ Ω. Sei A = A und Ω . Dann ist B : Ω −→ C([0, ∞)) messbar bez¨uglich (A, A). Bez¨uglich P=P A
des Bildmaßes P = P ◦ B −1 auf Ω = C([0, ∞)) ist der kanonische Prozess X = (Xt , t ∈ [0, ∞)) auf C([0, ∞)) eine Brown’sche Bewegung.
21.7 Konvergenz von W-Maßen auf C([0, ∞))
453
Definition 21.33. Sei P das W-Maß auf Ω = C([0, ∞)), bez¨uglich dessen der kanonische Prozess X eine Brown’sche Bewegung ist. Dann heißt P Wiener-Maß. Das Tripel (Ω, A, P) heißt Wiener-Raum, und X heißt kanonische Brown’sche Bewegung oder Wiener-Prozess. Bemerkung 21.34. Manchmal soll eine Brown’sche Bewegung nicht in X0 = 0 starten, sondern in einem beliebigen Punkt x. Mit Px bezeichnen wir dann dasjenige = (Xt − x, t ∈ [0, ∞)) eine Brown’sche Bewegung Maß auf C([0, ∞)), f¨ur das X 3 (mit X0 = 0) ist. ¨ Ubung 21.6.1. Man zeige: Die Abbildung F∞ : Ω → [0, ∞], ω → sup{ω(t) : t ∈ [0, ∞)} ist A-messbar. ♣
21.7 Konvergenz von W-Maßen auf C([0, ∞)) Seien X und (X n )n∈N Zufallsvariablen mit Werten in C([0, ∞)), also stetige stochastische Prozesse, mit Verteilungen PX und (PX n )n∈N . Definition 21.35. Wir sagen, dass die endlichdimensionalen Verteilungen (finite dimensional distributions) von (X n ) gegen die von X konvergieren, falls f¨ur jedes k ∈ N und t1 , . . . , tk ∈ [0, ∞) gilt n→∞
(Xtn1 , . . . , Xtnk ) =⇒ (Xt1 , . . . , Xtk ). n→∞
n→∞
fdd
fdd
Wir schreiben dann X n =⇒ X oder PX n −→ PX . n→∞
n→∞
fdd
fdd
Lemma 21.36. Aus Pn −→ P und Pn −→ Q folgt P = Q. Beweis. Nach Satz 14.12(iii) legen die endlichdimensionalen Verteilungen P eindeutig fest. 2 Satz 21.37. Schwache Konvergenz in M1 (Ω, d) impliziert fdd-Konvergenz: n→∞
Pn −→ P
=⇒
n→∞
Pn −→ P. fdd
Beweis. Sei k ∈ N und t1 , . . . , tk ∈ [0, ∞). Die Abbildung ϕ : C([0, ∞)) → Rk ,
ω → (ω(t1 ), . . . , ω(tk ))
ist stetig. Nach dem Continuous Mapping Theorem (Satz 13.25 auf Seite 245) gilt n→∞ n→∞ Pn ◦ ϕ−1 −→ P ◦ ϕ−1 , also Pn −→ P . 2 fdd
454
21 Die Brown’sche Bewegung
Die Umkehrung des Satzes ist nicht richtig. Es gilt aber Folgendes. Satz 21.38. Seien (Pn )n∈N und P W-Maße auf C([0, ∞)). Dann sind a¨ quivalent: n→∞
(i) Pn −→ P und (Pn )n∈N ist straff. fdd n→∞
(ii) Pn −→ P schwach. Beweis. (ii) =⇒ (i)“ ” mit E = C([0, ∞))).
Dies folgt direkt aus dem Satz von Prohorov (Satz 13.29
(i) =⇒ (ii)“ Nach dem Satz von Prohorov ist (Pn )n∈N relativ folgenkom” pakt. Sei Q ein Limespunkt von (Pnk )k∈N entlang einer Teilfolge (nk ). Dann gilt fdd
Pnk −→ Q, k → ∞. Nach Lemma 21.36 ist P = Q.
2
Als n¨achstes wollen wir uns ein n¨utzliches Kriterium f¨ur Straffheit von Mengen {Pn } ⊂ M1 (C([0, ∞))) verschaffen. Wir beginnen mit einer Wiederholung der Charakterisierung von Relativkompaktheit in C([0, ∞)) von Arzel`a und Ascoli (siehe etwa [156, Satz II.3.4]). F¨ur N, δ > 0 und ω ∈ C([0, ∞)) setze
V N (ω, δ) := sup |ω(t) − ω(s)| : |t − s| ≤ δ, s, t ≤ N . Satz 21.39 (Arzel`a-Ascoli). Eine Menge A ⊂ C([0, ∞)) ist genau dann relativ kompakt, wenn die beiden folgenden Bedingungen gelten. (i) {ω(0), ω ∈ A} ⊂ R ist beschr¨ankt. (ii) F¨ur jedes N gilt lim sup V N (ω, δ) = 0. δ↓0 ω∈A
Satz 21.40. Eine Familie (Pi , i ∈ I) von W-Maßen auf C([0, ∞)) ist genau dann schwach relativkompakt, wenn die beiden folgenden Bedingungen gelten. (i) (Pi ◦ X0−1 , i ∈ I) ist straff, das heißt, f¨ur jedes ε > 0 gibt es ein K > 0, sodass (21.28) Pi ({ω : |ω(0)| > K}) ≤ ε f¨ur jedes i ∈ I. (ii) F¨ur alle η, ε > 0 und N ∈ N gibt es ein δ > 0, sodass Pi ({ω : V N (ω, δ) > η}) ≤ ε
f¨ur jedes i ∈ I.
(21.29)
Beweis. =⇒ “ Nach dem Satz von Prohorov (Satz 13.29) folgt aus der schwa” chen Relativkompaktheit von (Pi , i ∈ I) die Straffheit dieser Familie. Zu jedem ε > 0 gibt es daher eine kompakte Menge A ⊂ C([0, ∞)) mit Pi (A) > 1 − ε
21.7 Konvergenz von W-Maßen auf C([0, ∞))
455
f¨ur jedes i ∈ I. Aus der Charakterisierung der Kompaktheit von A im Satz von Arzel`a-Ascoli folgen nun (i) und (ii). ⇐= “ Wir nehmen jetzt an, dass (i) und (ii) gelten. Seien also f¨ur ε > 0 und ” k, N ∈ N die Zahlen Kε und δN,k,ε so gew¨ahlt, dass
ε sup Pi {ω : |ω(0)| > Kε } ≤ 2 i∈I 1
und sup Pi
ω : V N (ω, δN,k,ε ) >
i∈I
Setze
1 k
2
1 CN,ε =
ω : |ω(0)| ≤ Kε , V N (ω, δN,k,ε ) ≤
Nach dem Satz von Arzel`a-Ascoli ist Cε := pakt, und wir haben Pi (Cεc ) ≤
N ∈N
≤ 2−N −k−1 ε. 2 1 f¨ur jedes k ∈ N . k
CN,ε in C([0, ∞)) relativ kom-
∞
ε + Pi ω : V N (ω, δN,k,ε ) > 1/k ≤ ε 2
f¨ur jedes i ∈ I.
k,N =1
Es folgt die Aussage.
2
Korollar 21.41. Sind (Xi , i ∈ I) und (Yi , i ∈ I) Familien von Zufallsvariablen in C([0, ∞)), und sind (PXi , i ∈ I) und (PYi , i ∈ I) straff, dann ist auch (PXi +Yi , i ∈ I) straff. Beweis. Wende die Dreiecksungleichung an, um im vorigen Satz (i) und (ii) nachzuweisen. 2 Ein wichtiges Hilfsmittel, um schwache Relativkompaktheit nachzuweisen, ist das folgende. ¨ schwache Relativkompaktheit). Satz 21.42 (Kolmogorov’sches Kriterium fur Sei (X i , i ∈ I) eine Folge von stetigen stochastischen Prozessen. Es gelte: (i) Die Familie (P[X0i ∈ · ], i ∈ I) der Startverteilungen ist straff. (ii) Es gibt Zahlen C, α, β > 0, sodass f¨ur alle s, t ∈ [0, ∞) und jedes i ∈ I gilt * ) E |Xsi − Xti |α ≤ C |s − t|β+1 . Dann ist die Familie (PX i , i ∈ I) = (L[X i ], i ∈ I) von Verteilungen der X i schwach relativkompakt in M1 (C([0, ∞))).
456
21 Die Brown’sche Bewegung
Beweis. Wir pr¨ufen die Bedingungen von Satz 21.40. Die erste Bedingung aus Satz 21.40 ist genau (i). Nach dem Satz von Kolmogorov-Chentsov (Satz 21.6(ii)) gibt es zu γ ∈ (0, β/α) und ε > 0 sowie N > 0 eine Konstante K, sodass f¨ur jedes i ∈ I gilt ) * P |Xti − Xsi | ≤ K |t − s|γ f¨ur alle s, t ∈ [0, N ] ≥ 1 − ε. 2
Offenbar impliziert dies (21.29) mit δ = (η/K)1/γ .
21.8 Satz von Donsker Seien Y1 , Y2 , . . . u.i.v. Zufallsvariablen mit E[Y1 ] = 0 und Var[Y1 ] = σ 2 > 0. F¨ur nt t > 0 sei Stn = i=1 Yi und Stn = √σ12 n Stn . Nach dem zentralen Grenzwertsatz n→∞ gilt L[Stn ] −→ N0,t . Bezeichnet B = (Bt , t ≥ 0) eine Brown’sche Bewegung, so gilt also n→∞ L[Stn ] −→ L[Bt ] f¨ur jedes t > 0. Nach dem mehrdimensionalen Zentralen Grenzwertsatz (Satz 15.56) gilt nun auch (f¨ur N ∈ N und t1 , . . . , tN ∈ [0, ∞)) n→∞ L[(Stn1 , . . . , StnN )] −→ L[(Bt1 , . . . , BtN )]
(21.30)
Wir definieren jetzt S¯n wie Sn , aber linear interpoliert 1 S¯tn = √ σ2 n
nt
Yi +
i=1
(tn − tn) √ Ynt+1 . σ2 n
(21.31)
Dann gilt f¨ur ε > 0 * * ) ) 1 1 1 n→∞ P Stn − S¯tn > ε ≤ ε−2 E (Stn − S¯tn )2 ≤ 2 E[Y12 ] = 2 −→ 0. ε n σ2 ε n Nach dem Satz von Slutzky (Satz 13.18) gilt daher die Konvergenz der endlichdimensionalen Verteilungen gegen das Wiener-Maß PW : n→∞
PS¯n =⇒ PW .
(21.32)
fdd
Wir wollen diese Konvergenzaussage verst¨arken zur schwachen Konvergenz der WMaße auf C([0, ∞)). Dazu formulieren wir als Hauptsatz dieses Abschnitts den Funktionalen Zentralen Grenzwertsatz, der in dieser Allgemeinheit auf Donsker [35] zur¨uckgeht. S¨atze von diesem Typ werden auch Invarianzprinzipien genannt, weil die Grenzverteilung die selbe ist f¨ur alle Verteilungen von Yi mit Erwartungswert 0 und selber Varianz.
21.8 Satz von Donsker
457
Satz 21.43 (Donsker’sches Invarianzprinzip). Im Sinne der schwachen Konvergenz auf C([0, ∞)) konvergieren die Verteilungen von S¯n gegen das Wiener-Maß n→∞
L[S¯n ] −→ PW .
(21.33)
Beweis. Wegen (21.32) und Satz 21.38 reicht es zu zeigen, dass (L[S¯n ], n ∈ N) straff ist. Daf¨ur m¨ochten wir das Kolmogorov’sche Momentenkriterium anwenden. Wie wir schon beim Beweis der Existenz der Brown’schen Bewegung gesehen haben, reichen hierf¨ur aber zweite Momente nicht aus, sondern wir ben¨otigen vierte Momente, damit wir β > 0 w¨ahlen k¨onnen. Die Strategie ist also, zun¨achst die Yi abzuschneiden, um vierte Momente zu erhalten, und dann f¨ur den abgeschnittenen Teil und den Hauptteil separat Straffheit zu zeigen. F¨ur K > 0 definieren wir YiK := Yi
{|Yi |≤K/2} −E[Yi
{|Yi |≤K/2} ]
und
ZiK := Yi −YiK
f¨ur i ∈ N.
K→∞
Dann gilt E[YiK ] = E[ZiK ] = 0 sowie Var[ZiK ] −→ 0 und Var[YiK ] ≤ σ 2 , i ∈ N. Außerdem ist offenbar |YiK | ≤ K f¨ur jedes i. Setze TnK :=
n
YiK
und
i=1
UnK :=
n
ZiK
f¨ur n ∈ N.
i=1
¯tK,n die linearen Interpolationen von Es seien T¯tK,n und U 1 K,n Tnt TtK,n := √ 2 σ n
und
tK,n := √ 1 U K,n U nt σ2 n
f¨ur t ≥ 0.
¯ K,n . Nach Korollar 21.41 reicht es zu zeigen, Offenbar ist S¯n = T¯K,n + U ¯ Kn ,n ], n ∈ N) und dass f¨ur eine noch zu w¨ahlende Folge (Kn )n∈N gilt: (L[U Kn ,n ¯ ], n ∈ N) sind straff. (L[T Wir betrachten zun¨achst den Restterm. U K ist ein Martingal. Die Doob’sche Ungleichung (Satz 11.2) liefert , + * ) √ K f¨ur jedes ε > 0. P sup |Ul | > ε n ≤ ε−2 Var Z1K l=1,...,n
Gilt jetzt Kn ↑ ∞, n → ∞, so haben wir f¨ur jedes N > 0 , + Kn ,n * n→∞ ) N ¯ > ε ≤ 2 Var Z1Kn −→ 0, P sup Ut ε t∈[0,N ] ¯ Kn ,n ], n ∈ N) straff. ¯ Kn ,n n→∞ =⇒ 0 in C([0, ∞)). Speziell ist (L[U also U
458
21 Die Brown’sche Bewegung
Wir berechnen nun f¨ur N > 0 und s, t ∈ [0, N ] die vierten Momente der DifferenKn ,n − T¯sKn ,n des Hauptteils. Im Folgenden setzen wir Kn = n1/4 . Sei nun zen T¯t+s n ∈ N fest gew¨ahlt. Wir unterscheiden zwei F¨alle. Fall 1: t < n−1 .
Sei k := (t + s)n. Ist sn ≥ k, so ist tn Kn ,n Kn T¯t+s − T¯sKn ,n = √ Yk+1 . 2 nσ
Ist sn < k, so ist 1 Kn ,n Kn T¯t+s ((t + s)n − k)Yk+1 − T¯sKn ,n = √ + (k − sn)YkKn . nσ 2 In beiden F¨allen ist √ Kn ,n T¯t+s − T¯sKn ,n ≤ t n |Y Kn | + |Y Kn | , k k+1 σ also ' ' 4 ( n2 t4 2 ( Kn ,n E T¯t+s ≤ 4 (2Kn )2 E |Y1Kn | + |Y2Kn | − T¯sKn ,n σ * ) 16 16n5/2 t4 ≤ Var Y1Kn ≤ 2 t3/2 . 4 σ σ
(21.34)
Fall 2: t ≥ n−1 . Mit dem binomischen Lehrsatz erhalten wir (beachte, * dass die ) gemischten Terme mit ungeraden Momenten wegfallen, wegen E Y1Kn = 0) ) * ) * n(n − 1) ) Kn 2 *2 E (TnKn )4 = n E (Y1Kn )4 + E (Y1 ) 2 n(n − 1) 4 σ . ≤ nKn2 σ 2 + 2
(21.35)
Wir bemerken, dass ) * angige, reelle Zufallsvariablen X, Y mit E[X] = ) *f¨ur unabh¨ E[Y ] = 0 und E X 4 , E Y 4 < ∞ sowie f¨ur a ∈ [−1, 1] gilt: * ) * ) * ) * ) * ) E (aX + Y )4 = a4 E X 4 + 6 a2 E X 2 E Y 2 + E Y 4 ) * ) * ) * ) * ≤ E X 4 + 6 E X 2 E Y 2 + E Y 4 = E[(X + Y )4 ]. Wir wenden dies zweifach an (mit a = (t + s)n − (t + s)n und a = sn − sn) und erhalten (mit der groben Absch¨atzung (t + s)n − sn ≤ tn + 2 ≤ 3tn) aus (21.35) (wegen t ≤ N )
21.8 Satz von Donsker
459
* * ) Kn ,n ) Kn Kn 4 E (T¯t+s − T¯sKn ,n )4 ≤ n−2 σ −4 E (T(t+s)n − Tsn ) ) Kn = n−2 σ −4 E (T(t+s)n
4 −sn )
*
3tnKn2 3 + 3t2 = 2 tn−1/2 + 3t2 n2 σ 2 σ √ 3 3/2 3 2 ≤ 2 t + 3t ≤ + 3 N t3/2 . σ σ2
≤
(21.36)
Nach (21.34) und (21.36) gibt es also zu jedem N > 0 eine Konstante C = C(N, σ 2 ), sodass f¨ur jedes n ∈ N und alle s, t ∈ [0, N ] gilt * ) Kn ,n E (T¯t+s − T¯sKn ,n )4 ≤ C t3/2 . Nach dem Kolmogorov’schen Momentenkriterium (Satz 21.42 mit α = 4 und β = 2 1/2) ist also (L[T¯Kn ,n ], n ∈ N) straff in M1 (C([0, ∞))). ¨ Ubung 21.8.1. Seien X1 , X2 , . . . u.i.v. Zufallsvariablen
stetiger Verteilungs n mit funktion F . Es sei Gn : [0, 1] → [−1, 1], t → n−1/2 i=1 [0,t] (F (Xi )) − t und Mn := Gn ∞ . Ferner sei M = supt∈[0,1] |Bt |, wo B eine Brown’sche Br¨ucke ist. (i) Man zeige E[Gn (t)] = 0 und Cov[Gn (s), Gn (t)] = s ∧ t − st f¨ur s, t ∈ [0, 1].
(ii) Man zeige E[(Gn (t) − Gn (s))4 ] ≤ C (t − s)2 + |t − s|/n f¨ur ein C > 0. (iii) Man folgere, dass eine geeignete stetige Version von G n schwach gegen B n konvergiert. Beispielsweise kann Hn (t) = n−1/2 i=1 hn (F (Xi ) − t) − t genommen werden, wo hn (s) = 1 − (s/εn ∨ 0) ∧ 1 f¨ur eine geeignete Folge εn ↓ 0. n→∞
(iv) Man zeige schließlich Mn =⇒ M . Bemerkung: Die Verteilung von M l¨asst sich durch die Formel von KolmogorovSmirnov ([97] und [146]) ausdr¨ucken (siehe etwa [125]): P[M > x] = 2
∞
(−1)n−1 e−2n
2
x2
.
(21.37)
n=1
Vergleiche hierzu auch (21.20). Mit Hilfe der Statistik Mn k¨onnen Zufallsvariablen bei bekannter Verteilung auf Unabh¨angigkeit getestet werden. Seien X1 , X2 , . . . ˜ 2 , . . . unabh¨angige Zufallsvariablen mit unbekannten, stetigen Vertei˜1, X und X lungsfunktionen F und F˜ und empirischen Verteilungsfunktionen Fn und F˜ . Ferner sei Dn := sup |Fn (t) − F˜n (t)|. t∈R
3 Unter der Annahme, dass F = F˜ gilt, konvergiert n/2 Dn in Verteilung gegen M . Diese Tatsache ist Grundlage von nichtparametrischen Tests auf Verteilungsgleichheit. ♣
460
21 Die Brown’sche Bewegung
21.9 Pfadweise Konvergenz von Verzweigungsprozessen∗ In diesem Abschnitt untersuchen wir die Konvergenz reskalierter Galton-Watson¨ Prozesse (Verzweigungsprozesse). Ahnlich wie f¨ur Summen unabh¨angiger Zufallsvariablen zeigen wir zun¨achst die Konvergenz zu einem festen Zeitpunkt gegen die Verteilungen eines Grenzprozesses. Hernach zeigen wir Konvergenz der endlichdimensionalen Verteilungen und schließlich mit Hilfe des Kolmogorov’schen Straffheitskriteriums die Konvergenz im Pfadraum C([0, ∞)). Wir betrachten einen Galton-Watson-Prozess (Zn )n∈N0 mit geometrischer Nachkommenverteilung p(k) = 2−k−1 f¨ur k ∈ N0 . Das heißt, wir betrachten u.i.v. Zufallsvariablen Xn,i , n, i ∈ N0 auf N0 mit P[Xn,i = k] = p(k), k ∈ N0 und definieren, ausgehend vom Startzustand Z0 , rekursiv Zn Xn,i . Zn+1 = i=1
¨ Z ist also eine Markovkette mit Ubergangswahrscheinlichkeiten p(i, j) = p∗i (j), ∗i wobei p die i-te Faltungspotenz von p ist. Mit anderen Worten: Sind Z, Z 1 , . . . , Z i unabh¨angige Kopien des Galton-Watson-Prozesses, mit Z0 = i und Z01 = . . . = Z0i = 1, so ist D (21.38) Z = Z 1 + . . . + Z i. Wir betrachten nun die Erzeugendenfunktion ψ (1) (s) := ψ(s) := E[sX1,1 ] von X1,1 , s ∈ [0, 1], und deren Iterierte ψ (n) := ψ (n−1) ◦ ψ f¨ur n ∈ N. Dann ist nach
i Lemma 3.10 Ei [sZn ] = E1 [sZn ]i = ψ (n) (s) . F¨ur die geometrische Verteilung k¨onnen wir ψ (n) leicht ausrechnen. Lemma 21.44. F¨ur den Verzweigungsprozess mit kritischer, geometrischer Nachkommenverteilung ist die n-te Iterierte der Erzeugendenfunktion ψ (n) (s) =
n − (n − 1)s . n + 1 − ns
Beweis. Wir berechnen ψ(s) =
∞ k=0
2−k−1 sk =
1 . −s + 2
Um die Iterierten auszurechnen, betrachten wir zun¨achst allgemeine linear rationale Funktionen der Form f (x) = ax+b ur f von dieser Form definieren wir die Matrix cx+d . F¨ ab Mf = . F¨ur zwei linear rationale Funktionen f und g ist Mf ◦g = Mf · Mg . cd Wir berechnen leicht
21.9 Pfadweise Konvergenz von Verzweigungsprozessen∗
Mψ =
−1 2 2 Mψ = , −2 3
0 1 , −1 2
und induktiv Mψn
=
Mψ3 =
461
−2 3 −3 4
−(n − 1)
n
−n
n+1
2
.
Setzen wir s = e−λ , so erhalten wir die Laplace-Transformierten von Zn Ei [e−λZn ] = ψ (n) (e−λ )i . Nach Beispiel 6.29 ergeben sich die Momente von Zn durch Differenzieren. Es gilt also: Lemma 21.45. Die Momente von Zn sind Ei [Znk ] = (−1)k
dk (n) −λ i . ψ (e ) dλk λ=0
(21.39)
Speziell sind die ersten sechs Momente Ei [Zn ] = i Ei [Zn2 ] = 2i n + i2 Ei [Zn3 ] = 6i n2 + 6i2 n + i3 Ei [Zn4 ] = 24i n3 + 36i2 n2 + (12i3 + 2i) n + i4 Ei [Zn5 ] Ei [Zn6 ]
4
2
3
3
(21.40) 2
4
2
= 120i n + 240i n + (120i + 30i) n + (20i + 10i ) n + i5 = 720i n5 + 1800i2 n4 + (1200i3 + 360i) n3 + (300i4 + 240i2 )n2 + (30i5 + 30i3 + 2i)n + i6 .
Insbesondere ist Z ein Martingal, und die ersten sechs zentrierten Momente sind Ei [(Zn − i)2 ] = 2i n Ei [(Zn − i)3 ] = 6i n2 Ei [(Zn − i)4 ] = 24i n3 + 12i2 n2 + 2i n
(21.41)
Ei [(Zn − i) ] = 120i n + 120i n + 30i n 5
4
2
3
2
Ei [(Zn − i)6 ] = 720i n5 + 1080i2 n4 + (120i3 + 360i) n3 + 60i2 n2 + 2i n. Beweis. Die genauen Formeln f¨ur die ersten sechs Momente erh¨alt man durch stures Ausrechnen von (21.39). 2 Wir betrachten jetzt die folgende Reskalierung: Wir fixieren x ≥ 0 und starten mit Z f¨ur t ≥ 0. Wir schreiben kurz Z0 = nx Individuen und betrachten Z˜tn := tn n
462
21 Die Brown’sche Bewegung
Lx [Z˜ n ] := Lnx [(n−1 Znt )t≥0 ].
(21.42)
Offenbar ist Ex [Z˜tn ] = nx ur jedes n, also ist (Lx [Z˜tn ], n ∈ N) straff. Indem n ≤ x f¨ wir Laplace-Transformierte betrachten, sehen wir sogar, dass f¨ur jedes λ ≥ 0 die Folge der Verteilungen konvergiert: nx ˜n lim Ex [e−λZt ] = lim ψ (tn) (e−λ/n ) n→∞ n→∞ nx nt − (nt − 1)e−λ/n = lim n→∞ nt + 1 − nt e−λ/n nx 1 − e−λ/n = lim 1 − (21.43) n→∞ n(1 − e−λ/n )t + 1 x n(1 − e−λ/n ) = exp − lim n→∞ n(1 − e−λ/n )t + 1 λ (x/t) := ψt (λ)x . = exp − λ + 1/t Die Funktion ψtx ist aber die Laplace-Transformierte der zusammengesetzten Poisson-Verteilung CPoi(x/t) exp1/t (siehe Definition 16.3). Wir betrachten jetzt den stochastischen Kern κt (x, dy) := CPoi(x/t) exp1/t (dy). Dies ist genau derjenige Kern auf [0, ∞), dessen Laplace-Transformierte gegeben ist durch ∞ κt (x, dy) e−λy = ψt (λ)x .
(21.44)
0
Lemma 21.46. (κt )t≥0 ist eine Markov’sche Halbgruppe, und es existiert ein Mar¨ Px [Yt ∈ dy] = κt (x, dy). kovprozess (Yt )t≥0 mit Ubergangskernen Beweis. Es reicht, die Chapman-Kolmogorov Gleichung κt · κs = κs+t zu zeigen. Wir berechnen die Laplace-Transformierten dieser Kerne: F¨ur λ ≥ 0 erhalten wir durch zweimaliges Anwenden von (21.44) λy −λz = κt (x, dy) exp − κt (x, dy)κs (y, dz) e λs + 1 λ = exp −
λs+1 λ λs+1 t +
1
x
λx = exp − λ(t + s) + 1 = κt+s (x, dz) e−λz .
2
Als n¨achstes zeigen wir, dass Y eine stetige Version besitzt. Daf¨ur berechnen wir Momente und ziehen den Satz von Kolmogorov-Chentsov (Satz 21.6) heran.
21.9 Pfadweise Konvergenz von Verzweigungsprozessen∗
463
Lemma 21.47. Wir erhalten die k-ten Momente von Yt durch Ableiten der LaplaceTransformierten dk Ex [Ytk ] = (−1)k k (ψ(λ)x ) , dλ λ=0 λ wobei ψt (λ) = exp − λt+1 . Speziell sind die ersten Momente Ex [Yt ] = x Ex [Yt2 ] = 2x t + x2 Ex [Yt3 ] = 6x t2 + 6x2 t + x3
(21.45)
Ex [Yt4 ] = 24x t3 + 36x2 t2 + 12x3 t + x4 Ex [Yt5 ] = 120x t4 + 240x2 t3 + 120x3 t2 + 20x4 t + x5 Ex [Yt6 ] = 720x t5 + 1800x2 t4 + 1200x3 t3 + 300x4 t2 + 30x5 t + x6 . Es ist also Y ein Martingal, und die ersten zentrierten Momente sind Ex [(Yt − x)2 ] = 2x t Ex [(Yt − x)3 ] = 6x t2 Ex [(Yt − x)4 ] = 24x t3 + 12x2 t2
(21.46)
Ex [(Yt − x) ] = 120x t + 120x t 5
4
2 3
Ex [(Yt − x)6 ] = 720x t5 + 1080x2 t4 + 120x3 t3 . ¨ Satz 21.48. Es existiert eine stetige Version des Markovprozesses Y mit Ubergangskernen (κt )t≥0 gegeben durch (21.44). Diese Version nennen wir Feller’sche Verzweigungsdiffusion oder den Feller’schen stetigen Verzweigungsprozess. Beweis. F¨ur festes N > 0 und s, t ∈ [0, N ] gilt ) * ) ) * * Ex (Yt+s − Ys )4 = Ex EYs [(Yt − Y0 )4 ] = Ex 24Ys t3 + 12Ys2 t2
= 24x t3 + 12(2sx + x2 ) t2 ≤ 48N x + 12x2 t2 . Mithin erf¨ullt Y die Bedingung aus Satz 21.6 (Kolmogorov-Chentsov) mit α = 4 und β = 1. 2 Bemerkung 21.49. (i) Indem man alle h¨oheren Momente heranzieht, kann man zeigen, dass die Pfade von Y H¨older-stetig sind von jeder Ordnung γ ∈ (0, 12 ). (ii) Man kann zeigen, dass Y die (eindeutige, starke) L¨osung der stochastischen (Itˆo’schen) Differentialgleichung (siehe Beispiele 26.11 und 26.31) 3 dYt = 2Yt dWt (21.47) ist, wobei W eine Brown’sche Bewegung ist.
3
464
21 Die Brown’sche Bewegung
n→∞ Satz 21.50. Es gilt Lx [Z˜ n ] −→ Lx [Y ]. fdd
Beweis. Wie in (21.43) erhalten wir f¨ur 0 ≤ t1 ≤ t2 und λ1 , λ2 ≥ 0, sowie x ≥ 0 ( ' ' ' ( ( ˜n ˜n ˜n ˜n lim Ex e−(λ1 Zt1 +λ2 Zt2 ) = lim Ex Ex e−λ2 Zt2 Z˜tn1 e−λ1 Zt1 n→∞ n→∞ + , λ2 ˜n Z˜tn1 e−λ1 Zt1 = lim Ex exp − n→∞ λ2 (t2 − t1 ) + 1 ⎛ ⎞ λ2 λ2 (t2 −t1 )+1 + λ1 x ⎠ = exp ⎝− λ2 + λ + 1 t 1 1 λ2 (t2 −t1 )+1 ) * = Ex exp(−(λ1 Yt1 + λ2 Yt2 )) . Wir erhalten also ) * n→∞ ) * Lx λ1 Z˜tn1 + λ2 Z˜tn2 −→ Lx λ1 Yt1 + λ2 Yt2 . Nach der Cram´er-Wold Device (Satz 15.55) folgt hieraus ) * n→∞ ) * Lx Z˜tn1 , Z˜tn2 −→ Lx Yt1 , Yt2 . Wir k¨onnen dieses Vorgehen jetzt iterieren und erhalten so f¨ur jedes k ∈ N und 0 ≤ t1 ≤ t 2 ≤ . . . ≤ t k ) * n→∞ ) * Lx Z˜tni i=1,...,k −→ Lx Yti i=1,...,k . 2
Dies ist aber die Behauptung.
Wir zeigen nun, dass die Konvergenz sogar im Pfadraum gilt. Hierzu m¨ussen wir den reskalierten Prozess noch stetig machen. Wir nehmen an, dass (Zin )i∈N0 , n ∈ N eine Folge von Galton-Watson-Prozessen ist, mit Z0n = nx. Wir definieren die linearen Interpolationen 1
n n n Z¯tn := t − n−1 tn Ztn+1 − Ztn . + Ztn n
Satz 21.51 (Lindvall (1972)). Die reskalierten Galton-Watson-Prozesse Z¯ n konvergieren f¨ur n → ∞ gegen die Feller’sche Diffusion Y im Sinne der schwachen Konvergenz in M1 (C([0, ∞))): n→∞ Lx [Z¯ n ] −→ Lx [Y ].
Beweis. Die Konvergenz der endlichdimensionalen Verteilungen ist schon gezeigt. Nach Satz 21.38 reicht es, die Straffheit von (Lx [Z¯ n ], n ∈ N) in M1 (C([0, ∞)))
21.10 Quadratische Variation und lokale Martingale
465
zu zeigen. Hierzu verwenden wir das Kriterium von Kolmogorov ) n(Satz 21.42 * mit − Z¯sn )4 f¨ur α = 4 und β = 1). Wir berechnen also die vierten Momente Ex (Z¯t+s s, t ∈ [0, N ] und f¨ur festes N > 0. Wir unterscheiden zwei F¨alle. Fall 1: t < n1 . Sei k = (t + s)n. Wir nehmen zun¨achst an, dass sn = k. Dann ist (nach Lemma 21.45) ) n * ) n * − Z¯sn )4 = n−4 (tn)4 Enx (Zk+1 − Zkn )4 Ex (Z¯t+s ) * = t4 Enx 24Zkn + 12(Zkn )2 + 2Zkn
= t4 26nx + 24nxk + nx2 ≤ 26x t3 + 24xs t2 + x2 t2 ≤ (50N x + x2 ) t2 . Der Fall sn = k − 1 liefert eine a¨ hnliche Absch¨atzung. Insgesamt erhalten wir eine Konstante C = C(N, x) mit ) n * Ex (Z¯s+t − Z¯sn )4 ≤ C t2
f¨ur alle s, t ∈ [0, N ] mit t <
1 . n
(21.48)
Fall 2: t ≥ n1 . Wir setzen jetzt k := (t + s)n − sn ≤ tn + 1 ≤ 2tn. Dann ist (nach Lemma 21.45) ) n * − Z¯sn )4 Ex (Z¯t+s ) n * n ≤ n−4 Enx (Z(t+s)n − Zsn )4 ) * n = n−4 Enx EZsn [(Zkn − Z0n )4 ] ' ( n n n (21.49) k 3 + 12(Zsn )2 k 2 + 2Zsn k = n−4 Enx 24Zsn
≤ n−4 24xn(2tn)3 + (24xn sn + 12x2 n2 )(2tn)2 + 4xtn2 ≤ 192xt3 + (96xs + 48x2 )t2 + 4xn−1 t2 ≤ (292N x + 48x2 ) t2 . Die Absch¨atzungen aus (21.48) und (21.49) ergeben zusammen, dass die Voraussetzungen des Kolmogorov’schen Straffheitskriteriums (Satz 21.42) erf¨ullt sind mit 2 α = 4 und β = 1. Also ist die Folge (Lx [Z¯ n ], n ∈ N) straff.
21.10 Quadratische Variation und lokale Martingale Nach dem Satz von Paley-Wiener-Zygmund (Satz 21.17) sind die Pfade t → Wt der Brown’schen Bewegung fast sicher nirgends differenzierbar, sind also von lokal unendlicher Variation. Insbesondere l¨asst sich das in Beispiel 21.29 betrachtete 01 stochastische Integral 0 f (s) dWs nicht als Lebesgue-Stieltjes Integral verstehen.
466
21 Die Brown’sche Bewegung
Um jedoch Integrale von diesem Typ auch f¨ur eine gr¨oßere Klasse von Integranden und Integratoren zu definieren, wollen wir hier vorbereitend die Pfadeigenschaften der Brown’schen Bewegung, und allgemeiner von stetigen lokalen Martingalen, genauer untersuchen. Definition 21.52. Sei G : [0, ∞) → R stetig. Wir definieren f¨ur jedes t ≥ 0 die Variation bis t durch 1 n−1 2 Gt − Gt : 0 = t0 ≤ t1 ≤ . . . ≤ tn = t, n ∈ N . Vt1 (G) := sup i+1 i i=0
Wir sagen, dass G von lokal endlicher Variation ist, falls Vt1 (G) < ∞ f¨ur alle t ≥ 0 und schreiben CV f¨ur den Vektorraum der stetigen Funktionen G mit stetiger Variation t → Vt1 (G). Bemerkung 21.53. Offenbar gilt V 1 (F + G) ≤ V 1 (F ) + V 1 (G) und V 1 (αG) = |α| V 1 (G) f¨ur alle stetigen F, G : [0, ∞) → R und f¨ur alle α ∈ R. Also ist CV tats¨achlich ein Vektorraum. 3 0t Bemerkung 21.54. (i) Ist G von der Form Gt = 0 f (s) ds f¨ur eine lokal inte0 t grierbare Funktion f , so ist G ∈ CV mit Vt1 (G) = 0 |f (s)| ds. (ii) Ist G = G+ − G− die Differenz zweier stetiger, monoton wachsender Funktionen G+ und G− , so ist − + − Vt1 (G) − Vs1 (G) ≤ (G+ t − Gs ) + (Gt − Gs )
f¨ur alle t > s,
(21.50)
also ist G ∈ CV . Gleichheit gilt in (21.50), wenn G− und G+ nicht auf den selben ” Mengen wachsen“, also formal gesprochen die Verteilungsfunktionen gegenseitig − + − + singul¨arer Maße μ und μ sind. Diese Maße μ und μ sind dann die JordanZerlegung des signierten Maßes μ = μ+ − μ− , dessen Verteilungsfunktion G ist. Das Lebesgue-Stieltjes Integral wird dann definiert durch t F (s) dGs := F dμ+ − F dμ− . (21.51) 0
[0,t]
[0,t]
(iii) Ist G ∈ CV , so sind offenbar G+ t :=
1 1 Vt (G) + Gt 2
und
eine Zerlegung von G wie in (ii) beschrieben.
G− t :=
1 1 Vt (G) − Gt 2 3
Dass die Pfade der Brown’schen Bewegung unendliche Variation haben, folgt schon aus ihrer Nichtdifferenzierbarkeit. Wir k¨onnen dies aber auch leicht direkt einsehen.
21.10 Quadratische Variation und lokale Martingale
467
Satz 21.55. Sei W eine Brown’sche Bewegung. Dann gilt Vt1 (W ) = ∞ fast sicher f¨ur jedes t > 0. Beweis. Es reicht, t = 1 zu betrachten und zu zeigen, dass 2 n→∞ Yn := Wi2−n − W(i−1)2−n −→ ∞ f.s. n
(21.52)
i=1
Es ist E[Yn ] = 2n/2 E[|W1 |] = 2n/2 Chebyshev’schen Ungleichung ist
3
2/π und Var[Yn ] = 1 − 2/π. Nach der
∞ ∞ ' ( 3 2π − 4 1 P Yn ≤ 2n/2 2/π ≤ = 2π − 4 < ∞. 2 2n n=1 n=1
2
Nach dem Lemma von Borel-Cantelli folgt (21.52).
Offenbar ist die Variation ein zu grobes Maß, um wesentliche Pfadeigenschaften der Brown’schen Bewegung zu messen. Wir wollen daher statt der Zuw¨achse (in der Definition der Variation) die (kleineren) quadratischen Zuw¨achse summieren. F¨ur die Definition dieser quadratischen Variation ist etwas mehr Vorsicht n¨otig als in Definition 21.52 f¨ur die Variation. Definition 21.56. Eine Folge P = (P n )n∈N von abz¨ahlbaren Teilmengen von [0, ∞) mit 0 = t0 < t1 < t2 < . . . P n := {t0 , t1 , t2 , . . .} heißt zul¨assige Zerlegungsfolge, falls gilt: (i) P 1 ⊂ P 2 ⊂ . . ., (ii) sup P n = ∞ f¨ur jedes n ∈ N, (iii) die Feinheit |P n | := sup
min
n t∈P n s∈P , s =t
|s − t|
geht f¨ur n → ∞ gegen 0. Sind 0 ≤ S < T , so schreiben wir n PS,T := P n ∩ [S, T )
und
PTn := P n ∩ [0, T ).
Ist t = tk ∈ PTn , so schreiben wir t := tk+1 ∧ T = min s ∈ PTn ∪ {T } : s > t . Beispiel 21.57. P n = {k2−n : k = 0, 1, 2, . . .}.
3
468
21 Die Brown’sche Bewegung
Definition 21.58. F¨ur stetige F, G : [0, ∞) p-Variation von G (entlang P) durch VTp (G) := VTP,p (G) := lim n→∞
→ R und p ≥ 1 definieren wir die Gt − Gt p
f¨ur T ≥ 0,
n t∈PT
falls der Grenzwert existiert. Speziell heißt G! := V 2 (G) die quadratische VariaP . tion von G. Ist T → VT2 (G) stetig, so schreiben wir G ∈ CqV := CqV Existiert f¨ur jedes T ≥ 0 der Grenzwert VTP,2 (F, G) := lim Ft − Ft Gt − Gt , n→∞
n t∈PT
so nennen wir F, G! := V 2 (F, G) := V P,2 (F, G) die quadratische Kovariation von F und G (entlang P).
Bemerkung 21.59. Ist p > p und VTp (G) < ∞, so ist VTp (G) = 0. Speziell ist G! ≡ 0, falls G von lokal endlicher Variation ist. 3 Bemerkung 21.60. Aufgrund der Dreiecksungleichung ist Gt − Gt ≥ Gt − Gt f¨ur alle n ∈ N, T ≥ 0. n+1 t∈PT
n t∈PT
Daher existiert der Limes im Fall p = 1 stets und stimmt, unabh¨angig von der Zer¨ legungsfolge P, mit V 1 (G) aus Definition 21.52 u¨ berein. Ahnliche Ungleichungen 2 gelten f¨ur V nicht, daher braucht der Limes nicht zu existieren oder kann von der Wahl von P abh¨angen. Wir werden im Folgenden jedoch f¨ur die Pfade einer großen Klasse von stetigen stochastischen Prozessen zeigen, dass V 2 zumindest f¨ur eine geeignete Zerlegungsfolge fast sicher existiert und (unabh¨angig von der gew¨ahlten Zerlegungsfolge) fast sicher eindeutig ist. 3 Bemerkung 21.61. (i) Existieren F + G!T und F − G!T , so existiert die Kovarianz F, G!T , und es gilt die Polarisationsformel F, G!T =
1 F + G!T − F − G!T . 4
(ii) Existieren F !T , G!T und F, G!T , so folgt aus der Cauchy-Schwarz’schen Ungleichung f¨ur die approximierenden Summen
3 VT1 F, G!T ≤ F !T G!T . 3 ¨ im Sinne des Bemerkung 21.62. Ist f ∈ C 1 (R) und G ∈ CqV , so ist (Ubung!) Lebesgue-Stieltjes Integrals T (f (Gs ))2 d G!s . 3 f (G)!T = 0
21.10 Quadratische Variation und lokale Martingale
469
Korollar 21.63. Ist F von lokal endlicher quadratischer Variation und gilt G! ≡ 0 (speziell also, falls G von lokal endlicher Variation ist), so ist F, G! ≡ 0 und F + G! = F !. Satz 21.64. F¨ur die Brown’sche Bewegung W und jede zul¨assige Zerlegungsfolge gilt W !T = T f¨ur alle T ≥ 0 f.s. Beweis. Wir beweisen dies nur f¨ur den Fall, wo ∞
|P n | < ∞
(21.53)
n=1
gilt. F¨ur den allgemeinen Fall skizzieren wir das Vorgehen. Gelte also (21.53). Falls W ! existiert, ist T → W !T monoton wachsend. Daher reicht es zeigen, dass W !T f¨ur jedes T ∈ Q+ = Q ∩ [0, ∞) existiert und W !T =
Kt )t≥0 = T −1/2 WtT eine Brown’sche Bewegung ist T fast sicher gilt. Da (W t≥0 −1 K und W !1 = T W !T gilt, reicht es, den Fall T = 1 zu betrachten. Setze Yn := Dann ist E[Yn ] =
(Wt − Wt )2
f¨ur alle n ∈ N.
t∈P1n
Var[Yn ] =
t∈P1n (t
− t) = 1 und
* ) Var (Wt − Wt )2 = (t − t)2 ≤ 2 |P n |.
t∈P1n
Nach Voraussetzung (21.53) gilt also n→∞ gilt Yn −→ 1 fast sicher.
∞ n=1
t∈P1n
Var[Yn ] ≤ 2
∞ n=1
|P n | < ∞, also n→∞
Verzichten wir auf die Bedingung (21.53), so gilt immer noch Var[Yn ] −→ 0, n→∞ also Vn −→ 1 stochastisch. Es ist allerdings nicht zu schwer zu zeigen, dass (Yn )n∈N ein R¨uckw¨artsmartingal ist (siehe etwa [132, Theorem I.28]) und daher fast sicher gegen 1 konvergiert. 2 K unabh¨angige Brown’sche Bewegungen, so gilt Korollar 21.65. Sind W und W K W, W !T = 0. √ √ K )/ 2 ) und (W − W K )/ 2 ) haben unBeweis. Die stetigen Prozesse ((W + W abh¨angige, normalverteilte Zuw¨achse, sind also Brown’sche Bewegungen. Nach Bemerkung 21.61(i) gilt : ; : ; : ; K K K = W +W − W −W 4 W, W T T T √ ; √ ; : : K )/ 2 − 2 (W − W K )/ 2 2 (W + W = 2T − 2T = 0. 2 T T
470
21 Die Brown’sche Bewegung
¨ Nach Ubung 21.4.2 ist (Wt2 − t)t≥0 ein stetiges Martingal. Offenbar ist auch Kt )t≥0 ein stetiges Martingal. Nach dem Gezeigten sind also die Prozesse (Wt W 2 K − W, W K ! Martingale. Wir werden sehen (Satz 21.70), dass W − W ! und W W die quadratische Variation M (ω)! eines quadratintegrierbaren, stetigen Martingals M stets existiert (f¨ur fast alle ω), und dass der Prozess M ! eindeutig charakterisiert ist durch die Eigenschaft, dass M 2 − M ! ein Martingal ist. Um eine a¨ hnliche Aussage auch f¨ur stetige Martingale zu erhalten, die nicht quadratisch integrierbar sind, treffen wir die folgende Definition. Definition 21.66 (Lokales Martingal). Sei F eine Filtration auf (Ω, F, P) und τ ein F-Stoppzeit. Ein adaptierter, reeller stochastischer Prozess M = (Mt )t≥0 heißt lokales Martingal bis τ , falls es eine Folge (τn )n∈N von Stoppzeiten gibt mit τn ↑ τ fast sicher, und so, dass f¨ur jedes n ∈ N der gestoppte Prozess M τn = (Mτn ∧t )t≥0 ein gleichgradig integrierbares Martingal ist. Eine solche Folge (τn )n∈N heißt lokalisierende Folge f¨ur M . M heißt lokales Martingal schlechthin, falls M ein lokales Martingal bis τ ≡ ∞ ist. Mit Mloc,c bezeichnen wir den Raum der stetigen lokalen Martingale. Bemerkung 21.67. Sei M ein stetiger, adaptierter Prozess und τ eine Stoppzeit. Dann sind a¨ quivalent: (i) M ist ein lokales Martingal bis τ . (ii) Es gibt eine Folge (τn )n∈N von Stoppzeiten mit τn ↑ τ fast sicher, sodass jedes M τn ein Martingal ist. (iii) Es gibt eine Folge (τn )n∈N von Stoppzeiten mit τn ↑ τ fast sicher, sodass jedes M τn ein beschr¨anktes Martingal ist. In der Tat: (iii) =⇒ (i) =⇒ (ii) ist trivial. Gelte also (ii), und sei τn definiert durch τn := inf{t ≥ 0 : |Mt | ≥ n}
f¨ur jedes n ∈ N.
Da M stetig ist, gilt τn ↑ ∞. Also ist (σn )n∈N := (τn ∧ τn ) eine lokalisierende 3 Folge f¨ur M , sodass jedes M σn ein beschr¨anktes Martingal ist. Bemerkung 21.68. Ein beschr¨anktes lokales Martingal M ist stets auch ein Martingal. In der Tat: Ist |Mt | ≤ C < ∞ fast sicher f¨ur alle t ≥ 0, und ist (τn )n∈N eine lokalisierende Folge f¨ur M , so gilt f¨ur jede beschr¨ankte Stoppzeit σ n→∞
Mτn ∧σ −→ Mσ
fast sicher und in L1 .
Nach dem Optional Sampling Theorem gilt ) * ) * ) * n→∞ ) * ) * E M0 = E M0τn = E Mστn = E Mτn ∧σ −→ E Mσ , also ist M ein Martingal.
3
21.10 Quadratische Variation und lokale Martingale
471
Beispiel 21.69. (i) Ein Martingal ist offenbar stets ein lokales Martingal. (ii) In Bemerkung 21.68 hatten wir gesehen, dass beschr¨ankte lokale Martingale auch Martingale sind. Andererseits ist selbst ein gleichgradig integrierbares lokales Martingal nicht notwendigerweise ein Martingal: Sei W = (W 1 , W 2 , W 3 ) eine dreidimensionale Brown’sche Bewegung (das heißt, W 1 , W 2 und W 3 sind unabh¨angige Brown’sche Bewegungen) mit Start in W0 = x ∈ R3 \ {0}. Sei u(y) = y−1
f¨ur y ∈ Rd \ {0}.
Man pr¨uft leicht nach, dass u harmonisch ist, dass also u(y) = 0 ist f¨ur alle y = 0. Wir werden sp¨ater sehen (Korollar 25.33 zur Itˆo-Formel), dass hieraus folgt, dass M := (u(Wt ))t≥0 ein lokales Martingal ist. Durch
τn := inf t > 0 : Mt ≥ n = inf t > 0 : Wt ≤ 1/n , n ∈ N, wird eine lokalisierende Folge f¨ur M definiert. Andererseits liefert eine explizite t→∞ Rechnung mit der dreidimensionalen Normalverteilung E[Mt ] ≤ t−1/2 −→ 0, t→∞ also ist M integrierbar aber kein Martingal. Wegen Mt −→ 0 in L1 ist M sogar gleichgradig integrierbar. 3
Satz 21.70. Sei M ein stetiges lokales Martingal. (i) Es existiert ein eindeutig bestimmter, stetiger, monoton wachsender, adaptierter Prozess M ! = ( M !t )t≥0 mit M !0 = 0, sodass gilt:
2 Mt − M !t t≥0 ist ein stetiges lokales Martingal. (ii) Ist M ein stetiges, quadratisch integrierbares Martingal, so ist M 2 − M ! ein Martingal. (iii) F¨ur jede zul¨assige Zerlegungsfolge P = (P n )n∈N gilt 2 n→∞ Mt − Mt −→ M !T stochastisch UTn :=
f¨ur alle T ≥ 0.
n t∈PT
Der Prozess M ! heißt quadratischer Variationsprozess von M . Bemerkung 21.71. Indem wir in (iii) gegebenenfalls zu einer (von T abh¨angigen) n→∞ Teilfolge P u¨ bergehen, k¨onnen wir annehmen, dass UTn −→ M !T fast sicher gilt. Durch ein Diagonalfolgenargument erhalten wir (wie im Beweis des Satzes von n→∞ Helly) eine Zerlegungsfolge, sodass UTn −→ M !T fast sicher f¨ur alle T ∈ Q+ gilt. Aufgrund der Monotonie und der Stetigkeit von T → UTn und T → M !T n→∞ folgt UTn −→ M !T f¨ur alle T ≥ 0 fast sicher. Also ist f¨ur diese Zerlegungsfolge
472
21 Die Brown’sche Bewegung
die pfadweise definierte quadratische Variation fast sicher gleich dem quadratischen Variationsprozess: 3 M (ω)! = V 2 (M (ω)) = M !(ω). Beweis (von Satz 21.70). Schritt 1. Sei zun¨achst |Mt | ≤ C fast sicher f¨ur alle t ≥ 0 f¨ur ein C < ∞. Insbesondere ist M dann ein Martingal (nach Bemerkung 21.68). Es gilt UTn = MT2 − M02 − NTn , wobei
Mt Mt − Mt , T ≥ 0, NTn = 2 n t∈PT
ein stetiges Martingal ist. Wenn wir zeigen k¨onnen, dass (UTn )n∈N f¨ur jedes T ≥ 0 eine Cauchy-Folge in L2 (P) ist, so ist auch (NTn )n∈N eine Cauchy-Folge, und wir T von (N n )n∈N definieren. Nach Ubung eine ¨ k¨onnen den L2 -Limes N 21.4.3 hat N T n n→∞ 2 stetige Modifikation N , und es gilt NT −→ NT in L f¨ur alle T ≥ 0. Mithin existiert ein stetiger Prozess M ! mit n→∞
UTn −→
M !T
in L2
f¨ur alle T ≥ 0,
(21.54)
und N = M 2 − M02 − M ! ist ein stetiges Martingal. Wir zeigen nun also f¨ur T ≥ 0 (UTn )n∈N ist eine Cauchy-Folge in L2 . F¨ur m ∈ N sei Zm := max
Mt − Ms
2
(21.55)
n : s ∈ PTm , t ∈ Ps,s , n ≥ m .
Da M fast sicher gleichm¨aßig stetig auf [0, T ] ist, gilt Zm Wegen Zm ≤ 4C 2 folgt ) 2 * m→∞ −→ 0. E Zm
m→∞
−→
0 fast sicher. (21.56)
F¨ur n ∈ N und Zahlen a1 , . . . , an gilt (an − a0 )2 −
n−1
(ak+1 − ak )2 = 2
k=0
n−1
(ak − a0 )(ak+1 − a0 ).
k=0
Wenden wir dies in der folgenden Gleichung auf jeden einzelnen Summanden der a¨ ußeren Summe an, so erhalten wir f¨ur m ∈ N und n ≥ m 2 2 m n Ms − M s − Mt − Mt UT − UT = m s∈PT
=2
m t∈P n s∈PT s,s
n t∈Ps,s
Mt − Ms Mt − Mt .
(21.57)
21.10 Quadratische Variation und lokale Martingale
473
Da M ein Martingal ist, ist f¨ur s1 , s2 ∈ PTm und t1 ∈ Psn1 ,s , t2 ∈ Psn2 ,s mit 1 2 t1 < t2 ' ( E Mt1 − Ms1 Mt1 − Mt1 Mt2 − Ms2 Mt2 − Mt2 ' ) *( = E Mt1 − Ms1 Mt1 − Mt1 Mt2 − Ms2 E Mt2 − Mt2 Ft2 = 0.
2 Wenn wir mit Hilfe von (21.57) den Erwartungswert von UTm − UTn berechnen, fallen also die gemischten Terme weg, und wir erhalten (unter Benutzung der Cauchy-Schwarz’schen Ungleichung in der dritten Zeile) + , * ) (Mt − Ms )2 (Mt − Mt )2 E (UTn − UTm )2 = 4 E m t∈P n s∈PT s,s
+ , 2 Mt − Mt ≤ 4 E Zm
(21.58)
n t∈PT
+ ,
2 2 1/2 ) 2 *1/2 Mt − Mt E . ≤ 4 E Zm n t∈PT
Wir sch¨atzen den zweiten Faktor ab durch , + , +
2 2
4 Mt − Mt Mt − Mt =E E n t∈PT
+ 2E
n t∈PT
+
Ms − Ms
n s∈PT
2
Mt − Mt
2
, .
(21.59)
n t∈Ps,T
Der erste Summand in (21.59) ist beschr¨ankt durch + ,
2 * ) 2 Mt − Mt 4C E = 4C 2 E (MT − M0 )2 ≤ 16 C 4 . n t∈PT
Der zweite Summand in (21.59) ist gleich ,, + +
2
2 Ms − Ms E Mt − Mt Fs 2E n s∈PT
n t∈Ps,T
+
= 2E
Ms − Ms
* 2 ) E (MT − Ms )2 Fs
n s∈PT
* ) ≤ 8C 2 E (MT − M0 )2 ≤ 32 C 4 . Es gilt also nach (21.58) und (21.56) √ * ) ) 2 *1/2 m→∞ −→ 0. sup E (UTn − UTm )2 ≤ 16 3 C 2 E Zm
n≥m
,
474
21 Die Brown’sche Bewegung
Damit ist (21.55) gezeigt. Schritt 2. Sei nun M ∈ Mloc,c und (τN )N ∈N eine lokalisierende Folge, sodass jedes M τN ein beschr¨anktes Martingal ist (siehe Bemerkung 21.67). Nach Schritt 1 gilt f¨ur T ≥ 0 und N ∈ N 2 n→∞ MtτN − MtτN −→ M τN !T in L2 . UTN,n := n t∈PT
Wegen UTN,n = UTN +1,n , falls T ≤ τN , gibt es einen stetigen Prozess U mit n→∞ UTN,n −→ UT stochastisch, falls T ≤ τN . Also gilt M τN !T = M !T := UT , falls T ≤ τN . Wegen τN ↑ ∞ fast sicher, gilt f¨ur alle T ≥ 0 n→∞
UTn −→ M !T stochastisch.
Da (MTτN )2 − M τN !T T ≥0 ein stetiges Martingal ist und M τN ! = M !τN gilt, folgt M 2 − M ! ∈ Mloc,c . Schritt 3. Wir m¨ussen noch (ii) zeigen. Sei also M ein stetiges, quadratintegrierbares Martingal und (τn )n∈N eine lokalisierende Folge f¨ur das lokale Martingal M 2 − M !. Sei T > 0 und τ ≤ T eine Stoppzeit. Da M 2 ein nichtnegatives Submartingal ist, ist Mτ2n ∧τ ≤ E[MT |Fτn ∧τ ], also ist (Mτ2n ∧τ )n∈N gleichgradig integrierbar und damit * * * ) * ) * ) * ) ) ) E Mτ2 = lim E Mτ2n ∧τ = lim E M !τn ∧τ +E M02 = E M !τ +E M02 , n→∞
n→∞
wobei wir im letzten Schritt den Satz u¨ ber monotone Konvergenz ausgenutzt haben. Nach dem Optional Sampling Theorem ist also M 2 − M ! ein Martingal. Schritt 4. (Eindeutigkeit) Seien A und A stetige, monoton wachsende, adaptierte Prozesse mit A0 = A0 , sodass M 2 − A und M 2 − A lokale Martingale sind. Dann ist auch N = A − A ein lokales Martingal, und f¨ur fast alle ω hat der Pfad N (ω) endliche Variation. Daher ist N ! ≡ 0 und damit N 2 − N ! = N 2 ein stetiges lokales mit N0 = 0. Sei (τn )n∈N eine lokalisierende Folge f¨ur N 2 . Dann * ) Martingal 2 ist E Nτn ∧t = 0 f¨ur jedes n ∈ N und t ≥ 0, also ist Nτ2n ∧t = 0 fast sicher und damit Nt2 = limn→∞ Nτ2n ∧t = 0 fast sicher. Es folgt A = A .
2
Korollar 21.72. Sei M ein stetiges lokales Martingal mit M ! ≡ 0. Dann ist Mt = M0 f¨ur alle t ≥ 0 fast sicher. Speziell gilt dies, falls die Pfade von M von lokal endlicher Variation sind. Korollar 21.73. Seien M, N ∈ Mloc,c . Dann existiert ein eindeutig bestimmter stetiger, adaptierter Prozess M, N ! von fast sicher lokal endlicher Variation mit M, N !0 = 0, sodass gilt: M N − M, N ! ist ein stetiges lokales Martingal.
21.10 Quadratische Variation und lokale Martingale
475
M, N ! heißt quadratischer Kovariationsprozess von M und N . Es gilt f¨ur jede zul¨assige Zerlegungsfolge P und jedes T ≥ 0 M, N !T = lim Mt − Mt Nt − Nt stochastisch. (21.60) n→∞
n t∈PT
Offenbar gilt M + N, M − N ∈ Mloc,c . Wir definieren
Beweis. Existenz.
M, N ! :=
1 M + N! − M − N! . 4
Als Differenz monoton wachsender Funktionen ist M, N ! von lokal endlicher Variation. Wegen Satz 21.70(iii) folgt (21.60). Weiter ist M N − M, N ! =
1 1 (M + N )2 − M + N ! − (M − N )2 − M − N ! 4 4
ein lokales Martingal. Eindeutigkeit. Seien A und A mit A0 = A0 = 0 stetig, adaptiert und von lokal endlicher Variation, sodass M N − A und M N − A in Mloc,c sind. Dann ist 2 A − A ∈ Mloc,c von lokal endlicher Variation, also A − A = 0. Korollar 21.74. Ist M ∈ Mloc,c und A stetig und adaptiert mit A! ≡ 0, so ist M + A! = M !. Ist M ein stetiges lokales Martingal bis zur Stoppzeit τ , so ist M τ ∈ Mloc,c , und wir schreiben M !t := M τ !t f¨ur t < τ . Satz 21.75. Sei τ ein Stoppzeit und M ein stetiges lokales Martingal bis τ sowie τ0 < τ eine Stoppzeit mit E[ M !τ0 ] < ∞. Dann ist E[Mτ0 ] = E[M0 ], und M τ0 ist ein L2 -beschr¨anktes Martingal. Beweis. Sei τn ↑ τ eine lokalisierende Folge von Stoppzeiten f¨ur M , sodass jedes M τn sogar ein beschr¨anktes Martingal ist (siehe Bemerkung 21.67). Dann ist auch M τ0 ∧τn ein beschr¨anktes Martingal, und es gilt f¨ur jedes t ≥ 0 * ) * ) * ) * ) * ) E Mτ2τ0 ∧τn ∧t = E M02 +E M !τ0 ∧τn ∧t ≤ E M02 +E M !τ0 < ∞. (21.61)
Da also (Mτ0 ∧τn ∧t ), n ∈ N, t ≥ 0 beschr¨ankt in L2 und damit gleichgradig integrierbar ist, gilt (nach dem Optional Sampling Theorem f¨ur gleichgradig integrierbare Martingale) E[Mτ0 ] = lim E[Mτ0 ∧τn ] = E[M0 ], n→∞
und f¨ur t > s
476
21 Die Brown’sche Bewegung
' * ( ) E Mtτ0 Fs = E lim Mtτ0 ∧τn Fs n→∞ * ) = lim E Mtτ0 ∧τn Fs n→∞
= lim Msτ0 ∧τn = Msτ0 . n→∞
Also ist M
τ0
2
ein Martingal.
* ) Korollar 21.76. Ist M ∈ Mloc,c und E M !t < ∞ f¨ur jedes t ≥ 0, so ist M ein quadratintegrierbares Martingal. ¨ Ubung 21.10.1. Zeige, dass die Zufallsvariablen (Yn )n∈N aus dem Beweis von Satz 21.64 ein R¨uckw¨artsmartingal bilden. ♣ P ¨ Ubung 21.10.2. Sei f : [0, ∞) → R stetig und X ∈ CqV f¨ur die zul¨assige Zerlegungsfolge P. Man zeige:
T
f (s) d X!s = lim 0
n→∞
f (t) Xt − Xt )2
f¨ur alle T ≥ 0.
♣
n t∈PT
¨ Ubung 21.10.3. Man zeige durch ein Gegenbeispiel: Ist * M ein stetiges lokales Mar) τ ein Stoppzeit mit E M ! tingal mit M0 = 0 und τ = ∞, so folgt hieraus nicht ) 2* ♣ notwendigerweise E Mτ = ∞.
22 Gesetz vom iterierten Logarithmus
F¨ur Summen unabh¨angiger Zufallsvariablen kennen wir bislang zwei Grenzwerts¨atze: das Gesetz der großen Zahl und den Zentralen Grenzwertsatz. Das Gesetz der großen Zahl beschreibt f¨ur großes n ∈ N das typische oder Mittelwertverhalten von Summen von n Zufallsvariablen, w¨ahrend der Zentrale Grenzwertsatz die typischen Fluktuationen um diesen Mittelwert quantitativ erfasst. In Kapitel 23 werden wir die untypisch großen Fluktuationen (große Abweichungen) quantitativ erfassen. Dagegen ist das Thema dieses Kapitels die genauere quantitative Erfassung der typischen Fluktuationen, aber nun im gesamten zeitlichen Verlauf n → ∞.√Die Botschaft lautet in etwa: W¨ahrend zu fester Zeit die Partialsumme (Zentraler Grenzwertsatz), ist Sn um etwa n von ihrem Erwartungswert abweicht √ die maximale Fluktuation von der Ordnung n log log n (Satz von Hartman und Wintner, Satz 22.9). Wir beginnen mit der etwas leichteren Aufgabe, diese Fluktuationen zun¨achst f¨ur die Brown’sche Bewegung auszurechnen (Satz 22.1). Danach werden wir sehen, wie man Summen unabh¨angiger Zufallsvariablen (mit endlicher Varianz) in eine Brown’sche Bewegung einbetten kann (Satz von Skorohod, Satz 22.5), um damit die Aussage des Satzes von Hartman und Wintner zu zeigen. Wir folgen in diesem Kapitel in Teilen der Darstellung in [38, Kapitel 7.9].
¨ die Brown’sche Bewegung 22.1 Iterierter Logarithmus fur Sei (Bt )t≥0 eine Brown’sche Bewegung. In Beispiel 21.16 haben wir√als Anwendung des Blumenthal’schen 0-1 Gesetzes gesehen, dass lim supt↓0 Bt / t = ∞ f.s. Da nach Satz 21.14 auch (tB1/t )t≥0 eine Brown’sche Bewegung ist, folgt Bt lim sup √ = ∞ f.s. t t→∞ √ Unser Ziel in diesem Abschnitt ist es, t durch eine Funktion zu ersetzen, sodass der Limes superior endlich und nichttrivial wird.
478
22 Gesetz vom iterierten Logarithmus
¨ die Brown’sche Bewegung). Satz 22.1 (Gesetz vom iterierten Logarithmus fur Es gilt Bt = 1 f.s. (22.1) lim sup 3 t→∞ 2t log log(t) Bevor wir den Satz beweisen, bringen wir ein elementares Lemma. Lemma 22.2. Sei X ∼ N0,1 standardnormalverteilt. Dann ist f¨ur jedes x > 0 1 1 √ 2π x +
2
1 x
e−x
/2
1 1 −x2 /2 e ≤ P[X ≥ x] ≤ √ . 2π x
(22.2)
2
Beweis. Sei ϕ(t) = √12π e−t /2 die Dichte der Standardnormalverteilung. Partielle Integration liefert die zweite Ungleichung in (22.2): ∞ ∞ ∞ 1 1 1 1 (tϕ(t)) dt = − ϕ(t) − ϕ(t) dt ≤ ϕ(x). P[X ≥ x] = 2 t t t x x x x Analog ist 1 1 P[X ≥ x] ≥ ϕ(x) − 2 x x
∞
ϕ(t) dt = x
1 1 ϕ(x) − 2 P[X ≥ x]. x x
Hieraus folgt die erste Ungleichung in (22.2).
2
Beweis von Satz 22.1 1. Schritt: ≤“ Betrachte zun¨achst die Folge tn = αn f¨ur ein α > 1. Sp¨ater ” wollen wir α ↓ 1 gehen lassen. Setze f (t) = 2α2 log log t. Dann ist nach dem Spiegelungsprinzip (Satz 21.19) und mit der Abk¨urzung B[a,b] := {Bt : t ∈ [a, b]} ' ( ' ( 3 3 −1/2 P sup B[tn ,tn+1 ] > tn f (tn ) ≤ P tn+1 sup B[0,tn+1 ] > f (tn )/α ' ( 3 = P sup B[0,1] > f (tn )/α L α e−f (tn )/2α ≤ (22.3) f (tn ) L α n−α = (log α)−α f (tn ) ≤ n−α
f¨ur hinreichend großes n,
wobei wir im vorletzten Schritt benutzt haben, dass
f (tn ) = α log(n log α) = α log n + α log log α. 2α
22.1 Iterierter Logarithmus f¨ur die Brown’sche Bewegung
479
Wegen α > 1 ist die rechte Seite von (22.3) summierbar in n ∞ ' ( 3 P sup B[tn ,tn+1 ] > tn f (tn ) < ∞. n=1
Das Lemma von Borel-Cantelli (Satz 2.7) liefert jetzt (merke: t → noton wachsend) Bt lim sup 3 ≤ 1 f.s. t→∞ tf (t) Wir lassen α ↓ 1 gehen und erhalten Bt lim sup √ ≤1 2t log log t t→∞
3
tf (t) ist mo-
f.s.
(22.4)
2. Schritt: ≥“ Wir zeigen nun die andere Ungleichung in (22.1). Hierf¨ur lassen ” α > 1 und g(t) = β22 log log t. W¨ahle n0 so groß, wir α → ∞ gehen. Setze β := α−1 dass βg(tn ) ≥ 1 ist f¨ur n ≥ n0 . Dann ist nach der Brown’schen Skalierung (merke: tn − tn−1 = β1 tn ) und (22.2) (wegen (x + x1 )−1 ≥ 12 x1 f¨ur x = (βg(tn ))1/2 ≥ 1) ' ( ' ( 3 3 P Btn − Btn−1 > tn g(tn ) = P B1 > βg(tn ) 1 1 1 3 e−βg(tn )/2 ≥√ 2 2π βg(tn ) 1 1 1 (log α)−1/β 3 n−1/β . =√ 2π 2 βg(tn ) Ist ε ∈ (0, 1 − 1/β), so ist f¨ur hinreichend großes n ∈ N die rechte Seite der vorangehenden Gleichung ≥ n−ε n−1/β ≥ n−1 . Also ist ∞ ' ( 3 P Btn − Btn−1 > tn g(tn ) = ∞. n=2
Die Ereignisse sind unabh¨angig, daher liefert das Lemma von Borel-Cantelli ' ( 3 (22.5) P Btn − Btn−1 > tn g(tn ) f¨ur unendlich viele n = 1. tn log log tn n→∞ −→ α folgt aus (22.4) zusammen mit der Symmetrie tn−1 log log tn−1 der Brown’schen Bewegung f¨ur ε > 0 3 Btn−1 > −(1 + ε)α−1/2 2tn log log tn f¨ur fast jedes n ∈ N f.s. (22.6)
Wegen
Aus (22.5) und (22.6) folgt Btn 1 α−1 − (1 + ε)α−1/2 lim sup √ ≥ − (1 + ε)α−1/2 = β α 2tn log log tn n→∞
f.s.
Bt Lassen wir nun α → ∞, so erhalten wir lim sup √ ≥ 1 f.s. Zusammen 2t log log t t→∞ mit (22.4) folgt die Aussage des Satzes. 2
480
22 Gesetz vom iterierten Logarithmus
Korollar 22.3. Es gilt fast sicher lim sup 3 t↓0
Bt 2t log log(1/t)
= 1.
Beweis. Nach Satz 21.14 ist (tB1/t ) eine Brown’sche Bewegung. Wende hierauf Satz 22.1 an. 2 Bemerkung 22.4. Die Aussage von Korollar 22.3 betrifft die typischen Punkte der Brown’schen Bewegung B. Wie sieht es aber aus, 3 wenn wir nach der Existenz von Punkten t fragen, in denen sich B schneller als 2t log log(1/t) bewegt? 3 Auskunft gibt hier ein Satz von Paul L´evy [103]: Bezeichnen wir mit h(δ) := 2δ log(1/δ) den L´evy’schen Stetigkeitsmodul, so ist ( ' (22.7) P lim sup |Bt − Bs |/h(δ) = 1 = 1. δ↓0
s,t∈[0,1] 0≤t−s≤δ
(Siehe etwa [137, Theorem I.2.5] f¨ur einen Beweis.) Hieraus folgt insbesondere, 3 dass B fast sicher nicht lokal H¨older- 12 -stetig ist.
22.2 Skorohod’scher Einbettungssatz Um das Ergebnis des vorigen Abschnitts auf Summen von quadratintegrierbaren, zentrierten Zufallsvariablen zu u¨ bertragen, brauchen wir eine Einbettung von solchen Zufallsvariablen in eine Brown’sche Bewegung. Die gew¨unschte Darstellung liefert der Satz von Skorohod. Mit dieser Technik l¨asst sich auch ein alternativer Beweis des Satzes von Donsker (Invarianzprinzip, Satz 21.43) angeben. Satz 22.5 (Skorohod’scher Einbettungssatz). Sei X eine reelle Zufallsvariable mit E[X] = 0 und Var[X] < ∞. Dann existiert auf einem geeigneten Wahrscheinlichkeitsraum eine Filtration F und eine Brown’sche Bewegung B, die ein F-Martingal ist, sowie eine F–Stoppzeit τ mit D
Bτ = X
und
E[τ ] = Var[X].
Bemerkung 22.6. Man kann auch zeigen, dass F = σ(B) gew¨ahlt werden kann. Das ist allerdings aufw¨andiger und wird hier nicht ben¨otigt. 3 Korollar 22.7. Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit E[X1 ] = 0 und Var[X1 ] < 1. Ferner sei Sn = X1 + . . . + Xn , n ∈ N. Dann gibt es auf einem geeigneten Wahrscheinlichkeitsraum eine Filtration F und eine Brown’sche Bewegung B, die ein F-Martingal ist, sowie F–Stoppzeiten 0 = τ0 ≤ τ1 ≤ τ2 ≤ . . . mit: D (τn − τn−1 )n∈N ist u.i.v., E[τ1 ] = Var[X1 ] und (Bτn )n∈N = (Sn )n∈N .
22.2 Skorohod’scher Einbettungssatz
481
Zur Vorbereitung des Beweises bringen wir ein Lemma. Wir wollen dabei als Integranden Maße zulassen. Wir verwenden deshalb 0 folgende Notation: Ist μ ∈ M(E) ein Maß und f ∈ L1 (μ) nichtnegativ, so wird μ(dx)f (x)δx := f μ definiert, wobei f μ das Maß mit Dichte f bez¨uglich μ ist. Dies ist konsistent, denn f¨ur messbares A ⊂ E ist dann μ(dx)f (x)δx (A) = μ(dx)f (x)δx (A) = μ(dx)f (x) A (x) = f μ(A). 0 0 Lemma 22.8. Sei μ ∈ M1 (R) mit x μ(dx) = 0 und σ 2 := x2 μ(dx) < ∞. Dann existiert ein W-Maß θ ∈ M1 ((−∞, 0) × [0, ∞)) mit v −u μ = θ(d(u, v)) δu + δv . (22.8) v−u v−u 0 Es ist σ 2 = − uv θ(d(u, v)). Beweis. Wir setzen m :=
0 [0,∞)
v μ(dv) = −
0 (−∞,0)
θ(d(u, v)) := m−1 (v − u) μ(du)μ(dv) Dann ist
−1
f¨ur u < 0 und v ≥ 0.
θ(d(u, v)) = m
μ(dv) (v − u)
μ(du) (−∞,0)
= m−1
u μ(du) und
[0,∞)
μ(du) [m − uμ([0, ∞))] (−∞,0)
= m−1 mμ((−∞, 0) + mμ([0, ∞)) = 1. Es ist also tats¨achlich θ ein W-Maß. Weiter gilt −u v δu + δv θ(d(u, v)) v−u v−u −1 =m μ(du) μ(dv) (vδu − uδv ) (−∞,0) [0,∞) = μ(du) δu + μ(dv) δv = μ. (−∞,0)
Aus (22.8) folgt direkt 2 2 σ = μ(dx) x = θ(d(u, v))
[0,∞)
−u 2 v 2 u + v = − θ(d(u, v)) uv. 2 v−u v−u
482
22 Gesetz vom iterierten Logarithmus
Beweis (Satz 22.5). Wir nehmen zun¨achst an, dass X nur die zwei Werte u < 0 v = 1 − P[X = v]. Sei und v ≥ 0 annimmt: P[X = u] = v−u
τu,v = inf t > 0 : Bt ∈ {u, v} . D
¨ Nach Ubung 21.2.4 ist E[Bτu,v ] = 0 also Bτu,v = X, sowie E[τu,v ] = −uv. Sei nun X beliebig mit E[X] = 0 und σ 2 := E[X 2 ] < ∞. Setze μ = PX und θ = θμ wie in Lemma 22.8. Ferner sei Ξ = (Ξu , Ξv ) eine Zufallsvariable mit Werten in (−∞, 0) × [0, ∞) und Verteilung θ. Sei F = (Ft )t≥0 , wobei Ft := σ(Ξ, Bs : s ∈ [0, t]) ist. Setze τ := τΞu ,Ξv . Auf Grund der Stetigkeit von B und wegen τ ≤ τu,v , falls u < Ξu und v > Ξv , ist f¨ur jedes t ≥ 0
Ξ ∈ (u, 0) × [0, v) ∩ {τu,v ≤ t} ∈ Ft . {τ ≤ t} = u,v∈Q u<0
Also ist τ eine F-Stoppzeit (aber keine Stoppzeit bez¨uglich σ(B)). F¨ur x < 0 ist v P[X ≤ x] = θ(d(u, v)) v−u (−∞,x]×[0,∞) θ(d(u, v)) P[Bτu,v = u] = P[Bτ ≤ x]. = (−∞,x]×[0,∞) D
F¨ur x ≥ 0 ist analog P[X > x] = P[Bτ > x], also insgesamt Bτ = X. Weiter ist 2 E[τ ] = −E[Ξu Ξv ] = − θ(d(u, v)) uv = σ 2 .
Erg¨anzung: Beweis von Bemerkung 22.6 Wir beweisen hier, dass man im Skorohod’schen Einbettungssatz tats¨achlich ohne randomisierte Stoppzeiten auskommt, also eine Stoppzeit bez¨uglich der von der Brown’schen Bewegung B erzeugten Filtration w¨ahlen kann. Mit anderen Worten, man kann die Stoppzeit τ w¨ahlen, ohne dass man auf zus¨atzliche Zufallsvariablen, wie Ξ im obigen Beweis, zur¨uckgreifen muss. Ein eleganter Beweis, der allerdings auf Methoden der stochastischen Analysis basiert, findet sei bei Az´ema und Yor, siehe [6]. Wir folgen hier einer elementaren Route, die auf Ideen von Dubins zur¨uckgreift. ¨ 21.2.4 ist F¨ur u < 0 < v sei τu,v = inf{t > 0 : Bt ∈ {u, v}}. Nach Ubung E[Bτu,v ] = 0 und E[τu,v ] = −uv. Die Idee ist, dass man X als Summe von unkorrelierten Zufallsvariablen (n¨amlich Martingaldifferenzen) mit Zweipunktverteilungen schreibt, wobei die Abst¨ande zwischen diesen Punkten immer kleiner werden.
22.2 Skorohod’scher Einbettungssatz
483
F¨ur n ∈ N und σ ∈ {−, +}n setzen wir (σ, +) := (σ1 , . . . , σn , +) ∈ {−, +}n+1 . F¨ur σ ∈ {−, +}0 := {∅} setzen wir (∅, +) = (+). Analog verfahren wir f¨ur (σ, −). Wir definieren sukzessive Mengen Aσ und Punkte μσ f¨ur σ ∈ {−, +}n , n ∈ N0 durch A∅ := R,
μ∅ := E[X],
A(σ,+) := Aσ ∩ [μσ , ∞), A(σ,−) := Aσ ∩ (−∞, μσ ), * ) μ(σ,+) := E X X ∈ A(σ,+) , (σ,−)
μ
) * E X X ∈ A(σ,−) , := μσ ,
) * falls P X ∈ A(σ,−) > 0, sonst.
Man beachte, dass die Abbildung σ → μσ monoton ist in der lexikographischen Ordnung ((σ, −) ≤ σ ≤ (σ, +) f¨ur jedes σ). Setze und G∞
f¨ur n ∈ N0 , Gn := σ {X ∈ Aσ }, σ ∈ {−, +}m , m ≤ n := σ( n∈N Gn ). Dann ist Xn := E[X Gn ] f¨ur n ∈ N0 ,
ein Martingal bez¨uglich der Filtration (Gn )n∈N0 . Nach der Jensen’schen Ungleichung ist E[Xn2 ] ≤ E[X 2 ] < ∞ f¨ur jedes n ∈ N0 . Nach dem L2 -Martingalkonvergenzsatz (Satz 11.10) gilt daher n→∞ (22.9) Xn −→ X∞ := E[X G∞ ] f.s. und in L2 . F¨ur x ∈ R und n ∈ N sei σ(n, x) = (σ1 (n, x), . . . , σn (n, x)) ∈ {−, +}n (eindeutig) so gew¨ahlt, dass x ∈ Aσ(n,x) . Offenbar ist dann σm (n, x) = σm (n , x) f¨ur alle n, n ≥ m, also existiert ein (eindeutiges) σ(x) ∈ {−, +}N mit σ(n, x) = (σ1 (x), . . . , σn (x)) (der projektive Limes der σ(n, x), n ∈ N). Es ist dann := A(σ1 (x),...,σn (x)) . x ∈ Aσ(x) n Ferner ist := μ(σ1 (x),...,σn (x)) = μσ(x) n
σ(x)
Setze fn (x) := μn
⎧ ⎨ sup Aσ(x) n+1 ,
falls σn+1 = −
⎩
falls σn+1 = +.
σ(x)
inf An+1 ,
(22.10)
, f∞ = lim inf fn (x). Dann ist n→∞
fn (X) = E[X Gn ]
fast sicher f¨ur jedes n ∈ N ∪ {∞}.
484
22 Gesetz vom iterierten Logarithmus
Wir nehmen daher im Folgenden an, dass wir die Version Xn := fn (X), n ∈ N ∪ {∞} fest gew¨ahlt haben. Offenbar sind fn , n ∈ N, und f∞ monoton wachsend. ∞ σ(x) Schließlich setzen wir noch Aσ(x) := n=1 An . 1. Schritt Wir zeigen, dass X∞ = X f.s. Sei zun¨achst |X| ≤ C f.s. f¨ur ein C > 0. Wir berechnen ' ) *( E[(Xn − Xn−1 )2 ] = E E (Xn − Xn−1 )2 Gn−1 ' ) *2 ( ≥ E E |Xn − Xn−1 | Gn−1 ' ) *2 ( = E E |X − Xn−1 | Gn−1 *2 ) ) ≥ E |X − Xn−1 |]2 ≥ (2C)−2 E (X − Xn−1 )2 Auf Grund der Martingaleigenschaft ist ) * ) * ) * E (X − Xn )2 = E (X − Xn−1 )2 − E (Xn − Xn−1 )2 . * ) Setzen wir an := E (X − Xn )2 /(4C 2 ), so folgt a0 ≤ 1 und an ≤ an−1 − a2n−1
f¨ur jedes n ∈ N.
Induktiv erhalten wir an ≤ 1/(n + 1), denn es ist a1 ≤ max x(1 − x) = 14 , und x∈[0,1]
f¨ur n ≥ 2 ist wegen an−1 ≤ 1/2 an ≤
max x∈[0,an−1 ]
x(1 − x) = an−1 (1 − an−1 ) ≤
1 n−1 n−1 = . ≤ 2 n2 n −1 n+1
n→∞
Es folgt Xn −→ X in L2 und damit X∞ = X fs. Sei nun X nicht mehr notwendigerweise beschr¨ankt. F¨ur K > 0 setzen wir ⎧ X, falls |X| ≤ K, ⎨ E[X |X > K], falls X > K, X K := ⎩ E[X |X < −K], falls X < −K. Offenbar ist P[X = X K ] ≤ E[X 2 ]/K 2 und E[X K |A] = E[X |A] f¨ur jedes Intervall A mit A ⊂ [−K, K], A ⊃ (−∞, −K) oder A ⊃ [K, ∞). Definieren wir (XnK )n∈N0 ∪{∞} wie oben, jedoch f¨ur X K statt X, so ist also Xn = XnK falls |Xm | ≤ K f¨ur alle m ≤ n. Mit der Doob’schen Ungleichung folgt ) * P[X∞ = X] ≤ P X K = X] + P[sup{|Xn | : n ∈ N} ≥ K ≤ 2E[X 2 ]/K 2 .
22.2 Skorohod’scher Einbettungssatz
485
2. Schritt Wir zeigen: die Folge (Xn )n∈N0 ist ein Markovprozess mit (inhomo¨ genen) Ubergangswahrscheinlichkeiten (σ,∓) μ ) − μσ (σ,±) Gn ] = (σ,+) P Xn+1 = μ , falls Xn = μσ . (22.11) μ − μ(σ,−) Hierdurch ist die Verteilung von (Xn )n∈N0 nat¨urlich eindeutig festgelegt. Offenbar ist (Xn )n∈N0 ein Markovprozess, weil σ(Xn ) = Gn per Konstruktion gilt. ¨ Aus der Martingaleigenschaft E[Xn+1 |Xn = μσ ] = μσ ergeben sich die Ubergangswahrscheinlichkeiten. 3. Schritt
Wir definieren Stoppzeiten τ0 = 0 und
τn+1 := inf t ≥ τn : Bt ∈ μσ : σ ∈ {−, +}n+1 ,
sowie τ := supn∈N τn . Wegen der Monotonie von σ → μσ liegt f¨ur σ ∈ {−, +}n n+1 in (μ(σ,−) , μσ ) und (μσ , μ(σ,+) . Also ist ) kein weiteres μ , ∈ {−, +} P[Bτn+1 ∈ {μ(σ,−) , μ(σ,+) }Bτn = μσ ] = 1. Nach dem Optional Sampling Theo¨ rem (Ubung 21.1.3) ist E[Bτn+1 Fτn ] = Bτn und damit (σ,∓) μ ) − μσ (σ,±) Fτn ] = (σ,+) P Bτn+1 = μ , falls Bτn = μσ . μ − μ(σ,−) ¨ Also ist (Bτn )n∈N0 ein Markovprozess mit den selben Ubergangswahrscheinlichkeiten wie (Xn )n∈N0 , und damit gilt D
(Bτn )n∈N0 = (Xn )n∈N0 . D
n→∞
Also gilt auch Bτn −→ Bτ fast sicher und Bτ = X. Ferner ist E[τ1 ] = −μ− μ+ = Var[X1 ]. Sukzessive erh¨alt man E[τn ] =
n
Var[Xm − Xm−1 ].
m=1
Da (Xn )n∈N ein Martingal ist, sind die Differenzen unkorreliert, also E[τ ] =
∞ n=1
Var[Xn+1 − Xn ] = lim Var[Xn ] = Var[X], n→∞
nach (22.9) und wegen X = X∞ . Damit ist der Beweis von Bemerkung 22.6 erbracht. 2
486
22 Gesetz vom iterierten Logarithmus
22.3 Satz von Hartman-Wintner Ziel dieses Abschnitts ist der Beweis des Gesetzes vom iterierten Logarithmus f¨ur u.i.v. Zufallsvariablen Xn , n ∈ N mit zweiten Momenten, der auf Hartman und Wintner (1941) (siehe [68]) zur¨uckgeht. (In der einfacheren Situation, wo die Xn Bernoulli Zufallsvariablen sind, hat bereits Khinchin (1923) die obere Absch¨atzung im Gesetz vom iterierten Logarithmus gefunden.) Satz 22.9 (Hartman-Wintner, Gesetz vom iterierten Logarithmus). Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit E[X1 ] = 0 und Var[X1 ] = 1. Sei Sn = X1 + . . . + Xn , n ∈ N. Dann gilt Sn = 1 f.s. lim sup √ 2n log log n n→∞
(22.12)
Wir beweisen den Satz, indem wir ihn auf das Gesetz vom iterierten Logarithmus f¨ur die Brown’sche Bewegung zur¨uckf¨uhren. Zu diesem Zweck fassen wir die Partialsummen Sn als Werte der Brown’schen Bewegung B zu gewissen Stoppzeiten τ1 ≤ τ2 ≤ . . . auf. Dass dies funktioniert, sichert der Skorohod’sche Einbettungssatz. Beweis. Nach Korollar 22.7 gibt es auf einem geeigneten Wahrscheinlichkeitsraum ein Filtration F und eine Brown’sche Bewegung B, die ein F-Martingal ist, D sowie Stoppzeiten τ1 ≤ τ2 ≤ . . ., sodass (Sn )n∈N = (Bτn )n∈N . Ferner sind (τn − τn−1 )n∈N u.i.v. mit E[τn − τn−1 ] = Var[X1 ] = 1. Nach dem Gesetz vom iterierten Logarithmus f¨ur die Brown’sche Bewegung (siehe Satz 22.1) ist Bt = 1 f.s. lim sup √ 2t log log t t→∞ Es reicht also zu zeigen, dass Bt − Bτt =0 lim sup √ 2t log log t t→∞
f.s. n→∞
Nach dem starken Gesetz der großen Zahl (Satz 5.17) gilt n1 τn −→ 1 f.s. Sei also ε > 0 und t0 = t0 (ω) so groß, dass τt 1 ≤ ≤1+ε 1+ε t
f¨ur jedes t ≥ t0 .
Setze Mt :=
sup
|Bs − Bt |.
s∈[t/(1+ε), t (1+ε)]
Mt Es reicht zu zeigen, dass lim sup √ = 0. Betrachte die Folge tn = (1 + 2t log log t t→∞ n ε) , n ∈ N, und setze
22.3 Satz von Hartman-Wintner
Mn :=
sup s∈[tn−1 ,tn+2 ]
487
|Bs − Btn−1 |.
Dann ist (nach der Dreiecksungleichung) f¨ur t ∈ [tn , tn+1 ] Mt ≤ 2Mn . Setze δ := (1 + ε)3 − 1. Dann ist tn+2 − tn−1 = δtn−1 . Brown’sche Skalierung und das Spiegelungsprinzip (Satz 21.19) ergeben nun ( ' 3 P Mn > 3δtn−1 log log tn−1 ( ' 3 = P sup |Bs | > 3 log log tn−1 s∈[0,1]
≤ 2P
'
sup Bs >
3
( 3 log log tn−1
s∈[0,1]
( 3 log log tn−1 2 3 ≤3 exp − log log tn−1 2 3 log log tn−1 '
= 4 P B1 >
≤ n−3/2
3
(Lemma 22.2)
f¨ur n hinreichend groß.
Die Wahrscheinlichkeiten lassen sich also u¨ ber n summieren, und das Lemma von Borel-Cantelli liefert √ Mt 2Mn lim sup √ ≤ 2 3δ. ≤ lim sup 3 t log log t t→∞ n→∞ tn−1 log log tn−1 Lassen wir nun ε → 0 gehen, so geht δ = (1 + ε)3 − 1 → 0, und der Beweis ist vollst¨andig. 2
23 Große Abweichungen
Wir haben (bis auf das Gesetz vom iterierten Logarithmus) bislang zwei Typen von Grenzwerts¨atzen f¨ur Partialsummen Sn = X1 + . . . + Xn , n ∈ N, von identisch verteilten, reellen Zufallsvariablen (Xi )i∈N mit Verteilungsfunktion F gesehen: (1) (Schwache) Gesetze der großen Zahl besagen (unter gewissen Annahmen an die Familie (Xi )i∈N ), dass f¨ur jedes x > 0 * n→∞ ) (23.1) P Sn − n E[X1 ] ≥ xn −→ 0. Hieraus abgeleitet erhalten wir f¨ur die empirischen Verteilungsfunktionen Fn : n→∞ n x → n1 i=1 (−∞,x] (Xi ) die stochastische Konvergenz Fn − F ∞ −→ 0. Wir wollen dies umformulieren zu: F¨ur jede Verteilungsfunktion G = F und jedes ε > 0 mit ε < F − G∞ gilt ) * n→∞ P Fn − G∞ < ε −→ 0.
(23.2)
(2) Zentrale Grenzwerts¨atze besagen (unter wieder anderen Annahmen an die Familie (Xi )i∈N ), dass f¨ur x ∈ R ) √ * n→∞ x P Sn − n E[X1 ] ≥ x n −→ 1 − Φ 3 , (23.3) Var[X1 ] wobei Φ : t → N0,1 ((−∞, t]) die Verteilungsfunktion der Standardnormalverteilung ist. Der typische Wert von Sn ist jeweils n E[X1 ]. Gleichung√(23.3) macht pr¨azise Aussagen u¨ ber mittelgroße Abweichungen (der Ordnung n) vom typischen Wert. Hieraus folgt nat¨urlich, dass die Wahrscheinlichkeit f¨ur große Abweichungen (der Ordnung n) vom typischen Wert gegen 0 geht, also (23.1). In diesem Kapitel wollen wir die Konvergenzgeschwindigkeit in (23.1) bestimmen (Satz von Cram´er), beziehungsweise in (23.2) (Satz von Sanov). Wir folgen in Teilen den Darstellungen [32] und [74].
490
23 Große Abweichungen
23.1 Satz von Cram´er Seien X1 , X2 , . . . u.i.v. mit PXi = N0,1 . Dann ist f¨ur jedes x > 0 )
√ √ * 2 1 P[Sn > xn] = P X1 > x n = 1 − Φ x n = (1 + εn ) √ e−n x /2 , 2πn n→∞
wobei (nach Lemma 22.2) εn −→ 0 gilt. Es gilt also ) * 1 x2 log P Sn > xn = − n→∞ n 2 lim
f¨ur jedes x > 0.
(23.4)
Man k¨onnte versucht sein zu glauben, dass ein Zentraler Grenzwertsatz die Aussage (23.4) auch f¨ur alle zentrierten u.i.v. Folgen (Xi ) mit endlicher Varianz liefert. Dies ist allerdings falsch, wie der folgende Satz zeigt. Die großen Abweichungen werden eben st¨arker durch die Schw¨anze der Verteilung von Xi beeinflusst, als dies bei den mittleren Fluktuationen der Fall ist, die durch die Varianz komplett determiniert werden. Der folgende Satz zeigt dies exemplarisch anhand der Bernoulli-Verteilung. Satz 23.1. Seien X1 , X2 , . . . u.i.v. mit P[X1 = −1] = P[X1 = 1] = 12 . Dann gilt f¨ur jedes x ≥ 0 1 log P[Sn > xn] = −I(x), (23.5) lim n→∞ n wobei die Ratenfunktion I gegeben ist durch 1+z 1−z falls z ∈ [−1, 1], 2 log(1 + z) + 2 log(1 − z), I(z) = (23.6) ∞, falls |z| > 1. Bemerkung 23.2. Wir verstehen hierbei 0 log 0 = 0, wodurch I stetig wird in [−1, 1] mit I(−1) = I(1) = log 2. Man bemerke: I ist strikt konvex auf [−1, 1] mit I(0) = 0; I ist monoton wachsend auf [0, 1] und monoton fallend auf [−1, 0].3 Beweis. F¨ur x = 0 und x > 1 ist die Aussage trivial. F¨ur x = 1 ist P[Sn ≥ n] = 2−n , daher gilt auch hier (23.5) trivialerweise. Es reicht also, x ∈ (0, 1) zu betrachten. Es ist Sn2+n ∼ bn,1/2 binomialverteilt, also * ) n −n . P Sn ≥ xn = 2 k k≥(1+x)n/2
Wir setzen an (x) = n(1 + x)/2 f¨ur n ∈ N und erhalten, weil k → fallend ist f¨ur k ≥ n2 : 1 2 n n Qn (x) := max : an (x) ≤ k ≤ n = . k an (x)
n k
monoton
(23.7)
23.1 Satz von Cram´er
491
Wir machen die Absch¨atzung
) * 2−n Qn (x) ≤ P Sn ≥ xn ≤ (n + 1) 2−n Qn (x).
(23.8)
Die Stirling’sche Formel 1 n −n √ n e 2πn = 1 n→∞ n! lim
liefert nun lim
n→∞
1 log Qn (x) n n! 1 = lim log n→∞ n an (x)! · (n − an (x))! nn 1 log a (x) n→∞ n an (x) n · (n − an (x))n−an (x)
= lim
= lim
n→∞
= lim
n→∞
=−
n − an (x) an (x) log an (x) − log n − an (x) log(n) − n n
1+x + log(n) log 2 1−x 1−x − + log(n) log 2 2
1+x log(n) − 2
1+x 1+x 1−x 1−x log − log = −I(x) + log 2. 2 2 2 2 2
Wegen (23.8) folgt hieraus (23.5).
Ein allgemeines Verfahren zur Bestimmung der Ratenfunktion I (unter gewissen restriktiven Annahmen an die Verteilung von (Xi )) liefert der Satz von Cram´er [30]. Satz 23.3 (Cram´er (1938)). Seien X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit logarithmischer momentenerzeugender Funktion * ) (23.9) Λ(t) := log E etX1 < ∞ f¨ur jedes t ∈ R. Sei
Λ∗ (x) := sup tx − Λ(t)
f¨ur x ∈ R,
t∈R
die Legendre-Transformierte von Λ. Dann gilt f¨ur jedes x > E[X1 ] lim
n→∞
) * 1 log P Sn ≥ xn = −I(x) := −Λ∗ (x). n
(23.10)
492
23 Große Abweichungen
Beweis. Indem wir gegebenenfalls Xi − x betrachten, k¨onnen wir E[Xi ] < 0 und ˜i ˜ i := Xi − x und Λ˜ und Λ˜∗ wie oben f¨ur X x = 0 annehmen. (Ist n¨amlich X ∗ ∗ ˜ ˜ ˜ definiert, so ist Λ(t) = Λ(t) − t · x und daher Λ (0) = supt∈R (−Λ(t)) = Λ (x).) Setze ϕ(t) := eΛ(t) und ∗
:= e−Λ
(0)
= inf ϕ(t). t∈R
Nach (23.9) und dem Differentiationslemma (Satz 6.28) ist ϕ unendlich oft differenzierbar, und die ersten beiden Ableitungen sind * * ) ) und ϕ (t) = E X12 etX1 . ϕ (t) = E X1 etX1 Also ist ϕ strikt konvex und ϕ (0) = E[X1 ] < 0. Sei zun¨achst der Fall P[X1 ≤ 0] = 1 betrachtet. Dann ist ϕ (t) < 0 f¨ur jedes t ∈ R und = lim ϕ(t) = P[X1 = 0]. Es folgt t→∞
P[Sn ≥ 0] = P[X1 = . . . = Xn = 0] = n und damit die Behauptung. Sei nun P[X1 < 0] > 0 und P[X1 > 0] > 0. Dann ist lim ϕ(t) = ∞ = t→∞
lim ϕ(t). Da ϕ strikt konvex ist, besitzt ϕ eine eindeutige Minimalstelle τ ∈ R,
t→−∞
also ϕ(τ ) =
und
ϕ (τ ) = 0.
Wegen ϕ (0) < 0 ist τ > 0. Mit Hilfe der Markov’schen Ungleichung (Satz 5.11) erhalten wir die Absch¨atzung * ) * ) P[Sn ≥ 0] = P eτ Sn ≥ 1 ≤ E eτ Sn = ϕ(τ )n = n . Wir erhalten so die obere Schranke: lim sup n→∞
1 log P[Sn ≥ 0] ≤ log = −Λ∗ (0). n
Im Rest des Beweises m¨ussen wir also die umgekehrte Ungleichung zeigen: lim inf n→∞
1 log P[Sn ≥ 0] ≥ log . n
(23.11)
Wir verwenden eine Methode der exponentiellen Gr¨oßenverzerrung der Verteilung μ := PX1 von X1 , die untypische Werte typisch macht, damit man sie besser untersuchen kann. Wir definieren also die Cram´er-Transformierte μ ˆ ∈ M1 (R) von μ durch μ ˆ(dx) = −1 eτ x μ(dx) f¨ur x ∈ R. ˆ1, X ˆ 2 , . . . unabh¨angig und identisch verteilt mit P ˆ = μ Seien X ˆ. Dann ist Xi
23.1 Satz von Cram´er
) ˆ * 1 ϕ(t) ˆ := E etX1 = Also ist
etx eτ x μ(dx) = R
493
1 ϕ(t + τ ).
) ˆ 1 ] = ϕˆ (0) = 1 ϕ (τ ) = 0, E X ) ˆ 1 ] = ϕˆ (0) = 1 ϕ (τ ) ∈ (0, ∞). Var X
ˆ1 + . . . + X ˆ n , so ist Setzen wir Sˆn = X μ(dx1 ) · · · μ(dxn ) P[Sn ≥ 0] = {x1 +...+xn ≥0}
−τ x1
= e μ ˆ(dx1 ) · · · e−τ xn μ ˆ(dxn ) {x1 +...+xn ≥0}
' ˆ = n E e−τ Sn
(
ˆn ≥0} {S
.
Wir erhalten also (23.11), wenn wir zeigen k¨onnen, dass lim inf n→∞
' 1 ˆ log E e−τ Sn n
( ˆn ≥0} {S
≥ 0.
(23.12)
Nach dem Zentralen Grenzwertsatz (Satz 15.37) ist f¨ur c > 0 ' ' ( ( 1 1 ˆ ˆ log E e−τ Sn {Sˆn ≥0} ≥ log E e−τ Sn {0≤Sˆn ≤c√n } n n ' Sˆ ( √ 1 n −τ c n P √ ∈ [0, c] ≥ log e n n √
−τ c n 1 n→∞ + lim log N0,Var[X1 ] ([0, c]) −→ lim n→∞ n→∞ n n = 0. 2 Beispiel 23.4. Ist PX1 = N0,1 , so ist
) * Λ(t) = log E etX1 = log Weiter ist
1 √ 2π
∞
2
etx e−x
/2
dx
−∞
=
t2 . 2
z2 t2 = . Λ (z) = sup tz − Λ(t) = sup tz − 2 2 t∈R t∈R ∗
Die Ratenfunktion stimmt also mit der aus (23.4) u¨ berein.
3
Beispiel 23.5. Ist PX1 = 12 δ−1 + 12 δ1 , so ist Λ(t) = log cosh(t). Der Maximierer t∗ = t∗ (z) aus dem Variationsproblem f¨ur Λ∗ erf¨ullt die Gleichung z = Λ (t∗ ) = tanh(t∗ ). Also ist
494
23 Große Abweichungen
Λ∗ (z) = zt∗ − Λ(t∗ ) = z arc tanh(z) − log cosh(arc tanh(z)) . 1+z 1 log f¨ur z ∈ (−1, 1) und 2 1−z
1 1 cosh arc tanh(z) = √ . =3 2 1−z (1 − z)(1 + z)
Nun ist arc tanh(z) =
Es folgt z 1 1 z log(1 + z) − log(1 − z) + log(1 − z) + log(1 + z) 2 2 2 2 1−z 1+z log(1 + z) + log(1 − z). = 2 2 Dies ist aber gerade die Ratenfunktion aus Satz 23.1. Λ∗ (z) =
3
e−|x| ¨ Ubung 23.1.1. Sei X eine reelle Zufallsvariable mit Dichte f (x) = c−1 , 1 + |x|3 ∞ e−|x| dx. Man untersuche die logarithmische momentenerzeuwobei c = 3 −∞ 1 + |x| gende Funktion Λ auf Unstetigkeitsstellen und skizziere den Graphen von Λ. ♣
23.2 Prinzip der großen Abweichungen Wir wollen in diesem Abschnitt die Idee des Satzes von Cram´er, die Wahrscheinlichkeiten seltener, oder untypischer, Ereignisse vermittels einer exponentiellen Rate und einer Ratenfunktion zu quantifizieren, in einen formalen Rahmen stellen. In diesem Rahmen kann die gesamte Theorie großer Abweichungen entwickelt werden; der Leser sei etwa auf die B¨ucher [32], [33] oder [74] verwiesen. Sei E ein polnischer Raum mit vollst¨andiger Metrik d. Wir schreiben Bε (x) = {y ∈ E : d(x, y) < ε} f¨ur die offene Kugel um x ∈ E mit Radius ε > 0. Eine Abbildung f : E → R = [−∞, ∞] heißt halbstetig von unten, falls f¨ur jedes a ∈ R die Niveaumenge f −1 ([−∞, a]) ⊂ E abgeschlossen ist. (Speziell sind also stetige Abbildungen stets halbstetig von unten. Allerdings ist (0,1) : R → R ¨ halbstetig von unten, jedoch nicht stetig.) Aquivalent hierzu ist die Bedingung, dass limε↓0 inf f (Bε (x)) = f (x) ist f¨ur jedes x ∈ E. (Man beachte, dass inf f (A) = inf{f (x) : x ∈ A}.) Ist K ⊂ E kompakt und nichtleer, so nimmt f auf K das Infimum an. In der Tat: F¨ur den Fall, wo f (x) = ∞ f¨ur jedes x ∈ K ist, ist die Aussage trivial. Sei nun inf f (K) < ∞. Ist an ↓ inf f (K) streng monoton fallend, so ist K∩f −1 ([−∞, an ]) = ∅ kompakt f¨ur jedes n ∈ N, also ist auch der unendliche Schnitt nichtleer ∞ f −1 ([−∞, an ]) = ∅. f −1 (inf f (K)) = K ∩ n=1
23.2 Prinzip der großen Abweichungen
495
Definition 23.6 (Ratenfunktion). Eine von unten halbstetige Funktion I : E → [0, ∞] heißt Ratenfunktion. Sind alle Niveaumengen I −1 ([−∞, a]), a ∈ [0, ∞), kompakt, so nennen wir I eine gute Ratenfunktion.
Definition 23.7 (Prinzip großer Abweichungen). Sei I eine Ratenfunktion und (με )ε>0 eine Familie von W-Maßen auf E. Wir sagen, dass (με )ε>0 ein Prinzip großer Abweichungen (kurz: LDP f¨ur Large Deviations Principle) mit Ratenfunktion I erf¨ullt, falls (LDP 1) lim inf ε log(με (U )) ≥ − inf I(U ) f¨ur jedes offene U ⊂ E, ε→0
(LDP 2) lim sup ε log(με (C)) ≤ − inf I(C) ε→0
f¨ur jedes abgeschlossene C ⊂ E.
Wir sagen, dass eine Familie (Pn )n∈N von W-Maßen auf E ein LDP mit Rate rn ↑ ∞ und Ratenfunktion I erf¨ullt, falls (LDP 1) und (LDP 2) f¨ur die Folge εn = 1/rn und f¨ur μ1/rn = Pn gelten. Oftmals werden die Bedingungen (LDP 1) und (LDP 2) kurz untere Schranke und obere Schranke genannt. In vielen F¨allen ist die untere Schranke leichter zu zeigen als die obere. Bevor wir zeigen, dass der Satz von Cram´er im Wesentlichen schon ein LDP ist, bringen wir noch zwei mehr technische Aussagen. Satz 23.8. Die Ratenfunktion in einem LDP ist eindeutig. Beweis. Es erf¨ulle (με )ε>0 das LDP mit Ratenfunktionen I und J. Dann ist f¨ur jedes x ∈ E und δ > 0 I(x) ≥ inf I(Bδ (x))
≥ − lim inf ε log με (Bδ (x)) ε→0
≥ − lim sup ε log με Bδ (x) ε→0
δ→0 ≥ inf I Bδ (x) −→ J(x). Es folgt I(x) ≥ J(x) und analog J(x) ≥ I(x).
2
Lemma 23.9. Sei N ∈ N, und seien aiε , i = 1, . . . , N , ε > 0, nichtnegative Zahlen. Dann gilt N aiε = max lim sup ε log(aiε ). lim sup ε log ε→0
i=1
i=1,...,N
ε→0
496
23 Große Abweichungen
Beweis. Summe und Maximum unterscheiden sich h¨ochstens um den Faktor N : max
i=1,...,N
ε log(aiε ) ≤ ε log
N
aiε ≤ ε log(N ) + max
i=1,...,N
i=1
ε log(aiε ).
Maximum und Limes (superior) vertauschen, also ist max aiε max lim sup ε log(aiε ) = lim sup ε log i=1,...,N
ε→0
i=1,...,N
ε→0
≤ lim sup ε log
N
ε→0
aiε
i=1
≤ lim sup ε log(N ) + max lim sup ε log(aiε ) i=1,...,N
ε→0
= max lim sup i=1,...,N
ε→0
ε→0
ε log(aiε ).
2
Beispiel 23.10. Wir nehmen an, dass die Bedingungen aus dem Satz von Cram´er (Satz 23.3) gelten. Es seien also X1 , X2 , . . . u.i.v. reelle Zufallsvariablen mit Λ(t) = log(E[etX1 ]) < ∞ f¨ur jedes t ∈ R. Ferner sei Sn = X1 + . . . + Xn f¨ur jedes n. Wir wollen zeigen, dass aus dem Satz von Cram´er folgt, dass Pn := PSn /n ein LDP mit Rate n und guter Ratenfunktion I(x) = Λ∗ (x) := supt∈R (tx − Λ(t)) erf¨ullt. Ohne Einschr¨ankung k¨onnen wir annehmen, dass E[X1 ] = 0 ist. Die Funktion I ist u¨ berall endlich, stetig, strikt konvex und hat die eindeutige Minimalstelle bei I(0) = 0. Der Satz von Cram´er besagt, dass limn→∞ n1 log(Pn ([x, ∞))) = −I(x) f¨ur x > 0 und (aus Symmetriegr¨unden) limn→∞ x < 0. Offenbar ist f¨ur x > 0
1 n
log(Pn ((−∞, x])) = −I(x) f¨ur
1 log Pn ((x, ∞)) n→∞ n 1 log Pn ([x + ε, ∞)) = − inf I(x + ε) = −I(x) ≥ sup lim ε>0 ε>0 n→∞ n
−I(x) ≥ lim
1 log Pn ((−∞, x)) = −I(x). n Die Familie (Pn )n∈N erf¨ullt die Bedingungen (LDP 1) und (LDP 2) also zumindest f¨ur unbeschr¨ankte Intervalle. Hiermit ist die Hauptarbeit getan, der Rest besteht darin, mit Standardargumenten (LDP 1) und (LDP 2) f¨ur beliebige offene, beziehungsweise abgeschlossene Mengen zu zeigen.
und f¨ur x < 0 analog lim
n→∞
Sei zun¨achst C ⊂ R abgeschlossen. Wir definieren x+ := inf C ∩ [0, ∞) und x− = sup C ∩ (−∞, 0]. Aufgrund der Monotonie von I auf (−∞, 0] und [0, ∞) folgt inf I(C) = I(x− ) ∧ I(x+ ) (mit der Konvention I(−∞) = I(∞) = ∞). Ist x− = 0 oder x+ = 0, so ist inf(I(C)) = 0, und (LDP 2) gilt trivialerweise. Sei nun also x− < 0 < x+ . Wir erhalten mit Hilfe von Lemma 23.9
23.2 Prinzip der großen Abweichungen
lim sup n→∞
497
1 log Pn (C) n
1 log Pn (−∞, x− ] + Pn [x+ , ∞) ≤ lim sup n n→∞
1 1 log Pn [x+ , ∞) = max lim sup log Pn (−∞, x− ] , lim sup n n→∞ n n→∞
− + = max − I(x ), −I(x ) = − inf I(C).
Damit ist (LDP 2) gezeigt. Sei nun U ⊂ R offen. Sei x ∈ U , x > 0, (falls es solch ein x gibt). Dann existiert ein ε > 0 mit (x − ε, x + ε) ⊂ U ∩ (0, ∞). Nun ist lim
n→∞
1 log Pn (x − ε, ∞) = −I(x − ε) > −I(x + ε) n
1 = lim log Pn [x + ε, ∞) . n→∞ n
Es folgt lim inf n→∞
1 1 log Pn (U ) ≥ lim log Pn ((x − ε, x + ε)) n→∞ n n
1 log Pn (x − ε, ∞) − Pn [x + ε, ∞) = lim n→∞ n
1 log Pn (x − ε, ∞) = −I(x − ε) ≥ −I(x). = lim n→∞ n
Analog folgt dies auch f¨ur x ∈ U ∩ (−∞, 0), also ist lim inf n→∞
1 log Pn (U ) ≥ inf I(U \ {0}) = inf I(U ), n
wobei wir im letzten Schritt ausgenutzt haben, dass U offen und I stetig ist. Damit ist die untere Schranke (LDP 1) gezeigt. 3 Tats¨achlich kann man auf die Bedingung, dass Λ(t) < ∞ f¨ur alle t ∈ R gilt, verzichten. Da offenbar Λ(0) = 0 ist, ist Λ∗ (x) ≥ 0 f¨ur jedes x ∈ R. Die Abbildung Λ∗ ist eine konvexe Ratenfunktion, jedoch im Allgemeinen keine gute Ratenfunktion. Wir zitieren die folgende Verst¨arkung des Satzes von Cram´er (siehe [32, Theorem 2.2.3]). Satz 23.11 (Cram´er). Sind X1 , X2 , . . . u.i.v. reelle Zufallsvariablen, dann erf¨ullt (PSn /n )n∈N ein LDP mit Ratenfunktion Λ∗ . ¨ Ubung 23.2.1. Sei E = R. Man zeige, dass με := N0,ε ein LDP mit guter Ratenfunktion I(x) = x2 /2 erf¨ullt. Man zeige ferner, dass in der oberen Schranke (LDP 2) strikte Ungleichheit auftreten kann. ♣
498
23 Große Abweichungen
¨ Ubung 23.2.2. Sei E = R. Man zeige, dass με := N0,ε2 ein LDP mit guter Ratenfunktion I(x) = ∞ · R\{0} (x) erf¨ullt. Man zeige ferner, dass in der unteren Schranke (LDP 1) strikte Ungleichheit auftreten kann. ♣ ¨ Ubung 23.2.3. Sei E = R. Man zeige, dass με := 12 N−1,ε + 12 N1,ε ein LDP mit ♣ guter Ratenfunktion I(x) = min( 12 (x + 1)2 , 12 (x − 1)2 ) erf¨ullt. ¨ Ubung 23.2.4. Man berechne Λ und Λ∗ f¨ur den Fall, wo X1 ∼ expθ f¨ur θ > 0 und interpretiere die Aussage von Satz 23.11 f¨ur diesen Fall. Man pr¨ufe, dass Λ∗ die eindeutige Nullstelle bei E[X1 ] hat. (Ergebnis: Λ∗ (x) = θx − log(θx) − 1 falls x > 0 und = ∞ sonst.) ♣ ¨ Ubung 23.2.5. Man berechne Λ und Λ∗ f¨ur den Fall, wo X1 Cauchy verteilt ist und interpretiere die Aussage von Satz 23.11 f¨ur diesen Fall. ♣ ¨ Ubung 23.2.6. Sei Xλ ∼ Poiλ f¨ur jedes λ > 0. Man zeige, dass με := PεXλ/ε ein LDP mit guter Ratenfunktion I(x) = x log(x/λ) + λ − x f¨ur x ≥ 0 (und = ∞ sonst) erf¨ullt. ♣ ¨ Ubung 23.2.7. Sei (Xt )t≥0 die Irrfahrt auf Z in stetiger Zeit, die mit Rate 12 einen Schritt nach rechts springt und mit Rate 12 einen Schritt nach links springt. Man zeige, dass (PεX1/ε )ε>0 ein LDP erf¨ullt mit der konvexen guten Ratenfunktion √ ♣ I(x) = 1 + x arcsinh(x) − 1 + x2 .
23.3 Satz von Sanov Dieser Abschnitt ist an die Darstellung in [32] angelehnt. Wir wollen hier ein Prinzip der großen Abweichungen vorstellen, das nicht auf einem linearen Raum basiert, wie der Satz von Cram´er, sondern f¨ur empirische Verteilungen unabh¨angiger Zufallsvariablen mit Werten in einer endlichen Menge Σ, die meist Alphabet genannt wird, annehmen. Sei μ ein W-Maß auf Σ mit μ({x}) > 0 f¨ur jedes x ∈ Σ. Seien ferner X1 , X2 , . . . u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PX1 = μ. Wir wollen ein Prinzip großer Abweichungen f¨ur die empirischen Maße 1 δX ξn (X) := n i=1 i n
herleiten. Man beachte, dass nach dem Gesetz der großen Zahl P-fast sicher gilt, n→∞ dass ξn (X) −→ μ. Als Zustandsraum ergibt sich also E = M1 (Σ), ausgestattet mit der Metrik d(μ, ν) = μ − νT V der Totalvariation. (Da Σ nur endlich viele
23.3 Satz von Sanov
499
Punkte enth¨alt, sind in E die vage Konvergenz, die schwache Konvergenz und die Konvergenz in Totalvariation identisch.) Es sei weiterhin En := μ ∈ M1 (Σ) : nμ({x}) ∈ N0 f¨ur jedes x ∈ Σ der m¨ogliche Wertebereich der Zufallsvariablen ξn (X). Wir erinnern an den Begriff der Entropie von μ
H(μ) := − log μ({x}) μ(dx). Ist ν ∈ M1 (Σ), so definieren wir die relative Entropie (oder Kullback-Leibler Information nach [101]) von ν gegeben μ durch ν({x}) H(ν |μ) := log ν(dx). (23.13) μ({x}) Da μ({x}) > 0 ist f¨ur alle x ∈ Σ, ist der Integrand ν-f.s. endlich und damit ist auch das Integral endlich. Eine einfache Anwendung der Jensen’schen Ungleichung ¨ liefert, dass H(μ) ≥ 0 und H(ν |μ) ≥ 0 ist (siehe Lemma 5.26 und Ubung 5.3.3), sowie H(ν |μ) = 0 genau dann, wenn ν = μ ist. Außerdem ist offenbar
H(ν |μ) + H(ν) = − log μ({x}) ν(dx). (23.14) Da die Abbildung ν → Iμ (ν) := H(ν |μ) stetig ist, ist Iμ eine Ratenfunktion. Lemma 23.12. F¨ur jedes n ∈ N und ν ∈ En gilt (n + 1)−#Σ e−n H(ν | μ) ≤ P[ξn (X) = ν] ≤ e−n H(ν | μ) .
(23.15)
Beweis. Wir betrachten die Menge m¨oglicher Werte f¨ur das n-Tupel (X1 , . . . , Xn ), sodass ξn (X) = ν ist: n 1 An (ν) := k = (k1 , . . . , kn ) ∈ Σ n : δki = ν . n i=1
F¨ur jedes k ∈ An (ν) ist (vergleiche (23.14)) P[ξn (X) = ν] = #An (ν) P[X1 = k1 , . . . , Xn = kn ] μ({x})nν({x}) = #An (ν) x∈Σ
= #An (ν) exp n ν(dx) log μ({x})
= #An (ν) exp − n[H(ν) + H(ν |μ)] .
500
23 Große Abweichungen
Seien nun Y1 , Y2 , . . . u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PY1 = ν. Dann ist wie in der Rechnung f¨ur X (wegen H(ν |ν) = 0) 1 ≥ P[ξn (Y ) = ν] = #An (ν) e−nH(ν) , also #An (ν) ≤ enH(ν) . Hieraus folgt die zweite Ungleichung in (23.15). Die Zufallsvariable n ξn (Y ) ist multinomialverteilt mit Parametern (nν({x}))x∈Σ , also ist die Abbildung En → [0, 1], ν → P[ξn (Y ) = ν ] maximal in ν = ν. Es folgt #An (ν) = enH(ν) P[ξn (Y ) = ν] ≥
enH(ν) ≥ (n + 1)−#Σ enH(ν) . #En
Hieraus folgt die erste Ungleichung in (23.15).
2
Wir kommen jetzt zum Hauptsatz dieses Abschnitts, dem Satz von Sanov (siehe [142] und [143]). Satz 23.13 (Sanov (1957)). Seien X1 , X2 , . . . u.i.v. Zufallsvariablen mit Werten in der endlichen Menge Σ und mit Verteilung μ. Dann erf¨ullt die Familie (Pξn (X) )n∈N der Verteilungen der empirischen Maße ein LDP mit Rate n und Ratenfunktion Iμ = H( · |μ). Beweis. F¨ur jedes A ⊂ E ist nach Lemma 23.12 ) * P ξn (X) ∈ A = P[ξn (X) = ν] ν∈A∩En
≤
e−nH(ν | μ)
ν∈A∩En
≤ #(A ∩ En ) exp − n inf Iμ (A ∩ En )
≤ (n + 1)#Σ exp − n inf Iμ (A) . Es folgt lim sup n→∞
1 log P[ξn (X) ∈ A] ≤ − inf Iμ (A), n
also die obere Schranke im LDP (sogar f¨ur allgemeines A). Analog erhalten wir mit der ersten Ungleichung aus Lemma 23.12 ) *
P ξn (X) ∈ A ≥ (n + 1)−#Σ exp − n inf Iμ (A ∩ En ) und damit lim inf n→∞
) * 1 log P ξn (X) ∈ A ≥ − lim sup inf Iμ (A ∩ En ). n n→∞
(23.16)
23.3 Satz von Sanov
501
Man beachte, dass wir f¨ur diese Ungleichung im Infimum nicht einfach A ∩ En durch A ersetzen k¨onnen. Wir zeigen vielmehr, dass dies f¨ur offenes A zumindest asymptotisch geht. Sei also A ⊂ E offen. F¨ur ν ∈ A gibt es ein ε > 0 mit Bε (ν) ⊂ n→∞ A. F¨ur n ≥ (2 #Σ)/ε ist En ∩ Bε (ν) = ∅, also existiert eine Folge νn −→ ν mit νn ∈ En ∩ A f¨ur hinreichend großes n ∈ N. Da Iμ stetig ist, gilt lim sup inf Iμ (A ∩ En ) ≤ lim Iμ (νn ) = Iμ (ν). n→∞
n→∞
Da ν ∈ A beliebig war, folgt lim supn→∞ inf Iμ (A ∩ En ) = inf Iμ (A).
2
Beispiel 23.14. Sei Σ = {−1, 1} und μ = 12 δ−1 + 12 δ1 die Gleichverteilung auf Σ. Schreiben wir m = m(ν) = ν({1}) − ν({−1}), dann ist die relative Entropie von ν ∈ M1 (Σ) H(ν |μ) =
1+m 1−m log(1 + m) + log(1 − m). 2 2
Dies ist genau die Ratenfunktion, die wir bereits aus Satz 23.1 kennen.
3
Wir wollen den Zusammenhang zwischen den LDPs von Sanov und von Cram´er, der im letzten Beispiel angedeutet wurde, nun formal herstellen, indem wir eine Variante des Satzes von Cram´er f¨ur Rd -wertige Zufallsvariablen, die nur endlich viele Werte annehmen, aus dem Satz von Sanov herleiten. Beispiel 23.15. Sei Σ ⊂ Rd endlich und μ ein W-Maß auf Σ. Seien ferner X1 , X2 , . . . u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung ) PX1* = μ sowie Sn = X1 + . . . + Xn f¨u r jedes n ∈ N. Wir setzen Λ(t) = log E et,X1 f¨ur t ∈ Rd und Λ∗ (x) = supt∈Rd t, x! − Λ(t) f¨ur x ∈ Rd .
Wir zeigen, dass PSn /n n∈N ein LDP mit Rate n und Ratenfunktion Λ∗ erf¨ullt. Es sei ξn (X) das empirische Maß von X1 , . . . , Xn . Sei E := M1 (Σ). Definiere die Abbildung m : E → Rd , ν → x ν(dx) = x ν({x}), x∈Σ
die ν das erste Moment zuordnet. Offenbar ist dann n1 Sn = m(ξn (X)). F¨ur x ∈ Rd und A ⊂ Rd seien Ex := m−1 ({x}) = {ν ∈ E : m(ν) = x} und EA = m−1 (A) = {ν ∈ E : m(ν) ∈ A}. Die Abbildung ν → m(ν) ist stetig, also ist EA offen (beziehungsweise abgeschlossen), falls A offen (beziehungsweise ˜ := inf Iμ (Ex ) (wobei Iμ (ν) = H(ν |μ) die relative abgeschlossen) ist. Mit I(x) Entropie ist) gilt nach dem Satz von Sanov f¨ur offenes U ⊂ Rd lim inf n→∞
1 1 log PSn /n (U ) = lim inf log Pξn (X) m−1 (U ) n→∞ n n
˜ ). ≥ − inf I m−1 (U ) = − inf I(U μ
502
23 Große Abweichungen
Analog ist f¨ur abgeschlossenes C ⊂ Rd lim sup n→∞
1 ˜ log PSn /n (C) ≥ − inf I(C). n
˜ Mit anderen Worten: (PSn /n )n∈N erf¨ullt ein LDP mit Rate n und Ratenfunktion I. Es ist also nur noch zu zeigen, dass I˜ = Λ∗ gilt. Man beachte, dass t → Λ(t) differenzierbar (mit Ableitung Λ ) und strikt konvex ist. Daher besitzt das Variationsproblem f¨ur Λ∗ (x) einen eindeutigen Maximierer t∗ (x). Genauer gilt Λ∗ (x) = t∗ (x), x! − Λ(t∗ (x)) und Λ∗ (x) > t, x! − Λ(t) f¨ur alle t = t∗ (x), sowie Λ (t∗ (x)) = x. Nach der Jensenschen Ungleichung ist f¨ur jedes ν ∈ M1 (Σ) Λ(t) = log et,y μ(dy) t,y μ({y}) = log e ν(dy) ν({y}) μ({y}) ≥ log et,y ν(dy) ν({y}) = t, m(ν)! − H(ν |μ) mit Gleichheit genau dann, wenn ν = νt , wo νt ({y}) = μ({y})et,y−Λ(t) . Also ist t, x! − Λ(t) ≤ inf H(ν |μ) ν∈Ex
mit Gleichheit, falls νt ∈ Ex . Nun ist aber m(νt ) = Λ (t), also ist νt∗ (x) ∈ Ex und damit ˜ 3 Λ∗ (x) = t∗ (x), x! − Λ(t∗ (x)) = inf H(ν |μ) = I(x). ν∈Ex
Das Beweisprinzip, das wir im letzten Beispiel verwandt haben, um das LDP mit Ratenfunktion I˜ herzuleiten, wird Kontraktionsprinzip genannt. Wir formulieren es als Satz. Satz 23.16 (Kontraktionsprinzip). Die Familie (με )ε>0 von W-Maßen auf E erf¨ulle ein LDP mit Ratenfunktion I. Ist F ein topologischer Raum und m : E → F ˜ = stetig, so erf¨ullen die Bildmaße (με ◦ m−1 )ε>0 ein LDP mit Ratenfunktion I(x) −1 inf I(m ({x})).
23.4 Varadhan’sches Lemma und Freie Energie Wir nehmen an, dass (με )ε>0 eine Familie von W-Maßen ist, die ein LDP mit Ratenfunktion I erf¨ullt. Wir wissen also, dass die Masse von με f¨ur kleine ε > 0 mehr und
23.4 Varadhan’sches Lemma und Freie Energie
503
mehr um die Nullstellen von I herum konzentriert liegt. In der statistischen Physik ist es oftmals von Interesse, Funktionen bez¨uglich με (wobei 1/ε als Systemgr¨oße“ ” verstanden wird) zu integrieren, die ihren gr¨oßten Wert nicht in den Nullstellen von I annehmen, und die zudem noch exponentiell mit 1/ε skalieren. Es soll also die 0 Asymptotik von Zεφ := eφ(x)/ε με (dx) f¨ur ε → 0 untersucht werden. Unter harmlosen Stetigkeitsannahmen tragen zu dem Integral haupts¨achlich diejenigen Punkte x bei, f¨ur die φ(x) groß ist, die aber gleichzeitig nicht zu unwahrscheinlich sind, also diejenigen x, f¨ur die φ(x) − I(x) die gr¨oßten Werte annimmt. Die Beitr¨age messen wir durch die gekippten W-Maße μφε (dx) = (Zεφ )−1 eφ(x)/ε με (dx), f¨ur die wir ein LDP herleiten. Als Anwendung folgern wir das Prinzip der Minimierung der freien Energie in der statistischen Physik und analysieren speziell den Weiss’schen Ferromagneten. Satz 23.17 (Varadhan’sches Lemma (1966)). Sei I eine gute Ratenfunktion und (με )ε>0 eine Familie von W-Maßen, die ein LDP mit Ratenfunktion I erf¨ullt. Sei ferner φ : E → R stetig und erf¨ulle die Bedingung (23.17) inf lim sup ε log eφ(x)/ε {φ(x)≥M } με (dx) = −∞. M >0
ε→0
Dann gilt
lim ε log
ε→0
eφ(x)/ε με (dx) = sup φ(x) − I(x) .
(23.18)
x∈E
Bemerkung 23.18. Die Bedingung (23.17) folgt aus der etwas griffigeren Bedingung, dass es ein α > 1 gibt mit (23.19) lim sup ε log eαφ/ε dμε < ∞. ε→0
In der Tat: F¨ur jedes M ∈ R ist φ(x)/ε e(φ(x)−M )/ε {φ(x)≥M } με (dx) ε log e {φ(x)≥M } με (dx) = M + ε log ≤ M + ε log eα(φ(x)−M )/ε με (dx) = −(α − 1)M + ε log eαφ(x)/ε με (dx). Hieraus und aus (23.19) folgt sofort (23.17).
3
Beweis. Wir zeigen mit unterschiedlichen Argumenten, dass die rechte Seite in (23.18) eine untere Schranke und eine obere Schranke f¨ur die linke Seite ist.
504
23 Große Abweichungen
F¨ur jedes x ∈ E und r > 0 ist lim inf ε log eφ/ε dμε ≥ lim inf ε log
Untere Schranke ε→0
ε→0
eφ/ε dμε
Br (x) r→0
≥ inf φ(Br (x)) − I(x) −→ φ(x) − I(x). Obere Schranke ε FM :=
F¨ur M > 0 und ε > 0 definieren wir eφ(x)/ε με (dx) und GεM :=
{φ≥M }
{φ<M }
eφ(x)/ε με (dx).
Wir setzen ε FM := lim sup ε log FM
und
ε→0
GM := lim sup ε log GεM . ε→0
Nach Lemma 23.9 gilt f¨ur jedes M > 0 lim ε log eφ(x)/ε με (dx) = FM ∨ GM . ε→0
Da nach Voraussetzung inf M >0 FM = −∞ gilt, reicht es zu zeigen, dass
sup GM ≤ sup φ(x) − I(x) . M >0
(23.20)
x∈E
Sei δ > 0. F¨ur jedes x ∈ I gibt es ein r(x) > 0 mit
inf I B2r(x) (x) ≥ I(x) − δ und sup φ B2r(x) (x) ≤ φ(x) − δ. Sei a ≥ 0. Da I eine gute Ratenfunktion ist, ist die Niveaumenge K := I −1 ([0, a]) kompakt. Wir finden also endlich viele Punkte x1 , . . . , xN ∈ I −1 ([0, a]), sodass N i=1 Br(xi ) (xi ) ⊃ K. Es gilt daher GεM
≤
φ(x)/ε
e
με (dx) +
{φ<M }∩K c
N i=1
≤ eM/ε με (K c ) +
N
{φ<M }∩Br(xi ) (xi )
eφ(x)/ε με (dx)
e(φ(xi )∧M +δ)/ε με Br(xi ) (xi )
i=1
= e(M +ε log(με (K
c
)))/ε
+
N
e(φ(xi )∧M +δ+ε log(με (Br(xi ) (xi ))))/ε .
i=1
Es folgt nach Lemma 23.9 und dem LDP
max φ(xi ) − I(xi ) + 2δ i=1,...,N
≤ (M − a) ∨ sup φ(x) − I(x) + 2δ.
GM ≤ (M − a) ∨
x∈E
Indem wir erst δ ↓ 0 und dann a ↑ ∞ gehen lassen, folgt (23.20).
2
23.4 Varadhan’sches Lemma und Freie Energie
505
Satz 23.19 (Gekipptes LDP). Es erf¨ulle (με )ε>0 ein LDP mit der guten Ratenfunktion I. Ferner0 sei φ : E → R stetig und erf¨ulle die Bedingung (23.17). Wir definieren Zεφ := eφ/ε dμε und μφε ∈ M1 (E) durch μφε (dx) = (Zεφ )−1 eφ(x)/ε με (dx). Ferner definieren wir I φ : E → [0, ∞] durch
I φ (x) = sup φ(z) − I(z) − φ(x) − I(x) .
(23.21)
z∈E
Dann erf¨ullt (μφε )ε>0 ein LDP mit der Ratenfunktion I φ . ¨ Beweis. Dies bleibt dem Leser zur Ubung u¨ berlassen. (Vergleiche [33, Aufgabe 2.1.24], siehe auch [42, Abschnitt II.7].) 2 Wir wollen das Varadhan’sche Lemma im Kontext der statistischen Physik betrachten. Sei hierzu Σ ein polnischer Raum, den wir als Raum der m¨oglichen Zust¨ande eines einzelnen Teilchens auffassen wollen. Ferner sei λ ∈ M1 (Σ) eine Verteilung, die wir als a priori Verteilung eines Teilchens ohne Ber¨ucksichtigung der Energie auffassen wollen. Ist Σ endlich oder eine beschr¨ankte Menge eines Rd , so ist λ typischerweise die Gleichverteilung auf Σ. Wenn wir n ununterscheidbare Teilchen unabh¨angig nach λ auf Positionen z1 , . . . , zn ∈ Σ setzen, so k¨onnen wir den Zun stand dieses Ensembles als x := n1 i=1 δzi beschreiben. Mit μ0n ∈ M1 (M1 (Σ)) bezeichnen wir die so gewonnene a priori Verteilung von x. Wir machen nun die Annahme, dass sich die Energie Un (x) eines Zustandes schreiben l¨asst als Un (x) = nU (x), wo U (x) als die mittlere Energie eines Teilchens bei Gesamtzustand x interpretiert wird. Es sei T ≥ 0 die Temperatur des Systems und β := 1/T die so genannte inverse Temperatur. Eine wichtige Rolle in der statistischen Physik spielt die Zustandssumme oder Partitionsfunktion β Zn := e−βUn dμ0n . Ein Postulat der statistischen Physik besagt, dass der Zustand x nach der Boltzmann-Verteilung verteilt ist: μβn (dx) = (Znβ )−1 e−βUn (x) μ0n (dx)
(23.22)
Das Varadhan’sche Lemma (genauer: das gekippte LDP) und der Satz von Sanov erlauben uns, die Br¨ucke zum Variationsprinzip f¨ur die freie Energie zu schlagen. Wir nehmen nun an, dass Σ eine endliche Menge ist und λ = UΣ die Gleichverteilung auf Σ. Nach dem Satz von Sanov erf¨ullt (μ0n )n∈N ein LDP mit Rate n und
506
23 Große Abweichungen 0.01 0.008 0.006 0.004 0.002
–0.8
–0.6
–0.4
–0.2
0
0.2
–0.002
0.4 m
0.6
0.8
–0.004 –0.006 –0.008
beta=0.9 beta=1.0 beta=1.1
Abb. 23.1. Die verschobene freie Energie F β (m) − F β (0) des Weiss’schen Ferromagneten ohne a¨ ußeres Feld (h = 0).
Ratenfunktion I(x) = H(x|λ), wo H(x|λ) die relative Entropie von x bez¨uglich λ ist. Nach (23.14) ist H(x|λ) = log(#Σ) − H(x), wo H(x) die Entropie von x ist. Wir definieren die freie Energie (oder das Helmholtz-Potential) pro Teilchen als F β (x) := U (x) − β −1 H(x). Der Satz u¨ ber das gekippte LDP liefert nun, dass die Folge der Boltzmann-Verteilungen (μβn )n∈N ein LDP erf¨ullt mit Rate n und Ratenfunktion I β (x) = F β (x) −
inf
F β (y).
y∈M1 (Σ)
F¨ur großes n ist die Boltzmann Verteilung auf diejenigen x konzentriert, die die freie Energie minimieren. Dies k¨onnen f¨ur unterschiedliche Temperaturen (also Werte von β) sehr unterschiedliche Zust¨ande sein. Daher treten bei kritischen Temperaturen Phasen¨uberg¨ange auf, und chemische Reaktionen laufen bei unterschiedlichen Temperaturen in unterschiedlichen Richtungen ab. Beispiel 23.20. Wir betrachten den Weiss’schen Ferromagneten. Dies ist ein mikroskopisches Modell f¨ur Magnetismus, das davon ausgeht, dass jedes von n magnetischen Teilchen eine von den zwei nAusrichtungen σi ∈ Σ = {−1, +1} hat. Die mittlere Magnetisierung m = n1 i=1 σi beschreibt den Zustand des Systems vollst¨andig (da die Teilchen ununterscheidbar sind) und ist die relevante makroskopische Messgr¨oße. Die Grundidee ist, dass es energetisch g¨unstiger ist, wenn Teilchen magnetisch parallel ausgerichtet sind, als wenn sie antiparallel ausgerichtet
23.4 Varadhan’sches Lemma und Freie Energie
507
0.1
0.05
–1
–0.8
–0.6
–0.4
–0.2
0.2
0.4
m
0.6
0.8
1
–0.05
–0.1
beta=0.9 beta=1.0 beta=1.1 beta=1.5
Abb. 23.2. Die verschobene freie Energie F β (m) − F β (0) des Weiss’schen Ferromagneten mit a¨ ußerem Feld h = 0.04.
sind. Wir wollen die r¨aumliche Struktur der Wechselwirkung ignorieren und annehmen, dass jedes Teilchen mit jedem anderen in gleicher Weise wechselwirkt (mean field Annahme). Außerdem wollen wir annehmen, dass es ein a¨ ußeres Magnetfeld der St¨arke h gibt. Bis auf Konstanten ist die Energie pro Teilchen daher 1 U (m) = − m2 − hm. 2 Die Entropie des Zustands m ist H(m) = −
1 + m 1 − m 1 − m 1+m log − log . 2 2 2 2
Die freie Energie pro Teilchen ist also 1 + m 1 − m 1 − m ( '1 + m 1 F β (m) = − m2 − hm + β −1 log log + . 2 2 2 2 2 Um die Minimalstellen von F β zu bestimmen, berechnen wir die Ableitung !
0=
d β dm F (m)
= −m − h + β −1 arctanh(m).
Wir erhalten so f¨ur m die Gleichung m = tanh(β(m + h)).
(23.23)
508
23 Große Abweichungen
Im Fall h = 0 hat (23.23) stets die L¨osung m = 0. Ist β ≤ 1, so ist diese L¨osung eindeutig, und F β hat das globale Minimum in m = 0. Ist β > 1, so besitzt (23.23) β,0 β,0 zwei weitere L¨osungen mβ,0 − ∈ (−1, 0) und m+ = −m− , die nur numerisch bestimmt werden k¨onnen. In diesem Fall besitzt F β in 0 ein lokales Maximum und in mβ,0 ± globale Minima. Da f¨ur große n nur noch solche Werte angenommen werden, f¨ur die F β minimal ist, liegt die Verteilung konzentriert um 0, falls β ≤ 1 und konzentriert um mβ,0 ± , falls β,0 = m β > 1. Im letzterem Fall ist die betragsm¨aßige Magnetisierung mβ,0 ± + > 0. ¨ Wir haben also einen Phasenubergang zwischen einer Phase bei hoher Temperatur (β ≤ 1), wo keine Magnetisierung auftritt, und niedriger Temperatur (β > 1), wo so genannte spontane Magnetisierung auftritt (das heißt ohne Einwirkung eines a¨ ußeren Feldes). Ist h = 0, so besitzt F β in m = 0 keine Minimalstelle. Vielmehr ist F β asymmetrisch und besitzt ein globales Minimum mβ,h mit selbem Vorzeichen wie h, sowie f¨ur großes β noch eine weiteres lokales Minimum mit dem entgegengesetzten Vorzeichen. Die exakten Werte f¨ur die Magnetisierung k¨onnen wieder nur numerisch bestimmt werden. Wir k¨onnen mβ,h jedoch f¨ur hohe Temperaturen (β klein) approximativ bestimmen, indem wir die N¨aherung tanh(β(m + h)) ≈ β(m + h) verwenden. Wir erhalten so h h = f¨ur T → ∞, (23.24) mβ,h ≈ −1 β −1 T − Tc wo die Curie-Temperatur Tc = 1 die kritische Temperatur f¨ur das Auftreten von spontaner Magnetisierung ist. Die Beziehung (23.23) heißt Curie-Weiss’sches Gesetz. 3 1 m
h=0.2 h=0.04 h=0.001
0.8
0.6
0.4
0.2
beta 0
0.5
1
1.5
2
2.5
3
3.5
Abb. 23.3. Weiss’scher Ferromagnet: Magnetisierung mβ,h + als Funktion von β.
24 Der Poisson’sche Punktprozess
Poisson’sche Punktprozesse k¨onnen als ein Grundbaustein zur Konstruktion sehr unterschiedlicher stochastischer Objekte verwendet werden, wie etwa unbegrenzt teilbare Verteilungen, Markovprozesse mit komplexer Dynamik, Objekte der stochastischen Geometrie und so fort. Wir geben in diesem Kapitel kurz den allgemeinen Rahmen zuf¨alliger Maße an, konstruieren den Poisson’schen Punktprozess und charakterisieren ihn durch seine Laplace-Transformierte. Als Anwendungen konstruieren wir einen Subordinator und zeigen, dass der Poisson’sche Punktprozess das invariante Maß von Systemen ¨ unabh¨angiger Irrfahrten ist. Uber den Zusammenhang zu Subordinatoren schlagen wir im dritten Abschnitt die Br¨ucke zu den in der Populationsgenetik wichtigen Poisson-Dirichlet und GEM Verteilungen.
24.1 Zuf¨allige Maße Sei E im Folgenden ein lokalkompakter, polnischer Raum (etwa E = Rd oder E = Zd ) mit Borel’scher σ-Algebra B(E). Sei
Bb (E) = B ∈ B(E) : B ist relativ kompakt das System der beschr¨ankten Borel’schen Mengen und M(E) der Raum der RadonMaße auf E (siehe Definition 13.3). Definition 24.1. Wir bezeichnen mit M = σ(IA : A ∈ Bb (E)) die kleinste σAlgebra auf M(E), bez¨uglich der alle Abbildungen IA : μ → μ(A),
A ∈ Bb (E),
messbar sind. Wir schreiben B+ (E) f¨ur die Menge der messbaren Abbildungen E → [0, ∞] und BbR (E) f¨ur die Menge der beschr¨ankten, 0 messbaren Abbildungen E → R mit kompaktem Tr¨ager. Das Integral If (μ) := f dμ ist f¨ur jedes f ∈ B+ (E) wohldefiniert und f¨ur jedes f ∈ BbR (E) wohldefiniert und endlich.
510
24 Der Poisson’sche Punktprozess
Satz 24.2. Sei τv die vage Topologie auf M(E). Dann ist M = B(τv ) = σ(If : f ∈ Cc (E)) = σ(If : f ∈ Cc+ (E)). 2
¨ Beweis. Ubung! (Siehe [83, Lemma 4.1].)
= σ(IA : A ∈ Bb (E)). K der Raum aller Maße auf E mit σ-Algebra M Sei M(E) die Spur-σ-Algebra von M auf M(E). Wir brauchen Offenbar ist M = M M(E)
diesen etwas gr¨oßeren Raum, um zuf¨allige Maße so zu definieren, dass fast sicher wohldefinierte Operationen wieder zuf¨allige Maße ergeben. Definition 24.3. Ein zuf¨alliges Maß auf E ist eine Zufallsvariable X auf einem und mit P[X ∈ K Wahrscheinlichkeitsraum (Ω, A, P) mit Werten in (M(E), M) M(E)] = 1. Satz 24.4. Sei X ein zuf¨alliges Maß auf E. Dann ist die Mengenfunktion E[X] : B(E) → [0, ∞], A → E[X(A)] ein Maß. Wir nennen E[X] das Intensit¨atsmaß von X. X heißt integrierbar, falls E[X] ∈ M(E). Beweis. Offenbar ist E[X] endlich additiv. Seien A, A1 , A2 , . . . ∈ B(E) mit An ↑ A. Betrachte die Zufallsvariablen Yn := X(An ) und Y = X(A). Dann gilt Yn ↑ Y , n→∞ also nach dem Satz u¨ ber monotone Konvergenz E[X](An ) = E[Yn ] −→ E[Y ] = E[X](A). Mithin ist E[X] stetig von unten und damit ein Maß (nach Satz 1.36). 2 Satz 24.5. Die Verteilung PX eines zuf¨alligen Maßes X ist eindeutig bestimmt sowohl durch die Verteilungen von
(If1 , . . . , Ifn ) : n ∈ N; f1 , . . . , fn ∈ Cc+ (E) (24.1) als auch von
(IA1 , . . . , IAn ) : n ∈ N; A1 , . . . , An ∈ Bb (E) paarweise disjunkt .
(24.2)
Beweis. Das Mengensystem
I = (If1 , . . . , Ifn )−1 (A) : n ∈ N; f1 , . . . , fn ∈ Cc+ (E), A ∈ B([0, ∞)n ) ist schnittstabil und nach Satz 24.2 ein Erzeuger von M. Also ist das Maß PX eindeutig durch die Werte auf I festgelegt. Die Aussage folgt analog f¨ur
(IA1 , . . . , IAn ) : n ∈ N; A1 , . . . , An ∈ Bb (E) . so existieren 2n − 1 paarweise disjunkte MenSind A1 , . . . , An ∈ Bb (E) beliebig, gen B1 , . . . , B2n −1 mit Ai = k: Bk ⊂Ai Bk f¨ur jedes i = 1, . . . , n. Die Verteilung 2 von (IA1 , . . . , IAn ) l¨asst sich aus der von (IB1 , . . . , IB2n −1 ) berechnen.
24.1 Zuf¨allige Maße
Im Folgenden sei i =
√
511
−1.
Definition 24.6. Wir bezeichnen mit ' ( LX (f ) = E exp − f dX , die Laplace-Transformierte von X und mit ' ( ϕX (f ) = E exp i f dX ,
f ∈ B+ (E),
f ∈ BbR (E),
die charakteristische Funktion von X. Satz 24.7. Die Verteilung PX eines zuf¨alligen Maßes X ist eindeutig bestimmt sowohl durch die Werte der Laplace-Transformierten LX (f ), f ∈ Cc+ (E), als auch durch die Werte der charakteristischen Funktion ϕX (f ), f ∈ Cc (E). Beweis. Dies folgt aus Satz 24.5 und dem Eindeutigkeitssatz f¨ur charakteristische ¨ Funktionen (Satz 15.8) beziehungsweise Laplace-Transformierte (Ubung 15.1.2) n von Zufallsvariablen auf [0, ∞) . 2 Definition 24.8. Wir sagen, dass ein zuf¨alliges Maß X auf E unabh¨angige Zuw¨achse hat, falls f¨ur je endlich viele paarweise disjunkte Mengen A1 , . . . , An die Zufallsvariablen X(A1 ), . . . , X(An ) unabh¨angig sind. Korollar 24.9. Die Verteilung eines zuf¨alligen Maßes X auf E mit unabh¨angigen Zuw¨achsen ist durch (PX(A) , A ∈ Bb (E)) eindeutig bestimmt. Beweis. Dies folgt direkt aus Satz 24.5.
2
Definition 24.10. Sei μ ∈ M(E). Ein zuf¨alliges Maß X mit unabh¨angigen Zuw¨achsen heißt Poisson’scher Punktprozess (PPP) mit Intensit¨atsmaß μ, falls f¨ur jedes A ∈ Bb (E) gilt, dass PX(A) = Poiμ(A) . Wir schreiben dann PPPμ := PX ∈ M1 (M(E)) und sagen kurz, dass X ein PPPμ ist. Bemerkung 24.11. Die Definition des PPP (und die Konstruktion im folgenden Satz) funktioniert auch, wenn (E, E, μ) lediglich ein σ-endlicher Maßraum ist. Die Charakterisierung mit Hilfe von Laplace-Transformierten und charakteristischen Funktionen ist allerdings etwas einfacher im hier betrachteten Fall lokalkompakter, polnischer R¨aume. 3 Satz 24.12. Zu jedem μ ∈ M(E) existiert ein Poisson’scher Punktprozess X mit Intensit¨atsmaß μ.
512
24 Der Poisson’sche Punktprozess
Beweis. Da μ ∈ M(E) ist, ist μ σ-endlich. Sei also En ↑ E mit μ(En ) < ∞ f¨ur jedes n ∈ N. Setze μ1 = μ(E1 ∩ · ) und μn = μ((En \ En−1 ) ∩ · ) ngige Poisson’sche Punktprozesse mit Intenf¨ur n ≥ 2. Sind X1 , X2 , . . . unabh¨a ∞ sit¨atsmaßen μ1 , μ2 , . . ., so hat X = n=1 Xn das Intensit¨atsmaß E[X] = μ, also ¨ ist X ein zuf¨alliges Maß (siehe Ubung 24.1.1). Außerdem sieht man leicht, dass X unabh¨angige Zuw¨achse hat und PX(A) = PX1 (A) ∗ PX2 (A) ∗ . . . = Poiμ1 (A) ∗ Poiμ2 (A) ∗ . . . = Poiμ(A) . Also ist X ∼ PPPμ . Es reicht also, den Fall μ(E) ∈ (0, ∞) zu betrachten, den wir im Folgenden annehmen wollen. Setze ν = μ( · )/μ(E) ∈ M1 (E). Seien N, Y1 , Y2 , . . . unabh¨angige Zufallsvariablen mit N ∼ Poiμ(E) und PYi = ν f¨ur jedes i ∈ N. Wir definieren X(A) =
N
A (Yn )
f¨ur A ∈ B(E).
n=1
Die Zufallsvariablen A (Y1 ), A (Y2 ), . . . sind unabh¨angig und Berν(A) -verteilt, also ist X(A) ∼ Poiμ(A) (siehe Satz 15.14(iii)). Seien A1 , A2 , . . . ∈ B(E) paarweise disjunkt und '
n tl ψ(t) = E exp i
n (
=1+ ν(Al ) ei tl − 1 , Al (Y1 )
l=1
t ∈ Rn ,
l=1
die charakteristische Funktion von ( A1 (Y1 ), . . . , An (Y1 )). Sei ferner ϕ die charakteristische Funktion von (X(A1 ), . . . , X(An )) und ϕl die von X(Al ) f¨ur l = 1, . . . , n, also ϕl (tl ) = exp(μ(Al )(eitl − 1)). Nach Satz 15.14(iii) ist n ' ( ϕ(t) = E exp i tl X(Al ) l=1
= exp μ(E)(ψ(t) − 1) n n
it l = exp μ(Al ) e − 1 = ϕl (tl ). l=1
l=1
Also sind X(A1 ), . . . , X(An ) unabh¨angig. Es folgt X ∼ PPPμ .
2
¨ Ubung 24.1.1. Seien X1 , X2 , . . . zuf¨allige Maße und λ1 , λ2 , . . . ∈ [0, ∞) sowie ∞ X := n=1 λn Xn . Man zeige, dass X genau dann ein zuf¨alliges Maß ist, wenn P[X(B) < ∞] = 1 f¨ur jedes B ∈ Bb (E). Man folgere: Ist X eine Zufallsvariable
K mit Werten in M(E), M(E) und E[X] ∈ M(E), so ist X ein zuf¨alliges Maß. ♣ ¨ Ubung 24.1.2. Sei τw die Topologie der schwachen Konvergenz auf M1 (E) und = σ(τw ). ♣ σ(τw ) die Borel’sche σ-Algebra auf M1 (E). Man zeige: M M1 (E)
24.2 Eigenschaften des Poisson’schen Punktprozesses
513
24.2 Eigenschaften des Poisson’schen Punktprozesses Satz 24.13. Sei μ ∈ M(E) atomlos, also μ({x}) = 0 f¨ur jedes x ∈ E, und sei X ein zuf¨alliges Maß auf E mit P[X(A) ∈ N0 ∪ {∞}] = 1 f¨ur jedes A ∈ B(E). Dann sind a¨ quivalent: (i) X ∼ PPPμ (ii) X ist fast sicher doppelpunktfrei, also P[X({x}) ≥ 2 f¨ur ein x ∈ E] = 0, und P[X(A) = 0] = e−μ(A) Beweis. (i) =⇒ (ii)
f¨ur jedes A ∈ Bb (E).
(24.3)
Das ist klar.
(ii) =⇒ (i) Sind A1 , . . . , An ∈ Bb (E) paarweise disjunkt, so ist * ) * ) P X(A1 ) = 0, . . . , X(An ) = 0 = P X A1 ∪ . . . ∪ An = 0 = e−μ(A1 ∪...∪An ) n n −μ(Al ) = e = P[X(Al ) = 0]. l=1
l=1
:= X(A)∧1 unabh¨angig f¨ur disjunkte Mengen Also sind die Zufallsvariablen X(A) A. Der Rest des Beweises geht wie im Beweis von Satz 5.34. Sei A ∈ Bb (E). ¨ 8.3.1, weil μ atomlos W¨ahle A0 ⊂ A mit μ(A0 ) = μ(A)/2 (das geht nach Ubung ist) und setze A1 = A \ A0 . W¨ahle nun in gleicher Weise Ai,0 , Ai,1 ⊂ Ai f¨ur i = 0, 1 und sukzessive disjunkte Mengen Ai,0 , Ai,1 ⊂ Ai f¨ur i ∈ {0, 1}n−1 mit μ(Ai ) = 2−n μ(A) f¨ur jedes i ∈ {0, 1}n . Setze i ). X(A Nn (A) := i∈{0,1}n
Da X doppelpunktfrei ist, gilt Nn (A) ↑ X(A) fast sicher. Andererseits ist nach Voraussetzung Nn (A) ∼ b2n ,2−n μ(A) f¨ur n ∈ N, also konvergiert die charakteristische Funktion
2n n→∞
ϕNn (A) (t) = 1 + 2−n μ(A)(eit − 1) −→ exp μ(A)(eit − 1) = ϕPoiμ(A) (t). n→∞
Mithin gilt PNn (A) −→ Poiμ(A) , also X(A) ∼ Poiμ(A) . Sind nun A1 , . . . , Ak ∈ Bb (E) paarweise disjunkt, so sind die analog konstruierten Nn (A1 ), . . . , Nn (Ak ) unabh¨angig, also sind auch die Limiten X(Al ) = 2 limn→∞ Nn (Al ), l = 1, . . . , k unabh¨angig.
514
24 Der Poisson’sche Punktprozess
Satz 24.14. Sei μ ∈ M(E) und X ein Poisson’scher Punktprozess mit Intensit¨atsmaß μ. Dann hat X die Laplace-Transformierte
−f (x) μ(dx) e −1 , f ∈ B+ (E), LX (f ) = exp und die charakteristische Funktion
if (x) μ(dx) e −1 , ϕX (f ) = exp
f ∈ BbR (E).
n Beweis. Es reicht, die Aussage f¨ur Elementarfunktion f = l=1 αl Al mit komplexen Zahlen α1 , . . . , αn und paarweise disjunkten Mengen A1 , . . . , An ∈ Bb (E) zu zeigen. (Die Aussagen f¨ur allgemeines f folgen dann mit den u¨ blichen Approximationsargumenten.) F¨ur solches f ist aber , + n n ( ' * )
e−αl X(Al ) = E e−αl X(Al ) E exp − If (X) = E l=1
=
n
l=1
exp μ(Al ) e−αl − 1
l=1
= exp
n
μ(Al ) e−αl − 1
l=1
= exp
−f (x)
μ(dx) e
−1
.
2
Korollar 24.15 (Momente des PPP). Sei μ ∈ M(E) und X ∼ PPPμ . 0 0 (i) Ist f ∈ L1 (μ), so ist E[ f dX] = f dμ. 0 0 (ii) Ist f ∈ L2 (μ) ∩ L1 (μ), so ist Var[ f dX] = f 2 dμ. Beweis. Ist f ∈ L1 (μ), so vertauschen f¨ur die 0 charakteristische Funktion Inted ϕX (tf ) = iϕX (tf ) f (x) eitf (x) μ(dx), also ist (nach gral und Differentiation dt Satz 15.31) * 1 d ) ϕX (tf ) = f dμ. E If (X) = i dt t=0 Ist f ∈ L1 (μ) ∩ L2 (μ), so l¨asst sich das Argument iterieren + 2 , d2 2 itf (x) itf (x) , ϕX (tf ) = −ϕX (tf ) f (x) e μ(dx) + f (x) e μ(dx) dt2 * ) d2 also gilt E If (X)2 = − dt 2 ϕX (tf )
t=0
= If 2 (μ) + If (μ)2 .
2
24.2 Eigenschaften des Poisson’schen Punktprozesses
515
Satz 24.16 (Abbildungssatz). Seien E und F lokalkompakte, polnische R¨aume und φ : E → F eine messbare Abbildung. Sei μ ∈ M(E) mit μ ◦ φ−1 ∈ M(F ) und X ein PPP auf E mit Intensit¨atsmaß μ. Dann ist X ◦ φ−1 ein PPP auf F mit Intensit¨atsmaß μ ◦ φ−1 . Beweis. F¨ur f ∈ B+ (F ) ist LX◦φ−1 (f ) = LX (f ◦ φ) = exp
e
= exp
−f (φ(x))
− 1 μ(dx)
−f (y) −1 e (dy) . −1 μ◦φ
Die Aussage folgt nun aus Satz 24.16 und Satz 24.7.
2
0Satz 24.17. Sei ν ∈ M((0, ∞)) und X ∼ PPPν auf (0, ∞). Setze Y := x X(dx). Dann sind a¨ quivalent (i) P[Y < ∞] > 0, (ii) P[Y < ∞] = 1,
0 (iii) ν(dx) 1 ∧ x < ∞. Gelten (i)–(iii), so ist Y eine unbegrenzt teilbare, nichtnegative Zufallsvariable mit L´evy-Maß ν. 0 0 Beweis. Sei Y∞ = [1,∞) x X(dx) und Yt := (t,1) x X(dx) f¨ur t ∈ [0, 1). Offenbar ist Y = Y0 + Y∞ . Außerdem ist offenbar (24.4) P[Y∞ < ∞] > 0 ⇐⇒ P[Y∞ < ∞] = 1 ⇐⇒ ν([1, ∞)) < ∞. 0 Gilt (iii), so ist E[Y0 ] = (0,1) x ν(dx) < ∞, also Y0 < ∞ f.s. (und wegen (24.4) auch Y < ∞ f.s.). Gilt andererseits (iii) nicht, so ist Y∞ = ∞ f.s. oder E[Y0 ] = ∞. W¨ahrend f¨ur Y∞ die Erwartung unendlich sein kann, auch wenn Y∞ f.s. endlich ist, ist dies f¨ur Y0 nicht m¨oglich, denn Y0 setzt sich im Gegensatz zu Y∞ nicht aus wenigen großen, sondern aus vielen kleinen Beitr¨agen zusammen, sodass ein Gesetz der großen Zahl gilt. Konkret ist nach Korollar 24.15 x2 ν(dx) ≤ x ν(dx) = E[Yt ] < ∞ Var[Yt ] = (t,1)
(t,1)
f¨ur jedes t ∈ (0, 1), also nach der Chebyshev’schen Ungleichung + , E[Yt ] 4 Var[Yt ] t→0 P Yt < −→ 0. ≤ 2 E[Yt ]2 Also ist Y0 = supt∈(0,1) Yt ≥ E[Y0 ]/2 = ∞ fast sicher.
516
24 Der Poisson’sche Punktprozess
Es gelten nun (i) – (iii). Nach Satz 24.14 hat Y die Laplace-Transformierte
−tx −tY E[e ] = exp ν(dx) e −1 . Nach der L´evy-Khinchin Formel (Satz 16.14) ist Y unbegrenzt teilbar mit L´evyMaß ν. 2 Beispiel 24.18. Nach Korollar 16.10 existiert zu jeder nichtnegativen unbegrenzt teilbaren Verteilung μ mit L´evy-Maß ν ein stochastischer Prozess (Yt )t≥0 mit unabh¨angigen station¨aren Zuw¨achsen und Yt ∼ μ∗t (also mit L´evy-Maß tν). Diesen Prozess k¨onnen wir hier direkt konstruieren: Sei X ein PPP auf (0, ∞) × [0, ∞) mit Intensit¨atsmaß ν ⊗ λ (wo λ das Lebesgue-Maß ist). Setze Y0 = 0 und x X(d(x, s)). Yt := (0,∞)×(0,t]
Nach dem Abbildungssatz ist X( · × (s, t]) ∼ PPP(t−s)ν , also ist Yt − Ys unbegrenzt teilbar mit L´evy-Maß (t−s)ν. Die Unabh¨angigkeit der Zuw¨achse ist evident. Man beachte, dass t → Yt rechtsstetig und monoton wachsend ist. Der so konstruierte Prozess Y heißt Subordinator mit L´evy-Maß ν.
3
Wir k¨onnen das Vorgehen des letzten Beispiels verallgemeinern, indem wir als Zeitmenge allgemeinere Mengen als [0, ∞) zulassen. Definition 24.19. Ein zuf¨alliges Maß Y heißt unbegrenzt teilbar, wenn f¨ur jedes n ∈ N u.i.v. zuf¨allige Maße Y1 , . . . , Yn existieren mit Y = Y1 + . . . + Yn . Satz 24.20. Sei ν ∈ M((0, ∞) × E) mit A (t) (1 ∧ x) ν(d(x, t)) < ∞
f¨ur jedes A ∈ Bb (E),
und sei α ∈ M(E). Sei X ein PPPν und Y (A) := α(A) + x A (t) X(d(x, t))
f¨ur A ∈ B(E).
Dann ist Y ein unbegrenzt teilbares zuf¨alliges Maß mit unabh¨angigen Zuw¨achsen. F¨ur A ∈ B(E) hat Y (A) das L´evy-Maß ν( · × A). Wir nennen ν das kanonische Maß und α den deterministischen Anteil von Y . Beweis. Das folgt direkt aus Satz 24.16 und Satz 24.17.
2
24.2 Eigenschaften des Poisson’schen Punktprozesses
517
0 Bemerkung 24.21. Wir k¨onnen Y schreiben als Y = α + xδt X(d(x, t)), wo δt die Einheitsmasse in t ∈ E ist. Wenn wir nun statt x δt allgemeinere Maße χ ∈ M(E) zulassen, so erhalten wir eine Darstellung χ X(dχ), Y =α+ M(E)
0 wo X ∼ PPPν auf M(E) und ν ∈ M(M(E)) mit ν(dχ)(χ(A)∧1) < ∞ f¨ur jedes A ∈ Bb (E). Man kann zeigen, dass dies die allgemeinste Form eines unbegrenzt teilbaren Maßes auf E ist. Wir nennen ν das kanonische Maß von Y und α den deterministischen Anteil. Y ist charakterisiert durch die Laplace-Transformierte, die der L´evy-Khinchin Formel gen¨ugt:
− 0 f dχ −1 . 3 LY (f ) = exp − f dα + ν(dχ) e Satz 24.22 (F¨arbungssatz). Sei F ein weiterer lokalkompakter, polnischer Raum und μ ∈ M(E) atomlos sowie (Yx )x∈E u.i.v. Zufallsvariablen mit Werten in F und Verteilung ν ∈ M1 (F ). Dann ist Z(A) := A ∈ B(E × F ), A (x, Yx ) X(dx), ein PPPμ⊗ν auf E × F . 2
¨ Beweis. Ubung!
Wir wollen die Aussage des F¨arbungssatzes in nahe liegender Weise verallgemeinern: Die Annahme, dass das Maß μ atomlos ist, sorgt schließlich nur daf¨ur, dass X keine Doppelpunkte hat, also f¨ur jede Einheitsmasse, die X produziert, eine andere Zufallsvariable Yx zur Verf¨ugung steht. Außerdem wollen wir f¨ur jeden Punkt x eine eigene Verteilung von Yx erlauben. Seien also E, F lokalkompakte, polnische R¨aume, μ ∈ M(E) und κ ein sto0 chastischer Kern von E nach F mit μκ := μ(dx)κ(x, · ) ∈ M(F ). Seien (Yx,t )x∈E, t∈[0,1] unabh¨angige Zufallsvariablen mit Verteilungen PYx,t = κ(x, · ) f¨ur x ∈ E und t ∈ [0, 1]. ˜ als den PPP auf E × [0, 1] mit Wir definieren zu X ∼ PPPμ das Lifting X D Intensit¨atsmaß μ ⊗ λ , wo λ das Lebesgue-Maß ist. Offenbar ist dann X = [0,1]
˜ · × [0, 1]). Das zuf¨allige Maß X ˜ k¨onnen wir also als Realisierung von X aufX( fassen, wobei wir den einzelnen Punkten von X willk¨urlich eine Markierung mit Werten aus [0, 1] gegeben haben, um sie zu unterscheiden. Wir setzen nun ˜ t)) A (Yx,t ) f¨ur A ∈ B(F ). X κ (A) := X(d(x,
518
24 Der Poisson’sche Punktprozess
Satz 24.23. X κ ist ein zuf¨alliges Maß mit PX κ = PPPμκ . Beweis. Offenbar ist X κ (A) fast sicher ein Maß. F¨ur A ∈ Bb (F ) ist + , ˜ E[X κ (A)] = E X(d(x, t)) κ(x, A) = (μκ)(A) < ∞ nach Voraussetzung, also ist X κ (A) < ∞ fast sicher, und damit ist X κ ein zuf¨alliges Maß. Wir berechnen die Laplace-Transformierte von X κ . Sei g(x) := ˜ doppelpunktfrei ist) − log E[e−f (Yx,t ) ]. Dann ist (weil X + , ˜ LX κ (f ) = E exp − X(d(x, t)) f (Yx,t ) ⎤ ⎡ ⎤ ⎡ e−f (Yx,t ) ⎦ = E ⎣ E[e−f (Yx,t ) ]⎦ = E⎣ ˜ (x,t): X({(x,t)})=1
⎡
= E⎣
˜ (x,t): X({(x,t)})=1
⎤ e−g(x) ⎦ = LX (g)
˜ (x,t): X({(x,t)})=1
−f (Yx,t ) ]−1 = exp μ(dx) E[e
−f (y) −1 = exp μ(dx) κ(x, dy) e
= exp μκ(dy) e−f (y) − 1 .
2
Beispiel 24.24 (PPP als invariante Verteilung). Als Anwendung des letzten Satzes betrachten wir einen stochastischen Prozess auf E = Zd oder E = Rd , der aus unabh¨angigen Irrfahrten besteht. Wir nehmen also an, dass wir u.i.v. Zufallsvariablen Zni , i, n ∈ N mit Verteilung ν ∈ E haben. Wir nehmen zudem an, dassdas i-te n Teilchen unseres Irrfahrtenprozesses zur Zeit n die Position Sni := S0i + l=1 Zli i hat, wobei S0 ein willk¨urlicher, eventuell zuf¨alliger, Startpunkt ist. Wenn wir die Teilchen als ununterscheidbar annehmen, reicht es, die Teilchen an jedem Ort zusammenzuz¨ahlen. Wir betrachten also Xn (A) :=
∞
i A (Sn )
f¨ur A ⊂ E.
i=1
Jedes Xn ist ein Maß auf E und, wenn wir die Teilchen anfangs nicht zu sehr konzentrieren, lokal endlich, also ein zuf¨alliges Maß. Nehmen wir an, dass X0 ∼ PPPμ f¨ur ein μ ∈ M(E) ist. Wir setzen κ(x, · ) = δx ∗ν und schreiben κn f¨ur die n-fache D Anwendung von κ, also κn (x, · ) = δx ∗ ν ∗n . Wir erhalten so X0κ = X1 . In der Tat: Das unabh¨angige Bewegen der einzelnen Teilchen in der Definition von X0κ
24.3 Die Poisson-Dirichlet-Verteilung∗
519
ist genau die Dynamik der unabh¨angigen Irrfahrten. Da nun auch X1 ein PPP ist, D erhalten wir iterativ Xnκ = Xn+1 und damit Xn ∼ PPPμκn = PPPμ∗ν ∗n . Speziell D
ist X0 = Xn genau dann, wenn μ ∗ ν = μ gilt. Offenbar ist dies richtig, wenn E = Zd und μ das Z¨ahlmaß oder E = Rd und μ das Lebesgue-Maß. Ist beispielsweise E = Zd , so kann man unter relativ schwachen Annahmen an ν zeigen, dass das Z¨ahlmaß μ = λ die einzige L¨osung von μ ∗ ν = μ ist. In dem Fall ist jedes invariante Maß eine Konvexkombination von PPPs mit verschiedenen Intensit¨atsmaßen θλ. 3 ¨ Ubung 24.2.1. Man zeige die Aussage von Korollar 24.15 ohne charakteristische Funktionen direkt u¨ ber die Approximation mit Elementarfunktionen. ♣ ¨ Ubung 24.2.2. Man zeige den F¨arbungssatz (Satz 24.22).
♣
24.3 Die Poisson-Dirichlet-Verteilung∗ Ziel dieses Abschnitts ist die L¨osung des folgenden Problems: Wir brechen einen Stock der L¨ange 1 an einer zuf¨alligen (uniform verteilten) Stelle in zwei St¨ucke und legen das linke St¨uck (mit der L¨ange W1 ) beiseite. Mit dem restlichen Stock verfahren wir in gleicher Weise und legen das linke St¨uck der L¨ange W2 beiseite. Sukzessive sammeln wir die Bruchst¨ucke mit L¨angen W1 , W2 , W3 , . . . Wie sieht die gemeinsame Verteilung von (W1 , W2 , . . .) aus? Ferner wollen wir die Zahlen W1 , W2 , . . . der Gr¨oße nach umsortieren und W(1) ≥ W(2) ≥ . . . nennen. Wie sieht die Verteilung von (W(1) , W(2) , . . .) aus? Und schließlich: was hat dies mit Poisson’schen Punktprozessen zu tun? Zur Beantwortung der Fragen m¨ussen wir etwas weiter ausholen. Wir hatten gesehen, wie die Beta-Verteilung in nat¨urlicher Weise bei dem P´olya’schen Urnenmodell als Grenzverteilung der Frequenzen der beiden Kugelfarben auftritt. Offenbar kann man das P´olya’sche Modell auch mit n ≥ 2 Farben betrachten. Die Grenzverteilung ist dann die n-dimensionale Verallgemeinerung der Beta-Verteilung, n¨amlich die so genannte Dirichlet-Verteilung. Definition 24.25. Sei n ∈ {2, 3, . . .} und θ1 , . . . , θn > 0. Die Dirichlet-Verteilung Dirθ1 ,...,θn ist die Verteilung auf dem (n − 1)-dimensionalen Simplex Δn := {(x1 , . . . , xn ) ∈ [0, 1] : x1 + . . . + xn = 1}, die f¨ur messbares A ⊂ Δn definiert ist durch Dirθ1 ,...,θn (A) = A (x1 , . . . , xn ) fθ1 ,...,θn (x1 , . . . , xn ) dx1 · · · dxn−1 , wobei fθ1 ,...,θn (x1 , . . . , xn ) =
Γ (θ1 + . . . + θn ) θ1 −1 x · · · xθnn −1 . Γ (θ1 ) · · · Γ (θn ) 1
520
24 Der Poisson’sche Punktprozess
Die Parameter θ1 , . . . , θn entsprechen (falls ganzzahlig) den Anzahlen der Kugeln der einzelnen Farben, die urspr¨unglich in der Urne liegen. Wenn wir nun nicht ganz so genau hinschauen und Kugeln zweier Farben, etwa n−1 und n zusammenfassen, so sollten wir als Grenzverteilung f¨ur die Frequenzen Dirθ1 ,...,θn−2 ,θn−1 +θn erhalten. Sei (Mt )t≥0 der Moran-Gamma-Subordinator, also ein stochastischer Prozess mit rechtsstetigen, monoton wachsenden Pfaden t → Mt und unabh¨angigen, station¨aren, Gamma-verteilten Zuw¨achsen: Mt − Ms ∼ Γ1,t−s f¨ur t > s ≥ 0. Einen wichtigen Zusammenhang zwischen der Dirichlet-Verteilung und M liefert der folgende Satz. Satz 24.26. Seien n ∈ N und θ1 , . . . , θn > 0 sowie Θ := θ1 + . . . + θn . Seien X ∼ Dirθ1 ,...,θn und Z ∼ Γ1,Θ unabh¨angige Zufallsvariablen. Dann sind die Zufallsvariablen Si := Z · Xi , i = 1, . . . , n unabh¨angig und Si ∼ Γ1,θi . n−1 n Beweis. Sei im Folgenden stets xn := 1 − i=1 xi und s = j=1 sj . Sei Δn := n−1 {x1 , . . . , xn−1 > 0 : i=1 xi < 1}. Die Verteilung von (X1 , . . . , Xn−1 , Z) hat (f¨ur x ∈ Δn und z ≥ 0) die Dichte f (x1 , . . . , xn−1 , z) =
n
θ −1
xj j
/Γ (θj ) z Θ−1 e−z .
j=1
Betrachte die Abbildung F : Δn−1 × (0, ∞) → (0, ∞)n , (x1 , . . . , xn−1 , z) → (zx1 , . . . , zxn ). Die Abbildung ist invertierbar mit Umkehrabbildung F −1 : (s1 , . . . , sn ) → (s1 /s, . . . , sn−1 /s, s). Die Ableitung von F hat die Determinante det(F (x1 , . . . , xn−1 , z)) = z n−1 . Nach der Transformationsformel f¨ur Dichten (Satz 1.101) hat (S1 , . . . , Sn ) die Dichte f (F −1 (s1 , . . . , sn )) | det(F (F −1 (s1 , . . . , sn )))| n
sΘ−1 e−s (sj /s)θj −1 /Γ (θj ) = sn−1 j=1
g(s1 , . . . , sn ) =
=
n
(sj /s)θj −1 e−sj /Γ (θj ) .
j=1
Dies ist aber die Dichte von unabh¨angigen Gamma-Verteilungen.
2
i Korollar 24.27. Ist ti := j=1 θj f¨ur i = 0, . . . , n, so sind die Zufallsvariablen X = ((Mti − Mti−1 )/Mtn , i = 1, . . . , n) und S := Mtn unabh¨angig und X ∼ Dirθ1 ,...,θn sowie S ∼ Γ1,tn . Korollar 24.28. Sei (X1 , . . . , Xn ) ∼ Dirθ1 ,...,θn . Dann sind X1 ∼ βθ1 , ni=2 θi und (X2 /(1 − X1 ), . . . , Xn /(1 − X1 )) ∼ Dirθ2 ,...,θn unabh¨angig.
24.3 Die Poisson-Dirichlet-Verteilung∗
521
Beweis. Sei M wie in Korollar 24.27. Dann ist X1 = Mt1 /Mtn ∼ βθ1 ,tn −θ1 und −1 Mtn −Mt1 X1 = + 1 nur von Mt1 und Mtn − Mt1 abh¨angig. Andererseits ist Mt 1
X2 Xn ,..., 1 − X1 1 − X1
=
Mtn − Mtn−1 Mt2 − Mt1 ,..., Mtn − Mt1 Mtn − Mt1
unabh¨angig von Mt1 und nach Korollar 24.27 auch unabh¨angig von Mtn − Mt1 sowie Dirθ2 ,...,θn -verteilt. 2 Korollar 24.29. Seien V1 , V2 , . . . unabh¨angig und Vi ∼ βθi ,θi+1 +...+θn sowie Vn = 1. Dann ist
V1 , (1 − V1 )V2 , (1 − V1 )(1 − V2 )V3 , . . . ,
n−2
(1 − Vi ) Vn ∼ Dirθ1 ,...,θn .
i=1
Beweis. Das folgt durch Iteration der Aussage von Korollar 24.28.
2
Eine nat¨urliche Fragestellung ist, was passiert, wenn wir immer mehr Farben differenzieren (statt zusammenzufassen). Wir wollen der Einfachheit halber eine symmetrische Situation annehmen, bei der θ1 = . . . = θn = θ/n f¨ur ein θ > 0 ist. Wir betrachten also Dirθ;n := Dirθ,...,θ f¨ur θ > 0. Ist X n = (X1n , . . . , Xnn ) ∼ Dirθ/n;n , so ist aus Symmetriegr¨unden E[Xin ] = 1/n n→∞ f¨ur jedes n ∈ N und i = 1, . . . , n. Offenbar gilt also (X1n , . . . , Xkn ) =⇒ 0 f¨ur jedes k ∈ N. Eine M¨oglichkeit, einen nicht-trivialen Grenzwert zu erhalten ist, die n n ≥ X(2) ≥ ... Werte der Gr¨oße nach zu ordnen X(1) Definition 24.30. Sei θ > 0 und (Mt )t∈[0,θ] ein Moran-Gamma-Subordinator. Seien m1 ≥ m2 ≥ . . . ≥ 0 die der Gr¨oße nach sortierten Sprungh¨ohen von M und ˜ 1, m ˜ 2 , . . .) auf m ˜ i = mi /Mθ , i = 1, 2, . . . Die Verteilung der Zufallsvariablen (m S := {(x1 ≥ x2 ≥ . . . ≥ 0) : x1 + x2 + . . . = 1} heißt Poisson-DirichletVerteilung PDθ mit Parameter θ > 0. ∞ ˜ i = 1 ist. Sei hierzu Genau genommen m¨ussen wir noch nachweisen, dass i=1 m Y ein PPP auf (0, ∞) × (0, θ] mit Intensit¨atsmaß ν ⊗ λ, wo λ das Lebesgue-Maß ist und ν(dx) = e−x x−1 dx das L´evy-Maß der Γ1,1 -Verteilung. Wir k¨onnen M definieren durch Mt := (x,s): Y ({x,s})=1, s≤t x. Nun ist m1 = sup{x ∈ (0, ∞) : Y ({x} × (0, θ]) = 1} und sukzessive mn = sup{x < mn−1 : Y ({x} × (0, θ]) = 1} f¨ur n ≥ 2. Durch Vertauschung der Summationsreihenfolge erhalten wir also ∞ Mθ = n=1 mn . n→∞
n ,X n ,...) −→ PDθ . Satz 24.31. Ist X n ∼ Dirθ/n;n f¨ur n ∈ N, so gilt P(X(1) (2)
522
24 Der Poisson’sche Punktprozess
Beweis. Die Idee ist, die Zufallsvariablen X n , n ∈ N, so durch die Zuw¨achse des Moran-Gamma-Subordinators (Mt )t∈[0,θ] darzustellen, dass aus der Verteilungskonvergenz eine fast sichere Konvergenz wird. Es sei also Xin = (Mθi/n − Mθ(i−1)/n )/Mθ . Nach Korollar 24.27 ist X n ∼ Dirθ/n;n . Seien t1 , t2 , . . . ∈ (0, θ] n ≥m ˜ 1 f¨ur jedes n. die Positionen der Spr¨unge m1 ≥ m2 ≥ . . . Offenbar ist X(1) n Ist n so groß, dass |t1 − t2 | > θ/n ist, so ist X(2) ≥ m ˜ 2 . Sukzessive erhalten wir n n ≥m ˜ i fast sicher. Nun ist aber (mit der Festsetzung X(i) = 0 f¨ur lim inf n→∞ X(i) ∞ n i > n) i=1 X(i) = 1 f¨ur jedes n ∈ N. Nach dem Lemma von Fatou ist daher 1=
∞
m ˜i ≤
i=1
Es folgt
n limn→∞ X(i)
∞ i=1
n lim inf X(i) ≤ lim inf n→∞
n→∞
∞
n X(i) = 1.
i=1
=m ˜ i fast sicher.
2
Anstatt die Werte von X n strikt der Gr¨oße nach zu ordnen, k¨onnen wir ein anderes Verfahren anwenden, das Konvergenz der Verteilungen sichert. Stellen wir uns vor, dass wir in einer Population ein genetisches Merkmal haben, das wir unterschiedlich fein messen k¨onnen. Wenn wir n unterschiedliche Werte unterscheiden wollen, so soll Xin den Anteil der Bev¨olkerung mit dem Merkmal i bezeichnen. Wir greifen nun sukzessive zuf¨allig Individuen aus der Population heraus. Das erste Individuum habe den Typ I1n . Mit I2n bezeichnen wir den Typ des ersten Individuums, das nicht vom Typ I1n ist. Sukzessive sei Ikn der Typ des ersten Individuums, n ist. Wir betrachten nun den Vektor das nicht von einem der Typen I1n , . . . , Ik−1 ˆ n = (X ˆ n, . . . , X ˆ nn ), wo X ˆ n = X nn . Da die Wahrscheinlichkeit f¨ur I1 = i proX 1 Ik k ˆ n den portional zur Gr¨oße der Sub-Population mit Merkmal i ist, nennen wir X sukzessive gr¨oßenverzerrt gezogenen Vektor. ˆ n a¨ ndert sich nicht, wenn wir die Reihenfolge der X n , . . . , X n Die Verteilung von X n 1 n n ver¨andern. Speziell k¨onnen wir statt X n die Ordnungsstatistik (X(1) , . . . , X(n) ) ˆ n als sukzessive gr¨oßenverzerrt gezogenen Vektor. w¨ahlen und erhalten ebenfalls X ˆ Insbesondere k¨onnen wir f¨ur X ∼ PDθ den sukzessiv gr¨oßenverzerrten Vektor X ˆ n n→∞ ˆ =⇒ X. definieren. Gilt X n ∼ Dirθ/n;n , so folgt aus Satz 24.31 sofort, dass X ˆ ausrechnen. Hiermit k¨onnen wir die Verteilung von X Satz 24.32. Sei θ > 0 und seien X n ∼ Dirθ/n;n , n ∈ N, sowie X ∼ PDθ . Seien ferner V1 , V2 , . . . u.i.v. Zufallsvariablen auf [0, 1] mit Dichte x → θ(1 − x)θ−1 . Wir
k−1 ur k ≥ 2. Dann gilt: setzen Z1 = V1 und Zk = i=1 (1 − Vi ) Vk f¨ ˆ n n→∞ ˆ (i) X =⇒ X. D ˆ= (ii) X Z.
Die Verteilung von Z heißt GEMθ -Verteilung (f¨ur Griffiths-Engen-McCloskey).
24.3 Die Poisson-Dirichlet-Verteilung∗
523
Beweis. Die Aussage (i) wurde bereits in der Diskussion vor dem Satz gezeigt. Um ˆ n und zeigen, dass sie gegen die (ii) zu zeigen, berechnen wir die Verteilung von X von Z konvergiert. ˆ n,1 der Vektor X n,1 = (X nn , X2 , . . . , X nn , X nn , . . . , Xnn ), bei dem nur Sei X I1 I1 −1 I1 +1 die erste Koordinate gr¨oßenverzerrt gezogen wurde. Wir zeigen: ˆ n,1 ∼ Dir(θ/n)+1,θ/n,...,θ/n . X
(24.5)
n
(θ/n)−1 die Dichte von Dirθ/n;n . Die Dichte Sei f (x) = Γ (θ)/Γ (θ/n)n · k=1 xk n,1 n,1 von X berechnen wir durch Zerlegung nach dem Wert i von I1n : f f n,1 (x) =
n
x1 f (x2 , . . . , xi , x1 , xi+1 , . . . , xn ) = n x1 f (x)
i=1
=
n nΓ (θ) θ/n (θ/n)−1 x xi 1 Γ (θ/n)n i=2
=
n Γ (θ + 1) θ/n (θ/n)−1 x x . Γ ((θ/n) + 1) Γ (θ/n)n−1 1 i=2 i
D ˆ n,1 = Dies ist aber die Dichte von Dir(θ/n)+1,θ/n,...,θ/n . Nach Korollar 24.28 ist X (V1n , (1 − V1n )Y1 , . . . , (1 − V1n )Yn−1 ), wobei V1n ∼ β(θ/n)+1,θ(n−1)/n und Y = (Y1 , . . . , Yn−1 ) ∼ Dirθ/n;n−1 unabh¨angig sind. Indem wir das Gezeigte nun auf Y anwenden, erhalten wir sukzessive D ˆn = X Z n,
wobei Z1n = V1n
und
Zkn =
k−1
(1 − Vin ) Vkn
(24.6)
f¨ur k ≥ 2,
i=1 n unabh¨angig sind und Vin ∼ β(θ/n)+1,θ(n−i)/n . Nun pr¨uft und wobei V1n , . . . , Vn−1 n→∞ man aber leicht nach, dass β(θ/n)+1,θ(n−i)/n −→ β1,θ f¨ur jedes i ∈ N, und β1,θ n→∞ hat die Dichte x → θ(1 − x)θ−1 . Es gilt also Vin =⇒ Vi f¨ur jedes i und damit n→∞ ˆ n n→∞ =⇒ Z. Zusammen mit (i) folgt hieraus die Aussage (ii). 2 Z n =⇒ Z und X
Unsere eingangs gestellte Frage nach den Gr¨oßen W1 , W2 , . . . der Bruchst¨ucke von sukzessiv uniform verteilt zerbrochenen St¨ocken ist damit gekl¨art: Der Vektor (W(1) , W(2) , . . .) ist PD1 -verteilt, und (W1 , W2 , . . .) ist GEM1 -verteilt. Der China-Restaurant Prozess Wir wollen eine weitere Situation kennen lernen, in der die Poisson-DirichletVerteilung in nat¨urlicher Weise auftaucht. Da die technischen Details etwas knifflig
524
24 Der Poisson’sche Punktprozess
werden, begn¨ugen wir uns damit, die Situation zu beschreiben und zwei wichtige S¨atze anzugeben. Eine exzellente und vollst¨andige Beschreibung findet sich in [121]. Wir betrachten ein China-Restaurant mit abz¨ahlbar vielen (nat¨urlich runden) nummerierten Tischen, an denen jeweils beliebig viele G¨aste Platz finden. Anfangs sei das Restaurant leer. Nacheinander treffen (abz¨ahlbar viele) G¨aste ein. Der erste Gast setzt sich an den (nat¨urlich freien) Tisch mit der Nummer Eins. Sitzen bereits n G¨aste an k Tischen, so hat der (n + 1)-te Gast die M¨oglichkeit, sich entweder an einen der k besetzten Tische zu setzen, oder sich an den freien Tisch mit der kleinsten Nummer zu setzen. Wir wollen annehmen, dass die Wahl zuf¨allig erfolgt und dass sich der Gast an den l-ten besetzten Tisch (mit Nln G¨asten) mit Wahrscheinlichkeit (Nln − α)/(n + θ) setzt, mit Wahrscheinlichkeit (θ + kα)/(n + θ) jedoch den ersten noch freien Tisch besetzt. Hierbei sind α ∈ [0, 1] und θ > −α. Bezeichnet Nln die Anzahl der G¨aste zur Zeit n am l-ten besetzten Tisch, so nennen wir (N n )n∈N = (N1n , N2n , . . .)n∈N den China-Restaurant Prozess mit Parametern (θ, α). Ist speziell α = 0, so k¨onnen wir den China-Restaurant Prozess auch so interpretieren: Die Wahrscheinlichkeit, sich links neben einen der G¨aste zu setzen (also an dessen Tisch) betr¨agt 1/(n + θ), die Wahrscheinlichkeit, einen neuen Tisch zu besetzen dagegen θ/(n + θ). Um das asymptotische Verhalten von N n /n = (N1n /n, N2n /n, . . .) zu beschreiben, m¨ussen wir die Poisson-Dirichlet-Verteilung und die GEM Verteilung um einen Parameter erweitern. Definition 24.33. Sei α ∈ [0, 1) und θ > −α. Seien V1 , V2 , . . . unabh¨angig und Vi ∼ β1−α,θ+iα . Wir definieren Z = (Z1 , Z2 , . . .) durch Z1 = V1 und
k−1 Zk = ur k ≥ 2. Dann heißt GEMα,θ := PZ die GEMi=1 (1 − Vi ) Vk f¨ Verteilung mit Parametern (α, θ). Die Verteilung des nach Gr¨oße sortierten Vektors (Z(1) , Z(2) , . . .) heißt Poisson-Dirichlet-Verteilung mit Parametern (α, θ), oder kurz PDα,θ . Explizite Formeln f¨ur die Dichte der endlichdimensionalen Verteilungen von PDα,θ finden sich etwa in [124]. Man bemerke, dass wir im Falle α = 0 die bisherigen einparametrigen Verteilungen GEMθ = GEM0,θ und PDθ = PD0,θ zur¨uckgewinnen. Satz 24.34. Seien α ∈ [0, 1), θ > −α und (N n )n∈N der China-Restaurant Prozess n→∞ mit Parametern (α, θ). Dann gilt PN n /n −→ PDα,θ . Beweis. Siehe [122] oder [121, Theorem 25].
2
¨ Ahnlich wie f¨ur die einparametrige Poisson-Dirichlet-Verteilung gibt es eine Darstellung von PDα,θ durch die nach Gr¨oße geordneten Spr¨unge eines geeigneten Subordinators. Sei im Folgenden α ∈ (0, 1) und (Mt )t∈[0,1] ein α-stabiler Subordinator, also ein Subordinator mit L´evy-Maß ν(dx) = x−α−1 dx. Seien ferner
24.3 Die Poisson-Dirichlet-Verteilung∗
525
m1 ≥ m2 ≥ . . . ≥ 0 die Spr¨unge von M und m ˜ i = mi /M1 f¨ur i ∈ N, und ˜ 2 , . . .). Wir zitieren den folgenden Satz aus [121, Section 4.2]. m ˜ = (m ˜ 1, m Satz 24.35. Sei α ∈ (0, 1). (i) Es gilt m ˜ ∼ PDα,0 (ii) Ist θ > −α, so ist PDα,θ % PDα,0 = P[m ˜ ∈ · ] mit PDα,θ (dx) =
M1−θ P[m ˜ ∈ dx]. E[M1−θ ]
¨ Ubung 24.3.1. Sei (X, 1 − X) ∼ Dirθ1 ,θ2 . Man zeige, dass dann X ∼ βθ1 ,θ2 Betaverteilt ist. ♣ ¨ Ubung 24.3.2. Sei X = (X1 , . . . , Xn ) ∼ Dirθ1 ,...,θn . Man zeige: (i) F¨ur jede Permutation σ auf {1, . . . , n} ist (Xσ(1) , . . . , Xσ(n) ) ∼ Dirθσ(1) ,...,θσ(n) . (ii) Es gilt (X1 , . . . , Xn−2 , Xn−1 + Xn ) ∼ Dirθ1 ,...,θn−2 ,θn−1 +θn .
♣
¨ Ubung 24.3.3. Sei (N n )n∈N der China-Restaurant Prozess mit Parametern (0, θ). (i) Man zeige f¨ur θ = 1: (a) P[N1n = k] = 1/n f¨ur jedes k = 1, . . . , n. n = kl−1 ] = 1/(n − (k1 + . . . + kl−1 )) f¨ur (b) P[Nln = kl |N1n = k1 , . . . , Nl−1 kl = 1, . . . , n − (k1 + . . . + kl−1 ).
(c) Man folgere die Aussage von Satz 24.34 f¨ur den Fall α = 0 und θ = 1. (ii) Man zeige f¨ur θ > 0: n→∞
(a) n P[N1n = nx] −→ θ(1 − x)θ−1 f¨ur x ∈ (0, 1). ) * n→∞ n (b) n P Nln = nxl |N1n = nx1 , . . . , Nl−1 = nxl−1 −→ (θ/yl )(1 − xl /yl )θ−1 f¨ur x1 , . . . , xl ∈ (0, 1) mit yl = 1 − (x1 + . . . + xl−1 ) > xl . (c) Man folgere wie in (i) die Aussage von Satz 24.34 f¨ur α = 0 und θ > 0. ♣
25 Das Itˆo-Integral
Das Itˆo-Integral erlaubt es, stochastische Prozesse bez¨uglich der Zuw¨achse einer Brown’schen Bewegung oder etwas allgemeinerer Prozesse zu integrieren. Wir entwickeln das Itˆo-Integral zun¨achst f¨ur die Brown’sche Bewegung und dann f¨ur f¨ur verallgemeinerte Diffusionsprozesse. Im dritten Abschnitt leiten wir die Itˆo-Formel her. Diese Substitutionsformel f¨ur das Itˆo-Integral erlaubt es, in konkreten F¨allen, mit dem Itˆo-Integral wirklich zu rechnen. Wir wenden die Itˆo-Formel im vierten Abschnitt an, um eine stochastische L¨osung des Dirichlet-Problems zu formulieren. Hiermit zeigen wir im f¨unften Abschnitt, dass die Brown’sche Bewegung (wie die symmetrische einfache Irrfahrt) in niedrigen Dimensionen rekurrent ist, in hohen Dimensionen hingegen transient.
¨ 25.1 Das Itˆo-Integral bezuglich der Brown’schen Bewegung Sei W = (Wt )t≥0 eine Brown’sche Bewegung auf dem Raum (Ω, F, P) bez¨uglich der Filtration F, die die u¨ blichen Bedingungen erf¨ullt (siehe Definition 21.23). Das heißt, W ist eine Brown’sche Bewegung und ist ein F-Martingal. Das Ziel dieses Abschnittes ist es, f¨ur eine m¨oglichst große Klasse von sinnvollen Integranden H : Ω × [0, ∞) → R, (ω, t) → Ht (ω) ein Integral t ItW (H) = Hs dWs 0
zu definieren, sodass ein stetiges F-Martingal ist. Da fast alle Pfade s → Ws (ω) der Brown’schen Bewegung lokal unendliche Variation haben, ist W (ω) nicht die Verteilungsfunktion eines signierten Lebesgue-Stieltjes-Maßes auf [0, ∞). Daher k¨onnen wir ItW (H) nicht im klassischen Rahmen der Integrationstheorie definieren. Die grundlegende Idee, um dieses Integral zu konstruieren, besteht darin, es im Sinne eines L2 -Grenzwertes zu etablieren. Hierzu betrachten wir zun¨achst ein elementares Beispiel. (ItW (H))t≥0
Beispiel 25.1. Es seien X1 , X2 , . . . u.i.v. Zufallsvariablen mit P[Xn = 1] = P[Xn = −1] = 12 . Sei (hn )n∈N eine Folge reeller Zahlen. Unter welchen Bedingungen an (hn )n∈N ist die Reihe
528
25 Das Itˆo-Integral
R :=
hn Xn
(25.1)
n∈N
ur jedes ω absolut. wohldefiniert? Ist n∈N |hn | < ∞, so konvergiert die Reihe f¨ In diesem Falle tritt kein Problem auf. Wie steht es aber, wenn nur die schw¨achere 2 h < ∞ gilt? In diesem Falle konvergiert die Summierbarkeitsbedingung n∈N n Reihe in (25.1) nicht mehr f¨ur jedes ω, allerdings gilt E[hn Xn ] = 0 f¨ur jedes ∞ N ∞ n ∈ N und n=1 Var[hn Xn ] = n=1 h2n < ∞. Also ist RN := k=1 hk Xk , n ∈ N, konvergent im L2 -Sinne (f¨ur N → ∞). Wir k¨onnen daher die Reihe R in (25.1) als L2 -Limes der Partialsummen RN definieren. Dabei ist zu beachten, dass (zumindest formal) bei den approximierenden Summen die Reihenfolge derSum∞ manden eine Rolle spielt. Wir haben also gewissermaßen n=1 anstatt n∈N konstruiert. Eine a¨ quivalente Betrachtung, die allerdings einen leicht anderen Geschmack hat und von der formalen Beschreibung her auf das Kommende hinweist, ist die folgende. Mit 2 bezeichnen wir den Hilbertraum ∞ der quadratsummierbaren Folgen reeller Zahlen mit Skalarprodukt h, g! = n=1 hn gn und Norm g = g, g!1/2 . Sei der Folgen, die nur endlich viele Glieder ungleich Null haben. f der Unterraum Dann ist R(h) = n∈N hn Xn f¨ur h ∈ f wohldefiniert (als endliche Summe). Wegen * * 2 ) ) Var hn Xn = hn = h2 E R(h)2 = Var[R(h)] = n∈N
n∈N
ist die Abbildung R : → L (P) eine Isometrie. Da ⊂ 2 dicht liegt, k¨onnen wir R stetig auf 2 fortsetzen. Ist also h ∈ 2 und (hN )N ∈N eine Folge in f N →∞ N →∞ mit hN − h −→ 0, so ist R(hN ) −→ R(h) im L2 -Sinne. Speziell ist N hn := hn {n≤N } , n ∈ N, N ∈ N, eine approximierende Folge f¨ur h, und es gilt N R(hN ) = n=1 hn Xn . Daher ist die oben beschriebene Approximation von R 3 mit den Partialsummen RN als Spezialfall in dieser Konstruktion enthalten. f
f
2
Das Programm f¨ur die Konstruktion des Itˆo-Integrals ItW (H) sieht nun so aus: Zun¨achst betrachten wir elementare Integranden H, f¨ur die die Abbildung t → Ht (ω) eine Treppenfunktion ist, sodass das Integral als endliche Summe definiert werden kann. Danach erweitern wir das Integral wie in Beispiel 25.1 auf Integranden, die sich in einem gewissen L2 -Sinne durch elementare Integranden approximieren lassen. Definition 25.2. Wir bezeichnen mit E den Vektorraum der Abbildungen H : Ω × [0, ∞) → R von der Form Ht (ω) =
n
hi−1 (ω)
(ti−1 ,ti ] ,
i=1
wobei n ∈ N, 0 = t0 < t1 < . . . < tn und hi−1 beschr¨ankt und Fti−1 -messbar ist f¨ur jedes i = 1, . . . , n.
25.1 Das Itˆo-Integral bez¨uglich der Brown’schen Bewegung
529
Wir nennen E den Vektorraum der elementaren vorhersagbaren Prozesse und versehen E mit einer (Pseudo-)Norm · E durch H2E =
+ n * ) E h2i−1 (ti − ti−1 ) = E
∞
, Hs2 ds .
0
i=1
Definition 25.3. F¨ur H ∈ E und t ≥ 0 definieren wir ItW (H) =
n
hi−1 Wti ∧t − Wti−1 ∧t
i=1
und W (H) = I∞
n
hi−1 Wti − Wti−1 .
i=1
Offenbar ist f¨ur jede beschr¨ankte Stoppzeit τ n ) * ) * E IτW (H) = E hi−1 (Wtτi − Wtτi−1 ) i=1 n ** ) ) E hi−1 E Wtτi − Wtτi−1 Fti−1 = 0, = i=1
da die gestoppte Brown’sche Bewegung W τ nach den Optional Stopping Theorem ein F-Martingal ist. ) Also ist (wieder nach dem OST) (ItW (H))* t≥0 ein FW W W (H) − I (H) I (H) − I (H) = 0 f¨ur Martingal. Speziell ist E ItW ti tj+1 tj i+1 i = j, also gilt n ' * 2 ( ) W 2 E ItW (H) − ItW (H) E I∞ (H) = i i−1 i=1
n '
2 ( = E h2i−1 Wti − Wti−1
=
i=1 n
(25.2)
* ) E h2i−1 (ti − ti−1 ) = H2E .
i=1
Aus diesen Betrachtungen folgt sofort: W : E → L2 (Ω, F, P) ist eine isometrische lineaSatz 25.4. (i) Die Abbildung I∞ re Abbildung (bez¨uglich · E und · 2 ).
(ii) Der Prozess ItW (H) t≥0 ist ein L2 -beschr¨anktes, stetiges F-Martingal.
Beweis. Lediglich die Linearit¨at ist noch zu zeigen. Dies ist aber trivial.
2
530
25 Das Itˆo-Integral
W Die Idee ist nun, die Abbildung I∞ von E auf einen geeigneten Abschluss E von E stetig fortzusetzen. Als Unterraum von welchem Raum sollen wir aber E abschließen? Eine minimale Forderung ist die Messbarkeit von (ω, t) → Ht (ω) (bez¨uglich F ⊗ B([0, ∞)) sowie die Adaptiertheit von H.
Definition 25.5. Ein stochastischer Prozess X = (Xt )t≥0 mit Werten in einem polnischen Raum E heißt (i) produktmessbar, falls (ω, t) → Xt (ω) messbar ist bez¨uglich F ⊗ B([0, ∞))– B(E), (ii) progressiv messbar, falls f¨ur jedes t ≥ 0 die Abbildung Ω × [0, t], (ω, s) → Xs (ω) messbar ist bez¨uglich Ft ⊗ B([0, t])–B(E), (iii) vorhersagbar (oder previsibel), falls (ω, t) → Ht (ω) messbar ist bez¨uglich der vorhersagbaren σ-Algebra P auf Ω × [0, ∞):
P := σ X : X ist linksstetiger, adaptierter Prozess . Bemerkung 25.6. Jedes H ∈ E ist vorhersagbar. Diese Eigenschaft sichert, dass I M (H) f¨ur jedes (auch unstetiges) Martingal M ein Martingal ist. Da wir jedoch hier nicht die Integrationstheorie f¨ur unstetige Martingale entwickeln wollen, ist der Begriff der Vorhersagbarkeit f¨ur uns im Folgenden nicht so wichtig. 3 Bemerkung 25.7. Ist H progressiv messbar, so ist H offenbar auch produktmessbar und adaptiert. Mit etwas mehr Aufwand kann man die partielle Umkehrung zeigen: Ist H adaptiert und produktmessbar, so gibt es eine progressiv messbare Modifikation von H. (Siehe etwa [113, Seite 68ff].) 3 Satz 25.8. Ist H adaptiert und f.s. rechtsstetig oder linksstetig, so ist H progressiv messbar. Insbesondere ist jeder vorhersagbare Prozess progressiv messbar. 2
¨ Beweis. Siehe Ubung 21.1.4. Wir betrachten E als Unterraum von ' E0 := H : produktmessbar, adaptiert und H2 := E
∞
( Ht2 dt < ∞ .
0
Sei E der Abschluss von E in E0 . Satz 25.9. Ist' H progressiv messbar (etwa linksstetig oder rechtsstetig und adap0∞ 2 ( tiert) und E 0 Ht dt < ∞, so ist H ∈ E. '0 ( ∞ Beweis. Sei H progressiv messbar und E 0 Ht2 dt < ∞. Es reicht zu zeigen, dass f¨ur jedes T > 0 eine Folge (H n )n∈N in E existiert mit
25.1 Das Itˆo-Integral bez¨uglich der Brown’schen Bewegung
+ E
531
,
T
(Hs − Hsn )2 ds
n→∞
−→ 0.
(25.3)
0
Schritt 1.
Sei zun¨achst H stetig und beschr¨ankt. Setze H0n = 0 und
Htn = Hi2−n T
falls i2−n T < t ≤ (i + 1)2−n T f¨ur ein i = 0, . . . , 2n − 1 n→∞
und Htn = 0 f¨ur t > T . Dann ist H n ∈ E, und es gilt Htn (ω) −→ Ht (ω) f¨ur alle t > 0 und ω ∈ Ω. Nach dem Satz von der majorisierten Konvergenz gilt (25.3). Schritt 2. Sei nun H progressiv messbar und beschr¨ankt. Es reicht zu zeigen, dass es stetige, adaptierte Prozesse H n , n ∈ N, gibt, f¨ur die (25.3) gilt. Sei t∧T n Ht := n Hs ds f¨ur t ≥ 0, n ∈ N. (t−1/n)∨0
Dann ist H n stetig und adaptiert und durch H∞ beschr¨ankt. Nach dem Haupt¨ satz der Differential- und Integralrechnung (siehe Ubung 13.1.7) gilt n→∞
Htn (ω) −→ Ht (ω)
f¨ur λ − fast alle t ∈ [0, T ] und f¨ur jedes ω ∈ Ω. (25.4)
Nach dem Satz von Fubini und dem Satz u¨ ber majorisierte Konvergenz gilt daher + T ,
2 n→∞ n 2 Hs (ω) − Hsn (ω) (P ⊗ λ)(d(ω, s)) −→ 0. E (Hs − Hs ) ds = 0 Ω×[0,T ]
* )0∞ Schritt 3. Sei nun H progressiv messbar und E 0 Ht2 dt < ∞. Es reicht zu zeigen, dass es eine Folge (H n )n∈N von beschr¨ankten, progressiv messbaren Prozessen gibt, sodass (25.3) gilt. Offenbar kann hierzu aber Htn = Ht {|Ht |
W durch die stetige Fortsetzung der Abbildung I∞ : E → L2 (P) auf den Abschluss n→∞ E von E. Mit anderen Worten: Ist (H n )n∈N eine Folge in E mit H − H n −→ W (H) durch 0, so definieren wir I∞
n W W H in L2 . (H) := lim I∞ I∞ n→∞
Ist τ eine Stoppzeit, so k¨urzen wir im Folgenden ab: (τ )
Ht
:= Ht
{t≤τ }
f¨ur t ≥ 0.
(Man beachte den Gegensatz zum gestoppten Prozess Htτ = Hτ ∧t .)
532
25 Das Itˆo-Integral W (i) Die Abbildung I∞ : E → L2 (Ω, F, P) ist linear und + ∞ , * ) W 2 2 E I∞ (H) = E Hs ds .
Satz 25.11.
0
(ii) F¨ur jedes H ∈ E wird durch I˜tW (H) := I W (H (t) ) ein L2 -beschr¨anktes F-Martingal I˜W (H) definiert, das eine stetige Modifikation I W (H) besitzt. Definition 25.12 (Itˆo-Integral als Prozess). Sei I W (H) die stetige Modifikation des Martingals (I W (H (t) ))t≥0 aus Satz 25.11(ii). Wir bezeichnen mit
t
Hr dWs := ItW (H) − IsW (H)
f¨ur 0 ≤ s ≤ t ≤ ∞
s
das Itˆo-Integral von s bis t von H bez¨uglich der Brown’schen Bewegung W . Beweis (von Satz 25.11).
(i)
W Dies folgt direkt aus der Definition von I∞ (H). n→∞
(ii) Sei (H n )n∈N eine Folge in E mit H n − H −→ 0. Nach Satz 25.4(ii) ist *
n (t) ) W W (H ) = ItW (H n ) = E I∞ f¨ur alle t ≥ 0, n ∈ N. I∞ (H) Ft = = = n→∞ = Wegen =(H n )(t) − H (t) = ≤ =H n − H = −→ 0 folgt (zusammen mit Korollar 8.20) * ) W ) W n * I˜tW (H) = lim ItW (H n ) = lim E I∞ (H ) Ft = E I∞ (H) Ft . n→∞
n→∞
n→∞ Mithin ist I˜W (H) ein L2 -beschr¨anktes Martingal und ItW (H n ) −→ I˜tW (H) in L2 f¨ur jedes t ≥ 0. Nach Satz 25.4(ii) ist I W (H n ) stetig f¨ur jedes n ∈ N, und ¨ 2 nach Ubung 21.4.3 existiert eine stetige Modifikation I W (H) von I˜W (H).
Als letzten Schritt bei der Konstruktion) 0des Itˆo-Integrals wollen wir uns von der * ∞ strengen Integrierbarkeitsbedingung E 0 Hs2 ds < ∞ l¨osen. Hierzu machen wir zun¨achst die folgende einfache Feststellung. Lemma 25.13. Sei τ eine Stoppzeit und H, G ∈ E mit Hs = Gs f¨ur jedes s ≤ τ . Dann gilt f¨ur die Itˆo-Integrale ∞ ∞ τ τ (τ ) (τ ) Hs dWs := Hs dWs = Gs dWs =: Gs dWs f.s. 0
0
0
0
Speziell gilt f¨ur jedes t ≥ 0 auf {τ ≥ t}
τ ∧t
Hs dWs = 0
t
Hs dWs . 0
25.1 Das Itˆo-Integral bez¨uglich der Brown’schen Bewegung
533
2
Beweis. Klar.
Definition 25.14. Sei Eloc der Raum der progressiv messbaren stochastischen Prozesse H mit T Hs2 ds < ∞ f.s. f¨ur jedes T > 0. 0
Lemma 25.15. F¨ur jedes H ∈ )E0loc existiert * eine Folge (τn )n∈N von Stoppzeiten τ mit τn ↑ ∞ fast sicher und E 0 n Hs2 ds < ∞, also mit H (τn ) ∈ E f¨ur jedes n ∈ N. Beweis. Setze
1 2 t 2 τn := inf t ≥ 0 : Hs ds ≥ n . 0
Nach der Definition von Eloc gilt τn ↑ ∞ fast sicher und nach Konstruktion ist = (τ ) =2 )0 * =H n = = E τn Hs2 ds ≤ n. 2 0 Definition 25.16. Sei H ∈ Eloc und (τn )n∈N wie in Lemma 25.15. Wir definieren f¨ur t ≥ 0 das Itˆo-Integral als den fast sicheren Grenzwert t t Hs dWs := lim Hs(τn ) dWs . (25.5) n→∞
0
0
Satz 25.17. Sei H ∈ Eloc . (i) Der Grenzwert in (25.5) ist wohldefiniert, stetig in t und (f.s.) unabh¨angig von der Wahl der Folge (τn )n∈N . )0τ 2 * Hs ds < ∞, so ist das gestoppte Itˆo-Integral (ii) Ist τ ein Stoppzeit mit E 0 0 τ ∧t 2 Hs dWs ein L -beschr¨anktes, stetiges Martingal. 0 t≥0 0 )0T * t (iii) Ist speziell E 0 Hs2 ds < ∞ f¨ur jedes T > 0, so ist H dW ein s s 0 t≥0
quadratintegrierbares, stetiges Martingal. Beweis. (i) Nach Lemma 25.13 ist auf dem Ereignis {τn ≥ t} t t Hs dWs = Hs(τn ) dWs . 0
0
Also existiert der Limes, ist stetig und unabh¨angig von der Wahl der Folge (τn )n∈N . (ii) Dies folgt direkt aus Satz 25.11. (iii) Da wir τn = n w¨ahlen k¨onnen, folgt dies aus (ii).
2
534
25 Das Itˆo-Integral
)0T * Satz 25.18. Sei H progressiv messbar und E 0 Hs2 ds < ∞ f¨ur alle T > 0. Dann definiert t Mt := Hs dWs , t ≥ 0, 0
ein quadratintegrierbares, stetiges Martingal, und t 2 2 Hs ds (Nt )t≥0 := Mt − 0
t≥0
ist ein stetiges Martingal mit N0 = 0. Beweis. Es reicht zu zeigen, dass N ein Martingal ist. Offenbar ist N adaptiert. Sei τ ein beschr¨ankte Stoppzeit. Dann ist + , τ ) * 2 2 Hs ds E Nτ = E Mτ − 0
+ =E
∞
2 , Hs(τ )
0
dWs
+ −E
∞
2 Hs(τ )
, ds = 0.
0
¨ Nach dem Optional Stopping Theorem (siehe Ubung 21.1.3(iii)) ist N damit als Martingal erkannt. 2 Wir erinnern an den Begriff des lokales Martingals und der quadratischen Variation aus Kapitel 21.10. 0t Korollar 25.19. Ist H ∈ Eloc , so ist das Itˆo-Integral Mt = 0 Hs dWs ein stetiges 0t lokales Martingal mit quadratischem Variationsprozess M !t = 0 Hs2 ds. 0t Beispiel 25.20. (i) Wt = 0 1 dWs ist ein quadratintegrierbares Martingal, und (Wt2 − t)t≥0 ist ein stetiges Martingal. * )0T 0t 2 (ii) Wegen E 0 Ws2 ds = T2 < ∞ f¨ur alle T ≥ t := 0 W s dWs ein 0 ist M 0t 2 2 stetiges, quadratintegrierbares Martingal, und Mt − 0 Ws ds ist ein t≥0
stetiges Martingal.
0t (iii) Sei H progressiv messbar und beschr¨ankt sowie Mt := 0 Hs dWs . Dann ist M progressiv messbar (weil stetig und adaptiert) und 2 + T , T s ) 2* T 2 H2∞ 2 . Ms ds = E Hr dr ds ≤ E 2 0 0 0 0 Kt := t Ms dWs ein quadratisch integrierbares, stetiges Martingal Alsoist M 0 0 K2 − t M 2 dWs und M ist ein stetiges Martingal. 3 t s 0 t≥0
25.2 Itˆo-Integral bez¨uglich Diffusionen
535
¨ 25.2 Itˆo-Integral bezuglich Diffusionen Ist H=
n
hi−1
(ti−1 ,ti ]
∈ E,
(25.6)
i=1
so ist das elementare Integral ItM (H) =
n
hi−1 Mti ∧t − Mti−1 ∧t
i=1
ein Martingal (beziehungsweise lokales Martingal), wenn M ein Martingal (beziehungsweise lokales Martingal) ist, und es gilt n n * * ) ) * ) M (H))2 = E h2i−1 (Mti − Mti−1 )2 = E h2i−1 ( M !ti − M !ti−1 ) E (I∞ i=1
i=1
+ =E
, ∞ 2 Ht d M !t ,
0
falls der Ausdruck auf der rechten Seite endlich ist. Grob gesprochen k¨onnen wir die Prozedur, mit der wir das Itˆo-Integral f¨ur die Brown’sche Bewegung in Abschnitt 25.1 f¨ur Integranden H ∈ E definiert hatten, wiederholen, um ein Integral bez¨uglich M f¨ur eine große Klasse von Integranden zu definieren. F¨ur die Definition der Norm auf E m¨ussen wir im Prinzip nur dt (die quadratische Variation der Brown’schen Bewegung) durch d M !t ersetzen: , + ∞ Ht2 d M !t . H2M := E 0
Das Problem besteht nicht darin, das elementare Integral auf E fortzusetzen, sondern darin zu pr¨ufen, welche Prozesse in E liegen. F¨ur unstetige Martingale etwa m¨ussen die Integranden vorhersagbar sein, damit das Integral ein Martingal wird (abgesehen von der Schwierigkeit, dass wir die Existenz einer quadratischen Variation f¨ur solche Martingale nicht etabliert haben und dies in diesem Rahmen auch nicht tun werden). Dies hatten wir in Kapitel 9.3 schon f¨ur den Fall diskreter Zeit gesehen. Haben wir nun ein stetiges Martingal M mit stetiger quadratischer Variation M ! vorliegen, so tritt immer noch folgendes Problem auf: Im Beweis von n→∞ Satz 25.9 wurde in Schritt 2 benutzt, dass Htn (ω) −→ Ht (ω) f¨ur Lebesgue-fast alle t und alle ω gilt, um zu zeigen, dass progressiv messbare H in E liegen. Ist d M !t nun nicht absolutstetig bez¨uglich des Lebesgue-Maßes, so reicht dies aber nicht aus, um die Konvergenz der Integrale bez¨uglich d M !t zu folgern. Im Fall absolutstetiger quadratischer Variation hingegen geht der Beweis glatt durch. Wie in Abschnitt 25.1 erhalten wir:
536
25 Das Itˆo-Integral
Satz 25.21. Sei M ein stetiges lokales Martingal mit absolutstetiger quadratischer 0T Variation M ! und H progressiv messbar mit 0 Hs2 d M !s < ∞ f.s. f¨ur je0t des T ≥ 0. Dann ist das Itˆo-Integral Nt := 0 Hs dMs wohldefiniert und ist 0t 2 ein stetiges lokales Martingal mit quadratischer Variation N ! = Hs d M !s . t 0 = (τ ) = n = = F¨ur jede Folge (τn )n∈N mit τn ↑ ∞ und H < ∞ und jede Familie = m→∞M = (H n,m , n, m ∈ N) ⊂ E mit =H n,m − H (τn ) =M −→ 0 gilt t Hs dMs = lim lim ItM (H m,n ) f¨ur alle t ≥ 0 stochastisch. n→∞ m→∞
0
Als gewisse Verallgemeinerung erhalten wir den folgenden Satz. Satz 25.22. Seien M 1 und M 2 stetige lokale Martingal mit absolutstetiger qua0T dratischer Variation. Sei H i progressiv messbar mit 0 (Hsi )2 d M i !s < ∞ f¨ur 0t alle i = 1, 2 und T < ∞. Sei Nti := 0 Hsi dMsi f¨ur i = 1, 2. Dann sind N 1 und N 2 stetige lokale Martingale mit quadratischer Kovariation N i , N j !t = 0t i j Hs Hs d M i , M j !s . Sind M 1 und M 2 unabh¨angig, so ist N 1 , N 2 ! ≡ 0. 0 Beweis. Seien zun¨achst H 1 , H 2 ∈ E. Dann gibt es Zahlen 0 = t0 < t1 < . . . < tn und Ftk -messbare beschr¨ankte Abbildungen hik , i = 1, 2, k = 0, . . . , n − 1 mit n Hti (ω) = hik−1 (ω) (tk−1 ,tk ] (t). k=1
Es folgt n
Nti Ntj =
hik−1 hjl−1 Mtik ∧t − Mtik−1 ∧t Mtjl ∧t − Mtjl−1 ∧t .
k,l=1
Die Summanden mit k = l sind jeweils lokale Martingale. F¨ur jeden einzelnen Summanden mit k = l ist hik−1 hjk−1 Mtik ∧t − Mtik−1 ∧t Mtjk ∧t − Mtjk−1 ∧t
− M i , M j !tk ∧t − M i , M j !tk−1 ∧t t≥0
ein lokales Martingal. Wegen n
hik−1 hjk−1
M , M !tk ∧t − M , M !tk−1 ∧t = i
j
i
j
k=1
t
Hsi Hsj d M i , M j !s 0
0t ist Nti Ntj − 0 Hsi Hsj d M i , M j !s t≥0 ein stetiges lokales Martingal. Der Fall allgemeiner progressiv messbarer H 1 , H 2 , die die Integrierbarkeitsbedingung erf¨ullen, folgt durch die u¨ blichen L2 -Approximationsargumente. Sind M 1 und M 2 unabh¨angig, so ist M 1 , M 2 ! ≡ 0.
2
25.2 Itˆo-Integral bez¨uglich Diffusionen
537
Wir betrachten im Folgenden Prozesse, die sich als Itˆo-Integral bez¨uglich einer Brown’schen Bewegung schreiben lassen, und geben f¨ur diese Prozesse einen detaillierteren Beweis von Satz 25.21 an. Definition 25.23. Sei W eine Brown’sche Bewegung und σ und b progressiv 0t messbare stochastische Prozesse mit 0 σs2 +|bs | ds < ∞ fast sicher f¨ur alle t ≥ 0. Dann nennen wir den Prozess X mit t t σs dWs + bs ds f¨ur t ≥ 0 Xt = 0
0
einen verallgemeinerten Diffusionsprozess (oder kurz: verallgemeinerte Diffusion) mit Diffusionskoeffiezenten σ und Drift b. Haben σ und b speziell die Gestalt σs = σ ˜ (Xs ) und bs = ˜b(Xs ) f¨ur gewisse ˜ Abbildungen σ ˜ : R → [0, ∞) und b : R → R, so nennen wir X eine Diffusion (im engeren Sinne). Im Gegensatz zu verallgemeinerten Diffusionen sind Diffusionen im engeren Sinne unter gewissen Regularit¨atsannahmen an die Koeffizienten stets Markovprozesse, wie wir noch sehen werden (vergleiche Satz 26.8, 26.10 und 26.26). 0t Eine Diffusion X hat stets die Gestalt X = M + A, wobei Mt = 0 σs dWs 0t 2 ein stetiges lokales Martingal mit quadratischer Variation M !t = 0 σs ds ist 0t (nach Korollar 25.19) und At = 0 bs ds ein stetiger Prozess von lokal endlicher Variation. Offenbar ist f¨ur H aus (25.6)
t
Hs dMs = 0
n
hi−1 Mti ∧t − Mti−1 ∧t
i=1
=
n i=1
hi−1
ti ∧t
ti−1 ∧t
σs dWs =
t
(Hs σs ) dWs . 0
0T 0T F¨ur progressiv messbares H mit 0 Hs2 d M !s = 0 (Hs σs )2 ds < ∞ f¨ur alle T ≥ 0 definieren wir daher das Itˆo-Integral t t Hs dMs := (Hs σs ) dWs . 0
0
Wir erhalten ohne Weiteres, speziell ohne auf Satz 25.21 zur¨uckzugreifen, den folgenden Satz. Satz 25.24. Sei X = M + A eine verallgemeinerte Diffusion mit σ und b wie in Definition 25.23 und H progressiv messbar mit
538
25 Das Itˆo-Integral
T
Hs2 σs2 ds < ∞
f.s.
f¨ur alle T ≥ 0
(25.7)
|Hs bs | ds < ∞
f.s.
f¨ur alle T ≥ 0,
(25.8)
0
und
T
0
so ist der durch t t t t t Hs dXs := Hs dMs + Hs dAs := Hs σs dWs + Hs bs ds Yt := 0
0
0
0
0
definierte Prozess Y eine verallgemeinerte Diffusion 0mit Diffusionskoeffizienten t (Hs σs )s≥0 und Drift (Hs bs )s≥0 . Speziell ist Nt := 0 Hs dMs ein stetiges lo0t 2 0t kales Martingal mit Variationsprozess N !t = 0 Hs d M !s = 0 Hs2 σs2 ds. ¨ Ubung 25.2.1. Sei M ein stetiges lokales Martingal mit absolutstetiger quadratischer Variation M ! (etwa eine verallgemeinerte Diffusion), und sei H progres0T siv messbar und stetig mit 0 Hs2 d M !s < ∞ f¨ur jedes T ≥ 0. Sei ferner P = (P (n) )n∈N eine zul¨assige Zerlegungsfolge (siehe Definition 21.56). Zeige:
T
Hs dMs = lim 0
n→∞
Ht (Mt − Mt )
stochastisch f¨ur alle T ≥ 0.
♣
n t∈PT
25.3 Die Itˆo-Formel Dieser und die beiden folgenden Abschnitte sind inhaltlich an ein Vorlesungsskript von Hans F¨ollmer angelehnt. Ist t → Xt eine differenzierbare Abbildung mit Ableitung X und F ∈ C 1 (R) mit Ableitung F , so gilt die klassische Substitutionsformel t t F (Xt ) − F (X0 ) = F (Xs ) dXs = F (Xs )Xs ds. (25.9) 0
0
Diese Formel bleibt richtig, wenn X stetig und von lokal endlicher Variation ist (siehe Kapitel 21.10), also die Verteilungsfunktion eines absolutstetigen signierten Maßes auf [0, ∞) ist. Dann existiert die Ableitung X als Radon-Nikodym Ableitung fast u¨ berall, und man kann leicht zeigen, dass (25.9) auch in diesem Fall gilt. Die Pfade der Brown’schen Bewegung W sind nirgends differenzierbar (Satz 21.17 von Paley-Wiener-Zygmund) und haben (folglich) u¨ berall lokal unendliche Variation. Wir k¨onnen also eine einfache Substitutionsformel wie in (25.9) nicht erwarten, und in der Tat sieht man leicht ein, dass sie falsch sein muss: W¨ahlen wir
25.3 Die Itˆo-Formel
539
0t F (x) = x2 , so ist die rechte Seite in (25.9) (mit X durch W ersetzt) 0 2Ws dWs , also ein Martingal. Die linke Seite hingegen ist Wt2 , also ein Submartingal, das erst durch Subtraktion von t zu einem Martingal wird. In der Tat ist dieses fehlende t der zus¨atzliche Term, den wir in der Substitutionsformel f¨ur Itˆo-Integrale, der so genannten Itˆo-Formel, bekommen. Eine (etwas haarstr¨aubende) Heuristik f¨uhrt uns erstaunlicherweise auf die richtige Spur: √ F¨ur kleine t ist Wt ungef¨ahr von der √ Gr¨oße t. Wenn wir nun formal dWt = dt schreiben und f¨ur F ∈ C 2 (R) eine Taylor-Entwicklung bis zur zweiten Ordnung durchf¨uhren, so erhalten wir 1 1 dF (Wt ) = F (Wt ) dWt + F (Wt ) (dWt )2 = F (Wt ) dWt + F (Wt ) dt, 2 2 oder als Integral geschrieben F (Wt ) − F (W0 ) =
t
F (Ws ) dWs +
0
t
0
1 F (Ws ) ds. 2
(25.10)
(F¨ur gewisse diskrete Martingale haben wir eine analoge Formel schon in Beispiel 10.9 hergeleitet.) Hauptanliegen dieses Abschnittes ist es zu zeigen, dass diese Formel, die Itˆo-Formel f¨ur die Brown’sche Bewegung genannt wird, in der Tat korrekt ist. Die weitere Diskussion in diesem Abschnitt h¨angt nicht explizit davon ab, dass wir bez¨uglich der Brown’schen Bewegung integrieren, sondern benutzt lediglich, dass die Funktion, bez¨uglich der wir integrieren, stetige quadratische Variation hat (entlang einer geeigneten zul¨assigen Zerlegungsfolge P = (P n )n∈N )), f¨ur die Brown’sche Bewegung n¨amlich W !t = t. Sei im Folgenden also P = (P n )n∈N eine zul¨assige Zerlegungsfolge (siehe DefiP n , PTn , PS,T , t und so nition 21.56 f¨ur die Definition und die Notation CqV = CqV weiter) und X ∈ C([0, ∞)) mit stetiger quadratischer Variation (entlang P) (Xt − Xt )2 . T → X!T = VT2 (X) = lim n→∞
t∈PT
P F¨ur die Brown’sche Bewegung ist W ∈ CqV fast sicher f¨ur jede zul¨assige Zerlegungsfolge (Satz 21.64) und W !T = T . F¨ur stetige lokale Martingale M kann ¨ man immerhin durch Ubergang zu einer geeigneten Teilfolge P von P sicherstelP len, dass M ∈ CqV fast sicher gilt (Satz 21.70).
Sei also P fest gew¨ahlt und X ∈ CqV eine (deterministische) Funktion. Satz 25.25 (Pfadweise Itˆo-Formel). Sei X ∈ CqV und F ∈ C 2 (R). Dann existiert f¨ur alle T ≥ 0 der Limes T F (Xs ) dXs := lim F (Xt )(Xt − Xt ), (25.11) 0
und es gilt die Itˆo-Formel
n→∞
n t∈PT
540
25 Das Itˆo-Integral
T
F (XT ) = F (X0 ) =
F (Xs ) dXs +
0
1 2
T
F (Xs ) d X!s .
(25.12)
0
Dabei ist das rechte Integral in (25.12) als klassisches (Lebesgue-Stieltjes-) Integral zu verstehen. ¨ Bemerkung 25.26. Ist M ein stetiges lokales Martingal, so ist nach Ubung 25.2.1 0T F (Mt )(Mt − das Itˆo-Integral 0 F (Ms ) dMs der stochastische Limes von n t∈PT
Mt ) f¨ur n → ∞. Tats¨achlich stimmt also f¨ur X = M (ω) das pfadweise Integral in (25.11) mit dem Itˆo-Integral (f.s.) u¨ berein. Speziell gilt f¨ur das Itˆo-Integral der Brown’schen Bewegung die Itˆo-Formel (25.10). 3 Beweis (von Satz 25.25). Wir m¨ussen zeigen, dass der Limes in (25.11) existiert und dass (25.12) gilt. F¨ur n ∈ N und t ∈ PTn (mit Nachfolger t ∈ PTn ) liefert die Taylor-Formel F (Xt ) − F (Xt ) = F (Xt )(Xt − Xt ) + 12 F (Xt ) · (Xt − Xt )2 + Rtn , (25.13) wobei wir das Restglied
Rtn = F (ξ) − F (Xt ) · 12 (Xt − Xt )2 (f¨ur eine geeignete Zwischenstelle ξ zwischen Xt und Xt ) wie folgt absch¨atzen. Da X stetig ist, ist C := {Xt : t ∈ [0, T ]} kompakt und F gleichm¨aßig C stetig. Zu jedem ε > 0 gibt es also ein δ > 0 mit |F (Xr ) − F (Xs )| < ε
f¨ur alle r, s ∈ [0, T ] mit |Xr − Xs | < δ.
Da auch X gleichm¨aßig stetig ist auf [0, T ] und die Feinheit |P n | der Zerlegung nach 0 geht f¨ur n → ∞, gibt es (zu jedem δ > 0) ein Nδ , sodass sup sup |Xt − Xt | < δ.
n n≥Nδ t∈PT
Also ist f¨ur n ≥ Nδ und t ∈ PTn |Rtn | ≤
1 ε (Xt − Xt )2 . 2
Summieren wir in (25.13) u¨ ber t ∈ PTn , so erhalten wir F (Xt ) − F (Xt ) = F (Xt ) − F (X0 ) n t∈PT
und
n t∈PT
|Rtn | ≤ ε
n t∈PT
(Xt − Xt )2
n→∞
−→ ε X!t < ∞.
25.3 Die Itˆo-Formel
Da ε > 0 beliebig war, gilt also
n t∈PT
541
n→∞ ¨ |Rtn | −→ 0. Es gilt (siehe Ubung 21.10.2)
T 1 n→∞ 1 F (Xt )(Xt − Xt )2 −→ F (Xs ) d X!s . 2 2 0 n
t∈PT
Daher muss auch die Summe des verbleibenden Terms in (25.13) konvergieren, das heißt, es existiert der Limes in (25.11). 2 Als direkte Folgerung erhalten wir die Itˆo-Formel f¨ur das Itˆo-Integral bez¨uglich Diffusionen. ¨ Diffusionen). Sei Y = M + A, wobei Mt = 25.27 (Itˆo-Formel0 fur 0Satz t t σ dW und A = b ds, eine (verallgemeinerte) Diffusion ist (siehe Des s t 0 0 s finition 25.23). Sei F ∈ C 2 (R). Dann gilt die Itˆo-Formel 1 t F (Ys ) dAs + F (Ys ) d M !s 2 0 0 0 t t 1 F (Ys )bs + F (Ys )σs2 ds. = F (Ys )σs dWs + 2 0 0 (25.14) Speziell gilt f¨ur die Brown’sche Bewegung t 1 t F (Ws ) dWs + F (Ws ) ds. (25.15) F (Wt ) − F (W0 ) = 2 0 0
F (Yt ) − F (Y0 ) =
t
F (Ys ) dMs +
t
Als Anwendung der Itˆo-Formel bringen wir eine Charakterisierung der Brown’schen Bewegung als stetiges lokales Martingal mit einer bestimmten quadratischen Variation. Satz 25.28 (L´evy’sche Charakterisierung der Brown’schen Bewegung). Sei X ∈ Mloc,c mit X0 = 0. Dann sind a¨ quivalent (i) (Xt2 − t)t≥0 ist ein lokales Martingal, (ii) X!t = t f¨ur alle t ≥ 0, (iii) X ist eine Brown’sche Bewegung. Beweis (iii) =⇒ (i) (i) ⇐⇒ (ii)
Das ist klar.
Das ist klar, weil der quadratische Variationsprozess eindeutig ist.
(ii) =⇒ (iii) Es reicht zu zeigen, dass Xt − Xs ∼ N0,t−s gegeben Fs f¨ur t > s ≥ 0. Wegen des Eindeutigkeitssatzes f¨ur charakteristische Funktionen reicht es zu √ zeigen, dass (mit i = −1) f¨ur A ∈ Fs und λ ∈ R gilt: * ) 2 ϕA,λ (t) := E eiλ(Xt −Xs ) A = P[A] e−λ (t−s)/2 .
542
25 Das Itˆo-Integral
Wir wenden die Itˆo-Formel separat auf Real- und Imagin¨arteil an und erhalten t 1 t 2 iλXr iλXt iλXs iλXr e −e = iλe dXr − λ e dr. 2 s s Es folgt * ) E eiλ(Xt −Xs ) Fs − 1 , , + t + t 1 i λ eiλ(Xr −Xs ) dXr Fs − λ2 E eiλ(Xr −Xs ) dr Fs . =E 2 s s 0t 0t Nun sind Mt := Re s i λ eiλ(Xr −Xs ) dXr und Nt := Im s i λ eiλ(Xr −Xs ) dXr , 0t t ≥ s, stetige lokales Martingale mit M !t = s λ2 sin(λ(Xr − Xs ))2 dr ≤ λ2 (t − 0t s) und N !t = s λ2 cos(λ(Xr − Xs ))2 dr ≤ λ2 (t − s). Nach Korollar 21.76 sind M und N daher Martingale, also gilt , + t i λ eiλ(Xr −Xs ) dXr Fs = 0. E s
Der Satz von Fubini liefert (wegen A ∈ Fs ) * ) ϕA,λ (t) − ϕA,λ (s) = E eiλ(Xt −Xs ) A − P[A] t t * ) 1 1 E eiλ(Xr −Xs ) A dr = − λ2 ϕA,λ (r) dr. = − λ2 2 2 s s Das heißt, ϕA,λ ist die L¨osung des linearen Anfangswertproblems ϕA,λ (s) = P[A]
und
d 1 ϕA,λ (t) = − λ2 ϕA,λ (t). dt 2 2
Die eindeutige L¨osung hiervon ist ϕA,λ (t) = P[A] e−λ
(t−s)/2
.
2
Als Folgerung aus dem Satz erhalten wir, dass wir jedes lokale Martingal, dessen quadratischer Variationsprozess absolutstetig (als Funktion der Zeit) ist, als ItˆoIntegral bez¨uglich einer Brown’schen Bewegung schreiben k¨onnen. Satz 25.29 (Itˆo’scher Martingal-Darstellungssatz). Sei M ein stetiges lokales Martingal mit absolutstetiger quadratischer Variation t → M !. Dann gibt es, eventuell auf einer Erweiterung des Wahrscheinlichkeitsraums, eine Brown’sche Bewegung W mit tL d M !s dWs f¨ur alle t ≥ 0. Mt = ds 0 Beweis. Wir nehmen an, dass auf dem Wahrscheinlichkeitsraum eine Brown’sche K definiert ist, die unabh¨angig von M ist. (Gegebenenfalls muss der Bewegung W Wahrscheinlichkeitsraum hierzu erweitert werden.) Sei
25.3 Die Itˆo-Formel
ft := lim n M !t − M !t−1/n n→∞
543
f¨ur t > 0.
t Dann ist f eine progressiv messbare Version der Radon-Nikodym Ableitung dM dt . 0T Klar ist 0 {ft >0} ft−1 d M !t = T < ∞ f¨ur jedes T > 0, also sind die folgenden Integrale wohldefiniert, und t t −1/2 K dMs + Wt := {fs >0} fs {fs =0} dWs 0
0
ist als Summe stetiger lokaler Martingale selber eines. Nach Satz 25.22 ist t t −1 f d M ! + W !t = s {fs >0} s {fs =0} ds 0 0 t t −1 f f ds + = s {fs >0} s {fs =0} ds 0
0
= t. Nach Satz 25.28 ist W damit als Brown’sche Bewegung erkannt. Andererseits ist t t t 1/2 1/2 −1/2 1/2 K fs dWs = fs dMs + dWs {fs >0} fs {fs =0} fs 0 0 0 t = {fs >0} dMs . 0t
0
0t Nun ist aber Mt − 0 {fs >0} dMs = 0 {fs =0} dMs ein stetiges lokales Martin0t gal mit quadratischer Variation 0 {fs =0} d M !s = 0, also fast sicher gleich Null. 0 t 1/2 2 Also ist Mt = 0 fs dWs , wie gew¨unscht. Wir kommen nun zu einer mehrdimensionalen Verallgemeinerung der (pfadweisen) d der Raum der stetigen Abbildungen X : [0, ∞) → Rd , Itˆo-Formel. Sei hierzu CqV 1 d t → Xt = (Xt , . . . , Xt ), sodass f¨ur k, l = 1, . . . , d die quadratische Kovariation (siehe Definition 21.58) X k , X l ! existiert und stetig ist. Ferner sei C 2 (Rd ) der Raum der zweimal stetig differenzierbaren Funktionen F auf Rd mit partiellen Ableitungen ∂k F und ∂k ∂l F , k, l = 1, . . . , d. Mit ∇F bezeichnen wir den Gradienten und mit = (∂12 + . . . + ∂d2 ) den Laplace-Operator. d und F ∈ Satz 25.30 (Mehrdimensionale pfadweise Itˆo-Formel). Sei X ∈ CqV 2 d C (R ). Dann gilt
F (XT ) − F (X0 ) = 0
Dabei ist
T
1 ∇F dXs + 2
T
∇F (Xs ) dXs := 0
T
0
d k=1
0
d
∂k ∂l F (Xs ) d X k , X l !s .
k,l=1
T
∂k F (Xs ) dXsk .
544
25 Das Itˆo-Integral
¨ Beweis. Das geht wie im eindimensionalen Fall. Die Details verbleiben zur Ubung. 2 Korollar 25.31 (Produktregel). Sind X, Y, X − Y, X + Y ∈ CqV , so gilt T T XT YT = X0 Y0 + Ys dXs + Xs dYs + X, Y !T f¨ur alle T ≥ 0. 0
0
Beweis. Nach Voraussetzung (und der Polarisationsformel) existiert X, Y !. Nach Satz 25.30 mit F (x, y) = xy folgt die Aussage. 2 Sei nun Y = M + A eine d-dimensionale verallgemeinerte Diffusion, also t d t k k,l l k σs dWs und At = bks ds f¨ur t ≥ 0, k = 1, . . . , d. Mt = l=1
0
0
Dabei ist W = (W 1 , . . . , W d ) eine d-dimensionale Brown’sche Bewegung und σ k,l (beziehungsweise bk ) sind progressiv messbare, lokal quadratisch integrierbare (beziehungsweise lokal integrierbare) stochastische Prozesse f¨ur k, l = 1, . . . , d. 0t Wegen W k , W l !t = t · {k=l} ist Y k , Y l !t = M k , M l !t = 0 ak,l s ds, wobei ak,l s :=
d
σsk,i σsi,l
i=1 d die Kovarianzmatrix der Diffusion M ist. Speziell ist M ∈ CqV fast sicher. Wir erhalten als Korollar zur mehrdimensionalen pfadweisen Itˆo-Formel:
Satz 25.32 (Mehrdimensionale Itˆo-Formel). Sei Y wie oben und F ∈ C 2 (Rd ). Dann gilt F (YT ) − F (Y0 ) =
T
∇F (Ys ) dYs + 0
=
k,l=1
d k,l=1
+
d 1 T ∂k ∂l F (Ys ) d M k , M l !s 2 0
t
σsk,l
∂k F (Ys ) dWsl
0
+
d
t
bks ∂k F (Ys ) ds (25.16)
0
k=1
d 1 t k,l as ∂k ∂l F (Ys ) ds. 2 0 k,l=1
Speziell gilt f¨ur die Brown’sche Bewegung F (Wt ) − F (W0 ) =
d k=1
0
t
∂k F (Ws ) dWsk +
1 2
t
F (Ws ) ds. 0
(25.17)
25.3 Die Itˆo-Formel
545
Korollar 25.33. Der Prozess (F (Wt ))t≥0 ist genau dann ein lokales Martingal, wenn F harmonisch ist (also F ≡ 0 gilt). d 0 t Beweis. Ist F harmonisch, so ist F (Wt ) = F (W0 ) + k=1 0 ∂k F (Ws ) dWsk als Summe von Itˆo-Integralen ein stetiges lokales Martingal. 0t Ist andererseits F ein lokales Martingal, so ist auch 0 F (Ws ) ds als Differenz von stetigen lokalen Martingalen ein stetiges lokales Martingal. Da t → 0t 0t F (W ) ds von endlicher Variation ist, ist F (Ws ) ds = 0 f¨ur alle t ≥ 0 s 0 0 fast sicher (nach Korollar 21.72). Also ist F ≡ 0. 2 Korollar 25.34 (Zeitabh¨angige Itˆo-Formel). Ist F ∈ C 2,1 (Rd × R), so gilt F (WT , T ) − F (W0 , 0) d T = ∂k F (Ws , s) dWsk + k=1
0
T
0
1 ∂d+1 + (∂12 + . . . + ∂d2 ) F (Ws , s) ds. 2 2
Beweis. Wende Satz 25.32 an auf Y = (Wt1 , . . . , Wtd , t)t≥0 .
¨ ¨ Itˆo-Integrale). Sei X ∈ CqV und sei g : Ubung 25.3.1 (Satz von Fubini fur [0, ∞)2 → R stetig und im Inneren nach der zweiten Koordinate stetig differenzierbar mit Ableitung ∂2 g. Man zeige mit Hilfe der Produktregel (Korollar 25.31) s t t s g(u, v) du dXv = g(u, v) dXv du. 0
und
s
0
0
v
g(u, v) du 0
0 s
s
dXv =
g(u, v) dXv
0
0
du.
♣
u
¨ Ubung 25.3.2 (Stratonovich-Integral). Sei P eine zul¨assige Zerlegungsfolge, X ∈ P und f ∈ C 1 (R) mit Stammfunktion F . Man zeige: F¨ur jedes t ≥ 0 ist das CqV Stratonovich-Integral T Xt + Xt Xt − Xt f (Xt ) ◦ dXt := lim f n→∞ 2 0 n t∈PT
wohldefiniert, und es gilt die klassische Substitutionsregel F (XT ) − F (X0 ) =
T
F (Xt ) ◦ dXt .
0
Man zeige, dass im Gegensatz zum Itˆo-Integral das Stratonovich-Integral bez¨uglich eines stetigen lokalen Martingals im Allgemeinen kein lokales Martingal ist. ♣
546
25 Das Itˆo-Integral
25.4 Dirichlet-Problem und Brown’sche Bewegung ¨ Ahnlich wie f¨ur diskrete Markovketten (vergleiche Kapitel 19.1) l¨asst sich die L¨osung des Dirichlet-Problems in einem Gebiet G ⊂ Rd durch eine am Rande von G gestoppte d-dimensionale Brown’sche Bewegung beschreiben. Sei im Folgenden G ⊂ Rd eine offene, beschr¨ankte Menge. Definition 25.35 (Dirichlet-Problem). Sei f : ∂G → R stetig. Eine Funktion u : G → R heißt L¨osung des Dirichlet-Problems auf G mit Randwert f , falls u stetig ist und in G zweimal stetig differenzierbar, sowie u(x) = 0 u(x) = f (x)
f¨ur x ∈ G, f¨ur x ∈ ∂G.
(25.18)
F¨ur hinreichend glatte Gebiete existiert stets eine L¨osung des Dirichlet-Problems (siehe etwa [80, Korollar 4.3.3]). Gibt es eine L¨osung, so ist sie stets eindeutig (wie aus Satz 25.37 folgt). Sei im Folgenden W = (W 1 , . . . , W d ) eine d-dimensionale Brown’sche Bewegung bez¨uglich der Filtration F, die den u¨ blichen Bedingungen gen¨ugt. Wir schreiben Px und Ex f¨ur Wahrscheinlichkeiten und Erwartungswerte, wenn W in W0 = x = (x1 , . . . , xd ) ∈ Rd gestartet wird. Ist A ⊂ Rd offen, so ist
τAc := inf t > 0 : Wt ∈ Ac ¨ eine F-Stoppzeit (siehe Ubung 21.4.4). Da G beschr¨ankt ist, ist G ⊂ (−a, a) × d−1 ¨ R f¨ur gewisses a > 0. Also ist τGc ≤ τ((−a,a)×Rd−1 )c . Nach Ubung 21.2.4 1 (angewandt auf W ) ist f¨ur x ∈ G ) * ) * Ex τGc ≤ Ex τGc ≤ τ((−a,a)×Rd−1 )c = (a − x1 )(a + x1 ) < ∞. (25.19) Speziell ist τGc < ∞ Px -fast sicher, also ist WτGc eine Px -fast sicher wohldefinierte Zufallsvariable mit Werten in ∂G. Definition 25.36. F¨ur x ∈ G bezeichnen wir mit μx,G = Px ◦ Wτ−1 Gc das harmonische Maß auf ∂G. Satz 25.37. Ist u eine L¨osung des Dirichlet-Problems auf G mit Randwert f , so ist ) * f (y) μx,G (dy) f¨ur x ∈ G. (25.20) u(x) = Ex f (WτGc ) = ∂G
Insbesondere ist die L¨osung des Dirichlet-Problems stets eindeutig.
25.4 Dirichlet-Problem und Brown’sche Bewegung
547
Beweis. Sei G1 ⊂ G2 ⊂ . . . eine Folge offener Mengen mit x ∈ G1 , Gn ↑ G und Gn ⊂ G f¨ur jedes n ∈ N. Speziell ist also jedes Gn kompakt und damit ∇u auf Gn beschr¨ankt. Wir schreiben kurz τ := τGc und τn := τGcn . Da u harmonisch ist (das heißt, u = 0), ist nach der Itˆo-Formel
t
∇u(Ws ) dWs =
u(Wt ) = u(W0 ) + 0
d
∂k u(Ws ) dWsk
f¨ur t < τ. (25.21)
k=1
Speziell ist M := (u(Wt ))t∈[0,τ ) ein lokales Martingal bis τ (aber im Allgemeinen kein Martingal). F¨ur t < τn ist (∂k u(Ws ))2 ≤ Cn := sup ∇u(y)22 < ∞
f¨ur jedes k = 1, . . . , d.
y∈Gn
Also ist
+ E
,
τn
2
(∂k u(Ws ))
≤ Cn Ex [τn ] ≤ Cn E[τ ] < ∞
0
nach (25.19). Nach Satz 25.17(ii) ist daher der gestoppte Prozess M τn ein Martingal f¨ur jedes n ∈ N und damit Ex [u(Wτn )] = Ex [Mτn ] = Ex [M0 ] = u(x).
(25.22)
n→∞
Da W stetig ist und τn ↑ τ gilt, gilt Wτn −→ Wτ ∈ ∂G, aufgrund der Stetigkeit von u also auch n→∞ (25.23) u(Wτn ) −→ u(Wτ ) = f (Wτ ). Da u stetig ist und G kompakt, ist u beschr¨ankt. Nach dem Satz u¨ ber majorisierte Konvergenz folgt aus (25.23) auch die Konvergenz der Erwartungswerte, also (zusammen mit (25.22)) ) ) * * 2 u(x) = lim Ex u(Wτn ) = Ex f (Wτ ) . n→∞
¨ Ubung 25.4.1. Sei G = R × (0, ∞) die offene, obere Halbebene des R2 und x = (x1 , x2 ) ∈ G. Man zeige, dass τGc < ∞ fast sicher gilt und dass das harmonische Maß μx,G auf R ∼ = ∂G die um x1 verschobene Cauchy-Verteilung mit ♣ Gr¨oßenparameter x2 ist: μx,G = δx1 ∗ Caux2 . ¨ Ubung 25.4.2. Sei d ≥ 3 und G = Rd−1 × (0, ∞) ein offener Halbraum des Rd sowie x = (x1 , . . . , xd ) ∈ G. Man zeige, dass τGc < ∞ fast sicher gilt und dass das harmonische Maß μx,G auf Rd−1 ∼ = ∂G die folgende Dichte hat: Γ (d/2) xd μx,G (dy) 3 = d/2 2 dy π (x1 − y1 ) + . . . + (xd−1 − yd−1 )2 + x2d
♣
¨ Ubung 25.4.3. Sei r > 0 und Br (0) ⊂ Rd die offene Kugel um den Ursprung mit ♣ Radius r. Man bestimme f¨ur x ∈ Br (0) das harmonische Maß μx,Br (0) .
548
25 Das Itˆo-Integral
25.5 Rekurrenz und Transienz der Brown’schen Bewegung Die symmetrische einfache Irrfahrt (Xn )n∈N auf Zd ist nach dem Satz von P´olya (Satz 17.39) genau dann rekurrent (besucht also jeden Punkt unendlich oft), wenn d ≤ 2 ist. Ist d > 2, so ist die Irrfahrt transient und verl¨asst jede endliche Menge A ⊂ Zd schließlich. Wir k¨onnen dieses Verhalten beschreiben durch lim inf Xn = 0 f.s.
⇐⇒
d≤2
lim Xn = ∞ f.s.
⇐⇒
d > 2.
n→∞
und n→∞
Hauptergebnis dieses Abschnitts ist es, dass eine a¨ hnliche Dichotomie auch f¨ur die Brown’sche Bewegung gilt. Satz 25.38. Sei W = (W 1 , . . . , W d ) eine d-dimensionale Brown’sche Bewegung. (i) Ist d ≤ 2, so ist W rekurrent in dem Sinne, dass lim inf Wt − y = 0 f.s. t→∞
f¨ur jedes y ∈ Rd .
Insbesondere liegt der Pfad {Wt : t ≥ 0} dicht in Rd fast sicher. (ii) Ist d > 2, so ist W transient in dem Sinne, dass lim Wt = ∞ f.s.,
t→∞
und f¨ur jedes y ∈ Rd \ {0} ist inf{Wt − y : t ≥ 0} > 0 fast sicher. Die Grundidee f¨ur den Beweis des Satzes besteht darin, mit Hilfe von geeigneten Dirichletproblemen und dem Ergebnis von Abschnitt 25.4 die Wahrscheinlichkeiten daf¨ur auszurechnen, dass W gewisse Kugeln
BR (x) := y ∈ Rd : x − y < R trifft. Sei 0 < r < R < ∞ und Gr,R der Anulus
Gr,R := BR (0) \ B r (0) = x ∈ Rd : r < x < R . Zur Erinnerung: F¨ur abgeschlossenes A ⊂ Rd schreiben wir τA = inf{t > 0 : Wt ∈ A} f¨ur die Stoppzeit des ersten Eintretens in A. Wir schreiben
τs := inf t > 0 : Wt = s und τr,R = inf t > 0 : Wt ∈ Gr,R . Bei Start in W0 ∈ Gr,R ist offenbar τr,R = τr ∧ τR . Auf dem Rand von Gr,R definieren wir die Funktion f durch
25.5 Rekurrenz und Transienz der Brown’schen Bewegung
f (x) =
1,
falls x = r,
0,
falls x = R.
549
(25.24)
Sei ur,R : Gr,R → R definiert durch ur,R (x) =
V (x) − V (R) , V (r) − V (R)
wobei V : (0, ∞) → R die Newton’sche Potentialfunktion ist ⎧ s, falls d = 1, ⎪ ⎪ ⎨ log(s), falls d = 2, V (s) = Vd (s) = ⎪ ⎪ ⎩ 2−d −s , falls d > 2.
(25.25)
Man pr¨uft leicht nach, dass ϕ : Rd \ {0} → R, x → Vd (x) harmonisch ist (also ϕ ≡ 0 erf¨ullt). Also ist ur,R die L¨osung des Dirichlet-Problems auf Gr,R mit Randwert f . Nach Satz 25.37 ist f¨ur x ∈ Gr,R ) * ) ) * * Px τr,R = τr = Px Wτr,R = r = Ex f (Wτr,R ) = ur,R (x). (25.26) Satz 25.39. F¨ur r > 0 und x, y ∈ Rd mit x − y > r gilt ⎧ 1, falls d ≤ 2, ) * ⎨ 2−d Px Wt ∈ Br (y) f¨ur ein t > 0 = ⎩ x−y , falls d > 2. r Beweis. Ohne Einschr¨ankung sei y = 0. Dann ist Px [τr < ∞] = lim Px [τr,R = τr ] = lim R→∞
R→∞
=
V (x) − V (R) V (r) − V (R) 1,
falls d = 2,
Vd (x) Vd (r) ,
falls d > 2,
denn limR→∞ Vd (R) = ∞, falls d ≤ 2 und = 0, falls d > 2.
2
Beweis (von Satz 25.38). Unter Verwendung der starken Markoveigenschaft der Brown’schen Bewegung erhalten wir f¨ur r > 0 + , ' (
Wt < r f¨ur ein t > τR Px lim inf Wt < r = Px t→∞
s∈(0,r) R>x
= sup
inf
s∈(0,r) R>x
= sup
inf
s∈(0,r) R>x
) * Px Wt ≤ s f¨ur ein t > τR ) * Px PWτR [τs < ∞] .
550
25 Das Itˆo-Integral
Nach Satz 25.39 ist aber (wegen WτR = R f¨ur R > x) 1, falls d ≤ 2, PWτR [τs < ∞] = (s/R)d−2 , falls d > 2. Also ist
' ( P lim inf Wt < r = t→∞
1,
falls d ≤ 2,
0,
falls d > 2. 2
Hieraus folgt aber die Aussage des Satzes. Definition 25.40 (Polare Menge). Eine Menge A ⊂ Rd heißt polar, falls ) * Px Wt ∈ A f¨ur alle t > 0 = 1 f¨ur alle x ∈ Rd .
Satz 25.41. Ist d = 1, so ist nur die leere Menge polar. Ist d ≥ 2, so ist {y} polar f¨ur jedes y ∈ Rd . Beweis. F¨ur d = 1 ist die Aussage klar, wegen lim sup Wt = ∞
und
t→∞
lim inf Wt = −∞ f.s. t→∞
Aufgrund der Stetigkeit von W wird also jeder Punkt y ∈ R immer wieder getroffen. Sei nun d ≥ 2. Ohne Einschr¨ankung sei y = 0. Ist x = 0, so ist ) ) * * Px τ{0} < ∞ = lim Px τ{0} < τR R→∞ ) * = lim inf Px τr,R = τr R→∞ r>0
(25.27)
= lim inf ur,R (x) = 0, R→∞ r>0
r→0
weil Vd (r) −→ −∞, falls d ≥ 2. Ist hingegen x = 0, so gilt wegen der starken Markoveigenschaft der Brown’schen Bewegung (und weil P0 [Wt = 0] = 0 ist f¨ur alle t > 0) ) ) * * P0 τ{0} < ∞ = sup P0 Ws = 0 f¨ur ein s ≥ t t>0 ) * = sup P0 PWt [τ{0} < ∞] = 0, t>0
wobei wir im letzten Schritt (25.27) ausgenutzt haben.
2
26 Stochastische Differentialgleichungen
Stochastische Differentialgleichungen beschreiben die zeitliche Entwicklung von gewissen stetigen Markovprozessen mit Werten in Rn . Im Gegensatz zu klassischen Differentialgleichungen ist nicht nur die Ableitung einer Funktion angegeben, sondern zudem ein Term, der zuf¨allige Fluktuationen beschreibt, die als Itˆo-Integral bez¨uglich einer Brown’schen Bewegung kodiert werden. Je nach dem, ob man die konkrete Brown’sche Bewegung als treibende Kraft des Rauschens ernst nimmt oder nicht, spricht man von starken oder schwachen L¨osungen. Wir entwickeln im ersten Abschnitt die Theorie der starken L¨osungen unter Lipschitz-Bedingungen an die Koeffizienten. Im zweiten Abschnitt lernen wir das (lokale) Martingalproblem als Methode zur Etablierung schwacher L¨osungen kennen. Im dritten Abschnitt stellen wir die Methode der Dualit¨at zur Sicherung der Eindeutigkeit von L¨osungen an Beispielen vor. Da die Theorie der stochastischen Differentialgleichungen ein sehr weites Feld ist und die Dinge sehr schnell sehr technisch werden, bringen wir nur kursorisch ein paar der wichtigsten Ergebnisse, zum Teil ohne Beweis, um sie dann an Beispielen zu illustrieren.
26.1 Starke L¨osungen Wir betrachten eine stochastische Differentialgleichung (SDGL) von dem Typ X0 = ξ, dXt = σ(t, Xt ) dWt + b(t, Xt ) dt.
(26.1)
Dabei ist W = (W 1 , . . . , W m ) eine m-dimensionale Brown’sche Bewegung, ξ n μ, eine von W unabh¨angige R -wertige Zufallsvariable mit Verteilung
σ(t, x) =
σij (t, x) i=1,...,n eine reelle n × m Matrix sowie b(t, x) = bi (t, x) i=1,...,n ein j=1,...,m
n-dimensionaler Vektor. Die Abbildungen (t, x) → σij (t, x) und (t, x) → bi (t, x) seien messbar. Unter einer L¨osung X von (26.1) wollen wir nat¨urlich einen stetigen, adaptierten stochastischen Prozess X mit Werten in Rn verstehen, der die folgende Integralgleichung erf¨ullt
552
26 Stochastische Differentialgleichungen
t
Xt = ξ +
σ(s, Xs ) dWs + 0
t
b(s, Xs ) ds
P − f.s. f¨ur alle t ≥ 0.
(26.2)
0
Koordinatenweise ausgeschrieben heißt dies Xti = ξ i +
m j=1
0
t
σij (s, Xs ) dWsj +
t
bi (s, Xs ) ds
f¨ur alle i = 1, . . . , n.
0
Nun ergibt sich folgendes Problem: An welche Filtration F soll X adaptiert sein? Soll F die Filtration sein, die von ξ und W erzeugt ist, oder darf F eine gr¨oßere Filtration sein? Aus der Theorie der gew¨ohnlichen Differentialgleichungen ist bekannt, dass es, je nach Differentialgleichung, L¨osungen geben kann, die aber nicht eindeutig sind (beispielsweise f¨ur f = |f |1/3 ). Wenn F gr¨oßer als die von W erzeugte Filtration ist, k¨onnen wir weitere Zufallsvariablen definieren, die unter mehreren L¨osungen eine aussuchen. Wir haben also mehr M¨oglichkeiten, eine L¨osung anzugeben als wenn F = σ(W ) ist. In der Tat wird sich herausstellen, dass man in manchen F¨allen u¨ berhaupt erst eine L¨osung einer SDGL angeben kann, wenn man eine gr¨oßere Filtration zul¨asst. Grob gesprochen nennen wir X eine starke L¨osung von (26.1), wenn (26.2) gilt und X an F = σ(W ) adaptiert ist, hingegen eine schwache L¨osung, wenn X an eine gr¨oßere Filtration F adaptiert ist, bez¨uglich der W aber immer noch ein Martingal ist. Schwache L¨osungen behandeln wir in Abschnitt 26.2. Definition 26.1 (Starke L¨osung). Wir sagen, dass die stochastische Differentialgleichung (SDGL) (26.1) eine starke L¨osung X hat, falls es eine Abbildung F : Rn × C([0, ∞); Rm ) → C([0, ∞); Rn ) gibt mit den Eigenschaften (i) (x, w) → F (x, w) ist f¨ur jedes t ≥ 0 messbar bez¨uglich B(Rn ) ⊗ Gtm – Gtn , wobei (f¨ur k = m oder k = n) Gtk := σ(πs : s ∈ [0, t]) die von den Koordinatenabbildungen πs : C([0, ∞); Rk ) → R, w → w(s) erzeugte σ-Algebra ist. (ii) Der Prozess X = F (ξ, W ) erf¨ullt (26.2). Bedingung (i) besagt, dass der Pfad (Xs )s∈[0,t] nur von ξ und (Ws )s∈[0,t] abh¨angt und sonst von keinen Informationen. Insbesondere ist X an Ft = σ(ξ, Ws : s ∈ [0, t]) adaptiert und progressiv messbar, sodass das Itˆo-Integral in (26.2) wohldefiniert ist, falls σ und b nicht zu stark wachsen f¨ur große x. Bemerkung 26.2. Offenbar ist eine starke L¨osung einer SDGL stets eine verallgemeinerte n-dimensionale Diffusion. Sind die Koeffizienten σ und b unabh¨angig von t, so ist die L¨osung eine n-dimensionale Diffusion. 3 Bemerkung 26.3. Sei X eine starke L¨osung und F wie in Definition 26.1. ist W eine m-dimensionale Brown’sche Bewegung auf einem Raum (Ω , F , P ) mit Filtration F , und ist ξ unabh¨angig von W und F0 -messbar, so erf¨ullt X = F (ξ , W ) die Integralgleichung (26.2), ist also eine starke L¨osung von (26.1) mit W statt W .
26.1 Starke L¨osungen
553
Die Existenz einer starken L¨osung h¨angt also nicht von der konkreten Realisierung der Brown’schen Bewegung oder der Filtration F ab. 3 Definition 26.4. Wir sagen, dass die SDGL (26.1) eine eindeutige starke L¨osung hat, falls es ein F wie in Definition 26.1 gibt, sodass gilt: (i) Ist W eine m-dimensionale Brown’sche Bewegung auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Filtration F und ξ eine F0 -messbare von W unabh¨angige Zufallsvariable mit P ◦ ξ −1 = μ, dann ist X := F (ξ, W ) eine L¨osung von (26.2). (ii) F¨ur jede L¨osung (X, W ) von (26.2) gilt X = F (ξ, W ). Beispiel 26.5. Seien m = n = 1 und b ∈ R sowie σ > 0. Der Ornstein-Uhlenbeck Prozess t
Xt := ebt ξ + σ
e(t−s)b dWs ,
t ≥ 0,
(26.3)
0
ist eine starke L¨osung der SDGL X0 = ξ und dXt = σ dWt + b Xt dt. In der Terminologie von Definition 26.1 ist (im Sinne des pfadweisen Itˆo-Integrals bez¨uglich w) t
F (x, w) =
t → ebt x +
e(t−s)b dw(s) 0
f¨ur alle w ∈ CqV (also mit stetiger quadratischer Variation). Wegen P[W ∈ CqV ] = 1, k¨onnen wir F (x, w) = 0 setzen f¨ur w ∈ C([0, ∞); R) \ CqV . ¨ In der Tat gilt nach dem Satz von Fubini f¨ur Itˆo-Integrale (Ubung 25.3.1) ξ+
t
t
σ dWs + 0
b Xs ds s t t bs b(s−r) b e ξ ds + σb e dWr ds = ξ + σWt + 0 0 0 t t
σ b eb(s−r) ds dWr = ξ + σWt + ebt − 1 ξ + 0
= ebt ξ +
t
0
r
σ + eb(t−r) − 1 σ dWr
0
= Xt . Man kann zeigen (siehe Satz 26.8), dass diese L¨osung auch (stark) eindeutig ist. 3 Beispiel 26.6. Seien α, β ∈ R. Die eindimensionale SDGL X0 = ξ und dXt = α Xt dWt + β Xt dt
(26.4)
554
26 Stochastische Differentialgleichungen
hat die starke L¨osung
α2 Xt = ξ exp α Wt + β − t . 2 In der Terminologie von Definition 26.1 ist σ(t, x) = αx, b(t, x) = βx und α2 F (x, w) = t → x exp α w(t) + β − t 2 f¨ur alle w ∈ C([0, ∞); R) und x ∈ R. In der Tat ist nach der zeitabh¨angigen ItˆoFormel (Korollar 25.34) t t α2 1 2 αXs dWs + β− Xs ds. Xt = ξ + + α 2 2 0 0 Auch in diesem Fall gilt starke Eindeutigkeit der L¨osung (siehe Satz 26.8). Der Prozess X heißt geometrische Brown’sche Bewegung und dient beispielsweise zur Modellierung von Aktienkursen im so genannten Black-Scholes Modell. 3 Wir geben nun ein einfaches Kriterium f¨ur die Existenz und Eindeutigkeit starker L¨osungen an. F¨ur eine n × m Matrix A definieren wir die Hilbert-Schmidt Norm n E n
A = Spur A AT = A2i,j . (26.5) i=1 j=1
F¨ur b ∈ Rn verwenden wir die euklidische Norm b. Da alle Normen auf endlichdimensionalen Vektorr¨aumen a¨ quivalent sind, spielt es keine wesentliche Rolle, welche Norm wir genau benutzen. Allerdings vereinfacht die hier eingef¨uhrte Norm die Rechnungen, wie das folgende Lemma zeigt. Lemma 26.7. Sei t → H(t) = (Hij (t))i=1,...,n, j=1,...,m progressiv messbar und )0T 2 * E 0 Hij (t) dt < ∞ f¨ur alle i, j. Dann gilt += = E = =
0
T
=2 , + = H(t) dWt = = E =
T
, H(t)2 dt ,
(26.6)
0
wobei H die Hilbert-Schmidt Norm aus (26.5) bezeichnet. m 0 t Beweis. F¨ur i = 1, . . . , n ist Ii (t) := j=1 0 Hij (s) dWsj ein stetiges Martingal 0 t m 2 mit Variationsprozess Ii !t = 0 j=1 Hij (s) ds. Daher ist +
* ) E (Ii (T ))2 = E
0
m T j=1
, 2 Hij (s)
ds.
26.1 Starke L¨osungen
555
Die linke Seite in (26.6) ist aber gleich + n * ) 2 E (Ii (T )) = E
T
0
i=1
n m
, 2 Hij (s)
ds.
i=1 j=1
Die Behauptung folgt nun aus der Definition von H(s)2 .
2
Satz 26.8. Seien b und σ Lipschitz-stetig in der ersten Koordinate. Das heißt, es existiere eine Konstante K > 0, sodass f¨ur alle x, x ∈ Rn und t ≥ 0 gilt, dass σ(x, t) − σ(x , t) + b(x, t) − b(x , t) ≤ K x − x .
(26.7)
Ferner gelte die Wachstumsbedingung σ(t, x)2 + b(t, x)2 ≤ K 2 (1 + x2 )
f¨ur alle x ∈ Rn , t ≥ 0.
(26.8)
Dann existiert f¨ur jeden Anfangswert X0 = x ∈ Rn eine eindeutige starke L¨osung X der SDGL (26.1). Diese L¨osung ist ein Markovprozess und im Falle, wo σ und b nicht von t abh¨angen, ein starker Markovprozess. Als Hilfsmittel brauchen wir ein Lemma. Lemma 26.9 (Gronwall). Seien f, g : [0, T ] → R integrierbar und C > 0 so, dass t f (s) ds f¨ur alle t ∈ [0, T ]. (26.9) f (t) ≤ g(t) + C 0
Dann ist
f (t) ≤ g(t) + C
t
f¨ur alle t ∈ [0, T ].
eC(t−s) g(s) ds 0
Ist speziell g(t) ≡ G konstant, so ist f (t) ≤ GeCt f¨ur alle t ∈ [0, T ]. Beweis. Seien F (t) =
0t 0
f (s) ds und h(t) = F (t) e−Ct . Dann ist nach (26.9)
d h(t) = f (t) e−Ct − CF (t) e−Ct ≤ g(t) e−Ct . dt Integration liefert F (t) = eCt h(t) ≤
t
eC(t−s) g(s) ds. 0
Einsetzen in (26.9) liefert f (t) ≤ g(t) + CF (t) ≤ g(t) + C
t
g(s) eC(t−s) ds. 0
2
556
26 Stochastische Differentialgleichungen
Beweis (von Satz 26.8). Es reicht zu zeigen, dass eine eindeutige starke L¨osung bis T f¨ur jedes T < ∞ existiert. Eindeutigkeit Wir zeigen zun¨achst die Eindeutigkeit der L¨osung. Seien X und X L¨osungen von (26.2). Dann ist t t
Xt − Xt = b(s, Xs ) − b(s, Xs ) ds + σ(s, Xs ) − σ(s, Xs ) dWs . 0
0
Daher ist Xt −
Xt 2
= t = =
=2 = b(s, Xs ) − b(s, Xs ) ds= ≤ 2= = 0
=2 = t = =
= σ(s, Xs ) − σ(s, Xs ) dWs = + 2= = .
(26.10)
0
F¨ur den ersten Summanden in (26.10) verwenden wir die Cauchy-Schwarz’sche Ungleichung, f¨ur den zweiten hingegen Lemma 26.7 und erhalten so t ' =2 ( = ) * E Xt − Xt 2 ≤ 2t E =b(s, Xs ) − b(s, Xs )= ds 0 t ' =2 ( = E =σ(s, Xs ) − σ(s, Xs )= ds. +2 0
* ) Schreiben wir f (t) = E Xt − Xt 2 und C := 2(T + 1)K 2 , so erhalten wir 0t f (t) ≤ C 0 f (s) ds. Das Lemma von Gronwall (mit g ≡ 0) liefert daher f ≡ 0. Existenz Wir wenden eine Variante des Picard’schen Iterationsverfahrens an. F¨ur jedes N ∈ N0 definieren wir iterativ einen Prozess X N durch Xt0 ≡ x und t t
N N −1 ds + b s, Xs σ s, XsN −1 dWs f¨ur N ∈ N (26.11) Xt := x + 0
0
Wegen der Wachstumsbedingung (26.8) kann man sukzessive zeigen: T ' T ' =2 ( =2 ( = = E =XtN = dt ≤ 2(T + 1) K 2 T + E =XtN −1 = dt 0
≤ 2T (T + 1) K
2 N
0
1 + x2 < ∞,
Also ist in jedem Schritt das Itˆo-Integral wohldefiniert. Wir betrachten nun die Differenzen XtN +1 − XtN = It + Jt , wobei
It := 0
t
σ(s, XsN ) − σ(s, XsN −1 ) dWs
N ∈ N.
26.1 Starke L¨osungen
und
557
b(s, XsN ) − b(s, XsN −1 ) ds.
t
Jt := 0
Indem wir die Doob’sche L2 –Ungleichung auf das nichtnegative Submartingal (It 2 )t≥0 , Lemma 26.7 sowie (26.7) anwenden, erhalten wir + , * ) E sup Is 2 ≤ 4 E It 2 s≤t
+
t
= 4E 0 t
≤ 4K 2
= = =σ(s, XsN ) − σ(s, XsN −1 )=2 ds
, (26.12)
'= =2 ( E =XsN − XsN −1 = ds
0
F¨ur Jt bekommen wir mit der Cauchy-Schwarz’schen Ungleichung t = = 2 =b(s, XsN ) − b(s, XsN −1 )=2 ds. Jt ≤ t 0
Also ist
+ , , + t = = 2 N N −1 =2 = b(s, Xs ) − b(s, Xs ) ds E sup Js ≤ t E s≤t
≤ tK
0 t
2
'= =2 ( E =XsN − XsN −1 = ds.
(26.13)
0
+ , = =2 ΔN (t) := E sup =XsN − XsN −1 = ,
Setzen wir
s≤t
so erhalten wir mit C := 2K (4 + T ) ∨ 2(T + 1)K 2 (1 + x2 ) t N +1 (t) ≤ C ΔN (s) ds f¨ur N ≥ 1 Δ 2
0
und
t
Δ1 (t) ≤ 2t
t
b(s, x)2 ds + 2 0
σ(s, x)2 ds 0
≤ 2(T + 1)K 2 1 + x2 · t ≤ C t nach der Wachstumsvoraussetzung (26.8). Per Induktion folgt ΔN (t) ≤ folgt mit der Markov’schen Ungleichung + , ∞ ∞ = N = N −1 =2 −N = P sup Xs − Xs >2 2N ΔN (t) ≤ N =1
s≤t
≤
N =1 ∞ N =1
(Ct)N N!
(2Ct)N ≤ e2Ct < ∞. N!
. Es
558
26 Stochastische Differentialgleichungen N →∞
Nach dem Lemma von Borel-Cantelli folgt sups≤t XsN − XsN −1 2 −→ 0 fast sicher. Mithin ist fast sicher (X N )N ∈N eine Cauchy-Folge in dem Banachraum (C([0, T ]), · ∞ ). Also konvergiert X N fast sicher gleichm¨aßig gegen ein X. Gleichm¨aßige Konvergenz impliziert Konvergenz der Integrale, also ist X eine starke L¨osung von (26.2). Markoveigenschaft Die starke Markoveigenschaft folgt direkt aus der starken Markoveigenschaft der Brown’schen Bewegung, die die SDGL antreibt. 2 Wichtige Beispiele f¨ur diesen Satz haben wir oben schon kennen gelernt. Viele interessante Probleme f¨uhren jedoch auf stochastische Differentialgleichungen, bei denen die Koeffizienten nicht Lipschitz-stetig sind. Im eindimensionalen Fall kann man mit speziellen Vergleichsmethoden zeigen, dass es ausreicht, dass σ H¨olderstetig von der Ordnung 12 in der Ortsvariablen ist. Satz 26.10 (Yamada-Watanabe). Wir )betrachten die eindimensionale Situation * m = n = 1. Es gebe K < ∞ und α ∈ 12 , 1 , sodass f¨ur alle t ≥ 0 und x, x ∈ R gilt b(t, x) − b(t, x ) ≤ K |x − x | und σ(t, x) − σ(t, x ) ≤ |x − x |α . Dann besitzt die SDGL f¨ur jedes X0 ∈ R eine eindeutige starke L¨osung X, und X ist ein starker Markovprozess. Beweis. Siehe [161] oder [86, Proposition 5.2.13] f¨ur Existenz und Eindeutigkeit der L¨osung. Die starke Markov-Eigenschaft folgt aus Satz 26.26. 2 Beispiel 26.11. Betrachte die eindimensionale SDGL E
dXt = γ Xt+ dWt + a b − Xt+ dt
(26.14)
mit Startwert X0 = x ≥ 0, wobei γ > 0 und a, b ≥ 0 Parameter sind. Die Be√ dingungen von Satz 26.10 sind mit α = 12 und K = γ + a erf¨ullt. Die eindeutige starke L¨osung X hat offenbar die Eigenschaft, nichtnegativ zu bleiben, wenn X0 ≥ 0 ist. (Tats¨achlich kann man sogar zeigen dass Xt > 0 f¨ur alle t > 0 gilt, falls 2ab/γ ≥ 1, und dass Xt die Null mit Wahrscheinlichkeit 1 beliebig h¨aufig trifft, falls 2ab/γ < 1. Siehe etwa [78, Beispiel IV.8.2, Seite 237]. Vergleiche Beispiel 26.16.) Dieser Prozess wird je nach Kontext gelegentlich als Feller’sche Verzweigungsdiffusion mit Immigration oder als Cox-Ingersoll-Ross Modell f¨ur die zeitliche Entwicklung von Zinsraten bezeichnet. Wir berechnen f¨ur den Fall a = b = 0 mit der Itˆo-Formel, dass t 3 λ2 t −λXs e Xs ds = λ e−λXs γXs dWs e−λXt − e−λx − γ 2 0 0
26.1 Starke L¨osungen
559
1.5
1
0.5
0
5
10
15
20
25
30
Abb. 26.1. Cox-Ingersoll-Ross Diffusion mit Parametern γ = 1, b = 1 und a = 0.3. Der Pfad trifft die Null immer wieder, da 2ab/γ = 0.6 < 1 ist. 2.5
2
1.5
1
0.5
0
5
10
15
20
25
30
Abb. 26.2. Cox-Ingersoll-Ross Diffusion mit Parametern γ = 1, b = 1 und a = 2. Der Pfad trifft die Null nie, da 2ab/γ = 4 ≥ 1 ist.
ein Martingal ist. Indem wir Erwartungswerte bilden, erhalten wir f¨ur die LaplaceTransformierte ϕ(t, λ, x) = Ex [e−λXt ] die Differentialgleichung * λ2 ) γλ2 d d ϕ(t, λ, x) = γ E Xt e−λXt = − ϕ(t, λ, x). dt 2 2 dλ Diese partielle Differentialgleichung hat mit dem Anfangswert ϕ(0, λ, x) = e−λx die eindeutige L¨osung
560
26 Stochastische Differentialgleichungen
λ x . ϕ(t, λ, x) = exp − (γ/2)λt + 1
¨ Dies ist aber (f¨ur γ = 2) genau die Laplace-Transformierte der Ubergangswahrscheinlichkeiten des Markov-Prozesses, den wir in Satz 21.48 definiert hatten und den wir im Satz von Lindvall (Satz 21.51) als Grenzwert von reskalierten GaltonWatson Verzweigungsprozessen kennen gelernt haben. 3
26.2 Schwache L¨osungen und Martingalproblem Im letzten Abschnitt haben wir starke L¨osungen der stochastischen Differentialgleichung (26.15) dXt = σ(t, Xt ) dWt + b(t, Xt ) dt kennen gelernt. Diese zeichnen sich dadurch aus, dass jedem Pfad der Brown’schen Bewegung W genau ein Pfad der L¨osung X zugeordnet wird. Wir wollen nun zum Begriff der schwachen L¨osung kommen, bei der zus¨atzliche Information (das heißt zus¨atzlicher Zufall) in die L¨osung mit eingehen kann. Definition 26.12 (Schwache L¨osung einer SDGL). Eine schwache L¨osung von (26.15) mit Startverteilung μ ∈ M1 (Rn ) ist ein Tripel
L = (X, W ), (Ω, F, P), F , wobei gilt: – (Ω, F, P) ist ein Wahrscheinlichkeitsraum, – F = (Ft )t≥0 ist eine Filtration auf (Ω, F, P), die die u¨ blichen Bedingungen erf¨ullt, – W ist eine Brown’sche Bewegung auf (Ω, F, P) und bez¨uglich F ein Martingal. – X ist stetig und adaptiert (also progressiv messbar), – P ◦ (X0 )−1 = μ, – sowie
Xt = X 0 +
t
σ(s, Xs ) dWs + 0
t
b(s, Xs ) ds
P-f.s.
(26.16)
0
Eine schwache L¨osung L heißt (schwach) eindeutig, falls f¨ur jede weitere L¨osung L mit Startverteilung μ gilt: P ◦ (X )−1 = P ◦ X −1 . Bemerkung 26.13. Offenbar ist eine schwache L¨osung einer SDGL stets eine verallgemeinerte n-dimensionale Diffusion. Sind die Koeffizienten σ und b unabh¨angig von t, so ist die L¨osung eine n-dimensionale Diffusion. 3
26.2 Schwache L¨osungen und Martingalproblem
561
Bemerkung 26.14. Offenbar wird durch jede starke L¨osung von (26.15) eine schwache L¨osung definiert. Die Umkehrung ist falsch, wie wir im folgenden Beispiel sehen werden. 3 Beispiel 26.15. Betrachte die SDGL (mit Startwert X0 = 0) dXt = sign(Xt ) dWt , wobei sign =
−
(0,∞)
die Vorzeichenfunktion ist. Es gilt genau dann
(−∞,0)
(26.17)
t
Xt = X 0 +
sign(Xs ) dWs
f¨ur alle t ≥ 0,
(26.18)
0
wenn
t
Wt =
dWs = 0
t
sign(Xs ) dXs
f¨ur alle t ≥ 0.
(26.19)
0
Folgendermaßen gelangen wir zu einer schwachen L¨osung von (26.17). Sei X eine Brown’sche Bewegung auf einem Wahrscheinlichkeitsraum (Ω, F , P) und F = σ(X). Definieren wir W durch (26.19), dann ist W ein stetiges F-Martingal mit quadratischer Variation W !t =
1
(sign(Xs ))2 ds = t. 0
Nach der L´evy’schen Charakterisierung (Satz 25.28) ist W damit eine Brown’sche Bewegung. Also ist ((X, W ), (Ω, F , P), F) eine schwache L¨osung von (26.3). Um zu zeigen, dass es keine starke L¨osung gibt, nehmen wir eine beliebige schwache L¨osung her und zeigen, dass X nicht an σ(W ) adaptiert ist. Da X nach (26.18) ein stetiges Martingal mit quadratischer Variation X!t = t ist, ist X eine Brown’sche Bewegung. Seien Fn ∈ C 2 (R) konvexe gerade Funktionen mit Ableitungen Fn und Fn , sodass n→∞ sup Fn (x) − |x| −→ 0, x∈R
|Fn (x)| ≤ 1 f¨ur alle x ∈ R und Fn (x) = sign(x) f¨ur |x| >
t
2 n→∞ Fn (Xs ) − sign(Xs ) ds −→ 0
1 n.
Insbesondere gilt
f.s.
0
und damit
0
t
Fn (Xs ) dXs −→
n→∞
t
sign(Xs ) dXs
in L2 .
(26.20)
0
Indem wir gegebenenfalls zu einer Teilfolge u¨ bergehen, k¨onnen wir annehmen, dass in (26.20) fast sichere Konvergenz gilt.
562
26 Stochastische Differentialgleichungen
Weil Fn gerade ist, gilt t t Wt = sign(Xs ) dXs = lim Fn (Xs ) dXs n→∞ 0 0 1 t = lim Fn (Xt ) − Fn (0) − F (Xs ) ds n→∞ 2 0 n 1 t = |Xt | − lim Fn (|Xs |) ds. n→∞ 2 0 Da die rechte Seite nur von |Xs |, s ∈ [0, t] abh¨angt, ist W an G := (σ(|Xs | : s ∈ [0, t])) adaptiert. Also ist σ(W ) ⊂ G σ(X), und damit ist X nicht an σ(W ) adaptiert. 3 Beispiel 26.16. Sei n ∈ N und B = (B 1 , . . . , B n ) eine n-dimensionale Brown’sche Bewegung mit Start in y ∈ Rn . Setze x := y2 , Xt := Bt 2 = (Bt1 )2 + . . . + (Btn )2 und n t 1 √ Bsi dBsi . Wt := X s 0 i=1 Dann ist W ein stetiges lokales Martingal mit W !t = t f¨ur jedes t ≥ 0 und t3 Xt = x + nt + Xs dWs . 0
√ Das heißt, (X, W ) ist eine schwache L¨osung der SDGL dXt = 2Xt dWt + n dt. X wird auch n-dimensionaler Bessel-Prozess genannt. Nach Satz 25.41 trifft B (und damit X) den Ursprung f¨ur ein t > 0 genau dann, wenn n = 1 ist. Offenbar kann man X auch f¨ur nicht-ganzzahlig n ≥ 0 definieren. Man kann zeigen, dass X genau dann die Null trifft, wenn n ≤ 1 ist. Vergleiche Beispiel 26.11. 3 F¨ur den Zusammenhang von Existenz und Eindeutigkeit von schwachen L¨osungen und starken L¨osungen zitieren hier lediglich den Satz von Yamada und Watanabe. Definition 26.17 (Pfadweise Eindeutigkeit). Wir sagen, dass die L¨osung der SDGL (26.15) mit Startverteilung μ pfadweise eindeutig ist, falls f¨ur jedes μ ∈ M1 (Rn ) und je zwei schwache L¨osungen (X, W ) und (X , W ) auf dem selben Raum (Ω, F, P) mit der selben Filtration F gilt: P[Xt = Xt f¨ur alle t ≥ 0] = 1. Satz 26.18 (Yamada und Watanabe). Es sind a¨ quivalent: (i) Die SDGL (26.15) hat eine eindeutige starke L¨osung. (ii) F¨ur jedes μ ∈ M1 (Rn ) hat (26.15) eine schwache L¨osung, und es gilt pfadweise Eindeutigkeit. Gelten (i) und (ii), so ist die L¨osung schwach eindeutig.
26.2 Schwache L¨osungen und Martingalproblem
Beweis. Siehe [161], [140, Seite 151ff] oder [78, Seite 163ff].
563
2
Beispiel 26.19. Sei X eine schwache L¨osung von (26.17). Dann ist auch −X eine schwache L¨osung, das heißt, es gilt keine pfadweise Eindeutigkeit (obwohl man zeigen kann, dass die L¨osung schwach eindeutig ist, siehe Satz 26.25). 3 Wir betrachten den eindimensionalen Fall m = n = 1. Ist X eine L¨osung (stark oder schwach) von (26.15), so ist t Mt := Xt − b(s, Xs ) ds 0
ein stetiges lokales Martingal mit quadratischer Variation M !t =
t
σ 2 (s, Xs ) ds. 0
Wir werden sehen, dass hierdurch eine schwache L¨osung von (26.15) charakterisiert ist (jedenfalls unter milden Wachstumsbedingungen and σ und b). Sei f¨ur alle t ≥ 0 und x ∈ Rn die n×n Matrix a(t, x) symmetrisch und nichtnegativ definit, und sei (t, x) → a(t, x) messbar. Definition 26.20. Wir sagen, dass ein n-dimensionaler stetiger Prozess X eine L¨osung des lokalen Martingalproblems zu a und b mit Startverteilung μ ∈ M1 (Rn ) (kurz: LMP(a, b, μ)) ist, falls P ◦ X0−1 = μ ist und f¨ur jedes i = 1, . . . , n Mti
:=
Xti
−
t
bi (s, Xs ) ds,
t ≥ 0,
0
ein stetiges lokales Martingal ist mit quadratischer Kovariation t aij (s, Xs ) ds f¨ur alle t ≥ 0, i, j = 1, . . . , n. M i , M j !t = 0
Wir sagen, dass die L¨osung von LMP(a, b, μ) eindeutig ist, wenn f¨ur je zwei L¨osungen X und X gilt: P ◦ X −1 = P ◦ (X )−1 . Mit σ T bezeichnen wir die transponierte Matrix zu σ. Offenbar ist a = σσ T dann eine nichtnegativ semidefinite symmetrische n × n Matrix. Satz 26.21. X ist genau dann eine L¨osung von LMP(σσ T , b, μ), wenn es (gegebenenfalls auf einer Erweiterung des Wahrscheinlichkeitsraums) eine Brown’sche Bewegung W gibt, sodass (X, W ) eine schwache L¨osung von (26.15) ist. Insbesondere existiert genau dann eine eindeutige schwache L¨osung der SDGL (26.15) mit Startverteilung μ, wenn LMP(σσ T , b, μ) eindeutig l¨osbar ist.
564
26 Stochastische Differentialgleichungen
Beweis. Wir zeigen die Aussage nur f¨ur den Fall m = n = 1. Der allgemeine Fall erfordert ein paar Betrachtungen u¨ ber Wurzeln von nichtnegativ semidefiniten symmetrischen Matrizen, die jedoch f¨ur die Stochastik keine tiefere Einsicht bringen. Wir verweisen hier lediglich auf [86, Proposition 5.4.6]. ⇐= “ Ist (X, W ) eine schwache L¨osung, dann l¨ost X nach Korollar 25.19 das ” lokale Martingalproblem. =⇒ “ Sei X eine L¨osung von LMP(σ 2 , b, μ). Nach Satz 25.29 existiert auf einer ” ˜ , sodass Erweiterung des Wahrscheinlichkeitsraums eine Brown’sche Bewegung W 0t ˜ Mt = 0 σ(s, Xs ) dWs gilt. Setzen wir t ˜ s, sign(σ(s, Xs )) dW Wt := 0
so ist Mt =
0t 0
σ(s, Xs ) dWs , also (X, W ) eine schwache L¨osung von (26.15). 2
Ein lokales Martingalproblem ist in gewissem Sinne eine sehr nat¨urliche Art und Weise, um eine stochastische Differentialgleichung zu schreiben, n¨amlich als: X hat lokal die Ableitung (Drift) b und zus¨atzlich zuf¨allige normalverteilte Fluktuationen von der Gr¨oßenordnung σ. Eine konkrete Brown’sche Bewegung taucht hier gar nicht mehr auf, und bei den meisten Problemen ist ihr Auftreten auch eher artifiziell. Genau wie man bei der ¨ Beschreibung von Markovketten meist nur die Ubergangswahrscheinlichkeiten angibt, nicht aber die konkrete Realisierung, wie dies etwa in Satz 17.17 beschrieben wird, m¨ochte man bei vielen stetigen (Zeit und Ort) Prozessen nur die Gr¨oße der Fluktuationen angeben, nicht aber eine konkrete Realisierung. Technisch gesehen ist die Formulierung von stochastischen Differentialgleichungen als lokale Martingalprobleme sehr bequem, weil sie Zugang zu einer Reihe von Techniken schafft wie Martingalungleichungen und Approximationss¨atze f¨ur Martingale, mit denen sich Existenz und Eindeutigkeit von L¨osungen etablieren l¨asst. Wir zitieren hier nur zwei wichtige Ergebnisse. Satz 26.22 (Existenz von L¨osungen). Es seien (t, x) → b(t, x) und (t, x) → a(t, x) stetig und beschr¨ankt. Dann existiert f¨ur jedes μ ∈ M1 (Rn ) eine L¨osung X des LMP(a, b, μ). Beweis. Siehe [140, Theorem V.23.5].
2
Definition 26.23. Wir sagen, dass das LMP(a, b) gut gestellt ist, wenn es f¨ur jedes x ∈ Rn eine eindeutige L¨osung X von LMP(a, b, δx ) gibt. Bemerkung 26.24. Erf¨ullen σ und b die Lipschitzbedingungen wie in Satz 26.8, so 3 ist das LMP(σσ T , b) gut gestellt. Dies folgt aus Satz 26.8 und Satz 26.18.
26.2 Schwache L¨osungen und Martingalproblem
565
Im Folgenden gelte stets: (t, x) → σ(t, x) bzw. (t, x) → a(t, x) ist beschr¨ankt auf kompakten Mengen. (26.21) ¨ Diese Bedingung sichert die Aquivalenz des lokalen Martingalproblems zu dem etwas gebr¨auchlicheren Martingalproblem (siehe [86, Proposition 5.4.11]). Satz 26.25 (Eindeutigkeit im Martingalproblem). Es gelte (26.21). F¨ur jedes x ∈ Rn existiere eine L¨osung X x von LMP(a, b, δx ), deren Verteilung wir mit Px := P ◦ (X x )−1 bezeichnen. F¨ur je zwei L¨osungen X x und Y x von LMP(a, b, δx ) gelte P ◦ (XTx )−1 = P ◦ (YTx )−1
f¨ur jedes T ≥ 0.
(26.22)
Dann ist LMP(a, b) gut gestellt, und der kanonische Prozess X ist ein starker Markovprozess bez¨uglich (Px , x ∈ Rn ). Ist a = σσ T , so ist X unter Px die eindeutige schwache L¨osung der SDGL (26.15). Beweis. Siehe [48, Theorem 4.4.1 und Problem 49] und [86, Proposition 5.4.11].2 Eine wesentliche St¨arke dieses Satzes liegt darin, dass wir die Eindeutigkeit nicht des gesamten Prozesses, sondern in (26.22) nur der eindimensionalen Randverteilungen pr¨ufen m¨ussen. Wir werden in Abschnitt 26.3 Beispiele daf¨ur angeben, wie dies ausgenutzt werden kann. Die Frage nach der Existenz von L¨osungen einer stochastischen Differentialgleichung (oder a¨ quivalent: eines lokalen Martingalproblems) ist leichter zu beantworten als die Frage nach der Eindeutigkeit von L¨osungen. Wir wissen bereits, dass Eindeutigkeit unter Lipschitzbedingungen an die Koeffizienten b und σ (nicht σσT !) gilt (nach Satz 26.8 und Satz 26.18), da hier starke Eindeutigkeit der L¨osungen gilt. Eine vielleicht auf den ersten Blick verwirrende Erkenntnis ist, dass der Zufall stabilisierend wirken kann, dass also eine deterministische Differentialgleichung, deren L¨osung nicht eindeutig ist, durch stochastische St¨orterme eindeutig l¨osbar werden kann. Dazu folgendes eindimensionale Beispiel: dXt = sign(Xt ) |Xt |1/3 dt + σ dWt , X0 = 0.
(26.23)
Ist σ = 0, so haben wir es mit einer deterministischen Differentialgleichung zu tun, die ein Kontinuum √ von L¨osungen mit Parametern v ∈ {−1, +1} und T ≥ 0 hat, n¨amlich Xt = v 2 2 (t − T )3/2 {t>T } . Ist σ > 0, so wird die Instabilit¨at der Gleichung (26.23) an x = 0 durch Verrauschen aufgel¨ost. Wir zitieren hier den folgenden Satz f¨ur den zeitunabh¨angigen Fall aus [140, Satz V.24.1] (siehe auch [149, Kapitel 10]).
566
26 Stochastische Differentialgleichungen
Satz 26.26 (Stroock-Varadhan). Sei aij : Rn → R stetig und bi : Rn → R messbar f¨ur i, j = 1, . . . , n. Es gelte (i) a(x) = (aij (x)) ist symmetrisch und strikt positiv definit f¨ur jedes x ∈ Rn , (ii) es gibt ein C < ∞, sodass f¨ur alle x ∈ Rn
aij (x) ≤ C 1 + x2 und
und i, j = 1, . . . , n gilt
bi (x) ≤ C 1 + x .
Dann ist LMP(a, b) gut gestellt, und die SDGL (26.15) hat eine eindeutige starke L¨osung, die ein starker Markovprozess ist. Die L¨osung X hat die starke FellerEigenschaft: x → Ex [f (Xt )] ist stetig f¨ur jedes t > 0 und jedes beschr¨ankte, messbare f : Rn → R. Konkrete Beispiele geben wir in Abschnitt 26.3 an. Wir wollen hier nur festhalten, dass wir eine spezielle Methode entwickelt haben, um Markovprozesse zu konstruieren, n¨amlich als L¨osung einer stochastischen Differentialgleichung oder eines lokalen Martingalproblems. Im Rahmen von Modellen in diskreter Zeit haben wir in ¨ Kapitel 17.2 und speziell in Ubung 17.2.1 bereits Markovketten als L¨osungen von Martingalproblemen charakterisiert. Dass dort die Angabe der Drift und der quadratischen Variation ausreichte, um den Prozess eindeutig zu bestimmen, lag daran, dass wir die M¨oglichkeiten f¨ur das Ziel eines Schrittes auf drei Punkte begrenzt hatten. Hier hingegen ist die entscheidende Begrenzung die Stetigkeit der Prozesse. ¨ Ubung 26.2.1. Sei der zeithomogene eindimensionale Fall (m = n = 1) betrachtet. Seien σ und b so, dass es f¨ur jedes X0 ∈ R eine eindeutige schwache L¨osung von dXt = σ(Xt ) dWt + b(Xt ) dt existiert und ein starker Markovprozess ist. Ferner gebe es ein x0 ∈ R mit x ∞ 1 2b(r) exp dr dr < ∞. C := 2 2 −∞ σ (x) x0 σ (r) (i) Man zeige: Das Maß π ∈ M1 (R) mit Dichte x π(dx) 1 2b(r) = C −1 2 exp dr 2 dx σ (x) x0 σ (r) ist eine invariante Verteilung f¨ur X. (ii) F¨ur welche Werte von b hat der Ornstein-Uhlenbeck Prozess dXt = σ dWt + bXt dt eine invariante Verteilung? Man bestimme diese Verteilung und vergleiche das Ergebnis mit dem, was nach expliziter Rechnung mit der Darstellung in (26.3) zu erwarten war. (iii) Man bestimme die invariante Verteilung der Cox-Ingersoll-Ross SDGL (26.14) (alias Feller’sche Verzweigungsdiffusion).
26.3 Eindeutigkeit schwacher L¨osungen via Dualit¨at
567
(iv) Seien γ, c > 0 und θ ∈ (0, 1). Man zeige, dass die invariante Verteilung der L¨osung X der folgenden SDGL auf [0, 1] 3 dXt = γXt (1 − Xt ) dWt + c(θ − Xt ) dt gegeben ist durch die Betaverteilung β2cγ/θ, 2cγ/(1−θ) .
♣
3 ¨ Ubung 26.2.2. Sei γ > 0. Seien X 1 und X 2 L¨osungen von dXti = γXti dWti , wo W 1 und W 2 zwei unabh¨angige Brown’sche Bewegungen sind, mit Startwerten Man zeige, dass Z := X 1 + X 2 eine schwache X01 = x10 > 0 und X02 = x20 > 0. √ L¨osung ist von Z0 = 0 und dZt = γZt dWt . ♣
26.3 Eindeutigkeit schwacher L¨osungen via Dualit¨at Mit dem Satz von Stroock und Varadhan haben wir ein starkes Kriterium f¨ur die Existenz und Eindeutigkeit von L¨osungen von stochastischen Differentialgleichungen. In vielen F¨allen ist jedoch gerade die Bedingung der lokal gleichgradigen Elliptizit¨at von a (Bedingung (i) in Satz 26.26) nicht erf¨ullt. Dies trifft insbesondere dann zu, wenn die L¨osungen nur auf Teilmengen von Rn definiert sind. Wir werden hier ein m¨achtiges Hilfsmittel kennen lernen, das in vielen Spezialf¨allen schwache Eindeutigkeit von L¨osungen sichert. Definition 26.27 (Dualit¨at). Seien X = (X x , x ∈ E) und Y = (Y y , y ∈ E ) Familien von stochastischen Prozessen mit Werten in den R¨aumen E beziehungsweise E und so, dass X0x = x f.s. und Y0y = y f.s. f¨ur alle x ∈ E und y ∈ E . Wir sagen, dass X und Y dual zueinander sind mit Dualit¨atsfunktion H) : E × E → * C, x und t ≥ 0 die Erwartungswerte E H(X , y) und falls f¨ u r alle x ∈ E, y ∈ E t * ) E H(x, Yty ) existieren und gleich sind: ) * ) * E H(Xtx , y) = E H(x, Yty ) . Wir nehmen im Folgenden an, dass σij : Rn → R und bi : Rn → R beschr¨ankt auf kompakten Mengen sind f¨ur alle i = 1, . . . , n, j = 1, . . . , m. Wir betrachten die zeithomogene stochastische Differentialgleichung dXt = σ(Xt ) dWt + b(Xt ) dt.
(26.24)
Satz 26.28 (Eindeutigkeit via Dualit¨at). F¨ur jedes x ∈ Rn existiere eine L¨osung des lokalen Martingalproblems zu (σσ T , b, δx ). Es gebe eine Familie (Y y , y ∈ E ) von Markovprozessen mit Werten in dem Messraum (E , E ) und eine messbare Abbildung H : Rn × E → C, sodass f¨ur jedes y ∈ E , x ∈ Rn und t ≥ 0 der Erwartungswert E[H(x, Yty )] existiert und endlich ist. Ferner sei (H( · , y), y ∈ E ) eine trennende Funktionenklasse f¨ur M1 (Rn ) (siehe Definition 13.9).
568
26 Stochastische Differentialgleichungen
F¨ur jedes x ∈ Rn und jede L¨osung X x von LMP(σσ T , b, δx ) gelte die Dualit¨atsgleichung E[H(Xtx , y)] = E[H(x, Yty )]
f¨ur alle y ∈ E , t ≥ 0.
(26.25)
Dann ist das lokale Martingalproblem zu (σσ T , b) gut gestellt, also besitzt (26.24) eine eindeutige schwache L¨osung und diese ist ein starker Markovprozess. Beweis. Nach Satz 26.25 reicht es zu pr¨ufen, dass f¨ur jedes x ∈ Rn , jede L¨osung X x von LMP(σσ T , b, δx ) und jedes t ≥ 0 die Verteilung P ◦ (Xtx )−1 eindeutig ist. Da (H( · , y), y ∈ E ) eine trennende Funktionenklasse ist, folgt dies aber aus (26.16). 2 Beispiel 26.29 (Wright-Fisher Diffusion). Betrachte die Wright-Fisher SDGL 3 (26.26) dXt = [0,1] (Xt ) γ Xt (1 − Xt ) dWt , wobei γ > 0 ein Parameter ist. Nach Satz 26.22 existiert f¨ur jedes x ∈ R eine ˜ W ) von (26.26). X ˜ ist ein stetiges lokales Martingal mit schwache L¨osung (X, quadratischer Variation t : ; ˜ ˜ s (1 − X ˜ s ) [0,1] (X ˜ s ) ds. X t= γX 0
1
0.8
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
1.2
Abb. 26.3. Simulation einer Wright-Fisher Diffusion mit Parameter γ = 1.
˜ t ∈ [0, 1]} und X := X ˜ τ der in τ gestoppte Prozess. Dann Sei τ := inf{t > 0 : X ist X ein stetiges, beschr¨anktes Martingal mit t γXs (1 − Xs ) [0,1] (Xs ) ds, X!t = 0
26.3 Eindeutigkeit schwacher L¨osungen via Dualit¨at
569
also ist (X, W ) eine L¨osung von (26.26). Nach Konstruktion ist Xt ∈ [0, 1] f¨ur alle ˜ 0 ∈ [0, 1] ist. t ≥ 0, falls X0 = X ˜ 0 ∈ [0, 1], so ist τ > 0, weil X ˜ stetig ist. ˜ t ∈ [0, 1]}. Ist X Sei τ := inf{t > 0 : X : ; ˜ τ ein stetiges lokales Martingal ist mit X ˜ tτ = X ˜ τ ≡ 0, ist X ˜ 0 f¨ur alle Weil X ˜ ˜ t ≥ 0. Daraus folgt aber, dass Xt = X0 ist f¨ur alle t < τ . Wiederum aufgrund der ˜t = X ˜ folgt, dass τ = ∞ ist und X ˜ 0 f¨ur alle t ≥ 0. Stetigkeit von X ˜ 0 = x ∈ [0, 1] zu zeigen. Sei Es reicht also, die Eindeutigkeit der L¨osung f¨ur X hierzu Y = (Yt )t≥0 der Markovprozess auf N mit Q-Matrix ⎧
m ⎪ ⎨ γ 2 , falls n = m − 1, q(m, n) = −γ m falls n = m, 2 , ⎪ ⎩ 0, sonst. Wir zeigen die Dualit¨at von X und Y bez¨uglich H(x, n) = xn : ) * ) * Ex Xtn = En xNt f¨ur alle t ≥ 0, x ∈ [0, 1], n ∈ N. (26.27) ) * ) * Setze mx,n (t) = Ex Xtn und g x,n (t) = En xNt . Nach der Itˆo-Formel ist Xtn − xn −
t
γ 0
t 3 n Xsn−1 (1 − Xs ) ds = nXsn−1 γ Xs (1 − Xs ) dWs 2 0
ein Martingal. Indem wir Erwartungswerte bilden, erhalten wir die folgende Rekursionsgleichung f¨ur die Momente von X mx,1 (t) = x mx,n (t) = xn + γ
t
x,n−1 n m (s) − mx,n (s) ds. 2 0
(26.28)
Dieses System linearer Differentialgleichungen ist offenbar eindeutig rekursiv (in n) l¨osbar. F¨ur h > 0 und t ≥ 0 gilt wegen der Markov-Eigenschaft von Y ) * ) ) ** g x,n (t + h) = En xYt+h = En EYh xYt n ) * = Pn [Yh = m] Em xYt =
m=1 n m=1
Pn [Yh = m] g x,m (t).
570
26 Stochastische Differentialgleichungen
Es folgt ' ( d x,n g (t) = lim h−1 g x,n (t + h) − g x,n (t) h↓0 dt n
= lim h−1 Pn [Yh = m] g x,m (t) − g x,n (t) h↓0
=
m=1
n
q(n, m) g
(26.29) x,m
(t)
m=1
n =γ g x,n−1 (t) − g x,n (t) . 2 Offenbar ist g x,1 (t) = x f¨ur alle x ∈ [0, 1] und t ≥ 0 und g x,n (0) = xn . Das heißt, g x,n l¨ost (26.28), und daher gilt (26.27). Nach Satz 15.4 ist die Familie (H( · , n), n ∈ N) ⊂ C([0, 1]) trennend f¨ur M1 ([0, 1]), also sind die Bedingungen von Satz 26.28 erf¨ullt, und X ist die eindeutige schwache L¨osung von (26.26) und ist ein starker Markovprozess. 3 Bemerkung 26.30. Das Martingalproblem f¨ur die Wright-Fisher Diffusion sieht fast genauso aus wie das diskrete Martingalproblem f¨ur das Moran-Modell (siehe Beispiel 17.22) M N = (MnN )n∈N0 mit Populationsgr¨oße N : M N ist ein Martingal mit Werten in der Menge {0, 1/N, . . . , (N − 1)/N, 1} quadratischem Variationsprozess n−1 : N; 2 N Mk 1 − MkN . M n= 2 N k=0
N
In jedem Schritt kann M nur entweder am Ort bleiben oder um 1/N nach oben ¨ oder unten springen. In Ubung 17.2.1 hatten wir gesehen, dass dadurch der Prozess M N schon eindeutig beschrieben ist. Man kann zeigen, a¨ hnlich wie in Satz 21.51 ˜ tN = f¨ur Verzweigungsprozesse, dass die zeitlich reskalierten Moran-Prozesse M N MN 2 t gegen die Wright-Fisher Diffusion mit γ = 2 konvergieren. Die WrightFisher Diffusion tritt also als Limes-Modell eines genealogischen Modells auf und beschreibt die Genfrequenz (das heißt, den relativen Anteil) eines bestimmten Allels in einer Population, die durch die Generationenfolge in zuf¨alliger Weise fluktuiert. 3 Beispiel 26.31 (Feller’sche Verzweigungsdiffusion). Sei (ZnN )n∈N0 ein GaltonWatson Verzweigungsprozess mit kritischer, geometrischer Nachkommenverteilung pk = 2−k−1 , k ∈ N0 und Z0N = N f¨ur jedes N ∈ N. Dann ist Z N ein diskretes Martingal, und es gilt ∞ ' 2 N ( N N N E ZnN − Zn−1 pk k 2 − 1 = 2 Zn−1 . Zn−1 = Zn−1 k=0
26.3 Eindeutigkeit schwacher L¨osungen via Dualit¨at
571
3
2
1
0
1
2
3
4
5
Abb. 26.4. Simulation einer Feller’schen Verzweigungsdiffusion mit Parameter γ = 1.
Daher hat Z N die quadratische Variation n−1
Z N !n =
2ZkN .
k=0
Sei nun
1
N N ZN ZtN := t − N −1 tN ZtN +1 − ZtN + n tN
N eine linear interpolierte Version von N −1 ZtN . Nach dem Satz von Lindvall N →∞
(Satz 21.51) gibt es einen stetigen Markovprozess Z, sodass Z N −→ Z in Verteilung gilt. Da man zeigen kann, dass auch die Momente konvergieren, gilt, dass Z ein stetiges Martingal ist und quadratische Variation Z!t =
t
2Zs ds 0
hat. Tats¨achlich hatten wir in Beispiel 26.11 bereits gezeigt, dass Z die L¨osung der SDGL 3 (26.30) dZt = 2Zt dWt mit Start in Z0 = 1 ist. Dort hatten wir auch gezeigt, dass Z dual ist zu Yty = −1 tγ 1 mit H(x, y) = e−xy . Hieraus folgt die Eindeutigkeit der L¨osung von 2 + y (26.30) und die starke Markoveigenschaft von Z.
3
Man kann einwenden, dass in den Beispielen 26.29 und 26.31 nur eindimensionale Situationen betrachtet wurden, f¨ur die wir nach dem Satz von YamadaWatanabe (Satz 26.10) sowieso schon um die Eindeutigkeit sogar einer starken
572
26 Stochastische Differentialgleichungen
L¨osung wissen. Die wahre St¨arke der Methode der Dualit¨at kann sich also erst in h¨oherdimensionalen Problemen entfalten. Hierzu betrachten wir als Beispiel eine Erweiterung von Beispiel 26.29. Beispiel 26.32 (Wechselwirkende Wright-Fisher Diffusionen). Die Wright-Fisher Diffusion aus Beispiel 26.29 beschreibt die Fluktuationen der Genfrequenz eines Allels in einer großen Population. Wir wollen nun mehrere Populationen betrachten, die auf den Punkten i ∈ S := {1, . . . , N } leben, und miteinander durch Migration, die durch Wechselwirkungsraten r(i, j) ≥ 0 quantifiziert wird, in Wechselwirkung stehen. Als Modell f¨ur die Genfrequenzen Xt (i) am Ort i zur Zeit t stellen wir daher die folgende N -dimensionale SDGL f¨ur X = (X(1), . . . , X(N )) auf: dXt (i) =
N 3
γ Xt (i)(1 − Xt (i)) dWti + r(i, j) Xt (j) − Xt (i) dt. (26.31) j=1
Dabei ist W = (W 1 , . . . , W N ) eine N -dimensionale Brown’sche Bewegung. Diese SDGL hat nach Satz 26.22 schwache L¨osungen, jedoch greift keines unserer allgemeinen Kriterien f¨ur schwache Eindeutigkeit. Wir werden daher die schwache Eindeutigkeit vermittels Dualit¨at zeigen. Es ist, a¨ hnlich wie in Beispiel 26.29, nicht schwer zu zeigen, dass L¨osungen von (26.31), die in X0 = x ∈ E := [0, 1]S starten, in [0, 1]S bleiben. Die Diagonalterme r(i, i) tauchen in (26.31) nicht auf, daher k¨onnen wir sie noch beliebig festsetzen und w¨ahlen r(i, i) = − j =i r(i, j). Sei Y = (Yt )t≥0 der Markovprozess auf E := S N0 mit der folgenden Q-Matrix ⎧ ϕ(i) r(i, j), falls η = ϕ − {i} + {j} f¨ur ⎪ ⎪ ⎪ ⎪ gewisse i, j ∈ S, i = j, ⎪ ⎪ ⎪
ϕ(i) ⎨ γ 2 , falls η = ϕ − {i} f¨ur ein i ∈ S, q(ϕ, η) = ⎪
⎪ ϕ(i) ⎪ ⎪ , falls η = ϕ, ϕ(i)r(i, i) − γ ⎪ 2 ⎪ ⎪ ⎩i∈S 0, sonst. Dabei bezeichnet ϕ ∈ E einen generischen Zustand mit ϕ(i) Teilchen am Ort i ∈ S, und {i} ∈ E bezeichnet den Zustand mit genau einem Teilchen am Ort i. Der Prozess Y beschreibt ein System von Teilchen, die unabh¨angig voneinander mit Rate r(i, j) vom Ort i zum Ort j springen. Sind mehrere Teilchen an einem Ort
Paare von Teilchen mit der selben Rate γ zu einem i, so verschmilzt jedes der ϕ(i) 2 Teilchen. Die g¨angige genealogische Interpretation dieses Prozesses ist, dass er (in umgekehrter Zeit) die Ahnenlinien einer Stichprobe von je Y0 (i) Individuen ein den Orten i ∈ S, beschreibt. Durch Migration wechseln die Linien den Ort. Haben zwei Individuen den selben Vorfahren, so verschmelzen zwei Linien. Offenbar ist f¨ur einen gemeinsamen Vorfahren notwendig aber nicht hinreichend, dass beide Linien am selben Ort sind.
26.3 Eindeutigkeit schwacher L¨osungen via Dualit¨at
573
F¨ur x ∈ Rn und ϕ ∈ E schreiben wir xϕ := i∈S x(i)ϕ(i) . Wir zeigen, dass X und Y dual zueinander sind mit der Dualit¨atsfunktion H(x, ϕ) = xϕ : f¨ur alle ϕ ∈ S N0 , x ∈ [0, 1]S , t ≥ 0.
Ex [Xtϕ ] = Eϕ [xYt ]
(26.32)
Sei mx,ϕ (t) := Ex [Xtϕ ] und g x,ϕ (t) := Eϕ [xYt ]. Offenbar hat H die Ableitungen
ϕ−2 {i} . Nach der ∂i H( · , ϕ)(x) = ϕ(i)xϕ− {i} und ∂i ∂i H( · , ϕ)(x) = 2 ϕ(i) 2 x Itˆo-Formel ist t
ϕ− ϕ(i)r(i, j) Xs (j) − Xs (i) Xt {i} ds Xtϕ − X0ϕ − 0 i,j∈S
−
i∈S
0
t
ϕ−2 ϕ(i) Xs (i)(1 − Xs (i)) Xs γ 2
{i}
ds
ein Martingal. Indem wir Erwartungswerte bilden, erhalten wir ein System von linearen Integralgleichungen mx,0 (t) = 1
t
mx,ϕ (t) = xϕ +
0 i,j∈S t
γ
+ 0
ϕ(i)r(i, j) mx,ϕ+
ϕ(i) i∈S
2
mx,ϕ−
{j} − {i}
(s) − mx,ϕ (s) ds
(26.33)
{i} (s) − mx,ϕ (s) ds.
Dieses System von Gleichungen l¨asst sich per Induktion u¨ ber n = i∈I ϕ(i) eindeutig l¨osen. Wir wollen die L¨osung jedoch nicht explizit ausrechnen, sondern nur zeigen, dass sie mit g x,ϕ (t) u¨ bereinstimmt, indem wir zeigen, dass g ein a¨ quivalentes System von Differentialgleichungen l¨ost. F¨ur g erhalten wir wie in (26.29) d x,ϕ g (t) = q(ϕ, η) g x,ϕ (t) dt η∈E = r(i, j) g x,ϕ+ {j} −
{i}
i,j∈S
ϕ(i) g x,ϕ− + γ 2
{i}
(t) − g x,ϕ (t)
(26.34)
(t) − g x,ϕ (t) .
i∈S
Zusammen mit dem Startwert g x,0 (t) = 1 und g x,ϕ (0) = xϕ ist das System (26.34) von Differentialgleichungen a¨ quivalent zu (26.33). Also gilt die Dualit¨at (26.32), und damit ist die SDGL (26.31) eindeutig schwach l¨osbar. (Tats¨achlich kann man zeigen, dass es eine eindeutige starke L¨osung gibt, sogar wenn S abz¨ahlbar unendlich ist und r gewisse Regularit¨atsannahmen erf¨ullt, beispielsweise die Q-Matrix 3 einer Irrfahrt auf S = Zd ist, siehe [144].)
574
26 Stochastische Differentialgleichungen
¨ Ubung 26.3.1 (Aussterbewahrscheinlichkeit der Feller’schen Verzweigungsdif√ fusion). Sei γ > 0 und Z die L¨osung von dZt := γZt dWt mit Anfangswert Z0 = z > 0. Man zeige mit Hilfe der Dualit¨at 2z Pz [Zt = 0] = exp − . (26.35) γt Man bestimme mit Hilfe von Lemma 21.44 die Wahrscheinlichkeit, dass ein GaltonWatson Verzweigungsprozess X mit kritischer, geometrischer Nachkommenverteilung und X0 = N ∈ N bis zur Zeit n ∈ N ausgestorben ist und vergleiche das Ergebnis mit (26.35). ♣
Literatur
1. M. Aizenman, H. Kesten und C. M. Newman. Uniqueness of the infinite cluster and continuity of connectivity functions for short and long range percolation. Comm. Math. Phys., 111(4):505–531, 1987. 2. M. Aizenman, H. Kesten und C. M. Newman. Uniqueness of the infinite cluster and related results in percolation. In Percolation theory and ergodic theory of infinite particle systems (Minneapolis, Minn., 1984–1985), volume 8 of IMA Vol. Math. Appl., pages 13–20. Springer, New York, 1987. ´ 3. David J. Aldous. Exchangeability and related topics. In Ecole d’´et´e de probabilit´es de Saint-Flour, XIII—1983, volume 1117 of Lecture Notes in Math., pages 1–198. Springer, Berlin, 1985. 4. Krishna B. Athreya und Peter E. Ney. Branching Processes. Springer-Verlag, Berlin, 1972. 5. Jacques Az´ema und Marc Yor. Le probl`eme de Skorokhod: compl´ements a` “Une solution simple au probl`eme de Skorokhod”. In S´eminaire de Probabilit´es, XIII (Univ. Strasbourg, Strasbourg, 1977/78), volume 721 of Lecture Notes in Math., pages 625– 633. Springer, Berlin, 1979. 6. Jacques Az´ema und Marc Yor. Une solution simple au probl`eme de Skorokhod. In S´eminaire de Probabilit´es, XIII (Univ. Strasbourg, Strasbourg, 1977/78), volume 721 of Lecture Notes in Math., pages 90–115. Springer, Berlin, 1979. 7. Martin Barner und Friedrich Flohr. Analysis. II. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin, 2. Auflage, 1989. 8. Martin Barner und Friedrich Flohr. Analysis. I. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin, 4. Auflage, 1991. 9. Heinz Bauer. Maß - und Integrationstheorie. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin, 2. Auflage, 1992. 10. Heinz Bauer. Wahrscheinlichkeitstheorie. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin, 5. Auflage, 2002. 11. Leonard E. Baum und Melvin Katz. Convergence rates in the law of large numbers. Trans. Amer. Math. Soc., 120:108–123, 1965. 12. M Baxter und R. Rennie. Financial Calculus. Cambridge University Press, Cambridge, 1997. 13. Andrew C. Berry. The accuracy of the gaussian approximation to the sum of independent variates. Trans. Amer. Math. Soc., 49:122–136, 1941. 14. Patrick Billingsley. Convergence of probability measures. John Wiley & Sons Inc., New York, 1968. 15. Patrick Billingsley. Weak convergence of measures: Applications in probability. Society for Industrial and Applied Mathematics, Philadelphia, Pa., 1971. Conference Board of the Mathematical Sciences Regional Conference Series in Appl. Mathematics, No. 5.
576
Literatur
16. Patrick Billingsley. Probability and measure. Wiley Series in Probability and Mathematical Statistics. John Wiley & Sons Inc., New York, 3. Auflage, 1995. A WileyInterscience Publication. 17. Patrick Billingsley. Convergence of probability measures. Wiley Series in Probability and Statistics: Probability and Statistics. John Wiley & Sons Inc., New York, 2. Auflage, 1999. A Wiley-Interscience Publication. 18. K. Binder und D. W. Heermann. Monte Carlo simulation in statistical physics, An introduction, volume 80 of Springer Series in Solid-State Sciences. Springer-Verlag, Berlin, 3. Auflage, 1997. 19. R. M. Blumenthal. An extended Markov property. Trans. Amer. Math. Soc., 85:52–72, 1957. 20. Salomon Bochner. Vorlesungen u¨ ber Fouriersche Integrale. Chelsea Publishing Company, New York, 1932. Nachdruck von 1948. 21. Leo Breiman. Probability. Addison-Wesley Publishing Company, Reading, Mass., 1968. 22. Brockhaus. Die Enzyklop¨adie in 24 B¨anden. F.A. Brockhaus, Mannheim, 20. Auflage, 1998. 23. J¨org Br¨udern. Einf¨uhrung in die analytische Zahlentheorie. Springer-Verlag, Berlin Heidelberg, 1995. 24. Dirk Br¨uggemann. Starke Gesetze der großen Zahlen bei blockweisen Unabh¨angigkeitsbedingungen. Dissertation, Universit¨at zu K¨oln, 2002. 25. R. M. Burton und M. Keane. Density and uniqueness in percolation. Comm. Math. Phys., 121(3):501–505, 1989. 26. Gustave Choquet und Jacques Deny. Sur l’´equation de convolution μ = μ ∗ σ. C. R. Acad. Sci. Paris, 250:799–801, 1960. 27. Yuan Shih Chow und Henry Teicher. Probability theory: Independence, interchangeability, martingales. Springer Texts in Statistics. Springer-Verlag, New York, 3. Auflage, 1997. 28. K. L. Chung und W. H. J. Fuchs. On the distribution of values of sums of random variables. Mem. Amer. Math. Soc., 1951(6):12, 1951. 29. Peter Clifford und Aidan Sudbury. A model for spatial conflict. Biometrika, 60:581– 588, 1973. 30. Harald Cram´er. Sur un nouveau th´eor`eme-limite de la th´eorie des probabilit´es. Actualit´es Scientifiques et Industrielles, 763:5–23, 1938. Colloque consacr´e a` la th´eorie des probabilit´es. 31. Freddy Delbaen und Walter Schachermayer. A general version of the fundamental theorem of asset pricing. Math. Ann., 300(3):463–520, 1994. 32. Amir Dembo und Ofer Zeitouni. Large deviations techniques and applications, volume 38 of Applications of Mathematics (New York). Springer-Verlag, New York, 2. Auflage, 1998. 33. Jean-Dominique Deuschel und Daniel W. Stroock. Large deviations, volume 137 of Pure and Applied Mathematics. Academic Press Inc., Boston, MA, 1989. 34. J. Dieudonn´e. Foundations of Modern Analysis, volume X of Pure and Applied Mathematics. Academic Press, New York und London, 1960. 35. Monroe D. Donsker. An invariance principle for certain probability limit theorems. Mem. Amer. Math. Soc.,, 1951(6):12, 1951. 36. Peter G. Doyle und J. Laurie Snell. Random walks and electric networks, volume 22 of Carus Mathematical Monographs. Mathematical Association of America, Washington, DC, 1984.
Literatur
577
37. R. M. Dudley. Real analysis and probability, volume 74 of Cambridge Studies in Advanced Mathematics. Cambridge University Press, Cambridge, 2002. Revidierter Nachdruck der Originalausgabe von 1989. 38. Richard Durrett. Probability: theory and examples. Duxbury Press, Belmont, CA, 2. Auflage, 1996. 39. Aryeh Dvoretzky, Paul Erd˝os und Shizuo Kakutani. Nonincrease everywhere of the Brownian motion process. In Proc. 4th Berkeley Sympos. Math. Statist. and Prob., Vol. II, pages 103–116. Univ. California Press, Berkeley, Calif., 1961. 40. Dmitri Egoroff. Sur les suites des fonctions measurables. C. R. Acad. Sci, Paris, 152:135–157, 1911. 41. Robert J. Elliott und P. Ekkehard Kopp. Mathematics of financial markets. Springer Finance. Springer-Verlag, New York, 1999. 42. Richard S. Ellis. Entropy, large deviations, and statistical mechanics, volume 271 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, New York, 1985. 43. J¨urgen Elstrodt. Maß- und Integrationstheorie. Springer-Verlag, New York, 3. Auflage, 1999. 44. P. Erd˝os und R. L. Graham. On a linear diophantine problem of Frobenius. Acta Arith., 21:399–408, 1972. 45. Carl-Gustav Esseen. On the liapounoff limit of error in the theory of probability. Ark. Mat. Astr. och Fys., 28A(9):1–19, 1942. 46. Nasrollah Etemadi. An elementary proof of the strong law of large numbers. Z. Wahrsch. Verw. Gebiete, 55(1):119–122, 1981. 47. Alison Etheridge. A course in financial calculus. Cambridge University Press, Cambridge, 2002. 48. Stewart N. Ethier und Thomas G. Kurtz. Markov processes, Characterization and convergence. Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical Statistics. John Wiley & Sons Inc., New York, 1986. 49. Steven N. Evans und Xiaowen Zhou. Identifiability of exchangeable sequences with identically distributed partial sums. Electron. Comm. Probab., 4:9–13 (electronic), 1999. ¨ 50. William Feller. Uber den zentralen Grenzwertsatz der Wahrscheinlichkeitstheorie I. Mathematische Zeitschrift, 40:521–559, 1935. ¨ 51. William Feller. Uber den zentralen Grenzwertsatz der Wahrscheinlichkeitstheorie II. Mathematische Zeitschrift, 42:301–312, 1937. 52. William Feller. An introduction to probability theory and its applications. Vol. I. John Wiley & Sons Inc., New York, 3. Auflage, 1968. 53. William Feller. An introduction to probability theory and its applications. Vol. II. John Wiley & Sons Inc., New York, 2. Auflage, 1971. 54. James Allen Fill. An interruptible algorithm for perfect sampling via Markov chains. Ann. Appl. Probab., 8(1):131–162, 1998. 55. James Allen Fill, Motoya Machida, Duncan J. Murdoch und Jeffrey S. Rosenthal. Extension of Fill’s perfect rejection sampling algorithm to general chains. In Proceedings of the Ninth International Conference “Random Structures and Algorithms” (Poznan, 1999), volume 17, pages 290–316, 2000. 56. Hans F¨ollmer und Alexander Schied. Stochastic finance, volume 27 of de Gruyter Studies in Mathematics. Walter de Gruyter & Co., Berlin, 2002. 57. Peter G¨anssler und Winfried Stute. Wahrscheinlichkeitstheorie. Springer-Verlag, Berlin, 1977. 58. Hans-Otto Georgii. Stochastik. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin, 2003.
578
Literatur
59. Alison L. Gibbs und Francis Edward Su. On choosing and bounding probability metrics. International Statistical Review, 70(3):419–435, 2002. 60. M. L. Glasser und I. J. Zucker. Extended Watson integrals for the cubic lattices. Proc. Nat. Acad. Sci. U.S.A., 74(5):1800–1801, 1977. 61. B. V. Gnedenko und A. N. Kolmogorov. Limit distributions for sums of independent random variables. Addison-Wesley Publishing Co., Reading, Mass.-London-Don Mills., Ont., 1968. 62. Geoffrey Grimmett. Percolation, volume 321 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, Berlin, 2. Auflage, 1999. 63. Geoffrey R. Grimmett und David R. Stirzaker. Probability and random processes. Oxford University Press, New York, 3. Auflage, 2001. 64. E. Grosswald. The Student t-distribution of any degree of freedom is infinitely divisible. Z. Wahrscheinlichkeitstheorie und Verw. Gebiete, 36(2):103–109, 1976. 65. Olle H¨aggstr¨om. Finite Markov chains and algorithmic applications, volume 52 of London Mathematical Society Student Texts. Cambridge University Press, Cambridge, 2002. 66. Takashi Hara und Gordon Slade. Mean-field critical behaviour for percolation in high dimensions. Comm. Math. Phys., 128(2):333–391, 1990. 67. J. Michael Harrison und Stanley R. Pliska. Martingales and stochastic integrals in the theory of continuous trading. Stochastic Process. Appl., 11(3):215–260, 1981. 68. Philip Hartman und Aurel Wintner. On the law of the iterated logarithm. Amer. J. Math., 63:169–176, 1941. 69. W.K. Hastings. Monte Carlo sampling methods using Markov chains and their applications. Biometrika, 57:97–109, 1970. 70. Edwin Hewitt und Kenneth A. Ross. Abstract harmonic analysis. Vol. II: Structure and analysis for compact groups. Analysis on locally compact Abelian groups. Die Grundlehren der mathematischen Wissenschaften, Band 152. Springer-Verlag, New York, 1970. 71. Edwin Hewitt und Leonard J. Savage. Symmetric measures on Cartesian products. Trans. Math. Soc., 80:470–501, 1955. 72. C.C. Heyde. On a property of the lognormal distribution. J. Royal Stat. Soc. B, 29:392– 393, 1963. 73. Friedrich Hirzebruch und Winfried Scharlau. Einf¨uhrung in die Funktionalanalysis. Bibliographisches Institut, Mannheim, 1971. B. I.-Hochschultaschenb¨ucher, No. 296. 74. Frank den Hollander. Large deviations, volume 14 of Fields Institute Monographs. American Mathematical Society, Providence, RI, 2000. 75. Richard A. Holley und Thomas M. Liggett. Ergodic theorems for weakly interacting infinite systems and the voter model. Ann. Probability, 3(4):643–663, 1975. 76. Barry D. Hughes. Random walks and random environments. Vol. 1. Oxford Science Publications. The Clarendon Press Oxford University Press, New York, 1995. Random walks. 77. Barry D. Hughes. Random walks and random environments. Vol. 2. Oxford Science Publications. The Clarendon Press Oxford University Press, New York, 1996. Random environments. 78. Nobuyuki Ikeda und Shinzo Watanabe. Stochastic differential equations and diffusion processes, volume 24 of North-Holland Mathematical Library. North-Holland Publishing Co., Amsterdam, 2. Auflage, 1989. 79. Albrecht Irle. Finanzmathematik. Teubner Studienb¨ucher Mathematik. B. G. Teubner, Stuttgart, 1998.
Literatur
579
80. J¨urgen Jost. Partielle Differentialgleichungen. Springer, Berlin, 1998. 81. G. S. Joyce. Singular behaviour of the lattice Green function for the d-dimensional hypercubic lattice. J. Phys. A, 36(4):911–921, 2003. 82. Shizuo Kakutani. Examples of ergodic measure preserving transformations which are weakly mising but not strongly mixing. In Recent advances in topological dynamics (Proc. Conf., Yale Univ., New Haven, Conn., 1972; in honor of Gustav Arnold Hedlund), pages 143–149. Lecture Notes in Math., Vol. 318. Springer, Berlin. 83. Olav Kallenberg. Random measures. Akademie-Verlag, Berlin, 4. Auflage, 1986. 84. Olav Kallenberg. Foundations of Modern Probability. Probability and Its Applications. Springer Verlag, New York, Berlin, 2. Auflage, 2002. ˇ Rubinˇste˘ın. On a space of completely additive functions. 85. L. V. Kantoroviˇc und G. S. Vestnik Leningrad. Univ., 13(7):52–59, 1958. 86. Ioannis Karatzas und Steven E. Shreve. Brownian motion and stochastic calculus, volume 113 of Graduate Texts in Mathematics. Springer-Verlag, New York, 2. Auflage, 1991. 87. Ioannis Karatzas und Steven E. Shreve. Methods of mathematical finance, volume 39 of Applications of Mathematics (New York). Springer-Verlag, New York, 1998. 88. Gerhard Keller. Equilibrium states in ergodic theory, volume 42 of London Mathematical Society Student Texts. Cambridge University Press, Cambridge, 1998. 89. Gerhard Keller. Wahrscheinlichkeitstheorie. Vorlesungsskript. Universit¨at Erlangen, 2003. 90. John L. Kelley. General topology. Springer-Verlag, New York, 1975. Nachdruck der Ausgabe von 1955 [Van Nostrand, Toronto, Ont.], Graduate Texts in Mathematics, No. 27. 91. Richard W. Kenyon, James G. Propp und David B. Wilson. Trees and matchings. Electron. J. Combin., 7:Research Paper 25, 34 pp. (electronic), 2000. 92. Harry Kesten. Sums of stationary sequences cannot grow slower than linearly. Proc. Amer. Math. Soc., 49:205–211, 1975. 93. Harry Kesten. The critical probability of bond percolation on the square lattice equals 1 . Comm. Math. Phys., 74(1):41–59, 1980. 2 94. Harry Kesten und Bernt P. Stigum. A limit theorem for multidimensional GaltonWatson processes. Ann. Math. Statist., 37:1211–1223, 1966. ¨ 95. Aleksandr Khintchine. Uber dyadische Br¨uche. Mathematische Zeitschrift, 18:109– 116, 1923. 96. J. F. C. Kingman. Poisson processes, volume 3 of Oxford Studies in Probability. The Clarendon Press Oxford University Press, New York, 1993. Oxford Science Publications. 97. A. N. Kolmogorov. Sulla determinazione empirica di una legge di distibuzione. Giornale Istituto Italiano degli Attuari, 4:83–91, 1933. 98. Ralf Korn und Elke Korn. Optionsbewertung und Portfolio-Optimierung. Friedr. Vieweg & Sohn, Braunschweig, 1999. 99. Ulrich Krengel. Ergodic theorems, volume 6 of de Gruyter Studies in Mathematics. Walter de Gruyter & Co., Berlin, 1985. 100. Ulrich Krengel. Einf¨uhrung in die Wahrscheinlichkeitstheorie und Statistik, volume 59 of Vieweg Studium: Aufbaukurs Mathematik. Friedr. Vieweg & Sohn, Braunschweig, 2003. 101. S. Kullback und R. A. Leibler. On information and sufficiency. Ann. Math. Statistics, 22:79–86, 1951.
580
Literatur
102. Thomas Kurtz, Russell Lyons, Robin Pemantle und Yuval Peres. A conceptual proof of the Kesten-Stigum theorem for multi-type branching processes. In Classical and modern branching processes (Minneapolis, MN, 1994), volume 84 of IMA Vol. Math. Appl., pages 181–185. Springer, New York, 1997. 103. Paul L´evy. Th´eorie de l’Addition des Variables Al´eatoires. Gauthier-Villars, Paris, 1937. 104. Paul L´evy. Processus Stochastiques et Mouvement Brownien. Suivi d’une note de M. Lo`eve. Gauthier-Villars, Paris, 1948. 105. Jarl Waldemar Lindeberg. Eine neue Herleitung des Exponentialgesetzes in der Wahrscheinlichkeitsrechnung. Mathematische Zeitschrift, 15:211–225, 1922. 106. Jarl Waldemar Lindeberg. Sur la loi de Gauss. C.R. Acad. Sci. Paris, 174:1400–1402, 1922. 107. Torgny Lindvall. Convergence of critical Galton-Watson branching processes. J. Appl. Probability, 9:445–450, 1972. 108. Russell Lyons, Robin Pemantle und Yuval Peres. Conceptual proofs of L log L criteria for mean behavior of branching processes. Ann. Probab., 23(3):1125–1138, 1995. 109. Russell Lyons und Yuval Peres. Probability on Trees. 2005. Vorabversion im Internet unter http://mypage.iu.edu/ rdlyons/prbtree/prbtree.html. 110. Neal Madras. Lectures on Monte Carlo methods, volume 16 of Fields Institute Monographs. American Mathematical Society, Providence, RI, 2002. 111. Dimitri E. Menchoff. Sur les s´eries des fonctions orthogonales (premi`ere partie). Fund. Math., 4:92–105, 1923. 112. N. Metropolis, A.W. Rosenbluth, M.N. Rosenbluth, A.H. Teller und E. Teller. Equation of state calculations by fast computing machines. Journal of Chemical Physics, 21:1087–1092, 1953. 113. Paul-A. Meyer. Probability and potentials. Blaisdell Publishing Co. Ginn and Co., Waltham, Mass.-Toronto, Ont.-London, 1966. 114. Ferenc M´oricz und K´aroly Tandori. An improved Menshov-Rademacher theorem. Proc. Amer. Math. Soc., 124(3):877–885, 1996. 115. Rajeev Motwani und Prabhakar Raghavan. Randomized algorithms. Cambridge University Press, Cambridge, 1995. 116. Alfred M¨uller und Dietrich Stoyan. Comparison methods for stochastic models and risks. Wiley Series in Probability and Statistics. John Wiley & Sons Ltd., Chichester, 2002. 117. J. R. Norris. Markov chains. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, Cambridge, 1998. Nachdruck der Originalausgabe von 1997. 118. Raymond E.A.C. Paley, Norbert Wiener und Antoni Zygmund. Note on random functions. Math. Zeit., 38:647–688, 1933. 119. Ronald F. Peierls. On Ising’s model of ferromagnetism. Proc. Cambridge Phil. Soc., 36:477–481, 1936. 120. Valentin V. Petrov. Sums of independent random variables. Springer-Verlag, New York, 1975. Ergebnisse der Mathematik und ihrer Grenzgebiete, Band 82. ´ ´ e de Probabilit´es de 121. Jim Pitman. Combinatorial stochastic processes. In Ecole d’Et´ Saint-Flour 2002, Erscheint in: Lecture Notes in Math. (Im Internet erh¨altlich unter www-stat.berkeley.edu/users/pitman). 122. Jim Pitman. Exchangeable and partially exchangeable random partitions. Probab. Theory Related Fields, 102(2):145–158, 1995.
Literatur
581
123. Jim Pitman und Marc Yor. Bessel processes and infinitely divisible laws. In Stochastic integrals (Proc. Sympos., Univ. Durham, Durham, 1980), volume 851 of Lecture Notes in Math., pages 285–370. Springer, Berlin, 1981. 124. Jim Pitman und Marc Yor. The two-parameter Poisson-Dirichlet distribution derived from a stable subordinator. Ann. Probab., 25(2):855–900, 1997. 125. Jim Pitman und Marc Yor. On the distribution of ranked heights of excursions of a Brownian bridge. Ann. Probab., 29(1):361–384, 2001. ¨ 126. George P´olya. Uber eine Aufgabe der Wahrscheinlichkeitsrechnung betreffend die Irrfahrt im Straßennetz. Math. Ann., 84:139–160, 1921. 127. George P´olya. Sur quelques points de la th´eorie de probabilit´es. Ann. Inst. H. Poincar´e, 1:117–161, 1931. 128. Yu. V. Prohorov. Convergence of random processes and limit theorems in probability theory. Teor. Veroyatnost. i Primenen., 1:177–238, 1956. Russisch mit englischer Zusammenfassung. 129. James Propp und David Wilson. Coupling from the past: a user’s guide. In Microsurveys in discrete probability (Princeton, NJ, 1997), volume 41 of DIMACS Ser. Discrete Math. Theoret. Comput. Sci., pages 181–192. Amer. Math. Soc., Providence, RI, 1998. 130. James Gary Propp und David Bruce Wilson. Exact sampling with coupled Markov chains and applications to statistical mechanics. In Proceedings of the Seventh International Conference on Random Structures and Algorithms (Atlanta, GA, 1995), volume 9, pages 223–252, 1996. 131. James Gary Propp und David Bruce Wilson. How to get a perfectly random sample from a generic Markov chain and generate a random spanning tree of a directed graph. J. Algorithms, 27(2):170–217, 1998. 7th Annual ACM-SIAM Symposium on Discrete Algorithms (Atlanta, GA, 1996). 132. Philip E. Protter. Stochastic integration and differential equations, volume 21 of Applications of Mathematics (New York). Springer-Verlag, Berlin, 2. Auflage, 2004. Stochastic Modelling and Applied Probability. 133. Boto von Querenburg. Mengentheoretische Topologie. Springer-Verlag, Berlin, 1976. Korrigierter Nachdruck der ersten Auflage, Hochschultext. 134. Hans Rademacher. Einige S¨atze u¨ ber Reihen von allgemeinen Orthogonalfunktionen. Math. Ann., 87:112–138, 1922. 135. P´al R´ev´esz. Random walk in random and non-random environments. World Scientific Publishing Co. Pte. Ltd., Hackensack, NJ, second Auflage, 2005. 136. D. Revuz. Markov chains, volume 11 of North-Holland Mathematical Library. NorthHolland Publishing Co., Amsterdam, 2. Auflage, 1984. 137. Daniel Revuz und Marc Yor. Continuous martingales and Brownian motion, volume 293 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, Berlin, 3. Auflage, 1999. 138. R. Tyrrell Rockafellar. Convex analysis. Princeton Mathematical Series, No. 28. Princeton University Press, Princeton, N.J., 1970. 139. L. C. G. Rogers und David Williams. Diffusions, Markov processes, and martingales. Vol. 1: Foundations. Cambridge Mathematical Library. Cambridge University Press, Cambridge, 2000. Nachdruck der zweiten Auflage von 1994. 140. L. C. G. Rogers und David Williams. Diffusions, Markov processes, and martingales. Vol. 2: Itˆo calculus. Cambridge Mathematical Library. Cambridge University Press, Cambridge, 2000. Nachdruck der zweiten Auflage von 1994. 141. Walter Rudin. Analysis. Oldenbourg Verlag, M¨uu¨ nchen, Wien, 1988. 142. Ivan Nicolaevich Sanov. On the probability of large deviations of random magnitudes. Mat. Sb. N. S., 42 (84):11–44, 1957. Russisch.
582
Literatur
143. Ivan Nicolaevich Sanov. On the probability of large deviations of random variables. In Select. Transl. Math. Statist. and Probability, Vol. 1, pages 213–244. Inst. Math. Statist. and Amer. Math. Soc., Providence, R.I., 1961. 144. Tokuzo Shiga und Akinobu Shimizu. Infinite-dimensional stochastic differential equations and their applications. J. Math. Kyoto Univ., 20(3):395–416, 1980. 145. Albert N. Shiryaev. Probability, volume 95 of Graduate Texts in Mathematics. ¨ Springer-Verlag, New York, 2. Auflage, 1996. Ubersetzung der ersten russischen Ausgabe von 1980. 146. N.V. Smirnov. Sur les e´ carts de la courbe de distribution empirique. Matematicheskij Sbornik, Rossijskaya Akademiya Nauk, Moscow, 2:3–16, 1939. Russisch mit franz¨osicher Zusammenfassung. 147. Frank Spitzer. Principles of random walks. Springer-Verlag, New York, 2. Auflage, 1976. Graduate Texts in Mathematics, Vol. 34. 148. Daniel W. Stroock und S. R. Srinivasa Varadhan. Diffusion processes with boundary conditions. Comm. Pure Appl. Math., 24, 1971. 149. Daniel W. Stroock und S. R. Srinivasa Varadhan. Multidimensional diffusion processes, volume 233 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, Berlin, 1979. 150. J. J. Sylvester. Mathematical questions with their solutions. Educational Times, 41:171– 178, 1884. ¨ 151. K´aroly Tandori. Uber die orthogonalen Funktionen. I. Acta Sci. Math. Szeged, 18:57– 130, 1957. ¨ 152. K´aroly Tandori. Uber die Divergenz der Orthogonalreihen. Publ. Math. Debrecen, 8:291–307, 1961. 153. K´aroly Tandori. Bemerkung u¨ ber die paarweise unabh¨angigen zuf¨alligen Gr¨oßen. Acta Math. Hungar., 48(3-4):357–359, 1986. 154. S. R. S. Varadhan. Asymptotic probabilities and differential equations. Comm. Pure Appl. Math., 19:261–286, 1966. 155. G. N. Watson. Three triple integrals. Quart. J. Math., Oxford Ser., 10:266–276, 1939. 156. Dirk Werner. Funktionalanalysis. Springer-Verlag, Berlin, 2000. 157. David Williams. Probability with martingales. Cambridge Mathematical Textbooks. Cambridge University Press, Cambridge, 1991. 158. David Bruce Wilson und James Gary Propp. How to get an exact sample from a generic Markov chain and sample a random spanning tree from a directed graph, both within the cover time. In Proceedings of the Seventh Annual ACM-SIAM Symposium on Discrete Algorithms (Atlanta, GA, 1996), pages 448–457, New York, 1996. ACM. 159. Sewall Wright. Evolution in Mendelian populations. Genetics, 16:97–159, 1931. 160. A. M. Yaglom. Certain limit theorems of the theory of branching random processes. Doklady Akad. Nauk SSSR (N.S.), 56:795–798, 1947. 161. Toshio Yamada und Shinzo Watanabe. On the uniqueness of solutions of stochastic differential equations. J. Math. Kyoto Univ., 11:155–167, 1971. 162. K¯ osaku Yosida. Functional analysis. Classics in Mathematics. Springer-Verlag, Berlin, 1995. Nachdruck der sechsten Auflage von 1980. 163. Ofer Zeitouni. Random walks in random environment. In Lectures on probability theory and statistics, volume 1837 of Lecture Notes in Math., pages 189–312. Springer, Berlin, 2004.
Notation
Indikatorfunktion der Menge A
A
2Ω
Potenzmenge, 1
#A
Kardinalit¨at der Menge A
A
Komplement Ω \ A der Menge A ⊂ Ω, 1
c
A∩B
Schnittmenge
A∪B
Vereinigungsmenge
AB
disjunkte Vereinigungsmenge (eigentlich ist hierin eine Aussage enthalten)
A⊂B
A ist (nicht notwendigerweise echte) Teilmenge von B
A\B
Differenzmenge
AB
symmetrische Differenz zweier Mengen, 29
A×B
kartesisches Produkt von A und B
A
Teilmenge von 2Ω , typischerweise eine σ-Algebra, 1
A
Spur-Mengensystem auf B, 10 B
A⊗A
Produkt der σ-Algebren A und A, 260
B(E)
Borel’sche σ-Algebra von E, 8
Berp
Bernoulliverteilung, 43
βr,s
Beta-Verteilung mit Parametern r und s, 46
bn,p
Binomialverteilung, 44, 289
b− r,p
negative Binomialverteilung, 44, 289
C(E), Cb (E), Cc (E) Raum der stetigen (beschr¨ankten) Funktionen, bzw. mit kompakten Tr¨ager, 236 CqV
Funktionen mit stetiger quadratischer Variation, 467
C
Menge der komplexen Zahlen, 78
Caua
Cauchy Verteilung, 289
584
Notation
Cov[X, Y ]
Kovarianz der Zufallsvariablen X und Y , 98
CPoiν
zusammengesetzte Poisson-Verteilung, 317
δx
Dirac-Verteilung, 12
E[X]
Erwartungswert der Zufallsvariablen X, 97
E[X; A]
=E[X
E[X |F]
bedingter Erwartungswert, 169
expθ
Exponentialverteilung, 45, 289
F = (Ft )t∈I
Filtration, 185
f.s, f.¨u.
fast sicher und fast u¨ berall, 31
G(x, y)
Greeenfunktion einer Markovkette, 351
Γθ,r
Gammaverteilung mit Gr¨oßenparameter θ > 0 und Formparameter r > 0, 46, 289
γp = b− 1,p
geometrische Verteilung mit Parameter p, 44
ggT(M )
gr¨oßter gemeinsamer Teiler aller m ∈ M ⊂ N, 366
H ·X
diskretes stochastisches Integral von H bez¨uglich X, 192
I
Menge der invarianten Verteilungen einer Markovkette, 360
i.i.d.
independent and identically distributed, 55
Im(z)
Imagin¨arteil von z ∈ C, 281
n
λ, λ
A ],
167
Lebesgue-Maß, n-dimensionales, 25
Lip(E)
Raum der Lipschitz-stetigen Funktionen auf E, 237
L ,L
Lebesgue’sche R¨aume p-fach integrierbarer Funktionen, 89, 139, 140
L(X)
Verteilung der Zufallsvariablen X
p
p
M(E), Mf (E), M≤1 , M1 (E) Menge der (endlichen bzw. (Sub-)W-) Maße auf E, 17, 235 Mloc,c
Raum der stetigen lokalen Martingale, 470
μ⊗ν
Produkt der Maße μ und ν, 27, 264
μ∗ν
Faltung der Maße μ und ν, 60, 266
⊗n
μ
n-faches Produktmaß, 264
μ∗n
n-fache Faltungspotenz, 60
μ%ν
μ ist absolutstetig bez¨uglich ν, 151
Notation
585
μ⊥ν
μ ist singul¨ar bez¨uglich ν, 151
μ≈ν
μ und ν sind a¨ quivalent, 151
N, N0
N = {1, 2, 3, . . .}, N0 = N ∪ {0}
Nμ,σ2 M dμ dν
Normalverteilung, 45, 289
Ω
Raum der Elementarereignisse, auf dem P definiert ist
P
generisches Wahrscheinlichkeitsmaß
Radon-Nikodym-Ableitung 152
P[A|B], P[A|F] PX = P ◦ X
−1
bedingte Wahrscheinlichkeiten, 166, 169 Verteilung der Zufallsvariablen X, 42 Poissonverteilung mit Parameter λ ≥ 0, 45, 289
Poiλ n
(n)
p (x, y) = p
¨ (x, y) n-Schritt-Ubergangswahrscheinlichkeiten einer Markovkette, 340
n , PTn PS,T
siehe Seite 467
ϕX
charakteristische Funktion der Zufallsvariablen X, 288
ψX
Erzeugendenfunktion der Zufallsvariablen X, 75
Q
Menge der rationalen Zahlen
R
Menge der reellen Zahlen
R = R ∪ {−∞, +∞} Zweipunktkompaktifizierung der reellen Zahlen Re(z)
Realteil von z ∈ C, 281
sign(x)
=
σ( · )
von · erzeugte σ-Algebra oder Filtration, 6, 34, 185
τxk
Zeit des k-ten Besuches einer Markovkette in x, 349
T (·)
terminale σ-Algebra, 61
UA
uniforme Verteilung auf A, 12, 33, 289
u.i.v. 1
(0,∞) (x)
−
(−∞,0) (x),
Vorzeichen von x ∈ R, 37
unabh¨angig und identisch verteilt, 55 2
V (G), V (G)
Variation und quadratische Variation von G, 466, 467
Var[X]
Varianz der Zufallsvariablen X, 97
X!
quadratischer Variationsprozess von X, 200, 467, 471, 475
f (t) ∼ g(t), t → a
: ⇐⇒
X∼μ
Die Zufallsvariable X hat Verteilung μ, 42
limt→a f (t)/g(t) = 1
x ∨ y, x ∧ y, x+ , x− Maximum, Minimum, Positivteil, Negativteil reeller Zahlen, 37
586
Notation
x,
x
Abgerundetes und Aufgerundetes von x, 36
z
komplex konjugierte Zahl zu z ∈ C, 281
Z
Menge der ganzen Zahlen
D
=
Gleichheit in Verteilung, 42 D
n→∞
−→ , =⇒
Konvergenz der Verteilungen, 243
n→∞
n→∞
n→∞
fdd
fdd
=⇒ ,
−→ Konvergenz der endlichdimensionalen Verteilungen, 453
¨ Glossar englischer Ausdrucke
a.a. = almost all a.e. = almost everywhere a.s. = almost surely array (of random variables) backward martingale bond, edge Brownian motion central limit theorem completion compound Poisson conductivity continuous convolution decompostition density derivative distribution dominated convergence dynamical system expectation (conditional) ergodic theorem event exchangeable extension theorem flow (electric) iff = if and only if i.i.d. = independent and identically distributed increment indistinguishable integer (number) joint distribution large deviation
fast alle fast u¨ berall fast sicher Schema von Zufallsvariablen R¨uckw¨artsmartingal Kante (eines Graphen) Brown’sche Bewegung Zentraler Grenzwertsatz Vervollst¨andigung zusammengesetzt Poisson Leitf¨ahigkeit stetig Faltung Zerlegung Dichte Ableitung Verteilung majorisierte Konvergenz Dynamisches System Erwartungswert (bedingter) Ergodensatz Ereignis austauschbar Fortsetzungssatz, Erweiterungssatz Fluss (elektrischer) dann und nur dann, wenn unabh¨angig und identisch verteilt Zuwachs ununterscheidbar ganze Zahl gemeinsame Verteilung große Abweichung
588
Glossar englischer Ausdr¨ucke
law level set Markov chain (strong) Markov property map marginal (distribution) mean measurable space measure measure preserving mixing modulus (of a number) modulus of continuity null array partition function p.d.f. = probability distribution function p.g.f. = probability generating function phase transition predictable, previsible probability random walk random variable representation semigroup σ-field size-biased (sampling) tight trace transition kernel uniform distribution uniformly integrable urn model (probability) weight vertex w.p. = with probability
Verteilung Niveaumenge Markovkette (starke) Markoveigenschaft Abbildung Randverteilung Mittelwert Messraum Maß maßerhaltend mischend Absolutbetrag (einer Zahl) Stetigkeitsmodul asymptotisch vernachl¨assigbares Schema Zustandssumme Verteilungsfunktion Erzeugendenfunktion Phasen¨ubergang previsibel, vorhersagbar Wahrscheinlichkeit Irrfahrt Zufallsvariable Darstellung Halbgruppe σ-Algebra gr¨oßenverzerrtes Ziehen einer Stichprobe straff Spur ¨ Ubergangskern Gleichverteilung gleichgradig integrierbar Urnenmodell (Wahrscheinlichkeits-)gewicht Punkt/Knoten eines Graphen
Namensregister
Banach, Stefan, 1892 (Krakau) – 1945 (Lemberg, Ukraine), 147 Bayes, Thomas, 1702 (London) – 1761 (Tunbridge Wells, England), 166 Bernoulli, Jakob, 1654 (Basel) – 1705 (Basel), 18 Bienaym´e, Ir´en´ee-Jules, 1796 (Paris) – 1878 (Paris), 100 Blackwell, David, 1919, 103 Bochner, Salomon, 1899 (Krakau) – 1982 (Houston, Texas), 298 Boltzmann, Ludwig, 1844 (Wien) – 1906 (Duino bei Triest), 378 Borel, Emile, 1871 (Saint-Affrique, Frankreich) – 1956 (Paris), 8 Brown, Robert, 1773 (Montrose, Scotland) – 1858 (London), 436 Cantelli, Francesco Paolo, 1875 (Palermo) – 1966 (Rom), 51 Carath´eodory, Constantin, 1873 (Berlin) – 1950 (M¨unchen), 19 Cauchy, Augustin Louis, 1789 (Paris) – 1857 (bei Paris), 101 Ces`aro, Ernesto, 1859 (Neapel) – 1906 (Torre Annunziata, Italien), 62 Chebyshev, Pafnutij Lvovich (Qebyxev, Pafnuti Lvoviq), 1821 (Okatavo, Russland) – 1894 (Sankt Petersburg), 104 Cram´er, Harald, 1893 (Stockholm) – 1985 (Stockholm), 312 Curie, Pierre, 1859 (Paris) – 1906 (Paris), 508 Dieudonn´e, Jean Alexandre 1906 (Lille, Frankreich) – 1992 (Paris), 282
Dirac, Paul Adrien Maurice, 1902 (Bristol) – 1984 (Tallahassee, Florida), 12 Dirichlet, Lejeune, 1805 (D¨uren) – 1859 (G¨ottingen), 391 Doob, Joseph Leo, 1910 (Cincinnati, Ohio) – 2004 (Urbana, Illinois), 199 Dynkin, Eugene, 1924 (Sankt Petersburg), 4 Egorov, Dmitrij Fedorovich (Egorov, Dmitri Fedoroviq), 1869 (Moskau) – 1931 (Kasan), 130 Esseen, Carl-Gustav, 1918 (Link¨oping, Schweden) – 2001 (Uppsala ?), 311 Fatou, Pierre, 1878 (Lorient, Frankreich) – 1929 (Pornichet, Frankreich), 91 Feller, William, 1906 (Zagreb) – 1970 (New York), 306 Fischer, Ernst, 1875 (Wien) – 1954 (K¨oln), 147 Fourier, Jean Baptiste Joseph, 1768 (Auxerre, Frankreich) – 1830 (Paris)., 286 Fr´echet, Maurice Ren´e, 1878 (Maligny, Frankreich) – 1973 (Paris), 147 Fubini, Guido, 1879 (Venedig) – 1943 (New York), 264 Galton, Francis, 1822 (bei Birmingham) – 1911 (Grayshott House, England), 81 Gauß, Carl-Friedrich, 1777 (Braunschweig) – 1855 (G¨ottingen), 45 Gibbs, Josiah Willard, 1839 (New Haven, Connecticut) – 1903 (New Haven, Connecticut), 381 Green, George, 1793 (Nottingham) – 1841 (Nottingham), 351
590
Namensregister
Hahn, Hans, 1879 (Wien) – 1934 (Wien), 156 Helly, Eduard, 1884 (Wien) – 1943 (Chicago), 250 Hesse, Ludwig Otto, 1814 (K¨onigsberg) – 1874 M¨unchen, 144 Hewitt, Edwin, 1920 (Everett, Washington), 228 Hilbert, David, 1862 (K¨onigsberg) – 1943 (G¨ottingen), 147 Hopf, Eberhard, 1902 (Salzburg) – 1983, 418 H¨older, Otto Ludwig, 1859 (Stuttgart) – 1937 (Leipzig), 146 Ionescu-Tulcea, Cassius, 1923, 273 Ising, Ernst, 1900 (K¨oln) – 1988 (Peoria, Illinois), 377 Itˆo, Kiyosi, 1915 (Hokusei-cho, Japan), 449 Jensen, Johan Ludwig, 1859 (Nakskov, D¨anemark) – 1925 (Kopenhagen), 144 Jordan, Camille, 1838 (bei Lyon) – 1922 (Paris), 158 Kesten, Harry, 1931, 70 Khinchin, Aleksandr Jakovlevich (Hinqin, Aleksandr kovleviq) 1894 (Kondrovo, Russland) – 1959 (Moskau), 320 Kirchhoff, Gustav Robert, 1824 (K¨onigsberg) – 1887 (Berlin), 394 Kolmogorov, Andrej Nikolaevich (Kolmogorov, Andre Nikolaeviq), 1903 (Tambow, Russland) – 1987 (Moskau), 63 Laplace, Pierre-Simon, 1749 (Beaumonten-Auge, Normandie) – 1827 (Paris), 137 Lebesgue, Henri L´eon, 1875 (Beauvais, Oise, Frankreich) – 1941 (Paris), 18 Legendre, Adrien-Marie, 1752 (Paris) – 1833 (Paris), 491 Levi, Beppo, 1875 (Turin, Italien) – 1961 (Rosario, Santa Fe, Argentinien), 91 L´evy, Paul Pierre, 1886 (Paris) – 1971 (Paris), 296, 480
Lindeberg, Jarl Waldemar, 1876 – 1932, 305 Lipschitz, Rudolph, 1832 (K¨onigsberg) – 1903 (Bonn), 237 Lusin, Nikolai Nikolaevich (Lusin, Nikola Nikolaeviq), 1883 (Irkutsk, Russland) – 1950 (Moskau), 238 Lyapunov, Aleksandr Mikhajlovich (Lpunov Aleksandr Mihaloviq), 1857 (Jaroslavl, Russland) – 1918 (Odessa), 305 Markov, Andrej Andreevich (Markov, Andre Andreeviq), 1856 (Ryazan, Russland) – 1922 (Sankt Petersburg), 104 Menshov, Dmitrij Evgen’evich (Menxov, Dmitri Evgeneviq), 1892 (Moskau) – 1988 (Moskau), 117 Minkowski, Hermann, 1864 (Alexotas, heute: Kaunas, Litauen) – 1909 (G¨ottingen), 146 Neumann, John von, 1903 (Budapest) – 1957 (Washington D.C.), 152 Nikodym, Otton Marcin, 1889 (Zablotow, Galizien, Ukraine) – 1974 (Utica, New York), 152 Ohm, Georg Simon, 1789 (Erlangen) – 1854 (M¨unchen), 394 Ornstein, Leonard Salomon, 1880 (Nijmegen) – 1941 (Utrecht), 553 Paley, Raymond E.A.C., 1907 (Bournemouth, England) – 1933 (Banff, Alberta), 439 Parseval, Marc-Antoine, 1755 (Rosi`eres-aux-Salines, Frankreich) – 1836 (Paris), 447 Pascal, Blaise, 1623 (Clermont-Ferrand, Frankreich) – 1662 (Paris), 44 Plancherel, Michel, 1885 (Bussy (Fribourg), Schweiz) – 1967 (Z¨urich?), 287 Poisson, Sim´eon Denis, 1781 (Pithiviers, Frankreich) – 1840 (bei Paris), 45 P´olya, George, 1887 (Budapest) – 1985 (Palo Alto), 297
Namensregister
591
Prohorov, Yurij Vasil’evich (Prohorov, ri Vasileviq), 1929, 248
Thomson, William (Lord Kelvin), 1824 (Belfast) – 1907 (Largs, Ayrshire, Schottland), 398
Rademacher, Hans, 1892 (HamburgWandsbek) – 1969 (Haverford, Pennsylvania), 117 Radon, Johann, 1887 (Tetschen, B¨ohmen) – 1956 (Wien), 152 Riemann, Georg Friedrich Bernhard, 1826 (Breselenz, Kreis L¨uchow-Dannenberg) – 1866 (Selasca, Italien), 50 Riesz, Frigyes, 1880 (Gy¨or, Ungarn) – 1956 (Budapest), 147
Uhlenbeck, George Eugene, 1900 (Batavia, heutiges Jakarta) – 1988 (Boulder, Colorado), 553
Saks, Stanislav (Saks, Stanislav), 1897 (Kalish, Russland (heute Polen)) – 1942 (Warschau, von der Gestapo ermordet), 220 Savage, Jimmie Leonard, 1917 (Detroit, Michigan) – 1971 (New Haven, Connecticut), 228 Schwarz, Hermann Amandus, 1843 (Hermsdorf, Schlesien) – 1921 (Berlin), 101 Slutzky, Evgenij Evgen’evich (Slutzky, Evgeni Evgeneviq), 1880 (Novoe, Gouvernement Jaroslavl, Russland) – 1948 (Moskau), 243 Stieltjes, Thomas Jan, 1856 (Zwolle, Overijssel) – 1894 (Toulouse), 26 Stone, Marshall Harvey, 1903 (New York) – 1989 (Madras, Indien), 282
Varadhan, S.R. Srinivasa, 1945 (Madras, Indien), 503 Watson, George Neville, 1886 (Westward Ho, England) – 1965 (Leamington Spa, England), 358 Watson, Henry William, 1827 (bei London) – 1903 (bei Coventry), 81 Weierstraß, Karl, 1815 (Ostenfelde, Westfalen) – 1897 (Berlin), 282 Weiss, Pierre-Ernest, 1865 (Mulhouse, Frankreich) – 1940 (Lyon), 506 Wiener, Norbert, 1894 (Columbia, Missouri) – 1964 (Stockholm), 453 Wintner, Aurel Friedrich, 1903 (Budapest) – 1958 (Baltimore), 486 Wright, Sewall, 1889 (Melrose, Massachusetts) – 1988 (Madison, Wisconsin), 343 Yaglom, Akiva Moiseevich (glom, Akiva Moiseeviq), 1921 (Kharkov), 220 Zygmund, Antoni, 1900 (Warschau) – 1992 (Chicago), 439
Sachregister
0-1 Gesetze – Blumenthal 438 – f¨ur invariante Ereignisse – Hewitt-Savage 228 – Kolmogorov 63 ∅-stetig 15
427
abgeschlossen 8 Abschluss 234 absolutstetig 151 absorbierend 350 adaptiert 185 additiv 11 Algebra 3, 282 Anziehungsbereich einer Verteilung 329 aperiodisch 366 Approximationssatz f¨ur Maße 29 a¨ quivalente Maße 151 a¨ quivalentes Martingalmaß 196 Arbitrage 196 Arkussinus-Gesetz 442 asymptotisch vernachl¨assigbar 305 Aufkreuzung 211 a¨ ußeres Maß 21 austauschbar 221 austauschbare σ-Algebra 223 Auswertungsabbildung 451 Azuma’sche Ungleichung 192 Banachraum 147 bedingte – Erwartung 169 – Unabh¨angigkeit 229 – Verteilung 176 – Wahrscheinlichkeit 166, 169 Benford’sches Gesetz 422 Bernoulli-Maß 29 Bernoulli-Verteilung 43
Bernstein-Chernov Absch¨atzung 106 Bernstein-Polynom 106 Berry-Esseen, Satz von 311 beschr¨ankt in Lp 132 Bessel-Prozess 562 Beta-Verteilung 46, 232, 303, 519 – Momente 104 Bienaym´e-Gleichung 100 Bildmaß 40 bin¨ares Modell 195 Binomialverteilung 44 Black-Scholes Formel 197 Black-Scholes Modell 554 Blackwell-Girshick 103 Blumenthal’sches 0-1 Gesetz 438 Bochner 298 Boltzmann-Verteilung 378, 505 Borel-Cantelli Lemma 51 – bedingte Version 219 Borel-Maß 235 Borel’scher Raum 179 Borel’sche σ-Algebra 8 Borel’sches Paradoxon 182 Box-Muller Methode 60 Brown’sche Bewegung 279, 436 – Existenzsatz 436 – kanonische 453 – L´evy Charakterisierung 541 – Skalierungseigenschaft 437 Brown’sche Br¨ucke 437, 450 Brown’sches Blatt 451 c`adl`ag 444 Call 196 Carath´eodory 19 Cauchy-Schwarz’sche Ungleichung – bedingte 174 Cauchy-Verteilung 46, 289, 547
101
594
Sachregister
Ces`aro-Limes 62 CFW 315 Chapman-Kolmogorov’sche Gleichung 277, 340 charakteristische Funktion 285, 511 – Inversionsformel 286 Chebyshev Polynom 387 Chebyshev’sche Ungleichung 104 China-Restaurant Prozess 524 Cholesky-Faktorisierung 313 Chung-Fuchs, Satz von 357, 424 Claim 196 Continuous Mapping Theorem 245 Cox-Ingersoll-Ross Modell 558 Cox-Ross-Rubinstein’sches Modell 197 Cram´er-Lundberg’sche Ungleichung 207 Cram´er-Transformierte 492 Cram´er-Wold Device 312 Curie-Temperatur 378, 508 Curie-Weiss’sches Gesetz 508 detaillierte Balance 392 Diagonalfolgenargument 250 dicht 234 Dichte 13, 26, 45, 57, 89, 150 Dichtetransformationsformel – mehrdimensional 41 Differentiationslemma 137 Diffusionsprozess 537 Dirac-Maß 12 Dirichlet-Problem 546 – diskretes 391 Dirichlet’sches Prinzip 398 Dirichlet-Verteilung 519 domain of attraction 329 Donsker, Satz von 456 Doob’sche Regularisierung 444 Doob’sche Ungleichung 210 Doob–Zerlegung 199 Dreireihensatz 310 Drift 537 Dualit¨at 567 Dualraum 160 dynamisches System 416 Dynkin-System 4 einfache Irrfahrt 393 Einheitsmasse 12 Einschluss- Ausschlussformel
15
Einschr¨ankung 10 Eintrittszeit 349 elektrischer Fluss 394 Elementarfunktion 39 empirische Verteilung 231 empirische Verteilungsfunktion 111 Entropie 112, 114, 499 – relative 499 Ereignis 17, 42 – invariantes 71 Ergodensatz – Individueller (Birkhoff) 419 – Statistischer (von Neumann) 420 ergodisch 416 Erwartungswert 97 Erzeugendenfunktion 75 Erzeuger 6 erzeugte σ-Algebra 6, 34 Etemadi – Ungleichung von 118 Euler’sche Primzahlformel 50 Explosion 347 Exponentialverteilung 45 Faktorisierungslemma 40 Falle 390 Faltung – Dichten 266 – diskrete Verteilungen 59 – Maße auf Rn 60, 266 Faltungshalbgruppe 280 F¨arbungssatz 517 fast alle 31 fast sicher 31 fast u¨ berall 31 Fatou, Lemma von 91 Feinheit 467 Feller-Eigenschaft 445 – starke 566 Feller-Prozess 446 Feller’sche Halbgruppe 445 Feller’sche Verzweigungsdiffusion 558, 570 Filtration 185 – rechtsstetige 444 – u¨ bliche Bedingungen 444 de Finetti, Satz von 229, 257 Fischer-Riesz, Satz von 147 Fluchtwahrscheinlichkeit 399
463,
Sachregister Fluss 394 Fortsetzungssatz f¨ur Maße 19, 23 Fourier-Inversionsformel 286 freie Energie 506 Frobenius Problem 367 f.s. siehe fast sicher f.¨u. siehe fast u¨ berall Fubini, Satz von 265 – f¨ur Itˆo-Integrale 545 ¨ – f¨ur Ubergangskerne 270 Funktionaler Zentraler Grenzwertsatz
456
Galton-Watson-Prozess 81 – Reskalierung 460 Gambler’s Ruin 205, 385 Gamma-Verteilung 46 – L´evy-Maß 322 – Subordinator 520 Ged¨achtnislosigkeit der Exponentialverteilung 168 GEM-Verteilung 522, 524 gemeinsame Verteilung 56 gemeinsame Verteilungsfunktion 56 Generator 345 geometrische Brown’sche Bewegung 554 geometrische Verteilung 44 Gesetz der großen Zahl – Konvergenzraten 115 – schwaches 104 – starkes 104, 108, 227 gestoppter Prozess 204 Gewichtsfunktion 13 Gibbs-Sampler 381 gitterverteilt 294 gleichgradig gleichm¨aßig stetig 295 gleichgradig integrierbar 130 Gleichverteilung 12, 33 gleitendes Mittel 185, 416 Graph 64 Greenfunktion 351, 391 – Tabelle 359 Gronwall Lemma 555 große Abweichungen 491 gr¨oßenverzerrte Verteilung 256 Haar-Funktionen 448 Hahn’scher Zerlegungssatz Halbring 3 halbstetig von unten 494
156
595
haploid 343 harmonische Funktion 360, 390 harmonisches Maß 546 Hartman-Wintner, Satz von 486 Hauptsatz der Differential- und Integralrechnung 239 heat bath algorithm 381 Hedge 196 Helly, Satz von 250 Helmholtz-Potential 506 Hilbertraum 147 Hilbert-Schmidt Norm 554 Hilbert-Schmidt Operator 271 H¨older’sche Ungleichung 146 H¨older-stetig 430 Hopf 418 hypergeometrische Verteilung 45 identisch verteilt 42 i.i.d. siehe u.i.v. Indikatorfunktion 5 Inhalt 12 Inneres 234 integrierbar 86 Integral 83, 84, 86, 87 – Riemann 93 – stochastisches 449, 450 integrierbar 97 – quadrat 97 – stochastischer Prozess 184 Intensit¨atsmaß 510 invariantes Ereignis 416 Invarianzprinzip von Donsker 457 inverse Temperatur 505 Inversionsformel 286 Irrfahrt 334 – auf einem Graphen 393 – Greenfunktion (Tabelle) 359 – in zuf¨alliger Umgebung 414 – Range 423 – Rekurrenz 353 – Satz von Chung-Fuchs 424 – Satz von P´olya 353 – symmetrische 184 Ising-Modell 377, 382 Iterierter Logarithmus – Brown’sche Bewegung 477 – Hartman-Wintner 486 ItoFormel
596
Sachregister
– Itˆo-Formel – – mehrdimensional 544 Itˆo-Formel 539 – diskrete 202 – pfadweise 539 Itˆo-Integral 531 – Produktregel 544 – Satz von Fubini 545 Jensen’sche Ungleichung Jordan, Satz von 158
144, 172
kanonische Brown’sche Bewegung 453 kanonischer Prozess 261 kanonisches Maß 320, 323, 516 Kantenperkolation 65, 389 Kaufoption 196 Kelvin siehe Thomson Kesten-Stigum, Satz von 220 Khinchin’sches Gesetz vom iterierten Logarithmus 486 Kirchhoff’sches Gesetz 394 Kolmogorov-Chentsov, Satz von 432 Kolmogorov’sche Ungleichung 116 Kolmogorov’scher Dreireihensatz 310 Kolmogorov’scher Erweiterungssatz 275 Kolmogorov’sches 0-1 Gesetz 63 Kolmogorov’sches Kriterium f¨ur schwache Relativkompaktheit 455 Kolmogorov-Smirnov Test 459 komplementstabil 1 konkave Funktion 142 Kontraktionsprinzip 502 Konvergenz – dem Maße nach 126 – fast sichere 126 – fast u¨ berall 126 – im Mittel 127 – im p-ten Mittel 140 – in Verteilung 243 – majorisierte 135 – schnelle 128 – schwache 78, 240 – stochastische 126 – vage 240 – von Verteilungsfunktionen 244 konvexe Funktion 142 konvexe Menge 141 Koordinatenabbildung 260
Kopplung 67, 369 Kopplung aus der Vergangenheit 383 korreliert 98 Kovarianz 98 Kovarianzfunktion 437 Kullback-Leibler Information 499 Ladungsverteilung 156 λ-System siehe Dynkin-System langsam variierend 329 Laplace-Operator 543 Laplace-Raum 12 Laplace-Transformation 137, 284, 461, 511 Large Deviations siehe Prinzip großer Abweichungen LDP siehe Prinzip großer Abweichungen Lebesgue-Borel-Maß siehe LebesgueMaß Lebesgue-Integral 89 Lebesgue-Maß 25, 32 Lebesgue’scher Konvergenzsatz 135 Lebesgue’scher Zerlegungssatz 152 Lebesgue-Stieltjes Integral 466 Lebesgue-Stieltjes-Maß 26 Legendre-Transformierte 491 Leistung (elektrisches Netzwerk) 397 Leitf¨ahigkeit 393 L´evy-Abstand 246 L´evy-Khinchin Formel 320, 323 – f¨ur zuf¨allige Maße 517 L´evy-Maß 320, 323 – allgemeine stabile Verteilung 328 – Cauchy-Verteilung 326 – Gamma-Verteilung 322 – symmetrische stabile Verteilung 327 L´evy’scher Stetigkeitsmodul 480 L´evy’scher Stetigkeitssatz 296 Limes inferior 5 Lindeberg-Bedingung 305 Lipschitz-stetig 237 logarithmische momentenerzeugende Funktion 491 Log-Normalverteilung 284 lokal beschr¨ankt 193 lokal endlich 235 lokales Martingal 470 lokalisierende Folge 470 lokalkompakt 234
Sachregister Lokalzeit 201 Lp –beschr¨ankt 132 Lusin 238 LV 156 Lyapunov-Bedingung
305
Markoveigenschaft – elementare 333 – schwache 334 – starke 338 Markovkern 175 Markovkette 334 – aperiodische 366 – diskrete 340 – invariante Verteilung 360 – invariantes Maß 360 – irreduzibel 352 – Konvergenzgeschwindigkeit 383 – Konvergenzsatz 375 – Kopplung 370 – Monte Carlo Methode 376 – nullrekurrent 350 – Periode eines Punktes 366 – positiv rekurrent 350 – rekurrent 350 – reversible 392 – schwach irreduzibel 352 – transient 350 – unabh¨angiges Verschmelzen 371 Markovprozess 334 Markov’sche Halbgruppe 277 Markov’sche Ungleichung 104 – bedingte 174 Martingal 188 – Konvergenzsatz (L1 ) 213 – Konvergenzsatz (Lp ) 214 – Konvergenzsatz (f.s.) 212 – Konvergenzsatz (r¨uckw¨arts) 226 – Konvergenzs¨atze (RCLL) 446 – lokales 470 – quadratische Variation 200 – R¨uckw¨arts- 226 Martingaldarstellungssatz 542 Martingalproblem 563 – diskretes 344 – gut gestelltes 564 Martingaltransformierte 192 Maß 12 – a¨ ußeres 21
– Bernoulli 29 – Borel 235 – Einschr¨ankung 32 – harmonisches 546 – invariantes 360 – Lebesgue 25 – lokal endliches 235 – Produkt- 29, 276 – Radon 235 – regul¨ares 235 – σ-endliches 12 – signiertes 156 – station¨ares 360 – Wahrscheinlichkeits- 12 Maßraum 17 maßtreue Abbildung 416 Maximal-Ergodenlemma 418 MCMC 376 mean field 507 mehrstufiges Binomialmodell 197 Mellin-Transformierte 287 messbar – Abbildung 33 – Borel 8 – Lebesgue 32 – μ– 22 – Menge 17 Messraum 17 – Isomorphie 179 Metrik – auf C([0, ∞)) 451 – L´evy 246 – Prohorov 240 – stochastische Konvergenz 127 – vollst¨andige 234 – Wasserstein 370 metrisierbar 234 Metropolis-Algorithmus 377 Minkowski’sche Ungleichung 146 mischend 426 Modifikation 429 Momente 97 – absolute 97 Momentenproblem 301 monoton 11 Monotonieprinzip von Rayleigh 396 Monte Carlo Simulation 111 Moran-Gamma-Subordinator 520
597
598
Sachregister
Moran-Modell 343 de Morgan’sche Regeln moving average 416
2
negative Binomialverteilung 44, 77 Niveaumenge 494 Normalverteilung 45 – mehrdimensionale 45, 312 Nullmenge 31 nullrekurrent 350 offen 8 Ohm’sches Gesetz 394 Optional Sampling Theorem 203, 208 – stetige Zeit 435 Optional Stopping Theorem 204 – stetige Zeit 435 Ornstein-Uhlenbeck Prozess 553 orthogonale Polynome 388 orthogonales Komplement 148 Parseval’sche Gleichung 447 partiell stetig 296 Partitionsfunktion 378, 505 Pascal-Verteilung 44 perfekte Simulation 382 Periode 366 Perkolation 64, 389 Petersburger Spiel 92, 185, 193 Pfad 431 pfadweise eindeutig 562 Phasen¨ubergang 378, 508 π-System siehe schnittstabil Plancherel’sche Gleichung 287 Poisson-Approximation 79 Poisson-Dirichlet-Verteilung 521, 524 Poissonprozess 120, 335 Poisson’sche Summationsformel 443 Poisson’scher Punktprozess 511 Poisson-Verteilung 45 – zusammengesetzte 317 polare Menge 550 Polarisationsformel 468 polnischer Raum 180, 235 P´olya, Satz von 297, 353 P´olya’sches Urnenmodell 232, 276, 519 – verallgemeinertes 347, 349 Portemanteau-Theorem 242 positiv rekurrent 350
positiv semidefinit 298 Pr¨afixcode 113 Pr¨amaß 12 previsibel 185, 530 Prinzip großer Abweichungen 495 Produktmaß 27, 29, 264, 274, 276 produktmessbar 530 Produktraum 260 Produkt-σ-Algebra 260 Produkttopologie 260 progressiv messbar 530 Prohorov 248 Prohorov-Metrik 240, 375 projektive Familie 274 projektiver Limes 275 Propp-Wilson Algorithmus 382 Punkte trennend 282 Punktperkolation 65 Q-Matrix 345 Quader 9 quadratintegrierbar 97 quadratische Variation 468 quadratischer Kovariationsprozess 475 quadratischer Variationsprozess 200, 471 Quellenkodierungssatz 114 Radon-Maß 235 Radon-Nikodym-Ableitung 152 Rand 234 random walk in random environment 414 Ratenfunktion 490, 495 Rayleigh’sches Monotonieprinzip 396 RCLL 444 Rechteckzylinder 262 Reflexionsprinzip 339 – Brown’sche Bewegung 442 regul¨are Version der bedingten Verteilung 176 Regularit¨at von Maßen 31, 235 Rejection Sampling 182 rekurrent 350 relativ kompakt 234 replizierbar 196 reversibel 377, 392 Riemann-Integral 93 Riemann’sche Zetafunktion 50 Ring 3 risikoneutral 196
Sachregister R¨uckw¨artsmartingal
226
Satz – Approximation von Maßen 29 – Arzel`a-Ascoli 454 – Beppo Levi 91 – Berry-Esseen 311 – Bochner 298 – Borel-Cantelli Lemma 51 – – bedingte Version 219 – Carath´eodory 19, 23 – Choquet-Deny 374 – Chung-Fuchs 357, 424 – Continuous Mapping Theorem 245 – Cram´er 491, 497 – Donsker 457 – Dreireihen 310 – Egorov 130 – Etemadi 108 – Fatou’sches Lemma 91 – de Finetti 229, 257 – Fischer-Riesz 147 – Fortsetzung zu Maßen 19, 23 – Fubini 265 – Fubini f¨ur Itˆo-Integrale 545 ¨ – Fubini f¨ur Ubergangskerne 270 – Glivenko-Cantelli 111 – große Abweichungen 491 – Hahn’scher Zerlegungssatz 156 – Hartman-Wintner 486 – Hauptsatz der Differential- und Integralrechnung 239 – Helly 250 – Hewitt-Savage 228 – Ionescu-Tulcea 273 – iterierter Logarithmus 478, 486 – Jordan’scher Zerlegungssatz 158 – Kantorovich-Rubinstein 370 – Kesten-Stigum 220 – Kolmogorov-Chentsov 432 – Kolmogorov’sche Ungleichung 116 – Kolmogorov’scher Dreireihensatz 310 – Kolmogorov’scher Erweiterungssatz 275 – Kolmogorov’sches Kriterium f¨ur schwache Relativkompaktheit 455 – Lebesgue’scher Zerlegungssatz 152 – L´evy-Khinchin 320, 323 – Lindeberg-Feller 306
– – – – – – – – – – – – – – – – – – –
599
Lusin 238 majorisierte Konvergenz 135 Martingalsdarstellung 542 monotone Konvergenz 91 Optional Sampling 203, 208 Optional Sampling, stetige Zeit 435 Optional Stopping 204 Optional Stopping, stetige Zeit 435 Paley-Wiener-Zygmund 439 π–λ 7 Poisson-Approximation 79 P´olya 297, 353 Portemanteau 242 Prohorov 248 Quellenkodierungssatz 114 Rademacher–Menshov 117 Radon-Nikodym 152, 217 Rayleigh’sches Monotonieprinzip 396 regul¨are bedingte Verteilungen 176, 180 – Sanov 500 – Shannon 112 – Skorohod’sche Einbettung 480 – Slutzky 243 – Stetigkeitssatz von L´evy 296 – Stone-Weierstraß 282 – Stroock-Varadhan 566 – Thomson’sches Prinzip 398 – Varadhan’sches Lemma 503 – Yamada-Watanabe 558 Schauderfunktionen 448 Schema von Zufallsvariablen 305 schnittstabil 1 schwache Konvergenz 240 schwache L¨osung 560 schwache Topologie 240 SDGL siehe stochastische Differentialgleichung Semiring 3 separabel 234 Shannon 112 Shift 417 σ-additiv 11 σ-Algebra 2 – austauschbare 223 – der τ -Vergangenheit 187 – invariante 416 – Produkt- 260
600
Sachregister
– terminale 61, 224 σ-kompakt 234 σ-Ring 3 σ-subadditiv 12 signiertes Maß 156 singul¨ar 151 Skalarprodukt 147 Skorohod’scher Einbettungssatz 480 Slutzky, Satz von 243 Spannung 394 Spektrall¨ucke 384 Spiegelungsprinzip 339 Spielstrategie 193 Spin 377 Spur 10 stabile Verteilung 298, 327 – im weiteren Sinne 328 Standardabweichung 97 starke L¨osung 552 starke L¨osung 552 starke Markoveigenschaft 338 station¨ar 415 stetig von oben/ unten 15 Stetigkeitslemma 136 Stetigkeitsmodul, L´evy’scher 480 Stetigkeitssatz, L´evy’scher 296 Stirling’sche Formel 301, 491 stochastisch gr¨oßer 369 Stochastische Differentialgleichung – pfadweise Eindeutigkeit 562 – schwache L¨osung 560 – starke L¨osung 552 – starke L¨osung unter LipschitzBedingungen 555 stochastische Differentialgleichung 551 stochastische Kerne – Produkt 268 stochastische Matrix 341 stochastische Ordnung 369 stochastischer Kern 175 – Halbgruppe 277 – konsistente Familie 276 – Verkettung 269 stochastischer Prozess 183 – adaptiert 185 – Dualit¨at 567 – Explosion 347 – Galton-Watson 81, 219
– Gauß’scher 184, 437 – gestoppter 204 – integrierbarer 184 – Markoveigenschaft 333 – Modifikation 429 – Pfad 431 – Poisson 335 – previsibel 530 – previsibler 185 – produktmessbar 530 – progressiv messbar 530 – starke Markoveigenschaft 338 – station¨arer 184 – station¨are Zuw¨achse 184 – unabh¨angige Zuw¨achse 184 – ununterscheidbar 429 – Version 429 – vorhersagbar 530 – vorhersagbarer 185 stochastisches Integral 449, 450 – diskretes 192 Stone-Weierstraß, Satz von 282 Stoppzeit 186 straff 248 Stratonovich-Integral 545 Streuung 97 Stromst¨arke 394 Student’sche t-Verteilung 316 Sub-Wahrscheinlichkeitsmaße 236 subadditiv 11 subharmonisch 360 Submartingal 188 Subordinator 516 Supermartingal 188 symmetrische Differenz 29 symmetrische einfache Irrfahrt 184 tail σ-field siehe terminale σ-Algebra terminale σ-Algebra 61, 224 Thomson’sches Prinzip 398 Topologie 8 – schwache 240 – vage 240 topologischer Raum 8 total beschr¨ankt 235 totale Wahrscheinlichkeit 166 totalstetig 154 Totalvariationsnorm 158 Transformationsformel 41
Sachregister transient 350 translationsinvariant 342 trennende Familie 237 Tschebyscheff siehe Chebyshev Turmeigenschaft 170 t-Verteilung 316 ¨ Ubergangskern 175 ¨ Ubergangsmatrix 340 ¨ Ubergangswahrscheinlichkeiten 334 u¨ bliche Bedingungen 444 u.i.v. 55 unabh¨angige Inkremente siehe unabh¨angige Zuw¨achse unabh¨angige Kopie 369 unabh¨angige Zuw¨achse 511 Unabh¨angigkeit – bedingte 229 – von Ereignissen 49 – von Mengensystemen 53 – von Zufallsvariablen 55 unbegrenzt teilbar 315 – zuf¨alliges Maß 516 Ungleichung – Azuma 192 – Bernstein-Chernov 106 – Cauchy-Schwarz 101 – Chebyshev 104 – Doob 210 – Etemadi 118 – H¨older 146 – Jensen 144 – Kolmogorov 116 – Markov siehe Chebyshev – Minkowski 146 – Young 146 uniforme Verteilung 33 unkorreliert 98 Unstetigkeitsstellen 11 ununterscheidbar 429 vage Konvergenz 240 vage Topologie 240 Varadhan’sches Lemma 503 Varianz 97 Variation 466 – p 468 – quadratische 468 Verkettung von Kernen 269
601
Version 429 Verteilung 42 – Anziehungsbereich 329 – Bernoulli 43 – Beta 46, 232, 303, 519 – binomial 44 – Boltzmann 378 – Cauchy 46, 289, 547 – compound Poisson 317 – Exponential- 45 – Gamma 46, 303 – GEM 522, 524 – geometrische 44 – hypergeometrische 45 – negativ binomial 44, 77 – Normal 45 – Pascal 44, 77 – Poisson 45 – Poisson-Dirichlet 519, 521, 524 – stabile 327 – t- 316 – uniforme 12, 33 – zusammengesetzt Poisson 317 – zweiseitig exponential 289 Verteilungsfunktion 21, 27 – einer Zufallsvariablen 42 – empirische 111 Vervollst¨andigung 32 Verwerfungsmethode 182 Verzweigungsprozess 81, 219 Vitali-Menge 9 vollst¨andig 32, 234 vorhersagbar 185, 530 voter model siehe W¨ahlermodell Wahrscheinlichkeitsmaß 12 Wahrscheinlichkeitsraum 17 Wahrscheinlichkeitsvektor 13 Wald’sche Identit¨at 99 Wasserstein Metrik 370 Watson Integral 358 Weierstraß’scher Approximationssatz 106 Weiss’scher Ferromagnet 506 Widerstand 393 Wiener-Prozess 453 W-Maß siehe Wahrscheinlichkeitsmaß Wright’sches Evolutionsmodell 343 Wright-Fisher Diffusion 568 – wechselwirkende 572
602
Sachregister
W¨ahlermodell
216
Young’sche Ungleichung
146
Zentraler Grenzwertsatz 304 – Berry-Esseen 311 – Lindeberg-Feller 306 – mehrdimensional 313 zentriert 97
Zerlegungsfolge, zul¨assige 467 zuf¨alliges Maß 510 Zufallsvariable 42 zul¨assige Zerlegungsfolge 467 zusammengesetzte Poissonverteilung Zustandssumme 378, 505 Zweistufenexperiment 259 Zylindermenge 18, 262 Z¨ahlmaß 13
317